极品虎白女一线天在线看,伊人成人社区,久久99精品久久久久

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

PatchDFF：一種基于雙特征融合的安全補丁識別方法

《Big Data Research》：PatchDFF: A security patch identification method based on dual feature fusion

【字體：大中小】 時間：2026年03月02日 來源：Big Data Research 4.2

編輯推薦：

　　軟件漏洞利用威脅系統安全，及時修復需精準識別安全補丁。本文提出PatchDFF方法，通過構建修復前后程序依賴圖（PDG）的子圖并輸入多圖注意力網絡（MGAT）提取結構特征，結合BERT嵌入與CNN-Transformer混合編碼器（CTE）提取描述語義特征，最終融合結構特征與語義特征提升識別準確率（80.93%）和F1分數（77.04%）。

Jiadong Ren|Chunjiao Bao|Shuailin Yang|Jiazheng Li|Chenghao Zhi

中國河北省秦皇島市燕山大學信息科學與工程學院

摘要

軟件漏洞一旦被攻擊者利用，就會對軟件安全構成嚴重威脅。及時應用安全補丁進行修復有助于提高軟件的穩定性。目前，許多現有的安全補丁識別方法主要關注差異代碼（diff code），而沒有充分考慮補丁代碼的結構及其描述。為了解決這個問題，我們提出了一種基于雙重特征融合的安全補丁識別方法，稱為PatchDFF。該方法在應用補丁前后生成代碼的程序依賴圖（Program Dependency Graph, PDG），然后對其進行切片和合并以獲取補丁的圖結構，并將其輸入到多圖注意力網絡（Multi-Graph Attention Network, MGAT）中以提取補丁的結構特征。該模塊對各種PDG子圖進行多層次特征提取，以最大限度地保留圖結構特征。接下來，將描述信息嵌入并輸入到卷積變換器編碼器（Convolutional Transformer Encoder, CTE）中以提取語義特征。CTE利用卷積神經網絡（Convolutional Neural Networks, CNN）和變換器編碼器從補丁描述中提取更全面的語義特征。最后，將結構特征和語義特征融合起來，以增強安全補丁識別的效果。為了評估PatchDFF的有效性，我們使用公共安全補丁數據集PatchDB進行了實驗。實驗結果表明，PatchDFF在準確率（Accuracy）、精確度（Precision）、召回率（Recall）和F1分數（F1 score）方面都有所提升，準確率為80.93%，精確度為77.85%，召回率為76.25%，F1分數為77.04%。這一結果證明了PatchDFF在安全補丁識別中的有效性。

引言

隨著信息技術的快速發展，開源軟件（OSS）的全球采用引發了人們對軟件系統安全性的日益關注。開源軟件的快速發展和廣泛采用推動了技術創新，但也引入了潛在的安全漏洞，因為開源組件越來越多地被集成到商業和免費軟件項目中。然而，如果出現漏洞，這些組件可能會影響全球數百萬用戶。安全補丁旨在修復漏洞，防止攻擊者利用，從而降低安全風險。相比之下，非安全補丁主要關注修復功能問題或提高性能，而不解決安全問題[1]。根據Common Vulnerabilities and Exposures (CVE)和國家漏洞數據庫（National Vulnerability Database, NVD）的數據，2024年公開報告的軟件漏洞總數超過了40,000個，這凸顯了有效管理安全補丁的緊迫性[2][3]。這一數字持續上升，突顯了管理和應用安全補丁的關鍵重要性。補丁發布是修復軟件漏洞的有效方法，但由于補丁數量龐大、管理流程復雜以及發布內容延遲，許多潛在漏洞未能得到及時修復[4]。這增加了網絡攻擊的風險。因此，及時應用安全補丁以修復漏洞對于確保軟件安全至關重要。立即部署旨在優化軟件性能或添加新功能的非安全補丁可能會因臨時停機而導致不可預見的損失。因此，應根據具體情況來決定是否部署此類補丁。因此，在發布的更新中識別安全補丁具有實際意義。

早期的安全補丁識別方法依賴于研究人員制定的規則，通過分析代碼差異和描述來識別補丁[5][6]。盡管這些方法在某種程度上可以識別補丁，但由于它們嚴重依賴手動特征設計和規則，因此適應性較差。它們難以處理復雜的漏洞和未知類型的補丁，這使得有效應對新的攻擊方法或漏洞類型變得具有挑戰性。近年來，深度學習在各個領域取得了顯著成就[7][8][9]，研究人員將其應用于安全補丁識別領域[10][11]。通過分析差異代碼和補丁描述，研究人員使用深度學習模型自動識別補丁。例如，一種基于CNN和長短期記憶網絡（Long Short-Term Memory Networks, LSTM）的方法通過處理差異代碼和描述來識別安全補丁，表現良好。然而，這些方法往往忽略了補丁源代碼的整體結構，并過度依賴描述和代碼差異信息。結果，它們無法全面分析補丁源代碼的結構，從而限制了安全補丁識別的準確性。在補丁識別中觀察到的適應性問題與網絡安全領域更廣泛的挑戰相類似。正如Bin Shibghatullah等人[12]所指出的，現代網絡攻擊策略發展迅速，不斷挑戰入侵檢測和防御機制的適應性。同樣，傳統的補丁識別模型往往難以泛化到新的漏洞或不熟悉的補丁模式。為了解決這一適應性問題，需要結合結構特征和語義特征，以提高模型在動態安全環境中的理解和響應能力。

這些局限性揭示了當前安全補丁識別研究中的一個關鍵差距：缺乏一種能夠同時理解源代碼的結構邏輯和提交描述的語義意圖的統一方法。基于差異的或順序模型主要關注表面級別的文本變化，無法捕捉程序內部的深層上下文依賴關系。為了解決這些問題，我們提出了一種基于雙重特征融合的安全補丁識別方法，該方法結合了補丁源代碼圖的結構特征和描述的語義特征來識別安全補丁。對于補丁源代碼，我們在應用補丁前后生成PDG[13]，然后對其進行切片和合并，輸入到MGAT中以提取補丁的結構特征。該模塊通過處理具有不同邊類型的PDG子圖來提取更全面的補丁結構特征。對于描述，我們首先進行數據清洗，然后使用BERT[14]進行嵌入，最后將處理后的數據輸入到CTE中以提取描述的語義特征。該模塊通過結合CNN和Transformer編碼器的優勢，有效捕獲描述中的復雜語義特征。CNN特別擅長提取局部特征，而Transformer編碼器[15]在建模長距離依賴關系方面表現出色，因此與CNN高度互補。最后，將補丁源代碼圖的結構特征和描述的語義特征融合起來進行安全補丁識別。我們在PatchDB[1]的數據上進行了實驗驗證，以評估PatchDFF的性能。結果表明，該方法優于其他先進的安全補丁識別模型，準確率為80.93%，精確度為77.85%，召回率為76.25%，F1分數為77.04%。

本文的主要貢獻如下：

1.

我們設計了MGAT，它通過切片和合并應用補丁前后的代碼PDG來生成不同的子圖，并提取這些子圖的詳細特征，從而最大限度地保留了補丁代碼的圖結構特征。

2.

我們設計了CTE，從補丁描述中學習高質量的語義表示。通過結合基于CNN的局部模式提取和基于Transformer的全局上下文建模，CTE產生的補丁描述的語義表示比傳統架構更具表現力。

3.

我們提出了一種雙重特征融合方法用于安全補丁識別，該方法通過融合補丁代碼圖的結構特征和描述的語義特征來識別補丁。

4.

我們在PatchDB數據集上進行了廣泛的實驗，結果表明PatchDFF在準確率、精確度、召回率和F1分數方面顯著優于代表性的先進基線，證明了其在實際安全補丁識別中的有效性。

方法

本節介紹了如何構建PatchDFF進行安全補丁識別。

實驗結果與分析

為了驗證PatchDFF的有效性，本節探討了以下研究問題：

RQ1：PatchDFF在安全補丁識別中的性能如何？

RQ2：不同類型的特征如何影響安全補丁識別的性能？

RQ3：特征提取方法的選擇如何影響安全補丁識別的性能？

RQ4：特征連接方法如何影響安全補丁識別的性能？

RQ5：如何

實際部署和可擴展性分析

PatchDFF可以集成到CI/CD管道中，作為自動化的預提交或構建階段的安全模塊。在提交補丁時，PatchDFF會自動評估安全相關性，并提供風險評分以支持代碼審查。通過輕量級API或容器的部署只需要最小的工作流程更改。從計算角度來看，PatchDFF顯示出很強的可擴展性。由于PatchDB沒有涵蓋足夠的時間段進行評估，因此沒有包括詳細的時間分析

結論

我們提出了一種雙重特征融合方法用于安全補丁識別，該方法結合了補丁代碼的結構特征和描述的語義特征來提高安全補丁識別的性能。首先，生成應用補丁前后源代碼的PDG。接下來，我們對PDG進行切片和合并，以獲得具有不同邊類型的PDG子圖，并將它們輸入到MGAT中以提取結構特征。然后，使用CTE提取

CRediT作者貢獻聲明

Jiadong Ren：撰寫——原始草案、方法論、資金獲取、概念化。Chunjiao Bao：可視化、軟件、數據整理。Shuailin Yang：調查。Jiazheng Li：撰寫——審閱與編輯、監督、方法論。Chenghao Zhi：驗證。

利益沖突聲明

作者聲明他們沒有已知的財務利益或個人關系可能影響本文報告的工作。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號

摘要

引言

相關研究

相關工作

方法