《Computer Networks》:APTREC: APT Tactic/Technique Recognition Based on Large Language Model
編輯推薦:
APT戰術識別框架基于大語言模型,通過構建對齊MITRE ATT&CK框架的戰術子圖數據集和兩階段推理架構,提升威脅識別精度(F1+13%)與可解釋性,解決傳統方法規則依賴性強、模型泛化能力差的問題。
楊龍靜|葉愛勇|劉元煌|盧文婷|黃創
福建師范大學計算機與網絡安全學院,福州,350000,中國
摘要
高級持續性威脅(APT)的快速演變對網絡安全構成了嚴重挑戰。與大多數當前專注于檢測單一攻擊事件的研究不同,理解攻擊者在組織內部實施APT活動時使用的戰術和技術(例如MITRE ATT&CK框架)對于提高安全操作至關重要。在現有的APT戰術/技術映射方法中,基于規則的方法嚴重依賴專家知識,導致戰術分類粒度粗泛且規則具有很強的主觀性,難以有效識別細粒度技術;另一方面,傳統的機器學習方法由于上下文表示能力有限,導致識別率低且可解釋性不足。為了解決上述問題,我們提出了APTREC,這是首次嘗試利用大型語言模型(LLM)從子圖中識別APT戰術/技術的方法。為了解決數據稀疏問題,APTREC構建了一個與MITRE ATT&CK框架對齊的戰術對齊子圖數據集。為了提高精度,APTREC采用了兩階段推理架構。技術識別模塊解析攻擊上下文的語義特征,而戰術推理模塊過濾最優戰術。實驗結果表明,與現有的代表性方法相比,APTREC在APT戰術識別方面實現了13%的F1分數提升和9%的召回率增加,并且還提供了強大的可解釋性。
引言
高級持續性威脅(APT)攻擊已成為最復雜的網絡安全挑戰之一,通常由資源豐富的國家行為體或有組織的網絡犯罪集團發起,旨在竊取敏感數據、破壞關鍵基礎設施或實現戰略目標。APT攻擊的特點是隱蔽性、針對性和持久性,它們通過多階段滲透、社會工程學和零日漏洞維持長期網絡訪問——往往在數月或數年內未被發現——同時逐步提升權限并提取有價值的信息。
有效的APT檢測不僅需要識別異常行為模式,更重要的是,還需要精確地歸因于戰術、技術和程序(TTP)[1]。這種TTP級別的歸因分析是威脅狩獵的關鍵基礎,有助于安全團隊進行系統調查和相關性分析。盡管MITRE ATT&CK框架為網絡攻擊行為提供了標準化的知識庫[2],但由于網絡安全從業者之間的專業知識和分析方法存在差異,仍存在不一致性。不同的組織、研究機構和政府機構往往根據獨立分析為同一APT團體或活動分配不同的標簽或名稱。這種缺乏標準化命名法的現象阻礙了威脅情報的整合和相關性分析,最終延遲了事件響應工作。因此,迫切需要建立一個基于框架的統一分類法,以系統地增強對APT威脅的理解、分析和緩解。
現有的戰術映射方法主要分為兩類:(1)基于規則的方法,如AptShield [3],利用ATT&CK框架構建規則引擎,通過標簽傳播和聚合實現戰術識別。雖然在這些特定場景中有效,但這些方法存在固有的局限性:規則設計嚴重依賴專家知識,引入了可能導致戰略偏見的主體性模糊性。此外,APT攻擊的動態演變需要不斷更新規則,導致泛化能力較差。(2)基于機器學習的方法,如TREC [4],依靠數據特征進行自學,這減少了人工干預,但也面臨局限性:APT樣本的稀缺導致訓練數據不足,傳統模型難以完全捕捉復雜的攻擊特征且缺乏可解釋性。
隨著由LLM驅動的識別智能的突破,開發自動化和智能的網絡安全工具變得可行,從而增強了應對復雜網絡威脅的能力。目前,多項研究發現展示了LLM在網絡威脅分析中的實際應用。例如,LLM可以從與網絡安全相關的文本信息中提取有效的威脅情報[5],并自動將非結構化日志映射到結構化的攻擊鏈[6]。此外,當與網絡安全知識圖結合使用時,LLM可以生成具有戰術意圖推斷能力的威脅情報[7]。Moskal等人[8]探索了ChatGPT在協助或自動化威脅行為響應決策方面的潛力。SHIELD [9]可以從實時日志流中檢測APT攻擊,并根據系統來源圖和LLM上下文分析生成可解釋的警報,而本文提出的APTREC框架則專注于在戰術和技術層面細粒度地映射已識別的惡意行為,強調標準化和結構化的攻擊歸因分析。盡管取得了這些進展,但在APT戰術/技術識別中應用LLM仍面臨以下關鍵挑戰:
•挑戰1:缺乏可靠且語義豐富的戰術子圖數據集。APT攻擊具有低頻率、高隱蔽性和復雜的多階段滲透等特點[10]、[11]、[12],導致可收集樣本的規模有限。現有的公開數據集通常無法充分覆蓋APT攻擊實例[13],并且不提供APT戰術/技術標簽。相反,它們只提供圖級二進制標簽(例如StreamSpot [14])或節點級二進制標簽(例如DARPA TC [15]、ATLAS [16]),以指示源圖或系統實體是否惡意,這使得支持針對APT戰術/技術識別模型的訓練和評估需求變得困難。因此,LLM在訓練階段難以接觸到多樣化的攻擊場景和演變模式,從而削弱了它們泛化和分析新攻擊技術和戰術意圖的能力。構建具有多維特征覆蓋的高質量數據集至關重要,以確保LLM能夠充分學習新興的攻擊模式和APT的演變規律,從而增強其對復雜APT攻擊戰術/技術的歸因能力。
•挑戰2:LLM的幻覺。它們的訓練數據通常缺乏深入的網絡安全知識,影響其對安全相關問題(例如本工作中的APT戰術/技術識別)的響應準確性。我們的經驗表明,當LLM(如GPT-4)被提示直接從戰術攻擊圖中提取相應戰術/技術時,經常返回錯誤的類別。精確區分戰術和技術取決于領域知識的深度整合和明確的決策邊界。領域知識注入不足或決策邊界模糊會導致特征漂移[17]。有效的提示需要在保持明確意圖的同時,深度整合領域知識以構建結構化上下文[18]、[19]。
為了解決上述挑戰并充分利用大型語言模型的強大能力,本文提出了APTREC,這是一個高精度且可解釋的APT戰術子圖識別框架,旨在為APT攻擊提供統一的映射方案。為了解決挑戰1,我們利用LLM豐富的先驗知識和語義分析能力從技術腳本中提取關鍵信息,并通過虛擬化攻擊路徑推導構建具有戰術/技術映射關系的戰術子圖數據庫,從而克服實際攻擊場景中數據稀缺的局限性。為了解決挑戰2,通過對開源LLM進行微調以適應特定領域,并增強了其領域特定知識的理解能力,并設計了基于LLM的兩階段推理架構,依靠技術識別和戰術類別的層次決策機制來實現準確的威脅判斷。總之,本研究的主要貢獻如下:
•本文提出了一種基于大型語言模型的APT戰術/技術識別方法,旨在將惡意子圖映射到MITRE ATT&CK框架,實現與攻擊模式的關聯,并提供可解釋的TTP歸因分析。
•我們基于Atomic Red Team技術腳本構建了一個結構化的提示模板,使用LLM生成與MITRE ATT&CK框架嚴格對齊的APT戰術子圖數據集,解決了數據集稀缺的問題。
•我們設計了基于LLM的雙階段推理架構,通過層次決策機制實現技術識別和戰術分類的精確威脅判定。
•我們進行了廣泛的實驗。實驗結果表明,APTREC優于現有的APT戰術/技術識別方法,生成的數據集具有語義多樣性和類別完整性,可以支持APT檢測領域的研究和應用。
本文的結構如下:第2節介紹了研究中涉及的基本知識;第3節回顧了與本文相關的研究工作;第4節闡述了本研究的主要動機和問題意識;第5節詳細介紹了研究方法和技術路線;第6節詳細介紹了實驗設計和實施過程;第7節總結了全文的研究結果,并展望了未來的研究方向。
部分摘錄
初步
在本研究中,我們根據MITRE ATT&CK框架將APT子圖映射到相應的攻擊戰術。為了后續討論,以下是對MITRE ATT&CK框架中基本術語的解釋,因為不同作者對這些術語的定義可能有所不同。
攻擊戰術:攻擊戰術代表攻擊者在執行攻擊過程中的高級目標或意圖。它表示攻擊者旨在實現的具體目標。每個戰術對應于一個特定的
相關工作
本節回顧了關于APT攻擊檢測的先前研究,強調了將攻擊行為映射到戰術/技術的重要性。然后我們分析了現有映射方法的局限性,并將其與我們的方法進行對比,以展示我們研究的新穎性。
APT攻擊檢測。現有的APT攻擊檢測方法大致分為基于節點級別和圖級別的檢測。
動機
圖3展示了一個典型的多階段APT攻擊案例。在APT防御領域,戰術級別技術識別的準確性決定了防御系統的有效性。然而,當前安全實踐中普遍存在的戰術誤分類和威脅情報異質性問題實質上暴露了傳統防御機制的不足。
從戰術誤分類的角度來看,T1543(創建或
概述
在本節中,我們提出了基于LLM的APT戰術/技術識別方法APTREC。APTREC包括三個階段,如圖5所示:戰術子圖構建、模型微調和兩階段推理識別。首先,我們根據Atomic Red Team技術腳本的特征設計提示構建,旨在指導LLM生成與MITRE ATT&CK戰術技術矩陣一致的戰術子圖。然后對微調后的LLM進行
評估
在本節中,我們通過解決以下研究問題來評估APTREC:
•RQ1:APTREC生成的戰術子圖數據集的質量如何?
•RQ2:當使用不同的LLM作為基礎模型時,APTREC的表現如何?
•RQ3:APTREC與基于規則和傳統基于模型的方法在性能上相比如何?
•RQ4:提示構建和模型微調是否會影響APTREC的性能?
•RQ5:APTREC的泛化能力如何?
結論
在本文中,我們提出了一種基于大型語言模型的APT戰術/技術識別方法。通過將LLM中固有的豐富知識庫與其深度語義解析能力相結合,并結合Atomic Red Team攻擊技術腳本,我們構建了一個具有高語義密度的戰術子圖數據集,構成了本研究的實驗基礎。基于此基礎,我們為不同的功能設計了層次結構化的提示模板
局限性和未來工作
盡管與現有方法相比,這種方法取得了顯著改進,但實驗分析仍揭示了一些需要進一步優化的局限性。
在推理架構方面,系統的自我糾正能力存在局限性。為了評估第二階段糾正實質性幻覺的有效性,我們對觸發“跨類別重新分類”機制的樣本進行了手動審查。結果顯示,在
楊龍靜:撰寫——原始草稿。葉愛勇:撰寫——審閱與編輯,概念化。劉元煌:方法論。盧文婷:可視化。黃創:監督。
作者聲明他們沒有已知的競爭財務利益或個人關系可能會影響本文報告的工作。