隨著網絡技術的快速發展,互聯網已經滲透到人們生活的方方面面。然而,網絡的快速增長也伴隨著日益嚴重的安全威脅,對人們的生活構成了潛在風險[1]、[2]、[3]。
傳統的入侵檢測技術主要包括基于規則的檢測、統計分析和機器學習方法[4]、[5]、[6]。這些技術在處理已知威脅時在一定程度上是有效的,但它們也存在顯著的局限性。例如,基于規則的方法難以適應新的攻擊方式,統計分析在識別異常模式方面的能力有限,而傳統的機器學習方法嚴重依賴于大量標記數據,并且難以捕捉網絡數據中固有的復雜拓撲關系。
近年來,圖神經網絡(GNN)[7]因其能夠有效建模網絡結構和節點之間的依賴關系而受到越來越多的關注,為入侵檢測提供了新的研究方向和解決方案[8]、[9]、[10]。大多數現有的基于圖神經網絡的網絡入侵檢測模型都是監督式的[11]、[12]、[13]、[14]。然而,在現實世界的網絡環境中,網絡流量通常是未標記的,而對網絡流量進行標記需要大量的人力和資源。因此,在未標記的網絡環境中準確識別異常網絡流量已成為該領域亟待解決的問題[15]、[16]。現有的基于無監督圖神經網絡的入侵檢測模型大多基于編碼器-解碼器架構,其編碼器通常采用傳統的圖神經網絡模型,沒有針對網絡入侵檢測的特點進行特定優化[17]、[18]、[19]。因此,現有基于無監督圖神經網絡的入侵檢測模型的檢測精度難以進一步提高。
網絡入侵檢測領域具有哪些特點?通過分析常用的基準數據集和網絡攻擊受害者的攻擊過程,我們總結了兩個關鍵特點。
首先,網絡流量特征多種多樣,但并非所有特征都對異常流量檢測有相同的貢獻:以本研究中使用的四個基準數據集為例,每個數據集包含43個特征,這些特征可以大致分為:網絡身份特征(IP地址、端口、ID)、流量統計特征(字節、數據包數量)、時間特征(持續時間)和數據包長度分布特征(例如,最大/最小數據包長度)。從異常檢測機制的角度來看,流量統計特征和時間特征的影響最為顯著。攻擊行為的本質在于異常的通信模式,這兩種特征可以直接表征單位時間內的行為強度和會話建立模式。因此,它們能夠有效捕捉到攻擊的典型“流量形態”,例如DDoS攻擊的高頻小數據包和掃描行為的短暫探測爆發。相比之下,網絡身份特征的影響最小,甚至可能產生負面影響。這些特征描述的是“誰在通信”,而不是“通信是如何發生的”。在訓練過程中,模型可能會容易學習到數據集中某些固定IP或端口與攻擊行為之間的虛假相關性,從而導致強烈的環境依賴性和過擬合。我們在第5.8節通過實驗驗證了我們的觀點。
其次,受害者接收到的異常流量通常來自其直接鄰居,而不是遠距離的鄰居。如圖1所示,A代表受害者,B和D代表攻擊者,E代表正常節點。攻擊者通常采用兩種主要攻擊策略:直接攻擊和間接攻擊。從B到A的路徑代表直接攻擊過程,其中B直接向A發送異常流量。從D到A的路徑代表間接攻擊過程,其中D向C發送控制命令,然后C被操縱向A發送異常流量。無論攻擊是直接的還是間接的,異常流量最終都來自A的直接鄰居。從遠距離鄰居聚合信息可能會引入噪聲,并干擾模型準確識別來自直接鄰居的異常流量的能力。
為了提高編碼器對計算機網絡圖結構的特征提取能力,從而進一步提高無監督模型的檢測精度,本文根據網絡入侵檢測鄰域的上述兩個特點對傳統的圖神經網絡模型進行了優化。對于特點(1),我們設計了一個基于注意力的輸入層,為不同重要性的特征分配不同的權重,增加重要特征的權重同時減少冗余特征的權重,使模型能夠更有效地關注關鍵特征。對于特點(2),我們改進了傳統E-GraphSAGE模型的鄰居聚合過程,使得當圖卷積層的數量增加時,模型僅從附近的鄰居聚合信息,避免來自遠距離鄰居的干擾。
經過上述優化后,本文得到了一個具有強大特征提取能力的編碼器。在解碼器部分,我們采用了圖對比學習模型DGI。此外,通過對DGI模型中圖對比學習過程的分析,我們發現某些計算步驟是不必要的。因此,我們移除了原始DGI模型中的一部分冗余計算,提高了計算效率,從而得到了一個輕量級的DGI模型,作為我們提出的模型的解碼器。我們在四個公共基準數據集上進行了廣泛的實驗來驗證所提模型的有效性。
總結來說,本文的主要貢獻如下:
•基于注意力的輸入層:我們設計了一個基于注意力的輸入層,為不同重要性的特征分配不同的權重,增加重要特征的權重同時減少冗余特征的權重,使圖神經網絡模型能夠更有效地關注關鍵特征。
•改進的信息聚合過程:我們改進了傳統E-GraphSAGE模型的鄰居聚合過程,使得當圖卷積層的數量增加時,圖神經網絡僅從附近的鄰居聚合信息,避免來自遠距離鄰居的干擾。
•輕量級DGI模型:
在原始DGI模型的基礎上,我們移除了冗余計算,減少了計算開銷并提高了計算效率,得到了一個輕量級的DGI模型。•有效的編碼器和無監督模型:
優化的圖神經網絡模型作為編碼器,輕量級DGI模型作為解碼器,形成了所提出的無監督網絡入侵檢測模型。在四個公共基準數據集上的廣泛實驗驗證了所提編碼器和無監督模型的有效性。本文的其余部分組織如下。第2節回顧了基于圖神經網絡的入侵檢測模型的相關工作。第3節介紹了與GraphSAGE模型、E-GraphSAGE模型、DGI模型和異常檢測算法相關的背景知識。第4節介紹了所提出的無監督模型的詳細信息。第5節報告了實驗設置和結果。第6節總結了本文,第7節討論了模型的局限性,第8節提出了未來的工作。