GMN-Zoomer:通過分層解析、池化和匹配學習圖相似性
《Neural Networks》:GMN-Zoomer: Learning Graph Similarity via Hierarchical Parsing, Pooling and Matching
【字體:
大
中
小
】
時間:2026年03月01日
來源:Neural Networks 6.3
編輯推薦:
圖相似性學習框架GMN-Zoomer通過結構熵理論進行層次化解析,構建多粒度圖表示,并設計跨層次注意力融合機制,在AIDS700nef、LINUX、IMDBMulti三個基準數(shù)據(jù)集上較現(xiàn)有方法平均降低28.65%的均方誤差。
陳克佳|陳玉生|王子月|劉林峰
南京郵電大學計算機科學學院,南京,210003,中國
摘要
圖相似性學習旨在衡量學習范式內(nèi)圖對之間的相似性。它能夠有效解決傳統(tǒng)度量方法(如圖編輯距離和最大公共子圖)所面臨的NP難問題。然而,現(xiàn)有的基于學習的方法往往無法探索圖結構的層次性,而這對于捕捉不同結構粒度上的相似性至關重要。在本文中,我們提出了一個基于層次解析、池化和匹配的圖相似性學習框架。首先,我們通過對每個輸入圖進行結構解析和層次池化來生成層次圖。然后,將相同粒度級別的圖進行匹配以獲取跨圖交互信息。最后,將所有粒度級別的匹配結果仔細融合成一個整體的圖相似性得分。在三個基準數(shù)據(jù)集上的廣泛實驗表明,與最先進模型相比,我們提出的方法在均方誤差上平均降低了28.65%。我們的方法在各種層次解析策略下的性能也表現(xiàn)出較強的魯棒性。
引言
圖相似性計算(GSC)是圖研究中的一個關鍵領域,其應用范圍包括圖檢索(Yan和Han,2002年)、惡意軟件檢測(Wang等人,2019年)和腦數(shù)據(jù)分析(Ma等人,2019年)等。它主要關注確定任意圖對之間的結構相似性。圖編輯距離(GED)(Bunke,1983年)和最大公共子圖(MCS)(Bunke和Shearer,1998年)是兩種常見的度量方法,但它們的計算都是NP難問題(Bunke,Shearer,1998年;Zeng,Tung,Wang,F(xiàn)eng,Zhou,2009年)。替代的近似方法主要依賴于剪枝-驗證框架(Liang,Zhao,2017年;Zhao,Xiao,Lin,Liu,Zhang,2013年)和啟發(fā)式方法(Bougleux,Brun,Carletti,F(xiàn)oggia,Gaüzère,Vento,2017年;Daller,Bougleux,Gaüzère,Brun,2018年;Fankhauser,Riesen,Bunke,2011年),但它們相對于圖的大小仍然表現(xiàn)出多項式甚至亞指數(shù)級的復雜性。由于圖神經(jīng)網(wǎng)絡(GNNs)(Defferrard,Bresson,Vandergheynst,2016年;Kipf,Welling,2017年;Veli?kovi?,Cucurull,Casanova,Romero,Liò,Bengio,2018年;Xu,Hu,Leskovec,Jegelka,2019年)能夠捕捉圖中的復雜結構,因此它們在GSC社區(qū)中得到了越來越多的應用。早期的方法如GCN-MEAN和GCN-MAX(Defferrard等人,2016年)直接將圖映射到嵌入中進行比較。后續(xù)的工作則關注更細粒度的信息交互。根據(jù)用于匹配的結構類型,這些工作可以大致分為三類:1)節(jié)點級交互,例如SimGNN(Bai等人,2019年)、GraphSim(Bai等人,2020年)和GMN(Li等人,2019年);2)節(jié)點-圖交互,例如HGMN(Ling等人,2020年)和CLSim(Zou等人,2025年);3)子圖級交互,例如H2MN(Zhang等人,2021年)、CoSimGNN(Xu等人,2020年)。
盡管取得了成就,現(xiàn)有的圖相似性學習方法仍受到其匹配策略的限制。它們通常在單一粒度級別上操作,并過度依賴諸如k跳鄰域聚合或隨機游走等機制捕獲的局部結構信息。這種設計的一個關鍵后果是它們無法有效編碼圖中不同子結構之間的關系。如圖1所示,苯乙醇中的羥基連接到乙基側鏈,而在甲酚中,它直接連接到苯環(huán)。盡管這兩種化合物具有相同的官能團,但它們的更高層次結構,即羥基與分子其余部分的連接方式不同,導致形成了不同的分子骨架。在以前的方法中,這種層次差異(即相同的官能團被整合到不同的更大分子骨架中)沒有得到很好的識別。
為了解決這些挑戰(zhàn),我們提出了GMN-Zoomer,這是一個結合了層次結構解析和多粒度匹配的通用圖相似性學習框架。具體來說,我們首先基于結構熵理論進行層次結構解析,然后提出一種多粒度匹配機制,從放大視角全面學習跨圖結構交互。最后,使用自注意力機制自適應地融合所有粒度層次的匹配向量,以計算最終的圖相似性得分。
我們的主要貢獻如下:
1)我們提出了一種新的圖相似性學習框架,該框架引入了結構熵理論來解析圖結構并從層次角度進行匹配。
2)我們設計了一種層次圖匹配方法,它在每個放大級別上進行跨圖交互,然后通過自注意力融合匹配信息,從而適應不同的圖結構。
3)在三個基準數(shù)據(jù)集上的廣泛實驗證明了我們層次解析和匹配機制的有效性,該方法取得了最先進的結果。
部分片段
圖相似性學習
圖神經(jīng)網(wǎng)絡(GNNs)在圖表示學習方面展現(xiàn)了強大的能力(Zhang,Cheng,Yuan,Zhang,2024年;Zhang,Yuan,Cheng,Liu,Li,Zhang,2025年)。因此,它們被廣泛用于學習范式中的圖相似性計算。早期方法通過建立圖級嵌入之間的交互來估計相似性(Defferrard等人,2016年),但它們?nèi)狈Ω毩6鹊慕Y構交互。SimGNN(Bai等人,2019年)率先實現(xiàn)了這一目標
初步知識
為了便于參考,本文中使用的關鍵符號在表1中進行了總結。
提出的方法
在本節(jié)中,我們介紹了GMN-Zoomer,這是一個通過層次結構解析、池化和匹配來學習圖相似性的框架。如圖2所示,工作流程從左到右依次進行:1)層次結構解析首先將原始圖作為輸入生成聚類分配矩陣;2)層次編碼和池化然后使用這些矩陣并行地對兩個圖進行粗化,生成多粒度嵌入;3)多粒度
數(shù)據(jù)集
我們在三個真實世界的圖數(shù)據(jù)集上進行實驗:AIDS700nef、LINUX和IMDBMulti。這些數(shù)據(jù)集代表了各種領域和特征。具體來說,AIDS700nef由帶有標簽的化學化合物圖組成。LINUX數(shù)據(jù)集包含未標記的程序依賴圖,其中節(jié)點代表語句,邊代表依賴關系。IMDBMulti由未標記的自我網(wǎng)絡組成,表示電影演員之間的共同出現(xiàn)關系。
結論
在本文中,我們研究了GED問題上的圖相似性學習。我們提出了一種新的圖相似性學習框架GMN-Zoomer,它結合了層次結構解析和多粒度匹配。在GMN-Zoomer中,我們首先使用結構熵理論構建靈活的多粒度層次圖結構。然后,通過匹配不同粒度級別的子圖,我們進行了全面的圖相似性計算。
未引用的參考文獻
缺失的引用:Fischer等人(2015年);Shannon(1948年);Socher等人(2013年)CRediT作者貢獻聲明
陳克佳:寫作——審稿與編輯、資源獲取。陳玉生:寫作——原始草稿、驗證、軟件、方法論、形式分析、數(shù)據(jù)管理、概念化。王子月:寫作——審稿與編輯、形式分析。劉林峰:驗證、調(diào)查。
利益沖突聲明
作者聲明他們沒有已知的競爭財務利益或個人關系可能影響本文報告的工作。
致謝
本研究得到了國家自然科學基金(項目編號62476137和項目編號62576174)、南京大學國家關鍵實驗室新型軟件技術基金會(項目編號KFKT2022B01)以及南京郵電大學自然科學基金(項目編號NY221071)的支持。
生物通微信公眾號
生物通新浪微博
- 搜索
- 國際
- 國內(nèi)
- 人物
- 產(chǎn)業(yè)
- 熱點
- 科普
今日動態(tài) |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號