《Patient Education and Counseling》:Anchor-to-Graph Structural Co-regularization for Scalable Multi-view Clustering
編輯推薦:
針對大規模多視圖聚類中錨點與錨圖結構未協同優化的問題,提出AGSCR-MVC方法,通過雙向結構正則化提升錨點代表性及錨圖結構合理性,實驗驗證其計算效率與聚類性能優勢。
Jipeng Guo|Xiang Xu|Yu Cao|Man Cao|Mengyuan Xin|Tianxiang Zhao|Ye Su|Junbin Gao|Mingliang Cui|Youqing Wang
北京化工大學信息科學與技術學院,北京,100029,中國
摘要
基于錨點的多視圖聚類方法因其能夠在統一框架內聯合學習緊湊的錨點和結構化的錨圖來處理大規模數據而受到了廣泛關注。現有方法主要側重于通過預先對錨圖的結構約束來改進聚類效果,但忽略了對于錨點本身的顯式結構語義探索,這可能不足以確保錨點的真實代表性,并限制了它們在判別性錨圖學習中的表現能力。為此,本研究提出了“錨點到圖的結構協同正則化”(AGSCR-MVC)方法,該方法在統一框架內協同促進錨點和錨圖的結構語義探索。具體而言,AGSCR-MVC引入了二分圖拉普拉斯正則化器來改善錨圖的結構。然后,它從錨圖中自適應地構建錨點鄰接關系,并強化潛在錨點的顯式結構。錨點到錨圖的結構正則化可以相互協商,共同提升錨點的區分度和聚類質量。此外,還對錨圖施加了對數和稀疏性約束以增強局部結構信息。針對所提出的模型,開發了一種高效的優化算法。大量實驗證明了AGSCR-MVC在計算復雜性和聚類性能方面取得了顯著的優越性。AGSCR-MVC的源代碼可在以下鏈接獲取:
https://github.com/XX106222/AGSCR-MVC引言
隨著多源傳感器和數據收集技術的快速發展和持續進步,多視圖數據的規模日益增大,其內在結構也變得更加復雜[1]、[2]、[3]、[4]。作為數據挖掘中的重要技術,多視圖聚類(MVC)方法因能夠探索此類復雜數據的潛在結構而受到廣泛關注[5]、[6]。MVC旨在通過整合各視圖之間的互補和一致信息,將多視圖樣本劃分為不相交的簇[7]、[8]、[9]。由于多視圖數據具有高維性和噪聲特性[10]、[11]、[12]、[13],因此提出了許多表示學習方法,以在低維空間中捕捉數據的內在語義。
作為一種廣泛使用的MVC框架,多視圖子空間聚類通常假設所有樣本都位于多個低維子空間中,并且可以用其他樣本在一致子空間中表示[14]、[15]。具體來說,這些方法學習子空間表示以構建用于譜聚類的強大圖相似性。然而,構建這樣的n×n圖需要的空間復雜度用于存儲,并且在優化和譜分解過程中需要的計算復雜度,這使得它們在大規模應用中不切實際或無效。
為了解決上述問題,基于錨圖的MVC方法被廣泛提出,這些方法僅選擇少數具有代表性的樣本或表示基礎(即錨點)來代表目標樣本。因此,小規模的錨圖可以近似描述完整的語義關系,從而降低計算和存儲成本[16]、[17]。根據錨點構建策略,這些方法可以分為啟發式方法和基于學習的方法。啟發式方法[18]、[19]利用先驗知識或手動設計的策略(如k-means或隨機采樣)選擇錨點,然后構建錨圖進行聚類。然而,錨點構建與錨圖學習是分離的,這阻礙了兩者之間的相互促進,從而無法產生真正具有代表性的錨點和具有區分性的圖。
與啟發式方法不同,基于學習的方法[20]、[21]通過聯合和交替的優化方式將錨點構建與錨圖學習結合起來,使得這兩個過程能夠共同優化,以獲得具有代表性的錨點和圖。盡管取得了顯著成功,但大多數現有的基于學習的方法[22]、[23]主要通過施加結構先驗來增強錨圖,而忽略了錨點本身的結構保持。實際上,錨點作為表示的基礎,直接反映了數據特征,在錨圖學習中起著關鍵作用。當前的方法[24]、[25]通常對錨點施加簡單的正交約束,并忽略了錨點之間的局部結構信息,這不足以確保錨點完全捕捉數據的內在特征分布,可能會破壞它們的聚類結構。此外,現有方法容易出現錨點與圖之間的結構不匹配和不一致,從而降低聚類性能。
為此,本研究在大規模場景下提出了“錨點到圖的結構協同正則化”(AGSCR-MVC),對錨點和圖同時施加雙重協同結構探索,整體框架如圖1所示。具體來說,AGSCR-MVC利用結構傳播從錨圖中構建隱式的錨點鄰接關系,并引入局部平滑項來指導錨點學習。為了獲得具有區分性的錨點-樣本連接性,AGSCR-MVC對錨圖施加對數和稀疏性約束,鼓勵每個樣本僅與少數錨點連接,從而減少冗余連接。此外,為了避免平凡的錨圖(即所有樣本聚集在單個錨點上),AGSCR-MVC對錨圖施加拉普拉斯秩約束,以改善其聚類結構。這種由錨圖橋接的協同正則化有助于將錨點與基于樣本的聚類結構對齊,并加強它們之間的結構一致性。本研究的關鍵貢獻如下:
•提出了一種新的基于錨點的MVC方法,該方法通過雙重語義結構正則化來適應性地學習具有代表性的錨點和具有區分性的錨圖,增強了錨點和樣本之間的聚類結構一致性。
•通過從錨圖中構建隱式的錨點鄰接關系引入了錨點結構假設。結構化的錨圖通過連接稀疏性和二分圖拉普拉斯秩約束得到強化。
•為所提出的模型開發了一種可擴展且計算效率高的優化算法,該算法需要線性復雜度。大量實驗證明了AGSCR-MVC相對于先進基準方法的顯著優越性。
相關研究
相關工作
本節概述了相關研究,重點介紹了多視圖子空間聚類和基于錨點的MVC方法。本工作中使用的關鍵符號及其定義見表1。
提出的方法
本節全面闡述了所提出的AGSCR-MVC方法,包括模型構建、優化和復雜性分析。
實驗
在本節中,通過選擇幾種最先進的方法作為競爭對手,描述了一系列廣泛的實驗來驗證我們提出的AGSCR-MVC方法的有效性和效率。實驗在Windows 11操作系統上使用MATLAB R2024b(64位)進行,配置了Intel i7-12800HX CPU和32 GB RAM。
結論
本研究提出了AGSCR-MVC,這是一種新穎的基于錨點的大規模多視圖聚類方法,它在統一的優化框架中同時執行錨點構建和圖學習。AGSCR-MVC試圖學習用于區分性子空間表示的結構化錨點。具體來說,錨圖作為橋梁表示,同時指導錨點的局部結構學習并經歷結構正則化,實現了雙層次協同建模
CRediT作者貢獻聲明
Jipeng Guo:撰寫 – 審稿與編輯,撰寫 – 原稿,驗證,方法論,資金獲取,概念化。Xiang Xu:撰寫 – 原稿,可視化,驗證,方法論,調查。Yu Cao:驗證,方法論。Man Cao:方法論,調查,形式分析,概念化。Mengyuan Xin:可視化,方法論。Tianxiang Zhao:撰寫 – 原稿,可視化。Ye Su:可視化,驗證。Junbin Gao:撰寫 – 審稿與
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文所述工作的財務利益或個人關系。
致謝
本研究得到了國家自然科學基金(項目編號62403043、62225303和62433004)的支持;部分得到了中國博士后科學基金會(項目編號GZC20230203)的支持;部分得到了北京化工大學跨學科研究中心(項目編號XK2025-06)的支持。