SDC:一種適用于不完整數據集的無參數聚類算法
《Pattern Recognition》:SDC: A parameter-free clustering algorithm for incomplete datasets
【字體:
大
中
小
】
時間:2026年03月03日
來源:Pattern Recognition 7.6
編輯推薦:
單維聚類算法SDC通過維度分割和分區交集融合機制,無需參數即可直接處理缺失數據集,實驗表明其NMI、ARI和Purity分別優于基線算法13.7%、23.8%和8.1%。
李琦|曾憲軍|王樹良|朱文豪|阮思杰|戴家樂
北京林業大學信息科學與技術學院,北京,100083,中國
摘要
在現實世界應用中,不完整的數據集非常普遍,其中一些對象在某些維度上包含缺失的條目。大多數現有的不完整數據聚類方法采用兩階段流程:首先進行缺失條目的插補,然后進行聚類。然而,插補和聚類過程通常涉及多個超參數,這大大增加了實際產生可靠聚類結果的難度。盡管基于決策圖的方法已被證明可以減輕對參數的依賴性,但現有的公式通常假設所有對象具有相同的觀測維度集,因此無法直接應用于不完整的數據集。
引言
聚類是一種重要的數據挖掘技術。它可以根據相似性將對象劃分為不同的簇,每個簇對應一個特定的類別。聚類有廣泛的應用,如大氣預測、圖像處理和生物信息學[1]。最近的調查也強調了其在各個領域的持續相關性[2],包括基于密度的方法的進步[3]和多視圖設置[4]。
隨著聚類技術的發展,人們越來越關注改進聚類算法以處理專門的數據集。例如,處理缺失值的聚類仍然是一個活躍的研究領域[5],最近的研究探索了矩陣補全策略[6],全面的綜述指出了存在的挑戰[7]。不完整的數據集(即包含缺失值的數據集)是一類專門的數據,其中一些對象在某些維度上包含缺失的條目。這類數據集在現實世界場景中非常普遍。目前,一種常見的策略是先對缺失值進行插補,然后再進行標準聚類[8]。其他方法包括直接從不完整數據中學習表示[9]或通過輔助約束來提高魯棒性[10]。然而,插補和聚類過程通常需要輸入參數,導致可調整的設置過多。過多的輸入參數不可避免地增加了獲得準確聚類結果的難度,這一點在關于參數敏感性和可重復性的研究中得到了強調[11]和[12]。圖1展示了在100組參數值下,兩種現有算法獲得高準確性和低準確性的概率,其中0.5被用作區分高準確性和低準確性的閾值。結果表明,這些算法只有很小的概率能夠獲得高準確性。換句話說,大多數參數配置都無法產生良好的性能。顯然,消除用于聚類不完整數據集的輸入參數是一個有意義的研究方向。
近年來,一些研究人員探索使用決策圖來替代輸入參數[15]。這個想法已經被擴展用于加速圖構建,同時保持可解釋性[16]。這些方法利用決策圖來可視化隱含的數據集結構,并幫助用戶獲得有效的結果——要么不需要參數(如DPC [15]),要么只需要很少的參數(如TGP [17])。例如,DPC使用密度度量ρ和最小距離度量δ作為坐標來生成決策圖。從這個圖中,用戶可以識別出同時具有高ρ和δ的簇中心,從而避免了K-means [18]所需的預先定義簇數k的需求。然而,現有決策圖中的度量依賴于所有對象之間的等效維度,這使得它們不適合包含缺失值的數據集。例如,DPC需要計算對象之間的歐幾里得距離來確定δ。由于歐幾里得距離依賴于完整的坐標信息,當任何維度上的值缺失時,就無法可靠地計算。因此,將決策圖適應于包含缺失值的聚類任務仍然是一個重大挑戰。
在本文中,我們提出了一種名為SDC(單維聚類)的新聚類算法,用于將決策圖適應于不完整數據集的聚類,使用戶無需參數即可獲得有效的聚類結果。SDC的總體框架如圖2所示,它包括三個主要階段:(1)將原始數據集分割成單維非缺失子集,(2)通過基于密度的決策圖對每個子集進行無參數聚類,并通過受重力啟發的邊界收縮來增強簇結構,(3)使用分區交集融合部分聚類結果以生成最終聚類。
本工作的貢獻如下:
•我們提出了第一個用于處理包含缺失值的聚類任務的無參數算法。(第3節)
•我們為SDC設計了一種單維策略,以消除插補過程并使決策圖適應于包含缺失值的數據集。該策略涉及將不完整數據集分割成幾個“非缺失”的單維數據集,然后使用密度分布決策圖為每個“非缺失”的單維數據集獲得聚類結果。最后,我們使用提出的“分區交集”方法組合這些聚類結果以獲得最終結果。(第3.2節)
•我們引入了“重力”來收縮簇的邊界,使單維數據集盡可能多地繼承原始數據集的信息,從而提高單維策略的有效性。(第3.3節)
•我們設計了一種輕量級的批量密度計算方法來加速決策圖的生成和重力計算,顯著降低了SDC的時間復雜度。(第3.4節)
•廣泛的實驗表明,在三個評估指標上,無參數的SDC的性能至少比具有多個參數的基線算法高出13.7%(NMI)、23.8%(ARI)和8.1%(純度)。此外,無論缺失數據率如何增加,SDC相對于基線算法的優勢都保持一致。(第4節)
相關工作
相關工作
當前用于聚類不完整數據集的算法可以分為兩類:第一類涉及獨立的插補過程和聚類過程,而第二類涉及插補過程和聚類過程之間的交替循環。
第一類。 MICE [19]將具有缺失值的特征建模為其他特征的函數。GAIN [13]利用GAN來插補缺失特征,其中鑒別器試圖區分插補值和觀測值
提出的方法:SDC
我們從三個方面介紹SDC:聚類過程、簇信息增強過程和輕量級密度計算過程。SDC中常用符號的描述記錄在表2中。
實驗設置
數據集。我們從聚類基本基準[36]中選擇了一些真實世界的數據集,以及ODDS庫[37]中的一些合成數據集。在這里,我們采用了一種流行的MAR策略[21]、[38]、[39],它隨機刪除某些維度中的一些對象的值,將它們轉換為不完整的數據集。這13個數據集經過精心選擇,涵蓋了多樣化的數據特征:不同的樣本大小(150–100,000)、維度(2–174)和簇復雜性(2–100個簇),以確保
結論
在這項工作中,我們介紹了SDC,這是一種無參數的聚類算法,旨在直接在包含缺失值的數據集上產生準確的聚類結果。SDC通過結合基于決策圖的簇候選選擇、簇信息增強程序和輕量級的、考慮局部性的密度估計器,消除了手動調整超參數的需要。在基準數據集上的實證評估表明,SDC相比代表性的基線算法有顯著的改進
CRediT作者貢獻聲明
李琦:寫作——審閱與編輯,撰寫——原始草稿,可視化,驗證,軟件,方法論,調查,形式分析,數據整理,概念化。曾憲軍:寫作——審閱與編輯,可視化,軟件。王樹良:軟件,項目管理。朱文豪:寫作——審閱與編輯,軟件。阮思杰:寫作——審閱與編輯,軟件。戴家樂:寫作——審閱與編輯,撰寫——原始草稿,可視化,軟件,數據整理。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文所述工作的競爭性財務利益或個人關系。
致謝
這項工作得到了中央高校基本研究基金(編號XJJSKYQD202536)的支持。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號