一種基于擴展自然鄰域的新型自適應超球面過采樣方法,用于不平衡分類問題
《Knowledge-Based Systems》:A Novel Adaptive Hyperspherical Oversampling Method Based on Extended Natural Neighborhood for Imbalanced Classification
【字體:
大
中
小
】
時間:2026年02月28日
來源:Knowledge-Based Systems 7.6
編輯推薦:
自適應超球采樣方法結合擴展自然鄰域與差分進化優化,有效解決不平衡數據分類中的噪聲敏感和參數敏感問題,實驗驗證其顯著提升分類性能。
周宇|岳學珍|李繼光|劉星|孫衛明|李繼春
華北水利水電大學電氣工程學院,中國鄭州450045
摘要
對不平衡數據集進行分類仍然是分類器面臨的一個重大挑戰,過采樣技術是一種廣泛使用的解決方案。然而,許多現有的過采樣方法容易受到噪聲點、異常值以及相關超參數敏感性的影響,這可能會降低它們的有效性。為了解決這些問題,本文提出了一種新的過采樣方法——基于擴展自然鄰域的自適應超球面過采樣方法(AHOBENN)。該方法首先使用擴展自然鄰域方法將數據集劃分為多個區域,然后在少數類邊界點周圍構建超球面以定義目標過采樣區域。通過利用萬有引力定律和擴展自然鄰域的特性,為每個超球面分配自適應采樣權重,從而實現無參數的過采樣。此外,還應用差分進化(DE)算法來優化噪聲點和異常值的位置,而不是直接消除它們。在四個不同的分類器上對合成數據和公共數據集進行了大量實驗。與九種其他過采樣方法相比,實驗結果表明,所提出的方法顯著提高了不平衡數據集的分類性能。
引言
在機器學習領域,對不平衡數據集進行分類是一個關鍵且被廣泛研究的話題[1,2]。在二元不平衡分類任務中,不平衡數據集指的是多數類的樣本數量明顯多于少數類的數據集。許多現實世界的分類問題本質上都存在數據不平衡現象,例如醫學分析[3]、故障診斷[4]、信用風險預測[5]和欺詐檢測[6]等。通常,分類器的設計假設數據集是均勻分布的。然而,面對不平衡數據時,分類器往往會偏向多數類,導致難以準確分類少數類樣本[7]。錯誤分類少數類樣本可能會產生嚴重后果。例如,在欺詐檢測中,將少數類樣本(欺詐交易)視為多數類樣本(正常交易)可能會導致重大的財務損失。因此,解決不平衡數據集的分類問題受到了廣泛關注。最近針對不平衡數據集的分類方法可以分為三類:算法級方法[8,9]、數據級方法[10,11]以及結合兩者的混合方法[12,13]。算法級方法包括成本敏感學習方法[14]和集成學習方法[15]。成本敏感學習方法通過在訓練過程中增加對錯誤分類的懲罰來提高分類模型的性能;集成學習方法通過訓練多個弱分類器并將它們組合成一個強大的分類器來提升分類性能。數據級方法通過采樣技術(如過采樣[16]和欠采樣[17])修改原始數據集的分布。過采樣通過增加少數類樣本的數量來減少不平衡比例;而欠采樣則通過移除部分多數類樣本來創建平衡的數據集[18]。混合方法結合了算法級和數據級方法,使用采樣算法創建平衡的數據子集,在這些子集上訓練弱分類器,最后將這些弱分類器集成到一個強分類器中。
在這些方法中,數據級方法應用最為廣泛。當面對高度不平衡的數據集時,欠采樣方法可能會導致有價值信息的丟失,并由于減少了大量多數類樣本而降低分類器的性能[19,20]。相比之下,過采樣方法通過增加少數類樣本的數量同時保留原始數據集的特征來避免這一問題[21]。研究表明,過采樣方法在分類不平衡數據集方面具有優勢[22],這也是本文的重點。
已經開發了幾種過采樣模型來解決不平衡數據分類問題,例如SMOTE[23]、ADASYN[24]、Borderline-SMOTE(BLSMOTE)[25]和Safe-Level-SMOTE(SLSMOTE)[26]。盡管這些方法旨在通過構建平衡的數據集來提高分類性能,但它們在處理包含噪聲點、異常值和小型孤立簇的數據集時往往表現不佳。其主要缺點在于沒有充分考慮數據集的分布特性,這使得它們的生成策略容易受到噪聲點的影響[27]。
為了解決上述問題,本文提出了基于擴展自然鄰域的自適應超球面過采樣方法(AHOBENN)。該算法使用擴展自然鄰域方法將數據集劃分為五個區域,并通過在少數類邊界樣本周圍構建超球面來定義過采樣區域。它為每個超球面自適應地分配采樣權重,并使用DE算法優化噪聲點和異常值的位置,最終創建一個平衡的數據集。本文的主要貢獻如下:
(1)我們引入了一種創新的分類策略,利用擴展自然鄰域方法將原始數據集分為五個不同的類別:異常值、噪聲點、少數類邊界點、少數類安全點和多數類安全點。這種方法有效地過濾掉了少數類邊界點,為后續的過采樣提供了依據,且無需任何參數。在少數類邊界樣本周圍構建超球面以定義過采樣區域,同時增強了邊界信息。
(2)受萬有引力定律的啟發,該算法根據少數類邊界點的擴展自然鄰域特性調整每個超球面的采樣權重,從而實現無參數的過采樣。
(3)我們沒有簡單地消除可能降低分類器性能的噪聲點和異常值,而是使用DE算法優化它們的位置特征。這種策略盡可能保留了原始數據集的特征信息。
相關工作
自然鄰域理論
SMOTE過采樣算法利用KNN原理根據距離選擇附近的樣本,K最近鄰居的數量由該指標確定。然而,選擇K的最佳值仍然是一個重大挑戰。為了解決這個問題,朱等人提出了自然鄰域的概念,提供了一種新的方法來定義鄰近關系,從而減輕了選擇最佳K值的難度。
提出的方法
在本節中,我們首先在第4.1節介紹所提出的過采樣方法(AHOBENN)的過程。隨后,第4.2節討論區域劃分方法,第4.3節關注超球面的構建,最后第4.4節描述了噪聲點和異常值位置的優化。
實驗與分析
在本節中,我們使用合成數據和真實世界數據集驗證了該方法的性能,并將其與九種最先進的采樣算法進行了比較。我們的主要任務包括:
(1)我們通過可視化合成數據集上的過采樣結果來突出SMOTE算法及其擴展版本與我們的方法之間的樣本分布差異。
(2)我們在大量真實世界數據集上進行了廣泛實驗,以評估我們方法的性能。
結論
為了解決不平衡數據集帶來的分類挑戰,本文提出了一種基于擴展自然鄰域的自適應超球面過采樣方法(AHOBENN)。首先,該方法使用擴展自然鄰域將數據集劃分為多個區域,特別針對少數類的邊界點進行過采樣。通過關注這些具有挑戰性的區域,所提出的方法增強了邊界信息,從而提高了分類準確性。其次,受到……的啟發
CRediT作者貢獻聲明
周宇:概念構思、方法論、驗證、監督、撰寫——審閱與編輯。岳學珍:概念構思、方法論、研究、撰寫——初稿、可視化。李繼光:撰寫——審閱與編輯。劉星:撰寫——審閱與編輯。孫衛明:撰寫——審閱與編輯。李繼春:驗證、監督、撰寫——審閱與編輯。
CRediT作者貢獻聲明
周宇:撰寫——審閱與編輯、驗證、監督、方法論、概念構思。岳學珍:撰寫——初稿、可視化、方法論、研究、概念構思。李繼光:撰寫——審閱與編輯。劉星:撰寫——審閱與編輯。孫衛明:撰寫——審閱與編輯。李繼春:撰寫——審閱與編輯、可視化、監督。
利益沖突聲明
作者聲明他們沒有已知的利益沖突或個人關系可能影響本文報告的工作。
致謝
本工作得到了國家自然科學基金(U1504622)、河南省高等學校青年骨干教師培養計劃項目(2018GGJS079)以及華北水利水電大學第15屆研究生創新能力提升項目(NCWUYC-202315048)的支持。此外,該工作還得到了紐卡斯爾大學李繼春博士的啟動基金(OSR/0550/SASC/S022)的支持。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號