亚洲av自拍,女生洗鸡鸡喷尿的视频无马赛克?舒坦直叫的骚货视频?亚洲着九九九视频影院 ,无码中文人妻

核近似方法的比較分析與集成架構：Nystr?m、RFF、Kernel Thinning與新型NORF的性能評估及集成應用研究

《Neurocomputing》：Comparative analysis of kernel approximation methods and their ensemble architectures

【字體：大中小】 時間：2026年03月01日 來源：Neurocomputing 6.5

編輯推薦：

　　為應對核方法在處理大規模數據時面臨的二次計算復雜度挑戰，本研究首次系統比較了四種主流的核近似方法——Nystr?m、隨機傅里葉特征(RFF)、Kernel Thinning (KT)及本研究提出的新型神經正交隨機特征(NORF)——在支持向量機(KSVM)框架下的性能。研究發現，Nystr?m在綜合性能和集成潛力上表現最佳，NORF則能顯著增加預測多樣性，不依賴預定義核。這些方法構成的集成模型在性能上與標準KSVM相近，但訓練時間大幅縮短，為解決核方法的可擴展性問題提供了高效、實用的新思路。

在機器學習領域，核方法一直以其強大的非線性建模能力而著稱，尤其在支持向量機(SVM)中表現出色。然而，其“阿喀琉斯之踵”在于計算效率：傳統的核支持向量機(KSVM)在訓練時通常面臨至少O(n²)的時間復雜度，其中n是數據點的數量。這意味著，當數據量呈爆炸式增長的今天，經典的核方法在處理現實世界的大規模數據集時變得步履維艱，甚至是不可行的。為了“治愈”這個痛點，研究人員們提出了各種“快進”方案——核近似方法。它們像一個個高效的“壓縮算法”，試圖在保持核方法優異性能的同時，大幅削減其計算成本。隨機傅里葉特征(RFF)和Nystr?m方法便是其中的佼佼者，通過不同的方式對原特征空間進行隨機采樣和映射，實現了計算復雜度的降低。近年來，Kernel Thinning (KT)作為一種新穎的分布壓縮技術也被提出，但其在真實SVM場景下的表現還是個未知數。與此同時，一個根本性問題依然懸而未決：這些不同的近似方法，到底誰更勝一籌？它們各自的優勢和短板是什么？如果我們把多個這樣的近似模型組合起來（即構建集成模型），是否能產生“1+1>2”的效果，獲得比單個模型更穩定、更強大的預測能力？為了回答這些問題，來自西班牙馬德里自治大學的研究團隊開展了一項深入的比較研究，并引入了一個全新的“選手”——神經正交隨機特征(NORF)。他們的研究成果最終發表在了計算智能領域的知名期刊《Neurocomputing》上。

為了開展這項研究，研究人員采用了一套嚴謹的實驗方法論。他們從UCI機器學習倉庫和Scikit-learn中選取了32個具有不同規模、類別數和分布特征的公開分類數據集，構成了一個全面的評估基準。研究核心是比較RFF、Nystr?m、KT以及新提出的NORF這四種方法。所有方法都被用于構建一個“近似特征映射+線性SVM”的流水線，以確保公平對比。其中，NORF是一種創新方法，它受“神經塌縮”(Neural Collapse)現象啟發，旨在讓神經網絡學習將不同類別的樣本映射到高維空間中的一組正交向量上，從而誘導出一個最優的幾何結構。為了量化模型性能，研究評估了平衡準確率、Brier分數（衡量概率預測準確性的指標）、訓練時間以及用于評估集成多樣性的多個指標（如ALR相關性、JS散度、誤差相關性）。在技術實現上，研究者使用了貝葉斯優化（通過Optuna框架）為每個模型-數據集對自動尋找最優超參數，并采用5折交叉驗證來穩健地評估模型。對于RFF和Nystr?m，他們使用了Scikit-learn中的RBF_sampler和Nystroem類來實現特征映射。KT的實現則針對分類問題進行了改良，對每個類別單獨應用KT后再合并，以保證類別覆蓋。NORF則通過一個單隱藏層的神經網絡來學習特征映射。所有實驗均在嚴格單核的公平環境下進行，代碼已開源。

3.1. 數據集和預處理

研究人員收集了32個來自UCI和Scikit-learn的數據集，涵蓋了從簡單到復雜、從二分類到多分類（最多26類）的各種任務。表1詳細列出了這些數據集的ID、名稱、特征維度、類別數及類別分布。數據預處理包括標簽統一、分類特征獨熱編碼、按7:3比例進行分層劃分訓練/測試集（隨機種子固定為42）以及標準化，且標準化過程不會引入測試集信息。

3.2. 實驗方法

本研究的實驗旨在評估模型在Brier分數、平衡準確率、訓練時間和多樣性度量上的表現。核心方法是：首先使用貝葉斯優化（50次試驗）為每個模型-數據集組合尋找最優超參數（優化目標為最小化5折交叉驗證的平均Brier分數）；然后，使用最優配置但不同的隨機種子訓練每個模型15次，記錄各項性能指標的平均值。對于RFF和Nystr?m，其近似特征映射的維度d固定為訓練集大小的1%（即d = ceil(0.01n)），以控制計算成本并便于與KT比較。KT的“稀釋”參數δ固定為1.0，以在理論復雜度與數據集縮減程度之間取得平衡。NORF的輸出維度則被設定為大于類別數c，以確保正交目標的存在。

3.3. 個體Brier分數和平衡準確率

表2和表3分別展示了各個模型在所有數據集上的平均測試Brier分數和平衡準確率。從統計摘要來看，標準的KSVM在絕大多數數據集上取得了最佳（排名第1）的Brier分數和準確率，這在意料之中，因為它是精確的核方法。在四種近似方法中，Nystr?m整體表現最好，其Brier分數的中位數（14.0%）和平均排名（2.7）均優于RFF（15.8%， 2.6）、KT（17.1%， 3.3）和NORF（21.9%， 4.1）。Nystr?m在3個數據集上取得了最佳Brier分數，在12個數據集上位列第二。RFF緊隨其后，在6個數據集上最佳，10個數據集上次佳。KT在少數特定數據集（如ID 519、27、468）上表現突出，甚至偶爾能超越Nystr?m和RFF。NORF雖然平均性能不占優，但在個別數據集（如ID 327、59）上展現出了競爭力，并且其預測多樣性較高（后續分析）。從平衡準確率看，結論類似，KSVM領先，Nystr?m在近似方法中表現最穩定。

3.4. 訓練時間

圖1（文檔中提及但未提供具體內容）顯示了各方法的訓練時間。由于實現語言不同（scikit-learn為優化C/C++代碼，KT為Python），時間對比需謹慎解讀。但趨勢顯示，所有核近似方法（Nystr?m, RFF, KT, NORF）的訓練時間都顯著低于標準的KSVM，特別是在大規模數據集上。這驗證了核近似方法在提升計算效率方面的核心價值。

3.5. 集成性能

研究進一步利用各近似方法固有的隨機性，構建了軟投票集成模型。他們評估了同質集成（如多個Nystr?m模型）和異質集成（混合不同方法）。關鍵發現是：集成策略能夠穩定地提升所有單一近似方法的性能，減少由于隨機性帶來的方差。其中，基于Nystr?m的集成表現最為出色，其性能提升潛力最大。盡管這些集成模型在絕對性能上仍未超越標準的KSVM，但它們之間的差距在統計上并不顯著。更重要的是，集成模型在保持與KSVM相近性能的同時，其訓練時間有了數量級的降低。這為解決“效率與性能不可兼得”的困境提供了一個非常有吸引力的折中方案。

3.6. 預測多樣性

多樣性是集成學習成功的關鍵。研究通過ALR相關性、JS散度和誤差相關性三個指標來衡量不同模型預測之間的差異。分析表明，NORF產生的預測與其他方法（RFF, Nystr?m）的相關性通常最低，即多樣性最高。KT也表現出一定的多樣性。而RFF和Nystr?m之間的預測則具有較高的相關性。高多樣性意味著將這些方法組合進集成模型時，可能獲得更大的性能提升，這為構建高效的異質集成指明了方向。

本研究對四種主流核近似方法（Nystr?m, RFF, KT, NORF）在監督分類任務中進行了迄今為止最全面的實證比較與集成分析。核心結論如下：首先，在單一模型性能上，Nystr?m方法是綜合表現最佳的核近似方案，它在大多數數據集上提供了最接近標準KSVM的準確率。其次，集成策略被證明是放大核近似方法價值的有效手段。通過簡單聚合多個基于隨機性的近似模型，可以顯著提升預測的穩健性，且基于Nystr?m的集成展現了最大的性能增益潛力。盡管這些集成模型在峰值準確率上未能超越精確的KSVM，但它們在統計性能相當的前提下，實現了訓練時間的大幅縮減，這對大規模應用至關重要。最后，本研究提出的NORF方法雖然平均準確率不占優勢，但其核心貢獻在于提供了一種不依賴于預定義核函數、且能產生高多樣性預測的全新思路，這對于需要模型差異性的集成系統或探索性特征學習具有獨特意義。討論部分指出，未來的工作可以探索更精細的集成構建策略（如基于多樣性度量的選擇性集成）、將NORF與更深的網絡結構結合，以及將這些方法應用于更大規模或流式數據場景。總之，這項研究不僅為從業者根據具體任務（重精度還是重效率）選擇核近似方法提供了清晰的指南，也通過集成和新型NORF方法的引入，為突破核方法 scalability瓶頸開辟了新的、實用的技術路徑。

熱點排行

新聞專題