3P免费视频在线观看,99视频免费观看,欧美在线a

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

超越預測：評估材料科學應用中特征選擇方法的穩定性

《Computational Materials Science》：Beyond prediction: Assessing stability in feature selection methods for materials science applications

【字體：大中小】 時間：2026年03月01日 來源：Computational Materials Science 3.3

編輯推薦：

　　本研究通過穩定性測試框架比較了監督學習、無監督方法及統計方法在材料科學中的特征選擇可靠性，發現監督模型（如XGBoost）雖預測精度高（R2>0.95），但特征重要性排名不穩定，而無監督方法（如特征聚類）和Spearman相關分析穩定性更優。建議結合模型無關方法與領域知識以提升因果解釋可信度。

竹藤良安

日本東京江東區有明3-3-3，武藏野大學數據科學學院，郵編135-8181

摘要

本研究探討了材料科學中特征選擇方法的可靠性。盡管由于對可解釋性約束的理解有限，機器學習的應用廣泛存在誤用現象，但機器學習在材料科學領域仍得到了快速發展。我們使用一個公開的金屬材料數據集，通過一種新穎的穩定性測試框架，比較了監督學習模型（XGBoost、隨機森林）、無監督技術（特征聚類、HVGS）和統計方法（斯皮爾曼相關性）。研究結果表明，盡管預測準確性很高（R2 > 0.95），但在移除排名最高的特征后，監督學習模型產生的特征排名會變得不穩定——這在識別材料結構與性能關系時是一個關鍵缺陷。常見的誤用情況包括過度依賴黑箱模型進行科學解釋、交叉驗證程序不足以及未能測試特征重要性的穩定性。相比之下，無監督方法和斯皮爾曼相關性在保持競爭性能的同時，表現出完美的排名穩定性。這突顯了預測準確性和特征重要性可靠性之間的根本區別。我們建議材料研究人員結合使用不依賴于特定模型的方法，以避免對材料性能關系的誤解，并確保在材料開發過程中得出科學上可靠的結論。

引言

隨著人工智能分析工具的出現，《計算材料科學》期刊發表了許多采用機器學習方法的文章：截至2025年10月20日，共有1046篇論文使用機器學習（其中2025年有228篇，2026年有9篇），153篇論文關注特征選擇（2025年有29篇），76篇論文實現了XGBoost（2025年有24篇），以及50篇論文結合了SHAP分析（2025年有19篇）。這一發表趨勢清楚地表明了材料科學界對人工智能應用的日益關注。然而，由于對機器學習基礎知識的理解不足，研究中普遍存在誤用現象。本文系統地指出了監督學習在特征選擇中的常見誤區，并通過使用公開數據集進行全面的交叉驗證，嚴格評估了監督學習模型、無監督方法和非目標預測方法的相對有效性。研究結果強調，特征選擇在數據驅動的材料分析中起著關鍵作用，特別是在發現具有多樣化性能的新復合合金以滿足特定工業需求方面。

該領域的一個關鍵挑戰是，許多研究人員不了解監督模型的可靠性約束。諸如極端梯度提升（XGBoost）和隨機森林之類的監督算法表現出兩種不同類型的準確性，這兩種準確性經常被混淆：目標預測準確性和特征重要性準確性。雖然目標預測準確性可以通過與真實標簽值進行系統驗證，但特征重要性缺乏相應的真實標簽值進行準確性驗證。因此，不同的模型會產生不同的特征重要性排名，導致在實踐中可能出錯的模型特定解釋。這種區別尤為重要，因為監督模型中的特征重要性反映了對預測性能的貢獻，而不是與目標變量的真實因果或相關性關聯。即使模型具有高目標預測準確性，由于缺乏客觀的驗證指標，也可能產生不可靠的特征重要性排名。

這些限制的實際影響可以在最近的研究中觀察到。例如，Hou等人對鋁合金鑄件中的人工智能應用進行了開創性的研究[1]。他們對七種不同的人工智能算法進行了系統的評估，發現XGBoost在準確預測微觀結構特征方面表現優異。為了解決可解釋性問題，研究人員實施了Shapley Additive exPlanations（SHAP）分析，以闡明特定合金成分、加工參數和所得微觀結構特征之間的復雜關系。盡管這種分析框架試圖彌合復雜的機器學習技術和基本物理冶金原理之間的差距，但我們的工作表明，這樣的方法仍可能受到監督學習在特征選擇方面的固有限制，可能導致對微觀結構形成機制的實際驅動因素的誤解。

盡管Hou等人在預測準確性方面取得了顯著成就，但由于監督學習算法的模型特定性質，他們的方法在XGBoost的SHAP解釋方面引發了根本性的擔憂。雖然像XGBoost這樣的監督學習模型可以從真實標簽值中驗證目標預測準確性，但它們生成的特征重要性排名缺乏相應的真實標簽值進行驗證。Hou等人自己的研究也表明，不同的模型產生了顯著不同的特征重要性層次結構——這是由于缺乏客觀驗證機制而導致的根本性不一致。

在材料研究人員（包括Hou等人）中，存在關于三個關鍵方法論誤區的重大知識空白：數據分析工具所基于的基本假設的違反、針對真實標簽驗證模型解釋的固有挑戰，以及可能產生誤導結果的預處理技術（如歸一化和轉換技術）。大量經過同行評審的文獻（超過300篇）系統地記錄了所有現代監督學習模型（包括XGBoost）衍生的特征重要性指標的基本局限性[2]、[3]、[4]、[5]、[6]、[7]。該領域普遍存在的誤解是，提高預測準確性必然會增強變量關系的解釋能力，但實際上，預測準確性和特征重要性的可靠性在機器學習應用中代表的是不同的、往往是正交的挑戰[8]、[9]、[10]、[11]、[12]。在材料科學應用中，這種區別尤為重要，因為因果理解而不僅僅是預測能力，對于推進材料科學的基本知識至關重要。

表達為“解釋 = SHAP（模型）”的功能關系表明，SHAP解釋本質上繼承并可能放大基礎模型特征重要性計算中存在的偏見[13]、[14]、[15]、[16]、[17]、[18]。盡管SHAP作為一種可解釋性工具得到了廣泛采用，但其解釋仍然受到模型特定偏見和假設的根本限制。因此，特征重要性指標主要反映了對預測結果的貢獻，而不是變量之間的真實因果關系。這意味著高預測準確性并不一定轉化為可靠的特征重要性排名。

在無法準確計算變量之間真實關聯的情況下，本文提倡使用無監督機器學習模型，以避免監督方法的許多解釋誤區。具體來說，特征聚類技術可以根據特征之間的內在相似性而非預測能力對其進行分層聚類，從而揭示以物理上有意義的方式相互作用的材料參數的自然分組。這種方法可以在不施加關于它們與目標變量關系的模型特定偏見的情況下，識別出相關的特征群組。同樣，最初為生物信息學應用開發的高度可變的基因選擇方法也可以適應材料科學，通過基于方差的過濾來識別最具信息量的成分和加工參數，而不是依賴模型的重要性指標。這些技術可以檢測數據集中具有顯著信息內容的特征，而與任何特定目標變量的關系無關。當這些無監督方法與斯皮爾曼相關性等非參數統計方法結合使用時，研究人員可以建立材料參數和性能之間更穩健的、不依賴于模型的關聯，從而更好地反映潛在的物理關系，而不是算法產生的偽影。這種全面的分析框架為材料知識的發現提供了比僅依賴SHAP等模型特定可解釋性工具更嚴格的基礎。

研究人員在將機器學習應用于材料科學時，利用領域知識至關重要。必須解決三個基本矛盾：高維特征空間與有限樣本量之間的矛盾、模型準確性與應用實用性之間的矛盾，以及算法學習結果與既定領域知識之間的矛盾[21]。在這項工作中，我們通過在建模過程中融入材料科學原理來緩解這些挑戰。我們的特征選擇過程結合了對材料屬性的物理化學理解，并通過已知的材料行為模式來驗證模型預測，以確保物理上的合理性。此外，我們評估了輸入特征與預測結果之間的一致性和劑量-響應關系，提供了與材料科學理論一致的機制解釋性。這種嵌入領域知識的方法遵循了材料信息學最新進展的建議，強調了在整個機器學習建模過程中領域專業知識的重要性。

數據的質量和數量對機器學習結果在材料研究中的可靠性和泛化能力至關重要，而嵌入領域知識的治理框架為評估和改進數據集提供了生命周期策略，以支持高質量、適當數量的數據采集和模型部署。基于這些原則，我們的研究強調了真正的關聯評估——這一方面經常被忽視——通過明確檢查一致性和劑量-響應關系來實現。具體來說，我們提出了一種leave-top1-out程序，該程序移除影響最大的特征，并重新評估特征排名順序和模型性能，以識別潛在的由主導因素引起的偽影，增強對虛假相關性的魯棒性，并確保在特征空間發生擾動時學習到的關系仍然成立。這種方法通過提供與材料領域知識對齊的關聯級別驗證，補充了數據治理工作。

方法部分

由于Hou等人的原始數據集不可用，本研究使用了包含1154個實例和31個特征的公開鋁合金數據集[19]，以系統地評估特征選擇方法。該數據集包含了鋁合金的成分和加工條件信息。包括的機械性能有屈服強度、抗拉強度和伸長率。此外，數據集還提供了關于所屬類別的信息

結果

為了可重復性和透明度，Python代碼alloy.py已在GitHub上公開[20]。如表1所示，交叉驗證結果顯示不同算法類別在預測性能和特征排名穩定性方面存在顯著差異。使用前五個特征時，隨機森林獲得了最高的初始5折交叉驗證R2分數（0.9801），其中“屈服強度（MPa）”被確定為最重要的特征。然而，當移除這個最高排名的特征后

討論

我們的研究結果表明，在材料科學的機器學習應用中，預測準確性和特征重要性穩定性之間存在根本性的脫節。盡管帶有/不帶有SHAP的監督模型取得了令人印象深刻的R2分數（0.956–0.9802），但在移除排名最高的特征后，它們的特征排名表現出令人擔憂的不穩定性。這種不穩定性表現為重要性層次的完全重組，有些特征從排名中完全消失

CRediT作者貢獻聲明

竹藤良安：撰寫 – 審稿與編輯，撰寫 – 原始草稿，可視化，驗證，軟件，方法論，調查，形式分析，數據管理，概念化。

利益沖突聲明

作者聲明他們沒有已知的可能會影響本文所述工作的財務利益或個人關系。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號