隨著人工智能分析工具的出現,《計算材料科學》期刊發表了許多采用機器學習方法的文章:截至2025年10月20日,共有1046篇論文使用機器學習(其中2025年有228篇,2026年有9篇),153篇論文關注特征選擇(2025年有29篇),76篇論文實現了XGBoost(2025年有24篇),以及50篇論文結合了SHAP分析(2025年有19篇)。這一發表趨勢清楚地表明了材料科學界對人工智能應用的日益關注。然而,由于對機器學習基礎知識的理解不足,研究中普遍存在誤用現象。本文系統地指出了監督學習在特征選擇中的常見誤區,并通過使用公開數據集進行全面的交叉驗證,嚴格評估了監督學習模型、無監督方法和非目標預測方法的相對有效性。研究結果強調,特征選擇在數據驅動的材料分析中起著關鍵作用,特別是在發現具有多樣化性能的新復合合金以滿足特定工業需求方面。
該領域的一個關鍵挑戰是,許多研究人員不了解監督模型的可靠性約束。諸如極端梯度提升(XGBoost)和隨機森林之類的監督算法表現出兩種不同類型的準確性,這兩種準確性經常被混淆:目標預測準確性和特征重要性準確性。雖然目標預測準確性可以通過與真實標簽值進行系統驗證,但特征重要性缺乏相應的真實標簽值進行準確性驗證。因此,不同的模型會產生不同的特征重要性排名,導致在實踐中可能出錯的模型特定解釋。這種區別尤為重要,因為監督模型中的特征重要性反映了對預測性能的貢獻,而不是與目標變量的真實因果或相關性關聯。即使模型具有高目標預測準確性,由于缺乏客觀的驗證指標,也可能產生不可靠的特征重要性排名。
這些限制的實際影響可以在最近的研究中觀察到。例如,Hou等人對鋁合金鑄件中的人工智能應用進行了開創性的研究[1]。他們對七種不同的人工智能算法進行了系統的評估,發現XGBoost在準確預測微觀結構特征方面表現優異。為了解決可解釋性問題,研究人員實施了Shapley Additive exPlanations(SHAP)分析,以闡明特定合金成分、加工參數和所得微觀結構特征之間的復雜關系。盡管這種分析框架試圖彌合復雜的機器學習技術和基本物理冶金原理之間的差距,但我們的工作表明,這樣的方法仍可能受到監督學習在特征選擇方面的固有限制,可能導致對微觀結構形成機制的實際驅動因素的誤解。
盡管Hou等人在預測準確性方面取得了顯著成就,但由于監督學習算法的模型特定性質,他們的方法在XGBoost的SHAP解釋方面引發了根本性的擔憂。雖然像XGBoost這樣的監督學習模型可以從真實標簽值中驗證目標預測準確性,但它們生成的特征重要性排名缺乏相應的真實標簽值進行驗證。Hou等人自己的研究也表明,不同的模型產生了顯著不同的特征重要性層次結構——這是由于缺乏客觀驗證機制而導致的根本性不一致。
在材料研究人員(包括Hou等人)中,存在關于三個關鍵方法論誤區的重大知識空白:數據分析工具所基于的基本假設的違反、針對真實標簽驗證模型解釋的固有挑戰,以及可能產生誤導結果的預處理技術(如歸一化和轉換技術)。大量經過同行評審的文獻(超過300篇)系統地記錄了所有現代監督學習模型(包括XGBoost)衍生的特征重要性指標的基本局限性[2]、[3]、[4]、[5]、[6]、[7]。該領域普遍存在的誤解是,提高預測準確性必然會增強變量關系的解釋能力,但實際上,預測準確性和特征重要性的可靠性在機器學習應用中代表的是不同的、往往是正交的挑戰[8]、[9]、[10]、[11]、[12]。在材料科學應用中,這種區別尤為重要,因為因果理解而不僅僅是預測能力,對于推進材料科學的基本知識至關重要。
表達為“解釋 = SHAP(模型)”的功能關系表明,SHAP解釋本質上繼承并可能放大基礎模型特征重要性計算中存在的偏見[13]、[14]、[15]、[16]、[17]、[18]。盡管SHAP作為一種可解釋性工具得到了廣泛采用,但其解釋仍然受到模型特定偏見和假設的根本限制。因此,特征重要性指標主要反映了對預測結果的貢獻,而不是變量之間的真實因果關系。這意味著高預測準確性并不一定轉化為可靠的特征重要性排名。
在無法準確計算變量之間真實關聯的情況下,本文提倡使用無監督機器學習模型,以避免監督方法的許多解釋誤區。具體來說,特征聚類技術可以根據特征之間的內在相似性而非預測能力對其進行分層聚類,從而揭示以物理上有意義的方式相互作用的材料參數的自然分組。這種方法可以在不施加關于它們與目標變量關系的模型特定偏見的情況下,識別出相關的特征群組。同樣,最初為生物信息學應用開發的高度可變的基因選擇方法也可以適應材料科學,通過基于方差的過濾來識別最具信息量的成分和加工參數,而不是依賴模型的重要性指標。這些技術可以檢測數據集中具有顯著信息內容的特征,而與任何特定目標變量的關系無關。當這些無監督方法與斯皮爾曼相關性等非參數統計方法結合使用時,研究人員可以建立材料參數和性能之間更穩健的、不依賴于模型的關聯,從而更好地反映潛在的物理關系,而不是算法產生的偽影。這種全面的分析框架為材料知識的發現提供了比僅依賴SHAP等模型特定可解釋性工具更嚴格的基礎。
研究人員在將機器學習應用于材料科學時,利用領域知識至關重要。必須解決三個基本矛盾:高維特征空間與有限樣本量之間的矛盾、模型準確性與應用實用性之間的矛盾,以及算法學習結果與既定領域知識之間的矛盾[21]。在這項工作中,我們通過在建模過程中融入材料科學原理來緩解這些挑戰。我們的特征選擇過程結合了對材料屬性的物理化學理解,并通過已知的材料行為模式來驗證模型預測,以確保物理上的合理性。此外,我們評估了輸入特征與預測結果之間的一致性和劑量-響應關系,提供了與材料科學理論一致的機制解釋性。這種嵌入領域知識的方法遵循了材料信息學最新進展的建議,強調了在整個機器學習建模過程中領域專業知識的重要性。
數據的質量和數量對機器學習結果在材料研究中的可靠性和泛化能力至關重要,而嵌入領域知識的治理框架為評估和改進數據集提供了生命周期策略,以支持高質量、適當數量的數據采集和模型部署。基于這些原則,我們的研究強調了真正的關聯評估——這一方面經常被忽視——通過明確檢查一致性和劑量-響應關系來實現。具體來說,我們提出了一種leave-top1-out程序,該程序移除影響最大的特征,并重新評估特征排名順序和模型性能,以識別潛在的由主導因素引起的偽影,增強對虛假相關性的魯棒性,并確保在特征空間發生擾動時學習到的關系仍然成立。這種方法通過提供與材料領域知識對齊的關聯級別驗證,補充了數據治理工作。