多元素地球化學調查是礦產勘探的基礎工具,提供了關于元素分布、前導礦物關聯以及不同地質環境中礦化潛力的關鍵信息(Carranza, 2008; Grunsky, 2010)。分析技術的進步,特別是在電感耦合等離子體質譜(ICP-MS)方面,使得能夠在單次分析中同時確定數十種元素,生成捕捉復雜地球化學特征的高維數據集(Reimann and de Caritat, 2017)。雖然這些數據集提供了前所未有的分析機會,但其解釋卻面臨重大的方法論挑戰。傳統的單變量方法無法捕捉到成礦過程中的多元素關聯,而多變量統計技術往往在沒有充分考慮地球化學數據統計結構的情況下被應用(Filzmoser et al., 2009; Zuo and Carranza, 2011)。
區域和全球地球化學數據庫的迅速擴展進一步加劇了這些挑戰。大規模的匯編現在包含數十萬個多元素分析結果(Reimann et al., 2018),這促使人們采用數據驅動的分析方法。因此,機器學習方法在地球科學應用中越來越受到重視,包括礦產潛力制圖(Rodriguez-Galiano et al., 2015)、巖石分類(Cracknell and Reading, 2014)和地球化學異常檢測(Chen and Wu, 2017; Xiong and Zuo, 2020)。這些方法在識別高維數據中的復雜非線性關系方面表現出色。然而,大多數機器學習算法是為不受約束的歐幾里得特征空間設計的,而地球化學濃度數據從根本上違反了這一假設。
地球化學數據本質上是組合性的,代表了一個受總和常數約束的整體的一部分(Aitchison, 1986)。這種閉合約束導致了虛假的相關性,即成分之間的表觀關系純粹是由數學依賴性而非潛在的地球化學過程引起的(Chayes, 1960; Pearson, 1897)。這種偽影污染了標準的統計分析,包括相關分析、主成分分析和回歸分析,可能導致誤導性的地質解釋(Buccianti et al., 2006; Rollinson, 2014)。這些效應的嚴重性隨著維度的增加而增加,使得現代多元素地球化學數據集特別容易發生失真(Weltje, 2002)。
組成數據分析(CoDA)提供了一個數學上嚴謹的框架,通過在單純形空間而不是歐幾里得空間內處理組成數據來解決這些挑戰(Aitchison, 1986; Pawlowsky-Glahn et al., 2015)。在Aitchison幾何結構中,距離和統計運算基于相對信息進行定義,確保了尺度不變性和子組成一致性(Egozcue et al., 2003)。對數比率變換將組成數據從單純形空間映射到實空間,同時保留了基本的幾何屬性。中心對數比率(CLR)變換廣泛用于解釋和可視化,而等距對數比率(ILR)變換提供了適合傳統統計和機器學習算法的正交坐標(Egozcue and Pawlowsky-Glahn, 2005)。
盡管CoDA在地球化學領域有堅實的理論基礎和已證明的好處(Buccianti et al., 2006; Filzmoser and Hron, 2015),但其與現代機器學習的整合仍然有限。大多數地球化學機器學習研究仍然在原始濃度或簡單對數變換數據上操作,實際上將組成數據視為不受約束的歐幾里得向量(Chen and Wu, 2017; Xiong et al., 2022; Yang and Zuo, 2024)。即使應用了對數比率變換,它們通常也僅作為預處理步驟,而模型架構和損失函數保持不變(Huang et al., 2017)。因此,神經網絡可能仍然學習到由閉合約束引起的結構,而不是具有地球化學意義的模式。
自編碼器為高維地球化學數據中的異常檢測提供了一個強大的無監督框架,通過學習背景結構的緊湊潛在表示并通過升高的重建誤差來識別異常樣本(Chen and Wu, 2017; Hinton and Salakhutdinov, 2006; Pan et al., 2022)。變分自編碼器通過引入概率潛在空間擴展了這種方法,使得不確定性量化和異構數據分布的表示得到改進(Diederik and Max, 2019; Luo et al., 2020)。這些屬性對于地球化學應用特別有吸引力,因為在這些應用中異常樣本很少見,且標記的訓練數據通常不可用。然而,當使用標準的歐幾里得損失函數進行訓練時,自編碼器和變分自編碼器仍然容易受到組成約束引起的失真影響。
組成數據理論與深度學習之間的脫節代表了一個關鍵的方法論差距。盡管幾何深度學習已經證明了尊重非歐幾里得數據結構的重要性(Bronstein et al., 2017),但尚未系統地將Aitchison幾何結構明確納入神經網絡優化中,用于地球化學數據。特別是,還沒有先前的研究在自編碼器框架中實現基于Aitchison距離的損失函數,或進行嚴格的基準測試來量化組成數據意識對地球化學異常檢測的好處(Prasianakis et al., 2025)。
鑒于對能源轉型技術所需的關鍵礦產的需求不斷增加,這一差距變得越來越重要。預計未來幾十年全球對鋰、鈷、鎳和稀土元素的需求將大幅增長(國際能源署,2021年),這對勘探效率和目標優先級提出了壓力(Schodde, 2025)。改進的異常檢測可以直接減少誤報,并提高礦產勘探的經濟和環境可持續性。
在這項研究中,我們開發了一個具有組成數據意識的深度學習框架,用于地球化學異常檢測,該框架在整個建模過程中明確尊重單純形幾何結構。該框架將CLR和ILR變換與自編碼器架構相結合,并引入了基于Aitchison距離的自定義損失函數,確保神經網絡優化與組成數據的統計結構保持一致。我們與在原始數據上訓練的標準自編碼器、經典統計異常檢測方法和已建立的地球化學技術進行了系統基準測試,提供了組成數據意識深度學習性能提升的第一個定量證據。
該框架使用來自坦桑尼亞太古代綠巖帶Singida地區的多元素土壤地球化學數據集進行了演示,該地區以結構控制的金礦化為特征。除了異常檢測性能外,該研究還檢查了潛在空間結構和地質可解釋性,評估了具有組成數據意識的模型是否學習了與已知巖石組合和礦化過程一致的模式。這項工作提高了地球化學機器學習的統計嚴謹性和實際效果,并將其影響擴展到其他組成數據領域,通過在一個連貫的方法論框架內統一了組成數據分析和深度學習。