av动态,五月天成人社区,一区二区三区免费

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

基于組合數據感知的深度學習方法用于地球化學異常檢測：一種新的礦物勘探潛力繪圖框架

《Physics and Chemistry of the Earth, Parts A/B/C》：Compositional Data-Aware Deep Learning for Geochemical Anomaly Detection: A Novel Framework for Mineral Prospectivity Mapping

【字體：大中小】 時間：2026年02月23日 來源：Physics and Chemistry of the Earth, Parts A/B/C 3.0

編輯推薦：

　　本研究提出基于艾奇遜幾何的地球化學數據深度學習框架，整合中心對數比（CLR）和等距對數比（ILR）變換與自編碼器架構，采用定制化Aitch遜距離損失函數。在坦桑尼亞Archean綠巖帶163份土壤樣本（43元素）驗證中，該框架實現60%的重建精度提升，較標準自編碼器提高11%，并準確識別出鋰、鈮、鉭等關鍵元素富集異常樣本。潛在空間聚類揭示出兩大地質成因區域，證實了該方法在多元素地球化學分析中的有效性，為能源轉型關鍵礦產勘探提供新工具。

Sidique Gawusu|Mahamuda Abu|Benatus Norbert Mvile

南京工業大學能源與動力工程學院，中國南京

摘要

由于閉合約束，地球化學數據存在于單純形空間中，其中各元素的濃度之和為一個常數。傳統的機器學習方法忽略了這種組成性質，將地球化學數據視為不受約束的歐幾里得向量，從而產生虛假的相關性，并導致異常檢測效果不佳。本研究開發了一個具有組成數據意識的深度學習框架，該框架在利用神經網絡的非線性模式識別能力的同時，明確尊重單純形幾何結構。該方法結合了中心對數比率（CLR）和等距對數比率（ILR）變換，并采用基于Aitchison距離的自編碼器架構，在優化過程中保持組成結構。該框架使用來自坦桑尼亞太古代綠巖帶的163個多元素土壤樣本（43種元素）進行了訓練，并通過空間交叉驗證和與六種替代方法的系統基準測試進行了驗證。具有組成數據意識的模型在重建準確性上比原始數據方法提高了60%，比標準自編碼器提高了11%，其中ILR變換的R²值為0.921。該框架識別出九個表現出系統性關鍵元素富集的異常樣本：鋰（r = -0.70，與礦化向量相關）、鈮（r = -0.68）、鉭（r = -0.67）、釷（富集因子 = 2.22）、銅（1.89）和砷（1.64）。無監督的潛在空間聚類揭示了兩個地球化學上不同的區域，分別對應于基性（54.6%，富含鎳）和長英質（45.4%，富含釷）的巖石組合，展示了具有地質意義的模式學習。該框架提供了數學上嚴謹的地球化學機器學習方法，解決了組成-歐幾里得幾何結構的不兼容性問題。這種可轉移的方法對關鍵礦產勘探效率具有啟示意義，特別是對于能源轉型技術所需的電池金屬和稀土元素。

引言

多元素地球化學調查是礦產勘探的基礎工具，提供了關于元素分布、前導礦物關聯以及不同地質環境中礦化潛力的關鍵信息（Carranza, 2008; Grunsky, 2010）。分析技術的進步，特別是在電感耦合等離子體質譜（ICP-MS）方面，使得能夠在單次分析中同時確定數十種元素，生成捕捉復雜地球化學特征的高維數據集（Reimann and de Caritat, 2017）。雖然這些數據集提供了前所未有的分析機會，但其解釋卻面臨重大的方法論挑戰。傳統的單變量方法無法捕捉到成礦過程中的多元素關聯，而多變量統計技術往往在沒有充分考慮地球化學數據統計結構的情況下被應用（Filzmoser et al., 2009; Zuo and Carranza, 2011）。

區域和全球地球化學數據庫的迅速擴展進一步加劇了這些挑戰。大規模的匯編現在包含數十萬個多元素分析結果（Reimann et al., 2018），這促使人們采用數據驅動的分析方法。因此，機器學習方法在地球科學應用中越來越受到重視，包括礦產潛力制圖（Rodriguez-Galiano et al., 2015）、巖石分類（Cracknell and Reading, 2014）和地球化學異常檢測（Chen and Wu, 2017; Xiong and Zuo, 2020）。這些方法在識別高維數據中的復雜非線性關系方面表現出色。然而，大多數機器學習算法是為不受約束的歐幾里得特征空間設計的，而地球化學濃度數據從根本上違反了這一假設。

地球化學數據本質上是組合性的，代表了一個受總和常數約束的整體的一部分（Aitchison, 1986）。這種閉合約束導致了虛假的相關性，即成分之間的表觀關系純粹是由數學依賴性而非潛在的地球化學過程引起的（Chayes, 1960; Pearson, 1897）。這種偽影污染了標準的統計分析，包括相關分析、主成分分析和回歸分析，可能導致誤導性的地質解釋（Buccianti et al., 2006; Rollinson, 2014）。這些效應的嚴重性隨著維度的增加而增加，使得現代多元素地球化學數據集特別容易發生失真（Weltje, 2002）。

組成數據分析（CoDA）提供了一個數學上嚴謹的框架，通過在單純形空間而不是歐幾里得空間內處理組成數據來解決這些挑戰（Aitchison, 1986; Pawlowsky-Glahn et al., 2015）。在Aitchison幾何結構中，距離和統計運算基于相對信息進行定義，確保了尺度不變性和子組成一致性（Egozcue et al., 2003）。對數比率變換將組成數據從單純形空間映射到實空間，同時保留了基本的幾何屬性。中心對數比率（CLR）變換廣泛用于解釋和可視化，而等距對數比率（ILR）變換提供了適合傳統統計和機器學習算法的正交坐標（Egozcue and Pawlowsky-Glahn, 2005）。

盡管CoDA在地球化學領域有堅實的理論基礎和已證明的好處（Buccianti et al., 2006; Filzmoser and Hron, 2015），但其與現代機器學習的整合仍然有限。大多數地球化學機器學習研究仍然在原始濃度或簡單對數變換數據上操作，實際上將組成數據視為不受約束的歐幾里得向量（Chen and Wu, 2017; Xiong et al., 2022; Yang and Zuo, 2024）。即使應用了對數比率變換，它們通常也僅作為預處理步驟，而模型架構和損失函數保持不變（Huang et al., 2017）。因此，神經網絡可能仍然學習到由閉合約束引起的結構，而不是具有地球化學意義的模式。

自編碼器為高維地球化學數據中的異常檢測提供了一個強大的無監督框架，通過學習背景結構的緊湊潛在表示并通過升高的重建誤差來識別異常樣本（Chen and Wu, 2017; Hinton and Salakhutdinov, 2006; Pan et al., 2022）。變分自編碼器通過引入概率潛在空間擴展了這種方法，使得不確定性量化和異構數據分布的表示得到改進（Diederik and Max, 2019; Luo et al., 2020）。這些屬性對于地球化學應用特別有吸引力，因為在這些應用中異常樣本很少見，且標記的訓練數據通常不可用。然而，當使用標準的歐幾里得損失函數進行訓練時，自編碼器和變分自編碼器仍然容易受到組成約束引起的失真影響。

組成數據理論與深度學習之間的脫節代表了一個關鍵的方法論差距。盡管幾何深度學習已經證明了尊重非歐幾里得數據結構的重要性（Bronstein et al., 2017），但尚未系統地將Aitchison幾何結構明確納入神經網絡優化中，用于地球化學數據。特別是，還沒有先前的研究在自編碼器框架中實現基于Aitchison距離的損失函數，或進行嚴格的基準測試來量化組成數據意識對地球化學異常檢測的好處（Prasianakis et al., 2025）。

鑒于對能源轉型技術所需的關鍵礦產的需求不斷增加，這一差距變得越來越重要。預計未來幾十年全球對鋰、鈷、鎳和稀土元素的需求將大幅增長（國際能源署，2021年），這對勘探效率和目標優先級提出了壓力（Schodde, 2025）。改進的異常檢測可以直接減少誤報，并提高礦產勘探的經濟和環境可持續性。

在這項研究中，我們開發了一個具有組成數據意識的深度學習框架，用于地球化學異常檢測，該框架在整個建模過程中明確尊重單純形幾何結構。該框架將CLR和ILR變換與自編碼器架構相結合，并引入了基于Aitchison距離的自定義損失函數，確保神經網絡優化與組成數據的統計結構保持一致。我們與在原始數據上訓練的標準自編碼器、經典統計異常檢測方法和已建立的地球化學技術進行了系統基準測試，提供了組成數據意識深度學習性能提升的第一個定量證據。

該框架使用來自坦桑尼亞太古代綠巖帶Singida地區的多元素土壤地球化學數據集進行了演示，該地區以結構控制的金礦化為特征。除了異常檢測性能外，該研究還檢查了潛在空間結構和地質可解釋性，評估了具有組成數據意識的模型是否學習了與已知巖石組合和礦化過程一致的模式。這項工作提高了地球化學機器學習的統計嚴謹性和實際效果，并將其影響擴展到其他組成數據領域，通過在一個連貫的方法論框架內統一了組成數據分析和深度學習。

研究區域

Singida地區位于坦桑尼亞中部，是坦桑尼亞克拉通的重要組成部分（圖S23）。研究區域涵蓋了大約729平方公里的太古代基底地形，其特征是復雜的構造歷史和多次巖漿作用和變形事件（Kabete et al., 2012）。地理坐標范圍大約在4°45'S至5°15'S緯度和34°15'E至34°45'E經度之間，位于坦桑尼亞中部高原

樣本采集

Singida地區的土壤地球化學采樣遵循了系統的設計，覆蓋了大約729平方公里的太古代基底地形。共收集了163個樣本，包括97個原始樣本和66個現場重復樣本，以評估分析的可重復性和空間變異性。采樣針對B層（深度20-30厘米），因為這一土壤層表現出最佳的重元素保留能力和最小的有機污染（Kalimenze et al.,

描述性統計

地球化學數據集包含163個樣本，分析了39種元素，濃度涵蓋了主要元素、次要元素和微量元素類別的多個數量級。表1展示了16種關鍵元素在原始數據（接近100%）和中心對數比率（CLR）變換組成空間中的描述性統計信息。原始數據表現出顯著的變異性，變異系數范圍從33.3%（Pb）到162.6%（Au）。金元素表現出最高的變異性和極端

組成數據方法與非組成數據方法

ILR變換后的自編碼器相對于原始數據方法的60.1% RMSE改進量化了通過組成數據意識可以實現的性能提升，這遠遠超過了先前地質應用中報告的15-30%的誤差減少（van den Boogaart and Tolosana-Delgado, 2013）在地質統計估計中記錄的改進，而Reimann and de Caritat（2017）在地球化學制圖應用中觀察到適度的改進（5-15%）。

結論

本研究開發并驗證了一個具有組成數據意識的深度學習框架，用于地球化學異常檢測，解決了機器學習的幾何假設與組成數據的單純形結構之間的根本差距。主要發現如下：首先，該框架成功地將對數比率變換（CLR, ILR）與自編碼器架構和基于Aitchison距離的自定義損失函數相結合，證明了技術可行性

CRediT作者貢獻聲明

Sidique Gawusu：寫作——審稿與編輯，撰寫——初稿，可視化，驗證，監督，軟件，方法論，概念化。Mahamuda Abu：寫作——審稿與編輯，撰寫——初稿，軟件，方法論，調查，數據管理，概念化。Benatus Norbert Mvile：寫作——審稿與編輯，撰寫——初稿，調查，數據管理

利益沖突聲明

作者聲明他們沒有利益沖突。

數據可用性聲明

支持本研究發現的數據可向相應作者請求獲得。由于隱私或倫理限制，這些數據不公開。

資金來源

本研究未獲得公共、商業或非營利部門的任何特定資助。

利益沖突聲明

作者聲明他們沒有已知的利益沖突或個人關系可能影響本文報告的工作

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號