《Computers & Geosciences》:Uncertainty quantification using Hamiltonian Monte Carlo for structural geological modelling with implicit neural representations (INR)
編輯推薦:
為了解決基于人工智能的地質建模方法在預測不確定性表征上的關鍵空白,研究人員將高效的隱式神經表征(INR)地質建模框架GeoINR與基于貝葉斯神經網絡(BNN)的哈密頓蒙特卡洛(HMC)采樣器相結合。該方法探索了網絡參數和觀測數據不確定性所導致的完整地質模型實現空間,定量評估了預測地質界面的不確定性。實驗在北海無噪聲鉆孔和加拿大薩斯喀徹溫省有噪聲測井數據集上均取得良好效果,且在評估無噪聲數據認知不確定性方面,相比常用的蒙特卡洛Dropout方法表現出更優的準確性,為地質建模中的AI不確定性量化提供了更準確的新工具。
地質學家和工程師們一直在努力“透視”地球的內部,構建精確的三維地質模型。這不僅是尋找礦產資源、開發油氣田和進行地下水管理的基石,也是支撐碳封存選址等可持續發展議題的關鍵。傳統的三維地質建模方法主要分為顯式建模和隱式建模兩大類。顯式方法對每個地質界面進行獨立構建,幾何清晰度好,但需要大量人工干預,效率和適應性受限。隱式方法,尤其是其中的無網格方法,則通過一個標量場來同時表示多個共形界面,自動化程度高,尤其擅長處理不完整和分散的數據。然而,當需要整合海量地質數據和先驗知識時,隱式方法背后的數學模型會在可擴展性上面臨挑戰,因為它需要用一個高一維度的標量場(對于三維地質建模而言,即一個三維標量場)來插值表示二維的地質界面。
近年來,神經網絡技術的發展帶來了轉機。它被證明是克服隱式地質結構建模可擴展性限制的有效插值器。以GeoINR(Geological Implicit Neural Representations)為代表的方法,借鑒計算機視覺領域神經輻射場(NeRF)技術,利用神經網絡直接學習從空間坐標到標量場的映射,能夠靈活集成先驗知識,顯著提升了建模效率和分辨率獨立性。然而,一個問題依然懸而未決:當我們用這些神經網絡模型進行地質預測時,我們究竟有多大的把握?
這正是本研究要解決的核心問題。神經網絡訓練過程涉及高度非凸的損失函數優化,網絡參數的隨機初始化會導致不同訓練次數的預測結果出現差異。此外,觀測數據本身也可能存在噪聲和不完整性。這些都引入了不確定性。以往的研究通常設置固定隨機種子以獲得可復現的單一確定性結果,但這僅是巨大解空間中的一個可能實現。量化神經網絡地質建模中的不確定性,特別是區分由數據噪聲(偶然不確定性)和模型本身認知不足(認知不確定性)帶來的影響,仍是一個開放的挑戰。
為了解決這一關鍵空白,來自德國亞琛工業大學(RWTH Aachen University)計算地球科學、地熱學與儲層地球物理研究所(CG3)的Kaifeng Gao, Michael Hillier 和 Florian Wellmann開展了一項創新性研究。他們提出將哈密頓蒙特卡洛(Hamiltonian Monte Carlo, HMC)采樣器與GeoINR地質建模框架相結合,構建一個貝葉斯神經網絡(Bayesian Neural Network, BNN)模型,以量化隱式神經表征中預測地質界面的不確定性。該研究成果發表在《Computers & Geosciences》期刊上。
主要關鍵技術方法
研究人員將GeoINR的神經網絡架構作為BNN的基礎,其中網絡參數被視為服從分布的隨機變量,而非固定值。他們采用了漢明(Kaiming)正態分布作為參數的先驗分布。不確定性量化的核心是使用No-U-Turn Sampler(NUTS)——一種自適應HMC采樣算法——來高效地從網絡參數的后驗分布中進行采樣。通過對觀測數據(即已知地質界面的空間坐標和對應的預設標量值)進行學習,HMC利用目標后驗分布的梯度信息在函數空間中進行高效探索,生成一系列網絡參數樣本。利用這些參數樣本,可以生成對應的預測標量場,進而提取地質界面。通過計算大量采樣模型結果的統計量(如均值、方差)和信息熵,來量化并可視化地質界面的不確定性。研究使用了兩個真實數據集進行驗證:一是來自荷蘭TNO地質調查局公開數據庫(DINOloket)的北海無噪聲鉆孔數據集(共13個鉆孔,5個地質單元,63個界面點);二是來自加拿大薩斯喀徹溫省的有噪聲地球物理測井解釋數據集。
研究結果
1. 無噪聲數據集中的不確定性
在北海鉆孔數據集的案例中,研究者主要關注由模型認知不足引起的認知不確定性(即“Type 2”不確定性)。經過400步預熱和1500次采樣后,HMC采樣器接受率達到87%,表明采樣高效。通過計算1500個采樣標量場的信息熵(Entropy),研究者可視化并量化了地質界面預測的不確定性(見圖3d, e)。結果表明,在觀測數據(鉆孔)附近,不確定性最低;隨著遠離數據點,不確定性逐漸增加。這與地質建模中“數據約束越強,不確定性越低”的直觀認知相符。為了定量評估不確定性估計的準確性,研究者繪制了準確度圖(Accuracy Plot),并將HMC-BNN方法與常用的蒙特卡洛Dropout(Monte Carlo Dropout)方法進行了比較。在該無噪聲數據集中,HMC-BNN方法的不確定性精度為0.7,精確度為0.99,其校準曲線更接近理想的45度對角線,說明其不確定性量化比蒙特卡洛Dropout方法更為準確和可靠(見圖4)。蒙特卡洛Dropout方法在較高置信水平下傾向于低估不確定性。
2. 含噪聲數據集中的不確定性
第二個案例使用來自薩斯喀徹溫省的地球物理測井解釋數據,數據本身包含解釋噪聲,因此同時包含了認知不確定性和偶然不確定性(即“Type 1”不確定性)。HMC-BNN方法同樣能夠處理這種混合不確定性,并產生合理的不確定性空間分布。結果顯示,整體不確定性水平比無噪聲案例更高,這反映了數據噪聲帶來的額外影響。該案例再次驗證了HMC-BNN方法在量化實際觀測數據不確定性方面的有效性。
3. 包含正斷層的簡單場景應用
為了進一步測試方法的普適性,研究者還將其應用于一個包含平坦地層中一個正斷層的簡單構造場景。通過將斷層面作為建模約束納入損失函數,HMC-BNN方法成功地對該斷層場景下的地質界面不確定性進行了量化,證明了該方法能夠擴展至包含斷裂等復雜地質構造的情形。
結論與討論
本研究成功地將哈密頓蒙特卡洛(HMC)采樣器集成到基于隱式神經表征(INR)的GeoINR地質建模框架中,建立了一種新的貝葉斯神經網絡(BNN)方法,用于量化地質界面預測中的不確定性。研究在兩個真實數據集(無噪聲鉆孔和有噪聲測井數據)以及一個包含斷層的簡單構造場景中驗證了方法的有效性。結果表明,HMC采樣器能夠高效地探索網絡參數在函數空間中的后驗分布,并生成準確且可解釋的不確定性估計。
與當前廣泛使用的近似貝葉斯推斷方法(如蒙特卡洛Dropout)相比,HMC-BNN方法在無噪聲數據集上對認知不確定性的評估更為準確。這是因為HMC是一種精確的馬爾可夫鏈蒙特卡洛(MCMC)方法,能更準確地從后驗分布中采樣,避免了近似方法可能低估不確定性的問題。這對于依賴高置信度地質模型進行關鍵決策(如資源評估、工程選址)的領域具有重要意義。
同時,研究也指出了該方法的潛在挑戰,即在大數據集和復雜網絡情況下的計算效率問題。盡管現代GPU硬件和PyTorch等框架使得全批量HMC計算成為可能,但對于更大規模的問題,仍需在計算效率和推斷精度之間尋求平衡。未來工作可以探索更高效的近似方法或隨機梯度哈密頓蒙特卡洛(SGHMC)等變體,以提升可擴展性。
總之,這項工作為地質建模領域引入了一種新穎且強大的AI不確定性量化工具。它將嚴謹的貝葉斯推斷與前沿的隱式神經表征相結合,不僅能夠生成“最佳估計”地質模型,還能提供關于模型預測可靠性的量化指標。這標志著地質建模從追求單一確定性解向擁抱概率化、可解釋性AI決策支持系統邁出了堅實的一步,對于推動地球科學領域的智能化、精細化發展具有重要的理論和應用價值。