《Geoenergy Science and Engineering》:Explainable Machine Learning and Deep Learning for Productive Zone Identification in Tight Sandstone Reservoirs: Integrating PROMETHEE-II and Class Imbalance Handling
編輯推薦:
本研究提出整合可解釋機器學習與PROMETHEE-II多準則決策的框架,用于解決致密砂巖儲層中地質異質性和類別不平衡問題。在西非數據集上,模型實現F1=0.95、召回率100%、ROC-AUC=1.00的高效預測,并通過SHAP分析驗證地質一致性,但需注意模型在不同地質條件下的泛化風險。
阿米爾·加拉維(Amir Gharavi)| 艾丹·奧沙利文(Aidan O’Sullivan)| 馬利克·哈達德(Malik Haddad)| 穆罕默德·G·哈桑(Mohamed G. Hassan)| 雷哈姆·阿拉斯馬爾(Reham Alasmar)| 帕里亞·尤塞菲(Paria Yousefi)| 薩拉姆·阿爾-薩格(Salam Al-Saegh)
倫敦大學學院(University College London, UCL),巴特利特環境、能源與資源學院(Bartlett School of Environment, Energy & Resources, BSEER),UCL能源研究所(UCL Energy Institute),中央大樓,14 Upper Woburn Place,倫敦WC1H 0NN,英國
摘要
在致密砂巖儲層中識別產油區受到地質異質性、嚴重的類別不平衡以及模型解釋透明性的要求的阻礙。我們提出了一種集成的、可解釋的機器學習和深度學習工作流程,該流程結合了區域分析和多標準模型選擇,通過偏好排序組織方法進行增強評估(PROMETHEE-II)。將該方法應用于西非致密砂巖數據集后,取得了出色的預測準確性(F1分數=0.95,召回率=1.00,ROC-AUC=1.00)。雖然這些數值表明了該方法對當前數據集的出色區分能力,但它們可能部分反映了數據集特征、分層交叉驗證結構和有效的類別不平衡校正。因此,在推廣這些結果時,應考慮模型的不確定性以及在其他儲層中的性能變化潛力。
該工作流程還使用區域SHapley加性解釋(SHAP)提供了可靠的、經過地質驗證的見解。基于巖心的流動單元和網絡連通性分析進一步證實了預測產油區的可靠性。通過提供透明的“黑箱”解決方案,該框架提高了非常規資源的水力刺激中的儲層生產力分類和運營決策能力。
引言
非常規儲層,特別是滲透率低于0.1 mD的致密砂巖和頁巖層,由于其超低流動能力和復雜的礦物學特性以及顯著的空間異質性,給商業開發帶來了持續挑戰。與傳統儲層不同,這些地層通常需要采用多階段水力壓裂和酸化等先進完井策略才能實現商業流動速率(>100 m3/天)(Ma & Holditch, 2016; Ahmed & Meehan, 2016)。隨著全球能源安全越來越依賴于這些資源的成功開發,對致密儲層的穩健表征和有針對性的開發已成為戰略重點。
機器學習(ML)和深度學習(DL)的最新進展改變了地下數據分析方式,使得在高度異質系統中實現儲層分類、流動單元劃分和生產力預測的自動化工作流程成為可能(Samnioti & Gaganis, 2023; Zhou et al., 2024)。特別是深度學習模型已經證明了從大規模井測井和巖心數據集中提取微妙非線性模式的能力。然而,這些方法的“黑箱”特性限制了透明度,并阻礙了現場層面的信任和操作采用。持續的挑戰包括嚴重的地質異質性、巖石物理變量之間的多重共線性、類別不平衡以及有限的巖心數據,繼續影響模型的泛化能力、可解釋性和實際應用(Rezaee, 2015; Clarkson & Pedersen, 2011)。
我們之前的研究(Gharavi et al., 2022; 2023)從地質和巖石物理角度探討了致密砂巖儲層的特征和生產力行為。本研究在此基礎上,引入了一個集成的、可解釋的機器學習和PROMETHEE-II多標準決策分析框架,專門用于致密砂巖儲層的透明生產力分類。
本研究通過提出一種新穎的、考慮地層的、可解釋的ML/DL框架,用于致密砂巖儲層的二元生產力分類,推動了該領域的發展。與以往的方法不同,我們的工作流程獨特地將多標準決策分析(PROMETHEE-II)與特定區域的可解釋人工智能(XAI)方法相結合,直接解決了類別不平衡和操作可解釋性這兩個長期存在的瓶頸問題。具體來說,本研究通過以下貢獻推動了該領域的發展:
•領域引導的探索性數據分析(EDA):異常值檢測、特征選擇和地質驗證,以確定數據質量和上游地質合理性(Ma et al., 2017; Abzalov, 2016)。
•降維和診斷:主成分分析(PCA)、相關性分析、Winland R35和網絡圖,用于解決多重共線性問題并驗證孔隙結構。
•GeoZone分類:將儲層劃分為三個巖石物理特性不同的相區(A:高質量;B:中等;C:低質量),捕捉垂直異質性并降低區域內復雜性。
•多方法XAI:
應用Shapley加性解釋(SHAP)、局部可解釋模型無關解釋(LIME)和排列重要性,從全局和每個GeoZone中獲得可操作的見解(Bedle & Lubo-Robles, 2024; Deng et al., 2024)。 •穩健的類別不平衡處理:
分層交叉驗證和現代重采樣,以確保可靠地檢測到少數(產油)區間。•比較模型評估和選擇:
PROMETHEE-II多標準決策分析(MCDA),結合F1分數、召回率、精確度、ROC-AUC和計算效率,透明地對模型和超參數進行排名(Brans & Vincke, 1985; Brans et al., 1986; Behzadian et al., 2010)。通過明確結合PROMETHEE-II MCDA進行模型和儲層區域排名,該工作流程實現了透明、基于領域信息的最佳預測策略選擇,支持在類別不平衡、地質復雜的儲層中進行可推廣的、操作上穩健的部署。圖1展示了集成可解釋ML/DL工作流程的示意圖,說明了從數據采集和預處理到降維、區域分類、模型訓練、PROMETHEE-II排名、可解釋性分析和生成操作見解的每個步驟。
將該工作流程應用于西非一個致密砂巖油田后,取得了高預測性能(F1分數0.95,召回率1.00,ROC-AUC 1.00),并通過區域SHAP解釋提供了地質上一致的見解,從而證明了儲層生產力分類的透明度和可解釋性的提升。盡管這些數值表明了該方法對當前數據集的出色區分能力,但在實際儲層應用中幾乎完美的性能并不常見,因此應謹慎解讀。由于地質差異、數據集特征和類別不平衡結構的不同,模型在其他儲層中的表現可能會有所不同。
部分內容
背景和動機
非常規儲層,尤其是滲透率低于0.1 mD的致密砂巖和頁巖層,由于其極低的流動能力和復雜的礦物學特性以及顯著的空間異質性,給商業開發帶來了持續挑戰。與傳統儲層不同,這些地層通常需要采用多階段水力壓裂和酸化等先進完井策略才能實現商業流動速率(>100 m3/天)(Ma & Holditch, 2016; Ahmed & Meehan, 2016)。隨著全球能源安全越來越依賴于這些資源的成功開發,對致密儲層的穩健表征和有針對性的開發已成為戰略要求。
機器學習(ML)和深度學習(DL)的最新進展改變了地下數據分析方式,使得在高度異質系統中實現儲層分類、流動單元劃分和生產力預測的自動化工作流程成為可能(Samnioti & Gaganis, 2023; Zhou et al., 2024)。特別是深度學習模型已經證明了從大規模井測井和巖心數據集中提取微妙非線性模式的能力。然而,這些方法的“黑箱”特性限制了透明度,并阻礙了現場層面的信任和操作采用。持續的挑戰包括嚴重的地質異質性、巖石物理變量之間的多重共線性、類別不平衡以及有限的巖心數據,繼續影響模型的泛化能力、可解釋性和實際應用(Rezaee, 2015; Clarkson & Pedersen, 2011)。
我們之前的研究(Gharavi et al., 2022; 2023)從地質和巖石物理角度研究了致密砂巖儲層的特征和生產力行為。本研究在此基礎上,引入了一個集成的、可解釋的機器學習和PROMETHEE-II多標準決策分析框架,專門用于致密砂巖儲層的透明生產力分類。
本研究通過提出一種新的、考慮地層的、可解釋的ML/DL框架,用于致密砂巖儲層的二元生產力分類,推動了該領域的發展。與以往的方法不同,我們的工作流程獨特地將多標準決策分析(PROMETHEE-II)與特定區域的可解釋人工智能(XAI)方法相結合,直接解決了類別不平衡和操作可解釋性這兩個長期存在的瓶頸問題。具體來說,本研究通過以下貢獻推動了該領域的發展:
•領域引導的探索性數據分析(EDA):異常值檢測、特征選擇和地質驗證,以確定數據質量和上游地質合理性(Ma et al., 2017; Abzalov, 2016)。
•降維和診斷:主成分分析(PCA)、相關性分析、Winland R35和網絡圖,用于解決多重共線性問題并驗證孔隙結構。
•GeoZone分類:
將儲層劃分為三個巖石物理特性不同的相區(A:高質量;B:中等;C:低質量),捕捉垂直異質性并降低區域內復雜性。 •多方法XAI:
應用Shapley加性解釋(SHAP)、局部可解釋模型無關解釋(LIME)和排列重要性,從全局和每個GeoZone中獲得可操作的見解(Bedle & Lubo-Robles, 2024; Deng et al., 2024)。 •穩健的類別不平衡處理:
分層交叉驗證和現代重采樣,以確保可靠地檢測到少數(產油)區間。•比較模型評估和選擇:
PROMETHEE-II多標準決策分析(MCDA),結合F1分數、召回率、精確度、ROC-AUC和計算效率,透明地對模型和超參數進行排名(Brans & Vincke, 1985; Brans et al., 1986; Behzadian et al., 2010)。通過明確結合PROMETHEE-II MCDA進行模型和儲層區域排名,該工作流程實現了透明、基于領域信息的最佳預測策略選擇,支持在類別不平衡、地質復雜的儲層中進行可推廣的、操作上穩健的部署。圖1展示了集成可解釋ML/DL工作流程的示意圖,說明了從數據采集和預處理到降維、區域分類、模型訓練、PROMETHEE-II排名、可解釋性分析和生成操作見解的每個步驟。
將該工作流程應用于西非一個致密砂巖油田后,取得了高預測性能(F1分數0.95,召回率1.00,ROC-AUC 1.00),并通過區域SHAP解釋提供了地質上一致的見解,從而證明了儲層生產力分類的透明度和可解釋性的提升。盡管這些數值表明了該方法對當前數據集的出色區分能力,但在實際儲層應用中幾乎完美的性能并不常見,因此應謹慎解讀。由于地質差異、數據集特征和類別不平衡結構的不同,模型在其他儲層中的表現可能會有所不同。
部分內容片段
背景和動機
非常規儲層,尤其是致密砂巖的表征,已經從傳統的基于巖心的工作流程發展到數據驅動的、可解釋的機器學習(ML)和多標準方法。傳統方法,如汞注入毛細壓力分析和NMR測井,雖然提供了有價值的信息,但在處理高度異質的數據集時可擴展性有限(Rezaee, 2015; Holditch, 2006)。這種限制特別是在捕捉孔隙度、滲透率等變化方面尤為明顯
數據和方法
我們開發了一種集成的、可解釋的機器學習(ML)工作流程,用于對致密砂巖儲層的生產力進行分類,解決了地質異質性和類別不平衡問題。該工作流程從領域引導的探索性數據分析(EDA)開始,使用交叉圖、配對圖和熱圖進行特征選擇和質量控制。降維通過主成分分析(PCA)完成,并通過網絡圖和Winland R35分析進行驗證
探索性數據分析(EDA)
數據集包含2,000個區間,每個區間都具備13個對儲層分析至關重要的地質和巖石物理特征。完整的 數據架構和詳細特征描述見附錄A(表A1和A2)。
Shap特征重要性分析
采用可解釋的人工智能(XAI)技術對于將復雜的機器學習模型轉化為透明的、具有地質意義的見解至關重要。在本研究中,使用了SHAP(Shapley加性解釋)、LIME(局部可解釋模型無關解釋)和排列特征重要性(PFI)來解釋一個經過訓練用于預測儲層生產力的隨機森林分類器。這些方法提供了全局和局部的可解釋性
PCA特征重要性
使用主成分分析(PCA)進行降維,并根據主成分載荷量化特征重要性(Peres-Neto et al., 2003; Roden et al., 2015; Guo et al., 2009)。圖16顯示了前七個主成分上的平均絕對載荷(保留了超過95%的總方差)。排名最高的變量VSH(頁巖體積)、PHIE(有效孔隙度)和TOC(總有機碳)基于AI的儲層生產力分類
本節詳細介紹了開發的監督機器學習(ML)框架,用于使用SuperRT二元分類標簽(1 = 產油,0 = 非產油)識別致密砂巖地層中的產油區。該流程基于可解釋AI(XAI)原則,通過SHAP、LIME、排列重要性和隨機森林排名來指導特征選擇,以確保地質一致性和操作相關性。最終模型在統計上具有穩健性
模型架構
最終的深度學習模型架構總結在表11中。該配置通過系統基準測試和超參數調整進行了優化,并用于所有后續的訓練、評估和可解釋性分析(Gorishniy et al., 2021; Shwartz-Ziv & Armon, 2022)。該設計遵循了表格數據上深度學習的最佳實踐,同時支持性能和可解釋性。
超參數優化策略
超參數優化采用了隨機搜索和
使用SHAP進行區域可解釋性
為了提高模型的可解釋性并實現地質上一致的決策,將SHAP(Shapley加性解釋)應用于最終深度學習模型中的內部定義的儲層區域(區域A、B和C)。這些區域是根據綜合的巖石物理閾值和地質邏輯得出的,反映了致密砂巖儲層內部的異質性,而不是正式的地層成員。
討論
傳統的滲透率模型往往無法捕捉致密砂巖儲層的內在復雜性,其中低孔隙度、較差的孔隙連通性和復雜的成巖作用對預測和操作決策提出了挑戰(Rezaee et al., 2012)。機器學習(ML)和深度學習(DL)的最新進展使得能夠對復雜的、多變量地下關系進行建模;然而,大多數已發表的ML方法將儲層視為巖石物理上均勻的
結論
本研究提出了一個穩健的、可解釋的機器學習和深度學習框架,用于識別致密砂巖儲層中的產油區,優先考慮區域可解釋性、地質嚴謹性和操作相關性。通過結合領域引導的探索性數據分析(EDA)、通過主成分分析(PCA)進行降維以及可解釋AI方法(SHAP、LIME和排列重要性),該工作流程實現了高預測性能和
操作應用
在儲層評估和開發規劃期間應用區域ML/DL框架,以識別和優先考慮具有有利巖石物理特性的區間,特別是高PHIE、Perm、SO和TOC的區間。使用特定區域的SHAP結果來指導針對每個相的完井和刺激策略。
2集成到鉆前和實時工作流程中: