《Computers & Geosciences》:Generation of random geological models using multi-randomization for machine learning
編輯推薦:
本文為解決自動地震解釋中高質量標注數據匱乏的問題,提出了一個開源的“隨機地質模型”(RGM)生成工具。該工具采用多隨機化策略,能夠高效、可重復地生成用于機器學習訓練的2D/3D合成地質模型及其相關屬性(如介質參數、反射率圖像、斷層屬性、鹽體、不整合面等)。RGM由現代面向對象Fortran實現,支持定制化參數,生成的模型具有地質真實感,為訓練魯棒的機器學習模型提供了大規模、高質量的數據基礎,推動了自動地震解釋領域的發展。
在近年來機器學習(ML)方法自動化地震解釋的浪潮中,一個關鍵的制約因素是高保真標注數據的短缺。如同計算機視覺領域依賴ImageNet等大規模數據集取得突破一樣,自動地震解釋領域同樣迫切需要海量的、多樣化的訓練數據。然而,現實世界的地震勘探數據不僅獲取成本高昂,其精確的標注(如斷層、地層界面)也嚴重依賴人工解釋專家的經驗,耗時耗力且難以規模化。這種“數據荒”直接限制了監督或半監督機器學習模型的泛化能力和性能上限。
為了破解這一困局,研究人員將目光投向了合成數據。即,通過計算機模擬生成具有地質真實感的隨機地質模型及其對應的合成地震圖像和各類屬性標簽。已有研究表明,完全使用合成數據訓練出的ML模型,能夠在真實數據上取得良好的斷層檢測、相對地質時間(RGT)推斷等性能。然而,現有能夠生成此類數據集的工具多為閉源或功能受限,在數據可重復性、模型尺寸靈活性以及對特定地質構造(如鏟式斷層、鹽丘、不整合面)的模擬能力方面存在不足。這阻礙了研究的可復現性,也限制了數據生成對特定地質區域或任務的適配能力。
為此,來自洛斯阿拉莫斯國家實驗室的研究團隊Kai Gao和Ting Chen在《Computers 》上發表研究,推出了一個名為“隨機地質模型”(RGM)的全新開源軟件包。RGM旨在為ML應用高效、可定制地生成2D和3D合成地質模型。它采用一種“多隨機化”策略,為模型中的每個地質特征(如地層、斷層、鹽體、不整合面)獨立賦予隨機化參數,從而構建出一個近乎無限維的模型空間,確保生成數據的多樣性和獨特性。RGM能夠生成的模型組件極為豐富,包括介質屬性分布(縱波速度Vp、橫波速度Vs、密度)、地震反射率圖像(即合成偏移剖面)、相對地質時間(RGT),以及離散的斷層屬性(如概率、傾角、走向、滑動角和位移)。尤為突出的是,它還支持創建鹽體和不整合面等復雜地質特征,并提供了生成合成彈性偏移圖像的功能,以滿足基于彈性地震圖像的ML模型訓練需求。
為開展研究,作者主要運用了基于現代面向對象Fortran的編程實現,構建了完整的模型生成算法流程。其技術核心包括:利用多種數學函數(如平滑隨機面、高斯面、柯西面、柏林噪聲面)生成約束地層形態的頂底邊界曲面;通過線性插值與厚度擾動算法構建地層界面;設計了簡化的斷層插入方法,支持隨機取向和分組取向的斷層網絡,并引入了模擬鏟式斷層(listric fault)曲率的算法;開發了基于隨機圓形曲線與單調樣條插值來構建隨機鹽體的新方法;以及系統性的不整合面插入與RGT值調整方法。整個流程允許用戶通過調控數十個統計參數,靈活生成滿足特定需求的隨機地質模型。
研究結果
1. 介質屬性模型
研究人員首先構建未斷層的隨機模型。第一步是生成約束地層整體形態的頂、底邊界曲面,這些曲面可以是平滑隨機面、高斯面、柯西面或多倍頻程柏林面等類型,并可為它們添加線性斜率以模擬地層的區域傾斜。第二步,通過線性插值計算頂底曲面之間的中間反射層位置。為了增加地質真實性,作者引入了垂向和橫向的地層厚度變化。垂向厚度變化通過用一組隨機權重乘以均勻地層的厚度導數,再積分得到調整后的層位來實現。橫向厚度變化則通過在原始層位序列上疊加一個經高斯平滑的二維隨機擾動場,再對擾動后的序列進行垂向導數和積分運算來實現。最后,將調整后的層位線性變換回原始頂底曲面定義的深度范圍,得到最終的地層界面位置。基于這些界面,可以為每個地層單元分配隨機的介質屬性(Vp, Vs, 密度),從而構建出未斷層的、具有物性垂向變化的層狀介質模型。
2. 斷層生成與插入
RGM支持在已建立的層狀模型中插入斷層。它提供了兩種斷層生成策略:隨機取向斷層和分組取向斷層,以模擬真實斷層網絡的拓撲結構。對于每一條斷層,用戶可定義其位置、走向、傾角、滑動角、位移等屬性。特別地,為了模擬地質中常見的鏟式斷層(其傾角隨深度衰減),RGM開發了一種直接的方法來在隨機地質模型中插入具有曲率的斷層。該方法通過在定義斷層跡線的垂直剖面上,使用隨深度衰減的傾角函數來構建斷層曲面,從構造地質學角度來看,生成的模型是視覺上合理的。將斷層插入模型的過程,涉及到對斷層兩側的地層進行錯動和填充,以模擬斷層的位移效應。最終,模型會輸出包含斷層索引(從1到模型中斷層最大數量)的圖像,以及包括傾角、走向、滑動角和位移在內的斷層屬性體。
3. 鹽體與不整合面生成
為了提高模型的真實感和適用性,RGM引入了創建鹽體和不整合面的新功能。對于鹽體,其生成方法基于隨機化的圓形曲線結合單調樣條插值。首先在水平面上生成一系列隨機分布的圓形,這些圓形定義了鹽體在平面上的大致輪廓。然后,通過單調樣條插值將這些圓形輪廓沿垂向連接起來,形成一個封閉的、通常呈丘狀或蘑菇狀的鹽體三維形態。鹽體被插入模型后,會取代其內部原有的地層和介質屬性。對于不整合面,RGM可以生成一個或多個隨機的不整合面,并模擬角度不整合、非整合和假整合等類型。插入不整合面后,程序會系統性地調整其下伏地層的RGT值,以反映地層序列的中斷和時代缺失。
4. 合成地震圖像生成
在得到包含地層、斷層、鹽體、不整合面的完整地質模型(包含Vp, Vs, 密度體)后,RGM可以進一步生成對應的合成地震圖像。對于聲波反射率圖像,可以基于模型的阻抗(密度與Vp的乘積)反差,通過計算反射系數并結合子波卷積來生成。更值得注意的是,RGM還集成了生成合成彈性偏移圖像的方法。該方法利用解析的彈性反射系數公式,結合與頻率相關的縮放,能夠模擬包含縱波和轉換波信息的彈性地震響應。這使得RGM能夠為利用全波場(彈性)地震圖像的機器學習模型創建訓練數據集。
5. 綜合示例與性能
作者通過全面的2D和3D示例,展示了RGM軟件包的能力、性能及其生成模型的地質真實感。生成的模型展現了多樣的地質場景,包括復雜的褶皺地層、交織的斷層網絡、形態各異的鹽丘以及切割地層的不整合面。對應的合成地震圖像清晰反映了這些地下構造特征,證明了該工具能夠為地震解釋ML任務生成高質量、高保真的配對數據(圖像+標簽)。
研究結論與意義
本研究的核心成果是開發并發布了名為RGM的開源、高性能隨機地質模型生成軟件包。該工具專為機器學習驅動的自動地震解釋任務而設計,其“多隨機化”框架確保了生成數據的巨大多樣性和地質合理性,有效避免了重復或過于確定的模式。RGM的突出特點在于其開源屬性、功能完整性和高度可定制性。與以往僅提供數據集而算法不公開的工作相比,RGM允許用戶完全控制生成過程,適應不同尺寸模型和特定地質場景的需求,極大地促進了研究的可重復性和數據生成的靈活性。
該研究的重要意義體現在多個層面:首先,它直接應對了自動地震解釋領域訓練數據短缺的核心挑戰,提供了一個可持續、可擴展的高質量合成數據生成方案。其次,RGM支持生成包括彈性地震圖像在內的多種數據類型,能夠服務于更廣泛的ML應用,如斷層幾何屬性推斷、鹽體識別、地層序列分析等多任務學習。最后,其開源特性鼓勵了社區協作與方法標準化,有望成為該領域的一個基準工具,加速新算法的開發、驗證與比較。總之,RGM為利用合成數據推動地震解釋自動化提供了強大、可靠的基礎設施,標志著該領域在解決數據瓶頸問題上邁出了堅實的一步。