《Computers and Geotechnics》:Explainable machine learning and generative diffusion modeling for improved susceptibility mapping of rainfall-induced clustered landslides: A case study from Wuping County, southeastern China
編輯推薦:
降雨引發(fā)的多因素耦合滑坡易發(fā)性評估方法研究。采用Wuping縣2024年極端降雨事件數(shù)據(jù),構(gòu)建12.5米分辨率空間數(shù)據(jù)庫,整合11類地質(zhì)環(huán)境因子。通過結(jié)構(gòu)化降雨分析揭示"累積雨量-短時暴雨脈沖"雙觸發(fā)機制,比較6種機器學習模型,引入擴散概率模型進行數(shù)據(jù)增強,使XGBoost模型AUC從0.915提升至0.931(p<0.01)。建立可解釋-生成混合框架,結(jié)合信息增益比與SHAP值解耦多因素耦合機制,為東南山區(qū)滑坡風險評估提供新方法。
黃宇|李英克|黑麗莎|鄒家玲|陳定宇
同濟大學土木工程學院地質(zhì)與水利工程系,上海200092,中國
摘要
由降雨引發(fā)的群發(fā)性滑坡在中國東南部越來越頻繁,其特點是多因素的強烈耦合,對當?shù)厣鐓^(qū)和基礎(chǔ)設(shè)施構(gòu)成了重大威脅。以福建省武平縣為例,本研究對2024年6月15日至16日極端降雨引發(fā)的6,005次淺層滑坡進行了災(zāi)后統(tǒng)計。同時生成了等數(shù)量的非滑坡樣本,并將地形、地質(zhì)、水文、植被和人為因素匯編成一個12.5米分辨率的數(shù)據(jù)集(訓(xùn)練/測試比例為7:3)。基于站點觀測的降雨數(shù)據(jù),結(jié)構(gòu)降雨分析表明,滑坡的群發(fā)是由“前期降雨積累”和“短時高強度脈沖”兩種機制共同引發(fā)的。進行了全面的因素質(zhì)量評估,包括多重共線性分析(VIF < 5,TOL > 0.1)和皮爾遜相關(guān)性篩選,以確認建模前條件因素的獨立性和可靠性。隨后開發(fā)并比較了六種模型——SVC-GridSearch、SVC-Bayes、SVC-GWO、SVC-PSO、隨機森林和XGBoost,并使用SHAP分析來提高可解釋性,并通過IGR結(jié)果進行交叉驗證。XGBoost模型在測試集上取得了最佳性能(AUC約為0.915)。為了解決類別邊界的模糊性,進一步引入了去噪擴散概率模型(DDPM)對11維因素空間進行控制數(shù)據(jù)增強,生成了約12%位于模型“混淆區(qū)”內(nèi)的目標樣本(預(yù)測概率為0.45–0.55)。增強后,XGBoost的AUC提高到了約0.931,DeLong檢驗結(jié)果顯著(p < 0.01),靈敏度提高,置信區(qū)間變窄。這種可解釋機器學習與生成概率模型的混合框架在樣本有限的情況下有效提高了易發(fā)性繪制的準確性,為東南部山區(qū)的風險評估、應(yīng)急控制和緩解規(guī)劃提供了技術(shù)支持。
引言
降雨引發(fā)的滑坡群發(fā)是山區(qū)最具破壞性的地質(zhì)災(zāi)害之一,其影響在中國東南部尤為明顯(Yang等人,2025年;Yi等人,2025年)。隨著極端天氣和氣候事件的加劇,滑坡的動態(tài)演變和時空不確定性變得越來越明顯(Capobianco等人,2025年;Chen等人,2025年;Huang等人,2024b年,2024a年)。此類事件往往在短時間內(nèi)觸發(fā)數(shù)千次斜坡失穩(wěn),對人類生命、基礎(chǔ)設(shè)施安全和區(qū)域可持續(xù)性構(gòu)成嚴重威脅(He等人,2025年;Ma等人,2025年;Yi等人,2025年)。例如,2024年4月,福建省武平縣的一次極端降雨事件在24小時內(nèi)引發(fā)了6,000多次滑坡,對道路、村莊和農(nóng)田造成了廣泛破壞。這些大規(guī)模的斜坡失穩(wěn)凸顯了在多因素耦合條件下增強滑坡易發(fā)性科學理解和定量評估的迫切需求(He等人,2024年;Pokharel等人,2021年;Tang等人,2020年)。
在中國東南部的山區(qū),強烈的巖石風化和顯著的地形起伏導(dǎo)致了降雨引發(fā)的淺層滑坡,這些滑坡表現(xiàn)出顯著的時間聚集性和多因素耦合特征(Fu等人,2025年;Ma等人,2023年;Zhang等人,2022年)。理解地形、地質(zhì)、水文、降雨過程、植被和人為工程活動之間的協(xié)同機制已成為地質(zhì)災(zāi)害研究的重要方向(Fei等人,2025年;Villa?a等人,2024年;Wu等人,2025a年)。傳統(tǒng)的滑坡易發(fā)性繪制方法通過將多個因素納入統(tǒng)計和機器學習模型取得了顯著進展(Alvioli等人,2024年;Bezak等人,2019年;Fran?a Pereira等人,2023年)。然而,這些方法通常依賴于線性假設(shè)或過于簡化的因素相互作用(Capobianco等人,2025年;Huang等人,2024a年),這限制了它們捕捉多個條件因素之間復(fù)雜耦合的能力。此外,大多數(shù)現(xiàn)有模型將降雨視為單一指標,如總降水量或最大強度,而忽略了其內(nèi)部結(jié)構(gòu)特征,包括降雨量、短時強度脈沖和降雨偏度,這些因素共同決定了淺層斜坡失穩(wěn)的時間和時空響應(yīng)(Wu等人,2025b年;Zhang等人,2025年;Zhao等人,2025年)。近年來,可解釋機器學習框架,如信息增益比率(IGR)和SHAP(Shapley加性解釋),為量化條件因素的相對重要性和非線性響應(yīng)提供了新途徑,從而建立了統(tǒng)計貢獻與物理機制之間的直接聯(lián)系(Kasahun等人,2025年;Sun等人,2024年;Wang等人,2024年)。
此外,生成模型在捕捉復(fù)雜數(shù)據(jù)分布方面展現(xiàn)了非凡的潛力(Ravuri等人,2021年;Wen等人,2024年;Yang等人,2024年)。其中,去噪擴散概率模型(DDPM)可以通過迭代去噪和逆過程有效地學習高維噪聲數(shù)據(jù)中的分布結(jié)構(gòu)(Ho等人,2020年;Yang等人,2024年)。與傳統(tǒng)方法不同,DDPM不僅保留了樣本的邊際分布特征,還捕捉了變量之間的復(fù)雜依賴關(guān)系(Ramirez-Jaime等人,2025年;Song等人,2020年),使其在模擬降雨引發(fā)的滑坡的隨機背景方面具有固有的優(yōu)勢。同時,它可以生成與真實分布一致的虛擬樣本,從而緩解數(shù)據(jù)稀缺問題并提高預(yù)測模型的泛化能力(Feng等人,2024年;Yang等人,2024年)。然而,DDPM在地質(zhì)災(zāi)害研究中的應(yīng)用仍處于早期階段,特別是在將生成建模與可解釋機器學習結(jié)合用于空間易發(fā)性評估方面(Xu等人,2025年)。其在減輕樣本稀疏性和揭示多因素耦合機制的同時保持地球物理可解釋性的潛力仍需進一步探索(Xu等人,2024年)。
因此,本研究提出了一個可解釋-生成的混合框架,用于評估降雨引發(fā)的群發(fā)性滑坡。使用來自福建省武平縣的多元數(shù)據(jù),引入了三個降雨結(jié)構(gòu)指標(最大小時強度、偏度和豐度)。使用了多種機器學習模型,包括支持向量分類(SVC,通過貝葉斯優(yōu)化進行優(yōu)化)、灰狼優(yōu)化器(GWO)、粒子群優(yōu)化(PSO)、隨機森林(RF)和XGBoost,并在基于DDPM的數(shù)據(jù)增強前后比較了性能。所提出的框架結(jié)合了生成能力和可解釋性,為在數(shù)據(jù)有限和復(fù)雜因素相互作用的情況下評估淺層滑坡易發(fā)性提供了實用方法。
研究區(qū)域
研究區(qū)域位于福建省西南部(圖1),中國東南部,地處福建省、廣東省和江西省的交界處。它位于武夷山脈南部邊緣到沿海丘陵平原的過渡帶,介于東經(jīng)115°51′–116°23′和北緯24°47′–25°29′之間。地形主要為山地和丘陵,從西北向東南整體海拔逐漸降低,海拔大多在200米左右。
總體工作框架
本研究采用的方法論框架遵循一個漸進的建模策略,包括七個主要階段,如圖7所示。
1.通過整合滑坡清單、非滑坡樣本以及來自地形、地質(zhì)、水文、環(huán)境和巖土工程來源的十一個條件因素,構(gòu)建了一個空間數(shù)據(jù)庫。所有柵格數(shù)據(jù)被重新采樣到統(tǒng)一的12.5米空間分辨率,并進行了標準化以確保一致性。
2.為了確保數(shù)據(jù)
變量分析
在進行滑坡易發(fā)性建模之前,有必要檢查條件因素之間的相互關(guān)系,以避免由于多重共線性導(dǎo)致的不穩(wěn)定性和偏見解釋。在本研究中,使用了方差膨脹因子(VIF)和容忍度(TOL)統(tǒng)計量來評估選定變量之間的多重共線性,如圖10所示,并進一步進行了皮爾遜相關(guān)性分析以評估它們的成對線性關(guān)聯(lián)。
多因素耦合下的可解釋解耦機制
基于結(jié)合IGR和SHAP值的雙層解釋框架,本研究定量解耦了控制滑坡易感性的主要條件因素和耦合機制。IGR提供了因素重要性的整體排名,而SHAP進一步揭示了每個因素在樣本尺度上的響應(yīng)方向,從而建立了統(tǒng)計相關(guān)性和物理機制之間的可追溯映射。結(jié)果表明,軟化
結(jié)論
本研究提出了一個綜合的、數(shù)據(jù)驅(qū)動的框架,用于評估武平縣降雨引發(fā)的滑坡易感性,結(jié)合了因素質(zhì)量控制、多種智能模型比較、可解釋學習和基于擴散的數(shù)據(jù)增強。主要結(jié)論如下:
1.通過合并滑坡清單、非滑坡對照樣本和十一個統(tǒng)一為12.5米分辨率的條件因素,構(gòu)建了一個空間一致的數(shù)據(jù)庫。
作者貢獻聲明
黃宇:撰寫 – 審稿與編輯、驗證、監(jiān)督、資源管理、項目管理、方法論、資金獲取、概念化。
李英克:撰寫 – 原始草稿、可視化、驗證、軟件、方法論、正式分析、數(shù)據(jù)管理、概念化。
黑麗莎:驗證。
鄒家玲:數(shù)據(jù)管理。
陳定宇:驗證。
利益沖突聲明
作者聲明他們沒有已知的財務(wù)利益或個人關(guān)系可能影響本文所述的工作。
致謝
本研究得到了國家重點研發(fā)計劃(2024YFC3012600)的支持。