《Journal of Hydrology》:Developing the fusion of MODFLOW simulation and data-driven approaches for river-aquifer recharge modeling
編輯推薦:
為解決傳統數值模型在模擬復雜河流-含水層相互作用時計算成本高、數據需求大的問題,研究人員將MODFLOW數值模擬與多元自適應回歸樣條(MARS)、高斯過程回歸(GPR)、最小二乘支持向量回歸(LSSVR)和隨機森林(RF)等機器學習算法相結合,開發了一種預測含水層-河流補給的混合方法。該方法應用于伊朗北部古蘭(Guilan)含水層,結果表明GPR模型預測性能最優(測試集NSE為0.9762),且能有效評估不同管理方案,可使含水層蒸發和排水量減少高達30%。此研究為復雜水文系統模擬與高效水資源管理提供了新框架。
水是生命之源,也是農業、工業和生態系統的命脈。在干旱半干旱地區,地表水(SW)與地下水(GW)之間復雜而精妙的相互作用,直接決定著水資源的可持續性。然而,理解和管理這種交互絕非易事:一方面,傳統的現場測量或環境示蹤方法耗時費力,難以大規模應用;另一方面,基于物理過程的數值模擬(如著名的MODFLOW)雖然能夠精細刻畫水流運動,但通常需要海量數據和巨大的計算資源,在數據稀缺的發展中國家尤其受到限制。更棘手的是,人類活動如上游筑壩和過度開采地下水,正在打破河流與含水層之間天然的平衡,使得精確量化河流對含水層的補給(river-aquifer recharge)變得前所未有地重要和困難。有沒有一種方法,既能保留物理模型的機理優勢,又能像“學霸”一樣從數據中快速學習、精準預測,從而為水資源管理者提供既快速又可靠的決策工具?
這正是發表在《Journal of Hydrology》上的一項研究所要探索的前沿方向。為了應對上述挑戰,以Zahra Kayhomayoon為首的研究團隊將目光投向了機器學習(ML)這片沃土。他們巧妙地將傳統的地下水數值模擬“老將”MODFLOW,與包括多元自適應回歸樣條(MARS)、高斯過程回歸(GPR)、最小二乘支持向量回歸(LSSVR)和隨機森林(RF)在內的多位數據驅動“新星”結合起來,旨在開發一種全新的混合建模框架。研究的目標是,先利用MODFLOW獲取可靠的河流-含水層交互模擬數據,再將這些數據作為“教材”訓練各種機器學習模型,最終讓機器學習模型能夠僅用少數幾個關鍵變量(地形、地下水位、地表補給),就能快速、準確地預測河流對含水層的補給量。這一創新思路的核心在于,用計算密集但精確的物理模型來生成高質量的“訓練數據”,從而克服了純數據驅動模型在復雜水文系統中常面臨的數據質量和機理理解不足的問題;同時,訓練好的機器學習模型又能擺脫物理模型對長期、連續觀測數據和強大算力的依賴,實現快速預測和情景分析,堪稱“魚與熊掌兼得”的典范。
為了驗證這一思路,研究人員選擇了伊朗北部古蘭含水層作為“試驗田”。該含水層面積約1000平方公里,是一個單層、潛水型含水層,南接高地,北臨里海,發源于高地的塞菲德魯德河(Sefidroud river)貫穿其中。這里農業發達,水稻是主要作物,需水量巨大。雖然年降雨量較高(約750毫米),但由于農業季節用水集中,以及含水層地下水位高導致的強烈蒸發和人工排水,水資源管理面臨嚴峻挑戰。精確評估河流與含水層之間的交換,對于該區域的水平衡和生態健康至關重要。研究團隊首先收集了氣象、地質、土地利用、地下水觀測井、開采井、河流信息等數據,在GMS(Groundwater Modeling System)軟件環境中使用MODFLOW 2000版代碼建立了古蘭含水層的地下水流動模型。模型在穩態(2011年10月)和瞬態(2011-2013年)兩種情況下進行了校準和模擬,校準目標包括使模擬與觀測地下水位誤差在許可范圍內(≤1.5米),并使模擬的水量平衡各組分與區域地下水報告差異小于30%。接著,他們從校準好的MODFLOW模型中,提取了研究區域內位于塞菲德魯德河沿線的每個模型單元格的頂部高程(Top Elevation)、地下水位(Groundwater Level, GWL)、地表對含水層的補給量(Surface Recharge)以及計算得到的河流-含水層補給量(River-Aquifer Recharge)共142組數據樣本。其中,河流-含水層補給量被設定為機器學習模型預測的目標變量,而前三個變量則作為輸入特征。最后,研究團隊用這142組數據分別訓練和測試了MARS、GPR、LSSVR和RF四種機器學習模型,以評估它們預測河流補給量的能力。
研究取得了豐富而明確的成果。首先,地下水數值模擬結果顯示,MODFLOW成功再現了古蘭含水層的水文動態。穩態模擬顯示地下水位從南部高地(最高約25米)向北部里海沿岸(最低約-20米)遞減。校準后的含水層水力傳導系數(Hydraulic Conductivity)在南部粗粒物質區最高(達35米/天),在北部細粒物質區最低(約4米/天)。給水度(Specific Yield)的校準值則在4%到24%之間變化。通過54口觀測井的數據驗證,模型在穩態和瞬態下的均方根誤差(RMSE)分別為0.84米和1.19米,平均絕對誤差(MAE)分別為0.77米和0.96米,表明模擬效果良好。此外,模型模擬的年蒸發量約為15±1.5百萬立方米(MCM),與報告的約13 MCM接近;模擬的排水量約為81±5 MCM/年,雖略低于報告的105 MCM/年,但仍在可接受范圍內;诖丝煽磕M,研究進一步分析了管理方案:模擬表明,通過在地下水位淺的區域(如東南部蒸發強烈區)增加控制性地下水開采(每年15-20 MCM),使地下水位埋深降至5米以下,每年可減少5-8 MCM的蒸發損失。同樣,在受人工排水影響的西部區域,通過控制開采維持地下水位在排水溝深度(2-2.5米)以下,也能顯著減少排水損失。這為通過調整作物模式、提升灌溉效率等綜合措施來優化區域水資源管理、甚至有助于恢復臨近的安扎利濕地(Anzali wetland)提供了量化依據。
其次,也是最核心的發現,是關于四種機器學習模型在預測河流-含水層補給量方面的性能對比。評估指標包括均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、納什效率系數(NSE)、散射指數(SI)和威爾莫特指數(WI)。在所有模型中,高斯過程回歸(GPR)表現最為出色。在測試數據集上,GPR取得了MSE 0.0001 MCM/月、RMSE 0.0096 MCM/月、MAE 0.0037 MCM/月、NSE 0.9762、SI 0.0917、WI 0.9938的優異結果。這表明GPR能夠非常精確地復現MODFLOW模擬的補給量,且預測不確定性低。LSSVR的表現次之但也很接近GPR,而MARS和RF(尤其是RF)的性能則相對較差,RF模型在預測極值(最大和最小值)時存在明顯的低估現象。通過泰勒圖(Taylor diagram)和散點圖可以直觀看到,GPR的預測點最接近代表MODFLOW“觀測值”的紅色參考點,其數據分布(小提琴圖和箱線圖)也與MODFLOW結果最為吻合。此外,MARS模型還輸出了一個包含12個基函數的顯式回歸方程,揭示了輸入變量(頂部高程、地下水位、地表補給)與目標變量(河流補給)之間復雜的非線性關系,為理解其相互作用機制提供了可解釋的數學見解。
綜上所述,本研究成功開發并驗證了一種將物理機理模型MODFLOW與數據驅動機器學習模型相融合的新方法,用于模擬和預測河流-含水層補給。研究證實,在古蘭含水層的案例中,高斯過程回歸(GPR)是預測補給量的最佳機器學習模型,其預測精度高、不確定性可控。這一“MODFLOW-ML”混合框架的核心價值在于,它大幅降低了對長期、詳盡觀測數據的依賴和計算成本。一旦通過短期的、高精度的數值模擬獲得了足夠多的“訓練數據”,訓練好的機器學習模型(特別是GPR)就可以僅利用少數易于獲取的關鍵變量(地形、水位、地表補給),快速、高效地對河流-含水層交互進行長期預測和不同管理情景的評估,為水資源管理者提供了一個強大的決策支持工具。研究還通過MODFLOW模擬,定量指出了通過控制性開采來降低淺層地下水區的蒸發和排水損失、從而提升水資源利用效率和生態可持續性的可行路徑。這項研究不僅為古蘭含水層的水資源管理提供了具體方案,其提出的方法論框架也具有普適性,可推廣至世界其他面臨類似問題的類似含水層系統,標志著在水文模擬與人工智能交叉領域邁出了堅實的一步。