《Atmospheric Environment》:A Novel Interpretable Ensemble Framework for Atmospheric Nitrate Estimation in Eastern China: Integrating Chemical Mechanisms and Spatiotemporal Dynamics
編輯推薦:
本研究提出一種融合化學機制與集成學習的創新框架,通過整合地面觀測、衛星數據及再分析數據,構建2013-2020年中國東部地區1公里分辨率月度硝酸鹽濃度高精度數據集。模型采用隨機森林、XGBoost等四類樹基模型與ElasticNet元學習器的集成策略,結合SHAP可解釋性分析,有效捕捉硝酸鹽污染的空間集聚與季節異質性(R2=0.74,MAE=2.39 μg/m3),為大氣監測與污染控制提供科學支撐。
Kun Cai|Jufan He|Shenshen Li|Yang Liu
河南大學大數據分析與處理重點實驗室,中國開封475004
摘要
硝酸鹽是PM2.5的主要二次無機成分,在區域霧霾形成中起著關鍵作用,并對公眾健康構成重大風險。然而,由于地面觀測數據的稀缺以及大氣環境因素的復雜耦合,其濃度的準確估計仍然具有挑戰性。在這項研究中,我們提出了一種創新的集成學習框架,該框架結合了化學機制來實現高分辨率(1公里)的月度硝酸鹽估計。基于這一框架,我們整合了地面觀測數據、衛星反演數據(TAP和CHAP)、ERA5再分析結果以及社會經濟數據,構建了2013年至2020年中國東部(滬皖蓉線以東)的高分辨率月度硝酸鹽濃度數據集。所提出的堆疊集成模型結合了隨機森林(Random Forest)、XGBoost、CatBoost和GBDT作為基礎學習器,并使用ElasticNet作為元學習器。為了提高模型的可解釋性,我們進行了變量消融實驗,并利用SHAP(Shapley Additive Explanations)系統評估了化學指標、氣象變量和前體污染物的貢獻。結果表明,該模型具有穩健的性能(R2 = 0.74,MAE = 2.39 μg/m3),有效捕捉了硝酸鹽污染的空間聚集性和顯著的季節性變化。這項研究揭示了區域硝酸鹽污染的時空動態,為大氣監測、環境評估和制定有針對性的空氣污染控制政策提供了寶貴的科學支持。
引言
隨著工業化的持續發展,空氣污染已成為最緊迫的全球環境挑戰之一,對人類健康和生態系統構成嚴重威脅,并對氣候系統產生深遠影響。在中國,一系列針對二氧化硫(SO2)的排放控制政策顯著減少了硫酸鹽對大氣氣溶膠的貢獻,使得硝酸鹽成為PM2.5的主要二次無機成分(Fu等人,2020年)。多項研究證實了硝酸鹽在霧霾事件中的核心作用(Z. Sun等人,2019年;Xu等人,2019年),高濃度的硝酸鹽通常與空氣質量迅速惡化和公眾健康風險增加相關(Pope III等人,2004年;J. Zhang等人,2021年)。因此,準確估計硝酸鹽濃度并了解其時空變化及其根本驅動因素對于表征污染過程和支持有效的緩解策略至關重要。
已經開發了多種方法和手段來監測和估計大氣中的硝酸鹽,包括地面測量、實驗室化學分析、數值模擬和衛星遙感。雖然地面儀器能夠提供高時間分辨率的數據,但由于部署限制和維護成本,其空間覆蓋范圍仍然有限(Dabek-Zlotorzynska等人,2011年;Malm等人,1994年)。基于實驗室的化學分析方法(如離子色譜法)具有高靈敏度和特異性(Jackson,2000年),但它們勞動強度大,不適合大規模、長期監測。像GEOS-Chem這樣的數值模型結合了排放清單和氣象數據來模擬硝酸鹽分布(Pye等人,2009年;Walker等人,2012年),但其準確性常常受到參數化方案和輸入數據質量的限制。相比之下,衛星遙感提供了更廣泛的空間覆蓋范圍和更低的運營成本,是對地面觀測的寶貴補充(Hoff和Christopher,2009年;Lin等人,2015年)。從MODIS產品中獲得的氣溶膠光學厚度(AOD)與PM2.5水平表現出強相關性,因此在空氣質量評估中被廣泛使用(Hu等人,2014年)。在此基礎上,早期研究嘗試通過耦合模型將AOD與化學成分聯系起來,以估計PM2.5的組成(Geng等人,2017年)。然而,氣溶膠的復雜化學性質,以及氣象條件和轉化系數的時空變化,繼續限制了基于遙感的硝酸鹽估計的精度。
為了解決這些限制,機器學習(ML)技術越來越多地應用于大氣成分的估計,提供了捕捉非線性關系和變量相互作用的強大工具(Li等人,2017年;G. Lin等人,2022年)。例如,Meng等人(2018a)使用廣義加性模型(GAM)整合遙感數據進行區域硝酸鹽預測,而隨機森林(RF)因其強大的特征選擇和非線性擬合能力而被廣泛采用(Meng等人,2018b;Wei等人,2023年)。Li等人(2020年)使用RF和衛星提供的氣象輸入數據,構建了中國0.25°分辨率的月度硝酸鹽數據集,揭示了排放政策對華北平原硝酸鹽趨勢的影響。類似基于ML的方法也在韓國使用地面測量數據得到了驗證(Lee等人,2024年)。最近的進展還擴展到了集成學習和深度學習技術(Lin等人,2022b;Lin等人,2022c)。Liu等人(2022年)通過整合WRF-CMAQ模擬和多源數據,為中國開發了10公里分辨率的PM2.5成分數據集。在臺灣,Lin等人(2022d)提出了多種神經網絡架構,如長短期記憶(LSTM)和非線性自回歸外生模型,用于動態時間序列預測和NOx相互作用評估。
盡管取得了這些進展,但仍存在幾個關鍵挑戰。首先,缺乏長期、空間范圍廣泛的地面硝酸鹽測量數據限制了模型開發和政策評估,因為大多數可用數據集中在臺灣和京津冀地區等局部區域。其次,硝酸鹽的形成受到復雜化學過程和氣象條件的控制,包括白天的NO2光化學氧化、夜間的N2O5水解,以及溫度和濕度對反應動力學和氣溶膠形成的影響(Guo和Xie,2023年;Wang等人,2023年)。然而,許多現有的數據驅動模型未能納入關鍵的顆粒物變量(NH4+、SO42-)和相關的氣象驅動因素,導致輸出在物理上不一致。第三,目前大多數研究仍然主要依賴單一的機器學習模型,沒有結合集成框架來利用不同模型的互補優勢,這可能限制了在處理復雜和異構數據時進一步提高性能和穩健性的潛力。
為了解決這些挑戰,我們提出了一種創新的可解釋集成框架,通過化學機制指導的建模來解碼時空動態。通過利用多源數據,這種堆疊集成方法不僅提高了中國東部硝酸鹽濃度估計的精度,還確保了可解釋性。除了區域應用外,該框架還為數據有限的地區提供了可轉移的方法論,用于可操作的空氣質量評估和有針對性的緩解措施。
研究區域
滬皖蓉線以東的地區代表了中國人口密集的經濟核心區,包括主要的工業集群、城市聚集區和廣闊的農業區。長江三角洲(YRD)、京津冀(BTH)地區和華北平原等關鍵區域尤為突出。工業、交通和農業部門的密集排放顯著增加了NOx和NH3等硝酸鹽前體物質的水平。
特征選擇和數據劃分
圖4展示了輸入變量與硝酸鹽濃度之間的皮爾遜相關性及其顯著性水平,并使用隨機森林模型計算了特征重要性得分。采用了兩步特征選擇策略來提高可解釋性和預測性能。首先,保留了與硝酸鹽濃度相關性大于0.3且具有統計學顯著性的變量。然后,使用RF來評估特征重要性。
結論
本研究通過整合多源數據集和集成機器學習方法,開發了2013年至2020年中國東部的高分辨率(1公里)月度硝酸鹽濃度數據集,解決了中國地面硝酸鹽數據有限的問題。建模框架采用了雙重特征選擇(皮爾遜相關性和隨機森林重要性)和多個基于樹的模型的堆疊集成,并通過ElasticNet回歸和SHAP分析進行了增強。
CRediT作者貢獻聲明
Shenshen Li:撰寫 – 審稿與編輯,資金獲取。Yang Liu:撰寫 – 審稿與編輯。Kun Cai:撰寫 – 原始草案,方法論,資金獲取,數據管理,概念化。Jufan He:撰寫 – 審稿與編輯,驗證,數據管理
未引用參考文獻
Sun等人,2019年;Zhang等人,2021年。
利益沖突聲明
作者未報告任何潛在的利益沖突。
數據可用性
利益沖突聲明
作者聲明沒有已知的利益沖突或個人關系可能影響本文所述的工作。
致謝
本工作得到了中國國家重點研發計劃(2022YFF0606404)和河南省自然科學基金(項目編號242300420215)的支持。