《Separation and Purification Technology》:Graph-based molecular embedding and machine learning for accurate prediction of CO
2 absorption in amine solutions
編輯推薦:
CO?負載預測、分子結構嵌入、XGBoost模型、結構化評估、胺溶劑篩選
王立東|艾子邁提江·艾爾肯|戴秦|趙宏凱|吳景凱|劉向偉|王亞楠|張天奇|李強偉|于光飛
華北電力大學環境科學與工程學院資源與環境系統優化教育部重點實驗室,北京102206,中國
摘要
準確預測CO2的負載能力對于篩選和設計高效的胺基溶劑用于碳捕獲至關重要。盡管機器學習模型顯示出巨大的潛力,但許多現有方法嚴重依賴于傳統的反應條件和分子描述符,這限制了它們捕捉吸收關鍵結構決定因素的能力。本研究整合了六種分子結構嵌入方法(包括分子指紋和基于圖的方法),并與XGBoost結合,以預測19種胺溶液的CO2負載能力。除了隨機數據分割外,還應用了一種基于結構的劃分策略來嚴格評估對結構新穎胺的泛化能力。N-gram圖嵌入結合XGBoost取得了優異的性能,在隨機分割下的測試R2值為0.976,在基于結構的分割下為0.769,優于其他嵌入方法和基線模型。可解釋性分析表明,該模型能夠識別出具有化學意義的子結構,如胺類型和空間位阻基團,這與已知的吸收機制一致。此外,該模型還展示了對外部測試分子DMAEE的外推能力,該分子包含訓練集中不存在的醚官能團。這項工作強調了整合精選的結構嵌入可以有效捕捉可轉移的結構模式,為加速下一代胺溶劑的發現提供了一個更可靠和可解釋的框架。
引言
大氣中CO2濃度的上升被廣泛認為是全球氣候變化的主要驅動因素,對全球生態系統和人類社會構成了重大威脅[1]、[2]、[3]、[4]。最新數據表明,與能源相關的全球CO2排放量持續上升,2024年達到了創紀錄的37.8 Gt,大氣中的CO2水平攀升至422.5 ppm[5]。面對這一挑戰,碳捕獲、利用和儲存(CCUS)已成為減少CO2排放的關鍵技術途徑[6]、[7]、[8]。在各種CCUS技術中,基于胺的化學吸收作為一種領先的燃燒后捕獲(PCC)方法而脫穎而出,因其高吸收能力、操作靈活性以及大規模部署的技術成熟度而受到認可[9]、[10]、[11]。
由于基于胺的捕獲過程的效率和經濟效益從根本上取決于溶劑的CO2負載能力,因此準確預測這一屬性對于溶劑篩選、過程設計和優化至關重要[12]、[13]。傳統的獲取此類數據的方法嚴重依賴于實驗測量,這些測量通常資源密集且耗時[14]。雖然熱力學模型提供了一種補充方法,但它們通常是特定于系統的,需要大量的參數化,并且在超出校準條件的情況下外推能力有限[5]。
近年來,機器學習(ML)作為一種強大且經濟有效的方法,受到了廣泛關注,用于預測化合物的關鍵屬性[15]、[16]、[17]。越來越多的研究成功應用了ML算法,例如隨機森林(RF)、分類提升(CatBoost)和極端梯度提升(XGBoost),來預測基于胺的系統中的CO2負載能力[5]、[13]、[18]。例如,Mohammadi等人使用了四種提升算法,以三種常見的反應條件(溫度、CO2分壓和胺濃度)作為輸入特征,來預測水溶性哌嗪(PZ)溶液中CO2的溶解度[18]。他們的CatBoost模型展示了最高的準確性(R2 = 0.9953),顯示出對單一胺溶劑的出色預測性能。在另一項研究中,Huang等人也采用了這些反應條件作為輸入變量,并提出了一個結合RF與Wasserstein生成對抗網絡和梯度懲罰(RF-WGAN-GP)的混合ML框架[5]。他們的模型預測了三種不同胺(MEA、DEA和MDEA)在CO2吸收前后的CO2負載能力和溶液密度,在測試集上的R2 > 0.95,并將平均絕對誤差(MAE)降低了8-49.5%,優于傳統的AdaBoost模型。在更廣泛的篩選工作中,Liu等人通過RDKit化學信息學包結合了102個分子描述符,擴展了輸入特征[13]。使用RF和XGBoost,他們預測了多種水溶性胺溶液中的CO2溶解度,并獲得了0.971的R2。總體而言,這些研究為在該領域應用ML算法提供了重要的基礎。
盡管取得了這些進展,我們觀察到現有的預測模型通常依賴于兩種類型的輸入,包括反應條件(例如溫度、CO2分壓、胺濃度)和傳統的預計算分子描述符(例如來自RDKit的描述符)。盡管這些分子描述符可以提供有關特定物理化學性質的信息性和可解釋性的見解,但它們往往是高度工程化的,可能無法完全捕捉有機分子中固有的復雜子結構和拓撲特征,而這些特征從根本上決定了化學行為。為了解決這一限制,分子結構嵌入和深度學習架構已成為強大的替代方案。值得注意的是,Zhang等人和Wahyudi等人的最新研究成功使用了圖神經網絡(GNN)架構來捕捉復雜的分子特征,為該領域的表示學習樹立了新的基準[19]、[20]。同時,如分子指紋(例如MACCS、ECFP)和基于圖的嵌入(例如N-gram圖)等結構嵌入提供了更數據驅動和表達性更強的分子結構表征[21]、[22]、[23]。與那些依賴預定義規則的方法不同,這些技術直接從分子圖中派生出表示,從而捕捉到使用傳統描述符難以表達的潛在但關鍵的結構特征[24]。
除了選擇分子表示的輸入特征外,模型開發中的另一個重要考慮因素是對其真實泛化能力的嚴格評估,特別是預測化學新穎化合物屬性的能力。雖然許多現有研究報告了高預測準確性(例如R2 > 0.97)并聲稱具有強大的泛化能力,但這些結論通常是基于數據集的隨機分割得出的。盡管這種方法在訓練數據覆蓋的化學空間內展示了良好的插值性能,但它可能無法充分評估模型對包含訓練集中不存在的官能團或分子骨架的胺結構的泛化能力[25]、[26]。然而,這種外推能力對于有效的胺溶劑發現至關重要。為了解決這一關鍵差距,Liu等人和Wahyudi等人強調了嚴格非隨機分割策略的必要性,證明了標準隨機分割不足以評估模型的真實泛化能力[14]、[20]。因此,一種更嚴格且具有化學意義的評估方法,該方法最小化訓練集和測試集之間的結構相似性,已成為評估模型魯棒性的關鍵。
受到最近分子表示技術進步的啟發,以及對于嚴格評估的迫切需求,本研究系統地研究了將六種分子結構嵌入(包括分子指紋(MACCS、ECFP、RDKFP)和基于圖的方法(N-gram圖、GCN、DMPNN)整合到XGBoost模型中,以預測多種胺溶液的CO2負載能力。與最近GNN研究[19]、[20]所展示的端到端深度學習方法不同,我們提出了一種互補的混合策略,利用圖嵌入作為集成學習的特征提取器。這種方法旨在結合圖方法的拓撲表示能力、樹基模型的計算效率和對較小數據集的魯棒性以及增強的可解釋性。超越傳統的反應條件和RDKit衍生的分子描述符,我們在隨機和基于結構的數據分割策略下嚴格評估了這些嵌入增強模型。基于Liu等人和Wahyudi等人[14]、[20]倡導的嚴格驗證標準,我們實施了一個有針對性的“壓力測試”劃分,有意在訓練階段排除了特定的胺結構。這種設計旨在評估對結構新穎胺的泛化能力,提供了對模型魯棒性的更具有化學意義的測試。此外,我們進行了全面的可解釋性分析,以揭示CO2吸收的關鍵操作和結構特征,并使用一個在訓練期間未見過的官能團的外部胺分子進一步驗證了模型的外推能力。這項工作不僅提供了多種分子表示方法的比較評估,還為評估模型泛化能力建立了一個結構感知的評估框架,從而為胺溶劑篩選和設計提供了更可靠和可轉移的機器學習工具。
數據收集與編譯
我們通過對基于胺的CO2吸收的全面文獻回顧開始了這項研究,涵蓋了多種胺類型。在基于數據完整性和可用性的嚴格篩選后,我們選擇了19種具有代表性結構的常用胺作為數據集。其中包括一級胺、二級胺、三級胺、空間位阻胺和二胺,共包含1559個高質量的數據點。盡管胺類型的數量較為集中,但這
初步數據集分析
首先對來自已發表研究的數據進行了描述性分析,包括作為輸入特征的反應條件(溫度、CO2分壓和胺濃度)和作為目標變量的CO2負載能力。這項初步分析特別關注這些實驗得出的參數,因為它們構成了基于胺的CO2捕獲研究中直接測量的核心參數集,提供了對該領域的基礎理解
結論
大氣中CO2水平的上升突顯了高效碳捕獲技術的需求,基于胺的吸收作為一種領先的燃燒后捕獲選項而脫穎而出。準確預測CO2的負載能力對于溶劑篩選和過程優化至關重要。然而,現有模型仍然主要依賴于傳統的分子描述符,這些描述符可能會忽略控制吸收的重要結構因素。此外,模型的泛化能力通常是通過
CRediT作者貢獻聲明
王立東:撰寫——原始草稿,項目管理,資金獲取,概念化。艾子邁提江·艾爾肯:撰寫——原始草稿,可視化,調查。戴秦:撰寫——審閱與編輯,資金獲取。趙宏凱:調查。吳景凱:調查。劉向偉:調查。王亞楠:可視化。張天奇:方法論。李強偉:數據管理。于光飛:撰寫——審閱與編輯,資金獲取,概念化。
利益沖突聲明
作者聲明他們沒有已知的競爭財務利益或個人關系可能會影響本文報告的工作。
致謝
本工作得到了國家自然科學基金(編號52500124和52200126)、北京自然科學基金(編號8254059)和中國國家杰出青年學者基金(編號52325004)的財政支持。本工作還得到了華北電力大學高性能計算平臺的支持。