面向反應(yīng)性機(jī)器學(xué)習(xí)勢(shì)函數(shù)優(yōu)化的海量分子Hessian數(shù)據(jù)庫(kù)HORM
《Scientific Data》:A Large Scale Molecular Hessian Database for Optimizing Reactive Machine Learning Interatomic Potentials
【字體:
大
中
小
】
時(shí)間:2025年12月05日
來源:Scientific Data 6.9
編輯推薦:
本研究針對(duì)機(jī)器學(xué)習(xí)勢(shì)函數(shù)(MLIP)在過渡態(tài)(TS)優(yōu)化中因缺乏大規(guī)模Hessian數(shù)據(jù)而精度受限的問題,開發(fā)了目前最大的量子化學(xué)Hessian數(shù)據(jù)集HORM,包含184萬wB97x/6-31G(d)級(jí)別的Hessian矩陣。研究人員提出隨機(jī)行采樣的Hessian信息訓(xùn)練方法,使MLIP的Hessian平均絕對(duì)誤差降低63%,TS搜索效率提升200倍,為反應(yīng)網(wǎng)絡(luò)的規(guī)模化探索提供了關(guān)鍵數(shù)據(jù)和方法支撐。
在計(jì)算化學(xué)領(lǐng)域,過渡態(tài)(TS)的精確表征是揭示反應(yīng)機(jī)理、區(qū)分競(jìng)爭(zhēng)反應(yīng)路徑以及預(yù)測(cè)反應(yīng)動(dòng)力學(xué)和熱力學(xué)的關(guān)鍵。傳統(tǒng)方法依賴于昂貴的密度泛函理論(DFT)計(jì)算,需要在巨大的反應(yīng)空間中評(píng)估能量和力,同時(shí)還需要Hessian計(jì)算用于鞍點(diǎn)優(yōu)化。然而,在現(xiàn)代藥物發(fā)現(xiàn)和材料科學(xué)中,化學(xué)空間的指數(shù)級(jí)增長(zhǎng)使得這種高成本計(jì)算越來越難以滿足大規(guī)模反應(yīng)預(yù)測(cè)的需求。
機(jī)器學(xué)習(xí)勢(shì)函數(shù)(MLIP)作為一種有前景的工具,能夠以較低的計(jì)算成本準(zhǔn)確表征勢(shì)能面(PES),通過高效評(píng)估能量景觀、原子間力和Hessian矩陣,自然整合了基于物理的過渡態(tài)搜索算法。然而,當(dāng)前大多數(shù)MLIP僅基于能量和力進(jìn)行預(yù)訓(xùn)練,缺乏大規(guī)模Hessian數(shù)據(jù),這嚴(yán)重限制了其在過渡態(tài)優(yōu)化中的應(yīng)用。這一局限源于兩個(gè)核心挑戰(zhàn):可用數(shù)據(jù)集的缺乏以及訓(xùn)練過程中融入二階信息的高成本。
針對(duì)這一關(guān)鍵問題,Deep Principle公司的研究人員在《Scientific Data》上發(fā)表了題為"A Large Scale Molecular Hessian Database for Optimizing Reactive Machine Learning Interatomic Potentials"的研究論文,引入了HORM(用于優(yōu)化反應(yīng)性MLIP的Hessian數(shù)據(jù)集),這是迄今為止最大的反應(yīng)系統(tǒng)量子化學(xué)數(shù)據(jù)庫(kù),包含184萬個(gè)在wB97x/6-31G(d)理論水平下計(jì)算的Hessian矩陣。
研究團(tuán)隊(duì)采用了多項(xiàng)關(guān)鍵技術(shù)方法開展此項(xiàng)研究。數(shù)據(jù)集構(gòu)建方面,幾何結(jié)構(gòu)從兩個(gè)反應(yīng)數(shù)據(jù)庫(kù)Transition1x和RGD1中采樣,覆蓋含C、H、O、N的分子,最多10個(gè)重原子。DFT計(jì)算使用GPU4PYSCF v1.3.0進(jìn)行,采用ωB97X泛函和6-31G(d)基組。機(jī)器學(xué)習(xí)勢(shì)函數(shù)訓(xùn)練中,團(tuán)隊(duì)提出了隨機(jī)行采樣策略來降低Hessian計(jì)算復(fù)雜度,結(jié)合能量、力和Hessian的損失函數(shù)進(jìn)行模型優(yōu)化。過渡態(tài)搜索驗(yàn)證采用四步工作流程,包括端點(diǎn)優(yōu)化、最小能量路徑構(gòu)建、TS細(xì)化和IRC驗(yàn)證。
HORM數(shù)據(jù)集中的幾何結(jié)構(gòu)來自兩個(gè)反應(yīng)數(shù)據(jù)集Transition1x和RGD1。Transition1x最多允許6個(gè)鍵變化,而RGD1最多允許2個(gè)鍵斷裂和2個(gè)鍵形成。從Transition1x的10,073個(gè)反應(yīng)中,研究人員采用基于反應(yīng)標(biāo)識(shí)的數(shù)據(jù)分割,將9,000個(gè)反應(yīng)分配到訓(xùn)練集,其余1,073個(gè)分配到驗(yàn)證集。從中,訓(xùn)練反應(yīng)的1,725,362個(gè)幾何結(jié)構(gòu)和驗(yàn)證反應(yīng)的50,844個(gè)幾何結(jié)構(gòu)被納入HORM數(shù)據(jù)集,分別占每個(gè)分割中可用幾何結(jié)構(gòu)的20%和5%。對(duì)于RGD1數(shù)據(jù)集,研究人員利用在GFN2-xTB理論水平下進(jìn)行的IRC計(jì)算生成的反應(yīng)路徑,從約950,000個(gè)可用反應(yīng)中隨機(jī)選擇80,000個(gè),并沿其IRC結(jié)果對(duì)每個(gè)反應(yīng)采樣最多15個(gè)幾何結(jié)構(gòu),最終隨機(jī)選擇60,000個(gè)幾何結(jié)構(gòu)構(gòu)成RGD1子集。
數(shù)據(jù)集概述顯示,與Hessian-QM9相比,HORM涵蓋了更廣泛的化學(xué)空間區(qū)域,HORM-Transition1x子集比Hessian-QM9多包含約40倍的分子幾何結(jié)構(gòu),包括各種非平衡結(jié)構(gòu)。HORM-RGD1子集形成了與HORM-Transition1x重疊最小的獨(dú)特分布。性質(zhì)分布方面,HORM數(shù)據(jù)點(diǎn)的分子尺寸平均較小,但原子化能量范圍明顯更廣,反映了其對(duì)勢(shì)能面(PES)更大部分的覆蓋。虛頻分布進(jìn)一步突顯了HORM對(duì)非平衡態(tài)的廣泛采樣。
能量、力和Hessian預(yù)測(cè)實(shí)驗(yàn)評(píng)估了不同訓(xùn)練策略。分布內(nèi)性能表明,對(duì)于自梯度和直接力架構(gòu),加入Hessian監(jiān)督一致提高了幾乎所有評(píng)估指標(biāo)的性能。在自梯度模型中,加入Hessian損失使能量平均絕對(duì)誤差(MAE)降低達(dá)25%,Hessian和相應(yīng)特征值MAE分別降低59%和78%。直接力模型從Hessian監(jiān)督中獲益更大,特別是EquiformerV2,在能量、力、Hessian和特征值預(yù)測(cè)中分別實(shí)現(xiàn)了58%、24%、97%和99%的MAE降低。
分布外性能評(píng)估了模型對(duì)未見數(shù)據(jù)的泛化能力。自梯度模型在能量和力預(yù)測(cè)方面改善有限,但二階性質(zhì)顯著改善,Hessian和特征值MAE分別降低25%和24%。在所有模型中,EquiformerV2 E-F-H變體不僅實(shí)現(xiàn)了最大的預(yù)測(cè)誤差降低,而且成為整體最佳模型。
為評(píng)估反應(yīng)性MLIP在實(shí)際TS搜索場(chǎng)景中的能力,研究人員使用端到端TS搜索工作流程評(píng)估了四個(gè)關(guān)鍵指標(biāo):成功的GSM計(jì)算數(shù)量、預(yù)期TS數(shù)量、優(yōu)化TS結(jié)構(gòu)的均方根位移(RMSD)和預(yù)測(cè)能壘高度的平均絕對(duì)誤差(MAE)。結(jié)果表明,訓(xùn)練中加入Hessian信息(E-F-H)顯著提升了TS搜索性能。預(yù)期TS數(shù)量改善最為顯著,EquiformerV2從E-F下的僅3個(gè)預(yù)期TS增加到E-F-H下的684個(gè)。能壘預(yù)測(cè)在所有模型中一致改善,能壘MAE降低達(dá)63%。在所有評(píng)估模型中,EquiformerV2(E-F-H)在TS RMSD和能壘預(yù)測(cè)方面表現(xiàn)最佳,中位TS RMSD為0.017?,能壘MAE為0.538 kcal/mol。
研究結(jié)論表明,HORM數(shù)據(jù)集填補(bǔ)了反應(yīng)性機(jī)器學(xué)習(xí)勢(shì)函數(shù)開發(fā)中的關(guān)鍵數(shù)據(jù)空白,使MLIP的Hessian質(zhì)量顯著提升,適用于直接力和自梯度架構(gòu)。通過隨機(jī)行采樣的Hessian信息訓(xùn)練方法,有效控制了融入Hessian的計(jì)算開銷。特別是對(duì)于直接力模型,當(dāng)使用Hessian約束來強(qiáng)制力對(duì)稱時(shí),代表性直接力模型EquiformerV2在Hessian精度和TS搜索性能上表現(xiàn)出30至200倍的提升。這一發(fā)現(xiàn)為克服直接力MLIP的關(guān)鍵限制指明了有前景的方向。
HORM數(shù)據(jù)集和方法論的突破,使得能夠訓(xùn)練更準(zhǔn)確、更穩(wěn)健的反應(yīng)性MLIP,為反應(yīng)網(wǎng)絡(luò)的規(guī)模化探索提供了重要工具,有望在計(jì)算化學(xué)和材料科學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。該研究不僅提供了寶貴的數(shù)據(jù)資源,還開創(chuàng)了高效的二階信息融入方法,為未來MLIP的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
生物通微信公眾號(hào)
生物通新浪微博
- 搜索
- 國(guó)際
- 國(guó)內(nèi)
- 人物
- 產(chǎn)業(yè)
- 熱點(diǎn)
- 科普
今日動(dòng)態(tài) |
人才市場(chǎng) |
新技術(shù)專欄 |
中國(guó)科學(xué)人 |
云展臺(tái) |
BioHot |
云講堂直播 |
會(huì)展中心 |
特價(jià)專欄 |
技術(shù)快訊 |
免費(fèi)試用
版權(quán)所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號(hào)