无码123,99在线观看视频,人妻少妇精品久久久久久0000

面向反應(yīng)性機(jī)器學(xué)習(xí)勢(shì)函數(shù)優(yōu)化的海量分子Hessian數(shù)據(jù)庫(kù)HORM

《Scientific Data》：A Large Scale Molecular Hessian Database for Optimizing Reactive Machine Learning Interatomic Potentials

【字體：大中小】 時(shí)間：2025年12月05日 來源：Scientific Data 6.9

編輯推薦：

　　本研究針對(duì)機(jī)器學(xué)習(xí)勢(shì)函數(shù)(MLIP)在過渡態(tài)(TS)優(yōu)化中因缺乏大規(guī)模Hessian數(shù)據(jù)而精度受限的問題，開發(fā)了目前最大的量子化學(xué)Hessian數(shù)據(jù)集HORM，包含184萬wB97x/6-31G(d)級(jí)別的Hessian矩陣。研究人員提出隨機(jī)行采樣的Hessian信息訓(xùn)練方法，使MLIP的Hessian平均絕對(duì)誤差降低63%，TS搜索效率提升200倍，為反應(yīng)網(wǎng)絡(luò)的規(guī)模化探索提供了關(guān)鍵數(shù)據(jù)和方法支撐。

在計(jì)算化學(xué)領(lǐng)域，過渡態(tài)(TS)的精確表征是揭示反應(yīng)機(jī)理、區(qū)分競(jìng)爭(zhēng)反應(yīng)路徑以及預(yù)測(cè)反應(yīng)動(dòng)力學(xué)和熱力學(xué)的關(guān)鍵。傳統(tǒng)方法依賴于昂貴的密度泛函理論(DFT)計(jì)算，需要在巨大的反應(yīng)空間中評(píng)估能量和力，同時(shí)還需要Hessian計(jì)算用于鞍點(diǎn)優(yōu)化。然而，在現(xiàn)代藥物發(fā)現(xiàn)和材料科學(xué)中，化學(xué)空間的指數(shù)級(jí)增長(zhǎng)使得這種高成本計(jì)算越來越難以滿足大規(guī)模反應(yīng)預(yù)測(cè)的需求。

機(jī)器學(xué)習(xí)勢(shì)函數(shù)(MLIP)作為一種有前景的工具，能夠以較低的計(jì)算成本準(zhǔn)確表征勢(shì)能面(PES)，通過高效評(píng)估能量景觀、原子間力和Hessian矩陣，自然整合了基于物理的過渡態(tài)搜索算法。然而，當(dāng)前大多數(shù)MLIP僅基于能量和力進(jìn)行預(yù)訓(xùn)練，缺乏大規(guī)模Hessian數(shù)據(jù)，這嚴(yán)重限制了其在過渡態(tài)優(yōu)化中的應(yīng)用。這一局限源于兩個(gè)核心挑戰(zhàn)：可用數(shù)據(jù)集的缺乏以及訓(xùn)練過程中融入二階信息的高成本。

針對(duì)這一關(guān)鍵問題，Deep Principle公司的研究人員在《Scientific Data》上發(fā)表了題為"A Large Scale Molecular Hessian Database for Optimizing Reactive Machine Learning Interatomic Potentials"的研究論文，引入了HORM（用于優(yōu)化反應(yīng)性MLIP的Hessian數(shù)據(jù)集），這是迄今為止最大的反應(yīng)系統(tǒng)量子化學(xué)數(shù)據(jù)庫(kù)，包含184萬個(gè)在wB97x/6-31G(d)理論水平下計(jì)算的Hessian矩陣。

研究團(tuán)隊(duì)采用了多項(xiàng)關(guān)鍵技術(shù)方法開展此項(xiàng)研究。數(shù)據(jù)集構(gòu)建方面，幾何結(jié)構(gòu)從兩個(gè)反應(yīng)數(shù)據(jù)庫(kù)Transition1x和RGD1中采樣，覆蓋含C、H、O、N的分子，最多10個(gè)重原子。DFT計(jì)算使用GPU4PYSCF v1.3.0進(jìn)行，采用ωB97X泛函和6-31G(d)基組。機(jī)器學(xué)習(xí)勢(shì)函數(shù)訓(xùn)練中，團(tuán)隊(duì)提出了隨機(jī)行采樣策略來降低Hessian計(jì)算復(fù)雜度，結(jié)合能量、力和Hessian的損失函數(shù)進(jìn)行模型優(yōu)化。過渡態(tài)搜索驗(yàn)證采用四步工作流程，包括端點(diǎn)優(yōu)化、最小能量路徑構(gòu)建、TS細(xì)化和IRC驗(yàn)證。

數(shù)據(jù)集組成

HORM數(shù)據(jù)集中的幾何結(jié)構(gòu)來自兩個(gè)反應(yīng)數(shù)據(jù)集Transition1x和RGD1。Transition1x最多允許6個(gè)鍵變化，而RGD1最多允許2個(gè)鍵斷裂和2個(gè)鍵形成。從Transition1x的10,073個(gè)反應(yīng)中，研究人員采用基于反應(yīng)標(biāo)識(shí)的數(shù)據(jù)分割，將9,000個(gè)反應(yīng)分配到訓(xùn)練集，其余1,073個(gè)分配到驗(yàn)證集。從中，訓(xùn)練反應(yīng)的1,725,362個(gè)幾何結(jié)構(gòu)和驗(yàn)證反應(yīng)的50,844個(gè)幾何結(jié)構(gòu)被納入HORM數(shù)據(jù)集，分別占每個(gè)分割中可用幾何結(jié)構(gòu)的20%和5%。對(duì)于RGD1數(shù)據(jù)集，研究人員利用在GFN2-xTB理論水平下進(jìn)行的IRC計(jì)算生成的反應(yīng)路徑，從約950,000個(gè)可用反應(yīng)中隨機(jī)選擇80,000個(gè)，并沿其IRC結(jié)果對(duì)每個(gè)反應(yīng)采樣最多15個(gè)幾何結(jié)構(gòu)，最終隨機(jī)選擇60,000個(gè)幾何結(jié)構(gòu)構(gòu)成RGD1子集。

技術(shù)驗(yàn)證

數(shù)據(jù)集概述顯示，與Hessian-QM9相比，HORM涵蓋了更廣泛的化學(xué)空間區(qū)域，HORM-Transition1x子集比Hessian-QM9多包含約40倍的分子幾何結(jié)構(gòu)，包括各種非平衡結(jié)構(gòu)。HORM-RGD1子集形成了與HORM-Transition1x重疊最小的獨(dú)特分布。性質(zhì)分布方面，HORM數(shù)據(jù)點(diǎn)的分子尺寸平均較小，但原子化能量范圍明顯更廣，反映了其對(duì)勢(shì)能面(PES)更大部分的覆蓋。虛頻分布進(jìn)一步突顯了HORM對(duì)非平衡態(tài)的廣泛采樣。

能量、力和Hessian預(yù)測(cè)實(shí)驗(yàn)評(píng)估了不同訓(xùn)練策略。分布內(nèi)性能表明，對(duì)于自梯度和直接力架構(gòu)，加入Hessian監(jiān)督一致提高了幾乎所有評(píng)估指標(biāo)的性能。在自梯度模型中，加入Hessian損失使能量平均絕對(duì)誤差(MAE)降低達(dá)25%，Hessian和相應(yīng)特征值MAE分別降低59%和78%。直接力模型從Hessian監(jiān)督中獲益更大，特別是EquiformerV2，在能量、力、Hessian和特征值預(yù)測(cè)中分別實(shí)現(xiàn)了58%、24%、97%和99%的MAE降低。

分布外性能評(píng)估了模型對(duì)未見數(shù)據(jù)的泛化能力。自梯度模型在能量和力預(yù)測(cè)方面改善有限，但二階性質(zhì)顯著改善，Hessian和特征值MAE分別降低25%和24%。在所有模型中，EquiformerV2 E-F-H變體不僅實(shí)現(xiàn)了最大的預(yù)測(cè)誤差降低，而且成為整體最佳模型。

過渡態(tài)搜索性能

為評(píng)估反應(yīng)性MLIP在實(shí)際TS搜索場(chǎng)景中的能力，研究人員使用端到端TS搜索工作流程評(píng)估了四個(gè)關(guān)鍵指標(biāo)：成功的GSM計(jì)算數(shù)量、預(yù)期TS數(shù)量、優(yōu)化TS結(jié)構(gòu)的均方根位移(RMSD)和預(yù)測(cè)能壘高度的平均絕對(duì)誤差(MAE)。結(jié)果表明，訓(xùn)練中加入Hessian信息(E-F-H)顯著提升了TS搜索性能。預(yù)期TS數(shù)量改善最為顯著，EquiformerV2從E-F下的僅3個(gè)預(yù)期TS增加到E-F-H下的684個(gè)。能壘預(yù)測(cè)在所有模型中一致改善，能壘MAE降低達(dá)63%。在所有評(píng)估模型中，EquiformerV2(E-F-H)在TS RMSD和能壘預(yù)測(cè)方面表現(xiàn)最佳，中位TS RMSD為0.017?，能壘MAE為0.538 kcal/mol。

研究結(jié)論表明，HORM數(shù)據(jù)集填補(bǔ)了反應(yīng)性機(jī)器學(xué)習(xí)勢(shì)函數(shù)開發(fā)中的關(guān)鍵數(shù)據(jù)空白，使MLIP的Hessian質(zhì)量顯著提升，適用于直接力和自梯度架構(gòu)。通過隨機(jī)行采樣的Hessian信息訓(xùn)練方法，有效控制了融入Hessian的計(jì)算開銷。特別是對(duì)于直接力模型，當(dāng)使用Hessian約束來強(qiáng)制力對(duì)稱時(shí)，代表性直接力模型EquiformerV2在Hessian精度和TS搜索性能上表現(xiàn)出30至200倍的提升。這一發(fā)現(xiàn)為克服直接力MLIP的關(guān)鍵限制指明了有前景的方向。

HORM數(shù)據(jù)集和方法論的突破，使得能夠訓(xùn)練更準(zhǔn)確、更穩(wěn)健的反應(yīng)性MLIP，為反應(yīng)網(wǎng)絡(luò)的規(guī)模化探索提供了重要工具，有望在計(jì)算化學(xué)和材料科學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。該研究不僅提供了寶貴的數(shù)據(jù)資源，還開創(chuàng)了高效的二階信息融入方法，為未來MLIP的發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國(guó)際
國(guó)內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

急聘職位
高薪職位

知名企業(yè)招聘

熱點(diǎn)排行

新聞專題