《Current Opinion in Structural Biology》:Protein dynamics prediction by integrating biophysics and artificial intelligence
編輯推薦:
本綜述系統(tǒng)評述了將生物物理約束(如能量圖譜、局部挫敗模式)與AI模型(如AlphaFold2、生成模型)相結(jié)合,用以預(yù)測蛋白質(zhì)構(gòu)象動力學(xué)的創(chuàng)新路徑。這一整合策略不僅提升了預(yù)測的精準(zhǔn)度與效率,還增強了模型的可解釋性,為理解生命過程的分子機制和推動理性藥物發(fā)現(xiàn)提供了強大工具。
蛋白質(zhì)的功能執(zhí)行高度依賴于其構(gòu)象動力學(xué),這包括從酶催化到信號轉(zhuǎn)導(dǎo)等一系列關(guān)鍵生物過程。詳細(xì)理解蛋白質(zhì)動力學(xué)對于揭示生命的生物物理原理和加速藥物發(fā)現(xiàn)至關(guān)重要。然而,盡管人工智能(AI)在蛋白質(zhì)靜態(tài)結(jié)構(gòu)預(yù)測(以AlphaFold2及其后續(xù)模型為代表)方面取得了革命性突破,但純數(shù)據(jù)驅(qū)動的AI方法在捕獲完整的蛋白質(zhì)構(gòu)象動態(tài)譜方面仍面臨巨大挑戰(zhàn)。這些挑戰(zhàn)主要源于蛋白質(zhì)動力學(xué)跨越從皮秒到秒的廣泛時間尺度,并在由微觀物理相互作用塑造的高維能量景觀上進(jìn)行轉(zhuǎn)變。
為了克服這些障礙,一個新興的前沿領(lǐng)域正在崛起:將生物物理學(xué)與人工智能相結(jié)合。這種整合并非簡單疊加,而是旨在將基礎(chǔ)生物物理原理、實驗測量的生物物理數(shù)據(jù)以及基于物理學(xué)的方法論融入AI模型中,從而增強蛋白質(zhì)動力學(xué)預(yù)測的性能與可解釋性。
擴(kuò)展AF2的能力:基于生物物理原理的動力學(xué)預(yù)測
研究表明,像AlphaFold2(AF2)這樣的結(jié)構(gòu)預(yù)測模型,在其以靜態(tài)結(jié)構(gòu)預(yù)測為主要目標(biāo)的訓(xùn)練過程中,已經(jīng)隱式地學(xué)到了與蛋白質(zhì)動力學(xué)相關(guān)的信息。其中,多序列比對(MSA)子采樣是一種有效策略,即通過減少輸入AF2的MSA序列深度,可以引導(dǎo)模型生成與功能相關(guān)的替代構(gòu)象。
為了使這種預(yù)測更具可解釋性和可控性,研究引入了生物物理約束。例如,AF2-挫敗(AF2-Frustration)方法將“局部挫敗”原理與AF2框架相結(jié)合。在蛋白質(zhì)折疊中,“挫敗”指的是無法同時優(yōu)化的沖突能量相互作用。雖然天然蛋白質(zhì)整體上表現(xiàn)出全局最小挫敗,但局部的高挫敗區(qū)域仍然存在,它們通常與功能相關(guān),通過降低穩(wěn)定性來增強構(gòu)象靈活性。AF2-Frustration方法基于一個核心生物物理規(guī)則:高挫敗位點傾向于在構(gòu)象變化中斷裂。因此,該方法通過有選擇地向AF2管道提供在不同高挫敗位點具有不同能量穩(wěn)定性的同源序列集,來系統(tǒng)性地調(diào)整預(yù)測結(jié)構(gòu)的構(gòu)象傾向。與隨機子采樣相比,這種基于挫敗感知的策略能夠沿著清晰的生物物理坐標(biāo),采樣出離散狀態(tài)之間連續(xù)的構(gòu)象轉(zhuǎn)變路徑,其預(yù)測的路徑與實驗和分子動力學(xué)(MD)模擬觀察到的路徑有很好的對應(yīng)關(guān)系。
除了用生物物理信息“提示”AF2,另一種范式是將AF2的輸出整合到基于物理的模擬框架中,以捕獲更豐富的動力學(xué)細(xì)節(jié)。例如,AF2-RAVE 方法利用AF2 MSA子采樣生成多樣的初始構(gòu)象,作為MD模擬的起點,隨后通過RAVE框架進(jìn)行迭代采樣,以識別慢速集體變量并重建潛在的自由能景觀。AF-Metainference 則將AF2預(yù)測的距離約束整合到結(jié)合了MD模擬和貝葉斯推理的增強采樣框架中,即使對于在訓(xùn)練數(shù)據(jù)中未包含的本征無序蛋白質(zhì)(IDPs),也能推導(dǎo)出其有意義的動力學(xué)見解。
基于物理的數(shù)據(jù)處理:從數(shù)據(jù)中提取有效信息
隨著數(shù)據(jù)集在體積和模態(tài)上的擴(kuò)展,從噪聲大、不完整且異構(gòu)的數(shù)據(jù)中提取有意義的動態(tài)信號變得愈發(fā)困難。物理原理在解釋數(shù)據(jù)和提取有效信息方面起著至關(guān)重要的作用,能為AI模型提供更可靠、物理一致的數(shù)據(jù)表示。
物理引導(dǎo)的集成精修提升數(shù)據(jù)質(zhì)量:由于內(nèi)在復(fù)雜性,生物分子系統(tǒng)的MD模擬很少能達(dá)到平衡,產(chǎn)生的是有噪聲且不完整的構(gòu)象集成。基于物理的分析提供了從采樣良好的區(qū)域提取可靠分布信息,并在構(gòu)象樣本稀疏的地方施加物理知情先驗的原則性方法。例如,BioEmu 在構(gòu)建數(shù)據(jù)集時,對MD軌跡進(jìn)行了細(xì)致的基于物理的整理,包括基于馬爾可夫狀態(tài)模型(MSM)的重加權(quán),這有助于從有噪聲和有偏的MD采樣數(shù)據(jù)中分離出可靠的分布信號,從而生成化學(xué)精度(約1 kcal/mol)的平衡集成樣本和折疊自由能估計。P2DFlow 方法則將MD采樣集成投影到由結(jié)構(gòu)反應(yīng)坐標(biāo)定義的二維空間,利用玻爾茲曼關(guān)系將所得的概率密度轉(zhuǎn)換為連續(xù)的“近似能量”景觀,以此指導(dǎo)生成過程,抑制對物理上不合理構(gòu)象的采樣。
物理框架促進(jìn)多模態(tài)數(shù)據(jù)整合:物理框架的一個顯著功能是能夠在統(tǒng)一的機理視角下解釋異構(gòu)的多模態(tài)數(shù)據(jù)。在BioEmu的訓(xùn)練中,實驗測量的折疊自由能被解釋為“折疊度”的期望值,從而可以與重加權(quán)的MD數(shù)據(jù)聯(lián)合使用。Boltz-2 則展示了如何將動力學(xué)數(shù)據(jù)和親和力數(shù)據(jù)整合到一個物理可解釋的訓(xùn)練流程中,它將來自MD采樣和實驗方法的動力學(xué)數(shù)據(jù)統(tǒng)一表示為反映局部構(gòu)象靈活性的B因子和距離分布圖,作為訓(xùn)練序列編碼器的監(jiān)督信號。
物理監(jiān)督使AI能夠預(yù)測轉(zhuǎn)變路徑:除了精修集成分布,對MD數(shù)據(jù)進(jìn)行基于物理的處理還可以提取具有理論意義的標(biāo)簽,使機器學(xué)習(xí)模型能夠預(yù)測構(gòu)象轉(zhuǎn)變。PATHpre 工作流就是一個例子,它使用AI來預(yù)測穩(wěn)定狀態(tài)之間的轉(zhuǎn)變路徑。關(guān)鍵的監(jiān)督信號來自通過對粗粒度MD軌跡進(jìn)行物理分析而提取的過渡態(tài)結(jié)構(gòu)。這種方法展示了物理衍生的、具有理論意義的標(biāo)簽如何引導(dǎo)AI模型做出更具可解釋性、機制感知的預(yù)測。
從進(jìn)化結(jié)構(gòu)變異推斷蛋白質(zhì)動力學(xué):根據(jù)共進(jìn)化原理,從同源序列可以推斷蛋白質(zhì)動力學(xué)。最近的研究表明,同源結(jié)構(gòu)也暗示著動力學(xué)。多個研究間接支持了這一觀點,證明動態(tài)特性可以從靜態(tài)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)中推斷出來。BioEmu提供了更直接的驗證,它證明在預(yù)訓(xùn)練中整合同源結(jié)構(gòu)變異可以提高采樣多樣性。其預(yù)訓(xùn)練數(shù)據(jù)集包含在序列空間相似但在結(jié)構(gòu)空間多樣的同源蛋白質(zhì)的AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(AFDB)聚類,與在不相似的AFDB蛋白質(zhì)或蛋白質(zhì)數(shù)據(jù)庫(PDB)條目上預(yù)訓(xùn)練的模型相比,這種基于同源性的聚類被證明至關(guān)重要,支持了將進(jìn)化結(jié)構(gòu)變異作為動力學(xué)代理的實用性。
基于AI的多尺度粗粒化建模蛋白質(zhì)動力學(xué)
全原子MD模擬雖然基于物理,但受限于計算復(fù)雜性,通常只能應(yīng)用于小空間和時間尺度。為了克服這一瓶頸,先前的研究開發(fā)了多種粗粒度(CG)模型,它們提供了顯著更高的計算效率,非常適合探索生物分子的大尺度構(gòu)象變化。CG模型開發(fā)的一個核心挑戰(zhàn)是如何在CG水平上準(zhǔn)確表示多體相互作用,以重現(xiàn)參考全原子系統(tǒng)的平衡分布。
人工智能的最新進(jìn)展正在迅速改變MD模擬方法。機器學(xué)習(xí)力場(MLFFs) 在量子力學(xué)數(shù)據(jù)上訓(xùn)練,現(xiàn)在能夠?qū)崿F(xiàn)接近量子精度的模擬。AI在全原子MD模擬中的成功,激發(fā)了構(gòu)建CG力場的新方法。通過利用深度神經(jīng)網(wǎng)絡(luò)卓越的表達(dá)能力,CG機器學(xué)習(xí)力場可以有效地將必要的多體效應(yīng)納入CG模型。CGSchNet 就是一個將多尺度粗粒化策略與AI模型相結(jié)合的典型例子。這個基于AI的CG力場使用圖神經(jīng)網(wǎng)絡(luò)在全原子MD數(shù)據(jù)上進(jìn)行訓(xùn)練,以從CG表示中預(yù)測能量和力。其可遷移性已在廣泛的蛋白質(zhì)系統(tǒng)中得到證明。除了力匹配,其他針對全局蛋白質(zhì)特性的策略(如能量匹配)也已出現(xiàn)。CG MLFFs的成功凸顯了將基于生物物理學(xué)的多尺度粗粒化框架與AI驅(qū)動模型相結(jié)合,以應(yīng)對蛋白質(zhì)動力學(xué)建模中固有計算復(fù)雜性的潛力。
結(jié)論與展望
將AI與物理原理相結(jié)合,已在蛋白質(zhì)動力學(xué)建模方面取得了實質(zhì)性進(jìn)展,并展現(xiàn)出巨大的未來發(fā)展前景。本綜述討論了兩個整合物理原理到AI模型中的新興范式,以及代表更成熟方法的AI基助力場。
第一個范式利用生物物理原理來調(diào)動AF2中編碼的潛在動態(tài)知識,從而將模型能力擴(kuò)展到蛋白質(zhì)動力學(xué)預(yù)測。這種方法突顯了生物物理學(xué)在指導(dǎo)基礎(chǔ)模型下游應(yīng)用中的重要作用,提供了一種通用且具成本效益的策略。第二個范式中,物理原理有助于從龐大、嘈雜、多模態(tài)但不完整的數(shù)據(jù)集中提供有意義的動態(tài)信號,通過提高信噪比、補償數(shù)據(jù)不收斂性以及將異構(gòu)數(shù)據(jù)整合到統(tǒng)一的、物理一致的框架中來實現(xiàn)。我們重點指出了該范式內(nèi)的兩個方向:由物理知情標(biāo)簽監(jiān)督的過渡態(tài)預(yù)測,以及進(jìn)化-動力學(xué)相關(guān)性的潛在效用。
AI基助力場代表了物理學(xué)與AI整合的一種更成熟的形式,其最新進(jìn)展顯著提高了在原子水平和粗粒度蛋白質(zhì)模擬中的可遷移性和可擴(kuò)展性。這些進(jìn)展為邁向集成的多尺度MD框架鋪平了道路,有可能在蛋白質(zhì)動力學(xué)建模的采樣效率和計算成本之間取得比當(dāng)前AI基助力場所能達(dá)到的更好的平衡。
對于未來的發(fā)展,我們預(yù)計將有更多樣化的物理衍生動態(tài)信號被整合到AI框架中,包括彈性網(wǎng)絡(luò)模型(ENM)導(dǎo)出的簡正模式、進(jìn)化-動力學(xué)相關(guān)性以及局部挫敗模式。雖然ENM能輕易捕捉蛋白質(zhì)動力學(xué)的大尺度集體運動,但數(shù)據(jù)驅(qū)動的AI模型在沒有適當(dāng)歸納偏置的情況下可能不會強調(diào)此類全局特征。納入ENM衍生的先驗可以讓AI模型卸下捕捉全局模式的負(fù)擔(dān),使其能更好地專注于更詳細(xì)、更精細(xì)的動態(tài)特征。在近期進(jìn)展的支持下,進(jìn)化-動力學(xué)相關(guān)性有望作為AI動態(tài)建模的物理先驗。基于局部挫敗反映蛋白質(zhì)家族內(nèi)部功能和動態(tài)約束的證據(jù),進(jìn)化挫敗模式可以提供跨進(jìn)化時間尺度的蛋白質(zhì)動力學(xué)的緊湊表示。
最近的擴(kuò)散模型架構(gòu)基于與物理動力學(xué)具有強類比性的隨機過程數(shù)學(xué)框架,這為在蛋白質(zhì)動力學(xué)預(yù)測中結(jié)合AI與物理學(xué)帶來了巨大希望。STR2STR 和 MDGEN 等工作 exemplifies 了這種類比如何應(yīng)用于蛋白質(zhì)動力學(xué)建模。
雖然當(dāng)前AI-物理學(xué)整合研究主要集中在采樣熱力學(xué)集成上,但向顯式建模時間動力學(xué)(即超越熱力學(xué)集成分布的動力學(xué)方面)推進(jìn)仍然具有挑戰(zhàn)性,代表了一個引人注目的未來方向。開發(fā)專門的動力學(xué)預(yù)測基準(zhǔn)是另一個重要方向,由快速發(fā)展的AI增強動力學(xué)建模所驅(qū)動,它需要更嚴(yán)格的評估。現(xiàn)有的基準(zhǔn)主要針對兩個目標(biāo):1)準(zhǔn)確預(yù)測功能動態(tài)結(jié)構(gòu)和局部漲落;2)忠實再現(xiàn)集成統(tǒng)計特性。盡管存在有價值的基準(zhǔn)和數(shù)據(jù)集,但一個關(guān)鍵差距仍然存在:缺乏標(biāo)準(zhǔn)化的、被廣泛采用的評估工具來全面評估構(gòu)象動力學(xué)的結(jié)構(gòu)采樣和動力學(xué)方面。此外,為了催化類似CASP在結(jié)構(gòu)預(yù)測中所產(chǎn)生的影響,該領(lǐng)域迫切需要社區(qū)驅(qū)動的倡議,以建立嚴(yán)格的基準(zhǔn)并組織蛋白質(zhì)構(gòu)象動力學(xué)的盲測挑戰(zhàn)。