日本熟女人妻,国产精品久久久,91丨露脸丨熟女精品

綜述：整合生物物理學(xué)與人工智能的蛋白質(zhì)動力學(xué)預(yù)測

《Current Opinion in Structural Biology》：Protein dynamics prediction by integrating biophysics and artificial intelligence

【字體：大中小】 時間：2026年02月19日 來源：Current Opinion in Structural Biology 7

編輯推薦：

　　本綜述系統(tǒng)評述了將生物物理約束（如能量圖譜、局部挫敗模式）與AI模型（如AlphaFold2、生成模型）相結(jié)合，用以預(yù)測蛋白質(zhì)構(gòu)象動力學(xué)的創(chuàng)新路徑。這一整合策略不僅提升了預(yù)測的精準(zhǔn)度與效率，還增強了模型的可解釋性，為理解生命過程的分子機制和推動理性藥物發(fā)現(xiàn)提供了強大工具。

蛋白質(zhì)的功能執(zhí)行高度依賴于其構(gòu)象動力學(xué)，這包括從酶催化到信號轉(zhuǎn)導(dǎo)等一系列關(guān)鍵生物過程。詳細(xì)理解蛋白質(zhì)動力學(xué)對于揭示生命的生物物理原理和加速藥物發(fā)現(xiàn)至關(guān)重要。然而，盡管人工智能（AI）在蛋白質(zhì)靜態(tài)結(jié)構(gòu)預(yù)測（以AlphaFold2及其后續(xù)模型為代表）方面取得了革命性突破，但純數(shù)據(jù)驅(qū)動的AI方法在捕獲完整的蛋白質(zhì)構(gòu)象動態(tài)譜方面仍面臨巨大挑戰(zhàn)。這些挑戰(zhàn)主要源于蛋白質(zhì)動力學(xué)跨越從皮秒到秒的廣泛時間尺度，并在由微觀物理相互作用塑造的高維能量景觀上進(jìn)行轉(zhuǎn)變。

為了克服這些障礙，一個新興的前沿領(lǐng)域正在崛起：將生物物理學(xué)與人工智能相結(jié)合。這種整合并非簡單疊加，而是旨在將基礎(chǔ)生物物理原理、實驗測量的生物物理數(shù)據(jù)以及基于物理學(xué)的方法論融入AI模型中，從而增強蛋白質(zhì)動力學(xué)預(yù)測的性能與可解釋性。

擴(kuò)展AF2的能力：基于生物物理原理的動力學(xué)預(yù)測

研究表明，像AlphaFold2（AF2）這樣的結(jié)構(gòu)預(yù)測模型，在其以靜態(tài)結(jié)構(gòu)預(yù)測為主要目標(biāo)的訓(xùn)練過程中，已經(jīng)隱式地學(xué)到了與蛋白質(zhì)動力學(xué)相關(guān)的信息。其中，多序列比對（MSA）子采樣是一種有效策略，即通過減少輸入AF2的MSA序列深度，可以引導(dǎo)模型生成與功能相關(guān)的替代構(gòu)象。

為了使這種預(yù)測更具可解釋性和可控性，研究引入了生物物理約束。例如，AF2-挫敗（AF2-Frustration）方法將“局部挫敗”原理與AF2框架相結(jié)合。在蛋白質(zhì)折疊中，“挫敗”指的是無法同時優(yōu)化的沖突能量相互作用。雖然天然蛋白質(zhì)整體上表現(xiàn)出全局最小挫敗，但局部的高挫敗區(qū)域仍然存在，它們通常與功能相關(guān)，通過降低穩(wěn)定性來增強構(gòu)象靈活性。AF2-Frustration方法基于一個核心生物物理規(guī)則：高挫敗位點傾向于在構(gòu)象變化中斷裂。因此，該方法通過有選擇地向AF2管道提供在不同高挫敗位點具有不同能量穩(wěn)定性的同源序列集，來系統(tǒng)性地調(diào)整預(yù)測結(jié)構(gòu)的構(gòu)象傾向。與隨機子采樣相比，這種基于挫敗感知的策略能夠沿著清晰的生物物理坐標(biāo)，采樣出離散狀態(tài)之間連續(xù)的構(gòu)象轉(zhuǎn)變路徑，其預(yù)測的路徑與實驗和分子動力學(xué)（MD）模擬觀察到的路徑有很好的對應(yīng)關(guān)系。

除了用生物物理信息“提示”AF2，另一種范式是將AF2的輸出整合到基于物理的模擬框架中，以捕獲更豐富的動力學(xué)細(xì)節(jié)。例如，AF2-RAVE 方法利用AF2 MSA子采樣生成多樣的初始構(gòu)象，作為MD模擬的起點，隨后通過RAVE框架進(jìn)行迭代采樣，以識別慢速集體變量并重建潛在的自由能景觀。AF-Metainference 則將AF2預(yù)測的距離約束整合到結(jié)合了MD模擬和貝葉斯推理的增強采樣框架中，即使對于在訓(xùn)練數(shù)據(jù)中未包含的本征無序蛋白質(zhì)（IDPs），也能推導(dǎo)出其有意義的動力學(xué)見解。

基于物理的數(shù)據(jù)處理：從數(shù)據(jù)中提取有效信息

隨著數(shù)據(jù)集在體積和模態(tài)上的擴(kuò)展，從噪聲大、不完整且異構(gòu)的數(shù)據(jù)中提取有意義的動態(tài)信號變得愈發(fā)困難。物理原理在解釋數(shù)據(jù)和提取有效信息方面起著至關(guān)重要的作用，能為AI模型提供更可靠、物理一致的數(shù)據(jù)表示。

物理引導(dǎo)的集成精修提升數(shù)據(jù)質(zhì)量：由于內(nèi)在復(fù)雜性，生物分子系統(tǒng)的MD模擬很少能達(dá)到平衡，產(chǎn)生的是有噪聲且不完整的構(gòu)象集成。基于物理的分析提供了從采樣良好的區(qū)域提取可靠分布信息，并在構(gòu)象樣本稀疏的地方施加物理知情先驗的原則性方法。例如，BioEmu 在構(gòu)建數(shù)據(jù)集時，對MD軌跡進(jìn)行了細(xì)致的基于物理的整理，包括基于馬爾可夫狀態(tài)模型（MSM）的重加權(quán)，這有助于從有噪聲和有偏的MD采樣數(shù)據(jù)中分離出可靠的分布信號，從而生成化學(xué)精度（約1 kcal/mol）的平衡集成樣本和折疊自由能估計。P2DFlow 方法則將MD采樣集成投影到由結(jié)構(gòu)反應(yīng)坐標(biāo)定義的二維空間，利用玻爾茲曼關(guān)系將所得的概率密度轉(zhuǎn)換為連續(xù)的“近似能量”景觀，以此指導(dǎo)生成過程，抑制對物理上不合理構(gòu)象的采樣。

物理框架促進(jìn)多模態(tài)數(shù)據(jù)整合：物理框架的一個顯著功能是能夠在統(tǒng)一的機理視角下解釋異構(gòu)的多模態(tài)數(shù)據(jù)。在BioEmu的訓(xùn)練中，實驗測量的折疊自由能被解釋為“折疊度”的期望值，從而可以與重加權(quán)的MD數(shù)據(jù)聯(lián)合使用。Boltz-2 則展示了如何將動力學(xué)數(shù)據(jù)和親和力數(shù)據(jù)整合到一個物理可解釋的訓(xùn)練流程中，它將來自MD采樣和實驗方法的動力學(xué)數(shù)據(jù)統(tǒng)一表示為反映局部構(gòu)象靈活性的B因子和距離分布圖，作為訓(xùn)練序列編碼器的監(jiān)督信號。

物理監(jiān)督使AI能夠預(yù)測轉(zhuǎn)變路徑：除了精修集成分布，對MD數(shù)據(jù)進(jìn)行基于物理的處理還可以提取具有理論意義的標(biāo)簽，使機器學(xué)習(xí)模型能夠預(yù)測構(gòu)象轉(zhuǎn)變。PATHpre 工作流就是一個例子，它使用AI來預(yù)測穩(wěn)定狀態(tài)之間的轉(zhuǎn)變路徑。關(guān)鍵的監(jiān)督信號來自通過對粗粒度MD軌跡進(jìn)行物理分析而提取的過渡態(tài)結(jié)構(gòu)。這種方法展示了物理衍生的、具有理論意義的標(biāo)簽如何引導(dǎo)AI模型做出更具可解釋性、機制感知的預(yù)測。

從進(jìn)化結(jié)構(gòu)變異推斷蛋白質(zhì)動力學(xué)：根據(jù)共進(jìn)化原理，從同源序列可以推斷蛋白質(zhì)動力學(xué)。最近的研究表明，同源結(jié)構(gòu)也暗示著動力學(xué)。多個研究間接支持了這一觀點，證明動態(tài)特性可以從靜態(tài)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)中推斷出來。BioEmu提供了更直接的驗證，它證明在預(yù)訓(xùn)練中整合同源結(jié)構(gòu)變異可以提高采樣多樣性。其預(yù)訓(xùn)練數(shù)據(jù)集包含在序列空間相似但在結(jié)構(gòu)空間多樣的同源蛋白質(zhì)的AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫（AFDB）聚類，與在不相似的AFDB蛋白質(zhì)或蛋白質(zhì)數(shù)據(jù)庫（PDB）條目上預(yù)訓(xùn)練的模型相比，這種基于同源性的聚類被證明至關(guān)重要，支持了將進(jìn)化結(jié)構(gòu)變異作為動力學(xué)代理的實用性。

基于AI的多尺度粗粒化建模蛋白質(zhì)動力學(xué)

全原子MD模擬雖然基于物理，但受限于計算復(fù)雜性，通常只能應(yīng)用于小空間和時間尺度。為了克服這一瓶頸，先前的研究開發(fā)了多種粗粒度（CG）模型，它們提供了顯著更高的計算效率，非常適合探索生物分子的大尺度構(gòu)象變化。CG模型開發(fā)的一個核心挑戰(zhàn)是如何在CG水平上準(zhǔn)確表示多體相互作用，以重現(xiàn)參考全原子系統(tǒng)的平衡分布。

人工智能的最新進(jìn)展正在迅速改變MD模擬方法。機器學(xué)習(xí)力場（MLFFs） 在量子力學(xué)數(shù)據(jù)上訓(xùn)練，現(xiàn)在能夠?qū)崿F(xiàn)接近量子精度的模擬。AI在全原子MD模擬中的成功，激發(fā)了構(gòu)建CG力場的新方法。通過利用深度神經(jīng)網(wǎng)絡(luò)卓越的表達(dá)能力，CG機器學(xué)習(xí)力場可以有效地將必要的多體效應(yīng)納入CG模型。CGSchNet 就是一個將多尺度粗粒化策略與AI模型相結(jié)合的典型例子。這個基于AI的CG力場使用圖神經(jīng)網(wǎng)絡(luò)在全原子MD數(shù)據(jù)上進(jìn)行訓(xùn)練，以從CG表示中預(yù)測能量和力。其可遷移性已在廣泛的蛋白質(zhì)系統(tǒng)中得到證明。除了力匹配，其他針對全局蛋白質(zhì)特性的策略（如能量匹配）也已出現(xiàn)。CG MLFFs的成功凸顯了將基于生物物理學(xué)的多尺度粗粒化框架與AI驅(qū)動模型相結(jié)合，以應(yīng)對蛋白質(zhì)動力學(xué)建模中固有計算復(fù)雜性的潛力。

結(jié)論與展望

將AI與物理原理相結(jié)合，已在蛋白質(zhì)動力學(xué)建模方面取得了實質(zhì)性進(jìn)展，并展現(xiàn)出巨大的未來發(fā)展前景。本綜述討論了兩個整合物理原理到AI模型中的新興范式，以及代表更成熟方法的AI基助力場。

第一個范式利用生物物理原理來調(diào)動AF2中編碼的潛在動態(tài)知識，從而將模型能力擴(kuò)展到蛋白質(zhì)動力學(xué)預(yù)測。這種方法突顯了生物物理學(xué)在指導(dǎo)基礎(chǔ)模型下游應(yīng)用中的重要作用，提供了一種通用且具成本效益的策略。第二個范式中，物理原理有助于從龐大、嘈雜、多模態(tài)但不完整的數(shù)據(jù)集中提供有意義的動態(tài)信號，通過提高信噪比、補償數(shù)據(jù)不收斂性以及將異構(gòu)數(shù)據(jù)整合到統(tǒng)一的、物理一致的框架中來實現(xiàn)。我們重點指出了該范式內(nèi)的兩個方向：由物理知情標(biāo)簽監(jiān)督的過渡態(tài)預(yù)測，以及進(jìn)化-動力學(xué)相關(guān)性的潛在效用。

AI基助力場代表了物理學(xué)與AI整合的一種更成熟的形式，其最新進(jìn)展顯著提高了在原子水平和粗粒度蛋白質(zhì)模擬中的可遷移性和可擴(kuò)展性。這些進(jìn)展為邁向集成的多尺度MD框架鋪平了道路，有可能在蛋白質(zhì)動力學(xué)建模的采樣效率和計算成本之間取得比當(dāng)前AI基助力場所能達(dá)到的更好的平衡。

對于未來的發(fā)展，我們預(yù)計將有更多樣化的物理衍生動態(tài)信號被整合到AI框架中，包括彈性網(wǎng)絡(luò)模型（ENM）導(dǎo)出的簡正模式、進(jìn)化-動力學(xué)相關(guān)性以及局部挫敗模式。雖然ENM能輕易捕捉蛋白質(zhì)動力學(xué)的大尺度集體運動，但數(shù)據(jù)驅(qū)動的AI模型在沒有適當(dāng)歸納偏置的情況下可能不會強調(diào)此類全局特征。納入ENM衍生的先驗可以讓AI模型卸下捕捉全局模式的負(fù)擔(dān)，使其能更好地專注于更詳細(xì)、更精細(xì)的動態(tài)特征。在近期進(jìn)展的支持下，進(jìn)化-動力學(xué)相關(guān)性有望作為AI動態(tài)建模的物理先驗。基于局部挫敗反映蛋白質(zhì)家族內(nèi)部功能和動態(tài)約束的證據(jù)，進(jìn)化挫敗模式可以提供跨進(jìn)化時間尺度的蛋白質(zhì)動力學(xué)的緊湊表示。

最近的擴(kuò)散模型架構(gòu)基于與物理動力學(xué)具有強類比性的隨機過程數(shù)學(xué)框架，這為在蛋白質(zhì)動力學(xué)預(yù)測中結(jié)合AI與物理學(xué)帶來了巨大希望。STR2STR 和 MDGEN 等工作 exemplifies 了這種類比如何應(yīng)用于蛋白質(zhì)動力學(xué)建模。

雖然當(dāng)前AI-物理學(xué)整合研究主要集中在采樣熱力學(xué)集成上，但向顯式建模時間動力學(xué)（即超越熱力學(xué)集成分布的動力學(xué)方面）推進(jìn)仍然具有挑戰(zhàn)性，代表了一個引人注目的未來方向。開發(fā)專門的動力學(xué)預(yù)測基準(zhǔn)是另一個重要方向，由快速發(fā)展的AI增強動力學(xué)建模所驅(qū)動，它需要更嚴(yán)格的評估。現(xiàn)有的基準(zhǔn)主要針對兩個目標(biāo)：1）準(zhǔn)確預(yù)測功能動態(tài)結(jié)構(gòu)和局部漲落；2）忠實再現(xiàn)集成統(tǒng)計特性。盡管存在有價值的基準(zhǔn)和數(shù)據(jù)集，但一個關(guān)鍵差距仍然存在：缺乏標(biāo)準(zhǔn)化的、被廣泛采用的評估工具來全面評估構(gòu)象動力學(xué)的結(jié)構(gòu)采樣和動力學(xué)方面。此外，為了催化類似CASP在結(jié)構(gòu)預(yù)測中所產(chǎn)生的影響，該領(lǐng)域迫切需要社區(qū)驅(qū)動的倡議，以建立嚴(yán)格的基準(zhǔn)并組織蛋白質(zhì)構(gòu)象動力學(xué)的盲測挑戰(zhàn)。

相關(guān)新聞

生物通微信公眾號

微信

新浪微博

我要投稿

搜索
國際
國內(nèi)
人物
產(chǎn)業(yè)
熱點
科普

知名企業(yè)招聘

擴(kuò)展AF2的能力：基于生物物理原理的動力學(xué)預(yù)測

基于物理的數(shù)據(jù)處理：從數(shù)據(jù)中提取有效信息

基于AI的多尺度粗粒化建模蛋白質(zhì)動力學(xué)

結(jié)論與展望

熱點排行

新聞專題