FoldBench:全原子生物分子結構預測的綜合基準測試揭示模型性能與泛化能力
《Nature Communications》:Benchmarking all-atom biomolecular structure prediction with FoldBench
【字體:
大
中
小
】
時間:2025年12月05日
來源:Nature Communications 15.7
編輯推薦:
準確預測生物分子復合物結構是理解生命過程和理性藥物設計的基礎。為解決現有基準測試在覆蓋范圍與評估標準上的不足,研究人員開展了名為FoldBench的全原子生物分子結構預測基準研究。該研究構建了包含1,522個生物組裝的跨領域基準數據集,系統評估了AlphaFold 3等五種前沿模型的九大預測任務性能。結果顯示AlphaFold 3在多數任務中領先,但抗體-抗原預測失敗率超50%,且模型性能顯著受配體相似度和訓練數據記憶效應影響。該基準為未來模型開發提供了關鍵評估標準和改進方向。
在結構生物學領域,準確預測生物分子復合物的三維結構如同破解生命語言的密碼,對理解疾病機制和開發創新藥物具有革命性意義。近年來,深度學習技術推動該領域取得突破性進展,特別是AlphaFold 3的出現,將預測范圍從單一蛋白質擴展到蛋白質、核酸、配體、離子等多元生物分子體系。然而,這片繁榮圖景背后隱藏著嚴峻挑戰:不同模型的性能缺乏統一標準衡量,針對特定分子類型的預測可靠性存疑,更重要的是,模型對訓練數據的依賴程度及其真實泛化能力始終成謎。正如航海家需要精確的海圖,科研界亟需一個能全面評估這些"分子預言家"真實能力的基準平臺。
為解決這一瓶頸,復旦大學許昇、馮千泰等研究人員在《Nature Communications》發表了題為《FoldBench:全原子生物分子結構預測基準測試》的重要研究。團隊構建了包含1,522個生物組裝的跨領域基準數據集FoldBench,涵蓋九類預測任務,系統評估了AlphaFold 3、Boltz-1、Chai-1、HelixFold 3和Protenix五種前沿模型。研究揭示:AlphaFold 3在多數任務中表現領先,但抗體-抗原復合物預測失敗率超50%;模型性能與配體相似度呈正相關,凸顯訓練數據記憶效應;核酸結構預測仍是行業難點。該基準為未來模型開發提供了關鍵評估標準和改進方向。
關鍵技術方法包括:基于PDB數據庫(蛋白質數據庫)的生物組裝篩選流程,采用序列相似性<40%和結構相似性TM-score<0.5的低同源性過濾標準;使用5×5采樣策略(5種子×5樣本)配合10輪循環的構象空間探索方案;依托OpenStructure(開放結構)框架的DockQ(對接質量分數)、LDDT(局部距離差異測試)、LRMSD(配體均方根偏差)等多維度評估體系。
通過558個蛋白-配體復合物分析發現,AlphaFold 3以64.9%的成功率領先,但在"未見配體"場景下性能下降。配體相似度與預測精度呈強正相關(圖3F),例如ATP類似物ADP的變構位點預測中,僅AlphaFold 3產生少量正確構象(圖3H)。研究表明蛋白結構預測精度(LDDT-LP>0.8)并非主要瓶頸,配體相似度才是決定性因素。
在279個低同源性蛋白-蛋白界面測試中,AlphaFold 3的DockQ成功率達72.9%。異源復合物表現優于同源復合物(圖4C),與早期研究相反。典型案例8DPA(圖4D)顯示AlphaFold 3能準確預測結構域交換同源二聚體,而其他模型均失敗,證明其對構象變化的捕捉能力。
172個抗體-抗原對測試揭示該任務是最大挑戰:AlphaFold 3成功率僅47.9%,其他模型失敗率超60%。增加采樣量可提升性能(圖5B),但需配合精準排序算法。CDR H3環(互補決定區H3環)建模精度與DockQ得分高度相關(圖5C),納米抗體因結構簡單更易預測(成功率53.3%)。
核酸單體預測平均LDDT僅0.2-0.6,顯著低于蛋白質(0.88)。長鏈RNA(如7ZJ4)和G四鏈體(如8UTG)預測失敗(圖6B,D),蛋白-DNA界面成功率(79.2%)高于蛋白-RNA(62.3%),反映DNA結構規整性優勢和RNA數據稀缺劣勢。
研究結論指出,當前模型在數據豐富場景表現良好,但在抗體-抗原界面、變構位點、核酸等關鍵領域存在明顯局限。性能差異受訓練數據分布、分子復雜性、排序算法可靠性共同影響。FoldBench的建立為領域發展提供三方面支撐:統一評估標準助力公平比較,故障模式分析指明改進方向,數據共享機制促進算法迭代。未來需聚焦訓練數據擴容、構象采樣優化、排序算法創新等方向,特別是加強對抗體柔性區域和核酸復雜結構的學習能力。這項研究不僅繪制了全原子結構預測的"能力地圖",更為解鎖更難生物醫學靶點的結構密碼鋪設了基石。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號