不確定性量化賦能深度學習:蛋白質-配體結合親和力預測的可靠性突破
《Scientific Reports》:Uncertainty quantification enables reliable deep learning for protein–ligand binding affinity prediction
【字體:
大
中
小
】
時間:2025年12月05日
來源:Scientific Reports 3.9
編輯推薦:
本研究針對深度學習模型在蛋白質-配體結合親和力預測中泛化能力不足且缺乏可靠置信度估計的問題,系統比較了五種不確定性量化方法。研究人員發現Bayes by Backprop方法在FFNN-ECIF模型上實現了最優的預測性能和校準效果,為藥物發現提供了更可靠的不確定性量化工具。
在計算機輔助藥物發現領域,準確預測蛋白質與配體之間的結合親和力是至關重要的環節。近年來,深度學習算法在這一任務中展現出巨大潛力,但模型在實際應用中仍面臨兩大挑戰:一是對未知數據的泛化能力不足,二是預測結果缺乏可靠的不確定性估計。這導致研究人員難以判斷預測結果的可信度,從而限制了這些模型在藥物研發中的實際應用價值。
傳統評估方法中存在的"軟重疊"問題更使得模型性能評估產生偏差。當訓練集和測試集中存在相似特征或模式的實例時,模型的性能評估往往會過于樂觀,無法真實反映其在實際應用中的表現。此外,即使使用無偏差的數據集,每個模型也都有其固有的應用域限制,超出這一范圍預測可靠性就會顯著下降。
為了應對這些挑戰,Milad Rayka和S.Shahab Naghavi開展了一項系統研究,比較了五種不確定性量化方法在蛋白質-配體結合親和力預測中的表現。這項發表在《Scientific Reports》上的研究不僅為領域提供了重要的方法學比較,更為可靠藥物設計工具的開發指明了方向。
關鍵技術方法方面,研究人員采用了Leak-Proof PDBBind數據集確保無偏訓練和驗證,構建了四種深度學習模型(FFNN-ECIF、CNN-MS-OIC、DeepDTA和IGN),系統評估了五種不確定性量化方法(Deep Ensemble、MC-Dropout、Laplace approximation、Bayes by Backprop和ENN),并使用了包括排序基、校準基和適當評分規則在內的多維度評估指標。
研究人員首先比較了四種深度學習模型的預測性能。通過Wilcoxon符號秩檢驗發現,基于擴展連通性相互作用特征(ECIF)的前饋神經網絡(FFNN)在驗證集上表現最優,其皮爾遜相關系數(Rp)達到0.556,均方根誤差(RMSE)為1.545。然而,當模型應用于外部測試集時,性能出現明顯波動,特別是在結合親和力分布與訓練集存在較大差異的數據集上。這一發現凸顯了不確定性量化在識別模型應用域方面的重要性。
在選擇FFNN-ECIF作為基礎預測模型后,研究人員系統評估了五種不確定性量化方法。通過45項指標的綜合分析發現,不同方法在各維度上表現出互補優勢。Bayes by Backprop在校準基指標上表現最為穩定,而Laplace近似在負對數似然(NLL)和排序指標上表現優異。深度集成方法產生的預測區間最為尖銳,但存在過度自信的問題。
校準曲線可視化分析揭示了不同不確定性量化方法的置信度特性。研究發現約60%的方法表現出過度自信行為,其中MC-Dropout和深度集成方法明顯低估不確定性,而Laplace近似則獨特地表現出低估置信度的特點。Bayes by Backprop在不同數據集上展現出適應性校準能力,其在校準曲線中與理想線最為接近。
通過預測區間與真實值的對比分析,研究人員進一步驗證了各方法的校準質量。Bayes by Backprop產生的預測區間能夠較好地包含真實值,表明其不確定性估計較為準確。而其他方法或在某些數據集上表現出區間過窄(低估不確定性),或區間過寬(高估不確定性)的問題。
綜合分析表明,Bayes by Backprop在多項關鍵指標上表現最為均衡,特別是在校準質量方面表現突出,且無需額外的重新校準步驟。該方法在分布外預測場景中展現出較強魯棒性,對于識別模型遇到的陌生數據模式具有重要價值。
研究結論表明,Bayes by Backprop作為首次應用于蛋白質-配體結合親和力預測的不確定性量化方法,展現出了卓越的性能。該方法在排序基指標、適當評分規則和銳度指標上均取得優異結果,特別是在無需重新校準的情況下仍能保持良好的校準特性,這使其在分布外預測中具有特殊價值。
該研究的重要意義在于為深度學習在藥物發現中的應用提供了可靠性保障。通過可靠的不確定性量化,研究人員能夠更加自信地使用模型預測結果進行決策,特別是在主動學習框架中,模型可以主動選擇不確定性最高的樣本進行標注,從而加速藥物發現流程。未來,這一研究成果可進一步應用于活性學習算法,推動蛋白質-配體結合親和力預測向更可靠、高效的方向發展。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號