亚欧在线视频,亚洲黄色短视频,成人av中文字幕在线播放

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

通過檢索增強生成技術、蛋白質語言模型和深度學習來提升蛋白質中金屬結合殘基的分類精度

《Engineering Applications of Artificial Intelligence》：Enhancing the classification of metal-binding residue in proteins with retrieval-augmented generation, protein language models, and deep learning

【字體：大中小】 時間：2026年02月28日 來源：Engineering Applications of Artificial Intelligence 8

編輯推薦：

　　金屬離子對蛋白質功能至關重要，但結合位點預測面臨類不平衡難題。本研究提出RAG-PLMs-MetalBind框架，通過檢索預計算金屬結合蛋白結構信息（1948條），結合滑動窗口（15 residues）提取的ProtTrans特征，并利用位置注意力變換網絡（PATN）進行分類。在579條非冗余金屬結合蛋白數據集上，模型AUC達0.8810，召回率0.7729，且在15條新蛋白測試中表現優異。相較于bindEmbed21，相對召回率提升超200%，為藥物開發提供高靈敏度篩選工具。

Muhammad Shahid Malik|Van The Le|Yu-Yen Ou

巴基斯坦吉爾吉特-巴爾蒂斯坦地區卡拉科拉姆國際大學計算機科學系，郵編15100

摘要

金屬離子對蛋白質結構、分子識別和酶催化至關重要，因此準確識別金屬結合殘基對于藥物發現、酶工程和金屬蛋白研究至關重要。盡管計算方法具有可擴展性和成本效益，但由于類別極度不平衡（結合殘基的數量遠少于非結合殘基），殘基級別的金屬結合預測仍然具有挑戰性，這導致標準深度學習模型傾向于偏好多數類別。

我們提出了一種新的框架，該框架整合了檢索增強生成（RAG）、蛋白質語言模型（PLMs）和位置注意力變換器網絡（PATN）。從Littmann等人的高同源性容忍度（CD-HIT）聚類數據庫（序列同源性<20%）中篩選出的14,894種蛋白質中，得到了579種非冗余的金屬結合蛋白質，結合與非結合殘基的比例約為1:32。為了克服基于序列的模型的局限性，引入了RAG作為一種動態過采樣策略，該策略明確地結合了結構上下文。對于每個查詢，模型從包含1948種非冗余金屬結合蛋白質（鋅、錳、鎂和鈣；序列同源性<30%）的 curated 數據庫中檢索并平均前五個最相似的15個殘基的ProtTrans嵌入，從而豐富了局部表示，使其包含與結合相關的上下文信號。隨后，融合后的嵌入通過PATN進行處理以進行分類。

所提出的模型在獨立測試集上的接收者操作特征曲線下面積（AUC）為0.8810，召回率為0.7729，并且在15種新報告的蛋白質上進一步展示了強大的泛化能力（AUC = 0.9586，召回率 = 0.896）。盡管精度有所下降，但該方法的表現優于bindEmbed21，相對召回率提高了200%以上，從而建立了一種有效的金屬結合位點發現的高靈敏度篩選工具。

引言

金屬離子對許多生物過程至關重要，它們既作為酶的輔因子，也是結構組成部分。幾乎三分之一的蛋白質能夠結合金屬（Bruins等人，2000年；Andreini等人，2009年；Galera-Laporta等人，2021年），參與諸如脫氧核糖核酸（DNA）復制、轉錄、修復、催化和信號轉導等關鍵功能（Ferré-D'Amaré等人，2011年）。金屬結合位點的失調與阿爾茨海默病、帕金森病和癌癥等疾病有關（Alissa等人，2011年；Barnham等人，2008年）。例如，銅的穩態失調與威爾遜病相關，而鐵的失調則會導致惡性腫瘤和炎癥性疾病（Bandmann等人，2015年；Madsen等人，2007年）。像p53和超氧化物歧化酶1（SOD1）這樣的蛋白質直接與癌癥進展和肌萎縮側索硬化癥（ALS）有關（Chia等人，2018年）。鑒于其生物學重要性，金屬結合位點已成為藥物發現的焦點，例如鉑基治療和金屬蛋白抑制劑在癌癥治療中的應用（Anthony等人，2020年）。計算方法可用于識別潛在的結合位點并開發調節金屬-蛋白質相互作用的基于金屬的治療藥物（Schauperl等人，2022年）。

準確識別金屬結合位點在結構生物學中是一個重大挑戰，因為傳統的X射線晶體學和核磁共振（NMR）光譜等方法成本高昂、耗時且并不總是可靠（Fevzioglu等人，2020年）。計算方法可以通過整合序列保守性、生化特征和機器學習算法來克服這些限制，從而提高結合位點的預測能力。事實上，深度學習和自然語言處理（NLP）的進步使得基于序列的分析更加強大，有助于實現這一目標。

在最近的嘗試中，多項研究使用計算方法探索了蛋白質-金屬相互作用（Li等人，2024年；Koohi-Moghadam等人，2019年；Shenoy等人，2024年；Littmann等人，2021年）。例如，Littmann等人（2021年）表明，蛋白質語言模型（PLM）嵌入在預測配體結合位點方面優于多重序列比對，而Shenoy等人（2024年）在金屬結合蛋白質預測中獲得了0.83的AUC和0.85的召回率，但未能顯著提高殘基級別的識別能力。PMSFF框架（Li等人，2024年）通過結合多尺度特征提高了各種金屬結合殘基（PBRs）的準確性，但它適用于多種結合類別，如核苷酸或小配體，而不是專注于金屬結合殘基。這些發現突顯了需要一種更專門的方法來捕捉復雜的殘基相互作用并利用外部知識來改進預測。我們提出了兩種主要方案來解決這些問題。

首先，在生物研究中，變換器網絡設計（Vaswani等人，2017年）已經顯示出良好的性能，使模型能夠處理生理相關的表示并管理大量的未標記序列數據。受到之前預訓練模型（如雙向編碼器表示來自變換器（BERT）（Devlin等人，2018年）的啟發，一些后續模型如ProtTrans、ESM2、TAPE和ProstT5（Elnaggar等人，2021年；Lin等人，2022年；Rao等人，2019年；Heinzinger等人，2023年）使用龐大的序列數據庫來捕捉蛋白質序列的語法和語義。然而，很少有研究探索它們在金屬結合位點預測中的應用，因此還有進一步研究的空間。本研究使用滑動窗口方法形成了基于氨基酸的分類的穩健特征表示，將每個氨基酸與其相鄰殘基分組。

對于第二個問題，傳統的深度學習模型在金屬結合位點預測中存在類別不平衡的問題，因為結合殘基的數量遠少于非結合殘基。檢索增強生成（RAG）是一種先進的深度學習策略，通過檢索外部知識來提高預測準確性，豐富上下文理解并增強泛化能力。這種技術已成功應用于NLP任務中以改進表示，其在生物序列分析中的最新應用表明了對蛋白質相互作用研究的有潛在益處。RAG框架通過在整個數據集中均勻應用來解決金屬結合位點預測中的類別不平衡問題，通過使用預計算數據庫中的結構相關嵌入來豐富數據，而不改變樣本分布。通過改進基于序列的特征提取，RAG可能提高了蛋白質序列嵌入的可預測性。具體來說，我們不僅將RAG用于特征增強，還將其作為動態過采樣機制來緩解類別不平衡。通過從已知的結合劑平衡數據庫中檢索“支持性”嵌入，我們在推理過程中豐富了少數類（結合殘基）的特征空間。這使模型能夠捕捉到純序列模型中經常缺失的潛在結構線索。

在這項研究中，我們引入了RAG-PLMs-MetalBind，這是一種新的計算框架，它結合了RAG、蛋白質語言模型（PLMs）和基于變換器的網絡來增強蛋白質中金屬結合殘基的分類。我們的框架將基于序列的表示與檢索到的結構上下文相結合，通過使用預計算知識庫中的相似嵌入來豐富整個樣本，從而解決類別不平衡問題。我們進一步通過滑動窗口策略（15個殘基）來細化殘基級別的預測，該策略捕捉局部序列相互作用，而RAG組件通過外部知識檢索增強了上下文理解。需要注意的是，這種架構被設計為一個高靈敏度的發現工具。雖然這種方法優先考慮召回率以最小化假陰性，這對于確保不會錯過潛在的藥物靶點至關重要，但它可能導致精度降低，因此需要后續過濾。

部分內容

材料與方法

工作流程從包含結合和非結合殘基的金屬結合蛋白質開始。使用四種不同的預訓練PLM的權重生成序列嵌入，然后使用滑動窗口方法在殘基級別對這些嵌入進行轉換。RAG技術通過檢索相關的上下文信息進一步豐富這些嵌入。最后，基于變換器的網絡將殘基分類為金屬結合或非結合。圖1說明了這一過程

結果與討論

所提出的RAG-PLMs-MetalBind架構使用了多尺度預訓練的蛋白質語言模型嵌入以及RAG策略和curated的Metal Binding Sites Dataset（bindEmbed21）進行評估。為了識別疾病過程和治療靶點，我們使用了這些蛋白質中的關鍵金屬結合殘基。

本研究擴展了之前關于金屬結合位點預測的研究，這些研究在對象分類方面不夠敏感或準確。使用復雜的預訓練蛋白質

結論

本文介紹了RAG-PLMs-MetalBind，這是一種用于發現金屬結合殘基的架構，在靈敏度和平衡性能指標方面優于基線技術。通過將檢索增強生成（RAG）整合到多尺度殘基特征系統中，我們改進了正樣本的表示，同時保持了出色的整體性能。該模型從外部數據庫獲取并混合了上下文信息，以捕捉局部和全局信息

CRediT作者貢獻聲明

Muhammad Shahid Malik：撰寫 – 審稿與編輯，撰寫 – 原始草稿，可視化，驗證，軟件，方法論，調查，形式分析，數據策劃，概念化。Van The Le：可視化，驗證，軟件，概念化。Yu-Yen Ou：驗證，監督，資源，調查，資金獲取，形式分析，概念化。

數據和軟件可用性

我們的代碼和數據集可以在GitHub上找到：https://github.com/Malik-glt/MetalBind_PATN

利益沖突聲明

我，Muhammad Shahid Malik，特此聲明我沒有可能與本工作主題產生影響的任何組織的財務利益或關系。我還確認我沒有可能影響我的研究公正性和客觀性的任何專業或個人隸屬關系。

我沒有收到與本研究中呈現的研究相關的任何資金、資助或酬金。此外，我沒有個人關系或

致謝

這項工作部分得到了臺灣國家科學技術委員會的支持，資助編號為NSTC 112-2221-E-155-020-MY3。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號