中文字幕三区,亚洲.无码.制服.日韩.中文字幕,密臀av

首頁今日動態(tài) 人才市場新技術(shù)專欄中國科學(xué)人云展臺
BioHot
云講堂直播會展中心特價專欄技術(shù)快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

基于子序列重排序預(yù)訓(xùn)練的零樣本學(xué)習(xí)方法在復(fù)合蛋白質(zhì)相互作用研究中的應(yīng)用

《Knowledge-Based Systems》：Zero-Shot Learning with Subsequence Reordering Pretraining for Compound-Protein Interaction

【字體：大中小】 時間：2026年03月03日 來源：Knowledge-Based Systems 7.6

編輯推薦：

　　零樣本化合物-蛋白質(zhì)相互作用預(yù)測面臨蛋白質(zhì)子序列復(fù)雜依賴建模和小數(shù)據(jù)集效率問題，本文提出PSRP-CPI方法，通過子序列重排預(yù)訓(xùn)練和長度可變增強策略，有效捕捉非局部依賴關(guān)系，顯著提升基線模型在零樣本場景和小規(guī)模數(shù)據(jù)集上的性能。

張洪志|劉忠立|孟坤|陳家猛|吳佳|杜波|林迪|車艷|胡文斌

中國武漢大學(xué)計算機科學(xué)學(xué)院

摘要

鑒于化學(xué)空間的廣闊以及新蛋白質(zhì)的不斷涌現(xiàn)，零樣本化合物-蛋白質(zhì)相互作用（CPI）預(yù)測更能反映實際藥物開發(fā)中的挑戰(zhàn)和需求。盡管現(xiàn)有方法在某些CPI任務(wù)中表現(xiàn)尚可，但仍然面臨以下問題：（1）從局部或完整蛋白質(zhì)序列中進(jìn)行表示學(xué)習(xí)時，常常忽略了子序列之間的復(fù)雜依賴關(guān)系，而這些關(guān)系對于預(yù)測空間結(jié)構(gòu)和結(jié)合特性至關(guān)重要。（2）依賴于大規(guī)模或稀少多模態(tài)蛋白質(zhì)數(shù)據(jù)集需要大量的訓(xùn)練數(shù)據(jù)和計算資源，限制了模型的可擴展性和效率。為了解決這些問題，我們提出了一種新方法，該方法通過子序列重排序?qū)Φ鞍踪|(zhì)表示進(jìn)行預(yù)訓(xùn)練，從而明確捕捉子序列之間的依賴關(guān)系。此外，我們還應(yīng)用了長度可變的蛋白質(zhì)增強技術(shù)，以確保在小規(guī)模訓(xùn)練數(shù)據(jù)集上的良好預(yù)訓(xùn)練性能。為了評估模型的有效性和零樣本學(xué)習(xí)能力，我們將該方法與多種基線方法進(jìn)行了結(jié)合。實驗結(jié)果表明，我們的方法可以提高基線模型在CPI任務(wù)上的性能，尤其是在具有挑戰(zhàn)性的零樣本場景中。與現(xiàn)有的預(yù)訓(xùn)練模型相比，我們的模型在數(shù)據(jù)稀缺的情況下表現(xiàn)更為優(yōu)越。我們的實現(xiàn)代碼可在以下鏈接獲取：https://github.com/Hoch-Zhang/DrugDiscovery-DTI/。

引言

化合物-蛋白質(zhì)相互作用（CPI）預(yù)測[1]、[2]、[3]、[4]為傳統(tǒng)藥物發(fā)現(xiàn)中的低效率問題提供了解決方案，尤其是在減少時間和成本方面[5]。在CPI預(yù)測任務(wù)中，評估場景通常分為四類：Both-Seen、Compound-Unseen、Protein-Unseen和Both-Unseen，這取決于化合物和蛋白質(zhì)是否在訓(xùn)練數(shù)據(jù)中出現(xiàn)過。其中，除了Both-Seen場景外，其他三種場景都屬于零樣本學(xué)習(xí)范疇。考慮到龐大的化學(xué)空間和新蛋白質(zhì)的持續(xù)出現(xiàn)，零樣本CPI預(yù)測場景更符合藥物發(fā)現(xiàn)中的實際需求。

如圖1(a)所示，在化合物與蛋白質(zhì)的相互作用中，參與結(jié)合的氨基酸殘基通常不是順序相鄰的，而是通過蛋白質(zhì)的三維結(jié)構(gòu)折疊而緊密靠近，從而形成結(jié)合口袋或活性位點。因此，有效建模CPI需要捕捉可能協(xié)同作用的蛋白質(zhì)子序列之間的關(guān)系。這對傳統(tǒng)的基于序列的模型來說是一個重大挑戰(zhàn)，因為它們往往難以模擬這種長距離和子序列依賴性。

包括回歸[6]、[7]和分類[8]、[9]模型在內(nèi)的監(jiān)督學(xué)習(xí)技術(shù)已被廣泛研究，并在預(yù)測Both-Seen CPI方面表現(xiàn)出良好的性能，即化合物和蛋白質(zhì)在訓(xùn)練期間都已被觀察到。然而，利用端到端CPI框架進(jìn)行蛋白質(zhì)表示的監(jiān)督學(xué)習(xí)方法難以有效捕捉蛋白質(zhì)子序列之間的復(fù)雜依賴關(guān)系，而這些關(guān)系對于預(yù)測空間結(jié)構(gòu)和結(jié)合特性至關(guān)重要。此外，這些方法的預(yù)測性能嚴(yán)重依賴于大量高質(zhì)量標(biāo)記數(shù)據(jù)。所有這些因素都使得將模型泛化到零樣本學(xué)習(xí)變得困難。

自監(jiān)督學(xué)習(xí)（SSL）技術(shù)最近在零樣本學(xué)習(xí)任務(wù)中表現(xiàn)出優(yōu)異的性能[10]、[11]、[12]、[13]。在CPI預(yù)測的背景下，基于SSL的方法通常通過兩種主要范式來增強蛋白質(zhì)表示學(xué)習(xí)：跨模態(tài)對比學(xué)習(xí)和基于掩碼的序列重建。盡管取得了成功，但這些方法在捕捉非局部子序列依賴性方面存在顯著局限性。對比學(xué)習(xí)方法側(cè)重于跨模態(tài)（例如序列-結(jié)構(gòu)對）[4]對相同蛋白質(zhì)子序列的對齊，但它們本質(zhì)上無法捕捉同一蛋白質(zhì)內(nèi)不同子序列之間的復(fù)雜依賴性。這種局限性源于它們對全局特征一致性的優(yōu)先考慮，而忽視了局部交互模式。因此，非相鄰殘基之間的關(guān)鍵空間或功能關(guān)系（例如不連續(xù)的結(jié)合基序）未能得到充分表示。基于掩碼的方法，特別是蛋白質(zhì)語言模型（PLMs）[14]、[15]、[16]，通過從鄰居氨基酸重構(gòu)掩碼氨基酸來處理局部上下文學(xué)習(xí)[17]。這些方法主要模擬相鄰或近鄰的子序列，忽略了對于整體結(jié)構(gòu)和功能表示至關(guān)重要的長距離依賴性。此外，基于SSL的方法通常依賴于專門或特定于任務(wù)的數(shù)據(jù)。例如，對比學(xué)習(xí)框架依賴于高質(zhì)量的多模態(tài)蛋白質(zhì)數(shù)據(jù)（如序列-結(jié)構(gòu)對）來捕捉跨模態(tài)相關(guān)性。然而，這類數(shù)據(jù)對于研究不足的蛋白質(zhì)來說非常稀缺，限制了其在零樣本場景中的適用性。雖然基于掩碼的方法對多模態(tài)數(shù)據(jù)的依賴性較低，但仍需要在龐大的序列語料庫（如UniRef50/90）上進(jìn)行大規(guī)模預(yù)訓(xùn)練，以學(xué)習(xí)魯棒且泛化的蛋白質(zhì)表示[14]。

為了解決這些問題，我們提出了一種名為PSRP-CPI（Protein Sequence Reordering Pretraining for CPI Prediction）的蛋白質(zhì)編碼器方法。首先，如圖1(b)所示，PSRP-CIP通過子序列重排序?qū)Φ鞍踪|(zhì)編碼器進(jìn)行預(yù)訓(xùn)練，明確捕捉蛋白質(zhì)子序列之間的依賴關(guān)系。然后，根據(jù)基準(zhǔn)方法對編碼器進(jìn)行微調(diào)，以更有效地適應(yīng)CPI任務(wù)。在預(yù)訓(xùn)練階段，我們使用多層Transformer[18]作為蛋白質(zhì)編碼器，有效學(xué)習(xí)遠(yuǎn)距離子序列之間的關(guān)系。此外，重排序任務(wù)要求模型預(yù)測混合蛋白質(zhì)子序列的正確順序，迫使其理解和建模它們的結(jié)構(gòu)和功能依賴性。其次，我們應(yīng)用長度可變的蛋白質(zhì)增強技術(shù)，以提高模型在小規(guī)模訓(xùn)練數(shù)據(jù)集上的預(yù)訓(xùn)練性能，并增強其零樣本學(xué)習(xí)能力。最后，為了評估模型的有效性和零樣本學(xué)習(xí)能力，我們根據(jù)化合物和蛋白質(zhì)是否在訓(xùn)練期間被觀察到，將測試數(shù)據(jù)分為四組。實驗結(jié)果表明，PSRP-CIP顯著提高了基線模型在零樣本場景中的性能，突顯了我們方法在增強模型泛化能力方面的有效性。同時，與傳統(tǒng)的預(yù)訓(xùn)練方法相比，我們的方法在訓(xùn)練樣本有限的場景中表現(xiàn)出更優(yōu)的性能。所提出的方法成為CPI任務(wù)的強大工具，在藥物發(fā)現(xiàn)中具有廣泛的應(yīng)用前景。本研究的主要貢獻(xiàn)如下：•

我們提出了一種基于蛋白質(zhì)子序列重排序的預(yù)訓(xùn)練方法PSRP-CPI，通過明確建模蛋白質(zhì)子序列之間的關(guān)系來提高CPI預(yù)測任務(wù)的性能。

•

我們開發(fā)了一種長度可變的蛋白質(zhì)增強策略，使模型即使在小規(guī)模數(shù)據(jù)集上也能實現(xiàn)穩(wěn)健的預(yù)訓(xùn)練性能。

•

我們在四個廣泛使用的CPI基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面實驗，證明了PSRP-CIP在零樣本CPI預(yù)測中的強大性能。此外，我們還將PSRP-CPI與現(xiàn)有預(yù)訓(xùn)練方法在小規(guī)模數(shù)據(jù)集上進(jìn)行了比較，以評估其在資源匱乏環(huán)境下的有效性。