《Knowledge-Based Systems》:Zero-Shot Learning with Subsequence Reordering Pretraining for Compound-Protein Interaction
編輯推薦:
零樣本化合物-蛋白質(zhì)相互作用預(yù)測面臨蛋白質(zhì)子序列復(fù)雜依賴建模和小數(shù)據(jù)集效率問題,本文提出PSRP-CPI方法,通過子序列重排預(yù)訓(xùn)練和長度可變增強策略,有效捕捉非局部依賴關(guān)系,顯著提升基線模型在零樣本場景和小規(guī)模數(shù)據(jù)集上的性能。
張洪志|劉忠立|孟坤|陳家猛|吳佳|杜波|林迪|車艷|胡文斌
中國武漢大學(xué)計算機科學(xué)學(xué)院
摘要
鑒于化學(xué)空間的廣闊以及新蛋白質(zhì)的不斷涌現(xiàn),零樣本化合物-蛋白質(zhì)相互作用(CPI)預(yù)測更能反映實際藥物開發(fā)中的挑戰(zhàn)和需求。盡管現(xiàn)有方法在某些CPI任務(wù)中表現(xiàn)尚可,但仍然面臨以下問題:(1)從局部或完整蛋白質(zhì)序列中進(jìn)行表示學(xué)習(xí)時,常常忽略了子序列之間的復(fù)雜依賴關(guān)系,而這些關(guān)系對于預(yù)測空間結(jié)構(gòu)和結(jié)合特性至關(guān)重要。(2)依賴于大規(guī)模或稀少多模態(tài)蛋白質(zhì)數(shù)據(jù)集需要大量的訓(xùn)練數(shù)據(jù)和計算資源,限制了模型的可擴展性和效率。為了解決這些問題,我們提出了一種新方法,該方法通過子序列重排序?qū)Φ鞍踪|(zhì)表示進(jìn)行預(yù)訓(xùn)練,從而明確捕捉子序列之間的依賴關(guān)系。此外,我們還應(yīng)用了長度可變的蛋白質(zhì)增強技術(shù),以確保在小規(guī)模訓(xùn)練數(shù)據(jù)集上的良好預(yù)訓(xùn)練性能。為了評估模型的有效性和零樣本學(xué)習(xí)能力,我們將該方法與多種基線方法進(jìn)行了結(jié)合。實驗結(jié)果表明,我們的方法可以提高基線模型在CPI任務(wù)上的性能,尤其是在具有挑戰(zhàn)性的零樣本場景中。與現(xiàn)有的預(yù)訓(xùn)練模型相比,我們的模型在數(shù)據(jù)稀缺的情況下表現(xiàn)更為優(yōu)越。我們的實現(xiàn)代碼可在以下鏈接獲取:
https://github.com/Hoch-Zhang/DrugDiscovery-DTI/。
引言
化合物-蛋白質(zhì)相互作用(CPI)預(yù)測[1]、[2]、[3]、[4]為傳統(tǒng)藥物發(fā)現(xiàn)中的低效率問題提供了解決方案,尤其是在減少時間和成本方面[5]。在CPI預(yù)測任務(wù)中,評估場景通常分為四類:Both-Seen、Compound-Unseen、Protein-Unseen和Both-Unseen,這取決于化合物和蛋白質(zhì)是否在訓(xùn)練數(shù)據(jù)中出現(xiàn)過。其中,除了Both-Seen場景外,其他三種場景都屬于零樣本學(xué)習(xí)范疇。考慮到龐大的化學(xué)空間和新蛋白質(zhì)的持續(xù)出現(xiàn),零樣本CPI預(yù)測場景更符合藥物發(fā)現(xiàn)中的實際需求。
如圖1(a)所示,在化合物與蛋白質(zhì)的相互作用中,參與結(jié)合的氨基酸殘基通常不是順序相鄰的,而是通過蛋白質(zhì)的三維結(jié)構(gòu)折疊而緊密靠近,從而形成結(jié)合口袋或活性位點。因此,有效建模CPI需要捕捉可能協(xié)同作用的蛋白質(zhì)子序列之間的關(guān)系。這對傳統(tǒng)的基于序列的模型來說是一個重大挑戰(zhàn),因為它們往往難以模擬這種長距離和子序列依賴性。
包括回歸[6]、[7]和分類[8]、[9]模型在內(nèi)的監(jiān)督學(xué)習(xí)技術(shù)已被廣泛研究,并在預(yù)測Both-Seen CPI方面表現(xiàn)出良好的性能,即化合物和蛋白質(zhì)在訓(xùn)練期間都已被觀察到。然而,利用端到端CPI框架進(jìn)行蛋白質(zhì)表示的監(jiān)督學(xué)習(xí)方法難以有效捕捉蛋白質(zhì)子序列之間的復(fù)雜依賴關(guān)系,而這些關(guān)系對于預(yù)測空間結(jié)構(gòu)和結(jié)合特性至關(guān)重要。此外,這些方法的預(yù)測性能嚴(yán)重依賴于大量高質(zhì)量標(biāo)記數(shù)據(jù)。所有這些因素都使得將模型泛化到零樣本學(xué)習(xí)變得困難。
自監(jiān)督學(xué)習(xí)(SSL)技術(shù)最近在零樣本學(xué)習(xí)任務(wù)中表現(xiàn)出優(yōu)異的性能[10]、[11]、[12]、[13]。在CPI預(yù)測的背景下,基于SSL的方法通常通過兩種主要范式來增強蛋白質(zhì)表示學(xué)習(xí):跨模態(tài)對比學(xué)習(xí)和基于掩碼的序列重建。盡管取得了成功,但這些方法在捕捉非局部子序列依賴性方面存在顯著局限性。對比學(xué)習(xí)方法側(cè)重于跨模態(tài)(例如序列-結(jié)構(gòu)對)[4]對相同蛋白質(zhì)子序列的對齊,但它們本質(zhì)上無法捕捉同一蛋白質(zhì)內(nèi)不同子序列之間的復(fù)雜依賴性。這種局限性源于它們對全局特征一致性的優(yōu)先考慮,而忽視了局部交互模式。因此,非相鄰殘基之間的關(guān)鍵空間或功能關(guān)系(例如不連續(xù)的結(jié)合基序)未能得到充分表示。基于掩碼的方法,特別是蛋白質(zhì)語言模型(PLMs)[14]、[15]、[16],通過從鄰居氨基酸重構(gòu)掩碼氨基酸來處理局部上下文學(xué)習(xí)[17]。這些方法主要模擬相鄰或近鄰的子序列,忽略了對于整體結(jié)構(gòu)和功能表示至關(guān)重要的長距離依賴性。此外,基于SSL的方法通常依賴于專門或特定于任務(wù)的數(shù)據(jù)。例如,對比學(xué)習(xí)框架依賴于高質(zhì)量的多模態(tài)蛋白質(zhì)數(shù)據(jù)(如序列-結(jié)構(gòu)對)來捕捉跨模態(tài)相關(guān)性。然而,這類數(shù)據(jù)對于研究不足的蛋白質(zhì)來說非常稀缺,限制了其在零樣本場景中的適用性。雖然基于掩碼的方法對多模態(tài)數(shù)據(jù)的依賴性較低,但仍需要在龐大的序列語料庫(如UniRef50/90)上進(jìn)行大規(guī)模預(yù)訓(xùn)練,以學(xué)習(xí)魯棒且泛化的蛋白質(zhì)表示[14]。
為了解決這些問題,我們提出了一種名為PSRP-CPI(Protein Sequence Reordering Pretraining for CPI Prediction)的蛋白質(zhì)編碼器方法。首先,如圖1(b)所示,PSRP-CIP通過子序列重排序?qū)Φ鞍踪|(zhì)編碼器進(jìn)行預(yù)訓(xùn)練,明確捕捉蛋白質(zhì)子序列之間的依賴關(guān)系。然后,根據(jù)基準(zhǔn)方法對編碼器進(jìn)行微調(diào),以更有效地適應(yīng)CPI任務(wù)。在預(yù)訓(xùn)練階段,我們使用多層Transformer[18]作為蛋白質(zhì)編碼器,有效學(xué)習(xí)遠(yuǎn)距離子序列之間的關(guān)系。此外,重排序任務(wù)要求模型預(yù)測混合蛋白質(zhì)子序列的正確順序,迫使其理解和建模它們的結(jié)構(gòu)和功能依賴性。其次,我們應(yīng)用長度可變的蛋白質(zhì)增強技術(shù),以提高模型在小規(guī)模訓(xùn)練數(shù)據(jù)集上的預(yù)訓(xùn)練性能,并增強其零樣本學(xué)習(xí)能力。最后,為了評估模型的有效性和零樣本學(xué)習(xí)能力,我們根據(jù)化合物和蛋白質(zhì)是否在訓(xùn)練期間被觀察到,將測試數(shù)據(jù)分為四組。實驗結(jié)果表明,PSRP-CIP顯著提高了基線模型在零樣本場景中的性能,突顯了我們方法在增強模型泛化能力方面的有效性。同時,與傳統(tǒng)的預(yù)訓(xùn)練方法相比,我們的方法在訓(xùn)練樣本有限的場景中表現(xiàn)出更優(yōu)的性能。所提出的方法成為CPI任務(wù)的強大工具,在藥物發(fā)現(xiàn)中具有廣泛的應(yīng)用前景。本研究的主要貢獻(xiàn)如下:
•我們提出了一種基于蛋白質(zhì)子序列重排序的預(yù)訓(xùn)練方法PSRP-CPI,通過明確建模蛋白質(zhì)子序列之間的關(guān)系來提高CPI預(yù)測任務(wù)的性能。
•我們開發(fā)了一種長度可變的蛋白質(zhì)增強策略,使模型即使在小規(guī)模數(shù)據(jù)集上也能實現(xiàn)穩(wěn)健的預(yù)訓(xùn)練性能。
•我們在四個廣泛使用的CPI基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面實驗,證明了PSRP-CIP在零樣本CPI預(yù)測中的強大性能。此外,我們還將PSRP-CPI與現(xiàn)有預(yù)訓(xùn)練方法在小規(guī)模數(shù)據(jù)集上進(jìn)行了比較,以評估其在資源匱乏環(huán)境下的有效性。
相關(guān)工作
相關(guān)研究
化合物-蛋白質(zhì)相互作用預(yù)測。臨床和實驗室研究主要集中在CPI預(yù)測上,主要通過分子對接[19]、[20]和表示學(xué)習(xí)方法[1]、[7]、[21]來實現(xiàn)。分子對接利用能量函數(shù)和幾何深度學(xué)習(xí)對蛋白質(zhì)-配體結(jié)合結(jié)構(gòu)進(jìn)行預(yù)測。然而,這些方法的準(zhǔn)確率較低且計算成本較高,限制了其大規(guī)模應(yīng)用。
概述
為了解釋這個問題,我們將感興趣的蛋白質(zhì)表示為,將化合物集合表示為。給定一組CPI序列