《Journal of Molecular Biology》:PrePPI – Structure-based prediction of protein-protein interactomes and networks
編輯推薦:
PrePPI是一個(gè)基于結(jié)構(gòu)的新型蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)預(yù)測(cè)管道,可預(yù)測(cè)兩個(gè)結(jié)構(gòu)域之間的相互作用以及結(jié)構(gòu)域與短線性 motifs(SLiMs)的相互作用。2023年更新后,其網(wǎng)站新增了人類、酵母和E. coli的互作網(wǎng)絡(luò),包含高置信度域級(jí)復(fù)合物的3D模型和SLiM介導(dǎo)的預(yù)測(cè)互作模板。基于結(jié)構(gòu)可能性的互作聚類展現(xiàn)出功能一致性,為生物學(xué)現(xiàn)象提供了前所未有的亞網(wǎng)絡(luò)圖景。新網(wǎng)站提供交互式可視化、結(jié)構(gòu)模型下載及功能注釋查詢功能,支持通過單一蛋白或蛋白對(duì)進(jìn)行查詢。
卡羅琳·維萊茲(Caroline Velez)|阿尼凱特·納拉瓦內(nèi)(Aniket Naravane)|維克托·I·羅比拉(Victor I. Robila)|阿卡什·薩哈(Aakash Saha)|戴安娜·默里(Diana Murray)|巴里·霍尼格(Barry Honig)
哥倫比亞大學(xué)歐文醫(yī)學(xué)中心系統(tǒng)生物學(xué)系,美國(guó)紐約州紐約市圣尼古拉斯大道1130號(hào),郵編10032
摘要
PrePPI是一個(gè)基于結(jié)構(gòu)的流程工具,能夠預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用(PPIs),包括兩個(gè)結(jié)構(gòu)化域之間的相互作用,以及結(jié)構(gòu)化域與短線性基序(SLiMs)之間的相互作用,覆蓋整個(gè)蛋白質(zhì)組范圍。自2023年《JMB》計(jì)算資源特刊發(fā)布以來(lái),PrePPI網(wǎng)站已進(jìn)行了重大擴(kuò)展和重新設(shè)計(jì)。該資源現(xiàn)在包含了人類、酵母和大腸桿菌(E. coli)蛋白質(zhì)組的相互作用圖譜,其中包含高置信度域級(jí)復(fù)合物的3D模型,以及大多數(shù)由SLiM介導(dǎo)的預(yù)測(cè)相互作用的PDB模板。一個(gè)關(guān)鍵的新功能是基于結(jié)構(gòu)相似性對(duì)PrePPI相互作用圖譜進(jìn)行聚類。值得注意的是,這些聚類展現(xiàn)了功能上的連貫性,并提供了前所未有的蛋白質(zhì)組范圍內(nèi)的PPI子網(wǎng)絡(luò)圖譜,揭示了生物現(xiàn)象背后的機(jī)制。新網(wǎng)站——
https://honigcomplab.c2b2.columbia.edu/PrePPI——提供了對(duì)這些聚類、每個(gè)成對(duì)復(fù)合物的結(jié)構(gòu)模型以及單個(gè)蛋白質(zhì)的功能注釋的便捷訪問,從而支持多種生物學(xué)發(fā)現(xiàn)方式。
引言
文獻(xiàn)中有許多蛋白質(zhì)-蛋白質(zhì)相互作用(PPIs)的數(shù)據(jù)庫(kù)。其中一些數(shù)據(jù)庫(kù),如STRING [1]、BioGRID [2]、APID [1] 和 HINT [3],主要依賴于多來(lái)源的數(shù)據(jù)整理;而其他數(shù)據(jù)庫(kù)則主要基于高通量實(shí)驗(yàn)技術(shù),例如親和純化-質(zhì)譜(AP-MS)[4, 5] 和酵母雙雜交(Y2H)[6]。然而,從這些資源中很難直接提取出相互作用的類型(物理相互作用或間接相互作用)。此外,蛋白質(zhì)相互作用圖譜的規(guī)模非常大——大腸桿菌(Escherichia coli K12)蛋白質(zhì)組有900萬(wàn)種可能的成對(duì)蛋白質(zhì)相互作用組合,釀酒酵母(Saccharomyces cerevisiae)有1800萬(wàn)種,人類有2億種——這限制了即使是最高效實(shí)驗(yàn)方法的全面覆蓋范圍。盡管一些數(shù)據(jù)庫(kù)包含了來(lái)自蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)[7] 的條目,但PDB中對(duì)PPI復(fù)合物的覆蓋仍然不完整。
實(shí)驗(yàn)衍生的數(shù)據(jù)庫(kù)通常不提供復(fù)合物的結(jié)構(gòu)模型,盡管有一些數(shù)據(jù)庫(kù)試圖填補(bǔ)這一空白。Interactome3D [8] 包含PDB結(jié)構(gòu)和高置信度的同源模型,從而提高了整體結(jié)構(gòu)覆蓋度。Interactome INSIDER [9] 提供實(shí)驗(yàn)確定的PPI復(fù)合物中界面殘基的預(yù)測(cè),而CM2D3 [10] 則利用比較建模、對(duì)接和AlphaFold2技術(shù)為從實(shí)驗(yàn)數(shù)據(jù)庫(kù)中提取的物理相互作用提供結(jié)構(gòu)模型。因此,盡管這些結(jié)構(gòu)數(shù)據(jù)庫(kù)非常寶貴,但它們并不包含“從頭算”(de novo)的預(yù)測(cè)結(jié)果。
一些計(jì)算方法,如Topsy-Turvy [11],足夠高效,可以應(yīng)用于整個(gè)相互作用圖譜,但它們不提供PPI復(fù)合物的結(jié)構(gòu)模型。基于AlphaFold的方法 [12, 13] 被用來(lái)預(yù)測(cè)二元復(fù)合物的結(jié)構(gòu),但由于計(jì)算成本過高,無(wú)法應(yīng)用于整個(gè)相互作用圖譜,而且在確定兩種蛋白質(zhì)是否相互作用時(shí)可靠性也不確定。為了解決這些問題,Cong及其同事 [14] 提出了一種計(jì)算流程,該流程可以在人類相互作用圖譜中篩選PPIs,最后一步使用AlphaFold2預(yù)測(cè)原子級(jí)模型。該流程產(chǎn)生了大約7000個(gè)高質(zhì)量的“從頭算”預(yù)測(cè)結(jié)果,當(dāng)結(jié)合高通量實(shí)驗(yàn)數(shù)據(jù)時(shí),總預(yù)測(cè)數(shù)約為18000個(gè)。迄今為止,其中約5500個(gè)預(yù)測(cè)結(jié)果尚未通過實(shí)驗(yàn)得到驗(yàn)證。這些預(yù)測(cè)揭示了新的生物學(xué)見解,但并未顯著增加人類蛋白質(zhì)相互作用圖譜的結(jié)構(gòu)覆蓋度。
與現(xiàn)有的實(shí)驗(yàn)和計(jì)算方法相比,PrePPI [15, 16, 17, 18] 計(jì)算流程旨在篩選數(shù)十億個(gè)潛在的二元物理相互作用,并輸出大量預(yù)測(cè)結(jié)果。例如,如下所述并在圖1中展示的針對(duì)人類相互作用圖譜的流程,在假陽(yáng)性率(FPR)低于0.005的情況下,共篩選出735,000個(gè)人類PPIs、65,000個(gè)酵母PPIs和39,000個(gè)大腸桿菌PPIs。這些預(yù)測(cè)結(jié)果中的大多數(shù)是新穎的,因?yàn)樗鼈儾⑽闯霈F(xiàn)在現(xiàn)有的數(shù)據(jù)庫(kù)中,并且可以在我們的在線數(shù)據(jù)庫(kù)中找到。PrePPI模型為假設(shè)生成和假設(shè)檢驗(yàn)提供了強(qiáng)大的工具,因?yàn)槊總(gè)PPI所涉及的域和界面接觸信息都得到了提供。由于關(guān)注二元相互作用,這種“自下而上”的方法使得PPI預(yù)測(cè)更加有效,因?yàn)槎嗟鞍讖?fù)合物以及非物理遺傳相互作用最終都源于復(fù)合物內(nèi)部的二元相互作用或通過PPI網(wǎng)絡(luò)。
PrePPI數(shù)據(jù)庫(kù)已完全重新設(shè)計(jì),以提高使用便利性并加入新功能。有幾個(gè)新特性特別值得注意:首先,PrePPI數(shù)據(jù)庫(kù)現(xiàn)在包含了三種生物體的相互作用圖譜——大腸桿菌、酵母和人類,并計(jì)劃進(jìn)一步擴(kuò)展。其次,除了涉及兩個(gè)結(jié)構(gòu)化域的PPIs外,PrePPI還預(yù)測(cè)了結(jié)構(gòu)化肽識(shí)別域(PRDs)與短線性基序(SLiMs)之間的相互作用 [19],這些在真核線性基序(ELM)數(shù)據(jù)庫(kù) [20] 中分別被歸類為Pfam域和正則表達(dá)式(見圖1)。在新網(wǎng)站中,PrePPI PRD-SLiM預(yù)測(cè)結(jié)果與Propedia [21] 中具有相似Pfam域和肽基序的PDB復(fù)合物相關(guān)聯(lián),從而為這些相互作用提供了結(jié)構(gòu)背景。第三,通過對(duì)PrePPI相互作用圖譜進(jìn)行聚類,我們發(fā)現(xiàn)了功能上連貫的簇,這些簇有助于識(shí)別許多蛋白質(zhì)的先前未分配的功能,并提供了與特定生物功能相關(guān)的二元PPI網(wǎng)絡(luò) [22]。這些簇及其功能注釋可以通過交互式可視化界面方便地訪問。第四,新網(wǎng)站提供了PrePPI預(yù)測(cè)的復(fù)合物結(jié)構(gòu)模型的可視化展示,同時(shí)采用了最新的RCSB PDB Mol* 3D Viewer [23] 進(jìn)行進(jìn)一步的結(jié)構(gòu)分析。最后,用戶可以查詢單個(gè)蛋白質(zhì)或蛋白質(zhì)對(duì)。所有這些功能使研究人員能夠交互式地探索PrePPI相互作用圖譜,并將其分析應(yīng)用于生物學(xué)問題。所有結(jié)果——從高置信度相互作用圖譜到結(jié)構(gòu)模型、蛋白質(zhì)序列特征、聚類子網(wǎng)絡(luò)和注釋——都可以下載。數(shù)據(jù)庫(kù)和所有工具都可以在我們的網(wǎng)站 https://honigcomplab.c2b2.columbia.edu/PrePPI 上訪問,還有一系列視頻教程指導(dǎo)用戶使用各種功能。
網(wǎng)站功能概覽
網(wǎng)站功能概述
域-域相互作用。原始的PrePPI結(jié)構(gòu)建模流程(稱為PrePPI-SM)構(gòu)建并評(píng)估了由兩個(gè)查詢蛋白形成的二元復(fù)合物的同源模型,這兩個(gè)查詢蛋白在結(jié)構(gòu)上類似于PDB中發(fā)現(xiàn)的復(fù)合物 [15, 17, 18]。模型評(píng)估基于以下特征:查詢蛋白與模板蛋白之間的相似程度(通過基于結(jié)構(gòu)的比對(duì)獲得);查詢蛋白中的殘基在...
網(wǎng)站概述
網(wǎng)站架構(gòu)。我們將網(wǎng)站設(shè)計(jì)為一個(gè)用于PrePPI預(yù)測(cè)的交互式平臺(tái)。前端使用了標(biāo)準(zhǔn)的網(wǎng)絡(luò)技術(shù)(HTML、CSS、JavaScript)以確保響應(yīng)性、兼容性和用戶友好的交互體驗(yàn)。后端架構(gòu)利用了JavaScript技術(shù),特別是Node.js(v22.12.0)和Express.js(v4.21.2),實(shí)現(xiàn)了異步數(shù)據(jù)處理、高效查詢處理和結(jié)果的動(dòng)態(tài)渲染。所有數(shù)據(jù)都存儲(chǔ)在MariaDB SQL中。
從聚類分析中獲得的生物學(xué)見解
在這里,我們?cè)敿?xì)研究了圖3A中的子網(wǎng)絡(luò),以展示如何利用這些信息。其中一個(gè)最具統(tǒng)計(jì)顯著性的功能注釋是GO:BP術(shù)語(yǔ)“囊泡介導(dǎo)的運(yùn)輸”(綠色節(jié)點(diǎn)表示的蛋白質(zhì))。囊泡介導(dǎo)的運(yùn)輸是一個(gè)涉及多種細(xì)胞區(qū)室(如內(nèi)質(zhì)網(wǎng)(ER)、高爾基體、質(zhì)膜和內(nèi)體)的復(fù)雜過程。該聚類在...
討論
第一個(gè)PrePPI網(wǎng)站于2012年發(fā)布 [15, 16],此后在2016年 [17] 和2023年 [18] 進(jìn)行了兩次內(nèi)容更新,但網(wǎng)站的整體結(jié)構(gòu)保持不變。這里描述的新版本引入了通過大幅重新設(shè)計(jì)的網(wǎng)站可訪問的全新內(nèi)容。PrePPI的核心特點(diǎn)是利用結(jié)構(gòu)相似性來(lái)推導(dǎo)功能關(guān)系,因此新網(wǎng)站的重點(diǎn)是二元物理相互作用。
CRediT作者貢獻(xiàn)聲明
卡羅琳·維萊茲(Caroline Velez):撰寫——審閱與編輯、撰寫——初稿、軟件開發(fā)。
阿尼凱特·納拉瓦內(nèi)(Aniket Naravane):撰寫——初稿、軟件開發(fā)。
維克托·I·羅比拉(Victor I. Robila):撰寫——初稿、軟件開發(fā)。
阿卡什·薩哈(Aakash Saha):撰寫——初稿、數(shù)據(jù)整理。
戴安娜·默里(Diana Murray):撰寫——審閱與編輯、撰寫——初稿、監(jiān)督、形式分析。
巴里·霍尼格(Barry Honig):撰寫——審閱與編輯、撰寫——初稿、監(jiān)督、資金獲取、概念構(gòu)思。
資助
本工作得到了美國(guó)國(guó)立衛(wèi)生研究院普通醫(yī)學(xué)科學(xué)部門(Division of General Medical Sciences)R35-GM139585項(xiàng)目的支持。
PrePPI-SM和PrePPI-SLiM的高置信度(FPR ≤ 0.005)預(yù)測(cè)結(jié)果以及完整的相互作用圖譜,都可以在PrePPI網(wǎng)站 https://honigcomplab.c2b2.columbia.edu/PrePPI 上查詢和下載。
利益沖突聲明
作者聲明他們沒有已知的利益沖突或個(gè)人關(guān)系可能影響本文報(bào)告的工作。
致謝
我們感謝系統(tǒng)生物學(xué)系的IT團(tuán)隊(duì)在網(wǎng)站開發(fā)過程中的后端支持和密切合作。所有圖表均使用BioRender.com創(chuàng)建。