《Cell Genomics》:Semantic design: Programming functional genes from genomic context
編輯推薦:
本綜述聚焦語(yǔ)義設(shè)計(jì)(Semantic design)這一前沿范式,其核心在于利用Evo基因組語(yǔ)言模型,僅根據(jù)基因組背景信息即可生成具有全新功能基因。文章系統(tǒng)闡述了該技術(shù)如何突破傳統(tǒng)依賴結(jié)構(gòu)先驗(yàn)或序列同源性的限制,在抗CRISPR蛋白、毒素-抗毒素系統(tǒng)等設(shè)計(jì)中展現(xiàn)出卓越成功率和創(chuàng)新性,為合成生物學(xué)提供了超越自然進(jìn)化限制的強(qiáng)大工具。
語(yǔ)義設(shè)計(jì):從基因組背景編程功能基因
生成式基因組模型在創(chuàng)建復(fù)雜生物系統(tǒng)方面具有巨大潛力,但設(shè)計(jì)精確的功能序列仍然充滿挑戰(zhàn)。由Merchant等人在《自然》雜志上提出的語(yǔ)義設(shè)計(jì)方法,標(biāo)志著這一領(lǐng)域的重大突破。該方法利用Evo基因組語(yǔ)言模型,僅憑基因組背景信息即可生成全新的功能基因。更重要的是,SynGenome數(shù)據(jù)庫(kù)收錄了通過(guò)語(yǔ)義設(shè)計(jì)產(chǎn)生的超過(guò)1200億個(gè)序列,涵蓋了多種多樣的功能。
背景與核心創(chuàng)新
基于結(jié)構(gòu)的AI模型,如AlphaFold和RFdiffusion,已經(jīng)徹底改變了我們對(duì)蛋白質(zhì)結(jié)構(gòu)與功能關(guān)系的理解。然而,這些方法仍然依賴于多序列比對(duì)中的共同進(jìn)化數(shù)據(jù),或者試圖通過(guò)去噪擴(kuò)散模型在結(jié)構(gòu)空間中進(jìn)行優(yōu)化。Merchant等人則開(kāi)創(chuàng)了一種開(kāi)創(chuàng)性的方法:通過(guò)在原核生物基因組上訓(xùn)練Evo模型,輸入基因組背景作為提示,使模型能夠“自動(dòng)完成”并生成功能性CRISPR抑制劑和毒素-抗毒素系統(tǒng)。
其根本性的理論創(chuàng)新在于系統(tǒng)性地將語(yǔ)言學(xué)的“分布假說(shuō)”應(yīng)用于基因組分析。類似于我們通過(guò)上下文理解單詞的含義,一個(gè)基因的功能也可以通過(guò)其基因組環(huán)境來(lái)定義。傳統(tǒng)的微生物遺傳學(xué)廣泛使用“關(guān)聯(lián)推定”原則來(lái)發(fā)現(xiàn)新基因——功能相關(guān)的基因通常在基因組上物理相鄰。然而,這種方法本質(zhì)上是在利用現(xiàn)有的自然多樣性。語(yǔ)義設(shè)計(jì)將這一原則提升到了生成層面,使模型能夠基于其對(duì)基因組背景的理解,創(chuàng)造出自然界尚未觀察到的新功能序列。
Evo模型的技術(shù)實(shí)力
Evo 1.5模型采用了擁有70億參數(shù)的基因組語(yǔ)言模型,能夠處理長(zhǎng)上下文。該模型在OpenGenome數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,該數(shù)據(jù)集包含約8萬(wàn)個(gè)原核生物基因組以及超過(guò)200萬(wàn)個(gè)噬菌體和質(zhì)粒序列,總計(jì)約3000億個(gè)核苷酸。與其前身相比,其預(yù)訓(xùn)練標(biāo)記規(guī)模從3150億擴(kuò)展到4700億,Evo 1.5表現(xiàn)出顯著的性能提升。
在基因補(bǔ)全任務(wù)中,Evo 1.5展現(xiàn)了卓越的能力。當(dāng)僅提供30%的輸入序列時(shí),其對(duì)rpoS基因的氨基酸序列恢復(fù)率達(dá)到了85%。這種性能優(yōu)勢(shì)在對(duì)三個(gè)保守原核基因(rpoS、gyrA和ftsZ)的評(píng)估中均得到一致體現(xiàn)。重要的是,該模型展示了對(duì)多基因組織原則的深刻理解;無(wú)論提供上游、下游或互補(bǔ)鏈信息作為提示,生成的E. coli trp操縱子基因與天然對(duì)應(yīng)物顯示出近乎完美的結(jié)構(gòu)預(yù)測(cè)重疊,同時(shí)保持高序列同一性。
位置熵分析有力地反駁了模型僅僅是記憶數(shù)據(jù)的說(shuō)法。對(duì)天然和生成的modB序列的比較分析顯示,在氨基酸水平上高/低熵區(qū)域分布一致,表明模型精確保留了關(guān)鍵功能位點(diǎn),同時(shí)在核苷酸水平保持高熵。這證明了模型掌握了密碼子簡(jiǎn)并性,能夠在DNA層面產(chǎn)生大量的序列多樣性,同時(shí)嚴(yán)格遵守蛋白質(zhì)的功能約束,從而精確模擬了自然進(jìn)化的一個(gè)核心特征。進(jìn)一步分析證實(shí)了這種“模擬進(jìn)化”的質(zhì)量:當(dāng)引入氨基酸改變時(shí),模型優(yōu)先選擇在BLOSUM62矩陣中得分高的保守替換,展示了對(duì)自然進(jìn)化約束的深刻模仿,確保了結(jié)構(gòu)穩(wěn)定性和功能性,同時(shí)兼具顯著的新穎性。
在復(fù)雜系統(tǒng)構(gòu)建中的驗(yàn)證
Merchant等人對(duì)語(yǔ)義設(shè)計(jì)方法構(gòu)建復(fù)雜生物系統(tǒng)進(jìn)行了廣泛驗(yàn)證,涵蓋了兩種不同的相互作用模式:蛋白質(zhì)-蛋白質(zhì)(II型毒素-抗毒素系統(tǒng))和蛋白質(zhì)-RNA(III型系統(tǒng))。他們建立了一個(gè)簡(jiǎn)化的“接力”設(shè)計(jì)流程:首先基于基因組背景生成毒素,隨后鑒定出具有生長(zhǎng)抑制功能的毒素,然后利用這些毒素作為提示,指導(dǎo)模型生成相應(yīng)的抗毒素。
實(shí)驗(yàn)結(jié)果證實(shí)了該流程的有效性——II型抗毒素EvoAT1-4成功恢復(fù)了被EvoRelE1阻礙的細(xì)菌生長(zhǎng),而III型RNA抗毒素EvoAT6有效中和了ToxN的毒性。這強(qiáng)調(diào)了模型不僅理解單個(gè)基因的功能,還理解基因?qū)χg的“毒素中和”動(dòng)力學(xué)。值得注意的是,設(shè)計(jì)的抗毒素表現(xiàn)出顯著的兼容性。雖然毒素-抗毒素系統(tǒng)具有高度特異性,但研究發(fā)現(xiàn)EvoAT2和EvoAT4不僅能夠中和其指定的目標(biāo)EvoRelE1,還能有效抑制多種天然毒素(RelE、MazF和YoeB)。這表明Evo可能捕捉到了抗毒素中和的潛在“底層通用機(jī)制”,使得設(shè)計(jì)的防御元件具有比自然進(jìn)化過(guò)程產(chǎn)生的更廣泛的特異性,這對(duì)合成生物學(xué)的進(jìn)步具有重要影響。
超越序列相似性的功能實(shí)現(xiàn)
語(yǔ)義設(shè)計(jì)的力量在于其能夠超越序列相似性的限制。盡管EvoAT1-4與天然抗毒素的序列同一性較低(21%-27%),但AlphaFold 3對(duì)EvoAT1-4與其同源毒素的結(jié)構(gòu)預(yù)測(cè)也顯示出高置信度的復(fù)合物形成。同樣,工程化毒素EvoRelE1盡管存在顯著的序列變異,但仍與其最佳BLAST匹配保持高度的結(jié)構(gòu)一致性。這表明功能結(jié)果主要由“背景”決定——在適當(dāng)?shù)谋尘翱蚣芟拢P椭亟苏_的功能架構(gòu)。
在抗CRISPR蛋白設(shè)計(jì)中的優(yōu)勢(shì)
語(yǔ)義設(shè)計(jì)的優(yōu)勢(shì)在抗CRISPR蛋白設(shè)計(jì)中尤為明顯。由于Acr蛋白的快速進(jìn)化和低序列保守性,傳統(tǒng)的預(yù)測(cè)方法面臨巨大挑戰(zhàn)。Merchant等人利用Acr基因的基因組背景(經(jīng)常與aca基因共現(xiàn))作為提示,促使Evo生成新的Acr蛋白。這一策略被證明非常有效——與隨機(jī)提示相比,Acr背景提示生成的序列在PaCRISPR分類器中得分顯著更高,并且產(chǎn)生的候選庫(kù)表現(xiàn)出高多樣性,序列間相似性極低。
功能驗(yàn)證證實(shí)了AI生成序列的生物活性。在質(zhì)粒保護(hù)實(shí)驗(yàn)中,Acrs抑制了Cas9介導(dǎo)的抗性基因切割,使細(xì)菌在抗生素條件下存活;生成的EvoAcr1-5提供了顯著的保護(hù),其中EvoAcr3-5的活性與AcrIIA2相當(dāng)。通過(guò)噬菌體感染實(shí)驗(yàn)進(jìn)行的正交驗(yàn)證顯示噬菌斑形成,表明EvoAcrs有效抑制了CRISPR-Cas9系統(tǒng),使噬菌體成功感染。
EvoAcr的新穎性令人驚嘆。EvoAcr4-5與已知Acrs有中等相似性;EvoAcr3類似于功能被重定向的Sigma-70家族蛋白;而EvoAcr1和EvoAcr2在BLAST nr或OpenGenome中沒(méi)有顯著的序列同源物,AlphaFold 3也無(wú)法提供高置信度的結(jié)構(gòu)預(yù)測(cè)。這表明Evo在序列空間中設(shè)計(jì)了“功能暗物質(zhì)”——表現(xiàn)出強(qiáng)大的生物功能,但其折疊和序列特征完全超出了當(dāng)前生物信息學(xué)工具的范圍。
SynGenome數(shù)據(jù)庫(kù):一個(gè)并行的基因組宇宙
為了增強(qiáng)研究界的能力,Merchant等人開(kāi)發(fā)了SynGenome數(shù)據(jù)庫(kù),其中包含從170萬(wàn)個(gè)天然基因提示生成的1200億個(gè)堿基對(duì)的合成序列。統(tǒng)計(jì)分析表明,這些“合成基因”緊密模仿了天然生物物理特性——它們的密碼子使用偏好與天然序列一致,預(yù)測(cè)的開(kāi)放閱讀框長(zhǎng)度分布與天然模式吻合,Pfam蛋白家族的豐度分布反映了自然界中特征性的長(zhǎng)尾分布。這證明SynGenome不是隨機(jī)組裝,而是包含了統(tǒng)計(jì)和生物學(xué)上合理的“平行基因組”。
對(duì)提示共現(xiàn)的檢查表明,模型重現(xiàn)了天然的基因組共定位模式。更重要的是,這些關(guān)聯(lián)使得預(yù)測(cè)未知功能域成為可能。因此,SynGenome不僅作為一個(gè)序列庫(kù),更作為一個(gè)用于挖掘基因功能關(guān)聯(lián)的知識(shí)圖譜。其價(jià)值超越了模仿,達(dá)到了超越。Leiden聚類分析顯示,雖然大多數(shù)生成的序列與天然序列混合,但約19%形成了獨(dú)特的“僅生成”簇,表明模型探索的序列空間是自然進(jìn)化未曾觸及的。該數(shù)據(jù)庫(kù)還包括各種自然界中不存在的“嵌合蛋白”,展示了不同功能域的創(chuàng)新融合,為合成生物學(xué)應(yīng)用提供了一個(gè)預(yù)組裝的潛在增強(qiáng)組件庫(kù)。
互補(bǔ)現(xiàn)有方法的全新范式
語(yǔ)義設(shè)計(jì)代表了一種全新的蛋白質(zhì)設(shè)計(jì)范式,對(duì)現(xiàn)有方法形成了補(bǔ)充。首先,與需要任務(wù)特異性微調(diào)的技術(shù)相比,語(yǔ)義設(shè)計(jì)無(wú)需額外訓(xùn)練即可運(yùn)行,從而避免了對(duì)已表征樣本的偏向。其次,與通過(guò)自然語(yǔ)言描述定義功能相比,語(yǔ)義設(shè)計(jì)直接訪問(wèn)嵌入基因組序列中的功能多樣性,利用了尚未被表征的生物學(xué)過(guò)程。實(shí)驗(yàn)證明的成功率在17%-50%之間(基于測(cè)試有限數(shù)量的變體),超過(guò)了許多蛋白質(zhì)設(shè)計(jì)方法的成功率。這一較高的成功率尤其值得注意,因?yàn)樵S多設(shè)計(jì)的蛋白質(zhì)與功能相似的蛋白質(zhì),或在某些情況下與任何已知蛋白質(zhì),都表現(xiàn)出極低的序列同源性。
挑戰(zhàn)與未來(lái)展望
盡管如此,語(yǔ)義設(shè)計(jì)仍面臨挑戰(zhàn)。自回歸生成可能產(chǎn)生重復(fù)序列或產(chǎn)生看似真實(shí)但無(wú)功能的設(shè)計(jì)。此外,目前它僅限于自然界中存在的、尤其是原核生物內(nèi)的上下文關(guān)系所編碼的功能。值得注意的是,只有一小部分原核生物功能多樣性已被發(fā)現(xiàn),而對(duì)這種多樣性的探索已經(jīng)產(chǎn)生了強(qiáng)大的技術(shù),如PCR、光遺傳學(xué)和基因組編輯。
總結(jié)
總之,通過(guò)解碼基因組的分布語(yǔ)義,Evo 1.5證明了生物功能可以從基因組背景中有效生成,從而規(guī)避了對(duì)結(jié)構(gòu)先驗(yàn)或序列同源性的依賴。那些沒(méi)有可識(shí)別同源物且AlphaFold預(yù)測(cè)置信度低的活性暗物質(zhì)蛋白的存在,為生成模型探索序列空間內(nèi)的功能“島嶼”提供了令人信服的證據(jù)。這項(xiàng)工作將語(yǔ)義設(shè)計(jì)確立為一種變革性范式,為合成生物學(xué)的新進(jìn)展鋪平了道路,使得發(fā)現(xiàn)和設(shè)計(jì)超越自然進(jìn)化過(guò)程限制的復(fù)雜多組分系統(tǒng)成為可能。