熟妇久久无码人妻av蜜臀www,五月。。激情綜合老漢色,国模精品

綜述：語(yǔ)義設(shè)計(jì)：從基因組背景編程功能基因

《Cell Genomics》：Semantic design: Programming functional genes from genomic context

【字體：大中小】 時(shí)間：2026年01月12日 來(lái)源：Cell Genomics 9

編輯推薦：

　　本綜述聚焦語(yǔ)義設(shè)計(jì)（Semantic design）這一前沿范式，其核心在于利用Evo基因組語(yǔ)言模型，僅根據(jù)基因組背景信息即可生成具有全新功能基因。文章系統(tǒng)闡述了該技術(shù)如何突破傳統(tǒng)依賴結(jié)構(gòu)先驗(yàn)或序列同源性的限制，在抗CRISPR蛋白、毒素-抗毒素系統(tǒng)等設(shè)計(jì)中展現(xiàn)出卓越成功率和創(chuàng)新性，為合成生物學(xué)提供了超越自然進(jìn)化限制的強(qiáng)大工具。

語(yǔ)義設(shè)計(jì)：從基因組背景編程功能基因

生成式基因組模型在創(chuàng)建復(fù)雜生物系統(tǒng)方面具有巨大潛力，但設(shè)計(jì)精確的功能序列仍然充滿挑戰(zhàn)。由Merchant等人在《自然》雜志上提出的語(yǔ)義設(shè)計(jì)方法，標(biāo)志著這一領(lǐng)域的重大突破。該方法利用Evo基因組語(yǔ)言模型，僅憑基因組背景信息即可生成全新的功能基因。更重要的是，SynGenome數(shù)據(jù)庫(kù)收錄了通過(guò)語(yǔ)義設(shè)計(jì)產(chǎn)生的超過(guò)1200億個(gè)序列，涵蓋了多種多樣的功能。

背景與核心創(chuàng)新

基于結(jié)構(gòu)的AI模型，如AlphaFold和RFdiffusion，已經(jīng)徹底改變了我們對(duì)蛋白質(zhì)結(jié)構(gòu)與功能關(guān)系的理解。然而，這些方法仍然依賴于多序列比對(duì)中的共同進(jìn)化數(shù)據(jù)，或者試圖通過(guò)去噪擴(kuò)散模型在結(jié)構(gòu)空間中進(jìn)行優(yōu)化。Merchant等人則開(kāi)創(chuàng)了一種開(kāi)創(chuàng)性的方法：通過(guò)在原核生物基因組上訓(xùn)練Evo模型，輸入基因組背景作為提示，使模型能夠“自動(dòng)完成”并生成功能性CRISPR抑制劑和毒素-抗毒素系統(tǒng)。

其根本性的理論創(chuàng)新在于系統(tǒng)性地將語(yǔ)言學(xué)的“分布假說(shuō)”應(yīng)用于基因組分析。類似于我們通過(guò)上下文理解單詞的含義，一個(gè)基因的功能也可以通過(guò)其基因組環(huán)境來(lái)定義。傳統(tǒng)的微生物遺傳學(xué)廣泛使用“關(guān)聯(lián)推定”原則來(lái)發(fā)現(xiàn)新基因——功能相關(guān)的基因通常在基因組上物理相鄰。然而，這種方法本質(zhì)上是在利用現(xiàn)有的自然多樣性。語(yǔ)義設(shè)計(jì)將這一原則提升到了生成層面，使模型能夠基于其對(duì)基因組背景的理解，創(chuàng)造出自然界尚未觀察到的新功能序列。

Evo模型的技術(shù)實(shí)力

Evo 1.5模型采用了擁有70億參數(shù)的基因組語(yǔ)言模型，能夠處理長(zhǎng)上下文。該模型在OpenGenome數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練，該數(shù)據(jù)集包含約8萬(wàn)個(gè)原核生物基因組以及超過(guò)200萬(wàn)個(gè)噬菌體和質(zhì)粒序列，總計(jì)約3000億個(gè)核苷酸。與其前身相比，其預(yù)訓(xùn)練標(biāo)記規(guī)模從3150億擴(kuò)展到4700億，Evo 1.5表現(xiàn)出顯著的性能提升。

在基因補(bǔ)全任務(wù)中，Evo 1.5展現(xiàn)了卓越的能力。當(dāng)僅提供30%的輸入序列時(shí)，其對(duì)rpoS基因的氨基酸序列恢復(fù)率達(dá)到了85%。這種性能優(yōu)勢(shì)在對(duì)三個(gè)保守原核基因（rpoS、gyrA和ftsZ）的評(píng)估中均得到一致體現(xiàn)。重要的是，該模型展示了對(duì)多基因組織原則的深刻理解；無(wú)論提供上游、下游或互補(bǔ)鏈信息作為提示，生成的E. coli trp操縱子基因與天然對(duì)應(yīng)物顯示出近乎完美的結(jié)構(gòu)預(yù)測(cè)重疊，同時(shí)保持高序列同一性。

位置熵分析有力地反駁了模型僅僅是記憶數(shù)據(jù)的說(shuō)法。對(duì)天然和生成的modB序列的比較分析顯示，在氨基酸水平上高/低熵區(qū)域分布一致，表明模型精確保留了關(guān)鍵功能位點(diǎn)，同時(shí)在核苷酸水平保持高熵。這證明了模型掌握了密碼子簡(jiǎn)并性，能夠在DNA層面產(chǎn)生大量的序列多樣性，同時(shí)嚴(yán)格遵守蛋白質(zhì)的功能約束，從而精確模擬了自然進(jìn)化的一個(gè)核心特征。進(jìn)一步分析證實(shí)了這種“模擬進(jìn)化”的質(zhì)量：當(dāng)引入氨基酸改變時(shí)，模型優(yōu)先選擇在BLOSUM62矩陣中得分高的保守替換，展示了對(duì)自然進(jìn)化約束的深刻模仿，確保了結(jié)構(gòu)穩(wěn)定性和功能性，同時(shí)兼具顯著的新穎性。

在復(fù)雜系統(tǒng)構(gòu)建中的驗(yàn)證

Merchant等人對(duì)語(yǔ)義設(shè)計(jì)方法構(gòu)建復(fù)雜生物系統(tǒng)進(jìn)行了廣泛驗(yàn)證，涵蓋了兩種不同的相互作用模式：蛋白質(zhì)-蛋白質(zhì)（II型毒素-抗毒素系統(tǒng)）和蛋白質(zhì)-RNA（III型系統(tǒng)）。他們建立了一個(gè)簡(jiǎn)化的“接力”設(shè)計(jì)流程：首先基于基因組背景生成毒素，隨后鑒定出具有生長(zhǎng)抑制功能的毒素，然后利用這些毒素作為提示，指導(dǎo)模型生成相應(yīng)的抗毒素。

實(shí)驗(yàn)結(jié)果證實(shí)了該流程的有效性——II型抗毒素EvoAT1-4成功恢復(fù)了被EvoRelE1阻礙的細(xì)菌生長(zhǎng)，而III型RNA抗毒素EvoAT6有效中和了ToxN的毒性。這強(qiáng)調(diào)了模型不僅理解單個(gè)基因的功能，還理解基因?qū)χg的“毒素中和”動(dòng)力學(xué)。值得注意的是，設(shè)計(jì)的抗毒素表現(xiàn)出顯著的兼容性。雖然毒素-抗毒素系統(tǒng)具有高度特異性，但研究發(fā)現(xiàn)EvoAT2和EvoAT4不僅能夠中和其指定的目標(biāo)EvoRelE1，還能有效抑制多種天然毒素（RelE、MazF和YoeB）。這表明Evo可能捕捉到了抗毒素中和的潛在“底層通用機(jī)制”，使得設(shè)計(jì)的防御元件具有比自然進(jìn)化過(guò)程產(chǎn)生的更廣泛的特異性，這對(duì)合成生物學(xué)的進(jìn)步具有重要影響。

超越序列相似性的功能實(shí)現(xiàn)

語(yǔ)義設(shè)計(jì)的力量在于其能夠超越序列相似性的限制。盡管EvoAT1-4與天然抗毒素的序列同一性較低（21%-27%），但AlphaFold 3對(duì)EvoAT1-4與其同源毒素的結(jié)構(gòu)預(yù)測(cè)也顯示出高置信度的復(fù)合物形成。同樣，工程化毒素EvoRelE1盡管存在顯著的序列變異，但仍與其最佳BLAST匹配保持高度的結(jié)構(gòu)一致性。這表明功能結(jié)果主要由“背景”決定——在適當(dāng)?shù)谋尘翱蚣芟拢Ｐ椭亟苏_的功能架構(gòu)。

在抗CRISPR蛋白設(shè)計(jì)中的優(yōu)勢(shì)

語(yǔ)義設(shè)計(jì)的優(yōu)勢(shì)在抗CRISPR蛋白設(shè)計(jì)中尤為明顯。由于Acr蛋白的快速進(jìn)化和低序列保守性，傳統(tǒng)的預(yù)測(cè)方法面臨巨大挑戰(zhàn)。Merchant等人利用Acr基因的基因組背景（經(jīng)常與aca基因共現(xiàn)）作為提示，促使Evo生成新的Acr蛋白。這一策略被證明非常有效——與隨機(jī)提示相比，Acr背景提示生成的序列在PaCRISPR分類器中得分顯著更高，并且產(chǎn)生的候選庫(kù)表現(xiàn)出高多樣性，序列間相似性極低。

功能驗(yàn)證證實(shí)了AI生成序列的生物活性。在質(zhì)粒保護(hù)實(shí)驗(yàn)中，Acrs抑制了Cas9介導(dǎo)的抗性基因切割，使細(xì)菌在抗生素條件下存活；生成的EvoAcr1-5提供了顯著的保護(hù)，其中EvoAcr3-5的活性與AcrIIA2相當(dāng)。通過(guò)噬菌體感染實(shí)驗(yàn)進(jìn)行的正交驗(yàn)證顯示噬菌斑形成，表明EvoAcrs有效抑制了CRISPR-Cas9系統(tǒng)，使噬菌體成功感染。

EvoAcr的新穎性令人驚嘆。EvoAcr4-5與已知Acrs有中等相似性；EvoAcr3類似于功能被重定向的Sigma-70家族蛋白；而EvoAcr1和EvoAcr2在BLAST nr或OpenGenome中沒(méi)有顯著的序列同源物，AlphaFold 3也無(wú)法提供高置信度的結(jié)構(gòu)預(yù)測(cè)。這表明Evo在序列空間中設(shè)計(jì)了“功能暗物質(zhì)”——表現(xiàn)出強(qiáng)大的生物功能，但其折疊和序列特征完全超出了當(dāng)前生物信息學(xué)工具的范圍。

SynGenome數(shù)據(jù)庫(kù)：一個(gè)并行的基因組宇宙

為了增強(qiáng)研究界的能力，Merchant等人開(kāi)發(fā)了SynGenome數(shù)據(jù)庫(kù)，其中包含從170萬(wàn)個(gè)天然基因提示生成的1200億個(gè)堿基對(duì)的合成序列。統(tǒng)計(jì)分析表明，這些“合成基因”緊密模仿了天然生物物理特性——它們的密碼子使用偏好與天然序列一致，預(yù)測(cè)的開(kāi)放閱讀框長(zhǎng)度分布與天然模式吻合，Pfam蛋白家族的豐度分布反映了自然界中特征性的長(zhǎng)尾分布。這證明SynGenome不是隨機(jī)組裝，而是包含了統(tǒng)計(jì)和生物學(xué)上合理的“平行基因組”。

對(duì)提示共現(xiàn)的檢查表明，模型重現(xiàn)了天然的基因組共定位模式。更重要的是，這些關(guān)聯(lián)使得預(yù)測(cè)未知功能域成為可能。因此，SynGenome不僅作為一個(gè)序列庫(kù)，更作為一個(gè)用于挖掘基因功能關(guān)聯(lián)的知識(shí)圖譜。其價(jià)值超越了模仿，達(dá)到了超越。Leiden聚類分析顯示，雖然大多數(shù)生成的序列與天然序列混合，但約19%形成了獨(dú)特的“僅生成”簇，表明模型探索的序列空間是自然進(jìn)化未曾觸及的。該數(shù)據(jù)庫(kù)還包括各種自然界中不存在的“嵌合蛋白”，展示了不同功能域的創(chuàng)新融合，為合成生物學(xué)應(yīng)用提供了一個(gè)預(yù)組裝的潛在增強(qiáng)組件庫(kù)。

互補(bǔ)現(xiàn)有方法的全新范式

語(yǔ)義設(shè)計(jì)代表了一種全新的蛋白質(zhì)設(shè)計(jì)范式，對(duì)現(xiàn)有方法形成了補(bǔ)充。首先，與需要任務(wù)特異性微調(diào)的技術(shù)相比，語(yǔ)義設(shè)計(jì)無(wú)需額外訓(xùn)練即可運(yùn)行，從而避免了對(duì)已表征樣本的偏向。其次，與通過(guò)自然語(yǔ)言描述定義功能相比，語(yǔ)義設(shè)計(jì)直接訪問(wèn)嵌入基因組序列中的功能多樣性，利用了尚未被表征的生物學(xué)過(guò)程。實(shí)驗(yàn)證明的成功率在17%-50%之間（基于測(cè)試有限數(shù)量的變體），超過(guò)了許多蛋白質(zhì)設(shè)計(jì)方法的成功率。這一較高的成功率尤其值得注意，因?yàn)樵S多設(shè)計(jì)的蛋白質(zhì)與功能相似的蛋白質(zhì)，或在某些情況下與任何已知蛋白質(zhì)，都表現(xiàn)出極低的序列同源性。

挑戰(zhàn)與未來(lái)展望

盡管如此，語(yǔ)義設(shè)計(jì)仍面臨挑戰(zhàn)。自回歸生成可能產(chǎn)生重復(fù)序列或產(chǎn)生看似真實(shí)但無(wú)功能的設(shè)計(jì)。此外，目前它僅限于自然界中存在的、尤其是原核生物內(nèi)的上下文關(guān)系所編碼的功能。值得注意的是，只有一小部分原核生物功能多樣性已被發(fā)現(xiàn)，而對(duì)這種多樣性的探索已經(jīng)產(chǎn)生了強(qiáng)大的技術(shù)，如PCR、光遺傳學(xué)和基因組編輯。

總結(jié)

總之，通過(guò)解碼基因組的分布語(yǔ)義，Evo 1.5證明了生物功能可以從基因組背景中有效生成，從而規(guī)避了對(duì)結(jié)構(gòu)先驗(yàn)或序列同源性的依賴。那些沒(méi)有可識(shí)別同源物且AlphaFold預(yù)測(cè)置信度低的活性暗物質(zhì)蛋白的存在，為生成模型探索序列空間內(nèi)的功能“島嶼”提供了令人信服的證據(jù)。這項(xiàng)工作將語(yǔ)義設(shè)計(jì)確立為一種變革性范式，為合成生物學(xué)的新進(jìn)展鋪平了道路，使得發(fā)現(xiàn)和設(shè)計(jì)超越自然進(jìn)化過(guò)程限制的復(fù)雜多組分系統(tǒng)成為可能。

相關(guān)新聞

生物通微信公眾號(hào)

微信

新浪微博

我要投稿

搜索
國(guó)際
國(guó)內(nèi)
人物
產(chǎn)業(yè)
熱點(diǎn)
科普

知名企業(yè)招聘