《Nucleic Acids Research》:Machine learning reveals sequence and methylation determinants of SaCas9–PAM interactions in bacteria
編輯推薦:
本研究針對細菌中Cas9核酸酶應用受限于對其靶向相互作用認知不足的問題,通過構建大規模金黃色葡萄球菌Cas9 (SaCas9)/sgRNA活性數據集并訓練機器學習模型crisprHAL,成功預測了SaCas9活性。研究發現,將經典NNGRRN原間隔序列鄰近基序(PAM)側翼下游[+1]和[+2]位點序列納入考量可提升預測性能,并首次揭示PAM序列中5'-NNGGAT[C]-3'處的腺嘌呤甲基化會顯著抑制SaCas9活性約10倍。該發現不僅深化了對Cas9家族蛋白多樣性的理解,也為優化細菌中CRISPR-Cas9應用提供了關鍵指導。
在微生物的軍備競賽中,細菌演化出了一套精巧的適應性免疫系統——成簇規律間隔短回文重復序列及相關系統(CRISPR-Cas)。其中,CRISPR相關蛋白9(Cas9)核酸酶作為該系統的重要效應器,能夠像一把“分子剪刀”一樣,在單鏈引導RNA(sgRNA)的指引下,精準切割入侵的病毒或質粒DNA。這一機制不僅守護著細菌的安危,更被科學家們改造成為強大的基因組編輯工具和新型抗菌手段。然而,將Cas9應用于細菌世界時,卻面臨著一個關鍵瓶頸:我們對Cas9與其DNA靶點之間的相互作用機制,尤其是在復雜的天然基因組環境中的活動規律,了解得還不夠透徹。這直接限制了CRISPR-Cas技術在抗菌治療和細菌基因組工程中的高效、精準應用。
金黃色葡萄球菌Cas9 (SaCas9)因其體積較小(1053個氨基酸),在遞送方面具有優勢,但其識別靶點需要一種稱為原間隔序列鄰近基序(PAM)的特殊短序列,具體為5'-NNGRRN-3'(其中R代表嘌呤A或G),并且對第六位為T有偏好。盡管SaCas9潛力巨大,但現有的活性預測模型大多基于哺乳動物細胞的數據開發,在預測細菌環境中的活性時往往表現不佳。一個核心問題在于,缺乏大規模、高質量的細菌體內SaCas9活性數據用于模型訓練。此外,初步證據表明,PAM側翼的序列以及DNA表觀遺傳修飾(如甲基化)可能影響Cas9的效率,但這些因素在細菌CRISPR應用中都尚未被系統探索。為了突破這些局限,并擴展細菌CRISPR工具箱,研究人員開展了一項綜合性研究。
為了回答上述問題,研究人員主要運用了幾項關鍵技術:首先,他們利用大規模并行sgRNA篩選技術,分別在大腸桿菌(Escherichia coli) 和嚙齒類檸檬酸桿菌(Citrobacter rodentium) 中構建了大規模的SaCas9/sgRNA活性數據集,包括基于質粒的富集篩選和基于染色體靶向的耗竭篩選。其次,他們采用了機器學習建模(crisprHAL模型),基于上述活性數據訓練預測模型,并優化輸入序列長度以評估PAM及側翼序列的貢獻。第三,他們利用牛津納米孔測序(Oxford Nanopore sequencing) 技術在Citrobacter rodentium DBS100菌株基因組和大腸桿菌的質粒上繪制了腺嘌呤甲基化(m6A)圖譜,并將其與sgRNA活性關聯。最后,他們通過體外DNA切割實驗,使用純化的SaCas9蛋白和體外轉錄的sgRNA,驗證了在DNA腺嘌呤甲基轉移酶(DAM) 陽性(dam+)和陰性(dam-)的大腸桿菌中提取的質粒上,PAM序列內GATC位點的甲基化對SaCas9切割活性的直接影響。
機器學習揭示SaCas9活性決定因素
研究人員利用先前為SpCas9開發的crisprHAL機器學習架構,成功將其應用于SaCas9活性預測。該模型采用雙分支結構,結合了卷積神經網絡(CNN)和循環神經網絡(RNN)。通過系統性地擴展模型輸入序列的長度,他們發現將PAM序列(NNGRRN)及其下游緊鄰的[+1]位核苷酸納入考量,能顯著提升模型預測SaCas9活性的準確性。最終模型在C. rodentium染色體靶向數據集上取得了預測值與觀測值之間高達0.895的斯皮爾曼等級相關系數,并且該模型能很好地遷移至大腸桿菌的質粒靶向數據集,表明其具有良好的泛化能力。
PAM下游嘧啶富集二核苷酸與高活性相關
對大規模活性數據的深入分析揭示了SaCas9的序列偏好。除了已知的對PAM第六位堿基為T(NNGRRT)的偏好外,研究人員發現PAM下游[+1]和[+2]位點的二核苷酸組成強烈影響活性。具體而言,這些位置富含胸腺嘧啶(T)的二核苷酸(如TT, CT)與較高的體內活性顯著相關。這表明SaCas9的有效PAM識別范圍可能需要修訂為NNGRRTH(其中H為A、C或T),下游序列可能通過協同作用穩定SaCas9與DNA的初始結合。
腺嘌呤甲基化特異性抑制SaCas9切割
本研究最引人注目的發現是DNA甲基化對SaCas9活性的調控。機器學習模型和實驗數據均一致顯示,含有5'-NNGGAT[C]-3'序列(即PAM序列本身包含GATC motif)的靶點,其SaCas9活性異常低下。通過納米孔測序直接檢測,證實了C. rodentium基因組中所有這些GATC位點均發生了腺嘌呤N6位甲基化(m6A)。體內實驗表明,靶向這些甲基化PAM位點的sgRNA活性比平均水平低約10倍。為了確證甲基化的因果作用,研究人員進行了體外切割實驗。他們比較了SaCas9/sgRNA對從DAM陽性(甲基化)和DAM陰性(非甲基化)大腸桿菌中提取的同一質粒的切割效率。結果明確顯示,當靶點PAM序列包含GATC時,甲基化質粒的切割速率(kobs)比非甲基化質粒慢約3-6倍。反之,通過點突變消除PAM中的GATC位點,可以恢復高切割活性;而通過點突變引入GATC位點,則會導致切割活性因甲基化而降低。這些實驗直接將PAM序列內的腺嘌呤甲基化與SaCas9活性的抑制聯系起來。進一步的實驗排除了胞嘧啶甲基化在[+1]位點(GATC中的C)的直接影響。
本研究通過整合高通量功能篩選、機器學習、表觀基因組學和生化驗證,深刻揭示了影響SaCas9在細菌中活性的關鍵因素。研究不僅成功開發了高精度的細菌SaCas9活性預測模型crisprHAL,還首次明確證實了PAM序列內的腺嘌呤甲基化(GATC motif)是SaCas9活性的一個關鍵負調控因子,可導致活性降低約10倍。此外,研究還明確了PAM下游序列(特別是[+1]和[+2]位點的嘧啶富集二核苷酸)對活性的重要貢獻。
這些發現具有多重重要意義。在應用層面,它提示在設計和選擇細菌CRISPR-Cas9(尤其是SaCas9)應用的靶點時,應主動避開含有GATC的PAM序列(NNGGAT[C]),以避免細菌自身DNA甲基化系統的干擾,從而提高編輯或抗菌效率。在機制層面,它揭示了DNA甲基化這一重要的表觀遺傳標記可以顯著影響CRISPR-Cas系統的功能,拓寬了我們對Cas9與DNA相互作用復雜性的認知。從進化角度而言,SaCas9對甲基化PAM的“回避”行為可能是一種精巧的適應性策略。這既可能有助于區分“自我”(甲基化的宿主基因組)與“非我”(通常未甲基化的外源DNA),也可能是為了對抗某些噬菌體或質粒利用甲基化作為抗限制策略而演化出的特性。這項研究凸顯了在天然生物學背景下(特別是考慮表觀遺傳修飾)理解CRISPR系統功能的重要性,并為優化CRISPR技術在原核生物中的應用提供了關鍵見解。論文發表于《Nucleic Acids Research》。