《Nature Communications》:Uncovering Cas9 PAM diversity through metagenomic mining and machine learning
編輯推薦:
本研究針對CRISPR-Cas9系統中原間隔序列毗鄰基序(PAM)的限制性問題,通過構建CRISPR-PAMdb數據庫和開發機器學習模型CICERO,系統預測了8003個Cas9蛋白簇的PAM偏好性,并將預測范圍擴展至5萬余個Cas9蛋白。該研究突破了傳統比對方法的局限,為開發新一代基因組編輯工具提供了重要資源。成果發表于《Nature Communications》。
在基因組編輯領域,CRISPR-Cas9系統如同一把精準的“基因剪刀”,但其切割活性受到原間隔序列毗鄰基序(Protospacer Adjacent Motif, PAM)的嚴格限制。Cas9蛋白需要識別靶點附近特定的PAM序列才能發揮作用,這如同鎖與鑰匙的關系——若PAM不匹配,再精準的剪刀也無法切入基因序列。目前廣泛使用的化膿鏈球菌Cas9(SpCas9)僅識別NGG型PAM,這嚴重限制了可編輯的基因組位點范圍。盡管科學家已從微生物中發掘出部分新型Cas9變體(如xCas9、SpCas9-NG),但傳統實驗方法篩選PAM耗時費力,且難以系統揭示自然界中PAM的多樣性圖譜。
為突破這一瓶頸,研究人員在《自然·通訊》發表論文,通過宏基因組挖掘與機器學習相結合的策略,構建了迄今為止最全面的Cas9-PAM數據庫CRISPR-PAMdb。研究團隊從378萬個細菌和古菌基因組中提取Cas9蛋白序列,同時整合740萬條噬菌體和質粒序列,通過間隔序列-原間隔序列比對技術,首次系統推斷出8003個獨特Cas9蛋白簇的PAM偏好特征。更引人注目的是,他們開發了基于ESM2蛋白質語言模型的機器學習工具CICERO,能夠直接根據Cas9蛋白序列預測其PAM特異性,在測試集上達到0.69的平均余弦相似度,對實驗驗證的Cas9同源蛋白預測相似度更高達0.75。
關鍵技術方法包括:1)從公共數據庫收集378萬微生物基因組和740萬噬菌體/質粒序列構建CRISPR-PAMdb;2)通過間隔序列-原間隔序列比對推斷Cas9的PAM偏好;3)基于ESM2蛋白質語言模型開發CICERO機器學習算法;4)使用余弦相似度評估預測準確性。
CRISPR-PAMdb數據庫的構建與特征
研究團隊通過大規模生物信息學分析,從基因組數據庫(包括NCBI RefSeq、GTDB等)系統收集微生物基因組數據,鑒定出包含Cas9結構域的蛋白序列。通過聚類分析將相似度高于40%的序列歸并為8003個蛋白簇,每個簇代表一類潛在的新型Cas9變體。利用CRISPR陣列中間隔序列與靶向原型間隔序列的對應關系,通過多序列比對和位置權重矩陣分析,精確計算出每個Cas9簇的PAM保守序列。結果顯示除經典NGG PAM外,還存在識別NAG、NGA、NGT等變體PAM的Cas9蛋白,甚至發現可識別長達8bp PAM序列的特殊變體。
CICERO機器學習模型的開發與驗證
為解決無法通過比對推斷PAM的Cas9蛋白預測難題,研究人員開發了CICERO模型。該模型以ESM2生成的蛋白質嵌入向量作為輸入,通過注意力機制捕捉Cas9蛋白PAM識別域的關鍵氨基酸殘基,輸出長度為4L的PAM概率分布向量(L代表PAM長度)。在五折交叉驗證中,模型對測試集Cas9蛋白的PAM預測與實驗數據平均余弦相似度為0.69。對已知PAM特異性的Cas9同源蛋白(如SpCas9、SaCas9等)進行盲法測試,預測相似度提升至0.75,證明模型具有良好的泛化能力。
新型Cas9蛋白的大規模PAM預測
應用CICERO模型,研究團隊對50,308個缺乏比對數據的Cas9蛋白進行PAM偏好性預測,其中17,453個預測結果獲得高置信度評分(CICERO置信度分數>0.8)。這些新型Cas9覆蓋了α、β、γ等多個蛋白質簇,展現出比已知Cas9更廣泛的PAM識別譜系。例如某些來自極端環境微生物的Cas9蛋白可識別富含嘌呤的PAM,而另一些則偏好嘧啶富集區域,這為靶向特定基因組區域提供了新選擇。
本研究通過構建CRISPR-PAMdb數據庫和開發CICERO預測模型,系統揭示了Cas9蛋白的PAM多樣性,將可預測PAM的Cas9蛋白數量提升了一個數量級。該工作不僅為基因組編輯工具開發提供了寶貴資源,更開創了基于蛋白質序列直接預測功能特性的新范式。值得注意的是,CICERO模型僅需蛋白質序列即可實現PAM預測,這對探索其他CRISPR系統(如Cas12、Cas13)的功能具有重要啟示意義。隨著更多微生物基因組數據的釋放,這種“序列-功能”預測框架有望加速發現自然界中隱藏的基因組編輯寶藏,推動精準醫學和合成生物學領域的發展。