超碰免费人妻,67194欧洲,麻豆av在线

首頁今日動態人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態 > 正文

基于宏基因組挖掘與機器學習的Cas9 PAM多樣性發現及其在基因組編輯中的應用

《Nature Communications》：Uncovering Cas9 PAM diversity through metagenomic mining and machine learning

【字體：大中小】 時間：2026年02月09日 來源：Nature Communications 15.7

編輯推薦：

　　本研究針對CRISPR-Cas9系統中原間隔序列毗鄰基序（PAM）的限制性問題，通過構建CRISPR-PAMdb數據庫和開發機器學習模型CICERO，系統預測了8003個Cas9蛋白簇的PAM偏好性，并將預測范圍擴展至5萬余個Cas9蛋白。該研究突破了傳統比對方法的局限，為開發新一代基因組編輯工具提供了重要資源。成果發表于《Nature Communications》。

在基因組編輯領域，CRISPR-Cas9系統如同一把精準的“基因剪刀”，但其切割活性受到原間隔序列毗鄰基序（Protospacer Adjacent Motif, PAM）的嚴格限制。Cas9蛋白需要識別靶點附近特定的PAM序列才能發揮作用，這如同鎖與鑰匙的關系——若PAM不匹配，再精準的剪刀也無法切入基因序列。目前廣泛使用的化膿鏈球菌Cas9（SpCas9）僅識別NGG型PAM，這嚴重限制了可編輯的基因組位點范圍。盡管科學家已從微生物中發掘出部分新型Cas9變體（如xCas9、SpCas9-NG），但傳統實驗方法篩選PAM耗時費力，且難以系統揭示自然界中PAM的多樣性圖譜。

為突破這一瓶頸，研究人員在《自然·通訊》發表論文，通過宏基因組挖掘與機器學習相結合的策略，構建了迄今為止最全面的Cas9-PAM數據庫CRISPR-PAMdb。研究團隊從378萬個細菌和古菌基因組中提取Cas9蛋白序列，同時整合740萬條噬菌體和質粒序列，通過間隔序列-原間隔序列比對技術，首次系統推斷出8003個獨特Cas9蛋白簇的PAM偏好特征。更引人注目的是，他們開發了基于ESM2蛋白質語言模型的機器學習工具CICERO，能夠直接根據Cas9蛋白序列預測其PAM特異性，在測試集上達到0.69的平均余弦相似度，對實驗驗證的Cas9同源蛋白預測相似度更高達0.75。

關鍵技術方法包括：1）從公共數據庫收集378萬微生物基因組和740萬噬菌體/質粒序列構建CRISPR-PAMdb；2）通過間隔序列-原間隔序列比對推斷Cas9的PAM偏好；3）基于ESM2蛋白質語言模型開發CICERO機器學習算法；4）使用余弦相似度評估預測準確性。

CRISPR-PAMdb數據庫的構建與特征

研究團隊通過大規模生物信息學分析，從基因組數據庫（包括NCBI RefSeq、GTDB等）系統收集微生物基因組數據，鑒定出包含Cas9結構域的蛋白序列。通過聚類分析將相似度高于40%的序列歸并為8003個蛋白簇，每個簇代表一類潛在的新型Cas9變體。利用CRISPR陣列中間隔序列與靶向原型間隔序列的對應關系，通過多序列比對和位置權重矩陣分析，精確計算出每個Cas9簇的PAM保守序列。結果顯示除經典NGG PAM外，還存在識別NAG、NGA、NGT等變體PAM的Cas9蛋白，甚至發現可識別長達8bp PAM序列的特殊變體。

CICERO機器學習模型的開發與驗證

為解決無法通過比對推斷PAM的Cas9蛋白預測難題，研究人員開發了CICERO模型。該模型以ESM2生成的蛋白質嵌入向量作為輸入，通過注意力機制捕捉Cas9蛋白PAM識別域的關鍵氨基酸殘基，輸出長度為4^L的PAM概率分布向量（L代表PAM長度）。在五折交叉驗證中，模型對測試集Cas9蛋白的PAM預測與實驗數據平均余弦相似度為0.69。對已知PAM特異性的Cas9同源蛋白（如SpCas9、SaCas9等）進行盲法測試，預測相似度提升至0.75，證明模型具有良好的泛化能力。

新型Cas9蛋白的大規模PAM預測

應用CICERO模型，研究團隊對50,308個缺乏比對數據的Cas9蛋白進行PAM偏好性預測，其中17,453個預測結果獲得高置信度評分（CICERO置信度分數>0.8）。這些新型Cas9覆蓋了α、β、γ等多個蛋白質簇，展現出比已知Cas9更廣泛的PAM識別譜系。例如某些來自極端環境微生物的Cas9蛋白可識別富含嘌呤的PAM，而另一些則偏好嘧啶富集區域，這為靶向特定基因組區域提供了新選擇。

本研究通過構建CRISPR-PAMdb數據庫和開發CICERO預測模型，系統揭示了Cas9蛋白的PAM多樣性，將可預測PAM的Cas9蛋白數量提升了一個數量級。該工作不僅為基因組編輯工具開發提供了寶貴資源，更開創了基于蛋白質序列直接預測功能特性的新范式。值得注意的是，CICERO模型僅需蛋白質序列即可實現PAM預測，這對探索其他CRISPR系統（如Cas12、Cas13）的功能具有重要啟示意義。隨著更多微生物基因組數據的釋放，這種“序列-功能”預測框架有望加速發現自然界中隱藏的基因組編輯寶藏，推動精準醫學和合成生物學領域的發展。

熱點排行

新聞專題

聯系信箱：

粵ICP備09063491號