《Scientific Reports》:Predicting FOX gene candidates for oxic nitrogen fixation using multi-omic machine learning and comparative bioinformatics
編輯推薦:
本研究針對好氧固氮藍藻中保護固氮酶的關鍵基因(FOX基因)尚不明確的問題,通過整合RNA-seq、定量蛋白質組、啟動子結構等多組學數據,結合機器學習和比較基因組學分析,預測了魚腥藍藻中的候選FOX基因。研究構建的預測模型顯著提升了候選基因篩選的準確度,為深入解析藍藻好氧固氮的分子機制和異源重構應用提供了關鍵靶點。
氧氣對地球生命至關重要,但對于一些關鍵的生命過程,如固氮作用,卻是致命的威脅。固氮酶是能將大氣中惰性的氮氣轉化為生命可利用氨的關鍵酶,但它極為畏氧。然而,自然界中存在一類神奇的生物——固氮藍藻,它們能夠一邊進行光合作用產生氧氣,一邊完成固氮作用,這似乎是一個難以調和的矛盾。為了在“氧氣包圍”中保護脆弱的固氮酶,這些藍藻進化出了一套精密的保護系統,由一系列被稱為“好氧條件下固氮”(FOX)基因編碼。盡管已有數十個FOX基因被鑒定,但這一復雜保護網絡的全貌遠未清晰,許多關鍵的“零件”可能仍隱藏在龐大的基因組中,有待發現。為了揭開這些神秘基因的面紗,研究者們開展了一項研究,并發表在《Scientific Reports》上。
為了系統性地預測和鑒定新的FOX基因,研究者采用了整合多組學數據和機器學習模型的策略。他們首先以模式生物魚腥藍藻(Anabaenasp. PCC 7120)為研究對象,在誘導固氮(氮饑餓)過程的0、6、12、21小時收集樣本,獲取了動態的轉錄組(RNA-seq)和蛋白質組(定量蛋白質組學)數據。這些數據刻畫了基因在固氮啟動過程中的表達變化。同時,研究者還分析了基因的啟動子結構、基因組位置(基因鄰域)信息,并利用互惠最佳比對(reciprocal-best-hit)方法,在固氮與非固氮藍藻中進行了保守性分析。他們構建了一個訓練集,其中正樣本是68個文獻已驗證的FOX基因,負樣本是835個保守的非必需基因。基于這些多維特征,研究者訓練了邏輯回歸、隨機森林和XGBoost三種機器學習模型,并采用20次重復分層80/20的訓練-測試劃分進行了嚴格的評估。
模型構建與性能表現:最優模型在受試者工作特征曲線下面積(ROC-AUC)上最高達到0.80,平均精度(Average Precision)最高達到0.55。在按預測概率排名前20的基因中,模型達到了0.39的精度,遠高于0.075的陽性樣本比例基線。這表明模型能夠有效區分潛在的FOX基因與非FOX基因。
模型特征重要性分析:對模型進行解讀發現,固氮過程后期(step-down后期)的誘導表達、在固氮藍藻中保守性偏倚(diazotroph-biased conservation)以及基因組鄰域信號,是預測FOX基因最重要的特征。這從數據驅動的層面驗證了FOX基因在表達調控、進化與功能共定位上的核心規律。
全基因組候選基因預測:基于模型,研究者計算了全基因組范圍內所有基因的FOX概率分數,主要用于候選基因排序。他們提名了一系列保守的基因作為高概率候選者。這些基因的功能廣泛涉及異形胞(heterocyst)被膜的形成過程、更廣泛的氧化還原調控、代謝以及電子庫調節等方面。異形胞是藍藻中一種特化的、用于固氮的細胞類型,其被膜是隔絕氧氣、保護固氮酶的關鍵物理屏障。這些發現暗示,新的FOX基因不僅參與直接的氧氣清除或酶保護,還可能通過構建和維持異形胞的結構完整性、調控細胞的能量和還原力狀態,間接地保護固氮過程。
公開資源發布:研究者不僅公布了所有的預測結果,還開發并發布了一個公開的基于網絡的優化工具。這個工具允許用戶應用比較生物信息學篩選(如保守性、共線性等)和規模限制,來為特定的研究目標(例如實驗驗證或異源重構)提出一套候選的附屬基因組合。
研究結論:該研究通過整合多組學時序數據與比較基因組學特征,成功構建了能夠有效預測藍藻FOX基因的機器學習模型。模型性能表明,固氮后期的誘導表達模式、在固氮菌中特有的保守性以及基因的基因組環境是識別FOX基因的關鍵生物標志。全基因組范圍的預測鑒定出了一系列在異形胞被膜形成、氧化還原平衡、代謝和電子傳遞等過程中發揮作用的候選基因,極大地擴展了對好氧固氮復雜保護網絡的認識。研究者提供的公開預測數據集和在線優化工具,為后續的功能實驗驗證和將藍藻固氮系統向其他生物(如作物)進行異源重構的努力,提供了寶貴的候選基因清單和理性設計平臺。這項研究不僅推進了對自然界中這一精巧的“抗氧固氮”機制的理解,也為未來設計新型人工固氮系統、減少農業對合成氮肥的依賴,奠定了重要的生物信息學基礎。