《Ecology and Evolution》:PhyloRef: A Semi-Automated Workflow for eDNA Reference Database Curation via Phylogenetic Anomaly Detection
編輯推薦:
這篇綜述系統(tǒng)介紹了PhyloRef,一個基于Snakemake的、半自動化的系統(tǒng)發(fā)育引導工作流,用于提升環(huán)境DNA(eDNA)參考數(shù)據(jù)庫的質量。通過整合完整線粒體基因組與單基因序列,結合基于聚類的異常檢測(而非嚴格的單系性要求)與“similar_to=”注釋機制,PhyloRef有效識別并處理公共數(shù)據(jù)庫(如NCBI)中存在的注釋錯誤、物種誤識別和序列污染問題。其在板鰓亞綱(Chondrichthyes)與輻鰭魚綱(Actinopterygii)數(shù)據(jù)集上的驗證表明,該工具能高效檢測并移除異常序列(如軟骨魚類9條、硬骨魚類401條),并對模糊系統(tǒng)發(fā)育位置的序列進行標注,從而顯著提高下游eDNA生物多樣性評估的可靠性。未來發(fā)展方向包括整合機器學習進行異常檢測、納入核標記以提升分類分辨率,并開發(fā)自動化更新模塊,為eDNA研究和生態(tài)監(jiān)測提供更穩(wěn)健的參考數(shù)據(jù)基礎。
1 引言
環(huán)境DNA(eDNA)分析因其在生物多樣性監(jiān)測、入侵物種檢測和瀕危物種保護中的廣泛應用而受到廣泛關注。然而,當前廣泛使用的公共數(shù)據(jù)庫(如GenBank、BOLD)常存在注釋錯誤、物種誤識別和序列污染等問題,導致生物多樣性評估結果不可靠,F(xiàn)有質量控制方法多依賴基于規(guī)則的過濾或系統(tǒng)發(fā)育檢查,前者可能遺漏系統(tǒng)發(fā)育不一致的記錄,后者則難以擴展到大規(guī)模數(shù)據(jù)集且缺乏標準化流程。
2 材料與方法
PhyloRef是一個模塊化的Snakemake工作流,接受物種名稱列表或登錄號列表作為輸入,包含數(shù)據(jù)獲取、基因提取、序列比對、系統(tǒng)發(fā)育樹構建、異常檢測、人工校訂和最終數(shù)據(jù)庫組裝七個順序模塊。其核心創(chuàng)新包括:
- •
數(shù)據(jù)獲取與預處理:支持基于物種名或登錄號的批量檢索,通過記錄級過濾和物種級亞采樣平衡分類代表性與數(shù)據(jù)集規(guī)模。
- •
基因提取:基于GenBank注釋提取用戶指定的線粒體基因(如COX1、12S rRNA),支持多基因串聯(lián)用于系統(tǒng)發(fā)育分析。
- •
系統(tǒng)發(fā)育分析與異常檢測:序列按分類階元(默認按目)分組后進行MAFFT比對和FastTree系統(tǒng)發(fā)育推斷。異常檢測基于拓撲結構與分類注釋的一致性,將異常分為三類:
- •
類型I(綠色異常):單一序列在其預期屬、科或目級分支外聚類,可能源于注釋錯誤。
- •
類型II(藍色異常):同一物種的兩條序列未能聚類在一起,顯示不一致的系統(tǒng)發(fā)育位置。
- •
類型III(紅色異常):物種具有三條及以上序列,其中至少一條明顯偏離主支系,可能反映種內分歧、數(shù)據(jù)污染或物種邊界模糊。
- •
人工校訂與標簽分配:用戶可基于PDF樹和異常類型進行人工檢查,確認錯誤的序列被移除,而系統(tǒng)發(fā)育模糊的序列則記錄在similar.txt中,用于后續(xù)添加“similar_to=”注釋。
- •
數(shù)據(jù)庫構建與版本控制:最終數(shù)據(jù)庫以GenBank和FASTA格式輸出,其中FASTA頭文件中會為無法區(qū)分的序列組添加“similar_to=”標簽,以提示下游分析中存在分類不確定性。
3 結果
PhyloRef在板鰓亞綱和輻鰭魚綱的完整線粒體基因組數(shù)據(jù)集上進行了驗證。初始檢索獲得2234條軟骨魚類和16,795條硬骨魚類序列,經過濾和亞采樣后,分別保留389條(269種)和7570條(4957種)序列用于分析。
- •
異常檢測結果:在軟骨魚類中,PhyloRef標記了7條綠色異常、10條藍色異常和3條紅色異常,經人工確認后共移除9條異常序列。在硬骨魚類中,標記了102條綠色異常、363條藍色異常和317條紅色異常,最終移除401條異常序列。值得注意的是,即使RefSeq(NC_)條目中也發(fā)現(xiàn)了錯誤序列(硬骨魚類128條、軟骨魚類6條),表明僅依賴元數(shù)據(jù)驗證不足以保證數(shù)據(jù)質量。
- •
分類分布與質量評估:對硬骨魚類前10大科的序列質量評估顯示,錯誤序列(error_seq)比例在1.40%–12.26%之間,模糊序列(similar_seq)比例在4.50%–24.70%之間。其中,Gobionidae、Xenocyprididae和Nemacheilidae等科的問題記錄比例較高(約32%、27%和25%)。
- •
系統(tǒng)發(fā)育模糊案例:研究還識別了多組系統(tǒng)發(fā)育位置模糊的序列,如Epinephelus bruneus與E. moara、Somniosus microcephalus與S. pacificus以及Carassius屬內多個物種,這些案例反映了近期物種分化、線粒體漸滲或不完全譜系分選等生物學過程,而非數(shù)據(jù)庫錯誤。這些序列被保留并標注“similar_to=”,以提示下游分析中的不確定性。
- •
最終數(shù)據(jù)庫:校訂后的數(shù)據(jù)庫包含380條軟骨魚類線粒體基因組(代表266種)和7258條硬骨魚類線粒體基因組(代表4887種),所有序列均以標準化格式公開提供。
4 討論
- •
系統(tǒng)發(fā)育模糊序列的管理:PhyloRef采用保守的“similar_to=”注釋策略,既保留了可能反映重要進化過程(如雜交、近期輻射)的序列,又明確提示了分類不確定性,有助于減少eDNA代謝條形碼研究中的假陽性鑒定。
- •
PhyloRef的優(yōu)勢與當前局限:其優(yōu)勢在于利用完整線粒體基因組提升系統(tǒng)發(fā)育分辨率,提供結構化的異常分類與“similar_to=”注釋機制,并通過分組策略提升計算可擴展性。然而,當前方法仍主要依賴線粒體標記,難以檢測核基因漸滲或不完全譜系分選導致的沖突;稀疏的分類采樣可能影響推斷可靠性;且短eDNA擴增子(~200–300 bp)提供的系統(tǒng)發(fā)育信號有限,可能增加異常檢測的假陽性。此外,盡管自動化程度提高,專家審查仍是解釋模糊案例(如雜交或隱存種復合體)的必要環(huán)節(jié)。
- •
未來發(fā)展方向:包括整合機器學習模型以提升異常檢測性能、納入核標記(如ITS、18S)以改善復雜進化歷史的解析、開發(fā)自動化更新系統(tǒng)以維持數(shù)據(jù)庫時效性,以及通過算法優(yōu)化和并行計算提升大規(guī)模數(shù)據(jù)集的處理效率。
5 結論
PhyloRef通過將系統(tǒng)發(fā)育拓撲分析整合到可重復的Snakemake工作流中,為eDNA參考數(shù)據(jù)庫的校訂提供了一個實用且可擴展的工具。其在軟骨魚類和硬骨魚類數(shù)據(jù)集上的驗證證明了其檢測錯誤注釋、模糊系統(tǒng)發(fā)育位置及潛在生物學信號(如漸滲或不完全譜系分選)的能力。總體而言,PhyloRef有助于提高參考序列質量,幫助研究人員減少注釋錯誤并更自信地解釋分類不確定性。