熟妇久久无码人妻av蜜臀www,亚洲小视频,国产v自拍

首頁今日動態(tài) 人才市場新技術專欄中國科學人云展臺
BioHot
云講堂直播會展中心特價專欄技術快訊免費試用

生物通官微
陪你抓住生命科技
跳動的脈搏

生物通首頁 > 今日動態(tài) > 正文

PhyloRef：基于系統(tǒng)發(fā)育異常檢測的環(huán)境DNA（eDNA）參考數(shù)據(jù)庫半自動化校訂工作流

《Ecology and Evolution》：PhyloRef: A Semi-Automated Workflow for eDNA Reference Database Curation via Phylogenetic Anomaly Detection

【字體：大中小】 時間：2026年02月28日 來源：Ecology and Evolution 2.3

編輯推薦：

　　這篇綜述系統(tǒng)介紹了PhyloRef，一個基于Snakemake的、半自動化的系統(tǒng)發(fā)育引導工作流，用于提升環(huán)境DNA（eDNA）參考數(shù)據(jù)庫的質量。通過整合完整線粒體基因組與單基因序列，結合基于聚類的異常檢測（而非嚴格的單系性要求）與“similar_to=”注釋機制，PhyloRef有效識別并處理公共數(shù)據(jù)庫（如NCBI）中存在的注釋錯誤、物種誤識別和序列污染問題。其在板鰓亞綱（Chondrichthyes）與輻鰭魚綱（Actinopterygii）數(shù)據(jù)集上的驗證表明，該工具能高效檢測并移除異常序列（如軟骨魚類9條、硬骨魚類401條），并對模糊系統(tǒng)發(fā)育位置的序列進行標注，從而顯著提高下游eDNA生物多樣性評估的可靠性。未來發(fā)展方向包括整合機器學習進行異常檢測、納入核標記以提升分類分辨率，并開發(fā)自動化更新模塊，為eDNA研究和生態(tài)監(jiān)測提供更穩(wěn)健的參考數(shù)據(jù)基礎。

1 引言

環(huán)境DNA（eDNA）分析因其在生物多樣性監(jiān)測、入侵物種檢測和瀕危物種保護中的廣泛應用而受到廣泛關注。然而，當前廣泛使用的公共數(shù)據(jù)庫（如GenBank、BOLD）常存在注釋錯誤、物種誤識別和序列污染等問題，導致生物多樣性評估結果不可靠�，F(xiàn)有質量控制方法多依賴基于規(guī)則的過濾或系統(tǒng)發(fā)育檢查，前者可能遺漏系統(tǒng)發(fā)育不一致的記錄，后者則難以擴展到大規(guī)模數(shù)據(jù)集且缺乏標準化流程。

2 材料與方法

PhyloRef是一個模塊化的Snakemake工作流，接受物種名稱列表或登錄號列表作為輸入，包含數(shù)據(jù)獲取、基因提取、序列比對、系統(tǒng)發(fā)育樹構建、異常檢測、人工校訂和最終數(shù)據(jù)庫組裝七個順序模塊。其核心創(chuàng)新包括：

•
數(shù)據(jù)獲取與預處理：支持基于物種名或登錄號的批量檢索，通過記錄級過濾和物種級亞采樣平衡分類代表性與數(shù)據(jù)集規(guī)模。
•
基因提取：基于GenBank注釋提取用戶指定的線粒體基因（如COX1、12S rRNA），支持多基因串聯(lián)用于系統(tǒng)發(fā)育分析。
•
系統(tǒng)發(fā)育分析與異常檢測：序列按分類階元（默認按目）分組后進行MAFFT比對和FastTree系統(tǒng)發(fā)育推斷。異常檢測基于拓撲結構與分類注釋的一致性，將異常分為三類：
- •
  類型I（綠色異常）：單一序列在其預期屬、科或目級分支外聚類，可能源于注釋錯誤。
- •
  類型II（藍色異常）：同一物種的兩條序列未能聚類在一起，顯示不一致的系統(tǒng)發(fā)育位置。
- •
  類型III（紅色異常）：物種具有三條及以上序列，其中至少一條明顯偏離主支系，可能反映種內分歧、數(shù)據(jù)污染或物種邊界模糊。
•
人工校訂與標簽分配：用戶可基于PDF樹和異常類型進行人工檢查，確認錯誤的序列被移除，而系統(tǒng)發(fā)育模糊的序列則記錄在similar.txt中，用于后續(xù)添加“similar_to=”注釋。
•
數(shù)據(jù)庫構建與版本控制：最終數(shù)據(jù)庫以GenBank和FASTA格式輸出，其中FASTA頭文件中會為無法區(qū)分的序列組添加“similar_to=”標簽，以提示下游分析中存在分類不確定性。

3 結果

PhyloRef在板鰓亞綱和輻鰭魚綱的完整線粒體基因組數(shù)據(jù)集上進行了驗證。初始檢索獲得2234條軟骨魚類和16,795條硬骨魚類序列，經過濾和亞采樣后，分別保留389條（269種）和7570條（4957種）序列用于分析。

•
異常檢測結果：在軟骨魚類中，PhyloRef標記了7條綠色異常、10條藍色異常和3條紅色異常，經人工確認后共移除9條異常序列。在硬骨魚類中，標記了102條綠色異常、363條藍色異常和317條紅色異常，最終移除401條異常序列。值得注意的是，即使RefSeq（NC_）條目中也發(fā)現(xiàn)了錯誤序列（硬骨魚類128條、軟骨魚類6條），表明僅依賴元數(shù)據(jù)驗證不足以保證數(shù)據(jù)質量。
•
分類分布與質量評估：對硬骨魚類前10大科的序列質量評估顯示，錯誤序列（error_seq）比例在1.40%–12.26%之間，模糊序列（similar_seq）比例在4.50%–24.70%之間。其中，Gobionidae、Xenocyprididae和Nemacheilidae等科的問題記錄比例較高（約32%、27%和25%）。
•
系統(tǒng)發(fā)育模糊案例：研究還識別了多組系統(tǒng)發(fā)育位置模糊的序列，如Epinephelus bruneus與E. moara、Somniosus microcephalus與S. pacificus以及Carassius屬內多個物種，這些案例反映了近期物種分化、線粒體漸滲或不完全譜系分選等生物學過程，而非數(shù)據(jù)庫錯誤。這些序列被保留并標注“similar_to=”，以提示下游分析中的不確定性。
•
最終數(shù)據(jù)庫：校訂后的數(shù)據(jù)庫包含380條軟骨魚類線粒體基因組（代表266種）和7258條硬骨魚類線粒體基因組（代表4887種），所有序列均以標準化格式公開提供。

4 討論

•
系統(tǒng)發(fā)育模糊序列的管理：PhyloRef采用保守的“similar_to=”注釋策略，既保留了可能反映重要進化過程（如雜交、近期輻射）的序列，又明確提示了分類不確定性，有助于減少eDNA代謝條形碼研究中的假陽性鑒定。
•
PhyloRef的優(yōu)勢與當前局限：其優(yōu)勢在于利用完整線粒體基因組提升系統(tǒng)發(fā)育分辨率，提供結構化的異常分類與“similar_to=”注釋機制，并通過分組策略提升計算可擴展性。然而，當前方法仍主要依賴線粒體標記，難以檢測核基因漸滲或不完全譜系分選導致的沖突；稀疏的分類采樣可能影響推斷可靠性；且短eDNA擴增子（~200–300 bp）提供的系統(tǒng)發(fā)育信號有限，可能增加異常檢測的假陽性。此外，盡管自動化程度提高，專家審查仍是解釋模糊案例（如雜交或隱存種復合體）的必要環(huán)節(jié)。
•
未來發(fā)展方向：包括整合機器學習模型以提升異常檢測性能、納入核標記（如ITS、18S）以改善復雜進化歷史的解析、開發(fā)自動化更新系統(tǒng)以維持數(shù)據(jù)庫時效性，以及通過算法優(yōu)化和并行計算提升大規(guī)模數(shù)據(jù)集的處理效率。

5 結論

PhyloRef通過將系統(tǒng)發(fā)育拓撲分析整合到可重復的Snakemake工作流中，為eDNA參考數(shù)據(jù)庫的校訂提供了一個實用且可擴展的工具。其在軟骨魚類和硬骨魚類數(shù)據(jù)集上的驗證證明了其檢測錯誤注釋、模糊系統(tǒng)發(fā)育位置及潛在生物學信號（如漸滲或不完全譜系分選）的能力。總體而言，PhyloRef有助于提高參考序列質量，幫助研究人員減少注釋錯誤并更自信地解釋分類不確定性。

熱點排行

新聞專題

聯(lián)系信箱：

粵ICP備09063491號