將DNA條形碼技術與機器學習結合用于物種鑒定:龍膽屬Cruciata組中葉綠體的比較基因組學及密碼子使用偏好研究
《Journal of Plant Physiology》:Integrating DNA barcoding and machine learning for species identification: Comparative genomics and codon usage bias of chloroplasts in
Gentiana sect.
Cruciata
【字體:
大
中
小
】
時間:2026年03月03日
來源:Journal of Plant Physiology 4.1
編輯推薦:
本研究通過整合葉綠體基因組比較分析、密碼子使用模式研究、機器學習算法和DNA條形碼技術,系統解析了龍膽屬Cruciata組的物種系統發育關系、遺傳多樣性特征及分子鑒定體系,為資源保護、藥材質量控制及品種選育提供理論支撐。
Mengdi Zheng|Mingchen Gao|Zeran Zhang|Xi Song
西安醫科大學藥學院,中國西安710021
摘要
本研究結合了葉綠體基因組比較、密碼子使用分析、機器學習和DNA條形碼技術,以闡明Gentiana Sect. Cruciata的系統發育關系、遺傳多樣性和物種鑒定。通過IRscope(邊界分析)、MISA(SSR檢測)和mVISTA(變異比對)進行葉綠體基因組分析。基于ChiPlot、CodonW和CUSP分析,研究了影響密碼子偏好和使用模式的因素。利用ITS2、matK、ITS以及psbA-trnH條形碼,并結合BLOG和WEKA機器學習算法進行分子鑒定。葉綠體SSR序列以A/T重復序列為主;非編碼區域表現出較高的變異度。密碼子偏好受自然選擇驅動,在第三位偏好A/U。ITS2具有最高的區分能力(matK > ITS > psbA-trnH)。機器學習(J48/SMO分類器)使用四種條形碼時,準確率達到83.33%–100%。本研究為Gentiana Sect. Cruciata的保護、藥用品質控制和資源鑒定提供了理論基礎。
引言
Gentiana屬屬于龍膽科,包含約20種多年生草本植物,其中19種分布于中國。青藏高原是該屬的起源地和多樣性中心(Ho和Liu 2001)。經典文獻如《神農本草經》和《 Jing Zhu Ben Cao》記載了其微寒的性質和治療效果,包括祛風除濕和清虛熱(Wang等人2022)。根據《中國藥典》,Gentiana Macrophyllae Radix的官方植物來源包括G. macrophylla、G. straminea、G. crassicaulis和G. dahurica(中國藥典委員會2022)。盡管在中國青海、寧夏、甘肅和陜西等地推廣了栽培技術(Tian等人2012),但市場需求仍然嚴重依賴野生資源。這導致了棲息地破壞和遺傳多樣性的持續下降(Zhang等人2003)。栽培種群的遺傳多樣性通常低于野生種群(Lam等人2010;Zhu等人2002),從而削弱了它們應對環境壓力的適應性和進化潛力(Smith等人2015)。
在藥用植物中,遺傳多樣性直接影響次生代謝物的組成和產量(Ge等人2006)。因此,闡明Gentiana Sect. Cruciata的遺傳結構和變異模式可以為種質鑒定、資源保護和優質品種的培育提供分子基礎。同時也有助于理解地理分化和近緣物種的進化歷史(Arbogast 2000)。然而,與關注其化學成分和藥理特性的研究相比,Gentiana Sect. Cruciata的遺傳多樣性研究仍然有限(Cui等人2026)。隨著分子標記技術的應用,涵蓋形態學、生化和DNA水平的系統評估已成為可能(Zhu等人2024)。
當前研究面臨三個主要限制:葉綠體基因組測序有限,難以揭示Gentiana屬內的種間關系(Dong等人2021);密碼子使用偏好(受自然選擇、突變和遺傳漂變調節)在Gentiana屬的葉綠體基因組中缺乏全面分析;其質體中的密碼子使用偏好模式尚未被充分研究(Grantham等人1981;Sun等人2018);DNA條形碼用于植物鑒定時存在片段篩選效率低的問題(Liu等人2010;Ni等人2016)。
為系統解決上述挑戰,本研究首次整合了整個葉綠體基因組比較、密碼子使用偏好(CUB)分析、多基因位點DNA條形碼篩選和機器學習算法,對Gentiana Sect. Cruciata的物種進行了全面分析。具體而言,通過整個葉綠體基因組測序和比較分析,可以克服數據稀缺的局限,提供高分辨率的基因組圖譜,以闡明該屬內的復雜種間系統發育關系。在此基礎上,葉綠體基因組的CUB分析將揭示潛在的進化驅動因素(如自然選擇或突變壓力),填補該領域的重要研究空白。同時,通過篩選和評估多個候選DNA條形碼片段,并運用機器學習分類器(BLOG和WEKA平臺)(Shweta 2014;Emanuel等人2013)深入挖掘序列特征,我們將建立一個高效準確的分子鑒定系統。這解決了傳統DNA條形碼方法的效率問題。這種多層次的整合策略不僅突破了從基因組進化、自然選擇壓力和物種鑒定三個維度上的研究瓶頸,還實現了方法間的相互驗證和互補,從而更系統、可靠地了解Gentiana Sect. Cruciata的遺傳和進化情況。因此,本研究為該藥用植物群的資源保護、真偽評估和品種培育奠定了分子理論基礎。
部分摘錄
獲取DNA條形碼序列
G. macrophylla的植物樣本采集自中國陜西省龍縣(106.86°E, 34.90°N),由西安醫科大學的Xingjun Wang根據形態特征進行鑒定。使用TIANGEN Biotech DNA提取試劑盒提取基因組DNA,并儲存在-20°C。使用通用引物(Ni等人2016;Zheng等人2022)對ITS、ITS2、matK和psbA-trnH序列進行PCR擴增。
IR區域的擴展和收縮
如圖1所示,九個物種的葉綠體基因組在IR邊界上存在差異,總長度范圍為148,653至149,916 bp。三個區域的長度分別為:LSC 80,995–82,911 bp、SSC 17,029–21,315 bp和IR 22,845–25,337 bp。基因分布模式:除了G. macrophylla外,ndhF位于SSC區域并延伸至IRb區域54 bp。ycf1完全位于G. macrophylla的SSC區域內(2,610 bp),而在其他八個物種中則跨越SSC/IR區域。
討論
本研究采用了一種綜合的多方法框架——結合了整個葉綠體基因組比較、密碼子使用分析、DNA條形碼和機器學習——以實現三個核心目標:闡明Gentiana Sect. Cruciata內的種間系統發育關系,揭示其質體中的同義密碼子使用偏好模式,并建立可靠的分子鑒定系統。以下討論在這些背景下解讀了主要發現。
結論
總之,本研究超越了描述性分析,從進化和應用的角度功能性地解釋了基因組模式。動態的葉綠體結構和密碼子使用模式反映了適應性進化策略,可能與高海拔環境和代謝需求有關。系統發育框架闡明了物種關系,而多基因位點條形碼評估結合機器學習,建立了可靠且高效的分子鑒定方法。
CRediT作者貢獻聲明
Mingchen Gao:可視化、驗證、軟件開發、調查。Mengdi Zheng:撰寫——審稿與編輯、撰寫——初稿、項目管理、方法論、資金獲取、概念構思。Xi Song:軟件開發、資源管理。Zeran Zhang:驗證、數據管理
未引用參考文獻
Beier等人,2017;中國藥典委員會,2020。
利益沖突聲明
作者聲明他們沒有已知的可能會影響本文研究的財務利益或個人關系。
數據可用性聲明
本研究中分析的九種Gentiana Sect. Cruciata物種的完整葉綠體基因組序列可在國家生物技術信息中心(NCBI)GenBank數據庫中公開獲取,訪問編號如下:G. officinalis(NC039574.1)、G. straminea(NC027441.1)、G. waltonii(MK780032.1)、G. tibetica(NC030319.1)、G. lhassica(NC059703.1)、G. macrophylla(NC035719.1)、G. dahurica(NC039572.1)、G. siphonantha(NC039573.1)和G. crassicaulis(NC027442.1)。資助
西安醫科大學2024年度科學技術能力提升專項計劃(2024NLTS122),以及西安醫科大學的2022年研究能力提升計劃項目(2022NLTS084)。利益沖突聲明
作者聲明他們沒有已知的可能會影響本文研究的財務利益或個人關系。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號