群體多樣性長讀長轉錄組揭示人類基因注釋存在祖源偏見
《Nature Communications》:Long-read transcriptomics of a diverse human cohort reveals ancestry bias in gene annotation
【字體:
大
中
小
】
時間:2025年12月04日
來源:Nature Communications 15.7
編輯推薦:
本期推薦一項發表于《Nature Communications》的重要研究。為解決當前人類基因注釋嚴重依賴歐洲祖源樣本、導致全球轉錄組多樣性表征不足的問題,研究團隊對43個來自8個不同人群的淋巴母細胞系進行長讀長RNA測序(lrRNA-seq),構建了跨祖源基因注釋集PODER。結果顯示,非歐洲人群的特有轉錄本在現有注釋中代表性嚴重不足,且使用個人基因組組裝可提升新轉錄本發現效率。該研究強調了構建包容性基因注釋框架對推進精準醫學和疾病機制研究的重要性。
在基因組學飛速發展的今天,準確的人類基因注釋是解讀遺傳變異、理解細胞功能及疾病機制的基礎。然而,當前廣泛使用的人類參考基因注釋(如GENCODE和RefSeq)主要基于歐洲祖源個體的轉錄組數據構建,這導致全球其他人群特有的轉錄本在注釋中嚴重缺失。隨著長讀長RNA測序(long-read RNA sequencing, lrRNA-seq)技術的成熟,科研人員能夠完整解析轉錄本結構,但此前大規模lrRNA-seq研究仍集中于歐洲樣本,加劇了注釋的祖源偏見。這種偏見可能影響非歐洲人群疾病相關遺傳變異的識別與機制解析,阻礙精準醫學的公平推進。
為系統評估并解決這一問題,由Pau Clavell-Revelles、Fairlie Reese等領銜的研究團隊在《Nature Communications》上發表了最新成果。該研究對43個來自非洲、亞洲、美洲和歐洲8個遺傳多樣性人群的淋巴母細胞系(lymphoblastoid cell lines, LCLs)進行了高通量lrRNA-seq,累計產生超8億條全長讀數。通過整合四種轉錄本發現工具(FLAIR、IsoQuant、ESPRESSO和LyRic),構建了跨祖源基因注釋集PODER(POPulation Diversity-Enhanced long-Read annotation),并利用群體特異性表達分析、等位基因特異性轉錄本使用(allele-specific transcript usage, ASTU)檢測、個人基因組映射等技術,全面評估了當前注釋的偏見程度及改進策略。
研究采用CapTrap建庫技術富集全長RNA,通過牛津納米孔技術(Oxford Nanopore Technologies)進行lrRNA-seq。數據分析階段,聯合使用注釋依賴型(FLAIR、IsoQuant、ESPRESSO)和注釋無關型(LyRic)工具發現轉錄本,并通過嚴格過濾(如最小樣本重復性、工具間再現性)得到高置信度轉錄本集。利用1000 Genomes Project(1000G)基因型數據構建個性化GRCh38基因組,評估單核苷酸多態性(SNP)對轉錄本發現的影響;同時整合人類泛基因組參考聯盟(Human Pangenome Reference Consortium, HPRC)的六個人基因組組裝,比較其與線性參考基因組(GRCh38、T2T)的轉錄本映射效率。
通過lrRNA-seq數據構建的PODER注釋包含155,875個高置信度轉錄本,其中41,297個為新型轉錄本(占26.5%),包括10,785個新型內部外顯子及476個新型基因。
與GTEx、ENCODE等大型轉錄組計劃相比,PODER獨有31,097個新型轉錄本(75.3%),凸顯其發現新轉錄本的能力。新型轉錄本多源于長鏈非編碼RNA(long non-coding RNA, lncRNA)和蛋白編碼基因,且新型外顯子區域的群體間遺傳分化指數(FST)更高,提示等位基因頻率差異可能影響外顯子注釋狀態。
研究發現,非歐洲樣本中新型轉錄本發現數量顯著高于歐洲樣本(p < 0.05),且群體特異性轉錄本(即在單一群體中至少兩個樣本獨有的轉錄本)在非歐洲群體中更富集于新型類別(如新型剪接連接點)。
通過Tau特異性指數分析,群體特異性發現的轉錄本在表達層面也呈現高群體特異性(τ ≥ 0.8),且該趨勢在獨立短讀長數據集(MAGE隊列)中得以驗證。
在等位基因特異性分析中,使用PODER或增強版GENCODE(GENCODE + PODER新型轉錄本)可顯著增加ASTU檢測基因數量,尤其在非歐洲樣本中提升更明顯(歐洲群體均值提升1.15倍,非歐洲群體1.24倍)。
ASTU顯著基因富集于系統性紅斑狼瘡、類風濕關節炎等自身免疫疾病及膽固醇代謝相關GWAS性狀,為非歐洲人群疾病易感性差異提供了機制線索。
使用樣本特異性單倍型個性化GRCh38基因組可平均多發現607個新型轉錄本(提升3.6%),其中44.4%的新型剪接連接點未被GRCh38發現的原因可歸咎于剪接位點或臨近區域的SNP。
雖然個人基因組中約5%區域為GRCh38未包含的非參考區,但這些區域轉錄活性低(基因密度<2轉錄本/Mb),且多位于重復序列區,提示其主要轉錄變異仍存在于共享基因組區域。
本研究通過構建群體多樣性lrRNA-seq資源,首次系統性揭示了人類基因注釋存在的歐洲中心偏見,并證明這種偏見會削弱非歐洲群體中遺傳效應(如ASTU)的檢測能力。利用個人基因組組裝或泛基因組圖可部分緩解該問題,但需開發適配lrRNA-seq的圖基因組工具以全面捕捉轉錄組多樣性。研究強調,擴大非歐洲人群在多組織、多發育階段的轉錄組數據覆蓋,是構建真正代表全人類轉錄多樣性的“人類全轉錄組”(pantranscriptome)的關鍵步驟,將為疾病機制研究和精準醫學的公平發展奠定基礎。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號