實驗室大鼠前額葉皮層Hi-C測序數據的構建及其在三維基因組研究中的應用價值
《Scientific Data》:Hi-C sequencing data from frontal cortex of laboratory rats
【字體:
大
中
小
】
時間:2025年12月05日
來源:Scientific Data 6.9
編輯推薦:
本研究針對大鼠三維基因組結構研究數據的缺乏,利用Hi-C技術對10種不同品系大鼠前額葉皮層進行測序,獲得了高質量的染色質空間互作圖譜。該數據集為大鼠基因組組裝、結構變異檢測和基因調控機制研究提供了重要資源,可與其他組學數據整合推動大鼠模型在復雜性狀研究中的應用。
在基因組學研究領域,染色質的空間三維結構正日益受到重視。傳統基因組學研究主要關注DNA的線性序列信息,然而在細胞核內,染色質通過復雜的折疊和盤繞形成特定的三維構象,這種空間組織方式對基因調控具有至關重要的影響。遠距離的調控元件如增強子需要通過染色質環化與靶基因啟動子發生物理接觸,從而精確控制基因表達。理解染色質的三維結構對于揭示發育、疾病等生命過程的分子機制具有重要意義。
高通量染色體構象捕獲(Hi-C)技術是研究三維基因組結構的強大工具。該技術通過交聯固定染色質空間結構,利用限制性內切酶切割和連接反應,將空間上鄰近的DNA片段連接在一起,再通過高通量測序識別這些相互作用。Hi-C數據不僅可用于構建全基因組范圍的染色質互作圖譜,還能應用于基因組組裝、結構變異檢測和染色質環分析等多個領域。
盡管Hi-C技術在小鼠和人類研究中已廣泛應用,但在大鼠這一重要模式生物中,高質量的Hi-C數據仍然缺乏。大鼠作為生物醫學研究的經典模型,在神經科學、心血管疾病和藥物成癮等研究中具有不可替代的價值。特別是雜交大鼠多樣性 panel(HRDP)資源,包含多種近交系和重組近交系,為系統遺傳學研究提供了理想平臺。然而,大鼠三維基因組數據的缺失限制了研究人員對染色質空間結構與表型變異關系的深入探索。
針對這一問題,由Panjun Kim、Rachel R. Ward、Burt M. Sharp、Robert W. Williams和Hao Chen組成的研究團隊在《Scientific Data》上發表了題為"Hi-C sequencing data from frontal cortex of laboratory rats"的數據描述文章。該研究通過對10種不同遺傳背景的大鼠品系前額葉皮層組織進行Hi-C測序,構建了高質量的三維基因組數據集,為推進大鼠基因組學研究提供了寶貴資源。
研究方法主要包括樣本制備、Hi-C文庫構建和數據分析三個關鍵環節。研究人員從雜交大鼠多樣性 panel(HRDP)中選取了10個代表性品系,包括SHR/Olalpcv、BN-Lx/Cub等9個近交系和1個F1雜交系(SHR/Olalpcv × BN/NHsdMcwi)。所有大鼠在標準實驗室條件下飼養,未接受任何行為或藥物處理,確保數據的基線可靠性。在139天平均年齡時,通過異氟烷過量麻醉實施安樂死,快速取出腦組織并立即冷凍保存。
Hi-C文庫制備采用Arima Hi-C+試劑盒方案,每個樣本使用約50mg皮層組織。組織在液氮中粉碎后,按照標準流程進行交聯、酶切和連接反應。文庫構建使用KAPA Hyper Prep試劑盒,在Covaris S2儀器上進行片段化,片段大小通過Agilent Bioanalyzer確認在200-600bp之間。最終文庫使用Illumina平臺進行雙端測序,平均每個樣本產生約6.23億條讀長。
數據分析采用Juicer流程(v1.6),以大鼠參考基因組mRatBN7.2/rn7為基準。流程包括三個主要步驟:使用BWA-MEM(v0.7.17)進行讀長比對;過濾無效讀長(未比對、嵌合模糊讀長);去除PCR和光學重復,生成最終的非冗余數據集。在此基礎上,生成兩種嚴格度的接觸矩陣:inter.hic文件(MapQ≥1)和inter_30.hic文件(MapQ≥30),后者僅包含唯一比對讀長,用于下游分析。
數據集通過NIH短讀長檔案(SRA)公開,登錄號為PRJNA1197090。數據分為三組:雜交大鼠多樣性 panel重組近交系親本的4只個體、5個重組近交系和1個F1雜交系。存儲格式為fastq.gz的原始測序數據,文件大小從17.5GB到67.3GB不等,滿足不同研究需求。
數據質量評估顯示,該Hi-C數據集整體質量優異,符合或超過Arima Genomics的基準建議。平均每個樣本產生6.23億個讀長對,其中僅1.31%未能比對到參考基因組。可比對讀長中,41.30%為正常配對,57.40%為嵌合讀長。在嵌合讀長中,47.34%可唯一定位,10.06%為模糊比對。去除重復后,63.98%的讀長對用于分析,其中77.68%通過MapQ≥30的嚴格過濾,平均每個樣本獲得2.97億個高質量接觸對。
進一步分析顯示,染色體間接觸占17.6%,染色體內接觸占82.4%。染色體內接觸中,短程相互作用(<20kb)和長程相互作用(>20kb)分別占38.6%和43.8%。這些指標與推薦標準高度吻合:未比對讀長低于6%(推薦<6%)、模糊嵌合讀長低于20%(推薦<20%)、可比對讀長超過80%(推薦>80%)、染色體間接觸比例接近20%(推薦~20%),表明數據集適用于三維基因組結構和功能基因組學深入研究。
這項研究提供的Hi-C數據集具有多方面重要意義。首先,它填補了大鼠三維基因組數據的空白,為基因組組裝和結構變異檢測提供了資源。利用染色質空間接近信息,可以改進contig排序和定向,提高基因組連續性和準確性,特別適用于多倍體物種或單倍型定相。同時,結構變異如缺失、重復、插入、倒位和易位會改變預期的染色質互作模式,這些特征性變化可作為識別變異類型和位置的標志。
其次,數據集有助于解析染色質環化和基因調控機制。染色質環將遠端調控元件如增強子與基因啟動子拉近,在基因表達調控中發揮核心作用。結構蛋白CTCF和cohesin通過結合特定DNA基序穩定這些相互作用,Hi-C數據可全基因組范圍識別這些重要互作。
第三,數據集可與雜交大鼠多樣性 panel(HRDP)的其他組學數據整合,實現系統遺傳學分析。HRDP包含基因組、轉錄組和表型數據,支持復雜性狀的高分辨率定位和可重復研究。整合Hi-C數據有助于揭示染色質三維結構如何介導遺傳變異與表型關聯,尤其在行為、生理和疾病研究中。
此外,研究的方法學優化為類似工作提供了參考。通過大量故障排除,確定了最佳組織輸入量(50mg)和片段選擇方法(雙面篩選),避免使用磁力96孔板導致珠子丟失。這些經驗對提高Hi-C實驗成功率具有實用價值。
綜上所述,該研究產生的Hi-C數據集質量高、品系多樣、可公開獲取,為大鼠基因組學研究提供了重要資源。預計將促進大鼠基因組組裝完善、結構變異發現和調控架構解析,并可與其他組學數據整合,推動這一經典模式生物在生物醫學研究中的應用。數據集的高質量和技術可靠性使其成為研究三維基因組結構與功能關系的寶貴工具,有望在神經科學、疾病機制和藥物開發等領域發揮重要作用。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號