《Molecular Oncology》:Subtype-specific enhancer RNAs define transcriptional regulators and prognosis in breast cancers
編輯推薦:
本研究運用機器學習算法,對乳腺癌患者的RNA測序(RNA-seq)數據進行分析,鑒定了具有分子亞型特異性和預后價值的增強子RNA(eRNA)。通過將亞型特異性eRNA與鄰近共表達的mRNA關聯,定義了關鍵調控網絡(ProxCReAms),揭示了各亞型特有的關鍵轉錄因子(如核受體、FOX家族因子)和信號通路。該工作強調了基于eRNA的表達譜分析在識別乳腺癌上游調控網絡、理解腫瘤異質性及評估患者預后方面的重要潛力。
引言:乳腺癌的異質性與增強子RNA的調控角色
乳腺癌是一種高度異質性的疾病,根據雌激素受體(ER)、孕激素受體(PR)和人表皮生長因子受體-2(Her2)的表達狀態,可被劃分為不同的分子亞型,如管腔A型(LumA)、管腔B型(LumB)、Her2型和基底樣型。這些亞型在治療反應和患者預后上存在顯著差異,凸顯了在分子水平上進行分層的必要性;虮磉_受到稱為增強子的順式調控元件的精密控制,活躍的增強子會轉錄產生非編碼RNA,即增強子RNA(eRNA)。eRNA的表達是轉錄因子活性的早期指標,并與癌癥患者的治療反應和生存期相關。盡管已有泛癌癥研究鑒定出一些eRNA,但在高度異質的乳腺癌中,基于亞型對eRNA進行系統性分類及其功能關聯的研究仍不充分。本研究旨在利用機器學習方法,從大量乳腺癌患者的RNA-seq數據中,鑒定亞型特異性和預后相關的eRNA,并探索其調控網絡。
材料與方法:數據整合與機器學習分析框架
研究團隊從TCGA eRNA圖譜(TCeA)平臺下載了1095個乳腺癌患者樣本的eRNA表達數據集,這些數據基于Hnisz等人從H3K27ac染色質免疫沉淀測序(ChIP-seq)數據集中鑒定出的302,951個增強子位點。經過異常值過濾,最終975個腫瘤樣本的數據用于后續分析。為了識別亞型特異性eRNA,研究采用了兩種測量方法對eRNA表達的RPKM值進行處理:信息增益(InfoGain,基于k-means二值化)和對數均值中心化(Logmc,連續值)。隨后使用隨機森林(random forest)算法進行亞型分類,并評估分類效能。通過主成分分析(PCA)和UMAP進行降維可視化。此外,利用峰值集富集于基因集(PEGS)分析,將亞型特異性eRNA與同樣通過InfoGain方法鑒定的亞型特異性mRNA進行關聯,定義出鄰近共表達調控性eRNA(ProxCReAm,即與mRNA相關聯的鄰近共表達調控eRNA)及其配對關系。研究還整合了Cistrome平臺的轉錄因子ChIP-seq數據進行結合富集分析,利用TCGA-BRCA隊列的ATAC-seq數據進行基序富集分析,并通過KAS-seq(酮氧輔助單鏈DNA測序)在MCF7細胞中驗證增強子活性。生存分析采用Kaplan-Meier曲線和log-rank檢驗,并與已發表的Perturb-seq數據集進行整合,以驗證eRNA的功能相關性。
結果
3.1 亞型特異性eRNA的鑒定
研究發現,基于InfoGain和Logmc兩種測量方法,機器學習模型都能有效鑒定出乳腺癌的亞型特異性eRNA。其中,InfoGain方法鑒定了更多eRNA,并且其分類性能指標(如對基底樣型的敏感性和對Her2型的精確度)略優于Logmc方法。PCA和UMAP可視化顯示,基于eRNA的表達譜能夠清晰區分基底樣型和管腔型患者,但無法進一步區分LumA和LumB亞型。Her2型患者的eRNA表達譜介于管腔型和基底樣型之間。有趣的是,無論采用哪種測量方法,均未能有效區分浸潤性導管癌和小葉癌的組織學亞型。熱圖和層次聚類分析進一步顯示,InfoGain方法鑒定的基底樣型高表達eRNA在基底樣型患者中高表達,在管腔型患者中低表達,反之亦然,形成了清晰的表達模式。相比之下,Logmc方法鑒定的eRNA表達模式更為混雜。因此,研究后續聚焦于InfoGain定義的eRNA進行深入分析。
3.2 定義鄰近共表達的eRNA-mRNA對(ProxCReAms)
研究同時鑒定了亞型特異性mRNA。與eRNA相比,mRNA在區分LumA和LumB亞型上表現稍好。通過PEGS分析,將亞型特異性eRNA與其1 Mb基因組距離內的亞型特異性mRNA進行關聯,定義了ProxCReAm eRNA-mRNA對。約81.45%的亞型特異性eRNA能以這種方式與mRNA關聯。特別值得注意的是,盡管單獨使用eRNA難以區分導管癌和小葉癌,但將低閾值下鑒定出的大量eRNA與mRNA關聯后得到的ProxCReAm eRNA,能夠更有效地區分這兩種組織學亞型。與這些小葉癌特異性ProxCReAm對相關的mRNA富集了與染色體16q缺失(包含腫瘤抑制因子CDH1)、腫瘤外周區上調基因(與侵襲性相關)等通路,提示增強子重編程可能驅動了小葉癌的侵襲性和耐藥性。
3.3 ProxCReAm eRNA與亞型特異性基因通路關聯
通路富集分析表明,ProxCReAm eRNA所關聯的mRNA顯著富集于各亞型的特征性通路。例如,基底樣型高表達eRNA關聯的通路包括基底樣特異性通路、Wnt/β-連環蛋白信號等;管腔A型eRNA關聯的通路則富含ER靶基因和管腔上調通路;Her2型eRNA關聯的通路涉及ERBB2擴增子相關基因。通過整合ATAC-seq、H3K27ac ChIP-seq、CAGE和GRO-seq等多組學數據,驗證了這些eRNA位點確實位于染色質開放、具有雙向轉錄活性的活躍增強子區域。有趣的是,盡管這些區域活躍,但雌激素受體(ER)的結合位點并不完全與eRNA位點中心重合,有時相距250-1000 bp。對Her2基因座附近eRNA的三維基因組(Hi-C)分析顯示,這些eRNA區域位于同一拓撲關聯域(TAD)內,可能通過染色質環化共同調控ERBB2等關鍵基因。
3.4 亞型特異性eRNA與關鍵轉錄因子及表觀遺傳調控因子的關聯
通過整合Cistrome的ChIP-seq數據,研究發現不同亞型的ProxCReAm eRNA位點顯著富集了不同的轉錄因子和表觀調控因子結合;讟有透弑磉_eRNA區域富集了TRIM28、H2AZ、EZH2、SPI1、MYB、CHD8等因子。管腔A型eRNA區域則顯著富集了糖皮質激素受體(GR)、芳香烴受體(AHR)、染色質重塑復合物亞基SMARCA4、CREBBP、HIF1A以及FOXA2/FOXO1等forkhead結構域蛋白,但ER本身并不顯著富集。Her2型eRNA區域富集了GR、HOXB7、ZNF384等因子。對eRNA側翼可及染色質區域(ATAC-seq峰)的轉錄因子結合基序分析進一步支持了上述發現:管腔型區域富集FOX和Ets相關因子基序;基底樣型區域富集RAR、AP1(Jun)、STAT、NF-κB等基序。為驗證管腔型eRNA的ER非依賴性,研究在MCF7細胞中進行了KAS-seq實驗,發現最強的單鏈DNA信號(代表活躍轉錄)和GRO-seq雙向轉錄信號區域,其ER結合信號反而較弱,這支持了活躍的增強子轉錄不一定與ER直接結合的觀點。
3.5 InfoGain衍生的eRNA具有預后價值
生存分析顯示,管腔A型特異性eRNA高表達的患者總生存期更好,這與ER陽性患者預后較好的已知現象一致。基底樣型和Her2型特異性eRNA的表達水平與患者總生存期無顯著關聯。然而,當專注于Her2亞型患者并根據其生存狀態(存活vs.死亡)重新進行機器學習分類時,InfoGain方法鑒定出了一組342個預后相關的Her2 eRNA。這組eRNA的高表達與Her2患者較差的預后顯著相關,其鄰近基因富集于細胞粘附/連接通路,暗示了上皮-間質轉化在不良預后中的作用。
3.6 亞型/預后特異性eRNA的功能驗證
通過整合已發表的Perturb-seq數據(在ER+和ER-乳腺癌細胞系中進行CRISPRi增強子擾動后的單細胞RNA-seq),研究驗證了部分鑒定出的eRNA的功能相關性。盡管重疊的增強子數量有限,但部分管腔A型和基底樣型特異性eRNA所在的擾動增強子,確實能影響下游基因表達。這些基因富集于IL-2/STAT5信號、雌激素反應、TNF-α信號等與各亞型生物學特性相關的通路。例如,一個與LumB相關的擾動增強子可影響EMID1基因的表達,該基因促進細胞增殖和轉移。
討論
本研究強調了在異質性癌癥中,先進行分子分型再鑒定生物標志物的重要性。機器學習方法,特別是基于二值化表達的InfoGain測量,能有效鑒定出具有亞型特異性和預后價值的eRNA。通過構建ProxCReAm eRNA-mRNA對,研究不僅將增強子活性與下游基因功能聯系起來,還揭示了各亞型特有的上游轉錄調控網絡。一個關鍵發現是,在管腔型乳腺癌的活躍增強子中,除ER外,其他核受體(如GR、AHR)和FOX家族先鋒因子可能扮演更重要角色。此外,盡管傳統RNA-seq主要捕獲多聚腺苷酸化的轉錄本,但基于大量樣本分析的eRNA信號仍足以揭示高活性的調控框架。研究也指出了當前基于polyA捕獲的RNA-seq在探測不穩定eRNA方面的局限性,未來利用KAS-seq等新興技術直接檢測新生轉錄本將提供更全面的圖譜。對浸潤性小葉癌的分析表明,整合低表達閾值的eRNA與mRNA,能幫助解析其獨特的侵襲性相關網絡。最后,本研究鑒定的預后相關eRNA與先前泛癌癥研究發現的eRNA重疊很少,進一步說明了分型研究的必要性。
結論
總而言之,本研究證明了在乳腺癌中,基于機器學習的eRNA表達譜分析能夠鑒定出具有亞型特異性、預后價值及功能相關性的增強子-基因調控網絡。這種方法為利用臨床上易獲取的RNA-seq數據,揭示腫瘤異質性背后的關鍵轉錄因子和表觀遺傳驅動因素,并開發潛在的預后生物標志物和治療靶點,提供了新的途徑。