《Environment International》:Development of an integrative cross-omics approach for conceptual adverse outcome pathway network construction
編輯推薦:
本文介紹了一種創新的生物信息學流程,用于整合高通量轉錄組和代謝組數據,旨在解決多組學數據融合的挑戰,為代謝綜合征(MetS)構建概念性不良結局通路網絡(cAOPN)。該研究結合了單變量差異表達(UD)分析與多變量整合模型(MIM),并利用SGBS人脂肪前體細胞暴露于經典致肥物三丁基錫(TBT)的實驗數據,揭示了與脂質調控、鐵轉運、細胞信號及代謝紊亂相關的分子機制,為系統性地解析復雜疾病的致病通路提供了新的方法論框架,有助于支持風險評估和政策決策。
隨著科學技術的進步,生命科學研究進入了一個“大數據”時代。特別是組學(Omics)技術,如基因組學、轉錄組學、代謝組學等,能夠在一次實驗中產生海量的生物信息。這就像我們擁有了一張描繪生命活動細節的、無比精細的地圖。但是,地圖本身并不能告訴我們一條從起點到終點的具體路徑,也無法解釋疾病是如何一步步發生的。這正是當前生物信息學面臨的核心挑戰:如何將這些龐雜、異構的數據整合起來,轉化成可理解、可利用的知識,特別是用于預測化學物質或環境暴露可能帶來的不良健康效應。
在此背景下,不良結局通路(Adverse Outcome Pathway, AOP)及其網絡(AOPN)的概念應運而生。AOP提供了一個框架,旨在描繪從一個分子起始事件(Molecular Initiating Event, MIE,如化學物質與靶點結合)開始,引發一系列關鍵事件(Key Events, KEs,如信號通路改變、細胞功能紊亂),最終導致一個不良結局(Adverse Outcome, AO,如疾病)的因果鏈條。然而,現實中的疾病,尤其是像代謝綜合征(Metabolic Syndrome, MetS)這樣的復雜系統性疾病,往往不是單一線性路徑所能概括的。它們更像是錯綜復雜的交通網絡,涉及多條通路的交互、匯合與反饋。目前,AOP的開發面臨諸多瓶頸:現有AOP多是定性的線性路徑,難以反映網絡的復雜性;從多層面組學數據構建AOP的方法有限;從分子擾動推斷出具有方向性的因果關系尤為困難。
為了攻克這些難題,一項發表在《Environment International》上的研究,提出并驗證了一套新穎的、自上而下的“概念性AOP網絡(cAOPN)”構建方法。研究人員聚焦于全球患病率高達40%以上的代謝綜合征,選擇了一個經典的“致肥物”——三丁基錫(Tributyltin, TBT)作為模型脅迫因子,利用人辛普森-戈爾比-貝梅爾綜合征(Simpson-Golabi-Behmel syndrome, SGBS)脂肪前體細胞系,來模擬早期化學暴露對脂肪細胞分化與功能的長期影響。他們創造性地將單變量統計分析與多變量整合模型相結合,對暴露組和對照組的轉錄組與代謝組數據進行了深度挖掘與融合分析,最終構建出一個描繪TBT暴露如何通過多機制網絡導致MetS相關疾病表型的cAOPN,為系統性疾病的機制解析和風險評估提供了全新的方法論工具。
為了完成這項研究,作者團隊主要采用了以下關鍵技術方法:首先,利用SGBS脂肪前體細胞進行體外培養和分化,并在分化初期(d0-d4)暴露于25 nM濃度的TBT,模擬早期生命暴露窗口,于分化第10天(d10)收集樣本。其次,運用安捷倫(Agilent)微陣列芯片進行全基因組轉錄組分析,以及高效液相色譜-高分辨質譜(HPLC-HRMS/QTOF)聯用技術進行非靶向代謝組學分析,分別獲取基因表達和代謝物豐度數據。最后,開發了一套基于R語言的計算分析流程,核心包括:1)采用單變量差異表達(Univariate Differential expression, UD)分析(如limma包)和多變量整合建模(Multivariate Integrative Modeling, MIM)分析(如DIABLO方法)識別擾動特征(Perturbed Features, PFs,包括差異表達基因DEGs和差異表達代謝物DEMs);2)對PFs進行通路富集分析(Over-Representation Analysis, ORA)和疾病關聯分析(利用KEGG、Reactome、DisGeNET等數據庫);3)利用igraph包進行網絡分析,可視化PFs-通路-疾病的關聯;4)基于Jaccard相似性指數進行層次聚類分析,依據PFs的表達指紋(指紋)相似性對通路和疾病進行聚類,以推斷事件發生的可能順序。
3.1. 體外分析
研究人員證實,在SGBS脂肪細胞分化早期(d0-d4)進行短期TBT暴露,足以在暴露停止6天后(d10)仍能持續上調脂肪生成標志物(如PLIN1和FABP4)并增加脂質積累,表明早期致肥物暴露具有持久的影響,成功再現了先前研究的核心表型,為后續分子機制分析提供了可靠的生物學基礎。
3.2. 線性回歸與多變量整合建模分析
通過UD分析,共識別出1059個注釋明確的差異表達基因(DEGs)和25個差異表達代謝物(DEMs)。而通過MIM分析(DIABLO方法),則從跨組學數據中提取了30個基因和3個代謝物作為最具整合信號的特征。兩種方法共同識別出一些關鍵分子,如轉谷氨酰胺酶2(TGM2)和多種磷脂酰膽堿(Phosphatidylcholines, PCs),暗示了它們在TBT誘導代謝紊亂中的可能作用。
3.3. 網絡分析
將UD和MIM分析得到的PFs映射到通路和疾病數據庫后,分別構建了關聯網絡。UD分析的網絡規模更大,突出了與炎癥/細胞應激反應、激素信號、膽固醇和脂質積累相關的高度關聯特征和疾病(如高脂血癥、高血壓)。MIM分析雖然特征數少,但其網絡揭示了在細胞粘附、酶活性和代謝方面的潛在核心驅動因子。兩種方法共同識別出左心室肥厚和高甘油三酯血癥等疾病,以及脂聯素信號通路、脂肪酸生物合成等22條共同通路,顯示了方法間的互補性。
3.4. 聚類分析
基于Jaccard相似性的層次聚類分析,將具有相似擾動特征表達譜的通路和疾病聚在一起,為事件序列提供了可視化線索。例如,UD分析結果中,“膽固醇代謝”、“脂肪酸和脂蛋白在肝細胞中的轉運”等通路與“黃瘤病”疾病被聚在同一簇;“HIF-1信號通路”、“AGE-RAGE信號通路”與“心臟驟停”聚在一起。這種聚類關系為構建具有方向性的cAOP提供了數據驅動的排序依據。
3.5. 概念性不良結局網絡
最終,研究人員整合UD分析的結果,構建了一個針對MetS的cAOPN。該網絡提出了三個主要的分子起始事件:PPARγ上調、生長過程失調(通過IGF1和LEP下調、GHR上調)以及細胞穩態失調。這些MIE引發了一系列關鍵事件,最終導向多種與MetS相關的疾病結局,包括心臟結局(心臟驟停)、脂質紊亂(內臟性肥胖、黃瘤病)、前驅糖尿病指標(胰島素抵抗)和肝臟疾病(酒精性脂肪肝)。值得注意的是,網絡中還提示了骨代謝紊亂的可能性。
在討論與結論部分,研究強調了所提出方法的創新性與重要意義。首先,該方法是對傳統“自下而上”(從單一機制開始驗證)AOP開發模式的重要補充。它提供了一種“自上而下”的高通量假說生成與優先排序工具,能夠從復雜的多組學數據中,系統地梳理出潛在的、網絡化的致病軌跡藍圖,尤其適用于像MetS這樣的多因素系統性疾病。其次,通過結合UD(廣度)和MIM(深度與整合)兩種統計方法,并輔以網絡分析和基于Jaccard相似性的聚類,該流程能夠更全面地捕捉生物信號,并將統計關聯重組為具有潛在時序性的生物學事件序列。盡管當前分析基于單時間點、單劑量的實驗數據,尚不能確立嚴格的因果關系,但其通過“生物三角驗證”(與已有文獻和通路數據庫比對)確保了所發現機制的合理性。
該研究也指出了現有AOP知識庫(如AOP-Wiki)在MetS等復雜疾病覆蓋面上的不足,凸顯了此類數據驅動方法在填補知識空白方面的價值。此外,研究證實了脂肪細胞作為一種“哨兵”細胞類型的潛力,其分子擾動能夠反映出遠超出脂肪組織本身的系統性健康效應。最后,作者明確表示,這套方法學框架旨在為后續更深入、更耗時耗資源的劑量-反應研究和時間序列研究提供優先方向和假設基礎,而非做出最終因果斷言。它代表了在整合異質大數據、邁向可解釋的系統毒理學和預測健康風險評估道路上的重要一步。