《Neural Networks》:Inferring Gene Regulatory Networks via Adversarially Regularized Directed Graph Autoencoder
編輯推薦:
基因調控網(wǎng)絡推斷方法研究,提出基于對抗訓練的圖自動編碼器ARDGA,通過結構矩陣捕捉一階和二階近鄰關系,設計定向消息傳遞模塊,結合源目標編碼器與Wasserstein距離對抗訓練策略,有效處理復雜拓撲和非獨立同分布數(shù)據(jù),在DREAM5和多個scRNA-seq數(shù)據(jù)集上驗證優(yōu)于現(xiàn)有基線方法。
龍凱夫|辛俊昌|曲 lu xu an|王明燦|李建妮|王志瓊
東北大學計算機科學與工程學院,中國遼寧省沈陽市 110819
摘要
揭示完整的基因調控網(wǎng)絡(GRNs)對于深入理解生物過程非常重要。盡管已經(jīng)提出了許多 GRN 推理方法,但這些方法不僅難以處理 GRNs 的復雜拓撲結構,也沒有考慮到基因表達數(shù)據(jù)的非同分布特性。為了解決上述問題,我們提出通過對抗性正則化有向圖自動編碼器(ARDGA)來推斷 GRNs。首先,基于鄰接矩陣計算兩個結構矩陣,這些矩陣包含了第一階和第二階的鄰近性信息,以捕捉 GRNs 的復雜拓撲結構。其次,利用這些結構矩陣開發(fā)了一個新穎的消息傳遞模塊。基于該模塊,部署源編碼器和目標編碼器來學習不同鄰域中每個節(jié)點的源向量和目標向量,從而利用第一階和第二階的鄰近性聚合豐富的鄰域信息。第三,為了保持基因表達數(shù)據(jù)的生物統(tǒng)計特性,通過對抗性訓練策略將目標向量規(guī)范化為原始數(shù)據(jù)的先驗分布。最后,將源向量和目標向量輸入解碼器以推斷 GRNs。在 DREAM5 數(shù)據(jù)集和七個單細胞 RNA 測序(scRNA-seq)數(shù)據(jù)集上的廣泛實驗表明,ARDGA 的性能優(yōu)于最近的強基線方法,取得了有競爭力的結果。代碼可公開獲取于:
https://github.com/longkf/ARDGA。
引言
一個基因的表達水平受到其他基因表達的影響,而復雜的 GRNs 由眾多基因的相互作用組成,這些基因在生命活動的每個周期中都起著重要作用(Badia-i Mompel 等人,2023;Qiao 等人,2020)。通過理解 GRNs 的整體情況,可以加速疾病診斷和藥物開發(fā)的研究進展,為揭示生物現(xiàn)象和促進生命科學研究提供新的視角(Farrow 等人,2022)。由于基因數(shù)量眾多且 GRNs 的拓撲結構復雜,直接通過高成本的生物實驗獲得其完整結構是不切實際的(Karlebach 和 Shamir,2008)。得益于微陣列技術的快速發(fā)展,逆向工程應運而生,旨在利用基因表達數(shù)據(jù)來推斷 GRNs(Huang 等人,2009;Karlebach 和 Shamir,2008)。盡管與生物實驗相比,逆向工程更加經(jīng)濟便捷,但在應用中仍面臨兩個主要挑戰(zhàn):(1)GRNs 作為有向圖具有稀疏和無標度特性;(2)基因表達數(shù)據(jù)通常不滿足獨立同分布的假設。盡管一些回歸模型(Huynh-Thu 等人,2010;Moerman 等人,2019)或貝葉斯網(wǎng)絡模型(Xin 等人,2024;Xuan Vinh 等人,2012)試圖緩解上述問題,但它們面臨預測精度有限或計算復雜性過高的問題,這使得圖神經(jīng)網(wǎng)絡(GNNs)逐漸成為推斷 GRNs 的更合理選擇。由于 GNNs 具有獨特的歸納偏差,它們能夠更有效地處理圖結構數(shù)據(jù)(Han 和 Kang,2026)。正如卷積神經(jīng)網(wǎng)絡(CNNs)假設信息的空間定位一樣,GNNs 的歸納偏差假設圖中一個節(jié)點的表示不僅依賴于其自身特征,還依賴于與其連接的節(jié)點的特征。因此,通過遞歸聚合和更新相鄰節(jié)點的信息,GNNs 能夠捕捉節(jié)點之間的依賴關系。
推斷 GRNs 可以被視為在有向圖上進行鏈接預測,旨在從不完整的圖結構和節(jié)點數(shù)據(jù)中推斷潛在的鏈接。鏈接預測方法大致可以分為基于節(jié)點的方法(Chen 和 Liu,2022;Mao 等人,2023)和基于子圖的方法(Wang 等人,2020;Zhang 和 Chen,2018)。基于節(jié)點的方法通過圖自動編碼器(GAEs)(Kipf 和 Welling,2016)學習每個節(jié)點的向量,并通過解碼器重構網(wǎng)絡(Kipf 和 Welling,2017)。然而,與僅依賴于單個節(jié)點表示的節(jié)點分類任務不同,鏈接預測涉及鏈接或節(jié)點集的表示。基于這一思想,SEAL(Zhang 和 Chen,2018)提取目標鏈接的封閉子圖,確定應在該子圖上使用的啟發(fā)式規(guī)則,并將子圖映射到邊的存在概率。由于能夠捕獲更豐富的結構特征,基于子圖的方法比基于節(jié)點的方法取得了更好的結果。然而,其主要缺點是從不同目標鏈接中提取的封閉子圖不同,這導致需要為每個子圖分別訓練 GNN,從而帶來了難以承受的計算復雜性,限制了基于子圖的方法在大規(guī)模圖中的應用,并使其在現(xiàn)實世界場景中更具挑戰(zhàn)性。因此,一種更合理的方法是將更多結構信息納入基于節(jié)點的方法中,以在預測精度和計算復雜性之間取得平衡。
盡管基于 GNN 的現(xiàn)有方法可以有效處理節(jié)點之間的相關性,但基因表達數(shù)據(jù)的非同分布特性尚未得到充分考慮。已有研究調查了癌癥基因組圖譜(Cancer Genome Atlas)中三種不同腫瘤類型中表達分布異常的基因(De Torrenté 等人,2020)。研究發(fā)現(xiàn),所有基因中不到 50% 的表達數(shù)據(jù)遵循正態(tài)分布,而剩余數(shù)據(jù)符合柯西分布、伽馬分布等多種形式(De Torrenté 等人,2020)。一些變分方法通常假設所有樣本數(shù)據(jù)遵循正態(tài)分布,這與基因表達數(shù)據(jù)的特性相反,可能導致性能下降。因此,如何建模這種生物統(tǒng)計特性成為一個難題。生成對抗網(wǎng)絡(GANs)(Goodfellow 等人,2014)在計算機視覺領域取得了顯著成功,并被廣泛用于解決數(shù)據(jù)分布匹配問題(Gui 等人,2021;Wang 等人,2025)。GAN 通過生成器以偽造方式生成樣本,并通過批評者確定輸入樣本是來自先驗分布還是生成器。然而,GAN 的訓練過程容易不穩(wěn)定。現(xiàn)有理論表明,不穩(wěn)定的訓練源于損失函數(shù)中使用了 f-散度家族。當兩個度量具有不重疊的支持集時,f-散度表現(xiàn)出不連續(xù)性(Ali 和 Silvey,1966),這使得 GAN 訓練容易遇到梯度消失或梯度爆炸等問題。相比之下,Wasserstein 距離在測量任意兩個分布之間的距離時是連續(xù)的,并且?guī)缀跆幪幙晌ⅲ瑸閮?yōu)化生成器提供了有效的梯度指導。因此,Wasserstein GAN(Arjovsky 等人,2017;Gulrajani 等人,2017)比 GANs 更穩(wěn)定,為在非同分布的基因表達數(shù)據(jù)下規(guī)范化潛在表示提供了一種原則性的方法,解決了 GRN 推理中的分布不匹配問題。
為了解決上述問題,本文提出通過對抗性正則化有向圖自動編碼器來推斷 GRNs。首先,GRNs 的拓撲結構非常復雜,捕獲更多結構信息有利于鏈接預測。為此,ARDGA 基于鄰接矩陣計算兩個結構矩陣,每個矩陣包含有向圖的一階和第二階鄰近性。其次,設計了一個新的消息傳遞模塊,通過結構矩陣對節(jié)點向量進行規(guī)范化,以便有效地將復雜的拓撲信息編碼到節(jié)點向量中。基于該模塊,部署源編碼器和目標編碼器分別學習不同鄰域中每個節(jié)點的源向量和目標向量。當節(jié)點充當源節(jié)點或目標節(jié)點時,可以使用不同的向量來推斷網(wǎng)絡。這提高了模型的表達能力,同時有助于預測調控邊的方向。第三,為了保持數(shù)據(jù)的生物統(tǒng)計特性,隨機選擇一部分原始基因表達數(shù)據(jù)作為先驗分布,在每次前向傳播時輸入到批評者中。訓練后,批評者輸出目標向量與先驗分布之間的 1-Wasserstein 距離,從而將目標向量規(guī)范化為正確的先驗分布。最后,將源向量和目標向量一起輸入解碼器以推斷 GRNs。在 DREAM5 挑戰(zhàn)賽和七個 scRNA-seq 數(shù)據(jù)集上的廣泛實驗結果表明,ARDGA 的性能顯著優(yōu)于其他強基線方法,是一種強大的 GRNs 推理方法。
相關工作
隨著生物檢測技術的不斷進步,基因表達數(shù)據(jù)的量呈指數(shù)級增長(Heller,2002)。為了更好地處理和分析這些海量數(shù)據(jù),開發(fā)高效便捷的計算方法變得尤為重要。這些計算方法可以大大提高數(shù)據(jù)處理的速度和準確性,并為生物信息學等領域的研究提供有力支持。
符號說明
GRNs 可以表示為有向圖。給定一個有向圖 ,其中 V 是 n = |V| 個圖節(jié)點的集合, 是 m = |E| 條有向邊的集合。從線性代數(shù)的角度來看,(V, E) 被表示為一個 n?×?n 稀疏鄰接矩陣 A,由 如果 e?∈?E,否則為 0。出度矩陣 是一個對角矩陣,由
數(shù)據(jù)集和基線
我們在 DREAM5 挑戰(zhàn)賽和七個 scRNA-seq 數(shù)據(jù)集上測試了 ARDGA 的性能,這些數(shù)據(jù)集包含四種類型的真實網(wǎng)絡。DREAM5 數(shù)據(jù)集中有四個網(wǎng)絡,包括一個模擬網(wǎng)絡和三個來自金黃色葡萄球菌(S. aureus)、大腸桿菌(E. coli)和釀酒酵母(S. cerevisiae)的真實網(wǎng)絡。DREAM5 數(shù)據(jù)集的詳細信息見表 2。此外,我們還使用了 BEELINE 提供的包含七種細胞類型的 scRNA-seq 數(shù)據(jù)集。
結論
我們提出了一種新的方法 ARDGA 來推斷 GRNs,通過聯(lián)合訓練有向圖自動編碼器和 Wasserstein 對抗性正則化來提高預測精度。首先,基于鄰接矩陣計算兩個結構矩陣,以捕獲第一階和第二階的鄰近性。其次,使用這些結構矩陣設計了一個有向消息傳遞模塊。基于該模塊,部署源編碼器和目標編碼器來學習來自不同鄰域的源向量和目標向量。
CRediT 作者貢獻聲明
龍凱夫:撰寫 – 審稿與編輯,撰寫 – 原稿,軟件,方法論,概念化。辛俊昌:監(jiān)督,資源,項目管理。曲 lu xu an:撰寫 – 審稿與編輯,數(shù)據(jù)管理,概念化。王明燦:可視化,驗證,數(shù)據(jù)管理。李建妮:可視化,數(shù)據(jù)管理。王志瓊:監(jiān)督,項目管理,資金獲取。
利益沖突聲明
作者聲明他們沒有已知的競爭性財務利益或個人關系可能會影響本文報告的工作。
致謝
本工作得到了國家自然科學基金(62432003)和中央高校基本科研業(yè)務費(N25BJD013)的支持。