《Neurocomputing》:ACVAE: An attention-based contrastive variational autoencoder for identifying ASD subgroups and their association with gene expression
編輯推薦:
基于高階時空連接性的注意力對比變分自編碼器模型研究,揭示自閉癥譜系障礙(ASD)亞組特征及與基因表達關聯。通過整合ABIDE數據集的靜息態fMRI動態連接性矩陣,構建ACVAE模型分離ToM、DMN、CEN、SN網絡的高階協變模式,成功識別與臨床亞型(ATD/APD/PDD)匹配的三個ASD亞組(F1=0.88),并驗證其與Allen腦圖譜基因表達譜的關聯性。首次實現神經影像與基因組學的跨模態亞組劃分。
Km Bhavna|Shubham Sharma|Alfredo Rosado-Mu?oz
印度拉賈斯坦邦焦特布爾印度理工學院計算機科學與工程系,342037
摘要 自閉癥譜系障礙(ASD)的特點是社交認知、互動、溝通能力受損,行為受限以及感覺異常。功能性磁共振成像(fMRI)研究表明,心智理論(ToM)網絡、默認模式網絡(DMN)、中央執行網絡(CEN)和顯著性網絡(SN)與ASD有關。該疾病的多樣臨床表現使得診斷和治療變得復雜,因此需要更深入地了解其異質性。本研究旨在從靜息態fMRI數據中識別新的特征,以確定ASD樣本中的亞群。我們提出了一種基于注意力的對比變分自編碼器(ACVAE)模型,利用ToM、DMN、CEN和SN網絡之間的高階邊緣連接性(時空連接性)來識別ASD亞群。通過使用自閉癥腦成像數據交換(ABIDE)數據集,我們分析了靜態、動態和時空功能連接性,以理解大腦拓撲結構。我們的方法成功識別出了三個ASD亞群及其與基因表達的關聯。我們將功能連接性矩陣與基因表達譜整合起來,探討生物學基礎,研究fMRI衍生的模式與與ASD相關功能紊亂的關鍵基因之間的共變關系。這種整合方法架起了神經影像學和基因組學之間的橋梁,為理解ASD的異質性和潛在生物標志物提供了見解。據我們所知,這是首次使用ACVAE結合高階連接性特征和基因表達整合來揭示ASD亞群的研究。
引言 自閉癥譜系障礙(ASD)是一種普遍存在的神經系統疾病,其特征是社交溝通能力和互動能力不足,以及重復性行為和感覺異常[8]、[10]。根據先前的研究[6]、[8]、[35]、[44],使用fMRI發現,自閉癥主要影響與心智理論(ToM)網絡、默認模式網絡(DMN)、中央執行網絡(CEN)和顯著性網絡(SN)等特定大腦網絡相關的社交認知、互動和溝通能力[9]。在過去幾十年中,自閉癥的診斷已經從一種局限于幼兒的罕見疾病轉變為一種具有終身挑戰的廣泛性障礙。目前,超過1%的兒童被診斷出患有自閉癥,其表現出高度的多樣性,意味著沒有兩個ASD患者的表型是完全相同的[39]。ASD患者在生物學和行為特征上表現出多層次的異質性[32],包括遺傳[5]、[23]、神經系統[25]、[30]和臨床表型[39]。ASD患者的臨床特征存在差異,這些差異體現在多個維度上,如社交技能、溝通能力、語言能力、癥狀出現年齡、智力功能[21]、性別差異[7]、[26]、[34]、[56]、執行功能[24]以及發育史[38]、[47]。因此,ASD通常被視為多個譜系的集合,而不僅僅是一個單一的表型。許多臨床醫生和研究人員認為,它由多個亞群或多維節點組成,這些亞群或分類有助于理解該疾病的成因和管理[30]、[37]、[54]。然而,這些亞群尚未得到充分的認識和定義。在過去的幾十年里,一些研究[15]、[22]、[36]、[45]、[68]試圖通過分析某些行為或認知特征來識別ASD的亞類別。先前的研究[30]根據MRI標記將ASD分為三個獨特的解剖亞群:ASD-I,其特征是皮層厚度增加和表面積增大;ASD-II,其特征是皮層變薄和距離減;ASD-III,其特征是距離增大。其他研究[50]在ASD內識別出三種主要情況:自閉癥障礙(ATD)、阿斯伯格障礙(APD)和未另行指定的廣泛性發育障礙(PDD)[20]。在文獻[14]、[15]、[36]、[37]、[54]中報道,基于神經影像學生物標志物識別神經生理亞群可以改善對ASD異質性的理解,從而實現更精確的診斷和針對性治療。
深度學習模型通過使用大規模神經影像數據集(如ABIDE數據集[17])在識別ASD亞群方面做出了顯著貢獻。特別是卷積神經網絡(CNNs)和循環神經網絡(RNNs)被應用于靜息態fMRI(rs-fMRI)和結構MRI數據,根據功能連接性和皮層特征對ASD及其亞群進行分類[29]、[63]、[67]。這些深度學習方法結合了多模態數據融合技術、元學習策略和可解釋性框架,以提高ASD亞型的分類準確性并增強臨床應用[48]。利用ABIDE的數據集進行的研究探索了特征提取技術,如圖卷積網絡(GCNs)來模擬大腦連接模式,以及無監督聚類方法來揭示ASD內的潛在亞群[46]。先前的研究[29]使用自編碼器學習神經影像數據的潛在表示,主要關注默認模式網絡(DMN)、中央執行網絡(CEN)和顯著性網絡(SN)等大腦網絡,從而基于功能連接性區分ASD亞群。盡管取得了有希望的發現,但數據異質性、不同掃描地點之間的領域差異以及標記亞群的有限可用性等問題限制了這些模型的通用性[1]。
在上述研究中,以往的研究側重于使用結構化特征集或功能連接性作為特征集,或基于行為評分使用深度學習方法識別ASD人群中的異質性[21]、[30]、[53]。需要一個能夠理解ASD人群復雜大腦拓撲結構的獨特特征集。為了克服這些挑戰,本研究提出了以下研究問題:a) 新特征集的識別:如何為靜息態fMRI數據識別一個獨特的特征集,以提高對ASD樣本中異質性的識別能力?b) 模型架構:如何提出一個更好解釋性和通用性的模型架構,以理解高階相關特征集(時空連接性)的表示?
在這項研究中,我們假設邊緣連接性——代表ToM、DMN、CEN和SN大腦網絡之間的高階相關性——可以作為基于注意力的對比變分自編碼器(ACVAE)模型的獨特特征集,從而無需專門的特征工程即可識別ASD樣本中的亞群(圖1)。我們還假設邊緣連接性可以作為識別ASD亞型與基因表達之間關聯的特征集。我們將這種邊緣連接性稱為時空連接性(STC)。選擇時空連接性的原因是靜態功能連接性(SFC)和動態功能連接性(dFC)的局限性。SFC提供了大腦區域之間的平均相關性,但忽略了對認知和行為至關重要的瞬態波動,而dFC使用滑動窗口捕獲時變相關性,但忽略了高階交互。為了解決這個問題,我們提出了時空連接性,它量化了大腦區域之間dFC波動隨時間的變化。與SFC和dFC不同,時空連接性揭示了分布式網絡中的協調動態,通過整合空間連接性和時間變化提供了更全面的大腦組織視圖。在這項研究中,我們考慮了ABIDE I和ABIDE II數據集。本研究的主要貢獻如下:
1. 我們選擇了ToM、DMN和SN大腦網絡,這些網絡已被確定為自閉癥的關鍵網絡[13]、[53]。為了提取基于邊緣連接性的特征集作為高階相關特征集,我們為每個個體計算了時空連接性(STC)矩陣,從上述網絡中提取時間序列信號,并使用滑動窗口方法計算dFC流[3]。我們將每個功能連接(FC)鏈接視為連接兩個區域的動態變量。最后,我們提取了不同動態變量鏈接的時間序列之間的N(N-1)-times-N(N-1)協方差矩陣。我們將這種類型的互連協方差矩陣稱為時空連接性。
2. 我們使用基于注意力的對比變分自編碼器(ACVAE)模型識別ASD亞群或ASD人群中的異質性,其中一個編碼器捕獲全局連接模式,而另一個編碼器關注局部細粒度變化。雙編碼器框架中的注意力機制選擇性地權衡了相關的連接特征,增強了模型區分ToM、DMN、CEN和SN網絡之間有意義的高階相關性的能力。通過動態優先處理關鍵連接,注意力機制細化了潛在表示,提高了ASD亞群的聚類效果,同時減少了噪聲和無關特征。
3. 我們將臨床確定的亞群,即ATD、APD和PDD,作為經過驗證的亞群類別。我們將ATD視為ASD亞群1,APD視為ASD亞群2,PDD視為ASD亞群3。使用這些臨床亞群作為標簽,我們評估了發現的亞群是否與已建立的類別一致,準確率為90%,F1分數為0.88。
4. 最后,為了識別ASD亞型與基因表達之間的關聯,我們使用Allen人類腦圖譜(AHBA)[28]、[64]、[65]、[66]進行了基因表達分析,以研究與ASD相關的基因。
小節片段 時空連接性矩陣的計算 在本研究中,我們從ToM、DMN、CEN和SN大腦網絡中提取了時間序列信號,并為每個個體計算了功能連接性矩陣。FC矩陣具有獨特的對稱性,盡管它們的N值很大,但只有少量的唯一條目,代表了矩陣的下三角部分。我們還計算了dFC流,其輸出是一個大小為 的3D張量,其中F是幀數。我們根據文獻[27]選擇了20秒的窗口大小。
討論 自閉癥譜系障礙(ASD)是一種影響社交認知、溝通和互動能力的神經發育障礙。ASD研究中的一個主要挑戰是識別ASD樣本中的隱藏亞群,因為該疾病的異質性[2]、[49]、[57]、[61]。為了解決這個問題,我們的研究使用時空連接性矩陣作為高階相關矩陣來識別不同的ASD亞群。我們提出了一種基于注意力的對比變分自編碼器
結論 在這項研究中,我們使用時空連接性矩陣作為高階相關矩陣來捕捉ASD樣本中的異質性。與假設連接穩定的SFC或僅捕獲短期變化的dFC不同,時空連接性整合了時間波動。為了識別ASD樣本中的亞群,我們提出了基于注意力的對比變分自編碼器(ACVAE)模型。ACVAE中的自注意力機制有助于關注最重要的
CRediT作者貢獻聲明 Km Bhavna: 撰寫——原始草稿、可視化、驗證、軟件、資源、項目管理、方法論、正式分析、數據管理、概念化。Shubham Sharma: 撰寫——原始草稿、驗證、方法論、正式分析、概念化。Alfredo Rosado-Mu?oz: 撰寫——原始草稿、可視化、驗證、監督、資源。
利益沖突聲明 作者聲明他們沒有已知的財務利益或個人關系可能會影響本文報告的工作。
致謝 我們衷心感謝所有參與數據收集和分析的參與者及研究人員。我們還要感謝印度理工學院焦特布爾分校提供的必要資源和計算設施。特別感謝我們的同事和導師們提供的寶貴見解和討論,這些都有助于完善我們的方法論。
Km Bhavna 目前擔任印度科塔印度信息科技學院的助理教授。她獲得了印度理工學院焦特布爾分校的博士學位。她的研究興趣包括人工智能、深度學習、用于心理健康的人工智能框架以及認知神經科學。她的工作重點是開發智能計算模型,以理解認知過程并支持心理健康評估。