CellPolaris:基于遷移學(xué)習(xí)的基因調(diào)控網(wǎng)絡(luò)構(gòu)建框架指導(dǎo)細(xì)胞狀態(tài)轉(zhuǎn)換
《Advanced Science》:CellPolaris: Transfer Learning for Gene Regulatory Network Construction to Guide Cell State Transitions
編輯推薦:
本文推薦CellPolaris這一統(tǒng)一計(jì)算框架,它通過(guò)遷移學(xué)習(xí)利用預(yù)構(gòu)建的高置信度基因調(diào)控網(wǎng)絡(luò)(GRN),僅需轉(zhuǎn)錄組數(shù)據(jù)即可構(gòu)建組織或細(xì)胞類型特異性GRN,并實(shí)現(xiàn)轉(zhuǎn)錄因子(TF)中心調(diào)控網(wǎng)絡(luò)構(gòu)建、主導(dǎo)TF鑒定及TF擾動(dòng)模擬,為解析發(fā)育過(guò)程及細(xì)胞命運(yùn)轉(zhuǎn)換的調(diào)控機(jī)制提供了強(qiáng)大工具。
1 引言
生命發(fā)育過(guò)程由基因調(diào)控網(wǎng)絡(luò)(GRN)精心編排,其整合環(huán)境和細(xì)胞信號(hào)以指導(dǎo)生物過(guò)程。轉(zhuǎn)錄因子(TF)是這些GRN的核心節(jié)點(diǎn),它們以時(shí)空特異性方式結(jié)合靶基因(TG)的順式調(diào)控元件,精確調(diào)控細(xì)胞命運(yùn)決定,包括細(xì)胞分化和重編程。其中,某些在建立和維持細(xì)胞狀態(tài)中起決定性作用的TF被稱為主導(dǎo)TF。這些主導(dǎo)TF及其相應(yīng)GRN的調(diào)控機(jī)制在正常發(fā)育和疾病發(fā)病機(jī)制中均高度復(fù)雜且動(dòng)態(tài)變化。因此,破譯以TF為中心的GRN、識(shí)別主導(dǎo)細(xì)胞特性的TF以及預(yù)測(cè)TF擾動(dòng)對(duì)細(xì)胞狀態(tài)的影響是生命科學(xué)研究中關(guān)鍵且具有挑戰(zhàn)性的目標(biāo)。
在GRN構(gòu)建方面,染色質(zhì)免疫沉淀測(cè)序(ChIP-Seq)是分析特定TF-TG調(diào)控關(guān)系的可靠方法,但該方法無(wú)法重建全面的GRN,且實(shí)驗(yàn)過(guò)程費(fèi)時(shí)費(fèi)力。為克服這些限制,已開(kāi)發(fā)出從組學(xué)數(shù)據(jù)推斷GRN的計(jì)算方法,如GRNBoost2、SCENIC、ICAnet、DeepGRNCS、GNNLink和SimiC等。共表達(dá)分析方法通過(guò)捕捉轉(zhuǎn)錄組數(shù)據(jù)中的協(xié)變來(lái)推斷TF-TG調(diào)控關(guān)系。此外,整合表觀基因組數(shù)據(jù)(如ATAC-Seq)通過(guò)提供TF結(jié)合位點(diǎn)的信息增強(qiáng)了GRN推斷,例如PECA2、scREG、SCENIC+和DeepTFni等工具。在主導(dǎo)TF識(shí)別方面,常見(jiàn)策略是比較離散細(xì)胞狀態(tài)(如初始狀態(tài)和目標(biāo)狀態(tài))之間的GRN以 pinpoint 關(guān)鍵調(diào)控因子,如Mogrify、CellNet和ANANSE所實(shí)現(xiàn)的。另一種方法如CEFCON,則利用細(xì)胞命運(yùn)轉(zhuǎn)換的連續(xù)動(dòng)態(tài)來(lái)識(shí)別關(guān)鍵TF。在TF擾動(dòng)模擬方面,CellOracle整合了ATAC-Seq衍生的GRN與單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),以模擬TF擾動(dòng)對(duì)TG表達(dá)和細(xì)胞命運(yùn)的影響。盡管取得了這些進(jìn)展,但目前仍缺乏一個(gè)統(tǒng)一的框架,能夠使用戶僅需最少的輸入(如僅轉(zhuǎn)錄組數(shù)據(jù))即可高效執(zhí)行構(gòu)建細(xì)胞狀態(tài)特異性GRN、識(shí)別主導(dǎo)TF和預(yù)測(cè)擾動(dòng)效應(yīng)等任務(wù)。開(kāi)發(fā)這樣一個(gè)集成框架將極大促進(jìn)該領(lǐng)域的研究。
本研究提出了CellPolaris,一個(gè)用于闡明TF在發(fā)育過(guò)程中作用的統(tǒng)一框架,包括以TF為中心的GRN構(gòu)建、主導(dǎo)TF識(shí)別和TF擾動(dòng)模擬。CellPolaris的一個(gè)關(guān)鍵改進(jìn)是開(kāi)發(fā)了一個(gè)遷移學(xué)習(xí)模型,通過(guò)從大規(guī)模GRN中學(xué)習(xí)知識(shí),并將其轉(zhuǎn)移到僅需RNA-Seq數(shù)據(jù)的目標(biāo)情境中,從而推斷上下文特異性GRN。該模型使用通過(guò)PECA2從轉(zhuǎn)錄組數(shù)據(jù)和配對(duì)ATAC-Seq數(shù)據(jù)生成的不同情境下的高置信度GRN進(jìn)行訓(xùn)練。我們利用關(guān)鍵域訓(xùn)練(CDT)方法來(lái)減輕不同來(lái)源間TF對(duì)TG調(diào)控的偏移,從而增強(qiáng)從已知GRN到新情境的知識(shí)遷移。基準(zhǔn)測(cè)試證實(shí)了CellPolaris在GRN構(gòu)建中的可靠性。此外,整合跨物種GRN(如小鼠)可穩(wěn)定提高對(duì)人類細(xì)胞GRN的預(yù)測(cè)能力。
基于組織或細(xì)胞類型特異性GRN,我們?cè)O(shè)計(jì)了兩項(xiàng)下游任務(wù):預(yù)測(cè)主導(dǎo)細(xì)胞命運(yùn)轉(zhuǎn)換的TF以及模擬TF擾動(dòng)在發(fā)育過(guò)程中的影響。在不同的重編程情境中,CellPolaris預(yù)測(cè)的排名靠前的TF與成功實(shí)現(xiàn)重編程的因子組合高度重疊。對(duì)于擾動(dòng)模擬任務(wù),與先前使用預(yù)定義GRN的軟件不同,我們生成細(xì)胞類型特異性GRN,并使用概率圖模型(PGM)進(jìn)行計(jì)算機(jī)模擬TF敲除,以預(yù)測(cè)TG表達(dá)的變化。我們通過(guò)實(shí)際的Rfx2敲除實(shí)驗(yàn)驗(yàn)證了該模型,并證明CellPolaris在與功能相似的最新工具比較中展現(xiàn)出部分優(yōu)勢(shì)。
2 結(jié)果
2.1 CellPolaris的設(shè)計(jì)與組織
為開(kāi)發(fā)一個(gè)用于構(gòu)建以TF為核心的GRN、識(shí)別控制細(xì)胞命運(yùn)轉(zhuǎn)換的主導(dǎo)TF以及模擬TF擾動(dòng)對(duì)細(xì)胞狀態(tài)影響的統(tǒng)一框架,我們提出了CellPolaris模型。該模型包含兩個(gè)核心模塊:一個(gè)生成組織或細(xì)胞類型特異性GRN的遷移學(xué)習(xí)模型模塊,以及一個(gè)GRN依賴的下游任務(wù)模塊,用于預(yù)測(cè)對(duì)細(xì)胞特性至關(guān)重要的主導(dǎo)TF和模擬發(fā)育過(guò)程中的TF擾動(dòng)。
GRN構(gòu)建面臨兩大挑戰(zhàn):獲取轉(zhuǎn)錄組學(xué)之外的多模態(tài)數(shù)據(jù)成本高昂,以及難以利用來(lái)自不同組織或時(shí)期的現(xiàn)有知識(shí)來(lái)構(gòu)建新情境下的GRN。為解決這些問(wèn)題,我們利用配對(duì)的RNA-Seq和ATAC-Seq數(shù)據(jù)構(gòu)建了一個(gè)以TF為中心的高置信度GRN數(shù)據(jù)庫(kù)。然后,我們通過(guò)整合來(lái)自不同細(xì)胞狀態(tài)的先驗(yàn)GRN知識(shí),構(gòu)建了一個(gè)遷移學(xué)習(xí)模型,該模型允許僅使用批量或單細(xì)胞RNA-Seq表達(dá)矩陣作為輸入,即可推斷跨不同組織和狀態(tài)的GRN。接下來(lái),我們利用這些推斷出的GRN執(zhí)行兩項(xiàng)不同的下游任務(wù):1)通過(guò)提取細(xì)胞狀態(tài)間的差異GRN來(lái)預(yù)測(cè)參與細(xì)胞命運(yùn)轉(zhuǎn)換的主導(dǎo)TF。2)通過(guò)構(gòu)建帶有調(diào)控權(quán)重的PGM來(lái)模擬基于GRN的計(jì)算機(jī)TF擾動(dòng)。
2.2 通過(guò)遷移學(xué)習(xí)構(gòu)建GRN
CellPolaris能夠泛化不同組織和細(xì)胞狀態(tài)的GRN。作為模型訓(xùn)練的基礎(chǔ),首先使用PECA2利用配對(duì)的RNA-Seq和ATAC-Seq數(shù)據(jù)生成高置信度GRN。基于此多模態(tài)數(shù)據(jù)集,我們?yōu)閬?lái)自不同組織和發(fā)育時(shí)期的88個(gè)小鼠和68個(gè)人類批量數(shù)據(jù)源構(gòu)建了GRN,以及為40個(gè)小鼠和14個(gè)人類單細(xì)胞來(lái)源構(gòu)建了細(xì)胞類型特異性GRN。數(shù)據(jù)庫(kù)中的每個(gè)源被視為一個(gè)域。
利用這些預(yù)先存在的GRN,我們構(gòu)建了一個(gè)GRN生成器,用于推斷所有TF-TG對(duì)的基因調(diào)控分?jǐn)?shù)。不同域之間的基因表達(dá)水平和TF-TG調(diào)控關(guān)系存在差異;這將導(dǎo)致域?qū)χg的特征分布存在差距。接下來(lái),我們引入了一個(gè)遷移學(xué)習(xí)模型,該模型使用關(guān)鍵域訓(xùn)練(CDT)策略,可以將GRN生成器泛化到新的、未見(jiàn)過(guò)的轉(zhuǎn)錄組數(shù)據(jù)。該策略的核心思想是動(dòng)態(tài)地橋接最不相似域之間的表達(dá)關(guān)系。這些域?qū)χg較大的分布差距使得獲取跨不同域的不變知識(shí)具有挑戰(zhàn)性。因此,我們動(dòng)態(tài)地強(qiáng)調(diào)對(duì)這些關(guān)鍵域的優(yōu)化。通過(guò)最小化分布差距,我們的目標(biāo)是減少整體域差異,從而提高模型在不同數(shù)據(jù)分布上的泛化能力。我們計(jì)算了特征空間中任意兩個(gè)域之間的距離,并選擇距離最遠(yuǎn)的前百分之σ的域作為關(guān)鍵域。這些域存在較大的域偏移,阻礙了對(duì)泛化至關(guān)重要的域不變知識(shí)的學(xué)習(xí)。在識(shí)別關(guān)鍵域后,我們使用Mixup策略進(jìn)行數(shù)據(jù)增強(qiáng),以減少關(guān)鍵域之間的距離。對(duì)來(lái)自兩個(gè)不同域的樣本對(duì)進(jìn)行線性插值,從而生成整合了兩個(gè)域知識(shí)的新樣本,并減少了分布差距。經(jīng)過(guò)多輪動(dòng)態(tài)選擇關(guān)鍵域、數(shù)據(jù)增強(qiáng)和泛化后,模型最終收斂。
2.3 GRN遷移模型的性能
為了評(píng)估我們泛化模型的性能,我們使用數(shù)據(jù)庫(kù)中的GRN對(duì)其進(jìn)行訓(xùn)練,并將其與三種流行的域泛化方法進(jìn)行比較:域?qū)股窠?jīng)網(wǎng)絡(luò)(DANN)、Mixup和Ours-MMD(使用CDT的最大均值差異)。DANN引入對(duì)抗性訓(xùn)練目標(biāo)以學(xué)習(xí)跨域的不變知識(shí)。隨機(jī)Mixup涉及在隨機(jī)域樣本之間進(jìn)行線性插值。Ours-MMD采用廣泛使用的最大均值差異(MMD)而不是在關(guān)鍵域之間進(jìn)行混合。我們采用R2分?jǐn)?shù)來(lái)評(píng)估模型預(yù)測(cè)的TF-TG調(diào)控強(qiáng)度值與PECA2產(chǎn)生的值之間的相關(guān)性。這有助于確定回歸擬合的有效性。我們的模型在比較遷移后的GRN與數(shù)據(jù)庫(kù)中可用的高置信度GRN時(shí),實(shí)現(xiàn)了約95%的網(wǎng)絡(luò)相關(guān)性(R2)。該比較是在使用人和小鼠單細(xì)胞數(shù)據(jù)的不同細(xì)胞類型上進(jìn)行的。跨各種性能指標(biāo)(包括均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)和受試者工作特征曲線下面積(AUROC))的評(píng)估表明,我們的模型性能略優(yōu)于或與其他三種模型相當(dāng)。我們還比較了模型預(yù)測(cè)的與PECA2生成的特定單細(xì)胞群體中相同數(shù)量的排名靠前的調(diào)控關(guān)系。比較顯示,兩種方法之間大約67-77%的調(diào)控關(guān)系是一致的。總體而言,這些結(jié)果證明了我們僅使用轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建組織或細(xì)胞類型特異性GRN方法的有效性和泛化能力。
隨后,我們?cè)u(píng)估了使用小鼠批量RNA-Seq數(shù)據(jù)跨不同組織和時(shí)期預(yù)測(cè)GRN的準(zhǔn)確性。我們將每個(gè)組織視為一個(gè)域,并采用留一法設(shè)置。將一個(gè)組織留出作為目標(biāo)測(cè)試域,而其余非相似組織用作訓(xùn)練源域。該模型在預(yù)測(cè)跨不同組織的GRN時(shí),總體性能超過(guò)90%(AUROC),在預(yù)測(cè)跨不同時(shí)期的GRN時(shí)超過(guò)95%。
原則上,我們的遷移模型支持跨物種遷移。為了解決跨物種GRN遷移問(wèn)題,我們基于Mixup策略引入了一種外推Mixup(extra_mixup)方法。結(jié)果表明,整合小鼠心臟來(lái)源的GRN顯著提高了CellPolaris構(gòu)建的人類心臟GRN中心臟特異性TF-TG調(diào)控關(guān)系的排名,從而識(shí)別出更多由心臟表達(dá)TF特異性調(diào)控的靶基因。此外,我們發(fā)現(xiàn)增加來(lái)自外部物種的器官數(shù)量進(jìn)一步增強(qiáng)了CellPolaris的整體性能,而不會(huì)顯著增加假陽(yáng)性TF-TG關(guān)系的比例。總之,我們的結(jié)果表明CellPolaris在使用轉(zhuǎn)錄組數(shù)據(jù)預(yù)測(cè)組織或細(xì)胞類型特異性GRN方面是可靠的。
最后,我們通過(guò)將模型生成的GRN與現(xiàn)有GRN推斷方法(包括CellOracle、GENIE3、GRNBoost2、SCENIC、DeepGRNCS、SimiC和ICAnet)生成的GRN進(jìn)行比較,評(píng)估了我們模型的性能。我們使用RegNetwork、TRUUST和ChIP-Atlas數(shù)據(jù)庫(kù)作為TF-TG調(diào)控對(duì)的黃金標(biāo)準(zhǔn)。最初,我們使用ChIP-Atlas數(shù)據(jù)庫(kù)分析了4種細(xì)胞類型中6個(gè)TF的靶基因,觀察到CellPolaris的平均AUROC為0.78,而其他方法的平均AUROC范圍為0.54至0.59。此外,我們?cè)u(píng)估了總共5種細(xì)胞類型中的16個(gè)TF,使用TRUUST和RegNetwork數(shù)據(jù)庫(kù)對(duì)這些方法進(jìn)行基準(zhǔn)測(cè)試。Recall分?jǐn)?shù)也表明CellPolaris優(yōu)于其他方法。
2.4 細(xì)胞命運(yùn)轉(zhuǎn)換過(guò)程中潛在主導(dǎo)TF的預(yù)測(cè)
主導(dǎo)TF在細(xì)胞命運(yùn)轉(zhuǎn)換中的作用已得到充分證實(shí)。為了在重編程情境中搜索潛在的主導(dǎo)TF,我們分析了源細(xì)胞和目標(biāo)細(xì)胞類型之間GRN的變化,而不僅僅是考慮TF的差異表達(dá)。我們?yōu)橹鼐幊踢^(guò)程中的源細(xì)胞和目標(biāo)細(xì)胞構(gòu)建了組織或細(xì)胞類型特異性GRN。通過(guò)過(guò)濾掉源GRN和我們的GRN數(shù)據(jù)庫(kù),識(shí)別出目標(biāo)細(xì)胞類型特異性差異GRN。接下來(lái),我們根據(jù)以下四個(gè)指標(biāo)對(duì)差異GRN中的TF進(jìn)行排名:它們?cè)谠醇?xì)胞和目標(biāo)細(xì)胞中的表達(dá)倍數(shù)變化、下游靶基因的數(shù)量、靶基因的加權(quán)平均倍數(shù)變化(以差異網(wǎng)絡(luò)中的TRS分?jǐn)?shù)加權(quán))以及TF的特征向量中心性,后者代表了其靶基因在GRN結(jié)構(gòu)中的重要性,可以看作是信息在整個(gè)圖中傳遞達(dá)到穩(wěn)態(tài)時(shí)節(jié)點(diǎn)的得分。我們使用三個(gè)先前報(bào)道的重編程和轉(zhuǎn)分化系統(tǒng)驗(yàn)證了我們的預(yù)測(cè)。我們的結(jié)果表明,重編程因子的多數(shù)組合都包含在排名靠前的TF列表中。在每個(gè)細(xì)胞命運(yùn)轉(zhuǎn)換系統(tǒng)中,排名前10的TF大多數(shù)已被報(bào)道能夠增強(qiáng)重編程效率或可以用于不同組合的重編程。尚未報(bào)道的TF通常位于與主導(dǎo)TF相同的基因家族中,提示功能補(bǔ)償。最后,幾個(gè)排名靠前的TF可能調(diào)控了源細(xì)胞和目標(biāo)細(xì)胞之間超過(guò)10%的差異表達(dá)基因,表明它們?cè)谥鼐幊踢^(guò)程中的重要性。
總體而言,我們證明了我們的策略在某些重編程系統(tǒng)中搜索主導(dǎo)TF的適用性,它可以提供一個(gè)候選主導(dǎo)TF列表,以增強(qiáng)細(xì)胞命運(yùn)重編程。
2.5 圓形精子細(xì)胞分化過(guò)程中TF擾動(dòng)的模擬
除了預(yù)測(cè)主導(dǎo)TF,GRN還可用于預(yù)測(cè)發(fā)育過(guò)程中TF擾動(dòng)的效應(yīng)。可以利用單細(xì)胞的向量場(chǎng)來(lái)模擬分化過(guò)程中TF擾動(dòng)的效應(yīng)。因此,我們構(gòu)建了一個(gè)概率圖模型(PGM)來(lái)模擬單細(xì)胞水平的TF擾動(dòng)。首先,對(duì)scRNA-Seq數(shù)據(jù)進(jìn)行聚類分析,并將每個(gè)聚類中的細(xì)胞轉(zhuǎn)換為偽批量數(shù)據(jù),用于遷移聚類特異性GRN。將得到的GRN與scRNA-Seq數(shù)據(jù)整合,通過(guò)考慮整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)基因間的條件分布參數(shù),構(gòu)建一個(gè)PGM。基于該模型,我們通過(guò)將TF的表達(dá)設(shè)為零來(lái)預(yù)測(cè)下游TG的變化。最后,我們采用與CellOracle類似的策略來(lái)估計(jì)TF擾動(dòng)對(duì)細(xì)胞發(fā)育過(guò)程的影響。
通過(guò)重新分析圓形精子細(xì)胞分化的scRNA-Seq數(shù)據(jù),我們構(gòu)建了一個(gè)分化軌跡。我們測(cè)量了兩個(gè)已報(bào)道調(diào)控圓形精子細(xì)胞分化的轉(zhuǎn)錄因子Crem和Hoxa4的效應(yīng)。與報(bào)道結(jié)果一致,敲除這兩個(gè)TF均逆轉(zhuǎn)了圓形精子細(xì)胞的分化軌跡并抑制了其分化。我們的預(yù)測(cè)結(jié)果與CellOracle線性回歸模型的結(jié)果一致。隨后,我們識(shí)別了參與圓形精子細(xì)胞分化的TF,其中大多數(shù)在三個(gè)階段都很重要。值得注意的是,這些基因中許多的缺失會(huì)導(dǎo)致動(dòng)物模型中的早期發(fā)育停滯。因此,我們的模型有助于指導(dǎo)研究基因在晚期發(fā)育過(guò)程中的功能。
總之,為了模擬TF擾動(dòng),我們通過(guò)整合遷移的GRN和單細(xì)胞RNA-Seq數(shù)據(jù)建立了一個(gè)PGM。通過(guò)模擬圓形精子細(xì)胞分化中的TF擾動(dòng)評(píng)估了該模型的性能。預(yù)測(cè)結(jié)果與基因敲除動(dòng)物模型的結(jié)果一致。
2.6 模擬和驗(yàn)證Rfx2敲除對(duì)圓形精子細(xì)胞發(fā)育的影響
接下來(lái),我們使用CellPolaris模擬了Rfx2的敲除,該基因已知對(duì)圓形精子細(xì)胞發(fā)育至關(guān)重要。預(yù)測(cè)結(jié)果顯示,Rfx2敲除導(dǎo)致圓形精子細(xì)胞發(fā)育的早期阻斷,這與CellOracle的預(yù)測(cè)一致。為了全面展示我們的預(yù)測(cè)與CellOracle預(yù)測(cè)的比較,我們構(gòu)建了在圓形精子細(xì)胞發(fā)育階段Rfx2缺陷的小鼠模型。與先前報(bào)道一致,敲除Rfx2導(dǎo)致小鼠精子發(fā)生異常。為了評(píng)估精子細(xì)胞的發(fā)育停滯時(shí)期,我們使用了花生凝集素(PNA)標(biāo)記技術(shù),該技術(shù)可以區(qū)分精子發(fā)育的不同階段。PNA染色的弧長(zhǎng)隨著圓形精子細(xì)胞的進(jìn)展而逐漸增加,為其發(fā)育進(jìn)程提供了度量。值得注意的是,結(jié)果顯示Rfx2敲除導(dǎo)致PNA分布呈點(diǎn)狀模式,支持了Rfx2敲除導(dǎo)致圓形精子細(xì)胞發(fā)育早期阻斷的預(yù)測(cè)。
在更詳細(xì)的分析中,我們檢查了CellPolaris預(yù)測(cè)的Rfx2在圓形精子細(xì)胞發(fā)育過(guò)程中的下游TG,并通過(guò)Rfx2敲除轉(zhuǎn)錄組數(shù)據(jù)識(shí)別出4個(gè)負(fù)向和26個(gè)正向TG。與這些預(yù)測(cè)一致,在正向調(diào)控的TG中,有7個(gè)在Rfx2敲除轉(zhuǎn)錄組數(shù)據(jù)中下調(diào),變化倍數(shù)大于2。此外,在四個(gè)負(fù)向調(diào)控基因中,有三個(gè)在Rfx2敲除轉(zhuǎn)錄組中上調(diào)。同時(shí),65%(17/26)的正向調(diào)控基因在敲除樣本中顯示出下降趨勢(shì)。相比之下,當(dāng)檢查CellOracle預(yù)測(cè)的正向和負(fù)向調(diào)控TG時(shí),預(yù)測(cè)的準(zhǔn)確性低于CellPolaris。特別是在Rfx2敲除樣本中表達(dá)上調(diào)超過(guò)兩倍的基因中,CellOracle預(yù)測(cè)有6個(gè)基因被下調(diào)。在Rfx2敲除樣本中表達(dá)下調(diào)超過(guò)兩倍的基因中,CellOracle預(yù)測(cè)有6個(gè)基因被Rfx2正向調(diào)控。
3 討論
破譯TF在發(fā)育過(guò)程中的作用是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。在本研究中,我們提出了CellPolaris,一個(gè)統(tǒng)一的框架,旨在執(zhí)行以TF為中心的GRN構(gòu)建、主導(dǎo)TF識(shí)別和發(fā)育過(guò)程中的TF擾動(dòng)模擬。對(duì)于GRN構(gòu)建,一個(gè)遷移學(xué)習(xí)模型通過(guò)利用訓(xùn)練過(guò)程中現(xiàn)有的高置信度GRN,從RNA-Seq數(shù)據(jù)生成組織或細(xì)胞類型特異性GRN。與現(xiàn)有的僅使用轉(zhuǎn)錄組的軟件(如GENIE3和GRNBoost2)相比,CellPolaris展示了一定程度的性能提升。此外,與其他工具(如PECA2、SCENIC+和DeepTFni)相比,CellPolaris在模型訓(xùn)練完成后,進(jìn)行GRN推斷時(shí)不依賴于轉(zhuǎn)錄組數(shù)據(jù)之外的額外信息。
一些基于單細(xì)胞數(shù)據(jù)的基礎(chǔ)模型已經(jīng)被開(kāi)發(fā)出來(lái),包括GeneCompass、scGPT、Geneformer和scFoundation。CellPolaris生成的GRN可以作為這些大模型預(yù)訓(xùn)練過(guò)程的先驗(yàn)生物學(xué)知識(shí),例如通過(guò)施加軟約束。同時(shí),我們框架的一個(gè)優(yōu)勢(shì)是其可擴(kuò)展性,允許擴(kuò)展高置信度GRN訓(xùn)練集以增強(qiáng)CellPolaris的性能。
對(duì)于基于概率圖模型的擾動(dòng)預(yù)測(cè)任務(wù),我們的方法與CellOracle相比,在整個(gè)網(wǎng)絡(luò)上學(xué)習(xí)參數(shù),而不僅僅是部分網(wǎng)絡(luò)。該方法充分利用了網(wǎng)絡(luò)的完整性,并使用了單細(xì)胞水平的基因表達(dá)。最近的研究,如使用Spectra和expiMap的研究,已經(jīng)證明了在基因程序水平進(jìn)行擾動(dòng)預(yù)測(cè)的可行性。將這些方法與我們的模型整合可能會(huì)提高TG表達(dá)變化預(yù)測(cè)的準(zhǔn)確性。
CellPolaris的未來(lái)增強(qiáng)也是必要的。雖然遷移學(xué)習(xí)方法對(duì)于GRN構(gòu)建是有效的,但通過(guò)將其適用性擴(kuò)展到人類和小鼠之外,特別是到親緣關(guān)系較遠(yuǎn)的物種(其中跨物種GRN遷移仍然具有挑戰(zhàn)性),可以加強(qiáng)其能力。除了RNA-Seq,其他模態(tài)如ATAC-Seq正變得越來(lái)越容易獲取。因此,在未來(lái)支持GRN遷移學(xué)習(xí)的靈活輸入模態(tài)將是至關(guān)重要的。目前,預(yù)測(cè)主導(dǎo)TF的模塊僅對(duì)與細(xì)胞命運(yùn)轉(zhuǎn)換相關(guān)的因子進(jìn)行排名。未來(lái)的更新可能會(huì)給出能更有效影響這些轉(zhuǎn)換的TF組合。此外,擾動(dòng)模擬模塊受到PGM節(jié)點(diǎn)大小限制的約束,隨著GRN復(fù)雜性的增加會(huì)降低計(jì)算效率。在后續(xù)開(kāi)發(fā)中實(shí)施并行計(jì)算策略可能提供一種可行的解決方案來(lái)提高性能。
總之,我們開(kāi)發(fā)了CellPolaris,一個(gè)旨在利用轉(zhuǎn)錄組數(shù)據(jù)闡明TF在發(fā)育過(guò)程中作用的框架。該框架為理解細(xì)胞命運(yùn)調(diào)控和發(fā)育的潛在機(jī)制提供了寶貴的見(jiàn)解,為GRN分析及相關(guān)領(lǐng)域的未來(lái)進(jìn)展鋪平了道路。