綜述:利用時空單細胞轉錄組數據解析細胞命運軌跡
《npj Systems Biology and Applications》:Deciphering cell-fate trajectories using spatiotemporal single-cell transcriptomic data
【字體:
大
中
小
】
時間:2025年12月05日
來源:npj Systems Biology and Applications 3.5
編輯推薦:
這篇前瞻性綜述系統梳理了基于最優傳輸(OT)和薛定諤橋(SB)等數學框架的時空動態生成模型(stDGM),為從時序單細胞轉錄組數據中重建細胞分化軌跡提供了統一方法論。文章深入剖析了動態OT、非平衡OT、平均場薛定諤橋等核心理論的生物學假設與應用場景,并配套開發了開源工具CytoBridge,助力研究者精準刻畫細胞遷移、增殖/死亡、隨機波動及細胞間相互作用等多維度動力學特征。
數學基礎
細胞生物學過程本質上是動態演化的。從胚胎發生中的譜系分叉到組織再生與疾病中的漸進性重塑,細胞在時間和空間上持續演變。理解這些轉變不僅需要高分辨率分子測量,更需要能夠將靜態觀測連接成連續軌跡的計算方法。近年來,單細胞和空間組學技術的發展極大擴展了細胞狀態的測量能力。單細胞RNA測序(scRNA-seq)揭示了細胞類型和狀態的多樣性,而時間分辨scRNA-seq支持跨多個時間點的采樣。空間轉錄組學(ST)為這些測量引入了空間背景,時間序列空間轉錄組學的出現則提供了同時研究細胞組織跨時空變化的機會。這些技術共同標志著從靜態細胞圖譜向生物過程的動態時空重建邁出了重要一步,并構成了近期構建AI賦能的虛擬細胞的基礎。
盡管取得了這些進展,大多數基于組學的數據仍然是碎片化的。例如,基于快照的scRNA-seq僅提供每個細胞的單時間點測量。因此,偽時間推斷和RNA速率等方法被開發出來,以從這些靜態數據中推斷動力學,根據剪接動力學將細胞沿潛在軌跡排序或推斷變化的方向。這些方法雖然極具價值,但本質上是為單時間點快照數據設計的。與此同時,時間序列數據,如時間分辨scRNA-seq或時間序列ST,直接捕獲了跨多個時間點的群體水平變化,并具有重建真實細胞軌跡和調控機制的潛力。利用這些更豐富的數據集需要專門的數學和計算框架,其范圍超出了基于單張快照的工具。
隨后,一系列動態建模策略被提出,包括基于動態系統(例如常微分方程ODE、隨機微分方程SDE和偏微分方程PDE)的表述,以及生成框架,如最優傳輸、流匹配、非平衡傳輸、薛定諤橋和平均場方法。這些方法提供了強大的工具來耦合跨時間的分布,并解釋增殖、死亡、噪聲和細胞間相互作用。每個框架都有其獨特優勢,并且非常適合分析多時間點或時空數據。
本綜述采取了一個獨特的視角。我們特別關注于為分析時間序列單細胞和空間轉錄組學數據(包括時間分辨scRNA-seq和時空ST)而設計的方法。我們旨在提供一個統一的、生物學上易于理解的框架:(i)以直觀的方式介紹數學概念和基礎,(ii)回顧關鍵算法,重點關注其數據需求、設計原理和實際應用,以及(iii)為在實際生物學研究中選擇、應用和解釋這些方法提供實用指南。通過闡明數據類型、建模選擇和生物學見解之間的聯系,本綜述將成為理論進展與實驗實踐之間的橋梁,使研究界能夠更有效地將動態建模整合到其研究中。為此,我們引入了時空動態生成模型(stDGM)的概念,這是一個在概念上涵蓋所討論方法并在我們配套軟件包CytoBridge中實現的框架。
算法實現
本節總結了基于上述數學理論實現的現有軌跡推斷算法。通常,這些方法旨在學習從一個分布到另一個分布的“最優”映射,這可以通過點對點對應關系或數據空間內的連續流來誘導,并由細胞狀態轉換過程的“作用量”形式決定。我們根據三個特征對這些軌跡推斷方法進行分類:數據假設、建模策略和訓練方法。
不同的軌跡推斷方法依賴于對輸入數據的不同假設,反映了不同類型的生物學先驗。例如,一些方法提出考慮細胞分裂和死亡的影響,這會導致分布中的總質量不歸一化(非平衡數據)。在這種情況下,假設分布遵循非平衡福克-普朗克方程,并使用靜態非平衡OT距離或WFR距離作為作用量。采用非平衡數據假設的典型方法包括TIGON、DeepRUOT和stVCR。
在scRNA-seq數據中,基因表達計數本質上是離散的,通常遵循計數分布,如泊松分布或負二項分布(計數數據)。因此,數據點無法在數據空間內連續演化。為了捕捉連續細胞命運的連續演化,一種方法是對參數化概率測度的動力學進行建模,并采用測地線距離(例如,在有限維統計流形上通過Fisher信息度量定義)作為作用量泛函,然后采用最小作用量方法來計算轉移路徑。例如,Euclidean VAE通過假設VAE的解碼器是從潛在空間到概率測度流形的平滑映射,并直接考慮潛在空間中的演化軌跡來采納這一思想。
大多數計算方法假設數據存在于歐幾里得空間中;然而,scRNA-seq數據通常受內在生物結構支配,因此更好地表示為位于低維流形上(低維流形)。例如,盡管基因表達測量是在G維基因空間中收集的,但細胞狀態通常僅占據由調控程序、發育譜系或其他生物約束決定的受限區域。因此,數據的有效維度遠低于G。像MIOFlow和Metric FM這樣的方法利用了數據背后的低維流形結構,并在該流形中進行測地線插值,而不是在歐幾里得空間中。Wasserstein Lane-Riesenfeld(WLR)算法通過測地線的迭代平均來近似Wasserstein空間中的B樣條曲線。同時,像Topological Schrodinger Bridge這樣的方法將數據向量的每個維度視為無向圖頂點上的特征,從而將圖上的擴散指定為薛定諤橋問題中的參考過程。
有時,分析的數據點是從不同模態(例如,轉錄組、蛋白質組或形態學測量)或來自不同生物系統(例如,跨個體、組織或發育時間點收集的樣本)采樣的,具有不同的度量空間(跨域映射),使得直接在這些數據點上定義最優傳輸問題變得困難。用于分析和處理此類跨空間數據的典型理論是GWOT,它利用每個流形上數據點之間的測地距離計算傳輸計劃,從而評估兩個流形幾何結構的相似性。基于此框架,MOSCOT、GENOT和SCOT+等方法應用GWOT理論來解決軌跡推斷任務中的多模態和跨系統整合挑戰。
在單細胞組學中,空間轉錄組學數據是一種特殊類型的數據,它不僅包含細胞內的基因表達計數,還包含每個細胞的物理空間位置信息(空間數據)。像stVCR、Dest-OT和STORIES等方法專門設計用于處理此類數據。DeST-OT和STORIES都采用融合Gromov-Wasserstein OT(FGWOT)來模擬跨時間的空間轉錄組學。更具體地說,DeST-OT通過在靜態OT框架內采用半非平衡OT來納入細胞增殖,而STORIES直接使用FGWOT作為損失函數來重建基因表達動力學。stVCR沒有使用GWOT相關理論,而是應用RBTI-OT來模擬空間坐標,這使得在連續設置中同時重建細胞分化、遷移和增殖動力學成為可能。此外,還開發了其他與時空數據相關的應用。例如,PASTE和PASTE2采用Gromov-Wasserstein OT框架對齊相鄰的組織切片。CODA使用基于圖像配準的方法來對齊組織學圖像并從連續切片重建3D組織。此外,其他方法側重于為scRNA-seq數據推斷空間位置;例如,STALocator使用監督自編碼器將單細胞定位到ST數據上,而iSORT通過遷移學習將基因表達映射到空間位置。
最后,在擾動研究中,基因表達矩陣通常伴隨分類標簽或其他實驗條件(例如,處理類型、劑量或時間點),這需要在訓練或推理過程中明確納入(條件建模)。像CFGen和CellFlow這樣的方法在指定擾動下生成細胞狀態,而MMFM將軌跡推斷框架擴展到考慮條件信息。
軌跡推斷方法在所采用的動力學模型上也各不相同,這些模型可以用離散或連續的時間和空間來表述。動力學模型的選擇規定了控制方程的基本結構,而推理過程則估計未知組成部分(通常是時間相關的標量或向量場)。當分布的連續時間演化不是主要關注點時,可以采用離散時間動力學,專注于將某個時間點觀察到的細胞狀態映射到后續時間點的狀態。像Waddington OT、MOSCOT等方法采用這種設置。特別是,高斯混合模型之間的最優傳輸存在解析解,scEGOT利用了這一點。此外,OTVelo嘗試使用離散OT的解來估計RNA速率。離散OT也有幾個變體。例如,HM-OT可以通過為每個數據點學習潛在表示并確定潛在表示中的轉移矩陣來處理部分觀測數據。通過協調離散和連續時間建模,CT-OT Flow方法從數據中估計高分辨率時間標簽,然后進行OT問題求解并重建連續的ODE/SDE動力學。
在實踐中,細胞過程受到大量未觀測到的擾動和內在變異性的影響,底層確定性動力學的粗粒度化自然會產生隨機動力學。推斷這種隨機動力學的一個原則性框架由薛定諤橋提供。該表述用布朗運動項增強了單粒子動力學,并在相應的福克-普朗克方程中引入了擴散項,同時保留了與動態最優傳輸相同的作用量泛函。像SB between Gaussian、SF2M、PISDE、FBSDE Model、Probability Flow Inference和Likelihood Training SB等方法討論了薛定諤橋問題的各種解決方案。其中,SB between Gaussian為高斯混合邊際分布的情況提供了解析解;Likelihood Training SB模仿得分匹配中的似然訓練,為求解薛定諤橋問題提供了一個框架。提出了幾種方法來解決更廣義的薛定諤橋問題。例如,Lagrangian SB允許求解粒子分布在任何給定勢場中的演化;mvOU-OTFM將薛定諤橋的參考過程設置為OU過程;而Smooth SB采用平滑高斯過程作為參考過程。為了處理分支數據以改進下游任務(如細胞命運預測),Branched SB將單個初始分布與具有不同權重的多個終端分布進行匹配。此外,為了同時解決前面提到的非平衡分布和隨機動力學問題,Pseudo Dynamics使用帶有擴散和非平衡項的福克-普朗克方程,并采用最大似然估計來確定參數;Unbalanced Diffusion SB提出了一種包含生長和死亡的薛定諤橋;ARTEMIS在VAE的潛在空間中求解這樣的薛定諤橋,進一步增強了模型的表達能力;DeepRUOT采用了RUOT框架,其中福克-普朗克方程包含擴散和非平衡項,使用WFR距離作為作用量。
與常用的一階動力學框架相比,納入動量動力學可以模擬更復雜的細胞過程,其中轉錄變化的歷史或“慣性”會影響未來的細胞狀態。像3MSBM這樣的方法明確考慮了這種效應。此外,許多現有方法假設細胞是獨立演化的;然而,在生物系統中,這個假設常常被違反。由配體-受體信號傳導或細胞間接觸等過程產生的細胞間相互作用動力學在塑造細胞命運軌跡方面可以發揮核心作用。為了解決這個問題,包括MetaFM、scIMF、GraphFP和CytoBridge等方法將細胞間相互作用納入軌跡推斷。
軌跡推斷方法在訓練范式上也有所不同。一類基礎方法建立在神經ODE框架之上。例如,TrajectoryNet和scNODE通過演化一個經驗粒子系統來近似群體動力學,其中向量場由神經網絡參數化以捕捉底層轉錄動力學。相關的泛函和作用量以及分布匹配誤差可以從這個神經ODE表述中計算出來,并納入損失函數中進行基于反向傳播的訓練。一個最近的替代方案Cell-MNN,通過預測系統的線性算子來學習動力學的局部線性化ODE表示。為了進一步解決高度不平衡的細胞狀態分布的挑戰,TIGON采用加權粒子系統,通過額外參數化增長率來近似細胞質量和密度的演化。為了解決隨機動力學,PISDE和Var-RUOT也采用了神經SDE方法。
然而,基于神經ODE或SDE的方法在訓練過程中需要對連續動力學進行迭代數值積分,這會導致計算開銷。因此,當應用于高維基因表達空間或大規模單細胞數據集時,其可擴展性受到限制。作為回應,一系列以條件流匹配為代表的無模擬訓練方法應運而生。這些方法通常基于簡單情況(例如,將狄拉克分布映射到另一個狄拉克分布)的解析解設計,允許直接估計目標標量場或向量場,而無需模擬ODE。SF2M使用流匹配方法解決薛定諤橋問題;Score-Based NF使用流匹配方法解決得分匹配中PF-ODE的向量場;Unbalanced Monge Map和VGFM將非平衡最優傳輸與流匹配相結合。特別是,VGFM可以同時學習非平衡動態OT框架中的v和g,以處理非平衡分布。Curly FM能夠學習非梯度向量場,而Metric FM首先估計低維流形上的測地線,然后進行測地線插值。此外,Wasserstein FM直接在概率測度空間中進行插值,并已被證明在生成高維分布方面有效;MMSFM允許通過多邊際SB連接不同時間點的數據。
此外,最優傳輸及其變體的一階最優性條件可以通過變分原理推導出來,為設計高效的計算算法提供了基礎。PRESCIENT、Action Matching和PISDE將動態搜索空間約束為標量場梯度的集合,其中HJB方程在PISDE中作為損失項強制執行。Wasserstein Lagrangian Flow通過在參數化概率測度上擬合協變向量以及參數化概率測度來解決最優傳輸及其變體。GraphFP基于龐特里亞金極大值原理設計了一種梯度下降法來求解最優控制律。HJ-Sampler使用Cole-Hopf變換將非線性問題轉化為可處理的線性或半線性形式,然后通過求解HJB方程推導出控制律,最終獲得數據的后驗分布。最近,Var-RUOT進一步證明,基于HJB框架,僅參數化單個標量函數就足以解決RUOT問題。
實踐指南
為了幫助研究人員利用所提出的時空動態生成模型(stDGM)框架,此處概述了應用動態生成建模工具的指南,涵蓋了從數據輸入到生物學發現的整個工作流程。具體來說,為了將這些原則付諸實踐,我們正在積極開發CytoBridge,一個集成了整個工作流程的Python包,并邀請社區貢獻以幫助塑造其未來。下面我們描述了應用CytoBridge進行時空組學數據分析的設計理念和工作流程。我們還在Box 1中提供了一個案例研究,以演示使用CytoBridge的stDGM工作流程。
stDGM主要應用于時間分辨的scRNA-seq數據或空間轉錄組數據。所需的輸入是一個基因表達矩陣,以及每個細胞的元數據,關鍵是指定其采樣時間點,如果可用,還包括空間坐標。初始步驟,數據預處理,對于最小化技術噪聲至關重要。此過程涉及對基因表達數據進行歸一化以校正文庫大小變異,并對齊不同時間點的空間坐標。然后,利用高變基因的特征選擇來分離驅動細胞變化的信號。隨后,將基因表達數據投影到低維空間。推薦使用PCA和自編碼器等方法,因為它們是可逆的,允許將向量從降維空間投影回原始基因表達空間。這一特性對于實現對特定基因和通路的下游分析至關重要。通常,這個投影空間應保持在100維以下,因為更高的維度可能會模糊驅動細胞分化的關鍵因素。這些預處理步驟可以使用CytoBridge執行,如Box 1的步驟1所示。
有了干凈且結構良好的數據集后,核心分析開始:應用和配置動態模型。這些方法通過使用神經網絡模擬細胞狀態變化的驅動因素,從離散時間點快照重建軌跡。CytoBridge包支持四個主要建模組件:速率網絡、生長網絡、得分網絡和相互作用網絡。每個組件對應一個特定的基于stDGM的框架。然后,一個關鍵步驟是選擇合適的動態模型,這一選擇由對系統所做的生物學假設指導。
第一個考慮因素是細胞生長項。如果不同時間點的細胞數量變化不顯著,或由于技術采樣偽影,或不是生物學興趣所在,則可以應用僅專注于匹配概率分布的標準動態OT公式。代表性方法包括MioFlow或OT-CFM。然而,用戶仍需警惕由不平衡樣本量引起的假陽性轉換,并考慮某些重采樣策略。實際上,如果群體大小變化顯著,或反映了真實的生物過程(如發育),則建議包含生長項以獲得更深入的見解和更準確的推斷。這將分析置于非平衡最優傳輸框架內,通常需要額外的神經網絡來模擬生長,如TIGON和最近提出的無模擬方法VGFM所實現。在此類方法中,速率網絡和生長網絡用于同時匹配不同時間點的分布和細胞數量。利用動態非平衡OT框架的示例可以在Box 1的步驟2中找到。
第二個考慮因素是隨機性。為了捕捉生物過程固有的隨機性,如果不考慮生長項,可以將問題框架化為薛定諤橋問題。這可以通過直接模擬神經SDE(如PI-SDE)來解決,或者通過增強確定性向量場加上一個得分匹配網絡來模擬概率密度(如SF2M所示)。對于同時表現出非平衡生長和隨機性的系統,正則化非平衡最優傳輸(RUOT)框架是合適的,如DeepRUOT和Var-RUOT等方法所實現。
最近,建模的范圍已擴展到通過新提出的非平衡平均場薛定諤橋(UMFSB)問題納入細胞間相互作用。UMFSB框架可以同時推斷相互作用、生長和隨機效應。基于這一理論構建的CytoBridge包旨在作為一個統一工具包。它使用戶能夠選擇性地停用相互作用、生長或隨機項,從而精確定制分析以適應其特定數據集和生物學問題。
工作流程的下一階段是下游分析和解釋。可視化通常是第一步,將推斷出的速率投影到低維嵌入(如UMAP)上。這提供了發育流和主要預測譜系路徑的直觀視圖。此外,如果可用,生長網絡可以揭示表現出較高增長率的特定細胞類型。得分網絡識別對應于穩定細胞命運的高密度區域,這類似于Waddington表觀遺傳景觀中的谷值。使用CytoBridge進行基本可視化的用法見Box 1的步驟3。除了可視化,訓練好的神經網絡是可解釋的模型,能夠進行強大的定量分析。例如,學習到的速率場可以通過計算其雅可比矩陣來推斷基因調控網絡(GRN)。類似地,生長網絡的梯度可以識別驅動細胞增殖的關鍵基因。這一原理擴展到包含細胞間相互作用的模型。模擬細胞相互作用的方法可以區分細胞固有的分化驅動與細胞間通訊的影響。通過分析相互作用力的性質,可以識別哪些基因對鄰近信號最敏感,并通過計算相互作用力與內在漂移的相似性的空間自相關來表征相互作用本身的性質。對于這些分析,可以將低維空間的結果投影回原始基因空間以確保生物學可解釋性。從這些不同分析產生的高影響力基因列表,無論是GRN樞紐、增殖驅動因子還是相互作用靶點,都可以進行基因集富集分析(GSEA)。這一步將單個基因與其共同代表的更廣泛生物學通路和功能聯系起來,完成了從數據到機制見解的橋梁。因此,可以以直接的方式應用對特定驅動基因的計算機擾動。同樣值得注意的是,整合了速率、得分以及(如果可用)相互作用項的整體漂移,提供了細胞動態的綜合表征。這種漂移與其他下游分析工具(如scVelo)兼容,因此可用于計算細胞到細胞的轉移矩陣和速率圖。構建的圖可以隨后應用于CellRank來推斷命運概率或驅動基因。這些stDGM方法與更廣泛的下游分析工具生態系統的無縫集成為更廣泛的分析可能性打開了大門。
這里討論的stDGM方法的一個基本優勢,也是它們與靜態方法的區別,在于它們被表述為生成模型。這種生成能力允許人們從初始群體分布隨時間向前模擬整個細胞軌跡。因此,這些模型不僅可以重建離散時間點觀察到的細胞分布,還可以插值預測在未觀測時間點的細胞狀態。因此,工作流程的最后一步側重于這種軌跡重建。一旦軌跡建立,它們提供了單個細胞命運的顯式映射,揭示哪個細胞狀態演變為另一個狀態。這使得能夠直接分析細胞類型沿譜系的轉換。為了實現這一點,通常需要細胞注釋步驟,其中訓練一個分類器從基因表達向量預測細胞類型。通過將這些標簽應用于模擬軌跡,可以構建完整的譜系命運圖譜,為發育和分化的潛在生物學機制提供可解釋性。例如,TrajectoryNet在胚狀體數據集上使用生成的軌跡來識別注定走向不同命運的細胞的基因表達譜在早期何時開始分化。在同一數據集上,MIOFlow生成軌跡并將其解碼回全基因空間,以準確重建單個基因的復雜、非單調表達動力學,這與已知生物學知識一致。TIGON在上皮-間質轉化(EMT)數據集中對未測量時間點的數據進行插值,揭示了隨時間變化的細胞間通訊模式。我們在Box 1的步驟4中展示了CytoBridge生成軌跡的功能,并在圖4中使用CytoBridge可視化小鼠造血數據集的生成軌跡。
然而,當前的生成模型仍然存在幾個關鍵局限性。一個主要挑戰是時間泛化。雖然模型在訓練時間范圍內可能擅長插值,但當預測遠超出該范圍時,其準確性通常會下降,因為底層的生物調控動力學可能會發生變化。另一個潛在問題是對初始條件和采樣噪聲的敏感性;早期時間點數據中的誤差或偏差可能在模擬過程中被放大,導致發散和生物學上不可信的軌跡。此外,跨不同細胞類型的泛化可能有限;在特定分化通路上訓練的模型可能無法預測罕見或先前未見譜系的出現。嚴格驗證生成的軌跡仍然是一個挑戰。當可用時,實驗譜系追蹤可以作為確認的標準。
Box 1:使用CytoBridge進行stDGM分析的演示
本框提供了使用CytoBridge Python包分析時間序列單細胞數據的實用指南,對應圖3中概述的工作流程。我們使用一個小鼠造血數據集作為概念示例來演示如何執行stDGM分析。該數據集結合了時間序列單細胞RNA測序和條形碼技術,將小鼠造血祖細胞的初始轉錄組狀態與其分化后的克隆命運聯系起來,包含在三個時間點收集的49,302個具有譜系追蹤信息的細胞。
- 1.
第一步是將數據加載到AnnData對象中。然后我們使用內置的CytoBridge預處理函數,該函數處理歸一化、高變基因選擇和降維。在以下示例代碼中,使用PCA將維度降至50。參數time_key='Time'指定了adata.obs中包含每個細胞采樣時間點的列名。dim_reduction='PCA'指定了降維方法。處理后的特征將存儲在adata.obsm['X_latent']中用于模型訓練。
adata = scanpy.read_h5ad("mouse_hematopoiesis_data.h5ad")
cytobridge.pp.preprocess(adata, time_key='Time', dim_reduction='PCA')
- 2.
接下來,我們從stDGM框架中選擇一個模型并對其進行訓練。這是通過cytobridge.tl.fit函數完成的,其中config參數允許用戶根據其生物學假設選擇合適的理論模型。對于小鼠造血數據集,研究方案涉及培養祖細胞并在第2、4、6天進行采樣,細胞在初始時間點后重新鋪板以允許持續增殖和分化。這確保了觀察到的細胞數量增加是生物生長的直接結果,這是非平衡框架專門設計的動態。因此,我們選擇動態非平衡OT框架進行stDGM分析。
cytobridge.tl.fit(adata, config='unbalanced_ot')
訓練好的動態模型被存儲回adata.uns中,可以方便地加載用于后續下游分析。
- 3.
此階段的基本下游分析是對原始數據集中學習到的速率和生長速率進行可視化。這些量可以通過使用cytobridge.tl.analysis模塊中的函數加載先前訓練的模型來計算。
cytobridge.tl.analysis.compute_velocity(adata)
cytobridge.tl.analysis.compute_growth(adata)
計算出的速率和生長速率將自動存儲在adata.obsm['velocity_latent']和adata.obsm['growth_rate']中,隨后可以投影到UMAP坐標上繪制。對于小鼠造血數據集,速率流線圖清楚地顯示了不同的分化軌跡,這與不同的細胞命運一致。預測的生長速率也可以通過與該數據集的譜系信息進行比較來驗證。具體來說,預測具有較高增長率的區域對應于未分化的祖細胞,這些細胞預計在后期時間點會產生更大的克隆(通過共享條形碼識別)。給定計算出的速率和生長速率,可以通過將這些量與scVelo和CellRank結合來進行更高級的下游分析。
- 4.
為了重建整個細胞軌跡序列,我們在cytobridge.tl.analysis和CytoBridge.pl.plot中實現了生成和可視化例程。
cytoBridge.tl.generate_ode_trajectories(adata=adata)
cytoBridge.pl.plot_ode_trajectories(adata)
這些例程模擬并可視化在由速率和生長驅動的動態模型下的多步軌跡,從而保持了細胞狀態轉換的完全連續性。這些生成的軌跡提供了小鼠造血數據集分化的動態可視化,詳細描述了細胞從其初始祖細胞狀態向多樣化譜系特異性命運移動的連續過程。值得注意的是,generate_ode_trajectories讀取瞬時生長速率,為每個細胞分配一個權重。權重變化比r指導決策:r > 1的細胞概率性地產生后代細胞,而r < 1的細胞基于隨機采樣被保留或淘汰。這種邏輯準確地模擬了小鼠造血系統中細胞的概率性分裂和死亡。
結論與未來展望
本綜述討論了時空動態生成模型(stDGM)在單細胞和空間轉錄組學方面的最新進展,特別側重于從時間序列scRNA-seq和時空數據解析細胞命運軌跡。我們首先介紹了動態系統和生成建模的數學基礎,包括最優傳輸和薛定諤橋公式,強調了這些概念如何為重建和生成細胞動態提供一個框架。然后,我們回顧了在實踐中實現這些框架的算法進展。最后,我們提供了實用指南,以幫助研究人員為不同類型的應用場景選擇和應用這些方法。通過整合數學原理、計算方法和生物學應用,我們的目標是為細胞動態的研究提供一個系統且易于理解的視角。
展望未來,一個重要的方向是整合更豐富的數據模態,將轉錄組時間序列與表觀基因組、蛋白質組和成像測量相結合,以提供更全面的調控動態視圖。另一個有前景的方向是結合譜系追蹤和克隆記錄技術,這將允許計算推斷的軌跡通過實驗觀察的祖先關系進行驗證和細化,從而加強命運決定的生物學解釋。空間和時間分辨率的進步也將使得明確耦合細胞內動態與細胞間相互作用和組織水平組織成為可能。重要的是,整合細胞力學研究將有助于模擬物理空間中的細胞形態發生,為發育和疾病提供多尺度視角。最后,將計算軟件包持續改進為用戶友好和易于訪問的工具,對于使更廣泛的研究者群體能夠在實踐中應用這些方法至關重要。這些發展共同指向一個未來,即動態建模不僅是一個理論框架,也是實驗生物學的一個實用組成部分,加深我們對發育、再生和病理過程中細胞動態的理解。
生物通微信公眾號
生物通新浪微博
今日動態 |
人才市場 |
新技術專欄 |
中國科學人 |
云展臺 |
BioHot |
云講堂直播 |
會展中心 |
特價專欄 |
技術快訊 |
免費試用
版權所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯系信箱:
粵ICP備09063491號