<tt id="vwe5b"></tt>
      1. <tfoot id="vwe5b"><progress id="vwe5b"></progress></tfoot><abbr id="vwe5b"></abbr>

      2. 91人人妻,99偷拍,碰碰免费视频,亚洲中文字幕AV,丝袜a片,91纯肉动漫,中文无码日,伊人福利导航

        CONCORD:通過對比學(xué)習(xí)與概率采樣揭示單細胞數(shù)據(jù)中連貫的細胞狀態(tài)景觀

        《Nature Biotechnology》:Revealing a coherent cell-state landscape across single-cell datasets with CONCORD

        【字體: 時間:2026年01月06日 來源:Nature Biotechnology 41.7

        編輯推薦:

          本文介紹了一種名為CONCORD的新型統(tǒng)一框架,它通過創(chuàng)新的概率采樣策略(數(shù)據(jù)集感知采樣和困難負采樣)與簡約的對比學(xué)習(xí)模型,在單細胞RNA測序(scRNA-seq)數(shù)據(jù)分析中同時解決了批次整合、降噪和降維三大挑戰(zhàn)。該方法生成的去噪細胞編碼能有效保留關(guān)鍵生物結(jié)構(gòu)(如基因共表達程序、譜系軌跡),并在跨技術(shù)、跨物種數(shù)據(jù)整合中表現(xiàn)出卓越性能,為揭示細胞身份和動態(tài)提供了通用且高保真的表示學(xué)習(xí)工具。

          

        摘要

        揭示單細胞數(shù)據(jù)中潛在的細胞狀態(tài)景觀需要克服批次整合、降噪和降維等關(guān)鍵障礙。CONCORD作為一個統(tǒng)一框架,通過概率采樣策略(數(shù)據(jù)集感知采樣和困難負采樣)與簡約的對比學(xué)習(xí)模型,在自監(jiān)督學(xué)習(xí)框架內(nèi)同時應(yīng)對這些挑戰(zhàn)。該方法僅使用單隱藏層的 minimalist 神經(jīng)網(wǎng)絡(luò),無需依賴深度架構(gòu)、輔助損失或外部監(jiān)督,即可超越現(xiàn)有技術(shù)性能。CONCORD能夠無縫整合跨批次、技術(shù)甚至物種的數(shù)據(jù),生成高分辨率細胞圖譜。其生成的潛在表示是去噪且具有生物學(xué)意義的,能夠捕捉基因共表達程序、揭示詳細譜系軌跡,并保留局部幾何關(guān)系和全局拓撲結(jié)構(gòu)。

        CONCORD框架

        單細胞測序數(shù)據(jù)分析表明,基因表達受到基因調(diào)控網(wǎng)絡(luò)和細胞間相互作用的約束,從而在高維基因表達空間中形成結(jié)構(gòu)化的低維“狀態(tài)景觀”。CONCORD通過重新設(shè)計對比學(xué)習(xí)中的小批量(minibatch)采樣策略,將對比學(xué)習(xí)對minibatch組成的敏感性轉(zhuǎn)化為優(yōu)勢。其核心是聯(lián)合概率采樣框架,結(jié)合了困難負采樣(hard-negative sampling)和數(shù)據(jù)集感知采樣(dataset-aware sampling)。
        困難負采樣通過在小批量中富集密切相關(guān)(即困難負樣本)的細胞,迫使模型學(xué)習(xí)區(qū)分密切相關(guān)的細胞狀態(tài)。CONCORD實現(xiàn)了兩種變體:基于k近鄰(kNN)的采樣器和hcl模式。kNN采樣器根據(jù)細胞狀態(tài)景觀的粗略圖近似,概率性地從局部鄰域和全局分布中抽取細胞,使模型能夠同時捕捉大規(guī)模區(qū)別和局部細節(jié)。hcl模式則通過蒙特卡洛重要性采樣來近似困難負采樣的預(yù)期損失。
        數(shù)據(jù)集感知采樣通過將每個小批量限制主要來自單個數(shù)據(jù)集的細胞,確保對比反映的是生物學(xué)差異而非技術(shù)差異。數(shù)據(jù)集特定的偏差通過隨機小批量洗牌進一步減弱,使得只有有生物學(xué)意義的信號(如基因共表達模式)在訓(xùn)練中持續(xù)存在。
        這兩種采樣器被整合到一個統(tǒng)一的聯(lián)合采樣框架中,其核心原則是概率性地構(gòu)建小批量,以平衡全局生物多樣性與局部和數(shù)據(jù)集特定的變異。這種簡單的創(chuàng)新使CONCORD僅使用具有單隱藏層的 minimalist 編碼器就超越了現(xiàn)有技術(shù)性能,表明采樣設(shè)計本身可以改變對比學(xué)習(xí)在單細胞數(shù)據(jù)上的性能。

        CONCORD學(xué)習(xí)去噪的潛在表示并保留底層結(jié)構(gòu)

        為了評估CONCORD在保留基因表達空間的幾何和拓撲結(jié)構(gòu)方面的性能,研究團隊在模擬數(shù)據(jù)集上進行了基準(zhǔn)測試。他們開發(fā)了一個定制的工作流程來創(chuàng)建具有復(fù)雜生物結(jié)構(gòu)(如分支或環(huán))的真實模擬數(shù)據(jù)。
        評估管道包括幾何指標(biāo)(如可信度trustworthiness和全局距離相關(guān)性)以及基于持續(xù)同調(diào)(persistent homology)和貝蒂數(shù)(Betti numbers)的拓撲數(shù)據(jù)分析(TDA)。在簡單的三簇模擬中,CONCORD清晰地分離了簇,而許多其他方法未能完全解析簇或引入了虛假結(jié)構(gòu)。持續(xù)同調(diào)分析證實,CONCORD的貝蒂-0平臺準(zhǔn)確地反映了預(yù)期的三簇拓撲結(jié)構(gòu)。
        在具有三個環(huán)和多個分支點的更復(fù)雜模擬中,CONCORD忠實地恢復(fù)了完整的拓撲結(jié)構(gòu),而其他方法要么扭曲了結(jié)構(gòu),要么在貝蒂分析中未能檢測到正確數(shù)量的環(huán)。定量評估證實,CONCORD在幾何和拓撲指標(biāo)上始終優(yōu)于競爭方法,并在廣泛的鄰域大小范圍內(nèi)保持高可信度。
        在模擬分層分支樹以評估困難負采樣的影響時,沒有困難負采樣時,子分支無法解析。適度富集困難負樣本顯著提高了兩種CONCORD變體的分辨率。

        CONCORD學(xué)習(xí)連貫的、減輕批次效應(yīng)的潛在表示

        批次效應(yīng)通常表現(xiàn)為數(shù)據(jù)集特定的全局信號,可能掩蓋生物變異。在CONCORD中,當(dāng)小批量被限制在單個數(shù)據(jù)集時,這些信號在訓(xùn)練過程中迅速減弱。與依賴顯式對齊模型的傳統(tǒng)批次校正方法不同,CONCORD對批次效應(yīng)的來源或形式做出最小假設(shè),而是優(yōu)先學(xué)習(xí)連貫的、有生物學(xué)意義的基因共變異模式。
        在具有噪聲、批次效應(yīng)和批次大小不平衡的五簇模擬數(shù)據(jù)集上,CONCORD是唯一能穩(wěn)健恢復(fù)所有五個簇的方法。在涉及跨不同條件采樣的連續(xù)狀態(tài)轉(zhuǎn)換的更具挑戰(zhàn)性的場景中(例如軌跡、環(huán)和樹,且狀態(tài)重疊程度不同),許多競爭方法表現(xiàn)出較差的對齊效果并引入了人工結(jié)構(gòu)。相比之下,兩種CONCORD變體始終恢復(fù)了正確的拓撲結(jié)構(gòu)并降低了噪聲,即使批次間的重疊最小。
        在具有16種不同批次效應(yīng)的軌跡模擬中,CONCORD(尤其是kNN變體)實現(xiàn)了卓越的對齊和降噪效果。定量指標(biāo)證實,CONCORD保留了局部幾何結(jié)構(gòu),同時表現(xiàn)出較低的全局距離相關(guān)性。魯棒性測試表明,當(dāng)僅在少量隨機選擇的批次上訓(xùn)練模型并用于預(yù)測剩余批次時,CONCORD保持了強大的對齊能力,而scVI的性能顯著下降。這表明CONCORD的魯棒性源于學(xué)習(xí)基因共表達程序,而非顯式建模和校正批次效應(yīng)。
        在所有模擬中,CONCORD實現(xiàn)了高生物標(biāo)簽保真度,但批次校正分?jǐn)?shù)略低,因為它不顯式合并批次。相比之下,scVI雖然實現(xiàn)了高批次混合分?jǐn)?shù),但經(jīng)常產(chǎn)生過度混合的嵌入,掩蓋了底層結(jié)構(gòu)。CONCORD在拓撲保存、生物標(biāo)簽保真度和整體性能方面始終名列前茅。

        CONCORD對齊全生物發(fā)育圖譜并解析高分辨率譜系軌跡

        為了評估CONCORD是否捕捉有生物學(xué)意義的結(jié)構(gòu),研究團隊在秀麗隱桿線蟲(C. elegans)胚胎發(fā)生數(shù)據(jù)集上對其進行了基準(zhǔn)測試,這是一個具有近乎不變的譜系樹的特征明確的系統(tǒng)。
        當(dāng)應(yīng)用于結(jié)合了跨物種數(shù)據(jù)集(C. elegansC. briggsae)以及新的早期胚胎收集數(shù)據(jù)的大規(guī)模數(shù)據(jù)集(超過41萬個細胞)時,CONCORD生成了一個統(tǒng)一的發(fā)育圖譜,與專家注釋密切匹配,實現(xiàn)了跨物種對齊并以超高分辨率解析了譜系。將譜系樹投影到CONCORD的嵌入上,揭示了與已建立的譜系和命運關(guān)系的強一致性。例如,源自AB祖細胞的ASE、ASJ和AUA神經(jīng)元形成了分支軌跡,反映了其真實的譜系結(jié)構(gòu)。值得注意的是,CONCORD的潛在空間甚至解析了ASE-left和ASE-right神經(jīng)元,這些神經(jīng)元在鹽感應(yīng)反應(yīng)中表現(xiàn)出功能不對稱性。
        為了系統(tǒng)評估潛在空間中譜系結(jié)構(gòu)的保存情況,研究評估了隨機選擇的k近鄰鄰域內(nèi)的譜系純度(lineage purity)和平均譜系距離(average lineage distance)。CONCORD即使在大k值下也保持了高譜系純度,并且來自不同譜系的相鄰細胞通常是近親,這反映在較低的平均譜系距離上。相比之下,其他方法產(chǎn)生的嵌入具有明顯更多的混合譜系鄰域。
        除了神經(jīng)元發(fā)育中的命運分叉外,來自不同譜系的命運匯聚也是線蟲器官發(fā)生中的常見模式。在肌肉形成中,CONCORD準(zhǔn)確解析了MS、C和D譜系如何匯聚成體壁肌的明確定義的分支,以及罕見匯聚事件。咽部發(fā)育(涉及AB來源和MS來源細胞的復(fù)雜分支和匯聚)同樣被CONCORD詳細解析。
        最后,為了測試模型泛化能力,研究在C. elegans批次子集上訓(xùn)練CONCORD和scVI,并將其投影到未見過的C. elegans和所有C. briggsae數(shù)據(jù)上。CONCORD成功整合了保留的批次,對齊了兩個物種,并解析了大多數(shù)細胞類型。相比之下,scVI產(chǎn)生的投影質(zhì)量明顯較低,跨物種對齊差且細胞類型分辨率降低。

        CONCORD捕捉哺乳動物腸道發(fā)育中的細胞周期和分化軌跡

        與線蟲不同,哺乳動物發(fā)育涉及廣泛的增殖與持續(xù)分化相結(jié)合。為了評估CONCORD能否解析這些交織的過程,研究將其應(yīng)用于小鼠胚胎腸道發(fā)育的單細胞圖譜,該圖譜跨越多個發(fā)育階段、批次、空間片段和富集的細胞群體,由于批次覆蓋不完整,構(gòu)成了一個具有挑戰(zhàn)性的整合任務(wù)。
        CONCORD有效整合了數(shù)據(jù),并在不同細胞類型中解析了細粒度的子結(jié)構(gòu)。在腸道上皮細胞中,CONCORD不僅解析了罕見亞型(如腸內(nèi)分泌細胞),還揭示了兩條平行軌跡——每條都包含一個細胞周期環(huán)和一個分化路徑——對應(yīng)于空間不同區(qū)域的干細胞增殖和分化。這些結(jié)構(gòu)未被其他方法捕捉,并得到成年分區(qū)標(biāo)記物(如Bex4Onecut2)的支持,表明CONCORD可以在胚胎期第13.5天就檢測到上皮分區(qū)。
        在腸道神經(jīng)系統(tǒng)(ENS)中,CONCORD捕捉了Sox10++祖細胞的細胞周期,并識別了由Etv1Bnc2標(biāo)記的神經(jīng)元發(fā)育的兩個不同分支,與之前的觀察結(jié)果一致。這些分支似乎通過共享的在兩個分支晚期廣泛活躍的神經(jīng)元成熟基因的表達而匯聚。
        在間充質(zhì)細胞(構(gòu)成該數(shù)據(jù)集的主要部分)中,CONCORD揭示了Pdgfra?和平滑肌群體內(nèi)的廣泛異質(zhì)性。這包括四個連續(xù)的細胞周期環(huán),分別由Ebf1Slit2KitActa2的表達標(biāo)記,環(huán)之間存在逐漸過渡。
        與Seurat和scVI不同(它們留下許多潛在維度未充分利用),CONCORD產(chǎn)生了一個密集且可解釋的潛在空間,反映了豐富的生物結(jié)構(gòu)并充分利用了其表示能力。每個潛在維度通常封裝多個基因共表達程序,可以通過基于梯度的歸因方法在單細胞或細胞狀態(tài)分辨率上進行解釋。例如,潛在神經(jīng)元Z46在上皮細胞和ENS細胞中都被激活,但歸因分析顯示,其驅(qū)動因素取決于細胞上下文:在上皮細胞中與杯狀細胞特異性基因(富集于糖基化通路)相關(guān),而在ENS細胞中則反映晚期神經(jīng)元中表達的神經(jīng)元成熟基因。

        CONCORD跨模態(tài)和尺度泛化

        CONCORD的領(lǐng)域無關(guān)設(shè)計使其能夠應(yīng)用于scRNA-seq以外的多種數(shù)據(jù)模態(tài)。研究團隊在一個具有挑戰(zhàn)性的單細胞ATAC-seq(scATAC-seq)基準(zhǔn)數(shù)據(jù)集上進行了測試,該數(shù)據(jù)集包含來自兩個供體的外周血單核細胞(PBMC),在八種不同技術(shù)平臺上進行了分析。在定量指標(biāo)和嵌入視覺檢查方面,CONCORD比包括原始研究中基于Harmony的分析在內(nèi)的其他方法產(chǎn)生了更好的批次校正和生物標(biāo)簽保真度。
        CONCORD的嵌入揭示了原始注釋中不存在的細粒度免疫亞型。通過使用配對的scRNA-seq和scMultiome數(shù)據(jù)細化細胞類型標(biāo)簽,并將其通過共享的scMultiome細胞投影回scATAC-seq嵌入進行驗證,精煉后的簇(例如,初始和記憶B細胞)與CONCORD在scATAC-seq中發(fā)現(xiàn)的簇精確對應(yīng)。此驗證還發(fā)現(xiàn)了原始研究中的一處錯誤注釋。
        當(dāng)應(yīng)用于通過Xenium、3′和5′ scRNA-seq以及固定RNA分析技術(shù)分析的乳腺癌腫瘤微環(huán)境樣本時(僅共享307個基因),CONCORD(hcl模式)相比其他方法實現(xiàn)了顯著更好的整合和細胞類型分辨率。原始研究的一個關(guān)鍵發(fā)現(xiàn)是兩種DCIS(導(dǎo)管原位癌)亞型表現(xiàn)出不同的相鄰微環(huán)境;值得注意的是,在沒有空間坐標(biāo)的情況下,CONCORD通過揭示DCIS和肌上皮簇之間的差異連接性重現(xiàn)了這些相鄰模式。
        最后,研究在由單細胞分析開放問題(Open Problems)計劃策劃的六個額外的scRNA-seq數(shù)據(jù)集上對CONCORD進行了基準(zhǔn)測試,包括Tabula Sapiens(超過100萬個細胞)。CONCORD在這些數(shù)據(jù)集上始終取得頂級性能,同時運行速度顯著更快,且內(nèi)存/顯存需求適中。相比之下,幾種方法(包括LIGER、Scanorama和Seurat)由于資源需求過高或違反方法假設(shè)而無法在圖譜尺度上運行。

        討論

        小批量梯度下降支撐著現(xiàn)代機器學(xué)習(xí)。越來越多的證據(jù)表明,這些小批量的組成會影響模型性能。在對比學(xué)習(xí)中,這種效應(yīng)被放大。CONCORD的核心創(chuàng)新在于通過重新思考小批量如何構(gòu)建,將對比學(xué)習(xí)對minibatch組成的敏感性轉(zhuǎn)化為優(yōu)勢。
        CONCORD的核心是一個統(tǒng)一的概率采樣器,集成了困難負采樣和數(shù)據(jù)集感知采樣。困難負采樣顯著增強了對比模型的表示能力,使其能夠捕捉區(qū)分密切相關(guān)的細胞狀態(tài)的復(fù)雜基因共表達程序。數(shù)據(jù)集感知采樣器用來自單個數(shù)據(jù)集的細胞豐富每個小批量,使模型能夠?qū)W習(xí)生物變異而不糾纏批次效應(yīng)。與依賴匹配簇或顯式批次效應(yīng)模型的傳統(tǒng)方法不同,CONCORD僅通過原則性采樣和訓(xùn)練來減輕批次效應(yīng)。
        CONCORD使用 minimalist 編碼器架構(gòu)實現(xiàn)了最先進的性能,表明僅通過合理的采樣和訓(xùn)練即可實現(xiàn)顯著增益,而無需依賴深度架構(gòu)、復(fù)雜目標(biāo)或監(jiān)督。跨不同尺度和模態(tài)的模擬和真實數(shù)據(jù)集,CONCORD始終學(xué)習(xí)去噪、可解釋且拓撲忠實的潛在空間。
        CONCORD具有速度優(yōu)化、內(nèi)存高效的設(shè)計。其速度優(yōu)化的向量化采樣算法、原生稀疏矩陣支持和核外數(shù)據(jù)加載使其能夠輕松分析可能超過可用系統(tǒng)內(nèi)存的百萬細胞圖譜。雖然當(dāng)前實現(xiàn)強調(diào)簡單性,但該框架完全可以擴展到更復(fù)雜的架構(gòu)。
        除了核心對比編碼器,CONCORD支持可選的解碼器和分類器模塊,用于基因級批次校正、標(biāo)簽傳遞和注釋引導(dǎo)的表示學(xué)習(xí)。此外,批次對齊、信息豐富的潛在空間可以很容易地被成熟的下游方法利用。
        當(dāng)基因共表達結(jié)構(gòu)被批次效應(yīng)嚴(yán)重扭曲時,CONCORD的性能可能會受到影響。例如,在單核和全細胞scRNA-seq數(shù)據(jù)之間觀察到次優(yōu)對齊,可能反映了由轉(zhuǎn)錄本定位引起的基因協(xié)方差結(jié)構(gòu)的系統(tǒng)差異。類似地,特征選擇策略和輸入的生物背景會影響對齊結(jié)果。
        重要的是,CONCORD背后的原理并不局限于單細胞測序。解耦技術(shù)偽影與有意義的生物異質(zhì)性的基本挑戰(zhàn)是許多高維數(shù)據(jù)模態(tài)共有的。因此,本文提出的聯(lián)合數(shù)據(jù)集感知和困難負采樣框架為從多樣化和復(fù)雜的生物數(shù)據(jù)集中學(xué)習(xí)魯棒表示提供了一個強大且可推廣的策略,為跨實驗和技術(shù)的更深入、集成的分析鋪平了道路。
        相關(guān)新聞
        生物通微信公眾號
        微信
        新浪微博
        • 急聘職位
        • 高薪職位

        知名企業(yè)招聘

        熱點排行

          今日動態(tài) | 人才市場 | 新技術(shù)專欄 | 中國科學(xué)人 | 云展臺 | BioHot | 云講堂直播 | 會展中心 | 特價專欄 | 技術(shù)快訊 | 免費試用

          版權(quán)所有 生物通

          Copyright© eBiotrade.com, All Rights Reserved

          聯(lián)系信箱:

          粵ICP備09063491號

          主站蜘蛛池模板: 精品日韩亚洲av无码| 精品无码人妻一区二区三区 | 漂亮人妻洗澡被公强啪啪| 一区二区三区91国产| 婷婷综合久久中文字幕蜜桃三电影| 女人被狂躁到高潮视频免费软件| 亚洲色图偷拍| 欧美午夜一区| 波多野结衣中文在线| 91福利电影| 亚洲国产理论片在线播放| 最近免费中文字幕mv在线视频3 | 亚洲不卡av不卡一区二区| 亚洲成人AV在线| 精品人妻伦九区久久aaa片| 国产亚洲婷婷香蕉久久精品 | 欧产日产国产精品精品| 中文无码日| 中国精学生妹品射精久久| 小草av| 国产亚洲日韩在线播放更多| 国产v亚洲v天堂a无码99| 97在线碰| 久久性视频| 亚洲男人天堂2018| 成人精品在线观看| 色一情一区二区三区四区| 西宁市| 国产欧美日韩综合精品二区| 橹橹色| 亚洲做第3页| 中文字幕亚洲在线观看| 欧美国产精品不卡在线观看| 精品国产一二三产品价格| 国产成人精品一区二区秒拍1o| 欧美成人精精品一区二区三区| 欧美老妇刺激福利在线| 亚洲最大成人AV| 久久老司机| 蜜桃视频中文字幕一区二区三区 | 欧美精品videosex极品|