基于文章標題和摘要內容,一個兼具專業(yè)性與吸引力的中文標題建議為:
中文標題
ScVital:一種基于物種不可知潛在空間變分自編碼器的深度學習工具,實現跨物種癌細胞狀態(tài)整合
《Cancer Research》:Deep-Learning Tool ScVital Enables Species-Agnostic Integration of Cancer Cell States
Open Access
編輯推薦:
這篇研究開發(fā)了一個名為scVital(單細胞變分自編碼器物種不可知潛在空間整合)的新型深度學習算法,它利用條件變分自編碼器與對抗性判別器,將小鼠與人類單細胞RNA測序數據嵌入到共同的潛在空間中,從而克服跨物種比較中的“生物批次效應”,精準識別出物種間保守的癌細胞狀態(tài)。該工具在胰腺癌、肺癌及未分化多形性肉瘤中驗證了其識別共享細胞狀態(tài)、提升小鼠模型臨床轉化能力的效果,為利用動物模型研究人類腫瘤生物學開辟了新路徑。
文章內容歸納總結
摘要
在癌癥研究中,基因工程小鼠模型(GEMM)對于探索人類腫瘤的發(fā)育和生物學構成非常有用。單細胞RNA測序(scRNA-seq)提供了腫瘤的轉錄組快照,可用于探索在免疫活性環(huán)境中的細胞狀態(tài)異質性。然而,跨物種比較常常受到生物批次效應的影響,物種間的固有差異降低了從這些模型中獲得的生物學見解的信號。本研究開發(fā)了scVital,這是一個計算工具,它使用變分自編碼器和判別器將scRNA-seq數據嵌入到一個物種不可知的潛在空間中,以克服批次效應并識別物種間共享的細胞狀態(tài)。此外,還同步開發(fā)了潛在空間相似性評分,作為一種新的指標,通過利用預標記的聚類進行評分,而不是當前創(chuàng)建新聚類的方法,來評估批次校正的準確性。使用潛在空間相似性進行量化,scVital與其他深度學習算法相比表現相當出色,并能以高保真度快速整合跨物種的正常組織scRNA-seq數據。當將scVital應用于來自GEMM和原發(fā)性患者樣本的胰腺導管腺癌或肺腺癌數據時,它能準確對齊生物學上相似的細胞狀態(tài)。在未分化多形性肉瘤(一個關于小鼠和人類細胞狀態(tài)一致性沒有先驗知識的測試案例)中,scVital識別出一種先前未知的細胞狀態(tài),該狀態(tài)在化療后持續(xù)存在,并且在GEMM和人類患者來源的異種移植物中共享。這些發(fā)現確立了scVital在識別跨物種保守細胞狀態(tài)以增強小鼠模型的轉化能力方面的效用。
引言
模型生物的使用促進了對人類生物學和癌癥的關鍵見解。GEMM或可移植小鼠腫瘤模型是大多數腫瘤學臨床成功案例的基礎。然而,小鼠癌癥模型與人類存在根本性差異,包括物種特異性的惡性分化狀態(tài)。這些差異限制了準確預測人類癌癥的病理生理學和治療結果。據估計,僅在動物模型中進行的約三分之一的研究會進入人類的臨床試驗。在那些試驗中,只有不到10%在第一階段成功,而在通過第一階段的試驗中,只有不到十分之一獲得FDA的臨床批準,這是一個極低的比例。
在罕見癌癥的研究中使用GEMM尤為重要。GEMM為以受控和可重復的方式研究這些疾病提供了一條途徑,從而消除了罕見癌癥研究的主要問題之一——研究樣本材料的可用性。因此,存在一個未滿足的需求,即提高臨床前小鼠癌癥模型的預測價值。實體瘤由功能和分子上不同的癌細胞亞群組成。這種腫瘤內異質性的臨床相關性體現在癌細胞狀態(tài)在生長、進展和治療耐藥性方面的不同能力上。因此,了解小鼠模型在多大程度上再現人類腫瘤的細胞狀態(tài)異質性至關重要。此外,跨物種保守的細胞狀態(tài)可能在生物學和功能上都很重要,這激發(fā)了對其進行鑒定的動力。
提高臨床前模型的準確性在肉瘤領域尤為重要,這是一組影響軟組織和骨骼的罕見癌癥。這些癌癥僅占美國每年新癌癥診斷的1%。肉瘤是一種具有許多亞型的多樣化癌癥,例如未分化多形性肉瘤(UPS),其預后極差。UPS在美國的發(fā)病率約為每20萬分之一。由于其罕見性和嚴重性,肉瘤生物學的探究往往很困難。GEMM特別有助于生成數據來理解罕見癌癥生物學,以便制定適當的治療策略,但目前尚不清楚這些模型在多大程度上再現了人類UPS的生物學和細胞狀態(tài)異質性。
計算建模方法,如深度學習,在提高人類癌癥動物模型的預測能力方面具有相當大的潛力。單細胞RNA測序提供了腫瘤中細胞組成和相關單細胞基因表達程序的無偏倚快照。這種靈敏的方法已被用于闡明患者之間的癌細胞狀態(tài)和基因程序。然而,專門設計用于辨別小鼠模型與人類癌癥之間異同的計算方法尚未開發(fā)出來。
先前用于scRNA-seq跨物種比較的方法類似于使用算法(如批次平衡K近鄰、Harmony、scVI或scDREAMER)進行scRNA-seq批次校正。然而,這些算法沒有專門解決同源樣本的跨物種整合問題,其中一部分細胞在物種間可能沒有明顯差異,而其他細胞類型在物種間則高度同源。跨物種癌癥研究的另一個常見做法是分別分析每個物種的數據集,然后比較標記基因或特定的基因特征。這些當前的方法僅限于在兩種物種之間具有一對一同源性的基因。因此,它們很可能無法識別由物種特異性基因驅動的功能或生物學上相似的物種特異性細胞狀態(tài)。
ScVital模型
ScVital使用一個條件變分自編碼器(VAE)與一個對抗性訓練的判別器結合,將來自不同物種的scRNA-seq數據嵌入到一個共同的潛在空間中。VAE將高維基因表達數據映射到一個更小、可概括的潛在維度表示中。同時,一個判別器網絡被訓練來預測潛在空間源自哪個物種。判別器的輸出被納入VAE的訓練函數中,使得最終的潛在空間表示保留細胞身份但排除物種特征。
潛在空間相似性
為了評估整合的準確性,研究人員開發(fā)了潛在空間相似性評分(LSS)。LSS根據已知的、先前的細胞標簽(無需新的細胞標簽)來計算潛在空間中原始細胞類型之間的成對余弦相似性,然后通過計算AUC-F1分數來確定整合的準確性。這與傳統(tǒng)的調整蘭德指數(ARI)和Folks–Mallow(FM)評分不同,后者高度依賴于整合后對細胞進行新的啟發(fā)式聚類。
正常組織數據整合
ScVital在整合常見批次校正數據集(例如從轉錄本5‘和3’端測序的外周血單核細胞數據)方面,與其他黃金標準的scRNA-seq整合算法(如Harmony和scVI)表現相當。

此外,ScVital在整合來自肌肉、肺、胰腺、肝臟和膀胱等多種健康組織的鼠源和人源scRNA-seq數據方面也表現良好。在正常肌肉數據的整合中,scVital不僅有效地去除了物種效應,還保留了細胞類型信息,其整合指標與其他算法相當,且運行時間顯著短于另一種深度學習算法scDREAMER。比較分析顯示,scVital在保護物種特異性細胞類型方面表現更優(yōu),這些細胞類型可能被其他方法錯誤地整合。
癌癥數據整合
為了確定scVital在整合惡性細胞狀態(tài)時的表現,研究人員對來自胰腺導管腺癌、肺腺癌和UPS的原發(fā)性人類腫瘤和GEMM腫瘤進行了跨物種整合。
在PDAC數據整合中,scVital成功地使鼠源和人源的經典和基底細胞狀態(tài)實現了物種不可知的對齊,同時將鼠源間充質細胞狀態(tài)與人源細胞狀態(tài)分離開來。整合后,scVital還指出了基底細胞狀態(tài)與間充質細胞狀態(tài)的相似性。
在LUAD數據整合中,scVital識別出了一種與肺泡2型細胞相似的狀態(tài)(AT2-like狀態(tài))和高可塑性細胞狀態(tài)(HPCS)在患者間和跨物種間的重疊。ScVital的運行時間更快,且LSS評分更好。
疾病與正常組織數據整合
將健康組織與不同疾病狀態(tài)的細胞狀態(tài)進行整合,可以揭示正常細胞、再生過程和疾病狀態(tài)之間的共性與差異。例如,整合小鼠的非腫瘤肺、肺泡損傷和LUAD樣本的scRNA-seq數據后,發(fā)現健康肺的AT2細胞、損傷肺的AT2細胞以及LUAD樣本的AT2-like細胞之間存在顯著重疊。此外,整合還揭示了小鼠LUAD的HPCS與一種損傷相關的短暫祖細胞狀態(tài)(一種與肺損傷相關、在靜止的健康肺中不存在的過渡性細胞狀態(tài))之間具有高度相似性。
UPS數據整合
為了探索scVital在缺乏先驗知識的情況下的效用,研究人員使用它來整合UPS GEMM與PDX模型中的惡性細胞狀態(tài)。研究人員用短期或長期阿霉素(一種用于治療晚期軟組織肉瘤的常用化療藥物)處理KP GEMM UPS腫瘤和UPS PDX,然后進行scRNA-seq分析。在沒有整合的情況下,來自三個UPS模型的腫瘤是獨立的,似乎不共享細胞狀態(tài)。值得注意的是,只有使用scVital或scDREAMER進行整合時,才顯示了所有三個數據集中的細胞群重疊,而其他整合方法未能完全整合這些數據集。這兩種算法雖然在運行時間上差異顯著,但都找到了重疊的細胞狀態(tài)。這一應用表明,scVital可以在沒有先驗知識的情況下,識別出跨物種(GEMM和PDX)和跨治療條件(化療前后)保守的、先前未知的細胞狀態(tài)。
討論與結論
本研究介紹了一種用于跨物種單細胞數據整合和保守細胞狀態(tài)鑒定的新型深度學習算法scVital。通過結合條件VAE與對抗性判別器,scVital能夠生成一個物種不可知的潛在空間,該空間有效地去除了物種特異性信號,同時保留了關鍵的生物學細胞狀態(tài)信息。研究還引入了LSS作為一種新的、更穩(wěn)健的整合評估指標,它不依賴于整合后主觀的聚類過程。
ScVital在整合正常組織和癌癥數據方面均表現出色,其性能與當前主流算法相當或更優(yōu),尤其是在處理具有挑戰(zhàn)性的癌癥細胞狀態(tài)整合時。在PDAC和LUAD案例中,它成功地驗證了已知的跨物種保守細胞狀態(tài)。更重要的是,在UPS案例研究中,scVital在缺乏先驗知識的情況下,識別出一種在化療后持續(xù)存在并在GEMM和PDX中共享的細胞狀態(tài),展示了其在發(fā)現新生物學見解方面的強大能力。
總之,scVital為利用動物模型進行癌癥研究提供了一種強大的計算工具,能夠更準確地識別跨物種保守的、具有潛在臨床重要性的癌細胞狀態(tài),從而有望增強臨床前動物模型研究的轉化價值和預測能力。