
-
生物通官微
陪你抓住生命科技
跳動的脈搏
分析bulk RNA-seq的數據哪家強?四種方法大比拼
【字體: 大 中 小 】 時間:2021年08月03日 來源:生物通
編輯推薦:
昆士蘭大學的研究人員近日確定了一種強大工具,可用于大規模患者數據集的分析。這項發表在《Cell Reports》上的研究成果有望促進更好的患者分層以及更精準的靶向治療。
昆士蘭大學的研究人員近日確定了一種強大工具,可用于大規模患者數據集的分析。這項發表在《Cell Reports》上的研究成果有望促進更好的患者分層以及更精準的靶向治療。
轉錄組學分析在生物醫學研究中起到關鍵作用。線性降維方法(尤其是主成分分析PCA)被廣泛用于檢測樣本之間的異質性,而最近開發的非線性方法(如t-SNE和UMAP)可用于單細胞RNA測序的數據分析。
然而,t-SNE和UMAP是否能夠應用于大量細胞的轉錄組分析(bulk RNA-seq)?它們與傳統方法相比表現如何?這些問題暫時還沒有答案。
于是,昆士蘭大學的研究人員在Di Yu教授的帶領下,比較了四種不同的主流工具:PCA、MDS、t-SNE和UMAP。他們利用這些方法來分析71個臨床數據集(每個數據集包含100多個患者樣本),并根據患者的基因表達來分析其血液特征。
Yu教授解釋說:“試想一下,我們正在分析大型的患者數據集,每位患者都有超過10,000個基因,那么我們需要一種非常好的方法來降低這些海量數據的復雜性,以便更好地進行解釋。”
他認為,在比較的四種工具中,UMAP的功能非常強大。許多臨床醫生目前正在使用PCA來對患者進行分層。與PCA相比,他認為UMAP的表現明顯更優。

(圖片來自原文)
UMAP 在報告患者聚類方面更為有效。使用該工具,研究人員能夠將健康樣本與狼瘡樣本區分開,并將狼瘡患者分為不同的疾病亞組。他們還可以顯示哪些患者病情好轉,哪些患者病情惡化。
“UMAP的算法更多地基于機器學習,這使得它比流行的PCA工具更強大,后者主要采用線性方法,”Yu教授說。
UMAP工具相對較新,目前僅用于生物醫學研究,不過,研究人員希望未來將其應用在臨床分析中。他們建議在觀察和分析大量細胞的轉錄組數據集時采用UMAP,以便加強樣本異質性分析。
###
Yang Yang et al, Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data, Cell Reports (2021). DOI: 10.1016/j.celrep.2021.109442