
-
生物通官微
陪你抓住生命科技
跳動的脈搏
亂花漸欲迷人眼,RNA-seq工具面面觀
【字體: 大 中 小 】 時間:2012年09月10日 來源:生物通
編輯推薦:
如今人們進行轉錄組分析大多是在第二代測序平臺上進行RNA-seq,將樣品中的RNA反轉錄為cDNA,構建測序文庫,再進行測序分析。隨著RNA-seq技術的逐漸普及,自然也出現了許多RNA-seq分析工具,面對如此多的選擇您是否已經眼花繚亂了呢?本文就為您從頭至尾進行了一番梳理。
人們在開始著手轉錄組分析研究時就會發現,不同細胞類型(如皮膚細胞和腎臟細胞)之間的區別只是基因表達的不同。所有細胞所含的DNA都是一樣的,是這些DNA生產出的蛋白質決定了細胞的類型和行為。負責傳達蛋白質合成指令的是RNA,而科學家們也早就意識到,RNA檢測能夠為他們揭示不同組織、發育階段和疾病中特征性的基因表達差異。
RNA-Seq vs微陣列芯片
就在幾年前,要獲得細胞轉錄水平的全景圖研究“轉錄組”還只有唯一的選擇:DNA芯片。而隨著第二代測序技術NGS的迅猛發展,NGS的價格也越來越親民,大大轉變了RNA研究領域的技術應用格局。
如今,人們進行轉錄組分析大多是在第二代測序平臺上進行RNA-seq,將樣品中的RNA(如總RNA、信使RNA或者非編碼RNA等)反轉錄為cDNA,構建測序文庫,再進行測序分析。
英國劍橋Wellcome Trust基因組科學院歐洲生物信息研究所的研究組帶頭人John Marioni說,RNA-seq技術比DNA芯片更具優勢,能夠對沒有參考基因組或無DNA芯片產品的物種直接進行研究。芯片制造商們通常只針對果蠅、線蟲、小鼠和大鼠等實驗室經典模式生物生產芯片。目前有許多物種還沒有參考基因組或者DNA芯片,更何況如果研究者不能提供所要檢測的部分序列就無法構建相應芯片。
“如果您想要研究的是位于進化階梯底層的生物,就沒法用芯片來做,例如海綿或其他海洋軟體動物等,”Marioni說。
相比之下,RNA-seq技術就不存在這樣的限制,這種技術可以直接讀取樣本中的任何cDNA,而不論研究人員是否了解自己所檢測的DNA。
Marioni是一名開發RNA-seq數據分析工具的統計學家和計算機生物學家,自2008年以來就一直應用這一技術。今年他作為共同作者在Genome Res雜志上發表了一篇文章,通過RNA-seq分析了16種哺乳動物的遺傳學差異和突變(包括11種非人類靈長動物),其中7種生物“此前幾乎沒有任何基因組數據。”
Marioni的目標是開發出實用工具,將RNA-seq原始數據轉變為生物學結論。“我們得到了靈長類動物轉錄本的量,并且希望開發一種計算機模型,能夠以輸入數據就得出生物學推論。并由此判斷我們分析的實驗結果是偶發性事件還是有意義的數據,”Marioni解釋道。
此外,與DNA芯片相比RNA-seq還具有更多優勢,它提供的動態范圍比芯片更寬,可以輕松檢測到低豐度的轉錄本。DNA芯片是在熒光強度的基礎上報告表達的相對值,而由于RNA-seq能夠一邊讀取一邊對轉錄本進行計數,它能夠直接測出轉錄本的豐度。總的來說,RNA-seq不僅能夠揭示轉錄本結構和剪切事件,還能夠識別融合基因、等位基因特異性突變等等。
隨著RNA-seq技術的逐漸普及,自然也出現了許多RNA-seq分析工具,而這些工具也逐步進入市場。不論是在前期的樣品制備階段還是實驗末期的生物信息學分析階段,您都能找到適合自己需要的工具。
RNA-Seq樣品制備
Illumina產品市場主管Jeremy Preston介紹道,RNA-seq與其他二代測序技術的差異主要在于RNA!澳悴荒苤苯訉RNA進行測序,必須先將其轉換為DNA。這是RNA-seq區別與其他測序方法的關鍵階段。”一旦得到了cDNA,剩下的就和其他測序一樣了,Preston說,完全可以直接套用測序儀自帶的文庫制備方案。
例如Illumina’s TruSeq RNA Sample Preparation Kits試劑盒就能從總RNA生成測序文庫。該試劑盒可以一次“indexing”(即條碼)多至24個樣本,這意味著HiSeq 2000的每次運行能夠處理多達384個樣本(每個通道lane容納24個樣本,共有16個通道)。Preston介紹道,現在正在研發新的indexing試劑,將會使每個通道容量增加到96個樣本。
在典型表達圖譜研究中,研究人員對每個樣本進行轉錄組分析得到的讀序約在一千萬到兩千萬之間,這就意味著在一次滿負荷HiSeq運行中(即三十億讀序)能夠至少同時對100個樣本進行分析,Preston說。如果要進行深入分析,例如鑒別新轉錄本或者罕見非編碼轉錄本,每個樣品可能需要五千萬到一億的讀序,而每個Illumina通道仍足以容納兩個樣本,“但這已經算是極端情況的研究了,”他說。
Illumina公司于2011年收購了Epicentre Biotechnologies,并由此大大擴充了RNA-seq產品線。其中就包括Ribo-Zero™ ribosomal RNA removal kits,該產品能夠從樣品中去除無關的高豐度轉錄本來增強靈敏度。此外,Illumina還提供能在一天內完成RNA-Seq文庫制備的“無縫銜接,點對點”ScriptSeq™ Complete Kits。
其他測序儀供應商也同樣有多種RNA-Seq試劑盒供應。Life Technologies公司的Ion Total RNA-Seq Kit v2含有構建代表性cDNA文庫所需的一切,更能保留鏈信息,用于在Ion PGM測序儀上進行鏈特異性的RNA測序。據羅氏公司的市場經理Clotilde Teiling介紹,他們并沒有為454 GS FLX和GS Junior系統提供專門的RNA-seq試劑盒,不過羅氏的cDNA合成系統試劑盒能夠用于從RNA合成cDNA來制備文庫。此外,您還可以選擇安捷倫公司的SureSelect RNA Capture kit等第三方工具,來進行您的RNA-Seq實驗。
NGS測序硬件
幸運的是,市面上的測序平臺大多支持RNA-seq,Illumina、Roche/454和Life Technologies等大型測序儀供應商都使其產品硬件兼容RNA-seq應用。著名服務供應商,位于美國休斯敦的SeqWright公司就擁有Roche/454的454™ Titanium和GS-FLX+平臺、Illumina的HiSeq™ 2000和MiSeq™平臺以及Life Technologies公司的SOLiD™ 4、5500xl和Ion Torrent PGM™平臺。該公司的用戶可以選擇在上述任意一種平臺上進行他們的RNA-seq研究。
“每個平臺都有各自的優劣,”SeqWright公司的Adam Pond解釋道。“對于那種包括多種混合樣本的大型項目,我們會選擇在Illumina HiSeq上進行。而將Ion Torrent用于細菌轉錄組研究能夠以最優價格獲得最多數據。不過的確每個平臺都能夠進行RNA-seq!
Marioni在工作中使用的是Illumina Genome Analyzer IIx。“我很自然就會想用這種技術來采集RNA-seq數據,”他說。這可能是因為該技術得到的讀序非常多,能使其用戶更深入的對轉錄組進行分析。實際上,Teiling也建議那些只想簡單檢測轉錄本量的454用戶使用Illumina測序儀或者甚至采用DNA芯片,因為后者“仍然是衡量mRNA水平的一種好選擇!
不過,她也提到在454’s GS FLX平臺上進行RNA-seq仍然有相當的用戶基礎,尤其是當研究者們希望利用非模式生物的轉錄組數據來進行初步基因組裝配時。這是因為,盡管454讀序數量較少但其讀長能夠達到700bp,能夠輕松與參考基因組進行比對(如果存在參考基因組),也能方便地在樣品之間相互比對。Teiling說,其生成的“isotigs”(RNA重疊群contigs)可以用于檢測轉錄本結構和等位基因差異,識別新的剪切突變、基因多態性和融合基因等事件。
在2011年的一項研究中,454(包括Teiling)的研究人員就與康奈爾大學合作在GS FLX Titanium平臺上對馴化和野性的銀狐(這種哺乳動物的基因組DNA序列未知)進行了相互比較,隨后又與家養犬基因組進行了比對。在研究過程中,他們 “識別了三萬多個高度可信的銀狐特異性SNP,以及與狗直系同源的14,000個銀狐基因,并且發現在前額葉中馴化和野性銀狐的基因表達存在重要差異。”
數據分析
目前,測序當然并不是難事,重點在于有效的數據分析。而RNA-seq這一新興技術在這一方面還面臨著一些障礙,Marioni說。其中之一就是數據分析并不容易,僅將讀序與參考基因組相比對這一步,就需要“至少六十種算法,”他說。而多種多樣或免費或商業化的數據分析工具更讓人眼花繚亂,
總的來說,RNA-seq的數據分析與其他測序分析并不相同。基因組DNA測序的目的主要是組裝基因組或者檢測基因突變,而RNA-seq的目標往往是檢測轉錄本的量。RNA-seq數據分析首先要將讀序與參考序列比對,而這里就存在兩種不同途徑,與參考基因組比對或者與轉錄組比對。由于前者包含了剪切點信息,那么分析軟件就必須要能夠進行處理。
Marioni推薦的是分析RNA-seq數據的BOWTIE和BWA軟件,以及一些類似的公開又免費的command-line工具,對計算機內行的研究者們可以將這些軟件捆綁成為“pipelines”。當然,您也可以使用測序儀自帶軟件進行分析,或者干脆把分析工作外包給線上數據分析平臺(如DNAnexus)或者SeqWright等服務供應商。
這類分析所得的結果通常是列出在實驗中表達水平發生改變的基因,而從這張清單中得出怎樣的結論,要選擇哪些基因進行后續研究,就完全取決于用戶了!霸S多轉化醫學研究人員需要根據這些信息來決定后續實驗,以便把研究的重心放在與所研究表型緊密相關的通路和生物標志上,”Ingenuity Systems公司的iReport™科學帶頭人Megan Laurance說,他們開發了iReport軟件。
iReport是一個以網絡為基礎的分析軟件,能夠幫助研究人員識別其RNA-seq數據背后的相關生物學通路。Ingenuity Systems公司的知識庫包含了來自生物醫學文獻和相關數據庫的近五百萬研究結果,而iReport軟件就是在此基礎上建立起來的,能夠有效幫助用戶識別關鍵基因和生物學過程。
“我們iReport的目標是……為研究者們提供快速簡單的數據分析工具,幫助用戶了解RNA-seq數據中所包含的生物學信息,”Laurance說,花$495就可以得到一份這樣的報告。
(Jeffrey M. Perkel撰寫/yeyu編譯)
參考文獻
[1] Perry, GH, et al., “Comparative RNA sequencing reveals substantial genetic variation in endangered primates,” Genome Res, 22:602-10, 2012.
[2] Kukekova, et al., “Sequence comparison of prefrontal cortical brain transcriptome from a tame and an aggressive silver fox (Vulpes vulpes),” BMC Genomics, 12:482, 2011.