- 首頁(yè) 今日動(dòng)態(tài) 人才市場(chǎng) 新技術(shù)專欄 中國(guó)科學(xué)人 云展臺(tái) 云講堂直播 會(huì)展中心 特價(jià)專欄 技術(shù)快訊 免費(fèi)試用

-
生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏
PacBio RS第三代單分子測(cè)序系統(tǒng)全球訪談紀(jì)要(二)[心得點(diǎn)評(píng)]
主題二:PacBio RS系統(tǒng)在de novo測(cè)序中的優(yōu)勢(shì)
【字體: 大 中 小 】 時(shí)間:2012年12月28日 來(lái)源:生物通
編輯推薦:
第三代單分子測(cè)序技術(shù)還值得繼續(xù)關(guān)注嗎?當(dāng)然!PacBio最新升級(jí)的商品化試劑使得用戶平均測(cè)序讀長(zhǎng)達(dá)到了前所未有的5000bp!PacBio單分子實(shí)時(shí)測(cè)序到底怎么樣?生物通就幾個(gè)廣受關(guān)注的主題征詢收集了眾多聲名赫赫的PacBio用戶的心得意見(jiàn),以用戶現(xiàn)身說(shuō)法的方式,“原汁原味”為您呈上這一第三代單分子測(cè)序系統(tǒng)全球訪談紀(jì)要系列報(bào)道。
主題二:PacBio RS系統(tǒng)在de novo測(cè)序中的優(yōu)勢(shì)具體來(lái)說(shuō)如何體現(xiàn)?
Michael Hunkapiller:
“PacBio正逐漸成為基因組譜圖完整化的金標(biāo)準(zhǔn),它的技術(shù)亮點(diǎn)尤其體現(xiàn)在微生物領(lǐng)域。”
Eric Schadt:
“這些微生物對(duì)我們的影響程度遠(yuǎn)比我們的想象要深遠(yuǎn)得多,即使在微生物世界也存在超乎想象的復(fù)雜交流網(wǎng)絡(luò),所以我們首次有能力在全基因組范圍內(nèi)解析微生物結(jié)構(gòu)的勝利,在微生物界是一個(gè)實(shí)實(shí)在在的革新。”
我們對(duì)疫情爆發(fā)菌株采用PacBio單分子測(cè)序的方法,依賴長(zhǎng)讀長(zhǎng)優(yōu)勢(shì)獲得的基因組序列包含33個(gè)Contig,這比早期報(bào)道的用NGS測(cè)序法獲得的包含超過(guò)300個(gè)Contig的結(jié)果優(yōu)化了10倍。再結(jié)合已有的二代數(shù)據(jù),我們最終把Contig數(shù)縮減至1個(gè)。“PacBio RS平臺(tái)的通量足夠在一天之內(nèi)完成對(duì)微生物基因組的完整測(cè)序。”
“從樣本制備到測(cè)序結(jié)果,平均只需8小時(shí),平均讀長(zhǎng)為2,900 bp,而最長(zhǎng)的讀長(zhǎng)達(dá)到7,800 bp,再結(jié)合CCS環(huán)形一致序列測(cè)序模式,實(shí)現(xiàn)了非常高的單分子準(zhǔn)確性,最后完整拼接。在此項(xiàng)目證實(shí)了PacBio在復(fù)雜微生物病原體的de novo測(cè)序的能力,以及在多個(gè)基因組快速測(cè)序上的威力,這些有助于闡明病原體微生物的進(jìn)化史。”
“我們的測(cè)序方式有別于其他組織的工作。”早期工作僅對(duì)一種菌株進(jìn)行測(cè)序,這樣的結(jié)果根本無(wú)法真實(shí)地揭示出致病菌株的起源和進(jìn)化史。我們則用PacBio總共測(cè)了1個(gè)疫情爆發(fā)菌株、6個(gè)非洲臨床分離的EAEC菌株、及5個(gè)EAEC參考菌株共12株,在與爆發(fā)菌株相同血清型的多種菌株中進(jìn)行對(duì)比,同時(shí)調(diào)用了之前41株菌的測(cè)序信息。比較的重心不僅落在SNP差異上,同時(shí)還落在結(jié)構(gòu)變異上。
“我們最終的發(fā)現(xiàn)跟早期結(jié)果恰恰相反,疫情爆發(fā)菌株的起源應(yīng)該是腸聚集性菌株EAEC(而不是腸出血性菌株EHEC),我們?cè)?種同一血清型的菌株中進(jìn)行了序列對(duì)比,它們跟疫情爆發(fā)菌株吻合得天衣無(wú)縫。這兩種菌株有根本區(qū)別,話說(shuō)回來(lái)細(xì)菌確實(shí)很懂得偽裝。”PacBio長(zhǎng)讀長(zhǎng)的特點(diǎn)非常適合于發(fā)現(xiàn)結(jié)構(gòu)變異,我們?cè)谝咔楸l(fā)菌株中就發(fā)現(xiàn)了這么一個(gè)特有的結(jié)構(gòu)變異,而在其他組織公布的爆發(fā)菌株序列中就沒(méi)有涵蓋該信息。這就說(shuō)明如果只用二代的數(shù)據(jù),那么結(jié)構(gòu)變異的信息就可能會(huì)完全丟失,或者說(shuō)二代技術(shù)需要和其他技術(shù)手段結(jié)合才能夠彌補(bǔ)。
我們絕不是運(yùn)氣好,在年初解讀海地霍亂疫情爆發(fā)菌株時(shí),PacBio RS系統(tǒng)的威力就開(kāi)始呈現(xiàn)了。我們僅用了一個(gè)月左右的時(shí)間完成分析并發(fā)表結(jié)果,只需要3個(gè)小時(shí)就可以得到5個(gè)菌株12X覆蓋度的數(shù)據(jù)。
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)5/7、參考影像4/6、生物通往期文章2/3。
Hyun Park:
極地微生物生存在正常生物無(wú)法生存的環(huán)境中,具有很大的研究?jī)r(jià)值。最好的方法是對(duì)極地微生物進(jìn)行de novo測(cè)序,從根本上揭示它們的生物學(xué)信息。“然而,極地微生物基因組中的GC含量普遍較高,這種極端性會(huì)給de novo測(cè)序帶來(lái)很大難度。”
盡管一開(kāi)始我們就有心理準(zhǔn)備,但項(xiàng)目開(kāi)展過(guò)程出現(xiàn)的接踵而來(lái)的苦難遠(yuǎn)遠(yuǎn)超出我們的想象。我們真的吃盡了苦頭,因?yàn)槲覀兠鎸?duì)的是一株GC含量高達(dá)71%的極端菌株,基因組大小在7.6 M。“誰(shuí)想得到,即使利用Illumina平臺(tái)進(jìn)行200X深度測(cè)序,仍無(wú)法獲得完整的基因組圖。這還僅是個(gè)小基因組,組裝時(shí)竟然產(chǎn)生了185 個(gè)Contig,而且缺口數(shù)量太多,根本無(wú)法通過(guò)Sanger法有效補(bǔ)齊。”
“我們別無(wú)他法,只好求助于PacBio,因?yàn)閺脑砩现v,它沒(méi)有GC偏好性,這點(diǎn)將對(duì)我們幫助極大。最后我們僅僅用15X覆蓋度就能組裝得到26個(gè)Contig,缺口數(shù)量也大大減少,最終首次獲得了該細(xì)菌的完整基因組信息。”
注: 詳情請(qǐng)見(jiàn)生物通往期文章4。
Timothy Smith:
“如果是從疾病的臨床診斷角度而言,我們是沒(méi)有必要要求所有的諸如傳染病源微生物的基因組圖都是完整的組裝圖,也沒(méi)有必要為了分析遺傳變異而對(duì)病人個(gè)體通通進(jìn)行de novo完整測(cè)序。從這個(gè)角度出發(fā),拼個(gè)草圖甚至搭個(gè)基因組框架就夠了,NGS的數(shù)據(jù)在很多場(chǎng)合就可以做到了,可能連混合拼接的方法都用不上。但是,請(qǐng)千萬(wàn)不要忘了,擁有一些至關(guān)重要的微生物完整基因組結(jié)構(gòu)圖的需求是一直存在的,尤其是比如出現(xiàn)在某種傳染病暴發(fā)或重大研究項(xiàng)目等情形中。”
“(在羊病微生物基因組de novo測(cè)序項(xiàng)目中)我們利用PacBio大于6 Kb的讀長(zhǎng)數(shù)據(jù),只用了20X覆蓋度就拼出了1個(gè)Contig,而且這一個(gè)Contig即是一條染色體。同時(shí),我們發(fā)現(xiàn)混合拼接也是行之有效的方法,不再需要人工拼接的繁瑣過(guò)程,既快又省。我們?cè)谶@方面就頗有心得,我們用PacBio的ToCA算法來(lái)糾錯(cuò),結(jié)合OLC方法進(jìn)行拼接,最后得到幾近完美的微生物基因組圖。”
注: 詳情請(qǐng)見(jiàn)參考影像9、生物通往期文章2。
生物通往期文章
1. Nature子刊:?jiǎn)畏肿訙y(cè)序揭示鸚鵡模仿能力
2. PacBio RS第三代單分子測(cè)序系統(tǒng)全球訪談紀(jì)要(一)
3. 單分子測(cè)序技術(shù)助力歐洲大腸桿菌研究
4. 單分子測(cè)序解決“極端”基因組組裝難題
5. 單分子測(cè)序輕松升級(jí)參考基因組

Christopher Mason:
我們發(fā)現(xiàn),PacBio的長(zhǎng)讀長(zhǎng)優(yōu)勢(shì)不僅可以應(yīng)用到微生物基因組de novo完整測(cè)序中,還可以應(yīng)用到大型基因組的草圖升級(jí)工作中。比如我們?cè)隈R達(dá)加斯加指猴(Aye Aye)基因組測(cè)序項(xiàng)目中,僅用了0.5X覆蓋度的PacBio長(zhǎng)讀長(zhǎng)數(shù)據(jù)(C1試劑),就可以對(duì)原始38X覆蓋度的Illumina短讀長(zhǎng)數(shù)據(jù)拼接起到令人震驚的促進(jìn)作用。“長(zhǎng)讀長(zhǎng)數(shù)據(jù)幫助我們把大量的短小Contig進(jìn)行橋聯(lián),效果明顯,省了不少后期的拼接時(shí)間。”最終無(wú)論是Contig數(shù)量還是Scaffold數(shù)量都縮減至原始的1/10,N25和N50提升了2-3倍,N75提升了近10倍。
注: 詳情請(qǐng)見(jiàn)參考影像2/3/5。
David Jaffe:
眾所周知,NGS的廣泛應(yīng)用使我們輕松獲得了無(wú)數(shù)基因組草圖,但隨后的基因圖譜精細(xì)化或者說(shuō)填縫過(guò)程主要還是依賴PCR和Sanger測(cè)序,這個(gè)過(guò)程太昂貴太痛苦了,翻來(lái)覆去的猜測(cè)、微調(diào)、人工糾錯(cuò)等過(guò)程,用計(jì)算機(jī)術(shù)語(yǔ)來(lái)講就是“迭代”。
“誰(shuí)都不希望看到這樣,因?yàn)闅v經(jīng)多年耗資龐大,但真正完成的真核大基因組寥寥可數(shù),即使如微生物這樣的小基因組,由于存在某些區(qū)域的堿基復(fù)雜性,真正完成的微生物基因組完整圖也不多。所以我們決定接受這樣一個(gè)挑戰(zhàn),我們的初衷是想把基因組組裝工作從昂貴、費(fèi)時(shí)、繁瑣的人工時(shí)代拉入到一個(gè)全新的低耗全自動(dòng)時(shí)代。”
盡管Illumina的錯(cuò)誤率比PacBio低,但它的讀長(zhǎng)太短,給拼接工作帶來(lái)很多麻煩。“鑒于取長(zhǎng)補(bǔ)短,把Illumina和PacBio結(jié)合起來(lái)是行得通的。”
“我們同時(shí)也看到了PacBio數(shù)據(jù)里所包含的Illumina無(wú)法給出的信息,比如PacBio測(cè)序前DNA無(wú)需擴(kuò)增,用DNA聚合酶進(jìn)行單分子合成可以跨越基因組上一些以往Illumina無(wú)法到達(dá)的高GC和高重復(fù)區(qū)域,最終在基因組的覆蓋程度達(dá)到空前的一致,這一點(diǎn)太重要了。”
我們研究組先用Illumina數(shù)據(jù)拼出了Rhodobacter細(xì)菌的Scaffold,然后用PacBio的長(zhǎng)讀長(zhǎng)數(shù)據(jù)去填補(bǔ)Gap。在加入PacBio數(shù)據(jù)之前,一個(gè)Scaffold包含22個(gè)Contig,加入PacBio數(shù)據(jù)后,結(jié)果立即改觀,“拼成了一個(gè)巨大的Contig”。接下的工作,我們期望把PacBio長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì)最大化發(fā)揮,比如應(yīng)用到微生物De novo測(cè)序和SNP驗(yàn)證中。
我們同期啟用了三套數(shù)據(jù),Illumina的Paired-end數(shù)據(jù)、PacBio數(shù)據(jù)(C1試劑)、以及跨長(zhǎng)片段接頭處的Jumping-pair數(shù)據(jù),發(fā)現(xiàn)無(wú)論如何拼接,長(zhǎng)度長(zhǎng)數(shù)據(jù)對(duì)獲得良好的基因組裝配結(jié)果是必須的,而Illumina短片段數(shù)據(jù)可以被去除,因?yàn)镴umping-pair數(shù)據(jù)就可以提供足夠精確的覆蓋度了,今后隨著PacBio的長(zhǎng)讀長(zhǎng)和自我糾錯(cuò)能力改善(比如HGAp和Quiver),可能Jumping-pair也不需要了。通過(guò)這個(gè)辦法,我們共測(cè)了16個(gè)細(xì)菌樣品,其中有3個(gè)已經(jīng)存在完整的參考序列。“我們驚人地發(fā)現(xiàn),其中2個(gè)已有的參考序列還不如我們這次測(cè)序的結(jié)果來(lái)得精確。”
談到花費(fèi),混合拼接的方法至少幫我們從試劑和人力消耗上省掉了12000美金。
我們開(kāi)發(fā)的這套新型算法已經(jīng)整合到了Broad研究院之前開(kāi)發(fā)的ALLPATHS-LG軟件里,輸入長(zhǎng)讀長(zhǎng)數(shù)據(jù)后該模塊會(huì)自動(dòng)啟動(dòng),組裝出完整的基因組。“在混合拼接基礎(chǔ)上,我們還將對(duì)外提供微生物基因組測(cè)序、組裝、精細(xì)化等服務(wù),專門成立一個(gè)服務(wù)中心。”
當(dāng)下確實(shí)也沒(méi)有其他方法可以提供類似于PacBio給出的超長(zhǎng)且覆蓋不失公允的讀長(zhǎng)信息,對(duì)大型基因組的組裝探索我們還在繼續(xù)。
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)1。
生物通往期文章
1. Nature子刊:?jiǎn)畏肿訙y(cè)序揭示鸚鵡模仿能力
2. PacBio RS第三代單分子測(cè)序系統(tǒng)全球訪談紀(jì)要(一)
3. 單分子測(cè)序技術(shù)助力歐洲大腸桿菌研究
4. 單分子測(cè)序解決“極端”基因組組裝難題
5. 單分子測(cè)序輕松升級(jí)參考基因組

Michael Schatz:
我們的項(xiàng)目集中在基因組組裝上,主要是最后一步修補(bǔ)基因組缺口環(huán)節(jié)。以往的方法當(dāng)然是Sanger法,這是昔日的金標(biāo)準(zhǔn)。“隨之而來(lái)的是二代短讀長(zhǎng)技術(shù),這個(gè)技術(shù)固然有它的優(yōu)點(diǎn),比如花費(fèi)最少,但在組裝環(huán)節(jié)更多的效果是南轅北轍。”二代數(shù)據(jù)產(chǎn)生的最大特色就是海量的Contig、重復(fù)序列、以及某些特殊區(qū)域的缺失。如果不是花費(fèi)問(wèn)題,我們寧愿用Sanger法組裝,而不是一味用二代提高覆蓋度。
“因?yàn)槲覀冃睦锖芮宄套x長(zhǎng)里面就是無(wú)法包含我們想要的信息。”當(dāng)PacBio的長(zhǎng)讀長(zhǎng)技術(shù)出現(xiàn)的時(shí)候,我們眼前一亮,覺(jué)得可以一試,以便走出多年受困的陰霾。“三代長(zhǎng)讀長(zhǎng)所包含的信息要遠(yuǎn)遠(yuǎn)超過(guò)二代短讀長(zhǎng)。對(duì)于短讀長(zhǎng),哪怕無(wú)限制地提高覆蓋度也不能解決復(fù)雜區(qū)域的測(cè)序問(wèn)題。但長(zhǎng)讀長(zhǎng)可以跨越這次復(fù)雜區(qū)域,因此不需要太高的覆蓋度就可以對(duì)付。同理,長(zhǎng)讀長(zhǎng)也可以用于檢測(cè)并鑒定單倍體型和轉(zhuǎn)錄本的可變剪切。”
“我們想到的辦法就是結(jié)合二代和三代各自的優(yōu)勢(shì)。”為了應(yīng)對(duì)三代測(cè)序中出現(xiàn)的堿基錯(cuò)誤問(wèn)題,我們開(kāi)發(fā)了一種糾錯(cuò)算法,用二代短讀長(zhǎng)高精確數(shù)據(jù)對(duì)三代長(zhǎng)讀長(zhǎng)數(shù)據(jù)進(jìn)行糾錯(cuò),這個(gè)方法我們把它叫做“混合糾錯(cuò)拼接”。通過(guò)混合糾錯(cuò)法,我們發(fā)現(xiàn)“數(shù)據(jù)幾近完美”。
我們先后嘗試了幾種方案,先是采用Illumina短讀長(zhǎng)數(shù)據(jù)進(jìn)行組裝,用PacBio長(zhǎng)讀長(zhǎng)數(shù)據(jù)進(jìn)行比對(duì),結(jié)果發(fā)現(xiàn)弄不下去。總有這樣那樣的問(wèn)題困擾短讀長(zhǎng)組裝,比如片段太零散或者局部坍塌,很難有效利用起來(lái)。“于是我們放棄了這種我們戲稱為‘暴力拼接’的方式,取而代之以先糾錯(cuò)后組裝的方法。”即用Illumina短讀長(zhǎng)數(shù)據(jù)先給PacBio長(zhǎng)讀長(zhǎng)數(shù)據(jù)糾錯(cuò),再用修正過(guò)的長(zhǎng)讀長(zhǎng)數(shù)據(jù)組裝。我們也同時(shí)采用了用PacBio的CCS數(shù)據(jù)為長(zhǎng)讀長(zhǎng)數(shù)據(jù)糾錯(cuò),效果同樣好。“所以我們講的‘混合糾錯(cuò)拼接’方法是一個(gè)廣義的范疇。”我們?cè)O(shè)法升級(jí)了公共基因組裝配程序Celera Assembler,生成的裝配結(jié)果準(zhǔn)確性達(dá)到99.9%,Contig平均長(zhǎng)度是NGS所能達(dá)到的兩倍以上。
談到經(jīng)驗(yàn)就不能一概而論了,但我們?cè)囅聛?lái),對(duì)于短讀長(zhǎng),無(wú)論產(chǎn)自Illumina還是454甚至或者是PacBio CCS模式,短讀長(zhǎng)的覆蓋度達(dá)到25-50X就足夠了,對(duì)于PacBio的長(zhǎng)讀長(zhǎng)覆蓋度要求不高,適中就可以了。有長(zhǎng)讀長(zhǎng)幫忙,使得“一條染色體,一個(gè)重疊群”的目標(biāo)實(shí)現(xiàn)變得清晰。
為了驗(yàn)證這個(gè)算法,我們嘗試了多個(gè)生物物種測(cè)序應(yīng)用,小到噬菌體病毒,中到酵母、玉米,大到復(fù)雜的鸚鵡基因組,都得到了正面反饋。
“高效快速的de novo拼接有助于發(fā)現(xiàn)大片段的結(jié)構(gòu)變異,對(duì)理解癌癥基因組和存在融合基因、拷貝數(shù)變異和大范圍結(jié)構(gòu)變異的疾病遺傳變化具有重要意義。”
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)2、參考影像7/10/11/12、生物通往期文章1/2。
Adam Phillippy:
我們率先使用Illumina或Roche 454等二代短讀長(zhǎng)數(shù)據(jù)去為PacBio單分子長(zhǎng)讀長(zhǎng)數(shù)據(jù)進(jìn)行糾錯(cuò),并開(kāi)發(fā)了一套糾錯(cuò)算法。接著我們?cè)诙喾N物種中驗(yàn)證了這一糾錯(cuò)算法,比如大腸桿菌基因組、酵母基因組、以及玉米轉(zhuǎn)錄組等,發(fā)現(xiàn)可以把單分子測(cè)序正確率從83%提高至99.9%。我們還將這一混合糾錯(cuò)策略應(yīng)用到高等物種比如虎皮鸚鵡基因組測(cè)序項(xiàng)目中。
在未來(lái)的工作中,我們希望把這套算法應(yīng)用到人們經(jīng)常忽略的基因組非編碼區(qū)中。“人們用測(cè)序法往往只關(guān)心編碼基因信息,這樣的話就丟失了基因的結(jié)構(gòu)信息。非編碼區(qū)包含的結(jié)構(gòu)信息之前從未被清晰揭示過(guò),這些區(qū)域包含太多大片段的重復(fù)序列,無(wú)論是讀取還是組裝,用二代短讀長(zhǎng)的方法可以說(shuō)是捉襟見(jiàn)肘。”
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)2、參考影像7/10/11/12、生物通往期文章1/2。
Erich Jarvis:
我們致力于鳥(niǎo)類鳴聲系統(tǒng)研究,認(rèn)為不同物種間的鳴聲學(xué)習(xí)方式不同源于編碼蛋白的表達(dá)量不同,而非蛋白種類的不同,這一結(jié)果我們猜測(cè)由基因的非編碼區(qū)結(jié)構(gòu)不同導(dǎo)致。“如果沒(méi)有一套行之有效的非編碼區(qū)組裝方法,那么我們輕易下手做這些實(shí)驗(yàn)就等于是異想天開(kāi)。”
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)2、參考影像7/10/11/12、生物通往期文章1/2。
Elaine Mardis:
混合糾錯(cuò)后獲得的長(zhǎng)讀長(zhǎng)數(shù)據(jù)非常適合于一些特定場(chǎng)合的研究。“比如混合糾錯(cuò)對(duì)轉(zhuǎn)錄組研究可能很管用,因?yàn)閱未伍L(zhǎng)讀長(zhǎng)就可以跨越整個(gè)mRNA,所以可以很好地解讀可變剪切的多種方式,即為什么單一轉(zhuǎn)錄本可以獲得多種編碼蛋白。”
生物通往期文章
1. Nature子刊:?jiǎn)畏肿訙y(cè)序揭示鸚鵡模仿能力
2. PacBio RS第三代單分子測(cè)序系統(tǒng)全球訪談紀(jì)要(一)
3. 單分子測(cè)序技術(shù)助力歐洲大腸桿菌研究
4. 單分子測(cè)序解決“極端”基因組組裝難題
5. 單分子測(cè)序輕松升級(jí)參考基因組

Mark Chaisson:
“考慮到PacBio的超長(zhǎng)讀長(zhǎng)和隨機(jī)誤差的特性,之前基于二代短讀長(zhǎng)設(shè)計(jì)的比對(duì)算法未必能從容應(yīng)對(duì),不是不準(zhǔn)就是太慢,所以我們必須開(kāi)發(fā)出一套自己的能應(yīng)用于DNA組裝的軟件。”BLASR就是這樣應(yīng)運(yùn)而生的,它將是單分子測(cè)序長(zhǎng)讀長(zhǎng)比對(duì)的標(biāo)準(zhǔn),特別針對(duì)PacBio的超長(zhǎng)讀長(zhǎng)和主要因插入缺失導(dǎo)致的隨機(jī)誤差糾錯(cuò)。“我們的要求很簡(jiǎn)單,就是既快又準(zhǔn)。”我們將BLASR跟現(xiàn)有的經(jīng)典二代組裝軟件進(jìn)行了比較和相互借鑒,比如BWA-SW。相比BWA-SW,在比對(duì)48X覆蓋度的大腸桿菌數(shù)據(jù)庫(kù)時(shí),BLASR在處理速度上有了95%的提升,錯(cuò)配的區(qū)域很少;在比對(duì)覆蓋度較少的人類基因組數(shù)據(jù)庫(kù)時(shí),BLASR的處理速度也有了成倍的改善。未來(lái),BLASR將進(jìn)一步和Celera和ALLORA等組裝軟件進(jìn)行整合。
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)3、參考影像4/7/13。
Adam English:
“我們專門開(kāi)發(fā)了高度自動(dòng)化的工具PBJelly,能夠?qū)acBio長(zhǎng)片段與基因組草圖進(jìn)行比對(duì),填補(bǔ)或減少草圖中的缺口,從而完善基因組草圖。”比如在果蠅基因組中,利用24X覆蓋度的PacBio數(shù)據(jù)填補(bǔ)了69%的殘留Gap;在虎皮鸚鵡基因組中,利用4X覆蓋度的PacBio數(shù)據(jù)填補(bǔ)了32%的殘留Gap;在白眉猴基因組中,利用6.8X覆蓋度的PacBio數(shù)據(jù)填補(bǔ)了66%的殘留Gap。后續(xù)我們用Sanger測(cè)序法進(jìn)行了準(zhǔn)確性驗(yàn)證。“當(dāng)你糾結(jié)于手頭PacBio數(shù)據(jù)的覆蓋度不夠高時(shí),PBJelly也許能給你意向不到的拼接效果。”
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)4、參考影像1/8、生物通往期文章2/5。
Edwin Hauw:
PacBio現(xiàn)在有一系列的軟件算法可供選擇,比如AHA 、ALLORA、ALLPATHS-LG、Celera Assembler、MIRA等。其中AHA更適合搭建基因組草圖框架,其余幾個(gè)程序更適合混合拼接,ALLORA還可以用來(lái)做de novo組裝,但需要配合P_ErrorCorrection手工糾錯(cuò)。除此之外,我們還在和其他研究機(jī)構(gòu)合作開(kāi)發(fā)一些優(yōu)化的軟件算法,用于不同的場(chǎng)合。比如新開(kāi)發(fā)的LSC長(zhǎng)讀長(zhǎng)糾錯(cuò)法,在轉(zhuǎn)錄組和RNA測(cè)序方面就比pacBioToCA更加優(yōu)異。當(dāng)然也有其他機(jī)構(gòu)在自行開(kāi)發(fā)適合于自身應(yīng)用的軟件,比如Baylor醫(yī)學(xué)院開(kāi)發(fā)的PBJelly軟件等。
“我想說(shuō),不同物種的基因組復(fù)雜程度千差萬(wàn)別,因此沒(méi)有一個(gè)算法是萬(wàn)能的,懂得選擇很重要。”比如,當(dāng)PacBio數(shù)據(jù)覆蓋度很高時(shí),Celera Assembler和ALLORA是最佳混合拼接解決方案;當(dāng)覆蓋度不高時(shí),可以考慮AHA或者PBJelly,這兩個(gè)比較適合于基因組草圖升級(jí)工作。相比較只能處理200M基因組的AHA,PBJelly的優(yōu)勢(shì)在于可以應(yīng)付G級(jí)基因組。即使有些場(chǎng)合可以通用,但AHA勝在既可連接Contig也可填補(bǔ)Gap,而PBJelly則勝在精細(xì)填補(bǔ)Gap的能力上,它不會(huì)去連接Contig。
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)3、參考影像4/7/13。
Jonas Korlach:
盡管目前業(yè)內(nèi)人士對(duì)二代和三代數(shù)據(jù)混合使用的方式很感興趣,但事實(shí)上我們正想方設(shè)法去避免類似的事情發(fā)生。“技術(shù)正在不斷變革,我們不認(rèn)為這種方法(指混合糾錯(cuò)或混合拼接)在以后還將是所謂的典范。我們已經(jīng)在拼接算法開(kāi)發(fā)上取得了很大進(jìn)展,只用PacBio自身的數(shù)據(jù)進(jìn)行層次組裝(Hierarchical Genome Assembly Process,HGAp),即以相對(duì)較長(zhǎng)的讀長(zhǎng)數(shù)據(jù)為種子(Seeding Reads),以相對(duì)較短的讀長(zhǎng)數(shù)據(jù)用于內(nèi)部糾錯(cuò)。這個(gè)時(shí)候得到的讀長(zhǎng)數(shù)據(jù)足夠長(zhǎng)也足夠準(zhǔn)確,完全可以用于獨(dú)立的de novo組裝,而無(wú)需二代數(shù)據(jù)幫忙。”HGAp的出現(xiàn)意味著可以不依賴于二代測(cè)序數(shù)據(jù)進(jìn)行混合拼接,也可以不依賴于PacBio的CCS環(huán)形比對(duì)模式糾錯(cuò),只需要通過(guò)PacBio的CLR連續(xù)長(zhǎng)讀長(zhǎng)模式就可以進(jìn)行獨(dú)立糾錯(cuò)和拼接,最終結(jié)果“在20X覆蓋度下的正確率超過(guò)99.999%(QV54.5)”,而SMRT Cell的消耗量卻只有之前的50%。目前HGAp已經(jīng)發(fā)布到DevNet上。我們同期還開(kāi)發(fā)了改良版的一致序列算法稱之為Quiver,也發(fā)布到網(wǎng)上共享,該算法內(nèi)嵌了Markov模型,在Base Calling設(shè)置上可以進(jìn)一步降低一致序列的生成錯(cuò)誤率。我們建議把HGAp用在基因組組裝和拼接上,把Quiver用在最終的基因組打磨(Polishing)工作,用組合的方式在精確度上進(jìn)行Doublecheck。
Michael Schatz:
長(zhǎng)度長(zhǎng)測(cè)序“完全有能力”解析諸如人類基因組等復(fù)雜基因組。“在文章中我們用PacBio的長(zhǎng)讀長(zhǎng)數(shù)據(jù)改善了1.2 Gb鸚鵡基因組的de novo組裝,現(xiàn)在我們又開(kāi)始嘗試對(duì)幾種水稻和線蟲(chóng)進(jìn)行de novo測(cè)序。在不久的將來(lái),我們計(jì)劃只通過(guò)長(zhǎng)讀長(zhǎng)法(HGAp)對(duì)人類和小麥基因組進(jìn)行獨(dú)立測(cè)序并組裝。隨著PacBio讀長(zhǎng)和通量的不斷改善,我希望我們還能看到更多的應(yīng)用。光去年一年,PacBio將讀長(zhǎng)和通量提升了3-4倍,而且根據(jù)他們的Roadmap這個(gè)趨勢(shì)還將繼續(xù)到下一年。”
注: 詳情請(qǐng)見(jiàn)參考文獻(xiàn)2、參考影像7/10/11/12、生物通往期文章1/2。
參考文獻(xiàn)
1. Finished bacterial genomes from shotgun sequence data. Ribeiro FJ, Przybylski D, Yin S, Sharpe T, Gnerre S, Abouelleil A, Berlin AM, Montmayeur A, Shea TP, Walker BJ, Young SK, Russ C, Nusbaum C, Maccallum I, Jaffe DB. Genome Res. 2012 Nov;22(11):2270-7.
http://genome.cshlp.org/content/22/11/2270.long
2. Hybrid error correction and de novo assembly of single-molecule sequencing reads. Koren S, Schatz MC, Walenz BP, Martin J, Howard JT, Ganapathy G, Wang Z, Rasko DA, McCombie WR, Jarvis ED, Adam M Phillippy. Nat Biotechnol. 2012 Jul 1;30(7):693-700.
http://www.nature.com/nbt/journal/v30/n7/full/nbt.2280.html
3. Mapping single molecule sequencing reads using Basic Local Alignment with Successive Refinement (BLASR): Theory and Application. Chaisson MJ, Tesler G. BMC Bioinformatics. 2012 Sep 19;13(1):238.
http://www.biomedcentral.com/1471-2105/13/238
4. Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology. English AC, Richards S, Han Y, Wang M, Vee V, Qu J, Qin X, Muzny DM, Reid JG, Worley KC, Gibbs RA. PLoS One. 2012;7(11):e47768.
http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0047768)
5. Origins of the E. coli strain causing an outbreak of hemolytic-uremic syndrome in Germany. Rasko DA, Webster DR, Sahl JW, Bashir A, Boisen N, Scheutz F, Paxinos EE, Sebra R, Chin CS, Iliopoulos D, Klammer A, Peluso P, Lee L, Kislyuk AO, Bullard J, Kasarskis A, Wang S, Eid J, Rank D, Redman JC, Steyert SR, Frimodt-Møller J, Struve C, Petersen AM, Krogfelt KA, Nataro JP, Schadt EE, Waldor MK. N Engl J Med. 2011 Aug 25;365(8):709-17.
http://www.nejm.org/doi/full/10.1056/NEJMoa1106920
6. Pacific biosciences sequencing technology for genotyping and variation discovery in human data. Carneiro MO, Russ C, Ross MG, Gabriel SB, Nusbaum C, DePristo MA. BMC Genomics. 2012 Aug 5;13:375.
http://www.biomedcentral.com/1471-2164/13/375
7. The origin of the Haitian cholera outbreak strain. Chin CS, Sorenson J, Harris JB, Robins WP, Charles RC, Jean-Charles RR, Bullard J, Webster DR, Kasarskis A, Peluso P, Paxinos EE, Yamaichi Y, Calderwood SB, Mekalanos JJ, Schadt EE, Waldor MK. N Engl J Med. 2011 Jan 6;364(1):33-42.
http://www.nejm.org/doi/full/10.1056/NEJMoa1012928
參考影像
1. PacBio AGBT 2012 English
2. PacBio AGBT 2012 Mason
3. PacBio AGBT 2012 Testimonial Mason
4. Virtual Poster: De Novo Microbial Sequencing with Hybrid PacBio Genome Assemblies, Lawrence Hon (Pacific Biosciences)
5. Virtual Poster: Hybrid Assembly of a Nocturnal Lemur, Chris Mason (Weill Cornell Medical College)
6. Virtual Poster: Hybrid Assembly of Novel Bacterial Genomes, Ali Bashir (Mt. Sinai)
7. Virtual Poster: Understanding Single Molecule Accuracy, John Eid (Pacific Biosciences)
8. Virtual Poster: Upgrading Reference Genomes with PacBio Long Read Sequencing, Adam English (Baylor)
9. Webinar: Applications of SMRT® Technology to Livestock Research, Timothy Smith (USDA)
10. Webinar: De-Novo Assembly of a Vertebrate Genome using PacBio Hybrids with Other Sequencing Technologies, Erich Jarvis (Duke University)
11. Webinar: Error Correction and De Novo Assembly of Complex Genomes, Mike Schatz (CSHL).
12. Webinar: Hybrid Error Correction and De Novo Assembly of Single-Molecule Sequencing Reads, Adam Phillippy & Sergey Koren (NBACC)
13. Webinar: Revealing the Genome through SMRT Biology, Kerstin Stangier (GATC Biotech)
生物通往期文章
1. Nature子刊:?jiǎn)畏肿訙y(cè)序揭示鸚鵡模仿能力
2. PacBio RS第三代單分子測(cè)序系統(tǒng)全球訪談紀(jì)要(一)
3. 單分子測(cè)序技術(shù)助力歐洲大腸桿菌研究
4. 單分子測(cè)序解決“極端”基因組組裝難題
5. 單分子測(cè)序輕松升級(jí)參考基因組
今日動(dòng)態(tài) | 人才市場(chǎng) | 新技術(shù)專欄 | 中國(guó)科學(xué)人 | 云展臺(tái) | BioHot | 云講堂直播 | 會(huì)展中心 | 特價(jià)專欄 | 技術(shù)快訊 | 免費(fèi)試用
版權(quán)所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號(hào)