De novo assembly of microbial genomes from human gut metagenomes using barcoded short read sequences
利用帶標簽的短讀長序列對人體腸道微生物的基因組進行de novo組裝
Moss E, Bishara A, Tkachenko E, et al.?
2017年4月
doi: http://dx.doi.org/10.1101/125211
?利用帶標簽的短讀長序列對人體腸道微生物的基因組進行de novo組裝
Moss E, Bishara A, Tkachenko E, et al.?
2017年4月
doi: http://dx.doi.org/10.1101/125211
導讀:
10x genomics技術自2015年面世之后,被譽為長片段測序技術中的一匹黑馬,在基因組denovo組裝,重測序組裝及單細胞的轉錄組研究方面具有廣泛的應用前景。但針對環境微生物組的長片段測序,除了pacbio之外一直未見報道。此次,研究者們發明了一種新的應用于宏基因組樣本的短讀長測序標簽組裝技術,依托于10x genomics 建庫平臺,利用10x短標簽序列,大大提高了宏基因組組裝效果,實現了短讀長方法無法實現的整體分類上的基因組元件組裝。
?? ?
背景:
Shotgun短讀長測序的方法常用于研究復雜微生物群落的基因組構成及群落結構。然而,現有方法不能夠捕捉到密切相關的共生菌之間的結構差異,比如由于基因水平轉移或插入序列造成的差異。10x最新技術通過利用小片段標簽標記來源于同一個大片段DNA分子的技術,通過短讀長的序列獲得長片段的信息。
本文研究者們發明了一種新的應用于宏基因組樣本的短讀長測序標簽組裝技術,利用這些標簽提升宏基因組組裝的水平。利用該方法,研究者對一個患有惡性血液病的患者腸道微生物群落開展分析。該病患接受了多種抗生素,化療藥物,免疫抑制劑等的治療,導致腸道微生物群落結構嚴重破壞及擬桿菌屬Bacteroides caccae的主導地位。本研究顯著提高了技術的完備性,解釋了B. caccae菌株轉座子整合位置上的差異性,并且發現了在治療條件下單個菌株的波動范圍較大。
此外,本研究中還進行了RNA測序以探明B. caccae菌株相關轉錄基因的表達情況,結果發現,在進行denovo組裝的B. caccae菌株中,抗生素抗性基因的過表達恰逢給予抗生素治療及近端轉座子出現在預測的細菌啟動子區域上時。
本方法有效提高了宏基因組組裝的效果,可以實現短讀長方法無法實現的整體分類上的的基因組元件的組裝。
材料和方法:
1.?? ?招募臨床志愿者,記錄患者的體征,臨床表征,人口信息,藥物攝入及暴露時長,飲食等。
2.?? ?取糞便樣本進行DNA及RNA提取。DNA選擇5kb以上的大片段用于10x genomics平臺建庫及后續測序。RNA進行常規illumina建庫測序。此外,常規短讀長DNA建庫測序。
3.?? ?測序平臺Nextseq500 PE148bp進行10x文庫的測序;Hiseq4000 PE100進行常規DNA及RNA文庫測序。
主要結果:
1.?? ?讀取云序列及Athena組裝原理:利用帶有barcode標簽的短讀取序列獲得長片段信息的Athena組裝,具體說來就是利用10x Genomics Gemcode平臺使樣本DNA變成帶有barcode序列的短reads(Fig.1a)經過片段選擇之后,抽提出來的宏基因組DNA在微液滴中通過長片段擴增成為攜帶barcode序列的短片段文庫,每個barcode序列上特有P3和P5接頭匹配illumina測序儀。最終,所有短片段混池進行illumina測序。
Atnena組裝可利用云讀取的reads精準的組裝重復序列(Fig.1b):首先,獲取的10x reads按照常規的組裝方式進行初步組裝,獲得種子contigs, 再將reads比對回這些種子序列上, 構建無解的scaffold支架映射圖;在每個支架邊緣,利用Athena組裝,將帶有barcode序列的reads對應上映射圖中的長的contig,組裝成長片段信息,再將混池的亞組裝contig進行OLC組裝獲得長片段信息。這種組裝可以獲得更完整更連續的宏基因組組裝結果,同時解決了片段重復的問題。
10x genomics技術自2015年面世之后,被譽為長片段測序技術中的一匹黑馬,在基因組denovo組裝,重測序組裝及單細胞的轉錄組研究方面具有廣泛的應用前景。但針對環境微生物組的長片段測序,除了pacbio之外一直未見報道。此次,研究者們發明了一種新的應用于宏基因組樣本的短讀長測序標簽組裝技術,依托于10x genomics 建庫平臺,利用10x短標簽序列,大大提高了宏基因組組裝效果,實現了短讀長方法無法實現的整體分類上的基因組元件組裝。
?? ?
背景:
Shotgun短讀長測序的方法常用于研究復雜微生物群落的基因組構成及群落結構。然而,現有方法不能夠捕捉到密切相關的共生菌之間的結構差異,比如由于基因水平轉移或插入序列造成的差異。10x最新技術通過利用小片段標簽標記來源于同一個大片段DNA分子的技術,通過短讀長的序列獲得長片段的信息。
本文研究者們發明了一種新的應用于宏基因組樣本的短讀長測序標簽組裝技術,利用這些標簽提升宏基因組組裝的水平。利用該方法,研究者對一個患有惡性血液病的患者腸道微生物群落開展分析。該病患接受了多種抗生素,化療藥物,免疫抑制劑等的治療,導致腸道微生物群落結構嚴重破壞及擬桿菌屬Bacteroides caccae的主導地位。本研究顯著提高了技術的完備性,解釋了B. caccae菌株轉座子整合位置上的差異性,并且發現了在治療條件下單個菌株的波動范圍較大。
此外,本研究中還進行了RNA測序以探明B. caccae菌株相關轉錄基因的表達情況,結果發現,在進行denovo組裝的B. caccae菌株中,抗生素抗性基因的過表達恰逢給予抗生素治療及近端轉座子出現在預測的細菌啟動子區域上時。
本方法有效提高了宏基因組組裝的效果,可以實現短讀長方法無法實現的整體分類上的的基因組元件的組裝。
材料和方法:
1.?? ?招募臨床志愿者,記錄患者的體征,臨床表征,人口信息,藥物攝入及暴露時長,飲食等。
2.?? ?取糞便樣本進行DNA及RNA提取。DNA選擇5kb以上的大片段用于10x genomics平臺建庫及后續測序。RNA進行常規illumina建庫測序。此外,常規短讀長DNA建庫測序。
3.?? ?測序平臺Nextseq500 PE148bp進行10x文庫的測序;Hiseq4000 PE100進行常規DNA及RNA文庫測序。
主要結果:
1.?? ?讀取云序列及Athena組裝原理:利用帶有barcode標簽的短讀取序列獲得長片段信息的Athena組裝,具體說來就是利用10x Genomics Gemcode平臺使樣本DNA變成帶有barcode序列的短reads(Fig.1a)經過片段選擇之后,抽提出來的宏基因組DNA在微液滴中通過長片段擴增成為攜帶barcode序列的短片段文庫,每個barcode序列上特有P3和P5接頭匹配illumina測序儀。最終,所有短片段混池進行illumina測序。
Atnena組裝可利用云讀取的reads精準的組裝重復序列(Fig.1b):首先,獲取的10x reads按照常規的組裝方式進行初步組裝,獲得種子contigs, 再將reads比對回這些種子序列上, 構建無解的scaffold支架映射圖;在每個支架邊緣,利用Athena組裝,將帶有barcode序列的reads對應上映射圖中的長的contig,組裝成長片段信息,再將混池的亞組裝contig進行OLC組裝獲得長片段信息。這種組裝可以獲得更完整更連續的宏基因組組裝結果,同時解決了片段重復的問題。
?

Fig.1 a 基于10x平臺構建微生物組云讀取文庫流程;b. 宏基因組的Athena算法概述
2.?? ?在復雜的宏基因組構成中高保守元素的組裝:為了驗證本方法的可靠性,研究采用10種已知細菌混合進行athena方法的組裝驗證,準確的獲得了16s及23s rRNA操縱子亞基。該重復序列在不同的微生物之間存在大量相似的拷貝,并且作為物種的標簽序列可用于區分微生物種屬用于物種鑒定及群落結構分析。利用常規短讀取建庫和云建庫方式結合常規組裝方法和athena組裝分別進行分析,以驗證anthena組裝的效果。結果顯示,可以有效地對細菌DNA模擬混合樣本中高度保守的rRNA基因亞基多個副本進行有效的組裝,相較于傳統的短讀長組裝,可以有效的提高這些序列的組裝效果。
3.?? ?一個臨床腸道微生物樣本的時間序列性組裝。利用惡性血液病患者的腸道微生物研究驗證Athena算法一樣適用于自然生物樣本。該病患樣本接受過HCT治療,在治療過程中進行嚴格的飲食控制。在此期間發現,患者的腸道微生物經歷了快速的簡化,一種罕見的具有粘液降解能力的機會致病菌B.caccae成為占據主導地位的菌種(Fig.2)。研究中還設置了四個時間節點來研究治療過程中病人腸道菌的動態變化過程,這四個時間節點樣本都是基于illumina Truseq和10x文庫平臺構建的,基于athena算法進行宏基因組組裝,獲得群落結構的信息。從數據結果看,這種方法較之以往的幾種短讀長技術從連續性和完整性上都有很大的提升。在優勢菌中,Athena算法較之傳統技術可以產生更具有連續性和完整性的組裝(Fig.3)。通過比較時間連續性樣本,對B.caccae進行選擇性或潛在性基因組重構進行比較分析,該物種可能成為宿主腸道菌群的主宰物種。

Fig.2 病人治療期間腸道微生物組構成變化及藥物暴露情況
?

Fig.3 基于云讀取和常規短讀取技術進行的Bacteroides caccae基因組組裝?
4.?? ?在臨床樣本中通過云讀取復原幾乎一樣的菌種。為了定位Athena組裝中的duplicated 序列,研究者在組裝中設置短k-mer來比對短讀取組裝,并注意到與blast呈最高典型超比例的部分。文中重點關注了擬桿菌插入序列IS612元件,該序列出現在短讀組裝中,但在長片段讀取中僅一個拷貝出現在極端覆蓋度的序列中,這就暴露了短讀長拼接的弊端。文中還選擇了44個獨立的IS云讀取拼接的長片段進行long-rang PCR和Sanger測序。通過Sanger測序確認這些片段在基因組上的特定位置,44個序列中,43個得到驗證,其中20個IS出現在B.caccae的contigs中(Fig.3)。此外,在B.caccae的IS區域,短讀片段比對Athena組裝的結果確定了不同的菌株擁有一樣的IS序列,源自一個共同的祖先,基于這些短序列比對,還可以對物種的相對豐度進行評估,經過PCR驗證相對豐度信息與組裝結果基本一致(Fig.4).

Fig.4 IS及Bacteroides caccae菌株確認
除了小的結構變異之外,研究者們還發現了大量大范圍的結構變異。從時間點C到D的過程中,時間點C樣本中可以發現有一段約60kb的序列其相對豐度顯著性低于側翼序列(Fig.5)。對這60kb的序列進行注釋發現,這一段序列是介導基因組移動元素整合的酪氨酸重組酶。

Fig. 5 檢測到一段與IS相鄰的約60Kb的序列
5. 插入介導的轉錄上調研究。為研究Athena組裝對宏轉錄組分析的影響,研究者利用Athena組裝的結果為參考基因組進行轉錄組序列比對。分別在B,C,D三個時間點對同一案例進行轉錄組測序,分別用短讀序列組裝和Athena組裝為參考基因組并將兩者的結果比較分析,發現相比于短讀拼接的結果,Athena組裝的比對效率均有明顯提高。
接下來研究者利用Athena組裝結果與轉錄組測序結果研究了已發現的結構性變化對轉錄的潛在影響。針對IS612開展此研究,在基因組上定位了三個轉錄不對稱位點,他們都顯示下游基因表達量均達到相對于上游表達量的10倍的水平(Fig.6)。IS612上轉錄不對稱程度最高的點與假定啟動子位置一致,可上調NorM(多耐藥性轉運體)(Fig.6a)。而比對到該插入位點的短讀序列顯示,這種整合在A時間點無法檢出,B點約三分之一能檢出,但在C和D的中基本都能檢出,與目標PCR的結果一致(Fig.6b)。其他的一些位點也得到了相應的驗證說明。
?

Fig.6 B.caccae中插入序列(IS)介導的轉錄調控與宏轉錄組研究結果一致。
參考文獻:
Moss E, Bishara A, Tkachenko E, et al. De novo assembly of microbial genomes from human gut metagenomes using barcoded short read sequences[J]. bioRxiv, 2017: 125211.