本發(fā)明涉及基因組學(xué)領(lǐng)域,具體地說,涉及一種基于人工減數(shù)分裂的輔助基因組組裝方法。
技術(shù)背景
基因組dna序列是生物體遺傳信息的主要載體,借助全基因組測序以及對序列信息的解讀,可以在分子水平上揭示許多重要物種的生長發(fā)育原理,也可以在群體水平上探究個體之間基因的差異變化,對探索與認(rèn)識生命本質(zhì)等基礎(chǔ)生物科學(xué)研究、人類重要遺傳病防治及動植物遺傳育種等應(yīng)用性研究均具有十分重要的意義。
全基因組測序技術(shù)由第一代雙脫氧鏈終止法到邊合成邊測序的第二代測序方法,再發(fā)展到以單分子納米孔為標(biāo)志的第三代測序技術(shù)。其中二代測序技術(shù)相比其他測序技術(shù)具有通量高,準(zhǔn)確性高,單堿基分辨率及成本低的巨大優(yōu)勢,目前仍然是是基因組測序的首選平臺。
隨著基因組測序數(shù)據(jù)爆炸式增長,與之相配套的基因組組裝方法也在迅速發(fā)展。最先開展的人類基因組計(jì)劃中采用的是克隆重疊群法進(jìn)行基因組組裝,主要是通過福斯質(zhì)粒(fosmid)克隆或者細(xì)菌人工染色體(bacterialartificialclone,簡稱bac)克隆的指紋信息對克隆進(jìn)行排序,以確定涵蓋基因組的最少克隆集合,然后測定這些去冗余的克隆片段,最后實(shí)現(xiàn)基因組的拼接。相對人類基因組計(jì)劃采取的策略,craigventer提出的鳥槍法省去了構(gòu)建物理圖譜的繁瑣過程,利用基于重疊群的圖算法將從基因組中測序得到的高覆蓋度的片段交給計(jì)算機(jī)來組裝,但其通量低,價(jià)格昂貴,不易大范圍推廣。后來發(fā)展出的一套以k-mer為節(jié)點(diǎn)的debruijn圖策略成為現(xiàn)階段基因組組裝的主流計(jì)算技術(shù),代表性軟件有velvet、allpath-lg、abyss、bambus、cabog、msr-ca、sga、sharcgs、ssake及soap-denovo等。
由于基因組中存在著大量的重復(fù)序列,導(dǎo)致二代測序數(shù)據(jù)在組裝過程中的contigs比較短,拼接獲得的基因組草圖仍然有不少的scaffolds/contigs仍未掛載到染色體水平,而且對于高重復(fù),高雜合,以及復(fù)雜區(qū)域,其組裝結(jié)果往往差強(qiáng)人意,很大程度上限制了參考基因組序列的可靠性和完整性,單純依靠二代測序數(shù)據(jù)拼接難以達(dá)到很好的組裝效果,因而借助遺傳圖譜及物理圖譜以及新發(fā)展起來的三代測序技術(shù)等手段輔助基因組拼接的作用就顯得尤為重要。
smrt單分子實(shí)時(shí)測序技術(shù)、bionano光學(xué)圖譜技術(shù)、體外hi-c技術(shù)等新技術(shù)的興起和發(fā)展,使基因組組裝水平提升到一個新的高度。這些方法的技術(shù)聚焦在遠(yuǎn)距離長片段的定位,能有效解決一些拼接難度較大的重復(fù)區(qū),但其應(yīng)用通常需要配置昂貴的檢測儀器,具有較高的成本,并且這些新興的技術(shù)手段不能獲得基因組全局性的序列連接信息,只能提升基因組部分片段的組裝效率,因此要將基因組組裝達(dá)到染色體水平,仍然離不開傳統(tǒng)的遺傳圖譜或物理圖譜。
遺傳圖譜的方法是利用減數(shù)分裂時(shí)期的姊妹染色單體聯(lián)會后不同dna片段共交換的頻率來判斷dna片段的相對位置,但對于某些生長周期較長的物種,構(gòu)建作圖群體會消耗較多的時(shí)間,如要提高定位精度,還需要擴(kuò)大作圖群體來獲得更高的標(biāo)記密度,并且掛載確定scaffolds/contigs的染色體位置容易受限于物種的群體規(guī)模和交換頻率。因此輔助基因組拼接更為經(jīng)典的可靠方式是基于物理圖譜的方法,即通過構(gòu)建相應(yīng)的bac克隆文庫,然后通過限制性內(nèi)切酶酶切這些大片段,然后將這些大片段指紋信息展示出來,以此構(gòu)建比較完整的物理圖譜。
1998年劍橋大學(xué)mcr實(shí)驗(yàn)室發(fā)表了一種簡便的物理圖譜構(gòu)建方法——單倍體dna排序方法(haploiddnasamplesanalysedusingthepolymerasechainreactionmapping,簡稱happymap),在實(shí)驗(yàn)設(shè)計(jì)的簡便性、測序策略及算法的靈活高效等方面都有較大的發(fā)展空間。該實(shí)驗(yàn)方案自1998年提出來后應(yīng)用在了人類14號染色體構(gòu)建、隱孢子蟲物理圖譜構(gòu)建、盤基網(wǎng)柄菌基因組組裝,熱帶爪蟾物理圖譜構(gòu)建等。但傳統(tǒng)的happymap實(shí)驗(yàn)標(biāo)記分型主要是靠單點(diǎn)單個樣本的pcr實(shí)驗(yàn)驗(yàn)證,無法實(shí)現(xiàn)高通量的標(biāo)記分型,因此,難以在輔助全基因組組裝上廣泛應(yīng)用。此外,在plosone雜志上發(fā)布了該實(shí)驗(yàn)的升級版,主要是利用bac三維超級池的策略代替原來的dna分樣實(shí)驗(yàn),在標(biāo)記分型上采用高通量測序而不是傳統(tǒng)的pcr實(shí)驗(yàn)。但實(shí)驗(yàn)操作上仍然需要展庫,挑克隆、建池等繁瑣的fosmid文庫構(gòu)建方法,費(fèi)時(shí)費(fèi)力,使其大規(guī)模的應(yīng)用受到限制。
綜上所述,目前的基因組組裝方法存在諸多缺陷,因此,亟待設(shè)計(jì)一種準(zhǔn)確度高、操作簡便、周期短、成本低的輔助基因組組裝方法。
技術(shù)實(shí)現(xiàn)要素:
基于現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于人工減數(shù)分裂的輔助基因組組裝方法,即將基因組以克隆文庫的形式等分,建立隨機(jī)的人工減數(shù)分裂樣本,并通過hpaii甲基轉(zhuǎn)移酶和fspei甲基修飾依賴型內(nèi)切酶進(jìn)行處理,形成高密度的分型標(biāo)記,進(jìn)而分析獲得分型標(biāo)記的排序信息,實(shí)現(xiàn)scaffold的進(jìn)一步組裝或者pacbio測序reads直接串聯(lián)組裝。
本發(fā)明為了實(shí)現(xiàn)上述目的所采取的技術(shù)方案是:
一種基于人工減數(shù)分裂的輔助基因組組裝方法,其特征在于,包括以下步驟:
(1)實(shí)驗(yàn)文庫構(gòu)建:提取基因組dna,構(gòu)建fosmid克隆文庫;對所述fosmid克隆文庫進(jìn)行抽樣涂布并計(jì)數(shù)克隆,作為其余樣本的克隆數(shù)目估計(jì);收集覆蓋50×基因組的克隆文庫,根據(jù)抽樣涂布得到的克隆數(shù)目估計(jì)將所述覆蓋50×基因組的克隆文庫均勻等分成100-150份樣本,每份樣本的dna量為0.5×單倍體基因組dna,提取質(zhì)粒dna;
(2)分型文庫的構(gòu)建:利用hpaii甲基轉(zhuǎn)移酶對所述質(zhì)粒dna進(jìn)行甲基化處理,使用fspei甲基修飾依賴型內(nèi)切酶對甲基化處理后的質(zhì)粒dna進(jìn)行酶切,獲得高密度的分型標(biāo)記,并且完成測序;
(3)標(biāo)記解碼:對測序得到的原始數(shù)據(jù)進(jìn)行質(zhì)量過濾,并對過濾后的分型標(biāo)記進(jìn)行聚類獲得代表性序列,根據(jù)所述代表性序列的深度信息對所述代表性序列進(jìn)行分型,得到每份樣本的代表性序列分型信息;
(4)標(biāo)記排序:根據(jù)所述代表性序列在不同樣本中的分型信息建立所述分型標(biāo)記兩兩之間的距離鄰接矩陣;通過所述距離鄰接矩陣中的距離關(guān)系反演出所述分型標(biāo)記的最優(yōu)線性排序順序,進(jìn)而獲得分型標(biāo)記的物理圖譜;
(5)基因組的組裝:根據(jù)分型標(biāo)記的物理圖譜,將包含分型標(biāo)記信息的scaffold或者pacbio測序reads進(jìn)一步串聯(lián)組裝至染色體水平。
進(jìn)一步地,步驟(1)中克隆文庫構(gòu)建完成后進(jìn)行轉(zhuǎn)導(dǎo),并通過涂布平板計(jì)數(shù)進(jìn)行分樣,以pooling文庫代表單個樣本,所述pooling文庫代表混合克隆文庫,即單份樣本中有800-1000個左右具有不同插入片段的單克隆的集合。
進(jìn)一步地,步驟(2)中質(zhì)粒dna經(jīng)甲基轉(zhuǎn)移酶與甲基修飾依賴型內(nèi)切酶處理,產(chǎn)生32bp的分型標(biāo)記。
進(jìn)一步地,步驟(4)中采用層次標(biāo)記排序算法對分型標(biāo)記進(jìn)行排序。
進(jìn)一步地,步驟(5)中具體方法為:通過scaffold所包含的單拷貝分型標(biāo)記序列的順序和距離對scaffold進(jìn)行排序拼接,或者將pacbio測序得到的reads直接掛載分型標(biāo)記進(jìn)行排序拼接,進(jìn)一步地串聯(lián)組裝到染色體水平。
進(jìn)一步地,步驟(5)中根據(jù)分型標(biāo)記之間的物理距離推斷出scaffold之間的gap距離。
有益效果:本發(fā)明公開了一種基于人工減數(shù)分裂的輔助基因組組裝方法,將基因組以克隆文庫的形式等分,相當(dāng)于人工減數(shù)分裂產(chǎn)生多個配子,結(jié)合隨機(jī)抽樣,降低了標(biāo)記錯排的可能性。在隨機(jī)抽樣的基礎(chǔ)上,直接通過混合克隆實(shí)現(xiàn)基因組覆蓋,省去了傳統(tǒng)的酶切pcr克隆解碼方式。
通過甲基轉(zhuǎn)移酶將ccgg位點(diǎn)轉(zhuǎn)化為cmcgg位點(diǎn),形成甲基修飾依賴型內(nèi)切酶的識別位點(diǎn),進(jìn)而通過甲基修飾依賴型內(nèi)切酶進(jìn)行酶切獲得高密度的分型標(biāo)記,提高了分型標(biāo)記的有效利用率,保證后續(xù)分析得到的物理圖譜具有高分辨率和高覆蓋率。以fosmid克隆片段中包含的分型標(biāo)記作為克隆片段的解碼信息,無需進(jìn)行展庫或維持大量單克隆,操作更為簡便。
解碼過程中每一份單倍體dna也相當(dāng)于配子,根據(jù)分型標(biāo)記在配子中出現(xiàn)的概率推測分型標(biāo)記之間的距離和順序,使得克隆解碼更加精準(zhǔn)、高效,最終借助大片段的物理圖譜實(shí)現(xiàn)sacffold的進(jìn)一步組裝,獲得的基因組圖譜更為精細(xì)。
采用層次標(biāo)記排序算法降低了分型標(biāo)記組裝的復(fù)雜度,同時(shí)結(jié)合隨機(jī)抽樣使得樣本信息利用率最大化,降低錯排的可能性,使得獲得的物理圖譜更加精細(xì)可靠。
拼接時(shí)可直接借助分型標(biāo)記的物理圖譜,將包含分型標(biāo)記信息的scaffold或者pacbio測序reads進(jìn)一步串聯(lián)組裝至染色體水平,無需參照基因組,在保證準(zhǔn)確率的同時(shí)使得操作更加簡便。
綜上所述,基于人工減數(shù)分裂的組裝策略具有實(shí)驗(yàn)操作簡單、周期短、成本低等優(yōu)點(diǎn),能夠在有限的人力物力條件下進(jìn)行高覆蓋率和準(zhǔn)確率的基因組拼接,在基因組相對復(fù)雜并且高度雜合的物種中有更大的應(yīng)用前景。
附圖說明
圖1為本發(fā)明實(shí)驗(yàn)流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步詳述:
實(shí)施例
以擬南芥為例進(jìn)行研究,擬南芥基因組的組裝流程如圖1所示。
(1)實(shí)驗(yàn)文庫構(gòu)建
1)擬南芥基因組dna的提取
采用酚/氯仿法提取擬南芥基因組dna,對提取得到的dna進(jìn)行下列檢測:
a)dna凝膠電泳檢測:電泳條件為:100v,30min;電泳所用的瓊脂糖凝膠濃度為1%,tae配制;所用的marker為50ng/μl的λdna。完成凝膠電泳后,eb染色10min,凝膠成像儀檢測電泳結(jié)果。
b)dna純度檢測:利用紫外分光光度計(jì)分別測量od230、od260、od280各值,計(jì)算od260/od280及od260/od230值,a260/a280需要在1.8-2.0之間,a260/a230需要≥2,才符合實(shí)驗(yàn)要求;然后用qubit2.0進(jìn)行精準(zhǔn)濃度的定量。
2)擬南芥克隆文庫構(gòu)建
a)擬南芥fosmid克隆文庫的構(gòu)建包括:基因組dna的末端修復(fù)、目的dna片段的瓊脂糖回收、目的片段與載體的連接和連接產(chǎn)物的包裝。
b)完成包裝之后,取10μl包裝產(chǎn)物加入到制備好100μlepi300-t1r菌液中,輕彈混勻,37℃孵育1小時(shí)。
c)轉(zhuǎn)導(dǎo)1h結(jié)束后,從中隨機(jī)抽樣進(jìn)行涂布,平板中加入12.5μg/ml氯霉素,其余樣本不做涂布處理,直接加入添加有12.5μg/ml氯霉素的lb培養(yǎng)基中過夜培養(yǎng)。次日,對隨機(jī)抽樣涂布平板進(jìn)行克隆計(jì)數(shù),求其平均值,該平均值作為其余樣本的克隆數(shù)目的估計(jì)。收集覆蓋50×基因組的克隆文庫,根據(jù)抽樣涂布得到的克隆數(shù)目估計(jì)將覆蓋50×基因組的克隆文庫均勻等分成100-150份樣本,每份樣本的dna量為0.5×單倍體基因組dna,提取質(zhì)粒dna。
對克隆進(jìn)行涂板分樣計(jì)數(shù),保證了克隆在分樣中的均勻性。單份樣本中有800-1000個左右具有不同插入片段的單克隆的集合,形成混合克隆文庫,即pooling文庫,使得分樣過程不存在挑單克隆的繁瑣操作,極大降低了實(shí)驗(yàn)的勞動量,節(jié)約了實(shí)驗(yàn)時(shí)間。
(2)分型文庫的構(gòu)建
利用hpaii甲基轉(zhuǎn)移酶對質(zhì)粒dna進(jìn)行甲基化處理,選擇性地添加甲基基團(tuán)化學(xué)修飾,使質(zhì)粒dna序列中的ccgg位點(diǎn)轉(zhuǎn)化為cmcgg位點(diǎn),即引入了fspei甲基修飾依賴型內(nèi)切酶的識別位點(diǎn);使用fspei甲基修飾依賴型內(nèi)切酶對甲基化處理后的質(zhì)粒dna進(jìn)行酶切,質(zhì)粒dna序列中cmcgg位點(diǎn)兩側(cè)產(chǎn)生切口,產(chǎn)生等長的32bp堿基片段,該堿基片段即為包含fspei酶切位點(diǎn)的分型標(biāo)記。進(jìn)一步地,對構(gòu)建的分型文庫進(jìn)行illumina測序。
通過hpaii甲基轉(zhuǎn)移酶與fspei甲基修飾依賴型內(nèi)切酶的處理,獲得高密度的分型標(biāo)記,提高分型標(biāo)記的有效利用率,使得目標(biāo)區(qū)域的測序更加均勻,保證后續(xù)分析得到的物理圖譜具有高分辨率和高覆蓋率。以fosmid克隆片段中包含的分型標(biāo)記作為克隆片段的解碼信息,無需進(jìn)行展庫或維持大量單克隆,操作更為簡便。
(3)標(biāo)記解碼
對測序得到的原始數(shù)據(jù)進(jìn)行質(zhì)量過濾,即去除含有n的reads以及大于5個堿基的質(zhì)量值小于10的reads。利用stacks軟件對過濾后的分型標(biāo)記進(jìn)行聚類,允許的錯配數(shù)為2。根據(jù)denovo聚類得到的代表性序列的深度信息進(jìn)行分型,對每一個樣本而言,深度超過2的分型為“1”,否則分型為“0”;所有的樣本中“1”的次數(shù)在10和130之間的位點(diǎn)進(jìn)入后續(xù)分型標(biāo)記的物理圖譜構(gòu)建。
測序的分型文庫高質(zhì)量reads所占比例為98.9%,高質(zhì)量的分型標(biāo)記聚類獲得100834個代表性序列,通過數(shù)據(jù)過濾分析最終共獲得97%以上可靠的分型信息,分型標(biāo)記覆蓋了基因組中預(yù)測的單拷貝標(biāo)記的80%。
(4)標(biāo)記排序
根據(jù)代表性序列在不同樣本中的分型信息建立分型標(biāo)記兩兩之間的距離鄰接矩陣;通過距離鄰接矩陣中的距離關(guān)系反演出分型標(biāo)記的最優(yōu)線性排序順序,進(jìn)而獲得分型標(biāo)記的物理圖譜;上述實(shí)驗(yàn)產(chǎn)生的標(biāo)記的數(shù)目是萬級別的,而常用的標(biāo)記排序算法計(jì)算通量都比較低,不滿足該策略的標(biāo)記排序要求。為了解決高通量標(biāo)記排序問題,本發(fā)明提出了層次標(biāo)記排序算法來降低標(biāo)記組裝的復(fù)雜度,同時(shí)結(jié)合了隨機(jī)抽樣技術(shù)來降低標(biāo)記錯排的可能性,以期獲得一個可靠精確的物理圖譜。
首先在所有的樣本中隨機(jī)抽取80%的個體,計(jì)算兩兩標(biāo)記之間的遺傳距離;設(shè)置分群的閾值,將所有的標(biāo)記分入不同的連鎖群中。如果兩個標(biāo)記之間的遺傳距離小于閾值時(shí),g(mi,mj)++。隨機(jī)抽樣100次后,如果g(mi,mj)>80那么標(biāo)記mi和標(biāo)記mj分到同一個連鎖群中,最終所有標(biāo)記分在m個連鎖群中,單個連鎖群內(nèi)的標(biāo)記利用最小支撐樹的方法進(jìn)行排序。隨后,對得到的連鎖群進(jìn)行迭代,對不同連鎖群之間的排序同樣采用隨機(jī)抽樣技術(shù),來建立不同連鎖群之間的排序關(guān)系,循環(huán)迭代直到連鎖群的數(shù)目不發(fā)生變化,獲得分型標(biāo)記的物理圖譜。
利用代表性序列分型信息進(jìn)行連鎖群迭代組裝,構(gòu)建的分型標(biāo)記物理圖譜覆蓋96%的擬南芥基因組,提供了一個可用于基因組組裝和其他基因組應(yīng)用的高分辨物理圖譜。
(5)基因組的組裝
根據(jù)分型標(biāo)記的物理圖譜中分型標(biāo)記之間的物理距離推斷出scaffold之間的gap距離,并根據(jù)scaffold所包含的單拷貝分型標(biāo)記序列的順序和距離對scaffold進(jìn)行排序拼接至染色體水平;或者將20×pacbio測序得到的reads直接掛載分型標(biāo)記進(jìn)行排序拼接,串聯(lián)組裝至染色體水平。通過本發(fā)明方法進(jìn)行基因組組裝,拼接的contign50片段長度較利用二代測序數(shù)據(jù)直接拼接提升8-50倍,連接準(zhǔn)確率達(dá)到95—99%。
綜上所述,本發(fā)明通過hpaii甲基轉(zhuǎn)移酶和fspei甲基修飾依賴型內(nèi)切酶處理獲得高密度的分型標(biāo)記,能夠顯著提高標(biāo)記密度,獲得高分辨率的物理圖譜,與隨機(jī)抽樣的混合克隆文庫結(jié)合,解決了高通量的標(biāo)記分型的問題,省去了傳統(tǒng)的酶切pcr克隆解碼方式;通過高效獲得大量標(biāo)記信息實(shí)現(xiàn)克隆解碼,最終實(shí)現(xiàn)借助大片段的物理圖譜實(shí)現(xiàn)scaffold的進(jìn)一步組裝,獲得更為精細(xì)的基因組圖譜,基因組組裝成本更低、效率更高。并且相對于最新的opticalmap,bionano等基于光學(xué)儀器的物理圖譜構(gòu)建方法,本發(fā)明實(shí)施的門檻相對較低,只要contig或者scaffold中有一個酶切位點(diǎn)就可以通過分型標(biāo)記的物理圖譜進(jìn)行連接,直接將reads掛靠標(biāo)記進(jìn)行連接,無需占用大量的計(jì)算資源,能夠簡化傳統(tǒng)拼接計(jì)算的復(fù)雜性及高運(yùn)算量,極大的簡化了組裝的難度。此外,對于廣泛應(yīng)用于小麥等重復(fù)序列比例比較高的物種的物理圖譜構(gòu)建方案wgp而言,本發(fā)明分型標(biāo)記的物理圖譜可以保留基因組中所有單拷貝的標(biāo)記的信息,不需單克隆的指紋信息即可進(jìn)行解碼,更為省時(shí)省力。
以上僅是本發(fā)明的優(yōu)選實(shí)施方式,本發(fā)明的保護(hù)范圍并不僅限制于本文所示的實(shí)施例,凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護(hù)范圍。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理前提下的若干修改和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。