欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

高雜合基因組的組裝方法

文檔序號:6620480閱讀:1175來源:國知局
高雜合基因組的組裝方法
【專利摘要】本發(fā)明公開了一種高雜合基因組的組裝方法。該組裝方法包括根據(jù)待測物種的體細(xì)胞基因組序列信息構(gòu)建德布魯因圖的步驟和簡化德布魯因圖的步驟,簡化德布魯因圖的步驟包括以下步驟:對待測物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測序;比對體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到體細(xì)胞基因組序列中的雜合位點的序列信息;以及根據(jù)雜合位點的序列信息,簡化德布魯因圖。本發(fā)明的組裝方法通過利用生殖細(xì)胞單細(xì)胞的基因組序列信息找出高雜合基因組中的雜合位點,并在簡化德布魯因圖的時候進(jìn)行輔助組裝,解決了現(xiàn)有技術(shù)在組裝拼接中的雜合位點難以簡化的問題,從而實現(xiàn)高雜合基因組的拼接組裝。
【專利說明】高雜合基因組的組裝方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物【技術(shù)領(lǐng)域】,具體而言,涉及一種高雜合基因組的組裝方法。

【背景技術(shù)】
[0002] DNA(脫氧核糖核酸)測序,是廣泛應(yīng)用于生物學(xué)研究中的一種重要的實驗技術(shù), 在DNA雙螺旋結(jié)構(gòu)學(xué)說發(fā)表之后就開始有相關(guān)的報道,但是操作流程復(fù)雜而沒有形成規(guī) 模。在1977年,末端終止測序法在Sanger的研究努力下誕生了,該方法相對之前的方法既 簡便又快速,而且通過后續(xù)不斷的改良,成為了 2007年前DNA測序的主流。然而Sanger測 序也存在自身的缺點,費用高、通量低和耗時長。因此隨著科學(xué)技術(shù)的不斷發(fā)展,借助于化 學(xué)和物理等其他學(xué)科的技術(shù)更新,第二代測序技術(shù)開始逐漸取代Sanger測序的霸主地位, 完成了一些模式生物重測序和非模式生物的基因組測序。
[0003] 目前,第二代測序技術(shù)應(yīng)用最廣泛的是要以Illumina測序平臺為基礎(chǔ)的測序技 術(shù)。邊合成邊測序是Illumina測序平臺的基本原理,當(dāng)DNA聚合酶合成互補鏈的時候通過 添加不同的dNTP (脫氧三磷酸核苷酸)釋放不同的熒光信號,通過捕捉和計算機軟件處理 這些熒光信號即可以獲得測序中的DNA的序列信息。
[0004] 利用第二代測序技術(shù)完成模式生物或非模式生物的基因組測序的過程基本包括 以下步驟:
[0005] 測序文庫構(gòu)建。首先提取待測物種二倍體體細(xì)胞的基因組DNA,然后將基因組DNA 隨機片段化,而在基因組測序中,會構(gòu)建不同梯度的插入片段大小,以便提供更多片段信息 進(jìn)行后續(xù)的組裝。
[0006] 錨定橋接和預(yù)擴(kuò)增。測序的反應(yīng)是在Illumina測序平臺的玻璃管中進(jìn)行,單鏈接 頭被固定在表面,上一個步驟得到的基因組DNA片段經(jīng)過變性成單鏈后與測序通道上的接 頭引物結(jié)合形成橋狀結(jié)構(gòu)。單鏈橋型待測片段會被擴(kuò)增成雙鏈橋型片段,在變性過程中釋 放出互補的單鏈會被錨定到附件的固相表面,數(shù)次循環(huán)之后,會在固相表面形成上百萬條 成簇分布的雙鏈待測片段。
[0007] 測序。在固相表面的每一個測序簇延伸互補鏈的時,每次加入一個被熒光標(biāo)記的 dNTP(脫氧三磷酸核苷酸)會發(fā)射出不同的熒光,Illumina測序儀通過接收這些熒光信號 和將其用計算機軟件處理后,就能準(zhǔn)確地獲得待測片段的序列信息。
[0008] 數(shù)據(jù)處理。Illumina測序得到的序列的每一個堿基都會有相應(yīng)的測序質(zhì)量,測序 質(zhì)量低,說明該堿基測錯的概率就大。因此,通常在基因組裝之前對這些原始數(shù)據(jù)進(jìn)行處 理,通過設(shè)置不同的閾值過濾質(zhì)量較低的序列。
[0009] 基因組組裝。通過將過濾得到的測序數(shù)據(jù)輸入計算機軟件中,例如已經(jīng)發(fā)表的針 對二代測序的組裝軟件SOAPdenovo,這些軟件首先將測序的DNA片段進(jìn)行打斷及合并處 理,通過序列相似性,構(gòu)建出德布魯因(de Bruijn)圖結(jié)構(gòu),然后簡化德布魯因圖,再利用序 列之間的配對關(guān)系構(gòu)建出基因組的組裝序列結(jié)果。
[0010] 現(xiàn)有的技術(shù)主要是針對簡單基因組的,簡單基因組是一般指雜合率不超過千分之 五的基因組,例如哺乳類、鳥類和一般栽培作物。一般認(rèn)為采用常規(guī)的組裝方法組裝雜合度 商達(dá)0. 5%的基因組序列時有一定難度,而雜合度商達(dá)1 %以上的基因組序列則很難組裝, 例如一般的水產(chǎn)類基因組的雜合率一般超過百分之一,而這些高雜合位點在組裝過程中構(gòu) 建的德布魯因圖難以得到簡化,針對二代測序的組裝軟件會在這些高雜合位點斷開,從而 造成組裝得到的序列過短,難以達(dá)到組裝拼接的要求。因此,急需建立一種能夠適應(yīng)雜合率 超過百分之一的高雜合基因組的組裝方法。


【發(fā)明內(nèi)容】

[0011] 本發(fā)明旨在提供一種商雜合基因組的組裝方法,以解決現(xiàn)有技術(shù)無法對商雜合基 因組的測序數(shù)據(jù)進(jìn)行組裝拼接的問題。
[0012] 本發(fā)明中的"高雜合基因組"是指雜合度高達(dá)1%以上的基因組。
[0013] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種高雜合基因組的組裝方 法,該組裝方法包括根據(jù)待測物種的體細(xì)胞基因組序列信息構(gòu)建德布魯因圖的步驟、簡化 德布魯因圖的步驟、以及根據(jù)簡化后的德布魯因圖,拼接得到高雜合基因組的組裝序列的 步驟,簡化德布魯因圖的步驟包括以下步驟:對待測物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行 測序;比對體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到體細(xì)胞 基因組序列中的雜合位點的序列信息;以及根據(jù)雜合位點的序列信息,簡化德布魯因圖。
[0014] 進(jìn)一步地,雜合位點的序列信息包括與生殖細(xì)胞的單細(xì)胞基因組的序列信息的親 本來源一致的雜合位點的序列信息和與生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來源 不一致的雜合位點的序列信息。
[0015] 進(jìn)一步地,根據(jù)雜合位點的序列信息,簡化德布魯因圖的步驟中,采用與生殖細(xì)胞 的單細(xì)胞基因組的序列信息的親本來源不一致的雜合位點的序列信息進(jìn)行組裝。
[0016] 進(jìn)一步地,在比對體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信 息,找到雜合位點的序列信息的步驟之前,進(jìn)一步還包括,分別對體細(xì)胞基因組的序列信息 與生殖細(xì)胞單細(xì)胞基因組的序列信息進(jìn)行過濾低質(zhì)量序列的步驟。
[0017] 進(jìn)一步地,過濾低質(zhì)量序列的步驟通過設(shè)置閾值進(jìn)行過濾。
[0018] 進(jìn)一步地,對體細(xì)胞基因組序列信息和生殖細(xì)胞單細(xì)胞基因組序列信息通過設(shè)置 相同的閾值進(jìn)行過濾低質(zhì)量序列。
[0019] 進(jìn)一步地,對待測物種的生殖細(xì)胞單細(xì)胞基因組進(jìn)行測序的步驟之前,進(jìn)一步包 括構(gòu)建測序文庫的步驟,構(gòu)建測序文庫的步驟包括:提取待測物種的生殖細(xì)胞的單細(xì)胞的 基因組DNA ;以及對待測物種的生殖細(xì)胞的單細(xì)胞的基因組DNA進(jìn)行直接片段化,形成測序 文庫;其中,測序文庫為不大于500bp的短片段文庫。
[0020] 進(jìn)一步地,組裝方法在簡化德布魯因圖的步驟之前,還包括對待測物種的體細(xì)胞 基因組進(jìn)行測序的步驟;對待測物種的體細(xì)胞基因組進(jìn)行測序的步驟包括:提取待測物種 的體細(xì)胞的基因組DNA ;以及對待測物種的體細(xì)胞基因組DNA進(jìn)行直接片段化和環(huán)化之后 再進(jìn)行片段化,形成測序文庫;其中,測序文庫包括不大于500bp的短片段文庫和2Kb? l〇Kb的長片段文庫。
[0021] 進(jìn)一步地,不大于500bp的短片段文庫包括180bp文庫和500bp文庫。
[0022] 進(jìn)一步地,2Kb?10Kb的長片段文庫包括2Kbp、5Kbp和lOKbp文庫;
[0023] 進(jìn)一步地,上述組裝方法在根據(jù)簡化后的所述德布魯因圖,拼接得到高雜合基因 組的組裝序列的步驟中利用序列互補配對的關(guān)系進(jìn)行拼接,得到高雜合基因組的組裝序 列。
[0024] 應(yīng)用本發(fā)明的技術(shù)方案,通過引入生殖細(xì)胞單細(xì)胞測序技術(shù)來解決高雜合基因組 的組裝拼接問題。通過將生殖細(xì)胞的單細(xì)胞基因組的序列信息與體細(xì)胞的基因組的序列信 息進(jìn)行比對,找出雜合位點及其序列信息,并利用這些雜合位點的序列信息,在簡化體細(xì)胞 測序數(shù)據(jù)構(gòu)建的德布魯因圖的時候進(jìn)行輔助組裝,解決了現(xiàn)有技術(shù)在組裝拼接中的雜合位 點難以簡化的問題,從而實現(xiàn)高雜合基因組的拼接組裝。

【專利附圖】

【附圖說明】
[0025] 構(gòu)成本申請的一部分的說明書附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示 意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0026] 圖1示出了本發(fā)明的生殖細(xì)胞的單細(xì)胞基因組DNA和二倍體細(xì)胞的基因組DNA建 庫和測序步驟;
[0027] 圖2示出了本發(fā)明的生殖細(xì)胞的單細(xì)胞基因組序列信息在輔助組裝中對雜合位 點進(jìn)行分離的過程;以及
[0028] 圖3示出了現(xiàn)有技術(shù)和本發(fā)明在高雜合基因組裝拼接中解決雜合位點時的兩種 不同方法。

【具體實施方式】
[0029] 需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。
[0030] 為了解決現(xiàn)有技術(shù)無法對高雜合基因組的測序數(shù)據(jù)進(jìn)行組裝拼接的問題,在本發(fā) 明一種典型的實施方式中,提供了一種高雜合基因組的組裝方法,上述組裝方法包括根據(jù) 待測物種的體細(xì)胞基因組序列信息構(gòu)建的布魯因圖的步驟、簡化德布魯因圖的步驟以及根 據(jù)簡化后的德布魯因圖,拼接得到高雜合基因組的組裝序列的步驟,簡化上述德布魯因圖 的步驟包括以下步驟:對待測物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測序;比對上述體細(xì)胞 基因組的序列信息與上述生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到雜合位點的序列信 息;以及根據(jù)上述雜合位點的序列信息,簡化上述德布魯因圖。
[0031] 相對于傳統(tǒng)的基因組測序數(shù)據(jù)的組裝方法,本發(fā)明的上述組裝方法主要是引入了 單細(xì)胞測序技術(shù),通過對生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測序,利用得到的生殖細(xì)胞的單細(xì) 胞的基因組序列信息與體細(xì)胞的基因組序列信息進(jìn)行比較,就能夠找出高雜合基因組中的 雜合位點,并能區(qū)分包含這些雜合位點的序列的親本來源。根據(jù)這些雜合位點的序列的親 本來源信息,在簡化根據(jù)體細(xì)胞的基因組序列信息構(gòu)建的德布魯因圖的時候,便能夠較方 便地選擇出合適的雜合位點的序列,然后拼接得到較長的重疊群(contig),從而構(gòu)建出高 雜合基因組的組裝序列。
[0032] 在本發(fā)明的上述的組裝方法中,通過比對體細(xì)胞基因組的序列信息與生殖細(xì)胞的 單細(xì)胞基因組的序列信息,就能很直接、很方便地知道所得到的雜合位點的序列信息至少 包與兩個親本的生殖細(xì)胞中的基因序列來源一致的序列,還包括體細(xì)胞之間的個體差異所 帶來的雜合位點的序列信息。在本發(fā)明中,優(yōu)選所述雜合位點的序列信息包括:與上述測序 的生殖細(xì)胞的單細(xì)胞基因組的序列的親本來源一致的雜合位點的序列信息和與上述測序 的生殖細(xì)胞的單細(xì)胞基因組的序列的親本來源不一致的雜合位點的序列信息。
[0033] 在利用上述雜合位點的序列信息,進(jìn)行簡化德布魯因圖的時候,便能夠根據(jù)上述 雜合位點的序列信息的不同親本來源,準(zhǔn)確地選擇相同親本來源的序列進(jìn)行組裝拼接。這 種組裝方法能夠組裝得到較長的重疊群片段,而非常規(guī)的打斷處理得到短的重疊群片段。 在本發(fā)明一種優(yōu)選的實施例中,在簡化上述德布魯因圖的步驟中,采用與上述生殖細(xì)胞的 單細(xì)胞基因組的序列信息的親本來源不一致的雜合位點的序列信息進(jìn)行組裝。
[0034] 由于基于Illumina測序平臺得到的序列中,每一個喊基都會有相應(yīng)的測序質(zhì)量 值。測序質(zhì)量值的高低體現(xiàn)了該堿基測序結(jié)果的可信度的高度。比如,質(zhì)量值為20代表錯 誤率為1 %,質(zhì)量值為30代表錯誤率為0. 1 %。測序質(zhì)量值越低,說明該堿基測錯的概率就 大,可信度就比較低。因此,在進(jìn)行序列比對或序列組裝之前,通常需要將這些測序得到的 原始數(shù)據(jù)進(jìn)行處理,從而過濾測序質(zhì)量值較低的序列,即低質(zhì)量序列以減少測序錯誤對德 布魯因圖構(gòu)建的干擾。
[0035] 需要說明的是,本發(fā)明中所提及的低質(zhì)量序列是指堿基質(zhì)量值在20以上的比例 低于85 %的序列。在本發(fā)明的上述比對體細(xì)胞基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組 的序列信息,找到雜合位點的序列信息的步驟之前,進(jìn)一步優(yōu)選還包括,分別對上述體細(xì)胞 基因組的序列信息與生殖細(xì)胞單細(xì)胞基因組的序列信息進(jìn)行過濾低質(zhì)量序列的步驟。
[0036] 在本發(fā)明的上述過濾低質(zhì)量序列的步驟通過設(shè)置閾值進(jìn)行過濾。根據(jù)不同的測序 數(shù)據(jù)、測序數(shù)據(jù)的質(zhì)量高低以及對序列組裝要求的高低,通過設(shè)置不同的閾值對低質(zhì)量序 列進(jìn)行過濾。在本發(fā)明中,優(yōu)選對體細(xì)胞的基因組序列和生殖細(xì)胞單細(xì)胞的基因組序列進(jìn) 行相同閾值的過濾。通過設(shè)置相同的閾值進(jìn)行過濾,對過濾后剩余的序列的可信程度較一 致,利用這些可信程度一致的序列進(jìn)行對比,得到的雜合位點的序列信息的可信度也相應(yīng) 地比較高。相反,若對測序質(zhì)量高低不一致的體細(xì)胞基因組序列數(shù)據(jù)和生殖細(xì)胞單細(xì)胞基 因組序列數(shù)據(jù)進(jìn)行比較,得到的雜合位點的序列信息的可信程度就較低。
[0037] 在本發(fā)明的上述組裝方法中,對待測物種的生殖細(xì)胞單細(xì)胞基因組進(jìn)行測序的步 驟之前,進(jìn)一步包括構(gòu)建測序文庫的步驟,上述構(gòu)建測序文庫的步驟采取常規(guī)Illumina平 臺進(jìn)行建庫測序的步驟即可。在本發(fā)明中,優(yōu)選上述構(gòu)建測序文庫的步驟包括:提取上述待 測物種的生殖細(xì)胞的單細(xì)胞的基因組DNA;以及對上述待測物種的生殖細(xì)胞的單細(xì)胞的基 因組DNA進(jìn)行隨機地直接片段化,形成測序文庫;其中,上述測序文庫為不大于500bp的短 片段文庫。
[0038] 相比組織樣本測序或材料多的樣本的測序,單細(xì)胞測序技術(shù)有其獨特的優(yōu)勢,能 夠解決組織樣本或樣本少的時候測序所無法解決的細(xì)胞異質(zhì)性問題的獨特優(yōu)勢。但由于單 細(xì)胞的基因組DNA的量相對組織樣本或材料多的樣本的基因組DNA的量要少得多,對于這 種量非常少的基因組DNA,在構(gòu)建基于Illumina平臺的測序文庫的時候,需要注意DNA污 染和DNA擴(kuò)增均一性差的問題。在單倍體基因組中,尤其是擴(kuò)增均一性差的問題,使得在現(xiàn) 階段利用單細(xì)胞測序技術(shù)得到的序列只能達(dá)到全基因組序列長度的40%左右,無法單獨完 成全基因組的組裝拼接工作。但是,通過嚴(yán)格的質(zhì)量監(jiān)控和改進(jìn)的多重置換擴(kuò)增(MAD)技 術(shù)、多次退火循環(huán)擴(kuò)增(MALBAC)技術(shù)能夠在錨定橋接和預(yù)擴(kuò)增步驟中以較低的偏倚性進(jìn) 行DNA擴(kuò)增,從而實現(xiàn)對單細(xì)胞基因組進(jìn)行相對均一地擴(kuò)增。
[0039] 本發(fā)明的上述生殖細(xì)胞的單細(xì)胞的基因組DNA測序文庫的構(gòu)建步驟,如圖1中所 示,在對待測生殖細(xì)胞的單細(xì)胞基因組DNA片段化后,形成150bp?500bp大小的短片段文 庫。將生殖細(xì)胞的單細(xì)胞構(gòu)建成150bp?500bp大小的短片段文庫的目的,是為了盡可能 把段片段的全長測通,提高對短片段上每個堿基的測序準(zhǔn)確度,從而提高比對得到的體細(xì) 胞基因組序列信息中的雜合位點的準(zhǔn)確度。
[0040] 在本發(fā)明的上述生殖細(xì)胞的單細(xì)胞基因組的150bp?500bp大小的短片段文庫建 好后,上機測序之前進(jìn)行錨定橋接和預(yù)擴(kuò)增的步驟中,優(yōu)選采用MALBAC技術(shù)進(jìn)行預(yù)擴(kuò)增, 這種擴(kuò)增方式通過形成閉合環(huán)來抑制DNA片段被重復(fù)地復(fù)制,以保持DNA擴(kuò)增的均勻性,解 決了對單細(xì)胞基因組擴(kuò)增的強烈偏好性問題,因而,這種擴(kuò)增方式對不同片段的擴(kuò)增均一 性更好,得到的測序數(shù)據(jù)的質(zhì)量相對更高。
[0041] 在本發(fā)明的上述組裝方法中,在具有上述的生殖細(xì)胞的單細(xì)胞基因組的序列信息 之后,利用生殖細(xì)胞的單細(xì)胞基因組的序列信息就能夠與體細(xì)胞的基因組序列信息進(jìn)行比 對,找到體細(xì)胞基因組中的雜合位點,并利用這些雜合位點的序列信息,就能夠進(jìn)行簡化由 體細(xì)胞基因組序列信息構(gòu)建的德布魯因圖。而當(dāng)待測物種的體細(xì)胞的基因組序列信息完全 未知的情況下,在簡化上述德布魯因圖的步驟之前,還包括對上述待測物種的體細(xì)胞基因 組進(jìn)行測序的步驟。
[0042] 對本發(fā)明的上述待測物種的體細(xì)胞基因組進(jìn)行測序的步驟,利用常規(guī)的基因組測 序流程進(jìn)行即可。在本發(fā)明一種優(yōu)選的實施例中,上述對待測物種的體細(xì)胞基因組進(jìn)行測 序的步驟包括:提取的上述待測物種的體細(xì)胞的基因組DNA ;以及對上述待測物種的體細(xì) 胞基因組DNA進(jìn)行隨機地直接片段化和環(huán)化之后再進(jìn)行片段化,形成測序文庫;其中,上述 測序文庫包括不大于500bp的短片段文庫和2Kb?10Kb的長片段文庫。
[0043] 本領(lǐng)域技術(shù)人員清楚的是,在基于Illumina平臺的全基因組測序文庫構(gòu)建中,通 常構(gòu)建帶有不同插入片段大小的文庫,然后通過不同長度的插入片段之間的重疊序列進(jìn)行 拼接。在本發(fā)明構(gòu)建不大于500bp的短片段文庫和2Kb?10Kb的長片段文庫的目的也在 于此,用于輔助拼接組裝。
[0044] 不大于 500bp 短片段文庫通常包括 50bp、100bp、150bp、180bp、200bp、300bp 和 500bp。在本發(fā)明的上述體細(xì)胞的基因組DNA測序文庫中,優(yōu)選構(gòu)建180bp和500bp的測序 文庫。Illumina平臺的雙端測序(Paired-End)能夠測通的相對較長的片段在200bp左右, 構(gòu)建180bp的短片段文庫能夠得到短片段的全長序列。直接利用全長的短序列片段之間的 重疊序列部分就能形成片段相對較長的片段(即重疊群contig)。雙端測序時能夠測得兩 端各接近l〇〇bp的序列長度,對長度在500bp左右的片段來講,能夠利用不同片段的末端序 列之間的重疊部分進(jìn)行拼接,同樣得到相對更長的片段(即scaffold)。
[0045] 在本發(fā)明的上述2Kb?10Kb的長片段文庫中,優(yōu)選包括2Kbp、5Kbp和lOKbp文 庫。通過將體細(xì)胞的基因組隨機打斷成大小范圍在2Kbp、5Kbp和lOKbp的大片段文庫,然 后通過對大片段的兩端進(jìn)行測序(Paired-End),得到關(guān)于上述2Kbp、5Kbp和lOKbp的大片 段的兩端的序列信息,這些大片段兩端的序列信息有利于后續(xù)大片段之間的拼接。其中,上 述大片段文庫的構(gòu)建步驟,如圖1所示:將體細(xì)胞的基因組隨機打斷成2Kbp、5Kbp和lOKbp 大小的片段,然后對大片段進(jìn)行末端修復(fù),生物素標(biāo)記片段后對片段進(jìn)行環(huán)化,然后再對環(huán) 化的片段進(jìn)行二次打斷,選擇其中帶有生物素標(biāo)記的片段進(jìn)行末端修復(fù)、連接頭后進(jìn)行PCR 擴(kuò)增。這樣便能夠得到大片段文庫兩端的序列信息,這些信息有助于將大片段序列拼接成 更大的片段(即框架scaffold)。
[0046] 上述組裝方法在根據(jù)簡化后的所述德布魯因圖,拼接得到高雜合基因組的組裝序 列的步驟中利用序列互補配對的關(guān)系進(jìn)行拼接,得到高雜合基因組的組裝序列。
[0047] 下面結(jié)合具體的實施例來進(jìn)一步說明本發(fā)明的有益效果。
[0048] 首先要說明的是,下列實施例中的高雜合二倍體基因組由兩條大腸桿菌完整的 基因組序列的組合來模擬,單倍體基因組以單條大腸桿菌的基因組序列來模擬;其中這兩 條大腸桿菌分別為DH1 (ME8569)菌株和026:Hllstr. 11368菌株的大腸桿菌,大小分別為 4621430bp和5697240bp ;這兩條大腸桿菌為單倍體時的雜合度均為0,當(dāng)將它們混合在一 起模擬大腸桿菌的二倍體基因組時,這個二倍體的雜合度高達(dá)1. 47%;以其中DH1 (ME8569) 菌株的大腸桿菌來模擬單倍體基因組。
[0049] 樣品準(zhǔn)備。如圖1,單獨提取二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的DNA。
[0050] 測序文庫構(gòu)建。如圖1,首先利用二倍體體細(xì)胞的基因組DNA,構(gòu)建從180bp、 500bp、2Kbp、5Kbp和lOKbp的不同梯度的插入片段大小的測序文庫。其中,180bp和500bp 的短片段測序文庫是將基因組DNA直接打斷成相應(yīng)大小的片段而成,而2Kbp、5Kbp和lOKbp 的測序文庫是將基因組DNA先進(jìn)行成2Kbp、5Kbp和lOKbp的片段后,再經(jīng)連接酶連接成環(huán) 狀(例如圖1中的環(huán)狀),然后再采用超聲破碎法進(jìn)行片段的打斷,打斷成平均400?600bp 的片段大小,最終完成文庫的構(gòu)建。而大片段文庫的序列方向相對于小片段是相反的,如圖 1中的箭頭所示。而單倍體生殖細(xì)胞的DNA只需要構(gòu)建一個小片段文庫,如圖1中的左方顯 /_J、1 〇
[0051] 錨定橋接和預(yù)擴(kuò)增。在二倍體體細(xì)胞的基因組DNA利用HiSeq2000進(jìn)行測序之前, 先將上一個步驟得到的DNA片段經(jīng)過變性成單鏈后,固定在測序通道上的接頭引物而且結(jié) 合形成橋狀結(jié)構(gòu),再被擴(kuò)增成雙鏈橋型片段,在變性過程中釋放出互補的單鏈會被錨定到 附件的固相表面,數(shù)次循環(huán)之后,會在固相表面形成上百萬條成簇分布的雙鏈待測片段。而 單倍體生殖細(xì)胞的基因組DNA會通過形成閉合環(huán)來抑制DNA片段被重復(fù)地復(fù)制,以保持DNA 擴(kuò)增的均勻性,解決了對單細(xì)胞基因組擴(kuò)增的強烈偏好性問題。然后再經(jīng)過錨定和擴(kuò)增,跟 二倍體體細(xì)胞的基因組DNA -樣在固相表面形成上百萬成簇分布的雙鏈的待測片段。
[0052] 測序。在固相表面的每一個測序簇延伸互補鏈的時,每次加入一個被熒光標(biāo)記的 dNTP(脫氧三磷酸核苷酸)會發(fā)射出不同的熒光,Illumina測序儀通過接受這些熒光信號 和將其用計算機軟件處理后,就能準(zhǔn)確地獲得待測片段的序列信息。經(jīng)過上述的處理,就可 以的到二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的基因組DNA序列信息。
[0053] 數(shù)據(jù)處理。Illumina測序得到的序列的每一個堿基都會有相應(yīng)的測序質(zhì)量,測序 質(zhì)量低,說明該堿基測錯的概率就大。因此會在基因組裝之前將這些原始數(shù)據(jù)處理,通過設(shè) 置不同的閾值過濾質(zhì)量較低的序列。在進(jìn)行基因組組裝之前,對二倍體體細(xì)胞的基因組DNA 和單倍體生殖細(xì)胞的基因組DNA序列進(jìn)行相同閾值的過濾,即均對質(zhì)量值在20以上且比例 低于85%的序列進(jìn)行過濾。
[0054] 生殖細(xì)胞的單細(xì)胞測序輔助基因組組裝。首先,如圖2,用Kmer是指將一條序列 (reads)連續(xù)切割,沿堿基序列滑動單個堿基得到一條堿基數(shù)為K的核苷酸序列。其中橫 坐標(biāo)Kmer的深度是指Kmer在所有某一個Kmer在reads中出現(xiàn)的次數(shù);Kmer的個數(shù)是指 在同樣深度的Kmer在所有reads中出現(xiàn)的次數(shù),其中A部分顯示的是二倍體基因組測序數(shù) 據(jù);通過與B部分中單倍體生殖細(xì)胞的基因組DNA的測序數(shù)據(jù)進(jìn)行比對,得到二倍體基因組 DNA序列與單倍體生殖細(xì)胞DNA序列之間的雜合位點(即圖2中的D部分),和將該部分雜 合位點分離過濾后的二倍體基因組序列數(shù)據(jù),(即圖2中的C部分)。
[0055] 其次,將通過低質(zhì)量序列過濾后的二倍體測序的序列輸入到S0APdenovo2,參考其 他已經(jīng)發(fā)表的針對二代測序的組裝軟件SOAPdenovo將序列打斷及合并處理,通過序列相 似性,構(gòu)建出德布魯因圖結(jié)構(gòu)。如圖3,在簡化德布魯因圖的時候引入上述提取的雜合位點 信息,在遇到雜合位點的分叉圖路上只選取其中與上述單倍體生殖細(xì)胞中的序列不一致的 一套進(jìn)行組裝,假設(shè)序列B和D為單倍體生殖細(xì)胞來源的序列,則選擇二倍體基因組中的A 和C序列來進(jìn)行組裝,即通過A-E-C通路(如圖3中的右下方)得到1條長的序列片段,而 不是按照傳統(tǒng)的方法在分叉的圖路上進(jìn)行打斷(如圖3中的左下方),得到5條短的序列片 段,從而解決雜合組裝問題,再利用序列之間的配對關(guān)系構(gòu)建出雜合基因組的組裝序列結(jié) 果。
[0056] 本發(fā)明經(jīng)上述模擬數(shù)據(jù)測試,對于雜合率在百分之一的基因組,采用常規(guī)的方法 進(jìn)行組裝拼接,組裝中最關(guān)鍵的指標(biāo)contig N50(重疊群)只有551bp,scaffold N50為 71,511,而采用本發(fā)明的生殖細(xì)胞單細(xì)胞測序輔助組裝的方法,其contig N50可以達(dá)到 1761bp,另外 scaffoldN50 達(dá)到 221,503bp。
[0057] 從以上的描述中,可以看出,本發(fā)明上述的實施例實現(xiàn)了如下技術(shù)效果:本發(fā)明首 次將生殖細(xì)胞的單細(xì)胞擴(kuò)增技術(shù)和單細(xì)胞測序技術(shù)與體細(xì)胞的常規(guī)二代測序技術(shù)結(jié)合在 一起,通過二倍體體細(xì)胞的基因組DNA和單倍體生殖細(xì)胞的基因組DNA的測序差異,準(zhǔn)確找 到屬于體細(xì)胞基因組的雜合位點信息,從而解決了常規(guī)的方法不能準(zhǔn)確定位基因組的雜合 位點信息的難題;其次,相比常規(guī)的二代測序組裝拼接方法,在分叉的雜合位點只能選取打 斷序列的方法,從而導(dǎo)致序列過短而無法組裝的缺陷,本發(fā)明能利用辨認(rèn)的雜合位點信息 準(zhǔn)確簡化雜合位點的分叉路,從而避免將序列打斷,從而能夠?qū)崿F(xiàn)雜合基因組的組裝。
[0058] 以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種高雜合基因組的組裝方法,所述組裝方法包括根據(jù)待測物種的體細(xì)胞基因組序 列信息構(gòu)建德布魯因圖的步驟、簡化所述德布魯因圖以及根據(jù)簡化后的所述德布魯因圖, 拼接得到高雜合基因組的組裝序列的步驟,其特征在于,簡化所述德布魯因圖的步驟包括 以下步驟: 對待測物種的生殖細(xì)胞的單細(xì)胞基因組進(jìn)行測序; 比對所述體細(xì)胞基因組的序列信息與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息,找到 所述體細(xì)胞基因組序列中的雜合位點的序列信息;以及 根據(jù)所述雜合位點的序列信息,簡化所述德布魯因圖。
2. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,所述雜合位點的序列信息包括與所 述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來源一致的雜合位點的序列信息和與所述 生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來源不一致的雜合位點的序列信息。
3. 根據(jù)權(quán)利要求2所述的組裝方法,其特征在于,根據(jù)所述雜合位點的序列信息,簡化 所述德布魯因圖的步驟中,采用與所述生殖細(xì)胞的單細(xì)胞基因組的序列信息的親本來源不 一致的雜合位點的序列信息進(jìn)行組裝。
4. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,在所述比對體細(xì)胞基因組的序列信 息與生殖細(xì)胞單細(xì)胞基因組的序列信息,找到雜合位點的序列信息的步驟之前,進(jìn)一步還 包括,分別對所述體細(xì)胞基因組的序列信息與生殖細(xì)胞的單細(xì)胞基因組的序列信息進(jìn)行過 濾低質(zhì)量序列的步驟。
5. 根據(jù)權(quán)利要求4所述的組裝方法,其特征在于,所述過濾低質(zhì)量序列的步驟通過設(shè) 置閾值進(jìn)行過濾。
6. 根據(jù)權(quán)利要求5所述的組裝方法,其特征在于,對所述體細(xì)胞基因組序列信息和所 述生殖細(xì)胞單細(xì)胞基因組序列信息通過設(shè)置相同的閾值進(jìn)行過濾低質(zhì)量序列。
7. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,對待測物種的生殖細(xì)胞的單細(xì)胞基 因組進(jìn)行測序的步驟之前,進(jìn)一步包括構(gòu)建測序文庫的步驟,所述構(gòu)建測序文庫的步驟包 括: 提取所述待測物種的生殖細(xì)胞的單細(xì)胞的基因組DNA ;以及 對所述待測物種的生殖細(xì)胞的單細(xì)胞的基因組DNA進(jìn)行直接片段化,形成測序文庫; 其中,所述測序文庫為不大于500bp的短片段文庫。
8. 根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,所述組裝方法在簡化所述德布魯因 圖的步驟之前,還包括對所述待測物種的體細(xì)胞基因組進(jìn)行測序的步驟;對所述待測物種 的體細(xì)胞基因組進(jìn)行測序的步驟包括: 提取所述待測物種的體細(xì)胞的基因組DNA ;以及 對所述待測物種的體細(xì)胞基因組DNA進(jìn)行直接片段化和環(huán)化之后再進(jìn)行片段化,形成 測序文庫; 其中,所述測序文庫包括不大于500bp的短片段文庫和2Kb?10Kb的長片段文庫。
9. 根據(jù)權(quán)利要求7或8所述的組裝方法,其特征在于,所述不大于500bp的短片段文庫 包括180bp文庫和500bp文庫。
10. 根據(jù)權(quán)利要求8所述的組裝方法,其特征在于,所述2Kb?10Kb的長片段文庫包括 2Kbp、5Kbp 和 lOKbp 文庫。
11.根據(jù)權(quán)利要求1所述的組裝方法,其特征在于,所述組裝方法在根據(jù)簡化后的所述 德布魯因圖,拼接得到高雜合基因組的組裝序列的步驟中利用序列互補配對的關(guān)系進(jìn)行拼 接,得到高雜合基因組的組裝序列。
【文檔編號】G06F19/20GK104091097SQ201410342295
【公開日】2014年10月8日 申請日期:2014年7月17日 優(yōu)先權(quán)日:2014年7月17日
【發(fā)明者】張錦波, 江文愷, 李季, 孫小慶, 張曉杰, 唐新春 申請人:北京諾禾致源生物信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
万全县| 大宁县| 玛纳斯县| 邹平县| 九龙县| 翁牛特旗| 京山县| 柳江县| 玉门市| 奉化市| 漳浦县| 淮北市| 新建县| 新昌县| 齐齐哈尔市| 金堂县| 东海县| 乌鲁木齐县| 咸宁市| 鄂托克前旗| 南和县| 许昌市| 遵义县| 迁西县| 调兵山市| 通山县| 长乐市| 东城区| 皮山县| 炎陵县| 高雄市| 长沙县| 成安县| 胶州市| 安福县| 瑞昌市| 静海县| 那曲县| 景德镇市| 桂平市| 金坛市|