一種長片段核酸文庫的構建方法
【技術領域】
[0001] 本發(fā)明涉及生物信息學領域,特別是涉及一種適用于基因組從頭測序組裝技術的 長片段核酸文庫構建方法。
【背景技術】
[0002] 高通量測序技術又稱下一代測序技術,是相對于傳統(tǒng)測序技術的一次革命性變 革,可以對數百萬個DNA分子進行同時測序。高通量測序技術不僅可以進行大規(guī)?;蚪M 測序,還可用于基因表達分析、非編碼小分子RNA的鑒定、轉錄因子靶基因的篩選和DNA甲 基化等相關研宄。
[0003] 全基因組Denovo測序也叫做基因組從頭測序,是指不依賴于任何已知基因組序 列信息對某個物種的基因組進行測序,然后應用生物信息學手段對測序序列進行拼接和組 裝,最終獲得該物種基因組序列圖譜。第一個基因組的組裝一一人類基因組耗時13年,這是 一個劃時代的事件,同時又給科學家們提出了新的努力方向,如何縮短整體時間。隨著高通 量測序技術的誕生,這一時間顯著縮短,一天之內進行人類基因組測序成為可能。對于無參 考基因組的物種,denovo組裝時間也大大縮短,目前已有部分物種基因組組裝完成,其中 包括玉米、白菜、獼猴桃,以及中國的國寶大熊貓。但是,在復雜物種基因組組裝的過程中, 多倍體以及大量的重復序列,已經成為組裝的技術壁皇,如果能解決這一問題,將為復雜基 因組組裝提供強有力的技術支持,提高組裝準確性、縮短組裝時間。
[0004] 目前,解決多倍體、重復序列對denovo影響的手段,除了生物信息學方法外,還 包括實驗技術方面的手段,主要有MatePair文庫制備和長片段核酸分子測序兩種,均為 illumina公司的實驗技術手段。其中MatePair文庫制備旨在生成一些短的DNA片段,這 些片段包含基因組中較大跨度(2-10kb)片段兩端的序列,首先將基因組DNA隨機打斷到特 定大?。?-10kb范圍可選),然后依次經過末端修復、生物素標記和環(huán)化處理,環(huán)化后的DNA 分子被隨機打斷成400-600bp的片段并通過帶有鏈親和霉素的M280磁珠把帶有生物素標 記的片段捕獲,這些捕獲的片段再經末端修飾和加上特定接頭后建成MatePair文庫,經 上機測序獲得那些較大跨度的片段兩端的序列,就極大簡化了基因組(框架搭建、空缺區(qū) 域補充)的復雜性。另外一種技術與MatePair-樣,同屬于illumina公司,其原理與基 本流程如下:首先將基因組DNA打斷至6-8kb片段,加上定位PCR接頭(用于確定10kb片 段的5'和3'位置),利用有限稀釋來創(chuàng)建幾百至幾千個DNA分子的樣品等份,確保每個孔 內只含有少量的長片段分子(減少測序后l〇kb片段拼接的難度),同時利用長片段擴增技 術,使少量l〇kb分子富集(提供足夠的拼接數據),第二次將長片段破碎為短片段,添加可 用于Illumina測序系統(tǒng)的雙Index接頭,構建小片段文庫,利用IlluminaHiSeq2000測 序,之后利用VelvetAssembler將每個Index的短末端配對讀取分別組裝,簡化了組裝問 題。這種方法將新一代測序儀的讀長有效提高了 50倍,同時將錯誤率降低了幾個數量級。 但是,上述技術的缺點是在有限稀釋過程中,極易受環(huán)境微生物基因組的影響,致使有效數 據量低。
【發(fā)明內容】
[0005] 本發(fā)明的目的在于提供一種長片段核酸文庫構建方法,以解決目前針對復雜基因 組組裝受多倍體、高度雜合和重復序列等因素影響所導致的組裝難度大等問題。
[0006] 為了實現本發(fā)明的目的,本發(fā)明利用自主研發(fā)的基于批量Index簇制備的長片段 核酸分子批量標記技術,結合常規(guī)全基因組重測序建庫流程,構建了適合于illumina測序 平臺的長片段文庫,并進行測序及后期的信息分析。技術方案如下:(1)常規(guī)長片段文庫制 備,低循環(huán)PCR富集大片段核酸;(2)通過酶切連接的方式,制備兩種含有Index的標簽簇, 第一種是Index標簽簇,第二種是大片段捕獲標簽簇;(3)長片段DNA捕獲,將第一步的長 片段擴增產物處理后與第二步中大片段捕獲標簽簇混合,將長片段"掛載"到大片段捕獲標 簽簇上;(4)轉座酶打斷,將Index標簽簇與已"掛載"長片段的長片段捕獲標簽簇混合, 并用PTP板進行小室化處理,使每個小室中分別包含一個Index標簽簇和一個長片段捕獲 標簽簇,在轉座酶的作用下,"掛載"在長片段捕獲標簽簇上的大片段被打斷成長度集中在 500bp-600bp左右的彌散帶,每個片段在轉座酶的作用下,直接帶有適合illumina測序平 臺的接頭;(5)文庫獲取,通過PCR擴增,篩選構建好的文庫;上機測序及信息分析。
[0007] 首先,本發(fā)明提供一種批量制備Index簇的方法,將接頭A1分別與鏈霉親和素修 飾的納米磁珠連接,形成A1接頭和納米磁珠復合物,然后用T4DNA連接酶將包含有Sma I 酶切位點的64種接頭A分別隨機一對一的連接在A1接頭和納米磁珠復合物上,將連接產 物用Sma I進行酶切后再連接接頭A,共計進行3次連接接頭A酶切反應,最后連接接頭 A2-14U;
[0008] 所述接頭A1共64種,序列如SEQ ID NO. 1-128所示;
[0009] 所述接頭A共64種,序列如SEQ ID NO. 129-256所示;
[0010] 所述接頭A2-14U序列為:
[0011] F :5 '-ACGCATGACTCAdUCGdUCGGCAGCGdUCAdUCTCGCAGTTG ;
[0012]R:5 '-CAACdUGCGAGAdUGACGCTGCCGACGATGAGTCATGCGT〇
[0013] 其中,本發(fā)明所述的納米磁珠為M280磁珠、M270磁珠、T1或Ci的鏈霉親和素修飾 的納米磁珠。
[0014] 進一步,本發(fā)明提供一種長片段核酸文庫構建方法,包括以下步驟:
[0015] (1)長片段DNA文庫的制備
[0016] (2)含標記的標簽簇制備
[0017] 通過酶切連接的方式,制備兩種含有Index的標簽簇,第一種是Index標簽簇,第 二種是長片段DNA捕獲Index標簽簇;其中Index標簽簇是采用前述的批量制備Index簇 的方法,制備含有不同標簽的Index標簽簇;
[0018] (3)長片段DNA捕獲復合物的獲得
[0019] (4)二次破碎文庫構建
[0020]將步驟(2)的的Index標簽簇與長片段DNA捕獲復合物混合,并且用PTP板進行 單孔處理,確保每個PTP板的小孔中分別包含一個Index標簽簇和一個已連接大片段的長 片段捕獲標簽簇,在轉座酶的作用下,連接在長片段捕獲標簽簇上的大片段被打斷成長度 集中在500bp-600bp左右的彌散帶,每個片段在轉座酶的作用下直接連接適合illumina測 序平臺的接頭;
[0021] (5)長片段核酸文庫的獲得
[0022] 將⑷步中獲得的連上illumina測序平臺接頭的連接產物通過PCR擴增,篩選構 建好的文庫;通過HiSeq2500進行上機測序,并對測序結果進行分析。
[0023] 其中步驟⑴具體步驟為:
[0024] ①基因組DNA破碎
[0025] 利用霧化的方法將基因組DNA破碎,獲得集中帶為2-10Kbp的彌散條帶,在該區(qū)間 內根據需要回收目的片段并純化;
[0026] ②末端修復、加A、加接頭
[0027] 用T4DNA聚合酶、T4多聚核苷酸激酶和克列諾酶對純化好的大片段進行末端修 復,并且用PCR產物純化試劑盒純化,末端修復純化后對純化樣品進行加A處理并純化,用 T4DNA連接酶加接頭,接頭為MANNN,序列為:
[0028] F: ,-ACTTNNNTCCCNNNTCCCNNNTCCCNNNTCCCGCTCTTCCGATCT
[0029] R:5'-GATCGGAAGAGCACACGTCT
[0030] 連接完成后純化連接產物;
[0031] ③切膠選片段
[0032] 配制0. 6%瓊脂糖凝膠,電泳100V、120min后,根據需求選擇在2K-10K片段中進行 切膠,用大片段回收試劑盒回收2K-10K這一范圍內的目的片段;
[0033] ④目的片段富集
[0034] 利用擴增回收的目的片段進行PCR擴增富集,并純化擴增產物。
[0035] 本發(fā)明的一種長片段核酸文庫構建方法步驟(1)的步驟④中,進行PCR擴增富集 時使用的引物為:
[0036] F:5,-ACUTCCAUCCCCCAUCCCCCAUCCCCCAUCCC
[0037] R:5'-AGACGTGTGCTCTTCCGATC。
[0038] 本發(fā)明方法中,步驟(2)的所述的長片段DNA捕獲Index標簽簇的制備方法