專利名稱:配對末端測序法的制作方法
配對末端測序法發(fā)明領(lǐng)域
本發(fā)明涉及核酸測序、基因組測序和將測序結(jié)果裝配成鄰接序列的領(lǐng)域。
發(fā)明背景
對大的靶核酸(例如人基因組)進(jìn)行測序的一種方法是使用鳥槍法測序。在鳥 槍法測序中,使靶核酸片段化或亞克隆產(chǎn)生一系列的重疊核酸片段后,測定這些片段的 序列。根據(jù)每個(gè)片段的序列的重疊和對每個(gè)片段的序列的認(rèn)識,可以構(gòu)建完整的靶核酸 序列。
鳥槍法測序的一個(gè)缺點(diǎn)是如果靶核酸序列包含許多小的重復(fù)序列(串聯(lián)重復(fù)序 列或反向重復(fù)序列),則裝配可能十分困難。不能用重復(fù)區(qū)裝配基因組序列導(dǎo)致裝配序列 中出現(xiàn)缺口(gap)。因此,在最初的核酸序列裝配之后,需要補(bǔ)平序列覆蓋范圍的缺口, 而且還需要解決裝配中不確定性的問題。
一種解決這些缺口的方法是使用較大的克隆或片段來測序,因?yàn)檫@些較大的片 段可能足夠長到跨過重復(fù)區(qū)。然而,核酸大片段的測序在現(xiàn)有的測序儀中較困難并且耗 時(shí)。
另一種跨越序列中的缺口的方法是確定大片段兩個(gè)末端的序列。與鳥槍法測序 片段的一個(gè)末端的單一序列讀長(sequence read)相比,兩個(gè)末端的一對序列讀長具有已 知的間距和方向。使用相對長的片段還有助于含有散布重復(fù)元件(interspersed repetitive element)的序列進(jìn)行裝配。這一類型的方法6mith,M.W.等,Nature Genetics 7 40-47 (1994)在本領(lǐng)域稱為配對末端測序法(paired end sequencing)。本發(fā)明包括用于配 對末端測序方法和其它核酸技術(shù)的新的方法、系統(tǒng)和組合物。
發(fā)明概述
本發(fā)明的一個(gè)實(shí)施方案涉及用于在體外反應(yīng)中獲得包含靶核酸的兩個(gè)末端區(qū)的 DNA構(gòu)建體的方法,所述靶核酸可以是得自生物基因組的大區(qū)段。所述方法包括下列步 驟
本發(fā)明描述了用于在體外反應(yīng)中獲得包含靶核酸的兩個(gè)末端區(qū)的DNA構(gòu)建體的 方法的一個(gè)實(shí)施方案,所述方法包括以下步驟使大核酸分子片段化產(chǎn)生靶核酸分子; 使重組銜接子元件(adaptor element)與靶核酸分子的每個(gè)末端連接產(chǎn)生銜接的靶核酸 (adapted target nucleic acid)分子;使銜接的靶核酸暴露于位點(diǎn)特異性重組酶,從銜接的 靶核酸產(chǎn)生環(huán)狀核酸產(chǎn)物和線性核酸產(chǎn)物,其中環(huán)狀核酸產(chǎn)物包含靶核酸分子;使環(huán)狀 核酸產(chǎn)物片段化產(chǎn)生包含得自靶核酸分子每個(gè)末端的序列區(qū)的模板核酸分子。
在一些實(shí)施過程中,所述方法還包括使用外切核酸酶除去非環(huán)狀分子的步驟。 另外,在一些實(shí)施過程中,所述方法還包括以下步驟將大量環(huán)狀載體DNA分子(carrier DNA molecule)加入環(huán)狀核酸產(chǎn)物中;使環(huán)狀核酸產(chǎn)物和載體DNA分子片段化產(chǎn)生模板 分子和大量的線性載體分子;測定自模板分子和線性載體分子片段化的效率;使模板分 子擴(kuò)增以產(chǎn)生包含大量基本相同拷貝的群體,其中線性載體分子是不可擴(kuò)增的;對所述 群體進(jìn)行測序,生成包含模板核酸的序列組成的序列數(shù)據(jù)。
本發(fā)明的方法可同時(shí)在大量靶DNA片段中進(jìn)行以產(chǎn)生DNA構(gòu)建體的文庫,所 述構(gòu)建體含有來自大的DNA片段的末端。本發(fā)明的一個(gè)優(yōu)勢是可在體外構(gòu)建文庫而無需 使用原核或真核宿主細(xì)胞。
因此,本發(fā)明涉及用于在體外反應(yīng)中獲得包含靶核酸的兩個(gè)末端區(qū)的DNA構(gòu)建 體的方法,所述方法包括以下步驟
-使核酸片段化產(chǎn)生靶核酸分子;
-使重組銜接子元件與靶核酸分子的每個(gè)末端連接產(chǎn)生銜接的靶核酸分子;
-使銜接的靶核酸暴露于位點(diǎn)特異性重組酶中,由銜接的靶核酸產(chǎn)生環(huán)狀核酸產(chǎn) 物和線性核酸產(chǎn)物,其中環(huán)狀核酸產(chǎn)物包含靶核酸分子;和
-使環(huán)狀核酸產(chǎn)物片段化產(chǎn)生包含得自靶核酸分子每個(gè)末端的序列區(qū)的模板核酸 分子。
片段化的核酸可由非常大的分子組成。例如,所述核酸可以是基本上未剪切或 之前未被預(yù)片段化的基因組DNA。在這種情況下,所述新的方法尤其適用于包含長度 選自至少3Kb、至少8Kb、至少10Kb、至少20Kb、至少50Kb和至少IOOKb的靶核酸分子。
可用于本發(fā)明所述情況的位點(diǎn)特異性重組酶的一個(gè)突出實(shí)例是Cre重組酶。
使環(huán)狀核酸產(chǎn)物片段化的一個(gè)優(yōu)選的方法包括霧化的步驟。優(yōu)選使環(huán)狀核酸產(chǎn) 物片段化的步驟還包括使用II型限制性內(nèi)切酶對環(huán)狀核酸產(chǎn)物進(jìn)行第一次斷裂和使用霧 化進(jìn)行第二次斷裂,其中II型限制性內(nèi)切酶在環(huán)狀核酸產(chǎn)物的雜合銜接區(qū)(hybridadaptor region)的限制位點(diǎn)上切割并從靶核酸中產(chǎn)生短序列區(qū),而霧化則從靶核酸中產(chǎn)生長序列 區(qū)。例如,II型限制性內(nèi)切酶包含Mmel,短序列區(qū)包含20bp序列長度。
在第一個(gè)實(shí)施方案中,所述方法還包括在將銜接的靶核酸暴露于位點(diǎn)特異性重 組酶的步驟之后除去非環(huán)狀分子的步驟。非環(huán)狀分子優(yōu)選包含線性核酸產(chǎn)物和銜接子二 聚體產(chǎn)物,其中銜接子二聚體產(chǎn)物由兩個(gè)重組銜接子元件彼此連接而產(chǎn)生。所述方法同 樣還優(yōu)選包括使用至少一種外切核酸酶除去非環(huán)狀分子的步驟。
所述方法還優(yōu)選包括以下這些步驟
-將大量環(huán)狀載體DNA分子加入環(huán)狀核酸產(chǎn)物中,
-使環(huán)狀核酸產(chǎn)物和載體DNA分子片段化產(chǎn)生模板分子和大量線性載體分子,
-測定從模板分子和線性載體分子中片段化的效率,
-使模板分子擴(kuò)增以產(chǎn)生包含大量基本相同拷貝的群體,其中線性載體分子是不 可擴(kuò)增的;和
-對所述群體進(jìn)行測序以產(chǎn)生包含模板核酸的序列組成的序列數(shù)據(jù)。
特別優(yōu)選的是,環(huán)狀載體分子包括pUC19。同樣特別優(yōu)選的是,環(huán)狀載體分子 包括受損的DNA,其中受損的DNA是不可擴(kuò)增的。而且受損的DNA可以是選自以下的 損傷類型UV損傷、烷基化/甲基化、X射線損傷、水解和氧化損傷。
在與上文中公開的第一個(gè)實(shí)施方案相容并且可與之組合的第二個(gè)實(shí)施方案中, 本發(fā)明的方法還包括以下步驟
-使模板核酸擴(kuò)增以產(chǎn)生包含大量基本相同拷貝的群體;和
-對所述群體進(jìn)行測序以產(chǎn)生包含模板核酸的序列組成的序列數(shù)據(jù)。
所述方法優(yōu)選還包括使第二套銜接子元件與模板核酸分子連接的步驟,其中第 二套銜接子元件包含第一引物元件和第二引物元件而且其中擴(kuò)增步驟使用第一引物元 件,測序步驟使用第二引物元件。
模板核酸的序列組成還優(yōu)選包含來自靶分子末端的各個(gè)序列區(qū)的序列組成。
在與上文中公開的第一個(gè)和第二個(gè)實(shí)施方案相容并且可與之組合的第三個(gè)實(shí)施 方案中,重組銜接子元件包含第一重組銜接子元件和第二重組銜接子元件,其中第一和 第二重組銜接子元件兩者均包含定向元件(directional element)。
優(yōu)選當(dāng)?shù)谝缓偷诙亟M銜接子元件中的定向元件處于同向關(guān)系時(shí),便產(chǎn)生環(huán)狀 核酸產(chǎn)物和線性核酸產(chǎn)物。因此第一和第二重組銜接子元件可各自包含以促進(jìn)定向元件 的同向關(guān)系(identical directional relationship)的取向與靶核酸分子連接的平端。
第一和第二重組銜接子元件還優(yōu)選包含防止銜接子多聯(lián)體(adaptor concatemer) 形成的突出端。定向元件還優(yōu)選包含Iox序列元件。第一和第二重組銜接子元件還優(yōu)選 包含位于定向元件兩端側(cè)翼的回文序列元件。
在與上文中公開的第一和第二實(shí)施方案相容并且可與之組合的第四個(gè)實(shí)施方案 中,環(huán)狀核酸產(chǎn)物包含第一雜合重組銜接子(hybrid recomWnation adaptor),線性核酸產(chǎn)物包含第二雜合重組銜接子,其中第一和第二雜合重組銜接子包含得自連接的重組銜接 子的元件。
模板核酸優(yōu)選包含位于末端序列區(qū)之間的第一雜合重組銜接子。十分優(yōu)選的模 板核酸包含至少一個(gè)與第一雜合重組銜接子結(jié)合的富集標(biāo)簽(enrichment tag)。所述富集 標(biāo)簽可為例如生物素標(biāo)簽。
另外,本發(fā)明涉及用于在體外反應(yīng)中獲得包含靶核酸的兩個(gè)末端區(qū)的大量DNA 構(gòu)建體的方法,所述方法包括下列步驟
-使大核酸分子片段化產(chǎn)生大量靶核酸分子,
-使重組銜接子元件與靶核酸分子的每個(gè)末端連接產(chǎn)生大量銜接的靶核酸分子,
-將銜接的靶核酸分子暴露于位點(diǎn)特異性重組酶中,從銜接的靶核酸分子中產(chǎn)生 大量環(huán)狀核酸產(chǎn)物和大量線性核酸產(chǎn)物,其中環(huán)狀核酸產(chǎn)物包含靶核酸分子,和
-使環(huán)狀核酸產(chǎn)物片段化產(chǎn)生包含靶核酸分子的每個(gè)末端的序列區(qū)的大量模板核 酸分子。
此外,本發(fā)明提供用于實(shí)施上文公開方法的試劑盒,所述試劑盒包含
-大量的重組銜接子元件;和
-位點(diǎn)特異性重組酶。
位點(diǎn)特異性重組酶優(yōu)選為Cre重組酶。
這類試劑盒可特別包含
-大量的重組銜接子元件,
-位點(diǎn)特異性重組酶,例如Cre重組酶,
-外切核酸酶;和
-環(huán)狀載體DNA,例如 pUC19DNA。
附圖簡述
可結(jié)合附圖來理解下面通過舉例給出、但并不意味著將本發(fā)明局限于所述具體實(shí)施方案的發(fā)明詳述,所述附圖通過引用結(jié)合到本文中,其中
圖1表示配對末端測序策略的一個(gè)實(shí)施方案的示意圖。數(shù)字標(biāo)記注明核酸的起 點(diǎn)。“101”表示俘獲元件(capture element)的一個(gè)側(cè)翼區(qū),例如圖3A左側(cè)中所示。 “102”表示俘獲元件的第二側(cè)翼區(qū),例如圖3A右側(cè)所示。“103”表示俘獲元件。 “104”表示片段化的(且任選大小分級的(size fractionated))起始核酸。“105”表示 隔離元件(separator element)。 “106”表示聚合酶。
A
A/ \AAACCCG-—GAATTC-—AAACCCTTTCGGT-—TCCAAC-
3 ‘ OH_] I lllllll Illlll IIIIIIIIIIIII Illlll
T\ /TTTGGGC---CTTAAG-—TTTGGGAAAGCCA-—AGGTTG-
5 ‘ P04
T
(SEQ ID NO 27)
發(fā)夾銜接子是一個(gè)連續(xù)核酸序列,將其分成以上4個(gè)區(qū)來描述。4個(gè)區(qū)從左到 右是發(fā)夾區(qū)、限制性內(nèi)切核酸酶識別位點(diǎn)、生物素化區(qū)和IIS型限制性內(nèi)切核酸酶識別 位點(diǎn)?!?01”表示發(fā)夾銜接子。“603”表示基因組DNA。Met表示甲基化DNA?!?02”表示發(fā)夾銜接子二聚體?!?04”表示被限制性內(nèi)切核酸酶切割的發(fā)夾銜接子。 “605”表示被限制性內(nèi)切核酸酶切割并且再連接的兩個(gè)發(fā)夾銜接子。SA表示鏈霉抗生 物素珠粒。Bio表示生物素(例如生物素化DNA)。
圖7表示配對末端方法的改進(jìn)。
圖8表示具有突出端銜接子的配對末端讀長法。
圖9表示“標(biāo)簽引發(fā)的(tag primed)”雙末端測序法,這是-測序的方法。
圖10表示銜接子連接成環(huán)。-種用于本發(fā)明產(chǎn)物
圖11表示基于的ssDNA的環(huán)化。
圖12表示配對末端測序策略的另一個(gè)實(shí)施方案的示意圖一配對讀長PET隨機(jī)片 段化(Paired-Reads PET Random Fragmentation)。SPRI 是指固相可逆固定法(solid-phase reversible immobilization)。
圖13表示從大腸桿菌(E.Coli)K12測序中得到的配對讀長PET隨機(jī)片段化測序數(shù)據(jù)。
圖14表示用大腸桿菌內(nèi)切核酸酶V切割雙鏈DNA的各種方法。被框住的核苷 酸“I”表示脫氧肌苷。
圖14A表示其中雙鏈DNA的核苷酸序列通過大腸桿菌內(nèi)切核酸酶V以產(chǎn)生3’ 單鏈回文突出端的方式指導(dǎo)雙鏈切割的方法。注意3’單鏈突出端含有脫氧肌苷殘基。
圖14B表示其中雙鏈DNA的核苷酸序列通過大腸桿菌內(nèi)切核酸酶V以產(chǎn)生3’ 單鏈非回文突出端的方式指導(dǎo)雙鏈切割的方法。注意3’單鏈突出端含有脫氧肌苷殘基。
圖14C表示其中雙鏈DNA的核苷酸序列通過大腸桿菌內(nèi)切核酸酶V以產(chǎn)生5’ 單鏈回文突出端的方式指導(dǎo)雙鏈切割的方法。注意5’單鏈突出端不含脫氧肌苷殘基。
圖14D表示其中雙鏈DNA的核苷酸序列通過大腸桿菌內(nèi)切核酸酶V以產(chǎn)生5’ 單鏈非回文突出端的方式指導(dǎo)雙鏈切割的方法。注意5’單鏈突出端不含脫氧肌苷殘基。
圖14E表示其中雙鏈DNA的核苷酸序列通過大腸桿菌內(nèi)切核酸酶V以產(chǎn)生平端 的方式指導(dǎo)雙鏈切割的方法。
圖15表示在相對鏈上含有脫氧肌苷的發(fā)夾銜接子(脫氧肌苷發(fā)夾銜接子)被大 腸桿菌內(nèi)切核酸酶V進(jìn)行雙鏈切割的配對末端測序策略的另一個(gè)實(shí)施方案的示意圖。
圖16表示使用圖15中所述脫氧肌苷發(fā)夾銜接子方法,從大腸桿菌K12基因組 DNA測序中獲得的配對讀長距離的分布。
圖17表示本發(fā)明配對末端測序方法的另一個(gè)實(shí)施方案的示意圖。發(fā)夾銜接子的 核苷酸序列、配對末端銜接子(“A”和“B” )和PCR引物“F-PCR”和“R-PCR” 見圖18。每個(gè)配對末端銜接子具有如圖18所示的雙鏈和單鏈部分?!芭?”表示生物 素。“Met”表示甲基化堿基。“SA珠?!北硎炬溍箍股锼匕坏奈⒘?。“EcoRI” 和“Mmel”分別表示限制性內(nèi)切核酸酶EcoRI和MmeI的識別位點(diǎn)。
圖18表示圖17中所示的銜接子和引物寡核苷酸的核苷酸序列和修飾。圖18A 表示發(fā)夾銜接子序列?!癿iodT”表示內(nèi)部生物素標(biāo)記的脫氧胸腺嘧啶?!癇io”表示 生物素?!癊coRI”和“Mmel”分別表示限制性內(nèi)切核酸酶Rx>RI和MmeI的識別位 點(diǎn)ο
圖18B表示配對末端銜接子和PCR引物核苷酸序列。每個(gè)配對末端銜接子 (“A”和“B” )由兩條單鏈寡核苷酸“A上鏈”和“A下鏈”、“B上鏈”和“B 下鏈”退火產(chǎn)生。圖18B中所示的多核苷酸序列的5’端沒有磷酸化。
圖19表示用于在油包水乳液中連接多核苷酸的方法的一個(gè)實(shí)施方案的示意圖。
圖20表示通過在有或沒有含MmeI位點(diǎn)的載體DNA時(shí)獲得的配對末端測序數(shù)據(jù) 得到的大腸桿菌K12基因組DNA覆蓋范圍深度(depth of coverage)曲線圖。
圖21表示用于基于重組的配對末端策略的方法的一個(gè)實(shí)施方案的示意圖。
圖22表示用于圖21的基于重組的策略的銜接子的一個(gè)實(shí)施方案和由其產(chǎn)生的銜接子產(chǎn)物。本文按出現(xiàn)順序描述了 SEQ ID No 57-64。
圖23表示根據(jù)銜接子方向性的圖21中基于重組策略的產(chǎn)物的示意圖。
圖M表示至少部分根據(jù)圖21中所述的基于重組的方法,由大腸桿菌K12基因組 DNA得到的配對讀長距離的分布。
圖25表示采用圖21中所述的基于重組的方法產(chǎn)生的長配對末端片段所得到的序 列信息所提供的優(yōu)勢的示意圖。
發(fā)明詳述
除非另有說明,否則本文所使用的所有科技術(shù)語都具有本發(fā)明所屬領(lǐng)域普通技 術(shù)人員通常理解的相同含義。盡管在本發(fā)明的實(shí)踐中可以采用多種類似或等同于本文所 述方法和材料的方法和材料,但是本文描述了優(yōu)選的材料和方法。
本發(fā)明涉及用于核酸大片段兩個(gè)末端分離和測序的有成本效益的快速方法。所 述方法是快速且適合于自動操作的,可供進(jìn)行DNA大片段的測序和連接。
與常規(guī)逐步克隆鳥槍法測序(clone-by-clone shotgun sequencing)相比,配對末端 測序法有著多個(gè)重要優(yōu)勢,并且實(shí)際上是對逐步克隆鳥槍法測序的補(bǔ)充。在這些優(yōu)勢中 最主要的是快速產(chǎn)生大基因組的支架(scaffolding)的能力,甚至當(dāng)基因組散布有重復(fù)元件 時(shí)。本發(fā)明的方法可用來從體外反應(yīng)中產(chǎn)生DNA片段的文庫,其中所述片段含有較大 的DNA片段的末端。甚至還可通過利用至少為IOkb以上的這些末端間的配對間隔距離 (paired distance spacing),用最小的測序勞力,應(yīng)用本發(fā)明的方法來裝配整個(gè)基因組支架 結(jié)構(gòu)。
第一種方法
在一個(gè)實(shí)施方案中,配對末端測序法可按下列步驟進(jìn)行
步驟IA
起始材料可以是任何核酸,包括例如基因組DNA、cDNA、RNA、PCR產(chǎn)物、附加體等。雖然本發(fā)明的方法對長段的核酸起始材料尤其有效,但是本發(fā)明也適用于小 核酸,例如粘粒、質(zhì)粒、小PCR產(chǎn)物、線粒體DNA等。
DNA可來自任何來源。例如,DNA可來自其DNA序列是未知或不完全已知的 生物的基因組。再舉例來說,DNA可來自其DNA序列是已知的生物的基因組。已知 基因組DNA的測序可供研究人員收集有關(guān)基因組多態(tài)性的數(shù)據(jù)并使基因型與疾病相互關(guān) 聯(lián)。
核酸起始材料可以是已知大小或已知大小范圍的。例如,起始材料可以是其中 平均插入序列大小和分布是已知的cDNA文庫或基因組文庫。
或者,通過多種常用方法中的任一種使核酸起始材料片段化(圖1A),包括霧 化、超聲處理、流體動力剪切(HydroShear)、超聲片段化、酶促切割(例如DNA酶處理 (包括有限D(zhuǎn)NA酶處理)、RNA酶處理(包括有限RNA酶處理)和用限制性內(nèi)切核酸酶 消化)、預(yù)片段化文庫(prefragmented library)(例如cDNA文庫中)和化學(xué)(例如NaOH) 誘導(dǎo)的片段化、熱誘導(dǎo)的片段化和轉(zhuǎn)座子介導(dǎo)的突變一這可引入切割位點(diǎn),例如遍及整 個(gè)DNA樣品的限制性內(nèi)切核酸酶切割位點(diǎn)。參見Goryshin I.Y.和Reznikoff W.S.,J Biol Chem. 1998 年 3 月 27 日,273(13) 7367-74; Reznikoff W.S.等,Methods Mol Biol.2004 ; 260 83-96 ; OscarR.等,Journal of Bacteriology,2001 年4月,第 2384-2388 頁,第 183卷,第7期;Pelicic, V.等,Journal of Bacteriology, 2000 年 8 月,第 5391-5398 頁,第 182 卷。
一些片段化方法(例如霧化)可產(chǎn)生靶DNA片段群,其大小僅相差2倍。其 它分級分離方法(例如限制性內(nèi)切酶消化)產(chǎn)生較大的大小范圍。如果需要大的核酸片 段,則還有其它方法(例如流體動力剪切)可能是有利的。在流體動力剪切(Genomic Solutions, Ann Arbor,MI, USA)中,使溶液的DNA通過一條突然收窄的管。當(dāng)溶液 接近收窄處時(shí),流體加速以保持通過較小收窄區(qū)的體積流速。在這個(gè)加速過程中,曳力 拉伸著DNA直到它突然斷裂。DNA發(fā)生片段化直到斷片對于剪切力而言太小以致無法 再破壞化學(xué)鍵。流體的流速和收縮的大小決定了最終的DNA片段大小。用于制備核酸 起始材料的其它方法可參見國際專利申請?zhí)朩004/070007,該申請通過引用其全部內(nèi)容 予以結(jié)合。
根據(jù)所采用的片段化方法,DNA末端可能需要精加工(polishing)。也就是說, 可能需要對雙鏈DNA末端進(jìn)行處理使之制成平端并且適于連接。這個(gè)步驟將根據(jù)片段化 方法以本領(lǐng)域已知的方式而改變。例如,可以使用Bal31對機(jī)械剪切的DNA精加工以切 割序列突出端,可使用聚合酶例如klenow、T4聚合酶和dNTP補(bǔ)平以產(chǎn)生平端。
步驟IB
當(dāng)片段的大小比所需要的變化更多時(shí),可對核酸片段進(jìn)行大小分級以減少這種 大小變化。
大小分級fractionation)是可通過本領(lǐng)域多種已知方法進(jìn)行的任選步驟。用 于大小分級的方法包括凝膠方法(例如脈沖凝膠電泳)、通過蔗糖梯度或氯化銫梯度的沉 淀法和大小排阻層析法(凝膠滲透層析法)。特定大小范圍的選擇將取決于由配對末端測 序跨過的區(qū)域長度。
用于大小分級的一項(xiàng)優(yōu)選的技術(shù)是凝膠電泳(參見圖1B)。在一個(gè)優(yōu)選的實(shí)施方 案中,大小分級的DNA片段具有彼此在25%以內(nèi)的大小分布。例如,5Kb大小部分可包 含5Kb+/-lkb(即4Kb 6Kb)的片段,50Kb大小部分可包含50Kb+/_10kb(即40Kb 60Kb)的片段。
步驟IC
在該步驟中,制備了 “俘獲元件”。俘獲元件是線性雙鏈核酸一它可具有用于 連接得自前一步驟的核酸片段的單鏈末端或雙鏈末端?!胺@元件”可以像含有正向和 反向銜接子末端(圖IC中繪制為圓的粗線區(qū))的環(huán)狀核酸(例如圖IC所述質(zhì)粒)一樣 增殖??稍趯⒃摥h(huán)狀質(zhì)粒切割后,使用俘獲元件。這些銜接子末端含有可用作在后續(xù)步 驟中的潛在PCR引物和測序引物的雜交位點(diǎn)的核酸序列。
在兩個(gè)銜接子末端之間,俘獲元件可包含另外的元件,例如限制性內(nèi)切核酸酶 識別和/或切割位點(diǎn)、抗生素抗性標(biāo)記、原核或真核復(fù)制起點(diǎn)或這些元件的組合。這 類抗生素抗性標(biāo)記的實(shí)例尤其包括而不限于賦予氨芐青霉素、四環(huán)素、新霉素、卡那霉 素、鏈霉素、博萊霉素、零霉素(zeocin)、氯霉素等抗性的基因。原核復(fù)制起點(diǎn)尤其還可 包括OriC和OriV。真核復(fù)制起點(diǎn)可包括自主復(fù)制序列(ARS),但不限于這些序列。另 外,俘獲元件可含有可用來將隨后的核酸產(chǎn)物(步驟L)消化成為可擴(kuò)增(通過PCR)的 小片段的限制性內(nèi)切核酸酶識別和/或切割位點(diǎn)(例如優(yōu)選獨(dú)特稀有的位點(diǎn))。俘獲元件還可包含標(biāo)記或標(biāo)簽,例如生物素,以易于用于配對末端測序的核酸的純化或富集。
步驟ID
應(yīng)用已知技術(shù)使俘獲元件線性化,例如限制性內(nèi)切核酸酶消化(平端或粘端可 用于不同的片段制備;參見下文和圖1D)。為了防止多聯(lián)體形成(即多個(gè)俘獲元件彼此 連接),可使俘獲元件去磷酸化或者用于TA克隆的拓?fù)洚悩?gòu)酶修飾。
步驟IE
將俘獲元件與步驟A或B的片段(或大小分級片段)連接形成包含一個(gè)俘獲元件 和一個(gè)靶DNA的片段的環(huán)狀核酸(圖1E)。通過已知方法使俘獲元件與靶DNA連接, 例如通過DNA連接酶或通過拓?fù)洚悩?gòu)酶克隆策略連接。
步驟IF
前面步驟的結(jié)果產(chǎn)生俘獲元件與可能具有相當(dāng)大小的DNA片段連接的集合體。 使用本步驟剔除靶DNA片段大的內(nèi)部區(qū),產(chǎn)生大小可更適于自動化DNA測序的克隆的 插入序列(圖1F)。
在該步驟中,俘獲的基因組DNA(即由步驟E產(chǎn)生的環(huán)狀核酸)用一種或多種限 制性內(nèi)切核酸酶消化,所述限制性內(nèi)切核酸酶在基因組DNA內(nèi)可具有一個(gè)或多個(gè)切割位 點(diǎn)。一般而言,任何限制性內(nèi)切核酸酶都可用于“內(nèi)切割(internal cleavage) ”,只要限 制性內(nèi)切核酸酶不在俘獲元件內(nèi)切割即可。內(nèi)切割是指在靶DNA內(nèi)部切割且不會切割俘 獲元件的切割??稍O(shè)計(jì)俘獲元件使得它不含選定限制性內(nèi)切核酸酶的切割位點(diǎn),從而選 擇內(nèi)切割限制性內(nèi)切酶。限制性內(nèi)切核酸酶及其用途是本領(lǐng)域眾所周知的,并且易應(yīng)用 于本發(fā)明的方法。另外,可以應(yīng)用各自局限于內(nèi)切割的多種限制性內(nèi)切酶的組合來進(jìn)一 步減小靶DNA片段的大小。
在一個(gè)優(yōu)選的實(shí)施方案中,基因組DNA被這些限制性內(nèi)切核酸酶中的一種或多 種切割成50-150個(gè)堿基的俘獲元件。
步驟IG
在該步驟中,使作為已知序列的雙鏈核酸的“隔離元件”在前面步驟的消化基 因組材料末端之間連接形成環(huán)狀核酸(圖1G)。該“隔離元件”用作兩個(gè)目的。第一, 隔離元件可包含用于小環(huán)的滾環(huán)擴(kuò)增的引發(fā)位點(diǎn)(見下文,步驟I)。第二,因?yàn)楦綦x 元件的序列是已知的,所以它可用作標(biāo)記配對基因組末端各端的標(biāo)識符(使得能夠修剪 (trimming)并易于對連接的末端進(jìn)行軟件分析)。也就是說,在隨后的基因組片段測序 過程中,隔離元件的序列可發(fā)出表明已對整個(gè)基因組片段進(jìn)行了測序的信號。這類隔離 元件還可包含另外的元件,例如限制性內(nèi)切核酸酶識別和/或切割位點(diǎn)、抗生素抗性標(biāo) 記、原核或真核復(fù)制起點(diǎn)或這些元件的組合。盡管任選存在諸如抗生素抗性標(biāo)記和復(fù)制 起點(diǎn)這類元件,但是本發(fā)明方法的優(yōu)勢之一是所述方法不需要使用宿主細(xì)胞(例如大腸 桿菌)用于核酸的克隆、擴(kuò)增或其它操作。隔離元件還可以是生物素化的,又或者用標(biāo) 記或標(biāo)簽加標(biāo)記的,易于配對末端測序的核酸的純化或富集。
步驟IH
由上一步驟產(chǎn)生的環(huán)狀核酸(即小環(huán))以單鏈提供,用于產(chǎn)生單鏈核酸。這可 采用標(biāo)準(zhǔn)DNA變性技術(shù),通過改變?nèi)芤旱柠}、溫度或pH來進(jìn)行。其它DNA變性技術(shù) 為本領(lǐng)域技術(shù)人員所知。變性后,得自同一小環(huán)的DNA環(huán)仍可連接,但這不影響本發(fā)明的方法(圖1H)。
步驟II
使引物與包含可與引物退火的序列的隔離元件退火。因此,該間隔序列用作滾 環(huán)擴(kuò)增的起始區(qū)(圖II)。
步驟IJ
通過滾環(huán)擴(kuò)增使樣品擴(kuò)增,產(chǎn)生長的單鏈產(chǎn)物(圖1J)。該滾環(huán)擴(kuò)增步驟的一個(gè) 優(yōu)勢是沒有隔離元件的元件將不會擴(kuò)增,而未閉環(huán)的元件難以擴(kuò)增。
步驟IK
將一種或多種加帽寡核苷酸(cappteg oligo)與位于正向和反向銜接子側(cè)翼的單鏈 限制位點(diǎn)退火(在這些區(qū)域?yàn)槠涮峁╇p鏈)(圖1L)。加帽寡核苷酸可與至少部分的俘獲 元件、至少部分的銜接子區(qū)域或兩者互補(bǔ)。
步驟IL
在加帽位點(diǎn)把加帽單鏈DNA切割成小片段(圖1M)。這些小片段具有已知序列 的末端并且可容易地使用常規(guī)擴(kuò)增技術(shù)(例如PCR)擴(kuò)增。
第二種方法
在第二個(gè)實(shí)施方案中,配對末端測序法可按下列步驟進(jìn)行
步驟2A-樣品DNA的片段化
靶核酸的片段化和大小分級與前面的實(shí)施方案相同。
步驟2B-甲基化和末端精加工
如有需要,可以通過任何甲基化酶使片斷化靶核酸甲基化。優(yōu)選的甲基化酶可 以是影響限制性內(nèi)切核酸酶消化的甲基化酶??砂粗辽賰煞N不同的策略使用甲基化酶。 在一個(gè)優(yōu)選的實(shí)施方案中,甲基化酶能夠?qū)崿F(xiàn)通過只在甲基化限制位點(diǎn)上切割的限制性 內(nèi)切核酸酶切割。在另一個(gè)優(yōu)選的實(shí)施方案中,甲基化酶防止被只切割未甲基化DNA的 限制性內(nèi)切核酸酶切割。
末端精加工的步驟與第一方法中所述步驟相同。
步驟2C-標(biāo)簽銜接子的連接
在該步驟中,將銜接子與靶核酸片段的末端連接(圖2,I),產(chǎn)生在兩端具有銜 接子的片段。銜接子可為任何大小,但優(yōu)選10-30個(gè)堿基的大小,更優(yōu)選12-15個(gè)堿基 的大小。為了防止形成銜接子和/或靶核酸片段的多聯(lián)體,銜接子可包含平端和不相容 粘端(即具有5’突出端或3’突出端的末端)。在銜接子與DNA片段連接后,除去連 接酶,用聚合酶和dNTP補(bǔ)平粘端。
這個(gè)部分的銜接子可以是俘獲片段。俘獲片段的實(shí)例見圖4和圖5。
為了防止多聯(lián)體形成,銜接子可以是發(fā)夾銜接子(圖6A)。發(fā)夾銜接子(例如 圖6)的使用防止多聯(lián)體形成,因?yàn)榘l(fā)夾銜接子無法形成超過二聚體的任何多聚體。防止 多聯(lián)體的另一種方法是使用其中一條或兩條鏈的5’端沒有磷酸化的銜接子。
可以使用的其它銜接子包括未磷酸化銜接子,具有使用較少加工步驟的優(yōu)勢, 但仍需要使用激酶的磷酸化步驟。
如本公開內(nèi)容其它部分論述的一樣,銜接子可被甲基化或生物素化或兩者兼有。
步驟2D-外切核酸酶消化和凝膠純化
與兩個(gè)發(fā)夾銜接子連接的DNA片段可使用外切核酸酶進(jìn)行純化。該外切核酸酶 純化利用在兩端與發(fā)夾銜接子連接的雙鏈DNA是無暴露的5’端或3’端的DNA分子這 一事實(shí)。連接混合物中的其它DNA,例如只與一個(gè)發(fā)夾銜接子連接的雙鏈DNA片段、 未連接的DNA片段和未連接的銜接子,易感于外切核酸酶(圖6B)。因此,暴露于外切 核酸酶的連接混合物將除去大多數(shù)DNA,但與兩個(gè)發(fā)夾銜接子連接的DNA片段和發(fā)夾銜 接子二聚體除外。由于發(fā)夾銜接子二聚體比DNA片段明顯較小,因此它們可采用已知技 術(shù)去除,例如大小分級柱(例如旋轉(zhuǎn)柱(spte column)),或瓊脂糖或丙烯酰胺凝膠電泳, 或本領(lǐng)域已知和/或本公開內(nèi)容其它部分論述的其它多核苷酸大小判別法之一。
在一個(gè)實(shí)施方案中,銜接子可被生物素化以利于攜帶標(biāo)簽片段的分離/富集。
在另一個(gè)實(shí)施方案中,可通過使與標(biāo)簽序列互補(bǔ)的俘獲寡核苷酸與片段退火, 來純化含有銜接子的片段。
步驟2E-用于環(huán)化的片段的制備
在將銜接子加入靶核酸片段的兩個(gè)末端后,使該片段環(huán)化。
為了制備用于自環(huán)化的靶核酸,出于多種原因,可能需要切割銜接子區(qū)。例 如,如果使用發(fā)夾銜接子,則DNA片段不會自環(huán)化,因?yàn)闆]有游離的5’端或3’端。 再舉例來說,如果銜接子留下帶有平端的DNA片段,則切割可允許銜接子具有5’突出 端或3’突出端,而且這些突出端(所謂的“粘端”)大大促進(jìn)連接的效率。此外,銜 接子區(qū)的消化可供具有兩個(gè)銜接子(每端各連接一個(gè))的DNA片段的選擇。這是因?yàn)榭?以設(shè)計(jì)銜接子,使得用限制性內(nèi)切核酸酶的切割可留下相容的粘端。在銜接子區(qū)中進(jìn)行 切割后,只具有一個(gè)銜接子的DNA片段(不理想類型)可具有一個(gè)粘端和一個(gè)平端,并 且可能難以自環(huán)化。因此,僅在兩端具有銜接子的DNA片段可以環(huán)化。
可用多種方法完成銜接子的限制性切割。在一種方法中,使銜接子甲基化,并 與未甲基化DNA連接。然后,構(gòu)建體用只切割甲基化DNA的限制性內(nèi)切核酸酶消化。 因?yàn)橹挥秀暯幼颖患谆?,所以只有銜接子可被切割?br>
在另一種方法中,DNA片段可被甲基化,而銜接子未被甲基化。用只識別和切 割未甲基化DNA的限制性內(nèi)切核酸酶進(jìn)行切割可限制對銜接子的切割。這可通過使用已 被甲基化或通過體外甲基化的起始DNA來實(shí)現(xiàn)。
要了解的是在一些情況下,不需要消化銜接子。例如,如果得自上述步驟的片 段僅包含平端,則可以任選消化銜接子。
還要了解的是,可以對DNA片段進(jìn)行處理以促進(jìn)連接/環(huán)化。例如,如果銜接 子是封閉的,或者不含5’磷酸,則可除去封閉基團(tuán),或者可加入磷酸鹽以使片段易于連接。
步驟2F-末端連接形成環(huán)化片段
多種方法可用于環(huán)化。
在一個(gè)實(shí)施方案中,將連接酶加入具有合適的連接酶緩沖液的反應(yīng)混合物中, 可供DNA片段再環(huán)化。
在一個(gè)實(shí)施方案中,連接在稀的DNA濃度下進(jìn)行以促進(jìn)自連接,并阻礙多聯(lián)體 的形成。
在另一個(gè)實(shí)施方案中,按照本公開內(nèi)容其它部分所描述,在油包水乳液中進(jìn)行 連接,其中含水液滴含有大約一個(gè)待環(huán)化的片段。在一個(gè)實(shí)施方案中,將特征標(biāo)簽(signature tag)與靶核酸片段連接,并且使該片 段自環(huán)化(參見圖2)。特征標(biāo)簽是介于24-30個(gè)堿基對的雙鏈核酸序列。這種“特征 標(biāo)簽”類似于上述實(shí)施方案的“隔離元件”,因?yàn)樗捎米鳂?biāo)記配對基因組末端各端的 標(biāo)識符(使得能夠修剪并且易于進(jìn)行連接末端的軟件分析)。在基因組片段隨后的測序過 程中,特征標(biāo)簽的序列表示靶核酸序列兩個(gè)末端之間的邊界。步驟2G 在加入特征標(biāo)簽和自環(huán)化后,使靶核酸片段進(jìn)一步消化或片段化。片段化可采 用本公開內(nèi)容所給出的任何片段化方法進(jìn)行。參見例如上述步驟1A?;蛘撸墒褂靡?種或多種限制性內(nèi)切核酸酶消化靶DNA產(chǎn)生片段。在一個(gè)優(yōu)選的實(shí)施方案中,使用噴霧器使核酸片段化直到平均片段大小約為 200-300bp。如圖2所示,這些片段中的一些可含有特征標(biāo)簽,而其它片段可不含特征標(biāo)簽。在這一點(diǎn)上,可采用標(biāo)準(zhǔn)技術(shù)對核酸片段進(jìn)行測序。用于核酸片段測序的 方法是已知的。一種優(yōu)選的測序方法參見2004年1月28日提交的國際專利申請WO 05/003375。步驟2H在一個(gè)任選步驟中,可以從沒有特征標(biāo)簽的片段中富集含有特征標(biāo)簽的片段。 用于富集的一種方法包括在樣品制備步驟中使用生物素化特征標(biāo)簽。在片段化后,可使 含有特征標(biāo)簽的片段生物素化,并且可使用鏈霉抗生物素柱或溶液中的鏈霉抗生物素珠 粒進(jìn)行純化。富集之后,可采用標(biāo)準(zhǔn)技術(shù)對核酸片段進(jìn)行測序,包括自動化技術(shù),例如2004 年1月28日提交的國際專利申請WO 05/003375中所述的技術(shù)。第三種方法可通過第三種方法進(jìn)行配對末端測序法。步驟3A-3E在該方法中,步驟A 步驟E可按照第二種方法(即按照步驟2A 2E)中所 描述的步驟進(jìn)行。此外,在第三種方法中,每個(gè)銜接子包含IIS型限制性內(nèi)切核酸酶位 點(diǎn),該位點(diǎn)可以指導(dǎo)在距離限制性內(nèi)切核酸酶識別位點(diǎn)約15-25bp處切割DNA。已知不 同的IIS型限制性內(nèi)切核酸酶在距內(nèi)切核酸酶識別位點(diǎn)不同距離處切割,預(yù)期使用不同的 IIS型限制性內(nèi)切核酸酶調(diào)節(jié)該距離。步驟3F-末端連接形成環(huán)化片段步驟3F可以按照第二種方法(步驟2F)進(jìn)行,只是不使用特征標(biāo)簽(參見圖 6D)。任選的富集步驟在本發(fā)明的任何方法中,在連接后,都可使用外切核酸酶除去非環(huán)化片段并減 少多聯(lián)體化片段的存在。因?yàn)檫m當(dāng)再環(huán)化的DNA片段有未暴露的5’端或3’端,這可 抵抗外切核酸酶消化。另外,較大的多聯(lián)體,由于切口而具有暴露的5’端或3’端的機(jī)會可能較大。外切核酸酶處理還可除去具有切口的這些多聯(lián)體。仵詵 的滾環(huán)擴(kuò)增環(huán)化DNA可以通過滾環(huán)擴(kuò)增進(jìn)行擴(kuò)增。簡單地講,可以使用寡核苷酸與再環(huán)化 DNA的一條鏈雜交。該寡核苷酸引物用聚合酶延伸。因?yàn)槟0迨莻€(gè)圓,聚合酶將產(chǎn)生 具有靶DNA的多個(gè)重復(fù)序列的單鏈多聯(lián)體。該單鏈多聯(lián)體可通過使第二引物與之雜交成 為雙鏈,并從該第二引物起延伸。例如,該第二引物可與此單鏈多聯(lián)體的銜接子序列互 補(bǔ))。所得雙鏈多聯(lián)體可直接用于下一步驟。步驟3G-DNA的消化/片段化在該步驟中,得自滾環(huán)擴(kuò)增的環(huán)化核酸或多聯(lián)體化核酸用IIS型限制性內(nèi)切核酸 酶消化(圖6D)。如步驟3A中所述,每個(gè)銜接子含有至少一個(gè)IIS型限制性內(nèi)切核酸酶切 割位點(diǎn)。IIS型限制性內(nèi)切核酸酶將識別銜接子上的IIS型限制性內(nèi)切核酸酶切割位點(diǎn), 并切去約10-20個(gè)堿基對的核酸。IIS型限制性內(nèi)切核酸酶的實(shí)例包括MmeI(約20bp)、 EcoP151 (25bp)或 BpmI (14bp)。該步驟將產(chǎn)生短的DNA片段(IO-IOObp),該片段包含較大DNA片段的兩個(gè)末 端,兩個(gè)末端之間具有銜接子區(qū)(圖6E)。用于產(chǎn)生相同結(jié)構(gòu)的一種備選方法是采用本 公開內(nèi)容其它部分所描述的多種DNA片段化方法中的任一種(例如步驟IA中所述)使環(huán) 化核酸隨機(jī)片段化。這可供制備任何大小的片段(lOObp、150bp、200bp、250bp、300bp 或以上)。至于另一種方法,也可產(chǎn)生在中間沒有銜接子區(qū)的其它DNA片段(圖6E)。然 而,因?yàn)殂暯幼訁^(qū)是生物素化的,所以包含銜接子區(qū)的DNA可使用對生物素有親和力的 固相支持體進(jìn)行選擇性純化,固相支持體例如鏈霉抗生物素珠粒、抗生物素蛋白珠粒、 BCCP珠粒等。步驟3H-測序可用手工或通過自動化序列技術(shù)對本發(fā)明方法的任何產(chǎn)物進(jìn)行測序。通過諸 如Sanger測序法或Maxam-Gilbert測序法等這類方法進(jìn)行手工測序是眾所周知的。例 如,可以通過采用自動化測序方法如由454 Life Sciences Corporation(Branford,CT)研 發(fā)的454SeqUenCingTM進(jìn)行自動化測序,該方法還可參見2004年1月28日提交的申請 W0/05003375和同時(shí)待審的2004年1月28日提交的美國專利申請USSN 10/767,779 ; 2003 年 6 月 6 日提交的 USSN 60/476,602 ; 2003 年 6 月 6 日提交的 USSN 60/476,504 ; 2003年1月29日提交的USSN 60/443,471 ; 2003年6月6日提交的USSN 60/476,313 ; 2003 年 6 月 6 日提交的 USSN 60/476,592 ; 2003 年 4 月 23 日提交的 USSN 60/465,071 ;以及 2003 年 8 月 25 日提交的 USSN 60/497,985。簡單地講,在自動測序方法(例如由454 Life Sciences Corp.開發(fā)的測序方法) 中,可將一個(gè)測序銜接子(測序銜接子A)與DNA片段的一個(gè)末端連接,并可將第二測 序銜接子(測序銜接子B)與DNA片段的第二個(gè)末端連接。在連接之后,通過使生物素 與固相支持體結(jié)合,可將DNA片段從任何未連接的測序銜接子中純化出來??蓪⒎蛛x的 核酸片段放入單獨(dú)的反應(yīng)槽中,使用對測序銜接子A和測序銜接子B有特異性的引物通 過PCR進(jìn)一步擴(kuò)增。可通過使生物素部分與優(yōu)先由A-B片段組成的A或B銜接子單鏈 DNA的任一條連接進(jìn)行分離。可以使用對測序銜接子A、測序銜接子B有特異性的測序引物或者對位于兩個(gè)末端之間的銜接子(例如發(fā)夾銜接子)有特異性的測序引物,對該擴(kuò)增的核酸進(jìn)行測序。一旦制成大量的包含較大DNA片段的末端的這些片段,則可對其進(jìn)行測序,并 對配對末端序列信息進(jìn)行裝配以產(chǎn)生基因組的部分或完整序列圖譜。第四種方法配對末端測序法可采用上述方法的變通方法,即如圖12中所示的稱為配對讀長 PET隨機(jī)片段化的方法進(jìn)行。按照此第四種方法的實(shí)驗(yàn)結(jié)果見圖13。步驟4A-4E在該方法中,步驟A 步驟D可按照第二種方法或第三種方法(即如步驟 2A-2D或步驟3A-3D)中所述方法進(jìn)行。作為備選方法,步驟4D可采用SPRI (固相可 逆固定法)進(jìn)行以對外切核酸酶處理片段進(jìn)行純化。例如,將圖12中的核酸片段與生物 素化引物連接,并且可以使用例如鏈霉抗生物素、抗生物素蛋白、低親和性鏈霉抗生物 素或低親和性抗生物素蛋白包被的珠粒進(jìn)行純化。步驟4E可以桉照步驟2E或步驟3E所述的步驟進(jìn)行。步驟4F可以桉照步驟3F所沭步驟講行。簡單地講,可采用如步驟2F或步驟 3F所述的任何已知的環(huán)化方法使上一步驟產(chǎn)生的線性DNA片段環(huán)化。另外,可進(jìn)行如上述步驟3F中所述的任選富集步驟來富集環(huán)狀核酸。簡單地 講,可通過降解具有游離末端的核酸的外切核酸酶除去沒有環(huán)化的核酸。共價(jià)閉合的環(huán) 狀核酸沒有游離末端,可抵抗外切核酸酶攻擊。因?yàn)檫@樣,用外切核酸酶處理可在除去 線性核酸的同時(shí)富集環(huán)狀核酸。步驟4G在自環(huán)化后,可采用本公開內(nèi)容所列舉的任何片段化方法進(jìn)行片段化。一種優(yōu) 選的方法是采用機(jī)械剪切使環(huán)狀核酸片段化。例如,可通過渦旋振蕩、通過迫使溶液中 的核酸通過小口或本公開內(nèi)容其它部分所描述的其它類似方法進(jìn)行機(jī)械剪切。機(jī)械剪切 的一個(gè)優(yōu)勢是可產(chǎn)生不同長度的核酸(參見圖12步驟G后的核酸)。還產(chǎn)生在中間沒有銜接子區(qū)的DNA片段。參見圖12。然而,由于銜接子區(qū) 是生物素化的,因此可以采用對生物素具有親和力的固相或半固相支持體(例如鏈霉抗 生物素珠粒、抗生物素蛋白珠粒、BCCP珠粒等)對包含銜接子區(qū)的DNA進(jìn)行選擇性純 化。步驟4H可采用可利用的任何手工或自動方法對方法4的產(chǎn)物進(jìn)行測序。這類方法的詳 情見上述步驟3H。如上所述和圖12中所示的配對讀長PET隨機(jī)片段化法提供多個(gè)優(yōu)勢。第一,方 法4在裝配方面提供較高置信度,因?yàn)闄C(jī)械剪切可產(chǎn)生較長的片段,該片段進(jìn)而可供較 長的讀長。較長的讀長使靶序列的裝配具有較高置信度。第二,由于機(jī)械剪切而成為可 能的較長片段導(dǎo)致跨越較長核酸區(qū)的配對末端讀長。通過跨越較長核酸區(qū),方法4有利 于缺口閉合(gap closure),并且還具有跨越難以分析的核酸區(qū)的較高可能性。這些困難 區(qū)域可以是例如重復(fù)區(qū)或高GC含量區(qū)。這樣,方法4提供缺口閉合性能得到改進(jìn)的優(yōu) 勢。第三,因?yàn)榉椒?提供缺口閉合的能力,所以當(dāng)各個(gè)末端可用于構(gòu)建裝配件時(shí),該方法可專門用來對完整基因組進(jìn)行測序。方法4的優(yōu)勢的一個(gè)實(shí)例可參見圖13。圖13描述了采用方法4進(jìn)行測序的大腸 桿菌K12基因組DNA。正如可觀察到的一樣,采用該方法,明顯較長的讀長長度分布, 從小于50到約400不等都是可行的。另外,可產(chǎn)生約3kb的片段長度并對其末端測序。 這就表明了與其它方法相比,方法4提供較好的缺口閉合性能。第五種方法 可采用如圖15給出的上述方法的變通方法進(jìn)行配對末端測序。在該方法中,可將銜接子設(shè)計(jì)成脫氧肌苷發(fā)夾銜接子,其在發(fā)夾雙鏈區(qū)的相對 鏈上摻入了脫氧肌苷核苷酸(本文亦稱肌苷)。大腸桿菌內(nèi)切核酸酶V(EndoV)在自肌 苷核苷酸起的第2位和第3位核苷酸3 ’之間引入單鏈切口(cut/nick)。 (Yao M和Kow YW, J Biol Chem. 1995, 270 (48) 28609-16 ; Yao M 和 Kow YW, J Biol Chem. 1994, 269(50) 31390-6 ; YaoM 等,Ann NY Acad Sci. 1994,726 315-6; YaoM 等,JBiol Chem. 1994, 269(23) 16260-8)。如圖14中所示,肌苷在發(fā)夾銜接子中的相對布置決定在EndoV切割兩條鏈時(shí) 是否會產(chǎn)生3’單鏈突出端(圖14A和圖14B)、5’單鏈突出端(圖14C和圖14D)或 平端(無突出端)(圖14E)。還可設(shè)計(jì)發(fā)夾銜接子的序列,在EndoV切割時(shí)產(chǎn)生非回文 (圖14A和圖14B)或回文(圖14A和圖14C)單鏈突出端。本領(lǐng)域眾所周知的是脫氧肌 苷將與4種堿基A、G、C和T的任一種以及與自身配對(Watkins和SantaLucia,2005, NucleicAcids Res.33 (19) 6258-67)。此外,銜接子可含有如本公開內(nèi)容其它部分所描述 的IIS型限制性內(nèi)切核酸酶識別位點(diǎn)(例如MmeI)。步驟5A(圖15步驟A)在該方法中,步驟A基本上可按照步驟IA中所述方法進(jìn)行??赏ㄟ^如上所述 的本領(lǐng)域已知的任何物理或生物化學(xué)方法使靶DNA片段化。可任選通過本公開內(nèi)容其它 部分所描述的任何大小分級方法對所得片段進(jìn)行大小分級。步驟5B和5C (圖15步驟B+C)可通過任何本文所描述的精加工方法對靶DNA的末端進(jìn)行精加工,并可與上述 脫氧肌苷發(fā)夾銜接子連接形成銜接子標(biāo)記的靶DNA。步驟5D(圖15步驟D)連接反應(yīng)物可以用一種或多種外切核酸酶(如本文其它部分的論述)處理,并通 過本文所述的任何方法進(jìn)行大小分級以富集所需反應(yīng)產(chǎn)物。步驟5E(圖15步驟E)銜接子標(biāo)記的靶核酸用EndoV切割。切割反應(yīng)的條件可以是以下文獻(xiàn)所披露的 任何條件Yao 等(Yao M 和 Kow YW,J Biol Chem. 1995, 270 (48) 28609-16 ; Yao M 禾口 KowYW,JBiol Chem. 1994,269(50) 31390-6; YaoM 等,Ann N Y Acad Sci.1994, 726 315-6 ;和 Yao M 等,J Biol Chem. 1994,269(23) 16260-8)。技術(shù)人員應(yīng)了解的 是還可以采用類似條件。步驟5F~H(圖 15 步驟 F~H)在該第五種方法中,步驟F-H可按第二種、第三種或第四種方法(即如步驟 2F-H或步驟3F-H或步驟4F-H)所述方法進(jìn)行。
第五種方法的脫氧肌苷發(fā)夾銜接子是有利的,因?yàn)镋ndoV只可在肌苷或DNA的 某些損傷位點(diǎn)或堿基錯(cuò)配存在時(shí)切割。因此,靶核酸將不會被EndoV處理切割。因此, 當(dāng)EndoV位點(diǎn)對銜接子是獨(dú)特時(shí),靶DNA不需要像上述實(shí)施方案中的某些一樣通過甲基 化來保護(hù)。去除甲基化步驟節(jié)省了時(shí)間,并且消除了與靶DNA的不完全甲基化有關(guān)的 問題。此外,與EcoRI消化相比,EndoV消化非常快,因此縮短了實(shí)施該方法所需的時(shí) 間。通過脫氧肌苷發(fā)夾銜接子方法得到的配對讀長結(jié)果的一個(gè)實(shí)例見圖16。按照第 五種方法制備大腸桿菌K12基因組DNA并進(jìn)行測序(圖15)。配對讀長之間的平均距離 為 2070bp(標(biāo)準(zhǔn)差=594)。第六種方法在另外的實(shí)施方案中,可通過包括下列步驟中的一些或全部的方法進(jìn)行配對末 端測序法,參見圖17和圖18。步驟6A-靶DNA的片段化(圖17A)按照第六種方法,使靶DNA樣品的多核苷酸分子(例如基因組DNA)片段化成 大于約500個(gè)堿基、大于約1000個(gè)堿基、大于約2000個(gè)堿基、大于約5000個(gè)堿基、大于 約10000個(gè)堿基、大于約20,000個(gè)堿基、大于約50,000個(gè)堿基、大于約100,000個(gè)堿基、 大于約250,000個(gè)堿基、大于約1百萬個(gè)堿基或大于約5百萬個(gè)堿基的分子。在一個(gè)優(yōu)選 的實(shí)施方案中,片段長度從約1.5kb到約5kb不等??赏ㄟ^本公開內(nèi)容其它部分所描述的 任何物理和/或生物化學(xué)方法完成片段化。在一個(gè)優(yōu)選的實(shí)施方案中,靶DNA通過物理 力量隨機(jī)剪切,例如通過使用HydroShear 儀器(GenomicSolutions)進(jìn)行。然后按照所 需片段大小對剪切的DNA進(jìn)行純化。這種任選的大小選擇可通過本領(lǐng)域已知和本文所公 開的任何大小選擇方法實(shí)現(xiàn),例如電泳和/或液相層析法。在一個(gè)優(yōu)選的實(shí)施方案中, 通過在SPRI 大小排阻珠粒上進(jìn)行純化來根據(jù)大小選擇剪切的DNA樣品(Agencourt ; Hawkins 等,Nucleic Acids Res. 1995 (23) 4742-4743)。例如,在經(jīng)典的細(xì)菌基因組測序 實(shí)驗(yàn)中,對約2-2.5kb的片段的末端(成對)測序可供重疊群排序(contig ordering)。較 大片段可能有利于較高等生物(例如真菌、植物和動物)的基因組的測序。步驟6B-某些限制位點(diǎn)的甲基化(圖17B)如下所述,在銜接子與靶DNA片段連接后,在為環(huán)化作準(zhǔn)備時(shí),銜接子可用一 種或多種限制性內(nèi)切酶切割。為了防止靶DNA被所選的限制性內(nèi)切酶消化,通過用相應(yīng) 的甲基化酶修飾使靶DNA免遭消化。在一個(gè)優(yōu)選的實(shí)施方案中,銜接子為發(fā)夾銜接子, 并且攜帶EcoRI限制位點(diǎn)(圖18A)。因此,在一個(gè)優(yōu)選的實(shí)施方案中,在通過連接進(jìn)行 環(huán)化前,當(dāng)由發(fā)夾銜接子產(chǎn)生EcoRI粘端時(shí),使用EcoRI甲基化酶使樣品DNA片段中存 在的EcoRI限制位點(diǎn)甲基化以保護(hù)DNA片段的完整性。步驟6C-片段末端精加工和磷酸化(圖17C) 對DNA的流體動力剪切產(chǎn)生具有翻口末端(frayed end)(單鏈突出端)的一些片 段。平端對于隨后的銜接子連接是優(yōu)選的。因此,任選通過酶促法用DNA聚合酶“補(bǔ) 平”和/或通過用外切核酸酶(例如綠豆核酸酶)“chewing-back”,使任何翻口末端平 整并使之易于連接。有利的是,一些DNA聚合酶還具有外切核酸酶活性。任選在平整 反應(yīng)之后,優(yōu)選可用多核苷酸激酶使片段5’端磷酸化。在一個(gè)優(yōu)選的實(shí)施方案中,分別使用T4 DNA聚合酶和Τ4多核苷酸激酶(Τ4 PNK)來補(bǔ)平和磷酸化。使用Τ4 DNA聚 合酶通過其5’ 一3’聚合酶活性來“補(bǔ)平” DNA的3’凹端(5’突出端),而其單鏈 3’ 一5’外切核酸酶活性脫去3’突出端。Τ4ΡΝΚ的激酶活性將磷酸基團(tuán)加到5’ -羥基端。^m 6D- Mmm^im (圖 17Ρ 和圖 18A)按照本發(fā)明,使雙鏈寡核苷酸銜接子與靶DNA片段的末端連接。在一個(gè)優(yōu)選的 實(shí)施方案中,銜接子為發(fā)夾銜接子(圖18A)。發(fā)夾銜接子的一個(gè)優(yōu)勢是銜接子之間的連 接事件將只產(chǎn)生銜接子二聚體 ,即防止了多聚體銜接子多聯(lián)體的形成。另外,其發(fā)夾結(jié) 構(gòu)可保護(hù)樣品片段免于用來脫去未連接片段的外切核酸酶消化(步驟6E)。圖18A中所 示的一個(gè)優(yōu)選的發(fā)夾銜接子設(shè)計(jì)含有EcoRI和MmeI限制位點(diǎn)。EcoRI可用來在每個(gè)片 段的末端上產(chǎn)生粘端(步驟6F)以供其環(huán)化(步驟6G),MmeI是由其識別位點(diǎn)切去DNA 20bp的IIS型限制性內(nèi)切酶;它被用來切割成環(huán)化樣品片段的末端,產(chǎn)生待測序的配對 末端標(biāo)簽。技術(shù)人員應(yīng)了解,EcoRI可用多種其它的在銜接子寡核苷酸的核苷酸序列中 具有伴隨變化的內(nèi)切核酸酶中的任一種替換,并且使用合適的甲基化酶以保護(hù)靶DNA片 段。同樣,MmeI可用其它IIS型限制性內(nèi)切酶替換,只要所選定的酶在距其限制位點(diǎn)的 足夠距離上切割以產(chǎn)生長度足以供下游序列裝配的配對末端即可。在一個(gè)優(yōu)選的實(shí)施方 案中,發(fā)夾銜接子在例如圖18A中所示的位點(diǎn)上被生物素化。其它生物素化位點(diǎn)也是適 宜的,技術(shù)人員可以選用。在配對末端銜接子連接期間,在補(bǔ)平反應(yīng)(片段修復(fù))期間, 以及在配對末端文庫擴(kuò)增期間,生物素部分可供對含銜接子的配對末端片段的任選選擇 及配對末端文庫片段的任選固定化(在MmeI消化后)。步驟6E-外切核酸酶選擇(圖17E)優(yōu)選外切核酸酶消化接著發(fā)生發(fā)夾銜接子的連接,以除去在兩端不與發(fā)夾銜接 子正確契合的任何DNA ;并且在SPRI大小排阻珠粒上的純化除去不需要的小分子類別, 例如銜接子_銜接子二聚體。外切核酸酶消化可用本領(lǐng)域已知的各種外切核酸酶的一種 或多種進(jìn)行。消化優(yōu)選用活性組合來完成,其同時(shí)可供以3' -5'和5' -3'兩個(gè)方向 消化單鏈和雙鏈DNA。在一個(gè)優(yōu)選的實(shí)施方案中,外切核酸酶混合物含有大腸桿菌外切 核酸酶1(3' - 5'單鏈外切核酸酶)、噬菌體λ外切核酸酶(5' - 3'單鏈和雙鏈外切 核酸酶)和噬菌體Τ7外切核酸酶(5 ‘ -3'雙鏈外切核酸酶,可在缺口和切口處啟動)。步驟6F-EcoRI 消化(圖 17F)在一個(gè)優(yōu)選的實(shí)施方案中,使用由EcoRI引起的內(nèi)核切割,通過切割發(fā)夾銜接 子而在每個(gè)片段的末端產(chǎn)生粘端(圖18Α)并且可供片段進(jìn)行環(huán)化。用EcoRI消化將在 片段末端除去發(fā)夾結(jié)構(gòu),留下粘端。樣品DNA中存在的內(nèi)部EcoRI位點(diǎn)被較早前在步驟 6Β中進(jìn)行的甲基化所保護(hù)。步驟6G-環(huán)化(圖17G)然后片段通過其EcoRI粘端進(jìn)行分子內(nèi)連接而環(huán)化。連接的位點(diǎn)因此具有兩部 分的發(fā)夾銜接子(頭對頭,具有重構(gòu)的EcoRI位點(diǎn);共44bp),在兩側(cè)是樣品片段的末 端。進(jìn)行另一種外切核酸酶消化以除去任何非環(huán)化DNA。步驟6H_MmeI 消化(圖 17H)然后,環(huán)化DNA片段用MmeI進(jìn)行限制酶切。這種IIS型限制性內(nèi)切酶在距其限制位點(diǎn)大約20bp處切割(留下2nt3’突出端,即在20/18nt切割;該酶還產(chǎn)生一些少 數(shù)產(chǎn)物,其切口自位點(diǎn)起由19bp到22bp不等)。在與樣品DNA片段連接的發(fā)夾銜接子 的末端有MmeI位點(diǎn)(圖18A);在這些位點(diǎn)進(jìn)行限制酶切產(chǎn)生配對末端DNA文庫片段, 各含有連接的“雙”發(fā)夾銜接子(44bp)和樣品片段的兩個(gè)20bp端,長度共84bp。制聚61-難·物碰紗胃(B 171)在該步驟中可任選剔除缺乏生物素標(biāo)簽、沒有連接的“雙”發(fā)夾銜接子的MmeI 限制片段。使發(fā)夾銜接子中存在的生物素標(biāo)簽與鏈霉抗生物素或抗生物素蛋白珠粒結(jié) 合,可以使配對末端片段的文 庫固定化(并且從其它MmeI限制片段中分離出來)。步驟6J-配對末端銜接子連接(圖17J)在該步驟中,將在步驟6H中產(chǎn)生并任選在步驟61中純化的配對末端文庫片段的 末端與稱為配對末端文庫銜接子(paired end library adaptor)或配對末端銜接子(paired end adaptor)的雙鏈銜接子連接(圖18B)。這些配對末端銜接子提供引發(fā)區(qū)(primingregion) 以同時(shí)支持?jǐn)U增和核苷酸測序,并且還可包含用于在454S equencing 系統(tǒng)中精確查找的 短的(例如4個(gè)核苷酸)“測序鍵(sequencing key)”序列。銜接子可具有“簡并” 2-堿 基單鏈3’突出端。簡并是指2個(gè)突出的堿基是隨機(jī)的,即它們各自可以是G、A、T或 C。如果使用MmeI以外的酶,則技術(shù)人員能夠容易地設(shè)計(jì)與其它的酶相容的配對末端銜 接子。圖18B中所示的示例性銜接子被設(shè)計(jì)成十分有利于配對末端文庫片段與在其3’ 端含有簡并2bp3’突出端的各銜接子定向連接,所述銜接子只能與用MmeI產(chǎn)生的配對 末端文庫片段(假定銜接子的5’端未被磷酸化,見下文)的末端連接。在含有大量摩 爾過量的銜接子(銜接子片段比率為15 1)的連接反應(yīng)中,銜接子可與配對末端文庫 片段結(jié)合,同時(shí)最大限度地利用配對末端文庫片段并使形成配對末端文庫片段多聯(lián)體的 可能性最小化。銜接子本身可以是未磷酸化以使銜接子二聚體的形成最小化,但因此連 接產(chǎn)物隨后需通過補(bǔ)平反應(yīng)修復(fù)(步驟6K)。步驟6K-補(bǔ)平反應(yīng)(圖6K)如果在步驟6J中連接的配對末端銜接子沒有被磷酸化,則在其與配對末端文庫 DNA片段的3’ -接點(diǎn)上將存在缺口??梢允褂面溨脫QDNA聚合酶修復(fù)這兩個(gè)“缺口” 或“切口”,因此所述聚合酶識別切口,置換有切口的鏈(成為每個(gè)銜接子的游離3’ 端),并且以導(dǎo)致修復(fù)切口和形成全長dsDNA的方式延伸。在一個(gè)優(yōu)選的實(shí)施方案中, 使用BstDNA聚合酶(大片段)。本領(lǐng)域已知的其它鏈置換DNA聚合酶也適用于該步 驟,例如phi29DNA聚合酶、DNA聚合酶I (Klenow片段)或Vent DNA聚合酶。步驟6L-擴(kuò)增(圖6L)可任選擴(kuò)增“銜接”配對末端DNA文庫。優(yōu)選擴(kuò)增通過PCR進(jìn)行,但是也可 采用本領(lǐng)域已知和/或本文所描述的其它核酸擴(kuò)增方法。優(yōu)選圖18B中所示的寡核苷酸 F-PCR和R-PCR可以用作PCR引物。不論擴(kuò)增(如上面段落所描述的一樣)與否,都隨后對“銜接”配對末端DNA 文庫進(jìn)行測序。優(yōu)選對文庫的各種分子進(jìn)行測序。如果所選擇的DNA測序方法在每個(gè)獨(dú) 特的測序反應(yīng)中需要大量相同的模板分子,則文庫的各個(gè)分子可以克隆的方法擴(kuò)增。優(yōu) 選克隆擴(kuò)增按照國際專利申請?zhí)朩O 2005/003375、WO 2004/069849、WO 2005/073410 中所描述的方法通過珠粒乳液PCR進(jìn)行,所述各申請通過引用全部結(jié)合到本文中。
第七種方法在又一個(gè)實(shí)施方案中,可以通過包括下列步驟中的一些或全部的方法進(jìn)行配對 末端測序,見圖21-25。
所述實(shí)施方案提供特別有利和創(chuàng)造性的方法,該方法提供通過連接進(jìn)行環(huán)化并 適于實(shí)施上述方法及變通方法一些或全部的備選方法。另外,現(xiàn)描述的實(shí)施方案對于產(chǎn) 生IOKb以上配對末端距離(即約20Kb的配對末端距離)特別有效,然而還應(yīng)當(dāng)了解的 是,所述基于重組的策略也可用于短于IOKb (即約3Kb或8Kb的配對末端距離)的環(huán)化 片段?,F(xiàn)描述的實(shí)施方案利用基于分子內(nèi)重組的策略用于核酸分子的環(huán)化,所述核酸分 子包含對于較長的配對末端距離所需要的序列長度,并且在用于核酸分子(尤其大核酸 分子)環(huán)化的效率方面提供主要的優(yōu)勢?!﹥?yōu)選的實(shí)施方案包括據(jù)稱是通過重組反應(yīng)方法的體外切除,所述方法利用 Cre/Lox型位點(diǎn)特異性重組酶(下文稱為“SSR”)系統(tǒng),用于線性銜接靶片段環(huán)化以產(chǎn) 生一種包含靶片段的環(huán)狀核酸和第二種包含雜合銜接子序列的切除的線性片段,這類方 法的一個(gè)實(shí)例如圖21中所示。例如,圖21提供基于SSR的策略的示例性概況,用于產(chǎn) 生配對距離為IOKb以上的可測序的配對末端模板核酸分子的文庫。正如下文中將詳細(xì) 描述的一樣,圖21說明以下方法使基因組DNA或其它所需DNA片段化,連接銜接子 2105和2107產(chǎn)生銜接片段2100,然后根據(jù)所需要的長度對其進(jìn)行選擇。圖中還說明了 從銜接片段2100產(chǎn)生環(huán)狀產(chǎn)物2150和線性產(chǎn)物2155的SSR重組步驟,其中用機(jī)械方式 剪切環(huán)狀產(chǎn)物2150產(chǎn)生線性配對末端模板2160,隨后使之?dāng)U增產(chǎn)生包含許多基本相同的 模板2160拷貝的2170群。相關(guān)領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,盡管本文描述了使用Cre/Lox的SSR系統(tǒng)的 實(shí)施方案,但是也可使用整合酶家族的其它成員,例如Int/att和FLP/FRT,因此Cre/Lox 的公開內(nèi)容不應(yīng)視作限制性的。另外,盡管一般按照單個(gè)分子描述該方法,但是應(yīng)當(dāng)理 解的是,該方法在相同或類似反應(yīng)環(huán)境中同時(shí)在眾多分子上進(jìn)行,例如本說明書其它部 分描述的油包水型乳液反應(yīng)器(water-in-oil type emulsion reactor),其中在各種反應(yīng)環(huán)境 中大量靶分子可約為一個(gè)分子或10、100、1000、1,000,000個(gè)分子等。例如,利用如本 說明書其它部分描述的油包水乳液策略抑制分子間事件(即多聯(lián)體的形成等),并促進(jìn)產(chǎn) 生環(huán)化產(chǎn)物所需要的分子內(nèi)重組,更多詳情見下文。步驟7A-片段化如上述各種實(shí)施方案中所述,將原始基因組或其它來源的靶DNA樣品的多核苷 酸分子片段化成大于約10,000個(gè)堿基、大于約20,000個(gè)堿基、大于約50,000個(gè)堿基、大 于約100,000個(gè)堿基、大于約250,000個(gè)堿基、大于約1百萬個(gè)堿基或大于約5百萬個(gè)堿 基的分子。在一些優(yōu)選的實(shí)施方案中,片段長度的范圍從約IOKb到約50Kb、從約IOKb 到約IOOKb或從約IOKb到超過IOOKb不等。片段化可通過本公開內(nèi)容其它部分所描述 的任何物理和/或生物化學(xué)方法實(shí)現(xiàn)。在一個(gè)優(yōu)選的實(shí)施方案中,靶DNA通過物理力量 隨機(jī)剪切,例如通過使用HydroShear 儀器(Genomic Solutions)。盡管應(yīng)當(dāng)理解的是, 如果所選擇的方法能夠產(chǎn)生所需要的片段長度,則可以采用產(chǎn)生本文所描述的片段的任 何方法。步驟7B-末端精加工
在現(xiàn)描述的變通方法中,可采用本公開內(nèi)容其它部分所描述的任何方法,對各片段的末端進(jìn)行精加工,例如上文步驟6C中所描述的方法。正如所描述的一樣,優(yōu)選平 端用于隨后的銜接子連接。因此,任選可通過酶促法用DNA聚合酶“補(bǔ)平”和/或通 過用外切核酸酶(例如綠豆核酸酶)“chewing-back”,對任何翻口端或突出端進(jìn)行平整 并使之易于連接。有利的是,一些DNA聚合酶還具有外切核酸酶活性。任選在平整反 應(yīng)之后,可優(yōu)選用多核苷酸激酶使片段的5’端磷酸化。在一個(gè)優(yōu)選的實(shí)施方案中,分 別使用T4 DNA聚合酶和T4多核苷酸激酶(T4 PNK)用于補(bǔ)平和磷酸化。T4 DNA聚合 酶用來通過其5’ 一3’聚合酶活性“補(bǔ)平” DNA的3’凹端(5’突出端),而其單鏈 3’ 一5’外切核酸酶活性去掉3’突出端。T4 PNK的激酶活性將磷酸基團(tuán)加至5’ -羥 基端。步驟7C-銜接子連接又如上所述,將雙鏈寡核苷酸銜接子與精加工的靶DNA片段的末端連接。在現(xiàn) 描述的實(shí)施方案中,銜接子可包括IoxP銜接子,該銜接子的一個(gè)實(shí)例見圖22。例如,圖 22提供2個(gè)雙鏈銜接子物質(zhì)loxP-6F銜接子2105和loxP-6R銜接子2107的說明性實(shí)例, 各銜接子具有缺乏5’磷酸基的第一平端,而且具有3個(gè)序列位置的3’突出端和磷酸化 5’端的第二末端。普通技術(shù)人員應(yīng)當(dāng)了解的是,所述3’突出端不局限于3個(gè)序列位 置,根據(jù)所需條件可能多于或少于3個(gè)。為了促進(jìn)環(huán)化產(chǎn)物,使銜接子2105和2107的第一平端與精加工(即平整)的靶 DNA片段的末端連接,使得各銜接子中的Iox P 2200區(qū)以同向取向,有關(guān)詳情見下文。 另外,包含突出端的兩種銜接子物質(zhì)第二末端和各銜接子的5’磷酸化提供特異性優(yōu)勢。 第一個(gè)優(yōu)勢是抑制多聚體銜接子形成產(chǎn)生如上所述的銜接子多聯(lián)體分子。換句話說,僅 銜接子2105和銜接子2107的平端是彼此可連接的,限制了這類銜接子連接事件形成與長 多聯(lián)體相對立的二聚體,所述多聯(lián)體較難與銜接靶分子區(qū)分,并且在一些情況下消耗相 當(dāng)比例的銜接子分子,使得它們不能用于與靶分子的連接。第二個(gè)優(yōu)勢是5’磷酸化和 3’突出端各自改進(jìn)外切核酸酶降解的效率,因此未環(huán)化分子的除去得到改進(jìn),所有詳情 見下文。步驟7D-大小選擇接下來,可按照所需片段大小對銜接子連接的核酸片段2100進(jìn)行純化。這個(gè)任 選的大小選擇步驟可以采用本領(lǐng)域已知和本文所公開的任何大小選擇方法如電泳和/或 液相層析法來進(jìn)行。在一個(gè)實(shí)施方案中,通過如上所述的凝膠電泳選擇剪切DNA樣品的 大小。在所述實(shí)施方案中,基于凝膠的方法產(chǎn)生大小分級的DNA片段,所述片段包含具 有所需長度的某種程度(例如為所需長度25%的范圍)的長度的大小分布。例如,靶定 的20Kb大小部分將產(chǎn)生一群片段,其長度為20Kb+/_5kb (即產(chǎn)生15Kb_25Kb的片段長度 范圍)。在相同或其它實(shí)施方案中,可應(yīng)用備選的大小分級技術(shù),特別是其中需要較長片 段以加大配對末端距離。適于較大分子的大小分級的這類技術(shù)之一稱為“脈沖場凝膠電 泳”(下文稱為 PFGE,參見 Schwartz DC,Cantor CR.Separation of yeast chromosome-sized DNAs by pulsed field gradient gel electrophoresis (通過脈沖場梯度凝膠電泳對酵母染色體大 小的DNA進(jìn)行分離).Cell. 1984 May; 37(1) 67-75,該文獻(xiàn)通過引用其整體結(jié)合到本文 中用于所有目的)。與用標(biāo)準(zhǔn)凝膠電泳方法所達(dá)到的分辨率相比,PFGE能夠以大得多的分辨率對大尺寸分子進(jìn)行大小分級。例如,相關(guān)領(lǐng)域普通技術(shù)人員要理解的是,標(biāo)準(zhǔn)凝膠電泳方法一般對大分子進(jìn)行有效的大小分離不起作用,尤其序列長度約為20Kb以上的 核酸分子。PFGE方法在另一方面提供對這類大核酸分子大小的精確辨別。此外,在應(yīng)用標(biāo)準(zhǔn)凝膠電泳或PFGE方法的實(shí)施方案中,有時(shí)需要采用本領(lǐng)域普 通技術(shù)人員已知的稱為“電洗脫”的方法用于從聚丙烯酰胺或瓊脂糖凝膠中有效地提取 核酸或蛋白質(zhì)分子。在一些實(shí)施方案中,采用本說明書其它部分描述的方法(例如在步驟6K中描述 的方法),補(bǔ)平從上述銜接子連接步驟中留下的缺口可能十分重要。步驟7E-通過重組講行環(huán)化接下來,將線性銜接核酸序列片段2100暴露于位點(diǎn)特異性重組酶中,例如識別 連接靶核酸序列末端并鄰接靶核酸序列的銜接子2105和2107的34bp IoxP區(qū)2206的Cre 重組酶。對于包含同向取向的銜接子IoxP區(qū)2206(詳情見下文)的銜接片段,Cre重組 酶切除包含IoxP區(qū)雜合體的短的線性片段(見圖21,如線性產(chǎn)物2155),并且用第二雜合 IoxP區(qū)和靶核酸使靶核酸環(huán)化產(chǎn)生環(huán)狀分子(見圖21,如環(huán)狀產(chǎn)物2150)。例如,圖21 和圖23說明由Cre重組酶產(chǎn)生的作為線性產(chǎn)物2155和環(huán)狀產(chǎn)物2150的兩個(gè)重組產(chǎn)物。 圖22進(jìn)一步說明存在于環(huán)化產(chǎn)物2150中的重組銜接子2110與雜合IoxP區(qū)2208的組成。 普通技術(shù)人員應(yīng)當(dāng)了解的是,Cre重組酶在兩個(gè)銜接子2105和2107中的IoxP區(qū)2206內(nèi) 切割,并與原始銜接子2105和2107兩者的作為2206區(qū)雜合體的IoxP區(qū)重組形成產(chǎn)物。 例如,Cre重組酶在6F 2105和6R 2107銜接子中的任一個(gè)的IoxP區(qū)2206上結(jié)合,并且各 自在相同序列位置切割。結(jié)合的重組酶/核酸復(fù)合體位于銜接的靶核酸序列片段的每個(gè) 末端,并且彼此反應(yīng)將6F 2105和6R 2107銜接子的切割末端連接起來由此使核酸片段環(huán) 化。在本實(shí)例中,重組酶使從缺乏8bp定向序列(directional sequence) 2200的6F 2105銜 接子切下的區(qū)段與包含8bp定向序列2200的6R 2107銜接子的區(qū)段連接,從而產(chǎn)生環(huán)狀 產(chǎn)物2150。另外,將得自6F 2105銜接子的8bp定向序列2200元件與余下的缺乏8bp定 向序列2200元件的6R 2107銜接子連接,產(chǎn)生短的雜合銜接子,為上述線性產(chǎn)物2155。 所得到的作為環(huán)狀產(chǎn)物2150的雜合銜接子見圖22,為包含IoxP區(qū)2208的銜接子2110。 包含與IoxP區(qū)2206基本相同的序列組成的區(qū)域2208及環(huán)狀產(chǎn)物2150中銜接子2110的 區(qū)域2208的實(shí)施方案還包括富集標(biāo)簽2205的兩個(gè)關(guān)聯(lián)實(shí)施方案(一個(gè)標(biāo)簽來源于銜接子 2105和2107之一)。在一些實(shí)施方案中,富集標(biāo)簽2205的兩個(gè)實(shí)施方案的存在提高隨后 的富集步驟的效率。如圖22中所示,富集標(biāo)簽可包括生物素,然而應(yīng)當(dāng)理解的是,可以 使用本文所描述或本領(lǐng)域普遍已知的任何類型的富集標(biāo)簽(即結(jié)合對(bindingpair))。還 要注意的是,銜接子2110還包括環(huán)狀產(chǎn)物2150中連接至靶DNA片段的原始銜接子2105 和2107的平端。圖22和圖23提供IoxP位點(diǎn)的方向性對于從SSR方法產(chǎn)生環(huán)化產(chǎn)物的重要性的 一個(gè)實(shí)例。在圖22的實(shí)例中,IoxP區(qū)2206的野生型形式(用序列區(qū)周圍的框表示)與 銜接子2105和2107結(jié)合。然而,應(yīng)當(dāng)理解的是,可以使用其它突變型,只要保持SSR 功能性即可。另外,相關(guān)領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,在所描述的SSR系統(tǒng)中,IoxP區(qū) 具有方向性特征,而且這類特征當(dāng)暴露于Cre重組酶時(shí)將影響產(chǎn)物。在圖22的實(shí)例中, 6F銜接子2105和6R銜接子2107兩者的區(qū)域2206包括對Cre/Lox系統(tǒng)是典型的特征,即包括長度為8bp的定向IoxP序列2200 (方向性用與序列2200相連的箭頭表示)。另 夕卜,區(qū)域2206包含在定向序列2200各側(cè)側(cè)翼的約13bp的回文序列元件。圖23 提供根據(jù)IoxP區(qū)2206的相對取向所產(chǎn)生的SSR產(chǎn)物的說明性實(shí)例。第 一,圖23A提供銜接片段2100’的代表性實(shí)例,該銜接片段具有以相反方向關(guān)系定位的 兩個(gè)IoxP區(qū)2206和由Cre重組酶產(chǎn)生的線性倒位產(chǎn)物2305 (用陰影區(qū)2300的位置改變來 表示)。完全不同的是,圖23B提供代表性的銜接片段2100”,該銜接片段具有以相同 方向關(guān)系定位的兩個(gè)IoxP區(qū)2206和由Cre重組酶產(chǎn)生的產(chǎn)物,其包括包含區(qū)域2208 (在 如上所述的重組銜接子2110中)的第一環(huán)狀產(chǎn)物2150和自銜接片段2100切下的第二線 性產(chǎn)物2155,并包含第二重組區(qū)2208。應(yīng)當(dāng)理解的是圖23B的重組反應(yīng)是正如雙向箭 頭所表示一樣是“雙向”的,其中與由整合箭頭2336所表示的整合方向相比,切除箭頭 2334表示反應(yīng)方向的幅度較大。相關(guān)領(lǐng)域普通技術(shù)人員還要理解的是,給出的箭頭2334 和2336僅用于說明目的,并非按方向性實(shí)際幅度的確切比例繪制,所述方向性可能至少 部分取決于反應(yīng)條件。重要的是,在一個(gè)優(yōu)選的實(shí)施方案中,使反應(yīng)條件最優(yōu)化以促進(jìn) 切除方向和形成環(huán)狀產(chǎn)物。步驟7F-除去非環(huán)狀核酸隨后,可以采用本說明書其它部分所描述的任何方法除去所有的線性核酸分 子,包括切除的產(chǎn)物2155、倒位產(chǎn)物2305、銜接子二聚體、未銜接的靶核酸片段等。例 如,可以采用外切核酸酶處理策略有效地除去所有的線性核酸分子產(chǎn)物或其它殘留的線 性片段。在一些實(shí)施方案中,可能需要使用不止一種類型的外切核酸酶以提高除去任何 不需要的線性核酸分子的效率。例如,在一些實(shí)施方案中,可使用兩種或更多種外切核 酸酶類,可包括但不限于外切核酸酶1(亦可稱為EXO 1)外切核酸酶類和被稱為依賴于 ATP的DNA酶以消化線性雙鏈DNA (即例如Plasmid-Safe 依賴于ATP的DNA酶,該 酶可獲自 Epicentre Biotechnologies, Madison WI)。步驟7G-線性化然后,可采用本說明書其它部分描述的各種方法的任一種,使環(huán)狀核酸產(chǎn)物 2150片段化形成線性核酸分子,其包含起始靶核酸的末端區(qū),在其中部具有銜接子區(qū)。 在現(xiàn)描述的變通方法中,可能特別有利的是利用機(jī)械剪切型方法之一,例如能夠選擇優(yōu) 選的片段長度并促進(jìn)配對標(biāo)簽形成的霧化,其中一個(gè)或多個(gè)配對的標(biāo)簽具有較長的序列 長度。此外,重要的是,注意圖22所示銜接子元件缺乏MmeI或本說明書其它部分描 述的其它IIS型限制位點(diǎn),然而應(yīng)當(dāng)容易理解的是,這類位點(diǎn)也可包括在內(nèi)。實(shí)際上,在 一些實(shí)施方案中,使MmeI位點(diǎn)與銜接子物質(zhì)之一結(jié)合是有利的,使得當(dāng)核酸片段與兩個(gè) 銜接子物質(zhì)連接并且環(huán)化時(shí),可以使用MmeI酶切割環(huán)狀分子,在新的線性片段的一個(gè)末 端留下20bp標(biāo)簽。然后,再次采用機(jī)械法使線性片段片段化,更多詳情見下文和本說明 書的其它部分,其中機(jī)械片段化選出比20bp標(biāo)簽和34bp IoxP區(qū)的組合大得多的特定片段 長度。結(jié)果是成對的第二標(biāo)簽的長度比第一標(biāo)簽長,并大大降低了包含銜接子2110的間 插區(qū)內(nèi)片段化的可能性。成對的第二標(biāo)簽的優(yōu)選長度可至少部分基于用來產(chǎn)生所得配對 末端片段的序列數(shù)據(jù)的測序方法的平均讀長或總讀長能力。
在一些實(shí)施方案中,為了防止在隨后的純化步驟中無意中喪失可能以低數(shù)量和/ 或低質(zhì)量存在的有價(jià)值的靶DNA片段,也可在線性化步驟之前加入載體DNA。在使用 II型限制位點(diǎn)(例如MmeI)的所述實(shí)施方案中,使用MmeI載體DNA可能是有利的,正 如本說明書其它部分描述的一樣。
還可能是有利的是,在相同或備選實(shí)施方案中使用更適于特殊應(yīng)用的其它類型 的載體DNA用于其它目的。這類目的中的一個(gè)包括分析機(jī)械操作步驟(例如上述線性 化步驟)的效率。在一些實(shí)施方案中,需要評價(jià)機(jī)械片段化方法的效率,例如本文所述 的霧化法,其中配對末端模板2160不是以足夠量產(chǎn)生以用于這種效率的有效測定。因 此,需要通過在片段化步驟之前加入一些環(huán)狀載體DNA以增加片段化產(chǎn)物的量。然而, 這類載體DNA產(chǎn)物當(dāng)在樣品中合并時(shí),難以從配對末端模板2160中分辨出來。在這類 實(shí)施方案中,更有利的是在進(jìn)行機(jī)械分析步驟后限制可測序的載體DNA的量。換句話 說,有益的是使用載體DNA用于機(jī)械操作步驟的分析,但一般不需要消耗測序步驟的寶 貴資源,來從無價(jià)值的載體DNA中產(chǎn)生序列信息。其中限制可測序量的載體DNA的一 種方法是通過PCR或其它擴(kuò)增方法使之無法擴(kuò)增。因此,在其中線性化產(chǎn)物庫(例如配 對末端模板2160)被進(jìn)一步擴(kuò)增用于測序的實(shí)施方案中,在用2170群表示的可測序模板 的擴(kuò)增群中,總的載體DNA群的出現(xiàn)明顯減少。例如,正如將在下文中更詳細(xì)描述的一 樣,環(huán)狀載體DNA例如pUC 19可具體用短波紫外光處理,通過產(chǎn)生嘧啶二聚體使各鏈 有效交聯(lián)并使之無法擴(kuò)增,致使它基本上不出現(xiàn)在最終的樣品中和被測序??蓪⑻幚淼?載體DNA加入具有環(huán)化靶DNA(即環(huán)狀產(chǎn)物2150)和線性化的樣品中,使得樣品包括得 自靶標(biāo)(即配對末端模板2160)和載體DNA群兩者的線性化代表。在本實(shí)例中,可對整 個(gè)樣品進(jìn)行分析以確定線性化的效率,例如通過使用可獲自Agilent Technologies,inc.的 LabChip DNA 7500芯片,其中由于核酸體積增加所致,載體DNA使得能夠更準(zhǔn)確地進(jìn)行 測定。在隨后使用本文所述的任何方法使樣品擴(kuò)增的過程中,載體DNA的拷貝數(shù)將不會 增加,使得擴(kuò)增樣品具有明顯較大比例的靶DNA分子。步驟7H-富集另外,圖22表示與各銜接子物質(zhì)結(jié)合的富集標(biāo)簽2205的實(shí)施方案,所述銜接子 物質(zhì)可包括生物素標(biāo)簽或本說明書其它部分描述或本領(lǐng)域普遍已知的其它類型的富集標(biāo) 簽。如上所述,在配對末端銜接子的連接期間,在補(bǔ)平反應(yīng)(片段修復(fù))期間,以及在 配對末端文庫擴(kuò)增期間,富集標(biāo)簽例如生物素部分可供含銜接子的配對末端片段的任選 選擇及配對末端文庫片段(在環(huán)狀核酸線性化后)的任選固定化。本文所描述的IoxP銜 接子2105和2107另外的優(yōu)勢是銜接子_銜接子連接事件僅導(dǎo)致銜接子二聚體,即防止多 聚體銜接子多聯(lián)體的形成。本發(fā)明方法7的變通方法的一個(gè)方面與本文所述的其它方法和變通方法一致, 例如用于連接銜接子和擴(kuò)增的第六種方法(步驟6J-6L)的步驟J-L,以及也在本申請中描 述的隨后的產(chǎn)物測序。如前所述,在用如圖25所示的最小數(shù)目的序列讀長有效覆蓋基因組支架的能力 方面,方法7的變通方法提供優(yōu)于其它方法的明顯優(yōu)勢。例如,圖25說明在大腸桿菌 K12基因組支架裝配中,提供約20Kb的長配對末端讀長的顯著優(yōu)勢,優(yōu)于約3Kb的較短 配對末端讀長,甚至優(yōu)于已知的基于鳥槍方法的更大優(yōu)勢。第七種方法提供優(yōu)于基于連接方法的其它優(yōu)勢,因?yàn)樗恍枰^少的處理步驟,這些步驟需要較少的寶貴資源,例 如技術(shù)人員工時(shí)、儀器用時(shí)和使用率以及試劑使用率。要理解的是本發(fā)明還預(yù)期并包括上述7種方法相應(yīng)步驟的任何組合。正如從上述本公開內(nèi)容可觀察到的一樣,在方法1、2、3、4、5和6間有相似性。特別是方法2、3、4、5和6的相似步驟尤其類似,在方法間可以合并和互換以產(chǎn)生 等同或有利的結(jié)果。既然介紹了配對末端測序法的通用方法,下面介紹所述方法的變通方法。在一種變通方法中,發(fā)夾銜接子可以用突出銜接子(overhang adaptor)(圖8)代 替。突出銜接子可被生物素化,并且可具有例如以下序列5 ‘ OH-AATTCAAACCCTTTCGGTTCCAAC—3 ‘ OH (SeqID NO 28)
_] I lllllllllllll Illlll3 ‘ OH-G-—TTTGGGAAAGCCA-—AGGTTG—5 ‘ P04 (SeqID NO 29)上鏈(SeqID NO 28)的 6 個(gè) 3,端核苷酸即 TCCAAC,與下鏈(SeqID NO
29)的互補(bǔ)核苷酸連接,形成II型S限制性內(nèi)切酶MmeI的識別位點(diǎn)。該變通方法以類似于方法3的方式進(jìn)行。將第一基因組DNA(圖8A)片段化并 精加工(圖8B)后,使突出銜接子與片段末端連接(圖8C)。可通過大小分級層析法(即 旋轉(zhuǎn)柱)或基于電荷的層析法除去突出銜接子的二聚體。無法形成突出銜接子的較高級 多聯(lián)體,因?yàn)樵?’突出端缺乏磷酸基。在除去突出端引物二聚體后(圖8D),通過激 酶處理能夠使片段自連接(圖8E)。進(jìn)行自連接(即環(huán)化),隨后可進(jìn)行外切核酸酶消化 以除去未連接的非環(huán)狀DNA。由于未與突出銜接子連接的DNA片段具有因精加工產(chǎn)生 的平端,所以它們的連接不如具有兩個(gè)各在一側(cè)連接的突出銜接子片段的5’突出端(粘 端)的有效。在環(huán)化后,利用Mme I消化脫去突出銜接子遠(yuǎn)處的DNA(參見圖8F),在 連接突出銜接子的每側(cè)留下起始基因組DNA的約20個(gè)堿基(圖8G)。具有突出銜接子 的片段使用結(jié)合生物素化銜接子的鏈霉抗生物素珠粒純化(圖8H)。所得片段可通過任何有效方法進(jìn)行測序,例如本公開內(nèi)容所提供的方法(例如 步驟3H)。由本發(fā)明方法產(chǎn)生的核酸可使用一個(gè)或多個(gè)與所述序列末端互補(bǔ)的引物進(jìn)行測 序。也就是說,在步驟3H描述的測序方案下,使測序銜接子A和測序銜接子B在進(jìn)行 測序之前與片段末端連接。因?yàn)橐阎蔚哪┒诵蛄谢蛘呤菧y序銜接子A或者是測序銜 接子B,因此與測序銜接子A或B互補(bǔ)的測序引物可用來進(jìn)行片段測序。此外,在包含 連接銜接子的各片段中部的序列是已知的(參見例如圖7中的703)。還可使用與該中部 區(qū)域互補(bǔ)的引物從中部起開始進(jìn)行測序。此外,可使末端區(qū)的測序引物和中部區(qū)的測序 引物雜合成待同時(shí)測序的片段(參見圖9)。一個(gè)引物被保護(hù)起來,而另一個(gè)引物則未保 護(hù)。圖9中,與末端雜合的引物受磷酸基團(tuán)的保護(hù)。第一輪測序?qū)奈幢Wo(hù)的引物開始 (圖9,中部引物)。在第一輪測序后,可任選終止第一引物的延伸,例如通過摻入互補(bǔ) 雙脫氧核苷酸?;蛘?,可將第一引物的延伸進(jìn)行到模板鏈的末端,使得終止不必要???使第二被保護(hù)引物脫保護(hù)并在第二輪測序中延伸以確定片段末端的序列。該方法使得可 以是單鏈的單一模板的兩個(gè)長配對末端測序讀長成為可能。在第二種變通方法中,使片段化的起始DNA(圖10A)與具有3’ CC突出端和任選內(nèi)部IIS型限制性內(nèi)切核酸酶位點(diǎn)的銜接子連接。連接片段無法自連接或自環(huán)化,因 為它們的末端是不相容的(不互補(bǔ))。然而,這些片段可使用在兩側(cè)具有5’ GG突出端 的接頭連接(圖10B)。在連接后,可通過上文論述的標(biāo)準(zhǔn)凝膠和柱層析法或通過切割未 環(huán)化分子的外切核酸酶消化,使核酸片段從非環(huán)狀DNA中純化出來。所得環(huán)狀DNA(圖 10D)可如其它方法中一樣用MmeI切割后,可對所得DNA進(jìn)行測序。 在另一種變通方法中,可以采用本發(fā)明的方法產(chǎn)生A/B銜接ssDNA(圖11,步 驟1)??赏ㄟ^同包含與A/B銜接子互補(bǔ)的序列的寡核苷酸雜交,使這種單鏈片段環(huán)化 (圖11,步驟2),并在連接酶存在下連接。除了有利于連接外,寡核苷酸還可用作促進(jìn) 環(huán)化ssDNA滾環(huán)擴(kuò)增的引物(圖11,步驟3)。可按照方法1,步驟IK和L (圖IL和圖 1M)中的描述切割滾環(huán)擴(kuò)增DNA。在擴(kuò)增之后,可將標(biāo)準(zhǔn)文庫制備和測序技術(shù)應(yīng)用于該 產(chǎn)物(圖11,步驟4)。本發(fā)明的一些實(shí)施方案以在大腸桿菌菌株K12基因組的配對末端測序?qū)嶒?yàn)中 預(yù)料不到的發(fā)現(xiàn)為基礎(chǔ),其中實(shí)驗(yàn)方案包括按照本文所述方法使用MmeI切割,跨基 因組的讀長覆蓋范圍的深度極為不同(圖20, “無載體(_)”)。所謂深度是指作圖 到基本相同的基因組區(qū)的序列讀長的數(shù)目。這種深度變化與跨基因組的MmeI位點(diǎn) 的密度有關(guān)(圖20)。預(yù)料不到并令人驚奇的是,本發(fā)明人發(fā)現(xiàn)加入已知含有MmeI 位點(diǎn)的雙鏈DNA(在圖20中標(biāo)為“(+)”),即大腸桿菌B菌株DNA( "EcoliB Strain(+)”)、鮭精 DNA( “SalSprmDNA(+) ”)或已知含有 MmeI 位點(diǎn)的 PCR 擴(kuò)增 產(chǎn)物(“AmpP0SMmeI(+)”)大大降低跨基因組的覆蓋范圍深度的變化,并使之隨機(jī) 化。然而,與“無載體”對照相比,加入缺乏MmeI位點(diǎn)的雙鏈DNA(在圖20中標(biāo) 為“(_)”),BP poly(dldC) ( “dldC㈠,,)或已知不含MmeI位點(diǎn)的PCR擴(kuò)增產(chǎn)物 (“AmpNegMmeK-)”)不會改變跨基因組的覆蓋范圍深度的變化形式。因此,使用 MmeI陽性載體DNA提供配對末端讀長跨基因組的更均勻分布,這是有利的。下表所列 數(shù)據(jù)進(jìn)一步證實(shí)了這些預(yù)料不到的發(fā)現(xiàn)表l.Mmel載體DNA對配對末端讀長的深度分布和長度的作用
樣品Depth DepthDepth%CV Length LengthSTDEV Length%CV
Ave STDEVAve
Stratagene_SS_dsDNA 25.599^7 36.2% 2.219 δ27.8%
EcoliBStrain21.99Ο 37.8% 2.210 6l828.0%
AmpPos22.82751 32.9% 2.199 Τδ28.1%
"dldC22.1726^5 119.7% 2.39765127.2%
AmpNeg21.1022.93 108.7% 2.363 63927.0%
陰性23.0526.01 112.8% 2.385 65427.4%表1表示大腸桿菌Κ12的覆蓋范圍深度的統(tǒng)計(jì)資料。頭3個(gè)樣品(行)加入了 MmeI陽性載體DNA,而底部3個(gè)樣品加入了 MmeI陰性載體DNA。每欄標(biāo)題表示
“Depth Ave” =平均深度;“Depth STDEV” =深度的標(biāo)準(zhǔn)差;“Depth% CV” =深度 的標(biāo)準(zhǔn)差除以平均深度(此商表示通過平均深度校正的深度的變化);“LengthAve” = 基因組中配對讀長的平均距離;“LengthSTDEV” =基因組中配對讀長距離的標(biāo)準(zhǔn)差;"Length% CV"=長度標(biāo)準(zhǔn)差除以平均長度。根據(jù)圖20,表1表示通過加入MmeI陽性載體DNA,跨越大腸桿菌K12基因組 的覆蓋范圍深度的變化大大降低(參見Depth STDEV和Depth % CV值;較小的Depth STDEV和Depth % CV值是有利的)。這導(dǎo)致跨基因組的配對末端讀長的分布更均勻。這種均勻分布是有利的。表2.具有MmeI陽性載體DNA的配對末端測序?qū)Υ竽c桿菌K12的基因組支架的 作用
權(quán)利要求
1.一種用于在體外反應(yīng)中獲得包含靶核酸的兩個(gè)末端區(qū)的DNA構(gòu)建體的方法,所述 方法包括以下步驟-使核酸分子片段化以產(chǎn)生靶核酸分子;-使重組銜接子元件與靶核酸分子的每個(gè)末端連接產(chǎn)生銜接的靶核酸分子; -使銜接的靶核酸暴露于位點(diǎn)特異性重組酶中,由銜接的靶核酸產(chǎn)生環(huán)狀核酸產(chǎn)物和 線性核酸產(chǎn)物,其中所述環(huán)狀核酸產(chǎn)物包含靶核酸分子;和-使環(huán)狀核酸產(chǎn)物片段化以產(chǎn)生包含來自靶核酸分子每個(gè)末端的序列區(qū)的模板核酸分子。
2.權(quán)利要求1的方法,其中在將所述銜接的靶核酸暴露于位點(diǎn)特異性重組酶的步驟之 后,所述方法還包括除去非環(huán)狀分子的步驟。
3.權(quán)利要求1的方法,所述方法還包括以下步驟-使所述模板核酸擴(kuò)增,產(chǎn)生包含大量基本相同的拷貝的群體;和 -對所述群體進(jìn)行測序,產(chǎn)生包含模板核酸的序列組成的序列數(shù)據(jù)。
4.權(quán)利要求1的方法,其中所述重組銜接子元件包含第一重組銜接子元件和第二重組 銜接子元件,其中所述第一和第二重組銜接子元件兩者都包含定向元件。
5.權(quán)利要求1的方法,其中所述位點(diǎn)特異性重組酶包括Cre重組酶。
6.權(quán)利要求1的方法,其中所述靶核酸分子包括選自以下的長度至少3Kb、至少 8Kb、至少10Kb、至少20Kb、至少50Kb和至少100Kb。
7.權(quán)利要求1的方法,其中所述大核酸分子包括基因組DNA。
8.權(quán)利要求1的方法,其中所述環(huán)狀核酸產(chǎn)物包含第一雜合重組銜接子,所述線性核 酸產(chǎn)物包含第二雜合重組銜接子,其中所述第一和第二雜合重組銜接子包含來自連接的 重組銜接子的元件。
9.權(quán)利要求1的方法,其中所述使環(huán)狀核酸產(chǎn)物片段化的步驟包括霧化。
10.一種用于在體外反應(yīng)中獲得包含靶核酸的兩個(gè)末端區(qū)的大量DNA的方法,所述 方法包括下列步驟-使大核酸分子片段化以產(chǎn)生大量靶核酸分子;-使重組銜接子元件與靶核酸分子的每個(gè)末端連接,產(chǎn)生大量的銜接的靶核酸分子;-將銜接的靶核酸分子暴露于位點(diǎn)特異性重組酶中,從銜接的靶核酸分子中產(chǎn)生大量 環(huán)狀核酸產(chǎn)物和大量線性核酸產(chǎn)物,其中所述環(huán)狀核酸產(chǎn)物包含靶核酸分子,和-使環(huán)狀核酸產(chǎn)物片段化以產(chǎn)生包含來自靶核酸分子每個(gè)末端的序列區(qū)的大量模板核 酸分子。
11.一種實(shí)施權(quán)利要求1的方法的試劑盒,所述試劑盒包含 -大量的重組銜接子元件;和-位點(diǎn)特異性重組酶,其優(yōu)選為Cre重組酶。
12.一種實(shí)施權(quán)利要求1的方法的試劑盒,所述試劑盒包含 -大量的重組銜接子元件;-位點(diǎn)特異性重組酶;其優(yōu)選為Cre重組酶; -外切核酸酶;和-環(huán)狀載體DNA,其優(yōu)選為pUC19t
全文摘要
本發(fā)明描述了用于在體外反應(yīng)中獲得包含靶核酸的兩個(gè)末端區(qū)的DNA構(gòu)建體的方法的實(shí)施方案,所述方法包括以下步驟使大核酸分子片段化產(chǎn)生靶核酸分子;使重組銜接子元件與靶核酸分子的每個(gè)末端連接產(chǎn)生銜接的靶核酸分子;使銜接的靶核酸暴露于位點(diǎn)特異性重組酶中,以由銜接的靶核酸產(chǎn)生環(huán)狀核酸產(chǎn)物和線性核酸產(chǎn)物,其中環(huán)狀核酸產(chǎn)物包含靶核酸分子;使環(huán)狀核酸產(chǎn)物片段化產(chǎn)生包含得自靶核酸分子每個(gè)末端的序列區(qū)的模板核酸分子。
文檔編號C12N15/10GK102027130SQ200980113183
公開日2011年4月20日 申請日期2009年2月4日 優(yōu)先權(quán)日2008年2月5日
發(fā)明者B·C·戈溫, D·R·里奇斯, G·C·費(fèi)雷里, Z·陳 申請人:霍夫曼-拉羅奇有限公司