用于單分子分析的方法
【專利說明】用于單分子分析的方法
[0001]相關(guān)申請的交叉參考
[0002]本發(fā)明要求于2013年2月5日提交的美國臨時(shí)申請第61761,189號的權(quán)益,其全部內(nèi)容通過引用并入本文。
[0003]背景
技術(shù)領(lǐng)域
[0004]本發(fā)明涉及納米技術(shù)領(lǐng)域和單分子基因組分析領(lǐng)域。
[0005]相關(guān)技術(shù)描述
[0006]新一代測序(NGS)技術(shù)能夠使序列數(shù)據(jù)能夠高通量和低成本生成。然而,從頭組裝基因組仍然是一項(xiàng)巨大的挑戰(zhàn),特別是對于大型基因組而言。NGS短讀數(shù)(short read)往往不足以創(chuàng)建跨越重復(fù)序列并促進(jìn)精確裝配的重疊群。植物基因組由于其含有大量重復(fù)元件而臭名昭著,所述元件與龐大的基因組大小組合,使得這些龐大且復(fù)雜的基因組的精確裝配變得棘手。
[0007]盡管高通量測序進(jìn)步,序列讀取的精確從頭組裝代表基因組計(jì)劃中的薄弱環(huán)節(jié)[I, 2]?;蚪M序列組裝有兩個(gè)通用步驟,生成序列重疊群和支架,以及將它們錨定到全基因組的低分辨率圖譜上。NGS平臺生成范圍從25至多于500個(gè)堿基的序列讀數(shù)[3],而通過Sanger測序,能夠高精確地獲得多達(dá)1000個(gè)堿基的讀數(shù)。NGS讀數(shù)對于精確組裝而言往往太短。配對末端讀數(shù)可以橋接重疊群成支架,但支架內(nèi)經(jīng)常存在間隙。為指定重疊群和支架,需要來自獨(dú)立技術(shù)平臺的高分辨率基因組圖譜。它們可以是染色體尺度,即遺傳圖譜,或區(qū)域尺度,即細(xì)菌人工染色體(BAC)或粘粒的重疊群[4]。如果重疊群和支架相比圖譜分辨率太短,則難以映射它們。例如,圖譜可具有50-150kb的分辨率,而許多重疊群和支架可能只跨越幾個(gè)千堿基。此外,重疊群和支架本身也有錯(cuò)誤,往往是由于重復(fù)序列的錯(cuò)誤組裝所致。典型的中型到大型基因組含有40-85%的重復(fù)序列[5-8],極大地阻礙了有效地從頭組裝序列。
[0008]基因組精加工(genome finishing) 一直依賴于龐大復(fù)雜的基因組物理圖譜的指導(dǎo),包括人類、擬南芥[9]、水稻[10]和玉米[11,12]。復(fù)雜基因組的基于BAC的限制性片段物理作圖十分強(qiáng)健,因?yàn)樯踔猎谘谺AC插入物(通常長100-220kb)存在散布的重復(fù)序列的情況下,也生成限制性片段的唯一模式。構(gòu)建物理圖譜的現(xiàn)有技術(shù)狀態(tài)包括快照(SNaPshot) [13,14]、全基因組概況分析(whole genome profiling) [15,16]、光學(xué)作圖[17,18]以及基因組作圖[19]??煺帐鞘褂靡环N或多種限制酶和熒光標(biāo)記隨后通過毛細(xì)管電泳分離片段的限制性指紋分析方法。快照已用于小麥和其他基因組的物理作圖[14,20]。光學(xué)作圖通過保持限制性位點(diǎn)沿固定在表面上的DNA分子的物理順序提供信息的附加層
[18]ο它已被應(yīng)用于玉米和水稻基因組[11,21]。人們可以通過比較電子序列基序圖譜(sequence motif map)與共有序列光學(xué)圖譜來驗(yàn)證序列組裝[22_25]。然而,光學(xué)圖譜的信息密度僅為每20kb約一個(gè)位點(diǎn),并且該技術(shù)由于高錯(cuò)誤率、非均勻DNA線性化以及低通量而實(shí)用性有限。因此,非常需要一種能夠克服光學(xué)作圖的這些限制的與作圖無關(guān)的高分辨率(例如,<5kb)DNA測序。
[0009]發(fā)明概述
[0010]根據(jù)一些實(shí)施方案,提供了一種表征DNA的方法。該方法可以包括在第一序列基序處使第一 DNA產(chǎn)生切口,其中該第一 DNA是雙鏈的,并且其中該第一 DNA在鄰近切口處保持雙鏈。該方法可以包括用第一標(biāo)記標(biāo)記(labelling)第一 DNA上的切口。該方法可以包括線性化第一 DNA。該方法可以包括檢測線性化第一 DNA上的第一標(biāo)記的模式。在一些實(shí)施方案中,第一 DNA在標(biāo)記后線性化。在一些實(shí)施方案中,該方法還包括用第三標(biāo)記標(biāo)記(marking)第一 DNA,其中第三標(biāo)記是非序列特異性的,并且其中第三標(biāo)記與第一標(biāo)記不同。在一些實(shí)施方案中,該方法還包括修復(fù)第一 DNA上的至少一些切口。在一些實(shí)施方案中,在用第三標(biāo)記標(biāo)記標(biāo)記的第一 DNA之前修復(fù)第一 DNA上的切口。在一些實(shí)施方案中,該方法還包括在第一序列基序處使第二 DNA產(chǎn)生切口,用第一標(biāo)記標(biāo)記第二 DNA上的切口,線性化第二 DNA ;并檢測線性化第二 DNA上的第一標(biāo)記的模式。在一些實(shí)施方案中,該方法還包括用第三標(biāo)記標(biāo)記第二 DNA。在一些實(shí)施方案中,該方法還包括修復(fù)第二 DNA上的至少一些切口。在一些實(shí)施方案中,在用第三標(biāo)記標(biāo)記標(biāo)記的第二 DNA之前修復(fù)第二 DNA上的切口。在一些實(shí)施方案中,該方法還包括在第二序列基序處使第一 DNA產(chǎn)生切口,其中修復(fù)的第一 DNA在鄰近切口處保持雙鏈,以及用第二標(biāo)記標(biāo)記第一 DNA上第二序列基序處的切口,其中第二標(biāo)記與第三標(biāo)記不同。在一些實(shí)施方案中,該方法還包括在用第二標(biāo)記進(jìn)行標(biāo)記后修復(fù)第一 DNA上的切口。在一些實(shí)施方案中,在用第三標(biāo)記標(biāo)記第一 DNA之前修復(fù)第一DNA上的切口。在一些實(shí)施方案中,該方法還包括檢測第一 DNA上第二標(biāo)記的模式。在一些實(shí)施方案中,該方法還包括在第二序列基序處使第二 DHA產(chǎn)生切口,其中第二 DNA在鄰近切口處保持雙鏈;以及用第二標(biāo)記標(biāo)記第二 DNA上第二序列基序處的切口,其中第三標(biāo)記(如果使用的話)與第二標(biāo)記不同。在一些實(shí)施方案中,在修復(fù)第一基序處的任何切口后,在第二基序處使第二 DNA產(chǎn)生切口。在一些實(shí)施方案中,該方法還包括在用第二標(biāo)記進(jìn)行標(biāo)記后修復(fù)第二 DNA上的切口。在一些實(shí)施方案中,該方法還包括檢測第二 DNA上第二標(biāo)記的模式。
[0011]根據(jù)一些實(shí)施方案,提供了一種表征DNA的方法。該方法可以包括用第一切口核酸內(nèi)切酶在識別序列處使第一 DNA的一條鏈產(chǎn)生切口,其中第一 DNA是雙鏈的,并且其中第一 DNA在鄰近切口處保持雙鏈。該方法可以包括用第一標(biāo)記在切口位點(diǎn)標(biāo)記第一 DNA。該方法可以包括修復(fù)第一 DNA上的切口。該方法可以包括用第二切口核酸內(nèi)切酶在識別序列處使第二 DNA的互補(bǔ)鏈產(chǎn)生切口,其中第二 DNA的互補(bǔ)鏈與所述第一 DNA的一條鏈互補(bǔ),其中第二 DNA是雙鏈的,并且其中第二 DNA在鄰近切口處保持雙鏈。該方法可以包括用第二標(biāo)記在切口位點(diǎn)標(biāo)記第二 DNA。該方法可以包括修復(fù)第二 DNA上的切口。該方法可以包括線性化標(biāo)記的第一 DNA和標(biāo)記的第二 DNA。該方法可以包括檢測線性化第一 DNA和線性化第二 DNA上第一和第二標(biāo)記的模式。在一些實(shí)施方案中,該方法還包括用第三標(biāo)記標(biāo)記修復(fù)的第一和第二 DNA,其中第三標(biāo)記是非序列特異性的。在一些實(shí)施方案中,第一 DNA和所述第二 DNA都來自同一來源。在一些實(shí)施方案中,第一 DNA和第二 DNA各來自不同的來源。在一些實(shí)施方案中,第一和第二標(biāo)記各包括相同的標(biāo)記。在一些實(shí)施方案中,第一和第二標(biāo)記各包括不同的標(biāo)記。在一些實(shí)施方案中,該方法還包括比較第一 DNA上標(biāo)記的模式與第二 DNA上標(biāo)記的模式。在一些實(shí)施方案中,該方法還包括使用標(biāo)記的基序的模式組裝標(biāo)記的第一 DNA,以構(gòu)建第一 DNA圖譜。在一些實(shí)施方案中,該方法還包括使用標(biāo)記的基序的模式組裝標(biāo)記的第二 DNA,以構(gòu)建第二 DNA圖譜。在一些實(shí)施方案中,該方法還包括使用標(biāo)記的序列基序的重疊組裝多個(gè)第一 DNA,以構(gòu)建第一 DNA圖譜。在一些實(shí)施方案中,該方法還包括使用標(biāo)記的序列基序的重疊組裝多個(gè)第二 DNA,以構(gòu)建第二 DNA圖譜,并且比較第一 DNA圖譜與第二 DNA圖譜。在一些實(shí)施方案中,該方法還包括用第一切口核酸內(nèi)切酶在識別序列處使第三DNA的一條鏈產(chǎn)生切口,由此產(chǎn)生至少一個(gè)切口位點(diǎn),其中第三DNA是雙鏈的,并且其中第三DNA在鄰近切口出保持雙鏈。該方法還可以包括在切口位點(diǎn)處標(biāo)記第EDNA。該方法還可以包括用第二切口核酸內(nèi)切酶在識別序列處使第四DNA的互補(bǔ)鏈產(chǎn)生切口,由此產(chǎn)生至少一個(gè)切口位點(diǎn),其中第四DNA的互補(bǔ)鏈與所述第三DNA的一條鏈互補(bǔ)。該方法還可以包括在切口位點(diǎn)處標(biāo)記第四DNA。該方法還可以包括用第三標(biāo)記標(biāo)記修復(fù)的第三和第四DNA,其中第三標(biāo)記是非序列特異性的。在一些實(shí)施方案中,該方法還包括修復(fù)第三DNA上的切口和修復(fù)第四DNA上的切口。在一些實(shí)施方案中,第三DNA和第四DNA都來自相同的第二來源。在一些實(shí)施方案中,該方法還包括第三DNA包含來自第二來源的第一樣品,且其中第四DNA包含來自第二來源的第二樣品。在一些實(shí)施方案中,第二來源與第一來源不同。
[0012]在一些實(shí)施方案中,本文描述的任何方法還包括比較第一 DNA上第一標(biāo)記的模式與參照DNA上標(biāo)記的模式。在一些實(shí)施方案中,本文描述的任何方法還包括比較第一標(biāo)記的模式與參照DNA上標(biāo)記的模式。在一些實(shí)施方案中,本文描述的任何方法還包括比較第一標(biāo)記的模式與參照DNA上第二標(biāo)記的模式。在一些實(shí)施方案中,本文描述的任何方法還包括比較第一 DNA上第一和第二標(biāo)記中至少一個(gè)的模式與參照DNA上標(biāo)記的模式。在一些實(shí)施方案中,本文描述的任何方法還包括比較第一 DNA上第一和第二標(biāo)記中每一個(gè)的模式與參照DNA上標(biāo)記的模式。
[0013]在本文的一些實(shí)施方案中,線性化包括將DNA運(yùn)送到納米通道內(nèi)。在本文的一些實(shí)施方案中,第三標(biāo)記包括非序列特異性標(biāo)記。在本文的一些實(shí)施方案中,第一和第二標(biāo)記獨(dú)立地選自熒光團(tuán)、量子點(diǎn)、樹狀聚體、納米線、珠、半抗原、鏈霉親和素、抗生物素蛋白、中性親和素(neutravidin)、生物素和反應(yīng)性基團(tuán)。在本文的一些實(shí)施方案中,第一和第二標(biāo)記獨(dú)立地選自熒光團(tuán)或量子點(diǎn)。在本文的一些實(shí)施方案中,第一和第二標(biāo)記中的至少一個(gè)包括非光學(xué)標(biāo)記。在本文的一些實(shí)施方案中,用聚合酶進(jìn)行標(biāo)記。在本文的一些實(shí)施方案中,在包含標(biāo)記的dNTP存在下用聚合酶進(jìn)行標(biāo)記。在本文的一些實(shí)施方案中,聚合酶具有5’至3’核酸外切酶活性。在本文的一些實(shí)施方案中,聚合酶離開側(cè)翼區(qū)域(flap reg1n),并且其中在用連接酶修復(fù)之前,去除側(cè)翼區(qū)域以恢復(fù)可連接的切口。在本文的一些實(shí)施方案中,使用聚合酶的5’至3’核酸外切酶活性在至少一個(gè)核苷酸以有限濃度存在的條件下去除側(cè)翼區(qū)域。在本文的一些實(shí)施方案中,使用聚合酶的5’至3’核酸外切酶活性在至少一個(gè)核苷酸從反應(yīng)中省略的條件下去除側(cè)翼區(qū)域。在本文的一些實(shí)施方案中,用側(cè)翼核酸內(nèi)切酶(flap endonuclease)去除側(cè)翼區(qū)域。在本文的一些實(shí)施方案中,在至少一種dNTP存在的條件下用聚合酶進(jìn)行標(biāo)記。在本文的一些實(shí)施方案中,至少一種dNTP是單一種類dNTP ο在本文的一些實(shí)施方案中,本文描述的方法還包括通過調(diào)節(jié)溫度、dNTP濃度、輔助因子濃度、緩沖液濃度或它們的任何組合來調(diào)節(jié)標(biāo)記期間聚合酶的活性。在本文的一些實(shí)施方案中,使第一基序或第二基序產(chǎn)生切口包括用Nt.BspQI產(chǎn)生切口。
[0014]根據(jù)一些實(shí)施方案,提供了一種表征包含雙鏈DNA的DNA的方法,該雙鏈DNA在DNA上的任一鏈中包含至少一個(gè)堿基側(cè)翼(base flap)。該方法可以包括,在至少一種dNTP與存在的其它dNTP相比以有限濃度存在或省略的條件下,用聚合酶的5’至3’核酸外切酶活性處理雙鏈DNA。該方法可以包括連接切口以恢復(fù)側(cè)翼區(qū)域的鏈完整性。該方法可以包括表征DNA。在一些實(shí)施方案中,標(biāo)記包括焚光團(tuán)或量子點(diǎn)。在一些實(shí)施方案中,標(biāo)記包括標(biāo)簽,且其中該標(biāo)簽標(biāo)記有熒光團(tuán)或量子點(diǎn)。
[0015]根據(jù)一些實(shí)施方案,提供了一種表征DNA的方法。該方法可以包括在第一序列基序處使DNA產(chǎn)生切口,其中該DNA是雙鏈的,并且其中該DNA在鄰近切口處保持雙鏈。該方法可以包括用包含第一標(biāo)記的核苷酸標(biāo)記DNA上的切口,使得每一切口位點(diǎn)并入一個(gè)核苷酸,其中該核苷酸還包括終止子,并且其中終止子是可逆的。該方法可以包括使終止子逆轉(zhuǎn)。該方法可以包括修復(fù)切口。該方法可以包括用第二標(biāo)記標(biāo)記修復(fù)的DNA,其中第二標(biāo)記是非序列特異性的,并且其中第二標(biāo)記與第一標(biāo)記不同。該方法可以包括在用第一和第二標(biāo)記進(jìn)行標(biāo)記后線性化DNA。該方法可以包括檢測線性化DNA上第一標(biāo)簽的模式。在一些實(shí)施方案中,第一或第二標(biāo)記中的至少一個(gè)包括熒光團(tuán)或量子點(diǎn)。在一些實(shí)施方案中,第一或第二標(biāo)記中的至少一個(gè)包括標(biāo)簽,并且該標(biāo)簽標(biāo)記有熒光團(tuán)或量子點(diǎn)。在一些實(shí)施方案中,該標(biāo)記包括非光學(xué)標(biāo)記。
【附圖說明】
[0016]圖1顯示由于產(chǎn)生切口因而可能在脆性位點(diǎn)發(fā)送的片段化,其中切口彼此更接近(圖1A)或相距更遠(yuǎn)(圖1B)。
[0017]圖2示出對應(yīng)于按從最小長度到最大長度(或質(zhì)量)(顯示為“質(zhì)心(center ofmass) ”)排列的分子的大小直方圖中點(diǎn)的DNA長度,針對參照基因組而定位的DNA分子的百分比圖(顯示為“定位到參照基因組”),和與E.coli (大腸桿菌)中相同比率的情況相比,定位到已測序的參照序列的假陽性率和假陰性率(顯示為“假陽性”和“假陰性”),所述E.coli經(jīng)歷了以下處理:1)無修復(fù),2)用制造商(New England B1labs)推薦的PreCR修復(fù),3)在省略dGTP的條件下用PreCR修復(fù),4)在省略dATP和dGTP的條件下用PreCR修復(fù),和5)在省略dGTP的條件下用Taq聚合酶修復(fù)。
[0018]圖3顯示質(zhì)心、在參照基因組上定位百分比,和在大腸桿菌中經(jīng)歷以下處理的假陽性和假陰性率:1)無修復(fù),2)用FEN I處