欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

精確序列信息及修飾堿基位置確定的方法

文檔序號(hào):66620閱讀:1144來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):精確序列信息及修飾堿基位置確定的方法
精確序列信息及修飾堿基位置確定的方法
本案主張于2008年11月7日申請(qǐng)之美國(guó)暫時(shí)專(zhuān)利申請(qǐng)案第61/112,548號(hào)之優(yōu) 先權(quán),以及于2009年4月7日申請(qǐng)之美國(guó)暫時(shí)專(zhuān)利申請(qǐng)案第61/167,313號(hào)之優(yōu)先權(quán),兩者 并入本文作為參考。
發(fā)明所屬的技術(shù)領(lǐng)域
本案涉及確定核酸序列的方法及確定核酸中修飾堿基位置的方法。
現(xiàn)有技術(shù)
DNA測(cè)序技術(shù)的最近發(fā)展增加了在基因組層次上高度個(gè)人化、預(yù)防醫(yī)學(xué)的可能性。 而且由一個(gè)或多個(gè)族群中的多個(gè)個(gè)體快速獲取大量的序列信息的可能性,可在生物醫(yī)學(xué)科 學(xué)上開(kāi)辟基因組革命的新階段。
基因型間的單一堿基差異可產(chǎn)生實(shí)質(zhì)的表型效應(yīng)。例如已有超過(guò)300個(gè)突變確 認(rèn)位于編碼苯丙氨酸羥化酶(PAH)的基因中,該酶在苯丙氨酸代謝及蛋白質(zhì)與神經(jīng)遞質(zhì)的 生物合成中,將苯丙氨酸(phenylalanine)轉(zhuǎn)換為酪氨酸(tyrosine),該突變?cè)斐擅富钚?喪失及高苯丙氨酸癥(hyperphenylalaninaemia)及苯酮尿癥(phenylketonuria)的疾病 (如 Jennings et al. , Eur J Hum Genet 8,683—696 (2000))。
序列信息可使用Sanger測(cè)序法獲得,Sanger測(cè)序法中,標(biāo)記的雙脫氧基鏈終止序 列(dideoxy chain terminator)的核苷酸類(lèi)似物并入大量的引物延伸反應(yīng)中,分開(kāi)不同長(zhǎng) 度的產(chǎn)物并分析確定該并入的終止序列之相同性(如Sanger et al. ,Proc Natl Acad Sci USA 74, 5463-5467 (1997) ) 0確實(shí)有許多基因組序列依此技術(shù)被確定。然而以Sanger測(cè)序 獲取序列信息的成本及速度受到限制。
新的測(cè)序技術(shù)可以每日數(shù)兆堿基的驚人速度產(chǎn)生序列信息,每一個(gè)堿基的成本低 于 Sanger 測(cè)序(如 Kato,Int J Clin Exp Med 2,193-202 (2009))。但是,使用這些測(cè)序 技術(shù)所得的原始信息較傳統(tǒng)的Sanger測(cè)序產(chǎn)生更多的錯(cuò)誤。這是因?yàn)楂@得的信息來(lái)自于 個(gè)體DNA分子,而非一個(gè)龐大的族群。
例如通過(guò)合成的單一分子測(cè)序中,因?yàn)檠b置錯(cuò)過(guò)一個(gè)微弱訊號(hào)、或者缺少來(lái)自熒 光染料脫色的信號(hào)、或因?yàn)榫酆厦缸饔锰煲灾挛幢谎b置檢測(cè)到,可能會(huì)略過(guò)一個(gè)堿基。所 有上述事件皆導(dǎo)致原始序列中的缺失錯(cuò)誤。同樣地,突變錯(cuò)誤及插入錯(cuò)誤也會(huì)因?yàn)闈撛诘?較微弱信號(hào)及較傳統(tǒng)方法快速的反應(yīng)等簡(jiǎn)單原因,更高頻率地發(fā)生。
低精確度的序列信息更難以組合(assemble)。在大規(guī)模測(cè)序中,例如測(cè)序一個(gè)完 整的真核基因組,其DNA分子被切成較小片段。這些片段同時(shí)被測(cè)序,然后組合所得的讀 取,重新構(gòu)筑原始樣本DNA分子的完整序列。切成片段的過(guò)程可由例如機(jī)械性剪切或酶性 切斷所達(dá)成。
將序列的小讀取組合成大的基因組需要片段的讀取精確到足以正確地組合在一 起。這對(duì)于由Sanger法產(chǎn)生的原始測(cè)序信息通常是正確的,Sanger法可具有超過(guò)95%的 原始信息正確性。精確的單一分子測(cè)序技術(shù)可應(yīng)用于檢測(cè)核酸樣本中的單一堿基修飾或突 變。然而,因?yàn)樯鲜龅南拗疲瑔我环肿訙y(cè)序技術(shù)的原始信息精確度可能降低。個(gè)別讀取原始序列的精確度可低至 60-80% (如 Harris et al.,Science 320 106-109 (2008)) 因此,
提供精確的單一分子測(cè)序方法是有用的。
而且,DNA甲基化在基因表達(dá)調(diào)節(jié)中扮演關(guān)鍵角色,例如,啟動(dòng)子處的甲基化通 常導(dǎo)致轉(zhuǎn)錄沉默(transcriptional silencing)。甲基化也已知是基因組印跡(genomic imprinting)及X染色體失活的必要機(jī)制。然而,辨識(shí)復(fù)雜的整個(gè)基因組甲基化概貌 (profile)的過(guò)程受到限制。因此以高通量確認(rèn)DNA甲基化概貌的方法是有用的,而且此方 法也提供對(duì)序列的精確確認(rèn)。

發(fā)明內(nèi)容
在一些實(shí)施方案中,本發(fā)明提供確認(rèn)核酸樣本序列之方法,包括(a)提供環(huán)狀核 酸分子,該分子包括至少一個(gè)插入樣本單元,該插入樣本單元包括核酸插入物及該核酸樣 本,其中該插入物具有已知序列;(b)獲取序列信息,該序列信息包括至少兩個(gè)插入樣本單 元,其中形成包含至少兩個(gè)插入樣本單元的核酸分子;(c)通過(guò)比較該插入物的序列與該 插入物中的已知序列,計(jì)算步驟(b)序列信息的至少兩個(gè)插入物的序列的分?jǐn)?shù)(score); (d)根據(jù)位于緊鄰該核酸樣本序列的重復(fù)序列的上游及下游之該插入物的一或兩個(gè)序列的 分?jǐn)?shù),接受或拒絕步驟(b)所得之序列信息的核酸樣本序列的至少兩個(gè)重復(fù)序列;(e)匯 編一個(gè)接受序列組,該接受序列組包含步驟(d)中接受的核酸樣本序列的至少一個(gè)重復(fù)序 列;及(f)使用該接受序列組,確認(rèn)該核酸樣本序列。
在一些實(shí)施方案中,本發(fā)明提供一種系統(tǒng),包括可操作連接于計(jì)算裝置的測(cè)序裝 置,該計(jì)算裝置包括處理器、儲(chǔ)存裝置、匯流排系統(tǒng)(bus system)、及至少一個(gè)使用者界面 元件,該儲(chǔ)存裝置由包括操作系統(tǒng)、使用者界面軟件、及使用說(shuō)明的程序編碼,該程序當(dāng)由 該處理器執(zhí)行時(shí),視需要根據(jù)使用者輸入,執(zhí)行下述方法(a)從環(huán)狀核酸分子獲取序列信 息,該環(huán)狀分子包括至少一個(gè)插入樣本單元,該插入樣本單元包括核酸插入物及核酸樣本, 其中(i)該插入具有已知序列,(ii)該序列信息包括至少兩個(gè)插入樣本單元的序列,及 (iii)產(chǎn)生一核酸分子包含至少兩個(gè)插入樣本單元;(b)通過(guò)比較該插入物的序列與該插 入物的已知序列,計(jì)算步驟(a)的序列信息至少兩個(gè)插入物的序列的分?jǐn)?shù);(c)根據(jù)緊鄰于 該核酸樣本序列的重復(fù)序列上游及下游的插入物的一或二個(gè)序列的分?jǐn)?shù),接受或拒絕步驟 (a)的序列信息中核酸樣本序列的至少兩個(gè)重復(fù)序列;(d)匯編一個(gè)接受序列組,該接受序 列組包括步驟(c)接受的核酸樣本序列至少一個(gè)重復(fù)序列;及(e)使用該接受序列組確定 該核酸樣本序列,其中,使用該系統(tǒng)的輸出,產(chǎn)生至少一個(gè)(i)核酸樣本的序列;或(ii)指 示在核酸樣本中至少一個(gè)位置上有修飾堿基的標(biāo)記。
在一些實(shí)施方案中,本發(fā)明提供一種程式編碼的儲(chǔ)存裝置,包括操作系統(tǒng)、使用者 界面軟件及指示說(shuō)明,當(dāng)由下述操作系統(tǒng)的處理器運(yùn)行時(shí),即該操作系統(tǒng)包括可操作連接 于包括處理器、儲(chǔ)存裝置、匯排流系統(tǒng)及至少一個(gè)使用者界面元件以及選擇性具有使用者 輸入的計(jì)算裝置的測(cè)序裝置,該程序執(zhí)行下述方法(a)從環(huán)狀核酸分子獲取序列信息,該 環(huán)狀分子包含至少一個(gè)插入樣本單元,該插入樣本單元包括核酸插入物及核酸樣本,其中 ⑴該插入物具有已知序列,( )該序列信息包括至少兩個(gè)插入樣本單元的序列,及(iii) 產(chǎn)生含至少兩個(gè)插入樣本單元的核酸分子;(b)通過(guò)比較該插入物的序列與該插入物的已 知序列,計(jì)算步驟(a)的序列信息至少兩個(gè)插入物的序列的分?jǐn)?shù);(c)根據(jù)緊鄰于該核酸樣本序列的重復(fù)序列上游及下游的插入物的一或兩個(gè)序列的分?jǐn)?shù),接受或拒絕步驟(a)之序 列信息的核酸樣本序列的至少兩個(gè)重復(fù)序列;(d)匯編接受序列組,該接受序列組包含步 驟(C)接受的核酸樣本序列至少一個(gè)重復(fù)序列;及(e)使用該接受序列組,確認(rèn)該核酸樣本 序列,其中,該方法導(dǎo)致用于產(chǎn)生下述的輸出,即至少一個(gè)(i)核酸樣本的序列;或(ii)指 示在核酸樣本中至少一個(gè)位置上有修飾堿基的標(biāo)記。
在一些實(shí)施方案中,本發(fā)明提供一種確認(rèn)雙鏈核酸樣本的序列及該序列中至少一 個(gè)修飾堿基的位置的方法,包括(a)將雙鏈核酸樣本的正向鏈和反向鏈鎖在一起,形成一 環(huán)狀配對(duì)互鎖分子(circular pair-locked molecule) ; (b)經(jīng)由單一分子測(cè)序獲得該環(huán) 狀配對(duì)互鎖分子的序列信息,其中該序列信息包括該環(huán)狀配對(duì)互鎖分子的正向鏈及反向 鏈的序列;(c)比較該環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確認(rèn)該雙鏈核酸樣本 的序列;(d)改變?cè)摥h(huán)狀配對(duì)互鎖分子中特定類(lèi)型堿基的堿基配對(duì)特異性(base-pairing specificity),產(chǎn)生改變的環(huán)狀配對(duì)互鎖分子;(e)獲得該改變的環(huán)狀配對(duì)互鎖分子的序 列信息,其中該序列信息包括該改變的正向鏈及反向鏈的序列;及(f)通過(guò)比較該改變的 正向鏈及反向鏈的序列,確認(rèn)該雙鏈核酸樣本序列中修飾堿基的位置。
在一些實(shí)施方案中,本發(fā)明提供一種確認(rèn)雙鏈核酸樣本之方法,包括(a)鎖住核 酸樣本的正向鏈與反向鏈在一起,形成一環(huán)狀配對(duì)互鎖分子;(b)經(jīng)由單一分子測(cè)序,獲得 該環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信息包括該環(huán)狀配對(duì)互鎖分子的正向鏈及反向 鏈的序列;及(c)比較該環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確認(rèn)該雙鏈核酸樣 本的序列。
在一些實(shí)施方案中,本發(fā)明提供一種確認(rèn)雙鏈核酸樣本的序列及該序列中至少一 個(gè)修飾堿基的位置之方法,包括(a)鎖住核酸樣本的正向鏈與反向鏈在一起,形成一環(huán)狀 配對(duì)互鎖分子;(b)經(jīng)由單一分子測(cè)序,獲得該環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信 息包括該環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列;及(c)比較該環(huán)狀配對(duì)互鎖分子的 正向鏈及反向鏈的序列,確定該雙鏈核酸樣本的序列及在該雙鏈核酸樣本序列中至少一個(gè) 修飾堿基的位置。
在一些實(shí)施方案中,本發(fā)明提供一種確定雙鏈核酸樣本的序列及該序列中至少一 個(gè)修飾堿基位置的方法,包括
(a)將核酸樣本的正向鏈及反向鏈鎖在一起,形成一環(huán)狀配對(duì)互鎖分子;(b)改變 該環(huán)狀配對(duì)互鎖分子中特定形式之堿基的堿基配對(duì)特異性;(c)通過(guò)單一分子測(cè)序,獲得 該環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信息包括該環(huán)狀配對(duì)互鎖分子的正向鏈及反向 鏈的序列;及(d)通過(guò)比較該環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確定該雙鏈核 酸樣本的序列及在該雙鏈核酸樣本序列中至少一個(gè)修飾堿基的位置。
在一些實(shí)施方案中,本發(fā)明提供一種確定雙鏈核酸樣本的序列及該序列中至少一 個(gè)修飾堿基位置的方法,包括
(a)將核酸樣本的正向鏈及反向鏈鎖在一起,形成一環(huán)狀配對(duì)互鎖分子;(b)通過(guò) 單一分子測(cè)序,獲得該環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信息包括該環(huán)狀配對(duì)互鎖 分子的正向鏈及反向鏈的序列;(c)比較該環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列, 確定該雙鏈核酸樣本的序列;(d)通過(guò)單一分子測(cè)序,獲得該環(huán)狀配對(duì)互鎖分子的序列信 息,其中使用至少一個(gè)區(qū)分堿基及其修飾形式的核苷酸類(lèi)似物,獲得序列信息,該序列信息包括在至少一個(gè)位置上并入至少一個(gè)鑒別標(biāo)記的核苷酸類(lèi)似物;及(e)通過(guò)比較該正向鏈 及反向鏈的序列,確定該雙鏈核酸樣本序列中修飾堿基的位置。
在一些實(shí)施方案中,本發(fā)明提供一種確定雙鏈核酸樣本的序列及該序列中至少一 個(gè)修飾堿基位置的方法,包括(a)將核酸樣本的正向鏈及反向鏈鎖在一起,形成一環(huán)狀配 對(duì)互鎖分子;(b)通過(guò)單一分子測(cè)序,獲得該環(huán)狀配對(duì)互鎖分子的序列信息,其中使用至少 一個(gè)區(qū)分堿基及其修飾形式的核苷酸類(lèi)似物,獲得序列信息,該序列信息包括在至少一個(gè) 位置上并入至少一個(gè)鑒別標(biāo)記的核苷酸類(lèi)似物;及(c)比較該環(huán)狀配對(duì)互鎖分子的正向鏈 及反向鏈的序列,確認(rèn)該雙鏈核酸樣本的序列及在該雙鏈核酸樣本序列中至少一個(gè)修飾堿 基的位置。
本發(fā)明其它的目的及優(yōu)點(diǎn)將在下面描述部分中說(shuō)明,且部分從描述的角度來(lái)看是 顯而易見(jiàn)的,或者可通過(guò)實(shí)施本發(fā)明而學(xué)習(xí)。本發(fā)明的目的和優(yōu)點(diǎn)將通過(guò)后附的權(quán)利要求
所特別指明的要件及組合而了解及達(dá)成。
前述的一般說(shuō)明及下述的詳細(xì)描述應(yīng)了解僅為示例性的,如同所聲明,不能用以 限制本發(fā)明。

附圖并入并構(gòu)成本說(shuō)明書(shū)的一部分,說(shuō)明本發(fā)明的數(shù)個(gè)實(shí)施方式,與描述一起用 于解釋本發(fā)明的原理。
實(shí)施方式
定義
為了使本發(fā)明容易了解,定義各項(xiàng)名詞如下。在此未定義的名詞具有本發(fā)明所屬 相關(guān)技術(shù)領(lǐng)域
中具有通常知識(shí)者一般了解的意義。如”一”、”一個(gè)”及”該”并非僅表示單 一個(gè)體,可包括特定實(shí)例可用以說(shuō)明的一般群組。此述學(xué)術(shù)用語(yǔ)用于說(shuō)明本發(fā)明的特定實(shí) 施方案,但其除在權(quán)利要求
中描述者,并非用于限制本發(fā)明。
“核酸”包含寡核苷酸及多核苷酸。
“雜交的高度嚴(yán)謹(jǐn)條件”表示兩核酸彼此間必須具有高度同質(zhì)性(homology)才能 進(jìn)行雜交的條件。雜交的高度嚴(yán)謹(jǐn)條件例如在4X氯化鈉/檸檬酸鈉(SSC)中、65或70°C 下雜交,或在4X SSC及50%甲酰胺中、在約42或50°C下雜交,之后伴隨至少一次、至少兩 次、或至少三次在IX SSC中、65或70°C下洗滌。
“解鏈溫度(melting temperature) ”表示一半的核酸在溶液中為鏈解開(kāi)(melted) 狀態(tài),另一半核酸為鏈未解開(kāi)(immelted)狀態(tài)時(shí)的溫度,假設(shè)有足夠的互補(bǔ)核酸存在。 在寡核苷酸存在超過(guò)互補(bǔ)序列的情形時(shí),解鏈溫度為一半的互補(bǔ)序列與該寡核苷酸連接 (anneal)的溫度。當(dāng)核酸插入物可形成發(fā)卡結(jié)構(gòu)(hairpin)的情形時(shí),解鏈溫度為一半 的插入物為部分自我雜交的”發(fā)卡結(jié)構(gòu)”時(shí)的溫度。由于解鏈溫度受條件影響,此述討論 的寡核苷酸解鏈溫度為在50mM氯化鈉水溶液中、具有0.5μ M寡核苷酸時(shí)的解鏈溫度。 解鏈溫度可由多種本領(lǐng)域已知方法估算,例如使用最接近熱平衡參數(shù)(Allawi et al., Biochemistry, 36,10581-10594 (1997))及標(biāo)準(zhǔn)的熱力學(xué)方程計(jì)算。
如果核酸分子中的一個(gè)位置具有一個(gè)獨(dú)特序列及其長(zhǎng)度與組成使互補(bǔ)寡核苷酸 具有可接受的解鏈溫度,例如從45 V至70°C、從50 V至70°C、從45°C至65°C、從50 V至 65°C、從 55°C至 70°C、從 60°C至 70°C、從 55°C至 60°C、從 60°C至 65°C、或從 50°C至 55°C, 則該位置適合引物連接。[0033]“延伸引物、寡核苷酸、或核酸”表示在該引物、寡核苷酸、或核酸上添加至少一個(gè) 核苷酸。此包括以聚合酶(polymerase)或連接酶(Iigase)活性催化的反應(yīng)。
“測(cè)序引物”是可連接至核酸分子中適合引物連接及測(cè)序反應(yīng)中延伸的位置,以產(chǎn) 生序列信息的寡核苷酸。
當(dāng)核酸插入物可部分自體雜交且自體雜交形式具有至少15°C的解鏈溫度時(shí),核酸 插入物可形成發(fā)卡結(jié)構(gòu)(hairpin)。
“突出(overhang),,為位于雙鏈核酸分子或發(fā)卡結(jié)構(gòu)末端的單鏈片段。
“重復(fù)序列”為在一個(gè)核酸中出現(xiàn)超過(guò)一次以上的序列。當(dāng)重復(fù)序列存在一個(gè) 核酸分子中時(shí),所有該序列,包括第一次出現(xiàn)的序列,都認(rèn)為是重復(fù)序列。重復(fù)序列包括 彼此反向互補(bǔ)(reverse complement)的序列,例如發(fā)生在環(huán)狀配對(duì)互鎖分子(circular pair-locked molecule)中。重復(fù)序列也包括非完全相同但衍生自相同序列的序列,例 如因?yàn)樵诤铣芍绣e(cuò)誤加入的事件或其它聚合酶的錯(cuò)誤使序列不同,或者一開(kāi)始相同或 完整的反向互補(bǔ)的序列,但因?yàn)檫^(guò)程中的修飾作用而使序列不同,例如因?yàn)楣饣瘜W(xué)轉(zhuǎn)化 (photochemical transition) ^MMiprlSl^hS (bisulfite treatment)白勺|^tf|5#ffl。
當(dāng)核酸插入物及核酸樣本中沒(méi)有其它插入的重復(fù)序列介于該核酸插入物及核酸 樣本之間時(shí),該核酸插入物及核酸樣本緊鄰于對(duì)方的上游或下游。在單鏈分子中,上游表示 5’端方向,下游表示3’端方向。在雙鏈分子中,此極性可任意決定或可根據(jù)具方向性的組 成元件(例如啟動(dòng)子、編碼序列等)的極性來(lái)決定,如果大多數(shù)的組成元件方向相同的話。 以RNA聚合酶開(kāi)始合成的方向?yàn)橄掠未_定啟動(dòng)子的極性。以從起始密碼子向終止密碼子的 方向?yàn)橄掠未_定編碼序列的極性。
如果兩個(gè)重復(fù)序列彼此為反向互補(bǔ),或者其中之一或兩者為彼此反向互補(bǔ)的衍生 物時(shí),該兩個(gè)重復(fù)序列彼此是正向及反向關(guān)系,具有相反的方向(orientation)。定為正向 的重復(fù)序列可任意決定或根據(jù)如前述該重復(fù)序列中組成元件的極性而確定。
修飾堿基是除了腺嘌呤(adenine)、胸腺嘧啶(thymine)、鳥(niǎo)嘌呤(guanine)、胞嘧 啶(cytosine)或尿嘧啶(uracil)以外,可位于核酸或核苷酸中如前述的一個(gè)或一個(gè)以上 的堿基。
多義密碼子(ambiguity code)表示一個(gè)序列中的堿基組合的密碼子,換句話說(shuō), 任何其表示的堿基皆可存在,例如Y =嘧啶(C、U或T) ;R =嘌呤(A或G) ;W =弱(A、T或 U) ;S=強(qiáng)(G 或 C) ;K=酮基(T、U 或 G) ;M=胺基(C 或 A) ;D =非 C(A、G、T 或 U) ;V =非 T 或 U(A、C 或 G) ;H =非 G(A、C、T 或 U) ;B =非 A(C、G、T 或 U)。
位置權(quán)重矩陣(position weight matrix)是行(row)對(duì)應(yīng)核酸序列中的位置、列 (column)對(duì)應(yīng)堿基,或者相反對(duì)應(yīng)的矩陣,矩陣中的每一個(gè)組成元件是特定位置上的特定 堿基的權(quán)重(weight)。通過(guò)合計(jì)序列中各堿基的權(quán)重,可確定該序列對(duì)照位置權(quán)重矩陣的 分?jǐn)?shù)(score),例如,當(dāng)序列為ACG時(shí),分?jǐn)?shù)為矩陣第1欄的A權(quán)重、第2欄的C權(quán)重、及第3 欄的G權(quán)重的總和,假設(shè)這些欄對(duì)應(yīng)該堿基的位置。通過(guò)反復(fù)對(duì)一序列確定對(duì)照矩陣的分 數(shù),可對(duì)一個(gè)長(zhǎng)度大于該矩陣中位置數(shù)目的序列運(yùn)作位置權(quán)重矩陣,其起始位置在每一運(yùn) 作中增加一個(gè)位置。在該方法中,可確認(rèn)產(chǎn)生對(duì)應(yīng)該矩陣的最大或最小分?jǐn)?shù)的序列中的位 置。
“儲(chǔ)存裝置”表示可由計(jì)算機(jī)獲取的數(shù)字信息的儲(chǔ)存庫(kù),包括RAM、ROM、硬盤(pán)、非揮
13發(fā)性固態(tài)記憶體、光碟、磁碟及其等同物。
“信息結(jié)構(gòu)”是一個(gè)物體或含有信息的儲(chǔ)存裝置中的變量(variable)。信息結(jié)構(gòu) 可含有標(biāo)量數(shù)據(jù)(scalar data)(例如個(gè)別特征、數(shù)量、或字符串)、標(biāo)量數(shù)據(jù)的集合(例如 標(biāo)量的矩陣或陣列)、或遞歸的集合(例如包含次表(sub-list)、矩陣、陣列和/或標(biāo)量作 為元件的表列(list),該表列可為多維度的(multidimentional),其中所述次表可含有次 表、矩陣、陣列和/或數(shù)值作為元件)。
核酸樣本
本發(fā)明方法包括確認(rèn)核酸樣本序列和/或確認(rèn)核酸樣本中修飾堿基的位置。”核 酸樣本”指本發(fā)明方法中待確認(rèn)的序列和/或修飾堿基位置的核酸。
核酸樣本可獲自例如DNA(包括基因組DNA、cDNA、mtDNA、葉綠體DNA、及染色體 外或細(xì)胞外DNA,但不限于此)或RNA(包括mRNA、初級(jí)轉(zhuǎn)錄本RNA、tRNA、rRNA、miRNA, siRNA、及snoRNA,但不限于此),但不限于此。核酸樣本可來(lái)自個(gè)體、患者、樣本、細(xì)胞培 養(yǎng)物、生物膜(biofilm)、器官、組織、細(xì)胞、孢子、動(dòng)物、植物、真菌、原生生物、細(xì)菌、古細(xì)菌 (archaeron)、病毒或病毒粒體(virion)。在一些實(shí)施方案中,核酸樣本獲自環(huán)境樣本,例如 來(lái)自土壤或水,核酸樣本可獲自環(huán)境樣本,無(wú)須特別了解核酸是否為細(xì)胞、細(xì)胞外或病毒來(lái) 源。而且,核酸可獲自化學(xué)或酶催化反應(yīng),包括合成、重組、或自然發(fā)生的核酸經(jīng)酶修飾的反 應(yīng),例如經(jīng)甲基轉(zhuǎn)移酶(methyltransferase)催化。
在一些實(shí)施方案中,核酸樣本是上述來(lái)源經(jīng)過(guò)處理的樣本。例如分離的核酸 可經(jīng)剪切片段化,例如經(jīng)過(guò)超聲波振動(dòng)或通過(guò)小孔徑的移液(pipetting),或通過(guò)酶消 化,例如內(nèi)切酶(endonuclease)而片段化,該內(nèi)切酶可為限制性內(nèi)切酶(restriction endonuclease)。在一些實(shí)施方案中,核酸樣本至少具有一個(gè)突出(overhang)。分離 的核酸可先被克隆(clone)并在宿主細(xì)胞和/或載體(vector),例如細(xì)菌或酵母菌的 人造染色體、微染色體(minichromosome)、質(zhì)粒(plasmid)、粘粒(cosmid)、染色體外元 件(extrachromosomal element)、或染色體整合構(gòu)建體(chromosomalIy integrated construct)中增殖。
提供環(huán)狀核酸分子
在一些實(shí)施方案中,本發(fā)明方法包括提供環(huán)狀核酸分子,該環(huán)狀核酸分子包含插 入樣本單元,該插入樣本單元含有核酸插入物和核酸樣本,其中該插入物具有已知序列。該 環(huán)狀核酸分子可為單鏈或雙鏈。
在一些實(shí)施方案中,該環(huán)狀核酸分子是由其來(lái)源物分離得到的環(huán)狀構(gòu)造分子,如 果該環(huán)狀核酸分子的序列部分是已知的,則其可作為核酸插入物(例如該環(huán)狀分子所含的 基因序列中保守的基序(conserved motif)可能是已知的,或者根據(jù)該分子在高度嚴(yán)謹(jǐn)條 件下與另一已知序列核酸雜交的能力,可知含有某一序列)。在一些實(shí)施方案中,在知道該 核酸插入物序列來(lái)自嚴(yán)謹(jǐn)雜交性質(zhì)的情形下,對(duì)該核酸插入物序列的認(rèn)識(shí)并不精確。在一 些實(shí)施方案中,在該環(huán)狀核酸分子具有已知骨架序列(backbone sequence)或者經(jīng)工程改 造(engineered)含有已知序列的情形下,則對(duì)該核酸插入物序列具有精確的認(rèn)識(shí)。
在一些實(shí)施方案中,該環(huán)狀核酸分子來(lái)自體外(in vitro)反應(yīng)或?qū)⒃摵怂針颖?與核酸插入物一起并入該環(huán)狀分子的反應(yīng)。體外反應(yīng),在一些實(shí)施方案中,可包括連接酶 (Iigase)催化的接合(ligation)和/或其它,例如可由多種酶催化的鏈連接反應(yīng)(strand
14joining reaction),包括重組酶(recombinases)禾口拓?fù)洚悩?gòu)酶(topoisomerases)。DNA連 接酶或RNA連接酶,在接頭(adapter)分子或聯(lián)結(jié)子(linker)存在或不存在下,可用于使 一線狀模板的兩端酶性連接,形成環(huán)狀。例如,T4RNA連接酶偶聯(lián)單鏈DNA或RNA,如Tessier et al.,Anal Biochem,158 171-78 (1986)所述。CIRCLIGASE (TM) (Epicentre, Madison, Wis.)也可用于催化單鏈核酸接合?;蛘撸p鏈連接酶,例如E. coli或T4 DNA連接酶,可用 于環(huán)化反應(yīng)。
在一些實(shí)施方案中,提供該環(huán)狀核酸分子包括以含有互補(bǔ)區(qū)域的引物(primer) (引物可為具有已知序列的5’垂懸(flap)的任意引物,該已知序列可作為核酸插入 物)放大一核酸模板(template),環(huán)化該經(jīng)擴(kuò)增的核酸,例如通過(guò)連接酶或重組酶催化。 該經(jīng)擴(kuò)增的核酸,在一些實(shí)施方案中,可在環(huán)化之前對(duì)其末端進(jìn)行處理,例如限制切割 (restriction)或磷酸化。
在一些實(shí)施方案中,該環(huán)狀核酸分子通過(guò)進(jìn)行化學(xué)環(huán)化作用提供?;瘜W(xué) 方法采用已知的偶聯(lián)劑(coupling agent),例如BrCN與咪唑及二價(jià)金屬、N-氰基 咪唑(N-cyanoimidazole)與ZnCl2、l_ (3- 二甲基氨基丙基)_3_乙基碳化二亞胺 (ethylcarbodiimide)鹽酸鹽、及其它碳化二亞胺(carbodiimides)與羰基二咪唑 (carbonyl diimidazole)。線狀模板的末端也可以通過(guò)縮合(condense) 5,-磷酸與3,-羥 基或5’ -羥基與3’ -磷酸而連接。
在一些實(shí)施方案中,環(huán)狀核酸分子為環(huán)狀配對(duì)互鎖分子(circular pair-locked molecule ;cPLM)。此類(lèi)型的分子在下面詳述。
提供核酸樣本的正向及反向重復(fù)序列;環(huán)狀配對(duì)互鎖分子
在一些實(shí)施方案中,本發(fā)明方法包括提供核酸樣本的正向及反向重復(fù)序列,及將 該正向鏈及反向鏈鎖在一起形成cPLM。cPLM的一般結(jié)構(gòu)如圖3所示。cPLM是單鏈環(huán)狀核酸 分子,包括核酸樣本的正向及反向重復(fù)序列,該重復(fù)序列由核酸插入物包圍,如圖3A所示。 該核酸插入物可為相同或相異。在一些實(shí)施方案中,該插入物具有至少50nt或至少I(mǎi)OOnt 的長(zhǎng)度。在一些實(shí)施方案中,該插入物的長(zhǎng)度為50或IOOnt至10,000或50,OOOnt0
線狀雙鏈核酸樣本的雙鏈可彼此鎖在一起,形成cPLM,例如通過(guò)接合(Iigate)在 分子端形成發(fā)卡結(jié)構(gòu)(hairpin)的核酸插入物。在一些實(shí)施方案中,形成發(fā)卡結(jié)構(gòu)的核酸 插入物具有至少 20°C、25°C、30°C、35°C、40°C、45°C、50°C、55°C、60°C、65°C或 70°C 的解鏈 溫度。該接合(ligation)可為平端(blunt-end)或粘性末端(sticky-end)連接。發(fā)卡結(jié) 構(gòu)結(jié)構(gòu)具有堿基對(duì)的干區(qū)(stem region)及未配對(duì)的環(huán)區(qū)(loop region)。在一些實(shí)施方案 中,插入的核酸包括至少20、22、25、30、或35個(gè)核苷酸大小的環(huán)區(qū)。在一些實(shí)施方案中,該 環(huán)區(qū)適合引物連接。在一些實(shí)施方案中,該環(huán)區(qū)以至少451、501、551、601、651或701 的解鏈溫度與引物連接。
在一些實(shí)施方案中,該核酸樣本包含不同的粘性末端(sticky end),例如可由限 制酶分解不同的限制位(restriction sites)而產(chǎn)生,這些不同的粘性末端有利于不同的 核酸插入物接合(ligation)。在一些實(shí)施方案中,以此方式待轉(zhuǎn)換的雙鏈核酸可通過(guò)沿著 含有所希望的樣本序列的模板延伸包含已知序列的5’垂懸(flap)的任意引物而獲得。
雙鏈核酸的雙鏈也可經(jīng)由酶處理使雙鏈端轉(zhuǎn)換成發(fā)卡結(jié)構(gòu),彼此雙鏈鎖在一 起形成cPLM,例如經(jīng)由重組酶(recombinanase)與雙鏈分子的一端形成磷酸酪氨酸(phosphotyrosin)連結(jié),之后另一鏈對(duì)該磷酸酪氨酸的連結(jié)作親核性攻擊(nucleophilic attack),形成發(fā)卡結(jié)構(gòu)。λ整合酶(integrase)及Flp重組酶等家族成員(如 Chen et al. , Cell 69,647-658(1992) ;Roth et al. , Proc Natl Acad Sci USA 90, 10788-10792(1993))是該重組酶的實(shí)例。在一些實(shí)施方案中,核酸樣本包括酶的識(shí)別序列, 該酶使雙鏈端轉(zhuǎn)換成發(fā)卡結(jié)構(gòu)。在一些實(shí)施方案中,使雙鏈端轉(zhuǎn)換成發(fā)卡結(jié)構(gòu)的酶的識(shí)別 序列附著于該核酸樣本,例如通過(guò)接合(ligation)。
在一些實(shí)施方案中,樣本核酸開(kāi)始以單鏈形式獲得,在形成cPLM前,轉(zhuǎn)換成雙鏈 形式。此可通過(guò)例如使發(fā)卡結(jié)構(gòu)(hairpin)與突出(overhang)接合至該樣本核酸的3’端, 然后由該接合的發(fā)卡結(jié)構(gòu)自3’端延伸,形成互補(bǔ)鏈而達(dá)成。之后可將第二發(fā)卡結(jié)構(gòu)連接至 該分子,形成cPLM。
核酸插入物
本發(fā)明的方法包括提供和/或使用環(huán)狀核酸分子,包括cPLM,該環(huán)狀核酸分子包 括至少一個(gè)核酸插入物。在一些實(shí)施方案中,該至少一個(gè)核酸插入物具有部分的、不精確 的、或完全的已知序列,如上所述。在一些實(shí)施方案中,該至少一個(gè)核酸插入物的序列是 完全已知的。在一些實(shí)施方案中,該至少一個(gè)核酸插入物包括寡核苷酸的合適結(jié)合位點(diǎn) (binding site),該寡核苷酸包括測(cè)序引物。在一些實(shí)施方案中,該至少一個(gè)插入核酸形成 發(fā)卡結(jié)構(gòu)(hairpin)。
在一些實(shí)施方案中,該至少一個(gè)核酸插入物具有10-300個(gè)、15-250個(gè)、30-200 個(gè)、或30-100個(gè)核苷酸殘基的長(zhǎng)度。在一些實(shí)施方案中,該至少一個(gè)核酸插入物具有 450C -70°C或 50°C -65°C 的解鏈溫度。
在一些實(shí)施方案中,該至少一個(gè)核酸插入物包括一啟動(dòng)子(promoter),例如T7 RNA 聚合酶啟動(dòng)子(如 Guo et al.,J Biol Chem 280,14956-14961 (2005))。啟動(dòng)子由 RNA 聚合酶辨識(shí),是RNA合成開(kāi)始的位置。其它的啟動(dòng)子在該技術(shù)領(lǐng)域
中亦是已知的。
插入樣本單元
本發(fā)明中使用的環(huán)狀核酸分子包括至少一個(gè)核酸樣本及至少一個(gè)核酸插入物,組 成至少一個(gè)插入樣本單元。插入樣本單元為核酸片段,其中核酸插入物位于緊鄰核酸樣本 的上游或下游。
在一些實(shí)施方案中,該環(huán)狀核酸分子是cPLM,包含兩個(gè)插入樣本單元,在此二插入 樣本單元中的核酸樣本彼此互為相反方向(orientation),S卩,一個(gè)是核酸樣本的正向重復(fù) 序列,另一個(gè)是反向重復(fù)序列。需注意cPLM可考慮為包含兩個(gè)插入樣本單元,其中該插入 物位于該樣本的上游或下游,亦即,依照如圖3B所示結(jié)構(gòu)的cPLM,依序包含組成元件11 (正 向重復(fù)序列)、14 (插入物)、12 (反向重復(fù)序列)、及13 (插入物),13接回11,使該環(huán)封閉。 不論該插入樣本單元是否是11與14及12與13,或13與11及14與12,該分子包含兩個(gè) 插入樣本單元。在實(shí)施例中,當(dāng)該插入物的方向(orientation)和/或其相對(duì)于該樣本的 定位(positioning)是功能上顯著的時(shí),例如該插入物包括一啟動(dòng)子或引物結(jié)合位點(diǎn),其 最有效于組合該插入樣本單元,從而組合該插入物與樣本朝向引物結(jié)合位點(diǎn)或啟動(dòng)子的方 向,亦即,該樣本可由引物結(jié)合位點(diǎn)或啟動(dòng)子開(kāi)始由聚合酶復(fù)制。
獲取序列信息
測(cè)序方法
16[0071]本發(fā)明方法包括獲取序列信息。在一些實(shí)施方案中,包括至少兩個(gè)插入樣本單元 的核酸分子在獲取序列信息的步驟中產(chǎn)生。在一些實(shí)施方案中,包含至少兩個(gè)插入樣本單 元的核酸分子可通過(guò)從提供的環(huán)狀核酸分子合成而產(chǎn)生。在一些實(shí)施方案中,包含至少兩 個(gè)插入樣本單元的核酸分子可通過(guò)改變提供的環(huán)狀核酸分子而產(chǎn)生,例如通過(guò)將該環(huán)狀核 酸分子轉(zhuǎn)換為線狀核酸分子,在一些實(shí)施方案中,該核酸分子可為單鏈。在一些實(shí)施方案 中,核酸分子中的至少一個(gè)磷酸二酯鍵(phosphodiester)在獲取序列信息的步驟中形成 或斷裂,該核酸分子可為提供的環(huán)狀核酸分子或其模板合成產(chǎn)物。
在一些實(shí)施方案中,序列信息通過(guò)合成方法測(cè)序而獲得。在一些實(shí)施方案中,序 列信息使用單一分子測(cè)序方法而獲得。在一些實(shí)施方案中,單一分子測(cè)序方法選自焦磷 酸測(cè)序(pyrosequencing)、可逆終止密碼子測(cè)序(reversible terminator sequencing)、 連接測(cè)序(ligation sequencing)、納米孔測(cè)序(nanopore sequencing)、及第三代測(cè)序 (third-generation sequencing)。
在一些實(shí)施方案中,序列信息使用大量(bulk)測(cè)序方法而獲得,例如Sanger測(cè)序 或 Maxam-Gilbert 測(cè)序。
單一分子測(cè)序方法與大量測(cè)序方法不同在于,單一核酸分子是否為測(cè)序過(guò)程的一 部分而分離。核酸分子可為單鏈或雙鏈,就目的而言,兩個(gè)粘合的核酸鏈被認(rèn)為是單一分 子。單一分子的分離可發(fā)生在微孔(microwell)中,經(jīng)由使用納米孔(nanopore),以可光學(xué) 切割(optically resolvable)形式直接或間接附著于基底物質(zhì),例如顯微玻片,或者以任 何其它容許由個(gè)別分子獲得序列信息的方式。在間接附著中,單一分子通過(guò)連接于該單一 分子(例如蛋白質(zhì)或寡核苷酸)的連接結(jié)構(gòu)(linking structure)附著于基底物質(zhì)。特別 是單一分子被分離、之后擴(kuò)增,序列信息直接由該擴(kuò)增產(chǎn)物中獲得的方法仍被認(rèn)為是單一 分子方法,因?yàn)閱我环肿颖环蛛x,并作為該序列信息的基本來(lái)源。(相反地,在大量測(cè)序方法 中,使用含有多分子的核酸樣本,獲得含有源自多個(gè)分子信號(hào)的信息)。在一些實(shí)施方案中 進(jìn)行單一分子測(cè)序,其中冗余序列(redundant sequence)獲得自同一分子。冗余序列可通 過(guò)在一個(gè)分子中對(duì)至少兩個(gè)直接或倒轉(zhuǎn)(inverted)的重復(fù)序列測(cè)序而獲得,或者通過(guò)對(duì) 該分子的相同部份進(jìn)行一次以上的測(cè)序而獲得。冗余序列可為完全冗余或有某些變異的部 分的冗余,例如因?yàn)樘囟?lèi)型堿基的堿基配對(duì)特異性(base pairing specificity)改變所 造成的差異,或者因?yàn)闇y(cè)序過(guò)程中可能發(fā)生的錯(cuò)誤所造成的差異。在一些實(shí)施方案中,堿基 配對(duì)特異性的改變可發(fā)生于測(cè)序之前。在一些實(shí)施方案中,相同的分子被測(cè)序數(shù)次,可選地 經(jīng)中間處理(intervening treatment),該中間處理選擇性地改變重復(fù)測(cè)序之間發(fā)生的特 定類(lèi)型堿基的堿基配對(duì)特異性。
Sanger測(cè)序涉及使用標(biāo)記的雙脫氧基鏈終止序列(dideoxy chain terminator),是該技術(shù)領(lǐng)域
所周知的(如 Sanger et al. , Proc Natl Acad Sci USA 74, 5463-5467(1997))。Maxam-Gilbert測(cè)序涉及在核酸樣本的部分進(jìn)行多重部分化學(xué)降解 反應(yīng),之后檢測(cè)及分析片段,推測(cè)該序列,亦是該技術(shù)領(lǐng)域
所周知的(如Maxam et al., Proc Natl Acad Sci USA 74,560-564(1977))。另一大量測(cè)序方法是通過(guò)雜交測(cè)序,其中 根據(jù)該樣本對(duì)復(fù)數(shù)個(gè)序列的雜交性質(zhì),推導(dǎo)該樣本序列,例如在微陣列或生物芯片中(如 Drmanac,et al. , Nat Biotechnol 16,54-58(1998))。
單一分子測(cè)序方法一般性的討論于,例如Kato,Int J Clin Exp Med 2,
17193-202 (2009),并作為本案參考。
焦磷酸測(cè)序(pyrosequencing)、可逆終止密碼子測(cè)序(reversible terminator sequencing)及連接測(cè)序(ligation sequencing)被認(rèn)為是第二代測(cè)序方法。一般而言,這 些方法使用產(chǎn)生自單一分子的擴(kuò)增產(chǎn)物,與產(chǎn)生自其它分子的擴(kuò)增產(chǎn)物在空間上分離。該 空間上的分離可通過(guò)使用乳化液、皮升(picoliter)孔、或固定于玻片上進(jìn)行。序列信息通 過(guò)核苷酸上的熒光獲得,在獲取信息后,去除新并入的核苷酸的熒光,并對(duì)下一個(gè)核苷酸重 復(fù)此過(guò)程。
在焦磷酸測(cè)序(pyrosequencing)中,由聚合反應(yīng)中釋放的焦磷酸離子在ATP硫酸 化酶(sulfurylase)催化下與腺嘌呤5,磷酸硫酸(adenosine 5,phosphosulfate)反應(yīng), 產(chǎn)生ATP,ATP之后驅(qū)動(dòng)熒光素(Iuciferin)在熒光素酶(Iuciferase)催化下轉(zhuǎn)換為氧化 熒光素(oxyluciferin)及光。由于熒光為瞬間的,在此方法中不需要另一個(gè)分離步驟去除 熒光。此時(shí)加入一種脫氧核苷酸三磷酸(dNTP),根據(jù)在反應(yīng)位點(diǎn)上的dNTP產(chǎn)生的明顯信 號(hào),辨別序列信息??墒匈?gòu)的Roche GS FLX儀器使用此方法獲得序列。此技術(shù)及其應(yīng)用如 下述詳細(xì)討論,例如 Ronaghi et al.,Anal Biochem 242,84—89 (1996)及 Marguilies et al. , Nature 437,376-380 (2005)(更正于 Nature 441,120(2006))。
可逆終止密碼子測(cè)序(reversible terminator sequencing)中,在單一堿基延 伸反應(yīng)里并入經(jīng)熒光染料標(biāo)記的核苷酸類(lèi)似物(analog),因?yàn)樽钄嗷?blocking group) 的存在,該核苷酸類(lèi)似物是可逆的鏈終止密碼子。根據(jù)熒光團(tuán)(fluorophore)確認(rèn)堿基, 換句話說(shuō),每一個(gè)堿基與不同的熒光團(tuán)配對(duì)。在獲取熒光/序列信息后,化學(xué)性移除該熒 光團(tuán)及阻斷基,重復(fù)此周期,以獲取序列信息的下一個(gè)堿基。發(fā)光GA儀器(Illumina GA instrument)即以此方法操作。該技術(shù)及其應(yīng)用詳細(xì)討論于如Ruparel et al. ,Proc Natl Acad Sci USA 102,5932-5937(2005)及 Harris et al. , Science 320,106-109(2008)。
連接測(cè)序(ligation sequencing)中使用連接酶使具有突出的部份雙鏈的寡核苷 酸與待測(cè)序的核酸連接,該核酸具有突出,為了使接合(ligation)發(fā)生,該二個(gè)突出必須 互補(bǔ)。部分雙鏈寡核苷酸的突出的堿基可根據(jù)連接至該部分雙鏈寡核苷酸和/或連接至 與該部分雙鏈寡核苷酸的其它部分雜交的次級(jí)核苷酸之熒光團(tuán)而確認(rèn)。獲取熒光信息后, 該接合復(fù)合體(ligated complex)在結(jié)合位點(diǎn)的上游被切割,例如使用IIs型限制酶,如 Bbvl,其在距離其識(shí)別位點(diǎn)固定距離的位置(該識(shí)別位點(diǎn)包含于該部分雙鏈寡核苷酸中) 切割。該切割反應(yīng)在緊鄰先前突出的上游暴露出新的突出,并重復(fù)此過(guò)程。此技術(shù)及其應(yīng) 用詳細(xì)討論于如 Brenner et al.,Nat Biotechnol 18,630-634 (2000)。在一些實(shí)施方案 中,本發(fā)明方法采用連接測(cè)序,獲得環(huán)狀核酸分子的滾環(huán)擴(kuò)增產(chǎn)物,及使用該滾環(huán)擴(kuò)增產(chǎn)物 作為模板,進(jìn)行連接測(cè)序。
納米孔測(cè)序(nanopore sequencing)中,單鏈核酸分子經(jīng)孔穿過(guò),例如使用電泳驅(qū) 動(dòng)力(electrophoretic driving force),分析該單鏈核酸分子穿過(guò)孔時(shí)所獲得的信息,推 測(cè)序列。該信息可為離子電流信息,其中每一個(gè)堿基改變?cè)撾娏?,例如?jīng)由部分阻斷通過(guò)孔 的電流,使電流為不同、可區(qū)別的程度。
第三代測(cè)序中,使用表面涂覆具有多小洞( 50nm)的鋁涂層之玻片,作為零模式 波導(dǎo)(如Levene et al. ,Science 299,682-686 (2003))。該鋁表面經(jīng)由聚磷酸化學(xué),例如 聚乙烯磷酸化學(xué)使DNA聚合酶附著而受到保護(hù)(如Karlach et al. ,Proc Natl Acad Sci
18USA 105,1176-1181(2008))。這導(dǎo)致DNA聚合酶分子優(yōu)先附著于該鋁涂層洞中暴露的二氧 化硅(silica)。該設(shè)置使逐漸消失的波現(xiàn)象(wave phenomena)被用于減少熒光背景,允許 使用較高濃度的熒光標(biāo)記的dNTP。熒光團(tuán)(fluorophore)附著于dNTP的末端磷酸,從而在 并入dNTP時(shí)釋放熒光,但是熒光團(tuán)不附著于新并入的核苷酸,表示該復(fù)合體可立即進(jìn)行另 一周期的并入。通過(guò)該方法可檢測(cè)該鋁涂層洞中個(gè)別引物模板復(fù)合體的dNTP的并入(如 Eid et al, Science 323,133-138(2009))
測(cè)序模板;獲得的測(cè)序信息量
在一些實(shí)施方案中,序列信息直接獲自環(huán)狀核酸分子,亦即使用該環(huán)狀核酸分子 作為模板。作為模板的環(huán)狀核酸分子可為環(huán)狀配對(duì)互鎖分子。在一些實(shí)施方案中,序列信 息獲得自產(chǎn)物核酸分子,其自身使用環(huán)狀核酸分子作為模板而合成,即獲得序列信息所使 用的模板可為由環(huán)狀核酸分子模板合成的產(chǎn)物核酸分子。在一些實(shí)施方案中,序列信息獲 自環(huán)狀核酸分子模板及合成自環(huán)狀核酸分子模板的產(chǎn)物核酸分子。
在一些實(shí)施方案中進(jìn)行滾環(huán)擴(kuò)增(rolling circle amplication),包含使用環(huán)狀 核酸分子為模板,合成含有至少兩個(gè)插入樣本單元的產(chǎn)物核酸分子。在一些實(shí)施方案中,滾 環(huán)擴(kuò)增包括合成含有至少3、4、5、10、15、20、25、50或100個(gè)插入樣本單元的產(chǎn)物核酸分子。 使用滾環(huán)擴(kuò)增以制造大量模板復(fù)制物在該技術(shù)領(lǐng)域
中是周知的(如Blanco et al. ,J Biol Chem 264,8935-8940(1989)及Ban6r et al. ,Nucleic Acids Res 26,5073-5078 (1998))。 滾環(huán)擴(kuò)增可為測(cè)序的一部分,其中該環(huán)狀核酸分子為測(cè)序的模板,或合成作為測(cè)序模板的 產(chǎn)物核酸分子。
不考慮模板,根據(jù)本發(fā)明方法獲得的序列信息包括該核酸樣本序列的至少兩個(gè)重 復(fù)序列,該至少兩個(gè)重復(fù)序列在一些實(shí)施方案中包括該核酸樣本序列中至少一個(gè)正向重復(fù) 序列及該核酸樣本序列中至少一個(gè)反向重復(fù)序列。在一些實(shí)施方案中,序列信息包括該核 酸樣本序列的至少3、4、5、10、15、20、25、50或100個(gè)重復(fù)序列。在一些實(shí)施方案中,序列信 息包括該核酸樣本序列的至少2、3、4、5、10、15、20、25、50或100個(gè)正向重復(fù)序列。在一些 實(shí)施方案中,序列信息包括該核酸樣本序列的至少2、3、4、5、10、15、20、25、50或100個(gè)反向 重復(fù)序列。在一些實(shí)施方案中,序列信息包括該核酸樣本序列的至少2、3、4、5、10、15、20、 25,50或100個(gè)正向及反向重復(fù)序列。
計(jì)算分?jǐn)?shù)
在一些實(shí)施方案中,本發(fā)明方法包括通過(guò)比較該插入物的序列與該插入物中的已 知序列,計(jì)算該序列信息中至少兩個(gè)插入物序列的分?jǐn)?shù)。在一些實(shí)施方案中,當(dāng)該插入物序 列只有部分已知或不精確地已知,該核酸插入物的已知序列可包括不確定或未知的位置, 例如通過(guò)使用多義密碼子(ambiguity code)或位置權(quán)重矩陣(position weight matrix)。
比較該插入物的序列與該插入物中的已知序列包括確認(rèn)該序列信息中至少兩個(gè) 插入物的序列。確認(rèn)該序列在一些實(shí)施方案中可以通過(guò)目視觀察進(jìn)行,即通過(guò)人用視覺(jué)掃 描序列信息并發(fā)現(xiàn)其中的插入核酸序列,或通過(guò)計(jì)算機(jī)幫助比對(duì)的方法(如國(guó)際專(zhuān)利申請(qǐng) 案公開(kāi)號(hào)W02009/017678)。在一些實(shí)施方案中,序列的確認(rèn)可通過(guò)識(shí)別該序列的演算法掃 描序列信息而進(jìn)行,例如對(duì)序列信息中的多個(gè)位置進(jìn)行重復(fù)或探索計(jì)算分?jǐn)?shù),確認(rèn)對(duì)應(yīng)最 接近該核酸插入物中已知序列的局部極值(local extrema)。在一些實(shí)施方案中,對(duì)至少兩 個(gè)核酸插入物序列的鑒別可與計(jì)算分?jǐn)?shù)同時(shí)進(jìn)行,兩種方法可使用相同分?jǐn)?shù)。[0090]在一些實(shí)施方案中,計(jì)算分?jǐn)?shù)包括使用適當(dāng)比對(duì)演算法進(jìn)行比對(duì),此方法在 本領(lǐng)域中多數(shù)為已知且容易取得,例如BLAST、MEGABLAST、Smith-Waterman比對(duì)及 Needlemen-Wunsch 比對(duì)(如 Altschul et al.,J Mol Biol 215,403-410 (1990))。適當(dāng)?shù)?比對(duì)演算法包括容許間隔(gap)及不容許間隔的演算法。或者,在一些實(shí)施方案中,計(jì)算分 數(shù)包括使用演算法分析序列,例如對(duì)序列運(yùn)行位置權(quán)重矩陣(position weight matrix)并 計(jì)算對(duì)應(yīng)該序列的矩陣元件的總和。這樣,可計(jì)算分?jǐn)?shù),如通過(guò)將該矩陣以逐步的方式用于 序列讀取來(lái)計(jì)算局部最大值的。
在一些實(shí)施方案中,該分?jǐn)?shù)與該至少兩個(gè)核酸插入序列對(duì)已知序列的接近程度 呈正相關(guān)(例如精確匹配(match)的最大可能分?jǐn)?shù))。該正相關(guān)分?jǐn)?shù)包括同一性百分比 (percent identity)、位分?jǐn)?shù)(bit scores)、及符合堿基計(jì)數(shù)(matching base count),但 不限于此。
在一些實(shí)施方案中,該分?jǐn)?shù)與該至少兩個(gè)核酸插入序列對(duì)已知序列的接近程度 呈負(fù)相關(guān)(例如精確匹配的最小可能分?jǐn)?shù))。該負(fù)相關(guān)分?jǐn)?shù)包括e值(e-value)、誤配數(shù) (number of mismatches)、誤配數(shù)及間隔(gap)、誤配百分比(percent mismatched)、及誤 配/間隔百分比(percent mismatched/gapped),但不限于此。
在一些實(shí)施方案中,以比率(rate)為基礎(chǔ)計(jì)算分?jǐn)?shù)。比率基礎(chǔ)上計(jì)算的分?jǐn)?shù)的可 能范圍不會(huì)作為待比較的序列長(zhǎng)度的函數(shù)而改變。比率基礎(chǔ)上計(jì)算的分?jǐn)?shù)例如同一性百分 比(percent identity)及誤配/ 間隔百分比(percent mismatched/gapped),但不限于此。
在一些實(shí)施方案中,以計(jì)數(shù)(count)為基礎(chǔ)計(jì)算分?jǐn)?shù)。計(jì)數(shù)基礎(chǔ)上計(jì)算的分?jǐn)?shù)的 可能范圍會(huì)作為待比較的序列長(zhǎng)度的函數(shù)而改變。計(jì)數(shù)基礎(chǔ)上計(jì)算的分?jǐn)?shù)例如位分?jǐn)?shù)(bit scores)、誤配數(shù)(number of mismatches)、誤配及間隔數(shù)(number of mismatches and gaps)及匹配堿基計(jì)數(shù)(matching base count),但不限于此。
接受或拒絕核酸樣本序列的重復(fù)序列;接受序列組
在一些實(shí)施方案中,本發(fā)明方法包括接受或拒絕該序列信息中核酸樣本序列的重 復(fù)序列,根據(jù)該核酸樣本序列的重復(fù)序列上游及下游緊鄰的插入物之一或兩個(gè)序列分?jǐn)?shù)來(lái) 決定。因此在不同的實(shí)施例中,緊鄰該核酸插入物的上游及下游兩者的分?jǐn)?shù)、其中之一的分 數(shù)、或特定的其中之一的分?jǐn)?shù),用于決定是否接受或拒絕該序列信息中的核酸樣本序列。
在一些實(shí)施方案中,當(dāng)分?jǐn)?shù)與該至少兩個(gè)核酸插入物序列對(duì)已知序列的接近程度 為正相關(guān)時(shí),若分?jǐn)?shù)大于、大于或等于閾值(threshold value),則接受序列。適當(dāng)閾值的選 擇與多重因素有關(guān),包括使用分?jǐn)?shù)的類(lèi)型、測(cè)序方法的錯(cuò)誤率、對(duì)時(shí)間及冗余(redundancy) 的考量。
接受及拒絕該核酸樣本序列的重復(fù)序列可由多種方式進(jìn)行,從而使得使用至少一 個(gè)接受的重復(fù)序列,不使用任何一個(gè)拒絕的重復(fù)序列,來(lái)確定該核酸樣本序列。接受及拒絕 重復(fù)序列可以與或可以不與匯編接受序列組以協(xié)調(diào)的方式進(jìn)行。例如當(dāng)接受的重復(fù)序列接 受進(jìn)入新的信息結(jié)構(gòu)時(shí),該接受的重復(fù)序列的序列可被復(fù)制,該信息結(jié)構(gòu)變成接受序列組。 或者,當(dāng)被拒絕時(shí),拒絕的重復(fù)序列可被刪除或蓋寫(xiě)(例如以”0”或”X”字母標(biāo)示無(wú)信息或 排除的信息),在此情形時(shí),一旦拒絕的序列被刪除或蓋寫(xiě),原始信息結(jié)構(gòu)就被修改,從而變 成接受序列組。在這些實(shí)例中,接受及拒絕重復(fù)序列與匯編接受序列組以協(xié)同的方式進(jìn)行。
在一些實(shí)施方案中,核酸樣本序列的重復(fù)序列可因額外的因素被拒絕,例如長(zhǎng)度
20偏離該核酸樣本序列中其它重復(fù)序列的長(zhǎng)度(如圖7B)。例如,如果該核酸樣本序列的 重復(fù)序列的長(zhǎng)度,偏離其它核酸樣本序列的平均值或中間值長(zhǎng)度的閾值范圍(threshold extent),或偏離接受序列組的預(yù)定版本的平均值或中間值長(zhǎng)度的閾值范圍(threshold extent),其中該接受序列組包括如前述根據(jù)緊鄰該核酸樣本序列重復(fù)序列的上游及下游 的插入物之一或兩個(gè)序列的分?jǐn)?shù)而接受的該核酸樣本序列的重復(fù)序列,則該核酸樣本序列 的重復(fù)序列被拒絕,計(jì)算中間值長(zhǎng)度或平均長(zhǎng)度可以考慮或可以不考慮暫時(shí)移除可能拒絕 的該核酸樣本序列的重復(fù)序列。閾值范圍(threshold extent)可以絕對(duì)長(zhǎng)度表示,例如1、 2、5、10、20或50個(gè)核苷酸,或以相對(duì)長(zhǎng)度表示,例如1%、2%、5%、10%、20%或50%,或者 以統(tǒng)計(jì)測(cè)量表示,例如標(biāo)準(zhǔn)差,如0. 5、1、1.5、2、2. 5、3、3. 5、4或5個(gè)標(biāo)準(zhǔn)差。
或者,序列可被標(biāo)記(flagged)為接受或拒絕,且在標(biāo)記過(guò)程完成之后,接受的序 列可被復(fù)制,形成新的信息結(jié)構(gòu),或者拒絕的序列可被刪除或蓋寫(xiě),產(chǎn)生不同的接受序列 組。
接受序列組可選自包括單一信息字符串(single data string)及多元件變異 (multi-element variable)的形式,該單一信息字串包括該核酸樣本序列的至少一個(gè)接受 的重復(fù)序列及任何額外的連鎖狀態(tài)的接受重復(fù)序列,該多元件變異的每一元件表示該核酸 樣本或其次部分(subpart)序列中接受的重復(fù)序列。在一些實(shí)施方案中,該多元件變異選 自一目錄(list)、陣列(array)、散列(hash)及矩陣(matrix)。任何容許儲(chǔ)存核酸樣本序 列至少一個(gè)接受的重復(fù)序列及隨后確定核酸樣本序列之信息結(jié)構(gòu)形式皆適合使用。
在一些實(shí)施方案中,當(dāng)接受序列組的形式不同于原始序列信息的形式(例如原始 序列資料為字符串(string)形式,接受序列組為多元件信息結(jié)構(gòu)形式,例如陣列),在獲得 該原始序列信息之后及產(chǎn)生最終接受序列組之前,原始序列信息可剖析為包含重復(fù)序列、 插入樣本單元、或位于緊鄰上游插入物及下游插入物的樣本重復(fù)序列的組成元件,此剖析 (parsing)步驟可發(fā)生在上述計(jì)算分?jǐn)?shù)的步驟之前或之后。
確定該核酸樣本序列;共有序列(consensus sequences);置信水平(confidence levels)
在一些實(shí)施方案中,本發(fā)明包括確定核酸樣本的序列。
確定核酸樣本序列的模式可根據(jù)在接受序列組中核酸樣本重復(fù)序列的數(shù)目有條 件地選擇。例如,當(dāng)接受序列組僅包含一個(gè)接受的重復(fù)序列,核酸樣本序列可確認(rèn)為該接受 的重復(fù)序列的序列。當(dāng)接受序列組包含兩個(gè)或至少三個(gè)接受的重復(fù)序列時(shí),核酸樣本序列 可確認(rèn)為該接受的重復(fù)序列之共有序列(如下所述)。當(dāng)接受序列組包含至少三個(gè)接受重 復(fù)序列時(shí),對(duì)于共有序列如何確認(rèn)有更多選擇。
共有序列(consensus sequence)
共有序列由接受的重復(fù)序列比對(duì)而確定(如上述”計(jì)算分?jǐn)?shù)”段落所述),比對(duì)中 在接受的重復(fù)序列具有相同堿基的位置上,共有序列也包含該堿基。在一些實(shí)施方案中, 在比對(duì)中接受的重復(fù)序列不包含相同堿基的位置上,共有序列則包含適當(dāng)?shù)亩嗔x密碼子 (ambiguity code)(例如當(dāng)接受的重復(fù)序列為A及G的位置上,以R表示)。在一些實(shí)施 方案中,在比對(duì)中接受的重復(fù)序列不包含相同堿基的位置上,共同性序列則包含N或其它 表示未知堿基的符號(hào)。在一些實(shí)施方案中,在比對(duì)中接受的重復(fù)序列不包含相同堿基的位 置上,共有序列則包含在獲取序列時(shí)產(chǎn)生更強(qiáng)或更有力的訊號(hào)接受的重復(fù)序列的堿基(例
21如,如果原始信息為熒光形式,根據(jù)發(fā)出的較亮熒光(在一些實(shí)施方案中,是在適當(dāng)?shù)恼?化和/或標(biāo)準(zhǔn)化之后)的堿基位于共有序列中)。
當(dāng)共有序列從包含至少三個(gè)接受的重復(fù)序列的接受序列組中確認(rèn)時(shí),在一些實(shí)施 方案中,共有序列的每一個(gè)位置的堿基可經(jīng)由多數(shù)決(majority vote)而確定;即,將存在 于接受的重復(fù)序列一半以上的位置的堿基,置于共有序列對(duì)應(yīng)的位置。當(dāng)接受的重復(fù)序列 在該位置上不一致從而對(duì)該位置無(wú)法得到多數(shù)決時(shí),共有序列中該位置的堿基則以其它方 式確定,例如可使用復(fù)數(shù)決(plurality vote)(即,將最常出現(xiàn)于接受的重復(fù)序列中一位置 上的堿基,置于共有序列中對(duì)應(yīng)的位置),或可使用前述方法。
在一些實(shí)施方案中,當(dāng)從包含至少三個(gè)接受重復(fù)序列的接受序列組確認(rèn)共有序列 時(shí),該共有序列的每一個(gè)位置的堿基,在一些實(shí)施方案中,可根據(jù)該接受重復(fù)序列的位置上 每一個(gè)堿基的頻率而被確定。因此,該共有序列可以核酸樣本每一個(gè)位置的每一個(gè)堿基可 能性的概率表示。此表示可以位置權(quán)重矩陣(position weight matrix)形式表示。在一 些實(shí)施方案中,位置權(quán)重矩陣的組成元件為在接受重復(fù)序列比對(duì)中每一個(gè)位置所觀察到的 每一個(gè)堿基的頻率。
在一些實(shí)施方案中,位置權(quán)重矩陣的組成元件由接受重復(fù)序列比對(duì)中每一個(gè)位置 所觀察到的每一個(gè)堿基的頻率來(lái)計(jì)算,其它因素也可以用于此計(jì)算,例如當(dāng)獲得序列中以 較其它重復(fù)序列具有較強(qiáng)或較穩(wěn)固的信號(hào)所獲得的一些接受的重復(fù)序列時(shí),接受的重復(fù)序 列可給予較多權(quán)重(weight),和/或其它重復(fù)序列給予較少權(quán)重。調(diào)整權(quán)重的程度可基于 例如信號(hào)強(qiáng)度而定量確定,或者為固定的調(diào)整,例如以相對(duì)強(qiáng)信號(hào)獲得的堿基,其權(quán)重可增 加如50 %或100 %,和/或以相對(duì)弱訊號(hào)獲得的堿基,其權(quán)重可減少如33 %或50 %。
在一些實(shí)施方案中,位置權(quán)重矩陣的組成元件為衍生自每一位置的每一堿基(可 能如上述權(quán)重)轉(zhuǎn)換頻率(transformed frequencies)的值。頻率可通過(guò),例如對(duì)數(shù)化 (logarithmically)或指數(shù)化(exponentiation)轉(zhuǎn)換,在一些實(shí)施方案中,轉(zhuǎn)換具有降低 堿基權(quán)重(down weighting bases)禾口 /或提高堿基權(quán)重(up weighting bases)的作用, 其中被降低權(quán)重堿基鮮少在位置上觀察到,和/或被提高權(quán)重的堿基則通常在位置上觀察 到。例如,如果T在N個(gè)接受重復(fù)序列的比對(duì)中一位置上出現(xiàn)M次,其中N > 2且M < Ν/2, C出現(xiàn)其余次數(shù)(即N減M的次數(shù)),則在一些實(shí)施方案中,這些頻率的轉(zhuǎn)換可導(dǎo)致在位置 權(quán)重矩陣中T權(quán)重少于Ν/Μ(或?qū)?yīng)的百分比),和/或C權(quán)重大于(N-M) /N(或?qū)?yīng)的百分 比)。在一些實(shí)施方案中,選擇轉(zhuǎn)換方式從而使得僅僅最常觀察到的堿基(或在頻率相同情 況下的多個(gè)堿基)權(quán)重提高。
置信水平(confidencelevels)
在一些實(shí)施方案中,對(duì)于核酸樣本序列中至少一個(gè)位置確定置信水平。置信水平 可以數(shù)種方式表現(xiàn),例如整體堿基判斷精確值(overall base call accuracy value),以百 分比或phred分?jǐn)?shù)(phred score),或錯(cuò)誤率表示。在一些實(shí)施方案中,置信水平由位置上 最常見(jiàn)的堿基頻率來(lái)確認(rèn),或由非最常見(jiàn)堿基的組合頻率而確認(rèn)。在一些實(shí)施方案中,這些 頻率如上述被轉(zhuǎn)換、提高權(quán)重和/或降低權(quán)重。
確定整體序列的置信水平;實(shí)時(shí)(real time)確定核酸樣本的序列及置信水平和 /或確定核酸樣本的序列及置信水平至一希望的置信水平
在一些實(shí)施方案中,本發(fā)明方法包括確定整體序列的置信水平。整體序列的置
22信水平可以數(shù)種方式表現(xiàn),例如為整體堿基判斷精確值(overall base call accuracy
value),以百分比或phred分?jǐn)?shù)(phred score)表示;或錯(cuò)誤率;或?yàn)樾蛄兄绣e(cuò)誤的預(yù)期數(shù)目。
個(gè)別位置的置信水平,如上段所述,可用于計(jì)算整體序列的置信水平。例如所有的 置信水平可確定為核酸樣本序列每一位置的置信水平的統(tǒng)計(jì)族群的算數(shù)平均值、幾何平均 值、中間值、或模式置信水平(modal confidential level)。在一些實(shí)施方案中,核酸樣本 序列每一位置的置信水平的統(tǒng)計(jì)族群在計(jì)算整體序列的置信水平前經(jīng)過(guò)處理,例如排除離 群值(outlier)。
在一些實(shí)施方案中,本發(fā)明方法包含實(shí)時(shí)確定核酸樣本序列及置信水平。這些實(shí) 施例中,在測(cè)序步驟中獲得的信息進(jìn)行確定序列及置信水平并同時(shí)獲取額外的序列信息, 例如來(lái)自滾環(huán)擴(kuò)增產(chǎn)物的額外重復(fù)序列。當(dāng)獲得該額外的序列信息時(shí),被確定的序列及置 信水平皆被更新。在一些實(shí)施方案中,實(shí)時(shí)過(guò)程持續(xù)到達(dá)到預(yù)先選擇的置信水平為止。預(yù) 先選擇的置信水平可為,例如90%,95%,99%,99. 5%,99. 9%,99. 95%或99. 99%的堿基 判斷精確度。預(yù)先選擇的置信水平可針對(duì)整體序列或序列中部分位置的序列,可選自例如 50%,67%,75%,80%,85%,90%,95%,98%,99%,99. 5%及 99. 9%的值。
多樣本;組合(assembling)重疊群(contig)
在一些實(shí)施方案中,本發(fā)明方法包括使用至少一個(gè)相同來(lái)源、物種、或品系 (strain)作為具有如下序列的核酸樣本的其它樣本,其中該序列與該核酸樣本序列部分 重疊,重復(fù)該方法的步驟,從而確定至少一個(gè)其它序列,并組合原始樣本序列與該至少一個(gè) 其它序列,形成一個(gè)重疊群。在一些實(shí)施方案中,本發(fā)明方法包括使用許多樣本重復(fù)該方 法的步驟,從而產(chǎn)生長(zhǎng)度超過(guò)0. 5、1、2、5、10或IOOkb的重疊群,或超過(guò)1、2、5、10、100或 1,000Mb的重疊群。在一些實(shí)施方案中,該重疊群代表核酸分子的完整序列,或除了核酸分 子中異染色質(zhì)(heterochromatic)或抵抗(refractory)區(qū)域之外的完整序列,可為例如染 色體、微染色體(mini chromosome)、人工染色體、病毒基因組(viral genome)、或染色體外 元件,但不限于此。重疊群的組合可使用該技術(shù)領(lǐng)域
已知方法進(jìn)行。
修飾的堿基
在一些實(shí)施方案中,核酸樣本包括至少一個(gè)修飾堿基,例如5-甲基胞嘧啶 (5-methylcytosine)、5_ 溴尿啼唆(5-bromouracil)、尿啼唆(uracil) >5,6- 二氧尿啼唆 (5,6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7_ 甲基鳥(niǎo)嘌呤(7-methylguanine)、 次黃嘌呤(hypoxanthine)、或黃嘌呤(xanthine)。尿嘧啶在DNA鏈中可為修飾堿基,核糖胸 腺嘧啶在RNA鏈中可為修飾堿基。在一些實(shí)施方案中,雙鏈核酸樣本中至少一個(gè)修飾堿基 以不同于其優(yōu)選配對(duì)堿基的堿基配對(duì)特異性(base pairing specificity)進(jìn)行配對(duì)。這 出現(xiàn)于,例如當(dāng)雙鏈分子的一個(gè)堿基進(jìn)行將該堿基由標(biāo)準(zhǔn)堿基轉(zhuǎn)換成修飾堿基的反應(yīng)(例 如因?yàn)榕及l(fā)的氧化作用,或暴露于誘變劑(mutagenizing agent)下,例如放射線或化學(xué)誘 變?cè)?mutagen)),且該修飾堿基具有不同的優(yōu)選配對(duì)堿基時(shí)。
優(yōu)選的配對(duì)堿基基于華生-克立克(Watson-Crick)堿基配對(duì)規(guī)則。例如腺嘌呤 (adenine)的優(yōu)選配對(duì)堿基為胸腺嘧啶(thymine)(或尿嘧啶(uracil)),反之亦然;胞嘧 啶(cytosine)的優(yōu)選配對(duì)堿基為鳥(niǎo)嘌呤(guanine),反之亦然。修飾堿基的優(yōu)選配對(duì)堿基 在該技術(shù)領(lǐng)域
中一般是周知的,或可基于位于類(lèi)似前述標(biāo)準(zhǔn)堿基的氫鍵供體與受體的存在
23而預(yù)測(cè)。例如次黃嘌呤(hypoxanthine)在嘌呤環(huán)的6位上具有一氫鍵受體(雙鍵氧),類(lèi) 似鳥(niǎo)嘌呤,因此其優(yōu)選的配對(duì)堿基為胞嘧啶,胞嘧啶在嘧啶環(huán)的6位上具有一氫鍵受體(胺 基)。特別是次黃嘌呤可由腺嘌呤脫氨作用(deamination)而形成。由于DNA中的腺嘌呤 正常應(yīng)與胸腺嘧啶配對(duì),該脫氨反應(yīng)可導(dǎo)致次黃嘌呤-胸腺嘧啶配對(duì),其中該修飾堿基次 黃嘌呤不與其優(yōu)選配對(duì)堿基配對(duì)。胞嘧啶也可經(jīng)脫胺而形成尿嘧啶。就DNA而言,尿嘧啶 視為修飾堿基,且如果其與鳥(niǎo)嘌呤配對(duì)(可由正常雙鏈DNA中的胞嘧啶脫氨作用而造成), 則也是修飾堿基尿嘧啶未與其優(yōu)選配對(duì)堿基配對(duì)的情形。
修飾堿基的檢測(cè);改變特定類(lèi)型堿基的堿基配對(duì)特異性
在一些實(shí)施方案中,本發(fā)明的方法包括改變特定類(lèi)型堿基的堿基配對(duì)特異性 (base pairing specificity)。改變特定類(lèi)型堿基的堿基配對(duì)特異性包括特異地改變未修 飾版本堿基(例如胞嘧啶)的堿基配對(duì)特異性。此情形中,不改變至少一種修飾類(lèi)型堿基 (例如5-甲基胞嘧啶)的堿基配對(duì)特異性。
或者,改變特定類(lèi)型堿基的堿基配對(duì)特異性可包括特異地改變修飾類(lèi)型的堿基 (例如5-甲基胞嘧啶)堿基配對(duì)特異性,但不改變未修飾類(lèi)型堿基(例如胞嘧啶)。
在一些實(shí)施方案中,改變特定類(lèi)型堿基的堿基配對(duì)特異性包括光化學(xué)轉(zhuǎn)化 (photochemical transition),將5-甲基胞嘧啶(非未修飾的胞嘧啶)轉(zhuǎn)換成胸腺嘧啶 (如 Matsumura et al. ,Nucleic Acids Symp Ser No. 51,233—234 U007))。該反應(yīng)將進(jìn)行 光化學(xué)轉(zhuǎn)化的堿基的堿基配對(duì)特異性由鳥(niǎo)嘌呤改變成腺嘌呤(鳥(niǎo)嘌呤與5-甲基胞嘧啶配 對(duì),腺嘌呤與胸腺嘧啶配對(duì))。
在其它實(shí)施方案中,改變特定類(lèi)型堿基的堿基配對(duì)特異性包括重亞硫酸轉(zhuǎn)換 (bisulfite conversion),將胞嘧啶(但非5-甲基胞嘧啶)轉(zhuǎn)換成尿嘧啶(如Laird et al. , Proc Natl Acad Sci USA 101,204-209(2004) ^Zilberman et al. , Development 134,3959-3965 (2007))。此反應(yīng)將進(jìn)行重亞硫酸轉(zhuǎn)換的堿基的堿基配對(duì)特異性由鳥(niǎo)嘌呤改 變成腺嘌呤(鳥(niǎo)嘌呤與胞嘧啶配對(duì),腺嘌呤與尿嘧啶配對(duì))。
在另外的其它實(shí)施方案中,修飾堿基的檢測(cè)可不需改變步驟,例如當(dāng)該修飾堿 基具有相對(duì)于該堿基未修飾類(lèi)型的改變的堿基配對(duì)特異性的情況下。該堿基的實(shí)例可 包括5-溴尿嘧啶、尿嘧啶、5,6- 二氫尿嘧啶、核糖胸腺嘧啶(ribothymine)、7-甲基鳥(niǎo) 曙吟(7-methylguanine)、次黃 口票吟(hypoxanthine)、或黃口票吟(xanthine)。如 Brown, Genomes,2nd Ed. , John Wiley & Sons, Inc. , New YORK, NY,2002, chapter 14,"Mutation, Repair, and Recombination”討論5-溴尿嘧啶傾向發(fā)生酮-烯醇互變現(xiàn)象(keto-enol tautomerization),導(dǎo)致其與鳥(niǎo)嘌呤的配對(duì)相對(duì)于與腺嘌呤的配對(duì)增加,以及因腺嘌呤脫 氨作用形成次黃嘌呤(次黃嘌呤優(yōu)先與胞嘧啶配對(duì),勝于胸腺嘧啶)。
區(qū)別堿基及其修飾型的核苷酸類(lèi)似物(nucleotide analog)
在一些實(shí)施方案中,使用至少一個(gè)區(qū)別堿基及其修飾型的核苷酸類(lèi)似物(“區(qū)別 類(lèi)似物”,優(yōu)先與一堿基配對(duì),但不與其它堿基及其修飾型配對(duì))獲得序列信息。核苷酸類(lèi) 似物可如其為4個(gè)標(biāo)準(zhǔn)堿基以外的第5個(gè)堿基而被使用及被檢測(cè),例如通過(guò)在可逆終止密 碼子測(cè)序或連接測(cè)序中使用差別(differential)的標(biāo)記,或者將其用于焦磷酸測(cè)序中,其 中核苷酸可一次加入一個(gè)然后清洗去除。在一些實(shí)施方案中,該區(qū)別的類(lèi)似物在其對(duì)應(yīng)的 天然核苷酸加入之前加入(如在焦磷酸測(cè)序中)或以其同系(congate)天然核苷酸濃度之
2410-100倍以上的濃度范圍(如在可逆終止密碼子測(cè)序中)提供。例如區(qū)別的類(lèi)似物可為脫 氧鳥(niǎo)嘌呤三磷酸(deoxyguanosine triphosphate)類(lèi)似物,其區(qū)分胞嘧啶及5_甲基胞嘧啶 (例如其與胞嘧啶配對(duì),但不與5-甲基胞嘧啶配對(duì))。該類(lèi)似物可以高于脫氧鳥(niǎo)嘌呤三磷 酸濃度10-100倍范圍的濃度提供。在此情形下,該類(lèi)似物通常應(yīng)會(huì)在其有其優(yōu)先配對(duì)的堿 基的相對(duì)位置并入,但是天然堿基通常并入該類(lèi)似物非優(yōu)選配對(duì)的堿基的相對(duì)位置。
區(qū)別類(lèi)似物的實(shí)例可見(jiàn)于美國(guó)專(zhuān)利USP 7,399,614,包括例如以下的分子,其可區(qū)
別未修飾的胞嘧啶及5-甲基胞嘧啶,即優(yōu)選與前者分子配對(duì)
權(quán)利要求
1.一種確定核酸樣本序列的方法,包括a.提供環(huán)狀核酸分子,所述環(huán)狀核酸分子包括至少一個(gè)插入樣本單元,所述插入樣本 單元包括核酸插入物及所述核酸樣本,其中所述插入物具有已知序列;b.獲取序列信息,所述序列信息包括至少兩個(gè)插入樣本單元的序列,其中產(chǎn)生包含至 少兩個(gè)插入樣本單元的核酸分子;c.通過(guò)比較所述插入物的序列與所述插入物中的已知序列,計(jì)算步驟(b)序列信息的 至少兩個(gè)插入物序列的分?jǐn)?shù)(score);d.根據(jù)位于緊鄰所述核酸樣本序列的重復(fù)序列的上游及下游的所述插入物的一個(gè)或 二個(gè)序列的分?jǐn)?shù),接受或拒絕步驟(b)所得的序列信息的核酸樣本序列的至少兩個(gè)重復(fù)序 列;e.匯編接受序列組,所述接受序列組包含步驟(d)中接受的核酸樣本序列的至少一個(gè) 重復(fù)序列;及f.使用所述接受序列組,確定所述核酸樣本序列。
2.如權(quán)利要求
1所述的方法,其中,獲取序列信息包括單一分子測(cè)序(single molecule sequencing)0
3.如權(quán)利要求
2所述的方法,其中所述單一分子測(cè)序包括以選自通過(guò)合成作用的單一 分子測(cè)序及連接測(cè)序(ligation sequencing)的方法測(cè)序。
4.如權(quán)利要求
3所述的方法,其中所述單一分子測(cè)序包括通過(guò)合成的實(shí)時(shí) (real-time)單一分子測(cè)序。
5.如權(quán)利要求
3所述的方法,其中所述單一分子測(cè)序包括通過(guò)選自下組合成作用 的單一分子測(cè)序焦磷酸測(cè)序(pyrose(luencing)、可逆終止密碼子測(cè)序(reversible terminator sequencing)及第三代須Ij序(third-generation sequencing)。
6.如權(quán)利要求
3所述的方法,其中所述單一分子測(cè)序包括納米孔測(cè)序(nanopore sequencing)。
7.如權(quán)利要求
1所述的方法,其中提供環(huán)狀核酸分子,包括使所述核酸樣本連接 (Iigate)至所述核酸插入物,形成所述環(huán)狀核酸分子。
8.如權(quán)利要求
1的所述的方法,其中所述環(huán)狀核酸分子是雙鏈的。
9.如權(quán)利要求
1所述的方法,其中所述核酸樣本自RNA樣本獲得。
10.如權(quán)利要求
1所述的方法,其中所述核酸樣本自基因組DNA樣本獲得。
11.如權(quán)利要求
1所述的方法,其中所述環(huán)狀核酸分子包括至少兩個(gè)插入樣本單元。
12.如權(quán)利要求
1所述的方法,其中所述核酸插入物包括啟動(dòng)子,且合成所述產(chǎn)物核 酸分子包括使所述啟動(dòng)子與識(shí)別所述啟動(dòng)子的RNA聚合酶接觸,之后合成包括核糖核苷酸 (ribonucleotide)殘基的產(chǎn)物核酸分子。
13.如權(quán)利要求
1所述的方法,其中所述核酸插入物具有30°C至90°C范圍的解鏈溫度。
14.如權(quán)利要求
1所述的方法,其中所述核酸插入物具有14-200個(gè)核苷酸殘基范圍的 長(zhǎng)度。
15.如權(quán)利要求
1所述的方法,其中所述接受序列組為選自多元件變異及單一信息字 符串(string)的形式,包括步驟(b)的序列信息經(jīng)過(guò)處理,對(duì)步驟(e)中拒絕的核酸樣本 序列的重復(fù)序列進(jìn)行缺少、蓋寫(xiě)或省略。
16.如權(quán)利要求
1所述的方法,其中所述接受序列組是多元件變異形式,選自列表 (list)、陣列(array)、散列(hash)及矩陣(matrix)的類(lèi)型。
17.如權(quán)利要求
1所述的方法,其中所述核酸樣本序列的至少兩個(gè)重復(fù)序列在步驟(d) 被接受,且所述核酸樣本序列的確定包括基于在步驟(d)被接受的核酸樣本序列的至少兩 個(gè)重復(fù)序列進(jìn)行的共有序列(consensus sequence)的確定。
18.如權(quán)利要求
17所述的方法,其中所述共有序列包括以概率表示的堿基,所述堿基 位于至少一個(gè)步驟(d)中接受的核酸樣本序列的至少兩個(gè)重復(fù)序列彼此不同的位置上。
19.如權(quán)利要求
17所述的方法,其中所述核酸樣本序列的至少三個(gè)重復(fù)序列在步驟 (d)中被接受,且共有序列的確定包括在步驟(d)中被接受的所述核酸樣本序列的至少三 個(gè)重復(fù)序列的多數(shù)決(majority vote)的確定。
20.如權(quán)利要求
17所述的方法,其中所述共有序列是位置權(quán)重矩陣(positionweight matrix)0
21.如權(quán)利要求
17所述的方法,其中所述共有序列為平鋪式序列(flatsequence) 0
22.如權(quán)利要求
21所述的方法,其中所述平鋪式序列(flatsequence)包括至少一個(gè) 多義密碼子(ambiguity code)。
23.如權(quán)利要求
17所述的方法,其中所述共有序列包括置信水平(confidence level)ο
24.如權(quán)利要求
23所述的方法,其中所述置信水平以選自堿基頻率、信息含量、及 Phred質(zhì)量分?jǐn)?shù)(phred quality score)的形式表示。
25.如權(quán)利要求
23所述的方法,其中權(quán)利要求
1所述之步驟(b)-(f)是實(shí)時(shí)(real time)進(jìn)行的,所述共有序列及置信水平是實(shí)時(shí)(real time)更新的。
26.如權(quán)利要求
25所述的方法,其中所述方法進(jìn)行直到在預(yù)先選擇百分比的共有序列 位置達(dá)成規(guī)定的最小置信水平(a set minimum level of confidence)為止。
27.如權(quán)利要求
沈所述的方法,進(jìn)一步包括當(dāng)預(yù)先選擇百分比的位置達(dá)到所述規(guī)定的 最小置信水平時(shí)產(chǎn)生警告。
28.如權(quán)利要求
沈所述的方法,其中所述所述規(guī)定的最小置信水平為選自90%、95%、 99%、99· 5%、99· 9%、99· 95% 或 99. 99% 的堿基判斷精確度(base call accuracy)。
29.如權(quán)利要求
1所述的方法,進(jìn)一步包括以至少一個(gè)其它的核酸樣本重復(fù)權(quán)利要求
1 的步驟,所述其它的核酸樣本與權(quán)利要求
1的核酸樣本有相同來(lái)源、物種或品系,且具有與 權(quán)利要求
1的核酸樣本序列部分重疊的序列,從而確定至少一個(gè)其它序列,和組合所述至 少一個(gè)其它序列與步驟(f)的序列,形成重疊群。
30.如權(quán)利要求
1所述的方法,其中步驟(c)的分?jǐn)?shù)用于評(píng)估步驟(b)作為整體的序列 信息置信水平。
31.如權(quán)利要求
1所述的方法,其中分?jǐn)?shù)的計(jì)算包括確定所述序列信息的至少兩個(gè)插 入物與所述插入物的已知序列之間的錯(cuò)配(mismatch)數(shù)量。
32.如權(quán)利要求
1所述的方法,其中分?jǐn)?shù)的計(jì)算包括確定所述序列信息的至少兩個(gè)插 入物與所述插入物的已知序列之間的同一性百分比(percent identity) 0
33.如權(quán)利要求
1所述的方法,其中分?jǐn)?shù)的計(jì)算包括進(jìn)行所述序列信息的至少兩個(gè)插 入物與所述插入物的已知序列之間的比對(duì)。
34.如權(quán)利要求
33所述的方法,其中進(jìn)行比對(duì)包括使用選自BLAST、MEGABLAST、 Smith-Waterman 比對(duì)及 Needleman-Wunsch 比對(duì)的演算法。
35.如權(quán)利要求
1所述的方法,其中所述分?jǐn)?shù)是以計(jì)數(shù)(count)和比率(rate)為基礎(chǔ)產(chǎn)生。
36.如權(quán)利要求
1所述的方法,其中接受或拒絕步驟(b)序列信息的核酸樣本序列的至 少兩個(gè)重復(fù)序列包括,接受是具有分?jǐn)?shù)大于或等于預(yù)定閾值(threshold)的緊鄰于樣本插 入物序列上游或下游的所述核酸樣本序列的至少兩個(gè)重復(fù)序列,及拒絕不是的。
37.一種系統(tǒng),包含可操作連接于計(jì)算裝置的測(cè)序裝置,所述計(jì)算裝置包括處理器、儲(chǔ) 存裝置、匯流排系統(tǒng)(bus system)、及至少一個(gè)使用者界面元件,所述儲(chǔ)存裝置由包括操作 系統(tǒng)、使用者界面軟件、及使用說(shuō)明(instruction)的程序編碼,當(dāng)所述程序由所述處理器 執(zhí)行時(shí),可選地由使用者輸入,進(jìn)行下述方法,包括a.從環(huán)狀核酸分子獲取序列信息,所述環(huán)狀分子包含至少一個(gè)插入樣本單元,所述插 入樣本單元包括核酸插入物及核酸樣本,其中(i)所述插入物具有已知序列,( )所述序列信息包括至少兩個(gè)插入樣本單元的序列,及(iii)產(chǎn)生包含至少兩個(gè)插入樣本單元的核酸分子;b.通過(guò)比較所述序列與所述插入物的已知序列,計(jì)算步驟(a)的序列信息的至少兩個(gè) 插入物的序列的分?jǐn)?shù);c.根據(jù)緊鄰于所述核酸樣本序列的重復(fù)序列上游及下游的插入物之一或二個(gè)序列的 分?jǐn)?shù),接受或拒絕步驟(a)序列信息的核酸樣本序列的至少兩個(gè)重復(fù);d.匯編接受序列組,所述接受序列組包含步驟(c)接受的核酸樣本序列至少一個(gè)重復(fù) 序列;及e.使用所述接受序列組確定所述核酸樣本序列,其中,所述系統(tǒng)的輸出用于產(chǎn)生至少一個(gè)(i)核酸樣本的序列;或(ii)在核酸樣本中 至少一個(gè)位置上有修飾堿基的說(shuō)明。
38.一種儲(chǔ)存裝置,由包括操作系統(tǒng)、使用者界面軟件及指示說(shuō)明的程序編碼,其中所 述程序由下述的操作系統(tǒng)的處理器運(yùn)行時(shí),即所述系統(tǒng)包括可操作連接于計(jì)算裝置的測(cè)序 裝置,其中所述計(jì)算裝置包括處理器、儲(chǔ)存裝置、匯排流系統(tǒng)及至少一個(gè)使用者界面元件, 可選地由使用者輸入,執(zhí)行下述方法,包括a.由環(huán)狀核酸分子獲取序列信息,所述環(huán)狀分子包含至少一個(gè)插入樣本單元,所述插 入樣本單元包括核酸插入物及核酸樣本,其中(i)所述插入物具有已知序列,( )所述序列信息包括至少兩個(gè)插入樣本單元的序列,及(iii)產(chǎn)生包含至少兩個(gè)插入樣本單元的核酸分子;b.通過(guò)比較所述序列與所述插入物的已知序列,計(jì)算步驟(a)的序列信息至少兩個(gè)插 入物序列的分?jǐn)?shù);c.根據(jù)緊鄰于所述核酸樣本序列的重復(fù)序列上游及下游的插入物之一或二個(gè)序列的 分?jǐn)?shù),接受或拒絕步驟(a)之序列信息的核酸樣本序列的至少兩個(gè)重復(fù);d.匯編接受序列組,所述接受序列組包含步驟(c)接受的核酸樣本序列的至少一個(gè)重復(fù)序列;及e.使用所述接受序列組確定所述核酸樣本序列,其中,上述方法得到的輸出用于產(chǎn)生至少一個(gè)(i)核酸樣本的序列;或(ii)在核酸樣 本中至少一個(gè)位置上有修飾堿基的說(shuō)明。
39.一種確定雙鏈核酸樣本的序列及所述序列中至少一個(gè)修飾堿基位置的方法,包括a.將雙鏈核酸樣本的正向鏈及反向鏈鎖在一起,形成一環(huán)狀配對(duì)互鎖分子(circular pair-locked molecule);b.通過(guò)單一分子測(cè)序獲得所述環(huán)狀配對(duì)互鎖分子的序列信息,其中所述序列信息包括 所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列;C.通過(guò)比較所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本 的序列;d.改變所述環(huán)狀配對(duì)互鎖分子中特定類(lèi)型之堿基的堿基配對(duì)特異性(base-pairing specificity),產(chǎn)生改變的環(huán)狀配對(duì)互鎖分子;e.獲取所述改變的環(huán)狀配對(duì)互鎖分子的序列信息,其中所述序列信息包括所述改變的 正向鏈及反向鏈的序列;及f.通過(guò)比較所述改變的正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本序列中修飾堿 基的位置。
40.如權(quán)利要求
39所述的方法,其中所述雙鏈核酸樣本是自細(xì)胞來(lái)源、病毒來(lái)源、或環(huán) 境來(lái)源獲得的初級(jí)分離物。
41.如權(quán)利要求
40所述的方法,其中所述初級(jí)分離物在權(quán)利要求
39之步驟(a)之前維 持在25°C或25°C以下及實(shí)質(zhì)上沒(méi)有二價(jià)陽(yáng)離子及核酸修飾酶存在的條件下。
42.如權(quán)利要求
39所述的方法,其中所述雙鏈核酸樣本獲得自體外(invitro)反應(yīng)或 細(xì)胞外核酸。
43.如權(quán)利要求
39所述的方法,其中對(duì)環(huán)狀配對(duì)互鎖分子中特定形式堿基的堿基配對(duì) 特異性的改變包括重亞硫酸(bisulfite)處理。
44.如權(quán)利要求
39所述的方法,其中對(duì)環(huán)狀配對(duì)互鎖分子中特定形式堿基的堿基配對(duì) 特異性的改變包括光化學(xué)轉(zhuǎn)化(photochemical transition)。
45.如權(quán)利要求
39所述的方法,其中將所述正向鏈及反向鏈鎖在一起包括使兩個(gè)核酸 插入物分別連接(join)至所述雙鏈核酸樣本的兩端(one to each end),所述兩個(gè)核酸插 入物為相同或不同。
46.如權(quán)利要求
45所述的方法,其中所述核酸插入物具有14-200個(gè)核苷酸殘基范圍的長(zhǎng)度。
47.如權(quán)利要求
45所述的方法,其中所述核酸插入物具有已知序列。
48.如權(quán)利要求
45所述的方法,其中所述核酸插入物形成具有突出(overhang)的發(fā)卡 結(jié)構(gòu)(hairpin),所述核酸樣本具有可與所述核酸插入物的突出相容的突出。
49.如權(quán)利要求
45所述的方法,其中序列信息的獲取包括使引物退火(anneal)至模 板,并延伸所述引物,其中所述引物與至少一個(gè)所述核酸插入物的至少一部分互補(bǔ)。
50.如權(quán)利要求
45所述的方法,其中至少一個(gè)所述核酸插入物包括啟動(dòng)子,序列信息的獲取包括使所述啟動(dòng)子與識(shí)別所述啟動(dòng)子的RNA聚合酶接觸,之后合成包含核糖核苷酸 殘基的產(chǎn)物核酸分子。
51.如權(quán)利要求
45所述的方法,其中連接(join)是通過(guò)連接反應(yīng)(ligation)達(dá)成。
52.如權(quán)利要求
39所述的方法,其中所述雙鏈核酸樣本包括復(fù)數(shù)個(gè)樣本聯(lián)結(jié)(link)在一起。
53.如權(quán)利要求
52所述的方法,其中所述復(fù)數(shù)個(gè)樣本通過(guò)中間核酸插入物 (intervening nucleic acid inserts)連接。
54.如權(quán)利要求
53所述的方法,其中將所述正向鏈及反向鏈鎖在一起,包括連接 (Iigate)復(fù)合體,所述復(fù)合體由所述核酸插入物的突出與所述核酸樣本的可相容的突出接 觸所形成。
55.如權(quán)利要求
39所述的方法,其中所述雙鏈核酸樣本是基因組(genomic)DNA片段。
56.如權(quán)利要求
39所述的方法,其中所述雙鏈核酸樣本包括至少一個(gè)RNA鏈。
57.如權(quán)利要求
39所述的方法,其中所述單一分子測(cè)序包括選自通過(guò)合成作用的單一 分子測(cè)序及連接測(cè)序(ligation sequencing)的方法。
58.如權(quán)利要求
39所述的方法,其中所述單分子測(cè)序包括通過(guò)合成作用的實(shí)時(shí)單一分 子測(cè)序。
59.如權(quán)利要求
39所述的方法,其中所述單一分子測(cè)序包括選自下組方法的通過(guò)合成 作用的單一分子測(cè)序焦磷酸測(cè)序(pyrosequencing)、可逆終止密碼子測(cè)序(reversible terminator sequencing)、及第三代須Ij序(third-generation sequencing)。
60.如權(quán)利要求
39所述的方法,其中所述單一分子測(cè)序包括納米孔測(cè)序(nanopore sequencing)。
61.如權(quán)利要求
39所述的方法,其中所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈經(jīng)由核酸插入物而鎖在一起;步驟(b)獲得的序列信息包括所述環(huán)狀配對(duì)互鎖分子序列的至少兩個(gè)拷貝,每一個(gè)拷 貝包括第一及第二插入樣本單元的序列;所述第一及第二插入樣本單元的序列包括插入序列,所述插入序列可相同或不同,和 方向相反(oppositely oriented)的核酸樣本序列的重復(fù)序列;及該方法進(jìn)一步包括g.比較所述序列信息中的至少四個(gè)插入物的序列與所述插入物的已知序列,計(jì)算所述 至少四個(gè)插入物序列的分?jǐn)?shù);h.根據(jù)緊鄰所述樣本序列上游及下游的插入物的1個(gè)或2個(gè)序列的分?jǐn)?shù),接受 或拒絕所述序列信息中所含的核酸樣本序列的至少四個(gè)重復(fù)序列,條件是每個(gè)方向 (orientation)至少一個(gè)樣本序列被接受;i.匯編接受序列組,所述接受序列組包括步驟(g)接受的每個(gè)方向至少一個(gè)樣本序 列;及j.使用所述接受序列組,確定所述核酸樣本的序列。
62.一種確定雙鏈核酸樣本序列的方法,包括a.將核酸樣本的正向鏈與反向鏈鎖在一起,形成環(huán)狀配對(duì)互鎖分子;b.經(jīng)由單一分子測(cè)序,獲取所述環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信息包括所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列;及c.通過(guò)比較所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本 的序列。
63.一種確定雙鏈核酸樣本的序列及所述序列中至少一個(gè)修飾堿基的位置的方法,包括a.將核酸樣本的正向鏈及反向鏈鎖在一起,形成環(huán)狀配對(duì)互鎖分子;b.通過(guò)單一分子測(cè)序,獲得所述環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信息包括所 述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列;及c.通過(guò)比較所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本 的序列及在所述雙鏈核酸樣本序列中至少一個(gè)修飾堿基的位置。
64.如權(quán)利要求
63所述的方法,其中所述雙鏈核酸分子包括至少一個(gè)選自下組 的修飾堿基5-溴尿嘧啶(5-bromouracil)、尿嘧啶(uracil)、5,6- 二氫尿嘧啶(5, 6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7_ 甲基鳥(niǎo)嘌呤(7-methylguanine)、次 黃嘌呤(hypoxanthine)及黃嘌呤(xanthine)。
65.如權(quán)利要求
63所述的方法,其中所述雙鏈核酸樣本中的至少一個(gè)修飾堿基與具有 不同于其優(yōu)選配對(duì)堿基的堿基配對(duì)特異性的堿基配對(duì)。
66.一種確定雙鏈核酸樣本的序列及所述序列中至少一個(gè)修飾堿基位置的方法,包括a.將核酸樣本的正向鏈及反向鏈鎖在一起,形成環(huán)狀配對(duì)互鎖分子;b.改變所述環(huán)狀配對(duì)互鎖分子中特定形式堿基的堿基配對(duì)特異性;c.通過(guò)單一分子測(cè)序,獲得所述環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信息包括所 述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列;及d.通過(guò)比較所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本 的序列及在所述雙鏈核酸樣本序列中至少一個(gè)修飾堿基的位置。
67.一種確定雙鏈核酸樣本的序列及所述序列中至少一個(gè)修飾堿基位置的方法,包括a.將核酸樣本的正向鏈及反向鏈鎖在一起,形成一環(huán)狀配對(duì)互鎖分子;b.通過(guò)單一分子測(cè)序,獲得所述環(huán)狀配對(duì)互鎖分子的序列信息,其中序列信息包括所 述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列;c.比較所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本的序列;d.通過(guò)單一分子測(cè)序,獲得所述環(huán)狀配對(duì)互鎖分子的序列信息,其中使用至少一個(gè)區(qū) 別堿基及其修飾形式的核苷酸類(lèi)似物(nucleotide analog)獲得序列信息,所述序列信息 包括至少一個(gè)位置上并入至少一個(gè)鑒別標(biāo)記的核苷酸類(lèi)似物;及e.通過(guò)比較所述正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本序列中修飾堿基的位置。
68.一種確定雙鏈核酸樣本的序列及所述序列中至少一個(gè)修飾堿基位置的方法,包括a.將核酸樣本的正向鏈及反向鏈鎖在一起,形成環(huán)狀配對(duì)互鎖分子;b.通過(guò)單一分子測(cè)序,獲得所述環(huán)狀配對(duì)互鎖分子的序列信息,其中使用至少一個(gè)區(qū) 分堿基及其修飾形式的核苷酸類(lèi)似物獲得序列信息,所述序列信息包括在至少一個(gè)位置上 并入至少一個(gè)鑒別標(biāo)記的核苷酸類(lèi)似物;及c.通過(guò)比較所述環(huán)狀配對(duì)互鎖分子的正向鏈及反向鏈的序列,確定所述雙鏈核酸樣本 的序列及在所述雙鏈核酸樣本序列中至少一個(gè)修飾堿基的位置。
專(zhuān)利摘要
本發(fā)明公開(kāi)確認(rèn)核酸樣本的序列和/或核酸樣本中修飾堿基的位置的方法,該核酸樣本以具有已知序列的核酸插入物的環(huán)狀分子呈現(xiàn),該方法包含獲取至少兩個(gè)插入樣本單元的序列信息。在一些實(shí)施例中,本發(fā)明方法包括使用環(huán)狀配對(duì)互鎖分子獲取序列信息。在一些實(shí)施例中,本發(fā)明方法包括通過(guò)比較核酸樣本序列與核酸插入物的已知序列,計(jì)算核酸插入物序列的分?jǐn)?shù),及根據(jù)緊鄰于核酸樣本序列的重復(fù)序列上游或下游之一個(gè)或兩個(gè)插入物的序列分?jǐn)?shù),接受或拒絕該核酸樣本序列的重復(fù)序列。
文檔編號(hào)C12Q1/68GKCN102076871SQ200980125207
公開(kāi)日2011年5月25日 申請(qǐng)日期2009年11月6日
發(fā)明者潘詔智, 簡(jiǎn)虹琪, 范振業(yè), 邱創(chuàng)汎, 陳惠玲 申請(qǐng)人:財(cái)團(tuán)法人工業(yè)技術(shù)研究院導(dǎo)出引文BiBTeX, EndNote, RefMan
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
台北市| 五台县| 凌源市| 琼结县| 湖南省| 华池县| 南通市| 梅河口市| 夏河县| 无为县| 扶风县| 绥滨县| 黎川县| 修武县| 张家港市| 南溪县| 全州县| 巫溪县| 利津县| 西藏| 凯里市| 江安县| 顺义区| 德阳市| 石狮市| 迁西县| 普宁市| 于都县| 泰兴市| 道孚县| 宝清县| 图们市| 延川县| 黄骅市| 胶南市| 阳高县| 墨竹工卡县| 闽侯县| 荃湾区| 岑溪市| 阜新|