用于鑒別重復(fù)測序讀數(shù)的組合物和方法
【專利摘要】本發(fā)明提供用于檢測重復(fù)測序讀數(shù)的方法、組合物和試劑盒。在一些實施例中,去除所述重復(fù)測序讀數(shù)。本發(fā)明部分基于用于從測序讀數(shù)群辨別重復(fù)測序讀數(shù)的組合物和方法。本文提出的重復(fù)測序讀數(shù)的檢測和/或去除是一種提高評估高通量序列反應(yīng)(包括復(fù)雜多路序列反應(yīng))產(chǎn)生的數(shù)據(jù)的功效的新穎方法。
【專利說明】
用于鑒別重復(fù)測序讀數(shù)的組合物和方法
[0001 ] 相關(guān)申請案的交叉引用
[0002] 本申請案要求2013年11月13日申請的美國臨時申請案第61/903,826號的權(quán)益,所 述申請案以全文引用的方式并入本文中。
[0003] 以電子方式提交的文本文檔的描述
[0004] 用電子方式提交的文本文件的內(nèi)容特此以全文引用的方式并入本文中:序列表的 計算機(jī)可讀格式拷貝(文件名:NUGN_001_01W0_SeqList_ST25. txt,記錄日期:2014年11月 12日,文件大小3千字節(jié))。
技術(shù)領(lǐng)域
[0005] 本發(fā)明大體上涉及高處理量測序反應(yīng)的領(lǐng)域和辨別通過從作為獨特分子的核苷 酸分子的序列復(fù)制產(chǎn)生的偽影的能力。
【背景技術(shù)】
[0006] 在RNA測序應(yīng)用中,精確基因表達(dá)測量可能受到文庫擴(kuò)增期間出現(xiàn)的PCR重復(fù)偽影 妨礙。在分析RNA測序數(shù)據(jù)時,當(dāng)發(fā)現(xiàn)兩個或更多個相同序列時,可能難以知道這些代表性 獨特cDNA分子是否獨立地衍生自不同RNA分子,或其是否為源自單個RNA分子的PCR重復(fù)。在 通過測序基因分型時,重復(fù)讀數(shù)可以視為無信息的并且可以減少成單個讀數(shù),因此減少最 終分析中使用的測序讀數(shù)的數(shù)目。一般來說,盡管兩個獨立產(chǎn)生的分子可能隨機(jī)具有相同 開始位置,但如果正向和反向讀數(shù)具有相同開始位置,那么測序讀數(shù)可以判斷成是重復(fù)?;?于單個引物延伸的靶向重新測序遭遇問題,因為測序讀數(shù)的僅一端隨機(jī)產(chǎn)生,而另一(反向 讀數(shù))端由特異性探針產(chǎn)生。這可能使得難以判斷兩個讀數(shù)是否重復(fù),因為其已經(jīng)通過PCR 復(fù)制或因為其偶然恰好在同一位置開始。
[0007]在表達(dá)分析研究中,進(jìn)行配對末端測序時可能存在有限值,因為相對于研究外顯 子利用率,實驗?zāi)繕?biāo)是測定存在的轉(zhuǎn)錄物的量。在這些研究中,配對末端測序增加成本,而 僅有的價值在于幫助區(qū)分PCR重復(fù)。兩個讀數(shù)在僅一端上的同一位置開始的可能性高于兩 個讀數(shù)在兩端(正向和反向讀數(shù))具有相同開始位置的可能性。需要低成本、高處理量測序 關(guān)注區(qū)域、基因分型或單次檢測RNA轉(zhuǎn)錄物而不具有固有儀器低效率的改良方法,所述低效 率由于產(chǎn)生不可用或非所要數(shù)據(jù)讀數(shù)而抬高測序成本。本文所述的本發(fā)明滿足這一需要。 本文中,我們描述允許鑒別真實PCR重復(fù)并且將其去除的銜接子方法。
[0008] 本發(fā)明的方法提供用于在測序期間鑒別真實重復(fù)讀數(shù),從而提高測序數(shù)據(jù)的數(shù)據(jù) 分析以及其它相關(guān)優(yōu)勢的新穎方法。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明部分基于用于從測序讀數(shù)群辨別重復(fù)測序讀數(shù)的組合物和方法。本文提出 的重復(fù)測序讀數(shù)的檢測和/或去除是一種提高評估高處理量序列反應(yīng)(包括復(fù)雜多路序列 反應(yīng))產(chǎn)生的數(shù)據(jù)的功效的新穎方法。
[0010] 因此,本發(fā)明提供一種從樣品測序讀數(shù)群檢測重復(fù)測序讀數(shù)的方法,所述方法包 含從一或多個樣品向多個核酸片段的各核酸片段的5'端接合銜接子,其中銜接子包含標(biāo)引 引物結(jié)合位點、標(biāo)引位點、標(biāo)識位點以及目標(biāo)序列引物結(jié)合位點。接合的銜接子-核酸片段 產(chǎn)物可以擴(kuò)增,因此產(chǎn)生來自擴(kuò)增的銜接子-核酸接合產(chǎn)物的測序讀數(shù)群。接著可以從測序 讀數(shù)群檢測具有重復(fù)標(biāo)識位點和目標(biāo)序列的測序讀數(shù)。所述方法可進(jìn)一步包括從序列讀數(shù) 群去除具有重復(fù)標(biāo)識位點和目標(biāo)序列的測序讀數(shù)。
[0011] 在一些實施例中,用標(biāo)引位點或目標(biāo)序列測序標(biāo)識位點。在其它實施例中,從標(biāo)引 位點或目標(biāo)序列單獨測序標(biāo)識位點。
[0012] 在一些實施例中,銜接子從5'到3'包含標(biāo)引引物結(jié)合位點;標(biāo)引位點;標(biāo)識位點; 以及目標(biāo)序列引物結(jié)合位點。在其它實施例中,銜接子從5'到3'包含標(biāo)引引物結(jié)合位點;標(biāo) 引位點;目標(biāo)序列引物結(jié)合位點;以及標(biāo)識位點。
[0013] 在一些實施例中,多個核酸片段從超過一種樣品產(chǎn)生。在一些實施例中,來自各樣 品的核酸片段具有相同標(biāo)引位點。在一些實施例中,基于標(biāo)引位點分離測序讀數(shù)。在其它實 施例中,在檢測具有重復(fù)標(biāo)識位點和目標(biāo)序列的序列讀數(shù)之前進(jìn)行測序讀數(shù)的分離。
[0014] 在一些實施例中,核酸片段為DNA片段、RNA片段或DNA/RNA片段。在其它實施例中, 核酸片段為基因組DNA片段或cDNA片段。
[0015] 在一些實施例中,標(biāo)引位點的長度介于2個核苷酸與8個核苷酸之間。在其它實施 例中,標(biāo)引位點的長度為約6個核苷酸。在一些實施例中,標(biāo)識位點的長度介于1個核苷酸與 8個核苷酸之間。在其它實施例中,標(biāo)識位點的長度為約8個核苷酸。
[0016] 在一些實施例中,標(biāo)引引物結(jié)合位點為通用標(biāo)引引物結(jié)合位點;并且在一些實施 例中,目標(biāo)序列引物結(jié)合位點為通用目標(biāo)序列引物結(jié)合位點。
[0017] 本發(fā)明還涵蓋包括包含多個銜接子的試劑盒的實施例,其中各銜接子包含標(biāo)引引 物結(jié)合位點;標(biāo)引位點,以及標(biāo)識位點,和目標(biāo)測序引物結(jié)合位點。
【附圖說明】
[0018] 參照以下闡述利用本發(fā)明的原理的示范性實施例以及其隨附圖式的描述將獲得 本發(fā)明的新穎特征和本發(fā)明的優(yōu)勢的更好理解:
[0019] 圖1描繪產(chǎn)生文庫的測序讀數(shù)的示意圖,所述文庫包括標(biāo)引引物和目標(biāo)序列引物 退火。
[0020] 圖2A描繪單引物增濃技術(shù)(SPET)和如何將標(biāo)識位點帶入最終文庫并且如何通過 標(biāo)引位點進(jìn)入標(biāo)識位點測序提供鑒別核酸分子的數(shù)據(jù)的機(jī)制。
[0021] 圖2B為圖2A的接續(xù)。
[0022] 圖3提供許多設(shè)想實施例中實例銜接子以及標(biāo)引和標(biāo)識位點的位置的序列的詳細(xì) 視圖(SEQ ID N0:1)Z'N"指的是任何核酸。
[0023] 圖4描繪兩個單獨序列文庫的示意圖,指出傳統(tǒng)文庫中相較于使用標(biāo)識位點的文 庫中的標(biāo)引引物和目標(biāo)引物退火。
[0024] 圖5描繪表明使用銜接子中的標(biāo)識位點拆分真實重復(fù)對比明顯或可察覺重復(fù)的精 確度的數(shù)據(jù)表。
【具體實施方式】
[0025] 本發(fā)明部分基于用于從測序讀數(shù)群辨別重復(fù)測序讀數(shù)的組合物和方法。本發(fā)明涵 蓋檢測測序應(yīng)用中重復(fù)的序列,并且進(jìn)一步去除重復(fù)序列讀數(shù)的方法。本發(fā)明進(jìn)一步涵蓋 試劑盒,其包含允許自定義應(yīng)用檢測和去除高處理量測序反應(yīng)中的重復(fù)序列讀數(shù)的方法的 組分。組合物和方法可使用多種遺傳樣品分析應(yīng)用,例如RNA序列分析、拷貝數(shù)變異分析、甲 基化測序分析、基因分型和全基因組擴(kuò)增。
[0026] 現(xiàn)在將詳細(xì)參考本發(fā)明的示范性實施例。雖然將結(jié)合示范性實施例描述所披露的 方法和組合物,但應(yīng)理解,這些示范性實施例并不打算限制本發(fā)明。相反,本發(fā)明打算涵蓋 替代方式、改良和等效物,其可以包括于本發(fā)明的精神和范疇中。
[0027] 除非另外規(guī)定,否則本文所用的遺傳學(xué)、分子生物學(xué)、生物化學(xué)和核酸的術(shù)語和符 號遵照本領(lǐng)域中標(biāo)準(zhǔn)論文和文本的那些,例如科恩伯格(Kornberg)和貝克(Baker),DNA復(fù) 制(DNA Replication),第二版(W.H.弗里曼(W.H.Freeman),紐約(New York),1992);勒寧 格爾(Lehninger),生物化學(xué)(Biochemistry),第二版(沃斯出版社(Worth Publishers),紐 約,1975);斯特羅恩(Strachan)和里德(Read),人類分子遺傳學(xué)(Human Molecular Genetics),第二版(威立-利斯(Wiley-Liss),紐約,1999);??怂固?Eckstein)編,寡核苷 酸和類似物:實踐方法(Oligonucleotides and Analogs:A Practical Approach)(牛津大 學(xué)出版社(Oxford University Press),紐約(New York) ,1991);蓋特(Gait)編,寡核苷酸 合成:實踐方法(Oligonucleotide Synthesis:A Practical Approach)(IRL出版社(IRL Press),牛津(Oxford),1984)等。
[0028] 在一些實施例中,本文所披露的方法用于從測序讀數(shù)群檢測測序讀數(shù),例如具有 重復(fù)標(biāo)識位點和目標(biāo)序列的重復(fù)測序讀數(shù)。重復(fù)測序讀數(shù)可以是標(biāo)識位點和目標(biāo)序列與測 序讀數(shù)群中的另一測序讀數(shù)相同的測序讀數(shù)。
[0029] 銜接子
[0030] 本發(fā)明提供銜接子的組合物和包含使用銜接子的方法。銜接子指的是寡核苷酸序 列,其與所關(guān)注的目標(biāo)多核苷酸或目標(biāo)多核苷酸股的接合使能夠產(chǎn)生所關(guān)注的目標(biāo)多核苷 酸或目標(biāo)多核苷酸股的準(zhǔn)備擴(kuò)增產(chǎn)物。目標(biāo)多核苷酸分子在添加銜接子之前可以分段或不 分段。在一些實施例中,本文所披露的方法包含從一或多個樣品向多個核酸片段的各核酸 片段的5'端接合銜接子。
[0031]設(shè)想適于產(chǎn)生所關(guān)注的目標(biāo)序列區(qū)域/股的準(zhǔn)備擴(kuò)增產(chǎn)物的多種銜接子設(shè)計。舉 例來說,銜接子的兩個股可以自身互補(bǔ)、非互補(bǔ)或部分互補(bǔ)。在一些實施例中,銜接子可包 含標(biāo)引引物結(jié)合位點、標(biāo)引位點、標(biāo)識位點和目標(biāo)序列引物結(jié)合位點。
[0032] 標(biāo)引引物結(jié)合位點為用于結(jié)合標(biāo)引位點的引物的核苷酸序列。標(biāo)引位點為充當(dāng)多 個多核苷酸樣品的指引的核酸序列,因此允許樣品一起匯聚到單個測序操作,這稱為多工。 在一些實施例中,標(biāo)引位點的長度為至少2、3、4、5、6、7、8、9或10個核苷酸。在一些實施例 中,標(biāo)引位點的長度介于2個核苷酸與8個核苷酸之間。在一些實施例中,標(biāo)引位點的長度為 約6個核苷酸。
[0033] 標(biāo)識位點為包含隨機(jī)堿基的核酸序列并且用于鑒別重復(fù)測序讀數(shù)。在一些實施例 中,標(biāo)識位點的長度為至少2、3、4、5、6、7、8、9或10個核苷酸。在一些實施例中,標(biāo)識位點的 長度介于1個核苷酸與8個核苷酸之間。在一些實施例中,標(biāo)識位點的長度為約8個核苷酸。 這一標(biāo)識位點可以設(shè)計成一組序列,或其可以半隨機(jī),或其可以完全隨機(jī)。另外,這一標(biāo)識 位點可以是固定長度,或其可以是可變長度。在一些實施例中,多個銜接子中的標(biāo)識位點具 有固定長度。舉例來說,標(biāo)識位點可以全部為八個隨機(jī)堿基。在另一實施例中,多個銜接子 中的標(biāo)識位點具有可變長度。舉例來說,標(biāo)識位點可以在1到8個堿基的尺寸范圍中。在另一 實施例中,標(biāo)識位點可以具有已限定序列的限定組。舉例來說,多個銜接子的標(biāo)識位點可以 是96個限定的六堿基核苷酸序列中的一個。
[0034]目標(biāo)序列引物結(jié)合位點核苷酸序列用于結(jié)合目標(biāo)序列的引物。引物可用于擴(kuò)增目 標(biāo)序列(例如來自樣品的核酸片段)。因此,在一些實施例中,銜接子包含標(biāo)引引物結(jié)合位點 和目標(biāo)序列引物結(jié)合位點。
[0035]引物為多核苷酸鏈,通常小于200個殘基長,最通常介于15和100個核苷酸長之間, 但可涵蓋更長的多核苷酸鏈。靶向引物結(jié)合位點的引物通常設(shè)計成與單股核酸股雜交。在 一些實施例中,靶向引物結(jié)合位點的引物設(shè)計成與單股DNA目標(biāo)雜交。在樣品包含基因組 DNA或其它雙股DNA的情況下,樣品可以首先變性以賦予目標(biāo)單股并且使引物能夠雜交到所 關(guān)注的所要序列區(qū)。在這些實施例中,本文所述的方法和組合物可允許所關(guān)注序列區(qū)的區(qū) 域特異性增濃和擴(kuò)增。在一些實施例中,另一雙股DNA可以是通過一或多個目標(biāo)RNA的第一 和第二股合成產(chǎn)生的雙股cDNA。
[0036] 在其它實施例中,靶向引物結(jié)合位點的引物設(shè)計成與雙股核酸目標(biāo)雜交,而不使 雙股核酸變性。在其它實施例中,革巴向引物結(jié)合位點的引物設(shè)計成與雙股DNA目標(biāo)雜交,而 不使dsDNA變性。在這些實施例中,靶向所關(guān)注的所選序列區(qū)的引物設(shè)計成在所關(guān)注的所選 序列區(qū)處形成三螺旋(三鏈)??梢栽诓皇闺p股核酸樣品事先變性的情況下進(jìn)行引物與所關(guān) 注雙股DNA序列區(qū)的雜交。在此類實施例中,本文所述的方法和組合物可允許所關(guān)注序列區(qū) 的區(qū)域特異性增濃以及股特異性增濃以及擴(kuò)增。這一方法可以適用于無序使dsDNA輸入DNA 變性即可從復(fù)雜核酸產(chǎn)生所關(guān)注的股特異性序列區(qū)的拷貝,因此使能夠增濃和分析原生復(fù) 雜核酸樣品中所關(guān)注序列區(qū)的多重性。所述方法可用于現(xiàn)場進(jìn)行的研究和分析,使能夠進(jìn) 行單個細(xì)胞或極小輪廓分明的細(xì)胞群的集合中復(fù)雜基因組DNA的研究和分析,以及允許分 析復(fù)雜基因組DNA而不破壞染色質(zhì)結(jié)構(gòu)。
[0037] 本發(fā)明的引物一般為用于通過聚合酶沿多核苷酸模板的延伸反應(yīng)(例如用于擴(kuò)增 目標(biāo)序列(例如在PCR中))中的寡核苷酸。寡核苷酸引物可以是在3'端含有能夠與目標(biāo)多核 苷酸的序列雜交的序列的單股合成多核苷酸。在一些實施例中,與目標(biāo)核酸雜交的引物的 3'區(qū)與引物結(jié)合位點至少80%,優(yōu)選90%,更優(yōu)選95%,最優(yōu)選100%互補(bǔ)。
[0038] 在一些實施例中,引物結(jié)合位點為通用引物的結(jié)合位點。通用引物為可用于擴(kuò)增 許多不同序列的引物。在一些實施例中,通用引物用于擴(kuò)增不同文庫。在一些實施例中,標(biāo) 引引物結(jié)合位點為用于通用標(biāo)引引物的結(jié)合位點(即標(biāo)引引物結(jié)合位點為通用標(biāo)引引物結(jié) 合位點)。在一些實施例中,用于接合多個核酸片段的銜接子具有通用標(biāo)引引物結(jié)合位點。 在一些實施例中,通用標(biāo)引引物可用于擴(kuò)增和/或測序許多不同標(biāo)引位點。
[0039] 在一些實施例中,目標(biāo)序列引物結(jié)合位點為用于通用目標(biāo)序列引物的結(jié)合位點 (即目標(biāo)序列引物結(jié)合位點為通用目標(biāo)序列引物結(jié)合位點)。在一些實施例中,用于接合多 個核酸片段的銜接子具有通用目標(biāo)序列引物結(jié)合位點。在一些實施例中,通用目標(biāo)序列引 物可用于擴(kuò)增和/或測序許多不同目標(biāo)序列。
[0040] 在一些實施例中,銜接子包含在標(biāo)引位點3'的標(biāo)識位點。在一些實施例中,銜接子 包含在標(biāo)引位點5'的標(biāo)識位點。在一些實施例中,銜接子從5'到3'包含標(biāo)引引物結(jié)合位點; 標(biāo)引位點;標(biāo)識位點;以及目標(biāo)序列引物結(jié)合位點。在其它實施例中,銜接子從5'到3'包含 標(biāo)引引物結(jié)合位點、標(biāo)引位點、標(biāo)識位點以及目標(biāo)序列引物結(jié)合位點。在其它實施例中,銜 接子從5'到3'包含標(biāo)引引物結(jié)合位點、標(biāo)識位點、標(biāo)引位點以及目標(biāo)序列引物結(jié)合位點。
[0041] 題
[0042] 在一些實施例中,銜接子接合到核酸片段(例如核酸片段的5'端)。核酸片段可以 來自一或多個樣品的多個核酸片段。核酸片段可以是RNA、DNA或復(fù)雜DNA,例如基因組DNA和 PNA,在所述情況下可使用修飾的核酸。核酸片段還可以cDNA。cDNA可以從RNA(例如mRNA)產(chǎn) 生。
[0043] 樣品可以是生物樣品。舉例來說,樣品可以是動物、植物、細(xì)菌、藻類或病毒樣品。 在一些實施例中,樣品為人類、大鼠或小鼠樣品。樣品可以來自不同物種的基因組的混合 物,例如宿主-病原體、細(xì)菌群等。樣品可以是由不同物種的基因組混合物制成的cDNA。在一 些實施例中,樣品可以來自合成來源。樣品可以是線粒體DNA。樣品可以是無細(xì)胞DNA。無細(xì) 胞DNA可以獲自例如血清或血漿樣品的來源。樣品可包含一或多個染色體。舉例來說,如果 樣品來自人類,那么樣品可包含染色體1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、 18、19、20、21、224或¥中的一或多個。在一些實施例中,樣品包含直鏈或環(huán)形基因組。樣品 可以是質(zhì)體DNA、粘質(zhì)體DNA、細(xì)菌人工染色體(BAC)或酵母人工染色體(YAC)。樣品可以來自 超過一種個體或生物體。樣品可以是雙股或單股。樣品可以是染色質(zhì)的部分。樣品可以與組 蛋白有關(guān)。
[0044] 在一些實施例中,銜接子接合到來自超過一個樣品(例如2、3、4、5個或更多樣品) 的多個核酸片段。在一些實施例中,來自各樣品的核酸片段具有相同標(biāo)引位點。在一些實施 例中,從第一樣品和第二樣品產(chǎn)生多個核酸片段并且銜接子接合到各核酸片段,其中接合 到來自第一樣品的各核酸片段的銜接子具有相同第一標(biāo)引位點并且接合到來自第二樣品 的核酸片段的銜接子具有相同第二標(biāo)引位點。在一些實施例中,基于標(biāo)引位點分離核酸片 段或與核酸片段有關(guān)的數(shù)據(jù)(例如測序讀數(shù))。
[0045] 在一些實施例中,樣品產(chǎn)生的核酸片段群具有一或多種具體尺寸范圍。在一些實 施例中,片段的平均長度為約10到約1〇,〇〇〇個核苷酸。在一些實施例中,片段的平均長度為 約50到約2,000個核苷酸。在一些實施例中,片段的平均長度為約100-2,500、10-1,000、10-800、10-500、50-500、50-250或50-150個核苷酸。在一些實施例中,片段的平均長度小于10, 〇〇〇個核苷酸,例如小于5,000個核苷酸,小于2,500個核苷酸,小于2,500個核苷酸,小于1, 〇〇〇個核苷酸,小于500個核苷酸,例如小于400個核苷酸,小于300個核苷酸,小于200個核苷 酸或小于150個核苷酸。
[0046] 在一些實施例中,可以通過所屬領(lǐng)域中已知的方法實現(xiàn)核酸的片段化。可以通過 物理片段化方法和/或酶促片段化方法實現(xiàn)片段化。物理片段化方法可包括霧化、超聲處理 和/或流體動力學(xué)剪切。在一些實施例中,可以用機(jī)械化方式實現(xiàn)片段化,包含對輸入樣品 中的核酸進(jìn)行超聲處理。在一些實施例中,片段化包含在適于一或多種酶的條件下用一或 多種酶處理輸入樣品中的核酸產(chǎn)生雙股核酸斷裂。適用于產(chǎn)生核酸或多核苷酸片段的酶的 實例包括序列特異性和非序列特異性核酸酶。核酸酶的非限制性實例包括DNasel、片段酶、 限制核酸內(nèi)切酶、其變體以及其組合。進(jìn)行酶促片段化反應(yīng)的試劑市場有售(例如來自新英 格蘭生物實驗室(New England Biolabs))。舉例來說,用DNase I消化可在無 Mg++存在下和 在Mn++存在下誘發(fā)DNA中的隨機(jī)雙股斷裂。在一些實施例中,片段化包含用一或多種限制核 酸內(nèi)切酶處理輸入樣品中的核酸。片段化可以制造具有5'懸垂物、3'懸垂物、鈍端或其組合 的片段。在一些實施例中,例如當(dāng)片段化包含使用一或多種限制核酸內(nèi)切酶時,樣品聚核苷 酸的裂解留下具有可預(yù)測序列的懸垂物。在一些實施例中,所述方法包括通過所屬領(lǐng)域中 已知的標(biāo)準(zhǔn)方法(例如從瓊脂糖凝膠柱純化或分離)尺寸選擇片段的步驟。
[0047] 在一些實施例中,核酸的片段化之后是核酸片段的末端修復(fù)。末端修復(fù)可包括產(chǎn) 生鈍端、非鈍端(即發(fā)粘或內(nèi)聚端),或單堿基懸垂物,例如通過不具有3' _核酸外切酶活性 的聚合酶向核酸片段的端添加單個dA核苷酸。末端修復(fù)可以使用所屬領(lǐng)域中已知的多 種酶和/或方法進(jìn)行,包括(但不限于)市場有售的試劑盒,例如Encore? Ultra Low Input NGS Library System I。在一些實施例中,可以對雙股DNA片段進(jìn)行末端修復(fù)產(chǎn)生鈍端,其 中雙股DNA片段含有磷酸基和羥基。在一些實施例中,在接合到銜接子之前,雙股DNA片 段可以經(jīng)鈍端拋光(或"末端修復(fù)")產(chǎn)生具有鈍端的DNA片段??梢酝ㄟ^使用單股特異性DNA 核酸外切酶(例如核酸外切酶1、核酸外切酶7或其組合)降解雙股產(chǎn)物的懸垂單股末端,在 雙股片段上產(chǎn)生鈍端?;蛘?,雙股DNA片段可以通過使用單股特異性DNA核酸內(nèi)切酶(例如 (但不限于)綠豆核酸內(nèi)切酶或S1核酸內(nèi)切酶)產(chǎn)生鈍端?;蛘?,雙股產(chǎn)物可以通過使用包含 單股核酸外切酶活性的聚合酶(例如T4DNA聚合酶)或包含單股核酸外切酶活性的任何其它 聚合酶或其組合降解雙股產(chǎn)物的懸垂單股末端產(chǎn)生鈍端。在一些情況下,包含單股核酸外 切酶活性的聚合酶可以在包含或不包含一或多種dNTP的反應(yīng)混合物中培育。在其它狀況 下,單股核酸特異性核酸外切酶和一或多種聚合酶的組合可用于使通過使包含核酸的樣品 片段化產(chǎn)生的雙股片段產(chǎn)生鈍端。在其它情形中,核酸片段可以通過在雙股片段的懸垂單 股端填充產(chǎn)生鈍端。舉例來說,可以在一或多種dNTP存在下用例如T4DNA聚合酶或克列諾聚 合酶(Klenow polymerase)或其組合的聚合酶培育片段,填充雙股片段的單股部分?;蛘?, 雙股DNA片段可以通過使用核酸外切酶和/或聚合酶的單股懸垂物分解反應(yīng)與在一或多種 dNTP存在下使用一或多種聚合酶的填充反應(yīng)的組合產(chǎn)生鈍端。
[0048] 美國專利公開案第2013-0231253A1號和第2014-0274729A1號進(jìn)一步描述產(chǎn)生核 酸片段的方法、修飾片段和分析片段的方法,并且以全文引用的方式并入本文中。
[0049] 銜接子的接合
[0050]在所關(guān)注序列區(qū)的所要末端(例如從樣品所產(chǎn)生的核酸片段的5'或3'端處)處接 合銜接子適于進(jìn)行本發(fā)明的方法。視核酸、核酸修飾酶和核酸的所得可接合末端的選擇而 定設(shè)想多種接合模態(tài)。舉例來說,當(dāng)產(chǎn)生包含所關(guān)注的目標(biāo)區(qū)/序列的鈍端產(chǎn)物時,鈍端接 合可能適合?;蛘撸?dāng)使用已知序列特異性的限制酶進(jìn)行裂解,導(dǎo)致產(chǎn)生具有已知序列懸垂 物的裂解位點時,銜接子的適合末端可以設(shè)計成使銜接子能夠雜交到所關(guān)注序列區(qū)的裂解 位點并且隨后接合。接合還指的是產(chǎn)生單個核酸序列的兩個核酸分子的任何接合,所述核 酸序列可進(jìn)一步修飾獲得所討論的核酸的序列。高效和快速接合銜接子的試劑和方法市場 有售,并且為所屬領(lǐng)域中已知的。
[0051]在一些實施例中,在與本發(fā)明的銜接子寡核苷酸接合之前,片段化核酸的5'和/或 端核苷酸序列未經(jīng)修飾或末端修復(fù)。舉例來說,通過限制性核酸內(nèi)切酶片段化可用于留 下可預(yù)測懸垂物,隨后與一或多個包含與核酸片段上的可預(yù)測懸垂物互補(bǔ)的懸垂物的銜接 子寡核苷酸接合。在另一實例中,通過留下可預(yù)測鈍端的酶裂解之后可以將鈍端核酸片段 接合到包含鈍端的銜接子寡核苷酸。在一些實施例中,末端修復(fù)之后可以添加1、2、3、4、5、 6、7、8、9、10、11、12、13、14、15、16、17、18、19、20個或更多個核苷酸(例如一或多個腺嘌呤、 一或多個胸腺嘧啶、一或多個鳥嘌呤或一或多個胞嘧啶),以產(chǎn)生懸垂物。具有懸垂物的核 酸片段可以例如在接合反應(yīng)中接合到具有互補(bǔ)懸垂物的一或多個銜接子寡核苷酸。舉例來 說,可以使用模板非依賴性聚合酶將單個腺嘌呤添加到末端修復(fù)的DNA片段的3'端,隨后接 合到一或多個各自在3'端具有胸腺嘧啶的銜接子。在一些實施例中,銜接子寡核苷酸可以 接合到已通過用一或多個核苷酸延伸3'端隨后5'磷酸化修飾的鈍端雙股核酸片段。在一些 情況下,可以用聚合酶(例如克列諾聚合酶或本文提供的任何適合聚合酶),或通過使用末 端去氧核苷酸轉(zhuǎn)移酶,在一或多種dNTP存在下,在含有鎂的適合緩沖液中,進(jìn)行端的延 伸。在一些實施例中,具有鈍端的核酸片段可以接合到一或多個包含鈍端的銜接子??梢岳?如使用T4多核苷酸激酶,在含有ATP和鎂的適合緩沖液中,進(jìn)行核酸片段的端的磷酸化。 片段化核酸分子可任選地例如通過使用所屬領(lǐng)域中已知的酶(例如磷酸酶)處理以使端 或3'端去磷酸化。
[0052]在一些實施例中,可以使用接合反應(yīng)或引發(fā)反應(yīng)向本文所述的方法產(chǎn)生的核酸片 段附接銜接子。在一些實施例中,將銜接子附接到核酸片段包含接合。在一些實施例中,將 銜接子接合到核酸片段可以在末端修復(fù)核酸片段之后。在另一實施例中,將銜接子接合到 核酸片段可以在未對核酸片段進(jìn)行末端修復(fù)即產(chǎn)生核酸片段之后。銜接子可以是所屬領(lǐng)域 中已知的任何類型的銜接子,包括(但不限于)常規(guī)雙螺旋體或雙股銜接子,其中銜接子包 含兩條互補(bǔ)股。在一些實施例中,銜接子可以是雙股DNA銜接子。在一些實施例中,銜接子可 以是具有已知序列的寡核苷酸,并且因此允許產(chǎn)生和/或使用序列特異性引物擴(kuò)增和/或測 序附接或連接銜接子的任何聚核苷酸。在一些實施例中,銜接子可以是常規(guī)雙螺旋體銜接 子,其中銜接子包含所屬領(lǐng)域眾所周知的序列。在一些實施例中,銜接子可以在多個方向中 附接到通過本文所述的方法產(chǎn)生的核酸片段。在一些實施例中,本文所述的方法可涉及使 用包含具有已知序列的雙股DNA的雙螺旋體銜接子,所述已知序列為鈍端并且可在兩個方 向中的任一個中結(jié)合到通過本文所述的方法產(chǎn)生的雙股核酸片段。在一些實施例中,銜接 子可以接合到每一個核酸片段使得每一個核酸片段包含同一銜接子。換句話說,每一個核 酸片段包含常見銜接子。在另一實施例中,銜接子可以附接或接合到本文所述的方法產(chǎn)生 的核酸片段的文庫,使得核酸片段文庫中的各核酸片段包含接合到一端或兩端的銜接子。 在另一實施例中,超過一個銜接子可以附接或接合到本文所述方法產(chǎn)生的核酸片段文庫。 多個銜接子可彼此靠近、間歇地隔開或在核酸片段的相對端存在。在一些實施例中,銜接子 可以接合或附接到本文所述方法產(chǎn)生的核酸片段的和/或3'端。銜接子可包含兩股,其中 各股包含游離3'羥基,但任一股都不包含游離5'磷酸基。在一些實施例中,銜接子的每一股 上的游離3'羥基可以接合到本發(fā)明的核酸片段的任一端上存在的游離5'磷酸基。在這一實 施例中,銜接子包含接合股和非接合股,由此接合股可以接合到核酸片段的任一端上的 磷酸基,而銜接子的非接合股與核酸片段的任一端上的羥基之間可存在缺口或間隙。在 一些實施例中,可以通過進(jìn)行間隙修復(fù)反應(yīng)填充缺口或間隙。在一些實施例中,可以使用具 有股置換活性的DNA依賴性DNA聚合酶進(jìn)行間隙修復(fù)。在一些實施例中,可以使用具有弱股 置換活性或不具有股置換活性的DNA依賴性DNA聚合酶進(jìn)行間隙修復(fù)。在一些實施例中,銜 接子的接合股可用作間隙修復(fù)或填充反應(yīng)的模板。間隙修復(fù)或填充反應(yīng)可包含延伸反應(yīng), 其中銜接子的接合股充當(dāng)模板并且導(dǎo)致產(chǎn)生具有互補(bǔ)末端或端的核酸片段。在一些實施例 中,間隙修復(fù)可以使用Taq DNA聚合酶進(jìn)行。在一些實施例中,第一銜接子與本文所述方法 產(chǎn)生的核酸片段的接合后面可以不接著間隙修復(fù)。核酸片段可包含僅在各股的端接合的 銜接子序列。
[0053] 銜接子與核酸片段的接合和任選地間隙修復(fù)產(chǎn)生銜接子-核酸片段復(fù)合物。在一 些實施例中,銜接子-核酸片段復(fù)合物可以是變性的。變性可以使用所屬領(lǐng)域中已知的任何 方法實現(xiàn),包括(但不限于)物理變性、熱變性和/或化學(xué)變性。在一些實施例中,可以使用熱 變性(thermal或heat denaturation)實現(xiàn)變性。在一些實施例中,銜接子-核酸片段復(fù)合物 的變性產(chǎn)生僅在核酸片段的5'端包含銜接子序列的單股核酸片段。在另一實施例中,第一 銜接子_核酸片段復(fù)合物的變性產(chǎn)生在核酸片段的端和3'端都包含銜接子序列的單股核 酸片段。
[0054] 擴(kuò)增方法
[0055] 本文所述的方法、組合物和試劑盒可適用于直接從用于下游應(yīng)用(例如下一代測 序以及產(chǎn)生具有增濃所關(guān)注序列區(qū)群的文庫)的核酸源產(chǎn)生準(zhǔn)備擴(kuò)增產(chǎn)物。在一些實施例 中,擴(kuò)增銜接子-核片段接合產(chǎn)物,所述產(chǎn)物例如來自將銜接子接合到一或多個樣品的多個 核酸片段的各核酸片段的5'端。
[0056] 擴(kuò)增方法為所屬領(lǐng)域中眾所周知。在一些實施例中,擴(kuò)增是指數(shù)擴(kuò)增,例如在通過 聚合酶鏈反應(yīng)(PCR)酶促擴(kuò)增特異性DNA雙股序列中。在其它實施例中,擴(kuò)增方法為線性的。 在其它實施例中,擴(kuò)增方法為等溫的。在一些實施例中,擴(kuò)增是指數(shù)擴(kuò)增,例如在通過聚合 酶鏈反應(yīng)(PCR)酶促擴(kuò)增特異性DNA雙股序列中。
[0057] 適合擴(kuò)增反應(yīng)可以是指數(shù)或等溫的并且可包括任何DNA擴(kuò)增反應(yīng),包括(但不限 于)聚合酶鏈反應(yīng)(PCR)、鏈置換擴(kuò)增(SDA)、線性擴(kuò)增、多重置換擴(kuò)增(MDA)、滾環(huán)擴(kuò)增 (RCA)、單引物等溫擴(kuò)增(SPIA,參看例如美國專利第6,251,639號)、虹13 〇-5?14或其組合。在 一些情況下,用于提供模板核酸的擴(kuò)增方法可以在限制條件下進(jìn)行使得僅進(jìn)行幾個回合的 擴(kuò)增(例如 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、 26、27、28、29、30等),例如就像〇0嫩繼代通常所進(jìn)行的一樣。擴(kuò)增回合數(shù)可以是約1-30、1-20、1-15、1-10、5-30、10-30、15-30、20-30、10-30、15-30、20-30或25-30。
[0058] PCR為基于變性、寡核苷酸引物退火和通過嗜熱性模板依賴性多核苷酸聚合酶的 引物延伸的重復(fù)循環(huán)的體外擴(kuò)增程序,導(dǎo)致由引物側(cè)接的多核苷酸分析物的所需序列的拷 貝以指數(shù)方式增加。退火到DNA相對股的兩個不同PCR引物定位成使得一個引物的聚合酶催 化的延伸產(chǎn)物可充當(dāng)另一引物的模板股,導(dǎo)致離散雙股片段的積聚,所述片段的長度由寡 核苷酸引物的端之間的距離限定。
[0059] LCR使用接合酶接合數(shù)對預(yù)先形成的核酸探針。探針與核酸分析物(如果存在)的 每一互補(bǔ)股雜交,并且采用接合酶使每對探針結(jié)合在一起,產(chǎn)生可在下一循環(huán)中用以再反 覆具體核酸序列的兩個模板。
[0060] SDA(威斯?。╓estin)等人2000,自然生物技術(shù)(Nature Biotechnology),18,199- 202;沃克(Walker)等人 1992,核酸研究(Nucleic Acids Research) ,20,7,1691-1696)為等 溫擴(kuò)增技術(shù),所述技術(shù)基于限制性核酸內(nèi)切酶(例如HincII或BsoBI)使其識別位點的半硫 代磷酸化形式的未經(jīng)修飾股產(chǎn)生缺口的能力,以及核酸外切酶缺乏DNA聚合酶(例如克列諾 exo-聚合酶或Bst聚合酶)在缺口處延伸端并且置換下游DNA股的能力。指數(shù)擴(kuò)增由有義 及反義反應(yīng)偶合產(chǎn)生,其中自有義反應(yīng)移位的股充當(dāng)反義反應(yīng)的目標(biāo)并且反之亦然。
[0061] 本發(fā)明的一些方面利用核酸或聚核苷酸的線性擴(kuò)增。線性擴(kuò)增一般指的是涉及形 成核酸或多核苷酸分子(通常為核酸或多核苷酸分析物)的僅一股的互補(bǔ)序列的一或多個 拷貝的方法。因此,線性擴(kuò)增與指數(shù)擴(kuò)增之間的主要差異在于:在指數(shù)擴(kuò)增中,產(chǎn)物充當(dāng)?shù)?物用于形成更多產(chǎn)物,而在線性擴(kuò)增中,開始序列為用于形成產(chǎn)物的底物,但反應(yīng)產(chǎn)物(BP 開始模板的復(fù)制品)并非用于產(chǎn)生產(chǎn)物的底物。在線性擴(kuò)增中,所形成的產(chǎn)物的量以時間的 線性函數(shù)形式增加,與所形成的產(chǎn)物的量為時間的指數(shù)函數(shù)的指數(shù)擴(kuò)增相對。
[0062] 下游應(yīng)用
[0063] 本發(fā)明的一個方面在于本文所披露的方法和組合物可有效地并且節(jié)約成本的用 于下游分析,例如用于下一代測序或雜交平臺,使所關(guān)注的生物材料的損失降到最低。本發(fā) 明的方法還可以用于分析所關(guān)注的選擇性基因組區(qū)域(例如分析SNP或其它疾病標(biāo)記)以及 可與所關(guān)注的選擇性區(qū)域相互作用的基因組區(qū)域的遺傳信息。本發(fā)明的方法可進(jìn)一步用于 分析拷貝數(shù)變化以及差異表達(dá)。
[0064]
[0065] 在一些實施例中,測序讀數(shù)群從擴(kuò)增的銜接子-核片段接合產(chǎn)物產(chǎn)生。在一些實施 例中,測序讀數(shù)包含標(biāo)引讀數(shù),其包含標(biāo)引位點的序列。在一些實施例中,標(biāo)引讀數(shù)包含標(biāo) 引位點的序列和標(biāo)識位點的序列。舉例來說,標(biāo)引位點用標(biāo)識位點測序。在一些實施例中, 標(biāo)引讀數(shù)不包括標(biāo)識位點的序列。舉例來說,標(biāo)引位點不使用標(biāo)識位點測序。在一些實施例 中,測序讀數(shù)包含目標(biāo)序列。在一些實施例中,測序讀數(shù)包含目標(biāo)序列和標(biāo)識序列。舉例來 說,目標(biāo)序列用標(biāo)識位點測序。在一些實施例中,目標(biāo)序列不使用標(biāo)識位點測序。
[0066]本發(fā)明的方法適用于通過如美國專利第5,750,341號;第6,306,597號以及第5, 969,119號所述的伊路米那(I1 lumina)的商業(yè)化方法測序。
[0067] -般來說,雙股片段多核苷酸可以通過本發(fā)明的方法制備,產(chǎn)生在一端(例如(A)/ (Y ))或兩端(例如以)/(# )和(〇/((^ ))標(biāo)記的擴(kuò)增的核酸序列。在一些情況下,通過本發(fā) 明的方法(例如通過SPIA或線性PCR)擴(kuò)增在一端或兩端標(biāo)記的單股核酸。所得核酸接著變 性并且單股擴(kuò)增的多核苷酸隨機(jī)連接到流動細(xì)胞通道的內(nèi)表面。向初始固相橋擴(kuò)增添加未 標(biāo)記的核苷酸產(chǎn)生雙股DNA的致密簇。為了起始第一堿基測序循環(huán),添加四個標(biāo)記的可逆終 止子、引物和DNA聚合酶。激光激發(fā)后,來自流動細(xì)胞的各簇的熒光成像。接著記錄各簇的第 一堿基的標(biāo)識。進(jìn)行測序周期從而一次一個堿基的測定片段序列。
[0068] 在一些實施例中,本發(fā)明的方法適用于制備用于通過連接測序方法測序的目標(biāo)多 核苷酸,所述方法由應(yīng)用生物系統(tǒng)公司(Applied Biosystems)出售(例如SOLiD測序)。在其 它實施例中,所述方法適用于制備用于使用454/羅奇生命科學(xué)(Roche Life Sciences)商 業(yè)化的方法合成測序的目標(biāo)多核苷酸,商業(yè)化方法包括(但不限于)馬古利斯(Margulies) 等人,自然(Nature) (2005)437: 376-380(2005);以及美國專利第7,244,559號;第7,335, 762號;第7,211,390號;第7,244,567號;第7,264,929號以及第7,323,305號中所述的方法 和設(shè)備。在其它實施例中,所述方法適用于制備用于通過赫利克斯生物科學(xué)公司(Helicos BioSciences Corporation)(劍橋(Cambridge),馬薩諸塞州(Mass ?))商業(yè)化的方法測序的 目標(biāo)多核苷酸,所述商業(yè)化方法如美國申請案第11/167,046號和美國專利第7,501,245號; 第7,491,498號;第7,276,720號;以及美國專利申請公開案第1^20090061439號;第 US20080087826號;第US20060286566號;第US20060024711號;第US20060024678號;第 US20080213770號;以及第US20080103058號中所述。在其它實施例中,所述方法適用于制備 用于通過太平洋生物科學(xué)(Pacific Biosciences)商業(yè)化的方法測序的目標(biāo)多核苷酸,所 述商業(yè)化方法如美國專利第7,462,452號;第7,476,504號;第7,405,281號;第7,170,050 號;第7,462,468號 ;第7,476,503號;第7,315,019號;第7,302,146號 ;第7,313,308號;以及 美國申請公開案第US20090029385號;第US20090068655號;第US20090024331號;以及第 US20080206764 號中所述。
[0069]可用于本發(fā)明方法中的測序技術(shù)的實例為離子激流(Ion Torrent)提供的半導(dǎo)體 測序(例如使用離子個人基因組機(jī)(Ion Personal Genome Machine,PGM))。離子激流技術(shù) 可使用具有多個層的半導(dǎo)體芯片,例如具有微加工孔的層、離子敏感層以及離子感測層。核 酸可以引入到孔中,例如單核的克隆群可以連接到單頭,并且珠??梢砸氲娇字?。為了起 始珠粒上核酸的測序,一種脫氧核糖核苷酸(例如dATP、dCTP、dGTP或dTTP)可以引入到孔 中。當(dāng)通過DNA聚合酶并入一或多個核苷酸時,在孔中釋放質(zhì)子(氫離子),其可以通過離子 感測器檢測到。半導(dǎo)體芯片接著可洗滌并且可使用不同去氧核糖核苷酸重復(fù)所述方法???以在半導(dǎo)體芯片的孔中測序多個核酸。半導(dǎo)體芯片可包含化學(xué)敏感場效應(yīng)晶體管 (chemFET)陣列來測序DNA(例如如美國專利申請公開案第20090026082號中所述)。通過 chemFET改變電流可檢測到一或多個三磷酸酯并入到測序引物的3'端處的新核酸鏈中。陣 列可以具有多個chemFET感測器。
[0070] 可用于本發(fā)明方法中的測序技術(shù)的另一實例為納米孔測序(參看例如索尼G V (Soni G V)和梅勒A(Meller A.)(2007)臨床化學(xué)(Clin Chem)53:1996-2001)。納米孔可以 是直徑為約1納米的小孔。將納米孔浸沒于導(dǎo)電流體中并且跨越其施加電勢可由于離子傳 導(dǎo)穿過納米孔而產(chǎn)生微弱電流。流動的電流量對納米孔的尺寸敏感。隨著DNA分子穿過納米 孔,DNA分子上的每個核苷酸會不同程度地阻塞納米孔。因此,隨著DNA分子通過納米孔時通 過納米孔的電流變化可表示DNA序列的讀數(shù)。
[0071] 數(shù)據(jù)分析
[0072] 在一些實施例中,序列讀數(shù)用于所關(guān)注的選擇性基因組區(qū)域以及可與所關(guān)注的選 擇性區(qū)域相互作用的基因組區(qū)域的遺傳學(xué)信息的分析中。本文所披露的擴(kuò)增方法可用于遺 傳學(xué)分析領(lǐng)域中已知的裝置、試劑盒和方法中,例如(但不限于)美國專利第6,449,562號、 第6,287,766 號、第7,361,468 號、第 7,414,117 號、第6,225,109 號以及第6,110,709 號中存 在的那些。
[0073] 在一些實施例中,測序讀數(shù)用于檢測重復(fù)測序讀數(shù)。在一些實施例中,當(dāng)測序讀數(shù) 含有與來自同一測序讀數(shù)群的另一測序讀數(shù)相同的標(biāo)識位點和目標(biāo)序列時,將其鑒別為重 復(fù)測序讀數(shù)。
[0074]在一些實施例中,重復(fù)測序讀數(shù)彼此分化成真實重復(fù)對比明顯或可察覺重復(fù)。可 以從測序文庫并且使用常規(guī)重復(fù)讀數(shù)措施(即讀數(shù)使用鮑泰伊(bowtie)映射)鑒別明顯或 可察覺重復(fù),其中具有相同開始和末端核酸坐標(biāo)的全部讀數(shù)都計為重復(fù)??梢詮囊淹ㄟ^接 合引入標(biāo)識位點從而區(qū)別隨機(jī)具有相同開始和末端映射座標(biāo)的DNA片段的測序文庫鑒別出 真實重復(fù)。
[0075]在一些實施例中,如從所產(chǎn)生的核酸片段的目標(biāo)序列的測序讀數(shù)所測定,來自任 何dsDNA產(chǎn)生的兩個核酸的標(biāo)引讀數(shù)的標(biāo)識位點的序列可具有相同開始位點。如果來自兩 個核酸片段的標(biāo)引讀數(shù)的標(biāo)識位點不相同,那么目標(biāo)序列讀數(shù)不是由同一個初始dsDNA分 子產(chǎn)生,并且因此不是真實重復(fù)讀數(shù)。隨機(jī)序列接合到dsDNA分子上并且使用本發(fā)明的方法 允許鑒別真實重復(fù)讀數(shù)對比明顯或可察覺重復(fù)讀數(shù)。
[0076]在一些實施例中,測定來自具有相同開始位點的基因組DNA(gDNA)分子產(chǎn)生的兩 個核酸片段的標(biāo)引讀數(shù)的標(biāo)識位點的序列,具有相同開始位點的基因組DNA可以從核酸片 段的目標(biāo)序列的測序讀數(shù)測定。如果來自兩個核酸片段的標(biāo)引讀數(shù)的標(biāo)識位點不相同,那 么目標(biāo)序列讀數(shù)不是由同一個初始gDNA分子產(chǎn)生,并且因此不是真實重復(fù)讀數(shù)。在另一實 施例中,在銜接子插入結(jié)處插入標(biāo)識位點。通過文庫擴(kuò)增步驟進(jìn)行標(biāo)識位點的測序。標(biāo)識位 點為正向讀數(shù)期間的第一序列讀數(shù)。因為標(biāo)識序列并非邏輯上靠近天然存在的序列存在, 因此其唯一地鑒別DNA片段。因此,本發(fā)明的方法通過在初始gDNA上接合隨機(jī)序列來鑒別真 實重復(fù)讀數(shù)。
[0077] 在一些實施例中,檢測和分析重復(fù)測序讀數(shù)。可以使用'samtools rmdup'過濾重 復(fù)讀數(shù),其中去除具有相同外部坐標(biāo)的讀數(shù),僅保留一個具有最高映射質(zhì)量的讀數(shù)。過濾 后,經(jīng)過濾的重復(fù)讀數(shù)組可用于任何下游分析。相對來說,可跳過這一過濾步驟,并且可使 用未過濾的讀數(shù)(包括重復(fù))進(jìn)行下游分析。
[0078] 在一些實施例中,從許多樣品產(chǎn)生測序讀數(shù)。在一些實施例中,銜接子接合到來自 樣品的多個核酸片段,其中來自各樣品的核酸片段具有相同標(biāo)引位點。在一些實施例中,從 第一樣品和第二樣品產(chǎn)生多個核酸片段并且銜接子接合到各核酸片段,其中接合到來自第 一樣品的各核酸片段的銜接子具有相同第一標(biāo)引位點并且接合到來自第二樣品的核酸片 段的銜接子具有相同第二標(biāo)引位點。在一些實施例中,在分析目標(biāo)序列和/或標(biāo)識位點的測 序讀數(shù)之前,基于標(biāo)引位點分離與核酸片段有關(guān)的數(shù)據(jù)(例如測序讀數(shù))。在一些實施例中, 在分析和/或去除重復(fù)測序讀數(shù)之前,基于標(biāo)引位點分離核酸片段或與核酸片段有關(guān)的數(shù) 據(jù)(例如測序讀數(shù))。
[0079] 在一些實施例中,本文所披露的方法相比于其它方法以提高的精確度鑒別或檢測 一或多個真實重復(fù)。舉例來說,在一些實施例中,本文所披露的方法相比于其它方法以提高 的精確度鑒別真實重復(fù)(與鑒別明顯或可察覺重復(fù)不同)。鑒別一或多個真實重復(fù)時提高的 分辨率和/或精確度可向現(xiàn)有技術(shù)提供更準(zhǔn)確鑒別真實重復(fù)的顯著工作成果。在一些實施 例中,本文所披露的方法相比于其它方法(例如配對末端測序)以提高的效率鑒別或檢測真 實重復(fù)。檢測重復(fù)讀數(shù)(例如真實重復(fù))時精確度、分辨率和/或效率的提高可提高測序結(jié)果 的可信度(例如針對表達(dá)和CNV分析)。
[0080] 試劑盒
[0081] 試劑盒中可以包含本文所述的任何組合物。在非限制性實例中,在適合容器中的 試劑盒包含:銜接子或若干銜接子,寡核苷酸引物和用于擴(kuò)增的試劑中的一或多個。
[0082] 試劑盒的容器一般將包括至少一個小瓶、試管、燒瓶、瓶子、注射器或其它容器,其 中可放置組分,并且優(yōu)選適合地放置等分試樣。如果試劑盒中存在超過一種組分,那么試劑 盒一般也將含有第二、第三或其它額外容器,其中可分別放置額外組分。然而,容器中可包 含組分的多種組合。
[0083] 當(dāng)試劑盒的組分提供于一或多種液體溶液中時,液體溶液可以是水溶液。然而,試 劑盒的組分可以干粉形式提供。當(dāng)試劑和/或組分以干粉形式提供時,可通過添加適合溶劑 使粉末復(fù)原。
[0084] 試劑盒可包括使用試劑盒組分以及使用試劑盒中未包括的任何其它試劑的說明 書。說明書可包括可執(zhí)行的變化。
[0085] 在一些實施例中,本發(fā)明提供含有上述方法和組合物中披露的任何一或多種要素 的試劑盒。在一些實施例中,試劑盒在一或多個容器中包含本發(fā)明的組合物。在一些實施例 中,本發(fā)明提供包含銜接子、引物和/或本文所述的其它寡核苷酸的試劑盒。在一些實施例 中,試劑盒進(jìn)一步包含以下中的一或多者:(a)DNA接合酶,(b)DNA依賴性DNA聚合酶,(c)RNA 依賴性DNA聚合酶,(d)正向銜接子,(e)-或多種包含反向銜接子序列的寡核苷酸以及(f) 一或多種適于所述試劑盒中所含的一或多種要素的緩沖液。銜接子、引物、其它寡核苷酸以 及試劑可以是(但不限于)上文所述的那些中的任一者。試劑盒的要素可進(jìn)一步以(但不限 于)上文所述的任何量和/或組合提供(例如同一試劑盒或同一容器中)。試劑盒可進(jìn)一步包 含例如上文所述的那些的額外試劑以供根據(jù)本發(fā)明的方法使用。舉例來說,試劑盒可包含 為如本文所述的部分雙螺旋體銜接子的第一正向銜接子、第二正向銜接子以及特異性針對 第一正向銜接子中存在的限制和/或裂解位點的核酸修飾酶。試劑盒要素可提供于任何適 合容器中,包括(但不限于)試管、小瓶、燒瓶、瓶子、安瓿、針筒等。試劑可以直接用于本發(fā)明 方法中的形式提供,或以需要在使用之前制備的形式(例如凍干劑復(fù)原)提供。試劑可以等 分試樣提供用于單次使用,或作為可獲得多次使用(例如在許多反應(yīng)中)的儲備液形式提 供。
[0086] 在一些實施例中,試劑盒包含多個銜接子寡核苷酸,其中各銜接子寡核苷酸包含 多個標(biāo)識位點序列中的至少一者,其中多個標(biāo)識位點序列的各標(biāo)識位點序列在至少三個核 苷酸位置處不同于所述多個標(biāo)識位點序列中的所有其它標(biāo)識位點序列,以及其使用說明 書。包含不同標(biāo)識位點序列的銜接子可以單獨地供應(yīng)或與一或多種具有不同標(biāo)識位點序列 的額外銜接子組合供應(yīng)。在一些實施例中,試劑盒可包含多個銜接子寡核苷酸。
[0087] 實例
[0088] 實例1:使用NuGEN Ovation目標(biāo)增濃文庫系統(tǒng)鑒別重復(fù)測序讀數(shù)
[0089] 樣品描述:100ng來自人類HapMap樣品的DNA(NA19238)通過用Covaris系統(tǒng)(馬薩 諸塞州(MA)沃本(Woburn)的科瓦里斯公司(Covaris,Inc.))超聲處理片段化成約500個堿 基對的長度。所得DNA用末端修復(fù)酶混合物NuGEN R01280和R01439(加利福尼亞州(CA)圣卡 洛斯(San Carlos)的NuGEN技術(shù)公司)根據(jù)供應(yīng)商建議處理產(chǎn)生鈍端DNA片段。
[0090] 文庫產(chǎn)生、增濃和標(biāo)識位點并入:從頂股的5'到3'具有以下區(qū)段的寡核苷酸:1)伊 路米那標(biāo)引讀數(shù)引發(fā)位點,例如AGAGCACACGTCTGAACTCCAGTCAC(SEQ ID N0:2),2)標(biāo)引位 點,3)具有隨機(jī)6堿基序列的標(biāo)識位點,以及4)與伊路米那正向測序引發(fā)位點相同的序列, 例如TCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID N0: 3)退火成第二寡核苷酸形成部分雙股 DNA銜接子。使用來自NuGEN ' s Ovat ion U1 tralow文庫系統(tǒng)(加利福尼亞州圣卡洛斯的 NuGEN技術(shù)公司)的接合酶和接合酶反應(yīng)緩沖液根據(jù)供應(yīng)商建議將5mi這些銜接子接合到末 端修復(fù)DNA上。在25 °C下培育30分鐘后,用水稀釋反應(yīng)混合物,添加0.8 X體積Ampure XP磁 珠(馬薩諸塞州(MA)貝弗利(Beverly)的安津考特生物科學(xué)公司(Agencourt Biosciences Corporation),貝克曼庫爾特公司公司(A Beckman Coulter Company))并且徹底混合溶 液。收集、洗滌珠粒并且根據(jù)制造商建議洗脫接合的DNA片段。通過最初將溶液加熱到95°C, 接著以0.6度/分鐘將混合物從80°C緩慢冷卻到60°C,將探針池退火到洗脫DNA片段。特異性 退火的靶向探針根據(jù)制造商的方案用Taq DNA聚合酶(馬薩諸塞州(MA)伊普威治(Ipswich) 的新英格蘭生物實驗公司(New England Biolabs,Inc.))延伸。延伸后,將DNA片段根據(jù)制 造商建議收集于安津考特磁珠上,洗滌并且洗脫。這些文庫根據(jù)供應(yīng)商建議通過30個PCR周 期使用NuGEN文庫增濃引物(Ovation目標(biāo)增濃文庫系統(tǒng),加利福尼亞州圣卡洛斯的NuGEN技 術(shù)公司)增濃,所述引物也含有伊路米那流動細(xì)胞序列(加利福尼亞州圣地亞哥的伊路米那 公司)。
[0091]所得文庫使用KAPA提供的試劑盒通過qPCR定量,稀釋到2nM并且施加于伊路米那 MiSeq DNA測序器(加利福尼亞州圣地亞哥的伊路米那公司)。進(jìn)行以下系列:36堿基第一讀 數(shù),14堿基第二讀數(shù),以及24堿基第三讀數(shù)。
[0092]數(shù)據(jù)分析:根據(jù)制造商建議處理測序器輸出。為了分析數(shù)據(jù),標(biāo)引讀數(shù)拆分成兩個 文檔。第一文檔含有標(biāo)引讀數(shù)的前8個堿基并且用作標(biāo)準(zhǔn)文庫解析的文庫索引文檔。另一文 檔僅含有隨機(jī)堿基并且保留用于進(jìn)一步序列解析。
[0093]在用鮑泰伊比對器(蘭米德B(Langmead B.)等人,短DNA序列與人類基因組的超快 和記十乙高效比對(Ultrafast and memory-efficient alignment of short DNA sequences to the human genome).基因組生物學(xué)(Genome Biol. )2009,10:R2.)進(jìn)行序列 比對的數(shù)據(jù)分析流水線之后,通過基因組開始位置鑒別重復(fù)讀數(shù)。此時,針對隨機(jī)堿基文檔 檢驗在相同基因組位置處開始的測序讀數(shù),看其是否接合有相同或不同隨機(jī)堿基組。如果 具有相同開始基因組座標(biāo)的兩個序列具有相同隨機(jī)堿基組,那么認(rèn)為其來自相同初始DNA 接合事件,而不管使用哪一種Ovation目標(biāo)增濃靶向探針來產(chǎn)生所討論的序列片段。這些序 列因此不提供關(guān)于開始基因組DNA的特有信息并且出于變異分析目的被認(rèn)為是一個測序讀 數(shù)。具有相同開始基因組座標(biāo)并且具有不同隨機(jī)堿基的兩個序列讀數(shù)源自特有接合事件并 且出于變異鑒別的目的都被視為有效測序讀數(shù)。圖5提供表明重復(fù)讀數(shù)的鑒別的分析結(jié)果。 使用標(biāo)識位點允許對比明顯或可察覺重復(fù)的數(shù)目測定真實復(fù)制數(shù)目。
[0094] 如果兩個文庫的序列相同,那么其復(fù)制狀態(tài)未知,因為這可能偶然出現(xiàn)于任何文 庫中。如果標(biāo)識序列與文庫讀數(shù)組合使用,那么可測定狀態(tài)(如果相同,那么是重復(fù),如果不 同,那么是相異)。使用SPET系統(tǒng),通常是一端,因此兩個文庫具有相同端的機(jī)率增加。這些 將看起來是重復(fù)序列并且其真實狀態(tài)可以通過查看標(biāo)識序列來判斷。
[0095] 由對全部隨機(jī)所選讀數(shù)取樣,使用標(biāo)識位點提供對真實重復(fù)的存在的分辨提高。 當(dāng)評估兩百萬個隨機(jī)讀數(shù)時,發(fā)現(xiàn)明顯重復(fù)占全部讀數(shù)的39%。然而,發(fā)現(xiàn)通過使用標(biāo)識位 點鑒別的真實重復(fù)占全部讀數(shù)的僅26%。發(fā)現(xiàn)使用標(biāo)識位點的方法顯著提高讀數(shù)池內(nèi)真實 重復(fù)數(shù)的分辨。
[0096] 實例2:去除具有8堿基標(biāo)識位點的重復(fù)測序讀數(shù)
[0097]在標(biāo)準(zhǔn)RNA測序文庫中,銜接子接合到雙股cDNA的末端。這些銜接子含有允許PCR 擴(kuò)增以及在高處理量測序機(jī)上測序的通用序列。在接合端使用大額外序列群合成銜接子, 其中各額外序列為標(biāo)識位點。標(biāo)識位點存在于銜接子和cDNA之間的結(jié)處。序列讀數(shù)以標(biāo)識 位點開始并且后面是cDNA序列。
[0098] 這一標(biāo)識位點池用于檢測PCR重復(fù),因為PCR重復(fù)將含有相同標(biāo)識位點,而兩個不 同cDNA分子將接合到含有兩個不同標(biāo)識位點的兩個不同銜接子。這一標(biāo)識位點設(shè)計成引入 到銜接子末端上的八個隨機(jī)堿基。來自文庫的序列讀數(shù)由含有8個標(biāo)識位點堿基,后面是 cDNA序列的此類銜接子形成。標(biāo)準(zhǔn)PCR重復(fù)去除軟件(例如皮卡德、Markduplicates和/或 SAMtools rndup)用于鑒別和去除PCR重復(fù),留下碰巧具有相同序列的多個cDNA片段的任何 實例用于分析。 _9] 實例3:去除具有隨機(jī)1-8堿基標(biāo)識位點的混合物的重復(fù)測序讀數(shù)
[0100] 在標(biāo)準(zhǔn)RNA測序文庫中,銜接子接合到雙股cDNA的末端。這些銜接子含有允許PCR 擴(kuò)增以及在高處理量測序機(jī)上測序的通用序列。在接合端使用大額外序列群合成銜接子, 其中各額外序列為標(biāo)識位點。標(biāo)識位點存在于銜接子和cDNA之間的結(jié)處。序列讀數(shù)以標(biāo)識 位點開始并且后面是cDNA序列。
[0101] 這一標(biāo)識位點池用于檢測PCR重復(fù),因為PCR重復(fù)將含有相同標(biāo)識位點,而兩個不 同cDNA分子將接合到含有兩個不同標(biāo)識位點的兩個不同銜接子。
[0102] 將1到8個隨機(jī)堿基引入到銜接子的末端上。來自文庫的序列讀數(shù)由含有1到8個標(biāo) 識位點堿基,后面是cDNA序列的此類銜接子形成。標(biāo)準(zhǔn)PCR重復(fù)去除軟件(例如皮卡德、 Markduplicates和/或SAMtools rndup)用于鑒別和去除PCR重復(fù),留下碰巧具有相同序列 的多個cDNA片段的任何實例用于分析。
[0103] 實例4:去除具有96個限定的6堿基標(biāo)識位點的混合物的重復(fù)測序讀數(shù) [0104]在標(biāo)準(zhǔn)RNA測序文庫中,銜接子接合到雙股cDNA的末端。這些銜接子含有允許PCR 擴(kuò)增以及在高處理量測序機(jī)上測序的通用序列。在接合端使用大額外序列群合成銜接子, 其中各額外序列為標(biāo)識位點。標(biāo)識位點存在于銜接子和cDNA之間的結(jié)處。序列讀數(shù)以標(biāo)識 位點開始并且后面是cDNA序列。
[0105] 這一標(biāo)識位點池用于檢測PCR重復(fù),因為PCR重復(fù)將含有相同標(biāo)識位點,而兩個不 同cDNA分子將接合到含有兩個不同標(biāo)識位點的兩個不同銜接子。
[0106] 將96個限定的六堿基序列的混合物引入到銜接子的末端上。因此,各六堿基序列 為標(biāo)識位點。來自文庫的序列讀數(shù)由含有96個六堿基標(biāo)識位點,后面是cDNA序列的此類銜 接子形成。標(biāo)準(zhǔn)PCR重復(fù)去除軟件(例如皮卡德、Markdupl i cates和/或SAMtoo 1 srndup)用于 鑒別和去除PCR重復(fù),留下碰巧具有相同序列的多個cDNA片段的任何實例用于分析。
[0107] 實例5:測定mRNA表達(dá)含量時鑒別重復(fù)測序讀數(shù)
[0108]樣品描述:為了發(fā)現(xiàn)兩種樣品類型之間轉(zhuǎn)錄物表達(dá)含量的差異,從腫瘤和正常鄰 近組織提取總RNA。根據(jù)供應(yīng)商建議,使用USP引物、反應(yīng)緩沖液以及逆轉(zhuǎn)錄酶NuGEN ' s Encore完全文庫系統(tǒng)(加利福尼亞州圣卡洛斯的NuGEN技術(shù)公司)將100ng各樣品轉(zhuǎn)化成 cDNA。這后面是第二股合成,同樣根據(jù)建議使用試劑盒中所提供的材料。根據(jù)制造商說明使 用來自生命技術(shù)(加利福尼亞州卡爾斯巴德)的Superscript靜雙股cDNA合成試劑盒制備雙 股cDNA。用科瓦里斯S系列裝置(Covaris S-series device)(馬薩諸塞州沃本的科瓦里斯 公司((:〇¥31^8,111(3.,¥〇13111'11,]\^)),使用儀器提供的20(^口超聲處理方案(10%工作循環(huán), 200次循環(huán)/脈沖,5強(qiáng)度,180秒)剪切DNAANA用總體積15yL的1.5yL10 X鈍化緩沖液,0.5yL 鈍化酶(馬薩諸塞州伊普威治的新英格蘭生物實驗公司;p/nE1201)和1.2yL 2.5mM各dNTP 混合物在25 °C下處理30分鐘,隨后在70 °C下處理10分鐘。
[0109]文庫產(chǎn)生:接著使用NuGEN's Ovation超低文庫系統(tǒng)(加利福尼亞州圣卡洛斯的 NuGEN技術(shù)公司)提供的末端修復(fù)緩沖液和酶對DNA片段進(jìn)行末端修復(fù)。
[0116] 常見搭配物5'NNNNNNNNAGATCGGAAGAGC(SEQ ID N0:7)全部從IDT(愛荷華州(IA) 科勒爾維爾(Coralville)的集成DNA技術(shù)(Integrated DNA Technologies),Coralville, IA)訂購。反向銜接子各自含有能夠突出這些銜接子形成的文庫的唯一標(biāo)識(帶下劃線的)。 在這一情形中,N表示A、C、G和T的等摩爾混合物。將10mM MgC12、50mM Tris pH 8中的5yM正 向、5yM反向以及10yM常見加熱到95°C持續(xù)5分鐘,接著冷卻到20°C。通過添加4.5yL水,3yL 銜接子混合物(上文制備),6yL 5 X NEBNext快速接合反應(yīng)緩沖液和1.5yL快速T4DNA接合酶 (馬薩諸塞州伊普威治的新英格蘭生物實驗公司;p/n E6056),隨后在25°C下培育30分鐘, 隨后在70°C下培育10分鐘,進(jìn)行銜接子接合。通過添加70yL水和80yL Ampure XP珠粒(安津 考特基因組學(xué)(Agencourt Genomics)),用70%乙醇洗滌兩次并且用20yL 10mM Tris pH 8.0洗脫,純化接合產(chǎn)物。在含有0.5虛各引物(5 'AATGATACGGCGACCACCGA(SEQ ID NO: 8)和 5'CAAGCAGAAGACGGCATACGA(SEQ ID N0:9),10mM Tris-HCl,pH 8.3,50mM KCl,2mM MgC12, 0.2mM各dNTP以及1單位Taq聚合酶的50yL PCR中擴(kuò)增文庫產(chǎn)物。反應(yīng)在95°C下15秒,60°C下 1分鐘的條件下循環(huán)15次。如上文所述用1體積Ampure XP珠粒(馬薩諸塞州貝弗利的安津考 特生物科學(xué)公司,貝克曼庫爾特公司)純化PCR產(chǎn)物。根據(jù)供應(yīng)的說明,通過HS DNA生物分析 儀(加利福尼亞州圣克拉拉的安捷倫技術(shù))分析文庫并且用KAPA文庫定量試劑盒(馬薩諸塞 州威明頓的KAPA生物系統(tǒng)(KAPA Biosystems,Wilmington,MA) ;p/n KK4835)定量。將所得 文庫組合并且與GAIIx、MiSeq或Hi Seq測序儀器(加利福尼亞州圣地亞哥的伊路米那公司) 的標(biāo)準(zhǔn)TruSeq單端或成對伊路米那測序方案相容。操作以下系列步驟:50堿基第一讀數(shù),6 堿基第二讀數(shù)。計數(shù)目的或復(fù)制分析不需要第三讀數(shù)。
[0117] 數(shù)據(jù)分析:根據(jù)制造商建議處理測序器輸出。標(biāo)引讀數(shù)的6個堿基用于標(biāo)準(zhǔn)文庫解 析、分離兩種樣品類型的數(shù)據(jù)文檔。彼此比較目標(biāo)序列讀數(shù)的前50個堿基。與任何其它讀數(shù) 具有相同序列的任何讀數(shù)鑒別為重復(fù)并且從群去除,因此文檔中僅保留單個拷貝。當(dāng)已去 除重復(fù)讀數(shù)后,從各讀數(shù)微調(diào)8個堿基。微調(diào)的讀數(shù)與參考基因組比對。接著通過利用例如 cufflinks或cuff diff的腳本(塔普內(nèi)(Trapnel 1)等人.2010,自然生物技術(shù)(Nature Biotechnology),28,511-515;塔普內(nèi)等人.2013,自然生物技術(shù),31,46-53)比較文庫之間 的FPKM(每百萬讀數(shù)每千堿基的片段數(shù))值測定差異表達(dá)。
[0118] 實例6:使用配對末端讀數(shù)中的目標(biāo)序列測序標(biāo)識位點
[0119]根據(jù)制造商方案使用針對低復(fù)雜度樣品的Ovation文庫系統(tǒng)(加利福尼亞州圣卡 洛斯的NuGEN技術(shù)公司)產(chǎn)生四個文庫,每一個來自單個擴(kuò)增子。在伊路米那MiSeq(加利福 尼亞州圣地亞哥的伊路米那公司)上以多路形式混合和測序經(jīng)純化的文庫產(chǎn)生125nt正向、 8nt標(biāo)引l、8nt標(biāo)引2和25nt反向讀數(shù)。因為全部擴(kuò)增子讀數(shù)在相同序列坐標(biāo)開始和結(jié)束,不 能使用所以標(biāo)記文庫PCR重復(fù)的傳統(tǒng)方法(將在相同基因組坐標(biāo)開始和結(jié)束的讀數(shù)標(biāo)記為 重復(fù))。實際上,接合到擴(kuò)增子的銜接子中所含的〇_8nt隨機(jī)序列作為標(biāo)識序列處理并且用 于標(biāo)記重復(fù)。與任何其它配對末端讀數(shù)共用相同長度和這些隨機(jī)堿基的序列的任何配對末 端讀數(shù)被稱作重復(fù)。下表示出了這一重復(fù)標(biāo)記的結(jié)果。
[0120]表1.
[0122]表1證實用于區(qū)分重復(fù)讀數(shù)與來自真正獨立分子的讀數(shù)的方法的精確度。表1最后 一列中描繪的來自獨立分子的讀數(shù)群表示來自用于產(chǎn)生文庫的獨立擴(kuò)增子分子的序列。 [0123] 實例7:在簡化代表性亞硫酸氫鹽(RRBS)文庫中使用目標(biāo)序列測序標(biāo)識位點
[0124] 通過100ng輸入樣品的完全限制酶消化,隨后選擇短片段產(chǎn)生人類基因組的簡化 代表性亞硫酸氫鹽(RRBS)文庫。所得片段池接合到包含標(biāo)引位點和標(biāo)識位點的銜接子序 列。標(biāo)識位點包含6或8個隨機(jī)核苷酸。接著對序列進(jìn)行測序以鑒別標(biāo)識位點,因此揭露池中 的真實重復(fù)數(shù)。在無標(biāo)識位點存在的情況下,明顯或可察覺重復(fù)的數(shù)目多于真實重復(fù)的數(shù) 目。相較于明顯或可察覺重復(fù)的較大數(shù)目,標(biāo)識位點的納入導(dǎo)致鑒別真實重復(fù)的數(shù)目。
[0125] 除非另外規(guī)定,否則本文的所有技術(shù)和科學(xué)術(shù)語都具有與本發(fā)明所屬領(lǐng)域的普通 技術(shù)人員通常所理解相同的含義。盡管在本發(fā)明的實施或測試中也可以使用與本文中描述 的方法和材料類似或等效的任何方法和材料,但是優(yōu)選的方法和材料描述于本文中。所引 用的所有公開案、專利和專利公開案都出于所有目的以全文引用的方式并入本文中。
[0126] 提供本文中討論的公開案僅僅針對其在本申請案的申請日之前的披露內(nèi)容。不應(yīng) 將本文中的任何內(nèi)容理解為承認(rèn)本發(fā)明無權(quán)先于憑借先前發(fā)明的此類披露內(nèi)容。
[0127] 本文中所引用的所有參考文獻(xiàn)、論文、公開案、專利、專利公開案以及專利申請案 都出于所有目的特此以全文引用的方式并入。然而,提及本文引用的任何參考文獻(xiàn)、論文、 公開案、專利、專利公開案以及專利申請案不是并且不應(yīng)認(rèn)為是承認(rèn)或以任何形式暗示其 構(gòu)成有效現(xiàn)有技術(shù)或形成世界上任何國家的公共常識的部分。
[0128] 盡管已結(jié)合具體實施例描述本發(fā)明,但應(yīng)理解,其能夠進(jìn)一步修改并且本申請案 打算涵蓋本發(fā)明的任何變化、使用或修改,所述變化、使用或修改一般來說遵循本發(fā)明原理 并且包括本發(fā)明的此類背離作為在本發(fā)明所涉及的所屬領(lǐng)域內(nèi)的已知或慣用實踐范圍內(nèi) 并且作為可以應(yīng)用于上文闡述和如下的所附權(quán)利要求書的范圍中的基本特征。
【主權(quán)項】
1. 一種用于從樣品測序讀數(shù)群中檢測重復(fù)測序讀數(shù)的方法,其包含: a) 將銜接子接合到來自一或多個樣品的多個核酸片段的各核酸片段的5'端,其中所述 銜接子包含: (i) 標(biāo)引引物結(jié)合位點; (ii) 標(biāo)引位點; (iii) 標(biāo)識位點;以及 (iv) 目標(biāo)序列引物結(jié)合位點; b) 擴(kuò)增所述銜接子-核酸片段接合產(chǎn)物; c) 從擴(kuò)增的銜接子-核酸片段接合產(chǎn)物產(chǎn)生測序讀數(shù)群;以及 d) 檢測包含具有重復(fù)標(biāo)識位點和目標(biāo)序列的測序讀數(shù)的所述測序讀數(shù)群。2. 根據(jù)權(quán)利要求1所述的方法,其中所述方法進(jìn)一步包含從所述序列讀數(shù)群去除具有 重復(fù)標(biāo)識位點和目標(biāo)序列的所述測序讀數(shù)。3. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)識位點用所述標(biāo)引位點測序。4. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)識位點單獨從所述標(biāo)引位點測序。5. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)識位點用所述目標(biāo)序列測序。6. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)識位點單獨從所述目標(biāo)序列測序。7. 根據(jù)權(quán)利要求1所述的方法,其中所述銜接子從5 '到3 '包含: (i) 所述標(biāo)引引物結(jié)合位點; (ii) 所述標(biāo)引位點; (i i i)所述標(biāo)識位點;以及 (iv)所述目標(biāo)序列引物結(jié)合位點。8. 根據(jù)權(quán)利要求1所述的方法,其中所述銜接子從5 '到3 '包含: (i) 所述標(biāo)引引物結(jié)合位點; (ii) 所述標(biāo)引位點; (iii) 所述目標(biāo)序列引物結(jié)合位點;以及 (i v)所述標(biāo)識位點。9. 根據(jù)權(quán)利要求1所述的方法,其中所述多個核酸片段從超過一種樣品產(chǎn)生。10. 根據(jù)權(quán)利要求9所述的方法,其中來自各樣品的所述核酸片段具有相同標(biāo)引位點。11. 根據(jù)權(quán)利要求10所述的方法,其中所述測序讀數(shù)基于所述標(biāo)引位點分離。12. 根據(jù)權(quán)利要求11所述的方法,其中測序讀數(shù)的所述分離在步驟d)之前進(jìn)行。13. 根據(jù)權(quán)利要求1所述的方法,其中所述核酸片段為DNA片段、RNA片段或DNA/RNA片 段。14. 根據(jù)權(quán)利要求13所述的方法,其中所述核酸片段為基因組DNA片段或cDNA片段。15. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)引位點的長度介于2個核苷酸與8個核苷酸 之間。16. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)引位點的長度為約6個核苷酸。17. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)識位點的長度介于1個核苷酸與8個核苷酸 之間。18. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)識位點的長度為約8個核苷酸。19. 根據(jù)權(quán)利要求1所述的方法,其中所述標(biāo)引引物結(jié)合位點為通用標(biāo)引引物結(jié)合位 點。20. 根據(jù)權(quán)利要求1所述的方法,其中所述目標(biāo)序列引物結(jié)合位點為通用目標(biāo)序列引物 結(jié)合位點。21. -種包含多種銜接子的試劑盒,其中各銜接子包含: (i) 標(biāo)引引物結(jié)合位點; (ii) 標(biāo)引位點; (iii) 標(biāo)識位點;以及 (iv) 目標(biāo)測序引物結(jié)合位點。
【文檔編號】C12N15/11GK105849264SQ201480071000
【公開日】2016年8月10日
【申請日】2014年11月13日
【發(fā)明人】道格拉斯·阿莫雷塞, 喬納森·斯科爾尼克, 本·施羅德
【申請人】紐亙技術(shù)公司