專利名稱:檢測或定量測定核酸種類的方法和組合物的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及核酸分析的方法和儀器,并且,特別地,涉及核酸分析的方法和儀器。
背景測定核酸樣品中四個核苷酸的速率是分子生物學(xué),醫(yī)藥,和生物技術(shù)進一步發(fā)展的主要技術(shù)障礙。從1978年開始就使用了包括在凝膠中分離核酸分子的核酸測序方法。其它己證實的測定核酸序列的方法是通過雜交測序(SBH)。
測定核苷酸序列(即樣品中A,G,C和T核苷酸的順序)的傳統(tǒng)方法是,在特異核苷酸處降解核酸片段,或者通過復(fù)制鏈的雙脫氧鏈終止來制備隨機終止的、差別標(biāo)志的混合物。得到的1-500bp范圍內(nèi)的核酸片段然后在凝膠上分離,產(chǎn)生梯帶,其中相鄰樣品長度差別在于一個核苷酸。
以陣列為基礎(chǔ)的SBH研究在分離,降解,合成或成象核酸分子中不需要單個堿基的拆分。使用k個堿基長度的短的寡核苷酸的失配鑒別雜交,可以就靶核酸確定一系列組成k聚體寡核苷酸。靶核酸的序列可以通過獨一無二地與重疊評價(scored)的寡核苷酸來裝配。
有幾種途徑能實現(xiàn)通過雜交測序。在稱之為SBH版本1的方法中,核酸樣品排成陣列,標(biāo)記探針與樣品雜交。帶有相同系列核酸樣品的影印膜可以用來平行評價幾種探針和/或探針可以是多重結(jié)合(multiplexing的。核酸樣品可以排成陣列并且在尼龍膜或者其它合適的支持體上雜交。每個膜陣列可以重復(fù)使用多次。版本1對于大量樣品成批處理特別有效。
在SBH版本2中,探針在位于相應(yīng)于它們各自序列的基質(zhì)上排成陣列,標(biāo)記的核酸樣品片段與這些排成陣列的探針雜交。在這種情況下,可以在與所有排列的探針同時雜交反應(yīng)測定關(guān)于片段的序列信息。關(guān)于對其它核酸片段的測序,可以重復(fù)使用相同的寡核苷酸陣列。陣列可以通過點斑或者原位合成探針而制備。
在版本3 SBH中,使用兩套探針。在一個實施方案中,一套可以是已知位置探針陣列形式,另一套,標(biāo)記的一套,可以貯存在多孔平板中。在這種情況下,靶核酸不需要標(biāo)記。靶核酸和一種或多種標(biāo)記探針加入到排列的探針系列中。如果接觸的探針和一個標(biāo)記探針兩者在靶核酸上會合雜交,它們共價連接,產(chǎn)生與連接的探針的長度的總和相等的被檢測的序列。該方法用于測序長核酸片段,例如沒有小片段核酸亞克隆的完整細(xì)菌基因組。
在本發(fā)明中,SBH被用來有效鑒定和測序一種或多種核酸樣品。該方法在核酸診斷,法醫(yī)學(xué)和基因制圖中有諸多應(yīng)用。其也可以用來鑒定遺傳病和其它性狀成因突變,評價生物多樣性和產(chǎn)生多種類型以核酸序列為基礎(chǔ)的數(shù)據(jù)。
發(fā)明概述本發(fā)明提供檢測靶核酸種類的方法,包括下面的步驟提供附著在基質(zhì)上的探針和多個標(biāo)記探針的陣列,其中選擇的每個標(biāo)記探針具有與靶核酸的第一部分互補的第一核酸序列,并且其中至少一個與基質(zhì)附著的探針的核酸序列與靶物的核酸序列的第二部分互補,該第二部分與第一部分鄰接;在探針序列與互補序列雜交的合適的條件下將靶核酸加樣于陣列;將標(biāo)記探針加到陣列中;與基質(zhì)附著的探針和靶核酸雜交;標(biāo)記探針與靶核酸雜交;標(biāo)記探針與陣列中鄰接雜交的探針附著;和檢測與陣列中的探針附著的標(biāo)記探針。根據(jù)本發(fā)明的優(yōu)選的方法附著基質(zhì)的探針的陣列包括一套通用探針。
根據(jù)本發(fā)明又一個優(yōu)選方面,至少兩個附著基質(zhì)的探針限定靶核酸序列的重疊序列,并且更優(yōu)選至少兩個標(biāo)記探針限定靶核酸序列的重疊序列。
還有,根據(jù)本發(fā)明的另一方面是提供一種方法,其用于對已知序列的靶核酸的檢測,包括下面的步驟在雜交條件下,核酸樣品與一套附著固體基質(zhì)的固定化寡核苷酸探針接觸,其中固定化探針能特異性與所述靶核酸序列的不同部分雜交;在雜交條件下在溶液中,靶核酸與一套標(biāo)記的寡核苷酸探針接觸,其中標(biāo)記探針能特異性與同所述固定化探針鄰接的靶核酸序列的不同部分雜交;固定化探針與標(biāo)記探針共價連接,所述標(biāo)記探針與固定化探針(例如用連接酶)在靶序列上緊鄰;去除所有沒有連接的標(biāo)記探針;通過測定所述附著于固定化探針的標(biāo)記探針的存在來測定靶核酸的存在。本發(fā)明還提供了測定多套部分或完全測序的基因在細(xì)胞種類,組織或組織混合物中表達的方法,包括下面的步驟確定對測序基因特異的固定和標(biāo)記探針對;將未標(biāo)記的核酸樣品和相應(yīng)的標(biāo)記探針與固定探針的一個或多個陣列雜交;相鄰的雜交的標(biāo)記的和固定探針之間形成共價鍵;去除未連接的探針;和通過測定與陣列中預(yù)先特定的位置結(jié)合的標(biāo)記探針來確定測序基因的存在。
在本發(fā)明該方面的優(yōu)選實施方案中,靶核酸將鑒定感染性因子的存在。
此外,本發(fā)明提供寡核苷酸探針的陣列,其包括尼龍膜;尼龍膜上有多個寡核苷酸探針亞陣,亞陣包括多個分立的點斑,其中每一個點斑由多個相同序列的寡核苷酸探針組成;和位于尼龍膜上亞陣之間多個疏水性隔柵,通過這些多個疏水性隔柵防止相鄰亞陣之間交叉污染。
進一步,本發(fā)明提供測序在靶核酸中具有第一末端和第二末端的重復(fù)序列的方法,包括下面步驟(a)提供多個不同長度的間隔寡核苷酸,其中間隔寡核苷酸包括重復(fù)序列;(b)提供已知與重復(fù)序列的第一末端鄰接的第一寡核苷酸;(c)提供多個第二寡核苷酸,其中一個與重復(fù)序列的第二末端相鄰,其中多個第二寡核苷酸是標(biāo)記的;(d)使第一寡核苷酸和多個第二寡核苷酸,和多個間隔寡核苷酸之一與靶核酸雜交;(e)連接雜交的寡核苷酸;(f)從未連接的寡核苷酸分離上連接的寡核苷酸;和(g)檢測連接的寡核苷酸中的標(biāo)記。
進一步,本發(fā)明提供測序在靶核酸中具有第一末端和第二末端的分支點序列的方法,包括下面步驟(a)提供與分支點序列的第一部分互補的第一寡核苷酸,其中第一寡核苷酸從分支點序列的第一末端伸展至少一個核苷酸;(b)提供多個標(biāo)記的,并且與分支點序列的第二部分互補的第二寡核苷酸,其中多個第二寡核苷酸從分支點序列的第二末端伸展至少一個核苷酸,并且其中從分支點序列的第二末端伸展的第二寡核苷酸部分包括與多個由分支點序列產(chǎn)生的序列互補的序列;(c)使第一寡核苷酸,和多個第二寡核苷酸中的一個與靶DNA雜交;(d)連接雜交的寡核苷酸;(e)從未連接的寡核苷酸分離連接的寡核苷酸;和(f)檢測連接的寡核苷酸中的標(biāo)記。
此外,本發(fā)明提供通過使用探針證明序列的方法,所述探針預(yù)計對于靶核酸是陰性的。然后通過使靶核酸與“陰性”探針雜交來證明這些探針與靶核酸不形成完全的配對來證實靶物序列。
此外,本發(fā)明提供使用與不同的標(biāo)記相配合使得探針在雜交反應(yīng)中可以是多重結(jié)合而沒有損失序列信息的寡核苷酸探針分析核酸的方法(即不同的探針具有不同的標(biāo)記,使得可以區(qū)分不同探針與靶物的雜交)。在優(yōu)選的實施方案中,標(biāo)記是放射性同位素,或者熒光分子,或者酶,或者電子團物質(zhì)(electrophore mass)標(biāo)記。在更優(yōu)選的實施方案中,在版本III SBH中使用不同標(biāo)記的寡核苷酸探針,并且一起連接多個探針(多于兩個,其中一個探針是固定化探針)。
此外,本發(fā)明提供當(dāng)與樣品中同源核酸相比靶物以非常少的量存在時檢測具有已知序列的靶核酸的存在的方法。在優(yōu)選的實施方案中,靶核酸是以非常低的頻率在樣品中存在的等位基因,而樣品具有來自很多來源的核酸。在另一個優(yōu)選的實施方案中,靶核酸具有突變序列,并且以非常低的頻率存在于核酸樣品中。
此外,本發(fā)明提供通過使用單道凝膠(single pass gel)測序證明靶核酸序列的方法。用于單道凝膠測序的引物是由通過SBH獲得的序列衍生的,這些引物在標(biāo)準(zhǔn)桑格測序反應(yīng)中使用,提供靶核酸的凝膠序列信息。通過單道凝膠測序獲得的序列然后與SBH衍生的序列相比較,來證實序列。
此外,本發(fā)明提供通過使用單道凝膠測序來解釋分支點的方法。用于單道凝膠測序反應(yīng)的引物是從第一輪SBH測序后獲得的Sfs的末端鑒定的,并且這些引物在標(biāo)準(zhǔn)桑格測序反應(yīng)中使用,提供通過Sfs的分支點的凝膠測序信息。然后通過比較從分支點至Sfs的桑格測序結(jié)果比較Sfs來鑒定毗鄰的Sfs。
此外,本發(fā)明提供通過PCR制備包含靶核酸樣品的方法,在SBH反應(yīng)之前不用純化PCR產(chǎn)物。在版本I SBH中,粗PCR產(chǎn)物不用事先純化即可施加于基質(zhì),并且該基質(zhì)可以在加入標(biāo)記探針之前洗滌。
此外,本發(fā)明提供分析靶核酸的方法和儀器。儀器包括在期望的時間一起混合的兩個陣列的核酸。在優(yōu)選的實施方案中,其中一個陣列中的核酸是標(biāo)記的。在更優(yōu)選的實施方案中,一種材料置于兩個陣列之間,這種材料防止陣列中核酸的混合。當(dāng)取出材料或者使可透過時,兩個陣列中的核酸混合在一起。在另一個優(yōu)選的實施方案中,一個陣列中的核酸是靶核酸而另一個陣列中的核酸是寡核苷酸探針。在另一個優(yōu)選的實施方案中,兩個陣列中的核酸是寡核苷酸探針。在另一個優(yōu)選的實施方案中,一個陣列中的核酸是寡核苷酸探針和靶核酸,而另一個陣列中的核酸是寡核苷酸探針。在另一個優(yōu)選的實施方案中,兩個陣列中的核酸是寡核苷酸探針和靶核酸。
使用上述儀器的本發(fā)明的一個方法包括下面的步驟提供與基質(zhì)固定的核酸陣列,提供核酸的第二陣列,提供使第二陣列中的核酸與固定的陣列的核酸接觸的條件,其中核酸陣列中的一個是靶核酸而另一個陣列是寡核苷酸探針,和分析雜交結(jié)果。在優(yōu)選的實施方案中,固定的陣列是靶核酸而第二陣列是標(biāo)記的寡核苷酸探針。在更優(yōu)選的實施方案中,一種材料置于兩個陣列之間,防止陣列中核酸的混合,直到材料被取出或者使之可透過核酸。
在使用上述儀器的本發(fā)明的第二個方法中包括下面步驟提供兩個核酸陣列,提供使兩個陣列的探針相互之間接觸和與靶核酸接觸的條件,連接在靶核酸上鄰接的探針,和分析結(jié)果。在優(yōu)選的實施方案中,一個陣列中的探針是固定的,另一個陣列中的探針是標(biāo)記的。在更優(yōu)選的實施方案中,一種材料置于兩個陣列之間,防止探針的混合,直到材料被取出或者使之可透過探針。
優(yōu)選實施方案的詳細(xì)描述版本I SBH適用于同時分析一大套樣品。在大的陣列上平行評價上千種樣品可以使用一小片膜在上千個獨立的雜交反應(yīng)中進行。對于每個樣品,每個反應(yīng)的DNA鑒定可能涉及1-20個探針,而在某些情況下突變的鑒定涉及具體選擇或設(shè)計的1000個以上探針。為了鑒定突變DNA片段的性質(zhì),對于在雜交第一輪中檢測到的各突變可以合成或選擇特異性探針。
可以在可以被適當(dāng)?shù)拈g隔區(qū)分開的小陣列中制備DNA樣品,它可以用選自可以在多孔平板中排成陣列的一套寡核苷酸中探針同時檢測。小的陣列可以由一個或多個樣品組成。每個小的陣列中的樣品可以包括一個序列的突變體或者各樣品。連續(xù)的小陣列可以組成更大的陣列。這樣的更大的陣列可以包括相同小陣列的重復(fù)或者可以包括不同DNA片段樣品的陣列。一套通用的探針包括以預(yù)先指定的精確性分析DNA的足夠的探針,例如,就每個堿基對(“bp”)讀出的豐余性來說。這些系列可以包括比一個具體的片段所需要的更多的探針,但是可以包括比試驗上千個不同序列的DNA樣品所需要的更少的探針。
DNA或等位基因鑒定和診斷測序方法可以包括下面的步驟1)從提供的代表性的或通用的與多個小陣列的每一個雜交的探針中,選擇一亞套探針;2)將第一探針加到要平行分析的各陣列上的各亞陣列中;3)進行雜交并且評價雜交結(jié)果;4)去除事先使用的探針;5)對留下要評價的探針重復(fù)雜交、評價和去除步驟;6)處理得到的結(jié)果,獲得最終分析結(jié)果或者確定要雜交的另外的探針;7)對于某些亞陣列進行另外的雜交;和8)處理完全成套的數(shù)據(jù)并且獲得最終分析結(jié)果。
該項研究提供了一種類型(例如DNA,RNA)少量核酸樣品的快速鑒定方法和測序方法,也提供了通過使用一套預(yù)先合成的可操縱大小的探針平行分析亞陣列形式的很多樣品類型的方法。兩項研究結(jié)合,產(chǎn)生用于鑒定DNA同一性,用于DNA診斷學(xué),和用于鑒定突變的有效而通用的方法。
對于鑒定已知的序列,可以用一小套較短的探針代替較長的獨特的探針。在該項研究中,盡管要評價更多的探針,但是可以合成一套通用的探針來覆蓋所有類型序列。例如,6-聚體一整套只包括4096個探針,7-聚體完全一套只包括16384個探針。
DNA片段的完全測序可以用兩種水平的雜交作用進行。一種水平是至少覆蓋每一個堿基一次的充足一套探針的雜交作用。為此目的,對于標(biāo)準(zhǔn)樣品可以合成特定一套探針。與這樣一套探針雜交的結(jié)果表明非標(biāo)準(zhǔn)樣品中是否和何處存在突變(不同)。此外該套探針可以包括證實“陽性”(positive)探針的雜交結(jié)果的“陰性”(negative)探針。為了確定改變的同一性,另外的特異性探針可以與樣品雜交。這另外一套探針將具有“陽性”(突變序列)和“陰性”探針,序列變化可以通過陽性探針鑒定和通過陰性探針證實。
在另一個實施方案中,可以評價來自一套通用探針的所有探針。一套通用探針使得對于每個樣品在兩步過程中評價相對少量的探針而不需要浪費時間。雜交過程包括連續(xù)探測,第一步驟中計算要首先雜交的最佳探針亞套,然后以獲得的結(jié)果為基礎(chǔ),第二步從通用一套中確定待評價的另外的探針。兩套探針都具有“陰性”探針,證實該套中的陽性探針。此外,獲得的序列然后可以通過使樣品與一套從SBH結(jié)果鑒定的“陰性”探針雜交而在分開的步驟中證實。
在SBH序列裝配中,可以特殊考慮由于機率或生物原因而在分析的DNA片段中重復(fù)發(fā)生的K-1寡核苷酸。如果沒有另外的信息,就可以盡每一個堿基對讀出次數(shù)完全裝配相對小的DNA片段。
在相對較長片段的裝配中,由于K-1序列(即比探針長度短的序列)在一套陽性-評價探針中重復(fù)出現(xiàn)可能會產(chǎn)生兩可解釋。如果要測定突變的或類似的序列(即K-1序列不是同樣重復(fù)),則不存在這個問題。一個已知的序列可以用作模板,通過就未知序列排列陽性探針,使之在模板上最佳吻合,來正確裝配一個已知是類似的序列(例如通過其在數(shù)據(jù)庫中的存在)。
使用樣品陣列避免單個樣品上或者一小套樣品上很多寡核苷酸的連續(xù)評價。該方法使得通過只操作一個自然目標(biāo)平行評價多個探針。長度為1000bp的DNA樣品的亞陣可以以相對短的時間測序。如果在陣列中用樣品點斑50個亞陣,并且陣列重復(fù)探測10次,則可能評價500個探針。在篩選突變發(fā)生時,使用足夠的探針以覆蓋每一個堿基三次。如果存在突變,幾個覆蓋探針將受到影響。用關(guān)于陰性探針的同一性的信息可以以兩個堿基的精度對突變作圖。為了解釋以該方法制圖的單個堿基突變,可以使用另外15個探針。這些探針覆蓋兩個有問題的位置的所有的堿基組合(假設(shè)不包括缺失和插入)。這些探針可以在包含給定樣品的50個亞陣上在一次循環(huán)中評價。在多標(biāo)記著色方案的實現(xiàn)中(即多重結(jié)合的(multiplexing)),各自帶有不同的標(biāo)記例如不同的熒光染料的兩個至六個探針可以用作一個集合體,則可以減少雜交循環(huán)的次數(shù)并且縮短測序過程。
在更復(fù)雜的情況下,可能是兩個很近的突變或插入。其要用更多的探針操作。例如,三個堿基插入可以用64個探針解決。最復(fù)雜的情況可以通過幾步雜交來進行,并且在先前雜交的結(jié)果的基礎(chǔ)上選擇新的一套探針。
如果要分析的亞陣包括一種類型的幾十個或幾百個樣品,則可能發(fā)現(xiàn)它們中的幾個包含一個或多個變化(突變,插入或缺失)。對于發(fā)生突變的各片段,可以評價一套特異的探針。要對于一個樣品類型評價的探針的總數(shù)可以是幾百個。平行地對完全一樣的陣列評價有利于以相對少次循環(huán)評價上百個探針。另外,可以集中相容性探針。對于選擇來檢測特殊DNA片段的探針可以指派陽性雜交,因為這些片段通常其構(gòu)成堿基的75%不同。
通過使用更大一套更長的探針,可以分析更長的靶物。這些靶物可以代表片段的集合體例如外顯子克隆的集合體。
特異雜交評價方法可以用來確定要從二倍體染色體測序的基因組片段中突變型的存在。兩個變異是i)來自一條染色體的序列代表已知的等位基因,而來自另一條染色體的序列代表新的突變型;或者,ii)兩條染色體包含新的但是不同的突變型。在兩種情況下,設(shè)計掃描步驟對變化作圖,給出突變型位置處兩倍的最大信號差別。此外,該方法可以用來鑒定基因的哪一個等位基因被個體攜帶,和該個體對于該基因是純合的還是雜合的。
在第一種情況下需要的評價兩倍信號差別可以通過將相應(yīng)的信號與純合的和雜合的對照物相比較而有效實現(xiàn)。該方法能對于給定樣品中每一個具體的探針測定雜交信號的相對減少。這是明顯的,因為對于具體探針與具有相同完全配對靶物的不同核酸片段的雜交,雜交效率的變化可以大于兩倍。另外,根據(jù)寡核苷酸探針的數(shù)目,不同突變位點可以影響一個以上探針。兩個至四個連續(xù)探針的信號的減弱產(chǎn)生更明顯的突變位點的指示。可以通過用小套選擇的探針檢測來檢查結(jié)果,其中選擇給出完全配對信號的一個或幾個探針,其平均比來自包含失配的雙鏈體的信號強八倍。
分隔膜使非常靈活地組織試驗成為可能,以適應(yīng)代表給定序列類型的相對較大數(shù)目的樣品,或者用相對少數(shù)目的樣品代表的樣品的很多不同類型。4-256個樣品范圍的處理特別有效??梢栽O(shè)計該點斑數(shù)目范圍內(nèi)的亞陣來配對用來貯存和標(biāo)記寡核苷酸的標(biāo)準(zhǔn)多孔平板的構(gòu)型和大小??梢哉{(diào)節(jié)亞陣的大小以適于不同數(shù)目的樣品,或者可以使用少量標(biāo)準(zhǔn)亞陣大小。如果一種類型的所有樣品不適合固定在一個亞陣中,則可以使用另外的亞陣或膜并且用相同的探針進行。另外,通過調(diào)節(jié)每一個亞陣的復(fù)制品的數(shù)目,可以改變完成鑒定或測序方法的時間。
如這里所使用的,“中間體片段”意指長度在5和1000個堿基之間,優(yōu)選長度在10和40bp之間的寡核苷酸。
在版本3中,第一套已知序列的寡核苷酸探針在允許與具有各自互補序列的核酸雜交的條件下固定在支持體上。標(biāo)記的第二套寡核苷酸探針在溶液中提供。在這些套中和在這些套之間,探針可以是相同長度或不同長度的。要測序的核酸或其中間體片段可以雙鏈形式(尤其是那里存在recA蛋白質(zhì),允許非變性條件下雜交),或者單鏈形式和在允許不同互補程度雜交的條件下(例如在使完全配對和一個堿基對失配雜交體之間區(qū)別的條件下)加樣于第一套探針。要測序的核酸或其中間體片段可以在第二套探針加樣之前,之后或同時加樣第一套探針。與靶物上鄰接位點結(jié)合的探針鍵合在一起(例如,通過堆積作用或者通過連接酶或者在鄰接的探針之間引起化學(xué)鍵形成的其它方法)。允許鄰接探針鍵合之后,沒有通過化學(xué)鍵合固定到第一套探針的成員的表面的片段和探針被洗掉,例如,使用融化雜交體的高溫(最高達100℃)洗液。然后可以使用適合使用的標(biāo)記物(例如,可以是化學(xué)發(fā)光物,熒光,放射性,酶,光密度或者電子團物質(zhì)標(biāo)記)的方法檢測從第二套中鍵合的探針。
其中,如果在特定的條件下通過氫鍵形成穩(wěn)定的雙鏈體,則核酸堿基“配對”或是“互補的”。例如,在通常在雜交試驗中使用的條件下,腺嘌呤(“A”)配對胸腺嘧啶(“T”),但是不配對鳥嘌呤(“G”)或胞嘧啶(“C”)。類似地,G配對C,但是不配對A或T。其它的堿基以基本上不特定的方式氫鍵鍵合,例如肌苷或通用堿基(Universal Base)(“M”堿基,Nichols等,1994),或者其它修飾的堿基,例如甲基化堿基,例如,是與其在特定條件下形成穩(wěn)定的雙鏈體的那些堿基互補的。如果探針中的每一個堿基與要測序的核酸通過氫鍵根據(jù)Watson和Crick堿基配對規(guī)則形成雙鏈體,則一個探針被說成是“完全互補”或者說成是“完全配對”(即不存在任何周邊序列的影響,形成的雙鏈體對于特殊探針具有最大結(jié)合能)?!巴耆パa”和“完全配對”也意味著包括具有類似物或修飾過的核苷酸的探針。對于類似物或修飾核苷酸“完全配對”根據(jù)選擇類似物或修飾過的核苷酸的“完美匹配規(guī)則”(例如對于特殊類似物或修飾核苷酸具有最大結(jié)合能的結(jié)合對)判斷。探針中不根據(jù)“規(guī)則”形成結(jié)合對的每一個堿基說成是在特定的雜交條件下“失配”。
可以裝配一列探針,其中每一個探針與要測序的核酸完全配對。然后可以分析這列中的探針,將它們以最大重疊方式排序。這樣的排序可以通過比較第一探針和列中的其它探針的每一個來確定哪一個具有3’末端的探針具有與第二探針的5’末端處的堿基的序列相同的最長的堿基序列。第一和第二探針可能是重疊的,可以通過比較第二探針的5’末端和其余所有的探針的3’末端和通過比較第一探針的3’末端和其余所有的探針的5’末端來重復(fù)該過程。繼續(xù)該過程直到列中沒有與其它探針重疊的探針?;蛘撸梢詮年栃蕴结樍兄羞x擇一個以上探針,和可以平行產(chǎn)生一套以上重疊的探針(“序列核”)。用于序列該過程任一過程的一列探針之集合可是與要測序的核酸完全互補的所有探針列或者可以是其任何亞套。
探針的5’和3’末端可以重疊產(chǎn)生更長一段序列。繼續(xù)裝配探針的該過程直到由于分支點(探針在該片段中重復(fù)),比探針更長的重復(fù)序列,或者未克隆的片段而產(chǎn)生歧義。任何兩個歧義之間的一段序列被認(rèn)為是亞克隆序列片段(Sfs)。在由于與探針有可替換的重疊的可能性而產(chǎn)生歧義情況下,可以使用跨越可替換重疊位點的更長探針的雜交,競爭雜交,跨越歧義位點的探針的可變末端與末端對的連接和單道凝膠分析(通過Sfs的清楚的順序)。
通過使用上述方法,人們可以從重疊或非重疊的探針的雜交(與可以用作鑒定核酸樣品的特征的核酸樣品的認(rèn)定相關(guān))方式獲得任何期望水平的序列,通過裝配Sfs,直至裝配出中間體片段的完全序列或者完全源DNA分子(例如染色體)。
測序一般可以包括下面的步驟(a)在有效使片段與具有互補序列的固定化探針形成第一復(fù)合體的條件下,使固定化寡核苷酸探針陣列與核酸片段接觸;(b)在有效使第一復(fù)合體與標(biāo)記探針雜交的條件下,在溶液中,使第一復(fù)合體與一套標(biāo)記的寡核苷酸探針接觸,從而形成第二復(fù)合體,其中該片段與固定化探針和標(biāo)記探針兩者雜交;(c)從第二復(fù)合體中去除沒有雜交鄰接于固定化探針的所有的標(biāo)記探針;
(d)通過檢測標(biāo)記的存在來檢測鄰接的標(biāo)記的和未標(biāo)記探針的存在;和(e)通過連接固定化和標(biāo)記探針的已知序列來確定片段的核苷酸序列。
可以選擇雜交和洗滌條件來大量檢測完全配對雜交體(例如其中片段和探針在七分之六位置雜交的那些),可以選擇雜交和洗滌條件來使分辨完全配對和一個堿基失配,或者可以選擇雜交和洗滌條件來允許只檢測完全配對雜交體。
合適的雜交條件可以通過優(yōu)化程序或中試研究常規(guī)確定。這樣的方法和研究由本領(lǐng)域技術(shù)人員常規(guī)進行來建立實驗室中使用的方案。參見,例如Ausubel等,分子生物學(xué)通用方法(Current Protocols inMolecular Biology),Vol.1-2,John Wiley & Sons(1989);Sambrook等,分子克隆實驗室手冊(Molecular Cloning A Laboratory Manual),第二版,Vols.1-3,冷泉港出版社(1989);和Maniatis等,分子克隆實驗室手冊(Molecular CloningA Laboratory Manual),冷泉港冷泉港實驗室,紐約(1982),其全部在這里引作參考。例如,條件,例如溫度,成分濃度,雜交和洗滌次數(shù),緩沖液組成和它們的pH和離子強度可以變化。
在其中標(biāo)記的和固定化探針不是自然或化學(xué)連接的實施方案中,檢測僅僅依賴于控制嚴(yán)格性的洗滌步驟。在這樣的條件下,鄰接的探針由于鄰接的探針之間堆集作用而提高了結(jié)合親和性??梢匀缟纤龈淖儣l件來優(yōu)化該方法。
在其中固定化和標(biāo)記探針是連接的實施方案中,連接作用可以通過化學(xué)連接試劑(例如水溶性碳化二亞胺或溴化氰)起作用,或者可以使用連接酶,例如商售T4DNA連接酶??梢赃x擇洗滌條件來區(qū)分鄰接的和非鄰接的標(biāo)記的和固定化探針,利用鄰接探針對非鄰接探針之間的穩(wěn)定性的差別。
寡核苷酸探針可以用熒光染料,化學(xué)發(fā)光體系,放射性標(biāo)記(例如35S,3H,32P或33P)或者用質(zhì)譜可檢測的同位素來標(biāo)記。
其中未知序列的核酸分子比大約45或50bp更長的情況下,分子可以分成片段并且測定片段的序列。通過限制性酶,剪切或NaOH可以完成片段化。可以通過大小分離片段(例如通過凝膠電泳)獲得大約10-40bp的優(yōu)選的片段長度。
寡核苷酸可以通過本領(lǐng)域公知的多種方法固定化。例如通過磷酸根基團使用試劑例如亞磷酰胺核苷(Nucleoside phosphoramidite)或磷酸氫核苷??梢允褂貌A?,尼龍,硅和碳氟化合物支持體。
可以將寡核苷酸組成陣列,這些陣列可以包括給定長度所有探針的全套或亞套,或者選擇長度的探針套??梢允褂檬杷峙鋪矸蛛x探針或探針亞陣列??梢詫τ诟鞣N各樣的應(yīng)用設(shè)計陣列(例如作圖,部分測序,為診斷目的的目標(biāo)區(qū)的測序,mRNA測序和大規(guī)模測序)。通過選擇基質(zhì)上探針的組合和排列可以設(shè)計具體的芯片來用于特殊的應(yīng)用。
例如,可以構(gòu)建所有寡核苷酸探針長度為5個堿基的1024固定化探針陣列(每個陣列含有1024個截然不同的探針)。該例子中的探針從信息意義上說是5-聚體(它們實際上可能是更長的探針)。第二套10245-聚體探針可以被標(biāo)記,并且各標(biāo)記的的探針的一個可以和要測序的片段一起加樣于固定化探針的陣列。在該例子中,1024陣列可以結(jié)合成一個大的超陣列,或“超芯片”。在其中固定化探針和標(biāo)記探針中的一個沿核酸片段尾-尾雜交的那些情況下,兩個探針例如通過連接而結(jié)合,去除未結(jié)合標(biāo)記后,通過將加樣于已知序列的標(biāo)記探針與陣列上已知序列的固定化探針的一點處標(biāo)記的存在相聯(lián)系,來檢測與樣品片段互補的10-聚體。樣品片段的序列就是與標(biāo)記探針的序列連續(xù)的固定化探針序列。以這種方法,,通過只使用5-聚體的和因此涉及上千次寡核苷酸合成的努力的組合方法可以測試所有一百萬可能的10-聚體。
要測序的核酸樣品可以片段化或者另外處理(例如通過使用recA)來避免在樣品中妨礙雜交的次級結(jié)構(gòu)。樣品可以通過例如用限制性內(nèi)切酶例如Cvi JI消化,物理剪切(例如通過超聲),或者通過氫氧化鈉處理而片段化。得到的片段可以通過凝膠電泳分離,而且適合長度的片段,例如大約10bp和大約40bp之間的片段可以從凝膠中提取。
可再用的版本3 SBH陣列可以通過在固定的和標(biāo)記探針之間引入可裂解鍵,然后在完成一輪版本3分析后裂解該鍵而產(chǎn)生。標(biāo)記探針可以是核糖核苷酸或者核糖核苷酸可以用作標(biāo)記探針中的連接堿基,這樣該探針可以接著例如通過RNA酶或者鳥嘧啶-DNA糖苷化處理,或者氫氧化鈉處理而去除。另外,通過化學(xué)連接而產(chǎn)生的鍵可以被選擇性裂解。
其它變化包括使用修飾的寡核苷酸以提高特異性或有效性,循環(huán)雜交以提高雜交信號,例如通過在對第一套標(biāo)記探針優(yōu)化選擇的條件下(例如溫度)進行雜交循環(huán),接著在對第二套標(biāo)記探針優(yōu)化選擇的條件下雜交。讀框的位移可以通過使用末端是4個核苷酸堿基A,T,C和G的一個的探針的混合物(優(yōu)選等摩爾量的混合物)來測定。
分支點對于片段序列的排列產(chǎn)生歧義。盡管序列信息是通過SBH獲得的,但是或者(i)長的閱讀長度,以完全凝膠測序所用的一部分的單道凝膠測序;或者(ii)與相關(guān)的序列比較,可以被用來使發(fā)生這樣的歧義(“分支點”)的雜交數(shù)據(jù)排列有序。用于通過分支點的單道凝膠測序的引物從SBH序列信息鑒定或者從已知的載體序列例如載體插入位點的側(cè)翼序列鑒定,并且在樣品核酸上進行標(biāo)準(zhǔn)的桑格-測序反應(yīng)。從單道凝膠測序獲得的序列與讀進和讀出分支點的Sfs相比較來鑒定Sfs的順序?;蛘?,通過比較Sfs的序列和相關(guān)的序列和將Sfs排序產(chǎn)生與相關(guān)的序列最相近的序列來確定Sfs順序。
另外可以通過單道凝膠測序來測定靶片段中串聯(lián)重復(fù)核酸片段的數(shù)目。因為串聯(lián)重復(fù)很少發(fā)生在編碼蛋白質(zhì)的基因部分,所以只是當(dāng)這些非編碼區(qū)中的一個鑒定為是特別令人感興趣的時才進行凝膠測序步驟(例如如果其是重要的調(diào)控區(qū))。
獲得對一套只有大約200個寡核苷酸探針?biāo)憩F(xiàn)出的雜交的程度的信息(完全測序所需要的努力的大約5%的努力)定義各基因的獨特特征,并且用來從文庫中分選cDNA來測定文庫是否含有多個相同基因的拷貝。通過這樣的特征,可以將相同的,類似的和不同的cDNA加以區(qū)別和編入目錄。
分離,克隆和測序核酸的核酸和方法是本領(lǐng)域技術(shù)人員公知的。參見,例如Ausubel等,分子生物學(xué)通用方法(Current Protocols inMolecular Biology),Vol.1-2,John Wiley & Sons(1989);和Sambrook等,分子克隆實驗室手冊(Molecular Cloning A Laboratory Manual),第二版,Vols.1-3,冷泉港出版社(1989),兩篇文獻在此引作參考。
SBH是可以通過本領(lǐng)域技術(shù)人員公知的多種方法實施的研究得很充分的一項技術(shù)。具體地說,與通過雜交測序相關(guān)的技術(shù),在這里將下面的文獻引作參考Drmanac等,美國專利5202231(這里引作參考)-1993年4月13日公開;Drmanac等,Genomics,4,114-128(1989);Drmanac等,Proceedings of the First Int’l.Conf.ElectrophoresisSupercomputing Human Genome,Cantor等編著,World ScientificPub.Co.Singapore,47-59(1991);Drmanac等,科學(xué),260,1649-1652(1993);Lehrach等,基因組分析基因和自然制圖(GenomeAnalysisGenetic and Physical Mapping),1,39-81(1990),冷泉港實驗室出版;Drmanac等,核酸研究(Nucl.Acids Res.),4691(1986);Stevanovic等,基因,79,139(1989);Panusku等,Mol.Biol.Evol.,1,607(1990);Nizetic等,核酸研究(Nucl.AcidsRes.),19,182(1991);Drmanac等,J.Biomol.Struct.Dyn.,5,1085(1991);Hoheisel等,Mol.Gen.,4,125-132(1991);Strezoska等,美國國家科學(xué)院院刊,88,10089(1991);Drmanac等,核酸研究(Nucl.Acids Res.),19,5839(1991);和Drmanac等,Int.J.GenomeRes.,1,59-79(1992)。
在下面的實施例中詳細(xì)說明本發(fā)明。考慮到本發(fā)明的公開,本領(lǐng)域技術(shù)人員會理解在本發(fā)明范圍內(nèi)可以進行很多其它的實施方案和變化。因此意指本發(fā)明更寬的方面不局限于下面實施例的公開。
實施例1探針系列的制備可以制備兩種類型通用系列探針。第一套是相對短的探針的整套(或者至少非互補亞套),例如所有4096(或者大約2000非互補的)6-聚體,或者所有16384(或者大約8000非互補的)7-聚體。由于包括了32000或更多探針,完全非互補8-聚體和更長探針亞套更不方便。
選擇第二類型探針系列為仍然足以至少用一個探針在任何序列中讀出每一個bp的探針小的亞套。例如16個中的12個二聚體是足夠的。用來測序雙鏈DNA的7-聚體,8-聚體和9-聚體的小的亞套可以分別是大約3000,10000和30000個探針。
也可以選擇探針系列來鑒定已知序列的靶核酸,和/或鑒定已知序列靶核酸的等位基因或突變型。這樣的一套探針包含足夠的探針,使得靶核酸的每一個核苷酸位點都讀到至少一次。等位基因或突變型通過缺少結(jié)合“陽性”探針中的一個而鑒定。然后通過用包含在這些探針位點處各種可能的核苷酸變化和變化的組合的探針系列詢問靶核酸來測定這些等位基因或突變型的具體序列。
可以用標(biāo)準(zhǔn)化學(xué)方法用末端處一至三個非特異的(混合的A,T,C和G)或者通用(例如M堿基或肌苷)堿基來制備探針。如果使用放射性標(biāo)記,探針可以在5’末端具有一個OH基團,用于激酶標(biāo)記放射性標(biāo)記的亞磷基團?;蛘咭部梢允褂糜萌魏慰膳湮榈南到y(tǒng)例如熒光染料來標(biāo)記探針。也可以使用其它類型探針,例如PNA(蛋白質(zhì)核酸)或包含改變雙鏈體穩(wěn)定性的修飾的堿基的探針。
探針可以保存在用條帶規(guī)則的多孔平板中。對于少量探針,可以使用96-孔平板;對于10000或更多探針,優(yōu)選保存在384-或864-孔平板中。5-50個平板的集合足以貯存所有的探針。大約5pg的一個探針可能足以與一個DNA樣品雜交。因此,對于每一個探針少量合成大約50mg,則可以分析千萬個樣品。如果每一個探針對于每第三個樣品使用,而且如果每一個樣品長1000bp,則通過一套5000個探針可以測序超過300億個堿基(10人基因組)。
實施例2具有修飾的寡核苷酸的探針修飾的寡核苷酸可以引入雜交探針中并且在對其適合的條件下使用。例如在C5-位置帶有鹵素的嘧啶可以通過影響堿基堆積而用來提高雙鏈體穩(wěn)定性。2,6-二氨基嘌呤可以用來提供帶有胸腺嘧啶的堿基對中第三個氫鍵,從而使DNA雙鏈體熱穩(wěn)定化。使用2,6-二氨基嘌呤可以提高雙鏈體穩(wěn)定性,允許淬火的更嚴(yán)格的條件,從而提高雙鏈體形成的特異性,抑制背景問題和允許使用更短的寡聚物。
Hoheisel & Lehrach(1990)公開了這些修飾的核苷酸的三磷酸變體的合成。
根據(jù)Nichols等的設(shè)計,人們也可以使用非判別堿基類似物或者通用堿基。合成該新的類似物,1-(2-脫氧-D-核糖呋喃糖基)-3-硝基吡咯(指定為M),用于寡核苷酸探針和引物中,用來解決作為遺傳密碼的簡并性結(jié)果,或者當(dāng)只有片段化肽序列數(shù)據(jù)可得到時而出現(xiàn)的設(shè)計問題。該類似物具有最大堆積而氫鍵相互作用最小而且空間上不干擾DNA雙鏈。
設(shè)計M核苷酸類似物使堆積相互作用最大化,使用與雜芳香環(huán)連接的質(zhì)子惰性極性取代基,提高鏈內(nèi)-和鏈外堆積相互作用來減小堿基配對特異性中的氫鍵的作用。Nichols等(1994)偏好3-硝基吡咯2-脫氧核糖核苷由于其與對-硝基苯胺的結(jié)構(gòu)和電子的類似性,其衍生物是雙鏈DNA的最小的已知的嵌入劑(intercaltors)中的一些。
二甲氧基三苯甲游基保護的核苷M的亞磷酰胺(phosphoramidite)也適合插入到用作測序和聚合酶鏈反應(yīng)(PCR)的引物的核苷酸中。Nichols等(1994)證明大量的核苷酸可以被M置換而不損失引物特異性。
M獨特的性質(zhì)是其能置換連續(xù)長列核苷而且仍然得到功能測序引物。帶有3,6和9個M取代的序列已經(jīng)報道給出可讀測序梯,用三個不同的包含M的引物的PCR都產(chǎn)生正確產(chǎn)物的擴增作用(Nichols等(1994))。
含有3-硝基吡咯的寡核苷酸作為引物起作用的能力強有力地提示一定是與互補鏈形成了雙鏈結(jié)構(gòu)。據(jù)報道,對于寡核苷酸對d(5-C2-T5XT5G2-3)和d(5-C2-A5YA5G2-3)(其中X和Y可以是A,C,G,T或M)獲得的光熱曲線與對于DNA雙鏈-向單鏈轉(zhuǎn)換所發(fā)現(xiàn)的正常S形帶型相吻合。含有XM堿基對(其中X可以是A,C,G,T或M,和Y是M)的寡核苷酸的Tm值據(jù)報道完全落在3℃范圍內(nèi)(Nichols等(1994))。
實施例3探針的選擇和標(biāo)記當(dāng)制備亞陣的陣列時,確定要在每一個亞陣上的每一次雜交循環(huán)中待雜交的探針套。例如可以從通用系列中選擇一套384個探針,并且在4個循環(huán)的每一個中進行96次探測。選擇在一個循環(huán)中雜交的探針優(yōu)選具有類似的G+C含量。
對于每一個循環(huán)選擇的探針轉(zhuǎn)移到96-孔平板,然后如果還沒有標(biāo)記,則在貯存前通過酶激或者通過其它標(biāo)記方法標(biāo)記(例如用穩(wěn)定的熒光染料)。
以第一輪雜交為基礎(chǔ),對于用于另外循環(huán)的每一個亞陣可以定義新的一套探針。陣列中的一些可能不能在一些循環(huán)中使用。例如,如果64位患者樣品中只有8個樣品表現(xiàn)出突變,而且對于每個突變首先評價8個探針,則在一個循環(huán)中可以評價所有64個探針,而32個亞陣沒有使用。這些沒有使用的亞陣然后可以用雜交緩沖液處理以防止濾膜的干燥。
探針可以通過任何常規(guī)方法從貯存平板回收,例如單道吸移裝置,或者機器人站,例如貝克曼Biomek1000(BeckmanInstruments,F(xiàn)ullerton,California)或Mega Two機器人(Megamation,Lawrenceville,New Jersey)。機器人站可以與數(shù)據(jù)分析程序和探針管理程序結(jié)合。這些程序的輸出可能是一個或多個機器人站的輸入。
可以一個接一個地回收探針并且加入到通過雜交緩沖液回收的亞陣中。優(yōu)選回收的探針可以放在新的平板中,標(biāo)記,或者與雜交緩沖液混合。優(yōu)選的回收方法是一個接一個進入貯存的平板并且用吸移管吸移(或者通過金屬針轉(zhuǎn)移)從每一個平板中移取足夠量的每一種選擇的探針到居間的平板中特定的孔中。分別可尋址(individuallyaddressable)的吸移管或針的陣列可以用來加快回收過程。
實施例4標(biāo)記探針的制備寡核苷酸探針可以通過自動合成來制備,這對于本領(lǐng)域技術(shù)人員是常規(guī)的,例如,使用Applied Biosystems system?;蛘?,探針可以使用Genosys Biotechnologies Inc.Methods,使用多孔特氟隆片板的堆積(stach)來制備。
寡核苷酸探針可以用例如放射性標(biāo)記(35S,32P,33P,優(yōu)選地33P),對于陣列用100-200um或100-400um點斑;非放射性同位素(Jacobsen等,1990);或者熒光團(Brumbaugh等,1988)進行標(biāo)記。所有這樣的標(biāo)記方法是本領(lǐng)域常規(guī)的。例示于Sambrook等(1989)的相關(guān)部分,和進一步參考例如Schubert等(1990),Murakami等(1991)和Cate等(1991),所有文章在此具體引作參考。
關(guān)于放射性標(biāo)記,普通的方法是T4多核苷酸激酶末端標(biāo)記或者是使用克列諾或7個T7聚合酶的高比活標(biāo)記。這些在下文描述。
合成合成的寡核苷酸,沒有在其5末端處的磷酸基團,因此容易通過使用酶噬菌體T4多核苷酸激酶從[-32P]ATP或[-33P]ATP轉(zhuǎn)移-32P或-33P而標(biāo)記。如果反應(yīng)充分進行,則這樣的探針的比活可以象[-32P]ATP或[-33P]ATP本身比活一樣高。設(shè)計下面描述的反應(yīng)來標(biāo)記10pmol寡核苷酸至高比活。通過提高或減小反應(yīng)程度,保持所有組成內(nèi)含物的濃度,可以容易實現(xiàn)不同量寡核苷酸的標(biāo)記。
使用1.0ul寡核苷酸(10pmol/ul);2.0ul 10×噬菌體T4多核苷酸激酶緩沖液;5.0ul[-32P]ATP或[-33P]ATP(sp.Act.5000Ci/mmole;10mCi/ml,水溶液)(10pmole);和11.4ul水產(chǎn)生反應(yīng)混合物。向反應(yīng)混合物中進入8(8)單位(-1ul)噬菌體T4多核苷酸激酶,并且在37℃保溫45分鐘。反應(yīng)在68℃加熱10分鐘以滅活噬菌體T4多核苷酸激酶。
然后測定32P或33P轉(zhuǎn)移到寡核苷酸的效率及其比活。如果探針的比活是可接受的,則其被純化。如果比活太低,則加入另外8單位酶并且在37℃再保溫30分鐘,然后反應(yīng)在68℃加熱10分鐘以滅活酶。
標(biāo)記的寡核苷酸可以通過例如用乙醇沉淀;用十六烷基吡啶鎓溴化物沉淀;通過經(jīng)過生物-凝膠P-60的色譜;或者通過在Sep-Pak C18柱的色譜,或者通過聚丙烯酰胺凝膠電泳實現(xiàn)純化。
較高比活的探針可以使用用來合成與合成的寡核苷酸互補的DNA鏈的大腸桿菌DNA聚合酶I的克列諾片段獲得。短探針與寡核苷酸模板雜交,模板的序列是期望的放射性標(biāo)記探針的互補序列。然后使用大腸桿菌DNA聚合酶I的克列諾片段擴大引物,以模板指向方式插入[-32P]dNTPs或[-33P]dNTPs。反應(yīng)后,通過變性后通過在變性條件下的聚丙烯酰胺凝膠電泳分離模板和產(chǎn)物。用該方法,可能產(chǎn)生每分子寡核苷酸含有幾個放射性原子的寡核苷酸探針。
為了使用該方法,人們將在微避試管(microfuge tube)中混合實現(xiàn)期望的比活和足以使所有模板鏈完全合成所需要的計算量的[a-32P]dNTPs或[a-33P]dNTPs。然后向試管中加入合適量的引物和模板DNAs,引物比模板過量3-10倍摩爾。
然后加入0.1體積10×克列諾緩沖液并充分混合。然后對于每5ul反應(yīng)體積加入2-4單位大腸桿菌DNA聚合酶I的克列諾片段,混合,并且在4℃溫育2-3小時。如果需要,可以通過取出小等份(0.1ul)并且測定放射性比例來監(jiān)測反應(yīng)過程,放射性用10%三氯乙酸(TCA)可以變得可沉淀。
反應(yīng)可以用等體積凝膠-裝載緩沖液稀釋,加熱到80℃放置3分鐘,然后全部樣品載到變性聚丙烯酰胺凝膠上。電泳后,凝膠放射自顯影,使探針定位并且從凝膠中取出。用于熒光探針標(biāo)記的各種方法也是可利用的,例如Brumbaugh等(1988)描述了熒光標(biāo)記引物的合成。合成了在C-5連接12個原子的伯胺“連接臂”的脫氧尿苷類似物。類似物的合成包括通過有機金屬中間體將2-脫氧尿苷衍生物化得到5(甲基丙烯酰基)-2-脫氧尿苷。與二甲氧基三苯甲游基-氯的反應(yīng)產(chǎn)生相應(yīng)的5-二甲氧基三苯甲游基加成產(chǎn)物。甲酯被水解,活化,并與合適的一?;榛贩磻?yīng)。純化后,得到的連接臂核苷轉(zhuǎn)化為適合于化學(xué)寡核苷酸合成的核苷類似物。
然后通過使用修飾的phosphoridite化合物制備包括一個或兩個連接臂堿基的寡核苷酸。向25ul 500mM碳酸氫鈉(pH9.4)中50nmol連接臂寡核苷酸的溶液中加入20ul 300mM FITC的二甲亞砜溶液?;旌衔镌谑覝叵聰嚢?小時。通過用20mM乙酸銨(pH6)從1×30cm SephadexG-25柱上洗脫而從游離的FITC分離寡核苷酸,合并第一UV-吸收峰中的級分。
一般情況下,在5’-末端的寡核苷酸的熒光標(biāo)記最初包括兩步。第一,在自動核酸合成期間N-保護的氨基烷基亞磷酰胺衍生物加到寡核苷酸的5’-末端。去除所有保護基團后,合適的熒光染料的NHS酯與5’-氨基偶聯(lián)過夜,接著使用反相HPLC或PAGE從過量的染料中純化標(biāo)記的寡核苷酸。
Schubert等(1990)描述了使在自動DNA合成期間產(chǎn)生用熒光素標(biāo)記寡核苷酸的亞磷酰胺的合成。
Murakami等也描述了熒光素標(biāo)記的寡核苷酸的制備。
Cate等(1991)描述了使用寡核苷酸探針直接接合與直接化學(xué)發(fā)光基質(zhì)結(jié)合的堿性磷酸酶(AMPPD)來檢測探針。
除了合成,標(biāo)記探針容易從多種商售來源購得,包括GENSET。
其它標(biāo)記包括可以作為標(biāo)記的抗體的特異性結(jié)合成員的配體,化學(xué)發(fā)光物,酶,可以作為標(biāo)記的配體的特異結(jié)合對成員的抗體和類似物。各種各樣的標(biāo)記已經(jīng)用在可以容易使用的免疫測定中。其它標(biāo)記包括抗原,具有特異反應(yīng)性的基團,和電化學(xué)可檢測部分。
例如,在Xu等,色譜雜志(J.Chromatography)76495-102(1997)中-般性描述了用電子團物質(zhì)標(biāo)記物(“EML”)標(biāo)記核酸。電子團是可以通過電子捕獲質(zhì)譜(EC-MS)以高敏感性檢測的化合物。用本領(lǐng)域公知的可逆修飾核苷酸的化合物使EMLs接觸探針(例如公知的核苷酸合成化學(xué)教導(dǎo)了分子接觸作為保護基團的核苷酸的各種各樣的方法)。用多種公知的電子捕獲質(zhì)譜裝置(例如Finnigan Corporation出售的裝置)檢測EMLs。此外,可以在檢測EMLs中使用的技術(shù)包括,例如,快原子轟擊質(zhì)譜(參見,例如Koster等,Biomedical Environ.Mass Spec.14111-116(1987));等離子解析質(zhì)譜;電子噴射質(zhì)譜/離子噴射質(zhì)譜(參見.例如Fenn等,自然化學(xué)雜志(J.Phys.Chem.)884451-59(1984),PCT申請No.WO 90/14148,Smith等Anal.Chem.62882-89(1990));和基質(zhì)促進激光解析/離子化作用(Hillenkamp等,“基質(zhì)促進UV-激光解析/離子化作用大生物分子質(zhì)譜的最新研究”,生物學(xué)質(zhì)譜(Biological MassSpectrometry)(Burlingame和McCloskey編著),Elsevier SciencePublishers,Amsterdam,pp.49-60,1990);Huth-Fehre等,“寡脫氧胸苷酸的基質(zhì)促進激光解析質(zhì)譜”,質(zhì)譜快報(Rapid Communications inMass Spectrometry),6209-13(1992))。
在優(yōu)選的實施方案中,EMLs通過弱敏感性的共價鍵連接探針。EML在與靶核酸雜交后通過發(fā)出期望光波長的激光或其它光源從探針上釋放。然后EML進入GC-MS(氣相色譜-質(zhì)譜儀)或者其它合適的儀器,通過其質(zhì)量鑒定。
實施例5測序芯片和陣列的制備基礎(chǔ)樣品是使用附著50微米表面,給出3×3mm大小的芯片的6-聚體,其可以組合給出20×20cm陣列。另一個樣品是使用附著10×10微米表面,給出9-聚體芯片,大小是5×5mm的9-聚體寡核苷酸??梢允褂?000個這樣的芯片,產(chǎn)生30×30cm陣列。在陣列中,4000-16000個寡芯片被排列成方陣列。平板,或試管的集合,如所描述的,可以用陣列包裝成測序盒的部分。
陣列可以用物理方法相互分離或者通過疏水性表面分離。使用疏水性條塊分隔(hydrophobic strip separation)一種可能的方法是使用這樣的技術(shù),例如QA Laboratories,Toronto,Canada生產(chǎn)的Iso-Grid Microbiology System。
疏水性隔柵膜過濾膜(HGMF)已經(jīng)在分析食品微生物學(xué)中使用大約十年,其表現(xiàn)出大量菌落和自動評價的獨特的吸引力。商業(yè)上可得的隔柵是購自QA Laboratories Ltd.(Toronto,Canada)的ISO-GRIDTM,其由聚砜聚合物(Gelman Tuffryn HT-450,0.45μ孔徑大小)的方塊(60×60cm)組成,在其上面,印有由1600(40×40)方池組成的黑色疏水性墨隔柵。HGMF事先已經(jīng)用細(xì)菌懸浮液通過真空過濾接種,并且在選擇的分開的或選擇性介質(zhì)上孵育。
因為微生物生長受膜上已知位置和大小的隔柵池的限制,HGMF功能比常規(guī)平板或膜過濾膜更象MPN儀器。Peterkin等(1987)報道,這些HGMFs當(dāng)與HGMF復(fù)制因子使用時可以用來增殖和貯存基因組文庫。一種這樣的儀器復(fù)制來自ISO-GRID的1600個小池的每一個的生長,并且使主HGMF的很多拷貝得以制備(Peterkin等(1987))。
Sharpe等(1989)也使用了購自QA Laboratories的ISO-GRID HGMF和自動HGMF評價器(MI-100Interpreter)和RP-100 Replicator。他們報道了保持和篩選很多微生物培養(yǎng)物的技術(shù)。
Peterkin及其同事后來描述了使用疏水性隔柵膜過濾膜篩選DNA探針的方法(Peterkin等(1989))。這些作者報道了直接在HGMFs上有效進行菌落雜交的方法。先前,由于其上印有HGMFs的環(huán)氧砜聚合物的低DNA結(jié)合能力而獲得不好的結(jié)果。但是,Sharpe等(1989)報道在與DNA接觸之前,DNA與膜的表面的結(jié)合通過用聚乙烯亞胺(一種聚陽離子)處理復(fù)制的和溫育的HGMF而提高。盡管該早期工作使用了細(xì)胞DNA附著,并且具有與本發(fā)明不同的目的,描述的方法學(xué)可以容易適用于版本3 SBH。
為了快速鑒定有用的序列,Peterkin等(1989)使用了來自各種各樣克隆的放射性標(biāo)記質(zhì)粒DNA,并且試驗其對制備的HGMFs上DNA的特異性。在該方法中,通過對HGMF復(fù)制品上100個生物體的菌落雜交快速篩選來自重組質(zhì)粒的DNA,HGMF復(fù)制品可以容易地且可再現(xiàn)地制備。
用小的(2-3mm)芯片操作,并且平行實施上千個反應(yīng)。本發(fā)明溶液保持相應(yīng)的陣列中的芯片和探針。在一個實施方案中,在8×12版式(96芯片)中排列含有合成到硅片上的250,000個9聚體的芯片的8-8mM平板(15uM/寡核苷酸,Pease等,1994),之間有1mM溝槽?;蛘咄ㄟ^多道吸移管或者針排列加入探針,一個芯片上一個探針。為了評價所有4000個6-聚體,要使用42個芯片陣列,或者使用不同的,或者通過再次使用一套芯片陣列幾次。
在上述情況下,使用該申請早期命名法,F(xiàn)=9;P=6;和F+P=15。芯片可以具有式BxNn的探針,其中x是特異堿基B的數(shù)目;n是非特異堿基的數(shù)目,這樣x=4-10和n=1-4。為了實現(xiàn)更有效的雜交,和為了避免任何載體寡核苷酸的潛在的影響,特異的堿基周圍是非特異性堿基,例如,用(N)nBx(N)m式子代表(圖4)
實施例6制備支持體結(jié)合的寡核苷酸通過例如用化學(xué)方法直接合成寡核苷酸,實踐中通常用自動寡核苷酸合成儀可以很容易地合成寡核苷酸,即小核酸片段。
用任何適宜的支持體,例如玻璃、聚苯乙烯或特富龍(teflon),本領(lǐng)域?qū)I(yè)人員用任何已知的方法可以很容易地制備支持體結(jié)合的寡核苷酸。一種策略是把用標(biāo)準(zhǔn)合成儀合成的寡核苷酸精確地置于一點。用被動吸附(Inouye & Hondo,1990);用紫外光(Nagata et al.,1985’;Dahlen et al.,1987’;Morriey & Collins 1989)或通過共價健合堿基修飾的DNA(Keller et al.,1988;1989)可以達到固定目的,所有文獻均引入本文作為參考。
可以使用的另一策略是用強生物素-鏈霉抗生物素蛋白間的相互作用作為連接物。例如Broude等人(1994)描述了生物素化探針的使用,盡管這些是雙螺旋探針,但還是將其固定在鏈霉抗生物素蛋白包被的磁珠上。鏈霉抗生物素蛋白包被的磁珠可以從Dynal,Oslo處購買。這種相同的連接化學(xué)也適用于用鏈霉抗生物素蛋白包被任何表面。生物素化的探針可以從各種來源購買,例如,Operon Technologies(Alameda,CA)。
Nunc實驗室(Naperville IL)也出售可以使用的適宜的材料。Nunc實驗室已研制了一種方法,用這種方法可以將DNA共價健合到稱為CovaLink NH的微孔表面上。CovaLink NH是用仲氨基(>NH)接枝的聚苯乙烯表面,所述的仲氨基作為進一步共價健合的鍵橋的頭??梢詮腘unc實驗室購買CovaLink Modules。通過磷酰胺鍵DNA分子可以僅僅在5’-末端與CovaLink結(jié)合,固定1pmol以上的DNA(Rasmussenet al.,1991)。
已描述了利用CovaLink NH條帶在5’-末端共價健合DNA分子(Rasmussen等,1991)。在所述技術(shù)中,使用了磷酰胺鍵(Chu等,1983)。由于僅僅使用一個共價鍵,因而是優(yōu)選的。磷酰胺鍵將DNA與CovaLink NH仲氨基相連接,所述的氨基位于通過一個2nm長的間隔臂共價連于聚苯乙烯表面的間隔的一端。為了通過磷酰胺鍵將寡核苷酸與CovaLink NH相連,所述寡核苷酸末端必須有一個5’-末端磷酸基。那么甚至可能將生物素與CovaLink NH共價健合,然后用鏈霉抗生物素蛋白結(jié)合探針。
更具體地說,連接方法包括將DNA溶解在水中(7.5ng/ul)然后于95℃變性10分鐘,在冰上冷卻10分鐘。然后將冰冷的0.1 M 1-甲基咪唑,PH7.0(1-MeIm7)加至終濃度為10mM 1-MeIm7。將ss DNA溶液分散在冰上的CovaLink NH條帶(75μl/孔)中。
制備新鮮的溶于10mM 1-MeIm7的碳化二亞胺0.2 M 1-乙基-3-(3-二甲基氨基丙基)-碳化二亞胺(EDC),每孔加入25ul。將條帶在50℃溫育5小時。溫育后用例如Nunc-Immuno洗液洗滌條帶;首先將孔洗滌3次,然后用洗滌溶液將其浸5分鐘,最后再將其洗滌3次(其中洗滌溶液是0.4 NaOH,加熱到50℃的0.25%SDS)。
認(rèn)為更適用于本發(fā)明的其他方法在PCT專利申請WO90/03382(Southern & Maskos)中作了描述,該申請引入本文作為參考。這種制備與支持體結(jié)合的寡核苷酸的方法包括將核苷3’-試劑通過磷酸酯基團經(jīng)共價磷酸二酯鍵附著于支持體攜帶的脂肪族羥基上。在附著核苷上合成寡核苷酸,在不會從支持體上裂解所述寡核苷酸的標(biāo)準(zhǔn)條件下從合成的寡核苷酸中除去保護基團。適宜的試劑包括亞磷酰胺核苷(nocleoside phosphoramidite)和磷酸氫核苷(nocleosidehydrogen phosphorate)。
也可以使用在芯片上制備DNA探針陣列的策略。例如,按Fodor等人(1991)所述(該文獻引入本文作為參考),直接在玻璃表面化學(xué)合成寡核苷酸時可以使用可尋址的激光激活的光去保護作用。也可以按Van Ness等人(1991)所述將探針固定在尼龍支持體上,或用Duncan& Cavalier(1988)的方法與特富龍相連;所有文獻均引入本文作為參考。
按Van Ness等人(1991)所述,為了將寡核苷酸與尼龍支持體相連,經(jīng)烷基化活化尼龍表面同時選擇性的用氰尿酰氯活化寡核苷酸的5’-胺。
一種制備支持體結(jié)合的寡核苷酸的特殊方法是由Pease等人(1994。引入本文作為參考)描述的利用光產(chǎn)生的合成。這些作者使用了目前的照相平版印刷技術(shù)以得到固定寡核苷酸探針的陣列(DNA芯片)。這些方法(其中用光以高密度、縮小的陣列指導(dǎo)寡核苷酸探針合成)利用了對光不穩(wěn)定的5’-保護的N-?;?脫氧核苷亞磷酰胺(nocleoside phosphoramidite),表面連接化學(xué)以及多種組合的合成策略。用這種方法可以得到256個空間限定的寡核苷酸探針的方陣,然后按本文所述用于有利的版本3測序。
當(dāng)然,人們很容易從商業(yè)途徑購買DNA芯片,例如上述的光活化的芯片。鑒于此,人們可以與AffymetrixofSanta Clara,CA 95051,andBeckman聯(lián)系。
實施例7制備核酸片段可以從任何適當(dāng)?shù)膩碓?,例如cDNA、基因組DNA、染色體DNA、顯微切割的染色體帶、粘?;験AC插入片段和RNA,包括未經(jīng)過任何擴增步驟的mRNA得到待測的核酸。例如,Sambrook等人(1989)描述了三種從哺乳動物細(xì)胞中分離大分子量DNA的方法(p.9.14-9.23)。
靶核酸片段可以制備成M13,質(zhì)?;颚溯d體中的克隆和/或通過通過PCR或者其它擴增方法直接從基因組DNA或cDNA制備。樣品可以制備或分散在多孔平板中。可以在2-500ml終體積中制備大約100-1000ngDNA樣品。通過PCR制備的靶核酸可以直接應(yīng)用到用于版本I SBH的基質(zhì)而不用純化。一旦靶核酸固定到基質(zhì)上,可以沖洗基質(zhì)或者直接用探針退火。
然后,用本領(lǐng)域技術(shù)人員已知的方法將所述核酸制成片段,所述方法包括,例如,用Sambrook等人(1989)描述的限制酶,用超聲剪切和NaOH處理。
也可以使用Schriefer等人(1990,摻入本文作為參考)描述的低壓剪切方法。在所述方法中,DNA樣品在從低到中的不同壓力下通過小French壓力小室。一個手柄裝置可以使從低到中的壓力施加給所述小室。這些研究的結(jié)果表明,低壓剪切是除超聲和酶促將DNA制成片段的方法以外的另一種有效的方法。
將DNA制成片段的一種特別適宜的方法是由Fitzgerald等人(1992)描述的使用識別兩個堿基的核酸內(nèi)切酶,CviJI。這些作者描述了將DNA快速制成特定大小的片段,然后進行分離的方法,它們適用于鳥槍法克隆和測序。本發(fā)明人認(rèn)為對于產(chǎn)生隨機的,但是相對小的用于本發(fā)明測序技術(shù)的DNA來說也是特別有用的。
限制性核酸內(nèi)切酶CviJI常規(guī)地在G和C之間裂解識別序列PuGCPy以得到平整末端。改變這種酶(CviJI**)特異性的典型反應(yīng)條件,由pUC19(2688個堿基對)小分子產(chǎn)生半隨機分布的DNA片段。Fitzgerald等人(1992)定量分析了這種制片段策略的隨機性,使用了經(jīng)快速凝膠過濾按大小分級的pUC19的CviJI**消化片段,然后不進行末端修復(fù)直接與lacZ-M13克隆載體相連。76個克隆的序列分析表明,除PuGCPy外,CviJI**還限制酶切PyGCPy和PuGCPu,而且,新的序列元(sequencedata)以一致于隨機片段生成的速率積累。
正如文獻中報告的,所述方法與超聲處理和瓊脂糖凝膠分離相比,其優(yōu)點在于需要少量的DNA(0.2-0.5μg,而不是2-5μg);涉及較少的步驟(不需要預(yù)連接,末端修復(fù),化學(xué)抽提或瓊脂糖凝膠電泳和洗脫)。在制備用于版本3的DNA測序時,這些優(yōu)點也是有用的。
不考慮得到或制備核酸片段的方法,重要的是將DNA變性以得到用于雜交的單鏈片段。通過在80-90℃將DNA溶液溫育2-5分鐘就可以達到此目的。然后將所述的溶液迅速冷卻到2℃以防止在將DNA片段與芯片接觸前,所述DNA片段復(fù)性。按實施例VI中所述,還必須從基因組DNA中除去磷酸基團。
實施例8制備DNA陣列可以通過點斑在支持體例如尼龍膜上制備陣列。通過使用金屬針的陣列(其位置相應(yīng)于微量滴定板中孔的陣列)通過重復(fù)將大約20nlDNA溶液轉(zhuǎn)移到尼龍膜來進行點斑。通過膠印法印刷,實現(xiàn)比孔的密度高的斑點密度。根據(jù)所使用的標(biāo)記的類型,1mm2可以容納1-25個斑點。為了避免在一些數(shù)目的預(yù)先選擇的行或列中點斑,可以制備分開的亞套(亞陣)。一個亞陣中的樣品可以是相同的來自不同個體的DNA(或相同基因)的基因組片段,或者可以是不同的,重疊的基因組克隆。每一個亞陣可以代表相同樣品的復(fù)本點斑。在一個實施例中,一個選擇的基因片段可以從64個患者擴增。對于每一個患者,擴增的基因片段可以在一個96-孔平板(所有96孔含有相同的樣品)中。對于64個患者中的每一個制備平板。通過使用96-針裝置,所有的樣品可以點在一個8×12×cm上。亞陣可以包括64個樣品,一個樣品來自一個患者。96亞陣相同的情況下,斑點跨距可以是1mm2,這樣亞陣之間的間距可以是1mm。
另一種方法是使用膜或板(從NUNC.Naperville,Illinois購得),其可以通過自然隔離物例如膜上成型塑料隔柵,隔柵類似于應(yīng)用于多孔平板的底部的膜的性質(zhì),或者疏水性條帶。通過暴露給扁平貯磷光體屏或x-射線膜成象,固定的自然間隔物不是優(yōu)選的。
實施例9雜交和評價方法標(biāo)記探針可以與雜交緩沖液混合,并且優(yōu)選通過多道吸移管吸移到亞陣中。為了防止亞陣之間探針的混合(如果膜中沒有壓印疏水性條帶或自然隔柵),相應(yīng)的塑料,金屬或陶瓷隔柵可以緊密地壓至至膜上。還有,緩沖液的基團可以減少到大約1ml或少于每mm2。使用的探針濃度和雜交條件可以是如上所述,除了洗滌緩沖液可以快速倒到亞陣陣列中,使得快速稀釋探針,從而防止明顯的交叉雜交。為了相同的原因,可以使用最小濃度的探針并且雜交時間延長到最大實施水平。為了DNA檢測和測序,“正?!毙蛄械闹R使得使用連續(xù)堆積相互作用現(xiàn)象以提高信號。除了標(biāo)記探針,雜交反應(yīng)中可以加入另外的背對背雜交的未標(biāo)記探針。雜交體的量可以提高幾倍。探針可以通過連接反應(yīng)連接。該方法對于分離形成“壓型”的DNA區(qū)是重要的。
在放射標(biāo)記探針的情況下,可以獲得過濾膜的像,優(yōu)選通過貯磷光體技術(shù)??梢酝ㄟ^CCD照相機,聚焦顯微鏡或者其它評價熒光標(biāo)記。為了適當(dāng)衡量和綜合來自不同雜交試驗的數(shù)據(jù),以每一個點斑中靶物的量為基礎(chǔ)將粗信號歸一化。通過對一個斑點上評價的所有的探針的平均信號,每一個點斑的靶DNA的量的偏差可以通過各個探針的信號除以一點之上所有探針的平均信號來校正??梢栽u價歸一化信號,通常是1-100,來比較來自不同試驗的數(shù)據(jù)。還有,在各個亞陣中,可以使用幾種對照DNAs來測定不含有完全配對靶物的那些樣品中平均背景信號。對于從二倍體(多倍體)評分獲得的樣品,可以使用純合子對照物,以識別樣品中的雜合子。
實施例10與寡核苷酸的雜交寡核苷酸或者從Genosys Inc.,Houston,Texas購得或者在AppliedBiosystems 381A DNA合成儀上合成。使用的探針的大多數(shù)沒有通過HPLC或凝膠電泳純化。例如,設(shè)計探針,即具有干擾素中單一完全互補靶物,即含有921bp Eco RI-Bgl II人B1-干擾素片段的M13克隆(Ohmo和Tangiuchi,國家科學(xué)院院刊(Proc.Natl.Acad.Sci.744370-4371(1981)),又具有至少一個帶有M13載體本身中一個末端堿基失配的靶物。
根據(jù)所述[Maniatis等,分子克隆實驗室手冊,冷泉港實驗室,冷泉港,紐約(1982)],在含有T4-多核苷酸激酶(5單位Amersham),g32P-ATP(3.3pM,10mCi Amersham 3000Ci/mM)和寡核苷酸(4pM,10ng)的10ml中進行寡核苷酸的末端標(biāo)記。探針的比活是2.5-5×10.9cpm/nM。
在用相同溶液濕潤的基因篩選膜上點斑單鏈DNA(2-4ml,0.5M氫氧化鈉,1.5M氯化鈉),濾膜在0.05M磷酸氫二鈉,pH6.5中中和,在80℃烘箱中烘干60分鐘,UV照射1分鐘。然后濾膜在雜交溶液(0.5MNa2HPO4,pH7.2,7%月桂?;“彼徕c)中在室溫下溫育5分鐘,并放置在塑料培養(yǎng)皿的表面。在每個濾膜1-6個點斑上滴加一滴具有4nM濃度的32P末端標(biāo)記的寡聚物探針的雜交溶液(10ml,0.5M Na2HPO4,pH7.2,7%月桂酰基肌氨酸鈉),蓋上聚乙烯方片(大約1×1cm),并且在濕室中在指定的溫度下培養(yǎng)3小時。通過在0℃下將濾膜置于6×SSC洗滌溶液中3×5分鐘以去除未雜交的探針來終止雜交。濾膜或者干燥,或者進一步在指定溫度下洗滌指定時間,并且放射自顯影。關(guān)于辨別測定,放射自顯影[可以使用磷酸成象儀(Molecular Dynamics,Sunnyvale,加里弗尼亞)]之后從干燥過的濾膜切下斑點,放置在液體閃爍混合物中并評價。IF和M13斑點的cpms的未校正的比例以D值給出。
這里報告的條件使得與非常短的寡核苷酸雜交,但是保證區(qū)別開配對的和失配的與靶核酸互補從而結(jié)合靶核酸的寡核苷酸。確定了影響有效栓測具體的短序列的因素,這些因素基于完全互補靶物和在雜種分子中僅有單一失配的不完全互補靶物間辨別程度(D)。在試驗中實現(xiàn)了長度是6-8個核苷酸的28個探針與兩個M13克隆或者與結(jié)合膜的模型寡核苷酸的斑點雜交。下面給出指導(dǎo)該試驗方法的原理。
探針過量條件下只是比探針長幾個核苷酸的與濾膜結(jié)合靶核酸的寡核苷酸雜交是對于靶物濃度的擬一級反應(yīng)。該反應(yīng)用下面的等式定義St/So=e-kh[OP]t其中St和So分別是時間t和to時的靶序列濃度。(OP)是探針濃度和t是溫度。雜交體生成的速率常數(shù),kh只是在0℃-30℃范圍內(nèi)稍微有所提高(Porschke和Eigen,分子生物學(xué)(J.Mol.Biol.)62361(1971);Craig等,分子生物學(xué)62,383(1971))。雜交體解鏈?zhǔn)菍τ陔s交體濃度的一級反應(yīng)(由于濾膜結(jié)合態(tài),這里換成了質(zhì)量,如下所示Ht/Ho=e-kmt在該等式中,Ht和Ho分別是時間t和to時的雜交體濃度;km是取決于溫度和鹽濃度的雜交體解鏈的速率常數(shù)[Ikuta等,核酸研究(Nucl.Acides Res)15797(1987);Ph Eigen,分子生物學(xué)62,303(1971)]。在作為鏈締合過程雜交期間,其反向反應(yīng),解鏈或鏈的解締合,也在發(fā)生。因此,雜交體隨時間生成的量是陽性反應(yīng)和反向反應(yīng)的結(jié)果。通過提高探針濃度和/或降低溫度,平衡向雜交體生成的反向移動。但是,在大體積緩沖液沖洗循環(huán)期間,解鏈反應(yīng)占優(yōu)勢,反向反應(yīng)雜交不明顯,因為不存在探針。該項分析表明可工作的短寡核苷酸雜交(SOH)條件隨著探針濃度或溫度而變化。
在第四等式中定義了D或辨別D=Hp(tw)/Hi(tw)Hp(tw)和Hi(tw)是沖洗時間tw后保留的雜交體的量,分別是完全互補雙鏈體和不完全互補雙鏈體的特征量。對于給定的溫度,辨別D隨著10個長度沖洗時間變化并且當(dāng)Hi=B時達到最大值,這是第五等式。
背景B代表系統(tǒng)中可檢測的最低雜交信號。因為Hi的任何進一步降低可能沒有測定,D隨著連續(xù)沖洗而提高。通過tw時間沖洗,只是相對于B減小了Hp,并且隨著D的降低而可以見到。從第三等式和第五等式得到的對于不完全雜交體的最佳沖洗時間tw是tw=-ln(B/Hi(to))/km,i因為Hp是對于相同tw的沖洗,結(jié)合等式,獲得最佳辨別函數(shù)D=eln(B/Hi(to))km,p/km,i)XHp(to)/B作為T的函數(shù)的D的變化,因為最佳沖洗溫度的選擇,T是重要的。通過將Arhenium等式,其是K-=Ae-Ea/RT,代入前面等式成為形成最終等式D=Hp((to)/BX B/Hi(to))(Ap/Ai)e(Ea,i-Ea,p)/RT;其中,B比Hi(to)小。
因為完全雜交體的活化能,Ea.p,和不完全雜交體的活化能,Ea.i可以是相等的,或者Ea.i小于Ea.p,D不依賴溫度,或者隨著提高溫度而降低。該結(jié)果暗示,對于SOH中通過研究嚴(yán)格溫度條件而達到好的辨別力是未斷定的。通過在低溫下沖洗,人們獲得同等的或更好的辨別,但是沖洗時間隨著溫度的降低成指數(shù)延長。如果Hi(to)相對于Hp(to)提高,辨別隨著T更大地降低。
相比于Hp(to)/Hi(to)比例,低溫下的D更高程度地取決于Hp(to)/B比例。該結(jié)果表明不考慮在該步驟中可以實現(xiàn)辨別,最好是在雜交中獲得充分量的Hp。因為完全雜交體的更高量使得差別解鏈的時間更長以顯示出結(jié)果,則通過沖洗可以獲得更好的辨別。類似地,使用更大量的靶核酸,即使Km,p和Km,i之間有小的不同也可以獲得必要需的辨別。
外推到比該單一模型所覆蓋的更復(fù)雜的情況,結(jié)論是就獲得辨別而言在低溫下沖洗對于在給定核酸靶物中有很多末端失配的探針雜交的情況下更重要。
使用描述的理論原理為試驗指導(dǎo),可以獲得與6-8個核苷酸長度的探針的可靠的雜交。所有的試驗用在濾膜上提供一層雜交溶液膜的不固定的塑料板進行。該方法使最大減少探針的量,從而減少斑點印跡雜交中標(biāo)記費用。磷酸雜交緩沖液中,高濃度月桂?;“彼徕c代替月桂?;蛩徕c將反應(yīng)從室溫降至12℃。類似地,4-6X SSC,10%月桂酰基肌氨酸鈉緩沖液使在2℃這樣低的溫度下雜交。在這些緩沖液中去污是為了用最高可達40nM濃度的標(biāo)記探針獲得可接受的背景。短的寡核苷酸雜交體的熱穩(wěn)定性的初步特征用50%G+C含量的原型八聚體即TGCTCATG序列的探針上測定。理論上預(yù)計該探針在較小穩(wěn)定性八聚體中。其轉(zhuǎn)換焓類似于那些更穩(wěn)定的八聚體,或者甚至類似于長度是6個核苷酸的探針(Bresslauers等,美國國家科學(xué)院院刊83,3746(1986))。參數(shù)Td,在1分鐘單位時間內(nèi)的50%雜交體解鏈時的溫度,是18℃。結(jié)果表明對于8bp雜交體Td比11bp雙鏈體低15℃(Wallace等,核酸研究63543(1979))。
除了用模型寡核苷酸試驗外,選擇M13載體作為實施證明短的寡核苷酸雜交的體系。主要目的是顯示用類似于將在本發(fā)明方法的各種應(yīng)用中使用的靶物可用于有用的末端失配辨別。M13模型的寡核苷酸探針,因其M13載體自身含有末端失配堿基而被選擇。載體IF,含有921bp人干擾素基因插入的M13重組體,其攜帶單一完全配對的靶物。因此,與M13載體自身相比,IF或者具有相同數(shù)目或者具有更多數(shù)目的失配靶物。
使用低溫度條件和斑點印跡,獲得含有完全和失配靶物的點斑列和只含有失配靶物的點斑之間雜交信號充分的差別。對于與大量IF-M13核酸對雜交的6-聚體寡核苷酸是這樣的并且對于7-和8-聚體寡核苷酸也是這樣的。
雜交信號取決于用于與探針反應(yīng)的濾膜上可能的靶物的量。必要的對照表明信號強度的差異不反映兩個斑點中核酸的不同的量。與在IF和M13中有相同數(shù)目和種類的靶物探針的雜交表明斑點中有同樣量的DNA。由于雜交體生成的效率隨著雜交體長度而提高,具有6個核苷酸的雙鏈體的信號用與濾膜結(jié)合的高質(zhì)量寡核苷酸靶物檢測最好。當(dāng)與用作靶物的大分子核酸相比時,由于它們較低的分子量,更大數(shù)目的寡核苷酸靶物分子可以與給定表面積結(jié)合。
為了測定對于未純化的DNA檢測的敏感性,不同量的噬菌體上清液在濾膜上點斑并且與32P-標(biāo)記的八聚體雜交。含有不多于0.5ngDNA的少至5千萬個未純化噬菌體給出可檢測信號,表明短的寡核苷酸雜交方法的靈敏度是足夠的。另外實際上反應(yīng)時間短。
如上文理論部分所述,雜交體的平衡產(chǎn)率取決于油探針濃度和/或反應(yīng)溫度。例如,13℃下相同量靶物與4nM八聚體的信號水平比與40nM探針濃度的信號水平低3倍,通過將雜交溫度提高到25℃而降低4.5倍。
證明了實現(xiàn)最大分辨的低溫沖洗的用途。為了使目測觀察現(xiàn)象明顯,使用與載體特異性探針雜交,與IF斑點中相比,將50倍以上DNA放在M13斑點中。在該方法中,用實際探針雜交步驟之后的信號,在失配情況下比配對情況下更強。Hp/Hi之比是1∶4。7℃下延時沖洗后信號強度翻轉(zhuǎn),而沒有明顯損失完全雜交體,產(chǎn)生比例是2∶1。相反,在25℃不可能實現(xiàn)任何分辨,因為2分鐘沖洗下配對靶物的信號已經(jīng)進入背景水平;同時,來自失配雜交體的信號仍然可檢測。13℃與7℃相比分辨的損失并不大,但是清楚可見。如果人們考慮到當(dāng)失配雜交體信號接近背景水平時,7℃90分鐘點和13℃15分鐘點,其代表各條件下的最佳沖洗次數(shù),則很明顯7℃量幾倍大于13℃時的。為了進一步詳細(xì)說明,兩個溫度下,隨著相同量起始雜交體的沖洗的變化的分辨的時間過程表明,在低溫下有較高最大D。這些結(jié)果證明在沖洗步驟開始時,D隨溫度和兩種類型雜交體的量的比例的變化趨勢。
為了顯示短的寡核苷酸雜交條件的一般用途,在我們簡單M13系統(tǒng)中試驗了4種七聚體,10種八聚體和另外14個長度最長為12個核苷酸的探針。這些包括代表GC含量兩個極端的九聚體GTTTTTTAA和八聚體GGCAGGCG。盡管預(yù)料GC含量和序列影響短的雜交體的穩(wěn)定性(Bresslauer等,美國國家科學(xué)院院刊83,3746(1986)),低溫短寡核苷酸條件應(yīng)用于所有試驗探針,實現(xiàn)足夠的分辨。因為用長度13個核苷酸的探針獲得的最好分辨值是20,由于序列變化而產(chǎn)生的幾倍降低是容易接受的。
M13系統(tǒng)具有顯示靶DNA復(fù)雜性對分辨水平的影響的好處。對于不含有或者5個失配靶物并且只是一個GC對不同的兩個八聚體,觀察到的分辨分別是18.3和1.7。
為了表明該方法的用途,收集從Bluscrip載體中的文庫制備的51個質(zhì)粒DNA斑點,試驗8核苷酸長度的三個探針。存在一個探針并且對Bluscrip載體是特異性的,但是在M13中不存在,而其它兩個探針具有是已知序列插入片段的靶物。該系統(tǒng)使使用與各個探針的陰性或陽性對照DNAs的雜交。該探針序列(CTCCCTTT)也具有與干擾素插入片段中的互補的靶物。因為M13斑點是陰性的,而M13或Bluscrip中的在干擾素插入片段是正的,因此雜交是序列特異性的。類似地,如果克隆中存在合適的靶物,探針只檢測到51個插入片段中的一個,或者沒有檢查到插入片段和對照物中,證明雜交可能已經(jīng)發(fā)生。
長度6-8個核苷酸的非常短的寡核苷酸雜交體的熱穩(wěn)定曲線至少比長度11-12個核苷酸的雜交體低15℃[
圖1,和Wallace等,核酸研究(Nucleic Acide Res.)63543-3557(1979)]。但是,在低溫下和用非常實際的0.4-40nM濃度的寡核苷酸探針進行雜交反應(yīng)得以檢測已知的或未知的核酸靶物中的互補序列。為了完全測定未知的核酸序列,可以使用一整套含有65535個8-聚體探針。常規(guī)生物樣品中存在為此目的的足夠量的核酸,例如幾微升M13培養(yǎng)物,來自10ml細(xì)菌培養(yǎng)物或者細(xì)菌單一菌落的質(zhì)粒制劑,或者少于1ml標(biāo)準(zhǔn)的PCR反應(yīng)。
6-10核苷酸長度的短的寡核苷酸給出極好的分辨。具有單一末端失配的雜交體穩(wěn)定性的相對降低比更長的探針更顯著。用八聚體TGCTCATG的結(jié)果支持這一結(jié)論。在試驗中,帶有G/T末端失配的靶物,與該類型失配的靶物的雜交是所有其它類型寡核苷酸中最穩(wěn)定的。與19堿基對的雙鏈體中部G/T失配相比,實現(xiàn)的分辨相同或者更大[Ikuta等,核酸研究15797(1987)]。使用對于短的寡核苷酸雜交所描述的雜交條件所利用的這些分辨特性得以非常精確地測定寡核苷酸靶物。與完全和不完全雜交體之間容易的檢測相反,使用非常短的寡核苷酸可能存在的問題是制備足夠量的雜交體。實際上,通過提高斑點中DNA的量和/或探針的濃度,或者通過降低雜交溫度來幫助分辨Hp和Hi的需要。但是,較高探針濃度通常增加背景。此外,實際使用的靶核酸的量是有限的。該問題通過用4nM探針給出有效背景的洗滌劑十二烷基肌氨酸鈉的較高濃度可以解決。使用探針對濾膜的非特異性結(jié)合的競爭劑,或者通過改變雜交支持體材料可以實現(xiàn)進一步所改進。此外,對于具有Ea小于45Kcal/mol的探針(例如對于很多七聚體和大多數(shù)六聚體),修飾的寡核苷酸比其未修飾的給出更穩(wěn)定的雜交體[Asseline等,美國國家科學(xué)院院刊,813297(1984)]。本發(fā)明所描述的低溫下短寡核苷酸雜交雜交條件對于所有序列和產(chǎn)生的雙鏈體雜交體給出更好的分辨。對于不同序列實現(xiàn)雜交條件的均一性的唯一代價是根據(jù)序列將沖洗時間從幾分鐘延長至24小時。此外,通過降低鹽濃度可以進一步減少沖洗時間。
盡管一個配對雜交體與失配雜交體之間有很好的分辨,在短的寡核苷酸雜交中,存在來自失配雜交體的信號,大多數(shù)失配雜交體從末端失配產(chǎn)生。這可以限制插入片段的大小,這可以通過一定長度的探針有效檢測到。
不能忽略序列復(fù)雜性對分辨的影響。但是,當(dāng)通過特異的,非隨機序列的短寡核苷酸雜交來定義序列信息時,復(fù)雜性的影響更明顯,并且可以通過使用合適的探針與靶物長度比例來克服。選擇長度比例,使不可能在統(tǒng)計學(xué)基礎(chǔ)上存在具有很多能消除或不正常地改變辨別的末端失配的特異序列。結(jié)果提示對分別比0.6,2.5和10bp更短的靶物核酸插入片段使用長度為6,7和8個核苷酸的寡核苷酸。
實施例11DNA測序亞陣的陣列足以測序以亞陣復(fù)本形式排列的一小套樣品;例如,64個樣品可以排列成8×8mm亞陣,并且可以在15×23cm膜上以亞陣之間1mm寬間距重復(fù)16×24亞陣??梢灾苽鋷讉€復(fù)本的膜。例如,3772個7-聚體通用套的探針可以分成32個96孔的平板,并且用酶激標(biāo)記。在一個雜交循環(huán)期間可以平行進行4個膜。在各膜上,可以評價384個探針。所有的探針可以在兩個雜交循環(huán)中評價??梢栽u價雜交強度并且如下所述裝配序列。
如果單一一個樣品亞陣或多個亞陣含有幾種未知的,尤其是當(dāng)使用類似的樣品時,如果聰明地以前面評價的探針的結(jié)果為基礎(chǔ)選擇,則較少數(shù)量的探針可以是足夠的。例如,如果探針AAAAAAA不是陽性的,則8個重疊探針的任何一個是陽性的機會很小。如果探針AAAAAAA是陽性的,則兩個探針通常是陽性的。這種情況下的測序方法包括首先雜交最少重疊的探針亞套以確定陽性錨鉤,然后成功地選擇探針,該探針證實關(guān)于錨鉤的順序和它們之間缺口的大小和類型最可能的假設(shè)中的一個。在第二種情況下,可以使用2-10個探針的集合,其中選擇每一個探針,其只是在一個DNA樣品中是陽性的,所述樣品不同于預(yù)期用來自集合的其它探針探測是陽性的那些樣品。
亞陣方法有效完成解決分支問題中的探針競爭(重疊探針)或探針合作(探針的連續(xù)堆積)。一套通用探針雜交之后,序列裝配程序確定候選的序列亞片段(SFs)。為了進一步裝配SFs,必須要提供另外的信息(來自DNA片段的重疊序列,類似序列,單道凝膠序列,或者來自其它雜交或限制性制圖數(shù)據(jù))。通過分支點的單道凝膠測序所用的引物是從SBH序列信息或者從已知的載體序列確定的,例如載體插入片段位點的側(cè)翼序列,并且對樣品DNA進行標(biāo)準(zhǔn)桑格測序反應(yīng)。從該單道凝膠測序獲得的序列與讀進和讀出分支點的SFs相比較以鑒定SFs的順序。此外,單道凝膠測序可以與SBH結(jié)合對核酸從頭測序或者再測序。
競爭雜交和連續(xù)堆積相互作用也可以用來裝配SFs。如果使用勻一的陣列,這些方法對于通過其中標(biāo)記探針上樣于附著陣列的樣品的SBH對大量樣品測序具有有限的商業(yè)價值。幸運的是,使用復(fù)本亞陣的少量樣品的分析使有效完成兩項研究。在每一個復(fù)本亞陣上,類似于在同一亞陣中點斑的不同樣品中解釋突變的序列,使用探針的集合對一個或多個DNA樣品測定分支點(參見上文)。
如果在該實施例中描述的64個樣品的每一個中,有大約100個分支點,和如果在每一個亞陣中平行分析8個樣品,則至少800個亞陣探查解釋所有的分支。這意味著對于3072個堿基探查使用另外800個探查(25%)。更優(yōu)選地,兩個探查用于一個分支點。如果亞陣較小,則使用較少的另外的探查。例如,如果亞陣由16個樣品組成,則可以評價200個另外的探查(6%)。通過使用7-聚體探針(N1,2B7N1-2)和競爭或協(xié)作分支解釋研究或者兩者,可以通過大約4000個探查裝配大約1000bp片段的片段。此外,使用8-聚體探針(NB8N)4kb或更長片段可以用12000個探查裝配。缺口探針,例如NB4NB3N或NB4NB3N可以用來減少分支點的數(shù)目。
實施例12通過對探針亞陣的瞬時附著和連接標(biāo)記探針進行DNA分析通過標(biāo)準(zhǔn)化學(xué)方法合成具有4-40個堿基信息長度的寡核苷酸探針并且貯存在試管或多孔平板中。通過在分開的支持體或較大支持體不連續(xù)部分上沉積(deposition)或原位合成排列包括1-10000個探針的具體探針套。在后一種情況下,通過物理的或疏水性隔柵可以分開各部分或亞陣。探針陣列可以通過原位合成來制備。合適大小的樣品DNA與一個或多個具體陣列雜交。很多樣品可以在相同亞陣中以集合進行測試或者獨立地與一個支持體上不同的亞陣進行。與該樣品同時或相繼,在各亞陣上加上單一標(biāo)記探針或者標(biāo)記探針的集合。如果連接和標(biāo)記探針在樣品DNA中的互補靶物上背對背雜交,則它們被連接。通過檢測探針上的標(biāo)記測定連接的發(fā)生。
該方法是描述的其中DNA樣品非永久性附著支持體的DNA分析方法的變化的方法。通過探針固定于支持體提供瞬時附著。在這種情況下,不需要靶物DNA排列方法。另外,連接使通過相合短的標(biāo)記探針與短的固定探針檢測更長的寡核苷酸序列成為可能。
該方法具有幾個獨特的特征?;镜?,靶物的瞬時附著使其重復(fù)使用。連接發(fā)生后靶物可以被釋放而標(biāo)記將繼續(xù)共價附著于支持體。該特征得以循環(huán)靶物并且用少量靶物產(chǎn)生可檢測信號。在最佳條件下,靶物不需要被擴增,例如DNA樣品的天然來源可以直接用于診斷和測序目的。靶物可以通過在有效雜交和雙鏈體的有效解鏈之間溫度循環(huán)而被釋放。更優(yōu)選地,沒有循環(huán)。可以限定溫度和成分使游離的靶物和進入雜交體的靶物之間的平衡是大約50∶50%水平。在這種情況下,連續(xù)產(chǎn)生連接的產(chǎn)物。為了不同的目的,不同的平衡比例是最佳的。
可以應(yīng)用電場來增強靶物使用。在開始時,可以應(yīng)用各個亞陣中水平場脈沖提供快速靶物分類。在該階段,平衡向雜交體生成方向移動,并且可以使用未標(biāo)記探針。靶物分類期后,可以進行合適的沖洗(可以通過限制樣品移動的垂直電場來幫助)??梢砸刖弑鎰e性雜交體解鏈,通過雜交收集靶物和未使用的靶物的連接和去除幾次循環(huán)來提高特異性。在下一步中,可以加入標(biāo)記探針并且可以應(yīng)用垂直的電子脈沖。通過提高溫度,可以實現(xiàn)最佳游離的和雜交了的靶物之比。垂直電場防止分類過的靶物擴散。
可以以各種方式排列固定化探針亞陣和標(biāo)記探針套(特別是從通用探針套中設(shè)計的和選擇的)以有效地和可變通地進行測序和診斷。例如,如果細(xì)菌基因組短的片段(大約100-500bp)要部分或完全測序,則可以使用以已知序列為基礎(chǔ)設(shè)計的探針的小陣列(5-30個堿基長度)。如果對于每一個亞陣用不同的10個標(biāo)記探針庫探查,各自包含10個探針的10個亞陣的陣列得以檢查200個堿基,假設(shè)僅評價兩個通過連接作用連接的堿基。在雜交體中辨別失配的條件下,探針可以置換一個以上的堿基,借此用相同數(shù)目的探針覆蓋更長的靶物。通過使用長探針,可以直接探查靶物而不用從樣品中其余DNA中擴增或分離。還有,可以在一個樣品中同時分析(篩選)幾個靶物。如果得到的結(jié)果表明發(fā)生了突變(或者病原體),可以使用探針的另外的庫來檢測突變類型或者病原體亞套。該方法的預(yù)期特征是在只有患者的一小部分預(yù)期感染或突變這種的預(yù)防性診斷中,在成本上是非常有效的。
在實施例中描述的該方法中,可以使用各種檢測方法,例如通過光散射或干涉度量學(xué)方法可檢測的放射性標(biāo)記,熒光標(biāo)記,酶或抗體(化學(xué)發(fā)光物質(zhì)),大分子或顆粒。
實施例13用八聚體和九聚體測序靶物從八聚體和九聚體寡核苷酸的雜交得到的數(shù)據(jù)表明通過雜交的測序提供非常高的精確度。在該項試驗中,已知的序列被用來預(yù)測連續(xù)重疊成分八聚體和九聚體寡核苷酸系列。
除了完全配對寡核苷酸外,檢測了失配寡核苷酸,其中通過該寡核苷酸和靶物形成的雙鏈體中存在內(nèi)部或末端失配的失配寡核苷酸。在這些分析中,應(yīng)用最低實際溫度來使雜交形成最大化。在相同或更低的溫度下完成沖洗,以通過利用較大的失配/配對寡核苷酸/靶物雜交的解離速率保證最大辨別。這些條件顯示對于所有的序列是可應(yīng)用的,但是絕對雜交產(chǎn)率表明是序列依賴性的。
可以假定的最少的不穩(wěn)定的失配是單一末端失配,這樣通過雜交的測序的試驗?zāi)軓哪┒耸涔押塑账?靶物雙鏈體辨別出完全配對寡核苷酸/靶物雙鏈體。
在斑點印跡方案中對于105個雜交寡核苷酸中的102的可辨別值比2大,使高度精確產(chǎn)生序列。該系統(tǒng)也使分析序列對雜交形成和雜交不穩(wěn)定性的影響能為可能。
通過PCR制備人干擾素基因已知部分的100個堿基對,即100bp靶物序列,是用從已知序列105個寡核苷酸探針與靶物核酸的雜交產(chǎn)生的數(shù)據(jù)產(chǎn)生的。使用的寡核苷酸探針包括72個八聚體和21個九聚體寡核苷酸,它們的序列與靶物完全互補。這一套93個探針提供置換一個或兩個堿基的靶序列的連續(xù)重疊框。
為了評價失配的影響,當(dāng)與100bp試驗靶序列雜交時,對包含至少一個末端失配的12個另外的探針檢測雜交作用。也對12個探針與末端失配的靶物進行試驗,選擇4個其它對照核酸序列,使得這12個寡核苷酸與這4個對照DNA形成完全配對雙鏈體雜交體。這樣,對該試驗中使用的各個寡核苷酸評價內(nèi)部失配,末端失配和完全配對雙鏈體寡核苷酸對和靶物的雜交。通過測定不同寡核苷酸探針與共擴增質(zhì)粒DNA內(nèi)單次發(fā)生的非靶物位點的雜交確定靶DNA濃度,測定絕對DNA靶物濃度對與試驗的八聚體和九聚體寡核苷酸的雜交的影響。
該項試驗的結(jié)果表明,包含對靶物或?qū)φ誅NA完全配對互補序列的所有寡核苷酸比具有失配的那些寡核苷酸更強地雜交。就這一結(jié)論,我們檢查了對于每一個探針的Hp和D值。Hp定義了試驗靶物和寡核苷酸探針之間形成雜交體雙鏈體的量。通過將對于105個探針獲得的雜交的值設(shè)定為0-10之間,明顯105個探針的68.5%具有大于2的Hp。
獲得辨別(D)值,其中D被定義為下面情況下其之間的信號強度之比1)含有試驗寡核苷酸和靶物或?qū)φ蘸怂嶂g形成的完全配對雙鏈體的斑點和2)含有相同寡核苷酸和靶物或?qū)φ蘸怂嶂胁煌奈稽c之間形成的失配雙鏈體的斑點。D值的改變是由下面情況產(chǎn)生的,或者1)使觀察信號超過背景的雜交效率中的干擾,或者2)試驗的寡核苷酸和靶物之間發(fā)現(xiàn)的失配的類型。該項試驗中獲得的D值是對于105個檢查的寡核苷酸探針的102個在2和40之間。對于作為整體的102個寡核苷酸組的D的計算表明平均D是10.6。
有20例寡核苷酸/靶物雙鏈體表現(xiàn)出末端失配。在其中的5個中,D大于10。這些情況下的大的D值對可能是由于由除最穩(wěn)定(G/T和G/A)末端失配之外引起的雜交不穩(wěn)定。其它可能性是或者寡核苷酸或者靶物的序列中存在差錯。
排除了對于具有低Hp的探針的靶物中的差錯的可能性,因為這樣的差錯將會影響其它8個重疊寡核苷酸的每一個的雜交。對于其它重疊寡核苷酸沒有明顯的由序列失配造成的不穩(wěn)定性,表明靶物序列是正確的。在在再次檢查了7個新合成的寡核苷酸的雜交之后排除了寡核苷酸序列中的差錯的可能性。7個寡核苷酸中只有一個產(chǎn)生較好的D值。低的雜交體形成值可能是由于雜交體不穩(wěn)定或者不能形成雜交體雙鏈體產(chǎn)生的。不能形成雜交體雙鏈體是由于下面的原因之一1)選擇的探針的自身互補性或2)靶物/靶物自身雜交。如果探針是自身互補的,則寡核苷酸/寡核苷酸雙鏈體的形成可以優(yōu)于寡核苷酸/靶物雙鏈體形成。類似地,如果靶物是自身互補的或者可以形成內(nèi)部回文序列,則靶物/靶物連接是優(yōu)先的。在評價這些可能性中,來自探針的分析表明,有疑問的探針與其自身不形成雜交體。而且,在檢查靶物/靶物雜交的分布中,檢測到有疑問的寡核苷酸探針中的一個與含有相同靶物的兩個不同的DNA的雜交不是有效的。對于相同靶物序列,兩個不同的DNA具有自身互補區(qū)的低可能性產(chǎn)生靶物/靶物雜交不是低雜交形成的原因的結(jié)論。這樣,這些結(jié)論表明雜交體的不穩(wěn)定性和不能形成雜交體性是對于特殊寡核苷酸所觀察到的低度雜交形成的原因。該結(jié)論也表明低度雜交形成是由于某些寡核苷酸的特殊序列。而且,該結(jié)論表明如果使用八聚體和九聚體寡核苷酸,可以獲得產(chǎn)生序列的可靠結(jié)果。
這些結(jié)果表明使用所描述的方法中,任何特殊靶核酸的長序列可以通過寡核苷酸成分的最大的和獨特的重疊而產(chǎn)生。這樣的測序方法取決于各寡聚體成分的含量,不考慮其頻率和其位置。
使用下面描述的算法產(chǎn)生的序列是高度保真性的。該算法允許來自雜交斑點的假的陽性信號,正如事實表明由105個雜交值(其中4個較小可靠性)產(chǎn)生的序列是正確的。通過雜交的測序中的高保真性歸因于“全或無”短的寡核苷酸雜交的動力學(xué)和完全配對雙鏈體和失配雙鏈體之間存在的雙鏈體穩(wěn)定性的差別。配對的和末端失配的雙鏈體的雙鏈體穩(wěn)定性之比隨著雙鏈體長度的降低而提高。此外,結(jié)合能隨著雙鏈體長度的降低而降低導(dǎo)致低的雜交效率。但是,提供的結(jié)果表明八聚體雜交使影響雙鏈體穩(wěn)定性和辨別的因素平衡,產(chǎn)生雜交測序的高精確度的方法。其它實施例中得到的結(jié)果表明6,7或8個核苷酸的寡核苷酸能有效用來產(chǎn)生0.5kb(對于六聚體),2kb(對于七聚體)和6kb(對于八聚體)靶物上的可靠序列。長片段的序列可以重疊以產(chǎn)生完全的基因組序列。
實施例14得到的數(shù)據(jù)的分析通過圖像分析程序,象DOTS程序(Drmanacetal.,1993)分析圖像存儲數(shù)據(jù),然后通過例如在SCORES程序(Drmanacetal.,1994)中所包括的統(tǒng)計函數(shù)換算并評估。從信號的分布,確定將信號轉(zhuǎn)化成+/-輸出的最佳閾值。
由所檢測的標(biāo)記位置,通過組合對應(yīng)于標(biāo)記位置的固定和標(biāo)記探針的已知序列確定片段的F+P核苷酸序列。然后從通過計算推測而確定的重疊的F+P序列組裝完整核酸序列或源分子,例如人染色體的序列。
一個選擇是在序列組裝過程中將雜交信號例如評價轉(zhuǎn)化成+/-輸出。在這種情況下,組裝將從有很高評價的F+P序列,例如,F(xiàn)+P序列AAAAAATTTTTT開始。比較所有四種可能的重疊探針AAAAATTTTTTA,AAAAATTTTTT,AAAAATTTTTTC,和AAAAATTTTTTG和三個起點不同的其它三種探針(TAAAAATTTTTT;CAAAAATTTTTT,GAAAAATTTTTT,),得出三個結(jié)論(i)只有開始的探針和四個重疊探針中的一個具有相對于其它6個探針來說明顯陽性的評價,在這種情況下,將AAAAAATTTTTT序列向右延伸一個核苷酸;(ii)除起始探針外沒有一個探針有明顯陽性評價,在這種情況下,將停止組裝,例如AAAAAATTTTTT序列在待測序之DNA分子的末端;(iii)在重疊的和/或其它三種探針中發(fā)現(xiàn)了不止一個明顯陽性的探針;由于錯誤或分支,將停止組裝(Drmanacetal.,1994)。
計算推導(dǎo)過程將利用現(xiàn)存算法的計算機程序(參見例如Pevzner,1989;Drmanacetal.,1991;Labat和Drmanac,1993;所述文獻引入本文作為參考)。
如果,除F+P外,還確定F(空1)P,F(xiàn)(空2)P,F(xiàn)(空3)P,或F(空4)P,將使用算法使所有的數(shù)據(jù)設(shè)置相符以改正潛在錯誤或處理有分支問題的情況(參見例如,Drmanacetal.,1989;Brain.,1988;所述文獻均引入本文作為參考)。
實施例15通過兩步雜交進行測序下面是描述本發(fā)明人完成的測序方法實施的幾個實施例。首先,將全部芯片與復(fù)雜至1億個bp(一個人的染色體)的DNA混合物雜交。完成雜交的指導(dǎo)可以參見文獻例如Drmanac等人(1990);Khrapko等人(1991);和Broude等人(1994)。這些文獻說明了適用于版本3SBH開始步驟的雜交溫度的范圍,緩沖液和洗滌步驟。
由于可以提供相對低濃度的靶DNA,所以本發(fā)明人特別考慮在高鹽濃度于低溫度(-2℃到5℃)下長達數(shù)小時的條件以完成雜交。為了達到此目的,用SSC緩沖液代替在10℃沉淀的磷酸鈉緩沖液(Drmanac等人,1990)。若用雜交循環(huán)進行高度復(fù)雜的DNA樣品的測序時,由于第二步驟,可以不必徹底洗滌(數(shù)分鐘),而且可以完全省去。用于雜交和洗滌步驟的同一種緩沖液能繼續(xù)用于與標(biāo)記探針的二次雜交步驟。
用各陣,例如8×8mm陣上的自動裝置適當(dāng)洗滌后,加入一個標(biāo)記探針,例如6-聚體。使用96-針或96-針裝置,在42個操作中完成。還可以使用在以前的科技文獻中描述的分辨條件的范圍。
本發(fā)明人特別使用了下列條件。首先,在低溫(0-5℃)加入標(biāo)記探針并溫育數(shù)分鐘(由于加入了高濃度的寡核苷酸)后,根據(jù)F+P的長度,將溫度提高到3-10℃,加入洗滌緩沖液。此時,所使用的是與任何連接反應(yīng)均可相容的緩沖液(例如100mM鹽濃度范圍)。加入連接酶后,將溫度升到15-37℃以加速連接(少于30分鐘),然后再分辨完全匹配和失配的雜交物。
在版本3 SBH中,還使用了Pontius & Berg(1991,引入本文作為參考)描述的陽離子去污劑。這些作者描述了使用兩種簡單的陽離子去污劑,在DNA變性中的十二烷基和鯨蠟基三甲基胺溴化物(DTAB和CTAB)。
DTAB和CTAB是季胺四甲基胺溴化物(TMAB)的變體,其中甲基之一由一個12-碳(DTAB)或一個16-碳(CTAB)烷基基團所取代。TMAB是四甲基胺離子的溴化鹽,用于核酸變性實驗以降低熔解溫度的G-C含量偏離的試劑。DTAB和CTAB在結(jié)構(gòu)上與十二烷基磺酸鈉(SDS)相似,只是帶陽電荷的季胺取代了帶負(fù)電荷的SDS磺酸鹽。而在雜交緩沖液中常常使用SDS以減少非特異性結(jié)合并抑制核酸酶,它對變性速率沒有太大的影響。
在使用連接過程時,可以將酶與標(biāo)記探針一起加入或在適當(dāng)?shù)南礈觳襟E后加入以降低背景。
盡管以前未考慮到在任何SBH方法中使用,但是,連接酶技術(shù)是分子生物學(xué)領(lǐng)域熟知的技術(shù)。例如,Hood和同事描述了連接酶介導(dǎo)的基因檢測技術(shù)(Landegren et al.,1988),很容易將改方法加以改變以適用于版本3 SBH。Wu & Wallace還描述了用噬菌體T4 DNA連接酶連接兩個相鄰的短的合成寡核苷酸。他們的寡核苷酸連接反應(yīng)是在50mM Tris Hcl pH7.6,10mM MgCl2,1mM ATP,1mM DTT,5%PEG中完成的,將連接反應(yīng)物加熱到100℃ 5-10分鐘,然后在加入T4 DNA連接酶(1單元,Bethesda Research Laboratory)前冷卻到0℃。大多數(shù)連接反應(yīng)是在30℃完成,加熱到100℃ 5分鐘而終止。
然后進行適當(dāng)?shù)淖詈笙礈煲苑直鏅z測雜交的相鄰,或連接的長度為(F+P)的寡核苷酸。洗滌步驟于40-60℃在水中進行數(shù)分鐘以洗掉未連接的標(biāo)記探針和所有其他的化合物以便最大程度地減少背景。由于共價健合標(biāo)記探針,所以使檢測簡單化(沒有時間和低溫的限制)。
根據(jù)所用的標(biāo)記,用不同的裝置進行芯片成象。對放射性標(biāo)記,可以用熒光貯存屏技術(shù)和PhosphorImager作為掃描儀(MolecularDynamics,Sunnyvale,CA)。將芯片放在盒中,用磷光屏蓋上。暴露1-4小時后,掃描所述的屏,然后將圖象貯存在計算機硬盤中。對于磷光標(biāo)記檢測,使用CCD攝像機和外熒光(epifluorescent)和共焦顯微鏡。于在CCD攝像機的象素上直接產(chǎn)生芯片,可以按Eggers等人(1994,引入本文作為參考)的描述完成檢測。
電荷耦合的裝置(CCD)檢測儀用作活躍的有力支持,其定量檢測和成象標(biāo)記靶分子在探針為基礎(chǔ)的檢測中的分布。這些裝置利用了微電子學(xué)所固有的適應(yīng)高平行檢測,超敏檢測,高流量,積分?jǐn)?shù)據(jù)采集和計算的特性。Eggers等人(1994)描述了在探針為基礎(chǔ)的檢測,例如本發(fā)明的方式3SBH中CCD的使用,由于高度的敏感性和直接耦合的使用,可以在數(shù)秒鐘內(nèi)完成定量估測。
積分CCD檢測方法可以檢測芯片上的分子結(jié)合過程。檢測儀迅速產(chǎn)生獨特地表征樣品的二維圖形。在CCD為基礎(chǔ)的分子檢測儀的具體操作中,不同的生物學(xué)探針被直接固定在CCD的象素上或附著于CCD表面一次性的蓋片上。樣品分子可以用放射性同位素,化學(xué)發(fā)光劑或熒光標(biāo)簽進行標(biāo)記。
將樣品暴露于CCD為基礎(chǔ)的探針陣后,在方式3的情況下,在樣品與兩個互補探針結(jié)合的象素位置發(fā)射出光子或放射性同位素衰減產(chǎn)物。當(dāng)帶電粒子或來自標(biāo)記樣品的射線入射在CCD網(wǎng)格上時,在硅上產(chǎn)生電子空穴對。然后將電子聚集在相鄰的CCD網(wǎng)格下方,隨后在顯示存儲體讀出。在各象素上產(chǎn)生的光電子數(shù)在所述的接近度內(nèi)與分子結(jié)合數(shù)直接成正比。從而定量地確定分子結(jié)合(Eggers等人,(1994))。
通過在樣品附近放置成象陣,收集效率比基于透鏡技術(shù)例如在常規(guī)CCD攝像機中所見到的要高至少10倍。即,樣品(發(fā)射物)與檢測儀(成象陣)緊緊接觸,省去了常規(guī)成象鏡片,例如透鏡和反光鏡。
當(dāng)放射性同位素作為報告基團連接于靶分子時,就檢測到能量粒子。發(fā)射不同能量粒子的報告基團已成功地被顯微加工檢測儀所利用,包括32P,33P,35S,14C和125L。粒子的能量越高(例如來自32P),則提供最高的分子檢測靈敏度,而來自的能量越低(例如來自35S),則分辨率越好。因此,可以按需要選擇所選的放射性同位素報告基團。一旦選擇了特定的放射性同位素標(biāo)記,按Eggers等人(1994)所述,通過計算信噪比(SNR)可以預(yù)測檢測性能。
另一種發(fā)光檢測方法包括使用連接于靶分子的熒光或化學(xué)發(fā)光報告基團。熒光標(biāo)記可以通過共價或相互作用而粘附。由于量子效率在激發(fā)波長比在熒光信號波長低數(shù)個數(shù)量級,因此,在UV附近(300-350nm)有強度吸收帶并在可見(500-650nm)有主發(fā)射帶的熒光染料,例如溴化乙錠最適于CCD裝置。
從檢測發(fā)光的角度看,聚硅CCD網(wǎng)格有內(nèi)在的能力,可以過濾掉在UV范圍的入射光組分,而對由熒光報告基團產(chǎn)生的可見發(fā)光仍很敏感。對UV激發(fā)的所述內(nèi)在的大分辨率能夠增大SNR(大于100),達到Eggers等人(1994)在引入的文獻中由CCD所達到的程度。
為了在檢測儀上固定探針,可以在不昂貴的SiO2片上產(chǎn)生雜交基質(zhì),在雜交和干燥后放在CCD表面。由于DNA的雜交是在不昂貴的一次性SiO2片上進行的,因此可以重復(fù)使用比較昂貴的CCD檢測儀。另外,可以將探針直接固定在CCD上以產(chǎn)生專用的探針基質(zhì)。
為了將探針固定在SiO2涂層上,利用環(huán)氧-硅烷試劑和標(biāo)準(zhǔn)SiO2改性化學(xué)將均勻的環(huán)氧化物層與膜表面相連。利用與環(huán)氧環(huán)形成的仲胺,將氨-修飾的寡核苷酸探針通過與環(huán)氧環(huán)形成二級胺而與SiO2表面相連。所得的鍵合在寡核苷酸的3’堿基和SiO2表面之間提供了17個可旋轉(zhuǎn)的鍵。為了在耦合過程中確保完全胺去質(zhì)子化并且形成最少的二級結(jié)構(gòu),在0.1M KOH中完成反應(yīng),在37℃溫育6小時。
總的來說,在版本3中,每各千兆點評價信號。不必一次雜交所有的陣?yán)?000個5×5mm,而且可以連續(xù)使用較少數(shù)量的陣。
循環(huán)雜交是一種提高雜交信號的可能的方法。在一個循環(huán)中,大多數(shù)固定探針將與帶有與標(biāo)記探針不互補的尾序列的DNA序列雜交。通過提高溫度,那些雜交物將被融化。在下一個循環(huán)中,它們之中的一部分(-0.1%)將與適宜的DNA片段雜交,連接其他的標(biāo)記探針。在這種情況下,將會發(fā)生同時對兩組探針失配的DNA雜交體的分辨性熔解。
在循環(huán)雜交中,在循環(huán)開始前加入所有的組分,在37℃加T4,或在更高的溫度加熱穩(wěn)定的連接酶。然后將溫度降到15-37℃,并將芯片溫育長達10分鐘,再將溫度升到37℃或更高保持幾分鐘,然后再降低??蓪⒀h(huán)重復(fù)高達10次。在一種變體中,可以使用最佳的高溫(10-50℃)而不必進行循環(huán),并且可以完成較長的連接反應(yīng)(1-3小時)。
由于只需要相對較少的寡核苷酸,所以本文所述的方法可以利用標(biāo)準(zhǔn)合成方法和精確的寡核苷酸點斑以制備復(fù)雜的芯片。例如,如果合成了所有7-聚體(16384),則可以確定256百萬個14-聚體表。
本發(fā)明方法的一種重要變體是每基陣使用一種以上的不同標(biāo)記探針。這可以考慮到兩個目的而被完成;多重結(jié)合化以降低不同雜交陣的數(shù)目;或確定甚至更長的寡核苷酸例如3×6或3×7的表。在這種情況下,如果使用兩個標(biāo)記,由于陽性位點必須對兩個標(biāo)記具有足夠的信號,所以3個連續(xù)寡核苷酸的特異性幾乎是絕對的。
另一種變體是使用含有BxNy探針的芯片,其中y是1-4。這些芯片可以在不同的幀中進行序列閱讀。這也可以通過使用適當(dāng)?shù)臉?biāo)記探針套或者可能有一些不特定的末端位置(即一些末端簡并性元素)的F和P探針來達到。也可以用通用的堿基作為接頭的一部分以便使確定序列的探針連接在固體支持物上。這樣使得探針更易于雜交而且使得構(gòu)建體更穩(wěn)定。如果探針有5個堿基,人們可以例如使用3個通用堿基作為接頭。
實施例16從雜交數(shù)據(jù)確定序列裝配的序列可以被間斷,只要是其中給定重疊(N-1)聚體重復(fù)兩次或多次。然后,最末核苷酸不同的兩個N-聚體中的任一個可以在延長序列中使用。該分支點限制了序列確定的組裝。
再組裝與靶核酸雜交的已知的寡核苷酸序列,以生成完全靶核酸序列在某些情況下可能是不能完成的。這是因為如果靶核酸不是在相對于用于雜交的寡核苷酸大小合適大小的片段中的話,則可能丟失一些信息。丟失的信息量與測序的靶物的長度呈正比。但是,如果使用足夠短的靶物其序列可以毫無疑問地測得。
可以計算沿DNA的一定長度分布的可能干擾序列組裝的重復(fù)序列可能的頻率。這種換算需要引入與序列組成相關(guān)的參數(shù)的定義序列亞片段(SF)。如果靶核酸序列的任何部分以在靶序列中重復(fù)兩次或多次的(N-1)聚體起始和終止,則產(chǎn)生序列亞片段。因此,亞片段是在本發(fā)明方法中序列組裝過程中兩個分支點之間產(chǎn)生的序列。所有亞片段的總和因為短末端的重疊而比實際靶核酸長。一般情況下,因為它們在其末端和起始端具有共有的(N-1)聚體,則沒有另外的信息不能以線性順序組裝亞片段。以其重復(fù)的(N-1)聚體的數(shù)目為基礎(chǔ)對于每一個核酸靶物獲得不同數(shù)目的亞片段。該數(shù)目取決于N-1的值和靶物的長度。
可能性計算能估計兩種因素的相互關(guān)系。如果通過使用長度N-1或平均距離A0的重疊序列完成正N-聚體的排序,則通過等式給出Lf堿基長片段的N-1Nsf=1+A0×K×P(K,Lf)其中K大于或等于2,(K,Lf)代表N-聚體在Lf堿基長片段上發(fā)生K次的可能性。還有,下面實施例18中描述了從任何給定序列的N-聚體的含量推出亞片段的計算機程序。
亞片段數(shù)目隨著給定長度探針的片段長度的增加而增加。得到的片段其自身中可能不是單一的順序。盡管不完全,該信息非常有用地用來比較序列分析并且識別功能序列特征。信息的這種類型可以稱之為部分序列。獲得部分序列的另一條途徑是只是使用給定長度寡核苷酸探針亞套。
根據(jù)理論預(yù)計的序列和對隨機DNA序列的計算機模擬之間可能會有相對好的一致性。例如對于N-1=7,[使用8-聚體或者5’型(A,T,C,G)B8(A,T,C,G)3’的16個10-聚體的組],200個堿基的靶核酸將平均具有三個亞片段。但是,由于在平均值周圍分布,靶核酸庫應(yīng)該具有500bp插入片段,使得2000個靶物中少于1的靶物具有多于三個的片段。這樣,在序列測定長核酸隨機序列的理想情況下,可以使用具有充分短的靶核酸的插入片段的有代表性的庫。對于這樣的插入片段,通過本發(fā)明方法重新構(gòu)建各個靶物是可能的。然后通過重疊確定的各個插入片段序列獲得大核酸的整個序列。
為了減小對于非常短的片段的需要,例如用于50個堿基8-聚體探針,使用存在于每一個隨機DNA片段化過程象克隆或隨機PCR中的重疊片段所包含的信息。有可能使用短的自然核酸片段的庫。對于測序1百萬個堿基使用8-聚體或11-聚體,象5’(A,T,C,G)N8(A,T,C,G)3’,代替21000個樣品,20000個50bp片段是足夠的。該數(shù)目包括700個隨機7kb克隆(基礎(chǔ)庫),1250個20個500bp克隆的庫(亞片段有序庫)和150個來自跳查(或類似)庫的克隆。(參見實施例18),用這些描述的樣品的雜交數(shù)據(jù)用建立的算法產(chǎn)生序列。
實施例17算法該實施例描述了從在起始核酸序列的最小數(shù)目的獨立,隨機確定的片段中的長序列的算法,其中k是寡核苷酸探針的長度該序列以k元組字的四字母書寫。該算法主要是為了在通過雜交測序(SBH)方法中使用。該算法的基礎(chǔ)是亞片段(SF),信息片段(IF)和使用用于確定信息片段的物理核酸序列庫的可能性。
如所述的,亞片段可以由從靶核酸中K-1寡聚物序列的重復(fù)產(chǎn)生的組裝過程中的分支點引起。亞片段是序列中存在的K-1長度的任何兩個重復(fù)字(word)之間發(fā)生的序列片段。K-1字的多次出現(xiàn)造成序列產(chǎn)生方法中K-字重疊排序的中斷。中斷導(dǎo)致序列仍處于亞片段形式。這樣,那些順序不是唯一確定的分支點之間含義明確的片段稱為序列亞片段。
信息片段定義為通過重疊的自然序列片段的最近的末端測定的序列的片段。
一些數(shù)目的自然片段可以集合而不失去定義信息片段的可能性。隨機集合的片段的總長度取決于測序方法中使用的k-元組(k-tuple)的長度。
算法由兩個主要單位組成。第一部分用來從序列中包含的一套k-元組產(chǎn)生亞片段??梢栽谝欢ù笮∽匀缓怂嵝蛄械木幋a區(qū)內(nèi),或者在長核酸序列中確定的信息片段中產(chǎn)生亞片段。兩種類型的片段都是基礎(chǔ)庫的成員。該算法不描述基礎(chǔ)庫的信息片段的k-元組含量的測定,即要在序列產(chǎn)生過程中使用的信息片段的制備步驟。
算法的第二部分確定得到的亞片段的線性順序,目的在于重新產(chǎn)生基礎(chǔ)庫的核酸片段的完全序列。為此目的,使用第二個有序庫,其由起始片段的隨機集合片段組成。該算法不包括將基礎(chǔ)片段合并成完全的百萬計的序列的步驟。這可以通過基礎(chǔ)庫的片段連接來實現(xiàn),所述基礎(chǔ)庫是信息片段的產(chǎn)生所預(yù)先要求的。或者使用對其重疊的搜查,以存在共有末端序列為基礎(chǔ),通過該算法,在產(chǎn)生基礎(chǔ)庫的片段的序列之后完成。
該算法即不需要得知基礎(chǔ)和有序庫中核酸序列中給定k-元組出現(xiàn)的次數(shù),也不需要片段末端上存在哪一個k-元組字的信息。該算法用各種長度k-元組的混合含量操作。該算法的概念使得用包含假陽性和假陰性k-元組的k-元組套操作。只有在具體的情況下,假k-元組的含量主要影響產(chǎn)生的序列的完全性和正確性。該算法可以用來在模擬試驗中優(yōu)化參數(shù),以及用于在實際SBH試驗中的序列產(chǎn)生,例如基因組DNA序列的產(chǎn)生。在參數(shù)的優(yōu)化中,選擇用于實際和合適的片段的寡核苷酸探針(k-元組)和/或選擇確定探針的片段的最佳長度和數(shù)目是尤其重要的。
該算法這部分的中心作用是從k-元組含量產(chǎn)生序列的方法。其基礎(chǔ)是利用最大重疊的k-元組的進行唯一性排序。序列產(chǎn)生中的主要障礙是特殊重復(fù)的序列和假陽性和/或陰性k-元組。該算法這部分的主要目的是獲得最少數(shù)目的具有正確序列的盡可能長的亞片段。該算法這部分由一個基礎(chǔ)步驟和幾個控制步驟組成。需要兩階段方法,因為某些信息只有在產(chǎn)生所有主要亞片段之后使用。
序列產(chǎn)生的主要問題是從字含量獲得重復(fù)的序列,通過定義不帶有特定k-元組發(fā)生的數(shù)目的信息。全部算法的概念取決于一個基礎(chǔ),在此基礎(chǔ)上解決了該問題。原則上,有兩項對立的方法1)開始時,在產(chǎn)生pSFs的過程中,可以獲得重復(fù)的序列,或者2)在最后確定亞片段順序的過程中,稍后可以獲得重復(fù)序列。在第一種情況下,pSFs包含過量的序列,在第二種情況下,它們包含序列的虧缺。第一個方法需要消除產(chǎn)生的過量的序列,第二種方法允許在最終組裝序列的過程中多次使用一些亞片段。
兩種方法的不同在于k-元組的單一重疊規(guī)則的嚴(yán)格性。嚴(yán)重性較小的規(guī)則是如果而且僅有如果k-元組X的最右邊k-1末端僅是存在于k-元組Y的最左邊末端上,則k-元組X毫無疑問地與k-元組Y最大重疊。該規(guī)則使產(chǎn)生重復(fù)序列和形成多余序列。
在第二種方法中使用的較嚴(yán)格的規(guī)則具有附加的要求如果而且僅有如果k-元組X的最右邊k-1末端僅是存在于k-元組Y的最左邊末端上,如果k-元組Y的最左邊k-1末端不存在于任何其它k-元組的最右邊末端上,則k-元組X毫無疑問地與k-元組Y最大重疊。以較嚴(yán)格規(guī)則為基礎(chǔ)的算法較簡單,并且在這里進行了描述。
當(dāng)包括的最后k-元組的右k-1末端不存在于任何k-元組的左末端或者存在于兩個或多個k-元組上時,給定亞片段的延長的過程中止。如果其存在于唯一一個k-元組上時,測試該規(guī)則的第二部分。如果另外有不同于先前包括的k-元組的k-元組,給定亞片段的組裝只有在第一最左位置終止。如果這另外的k-元組不存在,符合單一k-1重疊條件,給定片段的向右伸展一個元素。
在基礎(chǔ)規(guī)則之外,采用補充規(guī)則以利用不同長度的k-元組。最大重疊是重疊對的較短k-元組的k-1的長度。從第一k-元組開始從該文件中進行pSFs的產(chǎn)生,在所述文件中,k-元組隨機顯示并且與它們在核酸序列中的順序無關(guān)。因此,該文件中的第一k-元組不需要在序列的開始,也不需要在特殊亞片段的起點。該亞片段產(chǎn)生的方法通過利用所描述的規(guī)則定義的單一重疊排序k-元組來進行。每一個所使用的k-元組從該文件中刪除。當(dāng)不再有k-元組明確地與所包括的最后一個重疊時,亞片段的組裝終止并開始另一個pSF的組裝。因為大多數(shù)亞片段的產(chǎn)生不是從其實際起點時開始的,形成的pSF加入到k-元組文件并且認(rèn)為是更長的k-元組。另一個可能性是從起始k-元組以兩個方向形成亞片段。當(dāng)進一步重疊即任何亞片段的延伸不可能時該過程結(jié)束。
pSFs可以分為三組1)正好k-元組套情況下最長和正確序列的亞片段;2)短的亞片段,由于對不完全套,和/或帶有一些假陽性k-元組套使用最大和明確的重疊規(guī)則形成的;和3)不正確序列的pSFs。在2)套的不完全性是雜交試驗的假陰性結(jié)果引起的,以及由使用一套不正確的k-元組引起的。這些形成是由于假陽性和假陰性k-元組而且可以是a)錯連接的亞片段;b)帶有錯末端的亞片段;和c)假陽性k-元組,其表現(xiàn)出假最小亞片段。
考慮到假陽性k-元組,有存在含有多于一個錯堿基或者在中間某處含有一個錯堿基的k-元組的可能性,以及末端具有一個錯堿基的k-元組的可能性。通過后者k-元組引起短的,錯的或連接錯的亞片段的產(chǎn)生。前兩類k-元組代表長度與k-元組長度相等的錯的pSFs。
在一個假陰性k-元組情況下,pSFs由于最大重疊的不可能性而產(chǎn)生。在存在其最左側(cè)或最右側(cè)末端上帶有錯堿基的一個假陽性k-元組情況下,pSFs由于明確重疊的不可能性而產(chǎn)生。當(dāng)文件中存在帶有共有k-1序列的假陽性和假陰性k-元組時,產(chǎn)生pSFs,并且這些pSFs中的一個在相關(guān)的末端含有錯的k-元組。
校正序列中有錯的亞片段和連接明確連接的pSF的方法在亞片段產(chǎn)生之后和在片段排序的過程中進行。下面描述了由切下連接錯誤的pSFs和通過明確連接pSFs獲得最終亞片段組成的第一步驟。
連接錯誤的亞片段的生成有兩種方法。在第一種方法中,當(dāng)長k-1的重復(fù)序列的組裝點上出現(xiàn)的錯的k-元組時發(fā)生錯誤。在第二種方法中,重復(fù)序列比k-1更短。這些情形發(fā)生于兩種變通方案之中在第一種變通方案中,重復(fù)序列中的一個代表片段的末端。在第二種變通方案中,重復(fù)序列發(fā)生在該片段中的任何位置。對于第一種可能性,需要文件中一些k-元組(假陰性)缺如來產(chǎn)生錯誤連接。第二種可能性需要在文件中存在假陰性和假陽性k-元組??紤]到k-1序列的重復(fù),當(dāng)內(nèi)部重復(fù)任何一個末端時缺少一個k-元組就足夠了。對于嚴(yán)格的內(nèi)部重復(fù)需要兩個缺失。原因是序列的末端在信息上可以認(rèn)為是假陰性k-元組的未完的線性陣列。從“比k-1情況小”,唯有長度為k-2的重復(fù)序列,其需要兩個或三個特殊錯的k-元組,將被考慮到。非常有可能的是這些將是在真實試驗中將檢測到的唯一情況,其它情況機率要小得多。
錯誤連接的亞片段的識別當(dāng)重復(fù)序列不在該片段末端出現(xiàn)時更嚴(yán)格地限定。在這種情況下,人們可以檢測另外兩個亞片段,其一在其最左側(cè),另一個在其最右側(cè)末端k-2序列上,其也存在于錯誤連接的亞片段中。當(dāng)重復(fù)序列在該片段的末端上時,只有一個亞片段,在其最左側(cè)或最右側(cè)末端上含有引起亞片段信息錯誤的k-2序列。
通過將其切除而去除錯誤連接的亞片段根據(jù)通常規(guī)則進行如果在任何其它亞片段中存在k-2長度任何亞片段的最左側(cè)或最右側(cè)序列,要將該亞片段切成兩個亞片段,其各自含有k-2序列。當(dāng)在重復(fù)的k-1序列的點上有多于一個假陰性k-元組時,該規(guī)則不覆蓋重復(fù)末端的較少的情形。這類錯誤連接的亞片段可以通過使用來自重疊片段,或者基礎(chǔ)和有序庫兩者的信息片段的信息識別。另外,當(dāng)在含有相同k-1序列的兩個位置上存在兩個或多個假陰性k-元組時,錯誤連接的亞片段將保留。這是一種非常少的情況,因為其需要至少4個特異性假k-元組??梢砸肓硗獾囊?guī)則來在k長度的序列上切下這些亞片段,如果給定的序列可以通過組合來自一個亞片段的末端和另一個的起始端的比k-2更短的序列獲得。
通過嚴(yán)格應(yīng)用描述的規(guī)則,損失一些完全性以保證結(jié)果的精確性。將切下一些亞片段,盡管它們不是錯誤連接的,因為它們符合了錯誤連接的亞片段的模式。這類有幾種情況。例如除了至少兩個相同的k-1序列,一個片段含有來自k-1的任何k-2序列或者一個片段含有至少兩次重復(fù)的k-2序列和至少一個在中間含有給定k-2序列的假陰性k-元組等等。
該算法的這一部分的目的是將pSFs的數(shù)目減少到具有正確序列的較長亞片段的最小數(shù)目。在兩種情況中,單一較長亞片段或完全序列的產(chǎn)生是可能的。第一種情況涉及重復(fù)的k-1字的特殊順序。有這樣的情況,其中一些或所有最大伸展的pSFs(第一組pSFs)可以單一地排序。例如,在其中S和E是片段的起點和末端,a,b,和c是特異于各個亞片段的不同的序列和R1和R2是串聯(lián)重復(fù)的兩個k-1序列的片段S-R1-a-R2-b-R1-c-R2-E中,產(chǎn)生5個亞片段(S-R1,R1-a-R2,R2-b-R1,R1-c-R2和R-E)。它們可以以兩種方式排序上面的源序列或者S-R1-c-R-b-R1-a-R-E。相反,在具有相同數(shù)目和類型的重復(fù)序列但是排序不同的片段即S-R1-a-R1-b-R-c-R-E中,沒有包括所有亞片段的其它序列。該類型的例子只有在pSFs產(chǎn)生過程之后識別。它們代表pSFs產(chǎn)生過程中兩個步驟的必要性。當(dāng)文件含有假陰性和/或假陽性k-元組時在非重復(fù)k-1序列的位置上產(chǎn)生假短亞片段的第二種情況是更重要的。
用于兩組pSF的解決方案由兩部分組成。首先,消除了表現(xiàn)為不存在最小亞片段的假陽性k-元組。一個末端比k-a更長和另一個末端比k-b更長的長度的任一末端沒有重疊的長度k的所有k-元組亞片段被消除以使形成最大數(shù)目的連接。在我們的試驗中,2和3的a和b值分別表現(xiàn)出適合消除足夠量的假陽性k-元組。
可以被單一連接的亞片段的合并在第二步驟中完成。連接的規(guī)則是如果和僅有如果兩個亞片段的相關(guān)末端或起始端處的重疊序列不存在于任何其它亞片段的起始端和/或末端,則兩個亞片段可以明確地連接。
例外的是如果被濾及的一對亞片段中的一個亞片段具有相同的起點和末端。在那種情況下允許連接,即使有具有文件中存在的相同末端的另一個亞片段。這里的主要問題是精確定義重疊序列。如果對于唯一一對亞片段是單一的重疊序列比k-2短,或者是k-2或者更長,但是另外的亞片段存在比k-4更長的任何長度的重疊序列,則不允許連接。還有,pSFs的規(guī)范末端和少了一個(或幾個)最后的堿基后的末端兩者被考慮是重疊序列。
該步驟后可能存留下一些假陽性k-元組(作為最小亞片段)和一些帶有錯的末端的亞片段。另外,在非常少的情況下,同時存在一定數(shù)目的一些特異假k-元組,可能發(fā)生錯的連接。這些情況將被檢測到并且在亞片段排序過程,和在另外的對照步驟,以及與未切“錯誤連接的”亞片段的操作中解決。
獲得的短的亞片段是兩種類型。在通常情況下,這些亞片段可以由于重復(fù)k-1序列的分布在它們之間明確連接。這可以在pSFs產(chǎn)生過程之后進行并且是pSF產(chǎn)生過程中兩個步驟的必要性的好的實施例。在使用含有假陽性和/或假陰性k-元組文件的情況下,在非重復(fù)k-1序列的位點上獲得短的pSFs??紤]到假陽性k-元組,k-元組可以含有多于一個的錯的堿基(或者在中間某處含有一個錯的堿基)和該末端上的k-元組。短的和錯的(或者錯誤連接的)亞片段的產(chǎn)生是后者k-元組引起的。前一種k-元組代表具有和k-元組長度相等長度的錯的pSFs。
該算法的合并pSF部分的目的是將pSFs的數(shù)目減少到具有正確序列的較長亞片段的最小數(shù)目。一個末端比k-a更長和另一個末端比k-b更長的長度的任一末端沒有重疊的所有k-元組亞片段被消除以使形成最大數(shù)目的連接。在該方法中棄除了大多數(shù)假陽性k-元組。連接的規(guī)則是如果和只有如果兩個亞片段的相關(guān)末端或起始端處的重疊序列不存在于任何其它亞片段的起始端和/或末端,則兩個亞片段可以明確地連接。例外的是具有相同的起點和末端的亞片段。在那種情況下允許連接,條件是有具有文件中存在的相同末端的另一個亞片段。這里的主要問題是重疊序列的精確確定。在k-1或k-2重復(fù)點上至少兩個特殊假陰性k-元組的存在,以及假陽性和假陰性k-元組的結(jié)合可以破壞或“遮蔽”一些重疊序列并且可以產(chǎn)生明確的但是是錯的pSFs的連接。為了防止這樣,考慮到精確性必須要犧牲完全性在比k-2短的末端序列上,或者在比k-4長的額外重疊序列存在下不允許連接,從pSFs或者少了一個(或幾個)最后的堿基后的末端確定重疊序列。
在非常少的情況下,在一定數(shù)目一些假陽性和假陰性k-元組存在下,帶有錯誤末端的一些亞片段可以存留,可以存留下一些假陽性k-元組(作為最小亞片段),或者可能發(fā)生錯誤連接。這些情況被檢測到并且在亞片段排序過程,和在另外的對照步驟,以及與未切的“錯誤連接的”亞片段的操作中解決。
亞片段排序過程類似于其產(chǎn)生的過程。如果將亞片段認(rèn)為是較長k-元組,排序可以通過其通過重疊末端的明確連接來進行。明確連接的信息基礎(chǔ)是基礎(chǔ)庫片段中產(chǎn)生的亞片段分成代表那些片段的區(qū)段的組。該方法類似于以與具有相關(guān)連接序列的較長寡核苷酸雜交為基礎(chǔ)的該問題的生物化學(xué)解決方法。使用k-元組套基礎(chǔ)庫片段合適的區(qū)段作為亞片段產(chǎn)生連接序列。通過與基礎(chǔ)庫的各片段的重疊的有序庫的片段確定相關(guān)的區(qū)段。最短的區(qū)段是有序庫的信息片段。較長的是幾個相鄰的信息片段或者有序和基礎(chǔ)庫相應(yīng)的片段的總的重疊部分。為了減少各樣品的數(shù)目,隨機集合有序庫的片段,并且測定單一k-元組含量。
通過使用有序庫中大量片段,產(chǎn)生非常短的區(qū)段,這樣減少了多次出現(xiàn)k-1序列的機會,這是產(chǎn)生亞片段的原因。此外,由基礎(chǔ)庫給定片段的各種區(qū)組成的較長的區(qū)段不含有一些重復(fù)的k-1序列。在每一個區(qū)段中,對于某些對來自給定的片段的成對亞片段產(chǎn)生連接序列(連接的亞片段)。排序方法包括三個步驟(1)產(chǎn)生各區(qū)段的k-元組含量;(2)在各個區(qū)段中產(chǎn)生亞片段;和(3)連接區(qū)段的亞片段。根據(jù)基礎(chǔ)庫給定片段的k-元組含量與有序庫集合的k-元組含量明顯的交叉和不同確定初步的區(qū)段。根據(jù)第一區(qū)段的k-元組含量的交叉和不同確定第二(更短的)區(qū)段。
存在不同和交叉兩種情況中,都存在聚積假陽性和假陰性k-元組的問題。假陰性k-元組來自交叉(重疊部分)中堆積的起始序列,以及假陽性k-元組隨機發(fā)生在兩個序列中,但是不在相關(guān)重疊區(qū)中。另一方面,來自任一起始序列的大多數(shù)假陽性占據(jù)在交叉中。這是通過使用來自與它們重疊的片段的信息減少來自各個片段的試驗誤差的實施例。差別中假k-元組堆積是另一個原因。擴大該套來自源序列的假陰性是為了來自交叉的假陽性,而由于錯誤在交叉中沒有包括的那些k-元組的假陽性套即是交叉中的假陰性。如果起始序列含有10%假陰性數(shù)據(jù),則第一和第二交叉將分別含有19%和28%假陰性k-元組。另一方面,如果基礎(chǔ)片段和集合分別具有500bp和10000bp的長度,則可以預(yù)計計算學(xué)預(yù)計的77假陽性。但是,有回收大部分“失去的”k-元組的可能性和消除大多數(shù)假陽性k-元組的可能性。
首先必須測定給定區(qū)段的k-元組基礎(chǔ)含量,其作為給定的k-元組對的交叉給出。其后包括交叉中起始k-元組含量的總的k-元組,其在一個末端含有k-1和在另一個末端含有在基礎(chǔ)套的兩個k-元組的末端出現(xiàn)的k-+序列。在產(chǎn)生差別之前進行,從而防止假陽性在該過程中堆積。之后,將相同類型的k-元組的擴大應(yīng)用于截然的不同,借用的來自交叉。從作為假陽性的交叉文件消除所有借用的k-元組。
交叉,即一套共用k-元組,是對于各對(基礎(chǔ)片段)×(有序庫的集合)確定的。如果該套中k-元組的數(shù)目是明顯的,則其用根據(jù)描述的規(guī)則的假陰性擴大。主要不同套是通過從給定基礎(chǔ)片段扣除得到的交叉套而獲得。通過從根據(jù)描述的規(guī)則的交叉套借用,并且同時從交叉套中去除假陽性k-元組,假陰性k-元組補充不同套。當(dāng)基礎(chǔ)片段比集合的片段長時該不同可以代表兩個分開的區(qū)段,它們在一定程度上減小了其在下一步中的利用度。第一區(qū)段都產(chǎn)生含有明顯數(shù)目的k-元組的對(基礎(chǔ)片段)×(有序庫的集合)的交叉和不同。第二區(qū)段的k-元組套通過比較初步區(qū)段所有可能的k-元組套所有可能的第一區(qū)段的可能的對獲得第二區(qū)段的k-元組套。從各對確定這兩個差異,其與明顯數(shù)量的k-元組產(chǎn)生交叉。大多數(shù)可得的來自重疊片段的信息在該步驟中取得,使得從形成交叉和不同的第三輪獲得極少。
(2)根據(jù)對于基礎(chǔ)庫的片段的描述同樣進行區(qū)段的亞片段的產(chǎn)生。
(3)連接亞片段的方法包括順序測定來自給定基礎(chǔ)庫片段具有一些重疊末端的亞片段之間正確連接對成亞片段。在4個相關(guān)亞片段的情況下,其中兩個包含相同的開端以及兩個具有相同的末端,有4對不同的可以連接的亞片段。一般情況下有兩個是正確的和有兩個是錯誤的。為了發(fā)現(xiàn)正確的,在從對于給定基礎(chǔ)片段的所有第一和第二區(qū)段產(chǎn)生的亞片段中測定各對連接序列的存在。選擇連接序列的長度和位置以避免偶爾發(fā)生的序列的干擾。它們是k+2或更長,在給定對兩個亞片段中重疊序列附近包括至少一個元件2。只有如果發(fā)現(xiàn)兩個連接序列并且不存在剩下的兩個才可連接。這兩個連接的亞片段代替文件中的前個亞片段并且該過程循環(huán)重復(fù)。
在該步驟中產(chǎn)生重復(fù)的序列。這意味著在連接的亞片段中一些亞片段被涉及一次以上。通過發(fā)現(xiàn)相關(guān)的連接序列將識別它們,所述相關(guān)的連接序列使一個亞片段與兩個不同的亞片段相連接。
在構(gòu)建pSFs和將pSFs合并成更長的亞片段的過程中產(chǎn)生的錯誤連接的亞片段的識別的基礎(chǔ)是測定在對于該片段的區(qū)段中產(chǎn)生的亞片段的序列中是否存在來自給定基礎(chǔ)片段的亞片段的序列。沒有發(fā)現(xiàn)來自不正確連接位置的序列表明錯誤連接亞片段。
與所描述的亞片段定序的三個步驟之外,一些另外的控制步驟或?qū)τ谔厥庑蛄锌蓱?yīng)用的步驟對于沒有錯誤下產(chǎn)生更完全序列將是必要的。
通過區(qū)段和亞片段中k-元組的含量的b比較進行哪一個亞片段屬于哪一個區(qū)段的測定。因為k-元組含量中的錯誤(由于集合中的原始錯誤和由于k-元組發(fā)生頻率的統(tǒng)計學(xué)錯誤),亞片段的精確分配是不可能的。因此,代替“全或無”的分配,對于每一個亞片段測定來自給定區(qū)段(P(sf,s))的機會。這種可能性是k-元組長度,亞片段長度,有序庫片段的長度,集合的大小和文件中假k-元組的百分比的函數(shù)P(sf,s)=(Ck-F)/Lsf,其中Lsf是亞片段的長度,CK是對于給定亞片段/區(qū)段對的共有k-元組數(shù)目,和F是參數(shù),其包括k-元組長度,基礎(chǔ)庫的片段,集合的大小和錯誤發(fā)生百分比之間的關(guān)系。
歸因于特殊區(qū)段的亞片段處理成多pSFs并且使進行明確的連接。在這種情況下明確連接的定義稍有不同,因為它是以屬于考慮的區(qū)段的帶有重疊末端的亞片段可能性為基礎(chǔ)。除此之外,通過緊跟這些亞片段在其它區(qū)段中的連接來控制明確連接的精確性。不同區(qū)段中的連接之后所有獲得的亞片段合并在一起,消除包括在較長亞片段中的較短亞片段,并且使留下來的進行普通連接過程。如果該序列不能完全再生,就用相同的或者較寬松的屬于特殊區(qū)段的可能性的標(biāo)準(zhǔn)重復(fù)亞片段的分配和連接過程,接著明確連接。
使用確定明確重疊的嚴(yán)格標(biāo)準(zhǔn),一些信息不能使用。代替完全序列,獲得對于給定片段確定多種可能性的幾種亞片段。使用較寬松標(biāo)準(zhǔn),產(chǎn)生精確和完全序列。在某些情況下,例如錯誤連接,可能產(chǎn)生完全的但是不正確的序列,或者產(chǎn)生帶有其中沒有連接的“畸形”亞片段。因此,對于基礎(chǔ)庫的每一個片段,人們獲得a)幾種可能的解釋,其中一個是正確的和b)最可能的正確的解釋。還有,在非常少的情況下,由于亞片段產(chǎn)生過程中的錯誤或者由于歸屬可能性的特殊比例,沒有明確的解釋產(chǎn)生,或者一個最可能的解釋。不完全序列也存在這種情況,或者通過將這些數(shù)據(jù)與其它基礎(chǔ)庫的重疊片段比較獲得明確解釋。
對模擬人基因組的GC含量的隨機產(chǎn)生的含有40%GC的50kb序列試驗描述的算法。在該序列的中間部分插入大約4kb總長度的各種所有的和一些其它重復(fù)序列。為了模擬體外SBH試驗,進行下面的操作獲得合適的數(shù)據(jù)。
-隨機確定60個5kb重疊“克隆”的位置,模擬基礎(chǔ)庫的制備;-隨機確定1000個500bp“克隆”的位置,模擬制備有序庫。這些片段從序列中提取。制備20個片段的隨機集合,測定集合的k-元組系列并且保存在硬盤上。在有序態(tài)亞片段中使用這些數(shù)據(jù)對于相同克隆密度,對于整個人基因組使用基礎(chǔ)庫中4百萬個克隆和有序庫中3百萬個克隆。7百萬個克隆的總數(shù)比幾乎所有基因組DNA的隨機克隆幾kb長的克隆數(shù)目小幾倍,并且通過以凝膠為基礎(chǔ)的方法測序。
從關(guān)于5kb片段的起始端和末端的數(shù)據(jù),測得117個“信息片段”是在該序列中的。接著測定這單一“信息片段”構(gòu)成的重疊k-元組系列。只使用配對預(yù)先測定列的k-元組亞套。該列含有65%8-聚體,30%9-聚體和5%10-12-聚體。在這些數(shù)據(jù)上進行亞片段的產(chǎn)生和有序化過程。
對兩個試驗中的模擬數(shù)據(jù)進行該算法的測驗。用100%正確數(shù)據(jù)體系(超過20000bp)重新產(chǎn)生了50個信息片段的序列,和帶有10%假k-元組的26個信息片段(大約10000bp)(5%陽性和5%陰性k-元組)。
在第一個試驗中,所有亞片段是正確的并且50個信息片段中只有一個序列沒有完全再生但是以5個亞片段形式存留。有序庫重疊片段的位置的分析表明它們?nèi)鄙訇P(guān)于這5個亞片段單一排序的信息。亞片段可以以重疊末端為基礎(chǔ)的兩種方法連接,1-2-3-4-5和1-4-3-2-5。唯一的差別是亞片段2和4的交換。因為亞片段2,3和4相對短(總共大約100bp),在這種情況下相對較大的機會存在,并且在這種情況下發(fā)生這一事實,有序庫片段中沒有一個在亞片段3區(qū)起始或終止。
為了模擬真實的測序,一些試驗的輸入中包括了一些假(“雜交”)數(shù)據(jù)。在寡聚物雜交試驗中,在提出的條件下,產(chǎn)生不可靠數(shù)據(jù)的唯一情況是對于全部配對/雜交的末端失配。因此,在模擬中,只有那些在任一末端與真實者一個單一元件不同的在k-元組被考慮是假陽性的。如下處理這些“假”系列。在信息片段的一套起源k-元組上加5%假陽性k-元組亞套。假陽性k-元組通過從該套中隨機取k-元組將其拷貝并且改變其開端或末端上的核苷酸而得。這之后是減去5%隨機選擇的k-元組的亞套。用該方法,產(chǎn)生最復(fù)雜情況統(tǒng)計學(xué)預(yù)期數(shù)目,其中用帶有末端上錯誤堿基的k-元組置換正確的k-元組。
如所述制備k-元組系列導(dǎo)致10%假數(shù)據(jù)。該值隨著每種情況與每種情況而不同,這是由于要拷貝,改變和刪除的k-元組的選擇的隨機性。無論怎樣,該百分比3-4倍超過實際雜交試驗中不可靠數(shù)據(jù)的量。引入的10%的錯誤導(dǎo)致基礎(chǔ)庫的片段(基礎(chǔ)庫信息片段)和區(qū)段中亞片段數(shù)目增加兩倍。大約10%的終亞片段在末端具有錯誤堿基,這是對于含有假陽性k-元組套所預(yù)計的(參見主要亞片段的產(chǎn)生)。即沒有發(fā)現(xiàn)亞片段錯誤連接的情況也沒有發(fā)現(xiàn)具有錯誤序列的亞片段。在有序化過程中檢查的26個中的4個信息片段中沒有再生完全序列。在所有4種情況中,以包含在相同區(qū)段中幾種較長亞片段和幾種較短亞片段的形式獲得序列。該結(jié)果表明該算法原理允許用大百分比假數(shù)據(jù)工作。
從其k-元組含量成功產(chǎn)生序列可以就完全性和精確性來描述。在產(chǎn)生過程中,可以確定兩種特殊情況1)產(chǎn)生的序列中遺失了一部分信息,但是人們知道哪里是意義不明確的以及它們屬于哪一種類型,和2)獲得的再生序列與從中產(chǎn)生k-元組含量的序列不配對,但是該錯誤不能檢測到。假設(shè)該算法發(fā)展到其理論上的界限,如在使用精確k-元組套中,只可能發(fā)生第一種情況。不完全性導(dǎo)致一定數(shù)目的不明確排序的亞片段和單一序列精確長度即完全銜接重復(fù)的數(shù)目測定的問題。
用假k-元組,可以產(chǎn)生不正確序列。錯誤的原因不在于該算法的缺陷,而是在于給定的k-元組的含量明確代表與源者不同的序列這樣的事實??梢源_定三類錯誤,取決于文件中存在的假k-元組的種類。假陰性k-元組(其不伴隨有假陽性)產(chǎn)生“缺失”。假陽性k-元組產(chǎn)生“延伸(不相等的交換)”。假陽性伴隨有假陰性是單獨產(chǎn)生“插入片段”或者結(jié)合“缺失”的原因。當(dāng)亞片段的兩個可能的起點之間的所有k-元組(或者它們的大多數(shù))是假陰性時產(chǎn)生缺失。因為序列中的每一個位置由k個k-元組確定,通常的情況下缺失的發(fā)生需要k個連續(xù)的假陰性。(10%的假陰性和k=8,這種情況在每108個元件之后發(fā)生)。這種情況即使在使用含有10個基因組等價物的隨機庫的哺乳動物基因組測序中是極為常見的。
由假陽性k-元組引起的序列末端的延長是“插入片段”的特殊情況,因為序列的末端可以被認(rèn)為是假陰性k-元組的無窮的線性陣列。人們可以考慮一組產(chǎn)生比一個k-元組更長的亞片段的假陽性k-元組。如果重疊片段象有序庫的隨機自然片段中產(chǎn)生亞片段,則可以檢測這類情況。插入片段,或者代替缺失的插入片段可以作為假陽性和假陰性k-元組的特殊組合的結(jié)果出現(xiàn)。在第一種情況下,連續(xù)假陰性的數(shù)目小于k。兩種情況需要幾個重疊假陽性k-元組。插入和缺失理論上是最可能的,沒有大的實際體現(xiàn),因為假k-元組的數(shù)目和特異性的要求太高。
在不符合假陽性和/或假陰性種類最小數(shù)目的理論要求的各種其它情況下,k-元組含量中的錯誤可以只是產(chǎn)生一種產(chǎn)生的序列的較小完全性。
SBH,樣品核酸通過將樣品暴露給已知序列的支持體結(jié)合的探針和標(biāo)記探針或溶液中的探針來測序。無論在哪里探針連接酶被加入到探針和樣品的混合物中,這樣,無論在哪里支持體具有結(jié)合的探針和與樣品背對背雜交的標(biāo)記探針,兩種探針將通過連接酶的相互作用化學(xué)連接。沖洗后,通過標(biāo)記探針的存在只檢測化學(xué)連接的支持體結(jié)合的和標(biāo)記探針。通過得知陣列中特殊位置處支持體結(jié)合的探針的同一性,標(biāo)記探針的同一性,用三個基質(zhì)的樣品通過在一個文本上一個陣列中的一點存在一個標(biāo)記,可以測定該樣品的序列的一部分。沒有機會沒有工作是所有連接的探針對的最大重疊序列,樣品的序列可以再次構(gòu)建。要測序的樣品沒有可能是核酸片段或10個堿基對(“bp”)的寡核苷酸。樣品優(yōu)選4至1千個堿基長度。
探針的長度是長度小于10個堿基的片段,并且優(yōu)選地,長度在4和9個堿基之間。在這種情況下支持體結(jié)合的探針的陣列可以包括給定長度的所有寡核苷酸或者可以只包括為特殊試驗選擇的寡核苷酸。在使用給定長度的所有寡核苷酸時,中心寡核苷酸的數(shù)目可以通過4N計算,其中N是探針的長度。
實施例18重復(fù)使用測序芯片在測序過程中使用連接時,其后不能立刻再使用常規(guī)的寡核苷酸芯片。本發(fā)明人用各種方法使其得到克服。
人們可以使用核糖核苷酸作為第二探針,探針P,以便隨后用RNAase處理除去該探針。RNAase處理可以使用RNAase A,一個內(nèi)切核糖核酸酶,它特異性攻擊單鏈RNA3’的嘧啶殘基并裂解相鄰核苷酸的磷酸鍵。終產(chǎn)物是嘧啶3’磷酸和帶有末端3’磷酸的寡核苷酸。RNAase A在不存在輔助因子和二價陽離子的情況下發(fā)揮作用。
為了使用RNAase,人們通常在含有適當(dāng)RNAase的緩沖液中溫育芯片,如Sambrook等人所述(1989;引入本文作為參考)。在10到60分鐘之間于37℃每8×8mm或9×9mm陣使用30-50μl的含有RNAase的緩沖液是適當(dāng)?shù)摹?br>
盡管沒有廣泛的使用,在具體的實施方案中也可以使用尿嘧啶堿基,如Craig等人(1989)所述,所述文獻引入本文作為參考。通過用大腸桿菌修復(fù)酶,從DNA中除去尿嘧啶的尿嘧啶-DNA糖基化酶(glycosylase)消化可以破壞連接的探針組合以得到可重復(fù)使用的芯片。
人們也可以在探針間產(chǎn)生特異性的可裂解的鍵,然后在檢測后將其裂解。例如,通過Shabarova等人(1991)和Dolinnaya等人(1988)所述的化學(xué)連接可以達到此目的(所述的兩篇文獻均引入本文作為參考)Shabarova等人(1991)描述了用溴化氰作為縮合劑縮合寡脫氧核糖核苷酸。在其中的一步化學(xué)連接反應(yīng)中,將寡核苷酸加熱到97℃,緩慢冷卻到0℃,然后加入1μl在乙腈中的10M BrCN。
Dolinnaya等人(1988)說明了如何將亞磷酰胺和焦磷酸核苷酸間鍵加入DNA雙螺旋中。他們還用水溶性碳化二亞胺(CDI)作為偶合劑,使用化學(xué)連接方法修飾DNA的糖磷酸骨架。亞磷酰胺鍵的選擇性裂解包括在95℃與15%CH3COOH接觸5分鐘。焦磷酸鍵的選擇性裂解包括與吡啶-水混合物(9∶1)和新鮮蒸餾的(CF3CO)2O接觸。
實施例19診斷學(xué)-評價已知突變或者全基因重復(fù)測序在簡單的情況下,該目的可以是發(fā)現(xiàn)DNA區(qū)段中是否發(fā)生選擇的,已知的突變。對于該目的,不多于12個探針可能是滿足需要的,例如,對于一個等位基因5個陽性探針,對于另外一個5個陽性,和對于兩者2個陰性。因為對于每一個樣品評價少量探針,可以平行分析大量樣品。例如在3個雜交循環(huán)中用12個探針,可以在一個含有12×24亞陣的6×9膜上分析來自64個患者的96個不同的基因組位置,所述亞陣的每一個有代表來自64名患者相同DNA區(qū)段的64個斑點。在該實施例中,可以在64個96孔平板上制備樣品。一個平板代表一名患者,每一個孔可以代表要分析的DNA區(qū)段中的一個。來自64個平板的樣品可以重復(fù)4次點斑,為相同膜的4個區(qū)。
對于96個區(qū)段的每一個可以通過單道吸移或者通過單一針轉(zhuǎn)移裝置(或者通過各個控制的吸移管或針)來選擇一套12個探針,并且選擇的探針在12個96孔平板中排成陣列。如果沒有標(biāo)記過,則探針可以被標(biāo)記,然后可以用雜交緩沖液混合來自4個平板的探針,并且優(yōu)選通過96道吸移裝置加入到亞陣列。一個雜交循環(huán)后,其可能通過在優(yōu)選未稀釋雜交或沖洗緩沖液中在37℃至55℃下溫育膜來解析先前應(yīng)用的探針。
對于一個等位基因的探針陽性是正的和對于其它等位基因的探針陽性是陰性的之可能性可以用來測定存在兩個等位基因哪一個。在該冗長的評價方案中,可以接受各個探針雜交中一定水平的錯誤(大約10%)。
一套不完全探針可以用來評價等位基因的大多數(shù)尤其是如果冗長程度較小是足夠的,例如證明一個樣品中存在或不存在一個或兩個探針。例如,使用一套4000個八聚體,對于隨機選擇的位點有91%的機會發(fā)現(xiàn)兩個等位基因中的一個的至少一個陽性探針。可以優(yōu)化不完全一套探針來反映被分析樣品中G+C含量和其它傾向性。
對于全基因測序,可以在合適數(shù)目的區(qū)段中擴增基因。對于每一個區(qū)段,可以選擇一套探針(每2-4種情況大約1個探針)并雜交。這些探針可以鑒定在被分析的區(qū)段的何處是否有突變。檢測到一個或多個突變位點的區(qū)段(即包含這些區(qū)段的亞陣)可以與另外的探針雜交來在突變位點發(fā)現(xiàn)正好的序列。如果通過每兩個6-聚體測試一個DNA樣品,并且突變是位于陽性雜交探針TGCAAA和TATTCC所包圍和三個陰性探針CAAAAC,AAACTA和ACTATT所覆蓋的位點,則突變核苷酸一定是在該位置正常序列中存在的A和/或C。其可以通過單一堿基突變或者通過一個或兩個核苷酸缺失和/或在堿基AA,AC或CT之間插入而改變。
一種方法是選擇一個探針,其使陽性雜交探針TGCAAA向右延長一個核苷酸,并且其使探針TATTCC向左延長一個核苷酸。用這8個探針(GCAAAA,GCAAAT,GCAAAC,GCAAAG和ATATTC,TTATTC,CTATTC,GTATTC),測定兩個有疑問的核苷酸。
可以測定關(guān)于突變的最可能的假設(shè)。例如,發(fā)現(xiàn)A突變?yōu)镚。這些結(jié)果滿足兩種解釋。用G置換A是唯一的變化或者該變化之外有新測定的G和接下來的C之間堿基一定數(shù)目的插入片段。如果用橋連探針的結(jié)果是陰性的,可以首先通過至少一個包括突變位置(AAGCTA)的橋連探針和另外8個探針檢查這些選擇,所述8個探針是CAAAGA,CAAAGT,CAAAGC,CAAAGC,CAAAGG和ACTATT,TCTATT,CCTATT,GCTATT,I。還有很多其它途徑來選擇解譯突變的探針。
在二倍體情況下,可以進行對于試驗樣品和純合體對照的評價的特殊比較來鑒定雜合體(參見上文)。如果這些探針?biāo)采w的該區(qū)段在兩個染色體中的一個上突變的話,預(yù)期一些接連的探針粗略地具有兩次較小的信號。
實施例20對于遺傳病和其它特性負(fù)有責(zé)任的具有(突變)的鑒定使用固定化樣品陣列上通用套較長探針(八聚體或九聚體),可以不亞克隆而對5-20kb這樣長的DNA片段測序。而且測序的速度可以容易地達到大約1千萬bp/天/雜交儀器。該操作使重復(fù)測序人基因的大部分或者從科學(xué)或藥學(xué)感興趣的個體反復(fù)的人基因組。為了重復(fù)測序50%的人基因,檢查大約10億bp。這可以在相對短的時間內(nèi)以可接受的費用進行。
這種無窮盡的重復(fù)測序的能力可以用在編碼疾病或任何其它特征的突變和/或基因的幾種途徑中?;镜?,來自患有特殊疾病的患者的特殊組織或基因組DNA的mRNA(其可以轉(zhuǎn)化為cDNA)可以用作起始材料。從DNA的兩個來源,通過克隆程序或通過體外擴增程序(例如通過PCR)可以制備分開的合適長度的基因或基因組片段。如果使用克隆,要分析的最小一套克隆可以在測序之前從庫中選擇。這可以通過少量探針的雜交進行,特別是如果少量比5kb長的克隆要分類的話。克隆可以將雜交數(shù)據(jù)的量提高兩倍,但是不需要上萬個PCR引物。
在該方法的一個變化方法中,可以通過在下面的方法中用酶切DNA的酶象Hga I限制性酶切來制備基因或基因組片段GACGC(N5’)/CTGCG(N10’)。對于不同的片段5個堿基的突出端是不同的。一種酶對于一些基因產(chǎn)生合適的片段。通過在分開的反應(yīng)中用幾種酶酶切cDNA或基因組DNA,可以合適地切下每一個感興趣的基因。在一個方法中,切下的DNA根據(jù)大小分級。用這種方法制備的DNA片段可以分布在試管或多孔平板中(并且任選用外切核酸酶III,其從3’末端各個去除核苷酸并且通過該末端的長度和特異性)。從相對小套代替公共部分和合適長度的變化突出端的DNA適配體(adapter),可以對需要擴增的每一個基因片段選擇一對適配體。連接這些適配體,然后通過通用引物進行PCR。從1000個適配體可以產(chǎn)生1百萬對,因此可以在相同條件下用與適配體共同末端互補的一對通用引物可以特異地擴增1百萬個不同的片段。
如果發(fā)現(xiàn)一個DNA差異在幾個患者中重復(fù)的話,則這種序列變化沒有意義或者可以改變相應(yīng)的蛋白質(zhì)的功能,則該突變的基因可能對該疾病負(fù)責(zé)。通過分析帶有特殊特征的大量個體,可以將特殊基因的功能等位基因變化與特殊特征聯(lián)系起來。
該項研究可以用來消除對于非常昂貴的對廣泛的家族基因制圖的需要,并且當(dāng)沒有這樣的遺傳數(shù)據(jù)或材料時具有特殊的價值。
實施例21評價基因制圖中單一核苷酸多態(tài)性在本申請中公開的技術(shù)適合鑒別有單一核苷酸多態(tài)性(SNUPs)的基因組片段。對10名個體,通過應(yīng)用所描述的對大量可以通過克隆擴增或者通過體外擴增的已知序列的基因組片段的測序方法,可以鑒定具有SNUPs的足量DNA區(qū)段。該多態(tài)性片段進一步用作SNUP標(biāo)記。這些標(biāo)記或者事先制圖(例如它們代表制圖的STSs)或者它們可以通過下面描述的篩選程序制圖。
通過擴增標(biāo)記物并且將它們以亞陣陣列的形式排列,可以對來自相關(guān)家族或人群的每一個個體評價SNUPs。亞陣含有從被分析個體擴增的相同的標(biāo)記物。對于每一個標(biāo)記物,如在已知突變的診斷中,一套對于一個等位基因呈陽性的6個或更少探針和對于其它等位基因呈陽性的6個或更少探針可以被選擇和評價。從一個或一組標(biāo)記物與疾病的明顯相關(guān)性,可以測定負(fù)責(zé)基因的染色體位置。因為高產(chǎn)出和低費用,對于上千個個體可以評價上千個標(biāo)記物。數(shù)據(jù)的量使以少于1百萬bp的分辨水平定位基因以及定位多基因疾病中所涉及的基因。定位的基因可以通過對來自相關(guān)的正常的和受影響的個體的特殊區(qū)測序來評價一個突變或多個突變。
對于擴增來自基因組DNA的標(biāo)記物,PCR是優(yōu)選的。每一個標(biāo)記物需要一對特殊引物。存在的標(biāo)記物可以是可轉(zhuǎn)化的或者可以確定新的標(biāo)記物,其可以通過Hga I型限制性內(nèi)切酶酶切基因組DNA來制備,和通過用一對適配體連接。
SNUP標(biāo)記物可以作為集合擴增或點斑來減少獨立的擴增反應(yīng)的數(shù)目。在這種情況下,對于每一個樣品需要評價更多的探針。當(dāng)集合4個標(biāo)記物并且在12個重復(fù)膜上點斑時,則可以在4個循環(huán)中評價48個探針(每個標(biāo)記物12個)實施例22檢測和證明DNA片段的同一性試驗中常??梢澡b定通過限制性酶切產(chǎn)生的DNA片段,克隆或體外擴增(例如PCR)。通過在凝膠電泳上證明特異大小DNA泳帶的存在進行鑒定?;蛘呖梢灾苽涮禺惞押塑账岵⑶矣脕硗ㄟ^雜交證實研究的DNA樣品。這里改進的方法得以更有效鑒定大量樣品而不用對于每一個片段制備特異的寡核苷酸??梢詮膶τ谝砸阎蛄袨榛A(chǔ)的每一個片段的通用套中選擇一套陽性的和陰性的探針。選擇陽性的探針通常能形成一個或幾個重疊基團,和陰性探針遍及整個插入片段。
這項技術(shù)可以用來在其對YAC克隆制圖的過程中鑒定STSs。每一個STSs可以在大約100YAC克隆上或者YAC克隆的集合上測試。來自這100個反應(yīng)的DNAs可能在一個亞陣中點斑。不同的STSs可以代表連續(xù)的亞陣。在幾個雜交循環(huán)中,對于每一個DNA樣品可以產(chǎn)生信號,該信號以必要的可信度證明或反證給定YAC克隆中特殊STS的存在。
為了減少獨立PCR反應(yīng)的數(shù)目或者用于點斑的獨立樣品的數(shù)目,分別地,幾個STSs可以在一個反應(yīng)中同時擴增或者PCR樣品可以混合。在這種情況下,對于每一個斑點必須評價更多的探針。STSs的集中與集中的YACs無關(guān)并且可以在單一YACs或YACs庫上使用。當(dāng)幾個用不同顏色標(biāo)記探針雜交在一起時,該方法特別具有吸引力。
除了證明樣品中DNA片段存在外,利用幾個分開的探針或者一個或多個探針庫的雜交強度可以估計DNA的量。通過比較獲得的強度和對于具有已知量DNA的對照樣品的強度,同時測定所有點斑的樣品中DNA的量。因為鑒定一個DNA片段只需要幾個探針,并且有可以對于N個堿基長的DNA使用的N個可能的探針,該應(yīng)用不需要足以鑒定任何DNA區(qū)段的一大套探針。從1000個八聚體中,在1000bp片段中,平均可以選擇大約30全配對探針。
實施例23鑒定感染疾病的有機體及其變異體用于檢測患者中病毒,細(xì)菌,真菌和其它寄生蟲的以DNA為基礎(chǔ)的測定通常比其它替代方法更容易和消費低。DNA測定的主要好處是能鑒定特異菌株和突變體,甚至能應(yīng)用更有效的治療。下面描述兩種應(yīng)用。
通過擴增這些基因可以測定細(xì)菌感染中12個已知的抗生素抗性基因的存在。來自128個患者的擴增產(chǎn)物可以在兩個亞陣中點斑,并且之后在8×12cm膜上可以重復(fù)4次用于12個基因的24個亞陣。對于每一個基因,可以選擇12個探針用于陽性的和陰性的評價。雜交可以進行3個循環(huán)。對于這些試驗,小得多的一套探針最可能是通用的。例如,從一套8000個八聚體,在1000bp片段中,平均30個探針是陽性的,和10個陽性探針通常對于高度可靠的鑒定是足夠的。如實施例9中所述,幾個基因可以一起被擴增和/或點斑,并且可以測定給定DNA的量。擴增了的基因的量可以用作感染水平的指示劑。
另一個實施例包括HIV病毒的一個基因或整個基因組的可能的測序。因為快的多樣化作用,病毒對于選擇一種最佳的治療具有很多的困難??梢詮膩碜灾炼?4個患者的分離的病毒擴增DNA片段,并且通過描述的方法重復(fù)測序。以獲得的序列為基礎(chǔ)可以選擇最佳的治療。如果有兩種類型病毒的混合物,其中之一具有基礎(chǔ)序列(類似于雜合子情況),通過定量比較其雜交評價和其它樣品尤其是只含有基礎(chǔ)病毒類型的對照樣品的評價可以鑒定突變體。對于3-4個探針可以獲得小如兩次的評價,所述探針覆蓋樣品中存在的兩種類型病毒之一中特別的位點(參見上文)。
實施例24司法和親子鑒定序列的多態(tài)性使得各個基因組DNA是單一的。這使可分析來自犯罪現(xiàn)場的血液或者其它體液或組織并且與犯罪嫌疑人的樣品相比較。對足夠量的多態(tài)性位點評價,產(chǎn)生樣品的單一信號。SBH可以容易評價產(chǎn)生這樣的信號的單一寡核苷酸多態(tài)性。
可以從樣品和懷疑對象擴增一套DNA片段(10-1000)。來自樣品和懷疑對象的DNA代表一個片段,并且在一個或幾個亞陣中點斑,并且每一個亞陣可以重復(fù)4次。在3個循環(huán)中,對于每一個DNA基因座,12個探針可以測定各個樣品包括懷疑對象中等位基因A或B的存在。樣品和懷疑對象的模式配對可以導(dǎo)致發(fā)現(xiàn)對犯罪負(fù)責(zé)的懷疑對象。
相同的方法可以用來證明或反證孩子雙親的鑒定??梢灾苽銬NA,從孩子和成人擴增多態(tài)性基因座;通過對于每一個的雜交可以測定A或B等位基因的模式。比較獲得的模式,以及陽性的和陰性的對照物,見于家庭關(guān)系的測定。在這種情況下,只要明顯一部分等位基因需要與一名鑒定雙親配對。大量的評價的基因座使避免該方法中的統(tǒng)計學(xué)誤差或者從頭突變的標(biāo)記影響。
實施例25評價人種或物種基因多樣性和生態(tài)小生境的生物學(xué)多樣性對大量基因座(例如幾個基因或者全部線粒體DNA)等位基因變異頻率的測定使得到推論的不同類型,例如關(guān)于環(huán)境對基因型影響,種群的歷史和進化或者其產(chǎn)生疾病或滅絕的懷疑性的推論。通過測定特異的等位基因或者通過一些基因座的全重復(fù)測序進行評價,以能確定從頭突變,這可以解釋細(xì)微變異或者環(huán)境中誘變的存在。
另外,通過重復(fù)測序進化保留的DNA序列可以研究微生物領(lǐng)域中的生物多樣性,例如核糖體RNAs的基因或者高度保守蛋白質(zhì)的基因。可以從環(huán)境制備DNA,并且用相應(yīng)于保守序列的引物擴增特殊的基因。在質(zhì)粒載體中可以優(yōu)先克隆DNA片段(或者稀釋至在多孔平板中的每一個孔中一個分子的水平,然后體外擴增)。用這種方法制備的克隆可以根據(jù)上述重復(fù)測序。獲得兩種類型的信息。首先,不同物種的目錄以及對于每一個物種的個體的密度可以確定。另一段信息可以用來測定生態(tài)學(xué)因素或人口對生態(tài)系統(tǒng)的影響。其可以發(fā)現(xiàn)一些物種是否是滅絕的或者物種之間的豐度比是否由于人口數(shù)而改變。該方法也用于測序來自化石的DNA。
實施例26測定或定量測定核酸種類通過使用包括固定于基質(zhì)的未標(biāo)記探針和溶液中標(biāo)記探針的一對探針可以檢測和定量測定DNA或RNA種類。通過在標(biāo)記探針和連接酶存在下暴露給未標(biāo)記探針可以檢測和定量測定物種。具體地說,通過連接樣品核酸骨架上標(biāo)記的和未標(biāo)記探針形成延長的探針是存在要檢測物種的指示。因此,去除未連接標(biāo)記探針后基質(zhì)上陣列中特異的點存在標(biāo)記表明存在樣品物種,同時標(biāo)記的量指示物種的表達水平。
或者,一個或多個未標(biāo)記探針作為第一對成員可以在基質(zhì)上排成陣列,帶有一個或多個標(biāo)記探針引入到溶液中。根據(jù)一種方法,通過使用在可區(qū)分波長處有熒光的染料可以進行陣列上標(biāo)記的多重結(jié)合化。在該方法中,可以將cDNA混合物加到對于要鑒定的物種是特異性的標(biāo)記和未標(biāo)記探針對的陣列上,測定cDNA物種的存在和表達水平。根據(jù)優(yōu)選的實施方案,可以通過選擇包括與要測定的cDNA的序列重疊的序列的未標(biāo)記和標(biāo)記探針對的對,來對cDNAs序列部分進行該方法。
可以選擇探針來檢測特殊病源有機體基因組的存在和量,通過包括在組合物中的選擇的探針對,其只是在與靶病源基因組有機體組合中出現(xiàn)。因此,沒有單一探針對對于病原體有機體基因組必須是特異性的,但是探針對的組合是。類似地,在檢測和測序cDNA中,可能發(fā)生的是特殊的探針對于cDNA或者其它類型物種不是特異性的。無論如何,特殊物種的存在和量可以通過這樣的結(jié)果來測定,其中位于完全不同的陣列位置的選擇的探針的組合是存在特殊物種的指示。
具有大約10kb或更多DNA的感染劑可以使用載體結(jié)合檢測芯片而不用聚合酶鏈反應(yīng)(PCR)或者其它靶物擴增方法來檢測。根據(jù)其它方法,包括細(xì)菌和病毒的感染劑基因組通過利用PCR擴單一靶核苷酸序列和通過特異于靶物序列的標(biāo)記探針的雜交來檢測靶物的存在來評價。因為這樣的測定對于唯一單一靶物序列是特異性的,因此其對于通過例如PCR這樣的方法的基因擴增是必須的來提供足量的靶物來提供可檢測信號。
根據(jù)該實施例,提供了通過文本3-型反應(yīng)測定感染劑核苷酸序列特征的改進的方法,其中制備固相檢測芯片,其包括特異于感興趣的感染劑的多個不同的固定化寡核苷酸探針的陣列。包括很多與靶核酸互補的未標(biāo)記探針的混合物的單一斑點在一個位置濃縮了對物種特異的標(biāo)記,從而提高了對分散或單一探針標(biāo)記的敏感性。這樣多個探針可以是靶核苷酸序列的重疊序列,但是也可以是非重疊序列以及非鄰接的。這樣的探針優(yōu)選具有大約5-12個核苷酸長度。
核酸樣品暴露給探針陣列,樣品中存在的靶序列將與多個固定化探針雜交。選擇來特異性結(jié)合與固定化探針鄰接的靶序列的多個標(biāo)記探針庫然后和樣品一起加樣到未標(biāo)記的寡核苷酸探針混合物的陣列。然后連接酶加樣到芯片上來連接樣品上鄰接的探針和樣品核酸。然后沖洗測定芯片以去除未雜交的和未連接的探針,可以通過存在或不存在標(biāo)記來測定樣品核酸的存在。該方法以減少大約1000倍樣品劑的體積摩爾濃度通過可靠的樣品檢測。
根據(jù)本發(fā)明進一步方面,利用例如對自由探針提供共同尾部可以擴大標(biāo)記探針的信號,自由探針本身包括多個顯色的,酶的或放射性標(biāo)記或者其自身被懷疑通過另一個多標(biāo)記的探針試劑特異性結(jié)合。在這種方法中,可以進行第二輪信號擴增。可以在第二輪擴增中使用標(biāo)記或未標(biāo)記探針。在第二輪擴增中帶有多個標(biāo)記的長DNA樣品可以導(dǎo)致10-100倍之間的增強擴增強度信號,這可能導(dǎo)致100000倍總的信號擴增。通過本實施例兩個方面的應(yīng)用,大約100000倍強度信號可以給出探針-DNA連接的陽性結(jié)果而不必須使用PCR或其它擴增方法。
根據(jù)本發(fā)明的另一方面,可以制備陣列或超陣列,其由一套完全探針例如4096個六聚體探針組成。這種類型的陣列一般來說是通用的,它們可以用于檢測或部分完全測序任何核酸種類。陣列中各個斑點可以含有單一探針種類或者探針的混合物,例如N(1-3)B(4-6)N(1-3)型混合物,其是在單一反應(yīng)中合成的(N代表所有4個核苷酸,B代表一個特異性核苷酸,并且其中相關(guān)的數(shù)目是堿基數(shù)目的范圍,即1-3指“從一個至三個堿基”)。通過收集來自同樣長核酸種類分子不同部分的信號,這些混合物對于以低濃度存在的核酸種類提供更強的信號。通用套探針可以再分成很多亞套,點斑成被隔柵隔離的單位陣列,所述隔柵防止雜交緩沖液與樣品和標(biāo)記探針的擴散。
為了檢測具有已知序列的核酸種類,可以選擇包括未標(biāo)記的固定探針和溶液中標(biāo)記探針的一個或多個寡核苷酸序列。合成標(biāo)記探針或者從預(yù)先合成的例如七聚體的完全套中選擇標(biāo)記探針。標(biāo)記探針加入到固定化探針的相應(yīng)的單位陣列中,使得一對固定的和標(biāo)記探針將鄰接雜交于靶序列,這樣通過給予連接酶,探針將共價連接。
如果單位陣列包含一個以上在給定核酸種類中是陽性的固定探針(如分開的斑點或者在相同斑點中),可以混合所有相應(yīng)的標(biāo)記探針并且加入到相同單位陣列中。當(dāng)測定核酸種類的混合物時,標(biāo)記探針的混合物就更加重要。核酸種類復(fù)雜混合物的一個實施例是在一個細(xì)胞或組織中的mRNAs。
根據(jù)本發(fā)明的一個實施方案固定探針的單位陣列使使用每一種可能的固定化探針,所述探針含有相對少量標(biāo)記探針的混合物。如果涉及多重結(jié)合標(biāo)記方案,則可以使用標(biāo)記探針的更復(fù)雜的混合物。優(yōu)選的多重結(jié)合方法可以使用不同的熒光染料或者可以通過質(zhì)譜可以區(qū)分的分子標(biāo)記物。
或者,根據(jù)本發(fā)明優(yōu)選的實施方案,可以選擇相對短的固定化探針,其頻繁與很多核酸序列雜交。這樣短的探針可以結(jié)合標(biāo)記探針的混合物使用,標(biāo)記探針的混合物可以這樣制備,使得至少一個標(biāo)記探針相應(yīng)于每一個固定探針。優(yōu)選的混合物是其中沒有一個標(biāo)記探針相應(yīng)于一個以上固定探針。
實施例27具有所有可能的10-聚體的HIV病毒的區(qū)段的探查在文本III SBH的該實施例中,在尼龍膜(例如Gene Screen)上產(chǎn)生所有可能的結(jié)合的5-聚體(1024個可能的五聚體)陣列。合成帶有5’尾部5’-TTTTTT-NNN-3’的結(jié)合的5-聚體寡核苷酸(N=所有4個堿基A,C,G,T,在合成的該步驟中加入等摩爾量的所有4種堿基)。將這些寡核苷酸精確點斑到尼龍膜上,使斑點風(fēng)干,通過用UV光處理干燥的斑點將寡核苷酸固定化。使用該方法獲得對于每平方納米至多18個寡核苷酸的寡核苷酸密度。UV處理后,用含有去污劑的緩沖液在60-80℃處理尼龍膜。寡核苷酸斑點以10個10個斑點以隔柵隔成亞陣,并且每一個亞陣具有64個5-聚體和36個對照斑點。16個亞陣給出1024個5-聚體,其包括所有可能的5-聚體。
陣列中的亞陣通過物理隔柵彼此分隔,例如疏水性條帶,其使各亞陣與樣品雜交而沒有來自鄰接亞陣的交叉污染。在優(yōu)選的實施方案中,疏水性條帶是從溶解于合適的溶劑(這樣的溶劑是本領(lǐng)域公知的)的聚硅氧烷溶液(例如家用聚硅氧烷膠水和密封糊)。硅脂溶液被用在亞陣之間形成線路,其在溶劑揮發(fā)后作為分開小室的疏水性條帶。
在文本III實施例中,合成帶有3’尾部5’-NN-3’(N=所有4個堿基A,C,G,T)的自由的或溶液(未結(jié)合的)5-聚體。在該實施例中,自由的5-聚體和結(jié)合的5-聚體結(jié)合,產(chǎn)生所有可能的10-聚體,用來測序小于20kb的已知的DNA序列。20kb雙鏈DNA變性為40kb單鏈DNA。該40kbssDNA與大約4%所有可能的10-聚體雜交。低頻率的10-聚體結(jié)合和已知的靶序列使集合自由的或溶液(未結(jié)合)5-聚體用于處理每一個亞陣,而不遺失序列信息。在優(yōu)選的實施方案中,對于每一個亞陣集合16個探針,在自由的5-聚體的64個總庫中闡明了所有可能的5-聚體。因此可以用1024個亞陣對DNA樣品探查所有可能的10-聚體(對于自由的5-聚體的每一個庫有16個亞陣)。
該實施方案中的靶DNA代表HIV病毒區(qū)段的兩個-600bp。通過60個重疊30-聚體的庫闡明這些600bp區(qū)段(30-聚體重疊各個鄰接30-聚體20個核苷酸)。30-聚體的庫模擬用本領(lǐng)域公知的技術(shù)處理過的靶DNA,來剪切,消化和/或隨機PCR,靶DNA產(chǎn)生非常小的片段的隨機庫。
如上所述,在先前文本III實施例中,用放射性同位素,生物素,熒光染料標(biāo)記自由的5-聚體。標(biāo)記的自由5-聚體沿著結(jié)合5-聚體與靶物DNA雜交并且連接。在優(yōu)選的實施方案中,向反應(yīng)中加入300-1000單位連接酶。根據(jù)先前實施例教導(dǎo)的確定雜交條件。連接和去除靶DNA和過量自由探針之后,測試陣列以確定標(biāo)記探針的位置(使用上面實施例中描述的技術(shù))。
靶物已知的DNA序列,和陣列中已知的自由的和結(jié)合的5-聚體,預(yù)示哪一個結(jié)合5-聚體將與各亞陣中標(biāo)記的自由的5-聚體連接。失去來自這些預(yù)計的斑點中的20個的信號,對于靶DNA中每一個變化從預(yù)示的序列獲得20個新的信號。這10個新斑點中結(jié)合的5-聚體的重疊序列鑒定在各新的斑點中哪一個自由的5-聚體被結(jié)合。
使用描述的方法,自由的標(biāo)記的5-聚體陣列和集合,測試的HIV DNA序列用所有可能的10-聚體探測。使用文本III方法,我們正確鑒定所測試的序列的“野生型”序列,以及引入到這些區(qū)段中的幾種序列“突變體”。
實施例28對重復(fù)DNA序列測序在一個實施方案中,靶DNA中的重復(fù)DNA序列用修飾的文本III方法,以具有“間隔區(qū)寡核苷酸”測序。重復(fù)DNA序列(該重復(fù)序列在第一輪SBH上鑒定)不同長度的間隔區(qū)寡核苷酸與帶有第一個已知的毗鄰的寡核苷酸和第二個已知的,或者毗鄰間隔區(qū)另一端的可能的寡核苷酸基團(從第一輪SBH得知)的靶DNA雜交。當(dāng)與重復(fù)DNA區(qū)段的長度匹配的間隔區(qū)與靶物雜交時,兩個鄰接的寡核苷酸可以與間隔區(qū)連接。如果第一個已知的寡核苷酸與基質(zhì)固定,和第二個已知的或可能的寡核苷酸是標(biāo)記的,當(dāng)合適長度的間隔區(qū)與靶DNA雜交時,產(chǎn)生包括標(biāo)記的第二已知的或可能的寡核苷酸的結(jié)合連接產(chǎn)物。
實施例29用文本III SBH通過分支點測序在一個實施方案中,使用第三套寡核苷酸和改進的文本III方法測序靶DNA中的分支點。第一輪SBH之后,當(dāng)搜集序列時可以鑒定幾個分支點。這些可以通過與一個引入分支點的已知序列部分重疊的寡核苷酸雜交,然后與靶物上其他寡核苷酸雜交來解決,這另外的寡核苷酸是標(biāo)記的并且相應(yīng)于從分支點伸出的一個序列。當(dāng)合適的寡核苷酸與靶DNA雜交時,標(biāo)記的寡核苷酸可以與另一個連接。在優(yōu)選的實施方案中,選擇從分支點分出1至幾個核苷酸分支的第一寡核苷酸(這樣其讀到分支序列中的一個),也選擇從第一個讀出并且進入分支點序列的第二個寡核苷酸,選擇一套第三個寡核苷酸,其相應(yīng)于所有可能的帶有一個或幾個核苷酸重疊的分支點序列的分支序列(相應(yīng)于第一寡核苷酸)。這些寡核苷酸與靶DNA雜交,只有帶有正確分支序列的第三寡核苷酸(其配對第一寡核苷酸的分支序列)將產(chǎn)生帶有第一和第二寡核苷酸的連接產(chǎn)物。
實施例30分析靶核酸的多重結(jié)合探針在該實施例中,用不同的標(biāo)記物標(biāo)記探針套,使得一套中的各個探針能與該套中的其它探針區(qū)分。因此,這套探針可以在單一雜交反應(yīng)中與靶核酸接觸而不丟失任何探針信息。在優(yōu)選的實施方案中,不同的標(biāo)記物是不同的放射性同位素,或者不同的熒光標(biāo)記物或者不同的EMLs。這些套探針可以在任一文本I,文本II或文本III SBH中使用。
在文本I SBH中,一套不同標(biāo)記探針與固定于基質(zhì)的靶核酸在使區(qū)分完全配對和一個堿基對失配的條件下雜交。通過其不同的標(biāo)記鑒定與靶核酸結(jié)合的特異探針,并且從該結(jié)合信息,至少部分地,測定完全配對。
在文本II SBH中,用不同的探針標(biāo)記靶核酸并且與探針陣列雜交。通過其不同的標(biāo)記鑒定與探針結(jié)合的特異靶核酸,并且從該結(jié)合信息,至少部分地,確定完全配對。
在文本III SBH中,一套不同標(biāo)記探針和固定探針與靶核酸在使從一個堿基對失配區(qū)分完全配對的條件下雜交。靶物上與固定探針鄰接的標(biāo)記探針結(jié)合于固定探針,檢測這些產(chǎn)物并且通過它們不同的標(biāo)記物加以區(qū)分。
在優(yōu)選的實施方案中,不同的標(biāo)記物是通過電子捕獲質(zhì)譜(EC-MS)能檢測的EMLs。EMLs可以從各種各樣骨架分子制備,特別優(yōu)選具有某些芳香性骨架的,例如,參見Xu等,色譜雜志(J.Chromatog.)76495-102(1997)。EML以可逆的和穩(wěn)定的方式與探針接觸,探針與靶核酸雜交之后,從探針上去除EML并且通過標(biāo)準(zhǔn)EC-MS鑒定(例如可以通過氣相色譜-質(zhì)譜進行EC-MS)。
實施例31檢測低頻率靶核酸文本III SBH具有足夠的辨別能力來鑒定只是一個核苷酸不同的類似序列、以1份比99份比例存在于樣品中的序列。因此,文本III可以用來鑒定以非常低的濃度存在于核酸樣品中的核酸,例如來自血液的樣品。
在一個實施方案中,囊性纖維化的兩個序列,序列之間相互不同在于缺失三個核苷酸。對于兩個序列的探針如下,區(qū)分野生型缺失的探針固定于基質(zhì),標(biāo)記的連續(xù)的探針對于兩者是共同的。使用這些靶物和探針,當(dāng)其以1份對99份野生型存在時,用文本III SBH可以鑒定到缺失突變體。
實施例32分析靶核酸的偏振片儀器和方法可以用兩個陣列的核酸,和任選的防止兩個陣列的核酸在期望混合之前混合的材料組成分析核酸的儀器。儀器的陣列可以通過各種各樣的基質(zhì)支持,包括但不限于尼龍膜,硝基纖維素膜或者上面公開的其它材料。在優(yōu)選的實施方案中,一種基質(zhì)是通過疏水性條帶分成部分的膜,或者帶有可以盛凝膠或海綿狀物的孔的合適的支持體材料。在該實施方案中,探針放在膜的一部分中,或者放在孔中,向膜或孔加入凝膠,或者海綿狀物,和溶液(有或沒有靶核酸),使得探針增溶。然后,使含有增溶了的探針的溶液接觸核酸的第二陣列。核酸可以是,但不限于,寡核苷酸探針,或者靶核酸,和探針或靶核酸可以被標(biāo)記。核酸可以用本領(lǐng)域常規(guī)使用的任何標(biāo)記物來標(biāo)記,包括但不限于放射性同位素,熒光標(biāo)記或電子團質(zhì)標(biāo)記。
可以以這樣的方式在兩個陣列之間放置防止核酸混合的材料,使得當(dāng)取出材料時兩個陣列的核酸混合在一起。該材料可以是板,膜,或者其它隔柵形式,并且該材料可以由防止核酸混合的任何材料組成。
該儀器可以如下在文本I SBH中使用儀器的第一陣列具有與基質(zhì)固定的靶核酸,儀器的第二陣列具有是標(biāo)記的并且可以取出來探查第一陣列的靶核酸的核酸探針。兩個陣列任選地被一片防止探針接觸靶核酸的材料分開,并且當(dāng)取出該片板時,探針可以探查靶物。合適的溫育和(任選地)沖洗步驟后,可以讀靶物陣列來測定每一個探針與靶物形成完全配對。讀數(shù)可以自動讀數(shù)或者可以人工讀數(shù)(例如通過用放射自顯影圖觀察)。在文本II SBH中,進行的過程類似于上面描述的,除了靶物是標(biāo)記的并且探針是固定的。
或者,該儀器可以如下在文本III SBH中使用形成兩個核酸探針的陣列,兩個陣列中的一個或兩個的核酸探針被標(biāo)記并且一個陣列可以固定于其基質(zhì)。兩個陣列可以通過一片防止探針混合的材料分開。文本II反應(yīng)通過加入靶核酸和取出片板使探針相互和靶物混合來開始。與靶物上鄰接位點結(jié)合的探針結(jié)合在一起(例如通過堿基堆積相互作用或者通過共價連接骨架),讀取結(jié)果來測定哪一個探針在鄰接位點結(jié)合了靶物。當(dāng)一套探針固定于基質(zhì)時,可以讀取固定的陣列來測定來自另一個陣列的哪一個探針與固定探針結(jié)合在一起。用上面的方法,讀數(shù)可以是自動的(例如用ELISA讀數(shù)器)或者可以人工讀取(例如通過用放射自顯影圖觀察)。
本發(fā)明不局限于例示的實施方案的范圍,例示的實施方案是為了詳細(xì)說明本發(fā)明分一個方面,是功能等價物的組合物和方法在本發(fā)明范圍內(nèi)。事實上,考慮到本發(fā)明優(yōu)選的實施方案,本領(lǐng)域技術(shù)人員預(yù)期能在實施本發(fā)明時進行大量的修飾和改變。當(dāng)然,唯一的限制是補充的權(quán)利要求書中給出的那些本發(fā)明范圍本說明書中引用的所有參考全部在此引作參考。
權(quán)利要求
1.證明測序結(jié)果的方法,包括下面的步驟使用SBH從核酸獲得序列;鑒定一套與核酸序列互補但是不是精確互補的探針;在使以一個堿基失配與完全配對相區(qū)別的條件下使探針與核酸雜交;證明該探針不與核酸完全配對。
2.權(quán)利要求1的方法,其中SBH是版本I SBH。
3.權(quán)利要求1的方法,其中SBH是版本III SBH。
4.權(quán)利要求1的方法,其中這一套探針與核酸序列不是精確互補的。
5.證明測序結(jié)果的方法,包括下面的步驟使用SBH從核酸獲得序列;對于核酸選擇至少一個引物;使用桑格測序法用引物對核酸測序;將從SBH導(dǎo)出的核酸的序列與從桑格測序法產(chǎn)生的核酸的序列相比較。
6.將來自核酸序列的多個Sfs排序的方法,包括下面的步驟使用SBH從核酸獲得序列;從多個Sfs的序列鑒定多個引物,借此這些引物引發(fā)核酸進行復(fù)制反應(yīng),其中核酸讀經(jīng)一個分支點;使用桑格測序法用引物對核酸測序;將通過桑格測序法產(chǎn)生的分支點附近核酸的序列與序列相比較,從而確定Sfs的順序。
7.用來分析核酸的多個探針,其中多個探針用于在將多個探針相互區(qū)分條件的下探查核酸。
8.權(quán)利要求7的探針,其中核酸具有已知的序列、探針用標(biāo)記物來標(biāo)記。
9.權(quán)利要求7的多個探針,其中用多個不同的標(biāo)記來標(biāo)記多個探針,借此通過與探針附著的不同的標(biāo)記將多個探針相互區(qū)分。
10.分析核酸的一套探針,包括多個探針的集合,其中每一個集合用來探查核酸,并且其中多個探針用多個不同的標(biāo)記來標(biāo)記,借此各個集合中的探針可以通過與探針附著的不同的標(biāo)記而相互區(qū)分。
11.權(quán)利要求9的一套探針,其中多個不同的標(biāo)記是多個不同的放射性同位素。
12.權(quán)利要求9的一套探針,其中多個不同的標(biāo)記是多個不同的熒光分子。
13.權(quán)利要求9的一套探針,其中多個不同的標(biāo)記是多個不同的EMLs。
14.權(quán)利要求10的一套探針,其中多個不同的標(biāo)記是多個不同的放射性同位素。
15.權(quán)利要求10的一套探針,其中多個不同的標(biāo)記是多個不同的熒光分子。
16.權(quán)利要求10的一套探針,其中多個不同的標(biāo)記是多個不同的EMLs。
17.分析核酸的方法,包括下面的步驟提供寡核苷酸探針的陣列;將樣品核酸引入到陣列中;在使一個堿基失配區(qū)分于完全配對的條件下,將多個標(biāo)記探針加到陣列中;向陣列中加入連接酶;在一定條件下溫育連接酶,標(biāo)記探針,樣品核酸和陣列探針,該條件是當(dāng)標(biāo)記探針在樣品核酸上鄰接陣列探針時,標(biāo)記探針與陣列探針連接;和測定已經(jīng)與陣列連接的標(biāo)記探針。
18.權(quán)利要求17的方法,進一步包括在溫育步驟后去除未連接的標(biāo)記探針的步驟。
19.權(quán)利要求18的方法,其中核酸具有已知的序列并且多個探針用標(biāo)記物來標(biāo)記。
20.權(quán)利要求19的方法,其中標(biāo)記物選自放射性同位素,熒光分子和EML。
21.權(quán)利要求18的方法,其中用多個不同的標(biāo)記來標(biāo)記多個探針,借此通過與探針附著的不同的標(biāo)記將探針相互區(qū)分。
22.權(quán)利要求21的方法,其中多個不同的標(biāo)記是多個不同的放射性同位素。
23.權(quán)利要求21的方法,其中多個不同的標(biāo)記是多個不同的熒光分子。
24.權(quán)利要求21的方法,其中多個不同的標(biāo)記是多個不同的EMLs。
25.分析多個核酸的方法,包括下面的步驟獲得包括多個核酸的樣品,其中靶核酸至少以一份對九十九份與靶物同源,且至少一個核苷酸與靶物不同的核酸的比例存在;選擇一套將鑒定靶核酸的探針;在使一個堿基失配區(qū)分于完全配對的條件下混合樣品和探針;鑒定探針是否在樣品中形成核酸的完全配對。
26.分析核酸的儀器,包括第一陣列核酸;第二陣列核酸;防止第一陣列中的核酸與第二陣列中的核酸混合的,在第一陣列和第二陣列之間放置的材料。
27.權(quán)利要求26的儀器,其中第二陣列中的核酸是標(biāo)記的寡核苷酸探針。
28.權(quán)利要求27的儀器,其中第一陣列中的核酸是多個樣品核酸。
29.分析靶核酸的方法,包括下面步驟提供與基質(zhì)固定的已知序列的結(jié)合探針的陣列;提供已知序列的標(biāo)記探針的陣列;提供防止結(jié)合的和標(biāo)記探針陣列中的探針混合的,在結(jié)合的和標(biāo)記探針的陣列之間放置的材料;向標(biāo)記探針加入靶核酸;去除結(jié)合的和標(biāo)記探針之間的材料,在使一個堿基失配區(qū)分于完全配對的條件下,標(biāo)記探針結(jié)合的探針和靶核酸混合在一起;連接與靶核酸中鄰接位點雜交的結(jié)合的和標(biāo)記探針;檢測已經(jīng)與結(jié)合的探針陣列連接的標(biāo)記探針。
30.分析靶核酸的方法,包括下面步驟提供與基質(zhì)固定的已知序列的結(jié)合的探針的陣列;提供已知序列的標(biāo)記探針的陣列;提供防止結(jié)合的和標(biāo)記探針陣列中的探針混合的,在結(jié)合的和標(biāo)記探針的陣列之間放置的材料;去除結(jié)合的和標(biāo)記探針之間的材料,使得標(biāo)記探針和結(jié)合的探針混合在一起;在使一個堿基失配區(qū)分于完全配對的條件下,向標(biāo)記探針和結(jié)合探針加入靶核酸;連接與靶核酸中鄰接位點雜交的結(jié)合的和標(biāo)記探針;檢測已經(jīng)與結(jié)合的探針陣列連接的標(biāo)記探針。
31.分析靶核酸的方法,包括下面步驟提供與基質(zhì)固定的已知序列的結(jié)合的探針的陣列,其中一些結(jié)合的探針與多個靶核酸第一部分互補;提供已知序列的標(biāo)記探針的陣列,其中一些標(biāo)記探針與多個靶核酸第二部分互補并且其中特異第二部分與特異第一部分鄰接;提供防止結(jié)合的和標(biāo)記探針陣列中的探針混合的,在結(jié)合的和標(biāo)記探針的陣列之間放置的材料;向標(biāo)記探針加入靶核酸;去除結(jié)合的和標(biāo)記探針之間的材料,使得標(biāo)記探針結(jié)合探針和靶核酸在使一個堿基失配下區(qū)分于完全配對的條件下混合在一起;連接在靶核酸中特異第一和第二部分處結(jié)合的結(jié)合的和標(biāo)記探針;檢測連接結(jié)合的探針陣列的標(biāo)記探針。
32.分析靶核酸的方法,包括下面步驟提供與基質(zhì)固定的已知序列的結(jié)合的探針的陣列,其中一些結(jié)合的探針與多個靶核酸第一部分互補;提供已知序列的標(biāo)記探針的陣列,其中一些標(biāo)記探針與多個靶核酸第二部分互補并且其中特異第二部分與特異第一部分鄰接;提供防止結(jié)合的和標(biāo)記探針陣列中的探針混合的,在結(jié)合的和標(biāo)記探針的陣列之間放置的材料;去除結(jié)合的和標(biāo)記探針之間的材料,使得標(biāo)記探針和結(jié)合的探針混合在一起;在使一個堿基失配下區(qū)分于完全配對的條件下,向標(biāo)記的和結(jié)合的探針加入靶核酸;連接在靶核酸中特異第一和第二部分處結(jié)合的結(jié)合的和標(biāo)記探針;檢測連接結(jié)合的探針陣列的標(biāo)記探針。
33.分析靶核酸的方法,包括下面步驟提供結(jié)合的靶核酸的陣列;提供已知序列的標(biāo)記探針的陣列;提供防止靶核酸和標(biāo)記探針混合的,在結(jié)合靶物和標(biāo)記探針的陣列之間放置的材料;去除結(jié)合靶物和標(biāo)記探針之間的材料,使得標(biāo)記探針和結(jié)合靶核酸在使一個堿基失配下區(qū)分于完全配對的條件下混合在一起;檢測哪一個標(biāo)記探針已經(jīng)和靶DNA形成完全配對。
全文摘要
本發(fā)明提供測定靶核酸種類的方法,包括下面的步驟:提供附著基質(zhì)的探針和多個標(biāo)記探針的陣列,其中選擇各個標(biāo)記探針使具有與靶核酸第一部分互補的第一核酸序列并且其中至少一個附著基質(zhì)的探針的核酸序列與靶物核酸序列的第二部分互補,這第二部分鄰接第一部分;在合適的條件下將靶核酸應(yīng)用到陣列,使探針序列與互補序列雜交;將標(biāo)記探針引入陣列中;附著基質(zhì)的探針與靶核酸雜交;標(biāo)記探針與靶核酸雜交;標(biāo)記探針附著于陣列中鄰接雜交的探針;和檢測陣列中附著于探針的標(biāo)記探針。
文檔編號G01N33/566GK1250485SQ98803399
公開日2000年4月12日 申請日期1998年1月14日 優(yōu)先權(quán)日1997年1月16日
發(fā)明者R·德爾馬納克 申請人:希斯克有限公司