專利名稱:Dna標(biāo)記分布圖數(shù)據(jù)分析的制作方法
背景技術(shù):
背景及相關(guān)領(lǐng)域DNA標(biāo)記是通過研究基因組DNA樣品而鑒定的分子遺傳標(biāo)記。高等生物的基因組包含于植物和動物細(xì)胞核內(nèi)緊密盤卷的DNA(脫氧核糖核酸)的棒狀結(jié)構(gòu)中,被稱為染色體。每條DNA鏈都具有含有對基因功能有貢獻(xiàn)的遺傳信息的核苷酸或堿基(包括腺嘌呤、鳥嘌呤、胞嘧啶和胸腺嘧啶)片段或序列(外顯子),以及顯然不提供任何相關(guān)遺傳信息的序列(內(nèi)含子、小衛(wèi)星序列和微衛(wèi)星序列)。內(nèi)含子、小衛(wèi)星序列和微衛(wèi)星序列在該基因或DNA樣品的其它基因中重復(fù)。每種生物都具有可以被分析的這些小衛(wèi)星序列的獨特的型態(tài)(唯一的例外是來自單一受精卵的多個個體,即,同卵雙生)。
DNA標(biāo)記被用于繪制和標(biāo)記感興趣的物理性狀,并作為遺傳多樣性的指示器。DNA多態(tài)性可以被用于研究基因組的構(gòu)成以及遺傳學(xué)圖譜的構(gòu)建,對于通過基于圖譜的克隆、標(biāo)記輔助的篩選,以及復(fù)雜性狀的基因滲入和解剖而進(jìn)行的基因分離的策略,遺傳學(xué)圖譜可以提供詳細(xì)的藍(lán)圖。遺傳圖譜給現(xiàn)代育種者和科學(xué)家提供了一系列有力的工具,分析動物和植物中重要的生理性狀的遺傳特性。
在種的水平上對分類單元的研究以及對種的獨特性的確定,對傳統(tǒng)的、系統(tǒng)的、生態(tài)學(xué)的和進(jìn)化學(xué)研究是必需的。在植物育種程序中,對基因型之間的遺傳學(xué)關(guān)系的了解,使包括原種品系的種質(zhì)形成,并提供更為有效的親本篩選。外源種質(zhì)是對遺傳性狀發(fā)揮高度期望的定性效應(yīng)的基因的重要來源,例如生物的或非生物的脅迫抗性。在育種程序中這類基因的轉(zhuǎn)移可以通過回交的標(biāo)記輔助的篩選而加強(qiáng)。在多樣性問題方面,DNA標(biāo)記還可以幫助確定特定的種的種群是如何分布的,不同種群之間的遺傳學(xué)差異如何,以及種群內(nèi)和種群間的遺傳變異有多少。
近年來,發(fā)展了許多不同的獲得DNA標(biāo)記的技術(shù),包括RFLP(限制片段長度多態(tài)性)RFLP技術(shù)是基于這樣的事實,即在用限制酶消化DNA樣品時,限制性核酸內(nèi)切酶位點上的堿基置換或者位點間的堿基插入或缺失可以導(dǎo)致DNA片段長度的可檢測的差異。分離來自生物的DNA,并用適當(dāng)?shù)南拗泼赶?,通過凝膠電泳進(jìn)行大小分離。然后將DNA片段轉(zhuǎn)移到膜上,與放射性標(biāo)記的探針雜交。RFLP方法是第一種也是最為廣泛應(yīng)用的獲取遺傳標(biāo)記的方法,它提供高度重復(fù)的結(jié)果。但是在許多種中,這種多態(tài)性只以很低的頻率發(fā)生,并且RFLP方法需要大量DNA,因而需要采集大量樣品。RAPD(隨機(jī)擴(kuò)增多態(tài)DNA)以約十個堿基的單個隨機(jī)引物進(jìn)行PCR(多聚酶鏈反應(yīng))擴(kuò)增基因組DNA,擴(kuò)增產(chǎn)物通過瓊脂糖凝膠電泳分離。它具有價廉、操作簡單而快速,并且不需要預(yù)知序列信息的優(yōu)點。但是,該方法可能導(dǎo)致不能被確信地評分的非重復(fù)性條帶、模糊條帶、或者偽帶。DAF(DNA擴(kuò)增指紋法)除了利用非常短的(如五至八個核苷酸)隨機(jī)引物擴(kuò)增基因組DNA,以及PCR片段通過聚丙烯酰胺凝膠電泳然后經(jīng)過銀染色法而成像之外,該技術(shù)與RAPD相似。該方法提供更多的變異,使區(qū)分密切相關(guān)的栽培種成為可能。但是,該方法也有RAPD的重復(fù)性和非遺傳起源問題。SSR(簡單序列重復(fù))在動物和植物基因組中,微型衛(wèi)星區(qū)域富有兩個或五個核苷酸的串聯(lián)重復(fù)。這種序列被稱為簡單序列重復(fù)。這種重復(fù)與高水平的多態(tài)性相關(guān),并且很適合于產(chǎn)生遺傳標(biāo)記。利用引物擴(kuò)增SSR區(qū)域,獲得的PCR片段通過聚丙烯酰胺凝膠電泳分析。該方法提供遺傳起源的高度多態(tài)性,只需要很少的DNA,并給出重復(fù)的結(jié)果。但是,為了使用該獲取DNA標(biāo)記的方法,需要特定生物多個微衛(wèi)星序列位點的預(yù)知序列信息。VNTR(可變數(shù)量串聯(lián)重復(fù))在多達(dá)1000個單位的串聯(lián)序列中出現(xiàn)的10-100個堿基對的分布于整個基因組的重復(fù)序列被稱作小衛(wèi)星序列。小衛(wèi)星DNA區(qū)域中的串聯(lián)重復(fù)的數(shù)目的變化已被用作分子標(biāo)記,以檢測高水平的多態(tài)性,甚至用于單個種的種群中密切相關(guān)的個體之間的多態(tài)性。小衛(wèi)星位點的突變率據(jù)估計高達(dá)每次減數(shù)分裂2×103。VNTR被廣泛地用于法醫(yī)調(diào)查中。AFLP(擴(kuò)增片段長度多態(tài)性)AFLP是基于來自基因組DNA的完全消化的,連有引物的限制片段的選擇性PCR擴(kuò)增。它只需要少量的基因組DNA,不需要預(yù)知的序列信息,并具有從大量的限制片段擴(kuò)增序列的能力。它提供遺傳起源的高度多態(tài)性并給出重復(fù)的結(jié)果。
在上述這些方法中的任何一種中,在雜交或PCR反應(yīng)和電泳之后,通過各種方法包括放射性自顯影法、溴化乙啶染色法、銀染色法、和熒光檢測法來獲得數(shù)據(jù)。片段大小通過在樣品側(cè)旁電泳或與樣品混合的DNA大小標(biāo)準(zhǔn)來計算或估計。通常的結(jié)果包括以不同的強(qiáng)度或峰所做出的不同大小的DNA片段帶型的檢測或成像,稱為DNA“指紋”。任何DNA指紋的獨特性取決于許多因素,主要是源DNA和探針或引物組合,但是也取決于反應(yīng)條件。當(dāng)反應(yīng)條件被標(biāo)準(zhǔn)化時,DNA指紋對于源DNA和探針或引物組合成為專一性的。
技術(shù)上的進(jìn)步極大地提高了產(chǎn)生原始DNA標(biāo)記數(shù)據(jù)的速度。相比之下,數(shù)據(jù)的采集和分析卻發(fā)展不大,并且是限制DNA指紋技術(shù)潛力的完全發(fā)揮的主要妨礙。對原始數(shù)據(jù)的手工解譯是繁瑣、費時且主觀性的,而且即使在同一個實驗室中來自不同批次的結(jié)果也難于比較。因此,幾乎不可能在不同的實驗室之間交換和比較定量結(jié)果。因而,本領(lǐng)域中需要有一種用來表述DNA指紋數(shù)據(jù)的簡單、標(biāo)準(zhǔn)化的格式,它將極大地促進(jìn)整個領(lǐng)域的發(fā)展。
發(fā)明概述本發(fā)明提供一種解決如上所述的已有技術(shù)缺陷的方法。
特別是,本發(fā)明提供一種獲得DNA指紋分布圖數(shù)據(jù)的方法,包括以下步驟測量基因組DNA樣品中各個DNA片段的峰強(qiáng)度和大小,根據(jù)預(yù)定的離散(discrete)強(qiáng)度水平將所述片段分組,排列所述片段成離散大小的倉(bin)中相應(yīng)的倉,按照通過所述經(jīng)過排列的大小而確定的順序,將所述片段的已分組的峰強(qiáng)度輸入到數(shù)據(jù)紀(jì)錄中,并儲存紀(jì)錄。
根據(jù)本發(fā)明的另一方面,提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)可讀的介質(zhì),其具有記錄其上的為獲取DNA指紋分布圖數(shù)據(jù)的計算機(jī)可執(zhí)行的編碼,所述計算機(jī)可執(zhí)行的編碼包括用于測量基因組DNA樣品中各個DNA片段的峰強(qiáng)度和大小的編碼模塊;用于將所述片段根據(jù)預(yù)先確定的離散強(qiáng)度水平尺度分組的編碼模塊;用于將所述片段的大小排列成離散大小的倉中相應(yīng)的倉的編碼模塊;用于按照由所述經(jīng)過排列的大小而確定的順序,將所述片段的已分組的峰強(qiáng)度輸入到數(shù)據(jù)紀(jì)錄中的編碼模塊;以及用于在計算機(jī)可讀的存儲介質(zhì)中儲存紀(jì)錄的編碼模塊。
附圖的簡要描述本發(fā)明參照附圖進(jìn)行詳細(xì)的描述,其中
圖1為根據(jù)本發(fā)明的一個優(yōu)選的實施方案處理DNA標(biāo)記數(shù)據(jù)的方法的流程圖;圖2為根據(jù)本發(fā)明的一個實施方案表述的檢測到的DNA片段的峰強(qiáng)度格式的表格;圖3A和3B為解釋本發(fā)明的裝倉DNA片段的方法的圖;圖4為本發(fā)明的裝倉DNA片段的方法的流程圖。
圖5為本發(fā)明的DNA指紋的擴(kuò)增型標(biāo)識記錄的實例。
圖6A和6B是為根據(jù)本發(fā)明獲得的標(biāo)識記錄對DNA指紋進(jìn)行評分提供數(shù)值的表格。
圖7為根據(jù)本發(fā)明的一個優(yōu)選的實施方案的評分方法的流程圖。
優(yōu)選實施方案的詳細(xì)描述參照圖1,描述了本發(fā)明的一個優(yōu)選的DNA標(biāo)記數(shù)據(jù)分析的方法。本發(fā)明的分析優(yōu)選地利用執(zhí)行下文詳細(xì)描述的本發(fā)明的功能的軟件包,在計算機(jī)上進(jìn)行(如個人計算機(jī)、小型機(jī)、大型機(jī)、工作站、服務(wù)器,等等)。
在步驟100中,解析DNA樣品的標(biāo)記的DNA片段,如通過對樣品進(jìn)行凝膠電泳而解析,所述DNA樣品為了得到DNA標(biāo)記,已經(jīng)過上述方法中的任何一種處理。例如,利用AFLP技術(shù),獲得許多包括DNA指紋的、PCR產(chǎn)生的小分子片段(通常在50-500堿基對的范圍內(nèi))。取決于使用放射性同位素標(biāo)記的引物還是使用熒光標(biāo)記的引物,進(jìn)行不同的解析過程。對于放射性同位素標(biāo)記的引物,將樣品在凝膠上電泳并將凝膠對X射線膠片曝光數(shù)天。曝光的膠片然后手工解譯。
對于熒光標(biāo)記的引物,將樣品在凝膠上電泳并通過熒光傳感器(如CCD相機(jī)等等)實時檢測熒光發(fā)射信號。將信號數(shù)字化并輸入主機(jī)以處理。結(jié)果以表格形式提供。因而,使用熒光標(biāo)記的引物比放射性同位素標(biāo)記的引物快得多并且提供更重復(fù)的結(jié)果。適用于獲得DNA標(biāo)記數(shù)據(jù)的自動測序儀的一個實例是商品化的ABI377測序儀。適合的DNA測序儀可以從許多不同的制造商購買。
在步驟102中,對各個片段的峰強(qiáng)度和該片段的大小(以bps或堿基對長度給出)進(jìn)行測量(如通過連接于主處理器或者計算機(jī)的熒光傳感器)。在步驟104中,獲得的測量值存貯在記憶存儲介質(zhì)(如固態(tài)存儲器、硬盤驅(qū)動器、磁帶驅(qū)動器,等等)中。
原始峰數(shù)據(jù)可以通過對運行DNA測序儀的軟件輸入適當(dāng)?shù)闹噶疃玫?。例如,與ABI337相連的軟件中“Export Lane-to-Raw”指令,向存儲器輸出原始的泳道文本文件,它含有總結(jié)于多欄式表格中的峰數(shù)據(jù),如下所示。
六個欄分別表示峰、時間、大小、高度(強(qiáng)度)、面積和得分。本發(fā)明只利用大小(即,片段的堿基對數(shù)目)和高度(即,強(qiáng)度)。
在步驟106中,將儲存的片段的峰強(qiáng)度歸整(normalize)。在這一點上,強(qiáng)度可以通過平均振幅被歸整,其中整數(shù)表示波形整個大小范圍內(nèi)峰的平均高度。
在步驟108中,將歸整的峰強(qiáng)度分組或轉(zhuǎn)化成五個離散峰水平中的一個,如圖2所示。圖2中所示的經(jīng)驗范圍是經(jīng)過實驗調(diào)節(jié)而選取的,并且本發(fā)明人發(fā)現(xiàn)它能夠在獲得一致、重復(fù)的標(biāo)識方面非常適用。根據(jù)本發(fā)明的一個優(yōu)選的實施方案,基于五個離散水平將峰分組。這允許使用已有的核苷酸序列分析軟件。但是,在不偏離本發(fā)明的實質(zhì)的前提下,峰強(qiáng)度可以分組為任何數(shù)目的合適的水平。
選用字符集“ABCD.”來表示峰水平。該字符集與通常所用的表示DNA序列的“ATCGN”字母的一一對應(yīng),使大量市場中已有的序列比較軟件能夠適應(yīng)本發(fā)明的DNA指紋標(biāo)識數(shù)據(jù)。尤其是,這種適應(yīng)性包括簡單地調(diào)節(jié)軟件程序的權(quán)矩陣,從而將序列作為DNA標(biāo)記峰數(shù)據(jù)而不是DNA序列數(shù)據(jù)正確地分析。
接著,在步驟110中,將儲存的DNA標(biāo)記數(shù)據(jù)分組成離散大小(即,長度)的倉。理論上,AFLP凝膠電泳僅在整數(shù)大小(即,堿基對長度)記錄峰,因為DNA片段僅由多個相連的堿基對組成。但是,由于不同的堿基類型在大小上略有不同,所以峰經(jīng)常被檢測為分?jǐn)?shù)長度的大小。為了形成本發(fā)明的擴(kuò)增型DNA標(biāo)記標(biāo)識,檢測的峰必須和堿基對位置相關(guān),因此需要調(diào)整實驗數(shù)據(jù),使之成為離散的大小或“倉”,每個離散的大小或“倉”表示從DNA片段起點開始的堿基位置。
通常的裝倉方法是通過在同一電泳中并排排列泳道形成整個凝膠電泳梯,從而達(dá)到各個泳道的誤差的平均數(shù),并獲得一系列在梯子中清楚一致的梯線,各個峰被裝倉到該梯線內(nèi)。但是,該方法在能夠進(jìn)行裝倉之前,需要采集同一凝膠電泳中所有泳道的數(shù)據(jù)。這種采集依賴性表現(xiàn)出與本發(fā)明的一致性和重復(fù)性要求無法接受的背離,因而本發(fā)明使用了不同的方法,它允許將來自單個泳道的峰精確且無偏差地裝倉,而不需對電泳中所有的其他泳道的參考。因此2-3kb的原始泳道文件可以和產(chǎn)生的本發(fā)明的DNA標(biāo)記標(biāo)識文件一起存貯,使得這些標(biāo)識能夠運用后來發(fā)展的算法重新計算。
因為發(fā)現(xiàn)在將真值峰序列裝倉方面,簡單的數(shù)字四舍五入并不能產(chǎn)生滿意的結(jié)果,本發(fā)明利用了基于從物理學(xué)借來的“彈簧”和“皮筋”能量的概念的裝倉算法。例如,如圖3A所示,對實驗獲得的大小為67.3、68.5、69.4、70.2和71.9的片段序列,簡單四舍五入將該序列裝倉為67,69,69,70和72,這明顯有問題,因為兩個峰(68.5和69.4)被裝倉入同一位置,盡管它們幾乎相隔一個位置。
為了達(dá)到更好的吻合,本發(fā)明考慮了峰之間的相對距離以及它們的實際位置。基于彈簧和皮筋的物理學(xué)模型,這兩方面的考慮可以在數(shù)學(xué)上結(jié)合成為單勢能函數(shù)。
如果可壓縮的彈簧的一端固定而另一端移動位移x,彈簧施加作用與位移方向相反方向的力,表示為F=-kx,其中k是彈簧常量,負(fù)號表示力是與位移x方向相反的。對該力函數(shù)積分給出彈簧的勢能,表示為1/2kx2,這表明勢能與位移平方成正比。
彈簧與皮筋的主要不同在于皮筋只能被拉伸(伸長),而不能像彈簧那樣被壓回(壓縮)。在函數(shù)上,這表明皮筋相當(dāng)于零長度的彈簧。
將彈簧一皮筋模型應(yīng)用于峰裝倉問題,假設(shè),如圖3A所示,彈簧保持著兩個相鄰峰之間的距離,而皮筋將真值峰拉向整數(shù)大小的點。該模型的推論是,裝倉應(yīng)定位在相近的一簇連續(xù)的峰之內(nèi),從而使得序列片段作為整體一起移動(并且因而盡可能地保持它們的形狀),并且反映出這樣的事實,即峰之間相隔越遠(yuǎn)它們之間的相對距離變化越不重要。因此,根據(jù)本發(fā)明的裝倉方法的優(yōu)選的實施方案,如圖4所示,在步驟1101中,片段序列分組為較小的片段序列簇,由相隔不超過2.5個位點的相鄰峰組成。為裝倉目的而優(yōu)化的表示彈簧和皮筋能量的公式如圖4的步驟1102所示通過實驗確定,其中Er為皮筋的能量,Es是彈簧的能量,E是作用于峰的彈簧和皮筋的力的聯(lián)合勢能。在該公式中,x是峰的位移,而kr和ks是比例常數(shù)。由于在Ks/Kr=3時,系統(tǒng)運行最佳,所以kr可以設(shè)作1而ks可以設(shè)作3,這樣,E=xr3+3xs2。
在步驟1103中,位移xs和xr以有系統(tǒng)的方式變化,以獲得最低的聯(lián)合勢能E,因而獲得與離散的倉的大小的最佳吻合。一旦得到了最低或最小勢能E,就根據(jù)步驟1104中所給出的位移將峰裝倉。例如,如圖3B所示,第一個“彈簧”被從1.2單位壓縮到1單位,而第二個“彈簧”被從0.9單位拉伸到1單位(與圖3A中所示的四舍五入的結(jié)果相比較,其中第一個彈簧被從1.2單位拉伸到2單位,而第二個彈簧被從0.9單位壓縮到0單位)。類似地,第二個和第三個“皮筋”分別有0.5單位和0.4單位的位移,如圖3A所示。
當(dāng)歸整的峰被分組并且被裝倉為離散的大小后,在步驟112(圖1)中,DNA標(biāo)記標(biāo)識數(shù)據(jù)被格式化為如圖5所示的標(biāo)準(zhǔn)化的數(shù)據(jù)條目記錄。該記錄具有三個清楚的部分或字段第一個字段是獨特的登錄編號,其功能是作為特定樣品的標(biāo)識符。該登錄編號含有屬于源DNA、DNA標(biāo)記的產(chǎn)生技術(shù)的類型,以及探針I(yè)D或引物組合的信息。例如,如圖5所示,501表示兩個字母的生物類型(OR)和四個字母的字母數(shù)字混編的生物ID,(D011)在該例子中表示蘭花栽培品種。參考數(shù)字502表示1個字母的DNA標(biāo)記技術(shù),諸如“A”表示AFLP,“R”表示RFLP,“D”表示RAPD,“S”表示SSR,以及“V”表示VNTR(在該實例中,利用AFLP產(chǎn)生標(biāo)記)。數(shù)字503是1個或2個引物對編號或探針編號,其形式是一個字母后面跟有一個數(shù)字。在引物組合的情況中,一個字母編號表示3’方向的引物,而一個數(shù)字編號表示5’方向的引物。在該實例中,“B1”表示用于AFLP選擇性擴(kuò)增的預(yù)先確定的引物組合。
本發(fā)明的指紋標(biāo)識的第二個字段由其它信息組成,諸如單位大小(間隔),起始和結(jié)束位置,以及對該序列的描述。因而,數(shù)字504表示該序列的間隔為1bp,數(shù)字505表示指紋的起始大小為50,數(shù)字506表示該結(jié)束大小為101,而數(shù)字507和508表示D.sonia的AFLP分布圖。該標(biāo)識的第一行,含有第一個和第二個字段,起始于一個諸如右大括號(})的符號;所有后續(xù)的不以“}”起始的各行被翻譯做標(biāo)識序列。因此,圖5中標(biāo)識序列509給出了以離散水平A,B,C,D和“.”的方式表示的,從50bp到101bp的各個片段的峰的數(shù)值。然后在步驟114中,將本發(fā)明的這樣形成的數(shù)據(jù)記錄存儲到合適的數(shù)據(jù)存儲介質(zhì)上,諸如固態(tài)存儲器、磁性或光學(xué)記錄介質(zhì)、軟盤、硬盤等等。
這種新格式的諸多優(yōu)點是,這種格式的即時信息性能,提供關(guān)于峰位置和其相對強(qiáng)度的信息;不同樣品的結(jié)果經(jīng)校準(zhǔn)因而易于對比;不同實驗室之間的結(jié)果交換容易并且直接(允許簡單的文本格式);指紋可以容易地輸入數(shù)據(jù)庫或者從數(shù)據(jù)庫檢索;并且有可能進(jìn)行大規(guī)模的數(shù)據(jù)分析??梢詫ι锨Щ蛘吒嗟闹讣y進(jìn)行比較和分析,并且可以通過利用計算機(jī),省去大量的手工分析的工時,找出與某種表型相聯(lián)的標(biāo)記。
為了充分利用這種新的數(shù)據(jù)標(biāo)記格式的優(yōu)點,標(biāo)識必須允許一定程度的比較以區(qū)分相似的種和無關(guān)的種。使用一種評分系統(tǒng),它采用在BLASR序列比較中所用的獎-罰概念,其中,每個匹配的字符獎勵正分,而對每個錯配則作為處罰給與負(fù)分。
圖6A說明本發(fā)明的峰的獎勵尺度,圖6B說明本發(fā)明的峰的處罰尺度。由其強(qiáng)度來確定匹配的獎分。如果在某一位點二者都具有正峰,那么兩個序列在該位點上就是所說的匹配。如果強(qiáng)度不同(即,“A”與“C”相匹配),那么用較低的峰來獲得分值。另外,對于每個存在于一個序列上但不存在(即,零)于另一個序列上的峰,就根據(jù)缺失的峰的強(qiáng)度的分值,將處罰從總分值中扣除。
因此,AB..C.D對AB..C.D的評分給出的總分為22分(10+6+4+2),而CB..A.D對CB....D的評分中,由于A的缺失而引起-4分的處罰,給出總分為8分(4+6-4+2)。
圖7說明本發(fā)明的一個實施方案中的評分方法。首先,在步驟701中,兩個標(biāo)識字符串相互比較,尋找精確的匹配。評分在一個預(yù)定的窗口內(nèi)進(jìn)行,即,在預(yù)定的大小范圍內(nèi)進(jìn)行(例如從第50位至第350位)。如果二序列中的任何一個落到窗口的邊界之外,那么該窗口就被縮小到僅包括兩個序列都具有分值的范圍。
找到精確匹配的峰后,在步驟702中,在字符串中匹配的字符就以啞符代替,以防在利用經(jīng)修改的搜索參數(shù)進(jìn)行的其它搜索時(如下文所述),峰被多次匹配。所有的精確匹配的峰都被找到之后,在步驟703中,在其余的峰中進(jìn)行搜索,在緊鄰所考慮的峰的位置,尋找具有相同的強(qiáng)度的峰。這一步補(bǔ)償可能的錯排序列,這種錯排序列的字符串具相匹配的峰強(qiáng)度但是相互間偏差了一個位置,例如,“AB.CD”與“.AB.CD”之間。如果發(fā)現(xiàn)相匹配的峰偏離了一個位置,那么獎勵分值是圖6A中所示分值的一半。因此,“AB.CD”對“.AB.CD”的評分,考慮到一個位置的偏差,將獲得11分(5+3+2+1),而將該字符串解釋為在第2位和第5位具有不同的正強(qiáng)度、在第1位和第6位具有不匹配的峰、并且第4位的C峰偏離為第3位的B峰,最后得出的分?jǐn)?shù)將降低為5分(-4+6+2+2-1)。在步驟702中,匹配的峰再由啞符代替,處理前進(jìn)至步驟704,在該步驟中進(jìn)行同一位置上不同強(qiáng)度的峰的搜索,并且然后在步驟705中進(jìn)行相鄰位置上不同強(qiáng)度的峰的搜索。由于所有匹配對從進(jìn)行比較的兩個字符串中被逐步地去除,在步驟705之后余下的峰則代表了錯配的峰,將被用作處罰評分。在步驟706中,將所有先前匹配的獎分相加,并且在步驟707中,加入所有錯配的(負(fù)數(shù))罰分,從而得出最終的分值。
記入負(fù)分是因為考慮到帶有錯配峰的序列比沒有峰的序列更具差別。但是,負(fù)分的使用使得最終的分值在某種程度上依賴于評分窗口的寬度,因為序列越長,產(chǎn)生高總分的可能性就越大。
因為如此,引入第二個評分結(jié)果,它以最大為100%的百分比數(shù)值來表示。在所定的評分窗口內(nèi),序列B對序列A的百分比得分被定義為B對A的得分與在確定的范圍內(nèi)對A的最大可能的得分(如果兩個相同的A序列相互比較就會得出)之間的比值。
當(dāng)?shù)梅质菍ΨQ函數(shù),即,得分(A,B)=得分(B,A)時,百分比是不對稱函數(shù),即,百分比(A,B)=100%×得分(A,B)/(A,A)。這附加的百分比度量因此有助于表示兩個序列在給定的窗口內(nèi)的匹配程度如何。例如,考慮“AB.CC.”與“AB.CD.”之間的得分(得分=22),與其它序列在更寬的窗口內(nèi)獲得同樣的得分相比,如“ACD.A.CAB.CDC”與“.AB.C..BACD.C”之間(得分=22),前一對序列比后一對顯然更為匹配,這一事實反映在百分比得分中,即,各對中的第二個序列對各隊中的第一個序列進(jìn)行的評分(百分比=93%對39%)。
如上對本發(fā)明進(jìn)行了描述,對于本領(lǐng)域的普通技術(shù)人員來說,可以在不背離本發(fā)明的實質(zhì)的前提下以多種不同的方式進(jìn)行變化是顯然的。所有這樣的修改都試圖被包含在所附的權(quán)利要求書中。
權(quán)利要求
1.一種獲得DNA指紋分布圖數(shù)據(jù)的方法,其包括的步驟有測量基因組DNA樣品中各個DNA片段的峰強(qiáng)度和大??;將所述片段的峰強(qiáng)度根據(jù)預(yù)定的離散強(qiáng)度水平尺度分組;將所述片段的大小排列為離散大小的倉中相應(yīng)的倉;按照由所述經(jīng)排列的大小確定的順序,將所述片段的經(jīng)分組的峰強(qiáng)度輸入數(shù)據(jù)記錄中;以及儲存該記錄。
2.如權(quán)利要求1所述的方法,其中所述樣品通過ALFP獲得。
3.如權(quán)利要求1所述的方法,其中所述樣品通過RLFP獲得。
4.如權(quán)利要求1所述的方法,其中所述樣品通過SSR PCR獲得。
5.如權(quán)利要求1所述的方法,其中所述樣品通過VNTR PCR獲得。
6.如權(quán)利要求1所述的方法,另外包括在將所述片段的峰強(qiáng)度根據(jù)所述離散強(qiáng)度水平尺度分組之前,將測量的所述片段峰強(qiáng)度歸整的步驟。
7.如權(quán)利要求6所述的方法,其中所述離散強(qiáng)度水平尺度包括至少五個離散峰水平。
8.如權(quán)利要求1所述的方法,其中排列的步驟包括以下步驟將所述片段的片段序列分組成簇,其中各個簇內(nèi)相鄰的峰相隔小于或等于預(yù)定數(shù)目的離散的位置;對各個簇賦予勢能值,所述勢能值與簇內(nèi)相鄰峰之間的間距成正比,并且與將峰裝倉為離散大小的倉而需要的位移的量成正比;改變所述峰的位移而使得所述勢能值最小化;以及根據(jù)獲得最小化的勢能值的位移值,將所述峰排列為離散大小的倉。
9.如權(quán)利要求1所述的方法,其中所述輸入步驟包括創(chuàng)建數(shù)據(jù)記錄,該數(shù)據(jù)記錄具有含有下列內(nèi)容的信息段基因組DNA來源的標(biāo)識,從所述來源產(chǎn)生DNA片段的方法,連續(xù)片段間的間距,所述片段的起始大小,以及所述片段的終止大?。灰约昂兴鼋?jīng)分組的峰強(qiáng)度的序列的序列段。
10.如權(quán)利要求9所述的方法,另外包括對兩個數(shù)據(jù)記錄間的比較進(jìn)行評分的步驟,包括以下步驟基于所述峰強(qiáng)度的相對值,對匹配的峰強(qiáng)度賦予獎分和對錯配的峰強(qiáng)度罰分,為了搜索在相應(yīng)的大小位置的相同匹配而比較所述兩個數(shù)據(jù)記錄,為了搜索在相鄰的大小位置的相同匹配而比較所述兩個數(shù)據(jù)記錄,為了搜索在相應(yīng)的大小位置的不相同的匹配而比較所述兩個數(shù)據(jù)記錄,為了搜索在相鄰的大小位置的不相同的匹配而比較所述兩個數(shù)據(jù)記錄,并根據(jù)所找出的匹配與余下的錯配,合計所述獎分和罰分,從而獲得得分。
11.如權(quán)利要求10所述的方法,另外包括通過獲得所述得分對兩個數(shù)據(jù)記錄中的一個對其自身匹配而得出的分值之間的比率,從而獲得兩個被比較的數(shù)據(jù)記錄的百分比度量的步驟。
12.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)可讀的介質(zhì),具有記錄其上的為獲取DNA指紋分布圖數(shù)據(jù)的計算機(jī)可執(zhí)行的編碼,所述計算機(jī)可執(zhí)行的編碼包括測量基因組DNA樣品中各個DNA片段的峰強(qiáng)度和大小的方法;根據(jù)預(yù)定的不連續(xù)強(qiáng)度水平尺度將所述片段的峰強(qiáng)度分組的方法;將所述片段的大小排列為離散大小的倉中相應(yīng)的倉的方法;按照由所述經(jīng)排列的大小確定的順序,將所述片段的經(jīng)分組的峰強(qiáng)度輸入數(shù)據(jù)記錄中的方法;以及在計算機(jī)可讀性存貯介質(zhì)上儲存記錄的方法。
13.如權(quán)利要求12所述的計算機(jī)程序產(chǎn)品,另外包括在根據(jù)所述的不連續(xù)強(qiáng)度水平尺度將所述峰強(qiáng)度分組之前,將所述片段的測定的峰強(qiáng)度進(jìn)行歸整的方法。
14.如權(quán)利要求13所述的計算機(jī)程序產(chǎn)品,其中所述不連續(xù)強(qiáng)度水平尺度包括至少五個不連續(xù)強(qiáng)度水平。
15.如權(quán)利要求12所述的計算機(jī)程序產(chǎn)品,其中所述排列方法包括將所述片段的片段序列分組成簇的方法,其中各個簇內(nèi)相鄰的峰相隔小于或等于預(yù)定數(shù)目的離散的位置;對各個簇賦予勢能值的方法,所述勢能值與該簇內(nèi)相鄰峰之間的間距成正比,并且與將峰裝倉入離散大小的倉而需要的位移的量成正比;改變所述峰的位移而使得所述勢能值最小化的方法;以及根據(jù)獲得最小化的勢能值的位移值,將所述峰排列為離散大小的倉的方法。
16.如權(quán)利要求12所述的計算機(jī)程序產(chǎn)品,其中所述輸入方法包括創(chuàng)建數(shù)據(jù)記錄的方法,所述創(chuàng)建數(shù)據(jù)記錄的方法具有含有下列內(nèi)容的信息段基因組DNA來源的標(biāo)識,從所述來源產(chǎn)生DNA片段的方法,連續(xù)片段間的間距,所述片段的起始大小,以及所述片段的終止大??;以及含有所述經(jīng)分組的峰強(qiáng)度的序列的序列段。
17.一種儲存在計算機(jī)可讀性存儲介質(zhì)上的DNA指紋數(shù)據(jù)記錄,所述DNA指紋數(shù)據(jù)記錄包括從基因組DNA來源獲得的DNA樣品產(chǎn)生的DNA片段的大小和峰強(qiáng)度,所述數(shù)據(jù)記錄包括含有下列內(nèi)容的信息段基因組DNA來源的標(biāo)識,從所述來源產(chǎn)生DNA片段的方法,連續(xù)片段間的間距,所述片段的起始大小,以及所述片段的終止大??;以及含有所述經(jīng)分組的峰強(qiáng)度的序列的序列段。
全文摘要
一種將原始DNA標(biāo)記分布圖數(shù)據(jù)轉(zhuǎn)換為易于理解的、標(biāo)準(zhǔn)化的格式的方法,該格式中的每個標(biāo)記的位置和相對強(qiáng)度都被充分地表述。對原始DNA標(biāo)記分布圖數(shù)據(jù)進(jìn)行分析從而將峰強(qiáng)度分組為離散強(qiáng)度水平,并利用裝倉算法排列序列片段的大小或位置,使之成為離散的整數(shù)形式的大小。利用獎一罰系統(tǒng)對DNA指紋紀(jì)錄的比較評分。
文檔編號G06F19/00GK1324467SQ9981238
公開日2001年11月28日 申請日期1999年8月21日 優(yōu)先權(quán)日1999年8月21日
發(fā)明者洪焰, 阿龍·蔡 申請人:分子農(nóng)業(yè)生物學(xué)院