欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

通過解鏈曲線分簇的snp檢測的制作方法

文檔序號:3047819閱讀:261來源:國知局
專利名稱:通過解鏈曲線分簇的snp檢測的制作方法
通過解鏈曲線分簇的SNP檢測相關(guān)申請的交叉引用該非臨時專利申請要求于2009年2月27日提交的題為“通過解鏈曲線分簇的SNP 檢測”的美國臨時專利申請No. 61/156,034的優(yōu)先權(quán)。該臨時申請的全部內(nèi)容通用地通過援引納入于此。背景 本發(fā)明一般涉及標(biāo)識基因序列變異,諸如單核苷酸多態(tài)性(SNP),且尤其涉及使用來自聚合酶鏈?zhǔn)椒磻?yīng)(PCR)裝置的解鏈曲線來標(biāo)識序列變異。使用實時PCR來檢測和量化目標(biāo)核苷酸序列。在PCR中,一個或更多個反應(yīng)孔包含DNA模板,該DNA模板包含要擴增的DNA區(qū)(目標(biāo))。反應(yīng)孔的溫度上升,從而DNA解離成兩個單鏈。溫度隨后下降,與目標(biāo)序列側(cè)面的區(qū)域互補的引物隨后結(jié)合。溫度隨后稍微上升以解離該單鏈與引物聯(lián)結(jié)。DNA聚合酶隨后可合成新的DNA以提供DNA擴增。例如通過熒光來實時地監(jiān)視序列的指數(shù)式擴增。通常使用熒光染料,其僅報告雙鏈DNA的存在。通常,染料不區(qū)分各序列,因此可能報告非期望目標(biāo)的擴增。這些非期望序列可在解離步驟期間檢測。在解離期間,雙鏈PCR產(chǎn)物解鏈成單鏈,因此熒光減少。解鏈過程往往在擴增已完全實現(xiàn)之后執(zhí)行。通過對照溫度的逐漸上升來標(biāo)繪熒光損失可產(chǎn)生解鏈曲線。檢測到不同解鏈曲線意味著存在不同序列。該技術(shù)已被用于單核苷酸多態(tài)性檢測、等位基因鑒別、以及微生物的菌株分型。然而,確定不同解鏈曲線之間的差異是困難的且可能不可重復(fù)。因此,期望有使用解鏈曲線來檢測序列變異的改進方法和系統(tǒng)以提供更高的結(jié)果準(zhǔn)確性、可靠性以及一致性。概述本發(fā)明的實施例可提供用于對解鏈曲線集合進行自動分析的系統(tǒng)、方法和裝置。 該分析可標(biāo)識解鏈的雙鏈核苷酸序列(例如,DNA或其他核苷酸序列)的某些特性。例如, 可從該分析確定序列(也稱為擴增子)中的變異(例如,突變)。擴增子可經(jīng)由任何擴增機制來擴增,諸如PCR或連接酶鏈?zhǔn)椒磻?yīng)(LCR)。各種實施例可提供用于標(biāo)識解鏈區(qū)、用于規(guī)范化解鏈曲線、以及用于將解鏈曲線分簇的方法,將解鏈曲線分簇可在規(guī)范化之后進行。根據(jù)一些實施例,提供了標(biāo)識核苷酸序列之間的序列變異的方法。接收多個數(shù)據(jù)點集合,每個集合對應(yīng)于包含兩個核苷酸序列的雙鏈分子的副本的不同樣本。集合的每個數(shù)據(jù)點包括該樣本的信號值和溫度值,其中溫度對于每個相繼數(shù)據(jù)點上升。每個集合定義一解鏈曲線。在一個實施例中,處理器確定各解鏈曲線的解鏈區(qū)。對于每條解鏈曲線,取二階導(dǎo)數(shù),并且標(biāo)識該二階導(dǎo)數(shù)的函數(shù)與邊界閾值交叉處的開始和結(jié)束溫度?;诟鹘怄溓€的相應(yīng)開始溫度,標(biāo)識解鏈區(qū)開始?;诟鹘怄溓€的相應(yīng)結(jié)束溫度,標(biāo)識解鏈區(qū)結(jié)束。每條解鏈曲線被指派給相應(yīng)簇。指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在解鏈區(qū)中具有一種或多種相似性質(zhì)。與至少一簇相對應(yīng)的核苷酸序列的至少一部分被標(biāo)識為相對于另一簇的核苷酸序列具有序列變異。在另一實施例中,確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū)。處理器通過以下步驟執(zhí)行對每條解鏈曲線的第一規(guī)范化修改該解鏈曲線的數(shù)據(jù)點從而結(jié)束區(qū)域內(nèi)的數(shù)據(jù)點的平均值為第一值,以 及修改該解鏈曲線的數(shù)據(jù)點以使得開始區(qū)域中的數(shù)據(jù)點的平均值為第二值。結(jié)束區(qū)域是始于解鏈區(qū)結(jié)束處的溫度范圍,而開始區(qū)域是結(jié)束于解鏈區(qū)開始處的溫度范圍。對于每條解鏈曲線,標(biāo)識該解鏈曲線與閾值交叉處的閾值溫度。從各個閾值溫度計算平均閾值溫度。平移每條解鏈曲線從而該解鏈曲線在平均閾值溫度處與該閾值交叉。對每條解鏈曲線的第二規(guī)范化包括修改該解鏈曲線上具有比平均閾值溫度低的溫度的數(shù)據(jù)點以使得開始區(qū)域中的數(shù)據(jù)點的平均值為第三數(shù)字。每條解鏈曲線被指派給相應(yīng)簇。 指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在解鏈區(qū)中具有一種或多種相似性質(zhì)。與至少一簇相對應(yīng)的核苷酸序列的至少一部分被標(biāo)識為相對于另一簇的核苷酸序列具有序列變異。在另一實施例中,確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū)。每條解鏈曲線被指派給相應(yīng)簇。指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在解鏈區(qū)中具有一種或多種相似形狀性質(zhì)。處理器選擇解鏈曲線簇并確定所選簇的每條解鏈曲線的解鏈溫度。 處理器基于相應(yīng)的解鏈溫度將所選簇的解鏈曲線編組成多個子簇。與至少一個子簇相對應(yīng)的核苷酸序列的至少一部分被標(biāo)識為相對于另一子簇的核苷酸序列具有序列變異。在另一實施例中,確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū)。至少一個處理器通過分析解鏈曲線的形狀來將每條解鏈曲線指派給相應(yīng)簇。指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在解鏈區(qū)中具有一種或多種相似形狀性質(zhì)。分析形狀包括對于每條解鏈曲線,計算N個平均值,每個值是該解鏈曲線的多個連續(xù)分段之一的平均;將該N個平均值的集合定義為N維空間中的點;將各N維點擬合成K個N維函數(shù);用這K個N維函數(shù)之一來標(biāo)識每個N維點;以及將與相同的N維函數(shù)相關(guān)聯(lián)的解鏈曲線編組到相同的簇中。 與至少一簇相對應(yīng)的核苷酸序列的至少一部分被標(biāo)識為相對于另一簇的核苷酸序列具有序列變異。在另一實施例中,確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū)。至少一個處理器取每條解鏈曲線的負(fù)一階導(dǎo)數(shù)來確定相應(yīng)的解鏈峰值曲線。該至少一個處理器將每條解鏈曲線指派給相應(yīng)簇。指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在解鏈區(qū)中對于解鏈峰值曲線具有一種或多種相似性質(zhì)。與至少一簇相對應(yīng)的核苷酸序列的至少一部分被標(biāo)識為相對于另一簇的核苷酸序列具有序列變異。各實施例還針對實現(xiàn)本文中描述的方法的計算機可讀介質(zhì)和系統(tǒng)。參考以下詳細(xì)描述以及附圖可獲得對本發(fā)明的本質(zhì)和優(yōu)點的更好理解。附圖簡述

圖1示出根據(jù)本發(fā)明一實施例的一組解鏈曲線100,每條解鏈曲線對應(yīng)于不同的雙鏈核苷酸序列。圖2是解說根據(jù)本發(fā)明一實施例的用于分析擴增子的解鏈曲線以確定擴增子的序列變異的方法的流程圖。圖3是解說根據(jù)本發(fā)明一實施例的用于分析一組解鏈曲線以確定全局解鏈區(qū)的方法的流程圖。
圖4示出根據(jù)本發(fā)明一實施例的解說一組解鏈曲線的解鏈區(qū)410的標(biāo)繪400。圖5A示出根據(jù)本發(fā)明一實施例的未規(guī)范化的一組解鏈曲線500。圖5B示出根據(jù)本發(fā)明一實施例的經(jīng)規(guī)范化的一組解鏈曲線550。

圖6是解說根據(jù)本發(fā)明一實施例的在解鏈區(qū)內(nèi)規(guī)范化解鏈曲線的方法600的流程圖。圖7A示出根據(jù)本發(fā)明一實施例的已經(jīng)歷僅第一規(guī)范化的一組解鏈曲線。圖7B示出根據(jù)本發(fā)明一實施例的已經(jīng)歷第二規(guī)范化的一組解鏈曲線。圖8是解說根據(jù)本發(fā)明一實施例的用于標(biāo)識子簇內(nèi)的序列變異的方法800的流程圖。圖9是解說根據(jù)本發(fā)明一實施例的用于分析解鏈曲線的形狀的方法900的流程圖。圖10是根據(jù)本發(fā)明一實施例的用于確定用于分簇的高斯或其他函數(shù)的數(shù)目的方法1000的流程圖。圖11是解說根據(jù)本發(fā)明實施例的預(yù)處理用于分簇的解鏈曲線數(shù)據(jù)的方法1100的流程圖。圖12A示出根據(jù)本發(fā)明一實施例的解鏈峰值曲線。圖12B示出圖12A中的解鏈峰值曲線的基線的標(biāo)繪。圖12C示出減去圖12B中所示的基線所得的數(shù)據(jù)。圖13示出可用于根據(jù)本發(fā)明實施例的系統(tǒng)和方法的示例性計算機裝置的框圖。詳細(xì)描述圖1示出根據(jù)本發(fā)明一實施例的一組解鏈曲線100,每條解鏈曲線對應(yīng)于不同的雙鏈核苷酸序列。這些解鏈曲線可按本領(lǐng)域技術(shù)人員已知的任何方式來生成。X軸110是以攝氏度計的溫度。溫度隨時間下降,因此溫度也與時間相關(guān)。在一個實施例中,該相關(guān)可以是線性的,盡管在其他實施例中可發(fā)生其他關(guān)系。Y軸120提供從擴增子獲得的信號(例如,熒光信號)的值。所示的單位是相對熒光單位(RFU)。RFU越高,雙鏈DNA(dsDNA)的量越大。RFU的值越小,雙鏈擴增子的量越低。dsDNA 樣本解鏈的溫度(解鏈溫度)可被確定為RFU已下降至某個水平以下的點。在該點,dsDNA 可被認(rèn)為已解鏈。每條解鏈曲線具有一定形狀和/或解鏈溫度,這取決于其擴增子的特定特性。引起解鏈曲線形狀和解鏈溫度差異的特性包括擴增子的序列。在一個方面,該序列可對解鏈溫度造成最大影響。擴增子是否包含雜合突變也可能影響解鏈曲線形狀和解鏈溫度。在一個方面,存在雜合突變可對解鏈曲線的形狀具有最大影響。包含雜合單核苷酸多態(tài)性(SNP)的擴增子在擴增之后引起dsDNA的混合。所得dsDNA的大約一半在SNP位置處具有錯配堿基對,其一條鏈來自具有SNP的親本,而另一條鏈無SNP。包含堿基對錯配的dsDNA較不穩(wěn)定,且將在稍低的溫度解鏈。這種不穩(wěn)定性導(dǎo)致解鏈曲線的獨特的提早下降。擴增子內(nèi)的甲基化程度也可能影響該形狀和解鏈溫度。I. 一般方法圖2是解說根據(jù)本發(fā)明一實施例的用于分析擴增子的解鏈曲線以確定擴增子的序列變異的方法200的流程圖。方法200可由計算機系統(tǒng)實現(xiàn),該計算機系統(tǒng)具有至少一個處理器以及用于存儲數(shù)據(jù)和/或用于控制該至少一個處理器的程序代碼的任意數(shù)目個存儲單元。在步驟210,例如在作為擴增裝置(例如,PCR機器)的一部分或與擴增裝置聯(lián)網(wǎng)的計算機系統(tǒng)的輸入處接收原始解鏈曲線數(shù)據(jù)。在一個實施例中,原始解鏈曲線是多個數(shù)據(jù)點集合。在一個方面,每個集合可定義一解鏈曲線且可對應(yīng)于一不同的解鏈曲線。在另一個方面,每條解鏈曲線可來自包含兩個核苷酸序列的雙鏈分子(例如,基因)的副本的不同樣本(例如,反應(yīng)孔)。集合的每個數(shù)據(jù)點可包括該樣本的信號值和溫度值,其中溫度對于每個相繼數(shù)據(jù)點上升。在步驟220,再采樣該原始解鏈曲線數(shù)據(jù)。再采樣涉及任何類型的曲線擬合、內(nèi)插或回歸。例如,使用三次樣條來內(nèi)插該數(shù)據(jù)。所得內(nèi)插可按任何頻率來采樣以給出新數(shù)據(jù)點,例如使得每10攝氏度有一個數(shù)據(jù)點。在一個方面,使用樣條(或其他方法)允許由PCR 機器測量較少的數(shù)據(jù)點。在其他實施例中,可使用原始解鏈曲線數(shù)據(jù)而無需再采樣。在步驟230,確定解鏈區(qū)。解鏈區(qū)可被認(rèn)為是剛好在dsDNA解離開始之前開始且剛好在dsDNA完全解離之后結(jié)束的區(qū)域。以下描述的方法300提供了尋找解鏈區(qū)的方式的一個示例。在步驟M0,每條解鏈曲線在解鏈區(qū)中被規(guī)范化。在一個實施例中,執(zhí)行規(guī)范化以設(shè)置解鏈區(qū)開始和結(jié)束附近的值。該規(guī)范化可被視為以下描述的單個規(guī)范化過程。在另一實施例中,規(guī)范化固定規(guī)范化區(qū)域內(nèi)的第三點。在另一實施例中,規(guī)范化可將解鏈曲線轉(zhuǎn)換成新函數(shù)并隨后規(guī)范化該新函數(shù)。例如,解鏈曲線可被轉(zhuǎn)換成解鏈曲線的負(fù)一階導(dǎo)數(shù),且隨后該負(fù)一階導(dǎo)數(shù)被規(guī)范化。在步驟250,將解鏈曲線劃分分簇。在一個方面,每條解鏈曲線被指派給一簇。指派的確定可按各種方式進行,例如,如以下描述的。分簇時將使用多少簇的確定將如圖10 中所描述地執(zhí)行。在步驟沈0,與至少一簇相對應(yīng)的核苷酸序列的至少一部分為具有序列變異(例如,基因突變)。在一個實施例中,每條解鏈曲線來自PCR板的不同孔。另外,每個孔可以是相同基因,但來自不同人。顯示序列變異的孔可被確定為展現(xiàn)基因突變。變異確定可相對于另一簇(例如,包含大多數(shù)解鏈曲線的簇)的核苷酸序列作出。 例如,野生型(最常見)基因的解鏈曲線隨后可與基因有突變的解鏈曲線區(qū)別開。若沒有野生型,則這些序列可與參考解鏈曲線作比較以確定序列變異是否為突變。一旦基因被標(biāo)識為有突變,則可執(zhí)行進一步分析(諸如更昂貴的排序)以確定突變類型。注意,并非被確定為有變異的簇的所有序列都必然有變異。例如,在雜合SNP中, dsDNA的序列中僅一個序列有突變。在一個方面,所使用的引物將圍繞突變位點。II.解鏈區(qū)的標(biāo)識圖3是解說根據(jù)本發(fā)明一實施例的用于分析一組解鏈曲線以確定全局解鏈區(qū)的方法300的流程圖。方法300可用于實現(xiàn)方法200的步驟230。對于每條解鏈曲線,確定該解鏈曲線的解鏈區(qū),且隨后從各個解鏈區(qū)確定全局解鏈區(qū)。在步驟310,選擇尚未被分析的新解鏈曲線。在一個實施例中,分析所有接收到的解鏈曲線。在另一實施例中,選擇所有接收到的解鏈曲線中的僅某些解鏈曲線進行分析。在步驟320,取所選解鏈曲線的二階導(dǎo)數(shù)。在一個實施例中,在分析中使用該二階導(dǎo)數(shù)的絕對值。在一個方面,除了在感興趣的區(qū)域中(例如剛好在解鏈區(qū)之前和之后),該二階導(dǎo)數(shù)的值通常接近零。在另一個方面,該二階導(dǎo)數(shù)可具有兩個峰值,一個峰值在解鏈區(qū)開始處而一個峰值在解鏈區(qū)結(jié)束處。在步驟330,(例如,用2攝氏度的平滑寬度來)平滑該二階導(dǎo)數(shù)曲線,這將該兩個峰值合并為一個峰值。結(jié)果可以是跨解鏈區(qū)的一個寬峰值,而剩下該數(shù)據(jù)的其余部分接近零。在一個實施例中,平滑函數(shù)取特定數(shù)據(jù)點周圍的窗口(例如,2° )內(nèi)的數(shù)據(jù)點的平均, 并隨后將該平均用作該數(shù)據(jù)點的新值。平滑可減少噪聲的影響。在步驟340,確定這一個合并峰值的左右界限。在一些實施例中,左右界限是峰值與閾值交叉的點。該閾值可以是固定數(shù)字或相對于該峰值的特性(諸如峰值的最大值)的值。因此,在一個實施例中,峰值的左右界限被標(biāo)識為該峰值在其左側(cè)和右側(cè)與峰值最大值X. 35的邊界閾值交叉之處。那些邊界閾值交叉可被用作解鏈曲線的解鏈區(qū)界限。此類方法的優(yōu)點在于找到解鏈曲線的邊緣而不僅僅是解鏈曲線的中心點,該中心點可用一階導(dǎo)數(shù)來尋找。通過所定義的解鏈區(qū),可以更準(zhǔn)確和一致地比較解鏈曲線的形狀。 另外,二階導(dǎo)數(shù)可較不易受期望解鏈區(qū)外部的區(qū)域中的差異的影響,因為二階導(dǎo)數(shù)在這些外部區(qū)域中往往較小。在步驟350,確定是否有任何更多解鏈曲線需要分析。若有更多曲線要分析,則該過程返回步驟310以選擇新解鏈曲線。在步驟360,從來自步驟340的左界限確定每條解鏈曲線的開始溫度的集合、以及從來自步驟340的右界限確定每條解鏈曲線的結(jié)束溫度的集合。在一個實施例中,這兩個集合按升序或降序來排序。在步驟370,從這些曲線的相應(yīng)開始和結(jié)束溫度確定全局解鏈區(qū)開始和全局解鏈區(qū)結(jié)束。在一些實施例中,大于預(yù)定數(shù)目個其他開始溫度的相應(yīng)開始溫度被標(biāo)識為全局解鏈區(qū)開始,而小于預(yù)定數(shù)目個其他結(jié)束溫度的相應(yīng)結(jié)束溫度被標(biāo)識為解鏈區(qū)結(jié)束。在一個實施例中,從排序的開始溫度起15-35% (例如,25%)百分比值(S卩,大于 25%的其他開始)被取為全局解鏈區(qū)開始,而從排序的結(jié)束溫度起65-85% (例如,75%) 百分比值(即,小于75%的其他結(jié)束)被取為全局解鏈區(qū)結(jié)束。以此方式,偏遠數(shù)據(jù)點不具有不相稱的效應(yīng),同時仍分析相當(dāng)大部分的解鏈曲線被認(rèn)為有意義(即,高于邊界閾值)的數(shù)據(jù)點。在另一實施例中,可使用這些曲線的相應(yīng)開始和結(jié)束溫度的平均、中值、或其他函數(shù)。圖4示出根據(jù)本發(fā)明一實施例的解說一組解鏈曲線的解鏈區(qū)410的標(biāo)繪400。如從該實施例可以看出的,解鏈曲線可在解鏈區(qū)的開始之前開始下降。解鏈區(qū)有利地允許對這些曲線的形狀和解鏈溫度的分析在對解鏈曲線有特定和一致意義的可再生區(qū)域上執(zhí)行。 在分析被限制在解鏈區(qū)時,對簇的確定可以更準(zhǔn)確。III.兩步驟規(guī)范化解鏈區(qū)隨后可被用于規(guī)范化解鏈曲線,例如以在對形狀和溫度的分析中提供更大的一致性和準(zhǔn)確性。在一個實施例中,每條解鏈曲線被規(guī)范化,以使得該解鏈曲線在解鏈區(qū)結(jié)束處具有第一值(例如,0)以及在解鏈區(qū)開始處具有第二值(例如,1)。圖5A示出根據(jù)本發(fā)明一實施例的未規(guī)范化的一組解鏈曲線500。圖5B示出根據(jù)本發(fā)明一實施例的經(jīng)規(guī)范化的一組解鏈曲線550。如圖所示,經(jīng)規(guī)范化的解鏈曲線在左豎條560中具有值“1”以及在右豎條570中具有值“0”。左豎條560是開始區(qū)域。該開始區(qū)域在解鏈區(qū)開始處結(jié)束564且在該開始前的指定(例如,預(yù)定)溫度范圍處開始562。右豎條570是結(jié)束區(qū)域。該結(jié)束區(qū)域在解鏈區(qū)結(jié)束處開始572且在從解鏈區(qū)結(jié)束起的指定(例如,預(yù)定)溫度范圍處結(jié)束574。例如,該范圍可以是 0. 5°C -1.0°C。圖6是解說根據(jù)本發(fā)明一實施例的在解鏈區(qū)內(nèi)規(guī)范化解鏈曲線的方法600的流程圖。出于完整性,方法600始于接收解鏈曲線數(shù)據(jù)。在步驟610,接收解鏈曲線。所接收的解鏈曲線可以是原始解鏈數(shù)據(jù)或再采樣的數(shù)據(jù)。在步驟620,確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū)。解鏈區(qū)可通過方法300或任何其他方法來確定。例如,可使用大約以一條或多條解鏈曲線的一階導(dǎo)數(shù)的峰值為中心的
溫度窗口。在步驟630,確定解鏈區(qū)的結(jié)束區(qū)域。在一個方面,該結(jié)束區(qū)域是始于解鏈區(qū)結(jié)束處的一溫度范圍(其可以是預(yù)定的,例如0.5°C)。還可確定解鏈區(qū)的開始區(qū)域。在另一個方面,該開始區(qū)域是結(jié)束于解鏈區(qū)開始處的一溫度范圍(其可以是預(yù)定的)。在步驟640,執(zhí)行對每條曲線的第一規(guī)范化。在一個實施例中,對于每條曲線,通過偏移該曲線的數(shù)據(jù)點從而落在結(jié)束區(qū)域內(nèi)的數(shù)據(jù)點具有第一值(例如,0)的平均值來執(zhí)行該規(guī)范化。隨后,將該曲線乘以一數(shù)字使得開始區(qū)域中的數(shù)據(jù)點具有第二值(例如,1)的平均值。在步驟650,對于一旦已規(guī)范化的每條曲線,標(biāo)識該曲線與解鏈閾值交叉的閾值溫度。在一個實施例中,解鏈閾值是經(jīng)驗地導(dǎo)出的。常見值在0.5與0.2之間。該值可取決于解鏈曲線的質(zhì)量。在各種實施例中,具有低噪聲的數(shù)據(jù)可具有較低解鏈閾值,而具有較高噪聲的數(shù)據(jù)可具有較高解鏈閾值。在步驟660,從相應(yīng)的閾值溫度計算平均閾值溫度。在一個實施例中,該平均是相應(yīng)閾值溫度之和除以相應(yīng)閾值溫度的數(shù)目的簡單平均。在另一實施例中,該平均可被加權(quán), 或在執(zhí)行該平均之前可取相應(yīng)閾值溫度的函數(shù)。在步驟670,沿溫度軸平移解鏈曲線,從而每條解鏈曲線在該平均閾值溫度處與該閾值交叉。但在平移之后,結(jié)束和開始區(qū)域中的值不再為期望的第一和第二值。在步驟680,執(zhí)行第二規(guī)范化。曲線上具有比平均閾值溫度高的溫度的數(shù)據(jù)點可被修改以使得該曲線的數(shù)據(jù)點在平均閾值溫度處的值為該閾值且在結(jié)束區(qū)域中的平均值為第三數(shù)字(例如,0)。曲線上具有比平均閾值溫度低的溫度的數(shù)據(jù)點可被修改以使得開始區(qū)域中的數(shù)據(jù)點的平均值為第四數(shù)字(例如,1)。該規(guī)范化有利地允許對這些曲線的形狀和解鏈溫度的分析以具有更大一致性的統(tǒng)一方式來執(zhí)行,而不管信號中的噪聲如何。在對在此類規(guī)范化之后被比較的解鏈曲線執(zhí)行分析時,對簇的確定可以更準(zhǔn)確。圖7A示出根據(jù)本發(fā)明一實施例的已經(jīng)歷僅第一規(guī)范化的一組解鏈曲線。如可以看出的,解鏈曲線貫穿解鏈區(qū)橫跨一值范圍。此類離散性可導(dǎo)致形狀分析困難和不規(guī)則。圖7B示出根據(jù)本發(fā)明一實施例的已經(jīng)歷第二規(guī)范化的一組解鏈曲線。如可以看出的,解鏈曲線在解鏈區(qū)中的不同值之間的離散性已降低。每條解鏈曲線在相同溫度即平均閾值溫度(約為81° )處與閾值710交叉,如步驟660中確定的。對平均閾值溫度之上和之下的點分開執(zhí)行第二規(guī)范化使得每條解鏈曲線仍在平均閾值溫度處與該閾值交叉。IV.兩層分簇不同類型的序列變異可導(dǎo)致不同的行為。各實施例可使用兩步驟過程來更高效和準(zhǔn)確地標(biāo)識不同類型的序列變異。圖8是解說根據(jù)本發(fā)明一實施例的用于標(biāo)識子簇內(nèi)的序列變異的方法800的流程圖。該組解鏈曲線可被劃分為簇且隨后被劃分成子簇。在一個實施例中,首先找到形狀簇, 隨后在每個形狀簇內(nèi)找到解鏈溫度子簇。在一個方面,形狀分簇可將對應(yīng)于雜合突變的解鏈曲線與不對應(yīng)于雜合突變的那些解鏈曲線區(qū)別開,而解鏈溫度分簇可將具有純合突變的解鏈曲線與無純合突變的那些解鏈曲線區(qū)別開。在步驟810,例如,如本文中所描述地接收解鏈曲線。在步驟820,例如,如本文中所描述地確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū)。在步驟830,通過分析曲線在解鏈區(qū)中的形狀來標(biāo)識具有不同解鏈概況的不同曲線簇。例如,雜合SNP將具有與野生型不同的形狀。通常,雜合SNP起先將比野生型下降更快,且隨后具有解鏈曲線的下降略微變平坦的彎曲。這是孔中有兩個不同序列的結(jié)果,因為僅染色體之一有序列變異。在一個方面,在該情形中孔中將有4種不同的dsDNA擴增子同質(zhì)雙鏈野生型(來自親本1)、同質(zhì)雙鏈SNP (來自親本幻、以及兩個異源雙鏈產(chǎn)物(一個由來自親本1的鏈1和來自親本2的鏈2構(gòu)成,一個由來自親本1的鏈2和來自親本2的鏈 1構(gòu)成)。在步驟840,選擇簇。在一個實施例中,所選簇是對應(yīng)于野生型所在簇的簇。因此, 在一個實施例中,所選簇是具有最大數(shù)目的解鏈曲線的簇。在另一實施例中,選擇每個形狀簇以按以下步驟進行進一步的相應(yīng)分析。不在野生型簇中的序列可被標(biāo)識為具有雜合SNP。在步驟850,確定所選簇的每條曲線的解鏈溫度。解鏈溫度可通過發(fā)現(xiàn)負(fù)一階導(dǎo)數(shù)內(nèi)的峰值位置的標(biāo)準(zhǔn)手段導(dǎo)出。在一個實施例中,用于此舉的解鏈曲線數(shù)據(jù)是未經(jīng)溫度平移的經(jīng)RFU規(guī)范化的數(shù)據(jù)。在另一實施例中,解鏈溫度是解鏈曲線與閾值交叉處的值。在步驟860,所選簇的曲線基于相應(yīng)的解鏈溫度被編組成多個子簇。在一個實施例中,用于按形狀編組曲線的相同計算方法被用于執(zhí)行按解鏈溫度的編組。在另一實施例中, 通過任何方法(諸如一階導(dǎo)數(shù)的峰值)或按解鏈曲線與閾值交叉處的溫度從未經(jīng)規(guī)范化的解鏈曲線確定解鏈溫度。在步驟870,子簇的序列的至少一部分被標(biāo)識為具有序列變異。例如,子簇的基因可被標(biāo)識為具有突變,諸如純合SNP。以此方式,可通過分析形狀首先確定雜合SNP。隨后, 通過僅在具有相同形狀的簇內(nèi)進行分析可更容易地標(biāo)識純合SNP。V.通過擬合成K個N維函數(shù)來分簇形狀圖9是解說根據(jù)本發(fā)明一實施例的用于分析解鏈曲線的形狀的方法900的流程圖。在各種實施例中,解鏈曲線可以是接收到的原始數(shù)據(jù)、經(jīng)再采樣的、或以本文中提及的任何方法規(guī)范化的。在一個實施例中,方法900可被用于方法800的形狀分簇。在步驟910,每條曲線被映射到一 N維點,其中N是大于1的整數(shù)。例如,對于每條曲線,計算N個值。在一個方面,這N個值中的每一個是解鏈曲線的多個分段之一的報告器信號值的平均。這N個平均值的集合隨后被定義為N維空間中的點。在一些實施例中,曲線的分段是連續(xù)的,并且始于解鏈區(qū)的開始處且結(jié)束于平均
12閾值溫度處。在其他實施例中,曲線的分段是連續(xù)的,并且始于解鏈區(qū)的開始處且結(jié)束于解鏈區(qū)的結(jié)束處。在一個實施例中,每條解鏈曲線在被映射到N維點(例如,N = 7)之前首先被RFU 規(guī)范化和溫度平移。這N維的值可以是始于解鏈區(qū)開始處且結(jié)束于平均閾值溫度(如步驟 660中描述的)處的N個連續(xù)且等寬窗口中的每一個窗口的平均RFU值。在步驟920,這些N維點的集合被擬合成K個N維函數(shù)。在一個實施例中,這些函數(shù)具有中心,該中心在擬合過程期間可移動。這些中心可最初被放置成使得這些中心彼此遠離。確切的點可被選取成例如在數(shù)據(jù)點之上。這些函數(shù)隨后被移動和擴展以提供對N維數(shù)據(jù)點的分布的更好表示。該擬合可作為稱為高斯混合的分簇算法的定制版本的迭代應(yīng)用的一部分來完成。 在此種實施例中,給定數(shù)目(K)的N維高斯概率分布被擬合成給定的N維點集合。擬合算法通過修改每個概率分布的形狀和位置直至進一步的修改不會充分改進該擬合來使給定的點集合來自這K個概率分布的概率最大化。每個函數(shù)可具有函數(shù)形式廣… 2,其中X是N維點,而\是高斯的中心。C是指數(shù)式系數(shù)。在一個實施例中,C是針對該系數(shù)中的多項式的一系列不同值。由于X是N維點,C可被認(rèn)為是NXN的值矩陣。在一個方面,C是對稱矩陣。對于每個高斯函數(shù),靠近該函數(shù)的點向該函數(shù)的擬合提供更大的貢獻。因此,高斯與數(shù)據(jù)點的交迭被最大化。理想地,各高斯保持分開以便在另一高斯支配性地與數(shù)據(jù)點交迭時不與相同數(shù)據(jù)點顯著交迭。在一個實施例中,高斯的系數(shù)C可受約束。例如,沿每一維的K個高斯標(biāo)準(zhǔn)偏差 (即,寬度)——其為C的對角元素一被迫落在某些界限內(nèi)。界限的一些示例性值為對于7維形狀簇,每一維的最大標(biāo)準(zhǔn)偏差為.0065且最小標(biāo)準(zhǔn)偏差為.00075 ;以及對于1維解鏈溫度簇,最大標(biāo)準(zhǔn)偏差為.7且最小標(biāo)準(zhǔn)偏差為.09。在一個方面,這些界限大致界定了解鏈曲線中的預(yù)期隨機變異量。饋送到此算法的數(shù)據(jù)集可以較小(即,有少數(shù)點),且可能難以導(dǎo)出合理的概率分布。這些界限可使得結(jié)果更穩(wěn)定和準(zhǔn)確,對于小數(shù)據(jù)集尤其如此。在另一實施例中,高斯可被迫軸對準(zhǔn)。在一個方面,軸對準(zhǔn)是變穩(wěn)定并且對于小數(shù)據(jù)集可能是有用的。在高斯被軸對準(zhǔn)時,Cu的值在i不等于j時等于0,其有時被稱為協(xié)方差。i等于j時的值(高斯寬度的標(biāo)準(zhǔn)偏差)可能是非零的。在另一實施例中,使用K均值算法而非高斯混合。在該實施例中,相應(yīng)函數(shù)是指派給特定簇的各點的均值。在每次迭代時,數(shù)據(jù)點被指派給最接近的均值,且隨后計算新均值,并且該過程重復(fù)。在其他實施例中,可以使用其他分簇算法。回到方法900,在步驟930,用這K個N維函數(shù)之一來標(biāo)識每個N維點。在一個實施例中,數(shù)據(jù)點用最接近該點的函數(shù)來標(biāo)識。在另一實施例中,使用函數(shù)的值,其中具有最高值的函數(shù)被指派了該數(shù)據(jù)點。在步驟940,與相同的N維函數(shù)相關(guān)聯(lián)的曲線被編組到相同的簇中。如以上提及的,簇的各序列的至少一部分可被標(biāo)識為具有序列變異。方法900可取決于使用了多少N維函數(shù)。換言之,其可取決于如上所用的K的值。 各實施例可提供確定K的方法。
圖10是根據(jù)本發(fā)明一實施例的用于確定用于分簇的高斯或其他函數(shù)的數(shù)目的方法1000的流程圖。在一個方面,通過對多個K應(yīng)用分簇方法(例如,以上描述的高斯混合) 來找出用于將曲線指派給簇的合適K。在步驟1005,K的值被初始化為一整數(shù)(例如,2)。在步驟1010,從每條曲線的N 維點集合導(dǎo)出K個簇。例如,具有給定K的上述方法(例如,使用高斯混合算法)可被用于將每個數(shù)據(jù)點指派給由K個概率分布中的哪個在該點具有最高概率所標(biāo)識出的簇。在步驟1020,找到這K個簇中任一對之間的最小距離。在一個實施例中,該距離是經(jīng)修改距離。一對簇之間的經(jīng)修改距離可以是這對簇的質(zhì)心之間的歐幾里得距離D乘以定標(biāo)因子M。定標(biāo)因子M可以基于這兩個簇的標(biāo)準(zhǔn)偏差交迭的程度,即其基于這些簇相差多大。相差較大的簇提供大于1的M,而相差較小的簇產(chǎn)生小于1的M。使用經(jīng)修改距離的效果可以是若這些點是緊湊的且有低噪聲(例如,小量交迭),則允許簇彼此接近。在一個實施例中,高斯的標(biāo)準(zhǔn)偏差系數(shù)C(或描述函數(shù)寬度的任何系數(shù))可被用于確定交迭。在另一實施例中,特定簇的各點的跨度的標(biāo)準(zhǔn)偏差的值可如下確定。在推導(dǎo)M時,可首先計算成對簇評分CS stdDevl =簇1內(nèi)的各點的標(biāo)準(zhǔn)偏差。stdDev2 =簇2內(nèi)的各點的標(biāo)準(zhǔn)偏差。avgStdDev = (stdDevl+stdDev2)/2CS = D/avgStdDevCS是經(jīng)規(guī)范化的量,其不取決于數(shù)據(jù)的標(biāo)量。在一個實施例中,約3. 5以上的值指示充分區(qū)別開的簇,而較低的值指示逐漸未區(qū)別開的簇。在一些實施例中,M是CS的非線性函數(shù),其中M對于充分區(qū)別開的簇大于1而對于未區(qū)別開的簇小于1。在一個實施例中,CS的該非線性函數(shù)是從線性地內(nèi)插出或外推出的硬編碼控制點集合導(dǎo)出的。以下為(CS,M)格式的控制點(-l,0. 1)、(2. 5,0. 1)、(3. 3,1)、(3. 7,1)、(6. 5, 2)和(100,2)。在步驟1030,若經(jīng)修改距離M*D大于特定閾值⑶,則這K簇的集合被標(biāo)記為“良好”。在一個實施例中,CD是基于由雜合SNP造成的預(yù)期解鏈曲線形狀差異經(jīng)驗地導(dǎo)出的。在步驟1040,確定是否使用新的K。在一個實施例中,這是基于上個K是否被標(biāo)記為良好來確定的。例如,若K為良好,則始于步驟1010的該過程隨后以K+1迭代。若K為不良,則不分析更高的K值。在另一實施例中,掃描預(yù)定數(shù)目的K。因此,一些K可被標(biāo)記為不良,但若尚未達到該預(yù)定數(shù)目,則該方法可仍分析更高數(shù)目K的結(jié)果。在一些實例中,一些較低K將被標(biāo)記為不良,而較高K被標(biāo)記為良好。在步驟1050,具有最高值的被標(biāo)記為良好的K被取為用于確定解鏈曲線將被指派給的簇的K。這些簇隨后可被用于確定是否存在序列變異,如本文中描述的。在一個實施例中,步驟1010中對K個N維函數(shù)的確定可對給定K執(zhí)行若干次。每次用不同的起始點。在一個方面,若任何迭代產(chǎn)生良好結(jié)果,則該數(shù)目K可被標(biāo)記為良好。 在另一個方面,無論哪個結(jié)果落在大多數(shù)里,則提供該結(jié)果。對半分可被取為不良或良好。可具有改進的穩(wěn)健性的其他實施例將分層分簇概念與所述方法結(jié)合。在如上所述地找到某K個簇之后,通過合并這K個簇中最接近的兩個簇可找到K-I個簇。“最接近的” 可以是在絕對距離或經(jīng)修改距離意義上的,如本文中描述的。將該K-I個分簇與如在該循環(huán)的先前迭代(例如,在先前迭代的步驟1010處)中找到的現(xiàn)有K-I個分簇作比較。若其 “最接近的簇距離”(以上描述的)大于現(xiàn)有K-I個分簇的“最接近的簇距離”,則其取代現(xiàn)有 K-I個簇。因此,可確定K-I個簇的新集合,且該新集合可為“良好”而舊集合可為“不良”。該“分層分簇追溯”可被用于找到Κ-1、Κ_2個等簇。為了找到Κ-2個簇,K-I的分層分簇以相同的方式被分層地分簇。在一個實施例中,追溯可在某一級停止(例如,在Κ-2 處完結(jié)),而其他實施例可執(zhí)行更多追溯。此類追溯可通過使算法較不易受給予分簇算法(例如,K均值或高斯混合算法)的起始點的影響來增加穩(wěn)健性。例如,若將被分簇的點包括一大組有非零標(biāo)準(zhǔn)偏差的點連同單個離群點,則該算法應(yīng)當(dāng)有希望找到那兩個簇。若令K均值或高斯混合找到兩個簇且假定兩個最遠點作為開始點,則往往將找到局部最大值,其中一簇包含離群值和來自該大組中接近該離群值的少數(shù)邊緣值,而另一簇包含該大組的其余部分。然而,若令K均值或高斯混合找到3或4個簇,則有大得多的機會是那些簇之一將為單個離群值,而其他簇將“彼此最接近”,尤其是在經(jīng)修改距離的意義上,且因此將在分層追溯中被合并。如針對方法900所描述的,每個形狀簇內(nèi)的解鏈曲線可被劃分成解鏈溫度簇,例如來自步驟860的子簇。在一個實施例中,解鏈溫度分簇如形狀分簇那樣以以下修改進行。每條解鏈曲線被映射到一維點。在一個實施例中,該點是該解鏈曲線的解鏈溫度, 解鏈溫度是通過發(fā)現(xiàn)負(fù)一階導(dǎo)數(shù)內(nèi)的峰值位置的標(biāo)準(zhǔn)手段導(dǎo)出的。在一個方面,用于此舉的解鏈曲線數(shù)據(jù)是未經(jīng)溫度平移的經(jīng)RFU規(guī)范化的數(shù)據(jù)。在另一實施例中,經(jīng)RFU規(guī)范化的數(shù)據(jù)內(nèi)的閾值交叉(例如,來自步驟650)被用作該一維點。在一個實施例中,特定的經(jīng)修改距離閾值⑶被用于解鏈溫度分簇。距離閾值⑶可以是取決于可由用戶改變的“分簇靈敏度設(shè)置”的值。較高靈敏度產(chǎn)生較低距離閾值。在一些實施例中,形狀分簇距離閾值的范圍可在.01與.0565256之間。解鏈溫度分簇距離閾值的范圍可在.05與1之間。注意,這些值是以不同單位計的(對于形狀分簇距離閾值為 RFU值(y軸),而對于解鏈溫度分簇差異閾值為溫度值(χ軸))。VI. STR 分析除了 SNP檢測,各實施例針對短串聯(lián)重復(fù)序列(STR)分析。短串聯(lián)重復(fù)序列是包含某一短序列的數(shù)次重復(fù)的DNA段。在人類DNA中,每個人在任何給定STR位點可能有不同數(shù)目的重復(fù)。另外,每個人可能具有源于此人母親的DNA中的一個數(shù)目的重復(fù),以及來自此人父親的潛在可能不同數(shù)目的重復(fù)。因此,給定個體的每個位點可用兩個數(shù)字來編碼,諸如若母親給了 3個重復(fù)且父親給了 5個重復(fù)則為3、5。STR位點可被隔離、擴增、以及解鏈。給定個人的DNA的解鏈曲線中可具有一個或兩個峰值,對應(yīng)于其兩個數(shù)字(若這些數(shù)字不同則為兩個峰值)。那些峰值可位于不同溫度處,因為較長的DNA鏈比較短DNA鏈在更高的溫度處解鏈。STR中的重復(fù)次數(shù)越高,鏈就越長。STR分析的一個應(yīng)用是在DNA指紋識別中。存在關(guān)于可用于標(biāo)識個體的STR位點的國際標(biāo)準(zhǔn)。這些位點因其對于重復(fù)次數(shù)的不同可能性的隨機分布而被選取。有10或15 個此類良好地選取的位點,個人的“指紋”,即這10或15對數(shù)字,很有可能在較大人口內(nèi)是唯一性的或至少非常罕見的。STR分析可按不同于SNP檢測的方式執(zhí)行。一個差異在于如何計算饋送給分簇算CN 102365147 A
法的數(shù)據(jù)。例如,使用解鏈曲線數(shù)據(jù)的哪方面以及如何規(guī)范化數(shù)據(jù)。規(guī)范化方法600對于 SNP檢測可能工作良好,因為在SNP檢測中,開始和結(jié)束區(qū)域之間的χ軸距離較小(通常小于5度)。此較小的χ軸距離值可能是由于所有感興趣孔中的產(chǎn)物在幾乎相同的溫度解鏈。 在開始和結(jié)束區(qū)域之間通常存在非常少的噪聲,僅有解鏈轉(zhuǎn)換,這是感興趣數(shù)據(jù)。這對于 STR分析通常不成立。對于一些樣本,在開始區(qū)域與產(chǎn)物開始解鏈的點之間將有較大溫度跨度(例如,35度)。圖11是解說根據(jù)本發(fā)明實施例的預(yù)處理用于分簇的解鏈曲線數(shù)據(jù)的方法1100的流程圖。并非如SNP檢測中那樣以原始解鏈曲線開始,STR檢測可以“解鏈峰值”開始,解鏈峰值是解鏈曲線的負(fù)一階導(dǎo)數(shù)。在一個實施例中,方法1200可被用于方法200中的步驟 240。在步驟1110,接收解鏈曲線數(shù)據(jù)。在步驟1120,確定解鏈區(qū)。在一個實施例中,開始和結(jié)束區(qū)域可位于大約25度和60度以涵蓋針對特定樣本集的所有解鏈轉(zhuǎn)換。在STR分析中,大量噪聲可存在于開始區(qū)域和解鏈轉(zhuǎn)換之間,且還存在于解鏈轉(zhuǎn)換與結(jié)束區(qū)域之間。 若方法600被用于規(guī)范化該數(shù)據(jù),則各樣本間可能存在較大差異,因為其解鏈區(qū)外部的相對小的差異可能被規(guī)范化定標(biāo)有效地放大。在步驟1130,取解鏈曲線的負(fù)導(dǎo)數(shù)數(shù)據(jù)。可使用該負(fù)導(dǎo)數(shù)數(shù)據(jù)(解鏈峰值數(shù)據(jù)) 而非原始解鏈曲線。圖12A示出根據(jù)本發(fā)明一實施例的解鏈峰值曲線。在一個實施例中, 解鏈溫度被認(rèn)為是解鏈峰值尖端的溫度(χ軸位置),即解鏈曲線的轉(zhuǎn)折點、DNA產(chǎn)物解鏈最快的點。解鏈峰值數(shù)據(jù)通常開始較低且結(jié)束較低,中間有一個或更多個峰值(取決于孔中有多少不同產(chǎn)物)。在步驟1140,創(chuàng)建基線,其將開始區(qū)域處的解鏈峰值數(shù)據(jù)與結(jié)束區(qū)域處的解鏈峰值數(shù)據(jù)連接。圖12B示出圖12A中的解鏈峰值曲線的基線的標(biāo)繪。在一個實施例中,基線將解鏈區(qū)的開始連接到解鏈區(qū)的結(jié)束。在另一實施例中,開始區(qū)域中的其他點(例如,除開始區(qū)域結(jié)束外)被連接到結(jié)束區(qū)域中的其他點(例如,除結(jié)束區(qū)域的開始外)。在步驟1150,從解鏈峰值減去基線。在一個實施例中,負(fù)值被歸0。圖12C示出減去圖12B中所示的基線所得的數(shù)據(jù)。在步驟1160,經(jīng)基線化的解鏈峰值被規(guī)范化以使得其在開始和結(jié)束區(qū)域之間的最大值為1,且最小值為0。經(jīng)規(guī)范化的經(jīng)基線化峰值隨后可被分簇。在一個實施例中,經(jīng)基線化的解鏈峰值可各自被轉(zhuǎn)換成多個N維點,例如解鏈峰值曲線的每個分段有一個點。在一個方面,這些分段可始于解鏈峰值曲線變?yōu)榉橇愕狞c且結(jié)束于解鏈區(qū)的結(jié)束處。在執(zhí)行針對STR分析的形狀分簇中,這些N維點可不同于用于SNP分析的N維點。 作為參考,在SNP檢測中,N維“形狀點”可以是始于解鏈區(qū)開始處且結(jié)束于平均閾值溫度 (如步驟660中描述的)處的N個連續(xù)且等寬窗口中的每一個窗口的平均RFU值。對于STR 分析,并非結(jié)束于平均閾值溫度處,N維“形狀點”可結(jié)束于解鏈區(qū)結(jié)束窗口處。如上所述, 在一個實施例中,在STR檢測處理中不進行溫度平移,因此不存在平均閾值溫度。另外,并非如可用于SNP檢測的N = 7,STR檢測可使用N = 30以獲取足夠的分辨率來捕捉貫穿開始和結(jié)束窗口之間的范圍中任一處發(fā)生的峰值。在另一實施例中,對于STR分析不執(zhí)行解鏈溫度分簇。圖13示出可用于根據(jù)本發(fā)明實施例的系統(tǒng)和方法的示例性計算機裝置的框圖。
16
任何PLC或計算機終端可利用任意合適數(shù)目的子系統(tǒng)。此類子系統(tǒng)或組件的示例在圖13中示出。圖13中所示的子系統(tǒng)經(jīng)由系統(tǒng)總線1375互連。示出諸如打印機1374、 鍵盤1378、固定盤1379、耦合到顯示適配器1382的監(jiān)視器1376等附加子系統(tǒng)。耦合至I/ 0控制器1371的外圍設(shè)備和輸入/輸出(I/O)設(shè)備可藉由本領(lǐng)域中已知的任何數(shù)目的裝置(諸如串行端口 1377)連接到該計算機系統(tǒng)。例如,串行端口 1377或外部接口 1381可用于將該計算機裝置連接到諸如因特網(wǎng)之類的廣域網(wǎng)、鼠標(biāo)輸入設(shè)備、或掃描儀。經(jīng)由系統(tǒng)總線的互連允許中央處理器1373與每個子系統(tǒng)通信并控制來自系統(tǒng)存儲器1372或固定盤 1379的指令的執(zhí)行,以及子系統(tǒng)之間信息的交換。系統(tǒng)存儲器1372和/或固定盤1379可以具體化計算機可讀介質(zhì)。本發(fā)明這些具體方面的具體細(xì)節(jié)可按照任意合適方式來組合,而不背離本發(fā)明實施例的精神和范圍。然而,本發(fā)明的其他實施例可針對關(guān)于個別方面的具體實施例,或者這些個別方面的具體組合。應(yīng)理解,以上描述的本發(fā)明可以按模塊化或集成方式使用硬件和/或使用計算機軟件以控制邏輯的形式實現(xiàn)?;诒疚闹刑峁┑墓_和教示,本領(lǐng)域普通技術(shù)人員將知曉并領(lǐng)會使用硬件以及硬件與軟件的組合來實現(xiàn)本發(fā)明的其它途徑和/或方法。本申請中所描述的任何軟件組件或功能可以通過使用例如常規(guī)的或面向?qū)ο蠹夹g(shù)的諸如舉例而言Java、C++或Perl之類的任意合適計算機語言而實現(xiàn)成可由處理器執(zhí)行的軟件代碼。軟件代碼可以作為一系列指令或命令存儲在計算機可讀介質(zhì)上以進行儲存和 /或傳輸,合適的介質(zhì)包括隨機存取存儲器(RAM)、只讀存儲器(ROM)、諸如硬盤驅(qū)動或軟盤之類的磁性介質(zhì)、或諸如壓縮盤(⑶)或DVD(數(shù)字多用盤)、閃存以及類似的光學(xué)介質(zhì)。計算機可讀介質(zhì)可以是此類儲存或傳輸設(shè)備的任何組合。此類程序也可使用適于經(jīng)由遵循各種協(xié)議的有線、光學(xué)、和/或無線網(wǎng)絡(luò)(包括因特網(wǎng))傳輸?shù)妮d波信號來編碼和傳送。因此,可使用編碼有此類程序的數(shù)據(jù)信號來創(chuàng)建根據(jù)本發(fā)明實施例的計算機可讀介質(zhì)。編碼有程序代碼的計算機可讀介質(zhì)可與兼容設(shè)備一起封裝或者可與其他設(shè)備分開提供(例如,經(jīng)由因特網(wǎng)下載)。任何這種計算機可讀介質(zhì)可以駐留在單個計算機程序產(chǎn)品(例如,硬驅(qū)動或整個計算機系統(tǒng))上或其內(nèi),并且可以存在于系統(tǒng)或網(wǎng)絡(luò)中的不同計算機程序產(chǎn)品上或其內(nèi)。計算機系統(tǒng)可包括用于將本文中提及的任何結(jié)果提供給用戶的監(jiān)視器、打印機、或其他合適的顯示器。以上對本發(fā)明的示例性實施例的描述是出于解說和描述的目的而給出的。這無意于窮舉本發(fā)明或?qū)⒈景l(fā)明限于所描述的精確形式,并且鑒于以上教導(dǎo),許多修改和變形是可能的。選取和描述各實施例是為了最好地解釋本發(fā)明的原理及其實踐應(yīng)用,從而允許本領(lǐng)域技術(shù)人員能夠在各種實施例中并隨各種適于所構(gòu)想的特定用途的修改一起最好地利用本發(fā)明。
權(quán)利要求
1.一種標(biāo)識核苷酸序列之間的序列變異的方法,所述方法包括接收多個數(shù)據(jù)點集合,每個集合對應(yīng)于包含兩個核苷酸序列的雙鏈分子的副本的不同樣本,集合的每個數(shù)據(jù)點包括所述樣本的信號值和溫度值,其中所述溫度對于每個相繼數(shù)據(jù)點上升,其中每個集合定義一條解鏈曲線;至少一個處理器通過以下步驟確定各解鏈曲線的解鏈區(qū) 對于每條解鏈曲線 取二階導(dǎo)數(shù);標(biāo)識所述二階導(dǎo)數(shù)的函數(shù)與邊界閾值交叉處的開始和結(jié)束溫度; 基于所述各解鏈曲線的相應(yīng)開始溫度,標(biāo)識解鏈區(qū)開始; 基于所述各解鏈曲線的相應(yīng)結(jié)束溫度,標(biāo)識解鏈區(qū)結(jié)束;將每條解鏈曲線指派給相應(yīng)的簇,其中指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在所述解鏈區(qū)中具有一種或多種相似性質(zhì);以及將與至少一簇相對應(yīng)的所述核苷酸序列的至少一部分標(biāo)識為相對于另一簇的所述核苷酸序列具有序列變異。
2.如權(quán)利要求1所述的方法,其特征在于,標(biāo)識所述解鏈區(qū)開始包括將大于預(yù)定量的其他開始溫度的相應(yīng)開始溫度標(biāo)識為所述解鏈區(qū)開始,且其中標(biāo)識所述解鏈區(qū)結(jié)束包括將小于預(yù)定量的其他結(jié)束溫度的相應(yīng)結(jié)束溫度標(biāo)識為所述解鏈區(qū)結(jié)束。
3.如權(quán)利要求2所述的方法,其特征在于,所述預(yù)定量的其他開始溫度是百分比。
4.如權(quán)利要求1所述的方法,其特征在于,所述雙鏈分子是基因。
5.如權(quán)利要求4所述的方法,其特征在于,每個樣本包含來自不同生物體的相同基因。
6.如權(quán)利要求4所述的方法,其特征在于,所述序列變異是突變。
7.如權(quán)利要求1所述的方法,其特征在于,所述二階導(dǎo)數(shù)的所述函數(shù)是所述二階導(dǎo)數(shù)的移動平均。
8.如權(quán)利要求1所述的方法,其特征在于,進一步包括在將所述解鏈曲線指派給簇之前,通過以下步驟來規(guī)范化每條解鏈曲線 偏移每條解鏈曲線的所述數(shù)據(jù)點從而結(jié)束區(qū)域內(nèi)的點的平均值為第一值,其中所述結(jié)束區(qū)域是始于所述解鏈區(qū)結(jié)束處的預(yù)定溫度范圍;以及將該解鏈曲線乘以一數(shù)字以使得開始區(qū)域中的所述數(shù)據(jù)點的平均值為第二值,其中所述開始區(qū)域是結(jié)束于所述解鏈區(qū)開始處的預(yù)定溫度范圍。
9.如權(quán)利要求8所述的方法,其特征在于,所述第一值是O且所述第二值是1。
10.一種標(biāo)識核苷酸序列之間的序列變異的方法,所述方法包括接收多個數(shù)據(jù)點集合,每個集合對應(yīng)于包含兩個核苷酸序列的雙鏈分子的副本的不同樣本,集合的每個數(shù)據(jù)點包括所述樣本的信號值和溫度值,其中所述溫度對于每個相繼數(shù)據(jù)點上升,其中每個集合定義一條解鏈曲線;確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū); 至少一個處理器通過以下步驟執(zhí)行每條解鏈曲線的第一規(guī)范化 修改該解鏈曲線的所述數(shù)據(jù)點從而結(jié)束區(qū)域內(nèi)的數(shù)據(jù)點的平均值為第一數(shù)字,其中所述結(jié)束區(qū)域是始于所述解鏈區(qū)結(jié)束處的預(yù)定溫度范圍;以及修改該解鏈曲線的所述數(shù)據(jù)點以使得開始區(qū)域中的所述數(shù)據(jù)點的平均值為第二數(shù)字,其中所述開始區(qū)域是結(jié)束于所述解鏈區(qū)開始處的預(yù)定溫度范圍; 對于每條解鏈曲線,標(biāo)識該解鏈曲線與閾值交叉處的閾值溫度; 從各個閾值溫度計算平均閾值溫度;平移每條解鏈曲線從而該解鏈曲線在所述平均閾值溫度處與所述閾值交叉; 執(zhí)行對每條解鏈曲線的第二規(guī)范化,包括修改該解鏈曲線上具有比所述平均閾值溫度低的溫度的所述數(shù)據(jù)點以使得所述開始區(qū)域中的所述數(shù)據(jù)點的平均值為第三數(shù)字;將每條解鏈曲線指派給相應(yīng)的簇,其中指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在所述解鏈區(qū)中具有一種或多種相似性質(zhì);以及將與至少一簇相對應(yīng)的所述核苷酸序列的至少一部分標(biāo)識為相對于另一簇的所述核苷酸序列具有序列變異。
11.如權(quán)利要求10所述的方法,其特征在于,執(zhí)行對每條解鏈曲線的第二規(guī)范化進一步包括修改該解鏈曲線上具有比所述平均閾值溫度高的溫度的所述數(shù)據(jù)點以使得該解鏈曲線的所述數(shù)據(jù)點在所述平均閾值溫度處的值為所述閾值且在所述結(jié)束區(qū)域中的平均值為第四數(shù)字。
12.如權(quán)利要求10所述的方法,其特征在于,執(zhí)行所述第一規(guī)范化包括偏移該解鏈曲線的所述數(shù)據(jù)點從而所述結(jié)束區(qū)域內(nèi)的數(shù)據(jù)點的平均值為所述第一數(shù)字;以及將該解鏈曲線的所述數(shù)據(jù)點乘以一數(shù)字從而開始區(qū)域中的所述數(shù)據(jù)點的平均值為所述第二數(shù)字。
13.如權(quán)利要求10所述的方法,其特征在于,所述第一值為0。
14.如權(quán)利要求10所述的方法,其特征在于,執(zhí)行所述第二規(guī)范化包括將該解鏈曲線上從所述開始區(qū)域至所述平均閾值溫度的所述數(shù)據(jù)點乘以一數(shù)字從而所述開始區(qū)域中的所述數(shù)據(jù)點的平均值為所述第三數(shù)字。
15.如權(quán)利要求10所述的方法,其特征在于,所述第二數(shù)字與所述第三數(shù)字相同。
16.一種標(biāo)識核苷酸序列之間的序列變異的方法,所述方法包括接收多個數(shù)據(jù)點集合,每個集合對應(yīng)于包含兩個核苷酸序列的雙鏈分子的副本的不同樣本,集合的每個數(shù)據(jù)點包括所述樣本的信號值和溫度值,其中所述溫度對于每個相繼數(shù)據(jù)點上升,其中每個集合定義一條解鏈曲線;確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū);將每條解鏈曲線指派給相應(yīng)的簇,其中指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在所述解鏈區(qū)中具有一種或多種相似形狀性質(zhì); 至少一個處理器選擇解鏈曲線的簇;所述至少一個處理器確定所選簇的每條解鏈曲線的解鏈溫度; 所述至少一個處理器基于相應(yīng)的解鏈溫度將所選簇的所述解鏈曲線編組成多個子簇; 以及將與至少一個子簇相對應(yīng)的所述核苷酸序列的至少一部分標(biāo)識為相對于另一子簇的所述核苷酸序列具有序列變異。
17.如權(quán)利要求16所述的方法,其特征在于,進一步包括將與至少一簇相對應(yīng)的所述核苷酸序列的至少一部分標(biāo)識為具有序列變異。
18.如權(quán)利要求16所述的方法,其特征在于,所述至少一個子簇的所述核苷酸序列被標(biāo)識為具有純合突變。
19.一種標(biāo)識核苷酸序列之間的序列變異的方法,所述方法包括接收多個數(shù)據(jù)點集合,每個集合對應(yīng)于包含兩個核苷酸序列的雙鏈分子的副本的不同樣本,集合的每個數(shù)據(jù)點包括所述樣本的信號值和溫度值,其中所述溫度對于每個相繼數(shù)據(jù)點上升,其中每個集合定義一條解鏈曲線;確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū);至少一個處理器通過分析各解鏈曲線的形狀將每條解鏈曲線指派給相應(yīng)的簇,其中指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在所述解鏈區(qū)中具有一種或多種相似形狀性質(zhì),其中分析形狀包括 對于每條解鏈曲線計算N個平均值,每個值是該解鏈曲線的多個連續(xù)分段之一的平均; 將該N個平均值的集合定義為N維空間中的點; 將各N維點擬合成K個N維函數(shù); 用所述K個N維函數(shù)之一來標(biāo)識每個N維點; 將與相同的N維函數(shù)相關(guān)聯(lián)的所述解鏈曲線編組到相同的簇中;以及將與至少一簇相對應(yīng)的所述核苷酸序列的至少一部分標(biāo)識為相對于另一簇的所述核苷酸序列具有序列變異。
20.如權(quán)利要求19所述的方法,其特征在于,進一步包括通過以下步驟來標(biāo)識K的值 針對多個K值將所述解鏈曲線分簇;對于K個簇的每個集合 確定該集合的每個簇之間的距離;若每個距離皆大于閾值CD,則這K個簇的集合被標(biāo)記為良好;確定其簇被標(biāo)記為良好的K的最高值;以及使用從針對K的所述最高值分簇得到的簇來標(biāo)識所述序列變異。
21.如權(quán)利要求19所述的方法,其特征在于,所述N維函數(shù)是高斯函數(shù)。
22.如權(quán)利要求21所述的方法,其特征在于,所述高斯的寬度被約束在預(yù)定范圍內(nèi)。
23.如權(quán)利要求19所述的方法,其特征在于,所述N維函數(shù)各自為計算指派給相應(yīng)函數(shù)的數(shù)據(jù)點的平均的函數(shù)。
24.一種標(biāo)識核苷酸序列之間的序列變異的方法,所述方法包括接收多個數(shù)據(jù)點集合,每個集合對應(yīng)于包含兩個核苷酸序列的雙鏈分子的副本的不同樣本,集合的每個數(shù)據(jù)點包括所述樣本的信號值和溫度值,其中所述溫度對于每個相繼數(shù)據(jù)點上升,其中每個集合定義一條解鏈曲線;確定具有解鏈區(qū)開始和解鏈區(qū)結(jié)束的解鏈區(qū);至少一個處理器取每條解鏈曲線的負(fù)一階導(dǎo)數(shù)以確定相應(yīng)的解鏈峰值曲線; 所述至少一個處理器將每條解鏈曲線指派給相應(yīng)的簇,其中指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在所述解鏈區(qū)中對于所述解鏈峰值曲線具有一種或多種相似性質(zhì);以及將與至少一簇相對應(yīng)的所述核苷酸序列的至少一部分標(biāo)識為相對于另一簇的所述核苷酸序列具有序列變異。
25.如權(quán)利要求24所述的方法,其特征在于,進一步包括確定每個負(fù)一階導(dǎo)數(shù)的基線,其中基線將所述解鏈區(qū)開始連接至所述解鏈區(qū)結(jié)束;以及從相應(yīng)解鏈峰值曲線減去所述基線以提供相應(yīng)經(jīng)基線化的解鏈峰值曲線,其中指派給相同簇的解鏈曲線相對于其他簇中的解鏈曲線在所述解鏈區(qū)中對于所述相應(yīng)經(jīng)基線化的解鏈峰值曲線具有一種或多種相似性質(zhì)。
26.如權(quán)利要求25所述的方法,其特征在于,經(jīng)基線化的解鏈峰值曲線的負(fù)數(shù)據(jù)點被設(shè)為O。
27.如權(quán)利要求26所述的方法,其特征在于,所述相應(yīng)經(jīng)基線化的解鏈峰值曲線在分簇之前被規(guī)范化,其中所述規(guī)范化包括修改所述經(jīng)基線化的解鏈峰值曲線的數(shù)據(jù)點以使得其在所述開始區(qū)域和結(jié)束區(qū)域之間的最大值為1且最小值為O。
全文摘要
提供了用于對解鏈曲線集合進行自動分析的系統(tǒng)、方法和裝置。該分析可標(biāo)識解鏈的雙鏈核苷酸序列(例如,DNA或其他核苷酸序列)的某些特性。例如,可從該分析確定序列(也稱為擴增子)中的變異(例如,突變)。擴增子可經(jīng)由任何擴增機制來擴增,諸如PCR或連接酶鏈?zhǔn)椒磻?yīng)(LCR)。該自動分析可包括標(biāo)識解鏈區(qū),規(guī)范化解鏈曲線、以及將解鏈曲線分簇。
文檔編號B23K26/04GK102365147SQ201080015726
公開日2012年2月29日 申請日期2010年2月26日 優(yōu)先權(quán)日2009年2月27日
發(fā)明者T·豪瑟 申請人:生物輻射實驗室股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
义马市| 安新县| 永宁县| 曲水县| 阳朔县| 若羌县| 玉树县| 炉霍县| 涞水县| 安国市| 镇雄县| 蕲春县| 新平| 蓬安县| 濮阳县| 晋中市| 平南县| 绍兴县| 阿坝县| 沙雅县| 承德市| 洪洞县| 沙河市| 河间市| 高州市| 杨浦区| 邢台县| 梧州市| 尖扎县| 五莲县| 瑞安市| 永昌县| 获嘉县| 甘肃省| 雷波县| 罗源县| 衡阳县| 马鞍山市| 永济市| 绥滨县| 兴隆县|