欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于在基因材料樣本中檢測微小變異體的方法和系統(tǒng)與流程

文檔序號:11530808閱讀:517來源:國知局
用于在基因材料樣本中檢測微小變異體的方法和系統(tǒng)與流程



背景技術(shù):

生物分析裝置,包含諸如平板凝膠和毛細(xì)電泳法測序儀之類的dna測序系統(tǒng),通常利用一種經(jīng)由分離介質(zhì)中的遷移來分離dna片段的方法。通常在分離的片段穿過檢測區(qū)域時讀取與每個片段相關(guān)的標(biāo)簽((例如)熒光染料)。結(jié)果是一系列跡線,有時被稱作電泳圖,其中每根跡線與標(biāo)簽隨時間而變的豐度有關(guān)。對每根跡線中的峰的解釋會得到對于樣本的基因序列的確定。這些解釋,有時被稱作堿基判定,可以手動地或以自動方式(例如使用經(jīng)過編程的計算機(jī))執(zhí)行。信號的解釋方法是堿基判定處理的重要因素,并且可能很大地影響結(jié)果的質(zhì)量。

基因材料(dna或rna)的樣本可能含有基因材料的多于一個變異。一個例子是大多數(shù)病毒的基因檔案相同但是有些病毒有輕微變異的病毒群體中提取的樣本。另一個是例子是大多數(shù)基因材料是正常的但是有幾個基因材料是從癌組織中提取的血液樣本。在這些情形下,大多數(shù)基因材料是相同的,而對應(yīng)于最常見的基因材料的dna或rna的堿基被稱作主要堿基。較不常見的基因材料的堿基序列大部分與常見材料是相同的,但是在幾個堿基位置是不同的。這些差別可被稱為微小變異體。本文中論述的方法涉及精確地檢測和識別基因材料樣本中的微小變異體。



技術(shù)實(shí)現(xiàn)要素:

本公開在一些實(shí)施例中涉及一種計算機(jī)實(shí)施的用于確定微小變異體的方法。所述方法包含接收來自測試樣本的電泳圖序列數(shù)據(jù),識別所述電泳圖中的任何非主要峰,以及使用至少一個信號特征表征所識別的非主要峰。所述方法可進(jìn)一步包含在所識別的非主要峰之間分析所述至少一個信號特征以識別候選變異體,評估所述所識別的候選變異體中的每個候選變異體的至少一個峰特性,以及基于峰特性的評估將候選變異體分類為真正變異體。

在一個實(shí)施例中,可以提供一種非暫時性計算機(jī)可讀存儲媒體,其編碼有處理器可執(zhí)行的指令。所述指令可以包括用于以下操作的指令:接收來自測試樣本的電泳圖序列數(shù)據(jù),識別電泳圖中的任何非主要峰,以及使用至少一個信號特征表征所識別的非主要峰。所述非暫時性計算機(jī)可讀存儲媒體可進(jìn)一步包含用于以下操作的指令:在所識別的非主要峰之間分析所述至少一個信號特征以識別候選變異體,評估所述所識別的候選變異體中的每個候選變異體的至少一個峰特性,以及基于峰特性的評估將候選變異體分類為真正變異體。

在又一實(shí)施例中,提供一種用于確定微小變異體的系統(tǒng)。所述系統(tǒng)可以包括處理器和編碼有所述處理器可執(zhí)行的指令的存儲器。所述指令可以包括用于以下操作的指令:接收來自測試樣本的電泳圖序列數(shù)據(jù),識別電泳圖中的任何非主要峰,以及使用至少一個信號特征表征所識別的非主要峰。所述指令可以進(jìn)一步包含用于以下操作的指令:在所識別的非主要峰之間分析所述至少一個信號特征以識別候選變異體,評估所述所識別的候選變異體中的每個候選變異體的至少一個峰特性,以及基于峰特性的評估將候選變異體分類為真正變異體。

附圖說明

圖1示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于執(zhí)行檢測微小變異體的方法的計算系統(tǒng)。

圖2示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于執(zhí)行檢測微小變異體的方法的分布式系統(tǒng)。

圖3示出根據(jù)本傳授內(nèi)容的實(shí)施例的通過分離片段可能得到的電泳跡線。

圖4a-圖4b示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于確定微小變異體的工作流。

圖5a-圖5c示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于確定微小變異體的另一工作流。

圖6示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于確定微小變異體的另一工作流。

圖7a示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于噪聲控制和抑制的工作流。圖7b和圖7c示出在應(yīng)用噪聲控制和抑制之后測試樣本、參考樣本和測試樣本的電泳圖數(shù)據(jù)。

圖8示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于生成數(shù)字參考樣本的工作流。

圖9a和圖9c示出根據(jù)本傳授內(nèi)容的實(shí)施例的用于生成數(shù)字參考樣本的另一工作流。圖9b示出支持性測序數(shù)據(jù)。

具體實(shí)施方式

為了提供對本發(fā)明的更透徹理解,以下描述闡述許多特定細(xì)節(jié),例如特定配置、參數(shù)、實(shí)例等。然而,應(yīng)認(rèn)識到,此類描述不意圖作為對本發(fā)明的范圍的限制,而是意圖提供對實(shí)施例的更好描述。

所屬領(lǐng)域的技術(shù)人員將認(rèn)識到,各種實(shí)施例的操作可以按需要使用硬件、軟件、固件或使用其組合來實(shí)施。舉例來說,可以在軟件、固件或硬連線邏輯的控制下使用處理器或其它數(shù)字電路執(zhí)行一些處理。(本文中的術(shù)語“邏輯”是指如所屬領(lǐng)域的技術(shù)人員所熟知的用以執(zhí)行所闡述功能的固定硬件、可編程邏輯和/或其適當(dāng)組合。)軟件和固件可以存儲在非暫時性計算機(jī)可讀媒體上。如所屬領(lǐng)域的技術(shù)人員所熟知,可以使用模擬電路來實(shí)施一些其它處理。另外,在本發(fā)明的實(shí)施例中可以采用存儲器或其它存儲裝置以及通信組件。

圖1是示出根據(jù)各種實(shí)施例的可用于執(zhí)行處理功能的計算機(jī)系統(tǒng)1300的框圖。執(zhí)行實(shí)驗的儀器可以連接到計算系統(tǒng)1300。計算系統(tǒng)1300可以包括一或多個處理器,如處理器1304。處理器1304可以使用通用或?qū)S锰幚硪?如微處理器、控制器或其它控制邏輯)實(shí)施。在此實(shí)例中,處理器1304連接到總線1302或其它通信媒體上。

此外,應(yīng)了解,圖1的計算系統(tǒng)1300可以用多種形式中的任何形式具體實(shí)施,例如機(jī)架安裝式計算機(jī)、大型主機(jī)、超級計算機(jī)、服務(wù)器、客戶端、臺式計算機(jī)、手提電腦、平板電腦、手持式計算裝置(例如pda、蜂窩電話、智能手機(jī)、掌上電腦等)、群集網(wǎng)格(clustergrid)、上網(wǎng)本、嵌入系統(tǒng)或任何其它類型的可能適合于或適用于給定應(yīng)用或環(huán)境的專用或通用計算裝置。另外,計算系統(tǒng)1300可包括常規(guī)網(wǎng)絡(luò)系統(tǒng),包括客戶端/服務(wù)器環(huán)境和一或多個數(shù)據(jù)庫服務(wù)器,或與lis/lims基礎(chǔ)設(shè)施整合。包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)且包括無線和/或有線組件的多種常規(guī)網(wǎng)絡(luò)系統(tǒng)是所屬領(lǐng)域中已知的。另外,客戶端/服務(wù)器環(huán)境、數(shù)據(jù)庫服務(wù)器和網(wǎng)絡(luò)在本領(lǐng)域中是有據(jù)可查的。根據(jù)本文中描述的各種實(shí)施例,計算系統(tǒng)1300可經(jīng)配置以連接到分布式網(wǎng)絡(luò)中的一或多個服務(wù)器。計算系統(tǒng)1300可以從分布式網(wǎng)絡(luò)接收信息或更新。計算系統(tǒng)1300還可以傳輸有待存儲在分布式網(wǎng)絡(luò)內(nèi)的信息,這些信息可以被連接到分布式網(wǎng)絡(luò)的其它客戶端訪問。

計算系統(tǒng)1300可以包含總線1302或用于傳送信息的其它通信機(jī)構(gòu)、以及與總線1302耦接用于處理信息的處理器1304。

計算系統(tǒng)1300還包括存儲器1306,它可以是隨機(jī)存取存儲器(ram)或其它動態(tài)存儲器,所述存儲器與總線1302耦接以便存儲有待通過處理器1304執(zhí)行的指令。存儲器1306還可以用于在執(zhí)行有待由處理器1304執(zhí)行的指令期間存儲臨時變量或其它中間信息。計算系統(tǒng)1300進(jìn)一步包括耦接到總線1302以用于存儲用于處理器1304的靜態(tài)信息和指令的只讀存儲器(rom)1308或其它靜態(tài)存儲裝置。

計算系統(tǒng)1300還可包括存儲裝置1310,如磁盤、光盤,或者固態(tài)驅(qū)動器(ssd)被提供且耦接到總線1302以便存儲信息和指令。存儲裝置1310可以包括媒體驅(qū)動器和可移除的存儲接口。媒體驅(qū)動器可以包括用以支持固定的或可移除的存儲媒體的驅(qū)動器或其它機(jī)構(gòu),如硬盤驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、光盤驅(qū)動器、cd或dvd驅(qū)動器(r或rw)、閃存驅(qū)動器或其它可移除的或固定的媒體驅(qū)動器。如這些實(shí)例所示出,存儲媒體可以包含計算機(jī)可讀存儲媒體,其中存儲了特定計算機(jī)軟件、指令或數(shù)據(jù)。

在替代實(shí)施例中,存儲裝置1310可以包含用于允許計算機(jī)程序或其它指令或數(shù)據(jù)加載到計算系統(tǒng)1300上的其它類似工具。此類工具可以包含例如可移動存儲單元和接口(例如,程序盒帶和盒帶接口)、可移除存儲器(例如,閃存存儲器或其它可移除存儲器模塊)和存儲器槽、以及允許軟件和數(shù)據(jù)從存儲裝置1310傳遞至計算系統(tǒng)1300的其它可移除存儲單元和接口。

計算系統(tǒng)1300還可以包含通信接口1318。通信接口1318可用于允許在計算系統(tǒng)1300與外部裝置之間傳遞軟件和數(shù)據(jù)。通信接口1318的實(shí)例可以包括調(diào)制解調(diào)器、網(wǎng)絡(luò)接口(如以太網(wǎng)(ethernet)或其它nic卡)、通信端口(如例如usb端口、rs-232c串行端口)、pcmcia插槽和卡、藍(lán)牙等。經(jīng)由通信接口1318傳遞的軟件和數(shù)據(jù)采用信號的形式,這些信號可以是能夠通過通信接口1318接收的電子、電磁、光學(xué)或其它信號。這些信號可以經(jīng)由信道通過通信接口1318傳輸和接收,所述信道如無線媒體、電線或電纜、光纖、或其它通信媒體。信道的一些實(shí)例包含電話線、蜂窩電話鏈路、rf鏈路、網(wǎng)絡(luò)接口、局域網(wǎng)或廣域網(wǎng)以及其它通信信道。

計算系統(tǒng)1300可以經(jīng)由總線1302耦接到顯示器1312,如陰極射線管(crt)或液晶顯示器(lcd),以用于向計算機(jī)用戶顯示信息。包括字母數(shù)字和其它按鍵的輸入裝置1314耦接到總線1302以用于例如將信息和命令選擇傳送到處理器1304。輸入裝置還可以是配置有觸摸屏輸入功能的顯示器,例如lcd顯示器。另一類型的用戶輸入裝置是用于將方向信息和命令選擇傳送到處理器1304且用于控制顯示器1312上的光標(biāo)移動的光標(biāo)控制件1316,如,鼠標(biāo)、軌跡球或光標(biāo)方向鍵。這個輸入裝置通常具有在兩個軸線(第一軸線(例如,x)和第二軸線(例如,y))上的兩個自由度,其允許所述裝置指定在平面中的位置。計算系統(tǒng)1300提供數(shù)據(jù)處理并且提供此類數(shù)據(jù)的置信級。根據(jù)本傳授內(nèi)容的實(shí)施例的某些實(shí)施方案,計算系統(tǒng)1300響應(yīng)于處理器1304執(zhí)行存儲器1306中包含的一或多個指令的一或多個序列而提供數(shù)據(jù)處理和置信度值。此類指令可以從另一計算機(jī)可讀媒體(例如存儲裝置1310)讀取到存儲器1306中。存儲器1306中包含的指令序列的執(zhí)行使得處理器1304執(zhí)行本文所描述的處理狀態(tài)?;蛘?,可以使用硬連線電路代替或結(jié)合軟件指令來實(shí)施本傳授內(nèi)容的實(shí)施例。因此,本傳授內(nèi)容的實(shí)施例的實(shí)施方案不限于硬件電路和軟件的任何特定組合。

如本文所使用的術(shù)語“計算機(jī)可讀媒體”和“計算機(jī)程序產(chǎn)品”一般是指與向處理器1304提供用于執(zhí)行的一或多個序列或一或多個指令有關(guān)的任何媒體。這些指令,一般稱為“計算機(jī)程序代碼”(其可以用計算機(jī)程序或其它分組的形式來分組),在被執(zhí)行時,使得計算系統(tǒng)1300能夠執(zhí)行本發(fā)明的實(shí)施例的特征或功能。這些和其它形式的非暫時性計算機(jī)可讀媒體可以采用許多形式,包括但不限于非易失性媒體、易失性媒體以及傳輸媒體。非易失性媒體包括例如固態(tài)盤、光盤或磁盤,如存儲裝置1310。易失性媒體包括動態(tài)存儲器,如存儲器1306。傳輸媒體包括同軸電纜、銅線和光纖,包括包含總線1302的電線。

計算機(jī)可讀媒體的常見形式包括(例如)軟盤、軟磁盤、硬盤、磁帶、或任何其它磁性媒體、cd-rom、任何其它光學(xué)媒體、穿孔卡片、紙帶、具有孔洞圖案的任何其它物理媒體、ram、prom和eprom、閃存eeprom、任何其它存儲器芯片或盒帶、如下文所描述的載波、或計算機(jī)可以從中進(jìn)行讀取的任何其它媒體。

各種形式的計算機(jī)可讀媒體可以參與將一或多個指令的一或多個序列載送到處理器1304以便執(zhí)行。舉例來說,指令可以首先承載在遠(yuǎn)程計算機(jī)的磁盤上。遠(yuǎn)程計算機(jī)可以將指令加載到其動態(tài)存儲器中,并使用調(diào)制解調(diào)器經(jīng)由電話線發(fā)送指令。計算系統(tǒng)1300本地的調(diào)制解調(diào)器可以接收電話線上的數(shù)據(jù)并使用紅外發(fā)射器將數(shù)據(jù)轉(zhuǎn)換成紅外信號。耦接到總線1302的紅外檢測器可接收紅外信號中所載送的數(shù)據(jù)且將數(shù)據(jù)置放于總線1302上??偩€1302將數(shù)據(jù)載送到存儲器1306,處理器1304從所述存儲器檢索并執(zhí)行指令。由存儲器1306接收的指令可任選地在通過處理器1304執(zhí)行之前或之后存儲在存儲裝置1310上。

圖2中示出了典型因特網(wǎng)配置1400的一些元件,其中示出可能在遠(yuǎn)程本地辦事處的多個客戶端機(jī)器1402連接到網(wǎng)關(guān)/集線器/隧道服務(wù)器/等1410,網(wǎng)關(guān)/集線器/隧道服務(wù)器/等1410本身經(jīng)由某個因特網(wǎng)服務(wù)提供方(isp)連接1410而連接到因特網(wǎng)1408。此外還示出經(jīng)由isp連接1414類似地連接到因特網(wǎng)1408的其它可能的客戶端1412,這些單元例如經(jīng)由連接到網(wǎng)關(guān)/隧道服務(wù)器1418的isp連接1416傳達(dá)到可能的辦事處或重要實(shí)驗室,所述網(wǎng)關(guān)/隧道服務(wù)器連接1420到各個企業(yè)應(yīng)用服務(wù)器1422,所述應(yīng)用服務(wù)器可經(jīng)由另一集線器/路由器1426連接到各個本地客戶端1430。這些服務(wù)器1422中的任何服務(wù)器可充當(dāng)分析潛在內(nèi)容管理并傳輸如本發(fā)明中所述的設(shè)計方案的開發(fā)服務(wù)器,如下文更全面地描述。

如上所述,不同類型生物學(xué)數(shù)據(jù)可以在圖形表示顯示中呈現(xiàn),從而使得用戶可能能夠以有用的方式形象地看到數(shù)據(jù)。

盡管已經(jīng)根據(jù)某些實(shí)施例、實(shí)例和應(yīng)用描述了本發(fā)明,但所屬領(lǐng)域的技術(shù)人員將顯而易見在不脫離本發(fā)明的情況下可以對其進(jìn)行各種修改和改變。

應(yīng)了解,為清楚起見,以上描述參考不同功能單元以及處理器描述了本發(fā)明的實(shí)施例。然而,將顯而易見的是,在不偏離本發(fā)明的情況下可以使用在不同功能單元、處理器或域之間的任何適合的功能分布。舉例來說,將通過獨(dú)立的處理器或控制器執(zhí)行的圖示功能可以通過同一處理器或控制器執(zhí)行。因此,對特定功能單元的提及僅被視為提及用于提供所描述功能的適合裝置,而非指示嚴(yán)格的邏輯或物理結(jié)構(gòu)或組織。

本文中的傳授至少部分涉及生物分析裝置和系統(tǒng),包含例如用于確定dna序列的堿基判定系統(tǒng)。可以使用不同類型的生物分析裝置和系統(tǒng)來收集原始測序數(shù)據(jù)。這些生物分析裝置和系統(tǒng)可以包含例如測序儀。許多這些生物分析裝置和系統(tǒng)利用附接到dna片段的標(biāo)簽。雖然下面可能提及測序系統(tǒng),但是這些系統(tǒng)是用于實(shí)例目的,因為本文所述的實(shí)施例總體上可以應(yīng)用于生物分析裝置和系統(tǒng)。

這些dna片段由樣本形成并且根據(jù)遷移率分離。在各種生物分析裝置和系統(tǒng)中,使用平板凝膠和聚合物灌注毛細(xì)管執(zhí)行分離,并且使用電場來影響片段在這些介質(zhì)中的遷移。隨時間讀取標(biāo)簽會產(chǎn)生信號,該信號由每個通道的跡線組成,其中通道對應(yīng)于相應(yīng)的標(biāo)簽(例如染料)。在一些系統(tǒng)中,除了對應(yīng)于核苷酸的通道之外,還包含額外通道,額外通道可以產(chǎn)生信息。這個信息可以用于更好地估計間距或其它參數(shù),這些可以讓樣本分析更容易。美國專利申請10/193,776號(公開案03-0032042號)中設(shè)想了此系統(tǒng),該申請轉(zhuǎn)讓給本受讓人,并以全文引用的方式并入本文中。

毛細(xì)電泳法(ce)例如產(chǎn)生(通常4條)電泳圖測序信號跡線。信號跡線是表示不同長度的dna擴(kuò)增子片段(以dna“字母”g、a、t和c結(jié)尾)到達(dá)沿著儀表中的毛細(xì)管的測量位置的時間的代理。對于給定“到達(dá)時間”,對應(yīng)于以g、a、t和/或c結(jié)尾的擴(kuò)增子片段(g、a、t和/或c擴(kuò)增子片段)的信號跡線的振幅的形狀非常緊密地逼近高斯分布。這些信號可以例如用如下所述的四條不同跡線提供。

一個跡線實(shí)例是原始電泳圖測序信號跡線(原始ce信號或原始信號),該信號跡線可以由ce儀器生成,并且最緊密地對應(yīng)于儀表直接測量到的內(nèi)容。更長片段(即堿基數(shù)量更多)在原始ce信號中的到達(dá)時間總體上更晚。對應(yīng)于長度相同(即容納的堿基數(shù)量相同)但是結(jié)尾字母不同的擴(kuò)增子片段的信號總體上將具有不同遷移率并且在不同時間到達(dá)。

另一跡線類型是經(jīng)過頻譜校正的原始電泳圖測序信號跡線(經(jīng)過頻譜校正的原始信號),其包含針對頻譜饋通校正過的原始信號。這個電頻譜饋通之所以發(fā)生,是因為用于導(dǎo)出對應(yīng)于dna“字母”g、a、t和c的信號的濾波器總體上具有不同的峰頻段,但是具有彼此重疊的頻段。因此,一個原始信號跡線中的電信號可以被饋通成其它原始信號跡線中的信號,并且變成與其它原始信號跡線中的信號卷積。然而,對于每個濾波器的頻譜形狀的了解連同其它觀察結(jié)果,可以用于將原始跡線中的信號去卷積(頻譜校正)以產(chǎn)生經(jīng)過頻譜校正的原始信號。

另一跡線類型是經(jīng)過遷移率校正的電泳圖測序信號跡線(經(jīng)過遷移率校正的信號),該信號跡線包含針對長度相同的dna擴(kuò)增子片段(即容納的堿基數(shù)量相同)的遷移率差異而校正的經(jīng)過頻譜校正的原始信號。因此,經(jīng)過遷移率校正的信號跡線具有基于預(yù)期的遷移率差異經(jīng)過校正的對應(yīng)于長度相同的擴(kuò)增子片段的到達(dá)時間,從而使得這些信號跡線在大約相同的時間到達(dá)。

又一跡線實(shí)例是經(jīng)過分析的電泳圖測序信號跡線(經(jīng)過分析的信號),該信號跡線包含已經(jīng)重新取樣并且按需要經(jīng)過移位的經(jīng)過遷移率校正的信號,從而使得長度相差1個堿基數(shù)量的片段的到達(dá)之間的掃描點(diǎn)數(shù)量大概是恒定的。長度相差1個堿基數(shù)量的片段的到達(dá)之間的這個掃描點(diǎn)數(shù)量通常是約12-16。

圖3示出了典型測序儀的數(shù)據(jù)。這里存在四條跡線。每條跡線表示一個通道。每個通道表示不同的標(biāo)簽并且每個標(biāo)簽對應(yīng)于不同的核苷酸。這個數(shù)據(jù)是從取樣回合中間獲得的,且將被所屬領(lǐng)域的技術(shù)人員視為質(zhì)量是良好的。通過間距的規(guī)則性和峰的特異性來評定良好的質(zhì)量。堿基判定在每個峰下表現(xiàn)為字母a、c、g和t。質(zhì)量值出現(xiàn)在峰上方,條越長,表示質(zhì)量值越高。x軸上的下面一組數(shù)字表示掃描數(shù)目,上面一組表示堿基數(shù)目。x軸還可以被視為表示時間。

在一些實(shí)施例中,系統(tǒng)的基于模型的峰檢測模塊可以使用來自校準(zhǔn)模塊的信息檢測峰。在這樣做時,峰檢測模塊可以識別峰群集,其中群集可以具有一或多個峰。峰可能是相異的,或者在分辨率不佳的情況下,峰可能涂抹在一起。通過使用對信號的參數(shù)的估計,可以將峰群集解析成其組成峰。

在各種實(shí)施例中,系統(tǒng)的峰分類模塊可以對檢測到屬于樣本信號或噪聲空間的峰進(jìn)行分類。系統(tǒng)的一些實(shí)施例利用圖論法執(zhí)行分類。在形成曲線圖時,可使用例如峰特性、局部序列特性和/或全局信號特性來定義峰之間的轉(zhuǎn)移權(quán)重。

因為噪聲空間的變化或強(qiáng)度,在樣本信號空間中的主峰下出現(xiàn)的樣本信號空間中的小峰(與微小變異體相關(guān)聯(lián)的小峰)可能會被誤認(rèn)為是屬于噪聲空間。通過應(yīng)用下面?zhèn)魇趦?nèi)容的技術(shù)可以解決這個局限性??墒褂弥T如例如下面提供的序列數(shù)據(jù)的不同組合:

1)在或正向朝向或反向朝向上排序的測試樣本;這將被稱作測試樣本,單一朝向組合;

2)在正向朝向和反向朝向上排序的測試樣本;這將被稱作測試樣本,正向和反向組合;

3)正向或反向朝向上排序的測試樣本與跟測試樣本在相同朝向上排序的參考樣本組合;這將被稱作測試和參考樣本,單一朝向組合;

4)正向和反向朝向上排序的測試和參考樣本;這將被稱作測試和參考樣本,正向和反向組合。

在發(fā)現(xiàn)微小變異體時,各種組合可以提供不同水平的靈敏度和特異性。通過例如組合噪聲控制和抑制法(nss)與數(shù)據(jù)源組合(3)或(4)可以進(jìn)一步改進(jìn)靈敏度和特異性。如果使用數(shù)字參考樣本(drs)或合成數(shù)字參考樣本(sdrs)作為參考樣本的替代物,則這也可以用數(shù)據(jù)組合(1)和(2)實(shí)現(xiàn)。

因此,下面這些傳授內(nèi)容將描述用于使用上述數(shù)據(jù)組合檢測微小變異體的實(shí)施例,其中一些具有drs或sdrs取代,一些與nss組合。本文所述的實(shí)施例只是用于說明性目的,不應(yīng)當(dāng)解釋為對適用的數(shù)據(jù)組合的類型、參考樣本的取代方法、適用的噪聲控制和抑制法的類型或以上任何項的組合造成任何限制。

圖4a至圖4b示出了描繪根據(jù)本文所述的實(shí)施例的方法400的流程圖,方法400使用在單一朝向上排序的測試樣本(測試樣本,單一朝向組合)確定微小變異體??梢酝ㄟ^如圖1中所示的處理器1304實(shí)施方法400的步驟。此外,用于由處理器1304執(zhí)行方法的指令可以存儲于存儲器1306中。

參看圖4a,在步驟401中,收集來自測試樣本的電泳圖測序數(shù)據(jù)并且從測序儀向處理器1304提供電泳圖測序數(shù)據(jù)以用于根據(jù)其中描述的實(shí)施例確定微小變異體。在步驟402中,處理器1304例如使用存儲于存儲器1306中的指令確定主要序列。可以使用已知的軟件應(yīng)用程序確定主要序列,諸如例如應(yīng)用生物系統(tǒng)公司(appliedbiosystems)提供的kbtm堿基判定器測序分析軟件,這是一種能針對每個堿基和樣本文件提供精確的堿基判定和質(zhì)量值(qv)的信號處理技術(shù)。諸如appliedbiosystemstm的kbtm堿基判定器軟件之類的測序分析軟件也可以解析混合堿基(混合堿基是樣本信號空間中存在兩個或更多個峰的堿基位置;堿基位置的微小變異體與樣本信號空間中的小于主要峰的峰相關(guān)聯(lián)),其解析方法是通過檢測混合堿基位置并且使用與用于純堿基的方法相似的方法向那些位置指派iub(國際生物化學(xué)聯(lián)盟)代碼和qv。(然而,當(dāng)微小變異體的非主要峰太小時,kbtm堿基判定器檢測不到它;因此需要本文中的傳授內(nèi)容。)

返回到圖4a,在步驟403中,可以執(zhí)行質(zhì)量修整(基于qv的修整)以修整序列的低質(zhì)量數(shù)據(jù)輸出。這些修正總體上在序列的右端和左端執(zhí)行。從左起的質(zhì)量修整的一個實(shí)例是尋找qv小于10并且在這個位置往右15個堿基位置以內(nèi)所有qv大于10的堿基位置。

在圖4a的步驟404中,掃描四種染料中的每種染料(對應(yīng)于基因序列的四個可能的堿基中的每個堿基)的數(shù)據(jù)以尋找這樣的峰:在這些峰上存在例如一系列點(diǎn),對于這系列點(diǎn)存在充分高的最大值,兩邊是低于該最大值的點(diǎn)。替代方案是將尋峰限于所識別的目標(biāo)間隔,該目標(biāo)間隔對于給定的主要堿基可以在由主要堿基的寬度限定的點(diǎn)的基因座內(nèi)。

在圖4a的步驟405中,使用一或多種方法識別和表征每個非主要峰。對于每個峰,例如確定峰的最大值的位置和峰兩邊的最小值的位置。側(cè)邊最小值之間的數(shù)據(jù)可以擬合到單模態(tài)函數(shù),例如高斯函數(shù),其接著部分地用于表征峰,具體地說是表征峰的位置、高度和寬度。進(jìn)一步處理與峰相關(guān)聯(lián)的數(shù)據(jù)以計算多個信號特征。信號特征可以涉及例如使用峰特性,例如(但不限于)峰振幅、峰寬、峰位置、峰下面積、峰清晰度、峰對稱性/不對稱性、相對于單模態(tài)模型(例如,高斯函數(shù))的擬合良好度、相對于峰幅度在峰旁邊的最小值的高度、峰位置和其任何組合。可以相對于在下面找到所討論的非主要峰的主要峰、相對于所有主要峰(例如,整個序列的平均主要峰振幅)和相對于所有其它非主要峰(例如,峰高度相對于整個序列上的非主要峰的中間峰高度;實(shí)例變化使用跨染料中值或者使用染料特有的中值)應(yīng)用以上峰特性的任何和所有組合。此外,可以對以上內(nèi)容應(yīng)用任何設(shè)想的簡單函數(shù)變換,包括例如指數(shù)、對數(shù)、冪、和、乘積、三角函數(shù)或任何其它可以用于修改變化速度或強(qiáng)調(diào)信號特征的范圍的某些區(qū)域和/或使信號特征的統(tǒng)計分布標(biāo)準(zhǔn)化的函數(shù)。

圖4a的步驟406示出了上文所論述的函數(shù)變換可能涉及非線性參數(shù),這些非線性參數(shù)可以經(jīng)過優(yōu)化以使區(qū)分樣本信號空間非主要峰(微小變異體峰)與噪聲空間非主要峰的能力最大化。優(yōu)化可以通過使用例如全局優(yōu)化、局部優(yōu)化和分類驅(qū)動特征選擇技術(shù)中的一或多種技術(shù)來執(zhí)行。這些技術(shù)中的任何技術(shù)可以存儲于存儲器1306中并且經(jīng)由處理器1304實(shí)施。一些全局優(yōu)化實(shí)例包含(但不限于)基于群理論的算法、遺傳算法、模擬黏接和任何其它這樣的實(shí)例:其具有已獲確認(rèn)的有效的方式來搜索在給定類別成員資格已知的一組數(shù)據(jù)的情況下能使分類精確度最大化的參數(shù)值。對于局部優(yōu)化,對于全局優(yōu)化算法對非線性參數(shù)值的每個選擇,可以使用諸如例如線性判別函數(shù)之類的快速線性法來確定線性參數(shù)值。在分類驅(qū)動特征選擇中,對于每個判別函數(shù),例如,可以探索特征集的所有可能的組合,以找到能在高分類精確度與必需的輸入特征數(shù)量之間實(shí)現(xiàn)最佳平衡的組合。最佳參數(shù)值可以包含于存儲器1306中。

現(xiàn)在參看圖4b,圖4b繼續(xù)圖4a中介紹的工作流,在步驟410中,測序儀經(jīng)由處理器1304使用可能存儲于存儲器1306中的指令,在統(tǒng)計上分析非主要峰的一或多個信號特征以識別離群值。這些離群值變成候選微小變異體峰。

在圖4b的步驟412中,測序儀經(jīng)由處理器1304使用可能存儲于存儲器1306中的指令,通過分類程序評估每個候選微小變異體峰,以決定候選峰是否為真正(bonafide)微小變異體峰;步驟413表示這個最后決策。步驟411表示創(chuàng)建在步驟412中用于評估每個候選微小變異體峰的分類程序的過程。分類程序可以對一或多個信號特征執(zhí)行操作。可以應(yīng)用任何合適的可以執(zhí)行二元決策的分類程序。二元分類器的幾個實(shí)例包含(但不限于)判別函數(shù)、人工神經(jīng)網(wǎng)絡(luò)和對數(shù)決策樹,以及任何其它具有已獲確認(rèn)的方法以使用類別成員資格已知的數(shù)據(jù)生成分類函數(shù)的實(shí)例。在步驟412中應(yīng)用分類器程序之前,可以設(shè)置每個個別的信號特征以對如下情況進(jìn)行分類:在該情況下,僅僅基于信號特征可以將候選微小變異體峰判定為真正微小變異體峰或非變異體峰。額外分類步驟的此實(shí)例可以被稱作單變量明確分類程序(single-variateclearcutclassificationprocedure,svccc)。所述分類程序的參數(shù)值可以包含于存儲器1306中并且通過處理器1304執(zhí)行。

在圖4a-圖4b中描述的實(shí)施例的替代實(shí)施例中,圖5a-圖5c示出了修改圖4a-圖4b中描述的方法400的流程圖。圖5a-圖5c描繪了方法500,用于使用在兩個朝向即正向朝向和反向朝向上排序的測試樣本(測試樣本,正向與反向組合)確定微小變異體。經(jīng)過這些修改,可以通過如圖1中所示的處理器1304實(shí)施方法500的步驟。此外,用于由處理器1304執(zhí)行方法的指令可以存儲于存儲器1306中。

在這個實(shí)施例中,通過如上所述并且如圖4a和圖4b中示出的步驟處理每個序列朝向。

如下所述并且如圖5a所示修改圖4a的步驟405。除了上文在方法400中的步驟405(對于測試樣本,單一朝向組合)中說明的信號特征之外,在如圖5a的步驟504中所示在兩個朝向之間對準(zhǔn)主要堿基序列(見步驟501、502和503)之后可以使用跨朝向特征。例如,在如圖5a的步驟503中所示在反向補(bǔ)充反向序列之后,可以將正向樣本的每個主要堿基與反向樣本中的同一個主要堿基匹配。為了執(zhí)行反向補(bǔ)充,必須顛倒序列順序并且用每個堿基的互補(bǔ)物更換該堿基,互補(bǔ)對是a/t和g/c??梢栽谡虺蚺c反向朝向之間比較上文在方法400的步驟405下說明的任何信號特征,諸如例如通過獲取特征值之間的比率或者最大值或最小值除以跨越這兩個朝向的最大值。這些跨朝向信號特征可以通過任何簡單的函數(shù)變換來變換,諸如例如(但不限于)指數(shù)、對數(shù)、冪、和、乘積、三角函數(shù)以及任何其它設(shè)想的可以用于修改變化速度或強(qiáng)調(diào)信號特征范圍的某些區(qū)域和/或使信號特征的統(tǒng)計分布標(biāo)準(zhǔn)化的函數(shù)。

如下所述并且如圖5b所示修改圖4b的步驟410。除了使用統(tǒng)計分析尋找在方法400下說明的離群值之外,步驟511和512還示出了決策點(diǎn),在決策點(diǎn),當(dāng)一個非主要峰通過相反朝向上的互補(bǔ)非主要峰得到確認(rèn)時,測序儀使用處理器1304將該非主要峰評估和考慮為候選微小變異體峰。例如,與正向朝向上的g堿基相關(guān)聯(lián)的非主要峰將具有與反向朝向上的對應(yīng)堿基位置處的c堿基相關(guān)聯(lián)的非主要峰,其將被視為候選微小變異體峰。

如下所述并且如圖5c所示修改圖4b的步驟411。不使用步驟412的單分類函數(shù)或者在方法400的步驟412下說明的先svccc程序然后單分類函數(shù),圖5c中示出了圖4b的步驟412中說明的方法的替代方案。在這個實(shí)施例中,修改步驟411的分類程序,使其包括svccc程序(圖5c的步驟520),然后是初始分類器,即步驟521的分類器xo,它可以是基于跨朝向信號特征,其做出峰是否為真正微小變異體峰的初始決策,然后是兩個分類器,即作為步驟523和524示出的xvar和xnvar,它們可以超控xo分類器的決策。除了步驟520和521中示出的單一朝向信號特征和跨朝向信號特征之外,分類器xvar和xnvar還可以接受一些信號特征,即so輸出信號特征,該信號特征可以從分類器基于單一朝向信號特征導(dǎo)出(見步驟522的so分類器)。so輸出信號特征可包含(但不限于):基于so分類器的輸出的經(jīng)驗統(tǒng)計分布模型或者諸如對于兩個類別中的每個類別假設(shè)so輸出是正態(tài)分布的參數(shù)化模型的微小變異體峰與非變異體峰之間的概率密度比率;正向朝向so輸出和反向朝向so輸出的總和;以及正向朝向so輸出和反向朝向so輸出的最大值或最小值。此外,可以通過任何的簡單函數(shù)變換對so輸出信號特征進(jìn)行變換,例如指數(shù)、對數(shù)、冪、和、乘積、三角函數(shù),和任何其它可以用于修改變化速度或強(qiáng)調(diào)信號特征的范圍的某些區(qū)域和/或使信號特征的統(tǒng)計分布標(biāo)準(zhǔn)化的函數(shù)。定義圖5c的替代分類程序的參數(shù)值可以包含于存儲器1306中并且通過處理器1304執(zhí)行。

在圖4a-圖4b中說明的實(shí)施例的另一個替代性實(shí)施例中,圖6示出了修改圖4a-圖4b中說明的方法400的流程圖。圖6示出方法600,用于使用相同朝向上排序的測試樣本和參考樣本(測試和參考樣本,單一朝向組合)確定微小變異體。經(jīng)過這些修改,可以通過如圖1所示的處理器1304實(shí)施方法600的步驟。此外,用于由處理器1304執(zhí)行方法的指令可以存儲于存儲器1306中。

在這個實(shí)施例中,通過上文說明并且在圖4a和圖4b中示出的步驟處理兩個樣本(測試和參考)中的每個樣本。

對于下文說明并且在圖6中示出的方法600修改圖4a的步驟405。除了上文在方法400中的步驟405中說明的信號特征(對于測試樣本,單一朝向組合)之外,在如圖6的步驟603中所示在樣本之間對準(zhǔn)主要堿基序列(見步驟601及602)之后,還可以如步驟604中所示使用跨樣本特征。例如,盡可能將測試樣本的每個主要堿基與參考樣本中的相同主要堿基匹配??梢栽跍y試樣本與參考樣本之間比較任何上述信號特征,諸如例如(但不限于)獲取特征值之間的比率或特征值之間的差值。這些跨樣本信號特征可以通過任何簡單的函數(shù)變換來變換,諸如例如(但不限于)指數(shù)、對數(shù)、冪、和、乘積、三角函數(shù)以及任何其它設(shè)想的可以用于修改變化速度或強(qiáng)調(diào)信號特征范圍的某些區(qū)域和/或使信號特征的統(tǒng)計分布標(biāo)準(zhǔn)化的函數(shù)。

如上文所述,圖4b的步驟410提出可以在統(tǒng)計上分析非主要峰的信號特征中的一或多信號特征以識別離群值。這些離群值接著變成候選微小變異體峰。對于示例性方法600,這些信號特征包含僅僅從測試樣本導(dǎo)出的信號特征以及將測試樣本與參考樣本比較的那些信號特征。不使用僅僅從參考樣本導(dǎo)出的信號特征來識別離群值。

在圖4a-圖4b中所述的實(shí)施例的另一個替代性實(shí)施例中,可以修改方法400以提供一種用于在兩個朝向(正向朝向和反向朝向)上排序的測試樣本和參考樣本(測試與參考樣本,正向與反向組合)確定微小變異體的方法??梢酝ㄟ^如圖1中所示的處理器1304實(shí)施對于方法400的修改以提供本文所述的測試與參考樣本、正向與反向組合方法。此外,用于由處理器1304執(zhí)行方法的指令可以存儲于存儲器1306中。

對于正向和反向序列經(jīng)過分析的測試和參考樣本,通過將方法400與上文所述并且在圖4a到圖4b、圖5a到圖5c和圖6中示出的方法500和600中說明的修改合并,借此實(shí)施測試與參考樣本、正向與反向組合方法。用這些順序應(yīng)用以上步驟,結(jié)果是檢查數(shù)據(jù)以僅僅在所有四個數(shù)據(jù)源(即,測試正向、測試反向、參考正向、參考反向)之間的共同交叉點(diǎn)內(nèi)尋找微小變異體。

圖7a是描繪用于改善微小變異體確定的靈敏度和特異性的方法700的流程圖??梢酝ㄟ^如圖1中所示的處理器1304實(shí)施方法700的步驟。此外,用于由處理器1304執(zhí)行方法的指令可以存儲于存儲器1306中。雖然改善靈敏度和特異性是任何微小變異體確定方法需要的一個特征,但是向上文所論述的微小變異體確定方法應(yīng)用方法700,其中或者在相同的方向上、或者在正向方向和反向方向上將測試樣本和參考樣本排序。

在分析非主要峰以檢測和報告微小變異體之前,可使用參考樣本使測試樣本中的噪聲最小化。例如已經(jīng)通過ce測序儀的主要數(shù)據(jù)分析軟件(諸如例如kbtm堿基判定器)分析的毛細(xì)電泳法桑格測序信號的潛在噪聲的主要分量表現(xiàn)為是通過主要堿基序列和用于將基因材料排序的系統(tǒng)的配置確定的。例如,如果兩個獨(dú)立樣本共用相同的主要序列,則觀察到這兩個樣本之間的潛在噪聲是非常相似的。圖7b示出了這樣的情形。圖7b中所示的面板示出了參考樣本和測試樣本的電泳圖的底部200基礎(chǔ)相對熒光單位(rfu)數(shù)據(jù)。通過比較上部面板與下部面板,顯然這些信號看起來是相似的(注意這些樣本在1000rfu附近的主要峰)。此外,噪聲控制和抑制法(nss),即下文論述的方法700,不需要理解主要序列、測序系統(tǒng)配置和工作噪聲之間的關(guān)系的細(xì)節(jié)。

在一個實(shí)施例中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令處理測試樣本的電泳圖,通過構(gòu)建來自參考樣本的電泳圖的噪聲模型并從測試樣本的電泳圖中減去該模型,借此使電泳圖中的噪聲最小化。測序儀可以接著如圖4到圖6中所示并且如上所述,檢查降噪后的電泳圖的非主要峰以尋找與微小變異體相關(guān)聯(lián)的峰。

在圖7a的步驟701及702中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令來獲取經(jīng)過圖4a的步驟404處理的測試和參考樣本序列數(shù)據(jù),以進(jìn)一步執(zhí)行處理。

在步驟703中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令,通過下面的方式從測試和參考電泳圖中移除主要序列信號:在每個主要堿基位置,在主要峰旁邊的最小值之間將對應(yīng)于主要序列堿基的染料的值設(shè)置成零。這個操作使得兩個電泳圖,即測試和參考樣本電泳圖,只包括非主要數(shù)據(jù)。

在步驟704和705中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令采取步驟使測試非主要數(shù)據(jù)與參考非主要數(shù)據(jù)之間的匹配最大化,這例如是使用每個主要堿基的基因座內(nèi)的內(nèi)插以匹配寬度和比例以及偏移優(yōu)化,以便使測試非主要數(shù)據(jù)與參考非主要數(shù)據(jù)之間的相關(guān)度最大化(使這兩個數(shù)據(jù)之間的差異最小化)。比例和偏移因素可以受到限制,以防對測試非主要數(shù)據(jù)與參考非主要數(shù)據(jù)之間的真正差異造成破壞。這個操作可以被稱為限界相關(guān)度最大化變換,其施加染料特有的范圍受到限制的比例和偏移調(diào)節(jié),以在中心位于所關(guān)注的主要堿基位置上的多個主要基因座之間匹配參考非主要信號與測試非主要信號。結(jié)果是參考電泳圖的潛在非主要信號的噪聲模型,其已經(jīng)經(jīng)過調(diào)整與測試電泳圖的潛在非主要信號的噪聲模型匹配。

在步驟706中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令從測試電泳圖中減去噪聲模型。這個過程可能在數(shù)據(jù)中留下信號假影;例如,以極端的銳度或針頭樣外觀為特征的峰。非主要染料數(shù)據(jù)可以不是零,但是可以不包括主要堿基的軌跡內(nèi)的任何峰。在步驟707中,測序儀可以通過抑制非主要染料,例如通過在適當(dāng)范圍內(nèi)將染料值設(shè)置成零,借此解決這兩種情形。圖7c示出了方法700應(yīng)用于圖7b中的實(shí)例的結(jié)果。具體來說,圖7c示出了對于10%微小變異體測試樣本上的正向跡線在施加nss之前和之后的噪聲電平。對照中的噪聲與罕見變異體樣本非常相似,通過使噪聲最小化,可以例如將整體噪聲電平減少三倍到四倍。

在圖7a的步驟708中,現(xiàn)在經(jīng)過nss修改的測試數(shù)據(jù)被重新評定以檢測和表征非主要峰。此時,不再需要參考數(shù)據(jù),并且向經(jīng)過nss修改的測試數(shù)據(jù)應(yīng)用后續(xù)處理。對于方法600(測試和參考樣本,單一朝向組合),方法700進(jìn)行的修改此時完成,并且將方法600的其余步驟應(yīng)用于經(jīng)過修改的測試數(shù)據(jù)。對于上文所論述的測試和參考樣本、正向和反向組合方法,向正向和反向朝向數(shù)據(jù)應(yīng)用方法700進(jìn)行的修改,使正向和反向朝向的經(jīng)過修改的測試數(shù)據(jù)移動通過測試和參考樣本、正向和反向組合方法的其余步驟。

在上文說明并且上文通過圖7a-圖7c示出的實(shí)施例中,示出了將nss應(yīng)用于分析測試和參考樣本的實(shí)施例。在圖8所示的又一實(shí)施例中,可以修改方法700使其適用于上文說明并且通過圖4a-圖4b和圖5a-圖5c所示的方法400和500,這些方法中未考慮參考樣本。首先,圖7a的步驟702沒有參考樣本就不能應(yīng)用。接下來,如圖8的方法800提出的,并且如下所述,可以使用數(shù)字參考樣本代替參考樣本,其中數(shù)字參考樣本例如是由先前經(jīng)過處理的與測試樣本具有相同的主要序列的樣本建構(gòu)的,或者是由來自相同序列處理回合的一系列測試樣本建構(gòu)的(此時所述回合的所有測試樣本查詢基因體的相同區(qū)域(并且因此共用相同的主要序列))。用于由處理器1304執(zhí)行方法800的指令可以存儲于存儲器1306中。

圖8示出了數(shù)字參考構(gòu)造過程,該過程按照步驟801中提出的方案,使用與有待分析的測試樣本具有相同主要序列的經(jīng)過排序的數(shù)據(jù)的數(shù)據(jù)庫,或者由來自共用相同主要序列的相同序列處理回合的測試樣本序列數(shù)據(jù)組成的數(shù)據(jù)庫。

在圖8的步驟802中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令確保每個主要堿基所跨越的寬度在數(shù)據(jù)庫中的所有樣本之間匹配??梢酝ㄟ^使用例如內(nèi)插函數(shù)(諸如例如三次樣條)來執(zhí)行這個過程。

在圖8的步驟803中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令生成平均電泳圖,其中不在數(shù)據(jù)庫中的樣本之間統(tǒng)計上相關(guān)的噪聲可以減少n平方根倍,其中n是數(shù)據(jù)庫中的樣本的數(shù)量。在數(shù)據(jù)庫中使用測試樣本的情況下,基本假設(shè)是微小變異體的位置在測試樣本之間是不同的;在這種情況下,求平均值過程可能嚴(yán)重減弱它們對于最終信號平均的貢獻(xiàn)。求平均值過程能得到與主要序列相關(guān)的電泳圖中的噪聲的更干凈的估計。存儲在步驟803中產(chǎn)生的平均電泳圖以用于步驟806中,用作圖7a的步驟中702的參考樣本的替代物。

步驟804和805提供一些統(tǒng)計數(shù)據(jù),這些統(tǒng)計數(shù)據(jù)可以幫助后續(xù)處理區(qū)分與微小變異體相關(guān)聯(lián)的非主要峰和不與微小變異體相關(guān)聯(lián)的非主要峰。例如,在使用數(shù)字參考的nss之后,如果其余非主要峰上升到零基線值以上,高出例如不超過在步驟805中測量的兩個標(biāo)準(zhǔn)差,則該非主要峰可以被視為是噪聲。任何其余的大于例如兩個標(biāo)準(zhǔn)差的非主要峰可以被視為是候選微小變異體峰。因而,作為方法400的步驟410的補(bǔ)充或替代,可以使用步驟804和805以及步驟806中的所存儲的平均信號和統(tǒng)計結(jié)果,以定位候選微小變異體。

作為上文的方法800(它需要主要序列與有待使用數(shù)字參考分析的測試樣本匹配的測序結(jié)果數(shù)據(jù)庫)的替代方案,圖9a-圖9c描述了方法900,方法900可以使用不需要匹配測試樣本的主要序列的樣本數(shù)據(jù)庫生成數(shù)字參考。方法900合成來自許多短數(shù)據(jù)子序列的數(shù)字參考,該短數(shù)據(jù)子序列跨越例如7個堿基,并且與測試樣本的主要序列內(nèi)的長度相同的子序列匹配(見圖9a中的步驟901)。用于由處理器1304執(zhí)行圖9a和圖9c中描述的過程的指令可以存儲于存儲器1306中。

圖9a示出了方法900的與生成可以用于合成任何測試樣本的數(shù)字參考的一系列結(jié)果有關(guān)的部分。在圖9a的步驟902中,測序儀經(jīng)由處理器1304使用可以存儲于存儲器1306中的指令,來定位與主要堿基的鄰域匹配的長度為m個堿基的子序列(m子序列)的所有存在;在數(shù)據(jù)庫內(nèi)定位4m個唯一子序列,因為所有長度為m個堿基的可能的子序列必須被覆蓋,以使得能夠合成數(shù)字參考以與任何測試樣本匹配。使用該實(shí)例,必須在數(shù)據(jù)庫中找到m=6,4096個唯一子序列,并且理想地找到這些子序列的許多復(fù)本(見步驟901)。這些堿基中的一個堿基,即關(guān)鍵主要堿基,是每個子序列內(nèi)的這樣一個位置(例如從最左邊的堿基起的第四堿基),從該位置應(yīng)用結(jié)果以合成數(shù)字參考。因此,數(shù)字參考中的有待合成的每個主要位置總體上具有稍微不同的子序列。

圖9b示出了支持方法900的測序數(shù)據(jù)。示出了用于兩個唯一6堿基子序列中的每個子序列的三個獨(dú)立樣本。在覆蓋大概325個堿基的單一測序回合內(nèi)找到了每個子序列的三個存在??梢杂^察到,從左起的第四個堿基(關(guān)鍵主要堿基)的信號在三個獨(dú)立樣本之間是非常相似的。在這些結(jié)果中,看起來關(guān)鍵主要堿基可以被認(rèn)為是6堿基子序列內(nèi)的第4堿基或第5堿基。

用于合成數(shù)字參考的最終結(jié)果是在數(shù)據(jù)庫中找到的在關(guān)鍵主要堿基位置上具有相同堿基值的m子序列的所有復(fù)本的平均值。步驟903到906的操作類似于上述圖8的步驟802到805,區(qū)別是在方法900中,步驟903到906被應(yīng)用于許多短數(shù)據(jù)子序列,并且每個子序列總體上對合成處理貢獻(xiàn)了結(jié)果的單一主要堿基。因此,步驟907是由大量子序列結(jié)果組成的數(shù)據(jù)庫,其中每個子序列結(jié)果用于子序列中的單一堿基,即關(guān)鍵主要堿基。

圖9c示出了方法900的與合成特定測試樣本的數(shù)字參考有關(guān)的部分。在步驟911中,測序儀經(jīng)由處理器1304使用存儲于存儲器1306中的指令,來搜索m子序列的數(shù)據(jù)庫以便為測試樣本的每個主要堿基尋找匹配的m子序列。在步驟912中,測序儀提取關(guān)鍵主要堿基的結(jié)果,并且在步驟913中將測試樣本的每個堿基位置的關(guān)鍵主要堿基信號片段合并在一起,以形成完整的數(shù)字參考電泳圖,該數(shù)字參考電泳圖與測試樣本的主要序列匹配。這個數(shù)字參考可以在圖7a的步驟702中用作參考樣本的替代物。可以如針對方法800(步驟804和805)所述使用概況統(tǒng)計數(shù)據(jù)。

上文已描述本發(fā)明的各種實(shí)施例。應(yīng)了解,這些實(shí)施例僅借助于實(shí)例呈現(xiàn),且不加限制。相關(guān)領(lǐng)域的技術(shù)人員應(yīng)了解,可在不脫離如權(quán)利要求書中所定義的本發(fā)明的精神和范圍的情況下在上述實(shí)施例的形式和細(xì)節(jié)方面作出各種變化。因此,本發(fā)明的廣度和范圍不應(yīng)受到上述示例性實(shí)施例中任一實(shí)施例限制,而應(yīng)僅根據(jù)所附權(quán)利要求書及其等效物界定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
远安县| 保亭| 萨迦县| 渭南市| 汉川市| 阿克苏市| 彰化县| 阳谷县| 锦屏县| 洛川县| 汕头市| 松江区| 恩平市| 正阳县| 沙田区| 通辽市| 肥东县| 博湖县| 临西县| 朔州市| 阿城市| 南安市| 南丰县| 修武县| 远安县| 克什克腾旗| 三原县| 怀集县| 沙雅县| 洞口县| 许昌县| 龙山县| 昭苏县| 曲麻莱县| 广水市| 包头市| 和田市| 萍乡市| 观塘区| 鄂托克前旗| 大渡口区|