欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對核酸序列信息進(jìn)行匹配的系統(tǒng)和方法

文檔序號:6374065閱讀:390來源:國知局
專利名稱:一種對核酸序列信息進(jìn)行匹配的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理領(lǐng)域,更具體地說,涉及一種對核酸序列信息進(jìn)行匹配的系統(tǒng)和方法。
背景技術(shù)
美國科學(xué)家于1985年提出人類基因組計(jì)劃,經(jīng)過美國、英國、法蘭西共和國、德意志聯(lián)邦共和國、日本和中國科學(xué)家的共同努力,于2000年完成了人類基因組“工作框架圖”。并于2001年公布了人類基因組圖譜及初步分析結(jié)果。其研究內(nèi)容還包括創(chuàng)建計(jì)算機(jī)分析管理系統(tǒng)(也即通過計(jì)算機(jī)分析系統(tǒng)對測序的結(jié)果進(jìn)行處理,得到核酸序列信息),檢驗(yàn)相關(guān)的倫理、法律及社會(huì)問題。在人類基因組圖譜公布后,國內(nèi)外開始積極投入到各個(gè)生物種族的基因圖譜繪制的工作中。利用核酸序列信息與已有的基因組圖譜(參考序列)進(jìn)行比較,通過轉(zhuǎn)錄物組學(xué)和蛋白質(zhì)組學(xué)等相關(guān)技術(shù)對基因表達(dá)譜、基因突變等進(jìn)行匹配分析, 可獲得與疾病相關(guān)基因的信息。通過核酸序列信息與基因組圖譜進(jìn)行匹配、分析,并揭秘患病的根源,已成為生化醫(yī)療領(lǐng)域高度關(guān)注的問題,全球的基因測序技術(shù)也因此發(fā)展的如火如荼,但要準(zhǔn)確快速的從浩瀚的測序結(jié)果數(shù)據(jù)中得到基因信息,卻成了當(dāng)前基因測序技術(shù)發(fā)展的瓶頸。對核酸序列信息進(jìn)行匹配的系統(tǒng)是利用計(jì)算機(jī)對測序所得的核酸序列片段在已知的參考序列上進(jìn)行匹配,也即一一比對,根據(jù)匹配的結(jié)果進(jìn)行后續(xù)的分析。對核酸序列信息進(jìn)行匹配的方法是基于對核酸序列信息進(jìn)行匹配的系統(tǒng)對核酸序列信息進(jìn)行匹配的過程?,F(xiàn)有技術(shù)中,一種對核酸序列信息進(jìn)行匹配的方法,所述方法包括步驟:A、根據(jù)允許錯(cuò)配的個(gè)數(shù)n,將每條核酸序列片段分成至少n+1條參與匹配的短片段,得短片段的數(shù)據(jù)庫;B、根據(jù)參與匹配的短片段的長度建立并存儲(chǔ)參考序列索引,得數(shù)據(jù)庫;C、把每條核酸序列片段分段建立的短片段分別單獨(dú)在數(shù)據(jù)庫中進(jìn)行匹配,得匹配結(jié)果。因?yàn)閰⒖夹蛄兴饕堑乳L的,根據(jù)概率的原理,存在完全相同的多個(gè)參考序列索引。該技術(shù)方案中,每條參與匹配的短片段依次與參考序列索引進(jìn)行匹配,短片段需要與所有的參考序列索引分別進(jìn)行匹配(短片段需要分別與多個(gè)相同的參考序列索引進(jìn)行匹配),這將大大降低信息處理的速度。并且參考序列和核酸序列均需要進(jìn)行分段處理,這將進(jìn)一步增加了信息處理的工作量,從而進(jìn)一步降低了信息處理的速度。另外,參考序列建立的參考序列索引和核酸序列分段建立的短片段,將產(chǎn)生大量的信息,這將增加信息處理裝置的存儲(chǔ)空間。因此需要一種新的對核酸序列信息進(jìn)行匹配的系統(tǒng)和方法,能夠?qū)崿F(xiàn)核酸序列與參考序列快速匹配。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種對核酸序列信息進(jìn)行匹配的系統(tǒng)和方法,旨在解決現(xiàn)有技術(shù)核酸序列信息與參考序列進(jìn)行匹配時(shí),速度慢的問題。
為了實(shí)現(xiàn)發(fā)明目的,一種對核酸序列信息進(jìn)行匹配的系統(tǒng)包括數(shù)據(jù)庫、參考序列變化單元、標(biāo)記單元和匹配單元。所述數(shù)據(jù)庫,用于存儲(chǔ)參考序列;所述參考序列變換單元,用于對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換,得匹配參考序列;所述標(biāo)記單元,用于對數(shù)據(jù)庫中的匹配參考序列進(jìn)行間隔標(biāo)記;所述匹配單元,用于將核酸序列片段依次與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。一致性匹配包括允許錯(cuò)配和不允許錯(cuò)配的情況。在允許N個(gè)錯(cuò)配的情況下,核酸序列片段至多有N個(gè)堿基與數(shù)據(jù)庫中的匹配參考序列不一致稱為一致性匹配;在不允許錯(cuò)配的情況下,核酸序列片段與數(shù)據(jù)庫中的匹配參考序列完全一致稱為一致性匹配。N為正整數(shù)。其中,所述參考序列變換單元包括參考序列矩陣模塊和BWT矩陣模塊。所述參考序列矩陣模塊,用于對在數(shù)據(jù)庫中的參考序列末端或前端加上標(biāo)識(shí)符,并將該參考序列循環(huán)移動(dòng),得參考序列矩陣;所述BWT矩陣模塊,用于將參考序列矩陣按照字典順序排序,得BffT參考序列矩陣。所述參考序列變換單元還可包括匹配參考序列模塊,所述匹配參考序列模塊,用于獲取BWT參考序列矩陣第一列與最后一列,得匹配參考序列,并儲(chǔ)存在數(shù)據(jù)庫 中。其中,所述標(biāo)記單元,用于對數(shù)據(jù)庫中的匹配參考序列按照等差數(shù)列進(jìn)行間隔標(biāo)記。進(jìn)一步的,所述標(biāo)記單元,還用于在每個(gè)等差數(shù)列間隔中再利用等差數(shù)列對數(shù)據(jù)庫中的匹配參考序列進(jìn)行進(jìn)一步標(biāo)記。上述任一技術(shù)方案中,所述匹配單元,用于將核酸序列片段反向互補(bǔ)形成反向互補(bǔ)核酸序列片段,并將反向互補(bǔ)核酸序列片段與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。其中,所述匹配單元,利用回溯法依次在反向互補(bǔ)核酸序列片段不能匹配的位置之前的位置上進(jìn)行堿基替換,并從替換位置開始繼續(xù)在數(shù)據(jù)庫中進(jìn)行匹配。上述任一技術(shù)方案中,所述對核酸序列信息進(jìn)行匹配的系統(tǒng)還包括信息接收單元;所述信息接收單元,用于通過USB接口或光盤驅(qū)動(dòng)接口或INTERNET獲取核酸序列片段和參考序列。為了更好的實(shí)現(xiàn)本發(fā)明,本發(fā)明還包括一種對核酸序列信息進(jìn)行匹配的方法。所述方法包括步驟A、對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換,得匹配參考序列,并將匹配參考序列存儲(chǔ)在數(shù)據(jù)庫中;B、對將數(shù)據(jù)庫中的匹配參考序列進(jìn)行間隔標(biāo)記;C、將核酸序列片段依次分別與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。其中,數(shù)據(jù)庫中存儲(chǔ)有參考序列,步驟A和步驟B分別數(shù)據(jù)庫中的參考序列進(jìn)行變換。一致性匹配包括允許錯(cuò)配和不允許錯(cuò)配的情況。在允許N個(gè)錯(cuò)配的情況下,核酸序列片段至多有N個(gè)堿基與數(shù)據(jù)庫中的匹配參考序列不一致稱為一致性匹配;在不允許錯(cuò)配的情況下,核酸序列片段與數(shù)據(jù)庫中的匹配參考序列完全一致稱為一致性匹配。N為正整數(shù)。其中,所述步驟A包括:Al、對數(shù)據(jù)庫中的參考序列末端或前端加上標(biāo)識(shí)符,并將該參考序列經(jīng)過循環(huán)移動(dòng),得參考序列矩陣;A2、將參考序列矩陣按照字典順序排序,得BffT參考序列矩陣,并存儲(chǔ)在數(shù)據(jù)庫中。在步驟A2之后還可包括步驟A3、獲取BWT參考序列矩陣第一列與最后一列,得匹配參考序列,并存儲(chǔ)在數(shù)據(jù)庫中。其中,所述步驟B中,對數(shù)據(jù)庫中的匹配參考序列按照等差數(shù)列進(jìn)行間隔標(biāo)記。其中,所述步驟B中,在每個(gè)等差數(shù)列間隔中再利用等差數(shù)列對數(shù)據(jù)庫中的匹配參考序列進(jìn)行進(jìn)一步標(biāo)記。上述任一技術(shù)方案中,所述步驟C為,將核酸序列片段反向互補(bǔ)形成反向互補(bǔ)核酸序列片段,然后將反向互補(bǔ)核酸序列片段與數(shù)據(jù)庫中的匹配參考序列中進(jìn)行一致性匹配,得匹配核酸序列。其中,所述步驟C中,在允許錯(cuò)配的情況下,利用回溯法依次在反向互補(bǔ)核酸序列片段不能匹配的位置之前的位置上進(jìn)行堿基替換,并從替換位置繼續(xù)在數(shù)據(jù)庫上進(jìn)行匹配。由上可知,本發(fā)明通過核酸序列片段無需分段,直接與在數(shù)據(jù)庫中進(jìn)行匹配,同 時(shí),核酸序列片段無需與所有相同的匹配參考序列一一匹配,只需與所有相同的序列進(jìn)行一次匹配即可,從而從整體上提高了信息處理的速度;另外,數(shù)據(jù)庫中的參考序列無需建立參考序列索引,且數(shù)據(jù)庫中的匹配參考序列無需一一標(biāo)記,從而大大降低了對系統(tǒng)的存儲(chǔ)空間的要求。


圖I是本發(fā)明一個(gè)實(shí)施例中對核酸序列信息進(jìn)行匹配的系統(tǒng)的結(jié)構(gòu)示意圖。圖2是本發(fā)明另一個(gè)實(shí)施例中對核酸序列信息進(jìn)行匹配的系統(tǒng)的結(jié)構(gòu)示意圖。圖3是本發(fā)明一個(gè)實(shí)施例中參考序列變換單元的結(jié)構(gòu)示意圖。圖4是本發(fā)明另一個(gè)實(shí)施例中參考序列變換單元的結(jié)構(gòu)示意圖。圖5是本發(fā)明一個(gè)實(shí)施例中核酸序列片段進(jìn)行匹配的方法流程圖。圖6是本發(fā)明另一個(gè)實(shí)施例中對核酸序列信息進(jìn)行匹配的系統(tǒng)的結(jié)構(gòu)示意圖。圖7是本發(fā)明一個(gè)實(shí)施例中對參考序列進(jìn)行變換的方法流程圖。圖8是本發(fā)明一個(gè)實(shí)施例中對核酸序列片段進(jìn)行匹配的方法流程圖。
圖9是本發(fā)明一個(gè)實(shí)施例中對核酸序列片段進(jìn)行匹配的示意圖。
圖10是本發(fā)明一個(gè)實(shí)施例中對核酸序列片段進(jìn)行匹配的示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。為了說明本發(fā)明的技術(shù)方案的方便,以下實(shí)施例中的核酸序列片段和參考序列都只給出了較短堿基序列,其并不代表真正意義上的核酸序列片段和參考序列片段。一般核酸序列片段長度在20bp或以上,參考序列長度在2000bp或以上,當(dāng)然這只是一般的情況,也存在核酸序列片段長度在20bp以下,參考序列長度在2000bp以下的情況。本發(fā)明所述核酸序列片段一般可通過對某物種測序得到,也可通過人工合成得至IJ,也即人工序列。所述參考序列為已知的核酸序列,其用于作為匹配的模板,核酸序列片段與參考序列進(jìn)行匹配,根據(jù)匹配的情況可得到測序是否準(zhǔn)確等信息。需要說明的是,本發(fā)明中的核酸序列片段無特殊限制,可包括由A、G、C、T或A、G、C、U等堿基組成的序列片段,如ATTACGTTA、UUCCUCAAGGU 等。本發(fā)明提出第一實(shí)施例,如圖I所示,對核酸序列信息進(jìn)行匹配的系統(tǒng)包括數(shù)據(jù)庫、參考序列變換單元、標(biāo)記單元和匹配單元。以下將詳細(xì)說明。( I)數(shù)據(jù)庫I,用于存儲(chǔ)參考序列。所述數(shù)據(jù)庫中存儲(chǔ)的參考序列可為存儲(chǔ)在系統(tǒng)內(nèi)部或者是存儲(chǔ)在系統(tǒng)以外的參考序列。所述參考序列為堿基序列,也即核酸序列信息。該參考序列與核酸序列片段為同一物種的核酸序列信息,比如,核酸序列片段是對草履蟲的核酸進(jìn)行測序得到的,則對應(yīng)的參考序列就為草履蟲的核酸序列信息,也可以是人工序列所得的參考序列和核酸序列片段。對參考序列和核酸序列片段無特別限制,其中,參考序列為已知堿基序列。(2)參考序列變換單元2,用于對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換,得匹配參考序列。 所述的BWT變換是Mike Burrows依據(jù)David Wheeler提出的變換思想,完善并成功應(yīng)用于實(shí)際數(shù)據(jù)壓縮的變換方法,該變換是目前無損壓縮領(lǐng)域的研究熱點(diǎn)。BWT是一種以數(shù)據(jù)塊為操作對象的可逆的數(shù)據(jù)變換方法。所述的參考序列變化單元,對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換后,得到的匹配參考序列,數(shù)據(jù)庫中自動(dòng)存儲(chǔ)匹配參考序列。(3)標(biāo)記單元3,用于對數(shù)據(jù)庫中的匹配參考序列進(jìn)行間隔標(biāo)記。所述對數(shù)據(jù)庫中的匹配參考序列進(jìn)行間隔標(biāo)記的方式不限,可以采用等差數(shù)列,或者其他數(shù)列進(jìn)行有規(guī)律的間隔標(biāo)記。該標(biāo)記采用的數(shù)據(jù)類型可以根據(jù)需要來選擇,比如Int、Byte等數(shù)據(jù)類型。(4)匹配單元4,用于將核酸序列片段依次與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。一致性匹配包括允許錯(cuò)配和不允許錯(cuò)配的情況。在允許N個(gè)錯(cuò)配的情況下,核酸序列片段至多有N個(gè)堿基與數(shù)據(jù)庫中的匹配參考序列不一致稱為一致性匹配;在不允許錯(cuò)配的情況下,核酸序列片段與數(shù)據(jù)庫中的匹配參考序列完全一致稱為一致性匹配。N為正整數(shù)。所述核酸序列片段為存儲(chǔ)在系統(tǒng)內(nèi)部的核酸序列片段,或者存儲(chǔ)在該系統(tǒng)以外的存儲(chǔ)器上。將整條核酸序列片段直接與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配或者將整條核酸序列片段首尾同時(shí)與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配。所述的一致性匹配是指在允許有N個(gè)錯(cuò)配的情況下,整條核酸序列片段有至多N個(gè)不能與匹配參考序列匹配上,則認(rèn)為該整條核酸序列片段匹配上,得到一條匹配核酸序列片段,否則,認(rèn)為該核酸序列片段不能匹配上,舍棄該核酸序列片段。其他所有的核酸序列片段均按照此種方式在數(shù)據(jù)庫中進(jìn)行一致性匹配,然后得到匹配核酸序列。該匹配核酸序列可以以可讀形式輸出,也可以存儲(chǔ)在系統(tǒng)中。當(dāng)匹配核酸序列輸出時(shí),其輸出的信息可包括每條核酸序列片段與參考序列對應(yīng)的起始位置和終止位置,每條核酸序列片段錯(cuò)配的位置和錯(cuò)配的個(gè)數(shù)等信息。本實(shí)施例中,本實(shí)施例中所述的對核酸序列信息進(jìn)行匹配的系統(tǒng)可包括計(jì)算機(jī)和計(jì)算機(jī)上的對核酸序列信息進(jìn)行匹配的程序。在對核酸序列信息進(jìn)行匹配時(shí),首先參考序列變換單元對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換,然后標(biāo)記單元對數(shù)據(jù)庫中經(jīng)過BWT變換的參考序列進(jìn)行間隔標(biāo)記,最后匹配單元將核酸序列片段依次在數(shù)據(jù)庫中進(jìn)行一致性匹配。本實(shí)施例的技術(shù)方案中,通過整體核酸序列片段直接在數(shù)據(jù)庫中進(jìn)行一致性匹配,并且對于相同的匹配參考序列只匹配一次,從而提高了匹配的效率。同時(shí),存儲(chǔ)在數(shù)據(jù)庫中的參考序列無需進(jìn)行分段建立參考序列索引(假設(shè)參考序列索引長為K,則相鄰兩個(gè)參考序列索引中,前一個(gè)參考序列索引的后K-I個(gè)堿基和后一個(gè)參考序列索引前K-I個(gè)堿基完全相同),并且進(jìn)行間隔標(biāo)記,相對與現(xiàn)有技術(shù),大大減少了存儲(chǔ)空間?;诘谝粚?shí)施例,本發(fā)明提出第二實(shí)施例,本發(fā)明的一種對核酸序列信息進(jìn)行匹配的系統(tǒng)包括計(jì)算機(jī)和其上的對核酸序列信息進(jìn)行匹配的程序,所述的計(jì)算機(jī)上還可包括對測序儀進(jìn)行控制的程序。以下給出具體的說明,如圖2所示。計(jì)算機(jī)與多臺(tái)測序儀連接,該計(jì)算機(jī)接收測序儀所測得的測序數(shù)據(jù),并對測序數(shù)據(jù)進(jìn)行處理,得到核酸序列片段。其中,所述核酸序列片段可以市場上銷售的任意的測序儀測序所得到的測序數(shù)據(jù)經(jīng)過處理得到的核酸序列片段。優(yōu)選的,所述核酸序列片段可以是通過對Pstar系列測序儀、MiSeq系列測序儀、GS Junior/Senior測序儀和SOLID測序儀測序產(chǎn)生的測序數(shù)據(jù)進(jìn)行處理得到的核酸序列片段。更優(yōu)選的,所述核酸序列片段可以通過對Pstar系列測序儀測序產(chǎn)生的測序數(shù)據(jù)進(jìn)行處理得到的核酸序列片段。所述計(jì)算機(jī)為任意市場上銷售的具有信息處理功能 和數(shù)據(jù)存儲(chǔ)功能的信息處理裝置。需要說明的是,本發(fā)明的計(jì)算機(jī)中的核酸序列片段可以為接收測序儀的測序數(shù)據(jù),然后經(jīng)過處理得到的核酸序列片段,也可以是計(jì)算機(jī)中直接存儲(chǔ)或者計(jì)算機(jī)直接從外界接收的核酸序列片段,對核酸序列片段的來源無特殊限制。下面將對上述實(shí)施例中的參考序列變換單元做進(jìn)一步的詳細(xì)說明,如圖3所示,所述參考序列變換單元包括參考序列矩陣模塊、BffT矩陣模塊,以下將對各模塊做詳細(xì)說明。(I)參考序列矩陣模塊21,用于對數(shù)據(jù)庫中的參考序列末端或前端添加標(biāo)識(shí)符,并將該參考序列經(jīng)過循環(huán)移動(dòng),得參考序列矩陣。為了使參考序列矩陣模塊的工作原理更容易理解,以下給出一示例。參考序列一般都較長,長度一般在幾千到幾億之間,甚至更長。以下給出的示例僅僅是為了幫助理解,并不是真正意義上的參考序列。假設(shè)該參考序列為ACCACCTG,首先在參考序列的前端或末端添加標(biāo)記符,標(biāo)記符的符號無特殊限制,只是為了區(qū)分參考序列的首尾端,本示例中在末端加上$標(biāo)記符,可得到ACCACCTG$ ;然后再將參考序列循環(huán)移動(dòng),得到參考序列矩陣,具體結(jié)果如下表所示。表I
權(quán)利要求
1.一種對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述系統(tǒng)包括數(shù)據(jù)庫、參考序列變換單元、標(biāo)記單元和匹配單元; 所述數(shù)據(jù)庫,用于存儲(chǔ)參考序列; 所述參考序列變換單元,用于對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換,得匹配參考序列; 所述標(biāo)記單元,用于對數(shù)據(jù)庫中的匹配參考序列進(jìn)行間隔標(biāo)記; 所述匹配單元,用于將核酸序列片段依次與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。
2.根據(jù)權(quán)利要求I所述的對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述參考序列變換單元包括參考序列矩陣模塊和BWT矩陣模塊; 所述參考序列矩陣模塊,用于對數(shù)據(jù)庫中的參考序列末端或前端添加標(biāo)識(shí)符,并將該參考序列循環(huán)移動(dòng),得參考序列矩陣; 所述BWT矩陣模塊,用于將參考序列矩陣按照字典順序排序,得BWT參考序列矩陣。
3.根據(jù)權(quán)利要求2所述的對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述參考序列變換單元還可包括匹配參考序列模塊,用于獲取BWT參考序列矩陣第一列與最后一列,得匹配參考序列,并儲(chǔ)存在數(shù)據(jù)庫中。
4.根據(jù)權(quán)利要求I所述的對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述標(biāo)記單元,用于對數(shù)據(jù)庫中的匹配參考序列按照等差數(shù)列進(jìn)行間隔標(biāo)記。
5.根據(jù)權(quán)利要求4所述的對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述標(biāo)記單元,還用于在每個(gè)等差數(shù)列間隔中再利用等差數(shù)列對數(shù)據(jù)庫中的匹配參考序列進(jìn)行進(jìn)一步T 己 O
6.根據(jù)權(quán)利要求I至5中任一項(xiàng)所述的對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述匹配單元,用于將核酸序列片段反向互補(bǔ)形成反向互補(bǔ)核酸序列片段,并將反向互補(bǔ)核酸序列片段與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。
7.根據(jù)權(quán)利要求6所述的對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述匹配單元,利用回溯法依次在反向互補(bǔ)核酸序列片段不能匹配的位置之前的位置上進(jìn)行堿基替換,并從替換位置開始繼續(xù)在數(shù)據(jù)庫中進(jìn)行匹配。
8.根據(jù)權(quán)利要求I至5中任一項(xiàng)所述的對核酸序列信息進(jìn)行匹配的系統(tǒng),其特征在于,所述系統(tǒng)還包括信息接收單元;所述信息接收單元,用于通過USB接口或光盤驅(qū)動(dòng)接口或INTERNET獲取核酸序列片段和參考序列。
9.一種基于權(quán)利要求I所述的對核酸序列信息進(jìn)行匹配的系統(tǒng)的對核酸序列信息進(jìn)行匹配的方法,其特征在于,所述方法包括以下步驟 A、對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換,得匹配參考序列,并將匹配參考序列存儲(chǔ)在數(shù)據(jù)庫中; B、對數(shù)據(jù)庫中的匹配參考序列進(jìn)行間隔標(biāo)記; C、將核酸序列片段依次分別與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。
10.根據(jù)權(quán)利要求9所述的對核酸序列信息進(jìn)行匹配的方法,其特征在于,所述步驟A包括 Al、將數(shù)據(jù)庫中的參考序列末端或前端加上標(biāo)識(shí)符,并將該參考序列循環(huán)移動(dòng),得參考序列矩陣; A2、將參考序列矩陣按照字典順序排序,得BWT參考序列矩陣并存儲(chǔ)在數(shù)據(jù)庫中。
11.根據(jù)權(quán)利要求10所述的對核酸序列信息進(jìn)行匹配的方法,所述步驟A2之后還包括 A3、獲取BWT參考序列矩陣第一列與最后一列,并存儲(chǔ)在數(shù)據(jù)庫中。
12.根據(jù)權(quán)利要求9所述的對核酸序列信息進(jìn)行匹配的方法,其特征在于,所述步驟B為,對數(shù)據(jù)庫中的匹配參考序列按照等差數(shù)列進(jìn)行間隔標(biāo)記。
13.根據(jù)權(quán)利要求12所述的對核酸序列信息進(jìn)行匹配的方法,其特征在于,所述步驟B中,在每個(gè)等差數(shù)列間隔中再利用等差數(shù)列對數(shù)據(jù)庫中的匹配參考序列進(jìn)行進(jìn)一步標(biāo)記。
14.根據(jù)權(quán)利要求9至13中任一項(xiàng)所述的對核酸序列信息進(jìn)行匹配的方法,其特征在于,所述步驟C為,將核酸序列片段反向互補(bǔ)形成反向互補(bǔ)核酸序列片段,然后將反向互補(bǔ)核酸序列片段與數(shù)據(jù)庫中的匹配參考序列中進(jìn)行一致性匹配,得匹配核酸序列。
15.根據(jù)權(quán)利要求14所述的對核酸序列信息進(jìn)行匹配的方法,其特征在于,所述步驟C中,在允許錯(cuò)配的情況下,利用回溯法依次在反向互補(bǔ)核酸序列片段不能匹配的位置之前的位置上進(jìn)行堿基替換,并從替換位置繼續(xù)在數(shù)據(jù)庫上進(jìn)行一致性匹配。
全文摘要
本發(fā)明涉及信息處理領(lǐng)域,提供了一種對核酸序列信息進(jìn)行匹配的系統(tǒng)。所述系統(tǒng)包括數(shù)據(jù)庫、參考序列變化單元、標(biāo)記單元和匹配單元。所述數(shù)據(jù)庫,用于存儲(chǔ)參考序列;所述參考序列變換單元,用于對數(shù)據(jù)庫中的參考序列進(jìn)行BWT變換,得匹配參考序列;所述標(biāo)記單元,用于對數(shù)據(jù)庫中的匹配參考序列進(jìn)行間隔標(biāo)記;所述匹配單元,用于將核酸序列片段依次與數(shù)據(jù)庫中的匹配參考序列進(jìn)行一致性匹配,得匹配核酸序列。本發(fā)明還提供了一種對核酸序列信息進(jìn)行匹配的方法。本發(fā)明的對核酸序列信息進(jìn)行匹配的系統(tǒng)和方法能實(shí)現(xiàn)核酸序列信息與參考序列的快速匹配。
文檔編號G06F19/22GK102841988SQ20121026363
公開日2012年12月26日 申請日期2012年7月28日 優(yōu)先權(quán)日2012年7月28日
發(fā)明者盛司潼 申請人:盛司潼
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
博罗县| 江西省| 宕昌县| 承德市| 郎溪县| 双江| 南通市| 富蕴县| 霍山县| 循化| 五寨县| 新余市| 荔波县| 延吉市| 仪陇县| 桃江县| 通海县| 乐安县| 安国市| 浪卡子县| 普兰店市| 景洪市| 大同市| 迁安市| 连江县| 大洼县| 诸暨市| 栖霞市| 红安县| 尼玛县| 林口县| 保康县| 宣汉县| 温宿县| 扶绥县| 鄂温| 河曲县| 襄汾县| 凯里市| 凤翔县| 日土县|