欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法

文檔序號(hào):6401740閱讀:261來源:國(guó)知局
專利名稱:基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法
技術(shù)領(lǐng)域
本發(fā)明是一個(gè)基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法,更確切地說,是一種根據(jù)序列的統(tǒng)計(jì)特征在數(shù)據(jù)庫(kù)范圍內(nèi)搜索近似序列的方法。
背景技術(shù)
隨著人類基因組計(jì)劃(HGP)的實(shí)施和完成,模式生物(Model Organisms)基因組計(jì)劃和微生物基因組計(jì)劃(Microbial Genome Project,MGP)也在進(jìn)行。目前,結(jié)構(gòu)基因組的工作已基本完成,但是對(duì)于整個(gè)基因組的研究來說,得到序列僅僅是第一步,對(duì)這些象天書一樣的序列進(jìn)行收集、整理、檢索,分析序列及其表達(dá)蛋白質(zhì)結(jié)構(gòu)與功能的信息,找出規(guī)律,揭開生命的秘密,才是最終目的。這些工作是所謂的后基因組時(shí)代(post-genome era)的任務(wù)。生物信息學(xué)也正是因此而產(chǎn)生和發(fā)展起來的一門新興科學(xué),它在后基因組時(shí)代研究中的扮演著至關(guān)重要的角色,它的理論和研究將滲透到基因組研究的各個(gè)方面。而系統(tǒng)發(fā)生分析是整個(gè)生物學(xué)研究的基礎(chǔ),從新的分子(DNA和蛋白質(zhì))的基因組的角度,再次重新研究生物的進(jìn)化發(fā)展,將是一件非常有意義的工作,它是后基因組研究的一個(gè)重要組成部分。
所謂基因組序列的特征提取,是指運(yùn)用數(shù)學(xué)和信息科學(xué)的理論和方法,從天書一樣由A、T、C、G四種字符構(gòu)成的序列中,獲取一些體現(xiàn)其特征的具有代表性的信息。通過對(duì)這些特征量的計(jì)算分析,把數(shù)據(jù)中隱藏的生物學(xué)特征挖掘出來,從而為基因識(shí)別,對(duì)基因的調(diào)控表達(dá),蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè),以及生物系統(tǒng)發(fā)生學(xué)的研究,開辟了一條新的道路。
后基因組時(shí)代的到來,使得如今生物學(xué)的研究已經(jīng)離不開生物學(xué)數(shù)據(jù)庫(kù),生物學(xué)的研究也不再是單純地用傳統(tǒng)的實(shí)驗(yàn)方法,建立生物數(shù)據(jù)庫(kù)并且在其上開發(fā)各種分析工具進(jìn)行數(shù)據(jù)分析和挖掘,已經(jīng)成為了生物學(xué)研究的一種方式方法。
目前,國(guó)際上流行的序列數(shù)據(jù)庫(kù)搜索方法是基于序列比對(duì)的,通過序列比對(duì)搜索核酸和蛋白質(zhì)序列。對(duì)于小片段序列,這種方法可以說是比較好的,但是它不能處理長(zhǎng)序列片段,并且序列比對(duì)的方法只考慮了兩個(gè)序列在字母排列上的相似性,雖然現(xiàn)在的理論認(rèn)為,相似的序列有相似的結(jié)構(gòu),相似的功能,但是這樣分析的結(jié)果使得當(dāng)我們想要查找相似功能的序列時(shí),會(huì)遺漏那些功能上相似但序列在字母排列上卻不是很相似的序列。

發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的目的是提出一種基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法,既能夠彌補(bǔ)現(xiàn)有方法的缺陷,又能夠準(zhǔn)確有效地發(fā)現(xiàn)相似的基因組序列。
技術(shù)方案本發(fā)明的核心是提出一種全新的基于序列特征的數(shù)據(jù)庫(kù)搜索方法,把不同物種的基因組序列數(shù)據(jù)的基本信息——即序列在Genbank(基因庫(kù))數(shù)據(jù)庫(kù)的登錄號(hào)、序列所屬的物種名稱、序列所在該物種的染色體號(hào)和序列原始數(shù)據(jù),以及從統(tǒng)計(jì)學(xué)角度體現(xiàn)序列特征的包括堿基組成特性、堿基對(duì)相關(guān)性等統(tǒng)計(jì)特征值存儲(chǔ)到數(shù)據(jù)庫(kù)里;對(duì)于客戶提交的任何一個(gè)基因片段,首先根據(jù)客戶的要求計(jì)算它的一個(gè)特征值,再用程序依次計(jì)算該序列特征值與數(shù)據(jù)庫(kù)內(nèi)所有序列的相應(yīng)特征值之間的距離。如果兩條序列特征值之間的距離越短,則表明這兩條序列相似度越高,因此按照距離由小到大,排列顯示出數(shù)據(jù)庫(kù)里和用戶提交的序列最相似的一部分序列。
具體搜索方法為根據(jù)序列統(tǒng)計(jì)特征間的距離來搜索相似序列,即把不同物種的基因組序列數(shù)據(jù)的基本信息——即序列在基因庫(kù)的數(shù)據(jù)庫(kù)登錄號(hào)、序列所屬的物種名稱、序列所在該物種的染色體號(hào)和序列原始數(shù)據(jù)、以及從統(tǒng)計(jì)學(xué)角度體現(xiàn)序列特征的包括堿基組成特性、堿基對(duì)相關(guān)性統(tǒng)計(jì)特征值存儲(chǔ)到數(shù)據(jù)庫(kù)里;對(duì)于客戶提交的任何一個(gè)基因片段,首先根據(jù)客戶的要求計(jì)算它的一個(gè)特征值,再依次計(jì)算該序列的特征值與數(shù)據(jù)庫(kù)內(nèi)所有序列的相應(yīng)特征值之間的距離,比較相似序列;按照距離由小到大,排列顯示出數(shù)據(jù)庫(kù)里和用戶提交的序列最相似的一部分序列。
把不同物種的基因組序列數(shù)據(jù)的基本信息存儲(chǔ)到數(shù)據(jù)庫(kù)里的方法是對(duì)于序列登錄號(hào)、物種名稱、物種染色體號(hào)按照字符串類型存儲(chǔ);序列原始數(shù)據(jù)由于數(shù)據(jù)量很大,用大型對(duì)象存儲(chǔ)類型(clob)這個(gè)特殊類型存儲(chǔ);計(jì)算好的每一組序列特征值存放到一個(gè)變長(zhǎng)數(shù)組(VARRAY)里。
計(jì)算提交序列的特征值的方法為首先根據(jù)BBC特征的定義;Cxy(L)=Σk=1LPxy(k)log2Pxy(k)PxPy]]>其中Cxy(L)為Px和Py分別表示單個(gè)核苷酸x和y(x、y∈{A,G,C,T})出現(xiàn)的頻率,Pxy(k)表示一對(duì)間距為k的核苷酸x和y出現(xiàn)的頻率,實(shí)現(xiàn)這個(gè)算法編制計(jì)算該特征的程序,用戶提交序列并指定特征后,就調(diào)用相應(yīng)的程序,對(duì)序列的特征進(jìn)行計(jì)算。
比較相似序列的方法為計(jì)算好用戶提交序列的特征后,到數(shù)據(jù)庫(kù)里對(duì)每條記錄進(jìn)行遍歷,依次計(jì)算數(shù)據(jù)庫(kù)里每條序列和提交序列該特征值之間的空間距離,同時(shí)根據(jù)距離的大小由小到大進(jìn)行排序,距離越小的說明兩條序列的特征值匹配程度越高,也就是說這兩條序列越相似。
有益效果(1)當(dāng)序列很長(zhǎng)(幾百K或幾M)時(shí),計(jì)算速度的優(yōu)勢(shì)是很明顯的,因?yàn)槲覀冎恍枰?jì)算一次序列的特征,然后一條序列就可以用一個(gè)幾維或者十幾維的特征向量來表示,在數(shù)據(jù)量巨大的數(shù)據(jù)庫(kù)中,計(jì)算特征向量間的距離遠(yuǎn)比進(jìn)行序列比對(duì)要快得多,這樣就大大提高了數(shù)據(jù)庫(kù)搜索的效率;(2)不同的特征可能代表序列不同方面的信息,這樣就可以從不同的方面來了解一條序列的含義,并且還可以將幾個(gè)特征結(jié)合起來,配合優(yōu)先級(jí)加權(quán)值,作為搜索的條件,其結(jié)果將對(duì)實(shí)際研究和應(yīng)用很有意義;(3)通過基因組相似序列的搜索,對(duì)研究物種之間的關(guān)系、生物進(jìn)化和系統(tǒng)發(fā)生分析等有很大的幫助;(4)基于序列特征信息的搜索符合后基因組研究的目標(biāo),并且這樣設(shè)計(jì)的數(shù)據(jù)庫(kù),其可擴(kuò)展性也相當(dāng)?shù)拇蟆?br>

圖1是基因組序列特征數(shù)據(jù)庫(kù)總體設(shè)計(jì)的框架圖。大體來說可以分為三個(gè)部分客戶端查詢程序、后臺(tái)基因組特征數(shù)據(jù)庫(kù)和特征量的計(jì)算??蛻艟W(wǎng)頁(yè)查詢系統(tǒng)1、數(shù)據(jù)庫(kù)管理與接口程序2、基因組數(shù)據(jù)下載程序3、基因組特征數(shù)據(jù)庫(kù)4、特征計(jì)算5、6、7。
圖2是數(shù)據(jù)庫(kù)表的設(shè)計(jì)圖。第一張表是序列信息表seq_info,這里只列出一條序列的相關(guān)信息,包括登錄號(hào)、物種類別、物種名稱、染色體號(hào)、序列數(shù)據(jù)和特征向量等;第二張表是特征量信息表feature_info,包括每個(gè)特征的名稱及其維數(shù)。
圖3~圖7是選取人第7號(hào)染色體上的一段序列,選擇堿基關(guān)聯(lián)性特征在數(shù)據(jù)庫(kù)內(nèi)進(jìn)行搜索,顯示的前100條最相似的序列,絕大部分仍為人基因組的序列,也有少量小鼠基因組的片段。
具體實(shí)施例方式
本發(fā)明的基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法為根據(jù)序列統(tǒng)計(jì)特征間的距離來搜索相似序列,即把不同物種的基因組序列數(shù)據(jù)的基本信息——即序列在基因庫(kù)的數(shù)據(jù)庫(kù)登錄號(hào)、序列所屬的物種名稱、序列所在該物種的染色體號(hào)和序列原始數(shù)據(jù)、以及從統(tǒng)計(jì)學(xué)角度體現(xiàn)序列特征的包括堿基組成特性、堿基對(duì)相關(guān)性統(tǒng)計(jì)特征值存儲(chǔ)到數(shù)據(jù)庫(kù)里;對(duì)于客戶提交的任何一個(gè)基因片段,首先根據(jù)客戶的要求計(jì)算它的一個(gè)特征值,再依次計(jì)算該序列的特征值與數(shù)據(jù)庫(kù)內(nèi)所有序列的相應(yīng)特征值之間的距離,比較相似序列;按照距離由小到大,排列顯示出數(shù)據(jù)庫(kù)里和用戶提交的序列最相似的一部分序列。
把不同物種的基因組序列數(shù)據(jù)的基本信息存儲(chǔ)到數(shù)據(jù)庫(kù)里的方法是對(duì)于序列登錄號(hào)、物種名稱、物種染色體號(hào)按照字符串類型存儲(chǔ);序列原始數(shù)據(jù)由于數(shù)據(jù)量很大,用大型對(duì)象存儲(chǔ)類型(clob)這個(gè)特殊類型存儲(chǔ);計(jì)算好的每一組序列特征值存放到一個(gè)變長(zhǎng)數(shù)組(VARRAY)里。
計(jì)算提交序列的特征值的方法為首先根據(jù)BBC特征的定義Cxy(L)=Σk=1LPxy(k)log2Pxy(k)PxPy]]>其中Cxy(L)為Px和Py分別表示單個(gè)核苷酸x和y(x、y∈{A,G,C,T})出現(xiàn)的頻率,Pxy(k)表示一對(duì)間距為k的核苷酸x和y出現(xiàn)的頻率,實(shí)現(xiàn)這個(gè)算法編制計(jì)算該特征的程序,用戶提交序列并指定特征后,就調(diào)用相應(yīng)的程序,對(duì)序列的特征進(jìn)行計(jì)算。
比較相似序列的方法為計(jì)算好用戶提交序列的特征后,到數(shù)據(jù)庫(kù)里對(duì)每條記錄進(jìn)行遍歷,依次計(jì)算數(shù)據(jù)庫(kù)里每條序列和提交序列該特征值之間的空間距離,同時(shí)根據(jù)距離的大小由小到大進(jìn)行排序,距離越小的說明兩條序列的特征值匹配程度越高,也就是說這兩條序列越相似。
(1)基因組序列特征的提取序列的統(tǒng)計(jì)特征常應(yīng)用于序列分析方面研究,用來識(shí)別與基因相關(guān)的特殊序列信號(hào),如啟動(dòng)子、起始密碼子,以及預(yù)測(cè)基因的編碼區(qū)域,或預(yù)測(cè)外顯子所在的區(qū)域等。本發(fā)明選擇的特征主要有兩類,一類是基因組序列的堿基組成,包括單堿基、雙堿基和三聯(lián)堿基在序列中的出現(xiàn)頻率;另一類是堿基的相關(guān)性,主要包括堿基對(duì)的關(guān)聯(lián)性(Base-Base correlation,BBC)特征。
BBC特征是本發(fā)明人提出的,堿基x與y在距離L之間的相關(guān)性的計(jì)算公式如下Cxy(L)=Σk=1LPxy(k)log2Pxy(k)PxPy]]>其中,Cxy(L)為Px和Py分別表示單個(gè)核苷酸x和y(x、y∈{A,G,C,T})出現(xiàn)的頻率,Pxy(k)表示一對(duì)間距為k的核苷酸x和y出現(xiàn)的頻率。
(2)特征數(shù)據(jù)庫(kù)的數(shù)據(jù)組織本發(fā)明的總體結(jié)構(gòu)主要分為兩大塊,如圖1所示。一部分是后臺(tái)的Oracle(甲骨文)數(shù)據(jù)庫(kù),運(yùn)行于后臺(tái);另一部分是網(wǎng)頁(yè)查詢Jsp(服務(wù)器端動(dòng)態(tài)網(wǎng)頁(yè)),運(yùn)行于服務(wù)器端。這兩塊用一個(gè)接口作為橋梁連接起來,并控制計(jì)算特征量的小程序的運(yùn)行。
數(shù)據(jù)庫(kù)包括兩張表,見圖2。一張是序列信息表,包括這樣幾個(gè)數(shù)據(jù)項(xiàng)序列登錄號(hào),序列所屬物種的分類,序列所屬的物種名稱,序列所在的染色體號(hào),序列原始數(shù)據(jù),序列的各特征值等,其中序列特征可以有很多個(gè),每個(gè)特征占一個(gè)數(shù)據(jù)項(xiàng),動(dòng)態(tài)添加。現(xiàn)在已有的序列特征包括堿基對(duì)關(guān)聯(lián)性,單堿基、雙堿基、三堿基頻率,核苷酸相對(duì)豐度等。另一張表是特征信息表,包括兩個(gè)數(shù)據(jù)項(xiàng)特征量名稱和維數(shù)。對(duì)于序列信息表里的特征量根據(jù)特征信息表中該特征的維數(shù)建立相應(yīng)大小的數(shù)組,以存放計(jì)算好的特征值。
數(shù)據(jù)庫(kù)序列數(shù)據(jù)來源于公共數(shù)據(jù)庫(kù),通過程序從官方網(wǎng)站獲取原始序列,讀入并提取其登錄號(hào)、物種名和染色體號(hào)的等基本信息,然后計(jì)算序列的各個(gè)特征,加入本數(shù)據(jù)庫(kù)中。
(3)數(shù)據(jù)庫(kù)中按特征量搜索方法的實(shí)現(xiàn)搜索方法實(shí)現(xiàn)的基本步驟如下a.用戶提交一段序列。序列可以從本地文件讀取也可以連接到公共數(shù)據(jù)庫(kù)提取。
b.用戶設(shè)置搜索的參數(shù),包括選擇用于匹配的特征,序列格式以及搜索相似序列的條數(shù)。
c.調(diào)用計(jì)算該特征的小程序完成對(duì)提交序列特征的向量值的計(jì)算。
d.依次計(jì)算數(shù)據(jù)庫(kù)中每條序列與提交序列的特征值之間的歐氏距離,并對(duì)其進(jìn)行排序,距離越小,說明序列相似性越高。
e.按用戶的要求顯示搜索的結(jié)果。
實(shí)施例1在數(shù)據(jù)庫(kù)內(nèi)搜索與某段序列的堿基關(guān)聯(lián)性特征相近的100條序列。
在人的第7號(hào)染色體上,選取了一段序列,對(duì)它的堿基關(guān)聯(lián)性特征值在數(shù)據(jù)庫(kù)內(nèi)進(jìn)行搜索得到100條最相似的序列,如圖3~圖7所示,發(fā)現(xiàn)這100條序列中絕大部分都是人基因組的,只有從第73條開始才出現(xiàn)了部分小鼠基因組的序列,說明人基因組內(nèi)的序列在堿基關(guān)聯(lián)性這個(gè)特征上還是具有相當(dāng)高相似程度的,而小鼠基因組的部分片段與人基因組也有一定的相似性。
權(quán)利要求
1.一種基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法,其特征在于搜索方法為根據(jù)序列統(tǒng)計(jì)特征間的距離來搜索相似序列,即把不同物種的基因組序列數(shù)據(jù)的基本信息——即序列在基因庫(kù)的數(shù)據(jù)庫(kù)登錄號(hào)、序列所屬的物種名稱、序列所在該物種的染色體號(hào)和序列原始數(shù)據(jù)、以及從統(tǒng)計(jì)學(xué)角度體現(xiàn)序列特征的包括堿基組成特性、堿基對(duì)相關(guān)性統(tǒng)計(jì)特征值存儲(chǔ)到數(shù)據(jù)庫(kù)里;對(duì)于客戶提交的任何一個(gè)基因片段,首先根據(jù)客戶的要求計(jì)算它的一個(gè)特征值,再依次計(jì)算該序列的特征值與數(shù)據(jù)庫(kù)內(nèi)所有序列的相應(yīng)特征值之間的距離,比較相似序列;按照距離由小到大,排列顯示出數(shù)據(jù)庫(kù)里和用戶提交的序列最相似的一部分序列。
2.根據(jù)權(quán)利要求1所述的基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法,其特征在于把不同物種的基因組序列數(shù)據(jù)的基本信息存儲(chǔ)到數(shù)據(jù)庫(kù)里的方法是對(duì)于序列登錄號(hào)、物種名稱、物種染色體號(hào)按照字符串類型存儲(chǔ);序列原始數(shù)據(jù)由于數(shù)據(jù)量很大,用大型對(duì)象存儲(chǔ)類型這個(gè)特殊類型存儲(chǔ);計(jì)算好的每一組序列特征值存放到一個(gè)變長(zhǎng)數(shù)組(VARRAY)里。
3.根據(jù)權(quán)利要求1所述的基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法,其特征在于計(jì)算提交序列的特征值的方法為首先根據(jù)BBC特征的定義Cxy(L)=Σk=1LPxy(k)log2Pxy(k)PxPy]]>其中Cxy(L)為Px和Py分別表示單個(gè)核苷酸x和y出現(xiàn)的頻率,Pxy(k)表示一對(duì)間距為k的核苷酸x和y出現(xiàn)的頻率,實(shí)現(xiàn)這個(gè)算法編制計(jì)算該特征的程序,用戶提交序列并指定特征后,就調(diào)用相應(yīng)的程序,對(duì)序列的特征進(jìn)行計(jì)算;其中x、y∈{A,G,C,T}
4.根據(jù)權(quán)利要求1所述的基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法,其特征在于比較相似序列的方法為計(jì)算好用戶提交序列的特征后,到數(shù)據(jù)庫(kù)里對(duì)每條記錄進(jìn)行遍歷,依次計(jì)算數(shù)據(jù)庫(kù)里每條序列和提交序列該特征值之間的空間距離,同時(shí)根據(jù)距離的大小由小到大進(jìn)行排序,距離越小的說明兩條序列的特征值匹配程度越高,也就是說這兩條序列越相似。
全文摘要
基于特征的基因組序列數(shù)據(jù)庫(kù)的搜索方法,是一種根據(jù)序列的統(tǒng)計(jì)特征在數(shù)據(jù)庫(kù)范圍內(nèi)搜索近似序列的方法搜索方法為根據(jù)序列統(tǒng)計(jì)特征間的距離來搜索相似序列,即把不同物種的基因組序列數(shù)據(jù)的基本信息——即序列在基因庫(kù)的數(shù)據(jù)庫(kù)登錄號(hào)、序列所屬的物種名稱、序列所在該物種的染色體號(hào)和序列原始數(shù)據(jù)、以及從統(tǒng)計(jì)學(xué)角度體現(xiàn)序列特征的包括堿基組成特性、堿基對(duì)相關(guān)性統(tǒng)計(jì)特征值存儲(chǔ)到數(shù)據(jù)庫(kù)里;對(duì)于客戶提交的任何一個(gè)基因片段,首先根據(jù)客戶的要求計(jì)算它的一個(gè)特征值,再依次計(jì)算該序列的特征值與數(shù)據(jù)庫(kù)內(nèi)所有序列的相應(yīng)特征值之間的距離,比較相似序列;按照距離由小到大,排列顯示出數(shù)據(jù)庫(kù)里和用戶提交的序列最相似的一部分序列。
文檔編號(hào)G06F17/30GK1598821SQ20041004188
公開日2005年3月23日 申請(qǐng)日期2004年9月7日 優(yōu)先權(quán)日2004年9月7日
發(fā)明者孫嘯, 焦典 申請(qǐng)人:東南大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
成武县| 高雄县| 榕江县| 武清区| 宁波市| 五大连池市| 翁源县| 合川市| 乌兰县| 东安县| 星座| 孝感市| 司法| 建始县| 正安县| 出国| 历史| 日土县| 大洼县| 云安县| 尼玛县| 剑川县| 桂林市| 榆社县| 九龙城区| 大厂| 时尚| 定西市| 黄梅县| 石棉县| 合川市| 炉霍县| 绥阳县| 永胜县| 航空| 宿州市| 江孜县| 琼结县| 观塘区| 昌黎县| 丰都县|