欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于完成序列同源性檢測(cè)的方法和裝置的制作方法

文檔序號(hào):6418778閱讀:587來源:國知局
專利名稱:用于完成序列同源性檢測(cè)的方法和裝置的制作方法
技術(shù)領(lǐng)域
一般而言,本發(fā)明涉及數(shù)據(jù)庫搜索,更具體而言,涉及與給定的應(yīng)用(例如遺傳研究)相聯(lián)系的檢測(cè)一查詢序列和一數(shù)據(jù)庫中若干序列之間的序列同源性的方法和裝置。
背景技術(shù)
在遺傳研究領(lǐng)域中,在對(duì)一個(gè)新的基因進(jìn)行測(cè)序之后要進(jìn)行的第一步工作是試圖識(shí)別那個(gè)基因的功能。達(dá)到這一目的的最流行和直接的方法利用了如下生物學(xué)事實(shí)-如果兩個(gè)肽片段在序列水平上顯示出足夠的相似性(即通過少量的插入、缺失和/或氨基酸突變,便可從一個(gè)肽片段得到另一個(gè)),那么它們可能在生物學(xué)上相互關(guān)聯(lián)。這種途徑的實(shí)例描述見A.M.Lesk的“計(jì)算分子生物學(xué)”(計(jì)算機(jī)科學(xué)與技術(shù)百科全書,A.Kent和J.G.Williams編輯,31101-165,Marcel Dekker,New York,1994);R.F.Doolittle的“我們從序列數(shù)據(jù)庫中知道了什么和將要知道什么”(計(jì)算機(jī)和DNA,G.Bell和T.Marr編輯,21-31,Addison-Wesley,1990);C.Caskey,R.Eisenberg,E.Lander和J.Straus的“關(guān)于DNA專利權(quán)的Hugo聲明”(基因組文摘,26-9,1995);以及W.R.Pearson的“蛋白質(zhì)序列比較和蛋白質(zhì)演化”(分子生物學(xué)中智能系統(tǒng)入門,Cambridge,England,1995)。
在這一構(gòu)架內(nèi),得到關(guān)于一個(gè)新基因功能的線索的問題變成了在氨基酸串中識(shí)別同源性的問題。一般而言,同源性是指兩個(gè)或多個(gè)序列或串之間的相似性、類似或關(guān)聯(lián)。這樣,便可以給定一個(gè)查詢序列Q(例如一個(gè)新的基因)和一組表征得很好的蛋白質(zhì)D,并查找Q中與D中序列的區(qū)域相類似的所有區(qū)域。
用于完成這一任務(wù)的第一種途徑是基于稱作動(dòng)態(tài)規(guī)劃(dynamicprogramming)的技術(shù)。對(duì)這一途徑的描述見S.B.Needleman和C.D.Wunsch的“可用于在兩個(gè)蛋白質(zhì)的氨基酸序列中尋找相似性的一種通用方法”,分子生物學(xué)雜志,48443-453,1970;和T.F.Smith和M.S.Waterman的“共同的分子子序列的識(shí)別”,分子生物學(xué)雜志,147195-197,1981??上?,按今天的標(biāo)準(zhǔn),這一方法對(duì)計(jì)算的需求很快反映出它是不實(shí)際的,特別是當(dāng)搜索大數(shù)據(jù)庫時(shí)更是如此。一般而言,問題在于各種動(dòng)態(tài)規(guī)劃變體花費(fèi)其大部分時(shí)間用于計(jì)算同源性,而這些最終證明是不重要的。
在為解決這一問題而進(jìn)行的努力中。已提議許多算法,它們集中于只發(fā)現(xiàn)廣泛的局部相似性。這些算法中最著名的算法稱作FASTA和BLAST。對(duì)FASTA算法的描述見W.R.Pearson和D.J.Lipman的“用于生物學(xué)序列比較的改進(jìn)的工具”,美國國家科學(xué)院院刊(Proc.Natl.Acad.Sci.),852444-2448,1988;和D.J.Lipman和W.R.Pearson的“快速靈敏的蛋白質(zhì)相似性搜索”,科學(xué),2271435-1441,1989。對(duì)BLAST算法的描述見S.Altschul、W.Gish、W.Miller、E.W.Myers和D.Lipman的“一種基本的局部對(duì)比(alignment)搜索工具”,分子生物學(xué)雜志,215403-410,1990。在絕大多數(shù)情況中,性能的提高是通過首先尋找無空位(ungapped)同源性來實(shí)現(xiàn)的,即只由于突變而不是由于插入或缺失的相似性。這一途徑背后的原理是在兩個(gè)肽串之間的任何基本有空位相似性中,有機(jī)會(huì)存在至少一對(duì)子串,它們的匹配不含有空位。于是,對(duì)這些子串(無空位同源性)的定位便成為得到整個(gè)(有空位)同源性的第一步。
然而,在查詢序列和數(shù)據(jù)庫序列之間識(shí)別出類似區(qū)域只是過程的第一部分(最需要計(jì)算的部分)。第二部分(即生物學(xué)家感興趣的部分)是評(píng)價(jià)這些相似性,即確定它們是否其本上足以支持度查詢序列和相應(yīng)的一個(gè)或多個(gè)數(shù)據(jù)庫序列之間的推斷的關(guān)系(功能的、結(jié)構(gòu)的或其他的關(guān)系)。這種評(píng)價(jià)通常是把生物學(xué)信息和統(tǒng)計(jì)學(xué)推理相結(jié)合來完成的。典型情況是把相似性定量化為對(duì)每對(duì)相關(guān)區(qū)域計(jì)算出的一個(gè)得分。這種得分的計(jì)算涉及使用空位罰分(用于空位對(duì)比)和使用適當(dāng)給出任何給定的氨基酸變成另一種的進(jìn)化概率的突變矩陣。這些矩陣的實(shí)例是PAM矩陣(見M.O.Dayhoff、R.M.Schwarts和B.C.Orcutt的“蛋白質(zhì)中進(jìn)化變化的模型”,蛋白質(zhì)序列和結(jié)構(gòu)圖集,5345-352,1978)和BLOSUM矩陣(見S.Henikoff和J.G.Henikoff的“取自蛋白質(zhì)塊的氨基酸替代矩陣”,國家科學(xué)院院刊,89915-919,1992)。然后,通過計(jì)算這一得分只是偶然發(fā)生的概率(在某種統(tǒng)計(jì)學(xué)模型下)來評(píng)價(jià)這一罰分的統(tǒng)計(jì)學(xué)重要性,例如,見S.Karlin、A.Dembo和T.Kawabata的“由分子序列統(tǒng)計(jì)學(xué)地合成高評(píng)分片段”,統(tǒng)計(jì)學(xué)學(xué)年鑒2571-581,1990和S.Karlin和S.Altschul的“使用一般評(píng)分方案評(píng)價(jià)分子序列特征統(tǒng)計(jì)學(xué)重要性的方法”,國家科學(xué)院院刊,872264-2268,1990。根據(jù)所用的統(tǒng)計(jì)學(xué)模型,這一概率能依賴于多個(gè)因子,例如查詢序列的長度、下層數(shù)據(jù)庫的大小等。然而,不論使用何種傳統(tǒng)的統(tǒng)計(jì)學(xué)模型,總是存在所謂“灰色區(qū)域”,即這樣一些情況,那里統(tǒng)計(jì)學(xué)上不重要的評(píng)分指示了在生物學(xué)上實(shí)際是重要的相似性??上В部赡苓@是不可避免的,歸根結(jié)底,一個(gè)統(tǒng)計(jì)學(xué)模型能如何合適地逼近生物學(xué)現(xiàn)實(shí)的程度總是存在極限。
為克服把統(tǒng)計(jì)學(xué)重要性加到弱相似性上這一固有問題的另一種方法是在導(dǎo)出模擬進(jìn)化上遠(yuǎn)緣的同源性的序列鑒別因子(descriptor)時(shí)使用生物學(xué)知識(shí)。BLOCKS(見S.Henikoff和J.Henikoff的“用于數(shù)據(jù)庫搜索的蛋白質(zhì)塊自動(dòng)組合”,核酸研究,196565-6572,1991)是這樣一個(gè)系統(tǒng),它利用PROSITE數(shù)據(jù)庫中定義的蛋白質(zhì)分類得到由模式導(dǎo)出的分布圖(profile)(見S.Henikoff和J.Henikoff的“基于搜索塊數(shù)據(jù)庫的蛋白質(zhì)家族分類”,基因組,Vol 19,pp97-107,1994),以在功能上給新的基因作評(píng)注。這里的好處是這一分類是由專家工作于已知的相關(guān)蛋白質(zhì)家族來編輯成的。結(jié)果,即使弱的相似性也能被識(shí)別出來并用于評(píng)注過程中。另一方面,關(guān)于哪些蛋白質(zhì)的確有關(guān)和其后可由一模式代表,其知識(shí)只有那么多。再有,總有一種危險(xiǎn),即一個(gè)蛋白質(zhì)家族中實(shí)際包含的成員可能比當(dāng)前想到的要多。通過把這些成員排除而不予考慮之后,有可能得到“過匹配(over fit)”于該家族的模式,即它們太嚴(yán)格,以致不能外推出沒有識(shí)別出的家族成員。
所以,顯然需要方法和裝置通過獨(dú)特的詞典構(gòu)成技術(shù)來建立改進(jìn)的模式詞典,以允許改善序列同源性檢測(cè),還需要方法和裝置用于序列同源性檢測(cè),它本身不限于只搜索被評(píng)注的序列。
發(fā)明概要本發(fā)明通過提供改進(jìn)的模式詞典構(gòu)成技術(shù)和改進(jìn)的序列同源性檢測(cè)技術(shù),為上述和其他需要提供了解決方案,這些技術(shù)將在下文中更詳細(xì)地描述。
在本發(fā)明的序列同源性檢測(cè)方面,一個(gè)基于計(jì)算機(jī)的用于檢測(cè)數(shù)據(jù)庫中的多個(gè)序列和一個(gè)查詢序列之間的同源性的方法包含如下步驟首先,該方法包括訪問與該數(shù)據(jù)庫關(guān)聯(lián)的模式,每個(gè)模式代表該數(shù)據(jù)庫中一個(gè)或多個(gè)序列的至少一部分。接下來,將該查詢序列與這些模式進(jìn)行比較,以檢測(cè)是否該查詢序列的一個(gè)或多個(gè)部分與這些模式代表的數(shù)據(jù)庫中序列的一些部分有同源性。然后,對(duì)檢測(cè)到的與該查詢序列有同源性的每個(gè)序列產(chǎn)生一個(gè)評(píng)分,這里的序列評(píng)分是基于根據(jù)所檢測(cè)到的序列每個(gè)同源部分產(chǎn)生的單個(gè)評(píng)分,而且該序列評(píng)分代表該查詢序列與檢測(cè)到的序列之間的同源性程度。
在本發(fā)明的詞典構(gòu)成方面,一個(gè)基于計(jì)算機(jī)的處理數(shù)據(jù)庫中多個(gè)序列的方法包含如下步驟。首先,該方法包括評(píng)價(jià)這多個(gè)序列中的每一個(gè),包括構(gòu)成每個(gè)序列的字符。然后,產(chǎn)生至少一個(gè)字符模式以代表數(shù)據(jù)庫中至少一個(gè)序列子集。該模式伴有一個(gè)統(tǒng)計(jì)學(xué)顯著性,模式的統(tǒng)計(jì)學(xué)顯著性由代表數(shù)據(jù)庫中該模式支持度的序列最少個(gè)數(shù)的值來確定。
于是,與先有技術(shù)途徑有顯著不同,本發(fā)明的方法是基于在任意數(shù)據(jù)庫上進(jìn)行的無監(jiān)督模式發(fā)現(xiàn),而無需任何先有的數(shù)據(jù)庫分區(qū)。BLOCKS假定數(shù)據(jù)庫已經(jīng)被分區(qū)(由外部專家)成為若干個(gè)在生物學(xué)上相關(guān)的序列的子集。然后通過單個(gè)處理每個(gè)子集得到分布圖。作為這一途徑的結(jié)果,BLOCKS不能處置任意的數(shù)據(jù)庫,因?yàn)椴⒎撬羞@些數(shù)據(jù)庫都被分成相關(guān)聯(lián)的子集。事實(shí)上,BLOCKS只工作于這里作為參考的SwikkProt數(shù)據(jù)庫,使用也在這里作為參考的PROSITE數(shù)據(jù)庫中描述的蛋白質(zhì)分組。與此相反,本發(fā)明優(yōu)選地使用整個(gè)數(shù)據(jù)庫作為其輸入,并提供一種自動(dòng)方法學(xué)來決定那些模式是重要的,而哪些不是。
再有,本發(fā)明提供了一個(gè)新的統(tǒng)計(jì)學(xué)構(gòu)架用于評(píng)價(jià)所發(fā)現(xiàn)模式的統(tǒng)計(jì)學(xué)重要性。與現(xiàn)有的構(gòu)架不同,本發(fā)明的途徑在其計(jì)算中引入了存儲(chǔ)器的概念,就是說,當(dāng)把查詢序列的一個(gè)區(qū)域A與某個(gè)數(shù)據(jù)庫序列的區(qū)域B進(jìn)行比較時(shí),是通過考慮A與數(shù)據(jù)庫中所有其他序列的相似性來評(píng)價(jià)其結(jié)果的相似性評(píng)分。
使用這里描述的加強(qiáng)的統(tǒng)計(jì)學(xué)模型,允許檢測(cè)出重要的局部相似性,而使用現(xiàn)有途徑,它們會(huì)檢測(cè)不到。這允許本發(fā)明的系統(tǒng)以高于使用先有技術(shù)系統(tǒng)可能達(dá)到的靈敏水平來進(jìn)行相似性搜索。
再有,本發(fā)明提供一種自動(dòng)方法以利用在下層數(shù)據(jù)庫D中能得到的部分評(píng)注信息。這一方法學(xué)允許用戶更詳細(xì)地利用那些似乎不重要的相似性。例如,當(dāng)一個(gè)模式匹配于查詢序列區(qū)域A時(shí),能檢查與此模式匹配的所有數(shù)據(jù)庫區(qū)域。如果這些數(shù)據(jù)庫區(qū)域全部(或多個(gè))都以同一方式被評(píng)注,則這一評(píng)注可被傳送給搜索區(qū)域A。按上述方式部分地評(píng)注該查詢序列可證明對(duì)實(shí)現(xiàn)整個(gè)序列評(píng)注是有用的。
本發(fā)明還提供一個(gè)詳細(xì)的方法把該數(shù)據(jù)庫聚類成為有高同源性的序列的小組。在一個(gè)遺傳數(shù)據(jù)處理應(yīng)用中本方法允許對(duì)多結(jié)構(gòu)域(multi-domain)蛋白質(zhì)進(jìn)行正確處理。
還應(yīng)該理解,這里描述的所發(fā)明的概念可以在網(wǎng)絡(luò)上(例如因特網(wǎng))以客戶機(jī)-服務(wù)器關(guān)系實(shí)現(xiàn)。這允許用戶在遠(yuǎn)程位置的一個(gè)客戶機(jī)裝置中輸入查詢序列,它通過網(wǎng)絡(luò)傳送到服務(wù)器并在服務(wù)器中被處理。然后服務(wù)器通過網(wǎng)絡(luò)把同源性搜索結(jié)果回送給客戶機(jī)裝置。
由下文中對(duì)本發(fā)明的所示實(shí)施例的詳細(xì)描述,可使本發(fā)明的這些和其他目的、特點(diǎn)和優(yōu)點(diǎn)變得顯然,這些描述是結(jié)合附圖進(jìn)行的。


圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的序列同源性檢測(cè)系統(tǒng)的框圖;圖2是本發(fā)明的序列同源性檢測(cè)系統(tǒng)的一個(gè)硬件實(shí)現(xiàn)示例的框圖;圖3是本發(fā)明的序列同源性檢測(cè)系統(tǒng)的一個(gè)基于網(wǎng)絡(luò)的實(shí)現(xiàn)的框圖;圖4是說明根據(jù)本發(fā)明的一個(gè)實(shí)施例的搜索引擎方法的高級(jí)流程圖;圖5說明根據(jù)本發(fā)明的一個(gè)實(shí)施例對(duì)給定查詢序列進(jìn)行模式匹配過程的一個(gè)實(shí)例;圖6說明根據(jù)本發(fā)明的一個(gè)實(shí)施例對(duì)一具體查詢序列產(chǎn)生的散列(hash)表的一個(gè)實(shí)例;圖7說明根據(jù)本發(fā)明的一個(gè)實(shí)施例對(duì)一給定查詢序列進(jìn)行鏈接過程的一個(gè)實(shí)例;圖8說明根據(jù)本發(fā)明根據(jù)對(duì)給定查詢序列進(jìn)行的評(píng)分過程所產(chǎn)生的一個(gè)有向加權(quán)圖的一個(gè)實(shí)例;圖9是說明本發(fā)明的搜索引擎方法學(xué)的匹配和鏈接階片段的一個(gè)實(shí)施例的流程圖;圖10是說明本發(fā)明的搜索引擎方法學(xué)的評(píng)分階片段的一個(gè)實(shí)施例的流程圖;圖11說明在SP34中具有給定主干結(jié)構(gòu)的模式分布和與同一主干的隨機(jī)分布的比較;圖12至15是流程圖,說明根據(jù)本發(fā)明一個(gè)實(shí)施例的詞典構(gòu)成方法;圖16是流程圖,說明根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)庫清除過程;以及圖17至30說明與本發(fā)明關(guān)聯(lián)的實(shí)驗(yàn)結(jié)果。
優(yōu)選實(shí)施例詳述下面將在一個(gè)示例性遺傳數(shù)據(jù)處理應(yīng)用的范圍內(nèi)解釋本發(fā)明。然而,應(yīng)該理解,本發(fā)明不限于這一具體應(yīng)用。相反,本發(fā)明可更一般地應(yīng)用于由任意數(shù)據(jù)庫(在把數(shù)據(jù)庫數(shù)據(jù)適當(dāng)?shù)剞D(zhuǎn)換成等效的序列表示之后)建立模式詞典和針對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行任何給定搜索記錄的無約束同源性搜索。
首先參考圖1,它顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的序列同源性檢測(cè)系統(tǒng)的方框圖。所示系統(tǒng)100包括查尋引擎模塊110、模式詞典120、詞典構(gòu)成模塊130和源數(shù)據(jù)庫140。如下文中將詳細(xì)解釋的那樣,搜索引擎110從用戶那里接收一查詢序列,并進(jìn)行對(duì)模式詞典120的搜索,以圖定位存儲(chǔ)在詞典中的模式,這些模式代表數(shù)據(jù)庫140中那些以某種方式與查詢序列相似的序列。在搜索之前,詞典構(gòu)成模塊130由數(shù)據(jù)庫140創(chuàng)建模式詞典120。這一詞典構(gòu)成過程被稱作信息收集或挖掘。搜索引擎110向用戶返回部分或全部搜索結(jié)果(例如來自數(shù)據(jù)庫的同源性序列)。
圖2是序列同源性檢測(cè)系統(tǒng)100的硬件實(shí)現(xiàn)示例的方框圖。如圖所示,系統(tǒng)100可以按照處理器210、存儲(chǔ)器220和I/O(輸入/輸出)裝置230來實(shí)現(xiàn)。應(yīng)該理解,這里使用術(shù)語“處理器”是想包括任何處理裝置,例如包括CPU(中央處理單元)的處理裝置。這里使用術(shù)語“存儲(chǔ)器”是意欲包括與處理器或CPU相關(guān)聯(lián)的存儲(chǔ)器,例如RAM、ROM、固定存儲(chǔ)裝置(如硬驅(qū)動(dòng)器)、可裝卸存儲(chǔ)裝置(如軟盤)、快速存儲(chǔ)器等。此外,這里所用術(shù)語“輸入/輸出裝置”或“I/O裝置”是想包括例如一個(gè)或多個(gè)輸入裝置,例如鍵盤,用于進(jìn)行搜索和/或向處理單元輸入數(shù)據(jù),和/或一個(gè)或多個(gè)輸出裝置,例如CRT顯示器和/或打印機(jī),用于顯示搜索結(jié)果和/或與處理單元關(guān)聯(lián)的其他結(jié)果。還應(yīng)理解,術(shù)語“處理器”可以指不只一個(gè)處理裝置而且與一個(gè)處理裝置關(guān)聯(lián)的各種部件可以被其他處理裝置共享。于是,包括實(shí)現(xiàn)本發(fā)明方法的指令或代碼的軟件,如這里描述的那樣,可存儲(chǔ)在一個(gè)或多個(gè)相關(guān)聯(lián)的存儲(chǔ)裝置(例如ROM、固定或可裝卸存儲(chǔ)器)中,并且當(dāng)要被使用時(shí)部分或全部加載(例如加載到RAM中)并由CPU執(zhí)行。
圖3是本發(fā)明的序列同源性檢測(cè)系統(tǒng)的基于網(wǎng)絡(luò)的實(shí)現(xiàn)的方框圖。如圖所示,客戶端計(jì)算機(jī)系統(tǒng)310通過網(wǎng)絡(luò)330(例如因特網(wǎng))與服務(wù)器計(jì)算機(jī)系統(tǒng)320通信。然而,網(wǎng)絡(luò)也可是一個(gè)私用網(wǎng)和/或局域網(wǎng)。根據(jù)圖3的實(shí)現(xiàn),圖1所示系統(tǒng)100的全部或部分駐留在服務(wù)器330上并由服務(wù)器320執(zhí)行。在其客戶端計(jì)算機(jī)系統(tǒng)(如個(gè)人計(jì)算機(jī)、膝上機(jī)和/或其他類型個(gè)人處理裝置)上的操作的用戶從遠(yuǎn)處通過在該計(jì)算機(jī)系統(tǒng)上運(yùn)行的應(yīng)用軟件(如萬維網(wǎng)瀏覽軟件和/或與搜索引擎相關(guān)聯(lián)的圖形用戶界面)輸入查詢序列。該搜索以傳統(tǒng)方式經(jīng)過網(wǎng)絡(luò)330傳送并由服務(wù)器320處理。服務(wù)器320接收該搜索并根據(jù)所存儲(chǔ)的模式詞典執(zhí)行本發(fā)明的搜索引擎方法學(xué)。該詞典可以是已經(jīng)由本發(fā)明的詞典構(gòu)成模塊根據(jù)一源數(shù)據(jù)庫構(gòu)成的。服務(wù)器經(jīng)由網(wǎng)絡(luò)向客戶端返回一些或全部搜索結(jié)果(例如來自數(shù)據(jù)庫的同源性序列)。應(yīng)該理解,該服務(wù)器可以代表不只一個(gè)計(jì)算機(jī)系統(tǒng)。就是說,圖1中的一個(gè)或多個(gè)部件可以駐留在它們自己的計(jì)算機(jī)系統(tǒng)中,例如具有其自己的處理器、存儲(chǔ)器和I/O裝置,并由該計(jì)算機(jī)系統(tǒng)來執(zhí)行。
在對(duì)本發(fā)明的序列同源性檢測(cè)系統(tǒng)各部件及各種硬件實(shí)現(xiàn)示例進(jìn)行了一般性描述之后,現(xiàn)在將詳細(xì)解釋所發(fā)明的各種方法。
下面將在與序列同源性檢測(cè)系統(tǒng)相關(guān)聯(lián)的一個(gè)實(shí)施例中一起描述與搜索引擎模塊110和詞典構(gòu)成模塊130相關(guān)聯(lián)的各自方法。然而,應(yīng)該理解,與搜索引擎模塊關(guān)聯(lián)的所發(fā)明的方法可應(yīng)用于其他已知的模式詞典。類似地,所發(fā)明的與詞典構(gòu)成模塊關(guān)聯(lián)的方法可以創(chuàng)建模式詞典用于其他已知的搜索引擎。
為便于參考,本詳細(xì)描述的其余部分將分成以下部分(Ⅰ)定義;(Ⅱ)搜索引擎;(Ⅲ)詞典構(gòu)成;以及(Ⅳ)實(shí)驗(yàn)結(jié)果。Ⅰ.定義如下部分提供一些符號(hào)用于在下文中描述本發(fā)明的各個(gè)方面。
∑是指用于構(gòu)成序列的字符集合。在生物學(xué)環(huán)境中(這是這里優(yōu)先對(duì)待的),我們要處理的序列是蛋白質(zhì),而集合∑是20種氨基酸的集合。下文中術(shù)語蛋白質(zhì)/序列將可交換地使用,而對(duì)術(shù)語字符/氨基酸也是如此。
D是指下層的蛋白質(zhì)數(shù)據(jù)庫,模式集合(模式詞典或生物學(xué)詞典)即建立在它的上面。在這個(gè)描述中將始終使用的數(shù)據(jù)庫實(shí)例如下(含有3個(gè)序列)
D={S1,S2,S3},這里S1=ARQSTLUMNPQS2=FDSALQFTGMRAS3=RKMFPQDOSLAП是指模式的集合,即這里指生物學(xué)詞典或模式詞典120。在下面題為“詞典構(gòu)成”的部分中將解釋得到П的確切方法。模式是描述肽家族的規(guī)則表示。由單個(gè)模式代表的多肽家族可預(yù)期含有相關(guān)聯(lián)的(結(jié)構(gòu)上、功能上、進(jìn)化上)氨基酸延伸。更具體地說,給定氨基酸的字母順序∑,我們把П中的模式P定義為形如∑(∑U{‘·’})*∑的規(guī)則表達(dá)式,這里‘·’(指“不必關(guān)心的字符”)代表可由任意殘基占據(jù)的部分。作為一個(gè)規(guī)則的表達(dá)式,每個(gè)模式P定義一個(gè)多肽語言,它包含能由∑中的任意殘基代替每個(gè)不必關(guān)心的字符來從模式P中得到的所有串。同樣,П中的每個(gè)P與D中的至少Kmin個(gè)序列匹配。Kmin是一個(gè)整數(shù),它的計(jì)算將在下文的“詞典構(gòu)成”部分中解釋。在下面的例子中,我們將假定一個(gè)指定的值。數(shù)據(jù)庫序列中與模式P匹配的各區(qū)域被記錄在模式P的偏移列表LD(P)中。這是包含所有(j,k)對(duì)的列表,使模式P在偏移K處匹配于數(shù)據(jù)庫的第j個(gè)序列。
對(duì)于上文引入的數(shù)據(jù)庫實(shí)例,并假定Kmin=2,則模式集合P={A.Q.T,M.PQ}。這個(gè)集合中的兩個(gè)模式出現(xiàn)在下列輸入序列中(匹配部分用黑體表示)A.Q.T M.PQs1ARQSTLUMNPQ s1ARQSTLUMNPQs2FDSALQFTGMRAs3RKMFPQDDSLA這兩個(gè)模式的偏移列表如下LD(A.Q.T)={(1,1),(2,4)}LD(M.PQ)={(1,8),(3,3)}應(yīng)該理解,在每個(gè)括號(hào)內(nèi)的第一項(xiàng)是序列號(hào),第二項(xiàng)是偏移。對(duì)應(yīng)于序列中任何字符的偏移是從序列開始到那個(gè)字符的距離。例如,(2,4)表示序列是S2,模式A.Q.T在到序列S2開始相距4個(gè)字符的地方開始。
Q是指搜索蛋白質(zhì)。本發(fā)明的搜索引擎的一個(gè)目標(biāo)是識(shí)別D中數(shù)據(jù)庫序列與用戶可以提供的任何查詢序列Q之間的序列同源性。作為一例,我們將使用搜索Q=JLANQFTLMDPQDLA。這一序列與數(shù)據(jù)庫序列有多個(gè)同源性區(qū)域。下面,我們將顯示它們當(dāng)中的一些(仍是以黑體顯示相似區(qū)域?qū)?QJLANQFTLMDPQDLAQJLANQFTLMDPQDLAs1ARQSTLUMNPQ s2FDSALQFTGMRA這樣,搜索引擎識(shí)別出如上所述的相似性。當(dāng)把一個(gè)區(qū)域放到另一個(gè)區(qū)域下,它們有若干個(gè)匹配的字符會(huì)對(duì)在一起,則這兩個(gè)等長的區(qū)域是相似的。對(duì)于相似性的嚴(yán)格表示將在下文中成為準(zhǔn)確的表示;而現(xiàn)在,說它涉及對(duì)每個(gè)可能的字符對(duì)使用評(píng)分就足夠了。每個(gè)這種評(píng)分是匹配性的度量,標(biāo)識(shí)出對(duì)每個(gè)對(duì)在一起的字符,在生物學(xué)上的可能性怎樣。
給定一個(gè)模式P,則P的“主干”定義為字母表{1,0}上的一個(gè)串,它是把P中的每個(gè)殘基變?yōu)樽址?”,而每個(gè)不必關(guān)心的字符變?yōu)樽址?”,由此從P中得到的。例如,模式P=“A.DFE”的主干是串“100111”。主干把模式集合分成等效的類,每個(gè)類含有共享同一主干的所有模式。
根據(jù)本發(fā)明可能用到的另一概念是一個(gè)模式的“密度(density)”。一般地說,密度描述G(P)的任何兩個(gè)成員之間同源性的最小量(這里GCP)是指由∑中的任意殘基替換每個(gè)不必關(guān)心的字符能從P中得到的所有串構(gòu)成的多肽語言)并由兩個(gè)整數(shù)L和W(L≤W)定義如果P的以氨基酸起始和終止且其長度至少為W的每個(gè)子串含有L或更多個(gè)殘基,則模式P的密度為<L,W>。在每個(gè)這種模式中,殘基數(shù)與模式長度之比至少為L/W。整數(shù)L和W是我們的優(yōu)選方法的參數(shù),它們的值控制所進(jìn)行的搜索中允許的相似性大小。這些參數(shù)還在序列號(hào)為09/023,756的美國專利申請(qǐng)中詳細(xì)描述,該專利申請(qǐng)于1998年2月13日提交,直接指向“TEIRESIAS”算法,它要求對(duì)序列號(hào)為60/049,461的美國臨時(shí)申請(qǐng)的優(yōu)先權(quán),它于1997年6月12日提交,它的內(nèi)容被納入這里作為參考。請(qǐng)注意,根據(jù)定義,一個(gè)<L,W>模式至少有L個(gè)殘基。
再有,當(dāng)給定一模式P和一序列S,S的屬于G(P)的任何子串被稱作P的匹配位置。P的偏移列表含有P的所有匹配位置的第一字符的偏移。
在給出上述定義之后,我們現(xiàn)在能對(duì)根據(jù)本發(fā)明的改進(jìn)的序列同源性檢測(cè)的一種最佳途徑提供一個(gè)一般性描述,例如,結(jié)合系統(tǒng)100(圖1)來描述。序列同源性檢測(cè)兩個(gè)彼此不同的階片段信息收集和搜索。
首先,在進(jìn)行任何搜索之前,要對(duì)下層數(shù)據(jù)庫D進(jìn)行挖掘,這一挖掘過程也稱作信息收集或詞典構(gòu)成。在這一步驟過程中,所有重要<L,W>模式被收集,而且每個(gè)這種模式P與其偏移列表LD(P)相關(guān)聯(lián)(在搜索引擎部分將詳細(xì)說明確定一模式是否重要所用的具體標(biāo)準(zhǔn))。
第二步是實(shí)際搜索。給定一查詢序列Q,我們識(shí)別出被Q匹配的所有模式P(在該過程的第一階片段中收集的所有模式中進(jìn)行識(shí)別)。對(duì)每個(gè)這種P,我們把Q的與P匹配的區(qū)域與所有數(shù)據(jù)庫序列中也與P匹配的區(qū)域(通過偏移列表LD(P)容易訪問這些區(qū)域)組成對(duì)子。最后,成對(duì)的區(qū)域沿兩個(gè)方向被擴(kuò)展和對(duì)比,并被利用(用戶定義的)突變矩陣評(píng)分,最高評(píng)分的匹配與蘊(yùn)含的對(duì)比一起被記錄下來。
這里值得指出的是,信息收集階片段是對(duì)D的一次性計(jì)算。所得到的結(jié)果存儲(chǔ)在一個(gè)文件(圖1的模式詞典120)中,并在每次對(duì)數(shù)據(jù)庫D進(jìn)行搜索過程時(shí)使用。
使用模式描述相關(guān)聯(lián)的多肽的背后動(dòng)因在于生物學(xué)事實(shí)。具體而言,已知有大量的基本元件(或者是具有結(jié)構(gòu)特性的元素,如α-螺旋、β-鏈、環(huán)等,或者更大的功能性單元,如基序、組件和結(jié)構(gòu)域),它們是構(gòu)成蛋白質(zhì)的結(jié)構(gòu)單元。進(jìn)化上分化物種所用的關(guān)鍵機(jī)制之一就是在蛋白質(zhì)序列中氨基酸位置的突變。當(dāng)然,在功能上/結(jié)構(gòu)上重要的區(qū)域?qū)@種突變的抵抗性更強(qiáng)。于是,有理由期望,能通過發(fā)現(xiàn)(a)在其一級(jí)結(jié)構(gòu)中保守的位置;以及(b)增大的重用能力,從而識(shí)別出這種生物學(xué)上相關(guān)聯(lián)的多肽。在我們的術(shù)語中,這些性質(zhì)對(duì)應(yīng)于具有想不到的高支持度度的模式。
然而,這里所描述的本發(fā)明搜索引擎方法學(xué)可被用于其他的已知模式詞典,重申這一點(diǎn)是重要的。同樣,本發(fā)明的詞典構(gòu)成方法可被用于創(chuàng)建由其他已知的搜索引擎使用的模式詞典。
應(yīng)該理解,在下面的Ⅱ和Ⅲ部分中將分別描述這兩種方法。盡管詞典構(gòu)成方法應(yīng)用于搜索方法之前,但為了便于解釋,我們以相反的順序討論這兩個(gè)過程,從搜索引擎方法開始,然后是詞典構(gòu)成方法。Ⅱ.搜索引擎現(xiàn)在參考圖4,圖中顯示一高級(jí)流程圖,說明根據(jù)本發(fā)明一個(gè)實(shí)施例的搜索引擎方法學(xué)。這一方法可應(yīng)用于圖1中的搜索引擎110。搜索引擎的操作可分成兩個(gè)彼此不同的階片段(ⅰ)模式匹配+鏈接(塊402);和(ⅱ)評(píng)分(塊406)。
第一階片段針對(duì)查詢序列Q檢驗(yàn)П中的每個(gè)模式P(提醒一下,П是指上文提到的模式詞典120),隔離出所有與Q匹配的模式。下面我們描述進(jìn)行這個(gè)“檢驗(yàn)匹配”過程的一個(gè)具體算法;然而,可以使用任何匹配算法。請(qǐng)注意圖4中階片段1的“復(fù)雜度檢驗(yàn)”(塊404)。在某些情況中,有可能模式P匹配于搜索Q然而卻不希望考慮這一匹配。這樣的例子是所謂“低復(fù)雜度”模式。由于生物學(xué)序列的特性,有時(shí)會(huì)產(chǎn)生這種模式。低復(fù)雜度模式幾乎只由同一種氨基酸組成,例如模式“A.A..AAA.A.A”,而且是因?yàn)槟承┑鞍踪|(zhì)有長的重復(fù)氨基酸的區(qū)域造成的。這種模式當(dāng)然被認(rèn)為對(duì)于同源性檢測(cè)的目的是不重要的,所以忽略由這些模式導(dǎo)出的任何匹配會(huì)更好些。是否這樣做留給該系統(tǒng)的用戶來決定,作法是允許在搜索引擎中把“復(fù)雜度檢驗(yàn)”分量設(shè)成“通”或“斷”狀態(tài)。當(dāng)前,記住在這一分量置成“通”時(shí)P中的某些模式盡管與搜索蛋白質(zhì)Q匹配也將被忽略這一點(diǎn)就足夠了。下文中將對(duì)復(fù)雜度檢驗(yàn)為“通”時(shí)匹配于Q的模式P被忽略的確切條件進(jìn)行描述。
繼續(xù)階片段1,每個(gè)匹配于Q的模式P在Q和也匹配于P的所有數(shù)據(jù)庫區(qū)域之間產(chǎn)生一個(gè)局部同源性。通過P的偏移列表LD(P)能容易地訪問所有這些數(shù)據(jù)庫區(qū)域。假定P在偏移之處匹配Q,則LD(P)中的每個(gè)區(qū)域(j,k)給出片片段(i,j,k,l)這里l是模式P的長度。下文中對(duì)此進(jìn)行詳細(xì)解釋。最后,隨著匹配過程的繼續(xù),相容的片片段鏈接在一起,構(gòu)成更長的片段(下文中將解釋相容片段的含義以及鏈接操作)。在階片段1的結(jié)尾,我們得到的是集合R,它包含數(shù)據(jù)庫D中所有這樣的序列它們匹配于П中至少一個(gè)模式P,從而P也匹配于Q。
R中的每個(gè)序列S伴隨的片段描述了由模式導(dǎo)出的Q和S之間的同源性。
考慮我們前面引入的例子。查詢序列Q=JLANQFTLMDPQDLA,匹配于П中的兩個(gè)模式P1=“A.Q.T”和P2=“M.PQ”。給定P1在偏移3處匹配于Q和P2在偏移9處匹配于Q,這兩個(gè)匹配產(chǎn)生如下4片段(3,1,1,5)(3,2,4,5)=由LD(P1)產(chǎn)生(9,1,8,4)(9,3,3,4)=由LD(P2)產(chǎn)生于是,集合R為R={s1-(3,1,1,5)(9,1,8,4)s2-(3,2,4,5)s3-(9,3,3,4)}這里R中每個(gè)序列Si帶有一個(gè)片段列表。請(qǐng)注意在這一具體實(shí)例中不可能有任何鏈接。
圖4中描述的搜索引擎方法學(xué)的第二階片段對(duì)R中的每個(gè)序列S賦予一個(gè)評(píng)分。對(duì)于給定的Sj,可有多種途徑計(jì)算這一評(píng)分。然而每個(gè)途徑都是從對(duì)Si帶有的所有片段進(jìn)行評(píng)分開始。每個(gè)片段接收一個(gè)評(píng)分(這些評(píng)分稱作片段評(píng)分)。根據(jù)突變矩陣M進(jìn)行評(píng)分。突變矩陣是20×20的實(shí)數(shù)數(shù)組。這個(gè)矩陣的第(i,j)條目指出的進(jìn)化過程中第i個(gè)氨基酸已變成第j個(gè)氨基酸的概率。這里,為了我們的目的,假定M是來自∑×∑→R的函數(shù)就足夠了,當(dāng)給定兩個(gè)氨基酸A1和A2時(shí),它返回一個(gè)實(shí)數(shù)。因?yàn)橛性S多可使用的突變矩陣,所以給予用戶一種可選功能,以選擇特定的矩陣M供使用。
例如,假定我們?cè)谑褂靡辉蛔兙仃嘙,即對(duì)所有氨基酸A有M(A,A)=1,而對(duì)所有彼此不同的氨基酸A、B有M(A,B)=0??紤]上文集合R中的第一序列,即序列S1,它帶有片段(3,1,1,5)和(9,1,8,4)。我們來顯示如何對(duì)這兩個(gè)片段中的第一個(gè)進(jìn)行評(píng)分(另一個(gè),以及集合R中的所有片段都被類似地評(píng)分)。想象我們已把該片段蘊(yùn)含的長度為5的兩個(gè)蛋白質(zhì)區(qū)域?qū)Ρ?一個(gè)在另一個(gè)下面),即在Q的偏移3處起始的區(qū)域和S1的偏移1處起始的區(qū)域?qū)Ρ華NQFTL(來自Q)ARQSTL(來自S1)于是,通過對(duì)所有對(duì)比列的值M(X,Y)求和,便計(jì)算出該片段的評(píng)分,這里X,Y是在任何給定列下對(duì)比在一起的兩個(gè)氨基酸。對(duì)上面的片段,這個(gè)評(píng)分是M(A,A)+M(N,R)+M(Q,Q)+M(F,S)+M(T,T)+M(L,L)=1+0+1+0+1+1=4。
上面描述的片段評(píng)分方案是基本評(píng)分方案。就是說,系統(tǒng)的用戶可以設(shè)置多種選項(xiàng)來修改計(jì)算片段評(píng)分的方式。例如,如果系統(tǒng)參數(shù)extend(它是一個(gè)整數(shù),將在下文中描述)已被設(shè)置成大于零的值,則評(píng)分不僅考慮由片段描述的蛋白質(zhì)區(qū)域,而且還要考慮這兩個(gè)區(qū)域左邊和右邊extend個(gè)氨基酸(評(píng)分過程與前述完全相同,只是現(xiàn)在考慮的區(qū)域更長)。再有,如果已經(jīng)設(shè)置了可選項(xiàng)gaped-alignment(有空位對(duì)比),則在擴(kuò)展區(qū)域(即在基本片段的左邊和右邊的這些區(qū)域)的對(duì)比中我們也使用空位以使對(duì)比評(píng)分達(dá)到極大。
在上述過程的結(jié)尾(不依賴于使用哪種評(píng)分方案變體),將會(huì)對(duì)集合R中的每個(gè)片段計(jì)算出了片段評(píng)分。然后,這些片段評(píng)分被用于評(píng)分階片段的最后步驟,即,使Q和R中所有序列Sj之間的相似程度定量化。這是通過對(duì)R中每個(gè)Sj賦予一個(gè)評(píng)分來實(shí)現(xiàn)這一定量化的;這個(gè)評(píng)分稱作S的序列評(píng)分(以使它與片段評(píng)分區(qū)分開)。理想上,對(duì)序列Sj的序列評(píng)分越高,則Sj應(yīng)該與Q越相似。
在對(duì)Sj評(píng)分時(shí),我們只考慮了Sj帶有的那些片段的片段評(píng)分。仍然有若干可選項(xiàng)。在最簡(jiǎn)單的情況中,Sj的序列評(píng)分被定義為Sj各片段的所有片段評(píng)分當(dāng)中最大的一個(gè)。第二種情況是下文的描述中涉及更多的一種。這里,首先對(duì)被評(píng)分的序列Sj構(gòu)成一個(gè)有向圖(directedgraph)。這個(gè)圖的頂點(diǎn)是Sj帶有的所有片段。每個(gè)頂點(diǎn)被賦予與該頂點(diǎn)相對(duì)應(yīng)的片段的片段評(píng)分。從片段(i,j,k,l)到片段(i’,j’,k’,l’)放置一個(gè)邊,如果i=i’和k<=k’的話,即如果由兩片段(區(qū)域Q[i…i+l-1]和Q[i’…i’+l’-1])描述的兩個(gè)搜索區(qū)域的相對(duì)順序與Sj上由兩片段(區(qū)域Sj[k…k+l-1]和Sj[k’…k’+l’-1])描述的兩個(gè)區(qū)域的相對(duì)順序相同的話。像對(duì)頂點(diǎn)那樣,每個(gè)邊也被賦予一個(gè)評(píng)分,代表該搜索中區(qū)域位移(即差值i’-i)相對(duì)于S上的區(qū)域位移(即差值k’-k)的規(guī)則程度。位移之間的差值(即數(shù)值|(i’-i)-(k’-k)|越大,則邊的評(píng)分越小。在構(gòu)成該圖之后,我們能利用任何描述的最長路徑算法識(shí)別出具有最高評(píng)分的路徑(一個(gè)路徑的評(píng)分定義為在該路徑中所有頂點(diǎn)和邊的評(píng)分之和)。于是,這一評(píng)分成為Sj的序列評(píng)分。
上文中我們已描述了計(jì)算片段評(píng)分和序列評(píng)分的幾種途徑。一般而言,任何其他“在生物學(xué)上合理的”評(píng)分方案都能被用在它們的地方。
現(xiàn)在參考圖5、6和7,將解釋搜索引擎方法400的模式匹配、鏈接和評(píng)分過程的更具體實(shí)例。同樣,在由搜索引擎110實(shí)現(xiàn)的搜索階片段過程中,搜索蛋白質(zhì)Q提供給系統(tǒng),而與Q相似的數(shù)據(jù)庫序列S∈D被識(shí)別出來并報(bào)告給用戶。搜索階片段利用挖掘輸入數(shù)據(jù)庫D得到的模式集合П。對(duì)于這里舉例的目的,假定П是形如上文“定義”部分所描述的<L,W>模式集合就足夠了。每個(gè)P∈П伴有其偏移列表LD(P)并在D中有至少Kmin支持度。數(shù)值L,W和Kmin是我們的優(yōu)選方法的參數(shù),在下文中的“詞典形成”部分中將描述它們的設(shè)置方式。
當(dāng)一個(gè)查詢序列Q提供給該系統(tǒng)時(shí),要做的第一件事是確定由Q匹配的所有P∈П的位置。通過使用D.Gusfield的“用于串、樹和序列的算法計(jì)算機(jī)科學(xué)和計(jì)算生物學(xué)”(劍橋大學(xué)出版社,62-63,1997)中提出的一種技術(shù)的散列變化,便能很快地完成這件事。更具體地說,對(duì)于Q內(nèi)的每個(gè)位置,我們產(chǎn)生W個(gè)散列值(hash value),以那個(gè)位置開始的長度為2,3,…,(W+1)的每個(gè)子串有一個(gè)值。對(duì)于每個(gè)這樣的子串,相應(yīng)的散列值只依賴于該子串的每一個(gè)和最后一個(gè)字符,以及依賴于這兩個(gè)字符之間的殘基個(gè)數(shù)。
圖5提供了對(duì)一給定查詢序列這一過程的一個(gè)實(shí)例。在該例中,顯示了在序列Q的位置6處開始的W=4子串所產(chǎn)生的散列值。對(duì)子串S所用的散列值是H(s)=((av(first_char)-av(‘A’))+(av(last_char)-av(‘A’))*26)*W+gap這里av(c)是字符C的ASCⅡ值,first char和last char分別為s的第一個(gè)和最后一個(gè)字符,gap是在s的第一和最后一個(gè)字符之間的殘基個(gè)數(shù)。請(qǐng)注意,由于<L,W>密度限制,gap總是小于W。
與一特定值h對(duì)應(yīng)的散列條目包含查詢序列Q的所有偏移P,使得在P開始的一個(gè)子串(長度最大為W+1)的散列值為值h。圖6給出對(duì)一特定查詢序列產(chǎn)生的散列表的實(shí)例。在圖6中,顯示了序列Q=AFGHIKLPNMKAMGH所產(chǎn)生的散列表的抽樣。不使用實(shí)際的散列值數(shù)值去標(biāo)記表的條目,而是使用一個(gè)模式來描述其散列值為一特定值的所有串。每個(gè)散列條目指向一個(gè)偏移列表。在那列表中的每個(gè)偏移標(biāo)記Q中一個(gè)子串的起始,該子串散列到相關(guān)的散列條目。
為了檢驗(yàn)是否一個(gè)模式P∈П被Q匹配,我們使用其大小等于Q的長度的計(jì)數(shù)器C[1..|Q|]陣列。開始時(shí)該陣列的每個(gè)條目設(shè)為0。在P中偏移1處開始,我們確定P內(nèi)與一殘基對(duì)應(yīng)的所有偏移j,但排除對(duì)應(yīng)于最后一個(gè)殘基的偏移。對(duì)于每個(gè)這樣的j,令F為P的最短子串,它在j處開始且確切包含兩個(gè)殘基。令OL表示Q中由對(duì)應(yīng)于F的散列表?xiàng)l目指向的偏移列表。如果OL不為空,則對(duì)于每個(gè)偏移P∈OL,計(jì)數(shù)器C[p-j+1]被增量1。如果模式P確切包含n個(gè)殘基,則當(dāng)且僅當(dāng)Q在偏移i處匹配P時(shí),在這一過程的結(jié)尾,計(jì)數(shù)器C[i]將有值(n-1)。上面描述的匹配技術(shù)的一個(gè)優(yōu)點(diǎn)是它通常需要的時(shí)間與查詢序列Q的大小呈亞線性關(guān)系,而且只依賴于模式P中的殘基個(gè)數(shù)。
一旦發(fā)現(xiàn)一個(gè)模式P∈П被Q的一個(gè)始于偏移i的子串匹配,我們需要把Q的那個(gè)子串與也和P匹配的所有數(shù)據(jù)庫區(qū)域關(guān)聯(lián)起來。通過掃描確切包含這些區(qū)域的偏移列表LD(P),便能容易地做到這一點(diǎn)。更具體地說,每個(gè)條目(j,k)∈LD(P)指出,第j個(gè)數(shù)據(jù)庫序列Sj的始于偏移k的子串是G(P)的一個(gè)元素。于是,查詢序列Q和數(shù)據(jù)庫序列Sj之間的局部相似性被登錄為一個(gè)四元組(i,j,k,l),稱作片段,它與Sj相關(guān)聯(lián)。數(shù)值l=|P|是局部相似性的長度。
有時(shí),兩個(gè)匹配于Q和數(shù)據(jù)庫序列Sj的不同模式P和P’對(duì)應(yīng)于Q和Sj之間的相同的局部相似性。這種情況的一例示于圖7。在這類情況中,對(duì)應(yīng)于這兩個(gè)模式的各單個(gè)片段必須鏈接成一個(gè)。特別是,當(dāng)且僅當(dāng)k<=k’and k+l+w_len>k’and k’-k=i’-i時(shí),與Sj關(guān)聯(lián)的兩片段(i,j,k,l)和(i’,j,k’,l’),稱作兼容的,這里w_len是由用戶定義的一個(gè)整數(shù)參數(shù),w_len允許鏈接兩個(gè)不交叉的片段,只要一個(gè)的開始位置在另一個(gè)的末尾之后不多于w_len個(gè)位置即可。把(i,j,k,l)和(i’,j’,k’,l’)鏈接在一起得到的片段是(i,j,k,max(l,k’-k+l’))每當(dāng)定位一個(gè)由Q和Sj二者匹配的模式P∈П時(shí),便使一個(gè)新的片段與數(shù)據(jù)庫序列Sj相關(guān)聯(lián),這時(shí)便發(fā)生相容片段的鏈接。如果已經(jīng)存在與Sj關(guān)聯(lián)的片段和新到達(dá)的片段相容,則相關(guān)的一對(duì)新片段和已存在片段被放棄,而由它們鏈接而成的結(jié)果替代。
在識(shí)別出Q和數(shù)據(jù)庫序列之間的所有局部相似性之后,剩下的任務(wù)是評(píng)價(jià)這些相似性。這是通過給每個(gè)與至少一片段相關(guān)聯(lián)的數(shù)據(jù)庫序列Sj賦予一個(gè)評(píng)分(使用由用戶定義的評(píng)分矩陣)來完成的。可有幾種選擇用于評(píng)分功能。本領(lǐng)域的普通技術(shù)人員將會(huì)理解在這里所發(fā)明的技術(shù)的其他評(píng)分方法。
如前所述,一種途徑是單獨(dú)評(píng)分Sj的每一片段,并對(duì)Sj賦予這些評(píng)分中最高的一個(gè)評(píng)分??砂匆韵聝煞N方式之一對(duì)一個(gè)片段(i,j,k,l)評(píng)分不允許空位在這種情況下,由片段中蘊(yùn)含的無空位對(duì)比計(jì)算評(píng)分,即搜索的區(qū)域Q[i,i+l-1]和序列的Sj[k,k+l-1]的對(duì)比。再有,給予用戶以可選功能,即通過設(shè)置變量extend來擴(kuò)展該片段“周圍”的對(duì)比。如果extend值大于零,則由區(qū)域Q[i-extend,i+l-1+extend]和Sj[k-extend,k+l-1+extend]的無空位對(duì)比來計(jì)算評(píng)分。
允許空位這一可選功能只當(dāng)extend>0時(shí)才可用,它通過允許在對(duì)比區(qū)域中存在空位,從而允許對(duì)該片段的周圍區(qū)域進(jìn)行更精細(xì)的評(píng)分。
如前所述,還提供了其他評(píng)分可選功能,其中考慮當(dāng)前被評(píng)分的那些與數(shù)據(jù)庫序列Sj相關(guān)聯(lián)的片段的相對(duì)順序。在如前述對(duì)每個(gè)片段單獨(dú)評(píng)分之后的一個(gè)步驟是構(gòu)成有向加權(quán)圖,如圖8所示。該圖的頂點(diǎn)V是與Sj關(guān)聯(lián)的片段,而且,如果i<=i’和k<=k’則在片段(i,j,k,l)和(i’,j’,k’,l’)之間有一有向線。每個(gè)頂點(diǎn)被賦予一個(gè)權(quán)值,等于相應(yīng)片段的評(píng)分,而每個(gè)邊E根據(jù)以下情況加權(quán)(a)這兩片段的靠近程度,即(i’-i-1)之值;以及(b)這兩片段當(dāng)中的位移規(guī)則程度,即(i’-i)與(k’-k)的差有多大。該圖內(nèi)一個(gè)路徑的評(píng)分是該路徑所有頂點(diǎn)和邊的權(quán)重之和。于是計(jì)算出具有最大評(píng)分的路徑,而把那個(gè)評(píng)分賦予Sj。
現(xiàn)在參考圖9和圖10,它們各自的流程圖概要說明由本發(fā)明的搜索引擎模塊完成的兩個(gè)階片段的實(shí)施例。圖9描述匹配和鏈接階片段的實(shí)施例900,而圖10描述評(píng)分階片段的實(shí)施例1000。
在圖9中,假定數(shù)據(jù)庫D中的每個(gè)序列Sj有一個(gè)相關(guān)聯(lián)的片段列表SegL(Sj)。開始時(shí),所有這些列表都是空的。還有,集合R在開始時(shí)也是空的。隨著圖9的流程圖所描述的計(jì)算的進(jìn)展,由序列Sj使R變大。隨著一個(gè)序列插入R,它帶出了它的片段列表SegL(Sj)。
這樣,對(duì)于П中的每個(gè)模式P(塊902),搜索引擎做下列操作。在步驟904,搜索引擎確定P是否匹配Q。如果否,則進(jìn)到詞典中的下一個(gè)P。如果是,則在步驟906中搜索引擎確定是否已由用戶啟動(dòng)了復(fù)雜度檢驗(yàn)分量。如果它已被啟動(dòng),則在步驟908中,引擎確定P對(duì)Q的匹配是否是低復(fù)雜度匹配(下文中將更詳細(xì)解釋)。如果是,則引擎進(jìn)到詞典中的下一個(gè)P。如果否,則對(duì)P匹配Q所在的所有偏移i(塊910)和對(duì)LD(P)中的所有(j,k)(塊912),引擎進(jìn)行如下操作。在步驟914,它把片段(i,j,k,|P|)與SegL(Sj)中的任何相容片段鏈接。然后,引擎把結(jié)果加到SegL(Sj)中。
在步驟916中,引擎確定Sj是否在R中。如果是,則引擎返回步驟914。如果否,則引擎把Sj和SegL(Sj)加入R中。對(duì)P匹配Q的所有偏移i和對(duì)LD(P)中的所有(j,k)進(jìn)行步驟914至916。對(duì)模式詞典中的每個(gè)P重復(fù)整個(gè)過程(步驟904至916)。
因?yàn)槠ヅ浜玩溄右呀?jīng)完成,搜索引擎實(shí)行評(píng)分操作(圖10)。于是,在步驟1006中,對(duì)R中所有序列Sj(塊1002)和對(duì)Sj中所有片段(塊1004),引擎對(duì)S計(jì)算片段評(píng)分。然后,在步驟1010,對(duì)R中的所有序列Sj,引擎計(jì)算Sj的序列評(píng)分。最后,在步驟1012,引擎報(bào)告R中的最高評(píng)分以及各自序列評(píng)分所蘊(yùn)含的局部對(duì)比。
再參考圖4,如前所述,搜索引擎模塊110可以包括復(fù)雜度檢驗(yàn)分量(例如圖9的步驟906)。復(fù)雜度檢驗(yàn)分量負(fù)責(zé)拋掉因?yàn)榈蛷?fù)雜度區(qū)域而產(chǎn)生的局部同源性。首先,低復(fù)雜度檢驗(yàn)發(fā)生在兩個(gè)階片段詞典構(gòu)成階片段(“詞典構(gòu)成”部分)以及搜索階片段(本部分)。
在詞典構(gòu)成階片段,低復(fù)雜度區(qū)域被以兩種方式處置。首先,當(dāng)在輸入數(shù)據(jù)庫中尋找模式時(shí),我們放棄(即從輸入中去掉)那些含有L個(gè)或更多個(gè)連續(xù)出現(xiàn)的同一氨基酸的所有蛋白質(zhì)區(qū)域(L是在詞典構(gòu)成階片段設(shè)置的一個(gè)整數(shù)參數(shù);對(duì)于我們這里的目的,假定它有某一固定值就足夠了)。這就考慮了如下面用黑體表示的低復(fù)雜度區(qū)域(點(diǎn)點(diǎn)表示在所列串的左和右還有多個(gè)氨基酸)……ASDFHRTYIUSFFFFFFFFFFFFFFFFFFAKJRBVCJ……然而,這只是低復(fù)雜度區(qū)域的一種情況。還存在許多情況,例如考慮如下區(qū)域的黑體部分GFWRETIOJIFPAPAPAPAPAPAPAPAPAPAPAPAJSHDGF為處置那種區(qū)域(即具有廣義重復(fù)組合的區(qū)域),我們還放棄一個(gè)給定模式P的所有重疊出現(xiàn)。換言之,如果模式P在偏移k1和k2(這里k2>k1)處匹配數(shù)據(jù)庫序列Sj,而且k2-k1小于P的長度,則不論這哪一個(gè)偏移都不被放入模式P的偏移列表LD(P)中。例如,在上述區(qū)域中,模式“P.P.PA”有長度6,(除了其他位置外,還)出現(xiàn)在偏移12和14處,即在重疊的位置,因?yàn)?4-12=2,而2<6。
在現(xiàn)在的搜索引擎階片段,我們有兩種方式捕獲和拋棄低復(fù)雜度同源性。第一種方式是對(duì)上面給出的例子一般化。簡(jiǎn)言之,我們想要拋棄“語言不豐富”的所有模式,即它們表現(xiàn)出對(duì)一個(gè)特定氨基酸的過度表現(xiàn)。為此目的,我們?cè)试S用戶設(shè)置一個(gè)參數(shù)V之值(0和1之間的一個(gè)實(shí)數(shù))。只有當(dāng)P的一個(gè)變率V(P)不大于V值時(shí),匹配于查詢序列Q的模式P才會(huì)被進(jìn)一步考慮。具體地說,對(duì)于每個(gè)模式P,我們定義它的變率V(P)為 即使通過了上述變率檢驗(yàn),還有第二級(jí)檢驗(yàn)。這第二級(jí)試圖捕獲低復(fù)雜度的一種更難捉摸的表示。為理解是怎樣做的,考慮如下實(shí)例。讓我們假定搜索蛋白質(zhì)Q是如下簡(jiǎn)單串Q=FQGDSAAABBBBAABBSJIEKL并讓我們考慮模式P=“A…B..AB”。該模式在偏移7處與該序列匹配,如下所示A…B..ABFRGDSAAABBBBAABBSJIEKL該匹配區(qū)域及其直接鄰近的周圍區(qū)域是低復(fù)雜度區(qū)域(它只由‘A’和‘B’組成)。然而,模式P的變率只為0.5。為處置有這種字符的低復(fù)雜度區(qū)域,我們?cè)试S用戶定義整數(shù)margin和min_m(這里min_m<=2*margin)以及一個(gè)百分?jǐn)?shù)perc。于是,我們?cè)趯?shí)際匹配位置(這里是搜索的偏移7)左側(cè)margi個(gè)字符和右側(cè)的margin個(gè)字符當(dāng)中檢驗(yàn)所考慮模式(這里是模式“A…B..AB”)的近似匹配。如果當(dāng)把模式P放置在一個(gè)給定的偏移處,在該模式中有規(guī)則字符的至少perc%匹配于該搜索的基礎(chǔ)字符,則模式P在該搜索的這給定偏移處近似匹配。例如,如果perc=75%,則模式“A…B..AB”在偏移6和8處近似匹配Q,如下列所示A…B..ABFRGDSAAABBBBAABBSJIEKL(在偏移6)A…B..ABFRGDSAAABBBBAABBSJIEKL (在偏移8)因?yàn)樵谶@兩個(gè)偏移處,每個(gè)有模式規(guī)則字符的75%(即4個(gè)中的3個(gè))匹配于相應(yīng)的搜索字符。在定義了參數(shù)margin、min_m和perc,我們現(xiàn)在可以說,在這一級(jí)檢測(cè)過程中何時(shí)一個(gè)導(dǎo)出搜索和數(shù)據(jù)庫區(qū)域之間局部同源性的模式被認(rèn)為是低復(fù)雜度的??紤]在偏移X處匹配搜索Q的模式P和在偏移Y處的一個(gè)數(shù)據(jù)庫序列S。如果以下兩個(gè)條件中任何一個(gè)為真,則認(rèn)為這種匹配是低復(fù)雜度的,這兩個(gè)條件是(ⅰ)在X的左側(cè)2*margin個(gè)字符和右側(cè)2*margin個(gè)字符的至少min_m個(gè)中該模式近似匹配于搜索Q;或(ⅱ)在Y的左側(cè)2*margin個(gè)字符和右側(cè)2*margin個(gè)字符的至少min_m個(gè)中該模式近似匹配于序列S。Ⅲ.詞典構(gòu)成如前文提到的那樣,在一個(gè)最佳實(shí)施例中,詞典構(gòu)成方法是在搜索引擎從用戶接收一個(gè)查詢序列之前完成的。再參考圖1,這是因?yàn)?,搜索引擎模塊110最好利用詞典構(gòu)成模塊130構(gòu)成的模式詞典120。詞典構(gòu)成模塊130實(shí)現(xiàn)本發(fā)明的數(shù)據(jù)庫處理方法(下文中解釋)以構(gòu)成模式字曲(或稱生物學(xué)詞典)。然而,也如前面提到的那樣,模式字曲120可以由不同于這里所述的搜索引擎使用。就是說,現(xiàn)有的搜索引擎可以利用根據(jù)本發(fā)明從一源數(shù)據(jù)庫中挖掘出來的模式。盡管如此,根據(jù)一個(gè)最佳實(shí)施例,將假定根據(jù)這里描述的本發(fā)明方法構(gòu)成的模式詞典將被也是這里描述的本發(fā)明搜索引擎所使用。
在詞典構(gòu)成階片段(也稱作信息收集階片段),確定所考慮的數(shù)據(jù)庫D中發(fā)現(xiàn)的所有顯著的(L,W)模式的集合П。這實(shí)質(zhì)上是一個(gè)數(shù)據(jù)挖掘過程,其中D被用于發(fā)現(xiàn)在D的序列當(dāng)中隱含的關(guān)系。其想法集中于那樣一些關(guān)系,它們被認(rèn)為是沒有預(yù)料到的,而且由于那種特性,它們也被認(rèn)為是生物學(xué)上相關(guān)的。為了我們的目的,一個(gè)模式的顯著性將由它在D內(nèi)的支持度來描述。更具體地說,我們將試圖定義數(shù)據(jù)值Kmin(最小支持度)使得具有支持度至少為Kmin的每個(gè)模式能表現(xiàn)為統(tǒng)計(jì)學(xué)上是重要的。所有這些模式(以及少數(shù)例外,它們不能遵從最小支持度要求)將被包括在集合П中,作為向搜索階片段的輸入。
請(qǐng)回憶一下,Kmin的概念首先是在前面的“定義”一節(jié)中引入的。同樣,“密度”的概念也是在那里引入的。請(qǐng)回憶一下,密度描述G(p)的兩個(gè)成員之間同源性的最小量(這里G(p)是指構(gòu)成所有串的多肽語言,這些串能通過以∑中的任意殘基替代每個(gè)不必關(guān)心字符來從P中得到),并且是由兩個(gè)整數(shù)L和W(L≤W)定義的如果P中以一個(gè)氨基酸起始和終止并有長度至少為W的每個(gè)子串包含L或更多個(gè)殘基,則稱模式P有一<L,W>密度。再有,它些參數(shù)也是在上面納入的美國專利申請(qǐng)09/023,756中描述過,該申請(qǐng)于1998年2月13日提交,是針對(duì)“TEIRESIAS”算法的。
盡管本發(fā)明的一個(gè)最佳方法在構(gòu)成模式詞典П時(shí)使用了參數(shù)L和W,但應(yīng)該理解,用于確定一組序列的任何兩個(gè)成圓間同源性最小量的其他已知技術(shù)也能利用。
設(shè)定參數(shù)L、W和Kmin之值涉及到要考慮若干個(gè)有時(shí)是相互沖突和相互關(guān)聯(lián)的因素。例如,比值L/W描述在搜索階片段所允許的查詢序列和D中蛋白質(zhì)同源性量。小L/W將允許檢測(cè)弱相似性。因?yàn)槿舾蓚€(gè)值對(duì)(L,W)都能導(dǎo)致相同比值L/W,那么L和W的確切設(shè)置應(yīng)該是什么呢 選擇大的L值通常會(huì)造成信息收集階片段運(yùn)行時(shí)間長(除非L/W接近于1)。再有,選擇大的L會(huì)忽略只有少數(shù)氨基酸的弱模式,而這些又是感興趣的模式(即通常被現(xiàn)有相似性搜索工具漏掉的那些)。反之,選擇太小的L(例如2或3)則可能是無用的,因?yàn)樵谀欠N情況下,在輸入數(shù)據(jù)庫D中有L+i個(gè)殘基(對(duì)于小i)的(L,W)模式的分布與具有D的氨基酸組成的一個(gè)隨機(jī)數(shù)據(jù)庫中的相應(yīng)分布沒有顯著區(qū)別。在最一般的情況中,應(yīng)該理解,L、W和Kmin之值能完全任意地選擇。然而,為了充分保證所發(fā)現(xiàn)的模式很好地超過統(tǒng)計(jì)學(xué)噪聲水平,我們以一種統(tǒng)計(jì)學(xué)構(gòu)架(即設(shè)置上述參數(shù)的一種方式)來擴(kuò)展模式發(fā)現(xiàn)過程。
為使上述之點(diǎn)更加清楚,考慮圖11,它把稱為SwissProt Rel.34或SP34的一個(gè)測(cè)試數(shù)據(jù)庫(見A.Bairoch和R.Apweiler的“SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫及其在1998年中的補(bǔ)充TrEMBL,”核酸研究,2638-42,1998)中的模式分布與相應(yīng)的隨機(jī)分布進(jìn)行比較。圖11描述了SP34中具有給定主干結(jié)構(gòu)的模式分布(該分布由符號(hào)“○”表示)和與同一主干的隨機(jī)分布(該分布由符號(hào)“+”表示)進(jìn)行的比較。請(qǐng)回憶一下,主干的概念是在前文“定義”一節(jié)中首先引入的。在曲線中的一點(diǎn)(X,Y)標(biāo)明,存在(該給定主干結(jié)構(gòu)的)確切的Y個(gè)模式,這些模式每個(gè)有X個(gè)支持度,即它由確切的X個(gè)不同的數(shù)據(jù)庫序列來匹配。這里所示結(jié)果是使用SP34的一個(gè)“清除過的”版本得到的(下文中將解釋對(duì)一數(shù)據(jù)庫的清除)。對(duì)于SwissProt,我們計(jì)算每個(gè)具有確切的L個(gè)殘基的<L,W>模式的支持度(對(duì)于圖11中所示L、W值)。然后,其結(jié)果制成表,對(duì)每個(gè)可能的主干建立一行;與給定主干B對(duì)應(yīng)的行的第ⅰ列指出在SwissProt內(nèi)具有支持度ⅰ的(那個(gè)主干結(jié)構(gòu)的)模式個(gè)數(shù)。隨機(jī)分布是嚴(yán)格遵循同樣的途徑對(duì)SwissProt的N=2000個(gè)隨機(jī)混合版本得到的(圖13描述借以得到每個(gè)混合版本的混合過程)。在這種情況下,給定主干B的行是對(duì)所有這2000個(gè)表中與B對(duì)應(yīng)的行的平均。結(jié)果,第ⅰ列給出具有SwisProt殘基組成的隨機(jī)數(shù)據(jù)庫內(nèi)確切的ⅰ個(gè)序列中出現(xiàn)的具有主干B的模式平均個(gè)數(shù)的足夠準(zhǔn)確的估計(jì)值。在圖11中,我們針對(duì)相同主干的平均值分布畫出選定主干的SwissProt結(jié)果。雖然所呈現(xiàn)的結(jié)果涉及特定的主干,但若使用其他主干也不會(huì)有質(zhì)的改變。
請(qǐng)注意,我們?cè)谑褂?000個(gè)樣點(diǎn)(輸入數(shù)據(jù)庫的隨機(jī)混合版本)。這只是為了演示。原則上講,樣點(diǎn)的個(gè)數(shù)可以任意設(shè)定。一般而言,隨著這種樣點(diǎn)數(shù)的變大,我們所得到的估計(jì)值能更準(zhǔn)確地收斂到它們的真值。對(duì)于要計(jì)算的估計(jì)值給出任何所希望的置信水平,便能使用標(biāo)準(zhǔn)的統(tǒng)計(jì)學(xué)理論來決定應(yīng)使用多少樣點(diǎn)。
如圖11中可以看出的,只有當(dāng)L變?yōu)?或更大時(shí),我們才能開始區(qū)分出相對(duì)于隨機(jī)數(shù)據(jù)庫而言在SwissProt中的組成偏倚(利用模式表示)。一般而言,L值將依賴于下層數(shù)據(jù)庫D的大小數(shù)據(jù)庫越大,該值應(yīng)越高。所示關(guān)于SwissProt的結(jié)果是使用L=6得到的。對(duì)于W,我們選值15,于是比值L/W(即最小允許的同源性)是40%。
設(shè)定L和W值之后,剩下的是決定最小支持度Kmin。我們只集中于具有確切L個(gè)殘基的模式,因?yàn)?,每個(gè)更大的模式包含至少一個(gè)具有確切的那么多氨基酸的子模式。一個(gè)途徑是選擇Kmin,從而使一個(gè)模式出現(xiàn)在Kmin個(gè)或更多個(gè)不同序列中的概率為小值。當(dāng)然,更仔細(xì)地觀察圖11(d)會(huì)發(fā)現(xiàn)這一途徑可能是太嚴(yán)格了。具體而言,考慮K=15的支持度水平。隨機(jī)分布表明,若只靠偶然性則可預(yù)期有1至2個(gè)模式具有支持度K。所以,根據(jù)前述標(biāo)準(zhǔn),在SwissProt內(nèi)的具有支持度15的一個(gè)模式應(yīng)被認(rèn)為是不重要的。然而,這兩種分布在那個(gè)支持度水平上有驚人的差異。特別是,盡管在K=15處的隨機(jī)分布均值為1.5左右,但在SwissProt中,有大約180個(gè)模式具有支持度15。
于是,情況似乎是這樣如果弧立地考慮一個(gè)模式的概率,那么根據(jù)上述分布,其結(jié)果是將會(huì)拋掉許多處在噪聲水平以上的模式。這一觀測(cè)促使我們使用關(guān)于顯著性的一種不同的標(biāo)準(zhǔn)。
現(xiàn)在參考圖12至圖15,我們給出流程圖以說明確定顯著性標(biāo)準(zhǔn)的一種最佳途徑。就是說,我們提供一種計(jì)算Kmin的方法。當(dāng)給定Kmin值時(shí),便能通過把源數(shù)據(jù)庫中所有的至少以Kmin值作為支持度的模式包括在其中來構(gòu)成模式詞典П。這樣,可以理解,圖1中的詞典構(gòu)成模塊130可實(shí)現(xiàn)圖12至圖15描述的過程。
一般而言,在我們的途徑中,我們不去考慮單個(gè)模式,而是一起考慮具有一特定主干結(jié)構(gòu)的所有模式。更具體地說,對(duì)于任何給定的主干B和一下伏數(shù)據(jù)庫D,令NB,K為NB,K=在D內(nèi)具有主干B且有支持度K的模式個(gè)數(shù)同樣,令NB,K為和NB,K對(duì)應(yīng)的隨機(jī)變量(定義在D的所有混合版本空間上)。于是,最小支持度Kmin是使下列不等式成立的第一個(gè)數(shù)Kmax{Pr[XB,K≥NB,K]}≤threshold這里,threshold是為把一置信水平加到由上列不等式給出的最小支持度Kmin上而由用戶定義的一個(gè)概率。一個(gè)較小的threshold(閾值)會(huì)導(dǎo)致一個(gè)較大的Kmin值,還會(huì)導(dǎo)致最終選擇的模式有更大的統(tǒng)計(jì)學(xué)重要性。
這樣,作為確定顯著性標(biāo)準(zhǔn)Kmin的過程的輸入,我們有源數(shù)據(jù)庫D、整數(shù)參數(shù)L和W、與樣本數(shù)對(duì)應(yīng)的整數(shù)N以及介于0和1之間的一個(gè)實(shí)數(shù)值的threshold(閾值)。當(dāng)然,作為過程的輸出,我們得到整數(shù)Kmin使得D中具有支持度Kmin或更大值的所有模式在統(tǒng)計(jì)學(xué)上是重要的,所以被包括在模式詞典中,一旦收到用戶的搜索,該模式詞典便被搜索。
下面對(duì)流程圖的解釋使用各種符號(hào),其中一些已在上文中引入。然而,為清楚起見,應(yīng)用如下定義。如果給定任何模式P,則P的主干B(P)定義為{1,0}上的串,它是把P的每個(gè)規(guī)則字符用‘1’,代替,把P的每個(gè)不必關(guān)心字符用‘0’代替而得到的,例如,如果P=A..F.G..R,則B(P)=100101001。如果B是一個(gè)任意主干,而P是一個(gè)模式而且B(P)=B,則我們說P是一個(gè)B-模式。于是,說NB,K是D中具有支持度K的B-模式個(gè)數(shù),XiB,K是在第i個(gè)隨機(jī)數(shù)據(jù)庫中具有支持度K的B-模式的個(gè)數(shù)。而mB,K是所有的XiB,K平均值,SB,K是所有XiB,K的方差。應(yīng)該理解,由于我們對(duì)隨機(jī)變量XB,K的分布沒有任何分析性描述,所以我們利用標(biāo)準(zhǔn)的采樣技術(shù)。這樣,對(duì)于給定的數(shù)據(jù)庫D,我們能對(duì)隨機(jī)變量XB,K的平均值(均值)mB,K和方差(偏差)SB,K二者在實(shí)驗(yàn)上計(jì)算出準(zhǔn)確的點(diǎn)估計(jì)值。
首先參考圖12,整個(gè)過程1200以對(duì)D運(yùn)行TEIRESIAS算法(即如前面描述的,并在上文中納入的序列號(hào)為09/023,756號(hào)美國專利申請(qǐng)(1998年2月13日提交)中描述的和計(jì)算NB,K(步驟1202)開始。盡管TEIRESIAS算法是優(yōu)選算法,但應(yīng)該理解,使用其他傳統(tǒng)技術(shù)也可計(jì)算NB,K。然后,對(duì)i=1至N(塊1204),進(jìn)行下列步驟。
在步驟1206,產(chǎn)生一個(gè)隨機(jī)數(shù)據(jù)庫R_Di。在圖13的內(nèi)容中對(duì)這一步驟作進(jìn)一步解釋。如在過程1300中所示,R_Di(塊1302)是對(duì)D中每個(gè)序列S(塊1304)計(jì)算S中字符的隨機(jī)排列(步驟1306)。對(duì)S中字符的隨機(jī)排列稱作S’。S’被加到R_Di中(步驟1308)。這一過程重復(fù)進(jìn)行,直至D中每個(gè)序列S都被處理為止(塊1310)。這樣。R_Di包括所有隨機(jī)排列S’。返回圖12,在步驟1208,對(duì)R_Di運(yùn)行TEIRESIAS,以計(jì)算XiB,K。步驟1206至1208是對(duì)所有i進(jìn)行的,即直至i=N(塊1210)。
然后,對(duì)每個(gè)B、K(塊1212),我們使用XiB,K來計(jì)算mB,K和SB,K。在圖14的內(nèi)容中對(duì)這一步驟作進(jìn)一步解釋。如在過程1400中所示。SB,K首先置0(步驟1402)。然后,對(duì)于i=1至N(塊1404),計(jì)算SB,K作為SB,K與XiB,K之和(步驟1406)。這一過程對(duì)所有i重復(fù)進(jìn)行(塊1408),最好由N除SB,K計(jì)算出SB,K(步驟1410)。然后,在步驟1412至1420計(jì)算偏倚mB,K。首先,在步驟1412,mB,K首先置0。然后,對(duì)i=1到N(塊1414),計(jì)算mB,K作為MB,K(XiB,K-SB,K)2之和(步驟1416)。這一過程對(duì)所有i重復(fù)進(jìn)行(塊1418)。最后由N除mB,K計(jì)算出偏倚mB,K(步驟1410)。
返回圖12,在步驟1216,現(xiàn)在用mB,K和SB,K計(jì)算PB,K。在圖15的內(nèi)容中對(duì)這一步驟作進(jìn)一步解釋。如過程1500中所示,在步驟1502中定義一個(gè)實(shí)數(shù)C,使得NB,K=(mB,K+1.96SB,KN(1+1.962N))+C(SB,K1+1.962N)]]>這里N代表樣本或試驗(yàn)的具體次數(shù),例如2000。這樣,在步驟1504,計(jì)算出PB,K等于1C2]]>。應(yīng)該理解,PB,K是概率Pr[XB,K>NB,K]的上限。這樣,概括起來,我們使用XB,K的采樣均值和偏差來對(duì)手頭的NB,K值計(jì)算C。應(yīng)該理解,如在統(tǒng)計(jì)學(xué)學(xué)領(lǐng)域公知的那樣,常數(shù)C是和切比雪夫(chebychev)不等式相關(guān)聯(lián)的。請(qǐng)注意,常數(shù)C是用95%置信水平計(jì)算出的,然而這不是一個(gè)要求。就是說,任何其他值也是可應(yīng)用的。
返回圖12,對(duì)每個(gè)B、K重復(fù)步驟1214(圖14)和1216(圖15)。然后,在步驟1220。Kmin被確定為使maxB{PB,K}≤threshold的最小K。在下一節(jié)中呈現(xiàn)的測(cè)試情況(SwissProt.Rel.34)中,所選擇的threshold值是Kmin=15,即其支持度水平是靠偶然性所期望的給定主干結(jié)構(gòu)的模式只有1.5個(gè)。存在一種折衷我們希望允許有少量由模式導(dǎo)出的局部相似性可能是偶然性的結(jié)果(上文中的1.5個(gè)模式),以便能捕獲在SwissProt內(nèi)存在的在那同樣支持度水平上由其他模式蘊(yùn)含的許多統(tǒng)計(jì)學(xué)上重要得多的相似性。
在下一節(jié)中提供一些實(shí)驗(yàn)結(jié)果之前,我們首先解釋在進(jìn)行本發(fā)明的詞典構(gòu)成方法之前清除一數(shù)據(jù)庫的概念,這一過程在圖16中描述,它也可以由圖1的詞典構(gòu)成模塊130來實(shí)現(xiàn)。若干數(shù)據(jù)庫包括一些高同源性序列組(例如血紅蛋白α-鏈蛋白質(zhì))。這些組不僅通過引入巨大數(shù)量的模式使得模式發(fā)現(xiàn)過程減慢,而且它們還能虛假地提高一個(gè)模式的顯著性。這發(fā)生于那樣一些模式,它們?cè)谝粋€(gè)高同源性序列家族內(nèi)出現(xiàn)多次都只偶而出現(xiàn)在其外部。
為對(duì)付這些問題,在模式發(fā)現(xiàn)過程開始之前可使數(shù)據(jù)庫被“清除”。如圖16所示,清除過程1600涉及識(shí)別高相似性蛋白并將它們組合成組(步驟1602)。如果兩個(gè)序列在最佳對(duì)比后,較短者有其位置的X%(例如50%)與較長序列的那些位置完全相同,則把這兩個(gè)序列放在同一組。所得到的組稱作冗余組。將對(duì)其進(jìn)行信息收集過程的集合D’包含(a)在D中那些未被發(fā)現(xiàn)與其他蛋白質(zhì)有足夠同源性的序列;以及(b)來自每個(gè)冗余組的最長序列(步驟1604)。最后,每個(gè)冗余組由TEIRESIAS算法單獨(dú)處理(步驟1606),收集模式,直至該組的所有序列匹配于這些模式的至少一個(gè)。這一途徑通過對(duì)每個(gè)結(jié)構(gòu)域產(chǎn)生至少一個(gè)模式,從而保證即使是含有多結(jié)構(gòu)域蛋白質(zhì)的組也能被正確處置。值得指出的是,由處理冗余組所得到的模式通常是相當(dāng)致密(殘基數(shù)要比不必關(guān)心字符數(shù)大得多)和長的。這是組序列高同源性的結(jié)果。對(duì)于這類模式,我們?cè)试S在搜索過程中近似匹配。Ⅳ實(shí)驗(yàn)結(jié)果在這一節(jié),我們討論與本發(fā)明最佳實(shí)施例相聯(lián)系的實(shí)驗(yàn)結(jié)果。就是說,下述結(jié)果是以SwissProt Rel.34作為測(cè)試數(shù)據(jù)庫,實(shí)現(xiàn)前面詳細(xì)解釋的詞典構(gòu)成(信息收集)和搜索引擎這兩種方法所產(chǎn)生的。在下面的第一小節(jié)(A)中,通過分析對(duì)于SwissProt這些模式能達(dá)到的復(fù)蓋程度和給它們當(dāng)中最頻繁發(fā)生的模式作評(píng)注,來給出對(duì)信息收集階片段發(fā)現(xiàn)的模式的定量和定性描述。在下面的第二小節(jié)(B)中,我們對(duì)若干個(gè)查詢序列給出搜索階片段的結(jié)果。A.信息收集對(duì)SwissProt的處理始于上一節(jié)中描述的對(duì)它的清除。圖17中詳細(xì)給出這一過程的結(jié)果。對(duì)SwissProt的清除過程產(chǎn)生出9,165個(gè)高相似性序列冗余組。通過從原始輸入中去掉高相似性序列,然后再向其中加入每個(gè)冗余組中的最長序列來擴(kuò)大所得到的集合,由此構(gòu)成清除后的數(shù)據(jù)庫(這是信息收集階片段將對(duì)其進(jìn)行操作的數(shù)據(jù)庫)。
在得到清除后的數(shù)據(jù)庫之后,要使TEIRESIAS對(duì)它進(jìn)行工作,所需要做的就只有設(shè)置參數(shù)L、W和Kmin之值。如已經(jīng)解釋的那樣,我們使用的設(shè)置是L=6和W=15。再有,在這里所報(bào)告的結(jié)果中,在偏差計(jì)算中我們選擇threshold值為10-11和置信水平95%。對(duì)這些設(shè)置計(jì)算出的Kmin值是15。以上面指定的L、W和Kmin值,對(duì)清除后的數(shù)據(jù)庫運(yùn)行TEIRESIAS,產(chǎn)生由534,185個(gè)模式構(gòu)成的集合П。
挖掘清除后的數(shù)據(jù)庫只是信息收集的第一步。還必須對(duì)9,165個(gè)冗余組應(yīng)用模式發(fā)現(xiàn)過程。我們?cè)僖淮问褂肨EIRESIAS處理每個(gè)冗余組,收集足夠的<6,15>模式,以保證組中的每個(gè)序列匹配至少一個(gè)模式。然后,把這些模式加到集合П中,以構(gòu)成最終的模式集合П,它將用于搜索階片段。圖18提供了由這些模式達(dá)到的對(duì)整個(gè)SwissProt Rel.34復(fù)蓋程度的信息。由一個(gè)模式所復(fù)蓋的數(shù)據(jù)庫區(qū)域是確切地匹配于該模式的那些子串。請(qǐng)注意,對(duì)于致密且長的模式(大多數(shù)來自對(duì)冗余組的處理),我們已允許近似匹配,這里,模式的‘大部分’(具體地說,該模式殘基的80%)被一個(gè)區(qū)域匹配。值得指出的是,大部分未被復(fù)蓋的序列是片段。更具體地說,只有231個(gè)序列的大小超過50。圖19給出П中模式的下列字符的分布(ⅰ)SwissProt Rel.34模式的長度;和(ⅱ)氨基酸或殘基的個(gè)數(shù)。
如圖18中舉例說明的那樣,搜索階片段的成功所要追尋的關(guān)鍵目標(biāo)之一已經(jīng)實(shí)現(xiàn)。剩下要回答的問題是所發(fā)現(xiàn)的模式是否是生物學(xué)相關(guān)的。在解決這一所關(guān)注的問題的一種努力中,我們分析了這些模式中最頻繁發(fā)生的模式。圖20中給出所得到的評(píng)注。從這一分析中看出,顯然(至少對(duì)被檢驗(yàn)過的模式)。模式發(fā)現(xiàn)過程識(shí)別出的序列特性在生物學(xué)上是重要的。
圖20顯示出100個(gè)具有最高支持度的模式。每當(dāng)可能時(shí),在一類中的模式便彼此對(duì)比。為了方便,對(duì)下列括號(hào)內(nèi)的表達(dá)式使用小寫斜體黑體字母a[STGDAR],b[STGDK],c[STGDKY],d[STGK],e[GASMDL],f[GISETV],g[LIVMFY],h[LIVMF],i[LIVMA],j[LIVMC],k[LIVMF],l[ILVMF],m[QKCS],n[KRQA],o[IVTNF],p[QKCASN],q[QKIAGN],r[RKAHQN],s[KRQNE],t[KRQMN],u[LFYIMS],以及v[AGSPE]。括號(hào)指出的位置是可由括號(hào)內(nèi)的任何一個(gè)殘基占據(jù)的位置。
應(yīng)該理解,并非所有被發(fā)現(xiàn)的模式顯示出這種清楚的功能特性。它們當(dāng)中有一些對(duì)應(yīng)的區(qū)域(例如環(huán)形體、卷曲螺旋體、跨膜區(qū)在傳統(tǒng)上認(rèn)為至少對(duì)于功能上評(píng)注一個(gè)蛋白質(zhì)是不重要的。盡管有時(shí)這種弱的相似性能對(duì)表征蛋白質(zhì)區(qū)域提供有用的線索。我們已經(jīng)實(shí)現(xiàn)了兩種機(jī)制,它們?cè)试S利用這一潛力。首先,向用戶提供被查詢序列匹配的所有模式的列表。一個(gè)專家用戶在大多數(shù)情況中將能識(shí)別出哪些模式在生物學(xué)上是重要的。然后,對(duì)一特定模式的選擇將導(dǎo)致細(xì)化評(píng)分,只集中于由這一模式復(fù)蓋的數(shù)據(jù)庫區(qū)域。第二,當(dāng)下伏數(shù)據(jù)庫包括對(duì)各種數(shù)據(jù)庫序列區(qū)域的評(píng)注時(shí),這評(píng)注與模式結(jié)合使用,以提取有用信息。在下一小節(jié)中將給出使用這兩種機(jī)制的實(shí)例。B.搜索為了舉例說明搜索階片段(和解釋可以如何使用它),我們選擇了兩個(gè)查詢序列。第一個(gè)是研究和評(píng)注得很好的核心組蛋白質(zhì)3蛋白質(zhì)(SwissProt標(biāo)識(shí)H31 HUMAN),而第二個(gè)是尚未被表征的來自Methanococcus Jannaschii的ORF(SwissProt標(biāo)識(shí)YZ 28 METJA)。H31_HUMAN由于核心組蛋白在細(xì)胞內(nèi)包裝DNA中起到中心作用,所以核心組蛋白已經(jīng)是深入研究的對(duì)象。這些小蛋白富含帶有正電荷的氨基酸,它們幫助這些蛋白質(zhì)結(jié)合到帶有負(fù)電荷的DNA雙螺旋體上,見J.D.Watson、N.H.Hopkins、J.W.Roberts、J.Steitz和A.M.Weiner的“基因的分子生物學(xué)”,The Benjamin/Cummings出版公司,第四版,1987。4個(gè)核心組蛋白(H2A、H2B、H3和H4)結(jié)合到一起,成為一個(gè)八聚體結(jié)構(gòu)(使人想起圓柱狀楔形物),它提供基底供146bps長的DNA片片段纏在其周圍,這樣在細(xì)胞染色質(zhì)內(nèi)形成核小體復(fù)合物。
在SwissProt Rel.34數(shù)據(jù)庫中包含33個(gè)序列被評(píng)注為組蛋白3,H31_HUMAN是其中之一,是在人類中發(fā)現(xiàn)的核心組蛋白3蛋白質(zhì)。用我們的同源性檢測(cè)工具搜索這一序列的最高評(píng)分結(jié)果列表于圖21。在每個(gè)序列旁邊給出那個(gè)序列和H31_HUMAN之間最高評(píng)分局部對(duì)比的相似性評(píng)分。在圖21中提到的評(píng)分是用PAM 130矩陣得到的(見M.O.Dayhoff、R.M.Schwartz和B.C.Orcutt的“蛋白質(zhì)中進(jìn)化變化的一個(gè)模型”,蛋白質(zhì)序列和結(jié)構(gòu)圖集,5345-352,1978),而且來自數(shù)據(jù)庫的每個(gè)匹配序列被賦予其最高評(píng)分片段的評(píng)分。
在SwissProt Rel.34中的全部33個(gè)核心組蛋白3都被正確地識(shí)別為與H31_HUMAN有同源性。再有,還發(fā)現(xiàn)若干其他蛋白質(zhì)(YB21 CAEEL,CENA HUMAN,CSE4-YEAST,YL82_CAEEL,CENA BOVIN,YMH3_CAEEL)與H31_HUMAN有廣泛的局部相似性。對(duì)這些蛋白質(zhì)的評(píng)注進(jìn)行的考察表明,它們是已知組蛋白3樣蛋白質(zhì)。作為最后說明,H3_NARPS(一種已知的組蛋白3)只是作為片片段出現(xiàn)在SwissProt的第34版內(nèi),這是它在結(jié)果列表中評(píng)分最低的理由。
圖22是對(duì)查詢序列H31_HUMAN產(chǎn)生的對(duì)比的所選視圖(高評(píng)分和低評(píng)分二者)。在圖22中,顯示了H31_HUMAN與高相似性(H3_YEAST)和中等相似性(CENA HUMAN)蛋白質(zhì)的局部對(duì)比。對(duì)于每個(gè)序列,報(bào)告了若干個(gè)局部相似性。在每個(gè)這種相似性中,相關(guān)的搜索(“Query”)和數(shù)據(jù)庫序列(“Seq”)區(qū)域一個(gè)列在另一個(gè)之下,使它們之間有造成的共有序列區(qū)域。我們用字符‘+’指示化學(xué)上類似的氨基酸。YZ28_METJA在某種意義講,H31_HUMAN是一個(gè)容易的測(cè)試情況,因?yàn)樵跀?shù)據(jù)庫中包含若干個(gè)與它有高度同源性的序列。一個(gè)要問的有意義問題是,當(dāng)提供一個(gè)“邊緣序列”時(shí),即對(duì)于沒有已知的同源性存在的序列,我們的方法會(huì)進(jìn)展如何呢 在針對(duì)這一問題的努力中,給該系統(tǒng)提供一個(gè)尚未評(píng)注的序列YZ28_METJA,一個(gè)來自M.jannashii基因組的具有1272個(gè)殘基的開放閱讀框。
圖23描述了當(dāng)提供查詢序列YZ28_METJA時(shí)由我們的系統(tǒng)產(chǎn)生的最高評(píng)分對(duì)比。所用的突變矩陣是PAM130。
為了在功能上評(píng)注YZ28_METJA,上面提到的結(jié)構(gòu)并不是很有啟發(fā)意義,因?yàn)閿?shù)據(jù)庫線索涉及相當(dāng)多樣的蛋白質(zhì)頭兩個(gè)(NTNO_HUMAN,NOTO_BOVIN)是依賴于鈉和去甲腎上腺素轉(zhuǎn)運(yùn)蛋白,而最后一個(gè)(KAPL_APLCA)是一個(gè)激酶。
把這些問題記在心中,我們進(jìn)行了對(duì)YZ28_METJA和數(shù)據(jù)庫序列之間相似性的更仔細(xì)檢查。為了進(jìn)行這種分析,匹配YZ28_METJA的每個(gè)模式被單個(gè)地仔細(xì)檢查。應(yīng)該理解,本發(fā)明的搜索階片段允許用戶選擇與手頭的查詢序列匹配的任何模式并集中于由那個(gè)特定模式單獨(dú)導(dǎo)出的局部對(duì)比,而不管所有其他模式如何。這一特性被用于由YZ28_METJA匹配的每個(gè)模式。其意圖是發(fā)現(xiàn)任何這類模式是否是一個(gè)特定的蛋白質(zhì)家族所特異的,從而給出關(guān)于YZ28_METJA功能性的線索。
如所產(chǎn)出的那樣,存在三個(gè)模式(即模式“Y..S..I…DLK”,“NIL……IKL”和“I.H.DLK……D”),它們對(duì)于激酶家族是很特異的。圖24描述了對(duì)它們當(dāng)中的第一個(gè)所產(chǎn)生的最高評(píng)分對(duì)比當(dāng)中的少數(shù)幾個(gè),即對(duì)于查詢序列YZ28_METJA由模式“Y..S..I…DLK”導(dǎo)出的最高評(píng)分局部對(duì)比。所用的突變矩陣是PAM 130。圖25含有包含那個(gè)特定模式的所有數(shù)據(jù)庫序列的列表。圖26和27給出對(duì)其余二個(gè)模式的相應(yīng)列表。圖28提供了(a)被YZ28_METJA匹配的所有模式的分布和(b)被這三個(gè)激酶特異模式復(fù)蓋的區(qū)域的圖形表示。
圖示“Y..S..I…DLK”在SwissProt中產(chǎn)生24個(gè)命中。所有這些蛋白質(zhì)(除了NABA_PAT是一個(gè)鈉/膽汁酸協(xié)同轉(zhuǎn)運(yùn)蛋白外)都被評(píng)注為蛋白激酶(其中兩個(gè),即KD82_SCHPO和KKK1_YEAST,被表征為推定的/可能的激酶),其大多數(shù)屬于絲氨酸/蘇氨酸激酶家族或表現(xiàn)出與該家族的相似性。再有“Y..S..I…DLK”不僅屬于這些蛋白質(zhì)的激酶域,而且它實(shí)際上包含那個(gè)域的活性部位(氨基酸D)。
在圖25中,顯示出含有模式“Y..S..I…DLK”的SwissProt Rel.34序列。它們?nèi)辉u(píng)注為蛋白激酶或可能的/推斷的蛋白激酶(幾乎無例外地是絲氨酸/蘇氨酸蛋白激酶的變種)。唯一的例外是蛋白質(zhì)NABA_RAT,它被評(píng)注為鈉/膽汁酸協(xié)同轉(zhuǎn)運(yùn)蛋白。
對(duì)這三個(gè)模式中的第二個(gè),即“NIL……IKL”,所得到的類似結(jié)果示于圖26。在這種情況中,數(shù)據(jù)庫命中的個(gè)數(shù)是34,它們?nèi)且阎?或可能的)蛋白質(zhì)激酶(除了來自酵母和人支原體的兩個(gè)未評(píng)注的ORF(開放閱讀框)。又是絲氨酸/蘇氨酸激酶占大多數(shù)。
最后,第三個(gè)模式“I.H.DLK……D”產(chǎn)生30個(gè)SwissProt Rel.34命中,它們?nèi)际且阎幕蛲贫ǖ牡鞍准っ?。這示于圖27。再有,如這三個(gè)蛋白質(zhì)中第一個(gè)的情況那樣,模式“I.H.DLK……D”包括激酸域的活性部位。
注意到這樣一點(diǎn)是有意義的,即這三個(gè)前面提到的模式是下述一般模式的具體情況(是其中的一部分)[LIVMFYC].[HY].D[LIVMFY]K..N[LIVMFYCT][LIVMFYCT][LIVMEYCT],這里,符號(hào)[XYZ]表明一個(gè)位置可由殘基X、Y、Z中任何一個(gè)占據(jù)。這個(gè)更一般性的模式PROSITE數(shù)據(jù)庫的條目,其訪問號(hào)是PS00108,即絲氨酸/蘇氨酸蛋白激酸活性部位的字符。請(qǐng)注意,這個(gè)PROSITE字符對(duì)于在上面檢查的三個(gè)模式所復(fù)蓋的YZ28_METJA的區(qū)域中提取激酶的催化部位是太特異了。這種情況(用人工智能語言,這種情況稱作訓(xùn)練集的“過表現(xiàn)(overrepresentation)”)是由完全整體的有限子集訓(xùn)練的學(xué)習(xí)系統(tǒng)所具有的典型情況總是存在這樣的危險(xiǎn),即陽性實(shí)例集合(在這種情況中是由PROSITE使用的已知絲氨酸/蘇氨酸激酶的特定集合)是有偏倚的,其結(jié)果是在解釋觀測(cè)時(shí)所學(xué)習(xí)到的字符(這里是激酶字符)的一般化程度對(duì)于有效地外推到所考慮家族的新情況是不夠的(即存在假陰性)。這個(gè)問題的解決辦法是使用盡可能大的訓(xùn)練集,而這正是這里提出的途徑的關(guān)鍵。
如前面提到的,圖28提供了(a)由YZ28_METJA匹配的所有模式的分布和(b)被這三個(gè)激酶特異模式復(fù)蓋的區(qū)域的圖形表示。
在圖28(a)中,(在信息收集階片段中發(fā)現(xiàn)的那些模式當(dāng)中)有410個(gè)模式被YZ28_METJA匹配。如果一個(gè)模式在一殘基位置之前(或在那個(gè)位置)開始并在那個(gè)位置之后(或在那個(gè)位置)結(jié)束,就說該模式“復(fù)蓋”了那個(gè)殘基位置。這張圖對(duì)于每個(gè)殘基位置(X-軸)顯示了有多少模式(Y-軸)復(fù)蓋那個(gè)位置。如圖28(b)中所示,在正文中討論的這三個(gè)激酶模式在偏移35(模式“Y..S..I…DLK”)、112(模式“NIL……ILK”)和1052(模式“I.H.DLK……D”)處匹配該序列。使用已有的評(píng)注在被YZ28_METJA匹配的410個(gè)模式中,只有上面分析過的三個(gè)模式顯示出這種清楚的功能特性。這并不意味著其余407個(gè)是無用的。能從兩個(gè)序列之間的局部相似性中提取出來的生物學(xué)推論的類型并不總是具有功能性特征。有時(shí)同源性指明結(jié)構(gòu)的保守性,而另一些時(shí)候它可能對(duì)應(yīng)于在所比較的序列的總體功能中起到支持度作用的功能單元(例如DNA結(jié)合結(jié)構(gòu)域)。在探索這種較弱相似性的努力中,我們已提供了一種利用下伏數(shù)據(jù)庫中所能得到的評(píng)注的途徑。在下面給出的描述中,我們假定SwissProt評(píng)注格式。
SwissProt數(shù)據(jù)庫伴有大多數(shù)它的序列的序列區(qū)域評(píng)注(FT行,見F.Bairoch和R.Apweiler的“SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫及其在1998年的補(bǔ)充TrEMBL”,核酸研究,2638-42,1998)。一個(gè)典型的區(qū)域描述如同下列那樣FT DOMAIN 528 779 PROTEIN KINASE這里關(guān)鍵字“FT”表明這是區(qū)域描述行,而這一行的其余部分描述該區(qū)域給出它的起始和終止位置(從相關(guān)數(shù)據(jù)庫序列的殘基528到并包括殘基779)以及它的評(píng)注(一個(gè)蛋白激酶域)。
當(dāng)提供一個(gè)模式P時(shí),我們能使用(如已經(jīng)提到的那樣)偏移列表LD(P)去定位數(shù)據(jù)庫中匹配P的所有序列。假定S是這樣的一個(gè)序列,而且在S內(nèi)的偏移j處開始一個(gè)與P匹配的子串。如果P剛好落入S的一個(gè)評(píng)注過的區(qū)域(或者全部地或者部分地),我們便能把這一區(qū)域與P關(guān)聯(lián)起來。對(duì)匹配于P的每個(gè)序列S完成這一過程,便造成與P關(guān)聯(lián)的區(qū)域的集合RSD(P)。圖29給出對(duì)于上面描述的三個(gè)激酶模式之一,由我們的系統(tǒng)產(chǎn)生的輸出的一部分的舉例。就是說,圖29說明了使用SwissProt評(píng)注對(duì)各單個(gè)模式的分析該數(shù)據(jù)庫的一些序列匹配模式“I.H.DLK……D”。對(duì)于每個(gè)這樣的序列,報(bào)告出它的ID和DE行(見A.Bairoch和R.Apweiler的“SWISS-PROT蛋白質(zhì)序列數(shù)據(jù)庫及其在1998年的補(bǔ)充TrEMBL”,核酸研究,2638-42,1998),給出該序列的SwissProt名字和它的功能性的簡(jiǎn)要描述。接下來是該序列內(nèi)的偏移,那是匹配的起始處。最后,對(duì)于和該模式所復(fù)蓋的區(qū)域有交叉的所有評(píng)注過的區(qū)域,有FT行。
現(xiàn)在給定一個(gè)由查詢序列Q的一個(gè)被子序列A匹配的模式P,問題是如何在表征A時(shí)使用RSD(P)。有若干個(gè)途徑可被采用。例如,RSD(P)足夠大,而且它的成員絕大多數(shù)其功能性一致,那么可以推斷,A相當(dāng)有可能有這同樣的功能性。另一個(gè)考慮是模式P和由FT行描述的區(qū)域的相對(duì)長度。例如。如果一個(gè)模式P的長度為15個(gè)殘基,而被評(píng)注的含有P的序列區(qū)域長度為300個(gè)氨基酸,那么人們可能不想把那個(gè)區(qū)域的評(píng)注傳送給P??傊?。希望最終用戶把他/她的專長用于確定如何最好地利用由該系統(tǒng)提供的信息。
圖30說明把集合RSD(P)用于評(píng)注YZ28_METJA的區(qū)域的兩種方式,從而擴(kuò)展了在圖28(b)中畫出的圖畫。就是說,圖30顯示出由YZ28_METJA各片段所匹配的模式的評(píng)注給出的這些片段的特性。利用對(duì)于也匹配這些模式的數(shù)據(jù)庫序列各區(qū)域所能得到的信息,得到這些模式的評(píng)注。這些片段仍然是相對(duì)于在整個(gè)YZ28_METJA上模式分布的尖峰畫出的。第一種途徑(圖30(b))是如果(ⅰ)RSD(P)的大小至少為15;(ⅱ)在RSD(P)中區(qū)域的大多數(shù)(80%)被評(píng)注為X;以及(ⅲ)RSD(P)的被評(píng)注為X的每個(gè)區(qū)域至少有50%被P復(fù)蓋,則把評(píng)注X(例如X=跨膜區(qū)域)賦予模式P。第二種途徑(圖30(c))共享上述要求(ⅰ)和(ⅱ),但通過允許由模式復(fù)蓋和被評(píng)注區(qū)域的百分比為30%或超過30%,使條件(ⅲ)放松。性能對(duì)于查詢序列Q,同源性搜索的運(yùn)行時(shí)間依賴于(ⅰ)所用模式П集合的大?。缓?ⅱ)Q和數(shù)據(jù)庫序列之間局部相似性(由模式匹配導(dǎo)出的)的實(shí)際數(shù)量。對(duì)于這里所用的SwissProl Rel.34的情況,對(duì)于大小約為一千個(gè)殘基的搜索蛋白質(zhì),典型的搜索在具有256MB內(nèi)存的奔騰266MHz計(jì)算機(jī)上用時(shí)4-6秒。應(yīng)該提到的是,上面報(bào)告的運(yùn)行時(shí)間是在把所有程序數(shù)據(jù)(模式及其偏移列表)保持在內(nèi)存中的情況下達(dá)到的。對(duì)于SwissProt,這個(gè)數(shù)據(jù)占有約200MB。
根據(jù)本發(fā)明的各個(gè)方面,我們已提供了完成序列相似性搜索的一種方法,這種搜索基于在下伏的蛋白質(zhì)數(shù)據(jù)庫D上發(fā)現(xiàn)模式并利用這些模式識(shí)別一查詢序列和手頭數(shù)據(jù)庫的蛋白質(zhì)之間的同源性。我們描述了用統(tǒng)計(jì)學(xué)參量精確定義待搜索模式集合的方式,并討論了如何通過把存儲(chǔ)器引入到統(tǒng)計(jì)學(xué)計(jì)算中,以在識(shí)別顯著同源性中這些模式能提供更大的敏感性。最后,使用SwissProt Rel.34數(shù)據(jù)庫作為測(cè)試基礎(chǔ),展示了該方法的應(yīng)用,并顯示了該系統(tǒng)如何能應(yīng)用于評(píng)注查詢序列。在這方面,我們還討論了利用所發(fā)現(xiàn)的模式結(jié)合下伏數(shù)據(jù)庫的評(píng)注,以實(shí)現(xiàn)表征查詢序列和數(shù)據(jù)庫序列之間甚至是弱相似性的潛力。
本發(fā)明的序列同源性檢測(cè)系統(tǒng)的一個(gè)方面,即令它與先有的基于模式的同源性檢測(cè)工具不同的優(yōu)點(diǎn)是所用模式集合的完全性。這些模式是從一個(gè)很大的訓(xùn)練集合即下伏數(shù)據(jù)庫D內(nèi)所有蛋白質(zhì)集合中以無監(jiān)督方式學(xué)習(xí)到的。沒有會(huì)造成偏倚以致序列“應(yīng)該”依據(jù)這些假設(shè)被認(rèn)為是同一家庭的成員的先驗(yàn)假設(shè)。結(jié)果,可期望被發(fā)現(xiàn)的模式更敏感。再有,通過一起考慮具有不同功能性的序列,我們能發(fā)現(xiàn)伸展到家族邊界的弱相似性(例如描述跨膜區(qū)的模式)。這種相似性雖然不足以推論出功能評(píng)注,但能給出關(guān)于所檢驗(yàn)的查詢序列的不同部分的作用的有用信息。
本發(fā)明系統(tǒng)的另一優(yōu)點(diǎn)是同源性搜索所需運(yùn)行時(shí)間。隨著基因組數(shù)據(jù)庫的大小甚至更快地增大,由在每次搜索中使用模式而不是掃描整個(gè)數(shù)據(jù)庫所能提供的加速會(huì)成為一個(gè)重要因素(特別是對(duì)于希望在家運(yùn)行測(cè)試而不想使用公共服務(wù)器的用戶)。
雖然這里參考附圖描述了本發(fā)明的實(shí)施例,但應(yīng)該理解,本發(fā)明不限于剛好那些實(shí)施例,本領(lǐng)域技術(shù)人員可對(duì)其中實(shí)現(xiàn)各種其他改變和修改,而不離開本發(fā)明的范圍或?qū)嵸|(zhì)。
權(quán)利要求
1.一種基于計(jì)算機(jī)的檢測(cè)數(shù)據(jù)庫中多個(gè)序列和一個(gè)查詢序列之間同源性的方法,該方法包含如下步驟訪問與該數(shù)據(jù)庫關(guān)聯(lián)的模式,每個(gè)模式代表數(shù)據(jù)庫中一個(gè)或多個(gè)序列的至少一部分;比較查詢序列和這些模式,以檢測(cè)該查詢序列的一個(gè)或多個(gè)部分是否與這些模式所代表的數(shù)據(jù)庫序列的一些部分具有同源性;以及對(duì)檢測(cè)到與該查詢序列具有同源性的每個(gè)序列產(chǎn)生一個(gè)評(píng)分,這里的序列評(píng)分是基于根據(jù)檢測(cè)到的序列的每個(gè)同源部分所產(chǎn)生的單個(gè)評(píng)分,而且該序列評(píng)分代表該查詢序列和檢測(cè)到的序列之間的同源性程度。
2.權(quán)利要求1的方法,這里的數(shù)據(jù)庫包括具有已知和未知序列特性的序列。
3.權(quán)利要求1的方法,這里的序列代表蛋白質(zhì)。
4.權(quán)利要求1的方法,這里的比較步驟進(jìn)一步包含對(duì)于和一模式相關(guān)聯(lián)的每個(gè)數(shù)據(jù)庫區(qū)域產(chǎn)生一片段,它與查詢序列的一個(gè)部分匹配。
5.權(quán)利要求4的方法,這里該片段表示為值(i,j,k,l)的集合,這里(j,k)代表與該模式關(guān)聯(lián)的數(shù)據(jù)庫區(qū)域,以使k代表數(shù)據(jù)庫中該模式匹配的第j個(gè)序列的偏移,i代表該模式匹配的查詢序列的偏移,l代表該模式的長度。
6.權(quán)利要求4的方法,這里的比較步驟進(jìn)一步包含當(dāng)產(chǎn)生不只一片段時(shí),把相容片段鏈接在一起以形成擴(kuò)展片段。
7.權(quán)利要求4的方法,這里比較步驟進(jìn)一步包含把匹配于至少一個(gè)模式(該模式還匹配該查詢序列)的序列和對(duì)每個(gè)序列產(chǎn)生的各自片段收集到一個(gè)集合中。
8.權(quán)利要求7的方法,這里的評(píng)分步驟進(jìn)一步包含對(duì)與該集合中每個(gè)序列關(guān)聯(lián)的每個(gè)片段賦予一個(gè)評(píng)分。
9.權(quán)利要求8的方法,這里的評(píng)分是根據(jù)突變矩陣賦予每個(gè)片段的。
10.權(quán)利要求8的方法,這里的評(píng)分步驟進(jìn)一步包含根據(jù)賦予與該序列關(guān)聯(lián)的各片段的評(píng)分對(duì)該集合中的每個(gè)序列賦一個(gè)評(píng)分。
11.權(quán)利要求10的方法,這里序列評(píng)分賦予步驟進(jìn)一步包含構(gòu)成一個(gè)有向圖,這里的頂點(diǎn)代表與該序列關(guān)聯(lián)的片段,并根據(jù)與頂點(diǎn)代表的兩個(gè)片段關(guān)聯(lián)的各自偏移的相對(duì)順序用邊來連接兩個(gè)頂點(diǎn),所述各自偏移包括查詢序列的偏移和被評(píng)分序列的偏移。
12.權(quán)利要求11的方法,這里根據(jù)片段評(píng)分賦予每個(gè)頂點(diǎn)一個(gè)權(quán)值。
13.權(quán)利要求12的方法,這里根據(jù)相關(guān)查詢序列偏移的位移和被評(píng)分序列偏移的位移之并來對(duì)每個(gè)邊賦予一個(gè)權(quán)值。
14.權(quán)利要求13的方法,這里邊權(quán)值與位移之間差值大小成反比關(guān)系。
15.權(quán)利要求14的方法,這里的序列評(píng)分賦予步驟進(jìn)一步包含識(shí)別出一個(gè)穿過該有向圖的路徑,它產(chǎn)生途徑中包括的頂點(diǎn)權(quán)值和邊權(quán)值的最高組合評(píng)分,該最高組合評(píng)分,該最高組合評(píng)分代表該序列的評(píng)分。
17.權(quán)利要求16的方法,這里當(dāng)一個(gè)模式代表的序列區(qū)域有至少為預(yù)先確定數(shù)量的重復(fù)字符,則把該模式表征為一個(gè)低復(fù)雜度模式。
18.權(quán)利要求16的方法,這里當(dāng)一模式代表的序列區(qū)域有同一組字符重疊發(fā)生,則把該模式表征為一個(gè)低復(fù)雜度模式。
19.權(quán)利要求16的方法,這里根據(jù)與一模式關(guān)聯(lián)的可變性,把該模式表征為一個(gè)低復(fù)雜度模式。
20.權(quán)利要求19的方法,這里一個(gè)模式的可變性是在一個(gè)模式中一個(gè)字符的出現(xiàn)次數(shù)與被該字符復(fù)蓋的模式中位置總數(shù)之比。
21.權(quán)利要求16的方法,這里當(dāng)一模式在與查詢序列關(guān)聯(lián)的一個(gè)偏移的左側(cè)和右側(cè)至少預(yù)先給定字符數(shù)內(nèi)近似地匹配該查詢序列時(shí),把該模式表征為一個(gè)低復(fù)雜度模式。
22.權(quán)利要求16的方法,這里當(dāng)一模式在與來自數(shù)據(jù)庫的序列相關(guān)聯(lián)的一個(gè)偏移的左側(cè)和右側(cè)至少預(yù)先給定字符數(shù)內(nèi)近似地匹配這個(gè)來自數(shù)據(jù)庫的序列時(shí),把該模式表征為一個(gè)低復(fù)雜度模式。
23.一種基于網(wǎng)絡(luò)的檢測(cè)在網(wǎng)絡(luò)服務(wù)器處訪問的數(shù)據(jù)庫中多個(gè)序列和在網(wǎng)絡(luò)客戶端裝置處輸入的查詢序列之間同源性的方法,該方法包含如下步驟在服務(wù)器處從網(wǎng)絡(luò)得到在客戶端裝置輸入的查詢序列;在服務(wù)器處訪問與該數(shù)據(jù)庫關(guān)聯(lián)的模式,每個(gè)模式代表數(shù)據(jù)庫中一個(gè)或多個(gè)序列的至少一部分;在服務(wù)器處比較該查詢序列和這些模式,以檢測(cè)該查詢序列的一個(gè)或多個(gè)部分是否與這些模式所代表的數(shù)據(jù)庫序列的一些部分具有同源性;以及在服務(wù)器處對(duì)檢測(cè)到與該查詢序列具有同源性的每個(gè)序列產(chǎn)生一個(gè)評(píng)分,這里的序列評(píng)分是基于根據(jù)檢測(cè)到的序列的每個(gè)同源部分所產(chǎn)生的單個(gè)評(píng)分,而且該序列評(píng)分確定該查詢序列和檢測(cè)到的序列之間的同源性程度。
24.權(quán)利要求23的方法,這里的網(wǎng)絡(luò)包括因特網(wǎng)。
25.權(quán)利要求23的方法,這里的數(shù)據(jù)庫包括具有已知和未知序列特性兩者的序列。
26.權(quán)利要求23的方法,這里的序列代表蛋白質(zhì)。
27.在網(wǎng)絡(luò)上檢測(cè)一數(shù)據(jù)庫中多個(gè)序列和一查詢序列之間同源性的裝置,該裝置包含一個(gè)客戶端裝置,被配置成輸入查詢序列和在網(wǎng)絡(luò)上傳送查詢序列;以及一個(gè)服務(wù)器,通過網(wǎng)絡(luò)與該客戶端裝置相連,并被配置成(ⅰ)通過網(wǎng)絡(luò)從客戶端裝置得到查詢序列;(ⅱ)訪問與該數(shù)據(jù)庫關(guān)聯(lián)的模式,每個(gè)模式代表該數(shù)據(jù)庫中一個(gè)或多個(gè)序列的至少一部分;(ⅲ)比較查詢序列和這些模式,以檢測(cè)該查詢序列的一個(gè)或多個(gè)部分是否與這些模式所代表的數(shù)據(jù)庫序列的一些部分具有同源性;(ⅳ)對(duì)檢測(cè)到與查詢序列具有同源性的每個(gè)序列產(chǎn)生一個(gè)評(píng)分,這里的序列評(píng)分是基于根據(jù)檢測(cè)到的序列的每個(gè)同源部分所產(chǎn)生的單個(gè)評(píng)分,而且該序列評(píng)分確定該查詢序列和檢測(cè)到的序列之間的同源性程度;以及(v)把檢測(cè)結(jié)果的至少一部分通過網(wǎng)絡(luò)傳送到客戶端裝置。
28.檢測(cè)一數(shù)據(jù)庫中多個(gè)序列和一查詢序列之間同源性的裝置,該裝置包含至少一個(gè)處理器,其操作是(ⅰ)訪問與該數(shù)據(jù)庫關(guān)聯(lián)的模式,每個(gè)模式代表該數(shù)據(jù)庫中一個(gè)或多個(gè)序列的至少一部分;(ⅱ)比較查詢序列和這些模式,以檢測(cè)該查詢序列的一個(gè)或多個(gè)部分是否與這些模式所代表的數(shù)據(jù)庫序列的一些部分具有同源性;以及(ⅲ)對(duì)檢測(cè)到的與查詢序列具有同源性的每個(gè)序列產(chǎn)生一個(gè)評(píng)分,這里的序列評(píng)分是基于根據(jù)檢測(cè)到的序列的每個(gè)同源部分所產(chǎn)生的單個(gè)評(píng)分,而且該序列評(píng)分確定該查詢序列和檢測(cè)到的序列之間的同源性程度。
29.檢測(cè)一數(shù)據(jù)庫中多個(gè)序列和一查詢序列之間同源性的一各制成品,包含一個(gè)機(jī)器可讀媒體,其中含有一個(gè)或多個(gè)程序,當(dāng)它們被執(zhí)行時(shí)完成以下步驟訪問與該數(shù)據(jù)庫關(guān)聯(lián)的模式,每個(gè)模式代表數(shù)據(jù)庫中一個(gè)或多個(gè)序列的至少一部分;比較查詢序列和這些模式,以檢測(cè)該查詢序列的一個(gè)或多個(gè)部分是否與這些模式所代表的數(shù)據(jù)庫序列的一些部分具有同源性;以及對(duì)檢測(cè)到與該查詢序列具有同源性的每個(gè)序列產(chǎn)生一個(gè)評(píng)分,這里的序列評(píng)分是基于根據(jù)檢測(cè)到的序列的每個(gè)同源部分所產(chǎn)生的單個(gè)評(píng)分,而且該序列評(píng)分確定該查詢序列和檢測(cè)到的序列之間的同源性程度。
全文摘要
在本發(fā)明的序列同源性檢測(cè)方面,一種基于計(jì)算機(jī)的檢測(cè)一數(shù)據(jù)庫中多個(gè)序列和一查詢序列之間同源性的方法包含以下步驟。首先,該方法包括訪問與該數(shù)據(jù)庫關(guān)聯(lián)的模式,每個(gè)模式代表該數(shù)據(jù)庫中一個(gè)或多個(gè)序列的至少一部分,接下來,將該查詢序列與這些模式比較,以檢測(cè)是否該查詢序列的一個(gè)或多個(gè)部分與這些模式代表的數(shù)據(jù)庫序列中的一些部分有同源性。然后,對(duì)檢測(cè)到的與該查詢序列有同源性的每個(gè)序列產(chǎn)生一個(gè)評(píng)分,這里的序列評(píng)分是基于根據(jù)所檢測(cè)到的序列每個(gè)同源部分產(chǎn)生的單個(gè)評(píng)分,而且該序列評(píng)分代表該查詢序列與檢測(cè)到的序列之間的同源性程度。
文檔編號(hào)G06F17/30GK1289424SQ99802596
公開日2001年3月28日 申請(qǐng)日期1999年10月29日 優(yōu)先權(quán)日1998年10月30日
發(fā)明者阿里斯·福勞拉特斯, 艾塞德勒·若高瑟斯 申請(qǐng)人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
青岛市| 迁安市| 商水县| 济南市| 建始县| 阿尔山市| 平度市| 沅陵县| 手游| 木兰县| 徐州市| 门源| 南丰县| 霸州市| 根河市| 大埔区| 精河县| 冕宁县| 利辛县| 上高县| 昭通市| 峨山| 宣城市| 宝兴县| 宁河县| 宁安市| 芦溪县| 额敏县| 大田县| 阳高县| 安溪县| 克东县| 马龙县| 淮阳县| 外汇| 成都市| 昌黎县| 长兴县| 台湾省| 故城县| 栖霞市|