專利名稱:一種生物病毒的計(jì)算機(jī)自動分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生物信息學(xué)技術(shù)領(lǐng)域,尤其涉及一種生物病毒的計(jì)算機(jī)自 動分類方法。
背景技術(shù):
隨著基因組計(jì)劃的實(shí)施,產(chǎn)生了海量生物序列數(shù)據(jù),研究如何去組織、 分類和分析那些隨著基因工程而產(chǎn)生的海量的生物序列數(shù)據(jù)是一項(xiàng)重要 的工作。雖然確定生物分子結(jié)構(gòu)和功能最可靠的方式依然是通過直接的生物實(shí)驗(yàn),但是因?yàn)楂@得DNA基因序列以及相應(yīng)的RNA和蛋白質(zhì)序列比通過 生物試驗(yàn)確定它們的結(jié)構(gòu)和功能容易的多,所以研究如何能從這些生物序 列獲取生物信息的計(jì)算方法就變得十分有意義。長期以來病毒的分類主要依靠形態(tài)學(xué)方法,隨著分子生物學(xué)和生物信 息學(xué)的發(fā)展,從分子水平上研究物種進(jìn)化成為可能,這為研究病毒分類提 供了新的途徑。早期的研究工作主要是利用不同物種中同一基因序列的異同或其編碼 的氨基酸序列的異同來研究生物的進(jìn)化,以及通過對比不同物種中同一蛋 白質(zhì)的結(jié)構(gòu)來研究生物的進(jìn)化,取得了相當(dāng)?shù)某晒R驗(yàn)樯锏乃羞z傳 信息都包含在其全基因組序列中,所以如果能從完整基因組的角度來研究 物種進(jìn)化,將會取得更好的效果。近年來,由于較多模式生物基因組測序任務(wù)的完成,為從整個(gè)基因組 的角度來研究分子進(jìn)化提供了條件。目前,最流行的研究病毒進(jìn)化關(guān)系的辦法是通過多重序列比對(MSA) 的方法。然而使用這種方法無論是去研究全基因組序列還是研究基因序列 中編碼氨基酸的區(qū)域,都有非常明顯的缺陷。如果研究編碼區(qū),進(jìn)行序列分析的時(shí)候?qū)⒈幌薅ㄔ诨蛐蛄兄刑囟ǖ膮^(qū)域。為此,我們必須首先知道基因序列中,哪一部分是編碼區(qū),而且我 們還必須通過主觀決定選擇哪些區(qū)域來比較,選擇不同的區(qū)域?qū)a(chǎn)生不 同的進(jìn)化樹。如果參與比對的多個(gè)序列在長度上差異很大或者序列之間的 相似程度很低,都會導(dǎo)致多重序列比對得到的結(jié)果質(zhì)量很差,從而產(chǎn)生不 可信的進(jìn)化樹。病毒在進(jìn)化過程中通常會有基因重組的現(xiàn)象出現(xiàn),這進(jìn)一 步使得多重序列比對的結(jié)果變得不可信。更重要的是,對很長的序列進(jìn)行 多序列比對,計(jì)算時(shí)間復(fù)雜度將會非常大,在實(shí)際中經(jīng)常是不可能實(shí)現(xiàn)的。 盡管多重序列比對方法有可能為病毒種系分析提供很好的基準(zhǔn),它卻 不適于被用來研究病毒分類問題,因?yàn)闃?gòu)建多重序列比對本身就是一個(gè)讓 人困惑的問題。發(fā)明內(nèi)容(一) 要解決的技術(shù)問題有鑒于此,本發(fā)明的主要目的在于提供一種生物病毒的計(jì)算機(jī)自動分 類方法,使利用計(jì)算機(jī)實(shí)現(xiàn)生物病毒的自動分類成為可能,為病毒的研究 提供更便捷的方式和更廣闊的空間。(二) 技術(shù)方案為達(dá)到上述目的,本發(fā)明提供了一種生物病毒的計(jì)算機(jī)自動分類方 法,該方法包括A、 對病毒的全基因組序列進(jìn)行特征提取,將病毒序列映射到特征空間;B、 對所述特征空間的某類病毒類型樣本構(gòu)建種系進(jìn)化樹;c、根據(jù)所述種系進(jìn)化樹反映的同類型病毒樣本之間的相互關(guān)系,采 用超橢球?qū)γ款悩颖咀涌臻g進(jìn)行近似覆蓋; D、形成封閉的同類病毒的樣本子空間。上述方案中,所述步驟A包括通過統(tǒng)計(jì)多核苷酸出現(xiàn)頻率及全基因 組序列長度,將不同長度的病毒全基因組序列映射到同一特征空間中。上述方案中,所述步驟B包括通過計(jì)算病毒在特征空間的歐式距離,近似描述同類病毒在進(jìn)化上的遠(yuǎn)近關(guān)系。上述方案中,所述步驟C包括按照構(gòu)建的種系進(jìn)化樹關(guān)系,采用超 橢球這一幾何形體對該類病毒樣本子空間進(jìn)行近似覆蓋。上述方案中,所述步驟D包括所有映射點(diǎn)落在這個(gè)封閉子空間里的 病毒都屬于同一類,而映射點(diǎn)落在封閉子空間以外的病毒都屬于其它類。(三)有益效果 從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果1、 本發(fā)明提出了基于序列特征來進(jìn)行全基因組序列比較的方法,使 利用計(jì)算機(jī)實(shí)現(xiàn)生物病毒的自動分類成為了可能,為病毒的研究提供了更 便捷的方式和更廣闊的空間,不再必須依靠直接的生物試驗(yàn)。2、 利用本發(fā)明,只需知道病毒的全基因組序列即可,這在病毒研究 中幾乎是最容易獲得的數(shù)據(jù)。3、 利用本發(fā)明,通過訓(xùn)練樣本得到的樣本子空間是一個(gè)封閉的有限 空間,這符合知道的是"有限的",未知的是"無限的"這一基本事實(shí)。4、 利用本發(fā)明,在構(gòu)建某一類病毒的識別系統(tǒng)的時(shí)候,只用到了本 類的樣本,這就保證了,在繼續(xù)往系統(tǒng)中添加新的需要識別的病毒類的時(shí) 候,不用改變以前已經(jīng)構(gòu)建好的部分,這是一個(gè)可以增量學(xué)習(xí)的分類系統(tǒng)。
圖1為本發(fā)明提供的生物病毒的計(jì)算機(jī)自動分類的方法流程圖;圖2為依照本發(fā)明實(shí)施例對序列進(jìn)行特征提取的示意圖;圖3為依照本發(fā)明實(shí)施例生成的進(jìn)化樹的示意圖;圖4為依照本發(fā)明實(shí)施例對樣本子空間進(jìn)行近似覆蓋的示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí) 施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。如圖1所示,圖1為本發(fā)明提供的生物病毒的計(jì)算機(jī)自動分類的方法 流程圖,該方法包括以下步驟步驟101:對病毒的全基因組序列進(jìn)行特征提取,將病毒序列映射到特征空間;步驟102:對所述特征空間的某類病毒類型樣本構(gòu)建種系進(jìn)化樹; 步驟103:根據(jù)所述種系進(jìn)化樹反映的同類型病毒樣本之間的相互關(guān) 系,采用超橢球?qū)γ款悩颖咀涌臻g進(jìn)行近似覆蓋; 步驟104:形成封閉的同類病毒的樣本子空間。上述步驟101包括:通過統(tǒng)計(jì)多核苷酸出現(xiàn)頻率及全基因組序列長度, 將不同長度的病毒全基因組序列映射到同一特征空間中。如圖2所示,圖2為依照本發(fā)明實(shí)施例對序列進(jìn)行特征提取的示意圖。 對于一個(gè)長度為n的病毒全基因序列,它是由字符集A^a,g,c,t)構(gòu)成的字 符序列,這個(gè)字符集的長度是F4。設(shè)L-tuple代表一個(gè)由字符集A構(gòu)成的 長度為L的片斷序列,滿足L〈N。 L-tuple所有可能的值組成的集合w,可 以描繪如下其中K滿足下式選擇一個(gè)長度為L的窗口 (長度為L指的是該窗口能容下的最多字符 數(shù))從序列的起始段開始以步長為S的速度向后滑動,直到(>2-^+//的 位置為止(滿足"-丄-5+/ > 0)。通過這種方法我們可以得到個(gè)序列片斷L-tuple,其中運(yùn)算符號"[]"表示向上取整,而且這M個(gè)L-tuple都是屬于集合w,的元素。如果依次對w,中元素的出現(xiàn)次數(shù)做個(gè)統(tǒng)計(jì),可以得到如下結(jié)果cf ,……,《)使用出現(xiàn)頻率描述可以得到// :這樣我們便得到了序列X的有失集合Wl中K個(gè)元素出現(xiàn)的頻率,用它們作為元素X的K個(gè)特征,再加上序列中含有的核苷酸數(shù)量這一特征,就可以把冠狀病毒全基因組序列X映射到這個(gè)K+l維的特征空間了 。上述步驟102包括通過計(jì)算病毒在特征空間的歐式距離,近似描述同類病毒在進(jìn)化上的遠(yuǎn)近關(guān)系。上述步驟103包括按照構(gòu)建的種系進(jìn)化樹關(guān)系,采用超橢球這一幾何形體對該類病毒樣本子空間進(jìn)行近似覆蓋。上述步驟104包括所有映射點(diǎn)落在這個(gè)封閉子空間里的病毒都屬于 同一類,而映射點(diǎn)落在封閉子空間以外的病毒都屬于其它類。基于上述圖1所示的生物病毒的計(jì)算機(jī)自動分類的方法流程圖,以下 將本發(fā)明提供的方法應(yīng)用于研究"皰疹病毒科病毒"的分類問題。使用從GenBank獲得的病毒數(shù)據(jù)庫做為研究對象,在該數(shù)據(jù)庫中共有1077個(gè)病 毒的全基因組序列,其中皰疹病毒科病毒有27個(gè)。我們?nèi)∑渲械?4個(gè)作 為已知病毒(具體信息見表l),將其作為訓(xùn)練樣本。Accession NogsnusIDNC—001806.1HerpesviridaeHuman herpesvirus 1NC—001798.1HerpesviridaeHuman herpesvirus 2NC—001847.1HerpesviridaeBovine herpesvirus 1NC—004812.1HerpesviridaeCercopithecine herpesvirus 1NC—001491.1HerpesviridaeEquine herpesvirus 1NC—001844.1HerpesviridaeEquine herpesvirus 4NC一OO 1348.1HerpesviridaeHuman herpesvirus 3NC_001347.2HerpesviridaeHuman herpesvirus 5NC—001664.1HerpesviridaeHuman herpesvirus 6NC—001716.1HerpesviridaeHuman herpesvirus 7NC—001345.1HerpesviridaeHuman herpesvirus 4NC一OO 1350.1HerpesviridaeSaimiriine herpesvirus 2NC—002665.1HerpesviridaeBovine herpesvirus 4NC_002229.1HerpesviridaeGallid herpesvirus 2表1 14個(gè)皰疹病毒科病毒的有關(guān)信息首先我們按照方法的第一步研究三核苷酸的出現(xiàn)頻率,從而得到
尺=,=43 ,即64維特征,再加上核苷酸的總數(shù)共得到病毒序列的65 個(gè)特征。通過得到的特征向量,我們研究得到這14個(gè)皰疹病毒科病毒的 種系進(jìn)化樹(如圖3所示)。之后我們按照種系進(jìn)化樹所描述的樣本關(guān)系, 采用超橢球神經(jīng)元對樣本子空間進(jìn)行覆蓋(如圖4所示),從而得到皰疹 病毒科病毒樣本空間的一個(gè)近似覆蓋,這就是我們得到的封閉的皰疹病毒 科病毒的樣本子空間。構(gòu)建好這個(gè)皰疹病毒科病毒的分類系統(tǒng)后,我們通 過數(shù)據(jù)庫中剩下的1063個(gè)病毒來測試系統(tǒng)的效率。這1063個(gè)病毒中,還 有13個(gè)是皰疹病毒科本類的病毒,其它的都是異類病毒,試驗(yàn)的結(jié)果如 表2所示,其中對本類病毒的正確識別率達(dá)到了 100%,而對異類病毒的 正確拒識率達(dá)到了 96.58%。
正確識別率錯誤識別率錯誤拒識率正確拒識率
100%0%3.42%96.58%
表2本發(fā)明方法用于皰疹病毒科病毒分類的試驗(yàn)結(jié)果
以上所述的具體實(shí)施例,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行 了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而 已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修 改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種生物病毒的計(jì)算機(jī)自動分類方法,其特征在于,該方法包括A、對病毒的全基因組序列進(jìn)行特征提取,將病毒序列映射到特征空間;B、對所述特征空間的某類病毒類型樣本構(gòu)建種系進(jìn)化樹;C、根據(jù)所述種系進(jìn)化樹反映的同類型病毒樣本之間的相互關(guān)系,采用超橢球?qū)γ款悩颖咀涌臻g進(jìn)行近似覆蓋;D、形成封閉的同類病毒的樣本子空間。
2、 根據(jù)權(quán)利要求1所述的生物病毒的計(jì)算機(jī)自動分類方法,其特征 在于,所述步驟A包括通過統(tǒng)計(jì)多核苷酸出現(xiàn)頻率及全基因組序列長度,將不同長度的病毒 全基因組序列映射到同 一特征空間中。
3、 根據(jù)權(quán)利要求1所述的生物病毒的計(jì)算機(jī)自動分類方法,其特征 在于,所述步驟B包括通過計(jì)算病毒在特征空間的歐式距離,近似描述同類病毒在進(jìn)化上的 遠(yuǎn)近關(guān)系。
4、 根據(jù)權(quán)利要求1所述的生物病毒的計(jì)算機(jī)自動分類方法,其特征 在于,所述步驟C包括按照構(gòu)建的種系進(jìn)化樹關(guān)系,采用超橢球這一幾何形體對該類病毒樣 本子空間進(jìn)行近似覆蓋。
5、 根據(jù)權(quán)利要求1所述的生物病毒的計(jì)算機(jī)自動分類方法,其特征在于,所述步驟D包括所有映射點(diǎn)落在這個(gè)封閉子空間里的病毒都屬于同一類,而映射點(diǎn)落 在封閉子空間以外的病毒都屬于其它類。
全文摘要
本發(fā)明涉及生物信息學(xué)技術(shù)領(lǐng)域,公開了一種生物病毒的計(jì)算機(jī)自動分類方法,該方法包括A.對病毒的全基因組序列進(jìn)行特征提取,將病毒序列映射到特征空間;B.對所述特征空間的某類病毒類型樣本構(gòu)建種系進(jìn)化樹;C.根據(jù)所述種系進(jìn)化樹反映的同類型病毒樣本之間的相互關(guān)系,采用超橢球?qū)γ款悩颖咀涌臻g進(jìn)行近似覆蓋;D.形成封閉的同類病毒的樣本子空間。利用本發(fā)明,使利用計(jì)算機(jī)實(shí)現(xiàn)生物病毒的自動分類成為了可能,為病毒的研究提供了更便捷的方式和更廣闊的空間,不再必須依靠直接的生物試驗(yàn)。
文檔編號G06F19/22GK101320404SQ20071010024
公開日2008年12月10日 申請日期2007年6月6日 優(yōu)先權(quán)日2007年6月6日
發(fā)明者王守覺, 睿 貊 申請人:中國科學(xué)院半導(dǎo)體研究所