一種用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法
【專利摘要】本發(fā)明提供了一種基于生物體核苷酸序列堿基關(guān)聯(lián)特征的生物序列識(shí)別碼,進(jìn)而提出了一整套該識(shí)別碼在標(biāo)志生物序列并進(jìn)行物種親緣關(guān)系分析的實(shí)施辦法和效果評(píng)價(jià)體系。物種親緣關(guān)系分析,是對(duì)識(shí)別碼有效性的嚴(yán)格檢驗(yàn)。本發(fā)明推演哺乳動(dòng)物進(jìn)化樹(shù)和細(xì)小病毒親緣關(guān)系得到的結(jié)果符合生物學(xué)家的分類(lèi)知識(shí),表明該方法切實(shí)有效、識(shí)別碼解析度高。本發(fā)明提供的生物序列識(shí)別碼具有識(shí)別能力強(qiáng)、數(shù)據(jù)量小等突出特點(diǎn),可以實(shí)現(xiàn)少數(shù)數(shù)字標(biāo)志龐大的基因組序列并簡(jiǎn)化生物序列的標(biāo)志和分析比較應(yīng)用,極具實(shí)用價(jià)值。
【專利說(shuō)明】一種用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明運(yùn)用生物信息學(xué)方法挖掘并整合序列信息關(guān)聯(lián)特征,進(jìn)而使用數(shù)字對(duì)生物序列和物種進(jìn)行標(biāo)識(shí)及親緣關(guān)系分析,屬于信息學(xué)在生物學(xué)領(lǐng)域的應(yīng)用。
【背景技術(shù)】
[0002]生物序列包括氨基酸序列和核苷酸序列,其中核苷酸序列又分為脫氧核糖核酸(DNA)序列和核糖核酸(RNA)序列。DNA序列由腺苷酸(A)、胞苷酸(C)、鳥(niǎo)苷酸(G)和胸苷酸(T)四種核苷酸單體聚合而成,通常用四個(gè)字母組成的符號(hào)序列表示。類(lèi)似的,RNA序列可以用A、C、G和U四個(gè)字母組成的符號(hào)序列表示,其中代替T的U是尿苷酸。已測(cè)序物種的全基因組序列長(zhǎng)度從幾千到百萬(wàn),甚至數(shù)十億個(gè)字母。
[0003]研究人員嘗試從生物序列中抽提出數(shù)據(jù)標(biāo)識(shí)生物序列,并應(yīng)用基因組序列寡聚體(K-mer)頻數(shù)特征進(jìn)行系統(tǒng)發(fā)生學(xué)方法的研究。比如中國(guó)科學(xué)院院士郝柏林先生的組分法(CVTree)[1]用205個(gè)數(shù)據(jù)推演物種進(jìn)化關(guān)系,美國(guó)科學(xué)家Kim等人的特征頻數(shù)法(FFP)[2]甚至用高達(dá)208個(gè)(數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)基因組數(shù)據(jù)量)個(gè)數(shù)據(jù)做進(jìn)化研究。他們的方法容易受到高維數(shù)少樣本的制約而不適用于小基因組或短序列,比如細(xì)小病毒[3],而且并不能實(shí)現(xiàn)用少量數(shù)據(jù)標(biāo)識(shí)生物(序列)。
[0004]為了提高標(biāo)識(shí)生物(序列)和推演生物(序列)親緣關(guān)系的實(shí)用性,我們做出了新的嘗試。與基于K-mer頻數(shù)統(tǒng)計(jì)的方法不同,我們從信息學(xué)理論出發(fā),研究序列(DNA或RNA)的信息關(guān)聯(lián)特征,提出用信息關(guān)聯(lián)(IC)和偏信息關(guān)聯(lián)(PIC)標(biāo)識(shí)基因組,并進(jìn)一步以其推演生物(序列)親緣關(guān)系。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種用數(shù)字標(biāo)識(shí)生物(序列)的方法,并展示了其在推演生物(序列)親緣關(guān)系中的應(yīng)用。接下來(lái),我們將介紹信息關(guān)聯(lián)和偏信息關(guān)聯(lián)的計(jì)算、生物(序列)識(shí)別碼的構(gòu)建及其在親緣關(guān)系研究中的應(yīng)用。
[0006]本發(fā)明中所指序列可以是生物基因組全部序列,也可以是生物基因組序列片段;可以是DNA序列也可以是RNA序列。本發(fā)明所用的序列數(shù)據(jù)為公共資源,可以通過(guò)美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)數(shù)據(jù)庫(kù)、歐洲分子生物學(xué)實(shí)驗(yàn)室數(shù)據(jù)庫(kù)(EMBL)和日本DNA數(shù)據(jù)庫(kù)(DDBJ)等全球性的公共數(shù)據(jù)庫(kù),免費(fèi)獲得并使用。
[0007]為了實(shí)現(xiàn)以上發(fā)明目的,本發(fā)明提供以下技術(shù)方案:
[0008]一、信息關(guān)聯(lián)和偏信息關(guān)聯(lián)
[0009]以給定DNA序列為例,構(gòu)成序列的元素是堿基A、G、C、T,根據(jù)統(tǒng)計(jì)學(xué)方法:堿基i (i= A、G、C、T)出現(xiàn)的概率為Pi ;堿基j(j = A、G、C、T)出現(xiàn)的概率為Pi ;相距k個(gè)距離的兩個(gè)位置分別出現(xiàn)堿基i和堿基j的聯(lián)合概率Pi(k)j,再根據(jù)信息學(xué)理論可以得出整條序列的堿基關(guān)聯(lián)信息量:
【權(quán)利要求】
1.一種用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法,所述用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法具體包括: I信息關(guān)聯(lián)和偏信息關(guān)聯(lián) 以給定DNA序列為例,構(gòu)成序列的兀素是喊基A、G、C、T,根據(jù)統(tǒng)計(jì)學(xué)方法:喊基i (i =A、G、C、T)出現(xiàn)的概率為?^堿基」(」=么、6、(:、1')出現(xiàn)的概率為Pi ;相距k個(gè)距離的兩個(gè)位置分別出現(xiàn)堿基i和堿基j的聯(lián)合概率Pi(k)j,再根據(jù)信息學(xué)理論可以得出整條序列的堿基關(guān)聯(lián)信息量:
2.權(quán)利要求1所述用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法,其中所述序列可以是生物基因組全部序列,也可以是生物基因組序列片段。
3.權(quán)利要求1或2所述用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法,其中所述序列選自公共序列資源。
4.權(quán)利要求3所述用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法,其中所述公共序列資源選自美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)數(shù)據(jù)庫(kù)、歐洲分子生物學(xué)實(shí)驗(yàn)室數(shù)據(jù)庫(kù)(EMBL)和日本DNA數(shù)據(jù)庫(kù)(DDBJ)等任一可以獲得生物物種序列的公共數(shù)據(jù)庫(kù)。
5.權(quán)利要求1所述用數(shù)字標(biāo)識(shí)生物序列和推斷物種親緣關(guān)系的方法,將生物序列的范圍擴(kuò)展至非公共數(shù)據(jù)庫(kù)資源。`
【文檔編號(hào)】G06F19/24GK103559427SQ201310557139
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年11月12日 優(yōu)先權(quán)日:2013年11月12日
【發(fā)明者】高揚(yáng), 羅遼復(fù) 申請(qǐng)人:高揚(yáng), 羅遼復(fù)