一種新的融合核苷酸二聯(lián)體結(jié)構(gòu)信息和物理化學(xué)特性的rna序列表示方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及生物信息學(xué)、RNA序列偽核巧酸成分和傳統(tǒng)的RNA序列分析技術(shù)領(lǐng)域, 尤其設(shè)及一種新的融合核巧酸二聯(lián)體結(jié)構(gòu)信息和物理化學(xué)特性的RNA序列表示方法。
【背景技術(shù)】
[0002] 隨著人類基因組的測序完成,生物信息學(xué)進入了一個新的發(fā)展階段一一后基因組 時代。基因組計劃產(chǎn)生的數(shù)W億計的基因組RNA序列,RNA序列是遺傳信息的源泉,如何從 運些序列中找尋生命是如何起源的、又是如何進化、運些基因又是如何使生命體具有活性 的等一系列問題的答案,是當(dāng)前研究的熱點。由于生化實驗費時費力,生物信息學(xué)作為生物 實驗的補充,得到了巨大的發(fā)展。原來越多的學(xué)者探索出基于系統(tǒng)、人工智能模式識別W及 信息處理等方法對RNA序列的性質(zhì)、修飾屬性W及功能進行預(yù)測的模型。運些模型大多是 基于RNA序列離散模型基礎(chǔ)上的,所WRNA序列特征的提取是建立有效預(yù)測模型的關(guān)鍵。
【發(fā)明內(nèi)容】
[0003]RNA序列是由4種核巧酸組成的一維字符序列,要得出更多的隱含在其中的生物 特性非常困難,為此人們設(shè)計了許多偽核巧酸成分采用向量方式來描述RNA序列。核巧酸 成分是4種標(biāo)準(zhǔn)的核巧酸在序列中出現(xiàn)的概率,核巧酸成分將RNA序列表達(dá)成了一個4維 的數(shù)值向量,核巧酸成分不包括核巧酸的次序信息W及禪合信息,采用此方法的預(yù)測成功 率較低。核巧酸二聯(lián)體組成成分可W將RNA序列表示成16維的數(shù)值向量,核巧酸=聯(lián)體組 成成份法可W將RNA序列表示成48維的向量,它們考慮了RNA序列的局部順序信息,但還 是不全面。為此學(xué)者提出了偽核巧酸組成成分(TNCPseAAC)概念,通過結(jié)合核巧酸的位置 信息和偽氨基酸組成成份將RNA序列翻譯成蛋白質(zhì)序列。眾所周知,=個核巧酸的密碼子 編碼翻譯成一個氨基酸,因此,一條RNA序列能夠翻譯成一條蛋白質(zhì)序列,人們已經(jīng)設(shè)計了 多種反映蛋白質(zhì)序列局部和全局特性的偽氨基酸成分,如:如復(fù)雜度因子、小波變換因子、 PSSM矩陣、Go因子等等,通過運種變換現(xiàn)有偽氨基酸成分方法就可用于RNA序列分析中。
[0004] 除了上述方法外,學(xué)者還采用了將RNA序列轉(zhuǎn)換成空間曲線的方法對相關(guān)問題進 行研究,如分別對A、C、G、U定義為二維空間的向量,將RNA按照其序列順序?qū)\些空間向 量進行相加,運樣RNA序列轉(zhuǎn)換成二維空間的曲線。
[0005] 為有效地避免空間圖形的交叉而導(dǎo)致的信息丟失,遲銳等人提出了一種新的RNA 序列3D圖形表示法,根據(jù)核巧酸的物理化學(xué)性質(zhì)分別將A、C、G、U定義為=維空間向量, 假設(shè)殺判4為一條RNA序列,存在映射使得D映射為一系列數(shù)學(xué)表達(dá)式。因此, 滅巧你鴻)L抑或),其中
(1) 例如,根據(jù)上式,給定一條RNA序列ACUGGACCUG能夠映射為{(0,0,1),(1,〇,2),(1,1, 3),(0,1,4),(0,1,5),(0,0,6),(1,〇,7),(1,〇,8),(1,1,9),(0,1,10)}。
[0006] 上述運些方法都是基于核巧酸的成分或者是核巧酸的物理化學(xué)性質(zhì),將RNA轉(zhuǎn)換 成氨基酸序列存在轉(zhuǎn)換起始點難W確定問題,二聯(lián)體、=聯(lián)體雖然含有局部信息,但RNA序 列的全局特性還是很難通過二聯(lián)體和=聯(lián)體來描述,由于結(jié)構(gòu)信息對預(yù)測RNA相關(guān)預(yù)測非 常有效,所W設(shè)計一種新的融合核巧酸結(jié)構(gòu)屬性和核巧酸在序列中的位置信息的RNA序列 描述方法非常必要。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明要解決的技術(shù)問題是提供一種新的融合核巧酸二聯(lián)體結(jié)構(gòu)信息和物理化 學(xué)特性的RNA序列表示方法。
[0008] 為解決W上技術(shù)問題,本發(fā)明的技術(shù)方案是:一種新的融合核巧酸二聯(lián)體結(jié)構(gòu)信 息和物理化學(xué)特性的RNA序列表示方法,其特征在于包括W下步驟: (1) 基于核巧酸二聯(lián)體物理化學(xué)性質(zhì)構(gòu)成RNA序列的物理化學(xué)矩陣PCM,該矩陣是一個 10X(L-1)的矩陣,其中L為序列長度,10為采用了 10種核巧酸二聯(lián)體物理化學(xué)性質(zhì); (2) 對PCM矩陣中的每一行數(shù)據(jù)采用灰色模型GM(2, 1)進行建模得到描述每行序列整 體特征的3個參數(shù)《;、斬...目,10行共30個參數(shù); (3) 對PCM矩陣中每行數(shù)值序列計算其自相關(guān)因子,得到10滿裝個參數(shù),運里 :義資|寡也男味松I,運些參數(shù)描述了RNA序歹U的局部特征; (4) 對PCM矩陣中各行計算其互相關(guān)因子,得到10嘴9 :然藏個參數(shù),運些參數(shù)描述了 序列的局部信息; (5) 將PCM矩陣進行轉(zhuǎn)換,數(shù)值投影到0-255區(qū)間后,轉(zhuǎn)換成二維圖像,取圖像的幾何矩 作為描述RNA序列的整體特征; (6) 將上述所得到的描述RNA序列特征因子結(jié)合,最終得到RNA序列的離散向量描述方 法。
[0009] 所述RNA序列可W用下式表示: 巧N聲;(2) 其中: A.,、:[A也漁;C); 0 (巧帶&狀C;G(料游船C;rI、斯微 ^鐵>表示序列第i個位置上的核巧酸,L為序列長度。
[0010]所述物理化學(xué)性質(zhì)包括:六種結(jié)構(gòu)屬性和四種其它種類屬性,所述六種結(jié)構(gòu)屬性 為:ecl:n城HC三:燃H:HC1、、純戚:HC4:sink'、HC5:;也:HC《>:你說,四種其它種類 屬性為巧C',;微濁;娘>;;獻?S:沿放哪y:HC》:滿心屯巧妃巧詳;HC10:齡eci微巧。
[0011] 所述核巧酸二聯(lián)體十種屬性值如表1所示: 表1十種核巧酸二聯(lián)體結(jié)構(gòu)和物理化學(xué)特性值
所述RNA序列根據(jù)核巧酸二聯(lián)體物理化學(xué)性質(zhì)轉(zhuǎn)換成的物理化學(xué)矩陣PCM為:
[0012] 所述灰色理論GM(2, 1)模型適合處理無序的擾動序列,GM(2, 1)模型為一元二 階微分方程,對PCM矩陣的每一行數(shù)建立GM(2, 1)模型:
所述自相關(guān)函數(shù)是描述隨機信號x(t)在任意兩個不同時刻tl、t2的取值之間的相關(guān) 程度。將PCM矩陣中的每一行作為一組數(shù)字序列,可得到自相關(guān)因子,
使用可視化技術(shù),將二維矩陣PCM轉(zhuǎn)化為一個彩色圖像,稱之為RNA序列核巧酸二聯(lián) 體物理化學(xué)特性圖;幾何矩主要表征圖像區(qū)域的幾何特征,由于其具有旋轉(zhuǎn)、平移、尺度等 特性的不變特征,所w又稱為不變矩.在圖像處理中,幾何不變矩可w作為一個重要的特 征來表示物體,可W據(jù)此特征來對圖像進行分類等操作.圖像/(~、一'>的(P+q)階幾何矩定 義為:
中屯、矩:一幅圖像相對于亮度矩屯、所計算出的幾何矩.它表示為:
根據(jù)上述公式一個圖像可W計算出許多幾何矩,因為通過測試發(fā)現(xiàn)加上其他的幾 何矩并不能對預(yù)測成功率有明顯的提高,所W在本發(fā)明中我們只考慮下面=種幾何矩: .Mw、i/。;和巧;;,運;個因子描述了RNA序列的全局特征。
[0013] 所述方法用于RNA屬性類型預(yù)測及RNA修飾位點的預(yù)測中,相關(guān)預(yù)測器的預(yù)測成 功率提高4-7%。
[0014] 本發(fā)明基于核巧酸二聯(lián)體結(jié)構(gòu)信息和其它物理化學(xué)特性構(gòu)建RNA序列物理化學(xué) 矩陣(PhysicochemicalMatrix,PCM),此矩陣含有RNA序列結(jié)構(gòu)信息和序列順序信息。 通過對矩陣中的每行計算其自相關(guān)因子和行與行之間的互相關(guān)因子得到序列局部信息,將 PCM轉(zhuǎn)換成二維圖像,計算其圖像幾何距得到序列全局信息。將所得到的描述序列局部信息 和全局信息的因子相結(jié)合,得到RNA序列離散向量描述模型。本方法用于RNA屬性類型預(yù)測 及RNA修飾位點的位預(yù)測中,能明顯提高相關(guān)預(yù)測器的預(yù)測成功率,具有廣闊的運用前景。
【附圖說明】
[0015] 圖1為實施例對PCM矩陣進行投影,得到二維的圖像。
【具體實施方式】
[0016] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,W下結(jié)合實施例,對本發(fā)明 進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用W解釋本發(fā)明,并不用于限 定本發(fā)明。
[0017] 采用本發(fā)明融合核巧酸二聯(lián)體結(jié)構(gòu)和序列順序信息構(gòu)成RNA序列離散模型表示 方法,具體步驟如下: (1)基于核巧酸二聯(lián)體物理化學(xué)性質(zhì)構(gòu)成RNA序列物理化學(xué)矩陣(Physicochemical Matrix,PCM),PCM是一個10絮;:a-l)的矩陣,其中L為序列長度,10為采用了10種核巧 酸二聯(lián)體物理化學(xué)性質(zhì) 例如給定長度為51的RNA序列: >example CAAAGGUGACCCACUUCGUUCAUGGACGUUCCCUGAAAUCAGGGACACUAU 基于表1所示十種核巧酸二聯(lián)體結(jié)構(gòu)和物理化學(xué)特性值,根據(jù)公式(3)可得到其PCM矩陣如下:
(2 )對PCM矩陣中的每一行(共10行)數(shù)據(jù)采用灰色模型GM(2, 1)進行建模得到描述 每行序列整體特征的3個參數(shù)漢s、汾2、10行共30個參數(shù) 根據(jù)公式(4-8)將運30個參數(shù)按行排列得到1X30維的向量,表示為GM=[-1. 21 0.32 -0.62 -1.20 0.31 -0.39 -0.76 0.11 0.16 -0.88 0.11 -0.05 -1.08 0.09 0.05 -1.18 0.08 -0.11 -0.78 0.25 0.11 -0.92 0.23 -0.17 -0.72 0.02 -0. 06 -0. 67 0. 28 0. 06] (3)對PCM矩陣中每行數(shù)值序列計算其自相關(guān)因子,得到10游裝個參數(shù),運里 1,運些參數(shù)描述了RNA序列的局部特征,根據(jù)公式(9)、(10); 本例中篆取值為4,因此運個40個參數(shù)可W表示1X40維的向量: Auto=[-0. 22 -0.20 0.22 0.11 -0.05 -0.09 0.17 0.07 0.19 0.25 0.04 0.25 -0. 09 -0. 07 -0. 09 -0. 08 -0. 13 0. 11 -0. 17 0. 18 0.化-0. 06 0. 24 0. 25 -0. 23 -0. 36 0. 07 -0. 21 -0. 17 -0. 20 0. 10 -0. 10 -0. 16 0. 05 0. 03 -0. 02 0. 00 0. 04 0. 14 -0. :M] (4)對PCM矩陣中各行計算其互相關(guān)因子,得到10洋:9深;:裏個參數(shù),運些參數(shù)描述了 序列的局部信息,根據(jù)公式(11 ), A取值為4,則共有360個參數(shù),可表示為1X360維的向量 Cross=[-0. 07 -0.03 0.23 0.36 -0.18 0.30 -0.22 0.03 0.25 -0.04 -0.13 -0.04 -0. 12 0. 05 -0. 12 -0. 03 0. 14 -0. 06 -0. 09 0. 03 -0. 01 0. 01 -0. 01 0. 00 0. 09 -0. 04 -0.22 0.16 0.03 0.09 0.30 -0.19 0.27 0.11 0.27 -0.18 -0.09 0.07 0.05 0.01 -0. 07 0. 06 0. 16 0. 15 -0. 09 -0. 22 0. 00 -0. 01 -0. 16 -0. 24 -0. 20 0. 02 0. 02 -0. 16 0. 13 0. 03 0. 06 0. 16 0. 28 -0. 19 -0. 09 -0. 15 -0. 15 -0. 28 -0. 06 0. 00 -0. 06 -0. 07 -0. 11 -0. 06 -0. 13 0. 15 0. 01 0. 07 0. 03 -0. 02 -0. 02 -0. 05 -0. 01 -0. 25 -0. 02 0. 23 -0. 13 -0. 08 0. 17 0. 15 -0. 01 0. 13 0. 01 -0. 22 0. 22 -0. 31 0. 03 0. 26 0. 08 -0. 02 0.19 0.28 0.26 -0.06 0.11 0.03 -0.19 -0.12 0.07 -0.16 -0.03 -0.10 -0.01 0.07 0. 03 0. 03 -0. 04 0. 04 0. 00 0. 00 0. 06 0. 18 -0. 13 0. 20 -0. 18 -0. 13 0. 00 -0. 16 0. 14 0. 24 -0. 14 -0. 17 -0. 04 -0. 04 0. 01 0. 07 -0. 05 0. 15 0. 08 -0. 13 -0. 06 0. 04 0.12 -0.05 0.06 -0.03 -0.09 -0.10 0.27 0.02 0.27 0.02 -0.11 -0.06 -0.07 0.15 0. 24 -0. 16 -0. 18 -0. 04 -0. 02 -0. 07 -0. 02 0. 10 -0. 06 0. 11 -0. 17 0. 06 -0. 25