本發(fā)明涉及生物,具體涉及一種基于rna序列和結(jié)構(gòu)信息特征預(yù)測(cè)rna與小分子結(jié)合點(diǎn)位模型的構(gòu)建方法及其應(yīng)用。
背景技術(shù):
1、近年來(lái)rna小分子作為治療疾病的潛在靶點(diǎn)逐漸受到關(guān)注,rna-小分子結(jié)合位點(diǎn)對(duì)靶向藥物的研究至關(guān)重要,然而由于rna的序列和結(jié)構(gòu)的復(fù)雜性較高,預(yù)測(cè)rna-小分子結(jié)合點(diǎn)位仍然具有巨大的挑戰(zhàn)。
2、因?yàn)楝F(xiàn)有的方法對(duì)真正樣本的識(shí)別度不是很高,所以我們基于rna的序列和結(jié)構(gòu)的特征提出了一個(gè)新的預(yù)測(cè)方法:rnabind。在兩個(gè)獨(dú)立的測(cè)試集上的實(shí)驗(yàn)結(jié)果表明rnabind整體的性能優(yōu)于現(xiàn)有的方法,特別是極大地提高了recall,使模型能夠更好地捕捉到真正樣本。rnabind有望成為設(shè)計(jì)rna靶向小分子藥物的有用工具。
3、rna分子的功能復(fù)雜多樣,對(duì)維持生命活動(dòng)和機(jī)體功能起著至關(guān)重要的作用。rna小分子可以通過(guò)與rna大分子的特定結(jié)合點(diǎn)位相互作用,發(fā)揮調(diào)控基因表達(dá)、干擾rna結(jié)構(gòu)等功能。在藥物研發(fā)領(lǐng)域,靶向rna的小分子藥物(rna-targeted?small?molecules)具有針對(duì)rna結(jié)構(gòu)或功能的特異性結(jié)合能力,可用于調(diào)控rna的生物學(xué)活性,有望作為治療相關(guān)疾病的新型藥物,這促進(jìn)了rna與小分子結(jié)合點(diǎn)位預(yù)測(cè)的計(jì)算方法的發(fā)展。
4、由于rna的序列和結(jié)構(gòu)的多樣性,加上rna-小分子結(jié)合點(diǎn)位數(shù)據(jù)較為稀少,導(dǎo)致只有少數(shù)的幾種方法被開(kāi)發(fā)出來(lái),包括rsite,rsite2,rbind,rnasite和rlbind。rsite是一種基于rna三級(jí)結(jié)構(gòu)的計(jì)算方法,它首先計(jì)算每個(gè)核苷酸和rna分子中所有其他核苷酸之間的歐氏距離,然后確定距離曲線中的極值點(diǎn)作為功能位點(diǎn)的核苷酸。rsite2則是在rsite的基礎(chǔ)上使用rna的二級(jí)結(jié)構(gòu)來(lái)進(jìn)行預(yù)測(cè)。rbind是一種基于結(jié)構(gòu)的計(jì)算網(wǎng)絡(luò),使用度和結(jié)合貼近度來(lái)識(shí)別rna-小分子的結(jié)合點(diǎn)位。rnasite和rlbind則都使用了rna的序列和結(jié)構(gòu)特征來(lái)預(yù)測(cè)rna-小分子的結(jié)合點(diǎn)位。就目前最新的兩種方法來(lái)說(shuō),雖然他們都使用了rna的序列和結(jié)構(gòu)的特征,但是對(duì)真正樣本的識(shí)別度不是很高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問(wèn)題在于如何提供一種預(yù)測(cè)rna與小分子結(jié)合點(diǎn)位模型的構(gòu)建方法。
2、本發(fā)明通過(guò)以下技術(shù)手段實(shí)現(xiàn)解決上述技術(shù)問(wèn)題的:
3、本發(fā)明的第一方面提出一種基于rna序列和結(jié)構(gòu)信息特征預(yù)測(cè)rna與小分子結(jié)合點(diǎn)位模型的構(gòu)建方法,包括以下步驟:
4、s1、建模數(shù)據(jù)收集:從pdb數(shù)據(jù)庫(kù)中收集rna與小分子相互作用rna復(fù)合物的id,經(jīng)過(guò)處理后作為建模樣本;
5、s2、數(shù)據(jù)集的劃分:將所有rna-小分子相互作用樣本按照比例分為訓(xùn)練集和測(cè)試集;
6、s3、數(shù)據(jù)正負(fù)集的劃分:核苷酸和小分子之間的原子距離小于特定的距離截止值則核苷酸被定義為與小分子相互作用,即正樣本,其余為負(fù)樣本;
7、s4、rna特征的組合:選擇rna序列的one-hot編碼和序列中每個(gè)核苷酸的進(jìn)化保守性評(píng)分作為序列特征;選擇點(diǎn)位先驗(yàn)性質(zhì)、網(wǎng)絡(luò)拓?fù)湫再|(zhì)、生化性質(zhì)和asa編碼作為結(jié)構(gòu)特征;將特征組合后獲得具有rna序列和結(jié)構(gòu)信息的綜合特征;
8、s5、模型構(gòu)建:使用卷積模塊、滑動(dòng)窗口模塊和自注意力模塊組成的深度學(xué)習(xí)模型,對(duì)具有rna序列和結(jié)構(gòu)特征的綜合特征進(jìn)行預(yù)測(cè)并得出結(jié)果。
9、優(yōu)選的,所述s1中,處理的方法為如果rna分子與一個(gè)或多個(gè)配體形成復(fù)合物,則選擇復(fù)合物進(jìn)行結(jié)合位點(diǎn)預(yù)測(cè)。
10、優(yōu)選的,所述s1中,處理的方法為使用結(jié)構(gòu)相似性聚類(lèi)去除冗余結(jié)構(gòu),成對(duì)結(jié)構(gòu)相似性tm-scorerna的截?cái)嘀禐?.3。
11、優(yōu)選的,所述s1中,處理的方法為模擬rna三級(jí)結(jié)構(gòu),通過(guò)過(guò)濾具有多鏈或假結(jié)相互作用的rna結(jié)構(gòu)來(lái)保留rna。
12、優(yōu)選的,所述s5中,采用卷積模塊來(lái)提取rna編碼的全局特征;采用滑動(dòng)窗口模塊來(lái)提取rna編碼的局部特征;最后將全局與局部特征拼接輸入到自注意力模塊得出預(yù)測(cè)結(jié)果。
13、本發(fā)明的第二方面提出一種基于rna序列和結(jié)構(gòu)信息的小分子結(jié)合點(diǎn)位的預(yù)測(cè)方法,該預(yù)測(cè)方法采用上述方法構(gòu)建的模型來(lái)實(shí)現(xiàn)。
14、優(yōu)選的,包括以下步驟:
15、(1)分別對(duì)rna的每個(gè)核苷酸序列與結(jié)構(gòu)特征進(jìn)行計(jì)算編碼;
16、(2)將rna的每個(gè)核苷酸序列與結(jié)構(gòu)特征進(jìn)行拼接,輸入到所述小分子結(jié)合點(diǎn)位預(yù)測(cè)模型中,得出rna每個(gè)核苷酸為小分子結(jié)合點(diǎn)位的概率值;
17、(3)根據(jù)閾值確定核苷酸是否為小分子結(jié)合點(diǎn)位,大于閾值判定為結(jié)合點(diǎn)位。
18、優(yōu)選的,所述步驟(1)中,序列特征包括對(duì)序列one-hot編碼,使用consurfdb算法來(lái)確定每一個(gè)核苷酸的進(jìn)化保守性評(píng)分;結(jié)構(gòu)特征包括使用二級(jí)結(jié)構(gòu)相似性點(diǎn)位先驗(yàn)算法計(jì)算結(jié)合點(diǎn)位在rna二級(jí)結(jié)構(gòu)中的概率、使用三級(jí)結(jié)構(gòu)的網(wǎng)絡(luò)拓?fù)渌惴ㄓ?jì)算三級(jí)結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的重要性、使用rnasol算法來(lái)計(jì)算核苷酸的asa。
19、優(yōu)選的,所述步驟(2)中,每個(gè)rna核苷酸的編碼長(zhǎng)度為16d,每條rna固定長(zhǎng)度為64,輸入到模型得到每個(gè)rna包含64×16個(gè)特征信息。
20、優(yōu)選的,所述步驟(3)中,將每條rna64×16個(gè)特征信息輸入到模型中,得出模型對(duì)每一個(gè)核苷酸是否為小分子結(jié)合點(diǎn)位。
21、本發(fā)明的有益效果在于:
22、本發(fā)明提出一種全新的預(yù)測(cè)方法rnabind來(lái)預(yù)測(cè)rna-小分子結(jié)合點(diǎn)位。在這項(xiàng)工作中我們使用rna的序列、二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)和生化性質(zhì),序列的特征包括了對(duì)核苷酸類(lèi)型的one-hot編碼和對(duì)核苷酸進(jìn)行進(jìn)化保守性評(píng)分。結(jié)構(gòu)的特征包括了二級(jí)結(jié)構(gòu)相似性的點(diǎn)位先驗(yàn)性質(zhì)、三級(jí)結(jié)構(gòu)的網(wǎng)絡(luò)拓?fù)湫再|(zhì)和可接觸表面積(asa),其中二級(jí)結(jié)構(gòu)是我們?cè)O(shè)計(jì)的編碼方式來(lái)對(duì)二級(jí)結(jié)構(gòu)相似的rna進(jìn)行特征提取。最后生化性質(zhì)包括了對(duì)rna分子量和側(cè)鏈pka的編碼。極大提高了預(yù)測(cè)rna-小分子的結(jié)合點(diǎn)位的效率和準(zhǔn)確性。在兩個(gè)獨(dú)立的測(cè)試集上的實(shí)驗(yàn)結(jié)果表明rnabind整體的性能優(yōu)于現(xiàn)有的方法,特別是極大地提高了recall,使模型能夠更好地捕捉到真正樣本。rnabind有望成為設(shè)計(jì)rna靶向小分子藥物的有用工具。
1.一種基于rna序列和結(jié)構(gòu)信息特征預(yù)測(cè)rna與小分子結(jié)合點(diǎn)位模型的構(gòu)建方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,所述s1中,處理的方法為如果rna分子與一個(gè)或多個(gè)配體形成復(fù)合物,則選擇復(fù)合物進(jìn)行結(jié)合位點(diǎn)預(yù)測(cè)。
3.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,所述s1中,處理的方法為使用結(jié)構(gòu)相似性聚類(lèi)去除冗余結(jié)構(gòu),成對(duì)結(jié)構(gòu)相似性tm-scorerna的截?cái)嘀禐?.3。
4.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,所述s1中,處理的方法為模擬rna三級(jí)結(jié)構(gòu),通過(guò)過(guò)濾具有多鏈或假結(jié)相互作用的rna結(jié)構(gòu)來(lái)保留rna。
5.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,所述s5中,采用卷積模塊來(lái)提取rna編碼的全局特征;采用滑動(dòng)窗口模塊來(lái)提取rna編碼的局部特征;最后將全局與局部特征拼接輸入到自注意力模塊得出預(yù)測(cè)結(jié)果。
6.一種基于rna序列和結(jié)構(gòu)信息的小分子結(jié)合點(diǎn)位的預(yù)測(cè)方法,其特征在于,該預(yù)測(cè)方法采用權(quán)利要求1-5任一項(xiàng)所述的方法構(gòu)建的模型來(lái)實(shí)現(xiàn)。
7.根據(jù)權(quán)利要求6所述的預(yù)測(cè)方法,其特征在于,包括以下步驟:
8.根據(jù)權(quán)利要求1所述的預(yù)測(cè)方法,其特征在于,所述步驟(1)中,序列特征包括對(duì)序列one-hot編碼,使用consurfdb算法來(lái)確定每一個(gè)核苷酸的進(jìn)化保守性評(píng)分;結(jié)構(gòu)特征包括使用二級(jí)結(jié)構(gòu)相似性點(diǎn)位先驗(yàn)算法計(jì)算結(jié)合點(diǎn)位在rna二級(jí)結(jié)構(gòu)中的概率、使用三級(jí)結(jié)構(gòu)的網(wǎng)絡(luò)拓?fù)渌惴ㄓ?jì)算三級(jí)結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的重要性、使用rnasol算法來(lái)計(jì)算核苷酸的asa。
9.根據(jù)權(quán)利要求6所述的預(yù)測(cè)方法,其特征在于,所述步驟(2)中,每個(gè)rna核苷酸的編碼長(zhǎng)度為16d,每條rna固定長(zhǎng)度為64,輸入到模型得到每個(gè)rna包含64×16個(gè)特征信息。
10.根據(jù)權(quán)利要求6所述的預(yù)測(cè)方法,其特征在于,所述步驟(3)中,將每條rna?64×16個(gè)特征信息輸入到模型中,得出模型對(duì)每一個(gè)核苷酸是否為小分子結(jié)合點(diǎn)位。