本發(fā)明屬于分子構(gòu)建模型領(lǐng)域,具體地,涉及一種蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)預(yù)測方法,更具體地,涉及一種基于模板構(gòu)建蛋白質(zhì)-RNA相互作用模型的方法。
背景技術(shù):
為了揭示蛋白質(zhì)-RNA的相互作用的機理,有兩種方法來獲取蛋白質(zhì)-RNA的三維結(jié)構(gòu):第一種是實驗上的方法,比如用的是結(jié)晶蛋白質(zhì)-RNA的晶體,然后是用X射線的來解析其三維結(jié)構(gòu);第二種用的是計算機模擬的技術(shù)。又可以分成對接的方法和基于模板的方法,目前已經(jīng)有對接的方法了如3dRPC,然而基于模板的方法在蛋白質(zhì)-RNA還沒有被實現(xiàn)。
基于對接的方法是根據(jù)幾何互補原理,在生物學(xué)上中鎖鑰模型,就是當(dāng)兩種分子之間進行識別時是根據(jù)這兩種分子形狀上的互補,根據(jù)幾何上的互補得到一個評價分數(shù),并且基于分數(shù)的高低判斷分子之間取向的合理性。由于計算機能夠取樣很多很多的構(gòu)象,因此根據(jù)分數(shù)來對這么多的構(gòu)象進行排序,然而僅僅根據(jù)幾何互補性分數(shù),其前10的構(gòu)象中至少有一個構(gòu)象是正確的概率比較低。
在蛋白質(zhì)-蛋白質(zhì)模型構(gòu)建之中,對接的方法和基于模板的方法各有其優(yōu)點,基于模板的在排名前幾名的成功率要比對接的方法要高,而且基于模板的方法能夠在構(gòu)象變化比較大的情況下獲取較高的成功率。
然而由于缺乏RNA的三維結(jié)構(gòu),因此基于模板的方法來構(gòu)建蛋白質(zhì)-RNA的相互作用的能力極其的有限,隨著越來越多的RNA的三維結(jié)構(gòu)被解析出來,增加了基于模板的方法來構(gòu)建蛋白質(zhì)-RNA的能力。而且隨著RNA測序技術(shù)的發(fā)展,發(fā)現(xiàn)了很多的RNA,然而大量的RNA其功能還不清楚。另外蛋白質(zhì)-RNA的三維結(jié)構(gòu)比非結(jié)構(gòu)能夠提供更加詳細的蛋白質(zhì)-RNA相互作用機理,然而目前在蛋白質(zhì)-RNA基于模板建模的領(lǐng)域的計算方法還為空白,這使得開發(fā)基于模板來構(gòu)建蛋白質(zhì)-RNA的相互作用模型的方法尤為迫切。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)的以上缺陷或改進需求,本發(fā)明提供了一種蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)預(yù)測方法,其目的在于通過構(gòu)建基于模板的蛋白質(zhì)-RNA的相互作用模型,由此解決現(xiàn)有技術(shù)蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)預(yù)測方法準(zhǔn)確率低、基于模板的蛋白質(zhì)-RNA相互作用模型計算方法缺乏的技術(shù)問題。
為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)預(yù)測方法,包括如下步驟:
(1)計算模板復(fù)合物結(jié)構(gòu)分數(shù):將給定的蛋白質(zhì)和RNA的單體結(jié)構(gòu)分別與模板庫中的蛋白質(zhì)-RNA相互作用模型模板進行比對,分別得到給定的蛋白質(zhì)與模板蛋白質(zhì)的相似分數(shù)A,以及給定的RNA與模板RNA相似分數(shù)B;對所述相似分數(shù)A和相似分數(shù)B進行比較,取所述相似分數(shù)A和所述相似分數(shù)B中較小的相似分數(shù)作為利用該模板得到的蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù),每一個模板得到一個蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù);
(2)模型排序:將步驟(1)獲得的蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù)按照降序排列;
(3)模型判斷:預(yù)先給定一個閾值,將步驟(2)按照降序排列獲得的第一個復(fù)合物結(jié)構(gòu)分數(shù),即蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù)的最大值與所述閾值進行比較,當(dāng)所述復(fù)合物結(jié)構(gòu)分數(shù)的最大值小于該閾值,則判斷該模型結(jié)構(gòu)不正確,所述給定蛋白質(zhì)和RNA不能結(jié)合;當(dāng)所述復(fù)合物結(jié)構(gòu)分數(shù)的最大值大于所述閾值,則判斷該蛋白質(zhì)-RNA相互作用模型結(jié)構(gòu)正確,該給定蛋白質(zhì)和RNA可以結(jié)合。
優(yōu)選地,所述模板庫的獲得方法為:從PDB數(shù)據(jù)庫中下載到所有的蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu),然后從中根據(jù)晶體結(jié)構(gòu)分辨率和蛋白質(zhì)殘基以及RNA堿基個數(shù)挑選確定模板庫。
優(yōu)選地,所述模板庫中的蛋白質(zhì)-RNA相互作用模型晶體結(jié)構(gòu)分辨率比3.0好,所述蛋白質(zhì)殘基個數(shù)大于30,所述RNA的堿基個數(shù)大于20。
優(yōu)選地,所述模板庫中一共有439個蛋白質(zhì)-RNA相互作用模型模板。
優(yōu)選地,所述給定的蛋白質(zhì)和模板蛋白質(zhì)的比對方法為使用TMalign程序來比對。
優(yōu)選地,所述給定的RNA與模板RNA的比對方法為使用SARA程序來比對。
優(yōu)選地,所述SARA程序使用一個歸一化的向量來代表RNA的結(jié)構(gòu),結(jié)合RNA的二級結(jié)構(gòu)特征,來比對RNA的二級結(jié)構(gòu)。
總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果。
(1)本發(fā)明開創(chuàng)性地提出了在基于模板構(gòu)建蛋白質(zhì)-RNA的相互作用模型的計算方法和程序,填補了目前的空白。
(2)測試了本發(fā)明基于模板構(gòu)建蛋白質(zhì)-RNA相互作用模型的方法PRIME的性能,PRIME的成功率的比對接的方法RPDOCK增加了40%左右,這大大的促進了蛋白質(zhì)-RNA三維結(jié)構(gòu)領(lǐng)域的發(fā)展。
(3)由于蛋白質(zhì)-RNA的相互作用跟許多的疾病相關(guān),比如癌癥,所以PRIME有可能揭示由于蛋白質(zhì)-RNA的相互作用而引起的疾病的分子機制。
附圖說明
圖1是本發(fā)明蛋白質(zhì)-RNA相互作用模型的模板庫構(gòu)建的流程圖;
圖2是本發(fā)明實施例1的技術(shù)方案流程圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
首先闡述一下本發(fā)明的原理:首先通過從PDB數(shù)據(jù)庫中挑選出439個的蛋白質(zhì)-RNA的模板庫,將給定的蛋白質(zhì)和RNA的單體結(jié)構(gòu)分別與模板庫中的蛋白質(zhì)-RNA相互作用模型模板進行比對,分別得到給定的蛋白質(zhì)與模板蛋白質(zhì)的相似分數(shù)A,以及給定的RNA與模板RNA相似分數(shù)B;對所述相似分數(shù)A和相似分數(shù)B進行比較,選擇A和B中較小的相似分數(shù)作為利用該模板得到的蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù),每一個模板得到一個蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù);將蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù)按照降序排列;預(yù)先給定一個閾值,將按照降序排列獲得的第一個復(fù)合物結(jié)構(gòu)分數(shù),即蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù)的最大值與所述閾值進行比較,當(dāng)所述復(fù)合物結(jié)構(gòu)分數(shù)的最大值小于該閾值,則判斷該模型結(jié)構(gòu)不正確,所述給定蛋白質(zhì)和RNA不能結(jié)合;當(dāng)所述復(fù)合物結(jié)構(gòu)分數(shù)的最大值大于所述閾值,則判斷該蛋白質(zhì)-RNA相互作用模型結(jié)構(gòu)正確,該給定蛋白質(zhì)和RNA可以結(jié)合。
一種蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)預(yù)測方法,具體的,一種基于模板構(gòu)建蛋白質(zhì)-RNA相互作用模型的方法PRIME,包括如下步驟:
(1)從PDB數(shù)據(jù)庫挑選確定模板庫
從PDB數(shù)據(jù)庫下載到所有的蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)總共1574個,之后選擇出晶體結(jié)構(gòu)的分辨率比3.0好且蛋白質(zhì)殘基和RNA的堿基個數(shù)分別大于30和20的結(jié)構(gòu),并且計算其相互作用的界面殘基個數(shù)大于5,保留其結(jié)構(gòu),這里我們得到了344個復(fù)合結(jié)構(gòu),總共2954個蛋白質(zhì)-RNA的相互作用模板,之后再去掉那些RNA很相似的RNA序列且留下晶體分辨率的最好的模板結(jié)構(gòu),最終得到439個相互作用模型,作為模板庫。
如圖1所示從PDB數(shù)據(jù)庫下載到所有的蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)總共1574個,之后選擇出晶體結(jié)構(gòu)的分辨率比3.0好且蛋白質(zhì)殘基和RNA的堿基個數(shù)分別大于30和20的結(jié)構(gòu),并且計算其相互作用的界面殘基個數(shù)大于5,保留其結(jié)構(gòu),這里我們得到了344個復(fù)合結(jié)構(gòu),總共2954個蛋白質(zhì)-RNA的相互作用模板,之后在去掉那些RNA很相似的RNA序列且留下晶體分辨率的最好的模板結(jié)構(gòu),最終我們得到了439個相互作用模型,并且作為我們的模板庫。
(2)使用蛋白質(zhì)(RNA)的結(jié)構(gòu)比對所有的模板復(fù)合物
將蛋白質(zhì)和RNA單體結(jié)構(gòu)作為程序的輸入,本發(fā)明使用TMalign程序來比對蛋白質(zhì)結(jié)構(gòu),TMalign是一種比對蛋白質(zhì)結(jié)構(gòu)的方法,得到給定蛋白質(zhì)和模板的蛋白質(zhì)的相似分數(shù)A;使用SARA程序來比對RNA結(jié)構(gòu),SARA使用一個歸一化的向量來代表RNA的結(jié)構(gòu),結(jié)合RNA的二級結(jié)構(gòu)特征,來比對RNA的二級結(jié)構(gòu),得到給定RNA和模板的RNA的相似分數(shù)B,根據(jù)各自的比對,將蛋白質(zhì)和RNA結(jié)構(gòu)疊加到一個蛋白質(zhì)-RNA相互作用的模板結(jié)構(gòu)之上,這樣就得到了一個蛋白質(zhì)-RNA相互作用的模型。有一個模板,就有一個模型,因此一共可以得到439個模型。
(3)模型排序
選擇上述A和B中較小的相似分數(shù)作為利用該模板得到的蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù),每一個模板得到一個蛋白質(zhì)-RNA相互作用模型的復(fù)合物結(jié)構(gòu)分數(shù),一共有439個模型,所以對于給定的蛋白質(zhì)和RNA單體,利用模板一共得到439個模型的復(fù)合物結(jié)構(gòu)分數(shù),按照復(fù)合物結(jié)構(gòu)分數(shù)對439個蛋白質(zhì)-RNA相互作用模型進行排序,按照降序排列。
相似分數(shù)代表著這兩個結(jié)構(gòu)之間的相似度,分數(shù)越高,那么這兩個結(jié)構(gòu)就越相似,選擇A和B中較小的分數(shù)是為了保證這些相互作用是一致的,從而才能由這個模板構(gòu)建出來的模型是正確的。
(4)根據(jù)閾值和排名來選擇模型
在對模型進行排序了之后,預(yù)先給定一個閾值0.45來判定這個模型的正確性。這個閾值是由PRIME在模板庫上測試給出的。判別模型正確與否的標(biāo)準(zhǔn)是:將按照降序排列后的復(fù)合物結(jié)構(gòu)分數(shù)的最大值與該閾值進行比較,復(fù)合物結(jié)構(gòu)分數(shù)最大值比閾值小,這樣構(gòu)建出來的模型是不正確的,如果大于這個閾值,那么這個模型是正確的,我們判斷這個蛋白質(zhì)-RNA可以結(jié)合,并給出蛋白質(zhì)-RNA的3D結(jié)構(gòu)。
以下為實施例:
實施例1
圖2顯示了構(gòu)建蛋白質(zhì)-RNA的基于模板的方法來構(gòu)建相互作用的模型示意圖。圖2中最上面的蛋白質(zhì)和RNA單體結(jié)構(gòu)作為程序的輸入,然后使用TMalign這個程序蛋白質(zhì)比對的程序比對蛋白質(zhì)結(jié)構(gòu),TMalign是一種比對蛋白質(zhì)結(jié)構(gòu)的方法;使用SARA這個程序比對RNA結(jié)構(gòu),而SARA是一種使用一個歸一化的向量來代表RNA的結(jié)構(gòu),結(jié)合RNA的二級結(jié)構(gòu)特征,來比對RNA的二級結(jié)構(gòu)。中間的是一個蛋白質(zhì)-RNA相互作用的模板結(jié)構(gòu),分別根據(jù)各自的比對,將蛋白質(zhì)和RNA結(jié)構(gòu)疊加到模板結(jié)構(gòu)之上,最終就得到了圖1最下面部分的蛋白質(zhì)-RNA相互作用的模型。實際上輸入一個蛋白質(zhì)(RNA)的結(jié)構(gòu)我們不僅僅得到一個相互作用模型,有一個模板,則有一個模型,因此我們得到439個模型,根據(jù)和模板的相似性,我們對模型進行了一個排序。圖2中的一個例子就是1A9N_B和1A9N_C使用本發(fā)明根據(jù)1N78_AC蛋白質(zhì)-RNA復(fù)合物構(gòu)建出來模型,而且這個排名是第一且相似分數(shù)大于閾值0.45,因此判斷這個模型是正確的。與由晶體結(jié)構(gòu)給出的模型相比,本發(fā)明給出的模型的配體的rmsd是3.0,這就驗證了本發(fā)明的基于模板的蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)預(yù)測方法的準(zhǔn)確性和實用性。
本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。