專利名稱:基于灰色理論和分子指紋的藥物-靶標(biāo)結(jié)合預(yù)測(cè)方法
基于灰色理論和分子指紋的藥物-靶標(biāo)結(jié)合預(yù)測(cè)方法技術(shù)領(lǐng)域
本發(fā)明屬于藥物-靶標(biāo)結(jié)合技術(shù)領(lǐng)域,尤其涉及基于灰色理論和分子指紋的藥物-靶標(biāo)結(jié)合預(yù)測(cè)方法。
背景技術(shù):
在藥物設(shè)計(jì)過程中識(shí)別藥物_靶標(biāo)結(jié)合是一個(gè)重要的步驟。在最近幾年,人類為發(fā)現(xiàn)新的藥物付出了巨大的努力,但新藥出現(xiàn)的數(shù)量還是很低(每年大約30余種)。部分原因在于許多潛在的藥物具有不可接受的毒性。如果能開發(fā)出在藥物合成前就能預(yù)測(cè)其敏感性和毒性的算法將是非常有益的。藥物有許多作用(包括正和副作用),而人類具有非常復(fù)雜的生化反應(yīng)途徑,即使是一些具有微小差別基因的人群對(duì)同一藥物也可能產(chǎn)生完全不同的反應(yīng),導(dǎo)致發(fā)現(xiàn)和解釋這些可能的作用是非常困難的,采用實(shí)驗(yàn)方法測(cè)定藥物-靶標(biāo)結(jié)合既費(fèi)時(shí)也費(fèi)力,因此設(shè)計(jì)能預(yù)測(cè)藥物和靶標(biāo)之間是否能結(jié)合的算法對(duì)開發(fā)新藥將會(huì)有幫助。
隨著信息技術(shù)的發(fā)展,如今科學(xué)家已經(jīng)開發(fā)出許多能分析和預(yù)測(cè)藥物_靶標(biāo)結(jié)合的計(jì)算方法,例如docking仿真法、藥效團(tuán)法、功能團(tuán)法、文獻(xiàn)挖掘法、聯(lián)合化學(xué)結(jié)構(gòu)法和3D 結(jié)構(gòu)信息法等,這些方法對(duì)發(fā)現(xiàn)新藥物都起到了很大作用,但必須看到,這些方法大都需要靶標(biāo)蛋白質(zhì)的三維結(jié)構(gòu)信息。而隨著生物技術(shù)的發(fā)展,越來越多的蛋白質(zhì)序列被測(cè)序,但未知結(jié)構(gòu)信息的蛋白質(zhì)數(shù)量遠(yuǎn)遠(yuǎn)超過已知結(jié)構(gòu)的蛋白質(zhì)數(shù)量,而且有些蛋白質(zhì)的結(jié)構(gòu)雖然被測(cè)定,但由于私人利益關(guān)系并沒有公布,所以設(shè)計(jì)出基于蛋白質(zhì)一級(jí)序列預(yù)測(cè)藥物-蛋白質(zhì)靶標(biāo)是否結(jié)合的方法非常必要。發(fā)明內(nèi)容
本發(fā)明提供了基于灰色理論和分子指紋的藥物_靶標(biāo)結(jié)合預(yù)測(cè)方法,旨在解決現(xiàn)有技術(shù)提供的分析和預(yù)測(cè)藥物-靶標(biāo)結(jié)合的計(jì)算方法,大都需要靶標(biāo)蛋白質(zhì)的三維結(jié)構(gòu)信息,才能判斷藥物與蛋白質(zhì)是否能夠結(jié)合,而蛋白質(zhì)的三維結(jié)構(gòu)信息的獲取較為煩瑣,有些蛋白質(zhì)的結(jié)構(gòu)雖然被測(cè)定,但由于私人利益關(guān)系并沒有公布,限制了新藥物的發(fā)現(xiàn)的問題。
本發(fā)明的目的在于提供基于灰色理論和分子指紋的藥物_靶標(biāo)結(jié)合預(yù)測(cè)方法,該預(yù)測(cè)方法包括以下步驟步驟一,基于灰色理論GM (I, I)模型生成蛋白質(zhì)偽氨基酸成分,結(jié)合蛋白質(zhì)序列氨基酸成分將靶標(biāo)蛋白質(zhì)序列轉(zhuǎn)換成21維空間向量;步驟二,通過藥物分子指紋軟件將藥物分子描述成一個(gè)256維空間向量;步驟三,將描述蛋白質(zhì)序列的21維空間向量和描述藥物分子的256維空間向量組合成 277維空間向量,作為藥物-靶標(biāo)結(jié)合描述符;步驟四,采用模糊K近鄰法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,得出預(yù)測(cè)器最佳參數(shù),將藥物_靶標(biāo)結(jié)合描述符輸入預(yù)測(cè)器預(yù)測(cè)藥物和靶標(biāo)是否有關(guān)聯(lián)。
進(jìn)一步,基于灰色模型GM (I, I)的蛋白質(zhì)靶標(biāo)偽氨基酸成分離散模型如下蛋白質(zhì)一級(jí)結(jié)構(gòu)是由 20 種英文字母 A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W
和Y組成,這20個(gè)字母分別代表20種氨基酸,蛋白質(zhì)一級(jí)結(jié)構(gòu)決定了蛋白質(zhì)的三維結(jié)構(gòu)和 功能;
表1列出了 10種氨基酸數(shù)字編碼模型,這些模型都反映了氨基酸的各種物 理化學(xué)特性,通過氨基酸數(shù)字編碼模型能將蛋白質(zhì)序列轉(zhuǎn)換成離散的數(shù)字信號(hào)
權(quán)利要求
1.一種基于灰色理論和分子指紋的藥物-靶標(biāo)結(jié)合預(yù)測(cè)方法,其特征在于,該預(yù)測(cè)方法包括以下步驟 步驟一,基于灰色理論GM (I, I)模型生成蛋白質(zhì)偽氨基酸成分,結(jié)合蛋白質(zhì)序列氨基酸成分將靶標(biāo)蛋白質(zhì)序列轉(zhuǎn)換成21維空間向量; 步驟二,通過藥物分子指紋軟件將藥物分子描述成一個(gè)256維空間向量; 步驟三,將描述蛋白質(zhì)序列的21維空間向量和描述藥物分子的256維空間向量組合成277維空間向量,作為藥物-靶標(biāo)結(jié)合描述符; 步驟四,采用模糊K近鄰法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,得出預(yù)測(cè)器最佳參數(shù),將藥物-靶標(biāo)結(jié)合描述符輸入預(yù)測(cè)器預(yù)測(cè)藥物和靶標(biāo)是否有關(guān)聯(lián)。
2.如權(quán)利要求I所述的預(yù)測(cè)方法,其特征在于,基于灰色模型GM(1,I)的蛋白質(zhì)靶標(biāo)偽氨基酸成分離散模型如下 蛋白質(zhì)一級(jí)結(jié)構(gòu)是由 20 種英文字母 A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y組成,這20個(gè)字母分別代表20種氨基酸,蛋白質(zhì)一級(jí)結(jié)構(gòu)決定了蛋白質(zhì)的三維結(jié)構(gòu)和功能; 灰色模型GM (I, I)模型是將離散的隨機(jī)數(shù)經(jīng)過依次累加成算子,削弱其隨機(jī)性,得到較有規(guī)律的生成數(shù),然后建立微分方程、解方程進(jìn)而建立模型,模型中有兩個(gè)參數(shù)a是灰色發(fā)展系數(shù),b是灰色輸入系數(shù),它們是描述序列特征的參數(shù);
3.如權(quán)利要求I所述的預(yù)測(cè)方法,其特征在于,藥物分子指紋描述如下 藥物分子都是已知三維結(jié)構(gòu)的,為了對(duì)藥物-靶標(biāo)結(jié)合進(jìn)行預(yù)測(cè),采用分子指紋OpenBabel工具,將藥物三維結(jié)構(gòu)轉(zhuǎn)換成數(shù)字向量,OpenBabel輸出有四種格式FP2,F(xiàn)P3,FP4 and MACCS,采用FP2將藥物分子三維結(jié)構(gòu)轉(zhuǎn)換成256維的空間向量,將此向量看作一個(gè)數(shù)字信號(hào),對(duì)其進(jìn)行離散傅里葉變換,得到256個(gè)頻譜值,對(duì)其求模得出256個(gè)正實(shí)數(shù)作為描述藥物三維結(jié)構(gòu)的描述符[Ei,F2,.--,K5J ,具體計(jì)算公式如下
4.如權(quán)利要求I所述的預(yù)測(cè)方法,其特征在于,基于模糊K近鄰的藥物-靶標(biāo)結(jié)合預(yù)測(cè)如下 將描述蛋白質(zhì)靶標(biāo)和藥物分子的向量組合成一個(gè)新的向量作為描述藥物和蛋白質(zhì)靶標(biāo)結(jié)合對(duì)用于訓(xùn)練,訓(xùn)練集包括蛋白質(zhì)序列和藥物分子結(jié)合對(duì),將其作為正訓(xùn)練集,負(fù)訓(xùn)練集采用不包含在正訓(xùn)練集中的蛋白質(zhì)與藥物結(jié)合對(duì),機(jī)器學(xué)習(xí)方法采用模糊K近鄰法,通過訓(xùn)練得到最佳參數(shù),就可對(duì)藥物-靶標(biāo)進(jìn)行預(yù)測(cè)。
5.如權(quán)利要求I所述的預(yù)測(cè)方法,其特征在于,采用該預(yù)測(cè)方法用于離子通道蛋白靶標(biāo)與藥物結(jié)構(gòu)預(yù)測(cè)時(shí),步驟如下 將藥物分子代碼輸入到KEGG數(shù)據(jù)庫(kù)中,得到包含此藥物分子化學(xué)結(jié)構(gòu)信息的mol文件,將此mol文件輸入到OpenBabel軟件中,使用FP2格式分子指紋,可得到256個(gè)O到15的值,將其作為離散數(shù)字信號(hào),進(jìn)行傅里葉變換,得到256個(gè)頻譜值,作為描述藥物分子的256維向量; 將描述蛋白質(zhì)靶標(biāo)的21維向量組合描述藥物分子的256維向量,得到描述藥物-靶標(biāo)結(jié)合對(duì)277維向量;采用模糊K近鄰法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練集中包含1372個(gè)離子通道蛋白-藥物對(duì)作為正數(shù)據(jù)集,得到2744個(gè)數(shù)據(jù)作為負(fù)數(shù)據(jù)集。
6.如權(quán)利要求I所述的預(yù)測(cè)方法,其特征在于,采用該預(yù)測(cè)方法用于離子通道蛋白靶標(biāo)與藥物結(jié)構(gòu)預(yù)測(cè)時(shí)還進(jìn)一步包括以下步驟 基于灰色模型GM (I, I)的蛋白質(zhì)靶標(biāo)偽氨基酸成分離散模型中的第十種氨基酸編碼模型,所有編碼值都加上I. 2后,得出描述離子通道蛋白靶標(biāo)的21維空間向量。
7.如權(quán)利要求5所述的預(yù)測(cè)方法,其特征在于,模糊K近鄰法中參數(shù)m=l.8和K=4時(shí)得到最佳預(yù)測(cè),預(yù)測(cè)成功率為86. 9%。
全文摘要
本發(fā)明公開了基于灰色理論和分子指紋的藥物-靶標(biāo)結(jié)合預(yù)測(cè)方法,基于灰色理論GM(1,1)模型生成蛋白質(zhì)偽氨基酸成分,結(jié)合蛋白質(zhì)序列氨基酸成分將靶標(biāo)蛋白質(zhì)序列轉(zhuǎn)換成21維空間向量;通過藥物分子指紋軟件將藥物分子描述成一個(gè)256維空間向量;將描述蛋白質(zhì)序列的21維空間向量和描述藥物分子的256維空間向量組合成277維空間向量,作為藥物-靶標(biāo)結(jié)合描述符;采用模糊K近鄰法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,得出預(yù)測(cè)器最佳參數(shù),將藥物-靶標(biāo)結(jié)合描述符輸入預(yù)測(cè)器預(yù)測(cè)藥物和靶標(biāo)是否有關(guān)聯(lián),本方法不需要測(cè)出蛋白質(zhì)的三維結(jié)構(gòu),只需蛋白質(zhì)的一維序列加上藥物分子指紋就可預(yù)測(cè)藥物與蛋白質(zhì)是否可結(jié)合,預(yù)測(cè)成功率高。
文檔編號(hào)G06F19/00GK102930169SQ20121044029
公開日2013年2月13日 申請(qǐng)日期2012年11月7日 優(yōu)先權(quán)日2012年11月7日
發(fā)明者肖絢, 閔建亮 申請(qǐng)人:景德鎮(zhèn)陶瓷學(xué)院