專利名稱:用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)輔助藥物設(shè)計(jì)領(lǐng)域,特別涉及一種基于化合物和蛋白質(zhì)相似性、用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法。
背景技術(shù):
中藥具有多成分、多靶點(diǎn)協(xié)同整體作用的特點(diǎn),各個(gè)成分和靶點(diǎn)之間的關(guān)系所呈現(xiàn)的其實(shí)是一種復(fù)雜的網(wǎng)狀結(jié)構(gòu)。但是,長久以來,中藥研發(fā)基本上都是把藥物作為單一擾動(dòng)因素,并以此為基礎(chǔ)研究其與生物應(yīng)答系統(tǒng)的關(guān)系(“點(diǎn)一系統(tǒng)”),不能很好地反映中藥干預(yù)系統(tǒng)與生物應(yīng)答系統(tǒng)之間的交互關(guān)系(“系統(tǒng)一系統(tǒng)”),使之難以明確中藥的藥效物質(zhì)群并進(jìn)行復(fù)方的配伍優(yōu)化。而且,大多數(shù)中藥研發(fā)所采用的基于化學(xué)成分分離和簡單的活性成分篩選相結(jié)合的方法,難以真正闡釋中藥的科學(xué)內(nèi)涵。近年來出現(xiàn)的網(wǎng)絡(luò)藥理學(xué),突破了傳統(tǒng)“單藥物,單靶點(diǎn)”藥物研發(fā)模式的瓶頸,并提供了一種基于“多藥物,多靶點(diǎn)”相互作用關(guān)系的藥物研發(fā)新模式和新思路,這與中藥的多成分、多靶點(diǎn)、多途徑等特點(diǎn)正好吻合,因此,借鑒網(wǎng)絡(luò)藥理學(xué)的理念和方法進(jìn)行中藥研發(fā),有可能為中藥藥效物質(zhì)基礎(chǔ)研究和相應(yīng)靶點(diǎn)發(fā)現(xiàn)等帶來前所未有的機(jī)遇。而且,放眼全球還可以發(fā)現(xiàn),由于in silico技術(shù)的應(yīng)用,世界范圍內(nèi)的藥物研發(fā)費(fèi)用減少了約一半左右,所以,in silico技術(shù)的投入在整個(gè)藥物研發(fā)的投入上所占比例也越來越大,到 2016 年將達(dá) 20% 左右(1.M.Kapetanovic, Chemi co-bio logical interactions,2008.171 (2),p.165-176)。特別是在臨床前研究階段,使用計(jì)算機(jī)輔助藥物設(shè)計(jì)手段進(jìn)行藥物虛擬篩選和優(yōu)化設(shè)計(jì)可以大幅度降低費(fèi)用并提高效率。但是,目前in silico技術(shù)在中藥研發(fā)中所占的比重還非常低,其應(yīng)用價(jià)值還不能很好體現(xiàn)。在進(jìn)行傳統(tǒng)實(shí)驗(yàn)之前,如果能夠發(fā)展和推廣使用in silico技術(shù)、并選擇與中藥的特點(diǎn)較為吻合的理念和模式進(jìn)行評(píng)價(jià)篩選,對于中藥現(xiàn)代化將有著重大意義。
發(fā)明內(nèi)容
本發(fā)明的目的是針對中藥多成分、多靶點(diǎn)協(xié)同整體作用的特點(diǎn),提供一種結(jié)合網(wǎng)絡(luò)建模技術(shù)、基于化合物和蛋白質(zhì)相似性、用于發(fā)現(xiàn)中藥活性成分(化合物)及其作用靶點(diǎn)(蛋白質(zhì))的方法,以提高中藥活性成分及其作用靶點(diǎn)的篩選準(zhǔn)確率和效率。一種用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,包括:(A)收集用于構(gòu)建訓(xùn)練集的化合物、蛋白質(zhì)(潛在的作用靶點(diǎn))和它們之間的相互作用數(shù)據(jù);該步驟中收集的化合物和作為潛在靶點(diǎn)的蛋白質(zhì)取自于Drugbank數(shù)據(jù)庫。(B)分別獲取所述化合物的分子結(jié)構(gòu)和所述蛋白質(zhì)的氨基酸序列;該步驟中化合物的分子結(jié)構(gòu)和蛋白質(zhì)的氨基酸序列均從Drugbank數(shù)據(jù)庫獲取,其中化合物的分子結(jié)構(gòu)為SDF格式;(C)根據(jù)所述化合物的分子結(jié)構(gòu)計(jì)算化合物的分子描述符,根據(jù)所述蛋白質(zhì)的氨基酸序列計(jì)算蛋白質(zhì)的特征描述符;
(D)根據(jù)所述分子描述符和特征描述符以及兩者之間的相互作用數(shù)據(jù)構(gòu)建訓(xùn)練集;(E)基于所構(gòu)建的訓(xùn)練集,使用機(jī)器學(xué)習(xí)方法建立化合物和蛋白質(zhì)相互作用預(yù)測模型;(F)對需要預(yù)測的中藥,收集其已知的化合物成分,計(jì)算所述化合物成分的分子描述符,連同步驟(C)中得到的蛋白質(zhì)的特征描述符構(gòu)建預(yù)測集;(G)使用所述預(yù)測模型對所述預(yù)測集進(jìn)行預(yù)測,所述的預(yù)測結(jié)果表示化合物和蛋白質(zhì)之間是否存在相互作用;(H)根據(jù)步驟(G)得到的模型預(yù)測結(jié)果構(gòu)建化合物和蛋白質(zhì)相互作用網(wǎng)絡(luò);(I)通過對所述網(wǎng)絡(luò)分析,得到需要預(yù)測的中藥的潛在活性成分和相應(yīng)靶點(diǎn)。為便于計(jì)算,作為優(yōu)選,步驟(C)中所述分子描述符可選擇通過Dragon軟件計(jì)算得到;所述特征描述符通過PseAAC工具(偽氨基酸組成工具,Pseudo Amino AcidComposition,可參考文獻(xiàn) HB Shen & KC Chou, Analytical Biochemistry, 2008, 373 (2), p.386 - 388)工具計(jì)算得到。為提高預(yù)測精度和預(yù)測過程的穩(wěn)定性,作為優(yōu)選,所述步驟(C)中得到分子描述符后,對得到的每一個(gè)分子描述符進(jìn)行如下判斷,若滿足如下條件之一則剔除該分子描述符:(O該分子描述符中含有無效值;(2)該分子描述符中零值比例大于設(shè)定比例;(3)該分子描述符的標(biāo)準(zhǔn)差小于設(shè)定標(biāo)準(zhǔn)差。所述步驟(D)中,根據(jù)所述分子描述符和特征描述符構(gòu)建訓(xùn)練集時(shí):其中的獨(dú)立變量為計(jì)算獲得的分子描述符和特征描述符,因變量為化合物和蛋白質(zhì)之間的相互作用關(guān)系,具體構(gòu)建步驟為:(I)根據(jù)步驟(A)中的相互作用數(shù)據(jù)做如下判斷:如果一個(gè)化合物和一個(gè)蛋白質(zhì)之間存在著已知的相互作用關(guān)系,那么對應(yīng)的因變量值為陽性(positive);如果一個(gè)化合物和一個(gè)蛋白質(zhì)之間未發(fā)現(xiàn)有已知的相互作用關(guān)系,對應(yīng)的因變量值為陰性(negative);(2)所有存在相互作用關(guān)系的化合物和蛋白質(zhì)構(gòu)成陽性樣本,而陰性樣本則從未發(fā)現(xiàn)存在相互作用關(guān)系的化合物和蛋白質(zhì)比對中隨機(jī)產(chǎn)生,并使陽性樣本和陰性樣本的數(shù)據(jù)比例保持為1:0.8-1.5。步驟(E)中,所述機(jī)器學(xué)習(xí)方法為邏輯回歸方法(logistic regression)。所述步驟(H)中,根據(jù)步驟(G)得到的模型預(yù)測結(jié)果構(gòu)建化合物和蛋白質(zhì)相互作用網(wǎng)絡(luò)時(shí):對于預(yù)測結(jié)果大于設(shè)定閾值時(shí),把相應(yīng)的化合物和蛋白質(zhì)作為網(wǎng)絡(luò)節(jié)點(diǎn),將該化合物和蛋白質(zhì)用一條邊連接,當(dāng)所有被預(yù)測的存在相互作用的化合物和蛋白質(zhì)比對都被連接起來,網(wǎng)絡(luò)的構(gòu)建即完成。為提高預(yù)測準(zhǔn)確率,作為優(yōu)選,所述步驟(I)中,對所述網(wǎng)絡(luò)分析時(shí):對每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上的連接邊變數(shù)進(jìn)行判斷,當(dāng)連接邊變數(shù)大于設(shè)定值時(shí),保留該網(wǎng)絡(luò)節(jié)點(diǎn);反之刪除該網(wǎng)絡(luò)節(jié)點(diǎn)以及與該網(wǎng)絡(luò)節(jié)點(diǎn)相連的邊;最后得到需要預(yù)測的中藥的潛在活性成分和相應(yīng)靶點(diǎn)的網(wǎng)絡(luò)。本發(fā)明的有益效果體現(xiàn)在:(I)使用邏輯回歸方法建立預(yù)測模型,為預(yù)測化合物和蛋白質(zhì)的相互作用關(guān)系提供了一種快速的建模和預(yù)測方法;
(2)通過構(gòu)建網(wǎng)絡(luò)模型并進(jìn)行網(wǎng)絡(luò)分析,并選擇那些連接數(shù)大的的節(jié)點(diǎn)作為候選目標(biāo),能夠大大提高最終的預(yù)測準(zhǔn)確率。這是因?yàn)?,所?gòu)建的網(wǎng)絡(luò)是基于邏輯回歸模型所預(yù)測的化合物和蛋白質(zhì)的相互作用結(jié)果進(jìn)行整合的,網(wǎng)絡(luò)中的那些節(jié)點(diǎn),其連接數(shù)越大,就意味著它們與其他化合物或蛋白質(zhì)產(chǎn)生相互作用的可能性越大,因此選中這些節(jié)點(diǎn)能夠增加命中的概率,從而提高預(yù)測準(zhǔn)確率。(3)與基于傳統(tǒng)實(shí)驗(yàn)的方法相比,本發(fā)明能夠大幅度提高對中藥活性成分和相應(yīng)靶點(diǎn)進(jìn)行虛擬篩選和預(yù)測的效率。
圖1為基于本發(fā)明的用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法預(yù)測獲得的川芎的活性成分和相應(yīng)靶點(diǎn)的網(wǎng)絡(luò)圖;其中,D7為膽堿,D20為十七碳酸乙酯,D21為異十七碳酸乙酯,D22為異十八碳酸乙酯,D23為硬脂酸乙酯,D24為棕櫚酸乙酯,D25為十五碳酸乙酯,D27為十六烷酸(棕櫚酸),D32為十六烷酸甲酯(棕櫚酸甲酯),D34為十五碳酸甲酯,D56為三甲胺,T183為血管內(nèi)皮生長因子,T791為尿激酶型纖溶酶原激活物表面受體,T870為粒細(xì)胞集落刺激因子受體,T3817為QlqC,T3823為細(xì)胞因子受體共同Y鏈,T6174為核糖體蛋白。
具體實(shí)施例方式為使本發(fā)明的目的、實(shí)施方案和優(yōu)點(diǎn)更加清楚明白,這里結(jié)合具體實(shí)施例子作進(jìn)一步的詳細(xì)說明,以下是使用該方法預(yù)測一種常用于活血行氣、祛風(fēng)止痛的中藥——川芎的活性成分和相應(yīng)靶點(diǎn)的例子。A、收集構(gòu)建訓(xùn)練集的化合物(藥物)、蛋白質(zhì)和它們之間的相互作用數(shù)據(jù)。DrugBank3.0 數(shù)據(jù)庫(C.Knox et al., Nucleic Acids Research, 2011 39 (supplI),p.D1035-D1041)以XML格式文件提供了 1000多個(gè)美國FDA已批準(zhǔn)藥物和5000多個(gè)試驗(yàn)藥物的信息、這些藥物已知的作用靶點(diǎn)(蛋白質(zhì))的信息、以及這些藥物和蛋白質(zhì)之間的相互作用關(guān)系信息。下載包含全部藥物及蛋白質(zhì)信息的XML文件以用于構(gòu)建訓(xùn)練集。B、分別獲取上述化合物的分子結(jié)構(gòu)和蛋白質(zhì)的氨基酸序列。另從DrugBank數(shù)據(jù)庫下載所有藥物(化合物)所對應(yīng)的SDF格式的分子結(jié)構(gòu),并從步驟(A)中下載的XML文件中提取所有蛋白質(zhì)的序列。C、分別計(jì)算化合物的分子描述符和蛋白質(zhì)的特征描述符。使用Dragon軟件來計(jì)算化合物的2D分子描述符,共929個(gè);同時(shí),剔除掉那些含有無效值、零值過多(例如>90%)和標(biāo)準(zhǔn)差過小(例如〈0.5)的描述符,最后剩下368個(gè)2D分子描述符。使用PseAAC工具來計(jì)算蛋白質(zhì)的特征描述符,共30個(gè)。D、根據(jù)化合物的分子描述符和蛋白質(zhì)的特征描述符構(gòu)建訓(xùn)練集。訓(xùn)練集的樣本由化合物和蛋白質(zhì)的組合構(gòu)成,其中的獨(dú)立變量包括通過Dragon軟件計(jì)算獲得的368個(gè)分子描述符和通過PseAAC計(jì)算獲得的30個(gè)蛋白質(zhì)特征描述符,而因變量是化合物和蛋白質(zhì)之間的相互作用關(guān)系。根據(jù)步驟(A)下載的相互作用數(shù)據(jù)判斷,如果一個(gè)化合物和一個(gè)蛋白質(zhì)之間存在著已知的相互作用關(guān)系,那么對應(yīng)于因變量的值為陽性(1,positive);否則,如果一個(gè)化合物和一個(gè)蛋白質(zhì)之間未發(fā)現(xiàn)有相互作用關(guān)系,那么對應(yīng)于因變量的值為陰性(0,negative)。所有存在相互作用關(guān)系的化合物和蛋白質(zhì)比對用于產(chǎn)生陽性樣本,而陰性樣本則從未發(fā)現(xiàn)存在相互作用關(guān)系的化合物和蛋白質(zhì)比對中隨機(jī)產(chǎn)生,并使陽性樣本和陰性樣本的數(shù)據(jù)比例保持為1:1。對訓(xùn)練集數(shù)據(jù)進(jìn)行歸一化處理,使所有數(shù)值都處于
之間。E、建立化合物和蛋白質(zhì)相互作用預(yù)測模型。基于所構(gòu)建的訓(xùn)練集,使用邏輯回歸方法建立預(yù)測模型,并通過使用java版本的 Iiblinear 軟件包(R.E.Fan, The Journal of Machine Learning Research, 2008 (9),P1871-1874.)來實(shí)現(xiàn)。訓(xùn)練參數(shù):-s, Solver 類型使用 Ll-regularized logistic regression (L1R_LR);-c,懲罰參數(shù)設(shè)置為I;其他參數(shù)使用缺省值。F、收集中藥的已知化合物成分,計(jì)算相應(yīng)的特征描述符并構(gòu)建預(yù)測集。從文獻(xiàn)和數(shù)據(jù)庫中收集川芎的化合物成分,利用Dragon軟件計(jì)算化合物成分的2D分子描述符,只留下那些與步驟(C)中相一致的分子描述符,其余全部剔除,以保證與訓(xùn)練集分子描述符個(gè)數(shù)一致。與(A)步驟中從Drugbank下載獲得的蛋白質(zhì)進(jìn)行整合。與步驟(D)類似,預(yù)測集的樣本由待預(yù)測的中藥化合物和已知蛋白質(zhì)的組合構(gòu)成,其中的獨(dú)立變量包括通過Dragon軟件計(jì)算并處理后獲得的368個(gè)分子描述符和通過PseAAC計(jì)算獲得的30個(gè)蛋白質(zhì)特征描述符。G、使用建立的預(yù)測模型對預(yù)測集進(jìn)行預(yù)測。通過使用步驟(E)中建立的預(yù)測模型對預(yù)測集進(jìn)行預(yù)測,并設(shè)置Iiblinear軟件包中的概率選項(xiàng)參數(shù)(_b)為I (缺省為0),代表使用概率大小來表示預(yù)測值,分布在
之間。值越接近O則表示無相互作用的概率越大,而值越接近I則表示存在相互作用的概率越大。記錄所獲得的化合物和蛋白質(zhì)的相互作用結(jié)果。H、根據(jù)預(yù)測結(jié)果構(gòu)建化合物和蛋白質(zhì)相互作用網(wǎng)絡(luò)。根據(jù)步驟(G)中所預(yù)測獲得的化合物和蛋白質(zhì)的相互作用結(jié)果,從大到小進(jìn)行排序。對于預(yù)測值> 0.8的相互作用結(jié)果,把相應(yīng)的化合物和蛋白質(zhì)比對作為網(wǎng)絡(luò)節(jié)點(diǎn)用于構(gòu)建相互作用網(wǎng)絡(luò)。如果一個(gè)化合物和某個(gè)蛋白質(zhì)被預(yù)測為存在相互作用,那么就把這個(gè)化合物和蛋白質(zhì)加入網(wǎng)絡(luò)并用一條邊來連接,當(dāng)所有被預(yù)測為存在相互作用的化合物和蛋白質(zhì)比對都被連接起來,網(wǎng)絡(luò)的構(gòu)建隨即完成。1、通過網(wǎng)絡(luò)分析,發(fā)現(xiàn)中藥的潛在活性成分和相應(yīng)靶點(diǎn)?;谒鶚?gòu)建的網(wǎng)絡(luò),根據(jù)所構(gòu)建的網(wǎng)絡(luò)節(jié)點(diǎn)的連接數(shù)(degree)進(jìn)行判斷,這里選擇連接數(shù)大于9的節(jié)點(diǎn)并生成新的子網(wǎng)絡(luò),即獲得川芎的潛在活性成分和相應(yīng)靶點(diǎn)的網(wǎng)絡(luò)圖(見圖1)。顯然,其網(wǎng)絡(luò)節(jié)點(diǎn)由待預(yù)測中藥的化合物和潛在的靶點(diǎn)(蛋白質(zhì))構(gòu)成。J、結(jié)果驗(yàn)證根據(jù)本實(shí)施例方法所預(yù)測的結(jié)果如圖1可以看出,川芎的潛在活性成分可能包括:異十七碳酸乙酯D21、十五碳酸乙酯D25、硬脂酸乙酯D23、十五碳酸甲酯D34、膽堿D7、三甲胺D56、十七碳酸乙酯D20、十六烷酸甲酯D32、十六烷酸D27、棕櫚酸乙酯D2、異十八碳酸乙酯D22。這些成分當(dāng)中含有大量的揮發(fā)油。而通過文獻(xiàn)查證可知,揮發(fā)油是川芎的重要活性成分(謝秀瓊等,時(shí)珍國醫(yī)國藥,200718 (6),p.1508-1510)。
此外,如圖1所示,川芎的潛在作用靶點(diǎn)包括:尿激酶型纖溶酶原激活物表面受體(Urokinase plasminogen activator surface receptor, UPAR) T791,粒細(xì)胞集落剌激因子受體(Granulocyte colony-stimulating factor receptor, GC SFR) T870,QlqC (Complement Clq subcomponent subunit C) T3817,血管內(nèi)皮生長因子(Vascularendothelial growth factorA,VEGF) T183,細(xì)胞因子受體共同 γ 鏈(Cytokine receptorcommon gamma chain,γ c)T3823,核糖體蛋白質(zhì)(50S ribosomal protein L32,rpmF)T6174。而通過查閱文獻(xiàn)發(fā)現(xiàn),UPAR (Harvey W.Smith et al., Nature ReviewsMolecular Cell Biology,201011 (I).p.23-36)、GCSFR (Barbara A.Katzenback etal.,Developmental and Comparative Immunology, 201236(I), p.199_207)、VEGF(HuaMenget al., The American Journal of Chinese Medicine,200836(3),p.541 - 554)、γ c (AKume et al., Bone Marrow Transplantation (2002) 30,p.113 - 118)等都是曾被報(bào)道過的川芎的作用靶點(diǎn)。由此可見,所預(yù)測的6個(gè)靶點(diǎn)中至少有4個(gè)可以通過文獻(xiàn)獲得驗(yàn)證。因此,通過本發(fā)明來發(fā)現(xiàn)中藥潛在的活性成分和作用靶點(diǎn),非常適宜對中藥的活性成分和作用靶點(diǎn)進(jìn)行虛擬篩選。
權(quán)利要求
1.一種用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,其特征在于,包括: (A)收集用于構(gòu)建訓(xùn)練集的化合物、蛋白質(zhì)和它們之間的相互作用數(shù)據(jù); (B)分別獲取所述化合物的分子結(jié)構(gòu)和所述蛋白質(zhì)的氨基酸序列; (C)根據(jù)所述化合物的分子結(jié)構(gòu)計(jì)算化合物的分子描述符,根據(jù)所述蛋白質(zhì)的氨基酸序列計(jì)算蛋白質(zhì)的特征描述符; (D)根據(jù)所述分子描述符和特征描述符以及兩者之間的相互作用數(shù)據(jù)構(gòu)建訓(xùn)練集; (E)基于所構(gòu)建的訓(xùn)練集,使用機(jī)器學(xué)習(xí)方法建立化合物和蛋白質(zhì)相互作用預(yù)測模型; (F)對需要預(yù)測的中藥,收集其已知的化合物成分,計(jì)算所述化合物成分的分子描述符,連同步驟(C)中得到的蛋白質(zhì)的特征描述符構(gòu)建預(yù)測集; (G)使用所述預(yù)測模型對所述預(yù)測集進(jìn)行預(yù)測; (H)根據(jù)步驟(G)得到的模型預(yù)測結(jié)果構(gòu)建化合物和蛋白質(zhì)相互作用網(wǎng)絡(luò); (I)通過對所述網(wǎng)絡(luò)分析,得到需要預(yù)測的中藥的潛在活性成分和相應(yīng)靶點(diǎn)。
2.根據(jù)權(quán)利要求1所述的用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,其特征在于,步驟(C)中所述分子描述符通過Dragon軟件計(jì)算得到;所述特征描述符通過PseAAC工具計(jì)算得到。
3.根據(jù)權(quán)利要 求1或2所述的用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,其特征在于,所述步驟(C)中得到分子描述符后,對得到的每一個(gè)分子描述符進(jìn)行如下判斷,若滿足如下條件之一則剔除該分子描述符: (O該分子描述符中含有無效值; (2)該分子描述符中零值比例大于設(shè)定比例; (3)該分子描述符的標(biāo)準(zhǔn)差小于設(shè)定標(biāo)準(zhǔn)差。
4.根據(jù)權(quán)利要求1所述的用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,其特征在于,所述步驟(D)中,根據(jù)所述分子描述符和特征描述符構(gòu)建訓(xùn)練集時(shí):其中的獨(dú)立變量為計(jì)算獲得的分子描述符和特征描述符,因變量為化合物和蛋白質(zhì)之間的相互作用關(guān)系,具體構(gòu)建步驟為: (O根據(jù)步驟(A)中的相互作用數(shù)據(jù)做如下判斷:如果一個(gè)化合物和一個(gè)蛋白質(zhì)之間存在著已知的相互作用關(guān)系,那么對應(yīng)的因變量值為陽性;如果一個(gè)化合物和一個(gè)蛋白質(zhì)之間未發(fā)現(xiàn)有已知的相互作用關(guān)系,對應(yīng)的因變量值為陰性; (2)所有存在相互作用關(guān)系的化合物和蛋白質(zhì)構(gòu)成陽性樣本,而陰性樣本則從未發(fā)現(xiàn)存在相互作用關(guān)系的化合物和蛋白質(zhì)比對中隨機(jī)產(chǎn)生,并使陽性樣本和陰性樣本的數(shù)據(jù)比例保持為1:0.8-1.5。
5.根據(jù)權(quán)利要求1所述的用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,其特征在于,步驟(E)中,所述機(jī)器學(xué)習(xí)方法為邏輯回歸方法。
6.根據(jù)權(quán)利要求1所述的用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,其特征在于,所述步驟(H)中,根據(jù)步驟(G)得到的模型預(yù)測結(jié)果構(gòu)建化合物和蛋白質(zhì)相互作用網(wǎng)絡(luò)時(shí): 對于預(yù)測結(jié)果大于設(shè)定閾值時(shí),把相應(yīng)的化合物和蛋白質(zhì)作為網(wǎng)絡(luò)節(jié)點(diǎn),將該化合物和蛋白質(zhì)用一條邊連接,當(dāng)所有被預(yù)測的存在相互作用的化合物和蛋白質(zhì)比對都被連接起來,網(wǎng)絡(luò)的構(gòu)建即完成。
7.根據(jù)權(quán)利要求6所述的用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,其特征在于,所述步驟(I)中,對所述網(wǎng)絡(luò)分析時(shí):對每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上的連接邊變數(shù)進(jìn)行判斷,當(dāng)連接邊變數(shù)大于設(shè)定值時(shí),保留該網(wǎng)絡(luò)節(jié)點(diǎn);反之刪除該網(wǎng)絡(luò)節(jié)點(diǎn)以及與該網(wǎng)絡(luò)節(jié)點(diǎn)相連的邊;最后得到需要預(yù) 測的 中藥的潛在活性成分和相應(yīng)靶點(diǎn)的網(wǎng)絡(luò)。
全文摘要
本發(fā)明公開了一種用于發(fā)現(xiàn)中藥活性成分及其作用靶點(diǎn)的網(wǎng)絡(luò)藥理學(xué)方法,包括收集可用于構(gòu)建訓(xùn)練集的化合物和蛋白質(zhì),并根據(jù)化合物的分子結(jié)構(gòu)和蛋白質(zhì)的氨基酸序列分別計(jì)算特征描述符;基于化合物和蛋白質(zhì)的特征描述符構(gòu)建訓(xùn)練集,并使用機(jī)器學(xué)習(xí)方法建立化合物和蛋白質(zhì)相互作用的預(yù)測模型;對需要預(yù)測的中藥,收集其已知的化合物成分,計(jì)算特征描述符并構(gòu)建預(yù)測集;使用建立的模型對預(yù)測集進(jìn)行預(yù)測,并把預(yù)測獲得的相互作用結(jié)果高于給定閾值的化合物和蛋白質(zhì)用于構(gòu)建網(wǎng)絡(luò);網(wǎng)絡(luò)節(jié)點(diǎn)的連接數(shù)較大的化合物和蛋白質(zhì)即為潛在活性成分和作用靶點(diǎn)。本發(fā)明可以提高中藥活性成分和作用靶點(diǎn)發(fā)現(xiàn)的準(zhǔn)確率和效率。
文檔編號(hào)G06F19/16GK103150490SQ201310054028
公開日2013年6月12日 申請日期2013年2月20日 優(yōu)先權(quán)日2013年2月20日
發(fā)明者黃劍平, 范驍輝 申請人:浙江大學(xué)