本發(fā)明屬于藥物-靶點相互作用預測,具體是指一種基于人工智能的藥物-靶點相互作用預測方法。
背景技術:
1、藥物-靶點相互作用預測方法是一種用于預測藥物與生物分子之間可能相互作用的計算方法,這些方法可以幫助研究人員在實驗驗證之前篩選出最有潛力的藥物候選物,為此業(yè)界發(fā)明了一系列藥物-靶點相互作用預測方法,其中以分子對接技術最為典型,分子對接技術以微觀物理仿真的方式力圖還原藥物與生物分子之間的反應,但是其算力與存儲需求隨著模擬精細度指數(shù)級提升,也僅局限于藥物與生物分子自身的結構,無力處理人體內(nèi)環(huán)境的擾動與潛變量,為此業(yè)界發(fā)明了一系列人工智能模型來解決此類問題,以多模態(tài)融合的形式擬合藥物-靶點相互作用的內(nèi)在規(guī)律,單這類方法簡單粗暴地將用于處理連續(xù)型圖像的各類方法應用于分子三維結構模型,忽視了化學分子結構的內(nèi)在離散性,造成計算過程中信息的損失,較于線性的神經(jīng)網(wǎng)絡結構也無法捕捉到局部與整體間的聯(lián)系,最終導致這類方法在藥物-靶點相互作用預測任務上的表現(xiàn)不盡人意。
技術實現(xiàn)思路
1、針對上述情況,為克服現(xiàn)有技術的缺陷,本發(fā)明提供了一種基于人工智能的藥物-靶點相互作用預測方法,針對現(xiàn)有的藥物-靶點相互作用預測方法忽視化學分子結構的內(nèi)在離散性和無法捕捉到局部與整體間的聯(lián)系的問題,本發(fā)明采用多尺度多模態(tài)神經(jīng)網(wǎng)絡模型進行藥物-靶點相互作用預測,多尺度多模態(tài)神經(jīng)網(wǎng)絡模型采用孿生特征金字塔以從總體到局部的方式兼顧了化學分子結構的局部與整體的特征,孿生特征金字塔內(nèi)部的自定義眾數(shù)池化層與自定義離散化層,在縮并與提取分子三維結構模型的過程中有效保護了化學分子結構的內(nèi)在離散性,將計算化學理論與人工智能技術進行有機結合,實現(xiàn)了多模態(tài)、多尺度和高精準的藥物-靶點相互作用預測。
2、本發(fā)明采取的技術方案如下:本發(fā)明提供的一種基于人工智能的藥物-靶點相互作用預測方法,所述方法包括以下步驟:
3、步驟s1:采集藥物-靶標對信息、靶蛋白數(shù)據(jù)和藥物數(shù)據(jù);
4、步驟s2:構建全體數(shù)據(jù)集正樣本;
5、步驟s3:構建全體數(shù)據(jù)集負樣本;
6、步驟s4:將全體數(shù)據(jù)集正樣本和全體數(shù)據(jù)集負樣本匯總成數(shù)據(jù)集;
7、步驟s5:構建多尺度多模態(tài)神經(jīng)網(wǎng)絡模型,所述多尺度多模態(tài)神經(jīng)網(wǎng)絡模型包括文本特征提取分支、孿生特征金字塔、圖文特征融合分支和再表示分支;
8、步驟s6:使用數(shù)據(jù)集對多尺度多模態(tài)神經(jīng)網(wǎng)絡模型進行訓練;
9、步驟s7:使用多尺度多模態(tài)神經(jīng)網(wǎng)絡模型進行預測。
10、進一步地,所述步驟s2包括以下步驟:
11、步驟s21:從藥物-靶標對信息中提取一對藥物與靶蛋白;
12、步驟s22:構建藥物對應的藥物文本序列、藥物多通道三維矩陣和藥效團多通道三維矩陣與靶蛋白對應的靶蛋白文本序列、靶蛋白多通道三維矩陣和結合點位多通道三維矩陣,并匯總成數(shù)據(jù)集正樣本;
13、步驟s23:為數(shù)據(jù)集正樣本添加匹配標記變量,數(shù)據(jù)集正樣本的匹配標記變量的取值為1;
14、步驟s24:對藥物-靶標對信息中的每一對藥物與靶蛋白重復步驟s21至步驟s23,直到藥物-靶標對信息中的每一對藥物與靶蛋白都有一個對應的數(shù)據(jù)集正樣本,生成全體數(shù)據(jù)集正樣本。
15、進一步地,所述步驟s22具體包括以下步驟:
16、步驟s221:從靶蛋白數(shù)據(jù)中提取靶蛋白三維結構模型,從藥物數(shù)據(jù)中提取藥物三維結構模型,從靶蛋白三維結構模型中提取結合點位三維結構模型,從藥物三維結構模型中提取藥效團三維結構模型;
17、步驟s222:將靶蛋白三維結構模型和結合點位三維結構模型矩陣化,構建靶蛋白多通道三維矩陣和結合點位多通道三維矩陣;
18、步驟s223:從靶蛋白數(shù)據(jù)中提取靶蛋白除靶蛋白三維結構模型外對應的數(shù)據(jù)并進行編碼,生成靶蛋白文本序列;
19、步驟s224:將藥物三維結構模型和藥效團三維結構模型矩陣化,構建藥物多通道三維矩陣和藥效團多通道三維矩陣;
20、步驟s225:從藥物數(shù)據(jù)中提取藥物除藥物三維結構模型外對應的數(shù)據(jù)進行編碼,生成藥物文本序列;
21、步驟s226:將藥物文本序列、藥物多通道三維矩陣、藥效團多通道三維矩陣、靶蛋白文本序列、靶蛋白多通道三維矩陣和結合點位多通道三維矩陣匯總成數(shù)據(jù)集正樣本。
22、進一步地,所述步驟s222中構建靶蛋白多通道三維矩陣和結合點位多通道三維矩陣的過程具體包括以下步驟:
23、步驟s2221:將靶蛋白三維結構模型以1立方埃米為單位構建靶蛋白三維矩陣,所述靶蛋白三維矩陣的零元素表示此靶蛋白三維結構模型中的此位置沒有原子,非零元素的取值由其在靶蛋白三維結構模型中對應原子的原子序數(shù)決定;
24、步驟s2222:對結合點位三維結構模型中不同類型的結合點位進行編號,生成結合點位編號;
25、步驟s2223:以結合點位三維結構模型為依據(jù)對靶蛋白三維矩陣進行分區(qū),將靶蛋白三維結構模型中結合點位對應區(qū)域的非零元素賦值為對應的結合點位編號,生成結合點位區(qū)域矩陣;
26、步驟s2224:將靶蛋白三維矩陣和結合點位區(qū)域矩陣疊加為靶蛋白多通道三維矩陣;
27、步驟s2225:以結合點位區(qū)域矩陣為依據(jù)分拆靶蛋白三維矩陣,生成結合點位三維矩陣組,所述結合點位三維矩陣組中單個矩陣對應靶蛋白三維矩陣單個結合點位的所在區(qū)域;
28、步驟s2226:將結合點位三維矩陣組以結合點位編號為順序疊加生成結合點位多通道三維矩陣。
29、進一步地,所述步驟s224中構建藥物多通道三維矩陣和藥效團多通道三維矩陣的過程具體包括以下步驟:
30、步驟s2241:將藥物三維結構模型以1立方埃米為單位構建藥物三維矩陣,所述藥物三維矩陣的零元素表示此藥物三維結構模型中的此位置沒有原子,非零元素的取值由其在藥物三維結構模型中對應原子的原子序數(shù)決定;
31、步驟s2242:對藥效團三維結構模型中不同類型的藥效團進行編號,生成藥效團編號;
32、步驟s2243:以藥效團三維結構模型為依據(jù)對藥物三維矩陣進行分區(qū),將藥物三維結構模型中藥效團對應區(qū)域的非零元素賦值為對應的藥效團編號,生成藥效團區(qū)域矩陣;
33、步驟s2244:將藥物三維矩陣和藥效團區(qū)域矩陣疊加為藥物多通道三維矩陣;
34、步驟s2245:以藥效團區(qū)域矩陣為依據(jù)分拆藥物三維矩陣,生成藥效團三維矩陣組,所述藥效團三維矩陣組中單個矩陣對應藥物三維矩陣單個藥效團的所在區(qū)域;
35、步驟s2246:將藥效團三維矩陣組以藥效團編號為順序疊加生成藥效團多通道三維矩陣。
36、進一步地,所述步驟s3中,所述構建全體數(shù)據(jù)集負樣本的過程具體包括以下步驟:
37、步驟s31:隨機生成藥物-靶標對信息中不存在的藥物-靶標對,從不存在的藥物-靶標對中提取不匹配藥物和不匹配靶蛋白;
38、步驟s32:將不匹配藥物的藥物文本序列、藥物多通道三維矩陣和藥效團多通道三維矩陣與不匹配靶蛋白的靶蛋白文本序列、靶蛋白多通道三維矩陣和結合點位多通道三維矩陣匯總成數(shù)據(jù)集負樣本;
39、步驟s33:為數(shù)據(jù)集負樣本添加匹配標記變量,數(shù)據(jù)集負樣本的匹配標記變量的取值為0;
40、步驟s34:重復步驟s31至步驟s33,直到數(shù)據(jù)集負樣本的數(shù)目與數(shù)據(jù)集正樣本的數(shù)目相同,生成全體數(shù)據(jù)集負樣本。
41、進一步地,所述步驟s5中,構建多尺度多模態(tài)神經(jīng)網(wǎng)絡模型的過程具體包括以下步驟:
42、步驟s51:構建文本特征提取分支,所述文本特征提取分支通過分析藥物文本序列和靶蛋白文本序列提取潛變量特征;
43、步驟s52:構建孿生特征金字塔,所述孿生特征金字塔通過分析藥物多通道三維矩陣和靶蛋白多通道三維矩陣提取整體匹配特征、藥物整體特征和靶蛋白整體特征,對藥物整體特征和靶蛋白整體特征與藥效團多通道三維矩陣和結合點位多通道三維矩陣進行分析生成局部匹配特征和圖像總結特征;
44、步驟s53:構建圖文特征融合分支,所述圖文特征融合分支分步將整體匹配特征和局部匹配特征分步整合進潛變量特征,生成融合匹配特征;
45、步驟s54:構建再表示分支,所述再表示分支將融合匹配特征和圖像總結特征進行融合和再表示,輸出藥物-靶點相互作用概率;
46、步驟s55:構建多尺度多模態(tài)神經(jīng)網(wǎng)絡模型。
47、進一步地,所述步驟s51中構建文本特征提取分支的過程具體包括以下步驟:
48、步驟s511:構建第一拼接層、嵌入層、第一雙向lstm層和第二雙向lstm層;
49、步驟s512:將第一拼接層、嵌入層、第一雙向lstm層和第二雙向lstm層按順序連接,構建文本特征提取分支。
50、進一步地,所述步驟s52中構建孿生特征金字塔的過程具體包括以下步驟:
51、步驟s521:構建藥物分子結構特征提取分支和靶蛋白分子結構特征提取分支;
52、步驟s522:構建結合點位結構特征提取分支、藥效團結構特征提取分支和特征總結分支;
53、步驟s523:構建第一余弦相似度合并層、第二余弦相似度合并層。
54、進一步地,所述步驟s521具體包括以下步驟:
55、步驟s5211:構建第一自定義三維眾數(shù)池化層、第一共享三維卷積層、第一自定義離散化層、第一flatten層和第三全連接層,所述第一自定義三維眾數(shù)池化層取其池化窗口內(nèi)的非零眾數(shù)進行池化,所述第一自定義離散化層先將其輸入數(shù)據(jù)中的數(shù)值逆最大-最小標準化后取整,再將取整后的數(shù)值重新進行最大-最小標準化后輸出;
56、步驟s5212:將第一自定義三維眾數(shù)池化層連接至第一共享三維卷積層,將第一共享三維卷積層連接至第一自定義離散化層和第一flatten層,將第一flatten層連接至第三全連接層,構建藥物分子結構特征提取分支;
57、步驟s5213:構建第二自定義三維眾數(shù)池化層、第二共享三維卷積層、第二自定義離散化層、第二flatten層和第四全連接層,所述第一共享三維卷積層與第二共享三維卷積層權重共享;
58、步驟s5214:將第二自定義三維眾數(shù)池化層連接至第二共享三維卷積層,將第二共享三維卷積層連接至第二自定義離散化層和第二flatten層,將第二flatten層連接至第四全連接層,構建靶蛋白分子結構特征提取分支。
59、進一步地,所述步驟s522具體包括以下步驟:
60、步驟s5221:構建第五拼接層、第三共享三維卷積層、第三flatten層和第五全連接層,將第五拼接層、第三共享三維卷積層、第三flatten層和第五全連接層按順序連接,將第一自定義離散化層連接至第五拼接層,構建藥效團結構特征提取分支;
61、步驟s5222:構建第六拼接層、第四共享三維卷積層、第四flatten層和第六全連接層,將第六拼接層、第四共享三維卷積層、第四flatten層和第六全連接層按順序連接,將第二自定義離散化層連接至第六拼接層,構建結合點位結構特征提取分支,所述第四共享三維卷積層和第三共享三維卷積層權重共享;
62、步驟s5223:構建第七拼接層、第五三維卷積層、第五flatten層和第三highway層,將第七拼接層、第五三維卷積層、第五flatten層和第三highway層按順序連接,第三共享三維卷積層和第四共享三維卷積層將連接至第七拼接層,構建特征總結分支。
63、進一步地,所述步驟s523具體包括以下步驟:
64、步驟s5231:構建第一余弦相似度合并層和第二余弦相似度合并層;
65、步驟s5232:將第三全連接層和第四全連接層連接至第一余弦相似度合并層,將第五全連接層和第六全連接層連接至第二余弦相似度合并層。
66、進一步地,所述步驟s53中構建圖文特征融合分支的過程具體包括以下步驟:
67、步驟s531:構建第二拼接層、第一highway層、第三拼接層和第二highway層,將第二拼接層、第一highway層、第三拼接層和第二highway層按順序連接;
68、步驟s532:將第二雙向lstm層和第一余弦相似度合并層連接至第二拼接層,將第二余弦相似度合并層連接至第三拼接層,構建圖文特征融合分支。
69、進一步地,所述步驟s54中構建再表示分支的過程具體包括以下步驟:
70、步驟s541:構建第四拼接層、第一全連接層和第二全連接層;
71、步驟s542:將第四拼接層、第一全連接層和第二全連接層按順序進行連接,將第三highway層和第二highway層連接至第四拼接層。
72、進一步地,所述步驟s55具體包括以下步驟:
73、步驟s551:指定第一拼接層、第一自定義三維眾數(shù)池化層、第二自定義三維眾數(shù)池化層、第五拼接層和第六拼接層為多尺度多模態(tài)神經(jīng)網(wǎng)絡模型的輸入層,指定第二全連接層為多尺度多模態(tài)神經(jīng)網(wǎng)絡模型的輸出層;
74、步驟s552:指定損失函數(shù)為binary_crossentropy,優(yōu)化器為adam。
75、進一步地,所述步驟s6具體包括以下步驟:
76、步驟s61:將數(shù)據(jù)集中的藥物文本序列和靶蛋白文本序列指定為第一拼接層的輸入,將數(shù)據(jù)集中的藥物多通道三維矩陣指定為第一自定義三維眾數(shù)池化層的輸入,將數(shù)據(jù)集中的靶蛋白多通道三維矩陣指定為第二自定義三維眾數(shù)池化層的輸入,將數(shù)據(jù)集中的藥效團多通道三維矩陣指定為第五拼接層的輸入,將數(shù)據(jù)集中的結合點位多通道三維矩陣指定為第六拼接層的輸入,將數(shù)據(jù)集中的匹配標記變量指定為第二全連接層的目標輸出;
77、步驟s62:將數(shù)據(jù)集按8:2的比例分成訓練集和測試集,調(diào)用model.fit方法進行模型訓練。
78、進一步地,所述步驟s7具體包括以下步驟:
79、步驟s71:采集目標靶蛋白數(shù)據(jù)和目標藥物數(shù)據(jù);
80、步驟s72:根據(jù)目標靶蛋白數(shù)據(jù)和目標藥物數(shù)據(jù),構建目標藥物的藥物文本序列、藥物多通道三維矩陣和藥效團多通道三維矩陣與目標靶蛋白的靶蛋白文本序列、靶蛋白多通道三維矩陣和結合點位多通道三維矩陣,并輸入多尺度多模態(tài)神經(jīng)網(wǎng)絡模型;
81、步驟s73:多尺度多模態(tài)神經(jīng)網(wǎng)絡模型輸出目標藥物和目標靶蛋白的相互作用概率。
82、采用上述方案本發(fā)明取得的有益效果如下:
83、(1)本發(fā)明提供了一種基于人工智能的藥物-靶點相互作用預測方法,針對藥物-靶點相互作用預測方法忽視化學分子結構的內(nèi)在離散性和無法捕捉到局部與整體間的聯(lián)系的問題,本發(fā)明采用多尺度多模態(tài)神經(jīng)網(wǎng)絡模型進行藥物-靶點相互作用預測,其采用孿生特征金字塔以從總體到局部的方式兼顧了化學分子結構的局部與整體的特征,孿生特征金字塔內(nèi)部的自定義眾數(shù)池化層與自定義離散化層,在縮并與提取分子三維結構模型的過程中有效保護了化學分子結構的內(nèi)在離散性,將計算化學理論與人工智能技術進行有機結合,實現(xiàn)了多模態(tài)、多尺度和高精準的藥物-靶點相互作用預測。
84、(2)自定義眾數(shù)池化層與自定義離散化層的設計引入了原子序數(shù)的離散性這一先驗知識,即原子序數(shù)的內(nèi)在含義是元素種類的不同,常見的池化手段包括平均池化和最大池化,但平均池化會將數(shù)值連續(xù)化,從而對矩陣內(nèi)的信息造成不可逆的破壞,最大池化又會無端強調(diào)重元素的重要性,這兩個現(xiàn)象都是我們所不愿意見到的,但是矩陣的規(guī)模又太大,不對其進行池化從算力成本的角度上考慮是不切實際的,本發(fā)明因而提出了眾數(shù)池化這一池化手段,眾數(shù)池化,在保持數(shù)據(jù)離散性的同時強調(diào)池化窗口內(nèi)占多數(shù)的元素的重要性,自定義眾數(shù)池化層能夠以取整的方式挽回在卷積過程中損失的信息,提高藥物整體特征和靶蛋白整體特征的可解釋性,使得在其后的結合點位結構特征提取分支和藥效團結構特征提取分支處理的過程中能夠更好的將整體與局部的特征結合起來,自定義眾數(shù)池化層與自定義離散化層的設計有效保護了矩陣內(nèi)的化學信息,實現(xiàn)了更加精準和可解釋的藥物-靶點相互作用預測。
85、(3)本發(fā)明引入的權重共享機制在減少模型參數(shù)的同時強迫卷積層學習更加普適的分子結構特征,實現(xiàn)了減少算力開支和提高多尺度多模態(tài)神經(jīng)網(wǎng)絡模型的泛化性能。