基于卷積神經(jīng)網(wǎng)絡的智能化先導化合物發(fā)現(xiàn)方法與流程

文檔序號：12720733閱讀：1322來源：國知局

本發(fā)明涉及先導化合物發(fā)現(xiàn)的方法，屬于以先導化合物發(fā)現(xiàn)為目標的人工智能應用技術(shù)領域，目的是高效、智能地發(fā)現(xiàn)小分子先導化合物。

背景技術(shù)：

基于相似性的活性化合物發(fā)現(xiàn)策略在藥物設計中具有重要的地位，包括了生物電子等排體策略、骨架躍遷策略等等，但這兩種方法均在很大程度上依賴于藥物研發(fā)人員長期積累的經(jīng)驗。而人工智能通過深度學習，能快速、準確地總結(jié)出規(guī)律，這一過程得以加快藥物的發(fā)現(xiàn)過程。尤其是借助計算機的高速運算及大存儲量這兩個人類不具有的優(yōu)勢，人工智能得以快速、準確地識別活性分子，找出活性與結(jié)構(gòu)之間的關(guān)系。

活性分子相似性的發(fā)現(xiàn)，需要借助圖像識別這一技術(shù)。卷積神經(jīng)網(wǎng)絡則是實現(xiàn)智能讀圖的重要技術(shù)之一。通過建立卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)，并提供已知特性的圖像供該網(wǎng)絡結(jié)構(gòu)訓練。擬合出對應于該特性的系列參數(shù)，最終達到該網(wǎng)絡能準確分類該特性的目的。

目前，我國的新藥開發(fā)正在朝著全新的創(chuàng)新藥物方向發(fā)展，而新藥開發(fā)過程中先導化合物的發(fā)現(xiàn)是關(guān)鍵的一步，雖然先導化合物并非藥物，卻是藥物之母。面對著難以計數(shù)的全新化學實體，如果一一進行活性測試將花費極其巨大的人力物力及財力。因此，借助于人工智能卷積神經(jīng)網(wǎng)絡將加快藥物先導化合物的發(fā)現(xiàn)，是新藥研發(fā)的有效輔助手段。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的是提供一種基于化合物化學結(jié)構(gòu)式的智能識別系統(tǒng)，一種活性先導化合物發(fā)現(xiàn)方法。用于解決當前先導化合物發(fā)現(xiàn)效率低、方法有限的問題。該方法通過卷積神經(jīng)網(wǎng)絡，對具有各類不同活性屬性的化合物結(jié)構(gòu)式圖像的學習，擬合出準確分類的矩陣參數(shù)，并將參數(shù)用于未知活性屬性的化合物的預測。本發(fā)明可提高先導化合物發(fā)現(xiàn)效率，為先導化合物發(fā)現(xiàn)帶來一種全新的方法。

為解決上述傳統(tǒng)藥物發(fā)現(xiàn)方法的相關(guān)問題，本發(fā)明提出的技術(shù)方案為一種基于卷積神經(jīng)網(wǎng)絡的智能先導化合物發(fā)現(xiàn)方法，具體包括如下步驟：

步驟1：對大小、亮度均一致的化合物結(jié)構(gòu)式平面圖片進行黑白化及反色處理；

步驟2：根據(jù)化合物活性屬性進行分類，并對每一類圖片加以各類所對應的數(shù)字標簽，其中一部分圖片作為訓練集，剩余部分圖片作為測試集；

步驟3：將圖片根據(jù)像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣，與標簽數(shù)字一一對應；

步驟4：建立卷積神經(jīng)網(wǎng)絡分類器，并調(diào)整參數(shù)；

步驟5：當評價模型的損失函數(shù)逼近0后，完成訓練，獲得訓練后的矩陣參數(shù)；

步驟6：以步驟5獲得的矩陣計算測試集圖片，并對模型進行評估。若評估結(jié)果不合要求，擴充數(shù)據(jù)集，重復上述過程，至符合要求；

步驟7：若評估結(jié)果符合要求，步驟5所獲得的矩陣參數(shù)可對未知活性的化合物進行預測，以發(fā)現(xiàn)先導化合物。

進一步，上述步驟2中所述活性屬性包括定性的活性屬性以及定量的活性屬性。

進一步，上述步驟4中所述卷積神經(jīng)網(wǎng)絡的分類器包含以下步驟：

(1)整理數(shù)據(jù)集。

(2)建立卷積神經(jīng)網(wǎng)絡，具體又包含以下子步驟：

A.確定層數(shù)及結(jié)構(gòu)；

B.確定卷積與池化方式；

C.選擇損失函數(shù)；

D.選擇非線性化函數(shù)。

(3)開始訓練神經(jīng)網(wǎng)絡，具體又包含以下子步驟：

A.初始化矩陣數(shù)據(jù)；

B.設置每批訓練圖片的數(shù)量；

C.設置訓練次數(shù)。

進一步，上述步驟4中參數(shù)包括以下內(nèi)容：

(1)層數(shù)及節(jié)點數(shù)；

(2)卷積核大小與采樣方式；

(3)池化層矩陣大小與采樣方式；

(4)損失函數(shù)種類；

(5)非線性化函數(shù)種類；

(6)每批訓練圖片的數(shù)量；

(7)訓練次數(shù)。

進一步，上述步驟5中所述的逼近為損失函數(shù)值小于1同時大于0。

進一步，上述步驟6中評估方法包括計算模型預測全部圖片以及各類別圖片的正確率、錯誤率，模型針對某分類屬性的特異性以及靈敏度。

與傳統(tǒng)的先導化合物虛擬發(fā)現(xiàn)工具相比，本發(fā)明的突出效果在于：

1、受體的結(jié)構(gòu)、受體與配體或藥物的結(jié)合位點、活性分子的藥效構(gòu)象不再是必要的，更不需要理論計算化學嚴格、精確的算法；

2、預測速度明顯快于傳統(tǒng)的先導化合物篩選工具；

3、傳統(tǒng)篩選模型多為線性模型，本篩選方法為非線性模型。

附圖說明

圖1是本發(fā)明的方法流程圖。

圖2是卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)圖。

圖3是依照本發(fā)明創(chuàng)建的模型的收斂情況。

具體實施方式

現(xiàn)結(jié)合附圖對本發(fā)明的具體實施方式做進一步詳細的說明。本發(fā)明提出一種基于卷積神經(jīng)網(wǎng)絡的智能化先導化合物發(fā)現(xiàn)方法。首先通過建立初步的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)對訓練集中經(jīng)處理的圖片進行深度學習，根據(jù)訓練情況調(diào)整結(jié)構(gòu)中參數(shù)，訓練完成后保存矩陣數(shù)據(jù)。以此矩陣數(shù)據(jù)計算測試集，評價模型的正確率，結(jié)果符合要求后，將矩陣數(shù)據(jù)用于未知化合物的活性預測。若不合要求則通過擴大數(shù)據(jù)集重復上述過程，見圖1。

方法流程：

基于卷積神經(jīng)網(wǎng)絡的智能化先導化合物發(fā)現(xiàn)方法的細化步驟如下：

以具有抗腫瘤作用的CDK4抑制劑作為本方法的實施例，數(shù)據(jù)集中分子圖片具有兩類屬性，一類具有CDK4抑制活性，另一類則不具有。

步驟1：

將具有抗腫瘤活性的241個CDK4抑制劑作為活性化合物，223個不具有抗腫瘤活性的化合物作為非活性化合物。其結(jié)構(gòu)式制做為128×128像素圖片，并進行黑白化和反色處理。

步驟2：

對所有圖片分類并加以類別數(shù)字標簽，具有CDK4抑制活性的化合物圖片以1為標簽，不具有CDK4抑制作用的化合物圖片以0作為標簽。所有圖片隨機分為訓練集與測試集。訓練集與測試集各含圖片232張，其中訓練集有118張圖片屬于活性化合物。

步驟3：

將圖片由像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣，并與將活性標簽一一對應。

步驟4：

如圖2所示，建立并調(diào)整卷積神經(jīng)網(wǎng)絡分類器，包括如下步驟：

1、數(shù)據(jù)集的準備：

圖片矩陣經(jīng)整合后為一464×128²的矩陣，第一維為圖片索引，第二維為具體的圖片像素值數(shù)據(jù)。標簽矩陣為464×1的矩陣，第一維為索引，第二維為數(shù)字標簽。最后將圖片矩陣重整為464×128×128×1。

2、建立卷積神經(jīng)網(wǎng)絡，具體包含以下子步驟：

A.確定層數(shù)及結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡整體架構(gòu)，以一層卷積層加一層池化層為一組，共三組，后為一層全連接層，最后通過一個含有2個輸出節(jié)點的softmax層輸出。詳細如下：

a.卷積層及池化層：第一層卷積層具有1個輸入節(jié)點、30個輸出節(jié)點，第二層卷積層含30個輸入節(jié)點、60個輸出節(jié)點，第三層卷積層含60個輸入節(jié)點、120個輸出節(jié)點。其中，每一層卷積層在經(jīng)非線性化函數(shù)處理后均連有池化層，而最后一層池化層的輸出作為下一層的輸入。非線性化采用relu函數(shù)進行處理，relu(x)＝max(0，x)。經(jīng)上述處理后，數(shù)據(jù)具有三個維度。三維數(shù)據(jù)需要被重構(gòu)后輸入全連接層。

b.數(shù)據(jù)重構(gòu)：由于全連接層對應于線性化的輸入數(shù)據(jù)，故須將輸入的三維矩陣進行重構(gòu)。重構(gòu)的矩陣為n行一列的二維矩陣，n值為經(jīng)卷積層與池化層處理后，三維矩陣的各維大小的乘積。重構(gòu)矩陣的每一行作為全連接層的每一輸入節(jié)點。

c.全連接層：全連接層為一層，其輸入節(jié)點數(shù)即為重構(gòu)二維矩陣的行數(shù)，輸出節(jié)點有200個，經(jīng)relu函數(shù)進行非線性化處理后作為softmax層的輸入節(jié)點。

d.softmax層：softmax層的輸出個數(shù)為2，對應于標簽0及1的概率分布。即最后的softmax層采用softmax函數(shù)將輸出結(jié)果分為兩類標簽的概率值，是一個二行一列的矩陣。X_i為某一標簽對應的計算值，X_j為任一標簽的計算值。獲取最大概率值在矩陣行數(shù)中的索引，即為圖片經(jīng)模型預測后得到的分類標簽。預測的標簽與真實結(jié)果比較后，計算損失函數(shù)用于模型評價。

B.確定卷積與池化方式：采用5×5的卷積核，移動步長為1，采用拓展至圖片邊緣外的采樣方式，以max pooling方式在2×2的區(qū)域采樣。輸入的1×128×128×1的圖片矩陣，經(jīng)上述三組卷積層與池化層處理后，矩陣形狀依次變?yōu)?4×64×30、32×32×60、16×16×120。

C.選擇損失函數(shù)：采用交叉熵函數(shù)(cross entropy)，cross entropy＝-∑y×lg(y′)，y為真實的概率分布，y’為預測的概率分布。函數(shù)值越逼近0，表明訓練越有效。

3、開始訓練神經(jīng)網(wǎng)絡，具體又包含以下子步驟：

A.初始化矩陣數(shù)據(jù)：權(quán)重矩陣以隨機的正態(tài)分布數(shù)據(jù)構(gòu)建，偏置矩陣定義為一個內(nèi)容均為0.1的常數(shù)矩陣。

B.優(yōu)化器的選擇：采用Adam隨機優(yōu)化算法對先前的權(quán)重矩陣中得數(shù)據(jù)進行調(diào)整，權(quán)重衰減為0.0001。

C.設置每批訓練圖片的數(shù)量：每批輸入訓練集中的160張圖片，依次循環(huán)。

D.設置訓練次數(shù)：設置為300步。

步驟5：

當評價模型的損失函數(shù)逼近0，同時300步后，完成訓練，獲得訓練后的矩陣參數(shù)。本實例的收斂情況如圖3。

步驟6：

以獲得的矩陣計算測試集，并進行評估。通過讀取softmax層概率最大的值索引，獲得預測的概率分布。經(jīng)與真實標簽值比較，輸出一致為1，不一致為0。應用于本實例，測試集中有105個非活性分子和127個活性分子性，其總正確率為86.2％，其中活性分子的正確率為87.4％，非活性分子的正確率為84.76％。模型的特異性(SP)與靈敏度(SE)反映篩選的重要指標，SE＝TP/(TP+FN)、SP＝TN/(TN+FP)TP為預測正確活性化合物，F(xiàn)P為預測錯誤活性化合物，TN為預測正確非活性化合物，F(xiàn)N為預測錯誤非活性化合物。實例中，特異性為84.8％，靈敏度為87.4％。

步驟7：

獲得的矩陣數(shù)據(jù)對未知活性化合物進行預測，經(jīng)過softmax層后即可得到未知化合物的概率值。實例中，對11個已上市藥物非抗腫瘤藥物進行預測，其中結(jié)果見下表。其中藥物1和2經(jīng)模型預測，可能具有CDK4抑制活性，有成為抗腫瘤藥物潛質(zhì)，值得進行后續(xù)開發(fā)研究。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林克江;徐吟秋
技術(shù)所有人：中國藥科大學
我是此專利的發(fā)明人

上一篇：一種芥末味腰果仁的制作方法與工藝
上一篇：一種地鐵用可拆卸支吊架的制作方法與工藝

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

卷積神經(jīng)網(wǎng)絡相關(guān)技術(shù)

cnn卷積神經(jīng)網(wǎng)絡詳解相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡算法相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡代碼相關(guān)技術(shù)

全卷積神經(jīng)網(wǎng)絡相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡圖像識別相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于卷積神經(jīng)網(wǎng)絡的智能化先導化合物發(fā)現(xiàn)方法與流程