本發(fā)明涉及先導化合物發(fā)現(xiàn)的方法,屬于以先導化合物發(fā)現(xiàn)為目標的人工智能應用技術(shù)領域,目的是高效、智能地發(fā)現(xiàn)小分子先導化合物。
背景技術(shù):
基于相似性的活性化合物發(fā)現(xiàn)策略在藥物設計中具有重要的地位,包括了生物電子等排體策略、骨架躍遷策略等等,但這兩種方法均在很大程度上依賴于藥物研發(fā)人員長期積累的經(jīng)驗。而人工智能通過深度學習,能快速、準確地總結(jié)出規(guī)律,這一過程得以加快藥物的發(fā)現(xiàn)過程。尤其是借助計算機的高速運算及大存儲量這兩個人類不具有的優(yōu)勢,人工智能得以快速、準確地識別活性分子,找出活性與結(jié)構(gòu)之間的關(guān)系。
活性分子相似性的發(fā)現(xiàn),需要借助圖像識別這一技術(shù)。卷積神經(jīng)網(wǎng)絡則是實現(xiàn)智能讀圖的重要技術(shù)之一。通過建立卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),并提供已知特性的圖像供該網(wǎng)絡結(jié)構(gòu)訓練。擬合出對應于該特性的系列參數(shù),最終達到該網(wǎng)絡能準確分類該特性的目的。
目前,我國的新藥開發(fā)正在朝著全新的創(chuàng)新藥物方向發(fā)展,而新藥開發(fā)過程中先導化合物的發(fā)現(xiàn)是關(guān)鍵的一步,雖然先導化合物并非藥物,卻是藥物之母。面對著難以計數(shù)的全新化學實體,如果一一進行活性測試將花費極其巨大的人力物力及財力。因此,借助于人工智能卷積神經(jīng)網(wǎng)絡將加快藥物先導化合物的發(fā)現(xiàn),是新藥研發(fā)的有效輔助手段。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種基于化合物化學結(jié)構(gòu)式的智能識別系統(tǒng),一種活性先導化合物發(fā)現(xiàn)方法。用于解決當前先導化合物發(fā)現(xiàn)效率低、方法有限的問題。該方法通過卷積神經(jīng)網(wǎng)絡,對具有各類不同活性屬性的化合物結(jié)構(gòu)式圖像的學習,擬合出準確分類的矩陣參數(shù),并將參數(shù)用于未知活性屬性的化合物的預測。本發(fā)明可提高先導化合物發(fā)現(xiàn)效率,為先導化合物發(fā)現(xiàn)帶來一種全新的方法。
為解決上述傳統(tǒng)藥物發(fā)現(xiàn)方法的相關(guān)問題,本發(fā)明提出的技術(shù)方案為一種基于卷積神經(jīng)網(wǎng)絡的智能先導化合物發(fā)現(xiàn)方法,具體包括如下步驟:
步驟1:對大小、亮度均一致的化合物結(jié)構(gòu)式平面圖片進行黑白化及反色處理;
步驟2:根據(jù)化合物活性屬性進行分類,并對每一類圖片加以各類所對應的數(shù)字標簽,其中一部分圖片作為訓練集,剩余部分圖片作為測試集;
步驟3:將圖片根據(jù)像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣,與標簽數(shù)字一一對應;
步驟4:建立卷積神經(jīng)網(wǎng)絡分類器,并調(diào)整參數(shù);
步驟5:當評價模型的損失函數(shù)逼近0后,完成訓練,獲得訓練后的矩陣參數(shù);
步驟6:以步驟5獲得的矩陣計算測試集圖片,并對模型進行評估。若評估結(jié)果不合要求,擴充數(shù)據(jù)集,重復上述過程,至符合要求;
步驟7:若評估結(jié)果符合要求,步驟5所獲得的矩陣參數(shù)可對未知活性的化合物進行預測,以發(fā)現(xiàn)先導化合物。
進一步,上述步驟2中所述活性屬性包括定性的活性屬性以及定量的活性屬性。
進一步,上述步驟4中所述卷積神經(jīng)網(wǎng)絡的分類器包含以下步驟:
(1)整理數(shù)據(jù)集。
(2)建立卷積神經(jīng)網(wǎng)絡,具體又包含以下子步驟:
A.確定層數(shù)及結(jié)構(gòu);
B.確定卷積與池化方式;
C.選擇損失函數(shù);
D.選擇非線性化函數(shù)。
(3)開始訓練神經(jīng)網(wǎng)絡,具體又包含以下子步驟:
A.初始化矩陣數(shù)據(jù);
B.設置每批訓練圖片的數(shù)量;
C.設置訓練次數(shù)。
進一步,上述步驟4中參數(shù)包括以下內(nèi)容:
(1)層數(shù)及節(jié)點數(shù);
(2)卷積核大小與采樣方式;
(3)池化層矩陣大小與采樣方式;
(4)損失函數(shù)種類;
(5)非線性化函數(shù)種類;
(6)每批訓練圖片的數(shù)量;
(7)訓練次數(shù)。
進一步,上述步驟5中所述的逼近為損失函數(shù)值小于1同時大于0。
進一步,上述步驟6中評估方法包括計算模型預測全部圖片以及各類別圖片的正確率、錯誤率,模型針對某分類屬性的特異性以及靈敏度。
與傳統(tǒng)的先導化合物虛擬發(fā)現(xiàn)工具相比,本發(fā)明的突出效果在于:
1、受體的結(jié)構(gòu)、受體與配體或藥物的結(jié)合位點、活性分子的藥效構(gòu)象不再是必要的,更不需要理論計算化學嚴格、精確的算法;
2、預測速度明顯快于傳統(tǒng)的先導化合物篩選工具;
3、傳統(tǒng)篩選模型多為線性模型,本篩選方法為非線性模型。
附圖說明
圖1是本發(fā)明的方法流程圖。
圖2是卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)圖。
圖3是依照本發(fā)明創(chuàng)建的模型的收斂情況。
具體實施方式
現(xiàn)結(jié)合附圖對本發(fā)明的具體實施方式做進一步詳細的說明。本發(fā)明提出一種基于卷積神經(jīng)網(wǎng)絡的智能化先導化合物發(fā)現(xiàn)方法。首先通過建立初步的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)對訓練集中經(jīng)處理的圖片進行深度學習,根據(jù)訓練情況調(diào)整結(jié)構(gòu)中參數(shù),訓練完成后保存矩陣數(shù)據(jù)。以此矩陣數(shù)據(jù)計算測試集,評價模型的正確率,結(jié)果符合要求后,將矩陣數(shù)據(jù)用于未知化合物的活性預測。若不合要求則通過擴大數(shù)據(jù)集重復上述過程,見圖1。
方法流程:
基于卷積神經(jīng)網(wǎng)絡的智能化先導化合物發(fā)現(xiàn)方法的細化步驟如下:
以具有抗腫瘤作用的CDK4抑制劑作為本方法的實施例,數(shù)據(jù)集中分子圖片具有兩類屬性,一類具有CDK4抑制活性,另一類則不具有。
步驟1:
將具有抗腫瘤活性的241個CDK4抑制劑作為活性化合物,223個不具有抗腫瘤活性的化合物作為非活性化合物。其結(jié)構(gòu)式制做為128×128像素圖片,并進行黑白化和反色處理。
步驟2:
對所有圖片分類并加以類別數(shù)字標簽,具有CDK4抑制活性的化合物圖片以1為標簽,不具有CDK4抑制作用的化合物圖片以0作為標簽。所有圖片隨機分為訓練集與測試集。訓練集與測試集各含圖片232張,其中訓練集有118張圖片屬于活性化合物。
步驟3:
將圖片由像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣,并與將活性標簽一一對應。
步驟4:
如圖2所示,建立并調(diào)整卷積神經(jīng)網(wǎng)絡分類器,包括如下步驟:
1、數(shù)據(jù)集的準備:
圖片矩陣經(jīng)整合后為一464×1282的矩陣,第一維為圖片索引,第二維為具體的圖片像素值數(shù)據(jù)。標簽矩陣為464×1的矩陣,第一維為索引,第二維為數(shù)字標簽。最后將圖片矩陣重整為464×128×128×1。
2、建立卷積神經(jīng)網(wǎng)絡,具體包含以下子步驟:
A.確定層數(shù)及結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡整體架構(gòu),以一層卷積層加一層池化層為一組,共三組,后為一層全連接層,最后通過一個含有2個輸出節(jié)點的softmax層輸出。詳細如下:
a.卷積層及池化層:第一層卷積層具有1個輸入節(jié)點、30個輸出節(jié)點,第二層卷積層含30個輸入節(jié)點、60個輸出節(jié)點,第三層卷積層含60個輸入節(jié)點、120個輸出節(jié)點。其中,每一層卷積層在經(jīng)非線性化函數(shù)處理后均連有池化層,而最后一層池化層的輸出作為下一層的輸入。非線性化采用relu函數(shù)進行處理,relu(x)=max(0,x)。經(jīng)上述處理后,數(shù)據(jù)具有三個維度。三維數(shù)據(jù)需要被重構(gòu)后輸入全連接層。
b.數(shù)據(jù)重構(gòu):由于全連接層對應于線性化的輸入數(shù)據(jù),故須將輸入的三維矩陣進行重構(gòu)。重構(gòu)的矩陣為n行一列的二維矩陣,n值為經(jīng)卷積層與池化層處理后,三維矩陣的各維大小的乘積。重構(gòu)矩陣的每一行作為全連接層的每一輸入節(jié)點。
c.全連接層:全連接層為一層,其輸入節(jié)點數(shù)即為重構(gòu)二維矩陣的行數(shù),輸出節(jié)點有200個,經(jīng)relu函數(shù)進行非線性化處理后作為softmax層的輸入節(jié)點。
d.softmax層:softmax層的輸出個數(shù)為2,對應于標簽0及1的概率分布。即最后的softmax層采用softmax函數(shù)將輸出結(jié)果分為兩類標簽的概率值,是一個二行一列的矩陣。Xi為某一標簽對應的計算值,Xj為任一標簽的計算值。獲取最大概率值在矩陣行數(shù)中的索引,即為圖片經(jīng)模型預測后得到的分類標簽。預測的標簽與真實結(jié)果比較后,計算損失函數(shù)用于模型評價。
B.確定卷積與池化方式:采用5×5的卷積核,移動步長為1,采用拓展至圖片邊緣外的采樣方式,以max pooling方式在2×2的區(qū)域采樣。輸入的1×128×128×1的圖片矩陣,經(jīng)上述三組卷積層與池化層處理后,矩陣形狀依次變?yōu)?4×64×30、32×32×60、16×16×120。
C.選擇損失函數(shù):采用交叉熵函數(shù)(cross entropy),cross entropy=-∑y×lg(y′),y為真實的概率分布,y’為預測的概率分布。函數(shù)值越逼近0,表明訓練越有效。
3、開始訓練神經(jīng)網(wǎng)絡,具體又包含以下子步驟:
A.初始化矩陣數(shù)據(jù):權(quán)重矩陣以隨機的正態(tài)分布數(shù)據(jù)構(gòu)建,偏置矩陣定義為一個內(nèi)容均為0.1的常數(shù)矩陣。
B.優(yōu)化器的選擇:采用Adam隨機優(yōu)化算法對先前的權(quán)重矩陣中得數(shù)據(jù)進行調(diào)整,權(quán)重衰減為0.0001。
C.設置每批訓練圖片的數(shù)量:每批輸入訓練集中的160張圖片,依次循環(huán)。
D.設置訓練次數(shù):設置為300步。
步驟5:
當評價模型的損失函數(shù)逼近0,同時300步后,完成訓練,獲得訓練后的矩陣參數(shù)。本實例的收斂情況如圖3。
步驟6:
以獲得的矩陣計算測試集,并進行評估。通過讀取softmax層概率最大的值索引,獲得預測的概率分布。經(jīng)與真實標簽值比較,輸出一致為1,不一致為0。應用于本實例,測試集中有105個非活性分子和127個活性分子性,其總正確率為86.2%,其中活性分子的正確率為87.4%,非活性分子的正確率為84.76%。模型的特異性(SP)與靈敏度(SE)反映篩選的重要指標,SE=TP/(TP+FN)、SP=TN/(TN+FP)TP為預測正確活性化合物,F(xiàn)P為預測錯誤活性化合物,TN為預測正確非活性化合物,F(xiàn)N為預測錯誤非活性化合物。實例中,特異性為84.8%,靈敏度為87.4%。
步驟7:
獲得的矩陣數(shù)據(jù)對未知活性化合物進行預測,經(jīng)過softmax層后即可得到未知化合物的概率值。實例中,對11個已上市藥物非抗腫瘤藥物進行預測,其中結(jié)果見下表。其中藥物1和2經(jīng)模型預測,可能具有CDK4抑制活性,有成為抗腫瘤藥物潛質(zhì),值得進行后續(xù)開發(fā)研究。