本發(fā)明涉及醫(yī)療數(shù)據(jù)處理,具體而言,尤其涉及一種基于元路徑的微生物-疾病關聯(lián)預測方法。
背景技術:
1、隨著高通量測序技術和微生物組學的發(fā)展,許多研究表明微生物與人類疾病之間存在密不可分的關聯(lián)關系。微生物通過參與代謝、凋亡等重要的生命進程來對人類疾病和身體健康產(chǎn)生影響,比如心血管疾病、自身炎癥性疾病以及癌癥等。當前對微生物-疾病關聯(lián)關系主要分為四類。一類是微生物的改變是疾病的直接原因;另一類為微生物和疾病沒有直接的關聯(lián)關系,但是存在一個共同的第三方因素;第三類為疾病能夠影響微生物的改變使得其能夠作為疾病診斷的生物標記;最后一類為疾病能夠影響微生物的改變,其反過來又進一步影響疾病的嚴重程度。所以,確認微生物與疾病之間的關聯(lián)關系有助于加深對疾病機制的理解,提高疾病的診斷和治療效率。如已授權專利cn109920478b等。
2、微生物-疾病關聯(lián)預測有助于深入理解疾病機理,對藥物研發(fā)有促進作用。然而傳統(tǒng)生物實驗方法消耗大量時間及財力,且無法滿足高通量的數(shù)據(jù)需求。最新的解決方法是采用相似性計算方法,計算微生物之間及疾病之間的相似性關系,以構建相似性網(wǎng)絡,進而通過相似性網(wǎng)絡模型預測微生物與疾病的關聯(lián)關系。此外,一些方法采用圖神經(jīng)網(wǎng)絡從微生物同構網(wǎng)絡、疾病同構網(wǎng)絡或微生物-疾病異構網(wǎng)絡學習微生物和疾病的特征表示用于預測關聯(lián)關系。微生物-疾病關聯(lián)預測方法中,基于圖神經(jīng)網(wǎng)絡的方法可以很好地預測微生物-疾病的相關性,微生物和疾病的相似性信息作為節(jié)點的初始特征具有十分重要的作用,但它們僅對多種相似性通過簡單的處理得到綜合相似性,無法得到高質量的相似性;此外,它們僅采用圖神經(jīng)網(wǎng)絡對節(jié)點的特征進行聚合,缺乏對于圖中邊的特征的考慮。
技術實現(xiàn)思路
1、根據(jù)上述提出現(xiàn)有方法僅對多種相似性通過簡單的處理得到綜合相似性,無法得到高質量的相似性的技術問題,而提供一種基于元路徑的微生物-疾病關聯(lián)預測方法。
2、本發(fā)明采用的技術手段如下:
3、一種基于元路徑的微生物-疾病關聯(lián)預測方法,包括如下步驟:
4、s1、分別計算疾病、微生物和藥物的相似性;
5、s2、基于計算疾病、微生物和藥物的相似性,利用多種相似性視圖,構建微生物、疾病和藥物各自的同構網(wǎng)絡以豐富節(jié)點相似性信息,并基于微生物、疾病和藥物各自的同構網(wǎng)絡構建包含微生物節(jié)點、疾病節(jié)點和藥物節(jié)點的異構圖;
6、s3、將異構圖中微生物-疾病-微生物、微生物-藥物-微生物、疾病-微生物-疾病以及疾病-藥物-疾病這4種元路徑所對應的元路徑實例進行編碼,并通過元路徑內注意力聚合微生物節(jié)點和疾病節(jié)點在同一種元路徑下的特征表示;
7、s4、基于元路徑之間的注意力機制,通過局部注意力和全局注意力聚合微生物節(jié)點和疾病節(jié)點在不同元路徑下的特征表示,得到微生物節(jié)點和疾病節(jié)點的最終表征;
8、s5、預測微生物與疾病對的關聯(lián)概率,區(qū)分存在關聯(lián)關系或者無關聯(lián)關系。
9、進一步地,s1中:
10、疾病相似性包括疾病的語義相似性、高斯相互作用譜核相似性、余弦相似性、sigmoid核函數(shù)相似性;
11、微生物相似性包括微生物的功能相似性、高斯相互作用譜核相似性、余弦相似性、sigmoid核函數(shù)相似性;
12、藥物相似性包括藥物的功能相似性、高斯相互作用譜核相似性、余弦相似性、sigmoid核函數(shù)相似性。
13、進一步地,s2具體包括如下步驟:
14、s21、以微生物、疾病和藥物為節(jié)點,以不同的相似性視圖作為微生物、疾病和藥物各自的同構網(wǎng)絡的鄰接矩陣,構建僅包含微生物節(jié)點的功能相似性網(wǎng)絡、高斯核相似性網(wǎng)絡、余弦相似性網(wǎng)絡和sigmoid核函數(shù)相似性網(wǎng)絡,同時構建僅包含疾病節(jié)點的語義相似性網(wǎng)絡、高斯核相似性網(wǎng)絡、余弦相似性網(wǎng)絡、sigmoid核函數(shù)相似性網(wǎng)絡,以及藥物節(jié)點的功能相似性網(wǎng)絡、高斯核相似性網(wǎng)絡、余弦相似性網(wǎng)絡和sigmoid核函數(shù)相似性網(wǎng)絡;
15、s22、利用多階相似性融合學習,結合低階全局學習和高階特征學習,通過優(yōu)化技術構建多階相似性融合網(wǎng)絡,獲得更豐富、更可靠的結構信息和節(jié)點間的高階相似性信息,并構建微生物-藥物-疾病異構網(wǎng)絡。
16、進一步地,s3具體包括如下步驟:
17、s31、在學習節(jié)點特征表示時,通過元路徑的方式引入圖中邊的特征,使模型能夠學習到高質量的節(jié)點特征表示;對于異構圖,共引入以下4種元路徑,微生物-疾病-微生物、微生物-藥物-微生物、疾病-微生物-疾病、疾病-藥物-疾?。粚τ诿恳环N元路徑的元路徑實例,通過將元路徑實例上節(jié)點的向量進行平均得到元路徑實例的編碼;
18、s32、對每個元路徑實例進行編碼來學習目標節(jié)點的結構和語義信息;計算每個元路徑實例的注意力系數(shù),即計算元路徑編碼向量之間的相似度,通過softmax函數(shù)進行歸一化得到每個元路徑實例的注意力分數(shù),根據(jù)注意力分數(shù)加權聚合每種元路徑下的所有元路徑實例。
19、進一步地,s4具體包括如下步驟:
20、元路徑包括微生物-藥物-微生物、微生物-疾病-微生物、疾病-藥物-疾病、疾病-微生物-疾病;
21、通過基于cnn的局部注意力機制加權聚合,對于輸入的query、key、value向量,使用卷積神經(jīng)網(wǎng)絡提取局部特征,然后計算query向量和key向量之間的相似度,得到注意力系數(shù)后對value向量加權聚合得到節(jié)點的局部特征表示;
22、通過基于全連接層的全局注意力機制聚合得到微生物節(jié)點和疾病節(jié)點的最終表征。
23、進一步地,s5包括如下步驟:
24、將最終微生物節(jié)點和疾病節(jié)點的特征表示,再通過隨機森林分類器輸出微生物與疾病對的關聯(lián)得分,通過二元交叉熵損失函數(shù)計算真實值與預測值間的損失,進一步優(yōu)化模型內部的參數(shù)。最后,微生物與疾病對的關聯(lián)得分大于0.5的視為有關聯(lián),反之則視為無關聯(lián)。
25、本發(fā)明還提供了一種存儲介質,所述存儲介質包括存儲的程序,其中,所述程序運行時,執(zhí)行上述任一項基于元路徑的微生物-疾病關聯(lián)預測方法。
26、本發(fā)明還提供了一種電子裝置,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器通過所述計算機程序運行執(zhí)行上述任一項基于元路徑的微生物-疾病關聯(lián)預測方法。
27、較現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點:
28、本發(fā)明提供的技術方案通過首先對微生物和疾病構建多種相似性網(wǎng)絡,進行多階相似性網(wǎng)絡融合,接著引入元路徑以捕獲節(jié)點的結構信息和語義信息,并通過注意力機制聚合不同元路徑下不同元路徑實例的特征,通過隨機森林分類器獲得最終的特征表示以預測關聯(lián)得分。本發(fā)明不僅采用mosfl融合來自不同相似性網(wǎng)絡的特征表示,還通過元路徑引入節(jié)點的結構和語義信息,并通過局部注意力和全局注意力自適應聚合這些信息,這對發(fā)掘潛在的微生物與疾病關聯(lián)關系是十分有意義的,對于實際疾病診斷與治療以及后續(xù)藥物的研發(fā)存在一定價值。