本發(fā)明涉及生物信息學(xué)中藥物發(fā)現(xiàn),特別是涉及基于異質(zhì)節(jié)點序列表示的藥物-疾病關(guān)聯(lián)預(yù)測方法及系統(tǒng)。
背景技術(shù):
1、新藥從研發(fā)到上市的過程一般可以分為臨床前研究、臨床試驗申請、臨床試驗、新藥上市審批、上市后研究、上市后再審批六個階段。數(shù)據(jù)顯示,研發(fā)出一種fda批準的新藥平均耗資近26億美元,花費約10-12年時間,但新藥研發(fā)成功率卻低于10%。因此,如果有效降低藥物研發(fā)的資金和時間投入,提高研發(fā)成功幾率,增加制藥公司研發(fā)低回報藥物的積極性,對于推動健康中國建設(shè)十分關(guān)鍵。除從零開始的藥物研發(fā)模式之外,為已上市藥物尋找全新適用病癥或新用途的藥物重定位技術(shù)受到研究人員重點關(guān)注。早期絕大多數(shù)藥物重定位成功案例均是從藥物藥理學(xué)出發(fā)或針對藥物的原始適應(yīng)癥進行回顧性分析得出的,缺乏系統(tǒng)性的研究方法。近年來,隨著多組學(xué)數(shù)據(jù)和生物醫(yī)學(xué)知識庫的日漸豐富,計算性藥物重定位方法為藥物再利用提供全新思路。本發(fā)明聚焦于藥物-疾病關(guān)聯(lián)預(yù)測任務(wù),即預(yù)測某一藥物能夠治療給定疾病的概率。將預(yù)測模型輸出的高置信度藥物-疾病對作為候選推薦給研究人員,以實現(xiàn)有效且高效的藥物重定位,進而加快藥物研發(fā)進程。
2、由于藥物與疾病之間的關(guān)聯(lián)關(guān)系可天然建模為網(wǎng)絡(luò)結(jié)構(gòu),因此,現(xiàn)有技術(shù)中使用圖表示學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等圖嵌入方法將藥物與疾病節(jié)點投影至低維稠密向量空間,然后通過神經(jīng)網(wǎng)絡(luò)分類器預(yù)測潛在的藥物-疾病關(guān)聯(lián)關(guān)系。然而,現(xiàn)有方法在提高模型預(yù)測準確性方面具有以下兩點缺陷:(1)先前工作簡單假設(shè)不同類型的節(jié)點/邊(節(jié)點包括藥物、疾病、蛋白質(zhì)等,邊包括藥物-疾病、疾病-蛋白質(zhì)等)共享完全相同的表示空間,或單獨建模藥物、疾病相似性網(wǎng)絡(luò)以及藥物-疾病關(guān)聯(lián)網(wǎng)絡(luò),并將從以上兩個網(wǎng)絡(luò)中得到的向量表示進行簡單拼接,使其不足以充分捕獲網(wǎng)絡(luò)的異質(zhì)屬性。(2)先前工作應(yīng)用多層圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標節(jié)點對應(yīng)的低階和高階鄰域信息,每一節(jié)點對應(yīng)的唯一向量表示混合了來源于不同關(guān)系以及不同層級的鄰域信息,導(dǎo)致難以進一步區(qū)分由不同來源傳遞到目標節(jié)點的消息,造成語義信息混淆。
3、因此,需要一種充分捕捉網(wǎng)絡(luò)異質(zhì)屬性以及具有清晰節(jié)點信息的藥物-疾病關(guān)聯(lián)預(yù)測方法。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了基于異質(zhì)節(jié)點序列表示的藥物-疾病關(guān)聯(lián)預(yù)測方法及系統(tǒng),利用異質(zhì)圖神經(jīng)網(wǎng)絡(luò)對生物交互網(wǎng)絡(luò)進行建模,并將每一節(jié)點轉(zhuǎn)化為序列表示形式,從而保留從不同元關(guān)系,不同層級獲取到的鄰域信息,有效避免語義信息混淆。
2、為此,本發(fā)明提供了以下技術(shù)方案:
3、基于異質(zhì)節(jié)點序列表示的藥物-疾病關(guān)聯(lián)預(yù)測方法,包括:
4、依據(jù)相似性度量方法構(gòu)建藥物相似性網(wǎng)絡(luò)和疾病相似性網(wǎng)絡(luò);
5、利用藥物相似性網(wǎng)絡(luò)和疾病相似性網(wǎng)絡(luò)構(gòu)建異質(zhì)生物交互網(wǎng)絡(luò);
6、基于異質(zhì)生物交互網(wǎng)絡(luò),得到目標節(jié)點的一階鄰居子圖;
7、按照元關(guān)系類型將目標節(jié)點的一階鄰居子圖拆分為多個元關(guān)系二部圖;
8、在目標節(jié)點的各元關(guān)系二部圖內(nèi)進行域內(nèi)消息傳播與聚合,更新目標節(jié)點的語義特征;
9、利用多頭注意力機制跨域融合目標節(jié)點的語義特征,更新目標節(jié)點的序列特征、聚合特征;
10、利用更新后的序列特征,通過多頭自注意力機制獲得目標節(jié)點的向量表示;
11、所述目標節(jié)點向量表示包括,藥物節(jié)點向量表示和疾病節(jié)點向量表示;
12、將藥物節(jié)點和疾病節(jié)點的向量表示輸入多層感知機預(yù)測藥物-疾病關(guān)聯(lián)概率。
13、進一步地,所述依據(jù)相似性度量方法構(gòu)建藥物相似性網(wǎng)絡(luò)和疾病相似性網(wǎng)絡(luò),包括:
14、根據(jù)藥物指紋相似性以及高斯互作譜核相似性計算任意藥物之間的相似性篩選出top-k個最近鄰藥物節(jié)點,構(gòu)建藥物相似性網(wǎng)絡(luò)εdrs;
15、根據(jù)疾病表型相似性以及高斯互作譜核相似性計算任意疾病之間的相似性,篩選出top-k個最近鄰疾病節(jié)點,構(gòu)建疾病相似性關(guān)系εdis。
16、進一步地,所述利用藥物相似性網(wǎng)絡(luò)和疾病相似性網(wǎng)絡(luò)構(gòu)建異質(zhì)生物交互網(wǎng)絡(luò),包括:
17、異質(zhì)生物交互網(wǎng)絡(luò)
18、其中,和分別代表藥物dr、疾病di和蛋白pr的實體集合;
19、ε={εdrs,εdis,εdda,εdrp,εdip},其中,εdda、εdrp、εdip分別代表已知的藥物-疾病關(guān)聯(lián)、藥物-蛋白質(zhì)交互以及疾病-蛋白質(zhì)交互關(guān)系;任意兩種類型實體間的交互關(guān)系εdda、εdrp、εdip從數(shù)據(jù)集中獲?。?/p>
20、定義節(jié)點、邊類型映射函數(shù)為每一節(jié)點或邊分配相應(yīng)的類型;其中,即三種類型實體,五種類型邊。
21、進一步地,所述元關(guān)系二部圖表示為:
22、
23、其中,r(φ(t))為目標節(jié)點t類型所包含的全部元關(guān)系,將中從源節(jié)點s到目標節(jié)點t的邊e對應(yīng)的元關(guān)系定義為
24、進一步地,所述在目標節(jié)點的各元關(guān)系二部圖內(nèi)進行域內(nèi)消息傳播與聚合,更新目標節(jié)點的語義特征,包括:
25、在元關(guān)系二部圖內(nèi),第l層從源節(jié)點s通過邊e到達目標節(jié)點t的消息傳播向量:
26、
27、其中,和分別表示邊和節(jié)點類型特定的參數(shù)矩陣;
28、通過平均池化從全部一階鄰居處聚合信息,得到在元關(guān)系二部圖上第l層目標節(jié)點t對應(yīng)的語義向量:
29、
30、其中,表示目標節(jié)點t在元關(guān)系二部圖上的一階鄰居節(jié)點。
31、進一步地,所述利用多頭注意力機制跨域融合目標節(jié)點的語義特征,更新目標節(jié)點的序列特征、聚合特征,包括:
32、通過縮放點積注意力計算語義向量與間的相關(guān)程度;
33、通過多頭注意力機制,對值向量進行加權(quán)平均并增加殘差連接項計算更新語義向量
34、目標節(jié)點t在所有元關(guān)系二部圖上第l層的語義向量集合表示為
35、將與目標節(jié)點t第(l-1)層對應(yīng)的序列特征進行拼接,更新目標節(jié)點第l層序列特征;
36、對進行平均池化操作,并與目標節(jié)點t在第(l-1)層的聚合特征進行殘差連接,更新第l層聚合特征
37、進一步地,所述利用更新后的序列特征,通過多頭自注意力機制獲得目標節(jié)點的向量表示,包括:
38、經(jīng)過l層的消息傳播與聚合,目標節(jié)點t最后一層序列表示傳入多頭自注意力模型中,生成目標節(jié)點最終向量表示
39、對于集合中的全部向量表示將其進行平均池化操作作為查詢向量;
40、通過將鍵向量與查詢向量進行縮放點積運算,評估序列表示集合內(nèi)每一向量的重要性;
41、對值向量進行加權(quán)平均生成目標節(jié)點t對應(yīng)的向量表示:藥物節(jié)點向量表示或疾病節(jié)點向量表示
42、進一步地,所述將藥物節(jié)點和疾病節(jié)點的向量表示輸入多層感知機預(yù)測藥物-疾病關(guān)聯(lián)概率,包括:
43、引入向量減法以及向量逐項乘法兩個額外組合算子整合藥物向量表示、疾病向量表示,通過多層感知機計算藥物u關(guān)聯(lián)疾病v的概率:
44、
45、進一步地,使用交叉熵損失函數(shù)優(yōu)化藥物-疾病關(guān)聯(lián)概率預(yù)測:
46、
47、其中s為正負訓(xùn)練樣本集合,為真實標簽。
48、基于異質(zhì)節(jié)點序列表示的藥物-疾病關(guān)聯(lián)預(yù)測系統(tǒng),包括:
49、網(wǎng)絡(luò)搭建模塊,依據(jù)相似性度量方法構(gòu)建藥物、疾病相似性網(wǎng)絡(luò);整合藥物、疾病相似性網(wǎng)絡(luò)、藥物-疾病關(guān)聯(lián)網(wǎng)絡(luò)、藥物-蛋白質(zhì)以及疾病-蛋白質(zhì)交互網(wǎng)絡(luò),構(gòu)建異質(zhì)生物交互網(wǎng)絡(luò);
50、元關(guān)系二部圖拆分模塊,基于異質(zhì)生物交互網(wǎng)絡(luò),得到目標節(jié)點的一階鄰居子圖;按照元關(guān)系類型將目標節(jié)點的一階鄰居子圖拆分為多個元關(guān)系二部圖;
51、域內(nèi)消息聚合模塊,在目標節(jié)點的各元關(guān)系二部圖內(nèi)進行域內(nèi)消息傳播與聚合,更新目標節(jié)點的語義特征;
52、跨域消息聚合模塊,利用多頭注意力機制跨域融合目標節(jié)點的語義特征,更新目標節(jié)點的序列特征、聚合特征;
53、藥物-疾病關(guān)聯(lián)概率預(yù)測模塊,利用更新后的序列特征,通過多頭自注意力機制獲得目標節(jié)點的向量表示;所述目標節(jié)點向量表示包括,藥物節(jié)點向量表示和疾病節(jié)點向量表示;將藥物節(jié)點和疾病節(jié)點的向量表示,輸入多層感知機預(yù)測藥物-疾病關(guān)聯(lián)概率。
54、本發(fā)明的優(yōu)點和積極效果:
55、本發(fā)明無需單獨對相似性網(wǎng)絡(luò)和關(guān)聯(lián)網(wǎng)絡(luò)進行建模并將從兩個網(wǎng)絡(luò)得到的藥物、疾病向量表示進行簡單串聯(lián),而是提出一個通用框架對異質(zhì)生物交互網(wǎng)絡(luò)中所包含的多類別生物實體間的交互關(guān)系進行聯(lián)合建模,從而更好地捕獲異質(zhì)屬性。為避免每一實體對應(yīng)的唯一向量表示造成語義信息混淆,本發(fā)明采用序列向量形式表示每一節(jié)點,使得序列中的每一嵌入向量均代表在某一層級從特定元關(guān)系處聚合到的鄰域信息,從而避免語義信息混淆,并學(xué)習(xí)出更具區(qū)分度的藥物、疾病向量表示。