本發(fā)明涉及智能信息處理和生物信息領(lǐng)域,具體來(lái)說是一種基于深層有向圖卷積網(wǎng)絡(luò)的釀酒酵母菌基因調(diào)控網(wǎng)絡(luò)重構(gòu)方法。
背景技術(shù):
1、基因是所有生命共有的屬性,基因的活動(dòng)能力和基因的表達(dá)水平有關(guān),而基因的表達(dá)產(chǎn)物(如蛋白質(zhì),轉(zhuǎn)錄因子)與其基因靶點(diǎn)之間存在的復(fù)雜相互關(guān)系?;蛘{(diào)控網(wǎng)絡(luò)(gene?regulation?networks,grns)在基因組水平上解釋了生物體復(fù)雜的生命現(xiàn)象,是維持生命過程、控制生物化學(xué)反應(yīng)和調(diào)節(jié)化合物水平的重要機(jī)制。對(duì)于細(xì)胞來(lái)說,基因表達(dá)產(chǎn)物對(duì)生化水平動(dòng)態(tài)的控制讓細(xì)胞對(duì)外界環(huán)境變化的刺激及時(shí)做出調(diào)整。因此grns對(duì)預(yù)測(cè)基因功能、識(shí)別癌癥生物標(biāo)志物、藥物的輔助研發(fā)和發(fā)現(xiàn)潛在的藥物靶點(diǎn)等有著重要的作用。針對(duì)釀酒酵母菌基因進(jìn)行網(wǎng)絡(luò)重構(gòu),了解釀酒酵母菌基因在環(huán)境變化中的調(diào)控關(guān)系,可以更好的進(jìn)行工業(yè)生產(chǎn)。
2、現(xiàn)有一些基因調(diào)控網(wǎng)絡(luò)預(yù)測(cè)的方法研究基因間的調(diào)控機(jī)制。如基于相關(guān)論的方法:對(duì)于一個(gè)基因組成的完全連接的網(wǎng)絡(luò),直接計(jì)算基因與基因之間邊的相關(guān)性作為重要性的參考,并對(duì)相關(guān)性的結(jié)果進(jìn)行排序,利用設(shè)定的一些閾值去選擇構(gòu)建基因調(diào)控網(wǎng)絡(luò)?;谔卣鬟x擇技術(shù):是無(wú)監(jiān)督學(xué)習(xí)方法的一種?;谔卣鬟x擇的方案往往會(huì)把p個(gè)基因網(wǎng)絡(luò)構(gòu)建問題轉(zhuǎn)換成p個(gè)獨(dú)立特征選擇問題,利用特征選擇技術(shù)得到與目標(biāo)因子具有強(qiáng)相關(guān)性的調(diào)節(jié)因子子集。genie3方法是基于回歸樹的,這些樹可以使用隨機(jī)森林方法學(xué)習(xí)和(extrea-tree)極限樹方法,jump3,這是一種用于?grn?推理的混合方法,它基于?grn?每個(gè)基因表達(dá)的正式動(dòng)力學(xué)模型,并采用貪婪的、非參數(shù)的方法來(lái)重建?grn?的拓?fù)浣Y(jié)構(gòu)。近些年隨著深度學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)的發(fā)展,于是出現(xiàn)了越來(lái)越多的基于神經(jīng)網(wǎng)絡(luò)的研究方法。它們是基于監(jiān)督學(xué)習(xí)的方案:cnnc、dgrns、grgnn、tdl、?deepdrim等。
3、上述方法是基于傳統(tǒng)方法例如信息論或傳統(tǒng)機(jī)器學(xué)習(xí),或者是使用基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)或與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合。對(duì)于基因調(diào)控網(wǎng)絡(luò)這樣天然的有向圖數(shù)據(jù),使用有向圖神經(jīng)網(wǎng)絡(luò)是可以更高效便捷,但是因?yàn)樵跇?gòu)建數(shù)據(jù)的過程中較為繁瑣、圖數(shù)據(jù)信息難獲取,所以很少人使用有向圖神經(jīng)網(wǎng)絡(luò)。其次僅使用基因表達(dá)數(shù)據(jù)的方法中最終的預(yù)測(cè)效果都會(huì)因?yàn)闊o(wú)法挖掘更深層的信息而較差,沒有利用到基因調(diào)控網(wǎng)絡(luò)這種天然的拓?fù)浣Y(jié)構(gòu)信息。同時(shí)基因調(diào)控網(wǎng)絡(luò)存在的大量低度基因節(jié)點(diǎn)會(huì)導(dǎo)致以往模型的無(wú)法得到完全的訓(xùn)練,損失模型的性能。并且基因調(diào)控網(wǎng)絡(luò)存在網(wǎng)絡(luò)稀疏、調(diào)控鏈長(zhǎng)等問題使得上訴模型不能充分捕捉信息導(dǎo)致模型效果差。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明是為了解決上述現(xiàn)有技術(shù)存在的不足之處,提出一種基于深層有向圖卷積的基因網(wǎng)絡(luò)調(diào)控關(guān)系的重構(gòu)方法,以期能更高效準(zhǔn)確的預(yù)測(cè)出基因之間的調(diào)控關(guān)系,從而有助于更有效地研究基因之間的調(diào)控關(guān)系,方便工業(yè)生產(chǎn)。
2、本發(fā)明為達(dá)到上述發(fā)明目的,采用如下技術(shù)方案:
3、本發(fā)明一種基于深層有向圖卷積的基因網(wǎng)絡(luò)調(diào)控關(guān)系的重構(gòu)方法的特點(diǎn)在于,包括如下步驟:
4、步驟1、獲取釀酒酵母菌基因網(wǎng)絡(luò),其中,v是釀酒酵母菌基因節(jié)點(diǎn)集合,且,表示第n個(gè)釀酒酵母菌基因節(jié)點(diǎn);表示釀酒酵母菌基因節(jié)點(diǎn)的總數(shù),e表示各個(gè)釀酒酵母菌基因節(jié)點(diǎn)之間的調(diào)控關(guān)系所形成的有向邊集合,且;表示第條有向邊,表示有向邊的總數(shù),并由e得到維度為n×n的鄰接矩陣;
5、獲取的m維基因表達(dá)譜,從而由n個(gè)釀酒酵母菌基因節(jié)點(diǎn)的m維基因表達(dá)譜構(gòu)成維度為n×m的表達(dá)譜矩陣;
6、步驟2、構(gòu)建鄰域增強(qiáng)網(wǎng)絡(luò),并用于對(duì)和a進(jìn)行處理,得到增強(qiáng)特征;
7、步驟3、將輸入到node2vec模型中,通過鄰域采樣策略生成的網(wǎng)絡(luò)鄰域,再利用隨機(jī)游走的方式對(duì)的網(wǎng)絡(luò)鄰域進(jìn)行遍歷,得到1×t維的的拓?fù)湫畔⑶度?;從而得到n個(gè)釀酒酵母菌基因節(jié)點(diǎn)的拓?fù)湫畔⑶度氩⒔M成n×t維的網(wǎng)絡(luò)拓?fù)湫畔⑶度刖仃噁;其中,t表示每個(gè)基因的最終表示維度;
8、步驟4、將與拼接后,得到維度為的特征矩陣,并與一起輸入到特征融合模塊中進(jìn)行處理,從而利用式(1)得到融合特征矩陣b:
9、?(1)
10、式(1)中,表示消息傳播形式,表示正則化,表示拼接,表示信息學(xué)習(xí)權(quán)重矩陣;
11、步驟5:構(gòu)建有向圖神經(jīng)網(wǎng)絡(luò),并對(duì)a、b和進(jìn)行處理,得到調(diào)控關(guān)系預(yù)測(cè)分?jǐn)?shù)矩陣;
12、步驟6:利用隨機(jī)梯度下降法對(duì)所述有向圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并計(jì)算交叉熵?fù)p失函數(shù)以更新網(wǎng)絡(luò)參數(shù),直到交叉熵?fù)p失函數(shù)收斂為止,從而得到訓(xùn)練好的釀酒酵母菌基因調(diào)控網(wǎng)絡(luò)推理模型,用于輸出基因之間存在調(diào)控關(guān)系的預(yù)測(cè)分?jǐn)?shù),并通過設(shè)定的閾值最終判定是否存在有向調(diào)控關(guān)系。
13、本發(fā)明一種基于深層有向圖卷積的基因網(wǎng)絡(luò)調(diào)控關(guān)系的重構(gòu)方法的特點(diǎn)也在于,所述步驟2中鄰域增強(qiáng)網(wǎng)絡(luò)的包括:編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò):
14、步驟2.1、對(duì)的鄰域進(jìn)行采樣,得到的h個(gè)鄰域節(jié)點(diǎn),從而由的h個(gè)鄰域節(jié)點(diǎn)的m維基因表達(dá)譜組成維度為h×m的鄰域節(jié)點(diǎn)特征矩陣后,輸入到編碼器網(wǎng)絡(luò)中進(jìn)行編碼,得到維度為h×1的鄰域節(jié)點(diǎn)特征編碼向量;
15、步驟2.2、將維度為h×1的鄰域節(jié)點(diǎn)特征編碼矩陣輸入到解碼器網(wǎng)絡(luò)中進(jìn)行處理,生成維度為1×m的的鄰域節(jié)點(diǎn)特征解碼向量;
16、步驟2.3、將n個(gè)釀酒酵母菌基因節(jié)點(diǎn)的鄰域節(jié)點(diǎn)特征解碼向量組成增強(qiáng)特征矩陣。
17、進(jìn)一步的,所述步驟5包括:
18、步驟5.1、利用式(2)得到和第m個(gè)釀酒酵母菌基因節(jié)點(diǎn)之間的鄰接信息,從而由n個(gè)釀酒酵母菌基因節(jié)點(diǎn)之間的鄰接信息構(gòu)成鄰接矩陣;
19、????(2)
20、式(2)中,表示和之間的調(diào)控關(guān)系,表示和之間的調(diào)控關(guān)系;
21、步驟5.2、利用式(3)得到的度矩陣,從而得到n個(gè)釀酒酵母菌基因節(jié)點(diǎn)的度矩陣;
22、???????????(3)
23、步驟5.3、利用式(4)構(gòu)建在參數(shù)q條件下和之間的相位差,從而得到在參數(shù)q條件下的相位矩陣;
24、??????(4)
25、式(4)中,是圓周率,q是常量;
26、利用式(5)和式(6)構(gòu)造在參數(shù)q條件下的復(fù)厄米特矩陣:
27、???????????????????????????(5)
28、??????????????(6)
29、式(5)和式(6)中,代表分量乘法,表示虛數(shù)單位,式(6)是歐拉方程的展開形式;
30、步驟5.4、利用式(7)構(gòu)建在參數(shù)q條件下的拉普拉斯算子:
31、??????????????(7)
32、步驟5.5、利用式(8)得到最終的方向信息傳遞范式:
33、???????????(8)
34、式(8)中,表示等價(jià)于;表示加上單位矩陣的形式,且,是單位矩陣,表示加上單位矩陣的形式;
35、步驟5.6:利用式(9)得到第層學(xué)習(xí)后的特征信息矩陣:
36、??????????(9)
37、式(9)中,表示權(quán)重,表示第l-1層學(xué)習(xí)后的特征信息矩陣,當(dāng)=1時(shí),令=b;
38、步驟5.7:利用式(10)得到和之間的調(diào)控關(guān)系預(yù)測(cè)分?jǐn)?shù),從而得到n個(gè)釀酒酵母菌基因節(jié)點(diǎn)的調(diào)控關(guān)系預(yù)測(cè)分?jǐn)?shù)矩陣:
39、??(10)
40、式(10)中,(?)是分類函數(shù),(?)是拼接函數(shù),是最后一層學(xué)習(xí)后的特征信息中第行、第行特征信息向量。
41、本發(fā)明一種電子設(shè)備,包括存儲(chǔ)器以及處理器的特點(diǎn)在于,所述存儲(chǔ)器用于存儲(chǔ)支持處理器執(zhí)行所述重構(gòu)方法的程序,所述處理器被配置為用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的程序。
42、本發(fā)明一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序的特點(diǎn)在于,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行所述重構(gòu)方法的步驟。
43、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
44、1、基因調(diào)控網(wǎng)絡(luò)是一個(gè)天然的網(wǎng)絡(luò)數(shù)據(jù),具有網(wǎng)絡(luò)拓?fù)湫畔?,本發(fā)明利用圖表示學(xué)習(xí)方法獲取圖的拓?fù)湫畔?,解決了神經(jīng)網(wǎng)絡(luò)模型僅僅使用細(xì)胞基因的表達(dá)值作為神經(jīng)網(wǎng)絡(luò)模型輸入的特征矩陣,不能從基因的表達(dá)數(shù)據(jù)中挖掘出更多有用的信息的問題,為釀酒酵母菌基因調(diào)控關(guān)系預(yù)測(cè)提供新的特征和思路。
45、2、本發(fā)明使用條件變分自動(dòng)編碼器cvae進(jìn)行圖神經(jīng)網(wǎng)絡(luò)的局部增強(qiáng),解決了grn中存在大量的低度節(jié)點(diǎn),使有向圖神經(jīng)網(wǎng)絡(luò)難以有效的獲取周邊鄰居信息而導(dǎo)致模型無(wú)法高效的預(yù)測(cè)基因之間的調(diào)控關(guān)系的問題。本發(fā)明通過增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的局部特征,獲取高效的特征表示,以增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,從而解決了難以挖掘低度基因節(jié)點(diǎn)在基因調(diào)控網(wǎng)絡(luò)的關(guān)聯(lián)信息的問題;
46、3、本發(fā)明使用深層圖神經(jīng)網(wǎng)絡(luò),通過向更深層的鄰居節(jié)點(diǎn)進(jìn)行遍歷學(xué)習(xí)高階鄰居所攜帶的知識(shí)。因此可以從圖的全局角度提取基因的特征值,學(xué)習(xí)出高效的特征表示,從而提高了釀酒酵母菌基因調(diào)控模型的預(yù)測(cè)性能;
47、4、本發(fā)明使用有向圖卷積神經(jīng)網(wǎng)絡(luò),解決了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)或者與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合使用,在消息傳遞的過程中不注重注重調(diào)控關(guān)系的方向性的問題,因此本發(fā)明可以在高效處理有向圖數(shù)據(jù)的同時(shí)更準(zhǔn)確的預(yù)測(cè)基因調(diào)控關(guān)系。