本發(fā)明屬于生物信息技術學領域,涉及一種lncrna功能預測方法、存儲介質及設備。
背景技術:
1、長鏈非編碼rna(long?non-coding?rna,lncrna)是長度超過200個核苷酸的rna轉錄物,它們?nèi)狈﹃P鍵特性,例如蛋白質編碼潛力和序列保守性,而這些特性對于功能作用來說是不可避免的。lncrna廣泛參與動物神經(jīng)發(fā)育、細胞調(diào)控、腫瘤發(fā)生和轉移。此外,人類疾病和癌癥與lncrna的突變和失調(diào)有關。在對lncrna穩(wěn)定性的全基因組分析中,發(fā)現(xiàn)lncrna的半衰期變化范圍很廣,這些都表明lncrna存在復雜的代謝和廣泛的功能。由于lncrna在調(diào)節(jié)生物活性方面發(fā)揮著重要作用,因此確定lncrna的生物學功能也變得尤為重要。
2、盡管到目前為止已經(jīng)鑒定了大量的lncrna,但與蛋白質編碼基因相比,絕大多數(shù)lncrna的功能是未知的。lncrna的發(fā)現(xiàn)率和注釋率之間的差距導致人們對lncrna的功能了解有限。注釋lncrna功能的方法分為兩類:生物實驗方法和基于計算的方法。生物實驗方法可以準確確定lncrna的功能,但實驗成本高昂且耗時較長。因此,開發(fā)預測lncrna功能的計算替代方案是lncrna研究的迫切要求。lncrna功能預測方法分為兩種。第一種是基于計算框架,使用超幾何測試、katz測量、雙隨機游走、矩陣分解等方法計算lncrna和蛋白質的關聯(lián)分數(shù),根據(jù)關聯(lián)分數(shù)和已知的蛋白質-go注釋來預測lncrna功能;第二種方法是基于機器學習方法,通過各種手段包括rwr、avgsim、貝葉斯網(wǎng)絡、lstm等提取特征,之后將學習到的特征訓練svm、rf等分類器模型進行預測。
3、但是由于經(jīng)過實驗驗證的lncrna功能數(shù)目很少,大多數(shù)方法是通過已知的蛋白質-go關聯(lián)進而預測出lncrna的go注釋功能,從而導致lncrna功能預測準確率低的問題。
技術實現(xiàn)思路
1、本發(fā)明目的是為了解決現(xiàn)有l(wèi)ncrna功能預測方法中先驗的lncrna功能注釋數(shù)據(jù)很少,需要借用蛋白質功能注釋數(shù)據(jù)來間接預測lncrna的功能導致準確率較低的問題。
2、一種基于圖注意力的lncrna功能預測方法,包括以下步驟:
3、s1、根據(jù)lncrna的共表達、lncrna-蛋白質相互作用、lncrna-mirna相互作用對應得到三種lncrna的相似性矩陣sl、sp和sm;分別通過gcn模型和基于交叉注意力機制的圖對比學習方法獲得lncrna的嵌入表示zl、zm和zp,基于zl、zm和zp得到lncrna綜合相似性矩陣ml;
4、s2、基于gogcn方法中的go語義相似性計算方法,設計知識圖譜嵌入模型學習go術語的表示;利用術語的表示計算術語之間的語義相似性,得到go相似性矩陣mg;
5、s3、基于先驗的lncrna-go功能注釋數(shù)據(jù)構建訓練集及l(fā)ncrna-go關聯(lián)矩陣;
6、s4、采用gcn和gat結合的混合圖表示學習對lncrna綜合相似性矩陣ml、go相似性矩陣mg進行處理得到lncrna-go融合特征;將得到的lncrna-go融合特征輸入到kan分類器中獲得預測的lncrna-go功能注釋;具體過程包括以下步驟:
7、s41、將lncrna綜合相似性矩陣ml、go相似性矩陣mg分別輸入到gcn中分別得到特征hl(1)和hg(1);
8、s42、將hl(1)和lncrna相似性矩陣ml輸入到gat中得到經(jīng)過注意力機制優(yōu)化后的特征hl(2);將hg(1)和go相似性矩陣mg輸入到gat中得到經(jīng)過注意力機制優(yōu)化后的特征hg(2);
9、s43、將hl(2)和ml輸入到gcn中得到經(jīng)過注意力機制優(yōu)化后的結構信息的再提取特征hl(3);將hg(2)和mg輸入到gcn中得到經(jīng)過注意力機制優(yōu)化后的結構信息的再提取特征hg(3);
10、s44、將hl(1)和hl(3)輸入到cnn中得到融合特征xl,將hg(1)和hg(3)輸入到cnn中得到融合特征xg;根據(jù)融合特征xl和xg得到預測偏好矩陣
11、使用二元交叉熵損失函數(shù)來衡量u和步驟s3得到的lncrna-go關聯(lián)矩陣之間的差異;通過在步驟s3得到的訓練集最小化二元交叉熵損失函數(shù),得到最終的lncrna的特征表示xl和go的特征表示xg;
12、s45、將上述獲得的lncrna特征xl和go特征xg連接起來形成lncrna-go融合特征,將其輸入到kan分類器中得到預測的lncrna-go功能注釋。
13、進一步地,步驟s1所述的根據(jù)lncrna的共表達、lncrna-蛋白質相互作用、lncrna-mirna相互作用對應得到三種lncrna的相似性矩陣sl、sp和sm的過程包括以下步驟:
14、s11、獲得lncrna共表達相似性數(shù)據(jù):提取lncrna表達譜,計算每對lncrna表達譜之間的pearson相關系數(shù)以表示lncrna的共表達相似性sl;
15、s12、獲得lncrna-mirna相互作用的相似性數(shù)據(jù):獲取lncrna-mirna相互作用數(shù)據(jù)的數(shù)據(jù)集,根據(jù)數(shù)據(jù)集中是否存在關聯(lián)得到每對lncrna-mirna的關聯(lián)情況后,計算lncrna和mirna之間的高斯核相似性矩陣以表示lncrna的mirna相互作用的相似性sm;
16、s13、獲得lncrna-蛋白質相互作用的相似性數(shù)據(jù):獲取lncrna-蛋白質相互作用的數(shù)據(jù)集,根據(jù)相互作用的數(shù)據(jù)集中是否存在lncrna-蛋白質對得到每對lncrna-蛋白質的關聯(lián)情況后,計算lncrna和蛋白質之間的高斯核相似性矩陣以表示lncrna的蛋白質相互作用的相似性sp。
17、進一步地,步驟s1所述的通過gcn模型和基于交叉注意力機制的圖對比學習方法獲得lncrna的嵌入表示zl、zm、zp的過程包括以下步驟:
18、s14、將lncrna共表達相似性矩陣sl、lncrna和蛋白質相互作用的相似性矩陣sp,lncrna和mirna相互作用的相似性矩陣sm分別輸入到gcn模型中,對應的gcn生成相應的特征表示yl、yp、ym;
19、接著對gcn的輸出特征進行交叉注意力計算,即對三個特征進行兩兩之間的交叉注意力計算;以yl為例,首先對yl應用了以ym和yp為輸入的交叉注意力機制,通過交叉注意力將ym和yp中的信息融入到y(tǒng)l中,生成一個新的特征y′l;
20、采用相同的方式得到lncrna-mirna的特征y′m,lncrna-蛋白質的特征y′p;
21、s15、經(jīng)過交叉注意力機制獲得三種特征后,將同一節(jié)點在不同視圖中的特征對看作正樣本對,獲得特征y′l和特征y′m的正樣本對、特征y′l和特征y′p的正樣本對,特征y′m和特征y′p的正樣本對三種正樣本對;負樣本對是不同節(jié)點之間的特征對,根據(jù)y′l、y′m、y′p各自對應的正負樣本對,采用圖對比學習的方式得到lncrna共表達的特征zl、lncrna-mirna的特征zm、lncrna-蛋白質的特征zp。
22、進一步地,采用圖對比學習的方式得到lncrna共表達的特征zl的過程中,采用的對比損失如下:
23、
24、其中,1[k≠i]表示指示函數(shù),當k≠i時,指示函數(shù)的值為1,用于計算節(jié)點i與節(jié)點k之間的相似性,當k=i時,指示函數(shù)的值為0,即不計算相同節(jié)點之間的相似性;y′k表示yl′[i]的負樣本對對應的樣本;n表示lncrna的數(shù)目;τ表示溫度參數(shù),用于調(diào)節(jié)相似度計算的分布平滑性;sim(·)表示兩個特征之間的相似度函數(shù)。
25、進一步地,步驟s1所述的基于zl、zm和zp得到lncrna綜合相似性矩陣的過程包括以下步驟:
26、s16、獲得了lncrna共表達的特征zl、lncrna-mirna的特征zm、lncrna-蛋白質的特征zp后,經(jīng)過特征融合,將三種特征拼接融合成一個特征表示z=[zl||zm||zp];
27、s17、根據(jù)lncrna的特征表示z,計算每兩個lncrna的特征表示z的余弦相似性,得到lncrna綜合相似性矩陣ml。
28、進一步地,步驟s2所述設計知識圖譜嵌入模型學習go術語的表示的過程包括以下步驟:
29、s21、獲取go文件;
30、s22、將go圖表示為g=(v,r,e,x,z),其中,v為實體集,表示go術語;r為關系集;e表示邊集;x表示初始化的實體表示,z表示初始化的關系表示;
31、s23、為獲得go圖的結構信息,編碼器在compgcn基礎上添加了gcn層的傳播權重,并且用逆邊和關系表示擴展邊和關系;
32、s24、解碼器中,將go圖看作三元組,利用三元組的相應表示訓練鏈路預測模型;訓練階段采用1-n評分策略,通過破壞頭術語或尾術語來生成損壞三元組,使用conve作為評分函數(shù),為真實三元組提供較高的分數(shù),為損壞三元組提供較低的分數(shù),模型達到收斂獲得go術語的嵌入表示;
33、s25、訓練后,針對go術語的表示,使用余弦相似性估計實體之間語義相似性,進而得到go相似性矩陣mg。
34、進一步地,步驟s3所述的基于先驗的lncrna-go功能注釋數(shù)據(jù)構建訓練集的過程包括以下步驟:
35、首先獲取lnc-gfp方法預測的lncrna功能注釋文件,將預測的lncrna功能注釋文件中l(wèi)ncrna-go功能注釋對作為正樣本;
36、s32、隨機構造與lncrna-go功能注釋對數(shù)目相等的lncrna-go非功能注釋對作為負樣本;將lncrna-go功能注釋對,與lncrna-go功能注釋對數(shù)目相等的非功能注釋對組成訓練集。
37、進一步地,步驟s3所述的基于先驗的lncrna-go功能注釋數(shù)據(jù)構建lncrna-go關聯(lián)矩陣的過程包括以下步驟:
38、根據(jù)預測的lncrna功能注釋文件,構建lncrna-go關聯(lián)矩陣,矩陣中1表示lncrna-go功能注釋對,0表示lncrna-go非功能注釋對。
39、一種計算機存儲介質,所述存儲介質中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)所述的一種基于圖注意力的lncrna功能預測方法。
40、一種基于圖注意力的lncrna功能預測設備,所述設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)所述的一種基于圖注意力的lncrna功能預測方法。
41、本發(fā)明的有益效果為:
42、本發(fā)明利用基于交叉注意力機制的圖對比學習方法提取lncrna的特征,利用知識圖譜嵌入模型提取go的特征,利用gcn和gat結合的圖表示學習模型預測lncrna-go功能注釋。因此本發(fā)明可以有效的解決先驗的lncrna功能注釋數(shù)據(jù)很少,需要借用蛋白質功能注釋數(shù)據(jù)來間接預測lncrna的功能導致準確率較低的問題。與其他先進的模型相比,本發(fā)明具有更好的預測準確率和模型泛化性,為發(fā)現(xiàn)潛在的lncrna功能注釋提供了有效的技術支持。