欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于圖注意力的lncRNA功能預測方法、存儲介質及設備

文檔序號:40656030發(fā)布日期:2025-01-10 19:07閱讀:2來源:國知局
基于圖注意力的lncRNA功能預測方法、存儲介質及設備

本發(fā)明屬于生物信息技術學領域,涉及一種lncrna功能預測方法、存儲介質及設備。


背景技術:

1、長鏈非編碼rna(long?non-coding?rna,lncrna)是長度超過200個核苷酸的rna轉錄物,它們?nèi)狈﹃P鍵特性,例如蛋白質編碼潛力和序列保守性,而這些特性對于功能作用來說是不可避免的。lncrna廣泛參與動物神經(jīng)發(fā)育、細胞調(diào)控、腫瘤發(fā)生和轉移。此外,人類疾病和癌癥與lncrna的突變和失調(diào)有關。在對lncrna穩(wěn)定性的全基因組分析中,發(fā)現(xiàn)lncrna的半衰期變化范圍很廣,這些都表明lncrna存在復雜的代謝和廣泛的功能。由于lncrna在調(diào)節(jié)生物活性方面發(fā)揮著重要作用,因此確定lncrna的生物學功能也變得尤為重要。

2、盡管到目前為止已經(jīng)鑒定了大量的lncrna,但與蛋白質編碼基因相比,絕大多數(shù)lncrna的功能是未知的。lncrna的發(fā)現(xiàn)率和注釋率之間的差距導致人們對lncrna的功能了解有限。注釋lncrna功能的方法分為兩類:生物實驗方法和基于計算的方法。生物實驗方法可以準確確定lncrna的功能,但實驗成本高昂且耗時較長。因此,開發(fā)預測lncrna功能的計算替代方案是lncrna研究的迫切要求。lncrna功能預測方法分為兩種。第一種是基于計算框架,使用超幾何測試、katz測量、雙隨機游走、矩陣分解等方法計算lncrna和蛋白質的關聯(lián)分數(shù),根據(jù)關聯(lián)分數(shù)和已知的蛋白質-go注釋來預測lncrna功能;第二種方法是基于機器學習方法,通過各種手段包括rwr、avgsim、貝葉斯網(wǎng)絡、lstm等提取特征,之后將學習到的特征訓練svm、rf等分類器模型進行預測。

3、但是由于經(jīng)過實驗驗證的lncrna功能數(shù)目很少,大多數(shù)方法是通過已知的蛋白質-go關聯(lián)進而預測出lncrna的go注釋功能,從而導致lncrna功能預測準確率低的問題。


技術實現(xiàn)思路

1、本發(fā)明目的是為了解決現(xiàn)有l(wèi)ncrna功能預測方法中先驗的lncrna功能注釋數(shù)據(jù)很少,需要借用蛋白質功能注釋數(shù)據(jù)來間接預測lncrna的功能導致準確率較低的問題。

2、一種基于圖注意力的lncrna功能預測方法,包括以下步驟:

3、s1、根據(jù)lncrna的共表達、lncrna-蛋白質相互作用、lncrna-mirna相互作用對應得到三種lncrna的相似性矩陣sl、sp和sm;分別通過gcn模型和基于交叉注意力機制的圖對比學習方法獲得lncrna的嵌入表示zl、zm和zp,基于zl、zm和zp得到lncrna綜合相似性矩陣ml;

4、s2、基于gogcn方法中的go語義相似性計算方法,設計知識圖譜嵌入模型學習go術語的表示;利用術語的表示計算術語之間的語義相似性,得到go相似性矩陣mg;

5、s3、基于先驗的lncrna-go功能注釋數(shù)據(jù)構建訓練集及l(fā)ncrna-go關聯(lián)矩陣;

6、s4、采用gcn和gat結合的混合圖表示學習對lncrna綜合相似性矩陣ml、go相似性矩陣mg進行處理得到lncrna-go融合特征;將得到的lncrna-go融合特征輸入到kan分類器中獲得預測的lncrna-go功能注釋;具體過程包括以下步驟:

7、s41、將lncrna綜合相似性矩陣ml、go相似性矩陣mg分別輸入到gcn中分別得到特征hl(1)和hg(1);

8、s42、將hl(1)和lncrna相似性矩陣ml輸入到gat中得到經(jīng)過注意力機制優(yōu)化后的特征hl(2);將hg(1)和go相似性矩陣mg輸入到gat中得到經(jīng)過注意力機制優(yōu)化后的特征hg(2);

9、s43、將hl(2)和ml輸入到gcn中得到經(jīng)過注意力機制優(yōu)化后的結構信息的再提取特征hl(3);將hg(2)和mg輸入到gcn中得到經(jīng)過注意力機制優(yōu)化后的結構信息的再提取特征hg(3);

10、s44、將hl(1)和hl(3)輸入到cnn中得到融合特征xl,將hg(1)和hg(3)輸入到cnn中得到融合特征xg;根據(jù)融合特征xl和xg得到預測偏好矩陣

11、使用二元交叉熵損失函數(shù)來衡量u和步驟s3得到的lncrna-go關聯(lián)矩陣之間的差異;通過在步驟s3得到的訓練集最小化二元交叉熵損失函數(shù),得到最終的lncrna的特征表示xl和go的特征表示xg;

12、s45、將上述獲得的lncrna特征xl和go特征xg連接起來形成lncrna-go融合特征,將其輸入到kan分類器中得到預測的lncrna-go功能注釋。

13、進一步地,步驟s1所述的根據(jù)lncrna的共表達、lncrna-蛋白質相互作用、lncrna-mirna相互作用對應得到三種lncrna的相似性矩陣sl、sp和sm的過程包括以下步驟:

14、s11、獲得lncrna共表達相似性數(shù)據(jù):提取lncrna表達譜,計算每對lncrna表達譜之間的pearson相關系數(shù)以表示lncrna的共表達相似性sl;

15、s12、獲得lncrna-mirna相互作用的相似性數(shù)據(jù):獲取lncrna-mirna相互作用數(shù)據(jù)的數(shù)據(jù)集,根據(jù)數(shù)據(jù)集中是否存在關聯(lián)得到每對lncrna-mirna的關聯(lián)情況后,計算lncrna和mirna之間的高斯核相似性矩陣以表示lncrna的mirna相互作用的相似性sm;

16、s13、獲得lncrna-蛋白質相互作用的相似性數(shù)據(jù):獲取lncrna-蛋白質相互作用的數(shù)據(jù)集,根據(jù)相互作用的數(shù)據(jù)集中是否存在lncrna-蛋白質對得到每對lncrna-蛋白質的關聯(lián)情況后,計算lncrna和蛋白質之間的高斯核相似性矩陣以表示lncrna的蛋白質相互作用的相似性sp。

17、進一步地,步驟s1所述的通過gcn模型和基于交叉注意力機制的圖對比學習方法獲得lncrna的嵌入表示zl、zm、zp的過程包括以下步驟:

18、s14、將lncrna共表達相似性矩陣sl、lncrna和蛋白質相互作用的相似性矩陣sp,lncrna和mirna相互作用的相似性矩陣sm分別輸入到gcn模型中,對應的gcn生成相應的特征表示yl、yp、ym;

19、接著對gcn的輸出特征進行交叉注意力計算,即對三個特征進行兩兩之間的交叉注意力計算;以yl為例,首先對yl應用了以ym和yp為輸入的交叉注意力機制,通過交叉注意力將ym和yp中的信息融入到y(tǒng)l中,生成一個新的特征y′l;

20、采用相同的方式得到lncrna-mirna的特征y′m,lncrna-蛋白質的特征y′p;

21、s15、經(jīng)過交叉注意力機制獲得三種特征后,將同一節(jié)點在不同視圖中的特征對看作正樣本對,獲得特征y′l和特征y′m的正樣本對、特征y′l和特征y′p的正樣本對,特征y′m和特征y′p的正樣本對三種正樣本對;負樣本對是不同節(jié)點之間的特征對,根據(jù)y′l、y′m、y′p各自對應的正負樣本對,采用圖對比學習的方式得到lncrna共表達的特征zl、lncrna-mirna的特征zm、lncrna-蛋白質的特征zp。

22、進一步地,采用圖對比學習的方式得到lncrna共表達的特征zl的過程中,采用的對比損失如下:

23、

24、其中,1[k≠i]表示指示函數(shù),當k≠i時,指示函數(shù)的值為1,用于計算節(jié)點i與節(jié)點k之間的相似性,當k=i時,指示函數(shù)的值為0,即不計算相同節(jié)點之間的相似性;y′k表示yl′[i]的負樣本對對應的樣本;n表示lncrna的數(shù)目;τ表示溫度參數(shù),用于調(diào)節(jié)相似度計算的分布平滑性;sim(·)表示兩個特征之間的相似度函數(shù)。

25、進一步地,步驟s1所述的基于zl、zm和zp得到lncrna綜合相似性矩陣的過程包括以下步驟:

26、s16、獲得了lncrna共表達的特征zl、lncrna-mirna的特征zm、lncrna-蛋白質的特征zp后,經(jīng)過特征融合,將三種特征拼接融合成一個特征表示z=[zl||zm||zp];

27、s17、根據(jù)lncrna的特征表示z,計算每兩個lncrna的特征表示z的余弦相似性,得到lncrna綜合相似性矩陣ml。

28、進一步地,步驟s2所述設計知識圖譜嵌入模型學習go術語的表示的過程包括以下步驟:

29、s21、獲取go文件;

30、s22、將go圖表示為g=(v,r,e,x,z),其中,v為實體集,表示go術語;r為關系集;e表示邊集;x表示初始化的實體表示,z表示初始化的關系表示;

31、s23、為獲得go圖的結構信息,編碼器在compgcn基礎上添加了gcn層的傳播權重,并且用逆邊和關系表示擴展邊和關系;

32、s24、解碼器中,將go圖看作三元組,利用三元組的相應表示訓練鏈路預測模型;訓練階段采用1-n評分策略,通過破壞頭術語或尾術語來生成損壞三元組,使用conve作為評分函數(shù),為真實三元組提供較高的分數(shù),為損壞三元組提供較低的分數(shù),模型達到收斂獲得go術語的嵌入表示;

33、s25、訓練后,針對go術語的表示,使用余弦相似性估計實體之間語義相似性,進而得到go相似性矩陣mg。

34、進一步地,步驟s3所述的基于先驗的lncrna-go功能注釋數(shù)據(jù)構建訓練集的過程包括以下步驟:

35、首先獲取lnc-gfp方法預測的lncrna功能注釋文件,將預測的lncrna功能注釋文件中l(wèi)ncrna-go功能注釋對作為正樣本;

36、s32、隨機構造與lncrna-go功能注釋對數(shù)目相等的lncrna-go非功能注釋對作為負樣本;將lncrna-go功能注釋對,與lncrna-go功能注釋對數(shù)目相等的非功能注釋對組成訓練集。

37、進一步地,步驟s3所述的基于先驗的lncrna-go功能注釋數(shù)據(jù)構建lncrna-go關聯(lián)矩陣的過程包括以下步驟:

38、根據(jù)預測的lncrna功能注釋文件,構建lncrna-go關聯(lián)矩陣,矩陣中1表示lncrna-go功能注釋對,0表示lncrna-go非功能注釋對。

39、一種計算機存儲介質,所述存儲介質中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)所述的一種基于圖注意力的lncrna功能預測方法。

40、一種基于圖注意力的lncrna功能預測設備,所述設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)所述的一種基于圖注意力的lncrna功能預測方法。

41、本發(fā)明的有益效果為:

42、本發(fā)明利用基于交叉注意力機制的圖對比學習方法提取lncrna的特征,利用知識圖譜嵌入模型提取go的特征,利用gcn和gat結合的圖表示學習模型預測lncrna-go功能注釋。因此本發(fā)明可以有效的解決先驗的lncrna功能注釋數(shù)據(jù)很少,需要借用蛋白質功能注釋數(shù)據(jù)來間接預測lncrna的功能導致準確率較低的問題。與其他先進的模型相比,本發(fā)明具有更好的預測準確率和模型泛化性,為發(fā)現(xiàn)潛在的lncrna功能注釋提供了有效的技術支持。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
天祝| 财经| 通海县| 左权县| 洛宁县| 宁陕县| 眉山市| 辽宁省| 黑龙江省| 综艺| 竹北市| 佛坪县| 福贡县| 渝中区| 通渭县| 正阳县| 罗定市| 怀柔区| 波密县| 温州市| 陵川县| 黄平县| 新建县| 安顺市| 张北县| 平安县| 二连浩特市| 鹤庆县| 临泽县| 昆山市| 延寿县| 交口县| 北碚区| 中江县| 瑞金市| 商城县| 临朐县| 北辰区| 富蕴县| 绵阳市| 天津市|