基于圖注意力的lncRNA功能預測方法、存儲介質及設備

文檔序號：40656030發(fā)布日期：2025-01-10 19:07閱讀：2來源：國知局

本發(fā)明屬于生物信息技術學領域，涉及一種lncrna功能預測方法、存儲介質及設備。

背景技術：

1、長鏈非編碼rna(long?non-coding?rna，lncrna)是長度超過200個核苷酸的rna轉錄物，它們?nèi)狈﹃P鍵特性，例如蛋白質編碼潛力和序列保守性，而這些特性對于功能作用來說是不可避免的。lncrna廣泛參與動物神經(jīng)發(fā)育、細胞調(diào)控、腫瘤發(fā)生和轉移。此外，人類疾病和癌癥與lncrna的突變和失調(diào)有關。在對lncrna穩(wěn)定性的全基因組分析中，發(fā)現(xiàn)lncrna的半衰期變化范圍很廣，這些都表明lncrna存在復雜的代謝和廣泛的功能。由于lncrna在調(diào)節(jié)生物活性方面發(fā)揮著重要作用，因此確定lncrna的生物學功能也變得尤為重要。

2、盡管到目前為止已經(jīng)鑒定了大量的lncrna，但與蛋白質編碼基因相比，絕大多數(shù)lncrna的功能是未知的。lncrna的發(fā)現(xiàn)率和注釋率之間的差距導致人們對lncrna的功能了解有限。注釋lncrna功能的方法分為兩類：生物實驗方法和基于計算的方法。生物實驗方法可以準確確定lncrna的功能，但實驗成本高昂且耗時較長。因此，開發(fā)預測lncrna功能的計算替代方案是lncrna研究的迫切要求。lncrna功能預測方法分為兩種。第一種是基于計算框架，使用超幾何測試、katz測量、雙隨機游走、矩陣分解等方法計算lncrna和蛋白質的關聯(lián)分數(shù)，根據(jù)關聯(lián)分數(shù)和已知的蛋白質-go注釋來預測lncrna功能；第二種方法是基于機器學習方法，通過各種手段包括rwr、avgsim、貝葉斯網(wǎng)絡、lstm等提取特征，之后將學習到的特征訓練svm、rf等分類器模型進行預測。

3、但是由于經(jīng)過實驗驗證的lncrna功能數(shù)目很少，大多數(shù)方法是通過已知的蛋白質-go關聯(lián)進而預測出lncrna的go注釋功能，從而導致lncrna功能預測準確率低的問題。

技術實現(xiàn)思路

1、本發(fā)明目的是為了解決現(xiàn)有l(wèi)ncrna功能預測方法中先驗的lncrna功能注釋數(shù)據(jù)很少，需要借用蛋白質功能注釋數(shù)據(jù)來間接預測lncrna的功能導致準確率較低的問題。

2、一種基于圖注意力的lncrna功能預測方法，包括以下步驟：

3、s1、根據(jù)lncrna的共表達、lncrna-蛋白質相互作用、lncrna-mirna相互作用對應得到三種lncrna的相似性矩陣sl、sp和sm；分別通過gcn模型和基于交叉注意力機制的圖對比學習方法獲得lncrna的嵌入表示zl、zm和zp，基于zl、zm和zp得到lncrna綜合相似性矩陣ml；

4、s2、基于gogcn方法中的go語義相似性計算方法，設計知識圖譜嵌入模型學習go術語的表示；利用術語的表示計算術語之間的語義相似性，得到go相似性矩陣mg；

5、s3、基于先驗的lncrna-go功能注釋數(shù)據(jù)構建訓練集及l(fā)ncrna-go關聯(lián)矩陣；

6、s4、采用gcn和gat結合的混合圖表示學習對lncrna綜合相似性矩陣ml、go相似性矩陣mg進行處理得到lncrna-go融合特征；將得到的lncrna-go融合特征輸入到kan分類器中獲得預測的lncrna-go功能注釋；具體過程包括以下步驟：

7、s41、將lncrna綜合相似性矩陣ml、go相似性矩陣mg分別輸入到gcn中分別得到特征hl(1)和hg(1)；

8、s42、將hl(1)和lncrna相似性矩陣ml輸入到gat中得到經(jīng)過注意力機制優(yōu)化后的特征hl(2)；將hg(1)和go相似性矩陣mg輸入到gat中得到經(jīng)過注意力機制優(yōu)化后的特征hg(2)；

9、s43、將hl(2)和ml輸入到gcn中得到經(jīng)過注意力機制優(yōu)化后的結構信息的再提取特征hl(3)；將hg(2)和mg輸入到gcn中得到經(jīng)過注意力機制優(yōu)化后的結構信息的再提取特征hg(3)；

10、s44、將hl(1)和hl(3)輸入到cnn中得到融合特征xl，將hg(1)和hg(3)輸入到cnn中得到融合特征xg；根據(jù)融合特征xl和xg得到預測偏好矩陣

11、使用二元交叉熵損失函數(shù)來衡量u和步驟s3得到的lncrna-go關聯(lián)矩陣之間的差異；通過在步驟s3得到的訓練集最小化二元交叉熵損失函數(shù)，得到最終的lncrna的特征表示xl和go的特征表示xg；

12、s45、將上述獲得的lncrna特征xl和go特征xg連接起來形成lncrna-go融合特征，將其輸入到kan分類器中得到預測的lncrna-go功能注釋。

13、進一步地，步驟s1所述的根據(jù)lncrna的共表達、lncrna-蛋白質相互作用、lncrna-mirna相互作用對應得到三種lncrna的相似性矩陣sl、sp和sm的過程包括以下步驟：

14、s11、獲得lncrna共表達相似性數(shù)據(jù)：提取lncrna表達譜，計算每對lncrna表達譜之間的pearson相關系數(shù)以表示lncrna的共表達相似性sl；

15、s12、獲得lncrna-mirna相互作用的相似性數(shù)據(jù)：獲取lncrna-mirna相互作用數(shù)據(jù)的數(shù)據(jù)集，根據(jù)數(shù)據(jù)集中是否存在關聯(lián)得到每對lncrna-mirna的關聯(lián)情況后，計算lncrna和mirna之間的高斯核相似性矩陣以表示lncrna的mirna相互作用的相似性sm；

16、s13、獲得lncrna-蛋白質相互作用的相似性數(shù)據(jù)：獲取lncrna-蛋白質相互作用的數(shù)據(jù)集，根據(jù)相互作用的數(shù)據(jù)集中是否存在lncrna-蛋白質對得到每對lncrna-蛋白質的關聯(lián)情況后，計算lncrna和蛋白質之間的高斯核相似性矩陣以表示lncrna的蛋白質相互作用的相似性sp。

17、進一步地，步驟s1所述的通過gcn模型和基于交叉注意力機制的圖對比學習方法獲得lncrna的嵌入表示zl、zm、zp的過程包括以下步驟：

18、s14、將lncrna共表達相似性矩陣sl、lncrna和蛋白質相互作用的相似性矩陣sp，lncrna和mirna相互作用的相似性矩陣sm分別輸入到gcn模型中，對應的gcn生成相應的特征表示yl、yp、ym；

19、接著對gcn的輸出特征進行交叉注意力計算，即對三個特征進行兩兩之間的交叉注意力計算；以yl為例，首先對yl應用了以ym和yp為輸入的交叉注意力機制，通過交叉注意力將ym和yp中的信息融入到y(tǒng)l中，生成一個新的特征y′l；

20、采用相同的方式得到lncrna-mirna的特征y′m，lncrna-蛋白質的特征y′p；

21、s15、經(jīng)過交叉注意力機制獲得三種特征后，將同一節(jié)點在不同視圖中的特征對看作正樣本對，獲得特征y′l和特征y′m的正樣本對、特征y′l和特征y′p的正樣本對，特征y′m和特征y′p的正樣本對三種正樣本對；負樣本對是不同節(jié)點之間的特征對，根據(jù)y′l、y′m、y′p各自對應的正負樣本對，采用圖對比學習的方式得到lncrna共表達的特征zl、lncrna-mirna的特征zm、lncrna-蛋白質的特征zp。

22、進一步地，采用圖對比學習的方式得到lncrna共表達的特征zl的過程中，采用的對比損失如下：

23、

24、其中，1[k≠i]表示指示函數(shù)，當k≠i時，指示函數(shù)的值為1，用于計算節(jié)點i與節(jié)點k之間的相似性，當k＝i時，指示函數(shù)的值為0，即不計算相同節(jié)點之間的相似性；y′k表示yl′[i]的負樣本對對應的樣本；n表示lncrna的數(shù)目；τ表示溫度參數(shù)，用于調(diào)節(jié)相似度計算的分布平滑性；sim(·)表示兩個特征之間的相似度函數(shù)。

25、進一步地，步驟s1所述的基于zl、zm和zp得到lncrna綜合相似性矩陣的過程包括以下步驟：

26、s16、獲得了lncrna共表達的特征zl、lncrna-mirna的特征zm、lncrna-蛋白質的特征zp后，經(jīng)過特征融合，將三種特征拼接融合成一個特征表示z＝[zl||zm||zp]；

27、s17、根據(jù)lncrna的特征表示z，計算每兩個lncrna的特征表示z的余弦相似性，得到lncrna綜合相似性矩陣ml。

28、進一步地，步驟s2所述設計知識圖譜嵌入模型學習go術語的表示的過程包括以下步驟：

29、s21、獲取go文件；

30、s22、將go圖表示為g＝(v，r，e，x，z)，其中，v為實體集，表示go術語；r為關系集；e表示邊集；x表示初始化的實體表示，z表示初始化的關系表示；

31、s23、為獲得go圖的結構信息，編碼器在compgcn基礎上添加了gcn層的傳播權重，并且用逆邊和關系表示擴展邊和關系；

32、s24、解碼器中，將go圖看作三元組，利用三元組的相應表示訓練鏈路預測模型；訓練階段采用1-n評分策略，通過破壞頭術語或尾術語來生成損壞三元組，使用conve作為評分函數(shù)，為真實三元組提供較高的分數(shù)，為損壞三元組提供較低的分數(shù)，模型達到收斂獲得go術語的嵌入表示；

33、s25、訓練后，針對go術語的表示，使用余弦相似性估計實體之間語義相似性，進而得到go相似性矩陣mg。

34、進一步地，步驟s3所述的基于先驗的lncrna-go功能注釋數(shù)據(jù)構建訓練集的過程包括以下步驟：

35、首先獲取lnc-gfp方法預測的lncrna功能注釋文件，將預測的lncrna功能注釋文件中l(wèi)ncrna-go功能注釋對作為正樣本；

36、s32、隨機構造與lncrna-go功能注釋對數(shù)目相等的lncrna-go非功能注釋對作為負樣本；將lncrna-go功能注釋對，與lncrna-go功能注釋對數(shù)目相等的非功能注釋對組成訓練集。

37、進一步地，步驟s3所述的基于先驗的lncrna-go功能注釋數(shù)據(jù)構建lncrna-go關聯(lián)矩陣的過程包括以下步驟：

38、根據(jù)預測的lncrna功能注釋文件，構建lncrna-go關聯(lián)矩陣，矩陣中1表示lncrna-go功能注釋對，0表示lncrna-go非功能注釋對。

39、一種計算機存儲介質，所述存儲介質中存儲有至少一條指令，所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)所述的一種基于圖注意力的lncrna功能預測方法。

40、一種基于圖注意力的lncrna功能預測設備，所述設備包括處理器和存儲器，所述存儲器中存儲有至少一條指令，所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)所述的一種基于圖注意力的lncrna功能預測方法。

41、本發(fā)明的有益效果為：

42、本發(fā)明利用基于交叉注意力機制的圖對比學習方法提取lncrna的特征，利用知識圖譜嵌入模型提取go的特征，利用gcn和gat結合的圖表示學習模型預測lncrna-go功能注釋。因此本發(fā)明可以有效的解決先驗的lncrna功能注釋數(shù)據(jù)很少，需要借用蛋白質功能注釋數(shù)據(jù)來間接預測lncrna的功能導致準確率較低的問題。與其他先進的模型相比，本發(fā)明具有更好的預測準確率和模型泛化性，為發(fā)現(xiàn)潛在的lncrna功能注釋提供了有效的技術支持。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：滕志霞,李青琪,汪國華
技術所有人：東北林業(yè)大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細化工與化學 3.生物質精煉 4.天然產(chǎn)物化學
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復 4.天然產(chǎn)物合成 5.單分子技術開發(fā)與應用
3、戴老師：1.天然藥物（中藥）合成生物學研究 2.酵母生物學與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學酶法合成及構效關系研究 3.多糖及仿生材料功能的開發(fā)及應用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于圖注意力的lncRNA功能預測方法、存儲介質及設備

基于圖注意力的lncRNA功能預測方法、存儲介質及設備