欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

lncRNA-蛋白質(zhì)交互預(yù)測(cè)方法及系統(tǒng)

文檔序號(hào):40817327發(fā)布日期:2025-01-29 02:36閱讀:8來源:國(guó)知局
lncRNA-蛋白質(zhì)交互預(yù)測(cè)方法及系統(tǒng)

本發(fā)明涉及新一代信息中適用于預(yù)測(cè)目的的數(shù)據(jù)處理方法及系統(tǒng),尤其涉及一種lncrna-蛋白質(zhì)交互預(yù)測(cè)方法及系統(tǒng)。


背景技術(shù):

1、隨著高通量測(cè)序技術(shù)的發(fā)展,大量lncrna(long?non-coding?rna,長(zhǎng)鏈非編碼rna)被發(fā)現(xiàn),但它們的功能和與蛋白質(zhì)的相互作用機(jī)制尚不完全清楚。lncrna通過與蛋白質(zhì)相互作用(lpi,lncrna--protein?interaction)參與多種生物過程的調(diào)控,因此準(zhǔn)確預(yù)測(cè)lpi對(duì)于進(jìn)一步發(fā)掘lncrna的功能和作用,探索lncrna在疾病發(fā)展中的病理機(jī)制,挖掘潛在的藥物靶點(diǎn),藥物篩選及優(yōu)化都至關(guān)重要。盡管有大量關(guān)于lncrna與疾病關(guān)聯(lián)的信息,但它們的確切作用機(jī)制仍然未知。傳統(tǒng)的lpi預(yù)測(cè)主要依賴于生化實(shí)驗(yàn)和分析,成本高、耗時(shí)長(zhǎng),且受限于實(shí)驗(yàn)條件和樣本量。基于序列相似性、基因共表達(dá)和亞細(xì)胞定位等方法被應(yīng)用于lpi預(yù)測(cè),但這些方法受時(shí)間和資金限制?,F(xiàn)有的計(jì)算模型在預(yù)測(cè)lpi存在以下不足:較少關(guān)注蛋白質(zhì)表面信息,而蛋白質(zhì)表面信息對(duì)lpi不可或缺;在處理蛋白質(zhì)的多模態(tài)信息時(shí),未充分考慮不同模態(tài)間的異質(zhì)性,傳統(tǒng)方法直接連接不同模態(tài)的嵌入,忽略了模態(tài)間的差異,無法有效利用不同模態(tài)的互補(bǔ)性。隨著數(shù)據(jù)量的持續(xù)增長(zhǎng),作為機(jī)器學(xué)習(xí)重要分支的深度學(xué)習(xí)方法在lpi預(yù)測(cè)領(lǐng)域極具潛力,但仍然存在不足,直接應(yīng)用gnn(graph?neuralnetwork,圖神經(jīng)網(wǎng)絡(luò))處理蛋白質(zhì)3d結(jié)構(gòu)難以充分捕獲其幾何信息,且大部分方法只關(guān)注單一模態(tài)信息,忽略了其他模態(tài)。因此,開發(fā)一種能夠高效、準(zhǔn)確預(yù)測(cè)lncrna與蛋白質(zhì)相互作用的新方法顯得尤為重要。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明目的在于公開一種lncrna-蛋白質(zhì)交互預(yù)測(cè)方法及系統(tǒng),以提高預(yù)測(cè)的準(zhǔn)確性。

2、為達(dá)上述目的,本發(fā)明公開的lncrna-蛋白質(zhì)交互預(yù)測(cè)方法包括:

3、步驟s1、分別提取蛋白質(zhì)的結(jié)構(gòu)特征、表面特征、序列特征。

4、步驟s2、先通過transforme架構(gòu)基于自注意力機(jī)制處理蛋白質(zhì)表面特征得到新的表面嵌入;再通過transformer架構(gòu)的交叉注意力機(jī)制將結(jié)構(gòu)特征及序列特征分別與該新的表面嵌入對(duì)齊得到結(jié)構(gòu)嵌入和序列嵌入;最后對(duì)表面、結(jié)構(gòu)和序列對(duì)齊后的新嵌入分別應(yīng)用平均池化,然后合并池化后的嵌入,得到初始蛋白質(zhì)特征表示。

5、步驟s3、分別提取lncrna序列特征核、表達(dá)譜特征核、序列相似度核以及和蛋白質(zhì)的高斯交互譜核。

6、步驟s4、將lncrna序列特征核、表達(dá)譜特征核、序列相似度核以及和蛋白質(zhì)的高斯交互譜核融合為一個(gè)集成核;然后通過圖卷積網(wǎng)絡(luò)對(duì)該集成核進(jìn)行特征編碼得到初始lncrna特征圖。

7、步驟s5、將所述初始蛋白質(zhì)特征表示和所述初始lncrna特征圖基于交叉注意力機(jī)制得到最終的lncrna特征圖和最終的蛋白質(zhì)特征圖;使用全局最大池操作對(duì)所述最終lncrna特征圖和所述最終蛋白質(zhì)特征圖進(jìn)行降采樣,生成由一維的lncrna特征向量和一維的蛋白質(zhì)特征向量組成的聯(lián)合特征表示向量。

8、步驟s6、將所述聯(lián)合特征表示向量輸入由全連接分類層組成的解碼器中,得到lpi的預(yù)測(cè)分?jǐn)?shù)。

9、優(yōu)選地,在將所述聯(lián)合特征表示向量輸入由全連接分類層組成的解碼器之前,還包括:

10、采用跨域自適應(yīng)機(jī)制調(diào)整樣本的分布,結(jié)合源域上的交叉熵?fù)p失和域鑒別器的對(duì)抗性損失以最小化源域與目標(biāo)域之間數(shù)據(jù)分布差異,從而增強(qiáng)跨域預(yù)測(cè)的泛化能力。

11、優(yōu)選地,所述步驟s1包括:

12、步驟s11、輸入包含22種原子類型的原子云,通過采樣獲得蛋白質(zhì)表面的定向點(diǎn)云表示,選擇最靠近配體中心的512個(gè)表面點(diǎn)作為表面口袋;對(duì)每個(gè)選擇的點(diǎn),選取最近的16個(gè)原子中心及其類型;計(jì)算每個(gè)點(diǎn)的平均曲率和高斯曲率作為幾何特征,并與通過多層感知機(jī)計(jì)算的化學(xué)特征向量拼接成完整的特征向量,使用測(cè)地線卷積層獲得表面點(diǎn)的最終標(biāo)量嵌入。

13、步驟s12、在捕獲蛋白質(zhì)的3d結(jié)構(gòu)特征的過程中,以gvp-gnn算法將節(jié)點(diǎn)的標(biāo)量特征和向量特征作為輸入,通過消息傳遞步驟更新節(jié)點(diǎn)嵌入,具體計(jì)算公式為:

14、

15、其中,表示節(jié)點(diǎn)i的嵌入,而表示邊的嵌入,mij表示節(jié)點(diǎn)j傳遞給節(jié)點(diǎn)i的消息,k′是傳入消息的數(shù)量,gvps為幾何向量感知機(jī),layernorm為歸一化函數(shù),dropout為防止過擬合的正則化函數(shù)。

16、步驟s13、通過蛋白質(zhì)序列預(yù)訓(xùn)練模型protbert來處理輸入序列以獲得序列特征。

17、優(yōu)選地,在所述步驟s5中,包括:

18、通過在蛋白質(zhì)關(guān)注的鍵和值與lncrna關(guān)注的鍵和值之間進(jìn)行雙向信息交互,實(shí)現(xiàn)lncrna和蛋白質(zhì)之間的信息交換和關(guān)聯(lián);蛋白質(zhì)特征通過lncrna特征的注意力權(quán)重來調(diào)節(jié)自身的表達(dá),同理,lncrna特征通過蛋白質(zhì)特征的注意力權(quán)重來調(diào)節(jié)自身的表達(dá);具體包括:

19、lncrna特征圖fl被送入線性層以計(jì)算lncrna的查詢向量蛋白質(zhì)特征圖fp也通過線性層獲取,計(jì)算可得到lncrna的鍵向量和值向量獲取過程如下:

20、

21、其中,都是線性層中不同的權(quán)重矩陣,dhead=de/heads是通道維度,i=1,2,…,heads,heads是注意力頭數(shù);de為嵌入維度。

22、同理,蛋白質(zhì)特征圖fp輸入到線性層以計(jì)算蛋白質(zhì)查詢向量然后取lncrna特征圖fl生成蛋白質(zhì)鍵向量以及蛋白質(zhì)值向量蛋白質(zhì)的查詢、鍵和值通過以下公式計(jì)算:

23、

24、其中權(quán)重矩陣和與lncrna注意力具有相同的權(quán)重;通過應(yīng)用softmax函數(shù),lncrna和蛋白質(zhì)的注意力矩陣計(jì)算如下:

25、

26、其中,是lncrna和蛋白質(zhì)的維度k。

27、通過將每個(gè)注意力頭的lncrna/蛋白質(zhì)的注意力矩陣與相應(yīng)的lncrna/蛋白質(zhì)的值矩陣相乘,獲得每個(gè)頭的lncrna/蛋白質(zhì)特征圖;隨后,將所有注意力頭的lncrna/蛋白質(zhì)特征圖在通道維度上連接起來,并饋送到線性層,以獲取得到注意力的lncrna特征表示和蛋白質(zhì)特征表示

28、

29、其中,是共享的權(quán)值矩陣。

30、接著,將感興趣的特征圖與原始特征圖相結(jié)合,以獲得最終的lncrna特征圖和蛋白質(zhì)特征圖

31、fzl=0.5zl+0.5fl;

32、fzp=0.5zp+0.5fp;

33、通過使用全局最大池操作對(duì)lncrna和蛋白質(zhì)特征圖進(jìn)行降采樣,以生成一維的lncrna特征向量和蛋白質(zhì)特征向量

34、lmp=maxpooling(fzl);

35、pmp=maxpooling(fzp);

36、最后,將lmp和pmp連接起來以獲取一維的聯(lián)合特征表示向量

37、f=concat(lmp,pmp)。

38、優(yōu)選地,所述跨域自適應(yīng)機(jī)制包括:

39、特征提取器f(*)是lncrna和蛋白質(zhì)特征編碼器與交叉注意力模塊一起生成輸入域數(shù)據(jù)的聯(lián)合表示,即和對(duì)于解碼器g(*),采用全連接分類層,并遵循softmax函數(shù)為g(*)獲取預(yù)測(cè)的分類結(jié)果:和

40、將聯(lián)合特征表示向量f和分類器預(yù)測(cè)g嵌入到聯(lián)合條件表示中,其定義如下:

41、

42、其中,是外積,flatten對(duì)f和g向量的外積執(zhí)行展平操作。

43、采用域鑒別器d(*)對(duì)齊源域和目標(biāo)域的聯(lián)合表示f和預(yù)測(cè)的分類分布g,訓(xùn)練f(*)和g(*)以最小化源域與源標(biāo)簽信息的交叉熵?fù)p失l,從而生成一個(gè)混淆鑒別器d(*)的聯(lián)合條件表示c;在跨域任務(wù)中,基于標(biāo)記源域上的交叉熵?fù)p失的函數(shù)ls和域鑒別器的對(duì)抗性損失函數(shù)ladν,將cdan優(yōu)化問題定義為最小值范式:

44、

45、其中,ω是用于加權(quán)l(xiāng)adν的超參數(shù)。

46、為達(dá)上述目的,本發(fā)明還公開一種lncrna-蛋白質(zhì)交互預(yù)測(cè)系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)上述的方法。

47、本發(fā)明具有以下有益效果:

48、1、有效融合多模態(tài)信息:多模態(tài)特征編碼器能夠有效地融合蛋白質(zhì)的表面、結(jié)構(gòu)和序列等多模態(tài)信息,通過transformer技術(shù)進(jìn)行了特征對(duì)齊,減少了不同模態(tài)特征之間的異質(zhì)性,提高了模型對(duì)多模態(tài)信息的利用效率。

49、2、引入的交叉注意力模塊在保留lncrna和蛋白質(zhì)內(nèi)部特征的同時(shí),深入探索它們之間的相互作用信息,實(shí)現(xiàn)特征融合,提高lpi預(yù)測(cè)性能。

50、3、提高預(yù)測(cè)準(zhǔn)確性:與現(xiàn)有基線方法相比,本發(fā)明在預(yù)測(cè)lncrna-蛋白質(zhì)交互任務(wù)中達(dá)到了最優(yōu)性能。

51、4、廣泛的應(yīng)用前景:本發(fā)明的方法可以廣泛應(yīng)用于lncrna功能研究、疾病機(jī)制探索以及藥物靶點(diǎn)發(fā)現(xiàn)等多個(gè)領(lǐng)域。進(jìn)一步地,可采用cdan模塊增強(qiáng)了模型在跨域dti預(yù)測(cè)任務(wù)中的性能和泛化能力,使其能更好地適應(yīng)新領(lǐng)域的數(shù)據(jù)分布。

52、下面將參照附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
泰安市| 乐业县| 独山县| 平乐县| 温州市| 额敏县| 怀宁县| 图木舒克市| 清苑县| 肥城市| 吴堡县| 穆棱市| 桐庐县| 浮山县| 福州市| 安岳县| 玉溪市| 建德市| 凌海市| 丰镇市| 洱源县| 房山区| 辽宁省| 高阳县| 喀什市| 如皋市| 武强县| 焉耆| 枣阳市| 乐平市| 嘉善县| 平谷区| 康乐县| 旺苍县| 涟水县| 桐城市| 海林市| 澄迈县| 安达市| 都江堰市| 尼玛县|