本發(fā)明屬于lncrna功能富集分析,具體是一種基于異構(gòu)網(wǎng)絡(luò)融合和重要性的lncrna功能富集分析方法。
背景技術(shù):
1、人類基因組中的大部分dna可被轉(zhuǎn)錄為rna,但是只有約2%的rna可進行蛋白質(zhì)編碼,其余皆是非編碼rna(non-coding?rna,ncrna)。隨著研究的不斷深入,越來越多的證據(jù)表明非編碼rna具有重要的調(diào)控作用。長度大于200nt的非編碼rna被稱為長非編碼rna(long?non-coding?rna,lncrna),其最早被認(rèn)為是基因轉(zhuǎn)錄過程中的副產(chǎn)物,不具備調(diào)控生物機體的功能,然而大量研究證實,lncrna在基因表達(dá)調(diào)控、染色質(zhì)結(jié)構(gòu)維持、轉(zhuǎn)錄因子調(diào)控等生物學(xué)過程中具有重要的調(diào)控作用,且lncrna在調(diào)控過程中具有聚集成組、以集合形式共同發(fā)揮調(diào)控作用的特點,使得對lncrna調(diào)控功能的研究從單個lncrna功能分析轉(zhuǎn)變?yōu)橄到y(tǒng)層面上的lncrna集合功能分析,導(dǎo)致功能富集分析成為大數(shù)據(jù)時代研究lncrna調(diào)控功能的重要方法之一。
2、功能富集分析是一種用于解釋基因集合在某個功能上是否顯著富集,從而判斷該基因列表生物學(xué)意義的方法。不同lncrna在不同生物過程中發(fā)揮著不同的調(diào)控功能,但是傳統(tǒng)的lncrna調(diào)控功能網(wǎng)絡(luò)僅從某一方面描述了lncrna的調(diào)控功能,導(dǎo)致不能全面、準(zhǔn)確地預(yù)測lncrna的調(diào)控功能,進而無法對lncrna列表進行有效擴增,使得富集分析結(jié)果不全面。此外,傳統(tǒng)的lncrna富集分析方法對每個lncrna一視同仁,認(rèn)為所有l(wèi)ncrna在同一功能下發(fā)揮的作用相同,這與實際的生物學(xué)背景不符。事實上,不同lncrna自身的異常對機體的影響差異較大,在同一生物學(xué)功能或通路中各個lncrna的重要性也有所差異。因此,在富集分析中,需要充分考慮lncrna自身的重要性?;诖耍景l(fā)明提出一種基于異構(gòu)網(wǎng)絡(luò)融合和重要性的lncrna功能富集分析方法。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明擬解決的技術(shù)問題是,提出一種基于異構(gòu)網(wǎng)絡(luò)融合和重要性的lncrna功能富集分析方法。
2、本發(fā)明解決所述技術(shù)問題采用如下的技術(shù)方案:
3、一種基于異構(gòu)網(wǎng)絡(luò)融合和重要性的lncrna功能富集分析方法,其特征在于,包括如下步驟:
4、s1、獲取lncrna功能注釋集合;
5、s2、分別構(gòu)建基于lncrna-疾病關(guān)聯(lián)、基于lncrna-mirna關(guān)聯(lián)以及基于表達(dá)譜的lncrna功能相似性矩陣,根據(jù)這些矩陣構(gòu)建lncrna特征向量;計算任意兩個lncrna特征向量之間的皮爾遜相關(guān)系數(shù),將lncrna作為節(jié)點,皮爾遜相關(guān)系數(shù)作為邊的權(quán)重,構(gòu)建lncrna-lncrna功能相似性網(wǎng)絡(luò);根據(jù)lncrna-lncrna功能相似性網(wǎng)絡(luò)對待分析lncrna列表進行擴增;
6、s3、針對富集分析的生物過程選取lncrna重要性屬性,對各個lncrna的重要性屬性值進行標(biāo)準(zhǔn)化處理,得到各個lncrna的重要性分?jǐn)?shù);
7、s4、根據(jù)式(10)計算相應(yīng)集合中所有l(wèi)ncrna的重要性分?jǐn)?shù)之和,根據(jù)式(11)計算lncrna列表在lncrna功能注釋集合上的分布概率p;
8、
9、式中,n′是功能富集分析涵蓋的背景l(fā)ncrna集合n中所有l(wèi)ncrna的重要性分?jǐn)?shù)之和,n′是lncrna功能注釋集合n中所有l(wèi)ncrna的重要性分?jǐn)?shù)之和,m′是lncrna列表m中所有l(wèi)ncrna的重要性分?jǐn)?shù)之和,k′是lncrna列表與lncrna功能注釋集合的交集中所有l(wèi)ncrna的重要性分?jǐn)?shù)之和,是第i個lncrna的重要性分?jǐn)?shù),q是調(diào)節(jié)因子;
10、若分布概率小于等于設(shè)定閾值,表明lncrna列表與lncrna功能注釋集合存在顯著富集,否則不存在顯著富集。
11、進一步的,基于lncrna-疾病關(guān)聯(lián)lncrna功能相似性矩陣構(gòu)建過程為:
12、定義dg(u)和dg(v)為從lncrna-疾病關(guān)聯(lián)數(shù)據(jù)中收集的與lncrna?u和v相關(guān)的關(guān)聯(lián)疾病集合,根據(jù)下式計算關(guān)聯(lián)疾病集合dg(v)中與lncrna?u相關(guān)的疾病系數(shù)s(du,dg(v))以及關(guān)聯(lián)疾病集中dg(u)中與lncrna?v相關(guān)的疾病系數(shù)s(dv,dg(u));
13、
14、式中,du、dv分別表示與lncrna?u和v相關(guān)的疾病,dss(·)表示疾病間的語義相似度;
15、根據(jù)下式計算關(guān)聯(lián)疾病集合dg(u)相對于dg(v)的相似度su→v以及關(guān)聯(lián)疾病集合dg(v)相對于dg(u)的相似度sv→u:
16、
17、根據(jù)下式計算lncrna?u和v基于lncrna-疾病關(guān)聯(lián)的功能相似度fs(u,v):
18、
19、式中,|·|表示關(guān)聯(lián)疾病集合中的疾病總數(shù);
20、根據(jù)上述過程計算任意兩個lncrna基于lncrna-疾病關(guān)聯(lián)的功能相似度,將該功能相似度作為矩陣元素,構(gòu)建基于lncrna-疾病關(guān)聯(lián)的lncrna功能相似性矩陣。
21、進一步的,疾病間的語義相似度計算過程為:
22、與疾病a關(guān)聯(lián)的lncrna以及醫(yī)學(xué)疾病詞表中對應(yīng)的術(shù)語組成有向無環(huán)圖daga,daga中的每個術(shù)語對疾病a的語義貢獻值通過下式計算:
23、
24、式中,是術(shù)語t對疾病a的語義貢獻值,δ是連接術(shù)語t與t′的邊的權(quán)重,是術(shù)語t′對疾病a的語義貢獻值,c(t)是術(shù)語t的子集,pt是術(shù)語t的特異性貢獻因子;
25、通過下式計算疾病a的語義值sv(a):
26、
27、式中,ta是疾病a的術(shù)語集合;
28、基于疾病a與b的術(shù)語集合的交集,計算疾病a與b之間的語義相似度dss(a,b);
29、
30、式中,是術(shù)語t對疾病b的語義貢獻值,sv(b)是疾病b的語義值,tb是疾病b的術(shù)語集合。
31、進一步的,基于lncrna-mirna關(guān)聯(lián)的lncrna功能相似性矩陣構(gòu)建過程為:
32、與lncrna?u和v相關(guān)的mirna分別組成列表mirna_listu和mirna_listv,兩個列表取交集,得到列表mirna_list;根據(jù)列表mirna_list構(gòu)建多維向量,得到lncrna?u和v的第一mirna關(guān)聯(lián)特征向量vectoru_1和vectorv_1;
33、列表mirna_listu中的全部mirna組成集合ku,列表mirna_listv中的全部mirna組成集合kv,從mirna功能相似性矩陣查找集合ku對于kv的所有mirna之間的相似度,得到lncrna?u的第二mirna關(guān)聯(lián)特征向量vectoru_2;同理,得到lncrna?v的第二mirna關(guān)聯(lián)特征向量vectorv_2;
34、將lncrna?u的第一mirna關(guān)聯(lián)特征向量vectoru_1與第二mirna關(guān)聯(lián)特征向量vectoru_2進行首尾相接,得到lncrna?u的mirna關(guān)聯(lián)特征向量vectoru;同理,得到lncrna?v的mirna關(guān)聯(lián)特征向量vectorv;
35、根據(jù)式(8)計算兩個mirna關(guān)聯(lián)特征向量vectoru和vectorv的余弦相似度sim(lncrna?u,lncrna?v),將該余弦相似度作為lncrna?u和v基于lncrna-mirna關(guān)聯(lián)的功能相似度;
36、
37、重復(fù)上述過程,計算任意兩個lncrna基于lncrna-mirna關(guān)聯(lián)的功能相似度,構(gòu)建基于lncrna-mirna關(guān)聯(lián)的lncrna功能相似性矩陣。
38、進一步的,基于表達(dá)譜的lncrna功能相似性矩陣構(gòu)建過程為:為每個lncrna構(gòu)建一個表達(dá)譜特征向量,計算兩個lncrna的表達(dá)譜特征向量之間的皮爾遜相關(guān)系數(shù),將該系數(shù)作為兩個lncrna基于表達(dá)譜的功能相似性度,構(gòu)建基于表達(dá)譜的lncrna功能相似性矩陣。
39、進一步的,lncrna特征向量構(gòu)建過程為:對于只出現(xiàn)在其中一個功能相似性矩陣中的lncrna,從相應(yīng)的功能相似性矩陣中提取該lncrna的行向量作為特征向量;對于同時出現(xiàn)在兩個或三個功能相似性矩陣中的lncrna,分別從相應(yīng)的功能相似性矩陣中提取該lncrna的行向量,將三個行向量進行拼接得到該lncrna的特征向量。
40、進一步的,待分析lncrna列表的擴增過程為:設(shè)置相似性系數(shù),將待分析lncrna列表中的所有l(wèi)ncrna作為種子節(jié)點,將lncrna-lncrna功能相似性網(wǎng)絡(luò)中權(quán)重小于相似性系數(shù)的邊舍棄,采用隨機游走方式進行擴增。
41、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
42、1.本發(fā)明提出一種新穎的擴增lncrna列表的方法。充分考慮lncrna與疾病、mirna以及表達(dá)譜之間的關(guān)系,分別構(gòu)建基于lncrna-疾病關(guān)聯(lián)的、lncrna-mirna關(guān)聯(lián)和表達(dá)譜的lncrna功能相似性矩陣,采用網(wǎng)絡(luò)表示學(xué)習(xí)方法提取從功能相似性矩陣中提起lncrna的特征向量,并計算兩個lncrna特征向量件的皮爾遜相關(guān)系數(shù),以此作為連接兩個lncrna節(jié)點的邊的權(quán)重,進而構(gòu)建lncrna-lncrna功能相似性網(wǎng)絡(luò)。基于該網(wǎng)絡(luò),采用隨機游走方式對用戶輸入的lncrna列表進行擴增,有助于發(fā)現(xiàn)一些潛在的功能注釋集合,提高了功能富集分析的全面性和準(zhǔn)確性。
43、2.現(xiàn)有技術(shù)針對lncrna功能預(yù)測和分析的研究中,忽略了不同lncrna在生物過程中發(fā)揮作用的大小,將所有l(wèi)ncrna的作用視為相同,平等地對待所有l(wèi)ncrna。而本發(fā)明針對lncrna與其他生物分子之間的相互用關(guān)系以及其在生物過程中的調(diào)控機制,提出了lncrna重要性分?jǐn)?shù),對lncrna的重要性屬性值進行量化,不同lncrna的重要性分?jǐn)?shù)不同,對lncrna調(diào)控機制的揭示有重要意義。lncrna重要性分?jǐn)?shù)能夠直觀地反映不同lncrna在同一功能下的影響程度,幫助研究人員快速確定功能注釋集合中的關(guān)鍵lncrna,為后續(xù)lncrna調(diào)控機制的研究以及相關(guān)疾病的治療提供了重要的參考價值。