欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法

文檔序號:40530802發(fā)布日期:2024-12-31 13:44閱讀:11來源:國知局
預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法

本發(fā)明屬于醫(yī)療信息處理,具體涉及一種預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法。


背景技術(shù):

1、現(xiàn)有的研究人員從不同的角度闡述染色質(zhì)相互作用形成的可能分子機(jī)制,并開發(fā)了計(jì)算模型去預(yù)測染色質(zhì)上的遠(yuǎn)程相互作用。前人提出算法根據(jù)其所用特征的不同可分為三類:第一類,基于基因組序列特征識別增強(qiáng)子-啟動子相互作用的方法,如深度學(xué)習(xí)模型的計(jì)算方法speid、梯度提升決策樹的算法pep,注意力神經(jīng)網(wǎng)絡(luò)模型epiann;第二類,基于基因組表觀修飾特征識別增強(qiáng)子-啟動子相互作用的方法,如監(jiān)督的機(jī)器學(xué)習(xí)框架rpple、epip、增強(qiáng)樹模型targetfinder、集成機(jī)器學(xué)習(xí)模型looppredictor;第三類,基于相關(guān)性識別增強(qiáng)子-啟動子相互作用的方法,如jeme、focs。

2、研究表明增強(qiáng)子-啟動子相互作用具有更強(qiáng)的細(xì)胞類型特異性,即同一對增強(qiáng)子和啟動子在某些細(xì)胞系中以染色質(zhì)環(huán)的形式存在,而在另一些細(xì)胞系中則沒有相互作用。由于該相互作用的高度特異性,以上提到的三種預(yù)測方法中,第一種方法僅考慮序列信息,忽視了表觀遺傳修飾的影響,對相互作用的組織特異性解釋不夠,導(dǎo)致在某細(xì)胞系建立的預(yù)測模型在其他細(xì)胞系數(shù)據(jù)上很難進(jìn)行精準(zhǔn)預(yù)測。第二種方法輸入特征較為豐富,所以一般具有較好的預(yù)測性能,但是由于對輸入特征約束較多(很少有細(xì)胞系能夠得到足夠的特征信號)使其難以推廣。第三種方法首先基于幾乎所有能獲得的細(xì)胞系樣本分析增強(qiáng)子與啟動子的各種相關(guān)性(基因表達(dá)、染色質(zhì)開放性、組蛋白修飾等)得到假定的增強(qiáng)子-啟動子對,然后利用特定細(xì)胞系特異的表觀修飾或基于表達(dá)信號預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用。

3、但現(xiàn)有的計(jì)算方法在預(yù)測細(xì)胞類型特異性相互作用方面不夠理想。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是針對上述問題,提供一種設(shè)計(jì)合理,細(xì)胞類型特異性相互作用預(yù)測效果好的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法。

2、為達(dá)到上述目的,本發(fā)明采用了下列技術(shù)方案:本預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法,包括如下步驟:

3、s1:數(shù)據(jù)下載;

4、s2:數(shù)據(jù)預(yù)處理;

5、s3:隨機(jī)森林預(yù)測;

6、s4:特征重要性分析;

7、s5:評價(jià)指標(biāo);

8、s6:細(xì)胞系內(nèi)交叉驗(yàn)證;

9、s7:細(xì)胞系間檢驗(yàn);

10、s8:特征重要性排序。

11、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s1包括neu、ery、mac0、mac1、mac2、mon、mk、ncd4、ncd8人類血液細(xì)胞promter?capture?hi-c數(shù)據(jù)及dna甲基化和組蛋白修飾h3k4me1、h3k4me3、h3k9me3、h3k27me3、h3k36me3、h3k27ac數(shù)據(jù)。

12、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s2包括如下步驟:

13、s21:根據(jù)ensembl?v.75,定義轉(zhuǎn)錄起始點(diǎn)的上游0.5kb和下游2kb的區(qū)域?yàn)閱幼訁^(qū)域;在regulatory?build的基礎(chǔ)上定義了增強(qiáng)子,并在保持原有中心不變的情況下將其修剪或擴(kuò)展到2.5kb;

14、s22:將啟動子和增強(qiáng)子與原數(shù)據(jù)集中環(huán)的兩端進(jìn)行匹配,當(dāng)且僅當(dāng)環(huán)的一端與一個(gè)基因的啟動子重疊,另一端與一個(gè)注釋的增強(qiáng)子重疊時(shí),將其保留作為候選環(huán);

15、s23:將增強(qiáng)子和啟動子區(qū)域分為5個(gè)大小都為0.5kb的片段,并定量每個(gè)基因組片段上的組蛋白修飾h3k4me1、h3k4me3、h3k9me3、h3k27me3、h3k27ac、h3k36me3和dna甲基化修飾信號。

16、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s3包括如下步驟:

17、s31:將bagging算法應(yīng)用于數(shù)據(jù)集進(jìn)行多次隨機(jī)抽樣且不剔除已抽中的樣本,得到與原數(shù)據(jù)樣本量相同的新的訓(xùn)練數(shù)據(jù)集,將其用于訓(xùn)練單顆決策樹;

18、s32:在新的訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇部分特征根據(jù)基尼系數(shù)對cart決策樹的每個(gè)節(jié)點(diǎn)進(jìn)行分裂,直至基尼指數(shù)為零或無特征可計(jì)算,節(jié)點(diǎn)無法再分裂;

19、s33:重復(fù)步驟s31、s32操作,最終形成由指定數(shù)目的決策樹構(gòu)成隨機(jī)森林,森林中的每顆樹自由生長,不進(jìn)行剪枝操作;

20、s34:輸入新的測試數(shù)據(jù),每顆決策樹都對新的樣本進(jìn)行分類且給出預(yù)測結(jié)果,對森林中每顆樹給出的結(jié)果進(jìn)行統(tǒng)計(jì),最后將出現(xiàn)頻率最高的類別作為最終的預(yù)測結(jié)果。

21、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s32中cart算法對所選取的每個(gè)特征都計(jì)算基尼指數(shù)并進(jìn)行比較,然后選擇基尼指數(shù)最小的特征對節(jié)點(diǎn)進(jìn)行分裂;經(jīng)過數(shù)據(jù)和特征隨機(jī)篩選的訓(xùn)練數(shù)據(jù)集共有s個(gè)樣本,且樣本有s1和s2兩個(gè)類別,分別代表有相互作用和無相互作用,假設(shè)樣本為s1的概率為p,則節(jié)點(diǎn)k處的基尼指數(shù)為:

22、

23、如果概率未知,則基尼指數(shù)為:

24、

25、其中,和分別是兩個(gè)子節(jié)點(diǎn)的樣本數(shù);

26、當(dāng)利用特征aj對節(jié)點(diǎn)進(jìn)行分裂,根據(jù)樣本點(diǎn)對其可能取值aj=a測試,因?yàn)闉槎鏄洌愿鶕?jù)對取值的響應(yīng)是或否,將數(shù)據(jù)集s分割成s1和s1兩個(gè)部分,經(jīng)過aj=a分裂后數(shù)據(jù)s的基尼指數(shù)為:

27、

28、其中,gini(s1)和gini(s2)是兩個(gè)新節(jié)點(diǎn)的基尼指數(shù)。

29、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s4將基尼指數(shù)作用于估計(jì)單個(gè)特征的重要性的指標(biāo);

30、當(dāng)利用特征aj在節(jié)點(diǎn)k處進(jìn)行分裂時(shí),利用分裂前后基尼指數(shù)變化量定義該特征在節(jié)點(diǎn)k處的重要性:

31、

32、假設(shè)特征aj在第i顆樹中被使用k次,第n樹中此特征的重要性為:

33、

34、由此可定義特征aj在整個(gè)森林n顆樹中的重要性:

35、

36、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s5采用準(zhǔn)確率acc,召回率recall,精確度precision,f1-score,roc曲線下面積area?under?thecurve作為評價(jià)指標(biāo);

37、acc為所有樣本中被正確分類的樣本所占的比例:

38、

39、recall為正樣本中被正確分類的樣本在實(shí)際正樣本中所占比例:

40、

41、precision為被正確分類的正樣本的樣本量占被模型預(yù)測為正樣本的樣本總量的比例:

42、

43、f1-score為precision和recall的調(diào)和平均值:

44、

45、其中,tp代表樣本中正類被正確分類的數(shù)量,fp代表樣本中負(fù)類被錯(cuò)誤分類的數(shù)量,tn代表樣本中負(fù)類被正確分類的數(shù)量,fn代表樣本中正類被錯(cuò)誤分類的數(shù)量;

46、加權(quán)acc是對相互作用和非相互作用兩個(gè)類別的acc進(jìn)行加權(quán)平均,權(quán)重是各類別在總樣本中的占比:

47、accw=β*acc++(1-β)*acc-;

48、其中,β為相互作用樣本在總樣本中的占比,accw為加權(quán)平均后的準(zhǔn)確率,acc+為預(yù)測相互作用的準(zhǔn)確率,acc-為預(yù)測非相互作用的準(zhǔn)確率;

49、加權(quán)recall是對各類別的recall進(jìn)行加權(quán)平均,權(quán)重為各類別在樣本中的占比:

50、rw=β*r++(1-β)*r-;

51、其中,rw為加權(quán)平均后的召回率,r+為預(yù)測相互作用的準(zhǔn)確率,r-為預(yù)測非相互作用的準(zhǔn)確率;

52、加權(quán)precision是各類別的precision加權(quán)平均的結(jié)果:

53、pw=β*p++(1-β)*p-;

54、其中,pw為加權(quán)平均后的召回率,p+為預(yù)測相互作用的準(zhǔn)確率,p-為預(yù)測非相互作用的準(zhǔn)確率;

55、加權(quán)f1-score是各類別的f1-score加權(quán)平均的結(jié)果:

56、f1w=β*f1++(1-β)*f1-;

57、其中,f1w為加權(quán)平均后的召回率,f1+為預(yù)測相互作用的準(zhǔn)確率,f1-為預(yù)測非相互作用的準(zhǔn)確率。

58、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s6在每個(gè)細(xì)胞系內(nèi)預(yù)測增強(qiáng)子-啟動子相互作用時(shí)利用隨機(jī)森林進(jìn)行了10-fold交叉檢驗(yàn);將某細(xì)胞系的數(shù)據(jù)隨機(jī)分為10份,1份數(shù)據(jù)用于測試,其余的數(shù)據(jù)用于訓(xùn)練,遍歷10份數(shù)據(jù),最后將10次測試的結(jié)果進(jìn)行平均,將此平均值作為本算法對該細(xì)胞系預(yù)測準(zhǔn)確性的估計(jì);在交叉檢驗(yàn)過程中通過計(jì)算auc、accw、f1w、rw、pw對每個(gè)細(xì)胞系中的交叉檢驗(yàn)結(jié)果進(jìn)行評估。

59、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s7中不同細(xì)胞系之間預(yù)測增強(qiáng)子-啟動子相互作用,依次使用每一細(xì)胞系所有數(shù)據(jù)作為訓(xùn)練集對模型進(jìn)行訓(xùn)練,將其余8個(gè)細(xì)胞系數(shù)據(jù)分別作為測試集對該模型進(jìn)行性能預(yù)測;利用auc、accw、f1w、rw、pw對每個(gè)細(xì)胞系建立的模型進(jìn)行評估。

60、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s8中包括如下步驟:

61、s81:利用每個(gè)細(xì)胞系數(shù)據(jù)單獨(dú)訓(xùn)練模型,然后在每個(gè)細(xì)胞系上生成重要性前10的特征并對這些特征進(jìn)行排序;

62、s82:每個(gè)細(xì)胞系中對類別與各個(gè)特征都計(jì)算皮爾森相關(guān)系數(shù),得出特征與類別的相關(guān)性;

63、s83:在每個(gè)細(xì)胞系中計(jì)算所有特征之間的皮爾森相關(guān)系數(shù)并對特征進(jìn)行聚類。

64、與現(xiàn)有的技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:排除了基因組序列的影響,只關(guān)注表觀修飾狀態(tài)對該相互作用的影響,對于細(xì)胞類型特異性相互作用具有較好的預(yù)測效果;隨機(jī)森林的基尼指數(shù)對特征進(jìn)行重要性排序,增強(qiáng)模型的可解釋性;可以實(shí)現(xiàn)跨細(xì)胞系的增強(qiáng)子-啟動子相互作用預(yù)測。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
巴林左旗| 绥阳县| 萨迦县| 宝清县| 九台市| 家居| 洛宁县| 新乡县| 锡林郭勒盟| 庆安县| 宁德市| 阿拉善左旗| 清镇市| 芮城县| 连州市| 南靖县| 淳化县| 喀喇沁旗| 连云港市| 福泉市| 错那县| 临沧市| 营山县| 枝江市| 五家渠市| 贞丰县| 汝城县| 柳林县| 岑巩县| 三明市| 天气| 陈巴尔虎旗| 封丘县| 五家渠市| 海淀区| 清徐县| 灌云县| 科技| 正安县| 法库县| 西华县|