本發(fā)明屬于醫(yī)療信息處理,具體涉及一種預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法。
背景技術(shù):
1、現(xiàn)有的研究人員從不同的角度闡述染色質(zhì)相互作用形成的可能分子機(jī)制,并開發(fā)了計(jì)算模型去預(yù)測染色質(zhì)上的遠(yuǎn)程相互作用。前人提出算法根據(jù)其所用特征的不同可分為三類:第一類,基于基因組序列特征識別增強(qiáng)子-啟動子相互作用的方法,如深度學(xué)習(xí)模型的計(jì)算方法speid、梯度提升決策樹的算法pep,注意力神經(jīng)網(wǎng)絡(luò)模型epiann;第二類,基于基因組表觀修飾特征識別增強(qiáng)子-啟動子相互作用的方法,如監(jiān)督的機(jī)器學(xué)習(xí)框架rpple、epip、增強(qiáng)樹模型targetfinder、集成機(jī)器學(xué)習(xí)模型looppredictor;第三類,基于相關(guān)性識別增強(qiáng)子-啟動子相互作用的方法,如jeme、focs。
2、研究表明增強(qiáng)子-啟動子相互作用具有更強(qiáng)的細(xì)胞類型特異性,即同一對增強(qiáng)子和啟動子在某些細(xì)胞系中以染色質(zhì)環(huán)的形式存在,而在另一些細(xì)胞系中則沒有相互作用。由于該相互作用的高度特異性,以上提到的三種預(yù)測方法中,第一種方法僅考慮序列信息,忽視了表觀遺傳修飾的影響,對相互作用的組織特異性解釋不夠,導(dǎo)致在某細(xì)胞系建立的預(yù)測模型在其他細(xì)胞系數(shù)據(jù)上很難進(jìn)行精準(zhǔn)預(yù)測。第二種方法輸入特征較為豐富,所以一般具有較好的預(yù)測性能,但是由于對輸入特征約束較多(很少有細(xì)胞系能夠得到足夠的特征信號)使其難以推廣。第三種方法首先基于幾乎所有能獲得的細(xì)胞系樣本分析增強(qiáng)子與啟動子的各種相關(guān)性(基因表達(dá)、染色質(zhì)開放性、組蛋白修飾等)得到假定的增強(qiáng)子-啟動子對,然后利用特定細(xì)胞系特異的表觀修飾或基于表達(dá)信號預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用。
3、但現(xiàn)有的計(jì)算方法在預(yù)測細(xì)胞類型特異性相互作用方面不夠理想。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是針對上述問題,提供一種設(shè)計(jì)合理,細(xì)胞類型特異性相互作用預(yù)測效果好的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法。
2、為達(dá)到上述目的,本發(fā)明采用了下列技術(shù)方案:本預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法,包括如下步驟:
3、s1:數(shù)據(jù)下載;
4、s2:數(shù)據(jù)預(yù)處理;
5、s3:隨機(jī)森林預(yù)測;
6、s4:特征重要性分析;
7、s5:評價(jià)指標(biāo);
8、s6:細(xì)胞系內(nèi)交叉驗(yàn)證;
9、s7:細(xì)胞系間檢驗(yàn);
10、s8:特征重要性排序。
11、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s1包括neu、ery、mac0、mac1、mac2、mon、mk、ncd4、ncd8人類血液細(xì)胞promter?capture?hi-c數(shù)據(jù)及dna甲基化和組蛋白修飾h3k4me1、h3k4me3、h3k9me3、h3k27me3、h3k36me3、h3k27ac數(shù)據(jù)。
12、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s2包括如下步驟:
13、s21:根據(jù)ensembl?v.75,定義轉(zhuǎn)錄起始點(diǎn)的上游0.5kb和下游2kb的區(qū)域?yàn)閱幼訁^(qū)域;在regulatory?build的基礎(chǔ)上定義了增強(qiáng)子,并在保持原有中心不變的情況下將其修剪或擴(kuò)展到2.5kb;
14、s22:將啟動子和增強(qiáng)子與原數(shù)據(jù)集中環(huán)的兩端進(jìn)行匹配,當(dāng)且僅當(dāng)環(huán)的一端與一個(gè)基因的啟動子重疊,另一端與一個(gè)注釋的增強(qiáng)子重疊時(shí),將其保留作為候選環(huán);
15、s23:將增強(qiáng)子和啟動子區(qū)域分為5個(gè)大小都為0.5kb的片段,并定量每個(gè)基因組片段上的組蛋白修飾h3k4me1、h3k4me3、h3k9me3、h3k27me3、h3k27ac、h3k36me3和dna甲基化修飾信號。
16、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s3包括如下步驟:
17、s31:將bagging算法應(yīng)用于數(shù)據(jù)集進(jìn)行多次隨機(jī)抽樣且不剔除已抽中的樣本,得到與原數(shù)據(jù)樣本量相同的新的訓(xùn)練數(shù)據(jù)集,將其用于訓(xùn)練單顆決策樹;
18、s32:在新的訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇部分特征根據(jù)基尼系數(shù)對cart決策樹的每個(gè)節(jié)點(diǎn)進(jìn)行分裂,直至基尼指數(shù)為零或無特征可計(jì)算,節(jié)點(diǎn)無法再分裂;
19、s33:重復(fù)步驟s31、s32操作,最終形成由指定數(shù)目的決策樹構(gòu)成隨機(jī)森林,森林中的每顆樹自由生長,不進(jìn)行剪枝操作;
20、s34:輸入新的測試數(shù)據(jù),每顆決策樹都對新的樣本進(jìn)行分類且給出預(yù)測結(jié)果,對森林中每顆樹給出的結(jié)果進(jìn)行統(tǒng)計(jì),最后將出現(xiàn)頻率最高的類別作為最終的預(yù)測結(jié)果。
21、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s32中cart算法對所選取的每個(gè)特征都計(jì)算基尼指數(shù)并進(jìn)行比較,然后選擇基尼指數(shù)最小的特征對節(jié)點(diǎn)進(jìn)行分裂;經(jīng)過數(shù)據(jù)和特征隨機(jī)篩選的訓(xùn)練數(shù)據(jù)集共有s個(gè)樣本,且樣本有s1和s2兩個(gè)類別,分別代表有相互作用和無相互作用,假設(shè)樣本為s1的概率為p,則節(jié)點(diǎn)k處的基尼指數(shù)為:
22、
23、如果概率未知,則基尼指數(shù)為:
24、
25、其中,和分別是兩個(gè)子節(jié)點(diǎn)的樣本數(shù);
26、當(dāng)利用特征aj對節(jié)點(diǎn)進(jìn)行分裂,根據(jù)樣本點(diǎn)對其可能取值aj=a測試,因?yàn)闉槎鏄洌愿鶕?jù)對取值的響應(yīng)是或否,將數(shù)據(jù)集s分割成s1和s1兩個(gè)部分,經(jīng)過aj=a分裂后數(shù)據(jù)s的基尼指數(shù)為:
27、
28、其中,gini(s1)和gini(s2)是兩個(gè)新節(jié)點(diǎn)的基尼指數(shù)。
29、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s4將基尼指數(shù)作用于估計(jì)單個(gè)特征的重要性的指標(biāo);
30、當(dāng)利用特征aj在節(jié)點(diǎn)k處進(jìn)行分裂時(shí),利用分裂前后基尼指數(shù)變化量定義該特征在節(jié)點(diǎn)k處的重要性:
31、
32、假設(shè)特征aj在第i顆樹中被使用k次,第n樹中此特征的重要性為:
33、
34、由此可定義特征aj在整個(gè)森林n顆樹中的重要性:
35、
36、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s5采用準(zhǔn)確率acc,召回率recall,精確度precision,f1-score,roc曲線下面積area?under?thecurve作為評價(jià)指標(biāo);
37、acc為所有樣本中被正確分類的樣本所占的比例:
38、
39、recall為正樣本中被正確分類的樣本在實(shí)際正樣本中所占比例:
40、
41、precision為被正確分類的正樣本的樣本量占被模型預(yù)測為正樣本的樣本總量的比例:
42、
43、f1-score為precision和recall的調(diào)和平均值:
44、
45、其中,tp代表樣本中正類被正確分類的數(shù)量,fp代表樣本中負(fù)類被錯(cuò)誤分類的數(shù)量,tn代表樣本中負(fù)類被正確分類的數(shù)量,fn代表樣本中正類被錯(cuò)誤分類的數(shù)量;
46、加權(quán)acc是對相互作用和非相互作用兩個(gè)類別的acc進(jìn)行加權(quán)平均,權(quán)重是各類別在總樣本中的占比:
47、accw=β*acc++(1-β)*acc-;
48、其中,β為相互作用樣本在總樣本中的占比,accw為加權(quán)平均后的準(zhǔn)確率,acc+為預(yù)測相互作用的準(zhǔn)確率,acc-為預(yù)測非相互作用的準(zhǔn)確率;
49、加權(quán)recall是對各類別的recall進(jìn)行加權(quán)平均,權(quán)重為各類別在樣本中的占比:
50、rw=β*r++(1-β)*r-;
51、其中,rw為加權(quán)平均后的召回率,r+為預(yù)測相互作用的準(zhǔn)確率,r-為預(yù)測非相互作用的準(zhǔn)確率;
52、加權(quán)precision是各類別的precision加權(quán)平均的結(jié)果:
53、pw=β*p++(1-β)*p-;
54、其中,pw為加權(quán)平均后的召回率,p+為預(yù)測相互作用的準(zhǔn)確率,p-為預(yù)測非相互作用的準(zhǔn)確率;
55、加權(quán)f1-score是各類別的f1-score加權(quán)平均的結(jié)果:
56、f1w=β*f1++(1-β)*f1-;
57、其中,f1w為加權(quán)平均后的召回率,f1+為預(yù)測相互作用的準(zhǔn)確率,f1-為預(yù)測非相互作用的準(zhǔn)確率。
58、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s6在每個(gè)細(xì)胞系內(nèi)預(yù)測增強(qiáng)子-啟動子相互作用時(shí)利用隨機(jī)森林進(jìn)行了10-fold交叉檢驗(yàn);將某細(xì)胞系的數(shù)據(jù)隨機(jī)分為10份,1份數(shù)據(jù)用于測試,其余的數(shù)據(jù)用于訓(xùn)練,遍歷10份數(shù)據(jù),最后將10次測試的結(jié)果進(jìn)行平均,將此平均值作為本算法對該細(xì)胞系預(yù)測準(zhǔn)確性的估計(jì);在交叉檢驗(yàn)過程中通過計(jì)算auc、accw、f1w、rw、pw對每個(gè)細(xì)胞系中的交叉檢驗(yàn)結(jié)果進(jìn)行評估。
59、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s7中不同細(xì)胞系之間預(yù)測增強(qiáng)子-啟動子相互作用,依次使用每一細(xì)胞系所有數(shù)據(jù)作為訓(xùn)練集對模型進(jìn)行訓(xùn)練,將其余8個(gè)細(xì)胞系數(shù)據(jù)分別作為測試集對該模型進(jìn)行性能預(yù)測;利用auc、accw、f1w、rw、pw對每個(gè)細(xì)胞系建立的模型進(jìn)行評估。
60、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中,步驟s8中包括如下步驟:
61、s81:利用每個(gè)細(xì)胞系數(shù)據(jù)單獨(dú)訓(xùn)練模型,然后在每個(gè)細(xì)胞系上生成重要性前10的特征并對這些特征進(jìn)行排序;
62、s82:每個(gè)細(xì)胞系中對類別與各個(gè)特征都計(jì)算皮爾森相關(guān)系數(shù),得出特征與類別的相關(guān)性;
63、s83:在每個(gè)細(xì)胞系中計(jì)算所有特征之間的皮爾森相關(guān)系數(shù)并對特征進(jìn)行聚類。
64、與現(xiàn)有的技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:排除了基因組序列的影響,只關(guān)注表觀修飾狀態(tài)對該相互作用的影響,對于細(xì)胞類型特異性相互作用具有較好的預(yù)測效果;隨機(jī)森林的基尼指數(shù)對特征進(jìn)行重要性排序,增強(qiáng)模型的可解釋性;可以實(shí)現(xiàn)跨細(xì)胞系的增強(qiáng)子-啟動子相互作用預(yù)測。