預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法

文檔序號：40530802發(fā)布日期：2024-12-31 13:44閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明屬于醫(yī)療信息處理，具體涉及一種預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法。

背景技術(shù)：

1、現(xiàn)有的研究人員從不同的角度闡述染色質(zhì)相互作用形成的可能分子機(jī)制，并開發(fā)了計(jì)算模型去預(yù)測染色質(zhì)上的遠(yuǎn)程相互作用。前人提出算法根據(jù)其所用特征的不同可分為三類：第一類，基于基因組序列特征識別增強(qiáng)子-啟動子相互作用的方法，如深度學(xué)習(xí)模型的計(jì)算方法speid、梯度提升決策樹的算法pep，注意力神經(jīng)網(wǎng)絡(luò)模型epiann；第二類，基于基因組表觀修飾特征識別增強(qiáng)子-啟動子相互作用的方法，如監(jiān)督的機(jī)器學(xué)習(xí)框架rpple、epip、增強(qiáng)樹模型targetfinder、集成機(jī)器學(xué)習(xí)模型looppredictor；第三類，基于相關(guān)性識別增強(qiáng)子-啟動子相互作用的方法，如jeme、focs。

2、研究表明增強(qiáng)子-啟動子相互作用具有更強(qiáng)的細(xì)胞類型特異性，即同一對增強(qiáng)子和啟動子在某些細(xì)胞系中以染色質(zhì)環(huán)的形式存在，而在另一些細(xì)胞系中則沒有相互作用。由于該相互作用的高度特異性，以上提到的三種預(yù)測方法中，第一種方法僅考慮序列信息，忽視了表觀遺傳修飾的影響，對相互作用的組織特異性解釋不夠，導(dǎo)致在某細(xì)胞系建立的預(yù)測模型在其他細(xì)胞系數(shù)據(jù)上很難進(jìn)行精準(zhǔn)預(yù)測。第二種方法輸入特征較為豐富，所以一般具有較好的預(yù)測性能，但是由于對輸入特征約束較多(很少有細(xì)胞系能夠得到足夠的特征信號)使其難以推廣。第三種方法首先基于幾乎所有能獲得的細(xì)胞系樣本分析增強(qiáng)子與啟動子的各種相關(guān)性(基因表達(dá)、染色質(zhì)開放性、組蛋白修飾等)得到假定的增強(qiáng)子-啟動子對，然后利用特定細(xì)胞系特異的表觀修飾或基于表達(dá)信號預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用。

3、但現(xiàn)有的計(jì)算方法在預(yù)測細(xì)胞類型特異性相互作用方面不夠理想。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是針對上述問題，提供一種設(shè)計(jì)合理，細(xì)胞類型特異性相互作用預(yù)測效果好的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法。

2、為達(dá)到上述目的，本發(fā)明采用了下列技術(shù)方案：本預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法，包括如下步驟：

3、s1：數(shù)據(jù)下載；

4、s2：數(shù)據(jù)預(yù)處理；

5、s3：隨機(jī)森林預(yù)測；

6、s4：特征重要性分析；

7、s5：評價(jià)指標(biāo)；

8、s6：細(xì)胞系內(nèi)交叉驗(yàn)證；

9、s7：細(xì)胞系間檢驗(yàn)；

10、s8：特征重要性排序。

11、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s1包括neu、ery、mac0、mac1、mac2、mon、mk、ncd4、ncd8人類血液細(xì)胞promter?capture?hi-c數(shù)據(jù)及dna甲基化和組蛋白修飾h3k4me1、h3k4me3、h3k9me3、h3k27me3、h3k36me3、h3k27ac數(shù)據(jù)。

12、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s2包括如下步驟：

13、s21：根據(jù)ensembl?v.75，定義轉(zhuǎn)錄起始點(diǎn)的上游0.5kb和下游2kb的區(qū)域?yàn)閱幼訁^(qū)域；在regulatory?build的基礎(chǔ)上定義了增強(qiáng)子，并在保持原有中心不變的情況下將其修剪或擴(kuò)展到2.5kb；

14、s22：將啟動子和增強(qiáng)子與原數(shù)據(jù)集中環(huán)的兩端進(jìn)行匹配，當(dāng)且僅當(dāng)環(huán)的一端與一個(gè)基因的啟動子重疊，另一端與一個(gè)注釋的增強(qiáng)子重疊時(shí)，將其保留作為候選環(huán)；

15、s23：將增強(qiáng)子和啟動子區(qū)域分為5個(gè)大小都為0.5kb的片段，并定量每個(gè)基因組片段上的組蛋白修飾h3k4me1、h3k4me3、h3k9me3、h3k27me3、h3k27ac、h3k36me3和dna甲基化修飾信號。

16、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s3包括如下步驟：

17、s31：將bagging算法應(yīng)用于數(shù)據(jù)集進(jìn)行多次隨機(jī)抽樣且不剔除已抽中的樣本，得到與原數(shù)據(jù)樣本量相同的新的訓(xùn)練數(shù)據(jù)集，將其用于訓(xùn)練單顆決策樹；

18、s32：在新的訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇部分特征根據(jù)基尼系數(shù)對cart決策樹的每個(gè)節(jié)點(diǎn)進(jìn)行分裂，直至基尼指數(shù)為零或無特征可計(jì)算，節(jié)點(diǎn)無法再分裂；

19、s33：重復(fù)步驟s31、s32操作，最終形成由指定數(shù)目的決策樹構(gòu)成隨機(jī)森林，森林中的每顆樹自由生長，不進(jìn)行剪枝操作；

20、s34：輸入新的測試數(shù)據(jù)，每顆決策樹都對新的樣本進(jìn)行分類且給出預(yù)測結(jié)果，對森林中每顆樹給出的結(jié)果進(jìn)行統(tǒng)計(jì)，最后將出現(xiàn)頻率最高的類別作為最終的預(yù)測結(jié)果。

21、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s32中cart算法對所選取的每個(gè)特征都計(jì)算基尼指數(shù)并進(jìn)行比較，然后選擇基尼指數(shù)最小的特征對節(jié)點(diǎn)進(jìn)行分裂；經(jīng)過數(shù)據(jù)和特征隨機(jī)篩選的訓(xùn)練數(shù)據(jù)集共有s個(gè)樣本，且樣本有s1和s2兩個(gè)類別，分別代表有相互作用和無相互作用，假設(shè)樣本為s1的概率為p，則節(jié)點(diǎn)k處的基尼指數(shù)為：

22、

23、如果概率未知，則基尼指數(shù)為：

24、

25、其中，和分別是兩個(gè)子節(jié)點(diǎn)的樣本數(shù)；

26、當(dāng)利用特征aj對節(jié)點(diǎn)進(jìn)行分裂，根據(jù)樣本點(diǎn)對其可能取值aj＝a測試，因?yàn)闉槎鏄洌愿鶕?jù)對取值的響應(yīng)是或否，將數(shù)據(jù)集s分割成s1和s1兩個(gè)部分，經(jīng)過aj＝a分裂后數(shù)據(jù)s的基尼指數(shù)為：

27、

28、其中，gini(s1)和gini(s2)是兩個(gè)新節(jié)點(diǎn)的基尼指數(shù)。

29、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s4將基尼指數(shù)作用于估計(jì)單個(gè)特征的重要性的指標(biāo)；

30、當(dāng)利用特征aj在節(jié)點(diǎn)k處進(jìn)行分裂時(shí)，利用分裂前后基尼指數(shù)變化量定義該特征在節(jié)點(diǎn)k處的重要性：

31、

32、假設(shè)特征aj在第i顆樹中被使用k次，第n樹中此特征的重要性為：

33、

34、由此可定義特征aj在整個(gè)森林n顆樹中的重要性：

35、

36、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s5采用準(zhǔn)確率acc，召回率recall，精確度precision，f1-score，roc曲線下面積area?under?thecurve作為評價(jià)指標(biāo)；

37、acc為所有樣本中被正確分類的樣本所占的比例：

38、

39、recall為正樣本中被正確分類的樣本在實(shí)際正樣本中所占比例：

40、

41、precision為被正確分類的正樣本的樣本量占被模型預(yù)測為正樣本的樣本總量的比例：

42、

43、f1-score為precision和recall的調(diào)和平均值：

44、

45、其中，tp代表樣本中正類被正確分類的數(shù)量，fp代表樣本中負(fù)類被錯(cuò)誤分類的數(shù)量，tn代表樣本中負(fù)類被正確分類的數(shù)量，fn代表樣本中正類被錯(cuò)誤分類的數(shù)量；

46、加權(quán)acc是對相互作用和非相互作用兩個(gè)類別的acc進(jìn)行加權(quán)平均，權(quán)重是各類別在總樣本中的占比：

47、accw＝β*acc++(1-β)*acc-；

48、其中，β為相互作用樣本在總樣本中的占比，accw為加權(quán)平均后的準(zhǔn)確率，acc+為預(yù)測相互作用的準(zhǔn)確率，acc-為預(yù)測非相互作用的準(zhǔn)確率；

49、加權(quán)recall是對各類別的recall進(jìn)行加權(quán)平均，權(quán)重為各類別在樣本中的占比：

50、rw＝β*r++(1-β)*r-；

51、其中，rw為加權(quán)平均后的召回率，r+為預(yù)測相互作用的準(zhǔn)確率，r-為預(yù)測非相互作用的準(zhǔn)確率；

52、加權(quán)precision是各類別的precision加權(quán)平均的結(jié)果：

53、pw＝β*p++(1-β)*p-；

54、其中，pw為加權(quán)平均后的召回率，p+為預(yù)測相互作用的準(zhǔn)確率，p-為預(yù)測非相互作用的準(zhǔn)確率；

55、加權(quán)f1-score是各類別的f1-score加權(quán)平均的結(jié)果：

56、f1w＝β*f1++(1-β)*f1-；

57、其中，f1w為加權(quán)平均后的召回率，f1+為預(yù)測相互作用的準(zhǔn)確率，f1-為預(yù)測非相互作用的準(zhǔn)確率。

58、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s6在每個(gè)細(xì)胞系內(nèi)預(yù)測增強(qiáng)子-啟動子相互作用時(shí)利用隨機(jī)森林進(jìn)行了10-fold交叉檢驗(yàn)；將某細(xì)胞系的數(shù)據(jù)隨機(jī)分為10份，1份數(shù)據(jù)用于測試，其余的數(shù)據(jù)用于訓(xùn)練，遍歷10份數(shù)據(jù)，最后將10次測試的結(jié)果進(jìn)行平均，將此平均值作為本算法對該細(xì)胞系預(yù)測準(zhǔn)確性的估計(jì)；在交叉檢驗(yàn)過程中通過計(jì)算auc、accw、f1w、rw、pw對每個(gè)細(xì)胞系中的交叉檢驗(yàn)結(jié)果進(jìn)行評估。

59、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s7中不同細(xì)胞系之間預(yù)測增強(qiáng)子-啟動子相互作用，依次使用每一細(xì)胞系所有數(shù)據(jù)作為訓(xùn)練集對模型進(jìn)行訓(xùn)練，將其余8個(gè)細(xì)胞系數(shù)據(jù)分別作為測試集對該模型進(jìn)行性能預(yù)測；利用auc、accw、f1w、rw、pw對每個(gè)細(xì)胞系建立的模型進(jìn)行評估。

60、在上述的預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法中，步驟s8中包括如下步驟：

61、s81：利用每個(gè)細(xì)胞系數(shù)據(jù)單獨(dú)訓(xùn)練模型，然后在每個(gè)細(xì)胞系上生成重要性前10的特征并對這些特征進(jìn)行排序；

62、s82：每個(gè)細(xì)胞系中對類別與各個(gè)特征都計(jì)算皮爾森相關(guān)系數(shù)，得出特征與類別的相關(guān)性；

63、s83：在每個(gè)細(xì)胞系中計(jì)算所有特征之間的皮爾森相關(guān)系數(shù)并對特征進(jìn)行聚類。

64、與現(xiàn)有的技術(shù)相比，本發(fā)明的優(yōu)點(diǎn)在于：排除了基因組序列的影響，只關(guān)注表觀修飾狀態(tài)對該相互作用的影響，對于細(xì)胞類型特異性相互作用具有較好的預(yù)測效果；隨機(jī)森林的基尼指數(shù)對特征進(jìn)行重要性排序，增強(qiáng)模型的可解釋性；可以實(shí)現(xiàn)跨細(xì)胞系的增強(qiáng)子-啟動子相互作用預(yù)測。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉利,高冬,林昊,鄒權(quán)
技術(shù)所有人：電子科技大學(xué)長三角研究院（衢州）
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價(jià)及糖類疫苗的研制 2.功能糖類的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價(jià) 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)測細(xì)胞類型特異性的增強(qiáng)子-啟動子相互作用的方法