一種用于預(yù)測(cè)癌癥病人預(yù)后相關(guān)的蛋白質(zhì)對(duì)的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于癌癥預(yù)后及治療領(lǐng)域,更具體地說(shuō),涉及一種用于預(yù)測(cè)癌癥病人預(yù)后 相關(guān)的蛋白質(zhì)對(duì)的方法。
【背景技術(shù)】
[0002] GE0數(shù)據(jù)庫(kù)是存放大量基因芯片的一個(gè)公共數(shù)據(jù)庫(kù),這些芯片數(shù)據(jù)中,有不少研究 涉及到癌癥病人的基因表達(dá)和病人預(yù)后狀況等方面內(nèi)容。這些數(shù)據(jù)可以用于進(jìn)一步分析癌 癥病人的生存時(shí)間與特定相關(guān)基因的關(guān)系,并進(jìn)一步篩查預(yù)后相關(guān)基因。如GE0數(shù)據(jù)庫(kù)中 的一個(gè)乳腺癌數(shù)據(jù)集GDS2034[1],該數(shù)據(jù)集除了具有不同的疾病樣本外,還具有樣本病人 的生存時(shí)間和最終的狀態(tài)。
[0003] 在預(yù)測(cè)預(yù)后相關(guān)基因時(shí),生存分析方法用于評(píng)估一個(gè)基因表達(dá)值與臨床預(yù)后的關(guān) 系。給定一個(gè)數(shù)據(jù)集,對(duì)每個(gè)基因,計(jì)算生存分析常涉及的2個(gè)p值:(1)基于單個(gè)基因的 表達(dá)水平,利用K-means算法[2],將數(shù)據(jù)集的所有樣本分成2類,利用生存分析方法估計(jì) (Kaplan-Meierestimator) [3]獲得兩個(gè)生存相關(guān)的函數(shù)(對(duì)應(yīng)兩條生存曲線),然后利用 log-ranktest檢驗(yàn)這兩個(gè)函數(shù)間的差異性,獲得差異性的p值,此為第一種p值求解方法; (2)而比例風(fēng)險(xiǎn)模型[4](Proportionalhazardmodel,又稱C0X模型,Coxmodel)被用于 檢驗(yàn)單個(gè)基因的表達(dá)水平與生存時(shí)間的關(guān)系,利用z檢驗(yàn)(z-test)對(duì)回歸結(jié)果進(jìn)行分析, 獲得第二個(gè)P值求解的結(jié)果。
[0004] 參考文獻(xiàn):
[0005] [l]ffangY,KlijnJG,ZhangY,SieuwertsAM,LookMP,YangF,et al.Gene-expressionprofilestopredictdistantmetastasisof lymph-node-negativeprimarybreastcancer[J].Lancet. 2005, 365(9460):671-9.
[0006] [2]KrishnaK,NarasimhaMurtyM.GeneticK-meansalgorithm[J].IEEE transactionsonsystems,man,andcyberneticsPartB,Cybernetics:apublicationof theIEEESystems,Man,andCyberneticsSociety. 1999, 29 (3):433-9.
[0007] [3]ShwartzM,PliskinJS,GrondahlHG,BoffaJ.UseoftheKaplan-Meier estimatetoreducebiasesinestimatingtherateofcariesprogression[J]. Communitydentistryandoralepidemiology. 1984, 12(2):103-8.
[0008] [4]VekicJ,ZeljkovicA,Bogavac-StanojevicN,Je1ic~Ivanovic Z,Spasojevic-KalimanovskaV,Simic-OgrizovicS,etal.Coxproportional hazardmodelanalysisofsurvivalinend-stagerenaldiseasepatientswith small-sizedhigh-densitylipoproteinparticles[J]·Clinicalbiochemist ry. 2011,44(8-9) :635-41.
[0009] 現(xiàn)行的研究方法獲得的預(yù)后相關(guān)基因往往只依靠上述兩種求p值得方法 (log-ranktest檢驗(yàn)或是C0X模型分析)之一,S卩在其中一種情況下,求當(dāng)p〈0.05的基因 則被定義為預(yù)后相關(guān)基因。然而,(1)這種獲得的預(yù)后相關(guān)基因準(zhǔn)確性并不是很高,因?yàn)樗?受到很多因素的影響,如芯片數(shù)據(jù)自身的技術(shù)問(wèn)題導(dǎo)致基因表達(dá)水平的假陽(yáng)性率很高,樣 本數(shù)目的多少,生存時(shí)間數(shù)據(jù)長(zhǎng)短的界定等;(2)以往預(yù)測(cè)癌癥預(yù)后相關(guān)基因主要針對(duì)單 個(gè)基因或是單個(gè)基因組成的集合,沒有考慮蛋白質(zhì)間的互作對(duì),事實(shí)上,蛋白質(zhì)互作對(duì)在細(xì) 胞內(nèi)常常發(fā)生相互作用,蛋白質(zhì)互作對(duì)的相互作用可能是導(dǎo)致癌癥病人預(yù)后的生存期長(zhǎng)短 的一個(gè)重要因素。如能將癌癥預(yù)后引入蛋白質(zhì)互作對(duì)的層面上,將會(huì)對(duì)癌癥的治療產(chǎn)生積 極的作用,因此,急需一種可以準(zhǔn)確預(yù)測(cè)與癌癥預(yù)后相關(guān)的基因并且進(jìn)一步應(yīng)用的方法。
【發(fā)明內(nèi)容】
[0010] 1.發(fā)明要解決的技術(shù)問(wèn)題
[0011] 本發(fā)明為了解決上述問(wèn)題的不足之處,提出了一種用于預(yù)測(cè)癌癥病人預(yù)后相關(guān)的 蛋白質(zhì)對(duì)的方法。本發(fā)明將log-ranktest檢驗(yàn)與C0X模型分析兩種方法中的P值共同考 慮,得到一種使預(yù)測(cè)獲得基因與癌癥的預(yù)后關(guān)系更為密切的方法,并且還利用了人類蛋白 質(zhì)互作對(duì)數(shù)據(jù)庫(kù)(HPRD)進(jìn)一步過(guò)濾出與預(yù)后相關(guān)的蛋白質(zhì)互作對(duì),從蛋白質(zhì)互作對(duì)在細(xì) 胞間的相互作用層面為癌癥的治療提供藥物開發(fā)的新思路。
[0012] 2.技術(shù)方案
[0013] 本發(fā)明的一種用于預(yù)測(cè)癌癥病人預(yù)后相關(guān)的蛋白質(zhì)對(duì)的方法,在預(yù)測(cè)癌癥病人預(yù) 后相關(guān)的基因后,再利用人類蛋白質(zhì)互作數(shù)據(jù)庫(kù)(HPRD數(shù)據(jù)庫(kù))信息,定義預(yù)后相關(guān)蛋白質(zhì) 對(duì)為蛋白質(zhì)對(duì)中的兩個(gè)基因同時(shí)屬于此預(yù)后相關(guān)基因。由此,進(jìn)一步過(guò)濾出預(yù)后相關(guān)的蛋 白質(zhì)互作對(duì)。
[0014] 作為本發(fā)明的進(jìn)一步改進(jìn),其步驟為:
[0015] (1)從GE0數(shù)據(jù)庫(kù)中下載與癌癥對(duì)應(yīng)的基因芯片數(shù)據(jù),同時(shí)找出該數(shù)據(jù)的原始文 件中的生存相關(guān)的數(shù)據(jù);
[0016] (2)預(yù)測(cè)與癌癥病人預(yù)后相關(guān)的基因;
[0017] (3)基于HPRD數(shù)據(jù)庫(kù),進(jìn)一步過(guò)濾出與癌癥病人預(yù)后相關(guān)的蛋白質(zhì)互作對(duì)。
[0018] 作為本發(fā)明的進(jìn)一步改進(jìn),步驟(2)中預(yù)測(cè)與癌癥病人預(yù)后相關(guān)的基因的方法 為,定義利用log-ranktest檢驗(yàn)方法計(jì)算獲得的P值為PpPi是由卡方檢驗(yàn)獲得,模型擬 合之后可以算出卡方統(tǒng)計(jì)量,服從卡方分布,P1值就是卡方分布大于這個(gè)卡方統(tǒng)計(jì)量的概 率;定義利用C0X模型分析方法計(jì)算獲得的P值為P2,P2是由z檢驗(yàn)獲得,該檢驗(yàn)可獲得z 值,而P2值就是標(biāo)準(zhǔn)正態(tài)大于這個(gè)Z值的概率。
[0019]
,當(dāng)P0. 05時(shí),認(rèn)為該基因與癌癥預(yù)后有關(guān)。
[0020] 對(duì)本發(fā)明的一種用于預(yù)測(cè)癌癥病人預(yù)后相關(guān)的蛋白質(zhì)對(duì)的方法的應(yīng)用,利用預(yù)測(cè) 的與癌癥預(yù)后相關(guān)的蛋白質(zhì)互作對(duì)設(shè)計(jì)治療該癌癥的藥物,該藥物與互作對(duì)的蛋白質(zhì)產(chǎn)生 競(jìng)爭(zhēng)性的相互作用,從而破壞原有的蛋白質(zhì)互作對(duì)或蛋白質(zhì)復(fù)合物的形成。
[0021] 3.有益效果
[0022] 采用本發(fā)明提供的技術(shù)方案,與現(xiàn)有技術(shù)相比,具有如下顯著效果:
[0023] (1)本發(fā)明的一種用于預(yù)測(cè)癌癥病人預(yù)后相關(guān)的蛋白質(zhì)對(duì)的方法,將log-rank test檢驗(yàn)與COX模型分析兩種方法中的P值綜合考慮,提出一種新的獲得癌癥預(yù)后相關(guān)基 因的方法,提高了癌癥預(yù)后相關(guān)基