欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種預(yù)測疾病生存期的逐步多元回歸模型及應(yīng)用的制作方法

文檔序號:11951431閱讀:612來源:國知局
本發(fā)明屬于生物醫(yī)藥領(lǐng)域,具體涉及一種預(yù)測疾病生存期的逐步多元回歸模型與應(yīng)用。
背景技術(shù)
:二十一世紀(jì)的今天,惡性腫瘤仍然是嚴(yán)重危害人類生命健康的重大疾病。從世界范圍內(nèi)看,腫瘤的發(fā)生、發(fā)展不容樂觀。隨著人口逐漸老齡化、吸煙、感染、環(huán)境污染、膳食結(jié)構(gòu)等問題的存在,腫瘤診斷所面臨的形勢極為嚴(yán)峻。根據(jù)全國腫瘤登記中心發(fā)布的《2015年中國癌癥統(tǒng)計(jì)數(shù)據(jù)》顯示,2015年中國預(yù)計(jì)有429.2萬例新發(fā)腫瘤病例和281.4萬例死亡病例。癌癥已成為中國疾病死因之首,發(fā)病率和死亡率還在攀升,癌癥已成為我國非常重要的公共健康問題。幾乎22%的全球新發(fā)癌癥病例出現(xiàn)在中國,27%的癌癥死亡病例在中國。美國癌癥患者5年存活率達(dá)到85%,中國患者5年存活率僅為25%。根據(jù)深圳市慢性病防治中心公布的數(shù)據(jù),2013年全市報告病種所有惡性腫瘤、宮頸原位癌,中樞神經(jīng)系統(tǒng)良性腫瘤為14831例,較2012年增長18.1%。而2012年的同比增長幅度為13.4%,證明深圳的惡性腫瘤報告例數(shù)呈快速增長趨勢。癌癥已經(jīng)連續(xù)5年成為深圳居民死因的首位。對于癌癥等慢性病的患者的生存期準(zhǔn)確預(yù)測,不僅是患者和家屬關(guān)心得重要問題,也是制定合理的治療方案和臨終關(guān)懷措施的重要依據(jù)。長期以來生存期的判斷是根據(jù)醫(yī)生的經(jīng)驗(yàn),而臨床經(jīng)驗(yàn)的可靠性因人而異。生存期臨床預(yù)測評估較為靈活,但因受制于認(rèn)知偏差的影響而不可避免地降低了預(yù)測準(zhǔn)確性。研究結(jié)果顯示,與實(shí)際生存期相比,生存期臨床經(jīng)驗(yàn)預(yù)測往往可高估45%,預(yù)測誤差在1周內(nèi)為25%。即便是富有經(jīng)驗(yàn)的臨床腫瘤學(xué)專家的準(zhǔn)確率也只有20%左右。豐富的臨床經(jīng)驗(yàn)并不能提高預(yù)測準(zhǔn)確性。因此很多研究開始嘗試整合患者癥狀,生化指標(biāo),臨床數(shù)據(jù),通過統(tǒng)計(jì)學(xué)方法更加全面和準(zhǔn)確地對生存期進(jìn)行預(yù)測。之前的研究利用Cox比例風(fēng)險模型,建立指數(shù)方程,計(jì)算不同個體的期望生存曲線,通過臨床數(shù)據(jù)進(jìn)行癌癥的生存期預(yù)測(余紅梅,《預(yù)后指數(shù)在慢性病及腫瘤病人長期生存預(yù)測中的應(yīng)用》)。張曉東采用多種數(shù)據(jù)挖掘方法在肺癌病人生存期預(yù)測中的應(yīng)用效果。方法采用決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)等算法對肺癌病人的數(shù)據(jù)進(jìn)行挖掘。顯示貝葉斯分類算法和神經(jīng)網(wǎng)絡(luò)算法的分類準(zhǔn)確率高過決策樹算法。結(jié)論應(yīng)用數(shù)據(jù)挖掘算法對肺癌病人生存期分類預(yù)測具有一定的可行性,可以給臨床醫(yī)師提供參考(張曉東,《數(shù)據(jù)挖掘技術(shù)在肺癌生存期預(yù)測中的應(yīng)用探討》)。孫曉光等總結(jié)了北京協(xié)和醫(yī)院1995-2004年婦科腫瘤住院病房死亡的惡性腫瘤患者,其中91列入院后未接受任何腫瘤治療的病例資料回顧分析,通過建立多因素分析和回歸模型,確定了KPS,年齡,血尿素氮,呼吸困難,發(fā)熱等5個指標(biāo)為較可靠指標(biāo),具有穩(wěn)定性和普遍性意義(孫曉光,《婦科惡性腫瘤患者的生存期預(yù)測》)。臨床生化指標(biāo)在生存期預(yù)測中具有重要參考價值,格拉斯哥預(yù)后評分(GlasgowPrognosticScore,GPS)根據(jù)C反應(yīng)蛋白濃度升高和(或)低蛋白血癥的嚴(yán)重度將患者分為3個預(yù)計(jì)生存期組。GPS主要用于評估新診斷的晚期肺癌和上消化管惡性腫瘤患者。維生素B12/C反應(yīng)蛋白指數(shù)(BCI)則是根據(jù)血清B12與C反應(yīng)蛋白濃度的比值進(jìn)行生存期預(yù)測。此外,韓國的一項(xiàng)研究顯示,血尿酸水平可獨(dú)立預(yù)測終末期癌癥患者的生存期。腫瘤標(biāo)志物(Tumormarker,TM)是指存在于血液、體液和組織中可檢測到的與腫瘤的發(fā)生、發(fā)展有關(guān)的物質(zhì),其或不存在于正常成人組織而僅見于胚胎組織,或在腫瘤組織中的含量大大超過在正常組織中的含量,其存在或量變可提示腫瘤的性質(zhì),從而了解腫瘤的發(fā)生、細(xì)胞分化及功能。隨著分子生物學(xué)和系統(tǒng)生物學(xué)的技術(shù)發(fā)展,大量分子組學(xué)數(shù)據(jù)的產(chǎn)生為癌癥的的早期診斷、療效監(jiān)測、復(fù)發(fā)、預(yù)后及預(yù)測等多個方面提供了參考依據(jù)。但產(chǎn)生的海量分子生物學(xué)數(shù)據(jù)又很少被系統(tǒng)分析和利用,因?yàn)樗鼈儾⑽磁c臨床數(shù)據(jù)相整合,尤其是患者生存期預(yù)測。通過對癌癥大數(shù)據(jù)和癌癥分子組學(xué)數(shù)據(jù)挖掘,建立統(tǒng)計(jì)分析模型,將會更好的對癌癥病人存活期進(jìn)行預(yù)測。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明提供了一種預(yù)測疾病生存期的逐步多元回歸模型,其中所述逐步多元回歸模型的回歸方程式為:y=Xβ+ε式中,生存期向量為y=(y1,y2,…,yn)',向量參數(shù)為β=(β0,β1,β2,…,βp),隨機(jī)誤差為ε=(ε1,ε2,…,εp),矩陣X為:X=1x11x12...x1p1x21x22...x2p............1xn1xn2...xnp]]>式中,xi表示第i個病人的miRNA表達(dá)水平,蛋白質(zhì)表達(dá)水平或臨床分期數(shù)據(jù)。優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,所述逐步多元回歸模型的回歸方程式為:yi=xiβ+εi式中,xi表示第i個病人的分子表達(dá)水平數(shù)據(jù)或臨床數(shù)據(jù),yi——表示第i個病人的生存期數(shù)據(jù);εi——表示第i個病人的生存期預(yù)測誤差。優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,所述回歸方程式中的所述xi為:xi=1xi1...xip.]]>優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,所述回歸方程式中的所述β的最小二乘估計(jì)解為b=(b0,b1,......,bp)=(XTX)-1XTY式中,b表示β的最小二乘估計(jì),XT為X的轉(zhuǎn)置。優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,所述回歸方程式中的總平方和SST、與殘差平方和SSE與回歸平方和SSR為:SST=yTy-n(y‾)2]]>SSR=bTXTy-n(y‾)2]]>SSE=y(tǒng)Ty-bTXTy其中,總平方和SST與殘差平方和SSE、回歸平方和SSR具有如下關(guān)系:SST=SSE+SSR。式中,yT表示y的轉(zhuǎn)置,表示y的均值。優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,所述回歸方程式中的回歸均方(MSR)和殘差均方(MSE)為MSR=SSRp-1;]]>MSE=SSEn-p;]]>其中,所述SSE的自由度為n-p,所述SSR的自由度為p-1。優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,在所述逐步多元回歸模型中通過構(gòu)造F統(tǒng)計(jì)量,來判斷是否引入一個新的變量或刪除原有的一個變量,在每引入一個新的變量都需要進(jìn)行是否需要刪除一個變量,即檢驗(yàn)新引入的變量是否與原有變量具有相關(guān)性;當(dāng)擬合系數(shù)大于0.8時,認(rèn)為擬合效果較好;其中,所述F為式中m表示新方程中參數(shù)的個數(shù)。優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,所述逐步多元回歸模型中需要設(shè)置添加顯著性水平和刪除顯著性水平,添加顯著性水平應(yīng)該不小于刪除顯著性水平。優(yōu)選地,本發(fā)明所述逐步多元回歸模型中,所述疾病為慢性疾病;優(yōu)選地,所述疾病為癌癥;更優(yōu)選地,所述癌癥能夠表現(xiàn)出在蛋白質(zhì)表達(dá)水平、miRNA表達(dá)水平等分子生物學(xué)水平的數(shù)據(jù)或具有癌癥分期相關(guān)數(shù)據(jù);最優(yōu)選地,所述癌癥為乳腺癌。本發(fā)明的另一目的在于提供上述逐步多元回歸模型在預(yù)測癌癥、及與癌癥類似重大疾病患者生存期方面的應(yīng)用。本發(fā)明通過建立分子組學(xué)和臨床數(shù)據(jù)的回歸模型,對于癌癥生存期的進(jìn)準(zhǔn)預(yù)測。對于生存期的預(yù)測往往是通過一些非正式的主觀方法(例如經(jīng)驗(yàn))。通過統(tǒng)計(jì)學(xué)工具對包括臨床指標(biāo)在內(nèi)的多種生存相關(guān)因素進(jìn)行分析,并建立生存期預(yù)測模型,雖然可以有效提高生存期預(yù)測準(zhǔn)確性,但是缺少從分子組學(xué)數(shù)據(jù)的角度進(jìn)行考量。而本發(fā)明在原有模型和數(shù)學(xué)方法基礎(chǔ)上,創(chuàng)新地加入了分子組學(xué)指標(biāo)例如蛋白質(zhì)組,miRNA組學(xué)數(shù)據(jù)結(jié)合臨床分期作為腫瘤病人生存期的預(yù)測的分析參數(shù)和考量指標(biāo),大幅提高之前只通過臨床數(shù)據(jù)的預(yù)測準(zhǔn)確性,對于晚期癌癥患者的生存期預(yù)測、臨床決策、政策制定以及患者及家庭成員的計(jì)劃安排中具有重要意義,為癌癥生存期的進(jìn)準(zhǔn)診斷提供了價值的參考。具體實(shí)施方式以下通過具體實(shí)施例進(jìn)一步對本發(fā)明的技術(shù)方案進(jìn)行說明,應(yīng)理解以下僅為本發(fā)明的示例性說明,并不用于限制本發(fā)明權(quán)利要求的保護(hù)范圍。實(shí)施例1數(shù)據(jù)描述與處理研究數(shù)據(jù)來自于癌癥基因組圖譜數(shù)據(jù)TheCancerGenomeAtlas/TCGA(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm)。選取浸潤性乳癌病人miRNASeq和Experssion-Protein數(shù)據(jù)水平為3的下載。數(shù)據(jù)處理為1206×1046miRNA表達(dá)水平矩陣、937×285Protein表達(dá)水平矩陣和臨床數(shù)據(jù)矩陣,其中1046,285為miRNA和Protein的個數(shù),1206,937、1100為各自的病人數(shù)。112為臨床屬性。挑選同時擁有miRNA和蛋白質(zhì)表達(dá)水平并且有生存期的病人樣本78例。在miRNA表達(dá)數(shù)據(jù)和蛋白質(zhì)表達(dá)數(shù)據(jù)中有78個乳腺癌病人有生存期記錄,這78個人還有年齡,性別、癌癥分期和腫瘤大小等數(shù)據(jù)。選取乳癌病人共有的蛋白質(zhì)種類數(shù)據(jù),數(shù)據(jù)最終為78個乳癌病人的1046個miRNA數(shù)據(jù)。137個蛋白質(zhì)數(shù)據(jù)和7類臨床數(shù)據(jù)。臨床數(shù)據(jù)部分如表1。表1乳癌病人臨床數(shù)據(jù)部分?jǐn)?shù)據(jù)實(shí)施例2逐步多元回歸模型建立方法及結(jié)果1、逐步多元線性回歸預(yù)測模型的建立設(shè)病人的生存期y與miRNA、蛋白質(zhì)表達(dá)水平和臨床數(shù)據(jù)x1,x2,…,xp可能存在線性關(guān)系,其回歸模型為:y=Xβ+ε其中生存期向量為y=(y1,y2,…,yn)',向量參數(shù)為β=(β0,β1,β2,…,βp),隨機(jī)誤差為ε=(ε1,ε2,…,εp),矩陣X為X=1x11x12...x1p1x21x22...x2p............1xn1xn2...xnp]]>設(shè)普通最小二乘估計(jì)得到的回歸模型為yi=xiβ+εi式中xi——表示第i個病人的分子表達(dá)水平數(shù)據(jù)或臨床數(shù)據(jù),即xi=1xi1...xip;]]>yi——表示第i個病人的生存期數(shù)據(jù);εi——表示第i個病人的生存期預(yù)測誤差。如β的最小二乘估計(jì)解為b=(b0,b1,......,bp)=(XTX)-1XTY式中,b表示β的最小二乘估計(jì),XT為X的轉(zhuǎn)置。我們知xiβ為其模型的預(yù)測值。總平方和SST與殘差平方和SSE、回歸平方和SSR具有如下關(guān)系:SST=SSE+SSRβ的最小二乘估計(jì)解為b=(b0,b1,......,bp)=(XTX)-1XTY進(jìn)一步可以推出:SST=yTy-n(y‾)2]]>SSR=bTXTy-n(y‾)2]]>SSE=y(tǒng)Ty-bTXTy式中,yT表示y的轉(zhuǎn)置,表示y的均值。又SSE的自由度為n-p,SSR的自由度為p-1,回歸均方(MSR)和殘差均方(MSE)為:MSR=SSRp-1,MSE=SSEn-p]]>在逐步多元回歸分析中通過構(gòu)造F統(tǒng)計(jì)量,式中m——表示新方程中參數(shù)的個數(shù)來判斷是否引入一個新的變量或刪除原有的一個變量,在每引入一個新的變量都需要進(jìn)行是否需要刪除一個變量,即檢驗(yàn)新引入的變量是否與原有變量具有相關(guān)性。需要設(shè)置添加顯著性水平和刪除顯著性水平,添加顯著性水平應(yīng)該不小于刪除顯著性水平。2、結(jié)果在逐步多元回歸模型中,選取引入置信水平位0.95,刪除置信水平位0.90。對78個死亡乳癌病人的生存期數(shù)據(jù)與1046個miRNA表達(dá)水平進(jìn)行逐步多元回歸擬合。得到的擬合結(jié)果如表2所示。表2乳腺癌病人miRNA表達(dá)水平與生存期逐步多元回歸擬合結(jié)果當(dāng)把蛋白質(zhì)表達(dá)水平、臨床分期加入到線性回歸方程中,當(dāng)選取變量各數(shù)相同時,后者的準(zhǔn)確性顯然高于前者。蛋白質(zhì)是人體生命的真正體現(xiàn)者,與癌癥的腫瘤直徑、附近淋巴狀況和癌細(xì)胞是否發(fā)生遠(yuǎn)處轉(zhuǎn)移有密切的聯(lián)系,因此在回歸方程中加入蛋白質(zhì)可使效率更高。表3乳癌病人miRNA、蛋白質(zhì)表達(dá)水平和臨床數(shù)據(jù)與生存期逐步多元回歸擬合結(jié)果其中對臨床分析作如下變換:擬合系數(shù)為0.824016時,選取的10個變量(既包含RNA,蛋白質(zhì),也包含癌癥分期),hsa-mir-218-2,hsa-mir-3187,hsa-mir-320d-1,hsa-mir-378,hsa-mir-522,EGFR-R-V,F(xiàn)OXO3a_pS318_S321-R-C,PKC-delta_pS664-R-V,Snail-M-QC(前五個來自實(shí)施例1中miRNA庫數(shù)據(jù),后四個來自實(shí)施例1中蛋白質(zhì)庫數(shù)據(jù)),還有癌癥分期數(shù)據(jù)。由上可見,本發(fā)明通過引入蛋白質(zhì)表達(dá)水平,miRNA表達(dá)水平,以及癌癥分期等相關(guān)的數(shù)據(jù)來增加癌癥生存期預(yù)測準(zhǔn)確性。通過進(jìn)行逐步多元回歸方法建立miRNA表達(dá)水平,蛋白質(zhì)表達(dá)水平,癌癥分期與生存期之間的關(guān)系,發(fā)現(xiàn)逐步多元回歸方法所選取的某些特定的miRNA,蛋白質(zhì)以及癌癥分期與癌癥患者生存期具有很強(qiáng)的相關(guān)性。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。即本發(fā)明專利的方法可以擴(kuò)增到與癌癥類似的多種重大疾病的生存期預(yù)測。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
普陀区| 永新县| 阿拉善左旗| 枣强县| 永济市| 兰西县| 龙门县| 都江堰市| 雅安市| 贵港市| 中山市| 奉化市| 班玛县| 石台县| 天峻县| 涿州市| 安丘市| 米脂县| 农安县| 滨州市| 台江县| 万州区| 海南省| 铜川市| 疏附县| 台湾省| 凤山县| 游戏| 习水县| 岱山县| 曲松县| 辰溪县| 图木舒克市| 平潭县| 定州市| 建昌县| 兴和县| 象山县| 南木林县| 温泉县| 兴安盟|