專利名稱:2型糖尿病發(fā)病危險因素對血糖影響的定量分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多因素對血糖影響的定量分析方法,屬于生物信息處理及醫(yī)學(xué)領(lǐng)域。
背景技術(shù):
2型糖尿病已經(jīng)成為世界性的一個主要健康問題。預(yù)計到2025年,全世界將有3.8億人受到糖尿病的困擾。目前,我國已成為僅次于印度的糖尿病第二大國。據(jù)衛(wèi)生部調(diào)查顯示,我國糖尿病患者每天約新增3000例,每年約新增120萬例,其中約95%為2型糖尿病患者。2型糖尿病已成為繼癌癥和心腦血管病之后,位于第三位嚴重影響人類健康的慢性病,其病因是環(huán)境因素、遺傳因素、生活方式等相互作用的結(jié)果。目前已經(jīng)獲得共識的患病危險因素包括增齡、肥胖超重、血脂、血壓水平異常、糖尿病家族史等,多因素共同作用對血糖水平升高產(chǎn)生影響,進而導(dǎo)致發(fā)病。由于2型糖尿病一旦發(fā)病難以治愈,如果在發(fā)病前對危險因素進行干預(yù),能夠有效降低發(fā)病率,提高生活質(zhì)量。相關(guān)研究大多采用多元回歸、元分析、COX回歸等統(tǒng)計學(xué)方法,利用相對危險度研究危險因素與是否發(fā)病之間的關(guān)系。哈佛大學(xué)Hu F B等人的研究表明超重和肥胖是發(fā)生2型糖尿病的最重要因素。通過對比發(fā)現(xiàn),3.4%處于低危險組女性發(fā)生糖尿病的相對危險度為0.09,91%的發(fā)病者是由于不健康生活習(xí)慣造成的。Mhurchu C N等人采用cox回歸方法報道了亞太地區(qū)人群的體重指數(shù)和糖尿病發(fā)生之間聯(lián)系,發(fā)現(xiàn)在該地區(qū)降低體重指數(shù)能有效降低糖尿病的發(fā)病率?;虿捎枚嘣貧w算法和元分析,研究通常用相對危險度說明某一因素是否是發(fā)生2型糖尿病相關(guān)的危險因素,給出定性的結(jié)論。本發(fā)明采用BP神經(jīng)網(wǎng)絡(luò)算法計算敏感度,量化衡量危險因素對血糖變化的影響,通過敏感度反映出危險因素的變化對血糖變化的影響,用敏感度比較說明危險因素對血糖變化的定量影響程度,是對血糖變化特點與規(guī)律的過程相關(guān)因素探索,用于指導(dǎo)相應(yīng)干預(yù)措施,盡早控制血糖的升高趨勢,達到預(yù)防控制糖尿病發(fā)生的目的。
發(fā)明內(nèi)容
本發(fā)明的目的是為解決多因素對血糖影響定量分析的問題,提出一種基于BP神經(jīng)網(wǎng)絡(luò)的定量分析方法。本發(fā)明的設(shè)計原理為:使用C4.5和EM聚類算法篩選出主要的危險因素,用以確定定量分析的對象;對未患有2型糖尿病的全國抽樣人群體檢數(shù)據(jù),根據(jù)性別和年齡進行人群劃分;使用BP神經(jīng)網(wǎng)絡(luò)算法定量分析危險因素對血糖變化的影響。本發(fā)明在篩選出危險因素的同時對人群進行細化,通過定量分析多因素對血糖影響,在給出細化人群中多因素對血糖影響量化表示,且不同細化人群的多因素的量化排序不同,為個體細化干預(yù)提供判定方法。本發(fā)明的技術(shù)方案是通過如下步驟實現(xiàn)的:步驟1,獲取人群體檢數(shù)據(jù),形成未患有2型糖尿病的全國抽樣人群體檢數(shù)據(jù)源S。
具體方法為:為通過2001-2008年實測體檢數(shù)據(jù),得到完整可用的數(shù)據(jù)源,對體檢數(shù)據(jù)進行預(yù)處理,首先通過數(shù)據(jù)清理,填充空缺值、識別孤立點、消除噪聲并糾正數(shù)據(jù)中的不一致;再進行數(shù)據(jù)變換包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)語義的轉(zhuǎn)換;最后保證在信息不丟失的情況下,通過數(shù)據(jù)規(guī)約刪除重復(fù)因素和空缺值過多的因素,得到全國抽樣人群體檢數(shù)據(jù)源S={s1; s2, s3,…,sk},其中k為預(yù)處理后體檢人的總數(shù)。步驟2,在步驟I的基礎(chǔ)上,進行主要危險因素的篩選。具體過程如下:步驟2.1,數(shù)據(jù)處理實驗參數(shù)設(shè)定模塊。根據(jù)數(shù)據(jù)源S選擇進行主要危險因素篩選的算法,并設(shè)定算法的參數(shù)。步驟2.2,EM聚類算法模塊。具體方法為:對數(shù)據(jù)源S進行聚P類或q類的聚類實驗,改變參與實驗的危險因素的數(shù)量和種類,觀察實驗結(jié)果,得到能夠較好反映出人群特點的聚類結(jié)果,記錄參與聚類的危險因素。步驟2.3,EM聚類、C4.5分類組合實驗。具體方法為:EM聚類實驗部分的參與因素為上述聚類實驗所得的最佳聚類因素,進行聚P類或q類的聚類實驗,將數(shù)據(jù)源S按不同人群健康特點分開,在對不同健康特點的人群分別使用C4.5算法進行分析,分類參與因素為全部I維危險因素,分類實驗的標定門限值分別為R、V、T和Z,得到不同健康特點人群所對應(yīng)的分類決策樹。步驟2.4,對實驗結(jié)果進行統(tǒng)計,得到c維主要危險因素,根據(jù)醫(yī)學(xué)認知,進一步篩選得到u維主要危險因素。步驟3,根據(jù)性別和年齡,對經(jīng)步驟2得到的全國抽樣人群體檢數(shù)據(jù)源S進行劃分,生成細化人群。具體方法 為:首先按性別劃分,得到男性人群和女性人群;再分別按年齡大于e歲和小于等于e歲進行劃分,共得到d組細化人群。步驟4,使用經(jīng)步驟3得到的細化人群分別訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型,進而計算出不同危險因素對血糖影響的敏感度,利用敏感度實現(xiàn)定量分析。步驟4.1,在給定主要危險因素維數(shù)u下,使用d組細化人群訓(xùn)練生成d個BP神經(jīng)網(wǎng)絡(luò)模型,每個模型的生成方法為:步驟4.1.1,選取處理后訓(xùn)練數(shù)據(jù)的u維危險因素,作為模型的輸入,血糖作為模型的輸出,利用信息的正向傳播和誤差的反向傳播訓(xùn)練生成BP神經(jīng)網(wǎng)絡(luò)模型。輸入危險因素從輸入層經(jīng)隱含層逐層計算傳遞到輸出層,每一層神經(jīng)元只影響下一層神經(jīng)元的狀態(tài),如果輸出層沒有得到期望輸出,則計算輸出層的誤差變化值,然后進行反向傳播,通過網(wǎng)絡(luò)將誤差信號沿原來的連接通路反傳回來調(diào)整各神經(jīng)元的權(quán)值,經(jīng)過多次迭代,直至達到平均相對誤差小于σ,訓(xùn)練生成BP神經(jīng)網(wǎng)絡(luò)模型,計算模型輸出平均相對誤差。步驟4.1.2,再把驗證數(shù)據(jù)輸入已生成的BP神經(jīng)網(wǎng)絡(luò)模型,計算輸出血糖值,通過誤差計算得到驗證數(shù)據(jù)的平均相對誤差。步驟4.2,通過BP神經(jīng)網(wǎng)絡(luò)模型計算多因素對血糖影響的敏感度。敏感度是通過分析不同參數(shù)組合對模型模擬效果的影響,確定出的模型參數(shù)對模型輸出的貢獻率或影響程度。設(shè)有η-L-l前向網(wǎng)絡(luò)(η為BP神經(jīng)網(wǎng)絡(luò)模型輸入變量的個數(shù),L為BP神經(jīng)網(wǎng)絡(luò)模型的隱含層數(shù)目,I為模型輸出變量的個數(shù)),網(wǎng)絡(luò)輸出有如下形式:y=f(Xl,…,χη) (X為BP神經(jīng)網(wǎng)絡(luò)模型的輸入,y為BP神經(jīng)網(wǎng)絡(luò)模型的輸出)。以2個輸入危險因素為例,通過對該式求二階偏導(dǎo)來考察兩個輸入變量對輸出變量的敏感度。設(shè)神經(jīng)網(wǎng)絡(luò)的隱層激活函數(shù)為對數(shù)S型函數(shù)
權(quán)利要求
1.2型糖尿病發(fā)病危險因素對血糖影響的定量分析方法,其特征在于,所述方法包括以下步驟: 步驟1,獲取人群體檢數(shù)據(jù),形成未患有2型糖尿病的全國抽樣人群體檢數(shù)據(jù)源S。
步驟2,對數(shù)據(jù)源S篩選引起2型糖尿病的主要危險因素。
步驟3,根據(jù)性別和年齡,對經(jīng)步驟2得到的全國抽樣人群體檢數(shù)據(jù)源S進行劃分,生成細化人群。
步驟4,使用經(jīng)步驟3得到的細化人群分別訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型,進而計算出不同危險因素對血糖影響的敏感度,利用敏感度實現(xiàn)定量分析。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對數(shù)據(jù)源S篩選主要危險因素的步驟具體包括: 步驟1,數(shù)據(jù)處理實驗參數(shù)設(shè)定模塊。根據(jù)數(shù)據(jù)源S選擇進行主要危險因素篩選的算法,并設(shè)定算法的參數(shù)。
步驟2,EM聚類算法模塊。對數(shù)據(jù)源S進行聚P類或q類的聚類實驗,改變參與實驗的危險因素的數(shù)量和種類,觀察實驗結(jié)果,得到能夠較好反映出人群特點的聚類結(jié)果,記錄參與聚類的危險因素。
步驟3,EM聚類、C4. 5分類組合實驗。EM聚類實驗部分的參與因素為上述聚類實驗所得的最佳聚類因素,進行聚P類或q類的聚類實驗,將數(shù)據(jù)源S按不同人群健康特點分開,在對不同健康特點的人群分別使用C4.5算法進行分析,分類參與因素為全部I維危險因素,分類實驗的標定門限值分別為A、B、C和D,得到不同健康特點人群所對應(yīng)的分類決策樹。
步驟4,對實驗結(jié)果進行統(tǒng)計,得到c維主要危險因素,根據(jù)醫(yī)學(xué)認知,進一步篩選得到u維主要危險因素。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用經(jīng)步驟3得到的細化人群分別訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型,進而計算出不同危險因素對血糖影響的敏感度,利用敏感度實現(xiàn)定量分析,具體方法為: 步驟I,在給定主要危險因素維數(shù)u下,使用η組細化人群訓(xùn)練生成η個BP神經(jīng)網(wǎng)絡(luò)模型,每個模型的生成方法為: 步驟1.1,選取處理后訓(xùn)練數(shù)據(jù)的u維危險因素,作為模型的輸入,血糖作為模型的輸出,利用信息的正向傳播和誤差的反向傳播訓(xùn)練生成BP神經(jīng)網(wǎng)絡(luò)模型。輸入危險因素從輸入層經(jīng)隱含層逐層計算傳遞到輸出層,每一層神經(jīng)元只影響下一層神經(jīng)元的狀態(tài),如果輸出層沒有得到期望輸出,則計算輸出層的誤差變化值,然后進行反向傳播,通過網(wǎng)絡(luò)將誤差信號沿原來的連接通路反傳回來調(diào)整各神經(jīng)元的權(quán)值,經(jīng)過多次迭代,直至達到平均相對誤差小于σ,訓(xùn)練生成BP神經(jīng)網(wǎng)絡(luò)模型,計算模型輸出平均相對誤差。
步驟1.2,再把驗證數(shù)據(jù)輸入已生成的BP神經(jīng)網(wǎng)絡(luò)模型,計算輸出血糖值,通過誤差計算得到驗證數(shù)據(jù)的平均相對誤差。
步驟2,通過BP神經(jīng)網(wǎng)絡(luò)模型計算多因素對血糖影響的敏感度。敏感度是通過分析不同參數(shù)組合對模型模擬效果的影響,確定出的模型參數(shù)對模型輸出的貢獻率或影響程度。通過對不同危險因素進行敏感度分析,得到各發(fā)病危險因素對血糖變化的定量分析結(jié)果。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述細化人群生成方法為:首先按性別劃分,得到男性人群和女性人群;再分別按年齡大于e歲和小于等于e歲進行劃分,共得到d組細化人群。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,危險因素對血糖影響的敏感度計算方法為: 設(shè)有η-L-l前向網(wǎng)絡(luò)(η為BP神經(jīng)網(wǎng)絡(luò)模型輸入變量的個數(shù),L為BP神經(jīng)網(wǎng)絡(luò)模型的隱含層數(shù)目,I為模型輸出變量的個數(shù)),網(wǎng)絡(luò)輸出有如下形式:y=f(Xl,-,xn) (X為BP神經(jīng)網(wǎng)絡(luò)模型的輸入,y為BP神經(jīng)網(wǎng)絡(luò)模型的輸出)。以2個輸入危險因素為例,通過對該式求二階偏導(dǎo)來考察兩個輸入變量對輸出變量的敏感度。設(shè)神經(jīng)網(wǎng)絡(luò)的隱層激活函數(shù)為對數(shù)S型函數(shù)
全文摘要
本發(fā)明涉及2型糖尿病發(fā)病危險因素對血糖影響的定量分析方法,屬于生物信息處理及醫(yī)學(xué)領(lǐng)域。本發(fā)明首先使用C4.5和EM聚類算法實現(xiàn)重要發(fā)病危險因素的選擇;再根據(jù)性別和年齡對全體人群進行劃分,進而利用BP神經(jīng)網(wǎng)絡(luò)算法對細化人群進行敏感度計算,最終通過敏感度實現(xiàn)多因素對血糖影響的定量分析。與現(xiàn)有大量統(tǒng)計學(xué)方法相比,本發(fā)明采用數(shù)據(jù)挖掘方法,在充分考慮多因素之間相互影響的同時,在細化人群中實現(xiàn)多因素對血糖影響的定量分析,大大提高了定量分析的準確率,并可為個體發(fā)病的細化干預(yù)提供判定方法。本發(fā)明可對個體2型糖尿病發(fā)病進行干預(yù)指導(dǎo),不僅可以預(yù)防或延緩發(fā)病,而且該方法可應(yīng)用推廣到其它疾病危險因素的定量分析。
文檔編號G06N3/08GK103198211SQ201310074038
公開日2013年7月10日 申請日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 陳松景, 潘麗敏, 韓龍飛, 張鐵梅 申請人:北京理工大學(xué)