本發(fā)明涉及醫(yī)學預測技術(shù)領(lǐng)域,具體地說,涉及一種基于醫(yī)療數(shù)據(jù)建模的川崎病分級預測方法。
背景技術(shù):
川崎病(Kawasaki disease,KD)是一種急性、自限性且病因不明的急性炎癥性血管炎,目前已經(jīng)成為最常見的嬰幼兒獲得性心臟病。如果沒能對川崎病嬰兒及時診斷和靜脈注射免疫球蛋白(IVIG)進行治療,可導致冠狀動脈擴張或動脈瘤。當前川崎病的發(fā)病機理未知,沒有有效的診斷測試方法,很容易被誤診為普通發(fā)燒。此外,有心血管后遺癥的川崎病患兒被誤診可能導致心肌梗死和死亡的概率是25%。
基于醫(yī)療數(shù)據(jù)建模的川崎病分級預測模型可以輔助診斷,有助于降低其誤診率,進一步改進其后續(xù)治療過程。目前存在的基于數(shù)據(jù)的川崎病分類模型多采用線性方法,典型代表為線性判別分析方法。
線性方法構(gòu)造的模型簡單,結(jié)果易于被醫(yī)生理解,但是不能有效利用數(shù)據(jù)樣本特征的非線性因素,提高模型性能和準確度。
技術(shù)實現(xiàn)要素:
為解決以上問題,本發(fā)明提供的一種基于醫(yī)療數(shù)據(jù)的川崎病分級預測方法,將待診斷病人分為高危、中危、低危三級,由于小樣本等原因暫時無法以高置信度確定的診斷結(jié)果可以被歸為中危級別以待進一步觀察,而高危病人的預報準確率也得到保障。其具體的技術(shù)方案如下:
一種基于醫(yī)療數(shù)據(jù)建模的川崎病分級預測方法,其包括以下步驟:
步驟1:數(shù)據(jù)樣本選擇;從樣本數(shù)據(jù)集中抽取可供建模的有效樣本;
步驟2:特征篩選;從構(gòu)建樣本數(shù)據(jù)的特征集合中篩選出符合現(xiàn)場醫(yī)療輔助診斷應(yīng)用的19項特征進行建模;
步驟3:川崎病分級模型構(gòu)建與評價,其步驟如下:
(3.1)使用隨機劃分的方式,將數(shù)據(jù)集分割為訓練集Xtrain、測試集Xtest和驗證集Xderivation三部分,比例為2:1:1;
(3.2)使用SVM回歸方法在訓練集上擬合Xtrain數(shù)據(jù)集,使用高斯核函數(shù),建模過程使用十折交叉驗證選取模型參數(shù),記錄最優(yōu)模型參數(shù)和支持向量序號;
(3.3)根據(jù)回歸模型使用導出集計算分級閾值tcase與tcontrol;
(3.4)結(jié)合導出集分級閾值,進行測試集樣本的分級預測。
進一步,步驟1中數(shù)據(jù)樣本選擇過程包括:
(1.1)對殘缺、錯誤數(shù)據(jù),將其值置為空;
(1.2)對重復數(shù)據(jù)進行刪除;
(1.3)對格式不標準數(shù)據(jù),通過數(shù)值編碼方式統(tǒng)一處理為數(shù)值格式。
進一步,步驟(3.3)中,tcase為正標簽或者叫做病例(case)的閾值,tcontrol為負標簽或者叫做對照(control)的閾值;大于tcase的被分級為高危病人,小于tcontrol的被分級為低危病人,其余的被劃分為中危病人。
進一步,步驟(3.3)中,按如下步驟進行:
A.假設(shè)導出集中數(shù)據(jù)樣本個數(shù)為S,根據(jù)回歸模型計算導出集中數(shù)據(jù)樣本是否川崎病的概率p,;
B.按照從大到小的順序排列p,假設(shè)當時,tcase=p;當前順序下大于等于此值的所有樣本為病例;
C.按照從小到大的順序排列p,當時,tcontrol=p,當前順序下小于等于此值的所有樣本為對照。
進一步,步驟2中所述19項特征為:
(2.1)臨床特征:
A.是否發(fā)燒大于38.3攝氏度(Fever>38.3℃ or 100.5°F:)
B.是否有皮疹(Rash)
C.兩眼是否發(fā)紅(Red eyes)
D.是否咽紅、紅嘴唇、或草莓舌(Red pharynx,red lips,or strawberry tongue)
E.是否頸部淋巴結(jié)>1.5厘米(Cervical lymph node>1.5cm)
F.是否紅或腫手/腳或手/腳脫皮(Red or swollen hands/feet or peeling of hands/feet)
G.患病天數(shù)(Days of illness)
(2.2)實驗數(shù)據(jù):
A.白細胞濃度(WBC×103/mm3)
B.中性粒細胞濃度(POLYS%)
C.帶狀核濃度(BANDS%)
D.淋巴細胞濃度(Lymphs%)
E.單核細胞濃度(MONOS%)
F.嗜酸粒細胞濃度(EOS%)
G.血紅蛋白濃度(HGB mg/dl)
H.血小板濃度(PLTS×103/mm3)
I.紅細胞沉降率(ESR mm/h)
J.C-反應(yīng)蛋白(CRP mg/dl)
K.丙氨酸氨基轉(zhuǎn)移酶(ALT IU/L)
L.谷氨酰轉(zhuǎn)肽酶(GGT IU/L)。
本發(fā)明所提供的一種基于醫(yī)療數(shù)據(jù)的川崎病分級預測方法,具有以下優(yōu)點:
本發(fā)明使用與川崎病相關(guān)的醫(yī)療數(shù)據(jù)進行系統(tǒng)的分析、建模,并給出模型評價方法,通過該模型能夠基于醫(yī)療數(shù)據(jù)有效的輔助川崎病診斷,有助于降低其誤診率,進一步改進其后續(xù)治療過程。
附圖說明
圖1為本發(fā)明一種基于醫(yī)療數(shù)據(jù)建模的川崎病分級預測方法的工作流示意圖。
具體實施方式
下面結(jié)合附圖及本發(fā)明的實施例對本發(fā)明的一種基于醫(yī)療數(shù)據(jù)建模的川崎病分級預測方法作進一步詳細的說明。
本發(fā)明主要基于電子病歷中的醫(yī)療數(shù)據(jù)進行建模,使用數(shù)據(jù)中蘊含的信息對病人是否患有川崎病進行預測,并將預測結(jié)果進行概率化描述。該發(fā)明包括針對醫(yī)療數(shù)據(jù)進行建模的數(shù)據(jù)處理流程和進行川崎病分類預測、分析、概率化等重要方法和結(jié)果。該發(fā)明結(jié)合了醫(yī)療數(shù)據(jù)和數(shù)據(jù)挖掘方法,是醫(yī)療數(shù)據(jù)與大數(shù)據(jù)分析方法結(jié)合的一種創(chuàng)新,該發(fā)明在一定程度上填補了國內(nèi)醫(yī)療數(shù)據(jù)研究的空白,在利用醫(yī)療數(shù)據(jù)進行川崎病分類預測分析方面具有創(chuàng)新性。
該發(fā)明使用醫(yī)療數(shù)據(jù)來源于醫(yī)院數(shù)據(jù)庫中收集的小兒發(fā)熱類電子病歷信息,數(shù)據(jù)中主要信息包括臨床數(shù)據(jù)和實驗數(shù)據(jù)以及患者川崎病類別。如圖1所示,基于醫(yī)療數(shù)據(jù)的川崎病分級預測方法具體步驟如下:
1.樣本選擇
原始數(shù)據(jù)集為dataset1,數(shù)據(jù)缺失嚴重病人被從數(shù)據(jù)集中移出,此時數(shù)據(jù)集為dataset2。
2.特征篩選
對于dataset2,進行特征篩選,計算每個特征對應(yīng)特征值的方差,去掉方差接近0的特征,此時數(shù)據(jù)集為dataset3。
3.川崎病分類模型構(gòu)建
1)將數(shù)據(jù)集分割為訓練集Xtrain、測試集Xtest和導出集X derivation三部分,比例
為2:1:1;
2)在Xtrain上使用SVM回歸方法進行建模,建模選擇核函數(shù)為徑向基核,調(diào)節(jié)參數(shù)為sigma、C,通過重復十次的十折交叉驗證進行模型評估,選取最優(yōu)模型。
4.根據(jù)導出集構(gòu)建分級模型并對測試集數(shù)據(jù)預測
1)使用訓練集和SVM回歸方法建立回歸預測模型,對導出集中每個病人預測其分類得分概率。
2)將川崎病分類得分概率按照升序排列,當分類得分大于某一值時,計算大于該值的記錄中所占比例。假設(shè)存在閾值p,分類得分大于p的人群中川崎病人數(shù)比例大于90%,此時,得到分類得分大于p的患者有90%以上的概率患有川崎病,其患有川崎病的概率為90%以上。
3)對測試集進行川崎病分類預測,計算相應(yīng)的分類得分。大于90分,預測其為川崎病高危病人,小于10%則為低危病人,其余為中危病人則需要醫(yī)生根據(jù)實際情況再做后續(xù)觀察。
概率化打分計算具體過程:根據(jù)測試集中川崎病分類得分,計算一系列的閾值p1、p2、p3…、p10,對應(yīng)打分為10、20、30、…、100,對于導出集中的病人,計算其川崎病分類得分,該得分必定落在某個區(qū)間[pi,p(i+1)],根據(jù)川崎病分類得分值和pi、p(i+1)對應(yīng)概率化打分,可通過線性計算出川崎病得分值。
實施例1:
為了驗證本發(fā)明的一種基于醫(yī)療數(shù)據(jù)建模的川崎病分級預測方法的有效性,本實施例選取時間范圍為2005.11-2013.6電子病歷中的894個病人數(shù)據(jù)。
1、數(shù)據(jù)處理:
根據(jù)本發(fā)明采用數(shù)據(jù)集具有形式為:每行表示為一個病人的信息,每列表示其一方面信息,如ID,體檢信息,川崎病類別等,數(shù)據(jù)集格式如表格1。原始數(shù)據(jù)集包含918個病人數(shù)據(jù),19個特征,其中36個重復數(shù)據(jù)記錄被從數(shù)據(jù)集中移出,最終剩余882個病人數(shù)據(jù)。
通過數(shù)據(jù)樣本選擇和特征篩選,最終生成數(shù)據(jù)集包含的882行,19列特征,如表1所示。
表1
2、最優(yōu)模型參數(shù)
將數(shù)據(jù)集隨機分為訓練集(441),測試集(220)和導出集(221),比例2:1:1,得到模型參數(shù)如表2所示:
表2
3、對預測結(jié)果進行概率化打分
驗證集結(jié)果如表3所示,本實驗中,驗證集包括121人。
表3
附注:關(guān)于分類問題一些指標解釋,對于二分類問題,定義兩個類別分別為正類和負類,正類中的每一個對象稱為正實例,負類中的每一個對象稱為負實例。通常,在預測川崎病時,川崎病樣本為正類,普通發(fā)燒患者為負類。使用分類模型對測試樣本進行預測,會有四種情況,如果一個實例是正類并被預測為真正類(True positive,TP),如果實例是負類被預測為正類,稱之為假正類(False postive,FP)。相應(yīng)的,相應(yīng)地,如果實例是負類被預測成負類,稱之為真負類(True negative,TN),正實例被預測成負類則為假負類(false negative,FN)。
TP:正實例預測為正類數(shù)目;
FN:正實例預測為負類數(shù)目;
FP:負實例預測為正類的數(shù)目;
TN:負實例預測為負類的數(shù)目;
敏感性(sensitivity):正類中正確預測為正類的實例比例,即TP/(TP+FN)
特異性(specificity):負類中被正確預測為負類的實例比例,即TN/(TN+FP)
陽性預測值(Positive Predictive Value,PPV):預測為正類的實例中,正實例占的比例,即TP/(TP+FP)。
以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所作的均等變化與修飾,皆應(yīng)屬本發(fā)明專利的涵蓋范圍。