專利名稱:在計算機輔助診斷裝置中利用未診斷病例的預測建模方法
技術領域:
本發(fā)明涉及一種計算機輔助醫(yī)療診斷裝置,特別涉及一種結合協(xié)同訓練技術和集成學習技術從而有效利用已診斷和未診斷病例進行預測建模的方法。
背景技術:
隨著計算機技術的發(fā)展,計算機輔助醫(yī)療診斷裝置由于不受疲勞、情緒等因素的影響,已成為重要的輔助診斷手段。計算機輔助醫(yī)療診斷裝置通常是利用一些預測建模方法對病例進行分析,從而建立預測模型,然后再用該預測模型來對新病例進行診斷,其結果提交給醫(yī)學專家進行進一步的分析確診,從而在一定程度上減輕醫(yī)學專家的工作負擔。因此,預測建模方法是計算機輔助醫(yī)療診斷裝置的關鍵。
在計算機輔助醫(yī)療診斷中,往往需要對大量經(jīng)過醫(yī)學專家診斷的病例進行分析才能得到具有高預測精度的模型。隨著醫(yī)療衛(wèi)生的普及,大量可供建模的病例已經(jīng)可以從各種日常體檢中獲取。但是,如果讓醫(yī)療專家為每一個病例都給出相應的診斷,勢必會加重醫(yī)學專家們的負擔。通常,醫(yī)學專家們只能為少量病例提供診斷。然而,僅僅使用這些少量的已診斷病例來進行建模,預測模型往往難以達到所要求的精度,因此大大制約了計算機輔助醫(yī)療診斷裝置的效用。同時,如果不對那些已經(jīng)收集到的未診斷數(shù)據(jù)進行利用,勢必會造成資源的浪費。因此,如果預測建模方法能夠同時利用已診斷病例和未診斷病例來建立模型,使得在少量的已診斷病例上建立模型的預測精度可以通過對未診斷病例的利用得以提高,那么將會提高計算機輔助醫(yī)療診斷裝置的性能。
發(fā)明內(nèi)容
1、發(fā)明目的本發(fā)明的主要目的是針對現(xiàn)有計算機輔助醫(yī)療診斷中預測建模方法由于只能利用少量的已診斷病例進行建模,從而使得預測模型不能達到較高精度的問題,提供一種能夠同時利用已診斷病例和未診斷病例來建立模型,從而使得在少量的已診斷病例上建立模型的預測精度可以通過對未診斷病例的利用得以提高的預測建模方法,以輔助提高計算機輔助醫(yī)療診斷裝置的性能。
2、技術方案為實現(xiàn)上述目的,本發(fā)明提供一種結合協(xié)同訓練技術以及集成學習技術來利用已診斷病例和未診斷病例進行高精度預測建模的方法該方法包括通過醫(yī)學癥狀檢測設備獲取待診對象的癥狀形成癥狀向量,然后通過以下步驟得到預測結果(1)如果預測模型尚未建立,執(zhí)行步驟2,否則轉入步驟6;(2)根據(jù)已診斷病例和未診斷病例分別產(chǎn)生已標記訓練數(shù)據(jù)集和未標記訓練數(shù)據(jù)集;(3)根據(jù)已標記數(shù)據(jù)訓練一個隨機森林決策樹集成;(4)采用協(xié)同訓練技術利用未標記數(shù)據(jù)提高隨機森林中每個個體的預測精度;(5)采用多數(shù)投票機制來結合經(jīng)過步驟(4)精化過的個體,以產(chǎn)生預測模型;(6)利用預測模型進行預測并給出預測結果;(7)結束。
3、有益效果本發(fā)明的優(yōu)點在于為計算機輔助醫(yī)療診斷裝置提供了能夠利用可以方便獲取的大量未診斷病例,來提高只利用已診斷病例所建立模型精度的預測建模方法,以輔助提高計算機輔助醫(yī)療診斷裝置的性能。
下面將結合附圖對最佳實施例進行詳細說明。
四
圖1是計算機輔助醫(yī)療診斷裝置的工作流程圖。
圖2是本發(fā)明方法的流程圖。
圖3是隨機森林的訓練過程。
圖4是采用協(xié)同訓練技術利用未診斷病例來提高隨機森林中個體精度的流程圖。
五具體實施例方式
如圖1所示,計算機輔助醫(yī)療診斷裝置利用醫(yī)學癥狀檢測設備例如體溫、血壓測量設備等獲取待診對象的癥狀例如體溫、血壓等,然后將癥狀進行量化以得到癥狀向量,例如[t1,t2…,tn],其中t1表示第一個癥狀值,t2表示第二個癥狀值,依此類推。癥狀向量交給預測模型處理,即可得到預測結果,經(jīng)過文字化處理后,就產(chǎn)生了最后提交給用戶的診斷結論。
本發(fā)明的方法如圖2所示。步驟10是初始動作。步驟11判斷預測模型是否已經(jīng)訓練好,若已訓練好則可處理診斷任務,執(zhí)行步驟16;否則需進行訓練,執(zhí)行步驟12。步驟12利用已經(jīng)診斷過以及未診斷病例產(chǎn)生已標記訓練集L和未標記訓練集U,其中每個病例為一個樣本,標記為該樣本屬于某一個病癥或者是“健康”,未標記樣本的標記缺失。步驟13利用可重復取樣技術從L中訓練出N個隨機決策樹,從而組成一個特殊的決策樹集成——隨機森林。N是一個用戶預設的整數(shù)值,例如6,它確定了隨機森林所包含的隨機決策樹的個數(shù)。這里的隨機決策樹可以通過在機器學習教科書介紹的C4.5、CART等決策樹學習算法上修改而得,具體來說,當選擇樣本的某個特征作為決策樹的內(nèi)部結點時,C4.5、CART等算法都是每次從數(shù)據(jù)所有的特征中根據(jù)一定的判定原則挑選一個區(qū)分能力最強的特征來劃分數(shù)據(jù),而隨機決策樹則是先從所有可用的特征中隨機挑選一個子集,然后再從這個子集中選出一個區(qū)分能力最強的特征。因此,只需將C4.5、CART等算法中每次挑選特征的集合從特征全集隨機改為一個子集即可。步驟14采用協(xié)同訓練技術來利用U中未被未標記樣本來提高隨機森林中每個個體的精度,該步驟將在圖3中詳細介紹。在協(xié)同訓練完成以后,步驟15就是采用多數(shù)投票技術來結合所有利用未標記數(shù)據(jù)精化過的隨機決策樹的預測結果。具體來說就是最終隨機森林的預測結果保持和多數(shù)個體預測結果相同。步驟16接收待診斷的癥狀向量。步驟17將癥狀向量提交給經(jīng)過未標記數(shù)據(jù)精化過的隨機森林進行預測。步驟18給出隨機森林產(chǎn)生的預測結果。步驟19是結束狀態(tài)。
圖3詳細說明了圖2的步驟13,具體說明了如何利用L來產(chǎn)生隨機森林。圖3的步驟1300是起始狀態(tài)。步驟1301,1302以及1309構成了一個循環(huán)體,每一個循環(huán)體中建立一個隨機決策樹。一共建立N個。步驟1303把用于訓練第i個隨機決策樹訓練集置為空集。步驟1304,1305,1307構成一個循環(huán)體,用于從L中通過可重復取樣技術產(chǎn)生Li。其中M是Li的大小,通常和L的大小一樣。步驟1306,隨機的從L中挑選一個樣本拷貝到Li中。由于使用的是拷貝操作,剛被選中的樣本仍然可能在下一次循環(huán)中繼續(xù)被選中,因此該項技術被稱為可重復取樣技術。步驟1308,根據(jù)采用可重復取樣技術產(chǎn)生的訓練集Li構造一個隨機決策樹。步驟1310時結束狀態(tài)。
圖4詳細說明了圖2的步驟14,其作用是使用協(xié)同訓練技術來利用U中的未標記樣本來提高隨機森林中個體的精度。圖4的步驟1400是起始狀態(tài)。步驟1401分別初始化上一輪迭代中Hi(i=1,…,N)的誤差ei’為0.5以及上一輪迭代中使用的所有未標記樣本的權值和Wi’為0。其中Hi是隨機森林中除去個體hi以后所形成的隨機森林。步驟1402,1403以及1411構成一個循環(huán)用于遍歷所有的個體,從步驟1404到1410都位于該循環(huán)體中。步驟1404根據(jù)訓練數(shù)據(jù)估計Hi在本輪迭代中的誤差ei。步驟1405判斷如果Hi在本輪迭代的誤差ei小于上輪迭代的誤差ei’,則進行步驟1406,否則轉到步驟1411。步驟1406從U中隨機挑選若干樣本,并拷貝到集合Li,并且使得Li中所有樣本的總權值不超過ei’wi’/ei。對于U中的樣本來說,初始權值都為1。注意,在該步驟中,所挑選的樣本并不從U中去掉,因此已經(jīng)挑選過的樣本仍然可能會在以后繼續(xù)被挑選。步驟1407利用Hi對Li中樣本進行預測,把預測結果作為該樣本的標記賦給該樣本,并且記錄每個樣本的預測置信度。步驟1408檢查預測置信度是否大于某個預設閾值,如果是進行步驟1409,使用樣本對應的置信度為樣本加權,否則進行步驟1410,即從Li中刪除這些置信度較低的樣本。步驟1412,1413以及1417構成了一個循化條件,用于遍歷隨機森林中的每一個個體。從步驟1414到1416都位于該循環(huán)體之間。步驟1414,判斷Hi在本輪迭代的誤差ei小于上輪迭代的誤差ei’并且本輪迭代中Li的總權值Wi大于上一輪的總權值Wi’,如果是,Li可用來幫助提高當前版本的hi精度,因此進行步驟1415,否則不予考慮Li并轉到1417。步驟1415利用原來有標記的數(shù)據(jù)集L以及新標記數(shù)據(jù)集Li重新訓練隨機森林中的個體hi。步驟1416,把本輪迭代中的ei和wi賦給上輪的ei’和wi’,以便進入下一輪迭代。步驟1418判斷是否所有個體在本輪迭代中都沒有更新過,如果不是,轉步驟1402,開始新一輪的迭代,如果是,則進入步驟1419。步驟1419為結束狀態(tài)。
其中i、j、N、m均為自然數(shù),hi為第i個隨機決策樹,Hi為隨機森林H中除了hi以外的其它隨機決策樹所組成的隨機森林。L為已標記訓練集,Li是Hi為hi所挑選并標記的未標記數(shù)據(jù)集合,ei’和ei分別為Hi在上一輪迭代和本輪迭代中的誤差。wi’和wi分別為上一輪迭代和本輪迭代中Li中樣本的權值和。
權利要求
1.一種在計算機輔助診斷裝置中利用未診斷病例的預測建模方法,其特征在于該方法包括通過醫(yī)學癥狀檢測設備獲取待診對象的癥狀形成癥狀向量,然后通過以下步驟得到預測結果(1)如果預測模型尚未建立,執(zhí)行步驟(2),否則轉入步驟(6);(2)根據(jù)已診斷病例和未診斷病例分別產(chǎn)生已標記訓練數(shù)據(jù)集和未標記訓練數(shù)據(jù)集;(3)根據(jù)已標記數(shù)據(jù)訓練一個隨機森林決策樹集成;(4)采用協(xié)同訓練技術利用未標記病例提高隨機森林中每個個體的預測精度;(5)采用多數(shù)投票機制來結合經(jīng)過步驟(4)精化過的個體,以產(chǎn)生預測模型;(6)利用預測模型進行預測并給出預測結果;(7)結束。
2.根據(jù)權利要求1所述的在計算機輔助診斷裝置中利用未診斷病例的預測建模方法,其特征在于在步驟(3)中,所述的根據(jù)已標記數(shù)據(jù)訓練一個隨機森林決策樹集成的方法包括以下步驟(1301)置i為0;(1302)若i≤N,執(zhí)行步驟(1303),否則轉入步驟(1310);(1303)置Li為空集;(1304)置j為0;(1305)若j≤m,則執(zhí)行(1306),否則轉入(1308);(1306)從L中隨機挑選一個樣本拷貝到Li中;(1307)置j=j+1,轉入(1305);(1308)在Li上訓練一個隨機決策樹;(1309)置i=i+1,轉入(1302);(1310)結束;其中i、j、N、m均為自然數(shù),L為已標記訓練集,Li為第i個隨機決策樹訓練集。
3.根據(jù)權利要求1所述的在計算機輔助診斷裝置中利用未診斷病例的預測建模方法,其特征在于在步驟(4)中,所述的采用協(xié)同訓練技術利用未標記病例提高隨機森林中每個個體的預測精度的方法,包括以下步驟(1401)置每個個體的ei’為0.5,wi為0;(1402)置i為1;(1403)若i≤N,執(zhí)行步驟(1404),否則轉入(1412);(1404)估計Hi的誤差ei;(1405)若ei<ei’,執(zhí)行步驟(1406),否則轉入(1411);(1406)從未標記數(shù)據(jù)集U中亞取樣產(chǎn)生Li;(1407)使用Hi對Li中的樣本進行預測;(1408)如果預測的置信度大于閾值,執(zhí)行步驟(1409),否則轉入(1410);(1409)用置信度為樣本加權;(1410)從Li中刪除這些置信度未超過閾值的樣本;(1411)計數(shù)器i增加1;(1412)置i為1;(1413)若i≤N,執(zhí)行步驟(1414),否則轉入(1418);(1414)若ei<ei’且wi’<wi,執(zhí)行步驟(1415),否則轉入(1417);(1415)利用L和Li重新訓練hi;(1416)ei’置為ei,wi’置為wi;(1417)計數(shù)器i增加1;(1418)若所有的hi都沒有更新過,執(zhí)行步驟(1419),否則轉入(1402)(1419)結束;其中i、j、N、m均為自然數(shù),hi為第i個隨機決策樹,Hi為隨機森林H中除了hi以外的其它隨機決策樹所組成的隨機森林。L為已標記訓練集,Li是Hi為hi所挑選并標記的未標記數(shù)據(jù)集合,ei’和ei分別為Hi在上一輪迭代和本輪迭代中的誤差。wi’和wi分別為上一輪迭代和本輪迭代中Li中樣本的權值和。
全文摘要
本發(fā)明公開了一種在計算機輔助診斷裝置中利用未診斷病例的預測建模方法,該方法通過以下步驟得到預測結果(1)若預測模型未訓練好,則執(zhí)行步驟(2),否則轉到步驟(6);(2)利用已診斷病例和未診斷病例產(chǎn)生已標記和未標記訓練數(shù)據(jù)集;(3)利用已標記訓練數(shù)據(jù)集訓練出一個隨機森林;(4)采用協(xié)同訓練技術利用未標記數(shù)據(jù)來幫助提高隨機森林中每一個個體的精度;(5)利用多數(shù)投票技術產(chǎn)生最終的預測模型;(6)利用預測模型進行預測并給出結果。本發(fā)明的優(yōu)點是通過對未診斷病例的利用得以提高預測建模方法,以輔助提高計算機輔助醫(yī)療診斷裝置的性能。
文檔編號G06F19/00GK1760881SQ200510095420
公開日2006年4月19日 申請日期2005年11月14日 優(yōu)先權日2005年11月14日
發(fā)明者周志華, 黎銘 申請人:南京大學