本技術(shù)涉及計算機(jī),尤其涉及一種糖尿病預(yù)測模型特征選取方法及裝置。
背景技術(shù):
1、特征選擇是訓(xùn)練糖尿病預(yù)測模型的預(yù)處理階段,直接影響到糖尿病預(yù)測模型的訓(xùn)練效率以及準(zhǔn)確性。通過消除多余的特征,能夠降低模型訓(xùn)練的復(fù)雜度,提升訓(xùn)練效率。特征選擇可以視為一個組合優(yōu)化任務(wù)。假設(shè)數(shù)據(jù)集中包含n個原始特征,則特征選擇過程傾向于從2n-1個可能的特征組合中選擇一個。然而當(dāng)特征數(shù)量很大時,幾乎不可能使用窮舉搜索找到最優(yōu)的特征子集。
2、目前常見的特征選擇方法有兩種,分別是包裝器方法和過濾器方法,其中,過濾器方法是根據(jù)數(shù)據(jù)的內(nèi)在屬性來評估特征,例如距離度量、相關(guān)性度量、一致性度量和信息度量等;包裝器方法是使用分類算法的預(yù)測精度來評估所選的特征子集,例如k-最近鄰、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)等。相比較而言,包裝器方法可以獲得較高的分類精度但是比較耗時,而過濾器方法通常運(yùn)算時間比較少但是獲得的精度較低。
3、因此,亟需一種更優(yōu)的特征選擇方法用于選取訓(xùn)練糖尿病預(yù)測模型的特征。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種糖尿病預(yù)測模型特征選取方法及裝置,用以提升特征選取的效率。
2、第一方面,本技術(shù)提供一種糖尿病預(yù)測模型特征選取方法,該方法包括:
3、確定與糖尿病預(yù)測相關(guān)的m個待選擇特征,m為正整數(shù);所述m個待選擇特征包括懷孕次數(shù)、血糖濃度、血壓水平、三頭肌皮褶厚度、胰島素水平、體重指數(shù)、糖尿病家族遺傳率以及年齡中的至少一個;
4、初始化特征選取結(jié)果集合,所述特征選取結(jié)果集合中任意一個特征選取結(jié)果均由m位二進(jìn)制數(shù)組成,所述m位二進(jìn)制數(shù)分別用于表示所述m個待選擇特征的選取情況;所述特征選取結(jié)果集合中的特征選取結(jié)果總數(shù)小于2m-1;
5、針對所述特征選取結(jié)果集合中的任意一個特征選取結(jié)果,根據(jù)所述特征選取結(jié)果構(gòu)建的多個樣本在預(yù)設(shè)分類器下的預(yù)測結(jié)果,確定所述特征選取結(jié)果的適應(yīng)度;所述預(yù)測結(jié)果表征樣本是否患有糖尿病的預(yù)測指示;
6、確定所述特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果;
7、基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新,得到第t輪的特征選取結(jié)果集合;
8、基于滿足迭代終止條件時的第m輪的特征選取結(jié)果集合,確定所述第m輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果為與糖尿病預(yù)測相關(guān)的n個最佳特征,n為正整數(shù)且n小于或等于m。
9、當(dāng)從m個待選擇特征中選取若干個特征來訓(xùn)練糖尿病預(yù)測模型時,通常是將m個待選擇特征的選取情況窮舉,共有2m-1種選取情況,然后分別計算這2m-1種選取情況的適應(yīng)度,將適應(yīng)度分?jǐn)?shù)最高的作為最終選取結(jié)果;當(dāng)m較大時,窮舉2m-1種選取情況以及計算各種選取情況的適應(yīng)度工作量較大,效率較低。本技術(shù)所提出的方法先初始化一個特征選取結(jié)果集合,該特征選取結(jié)果集合的特征選取結(jié)果總數(shù)是小于2m-1的,然后確定出特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,再基于適應(yīng)度最佳的特征選取結(jié)果進(jìn)行迭代更新,以獲取更多新的特征選取結(jié)果,增加特征選取結(jié)果集合中特征選取結(jié)果的數(shù)量,進(jìn)而增加出現(xiàn)適應(yīng)度更佳的特征選取結(jié)果的概率,且本技術(shù)所要計算適應(yīng)度的特征選取結(jié)果數(shù)量顯著減少,能夠加快m輪迭代的進(jìn)程,進(jìn)而加快n個最佳特征的確定,即提升n個最佳特征的確定效率。
10、在一種可能的設(shè)計中,所述根據(jù)所述特征選取結(jié)果構(gòu)建的多個樣本在預(yù)設(shè)分類器下的預(yù)測結(jié)果,確定所述特征選取結(jié)果的適應(yīng)度,包括:
11、針對所述特征選取結(jié)果構(gòu)建的任一樣本,將所述樣本輸入隨機(jī)森林分類器,得到所述樣本的預(yù)測指示;
12、根據(jù)多個樣本的預(yù)測指示與多個樣本的真實標(biāo)簽,確定所述特征選取結(jié)果的誤判結(jié)果;
13、基于所述特征選取結(jié)果的誤判結(jié)果,確定所述特征選取結(jié)果的適應(yīng)度。
14、隨機(jī)森林分類器在糖尿病預(yù)測場景中具有較好的表現(xiàn),換句話說,隨機(jī)森林分類器在預(yù)測糖尿病時具有較好的準(zhǔn)確率,因此,基于隨機(jī)森林分類器的輸出來來計算特征選取結(jié)果的適應(yīng)度能夠提升適應(yīng)度的準(zhǔn)確性。
15、在一種可能的設(shè)計中,基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新,包括:
16、在每輪迭代之前,確定第一隨機(jī)數(shù);
17、若所述第一隨機(jī)數(shù)小于預(yù)設(shè)數(shù)值,則采用貉藻算法的探索迭代過程,基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新;
18、若所述第一隨機(jī)數(shù)大于或等于所述預(yù)設(shè)數(shù)值,則采用所述貉藻算法的開發(fā)迭代過程,基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新。
19、本技術(shù)通過在每輪迭代前確定第一隨機(jī)數(shù)的方式來隨機(jī)切換每輪迭代的迭代模式,一種是貉藻算法的探索迭代過程,另一種是貉藻算法的開發(fā)迭代過程,其中,貉藻算法的探索迭代過程側(cè)重于大范圍搜索特征選取結(jié)果的可能性,而貉藻算法的開發(fā)迭代過程則專注于局部搜索,更加精細(xì)地優(yōu)化當(dāng)前適應(yīng)度最佳的特征選取結(jié)果;通過這兩種迭代過程的交替能夠有效平衡全局搜索與局部開發(fā),避免陷入局部最優(yōu)并提升搜索效率。
20、在一種可能的設(shè)計中,所述采用貉藻算法的探索迭代過程,基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新,包括:
21、采用所述貉藻算法的探索迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新后獲取的特征選取結(jié)果p(t)的計算公式為:
22、p(t)=p(t-1)+w1(2k+r1)
23、其中,p(t-1)為第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果;w1為r2×(kpbest+2k),pbest為第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,k為r1和r2為每輪迭代之前確定的隨機(jī)數(shù)。
24、貉藻算法的探索迭代過程中的w1和第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果無關(guān),且p(t)還和隨機(jī)數(shù)r1相關(guān),因此,貉藻算法的探索迭代過程中確定的迭代后的特征選取結(jié)果p(t)跳躍性更大,和迭代前的特征選取結(jié)果p(t-1)的差異較大,增加獲取不同的特征選取結(jié)果的可能性。
25、在一種可能的設(shè)計中,若采用所述貉藻算法的探索迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新時,進(jìn)行預(yù)設(shè)迭代輪數(shù)之后存在至少一個特征選取結(jié)果未發(fā)生變化,則引入高斯分布擾動對所述至少一個特征選取結(jié)果進(jìn)行迭代更新以獲取新的特征選取結(jié)果。
26、貉藻算法的探索迭代過程期望擴(kuò)大探索范圍或者說期望迭代后的特征選取結(jié)果與迭代前的特征選取結(jié)果差異較大,而高斯分布擾動的特性恰恰是隨機(jī)性,這種隨機(jī)性使得擾動的影響更加不可預(yù)測,可以幫助更廣泛地探索搜索空間,增加找到全局適應(yīng)度最佳的特征選取結(jié)果的機(jī)會。
27、在一種可能的設(shè)計中,所述采用所述貉藻算法的開發(fā)迭代過程,基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新,包括:
28、采用所述貉藻算法的開發(fā)迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新后獲取的特征選取結(jié)果p(t)的計算公式為:
29、p(t)=p(t-1)+kw2
30、其中,p(t-1)為第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果,w2為r3×(kpbest+r3p(t-1)),k為pbest為第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,r3為每輪迭代之前確定的隨機(jī)數(shù)。
31、貉藻算法的開發(fā)迭代過程中的w2和迭代前的特征選取結(jié)果p(t-1)相關(guān),因此,w2和迭代前的特征選取結(jié)果關(guān)聯(lián)更緊密,進(jìn)而再根據(jù)w2和迭代前的特征選取結(jié)果p(t-1)確定迭代后的特征選取結(jié)果p(t)能夠使得p(t)和p(t-1)關(guān)聯(lián)更緊密,換句話說,能夠使得迭代后的特征選取結(jié)果p(t)和迭代前的特征選取結(jié)果p(t-1)的差異較小。
32、此外,不論是貉藻算法的探索迭代過程還是開發(fā)迭代過程,迭代后的特征選取結(jié)果的計算公式均涉及參數(shù)k,且k隨著迭代輪數(shù)的增加逐步減小,k的減小使得搜索逐漸集中在適應(yīng)度最佳的特征選取結(jié)果附近進(jìn)行精細(xì)搜索,使得本技術(shù)提出的方法能夠有效利用每一輪迭代,提升效率。
33、在一種可能的設(shè)計中,若采用所述貉藻算法的開發(fā)迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新時,進(jìn)行預(yù)設(shè)迭代輪數(shù)之后存在至少一個特征選取結(jié)果未發(fā)生變化,則引入正弦擾動對所述至少一個特征選取結(jié)果進(jìn)行迭代更新以獲取新的特征選取結(jié)果。
34、貉藻算法的開發(fā)迭代過程期望迭代后的特征選取結(jié)果與迭代前的特征選取結(jié)果差異較小,而正弦擾動的特性恰恰是周期性,具體表現(xiàn)為在特征選取結(jié)果的附近上下波動,因此,基于正弦擾動確定的迭代后的特征選取結(jié)果與迭代前的特征選取結(jié)果差異較小,充分利用了正弦擾動的特性。
35、第二方面,本技術(shù)還提供一種糖尿病預(yù)測模型特征選取裝置,該裝置包括:確定模塊、初始化模塊以及迭代模塊;
36、所述確定模塊,用于確定與糖尿病預(yù)測相關(guān)的m個待選擇特征,m為正整數(shù);所述m個待選擇特征包括懷孕次數(shù)、血糖濃度、血壓水平、三頭肌皮褶厚度、胰島素水平、體重指數(shù)、糖尿病家族遺傳率以及年齡中的至少一個;
37、所述初始化模塊,用于初始化特征選取結(jié)果集合,所述特征選取結(jié)果集合中任意一個特征選取結(jié)果均由m位二進(jìn)制數(shù)組成,所述m位二進(jìn)制數(shù)分別用于表示所述m個待選擇特征的選取情況;所述特征選取結(jié)果集合中的特征選取結(jié)果總數(shù)小于2m-1;
38、所述確定模塊,還用于針對所述特征選取結(jié)果集合中的任意一個特征選取結(jié)果,根據(jù)所述特征選取結(jié)果構(gòu)建的多個樣本在預(yù)設(shè)分類器下的預(yù)測結(jié)果,確定所述特征選取結(jié)果的適應(yīng)度;所述預(yù)測結(jié)果表征樣本是否患有糖尿病的預(yù)測指示;
39、所述確定模塊,還用于確定所述特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果;
40、所述迭代模塊,用于基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新,得到第t輪的特征選取結(jié)果集合;
41、所述確定模塊,還用于基于滿足迭代終止條件時的第m輪的特征選取結(jié)果集合,確定所述第m輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果為與糖尿病預(yù)測相關(guān)的n個最佳特征,n為正整數(shù)且n小于或等于m。
42、在一種可能的設(shè)計中,所述確定模塊,具體用于針對所述特征選取結(jié)果構(gòu)建的任一樣本,將所述樣本輸入隨機(jī)森林分類器,得到所述樣本的預(yù)測指示;根據(jù)多個樣本的預(yù)測指示與多個樣本的真實標(biāo)簽,確定所述特征選取結(jié)果的誤判結(jié)果;基于所述特征選取結(jié)果的誤判結(jié)果,確定所述特征選取結(jié)果的適應(yīng)度。
43、在一種可能的設(shè)計中,所述迭代模塊,具體用于在每輪迭代之前,確定第一隨機(jī)數(shù);
44、若所述第一隨機(jī)數(shù)小于預(yù)設(shè)數(shù)值,則采用貉藻算法的探索迭代過程,基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新;
45、若所述第一隨機(jī)數(shù)大于或等于所述預(yù)設(shè)數(shù)值,則采用所述貉藻算法的開發(fā)迭代過程,基于第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新。
46、在一種可能的設(shè)計中,所述迭代模塊,具體用于采用所述貉藻算法的探索迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新后獲取的特征選取結(jié)果p(t)的計算公式為:
47、p(t)=p(t-1)+w1(2k+r1)
48、其中,p(t-1)為第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果;w1為r2×(kpbest+2k),pbest為第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,k為r1和r2為每輪迭代之前確定的隨機(jī)數(shù)。
49、在一種可能的設(shè)計中,還包括:若采用所述貉藻算法的探索迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新時,進(jìn)行預(yù)設(shè)迭代輪數(shù)之后存在至少一個特征選取結(jié)果未發(fā)生變化,則所述迭代模塊引入高斯分布擾動對所述至少一個特征選取結(jié)果進(jìn)行迭代更新以獲取新的特征選取結(jié)果。
50、在一種可能的設(shè)計中,所述迭代模塊,具體用于采用所述貉藻算法的開發(fā)迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新后獲取的特征選取結(jié)果p(t)的計算公式為:
51、p(t)=p(t-1)+kw2
52、其中,p(t-1)為第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果,w2為r3×(kpbest+r3p(t-1)),k為pbest為第t-1輪的特征選取結(jié)果集合中適應(yīng)度最佳的特征選取結(jié)果,r3為每輪迭代之前確定的隨機(jī)數(shù)。
53、在一種可能的設(shè)計中,還包括:若采用所述貉藻算法的開發(fā)迭代過程對第t-1輪的特征選取結(jié)果集合中的各特征選取結(jié)果進(jìn)行迭代更新時,進(jìn)行預(yù)設(shè)迭代輪數(shù)之后存在至少一個特征選取結(jié)果未發(fā)生變化,則所述迭代模塊引入正弦擾動對所述至少一個特征選取結(jié)果進(jìn)行迭代更新以獲取新的特征選取結(jié)果。
54、第三方面,本技術(shù)還提供一種糖尿病預(yù)測模型特征選取設(shè)備,該設(shè)備包括:處理器,以及與所述處理器通信連接的存儲器;
55、所述存儲器存儲計算機(jī)執(zhí)行指令;
56、所述處理器執(zhí)行所述存儲器存儲的計算機(jī)執(zhí)行指令,以實現(xiàn)上述第一方面所述的方法。
57、第四方面,本技術(shù)還提供一種計算機(jī)可讀存儲介質(zhì),所述可讀存儲介質(zhì)包括程序,當(dāng)所述程序在裝置上執(zhí)行時,使得所述裝置執(zhí)行如上述第一方面中任一項所述的方法。
58、第五方面,本技術(shù)還提供一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述第一方面所述的方法。