本發(fā)明屬于數(shù)據(jù)挖掘領域,具體地說是一種面向患者數(shù)據(jù)的感染人群特征建模算法。
背景技術:
1、伴隨著大數(shù)據(jù)技術的快速發(fā)展,使用數(shù)據(jù)挖掘技術來輔助醫(yī)生認識疾病特點,設計個性化診療方案已成為當下熱門創(chuàng)新領域質(zhì)疑。醫(yī)療患者數(shù)據(jù)是指在人們疾病防治、健康管理等過程中采集的與疾病防止,應急響應相關的數(shù)據(jù)。但是大數(shù)據(jù)通常數(shù)據(jù)量龐大且包含統(tǒng)計過程中不可避免的誤差,單靠人腦很難從中提取有價值的信息。
2、聚類技術是無監(jiān)督學習中最重要的任務之一,目的是將數(shù)據(jù)樣本分成不同的簇,使同一組中的數(shù)據(jù)點比不同組中的數(shù)據(jù)點更相似。聚類算法通常產(chǎn)生多個簇,和這個簇的數(shù)據(jù)原型。這個特點使得其通常用來對數(shù)據(jù)進行預分組,數(shù)據(jù)原型來表征簇的信息。但是傳統(tǒng)聚類技術所產(chǎn)生的簇存在以下問題,使其不能給醫(yī)生提供更多有價值的信息。
3、1)包含信息量少?,F(xiàn)有聚類算法所形成的簇包含信息量過少,對簇的描述只有一個代表該簇的患者特征信息,不存在該簇的特征范圍,特征隸屬度等信息。
4、2)可解釋性較差。現(xiàn)有聚類算法所形成的簇要么是完全的不規(guī)則形狀,要么是普通的圓形,這些形狀無法有效表示有價值的特征范圍,使得用戶對結果難以理解。
5、3)抗噪性能較差。算法不考慮排除數(shù)據(jù)集中的噪聲,使得最終形成的簇模型在數(shù)據(jù)量較大時受噪聲數(shù)據(jù)干擾。
技術實現(xiàn)思路
1、本發(fā)明為了解決上述當前技術存在的不足之處,提出一種一種針對傳染病患者的特征模糊模型構建方法,以期能在僅有少量疾病相關數(shù)據(jù)的情況下,快速構建出抗噪能力更好,可解釋性更強,包含信息量更多的病患群體模型,從而能快速對易感染人群進行建模,描述影響疾病感染的模糊特征,輔助醫(yī)生了解傳染病特點和易感染人群特征。
2、為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術方案:
3、本發(fā)明一種針對傳染病患者的特征模糊模型構建方法的特點在于,包括如下步驟:
4、步驟1、采集傳染病患者的各個特征并構建傳染病患者數(shù)據(jù)集,表示第個傳染病患者中的第j個特征,為傳染病患者的總數(shù),為每個傳染病患者的特征總數(shù);
5、步驟2、選出傳染病患者代表;
6、步驟2.1、利用dbscan算法將劃分為個傳染病患者簇,并統(tǒng)計出每個傳染病患者簇中的傳染病患者的個數(shù)以及噪聲傳染病患者的個數(shù),其中,表示第個傳染病患者簇,表示中傳染病患者的個數(shù),,位于中的任意第q個傳染病患者記為,;
7、步驟2.2、計算傳染病患者代表的個數(shù),其中,為選取的比率,從而根據(jù)式(3)計算第個傳染病患者簇中的傳染病患者代表的個數(shù);
8、?(3)
9、步驟2.3、計算中任意兩個傳染病患者之間的歐式距離并進行降序排列后,選取前個歐式距離的均值作為的密度半徑,從而得到的密度半徑;
10、步驟2.4、利用式(5)計算中第q個傳染病患者的代表性得分;
11、?(5)
12、式(5)中,表示正數(shù)激活函數(shù)函數(shù);表示中第q個傳染病患與第h個傳染病患者之間的歐式距離;
13、步驟2.5、根據(jù)式(6)計算中第q個傳染病患者的獨特性得分并進行歸一化后,得到歸一化后的患者獨特性得分;
14、?(6)
15、式(6)中,表示中第h個傳染病患者的代表性得分;
16、步驟2.6、根據(jù)式(8)計算中第q個傳染病患者的非噪聲得分:
17、?(8)
18、式(8)中,表示中第個傳染病患者的第個特征,表示中第個特征的最小值,表示中第個特征的最大值;
19、步驟2.7、根據(jù)式(9)計算中第個傳染病患者的最終候選分數(shù):
20、?(9)
21、步驟2.8、對中所有傳染病患者的最終候選分數(shù)進行降序排列,并取前個傳染病患者作為的傳染病患者代表,從而得到個傳染病患者簇的傳染病患者代表,其中,表示的第s個傳染病患者代表;
22、步驟3、基于步驟2選出的傳染病患者代表,構建傳染病患者人群的特征模糊模型;
23、步驟3.1、構建特征模糊模型的左端點適應度值,并使用遺傳算法對進行處理,得到傳染病患者人群的特征模糊模型的最優(yōu)左端點,其中,表示中圍繞所構建的第s個特征模糊模型在第j個特征上的最優(yōu)左端點;
24、步驟3.2、構建特征模糊模型的右端點適應度值,并使用遺傳算法對進行處理,得到傳染病患者人群的特征模糊模型的最優(yōu)右端點,其中,表示圍繞所構建的第s個特征模糊模型在第j個特征上的最優(yōu)右端點;
25、步驟3.3、構建特征模糊模型的再模糊適應度值,并使用遺傳算法對和進行處理,得到最終h個傳染病患者人群的特征模糊模型,且,表示特征模糊模型以激進估計的左端點,表示特征模糊模型以保守估計的左端點,表示特征模糊模型以保守估計的右端點,表示特征模糊模型以激進估計的右端點。
26、本發(fā)明所述的一種針對傳染病患者的特征模糊模型構建方法的特點也在于:所述步驟3.1中是利用式(10)構建左端點適應度值:
27、?(10)
28、式(10)中,表示中圍繞所構建的第s個特征模糊模型在第j個特征上的左端點,并作為遺傳種群中的一個個體;表示計算傳染病患者數(shù)量的函數(shù),表示位于中的第n個傳染病患者的第j個特征,表示滿足不等式的特征個數(shù);表示計算特征模糊模型精確度的函數(shù);
29、進一步的,所述步驟3.2是利用式(11)構建的右端點適應度值:
30、?(11)
31、式(11)中,表示中圍繞所構建的第s個特征模糊模型在第j個特征上的右端點,并作為遺傳種群中的一個個體。
32、進一步的,所述述步驟3.3是利用式(12)構建再模糊適應度值:
33、(12)
34、式(12)中,表示中圍繞所構建的第s個特征模糊模型在第j個特征上的參數(shù)集合,并作為遺傳種群中的一個個體,每個個體對應的參數(shù)集合包含:中圍繞所構建的第s個特征模糊模型在第j個特征上的以激進估計的左端點;中圍繞所構建的第s個特征模糊模型在第j個特征上的以保守估計的左端點;中圍繞所構建的第s個特征模糊模型在第j個特征上的保守估計的右端點;中圍繞所構建的第s個特征模糊模型在第j個特征上的激進估計的右端點;表示最優(yōu)個體,s.t.表示約束關系。
35、本發(fā)明一種電子設備,包括存儲器以及處理器的特點在于,所述存儲器用于存儲支持處理器執(zhí)行所述特征模糊模型構建方法的程序,所述處理器被配置為用于執(zhí)行所述存儲器中存儲的程序。
36、本發(fā)明一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)上存儲有計算機程序的特點在于,所述計算機程序被處理器運行時執(zhí)行所述特征模糊模型構建方法的步驟。
37、與已有技術相比,本發(fā)明的有益效果體現(xiàn)在:
38、1、本發(fā)明使用二型模糊集作為患者人群的模型框架,相較于聚類算法產(chǎn)生的簇具有更強的可解釋性,相較于一型模糊粒度數(shù)據(jù)又可以傳遞更多的患者信息,其最終得到的對患者群體特征的模糊描述,使得使用該方法建模的感染人群模型更易理解。
39、2、本發(fā)明引入了密度估計的數(shù)據(jù)挖掘思想,通過綜合考慮患者的代表性,獨特性和噪聲評估,所選出的患者代表相較于聚類算法產(chǎn)生的數(shù)據(jù)原型具有更強的代表性,更大的差異度,受噪聲的干擾也更小。
40、3、本發(fā)明充分考慮了感染人群特征模型自身包含的信息量和描述的精確程度,并引入遺傳算法來同時優(yōu)化這兩個指標。面向患者自身,使得最終模型具有高覆蓋性和強特異性。在患者群體的可解釋性和準確性之間達到良好的平衡。且通過問題拆分,將特征模糊模型的構建過程拆分成三個子步驟,有效降低了感染人群特征模型的構建時間。