本發(fā)明涉及疾病預(yù)測(cè)分析
技術(shù)領(lǐng)域:
方法,尤其涉及一種基于大數(shù)據(jù)分析建立疾病云圖的方法。
背景技術(shù):
:在醫(yī)療臨床診斷信息中,存在著大量的關(guān)于患者病情和個(gè)人的信息,包括患者的病史和某種疾病與各種癥狀,對(duì)這些醫(yī)學(xué)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,挖掘出其中隱藏著的大量的關(guān)聯(lián)規(guī)則,如癥狀屬性之間的關(guān)系,可以預(yù)測(cè)疾病的發(fā)展趨勢(shì)并且輔助醫(yī)生評(píng)估健康情況,做出診斷,對(duì)疾病的預(yù)防和治療都有重要的意義。在數(shù)據(jù)挖掘技術(shù)中,若兩個(gè)或多個(gè)變量的取值之間存在著某種規(guī)律性,就稱其為關(guān)聯(lián)(association)。關(guān)聯(lián)反映一個(gè)事件和其它事件之間的依賴關(guān)系或頻繁出現(xiàn)的程度。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)和數(shù)量關(guān)聯(lián)等。數(shù)據(jù)之間的關(guān)聯(lián)是復(fù)雜的,大部分是蘊(yùn)藏在大量數(shù)據(jù)后無(wú)法觀察得知的。關(guān)聯(lián)分析(associationanalysis)就是用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有價(jià)值的聯(lián)系。關(guān)聯(lián)分析所發(fā)現(xiàn)的聯(lián)系可以用關(guān)聯(lián)規(guī)則或者頻繁項(xiàng)集的形式表示。關(guān)聯(lián)規(guī)則(associationrule)是指在同一時(shí)間中出現(xiàn)的不同屬性項(xiàng)的相關(guān)性。從廣義上講,關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì),既然數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)潛藏在數(shù)據(jù)背后的知識(shí),那么這種知識(shí)一定是反映不同對(duì)象之間的關(guān)系;狹義上講,關(guān)聯(lián)分析是指一類特定的數(shù)據(jù)挖掘技術(shù),主要目的是挖掘數(shù)據(jù)庫(kù)中對(duì)象之間的關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有價(jià)值的知識(shí)。GIS具有對(duì)海量空間數(shù)據(jù)存儲(chǔ)、分析的特點(diǎn),又能迅速而又直觀地輸出分析結(jié)果,所以成為現(xiàn)代醫(yī)學(xué)研究有力的輔助工具,也被逐漸應(yīng)用于疾病預(yù)防和控制領(lǐng)域。大部分的流行病學(xué)研究資料都具有空間屬性,如人群和動(dòng)物的發(fā)病感染情況、宿主媒介的分布、溫濕度、降雨、土壤和衛(wèi)生設(shè)施等都與地理位置有關(guān),GIS可以通過(guò)空間關(guān)系將這些數(shù)據(jù)連接起來(lái),進(jìn)行交互顯示和分析,同時(shí)也為以后的統(tǒng)計(jì)分析提供基礎(chǔ)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明旨在提供一種基于大數(shù)據(jù)分析建立疾病云圖的方法,為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下:一種基于大數(shù)據(jù)分析建立疾病云圖的方法,利用GIS地圖和大數(shù)據(jù)架構(gòu)技術(shù),展示疾病在空間、時(shí)間上的分布情況,包括以下步驟:步驟1.采集數(shù)據(jù):獲取電子病歷數(shù)據(jù);步驟2.數(shù)據(jù)清洗和處理;對(duì)步驟1獲得的數(shù)據(jù)進(jìn)行轉(zhuǎn)換和清洗;轉(zhuǎn)換包括將不規(guī)范的病名進(jìn)行轉(zhuǎn)換,通過(guò)轉(zhuǎn)換將不規(guī)范的病名統(tǒng)一為標(biāo)準(zhǔn)規(guī)范的病名;通過(guò)清洗,將不合理、可能影響預(yù)測(cè)結(jié)果的數(shù)據(jù)進(jìn)行剔除;步驟3.采用數(shù)據(jù)挖掘技術(shù)對(duì)步驟2轉(zhuǎn)換和清理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,挖掘出頻繁項(xiàng)集,根據(jù)頻繁項(xiàng)集獲得癥狀屬性之間的關(guān)聯(lián)規(guī)則,根據(jù)關(guān)聯(lián)規(guī)則建立“疾病種類-患病時(shí)間-患病人數(shù)-地理位置”的結(jié)果集;步驟4.調(diào)用GIS地圖數(shù)據(jù),讀取步驟3獲得的結(jié)果集,根據(jù)結(jié)果集展示出疾病在空間、時(shí)間上的分布情況。進(jìn)一步的,所述步驟2中,對(duì)于有屬性值的數(shù)據(jù)進(jìn)行規(guī)范屬性取值:其中對(duì)取值既有文字又有離散數(shù)據(jù)的屬性將文字量化分類,轉(zhuǎn)化為離散屬性;對(duì)于只有文字的屬性根據(jù)業(yè)務(wù)定性,并將文字屬性轉(zhuǎn)化為離散屬性;對(duì)于只有離散數(shù)據(jù)的屬性則刪除該屬性;對(duì)于屬性缺值的數(shù)據(jù)有兩種處理方式:方式1:將缺值作為一種取值形式;方式2:忽略此屬性。進(jìn)一步的,所述步驟3中,設(shè)定最小支持度和最小信任度,將大于和/或等于最小支持度和最小信任度的關(guān)聯(lián)規(guī)則作為強(qiáng)關(guān)聯(lián)規(guī)則,如果一個(gè)患者的患病癥狀滿足某種疾病癥狀屬性的強(qiáng)關(guān)聯(lián)規(guī)則,則認(rèn)為其是這種疾病的患者,繼而獲取該患者的患病時(shí)間和地理位置,同時(shí)對(duì)患病人數(shù)進(jìn)行統(tǒng)計(jì)。進(jìn)一步的,所述步驟3中采用以下步驟挖掘頻繁項(xiàng)集:3.1遍歷某種疾病的所有候選癥狀屬性,確定各項(xiàng)屬性的支持頻度,其中所有候選癥狀屬性組成候選1項(xiàng)集:H1;3.2設(shè)定最小支持頻度,將H1中所有屬性的支持頻度與最小支持頻度進(jìn)行比較,將H1中支持頻度大于最小支持頻度的屬性組成頻繁1項(xiàng)集F1;3.3然后采用下列方法挖掘出頻繁k+1項(xiàng)集:Fk+1;(1)利用連接操作(Fk)⊕(Fk),來(lái)確定候選k+1項(xiàng)集:Hk+1,其中K=1,2…n;(2)對(duì)Hk+1中的屬性進(jìn)行掃描,計(jì)算出Hk+1中每個(gè)屬性的支持頻度,將Hk+1中所有支持頻度大于或等于最小支持頻度的屬性組成頻繁K+1項(xiàng)集:Fk+1;Fk中項(xiàng)集數(shù)目為|Fk|,則Ck+1中有個(gè)屬性;Ck+1是頻繁項(xiàng)集的候選集,即Ck+1包括了H1、…HK+1;(3)當(dāng)項(xiàng)集中所有屬性元素的支持頻度都小于最小支持頻度時(shí),結(jié)束算法;根據(jù)挖掘出的頻繁項(xiàng)集Fk+1獲取滿足最小支持度和最小信任度的強(qiáng)關(guān)聯(lián)規(guī)則,其中K=0,1,…n。進(jìn)一步的,利用公式(1)計(jì)算所獲關(guān)聯(lián)規(guī)則的信任度;Confidence(H⇒F)=P(H/F)=support_count(H∪F)support_count(H)---(1)]]>式(1)中,support_count(H∪F)為包含項(xiàng)集H∪F的事物數(shù),support_count(H)為包含項(xiàng)集H的事物數(shù),其中H是候選項(xiàng)集,F(xiàn)為頻繁項(xiàng)集,若則認(rèn)為這個(gè)關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則,其中min_counf為設(shè)置的最小信任度閥值。根據(jù)該公式,關(guān)聯(lián)原則可以產(chǎn)生如下:對(duì)于每個(gè)頻繁項(xiàng)集L,產(chǎn)生L的所有非空子集,對(duì)于L的每個(gè)非空子集,若則產(chǎn)生一個(gè)強(qiáng)關(guān)聯(lián)規(guī)則其中,min_counf為設(shè)置的最小信任度閥值。由于規(guī)則是通過(guò)頻繁項(xiàng)集直接產(chǎn)生的,因此關(guān)聯(lián)規(guī)則所涉及的所有項(xiàng)集均滿足最小支持度閾值。頻繁項(xiàng)集及其支持頻度可以存儲(chǔ)在列表中,使得他們能夠被快速存取。使用Apriori算法對(duì)所統(tǒng)計(jì)的病歷信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘。進(jìn)一步的,所述步驟3中,根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則,將結(jié)果數(shù)據(jù)儲(chǔ)存在結(jié)果表中,其中疾病種類、患病時(shí)間、患病人數(shù)和地理位置作為結(jié)果表的列族成員。優(yōu)選的,所述步驟4中,在百度地圖上增加圖層,以熱力圖的形式展示某種疾病在空間、時(shí)間和人群中的地理分布情況,其中圖層的覆蓋區(qū)域根據(jù)地理位置獲得,圖層透明度根據(jù)該區(qū)域內(nèi)的患病人數(shù)獲得。進(jìn)一步的,所述步驟1之前還包括,對(duì)圖層數(shù)據(jù)進(jìn)行初始化。進(jìn)一步的,所述步驟4中對(duì)百度地圖做二次接口開(kāi)發(fā),實(shí)現(xiàn)數(shù)據(jù)模型和GIS地圖的互聯(lián)互通和應(yīng)用響應(yīng)。本發(fā)明具有以下有益效果:1.本發(fā)明利用GIS地圖和大數(shù)據(jù)架構(gòu)技術(shù),展示疾病在空間、時(shí)間中的地理分布情況,為研究疾病的流行規(guī)律和探索疾病病因的提供基礎(chǔ)數(shù)據(jù);2.整合不同平臺(tái)的電子病歷數(shù)據(jù),解決以前數(shù)據(jù)分散、效率低下難以進(jìn)行數(shù)據(jù)集成和綜合分析的問(wèn)題;3.通過(guò)對(duì)疾病云圖數(shù)據(jù)分布的描述,認(rèn)識(shí)疾病流行的基本特征,是臨床診斷很有價(jià)值的重要信息;4.對(duì)疾病分布規(guī)律和決定因素的分析有助于為合理地制訂疾病的防制、保健對(duì)策及措施提供科學(xué)依據(jù)。附圖說(shuō)明圖1是胃脘痛的地理分布效果圖;圖2是咳嗽的地理分布效果圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。實(shí)施例1本實(shí)施例公開(kāi)的基于大數(shù)據(jù)分析建立疾病云圖的方法,利用GIS地圖和大數(shù)據(jù)架構(gòu)技術(shù),展示疾病在空間、時(shí)間中的地理分布情況,包括以下步驟:步驟1.采集數(shù)據(jù):獲取電子病歷數(shù)據(jù)。進(jìn)一步的,電子病歷數(shù)據(jù)來(lái)源于大數(shù)據(jù)采集平臺(tái)。大數(shù)據(jù)采集平臺(tái),采用云計(jì)算模式的醫(yī)療數(shù)據(jù)采集技術(shù),采集80多家醫(yī)院的臨床病歷資料,數(shù)據(jù)采用xml文件形式處理,提供統(tǒng)一、便捷的上傳接口,支持實(shí)時(shí)文件處理情況查詢、上傳批次管理以及問(wèn)題數(shù)據(jù)回滾,同時(shí)兼容其他數(shù)據(jù)格式處理和接口方式。步驟2.數(shù)據(jù)清洗和處理;對(duì)步驟1獲得的數(shù)據(jù)進(jìn)行轉(zhuǎn)換和清洗,轉(zhuǎn)換包括將不規(guī)范的病名進(jìn)行轉(zhuǎn)換,比如‘胃脘小痛'轉(zhuǎn)換為‘胃脘痛',通過(guò)轉(zhuǎn)換將不規(guī)范的病名統(tǒng)一為標(biāo)準(zhǔn)規(guī)范的病名。然后通過(guò)清洗,對(duì)不合理、可能影響預(yù)測(cè)結(jié)果的數(shù)據(jù)進(jìn)行剔除,如刪除病名為空的記錄。步驟3.采用數(shù)據(jù)挖掘技術(shù)對(duì)步驟2轉(zhuǎn)換和清理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,挖掘出頻繁項(xiàng)集,根據(jù)頻繁項(xiàng)集獲得癥狀屬性之間的關(guān)聯(lián)規(guī)則,根據(jù)關(guān)聯(lián)規(guī)則建立“疾病種類-患病時(shí)間-患病人數(shù)-地理位置”的結(jié)果集;步驟4.調(diào)用GIS地圖數(shù)據(jù),根據(jù)數(shù)據(jù)模型展示出疾病在空間、時(shí)間上的分布情況。本實(shí)施例中利用前端技術(shù),讀取后臺(tái)數(shù)據(jù)挖掘后的結(jié)果集,然后將疾病的分別情況展現(xiàn)在GIS的圖層上即可。前端技術(shù)又稱前端技術(shù)開(kāi)發(fā),是通過(guò)java語(yǔ)言開(kāi)發(fā)前端頁(yè)面,并讀取后臺(tái)數(shù)據(jù),展現(xiàn)到前端頁(yè)面。前端頁(yè)面可以是已經(jīng)存在的前端平臺(tái),也可以通過(guò)以下方法針對(duì)疾病云圖單獨(dú)建立一個(gè)前端頁(yè)面:1.編寫前端html頁(yè)面,并在java代碼里調(diào)用百度地圖的接口,從而實(shí)現(xiàn)基礎(chǔ)地圖的加載;2.在代碼里編寫一個(gè)圖層,定義時(shí)間、病種、人數(shù)、地區(qū)等傳入?yún)?shù),以及參數(shù)的分檔;3.在java代碼里編寫數(shù)據(jù)庫(kù)接口函數(shù),實(shí)現(xiàn)從數(shù)據(jù)挖掘的結(jié)果集里查詢出滿足條件的記錄,并傳給參數(shù);4.參數(shù)接到數(shù)據(jù)后則會(huì)根據(jù)步驟3建立的關(guān)聯(lián)規(guī)則,展示在GIS地圖上。參數(shù)分檔:對(duì)不同程度級(jí)別采用不同顏色表示,最小值=0、最大值=病人總數(shù),然后按照占比分檔,并用不同顏色代表,然后根據(jù)各個(gè)地區(qū)所在的檔級(jí),在GIS地圖上顯示各個(gè)地區(qū)對(duì)應(yīng)的顏色。進(jìn)一步的,所述步驟2中,對(duì)于有屬性值的數(shù)據(jù)進(jìn)行規(guī)范屬性取值:其中對(duì)取值既有文字又有離散數(shù)據(jù)的屬性將文字量化分類,轉(zhuǎn)化為離散屬性;對(duì)于只有文字的屬性根據(jù)業(yè)務(wù)定性,并將文字屬性轉(zhuǎn)化為離散屬性;對(duì)于只有離散數(shù)據(jù)的屬性則刪除該屬性;對(duì)于屬性缺值的數(shù)據(jù)有兩種處理方式:方式1:將缺值作為一種取值形式;方式2:忽略此屬性。根據(jù)數(shù)據(jù)情況來(lái)看,對(duì)于病名相對(duì)完整可以確定屬性的,可??;對(duì)于屬性模糊不可確定屬性的,則忽略。進(jìn)一步的,所述步驟3中,設(shè)定最小支持度和最小信任度,將大于和/或等于最小支持度和最小信任度的關(guān)聯(lián)規(guī)則作為強(qiáng)關(guān)聯(lián)規(guī)則,如果一個(gè)患者的患病癥狀滿足某種疾病癥狀屬性的強(qiáng)關(guān)聯(lián)規(guī)則,則認(rèn)為其是這種疾病的患者,繼而獲取該患者的患病時(shí)間和地理位置,同時(shí)對(duì)患病人數(shù)進(jìn)行統(tǒng)計(jì)。進(jìn)一步的,所述步驟3中采用以下步驟挖掘頻繁項(xiàng)集:3.1遍歷某種疾病的所有候選癥狀屬性,確定各項(xiàng)屬性的支持頻度,其中所有候選癥狀屬性組成候選1項(xiàng)集:H1。頻度就是出現(xiàn)的次數(shù),用統(tǒng)計(jì)方法統(tǒng)計(jì)出來(lái)即可。3.2設(shè)定最小支持頻度:min_support,將H1中所有屬性的支持頻度與min_support進(jìn)行比較,將H1中支持頻度大于min_support的屬性組成頻繁1項(xiàng)集F1;3.3然后采用下列方法挖掘出頻繁k+1項(xiàng)集:Fk+1;(1)利用連接操作(Fk)⊕(Fk),來(lái)確定候選k+1項(xiàng)集:Hk+1,其中K=1,2…n;(2)對(duì)Hk+1中的屬性進(jìn)行掃描,計(jì)算出Hk+1中每個(gè)屬性的支持頻度,將Hk+1中所有支持頻度大于min_support的屬性組成頻繁K+1項(xiàng)集:Fk+1;Fk中項(xiàng)集數(shù)目為|Fk|,則Ck+1中有個(gè)屬性;Ck+1是頻繁項(xiàng)集的候選集,即Ck+1包括了H1、…HK+1;(3)當(dāng)項(xiàng)集中所有屬性元素的支持頻度都小于min_support時(shí),結(jié)束算法;根據(jù)挖掘出的頻繁項(xiàng)集Fk+1獲取滿足最小支持度和最小信任度的強(qiáng)關(guān)聯(lián)規(guī)則,其中K=0,1,…n。進(jìn)一步的,利用公式(1)計(jì)算所獲關(guān)聯(lián)規(guī)則的信任度;Confidence(H⇒F)=P(H/F)=support_count(H∪F)support_count(H)---(1)]]>式(1)中,support_count(H∪F)為包含項(xiàng)集H∪F的事物數(shù),support_count(H)為包含項(xiàng)集H的事物數(shù),其中H是候選項(xiàng)集,F(xiàn)為頻繁項(xiàng)集,若則認(rèn)為這個(gè)關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則,其中min_counf為設(shè)置的最小信任度閥值。根據(jù)該公式,關(guān)聯(lián)原則可以產(chǎn)生如下:對(duì)于每個(gè)頻繁項(xiàng)集L,產(chǎn)生L的所有非空子集,對(duì)于L的每個(gè)非空子集,若則產(chǎn)生一個(gè)強(qiáng)關(guān)聯(lián)規(guī)則其中,min_counf為設(shè)置的最小信任度閥值。由于規(guī)則是通過(guò)頻繁項(xiàng)集直接產(chǎn)生的,因此關(guān)聯(lián)規(guī)則所涉及的所有項(xiàng)集均滿足最小支持度閾值。頻繁項(xiàng)集及其支持頻度可以存儲(chǔ)在列表中,使得它們能夠被快速存取。進(jìn)一步的,在步驟3中,根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則,將結(jié)果數(shù)據(jù)儲(chǔ)存在結(jié)果表中,其中疾病種類、患病時(shí)間、患病人數(shù)和地理位置作為結(jié)果表的列族成員。優(yōu)選的,步驟4中在百度地圖上增加圖層,以熱力圖的形式展示某種疾病在空間、時(shí)間和人群中的地理分布情況,其中圖層的覆蓋區(qū)域根據(jù)地理位置獲得,圖層透明度根據(jù)該區(qū)域內(nèi)的患病人數(shù)獲得。進(jìn)一步的,在步驟1之前對(duì)圖層數(shù)據(jù)進(jìn)行初始化。進(jìn)一步的,在步驟4中對(duì)百度地圖做二次接口開(kāi)發(fā),實(shí)現(xiàn)數(shù)據(jù)模型和GIS地圖的互聯(lián)互通和應(yīng)用響應(yīng)。實(shí)施例2本實(shí)施例以胃脘痛疾病為例,對(duì)本發(fā)明方法進(jìn)行詳細(xì)說(shuō)明。(1)原始病歷數(shù)據(jù)的預(yù)處理數(shù)據(jù)來(lái)源某醫(yī)院大數(shù)據(jù)倉(cāng)庫(kù)中的1000例胃脘痛疾病患者的病歷數(shù)據(jù)。所有數(shù)據(jù)均來(lái)源于實(shí)際病歷,排除在收錄、采集和抽取中的操作人員等人為因素,此病歷信息是完全真實(shí)可信的醫(yī)學(xué)數(shù)據(jù)。由于醫(yī)學(xué)數(shù)據(jù)的復(fù)雜性、多樣性和冗余性,為了避免數(shù)據(jù)挖掘過(guò)程陷入混亂,得到更精確的實(shí)驗(yàn)結(jié)果,首先我對(duì)患者的病歷數(shù)據(jù)進(jìn)行了預(yù)處理。原始病歷數(shù)據(jù)的屬性共有36個(gè)。通過(guò)觀察研究,發(fā)現(xiàn)原始數(shù)據(jù)中存在著大量的數(shù)據(jù)噪音和冗余數(shù)據(jù)等問(wèn)題,如屬性“疾病疼痛持續(xù)時(shí)間”有諸如“0”、“5~6分鐘”、“30分鐘”、“1~10分鐘”等近10余個(gè)取值且極不規(guī)范,而“陣發(fā)性夜間呼吸困難”和“疼痛放散部位”屬性中的取值也極不規(guī)范,包括空值、0、1類型的離散數(shù)據(jù)與“不能平臥”“雙肩背部”“肩背部頸部下頜部及左手臂至左指未端”等文字描述,一些屬性存在著絕大部分取值缺值的情況。對(duì)于這種情況,本實(shí)施例中采取如下方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:1.規(guī)范屬性取值:對(duì)取值既有文字又有離散數(shù)據(jù)的屬性根據(jù)具體情況將文字描述量化分類,轉(zhuǎn)化為離散屬性。例如對(duì)“疾病疼痛持續(xù)時(shí)間”,本文將不規(guī)范描述如“0”、“5~6分鐘”、“30分鐘”等量化為“0”——“無(wú)疼痛”,“1”——“疼痛持續(xù)時(shí)間小于10分鐘”,“2”——“疼痛持續(xù)時(shí)間大于10分鐘且小于30分鐘”,“3”——“疼痛持續(xù)時(shí)間大于30分鐘”。對(duì)于“陣發(fā)性夜間呼吸困難”中的“不能平臥”就設(shè)置為“0”“1”之外的第三種取值“2”;2.對(duì)于屬性缺值情況,有兩種處理方式,一是將缺值作為一種取值形式,二是忽略此屬性。選擇哪種方式要具體問(wèn)題具體分析,如原始數(shù)據(jù)中“病理性Q波”屬性,450例病歷中完全沒(méi)有一例取值,故將此屬性忽略;而對(duì)“心律失?!薄靶碾妶D檢測(cè)”兩個(gè)屬性,只存在少量缺值,而且根據(jù)醫(yī)學(xué)常識(shí)可知這兩項(xiàng)屬性在診斷胃脘痛時(shí)占有重要地位,在處理時(shí)本文將兩個(gè)屬性的缺值假定設(shè)置為“無(wú)異?!?。除上述處理方法外,還要注重對(duì)患者隱私的保護(hù),確保所使用數(shù)據(jù)不暴露患者任何隱私信息。(2)頻繁項(xiàng)集的挖掘過(guò)程模型算法的選取:針對(duì)同一種模型選擇適合的算法,本實(shí)施例以apriori算法為參考,并做了適度優(yōu)化。表1為胃脘痛的病歷信息數(shù)據(jù)表,胃脘痛共有6個(gè)癥狀體征屬性,為了挖掘出各種癥狀屬性之間的關(guān)聯(lián),使用Apriori的改進(jìn)算法對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘。表1:胃脘痛患者病歷信息表1中各屬性及取值含義如下:A=打嗝;B=脹氣;C=惡心;D=嘔吐;E=腹瀉;F=胸悶;G=胃病史;H=勞累或活動(dòng)后加重;I=休息后可自行緩解;J=含服硝酸脂類等藥物能緩解;K=陣發(fā)性疼痛。屬性取值為“1”代表此項(xiàng)癥狀存在,“0”代表此項(xiàng)癥狀為不存在。如序號(hào)為1的患者病歷信息顯示此患者有打嗝,且有惡心與腹瀉癥狀。使用Apriori改進(jìn)算法對(duì)表4.1中癥狀屬性之間的關(guān)系進(jìn)行關(guān)聯(lián)分析,其中的關(guān)鍵步驟是使用頻繁K-1項(xiàng)集:Fk-1生成頻繁K項(xiàng)集Fk,這一過(guò)程分為兩個(gè)步驟:首先,將Fk-1中任一兩個(gè)子項(xiàng)集連接,獲得一個(gè)候選集合Ck;然后,對(duì)Ck中的各元素進(jìn)行篩選,因?yàn)镃k中的各項(xiàng)集未必都是頻繁項(xiàng)集,繼而得到符合要求的項(xiàng)集組成Fk。下面結(jié)合此病歷數(shù)據(jù)詳細(xì)說(shuō)明頻繁項(xiàng)集的挖掘過(guò)程:2.1將所有候選癥狀屬性遍歷一次,確定各項(xiàng)的支持頻度,所有屬性組成候選1項(xiàng)集:H1;2.2設(shè)定最小支持頻度:min_support=10%,將H1中所有屬性的支持頻度與min_support比較,其中所有支持頻度大于min_support的屬性組成頻繁1項(xiàng)集:F1,在本病歷數(shù)據(jù)中,F(xiàn)1中所有組成元素和支持頻度如表2所示:表2:頻繁1項(xiàng)集屬性Support%打嗝40.909脹氣54.541惡心27.273嘔吐63.636腹瀉63.636胸悶54.541胃病史63.636勞累或活動(dòng)后加重22.727休息后可自行緩解27.273含服硝酸脂類等藥物能緩解22.727陣發(fā)性疼痛40.9092.3利用連接操作(F1)⊕(F1)確定候選2項(xiàng)集H2,頻繁1項(xiàng)集中項(xiàng)集數(shù)目為|F1|,則C2中有個(gè)屬性,C2是頻繁2項(xiàng)集的候選集,即C2包括了H1、H2;2.4對(duì)H2中的屬性進(jìn)行掃描,計(jì)算出每個(gè)屬性的支持頻度;2.5將2.4中得到的所有支持頻度大于min_support的屬性組成頻繁2項(xiàng)集:F2。在本實(shí)施例中,頻繁2項(xiàng)集如表3所示(因?yàn)榇瞬v中頻繁2項(xiàng)集較大,只選取其中一部分作為例子):表3:頻繁2項(xiàng)集2.6依照上述算法進(jìn)行迭代,可依次生成頻繁項(xiàng)集F3至F5,過(guò)程略。頻繁5項(xiàng)集:F5如表4所示:表4:頻繁5項(xiàng)集2.7當(dāng)算法再次迭代,項(xiàng)集中只有一個(gè)元素,經(jīng)過(guò)計(jì)算其支持頻度為9.091,小于min_support,故沒(méi)有新的項(xiàng)集發(fā)現(xiàn),算法結(jié)束。(3)強(qiáng)關(guān)聯(lián)規(guī)則的提取在從數(shù)據(jù)庫(kù)中挖掘出所有的頻繁項(xiàng)集后,就可以較容易獲得相應(yīng)的關(guān)聯(lián)規(guī)則。也就是要產(chǎn)生滿足最小支持度和最小信任度的強(qiáng)關(guān)聯(lián)規(guī)則,可以利用公式(1)來(lái)計(jì)算所獲關(guān)聯(lián)規(guī)則的信任度。這里的條件概率是利用項(xiàng)集的支持度來(lái)計(jì)算的。Confidence(H⇒F)=P(H/F)=support_count(H∪F)support_count(H)---(1)]]>式(1)中,support_count(H∪F)為包含項(xiàng)集H∪F的事物數(shù),support_count(H)為包含項(xiàng)集H的事物數(shù),其中H是候選項(xiàng)集,F(xiàn)為頻繁項(xiàng)集,若則認(rèn)為這個(gè)關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則,其中min_counf為設(shè)置的最小信任度閥值。由于關(guān)聯(lián)規(guī)則是通過(guò)頻繁項(xiàng)集直接產(chǎn)生的,因此關(guān)聯(lián)規(guī)則所涉及的所有項(xiàng)集均滿足最小支持度閾值。頻繁項(xiàng)集及其支持頻度可以存儲(chǔ)在列表中,使得他們能夠被快速存取。本實(shí)施例使用Apriori算法對(duì)所統(tǒng)計(jì)的1000例胃脘痛患者的病歷信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)置最小支持度min_support為30%,最小信任度min_conf為90%,得到強(qiáng)關(guān)聯(lián)規(guī)則部分如表5所示:表5:胃脘痛患者病歷癥狀屬性間的強(qiáng)關(guān)聯(lián)規(guī)則如果一個(gè)患者的癥狀滿足上述列表中任一項(xiàng)癥狀時(shí),則認(rèn)為其是胃脘痛的患者。比如這個(gè)患者前期的癥狀為:同時(shí)有惡心、腹瀉和胸悶三個(gè)癥狀,在含服硝酸脂類等藥物后能緩解上述癥狀,則認(rèn)為其是胃脘痛的患者。在確定這個(gè)患者患有胃脘痛時(shí),繼而獲取該患者的患病時(shí)間和地理位置,同時(shí)對(duì)患病人數(shù)進(jìn)行統(tǒng)計(jì)。根據(jù)上述方法,將數(shù)據(jù)庫(kù)中所有患有胃脘痛的患者都找出來(lái),同時(shí)統(tǒng)計(jì)患者人數(shù)。建立“疾病種類-患病時(shí)間-患病人數(shù)-地理位置”的結(jié)果表(如表6所示):表6:結(jié)果表由于患病時(shí)間和患病地理位置不好準(zhǔn)確統(tǒng)計(jì)。本實(shí)施例表6中,將就醫(yī)醫(yī)院的坐標(biāo)作為地理位置,將就醫(yī)時(shí)間作為患病時(shí)間。本實(shí)施例以胃脘痛為例(如表7所示),對(duì)參數(shù)分檔及顏色標(biāo)識(shí)舉例說(shuō)明:表7:胃脘痛參數(shù)分檔本實(shí)施例中用紅色代表1檔,即地圖顯示的紅色區(qū)域說(shuō)明這個(gè)地區(qū)的患病情況最嚴(yán)重,調(diào)用GIS地圖數(shù)據(jù),根據(jù)表6中的數(shù)據(jù)展示胃脘痛在空間、時(shí)間和人群中的地理分布情況,效果圖如圖1所示。根據(jù)上述方法,也可展示咳嗽在空間、時(shí)間和人群中的地理分布情況,效果圖如圖2所示。進(jìn)一步的,前臺(tái)中設(shè)有開(kāi)始時(shí)間、結(jié)束時(shí)間、病種種類,前臺(tái)的開(kāi)始和結(jié)束時(shí)間是兩個(gè)時(shí)間控件。在前臺(tái)選擇好時(shí)間段和疾病種類后,后臺(tái)程序?qū)⒔Y(jié)果表里滿足這個(gè)時(shí)間段和疾病種類的患病人數(shù)、地理坐標(biāo)傳給圖層,然后通過(guò)地圖展示出來(lái)。進(jìn)一步的,在結(jié)果表中對(duì)患者的年齡段進(jìn)行區(qū)分,將年齡段作為結(jié)果表的列族成員,展示疾病在不同年齡段中的分布情況。由于致病因子、人群特征以及自然、社會(huì)環(huán)境等多種因素綜合作用的影響,疾病在不同人群、不同地區(qū)及不同時(shí)間的流行強(qiáng)度不一,存在狀態(tài)也不完全相同。疾病的分布的研究既反映了疾病本身的生物學(xué)特性,也集中表現(xiàn)了疾病有關(guān)的各種內(nèi)外環(huán)境因素的效應(yīng)及其互相作用的特點(diǎn)。本發(fā)明利用GIS地圖和大數(shù)據(jù)架構(gòu)技術(shù),展示疾病在空間、時(shí)間和人群中的地理分布情況。整合不同平臺(tái)的電子病歷數(shù)據(jù),解決以前數(shù)據(jù)分散、效率低下難以進(jìn)行數(shù)據(jù)集成和綜合分析的問(wèn)題;為研究疾病的流行規(guī)律和探索疾病病因的提供基礎(chǔ)數(shù)據(jù),通過(guò)對(duì)疾病云圖數(shù)據(jù)分布的描述,認(rèn)識(shí)疾病流行的基本特征,是臨床診斷很有價(jià)值的重要信息;對(duì)疾病分布規(guī)律和決定因素的分析有助于為合理地制訂疾病的防制、保健對(duì)策及措施提供科學(xué)依據(jù)。當(dāng)然,本發(fā)明還可有其它多種實(shí)施方式,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3