本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體而言,涉及一種醫(yī)療信息處理方法和醫(yī)療信息處理裝置。
背景技術(shù):
目前,醫(yī)療服務(wù)信息化是國(guó)際發(fā)展趨勢(shì),隨著信息技術(shù)的快速發(fā)展,國(guó)內(nèi)越來越多的醫(yī)院正加速實(shí)施基于信息化平臺(tái)、HIS(Hospital Information System,醫(yī)院信息系統(tǒng))的整體建設(shè),以提高醫(yī)院的服務(wù)水平與核心競(jìng)爭(zhēng)力,醫(yī)療信息化不僅提升了醫(yī)生的工作效率,使醫(yī)生有更多的時(shí)間為患者服務(wù),更提高了患者滿意度和信任度,無形之中樹立起了醫(yī)院的科技形象。因此,醫(yī)療業(yè)務(wù)應(yīng)用與基礎(chǔ)網(wǎng)絡(luò)平臺(tái)的逐步融合正成為國(guó)內(nèi)醫(yī)院,尤其是大中型醫(yī)院信息化發(fā)展的新方向。
在醫(yī)療信息化過程中,醫(yī)療詞庫(kù)的構(gòu)建是一個(gè)非常重要且基礎(chǔ)的工作,醫(yī)療詞庫(kù)的構(gòu)建有助于實(shí)現(xiàn)病歷電子化,有助于對(duì)互聯(lián)網(wǎng)上大量的非結(jié)構(gòu)化的醫(yī)療文本進(jìn)行解析,也有助于實(shí)現(xiàn)病人病案的智能化分析。雖然國(guó)外有成熟的醫(yī)學(xué)詞庫(kù)系統(tǒng),但并不適合用于以中文為母語(yǔ)的國(guó)內(nèi)醫(yī)療詞庫(kù)。國(guó)內(nèi)也構(gòu)建了英漢平行語(yǔ)料庫(kù)、中醫(yī)藥學(xué)詞庫(kù)等,然而,國(guó)內(nèi)醫(yī)療詞庫(kù)中的詞并不全面,而且也缺乏一定的正確性。
因此,如何構(gòu)建出更加準(zhǔn)確、全面的醫(yī)療詞庫(kù)成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明正是基于上述問題,提出了一種新的技術(shù)方案,可以比較準(zhǔn)確、全面地挖掘出醫(yī)療文本中存在關(guān)聯(lián)關(guān)系的詞,從而根據(jù)存在關(guān)聯(lián)關(guān)系的詞構(gòu)建出的醫(yī)療詞庫(kù)更加準(zhǔn)確和全面。
有鑒于此,本發(fā)明的一方面提出了一種醫(yī)療信息處理方法,包括:對(duì) 多個(gè)醫(yī)療文本進(jìn)行切詞,以及對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類;根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本的詞,確定所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度;根據(jù)所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,判斷所述同一類別的醫(yī)療文本中任兩個(gè)醫(yī)療文本的詞是否存在關(guān)聯(lián)關(guān)系;在判斷結(jié)果為是時(shí),將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ)。
在該技術(shù)方案中,根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本中的詞確定每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,以根據(jù)每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度判斷該同一類別的任兩個(gè)醫(yī)療文本的詞之間是否存在關(guān)聯(lián)關(guān)系,并將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ),例如,存儲(chǔ)在醫(yī)療詞庫(kù)中,以構(gòu)建較為完善的醫(yī)療詞庫(kù)。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,B醫(yī)療文本中的詞有:發(fā)熱和咳嗽,C醫(yī)療文本中的詞有:咳嗽和著涼,可見,A與B中具有相近的詞:發(fā)燒和發(fā)熱,A與B之間的關(guān)聯(lián)度為30%,B與C中具有相同的詞:咳嗽,B與C之間的關(guān)聯(lián)度為50%,A與C中雖然沒有相同或相近的詞,但是,由于A與B之間有關(guān)聯(lián),B與C之間有關(guān)聯(lián),則可以確定A與C之間有關(guān)聯(lián),也就確定A與C的詞之間存在關(guān)聯(lián)關(guān)系。因此,本方案可以進(jìn)一步地挖掘出存在隱含關(guān)聯(lián)關(guān)系的詞,從而可以更加準(zhǔn)確、全面地挖掘出醫(yī)療文本中存在關(guān)聯(lián)關(guān)系的詞。進(jìn)一步地,可以根據(jù)存在關(guān)聯(lián)關(guān)系的詞構(gòu)建出醫(yī)療醫(yī)療信息的搜索引擎,或者實(shí)現(xiàn)醫(yī)療文本信息的自動(dòng)化分析等,為門診醫(yī)生及患者查詢疾病與癥狀提供便利。
優(yōu)選地,多個(gè)醫(yī)療文本可以是醫(yī)院的醫(yī)療系統(tǒng)中的電子病歷,還可以是利用爬蟲程序從醫(yī)學(xué)專業(yè)網(wǎng)站上獲取到的。由于多個(gè)醫(yī)療文本的規(guī)模比較大,因此,可以對(duì)多個(gè)醫(yī)療文本進(jìn)行分布式文件系統(tǒng)進(jìn)行存儲(chǔ)。
在上述技術(shù)方案中,優(yōu)選地,所述將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ)的步驟,還包括:根據(jù)所述任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度;將所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,具體地,可以將任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度作為任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,當(dāng)然還可以根據(jù)預(yù)設(shè)算法計(jì)算任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,從而根據(jù)詞之間的關(guān)聯(lián)度更加準(zhǔn)確、直觀地反映詞之間的關(guān)聯(lián) 程度。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,C醫(yī)療文本中的詞有:咳嗽和著涼,A與C之間的關(guān)聯(lián)度為10%,則感冒和咳嗽之間的關(guān)聯(lián)度為10%。
在上述任一技術(shù)方案中,優(yōu)選地,所述對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞的步驟,具體包括:根據(jù)詞典和所述多個(gè)醫(yī)療文本中詞的詞性,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行切詞。
在該技術(shù)方案中,可以根據(jù)詞典(優(yōu)選醫(yī)療詞典)中的詞和詞性對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,具體地,根據(jù)詞典中的詞對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,若詞典中不存在多個(gè)醫(yī)療文本中的詞語(yǔ),根據(jù)該詞語(yǔ)的詞性判斷其與前后詞語(yǔ)是否存在關(guān)聯(lián),是否需要組合成新的詞,從而有效地避免出現(xiàn)誤切詞和漏切詞的情況,進(jìn)而保證切詞的準(zhǔn)確性和全面性。
在上述任一技術(shù)方案中,優(yōu)選地,所述對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類的步驟,具體包括:根據(jù)國(guó)際疾病分類和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類。
在該技術(shù)方案中,可以根據(jù)國(guó)際疾病分類(International Classification of Disease,ICD)和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類,由于聚類得到的同一類別的醫(yī)療文本的患病相同,因此,聚類得到的同一類別的醫(yī)療文本的詞之間存在關(guān)聯(lián)的可能性比較大,然后對(duì)該同一類別的醫(yī)療文本進(jìn)行進(jìn)一步地處理,以保證處理速度。
在上述任一技術(shù)方案中,優(yōu)選地,所述將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ)的步驟,具體包括:根據(jù)所述存在關(guān)聯(lián)關(guān)系的詞的屬性,對(duì)所述存在關(guān)聯(lián)關(guān)系的詞進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)存在關(guān)聯(lián)關(guān)系的詞的屬性對(duì)該詞進(jìn)行存儲(chǔ),例如,詞的屬性為:身體部位(如“頭”、“四肢”等)、謂詞(如“疼痛”、“勞損”等)、疾病(如“發(fā)熱”、“心臟病”等)、藥物(如“格華止片”,“葡萄糖注射液”等)、治療手段(如“點(diǎn)滴”、“麻醉”等)、忽略詞(如“本院”、“患者”等對(duì)信息抽取沒有貢獻(xiàn)的詞),從而保證關(guān)聯(lián)關(guān)系的詞的存儲(chǔ)更加有條理。
本發(fā)明的另一方面提出了一種醫(yī)療信息處理裝置,包括:處理單元, 用于對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,以及對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類;第一確定單元,用于根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本的詞,確定所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度;判斷單元,用于根據(jù)所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,判斷所述同一類別的醫(yī)療文本中任兩個(gè)醫(yī)療文本的詞是否存在關(guān)聯(lián)關(guān)系;存儲(chǔ)單元,用于在判斷結(jié)果為是時(shí),將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ)。
在該技術(shù)方案中,根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本中的詞確定每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,以根據(jù)每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度判斷該同一類別的任兩個(gè)醫(yī)療文本的詞之間是否存在關(guān)聯(lián)關(guān)系,并將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ),例如,存儲(chǔ)在醫(yī)療詞庫(kù)中,以構(gòu)建較為完善的醫(yī)療詞庫(kù)。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,B醫(yī)療文本中的詞有:發(fā)熱和咳嗽,C醫(yī)療文本中的詞有:咳嗽和著涼,可見,A與B中具有相近的詞:發(fā)燒和發(fā)熱,A與B之間的關(guān)聯(lián)度為30%,B與C中具有相同的詞:咳嗽,B與C之間的關(guān)聯(lián)度為50%,A與C中雖然沒有相同或相近的詞,但是,由于A與B之間有關(guān)聯(lián),B與C之間有關(guān)聯(lián),則可以確定A與C之間有關(guān)聯(lián),也就確定A與C的詞之間存在關(guān)聯(lián)關(guān)系。因此,本方案可以進(jìn)一步地挖掘出存在隱含關(guān)聯(lián)關(guān)系的詞,從而可以更加準(zhǔn)確、全面地挖掘出醫(yī)療文本中存在關(guān)聯(lián)關(guān)系的詞。進(jìn)一步地,可以根據(jù)存在關(guān)聯(lián)關(guān)系的詞構(gòu)建出醫(yī)療醫(yī)療信息的搜索引擎,或者實(shí)現(xiàn)醫(yī)療文本信息的自動(dòng)化分析等,為門診醫(yī)生及患者查詢疾病與癥狀提供便利。
優(yōu)選地,多個(gè)醫(yī)療文本可以是醫(yī)院的醫(yī)療系統(tǒng)中的電子病歷,還可以是利用爬蟲程序從醫(yī)學(xué)專業(yè)網(wǎng)站上獲取到的。由于多個(gè)醫(yī)療文本的規(guī)模比較大,因此,可以對(duì)多個(gè)醫(yī)療文本進(jìn)行分布式文件系統(tǒng)進(jìn)行存儲(chǔ)。
在上述技術(shù)方案中,優(yōu)選地,所述存儲(chǔ)單元包括:第二確定單元,用于根據(jù)所述任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度;所述存儲(chǔ)單元具體用于,將所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,具體地,可以將任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度作為任兩個(gè)醫(yī) 療文本中詞的關(guān)聯(lián)度,當(dāng)然還可以根據(jù)預(yù)設(shè)算法計(jì)算任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,從而根據(jù)詞之間的關(guān)聯(lián)度更加準(zhǔn)確、直觀地反映詞之間的關(guān)聯(lián)程度。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,C醫(yī)療文本中的詞有:咳嗽和著涼,A與C之間的關(guān)聯(lián)度為10%,則感冒和咳嗽之間的關(guān)聯(lián)度為10%。
在上述任一技術(shù)方案中,優(yōu)選地,所述處理單元包括:切詞單元,用于根據(jù)詞典和所述多個(gè)醫(yī)療文本中詞的詞性,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行切詞。
在該技術(shù)方案中,可以根據(jù)詞典(優(yōu)選醫(yī)療詞典)中的詞和詞性對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,具體地,根據(jù)詞典中的詞對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,若詞典中不存在多個(gè)醫(yī)療文本中的詞語(yǔ),根據(jù)該詞語(yǔ)的詞性判斷其與前后詞語(yǔ)是否存在關(guān)聯(lián),是否需要組合成新的詞,從而有效地避免出現(xiàn)誤切詞和漏切詞的情況,進(jìn)而保證切詞的準(zhǔn)確性和全面性。
在上述任一技術(shù)方案中,優(yōu)選地,所述處理單元包括:聚類單元,用于根據(jù)國(guó)際疾病分類和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類。
在該技術(shù)方案中,可以根據(jù)國(guó)際疾病分類(International Classification of Disease,ICD)和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類,由于聚類得到的同一類別的醫(yī)療文本的患病相同,因此,聚類得到的同一類別的醫(yī)療文本的詞之間存在關(guān)聯(lián)的可能性比較大,然后對(duì)該同一類別的醫(yī)療文本進(jìn)行進(jìn)一步地處理,以保證處理速度。
在上述任一技術(shù)方案中,優(yōu)選地,所述存儲(chǔ)單元具體用于,根據(jù)所述存在關(guān)聯(lián)關(guān)系的詞的屬性,對(duì)所述存在關(guān)聯(lián)關(guān)系的詞進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)存在關(guān)聯(lián)關(guān)系的詞的屬性對(duì)該詞進(jìn)行存儲(chǔ),例如,詞的屬性為:身體部位(如“頭”、“四肢”等)、謂詞(如“疼痛”、“勞損”等)、疾病(如“發(fā)熱”、“心臟病”等)、藥物(如“格華止片”,“葡萄糖注射液”等)、治療手段(如“點(diǎn)滴”、“麻醉”等)、忽略詞(如“本院”、“患者”等對(duì)信息抽取沒有貢獻(xiàn)的詞),從而保證關(guān)聯(lián)關(guān)系的詞的存儲(chǔ)更加有條理。
通過本發(fā)明的技術(shù)方案,可以比較準(zhǔn)確、全面地挖掘出醫(yī)療文本中存 在關(guān)聯(lián)關(guān)系的詞,從而根據(jù)存在關(guān)聯(lián)關(guān)系的詞構(gòu)建出的醫(yī)療詞庫(kù)更加準(zhǔn)確和全面。
附圖說明
圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理方法的流程示意圖;
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理裝置的結(jié)構(gòu)示意圖;
圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理裝置的原理示意圖。
具體實(shí)施方式
為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理方法的流程示意圖。
如圖1所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理方法,包括:
步驟102,對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,以及對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類;
步驟104,根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本的詞,確定所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度;
步驟106,根據(jù)所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,判斷所述同一類別的醫(yī)療文本中任兩個(gè)醫(yī)療文本的詞是否存在關(guān)聯(lián)關(guān)系,在判斷結(jié)果為是時(shí),進(jìn)入步驟108,否則結(jié)束本次流程;
步驟108,將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ)。
在該技術(shù)方案中,根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本中的詞確定每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,以根據(jù)每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度判斷該同一類別的任兩個(gè)醫(yī)療文本的詞之間是否存在關(guān)聯(lián)關(guān)系,并將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ),例如,存儲(chǔ)在醫(yī)療詞庫(kù)中,以構(gòu)建較為完善的醫(yī)療詞庫(kù)。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,B醫(yī)療文本中的詞有:發(fā)熱和咳嗽,C醫(yī)療文本中的詞有:咳嗽和著涼,可見,A與B中具有相近的詞:發(fā)燒和發(fā)熱,A與B之間的關(guān)聯(lián)度為30%,B與C中具有相同的詞:咳嗽,B與C之間的關(guān)聯(lián)度為50%,A與C中雖然沒有相同或相近的詞,但是,由于A與B之間有關(guān)聯(lián),B與C之間有關(guān)聯(lián),則可以確定A與C之間有關(guān)聯(lián),也就確定A與C的詞之間存在關(guān)聯(lián)關(guān)系。因此,本方案可以進(jìn)一步地挖掘出存在隱含關(guān)聯(lián)關(guān)系的詞,從而可以更加準(zhǔn)確、全面地挖掘出醫(yī)療文本中存在關(guān)聯(lián)關(guān)系的詞。進(jìn)一步地,可以根據(jù)存在關(guān)聯(lián)關(guān)系的詞構(gòu)建出醫(yī)療醫(yī)療信息的搜索引擎,或者實(shí)現(xiàn)醫(yī)療文本信息的自動(dòng)化分析等,為門診醫(yī)生及患者查詢疾病與癥狀提供便利。
優(yōu)選地,多個(gè)醫(yī)療文本可以是醫(yī)院的醫(yī)療系統(tǒng)中的電子病歷,還可以是利用爬蟲程序從醫(yī)學(xué)專業(yè)網(wǎng)站上獲取到的。由于多個(gè)醫(yī)療文本的規(guī)模比較大,因此,可以對(duì)多個(gè)醫(yī)療文本進(jìn)行分布式文件系統(tǒng)進(jìn)行存儲(chǔ)。
在上述技術(shù)方案中,優(yōu)選地,步驟108還包括:根據(jù)所述任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度;將所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,具體地,可以將任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度作為任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,當(dāng)然還可以根據(jù)預(yù)設(shè)算法計(jì)算任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,從而根據(jù)詞之間的關(guān)聯(lián)度更加準(zhǔn)確、直觀地反映詞之間的關(guān)聯(lián)程度。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,C醫(yī)療文本中的詞有:咳嗽和著涼,A與C之間的關(guān)聯(lián)度為10%,則感冒和咳嗽之間的關(guān)聯(lián)度為10%。
在上述任一技術(shù)方案中,優(yōu)選地,所述對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞的步驟,具體包括:根據(jù)詞典和所述多個(gè)醫(yī)療文本中詞的詞性,對(duì)所述多個(gè)醫(yī) 療文本進(jìn)行切詞。
在該技術(shù)方案中,可以根據(jù)詞典(優(yōu)選醫(yī)療詞典)中的詞和詞性對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,具體地,根據(jù)詞典中的詞對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,若詞典中不存在多個(gè)醫(yī)療文本中的詞語(yǔ),根據(jù)該詞語(yǔ)的詞性判斷其與前后詞語(yǔ)是否存在關(guān)聯(lián),是否需要組合成新的詞,從而有效地避免出現(xiàn)誤切詞和漏切詞的情況,進(jìn)而保證切詞的準(zhǔn)確性和全面性。優(yōu)選地,對(duì)醫(yī)療文本進(jìn)行切詞得到的詞為醫(yī)療詞語(yǔ),從而避免無關(guān)詞匯(例如,每天、患者、本院)對(duì)確定醫(yī)療文本關(guān)聯(lián)度時(shí)的干擾。
在上述任一技術(shù)方案中,優(yōu)選地,所述對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類的步驟,具體包括:根據(jù)國(guó)際疾病分類和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類。
在該技術(shù)方案中,可以根據(jù)國(guó)際疾病分類(International Classification of Disease,ICD)和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類,由于聚類得到的同一類別的醫(yī)療文本的患病相同,因此,聚類得到的同一類別的醫(yī)療文本的詞之間存在關(guān)聯(lián)的可能性比較大,然后對(duì)該同一類別的醫(yī)療文本進(jìn)行進(jìn)一步地處理,以保證處理速度。
在上述任一技術(shù)方案中,優(yōu)選地,步驟108具體包括:根據(jù)所述存在關(guān)聯(lián)關(guān)系的詞的屬性,對(duì)所述存在關(guān)聯(lián)關(guān)系的詞進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)存在關(guān)聯(lián)關(guān)系的詞的屬性對(duì)該詞進(jìn)行存儲(chǔ),例如,詞的屬性為:身體部位(如“頭”、“四肢”等)、謂詞(如“疼痛”、“勞損”等)、疾病(如“發(fā)熱”、“心臟病”等)、藥物(如“格華止片”,“葡萄糖注射液”等)、治療手段(如“點(diǎn)滴”、“麻醉”等)、忽略詞(如“本院”、“患者”等對(duì)信息抽取沒有貢獻(xiàn)的詞),從而保證關(guān)聯(lián)關(guān)系的詞的存儲(chǔ)更加有條理。
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理裝置的結(jié)構(gòu)示意圖。
如圖2所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理裝置200,包括:處理單元202,用于對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,以及對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類;第一確定單元204,用于根據(jù)同一類別的醫(yī)療文本中每?jī)? 個(gè)醫(yī)療文本的詞,確定所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度;判斷單元206,用于根據(jù)所述每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,判斷所述同一類別的醫(yī)療文本中任兩個(gè)醫(yī)療文本的詞是否存在關(guān)聯(lián)關(guān)系;存儲(chǔ)單元208,用于在判斷結(jié)果為是時(shí),將存在關(guān)聯(lián)關(guān)系的詞進(jìn)行關(guān)聯(lián)存儲(chǔ)。
在該技術(shù)方案中,根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本中的詞確定每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,以根據(jù)每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度判斷該同一類別的任兩個(gè)醫(yī)療文本的詞之間是否存在關(guān)聯(lián)關(guān)系,并將存在關(guān)聯(lián)關(guān)系的詞關(guān)聯(lián)存儲(chǔ),例如,存儲(chǔ)在醫(yī)療詞庫(kù)中,以構(gòu)建較為完善的醫(yī)療詞庫(kù)。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,B醫(yī)療文本中的詞有:發(fā)熱和咳嗽,C醫(yī)療文本中的詞有:咳嗽和著涼,可見,A與B中具有相近的詞:發(fā)燒和發(fā)熱,A與B之間的關(guān)聯(lián)度為30%,B與C中具有相同的詞:咳嗽,B與C之間的關(guān)聯(lián)度為50%,A與C中雖然沒有相同或相近的詞,但是,由于A與B之間有關(guān)聯(lián),B與C之間有關(guān)聯(lián),則可以確定A與C之間有關(guān)聯(lián),也就確定A與C的詞之間存在關(guān)聯(lián)關(guān)系。因此,本方案可以進(jìn)一步地挖掘出存在隱含關(guān)聯(lián)關(guān)系的詞,從而可以更加準(zhǔn)確、全面地挖掘出醫(yī)療文本中存在關(guān)聯(lián)關(guān)系的詞。進(jìn)一步地,可以根據(jù)存在關(guān)聯(lián)關(guān)系的詞構(gòu)建出醫(yī)療醫(yī)療信息的搜索引擎,或者實(shí)現(xiàn)醫(yī)療文本信息的自動(dòng)化分析等,為門診醫(yī)生及患者查詢疾病與癥狀提供便利。
優(yōu)選地,多個(gè)醫(yī)療文本可以是醫(yī)院的醫(yī)療系統(tǒng)中的電子病歷,還可以是利用爬蟲程序從醫(yī)學(xué)專業(yè)網(wǎng)站上獲取到的。由于多個(gè)醫(yī)療文本的規(guī)模比較大,因此,可以對(duì)多個(gè)醫(yī)療文本進(jìn)行分布式文件系統(tǒng)進(jìn)行存儲(chǔ)。
在上述技術(shù)方案中,優(yōu)選地,所述存儲(chǔ)單元208包括:第二確定單元2082,用于根據(jù)所述任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度;所述存儲(chǔ)單元208具體用于,將所述任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度,確定任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,具體地,可以將任兩個(gè)醫(yī)療文本的關(guān)聯(lián)度作為任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,當(dāng)然還可以根據(jù)預(yù)設(shè)算法計(jì)算任兩個(gè)醫(yī)療文本中詞的關(guān)聯(lián)度,從而根據(jù)詞之間的關(guān)聯(lián)度更加準(zhǔn)確、直觀地反映詞之間的關(guān)聯(lián) 程度。例如,A醫(yī)療文本中的詞有:感冒和發(fā)燒,C醫(yī)療文本中的詞有:咳嗽和著涼,A與C之間的關(guān)聯(lián)度為10%,則感冒和咳嗽之間的關(guān)聯(lián)度為10%。
在上述任一技術(shù)方案中,優(yōu)選地,所述處理單元202包括:切詞單元2022,用于根據(jù)詞典和所述多個(gè)醫(yī)療文本中詞的詞性,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行切詞。
在該技術(shù)方案中,可以根據(jù)詞典(優(yōu)選醫(yī)療詞典)中的詞和詞性對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,具體地,根據(jù)詞典中的詞對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞,若詞典中不存在多個(gè)醫(yī)療文本中的詞語(yǔ),根據(jù)該詞語(yǔ)的詞性判斷其與前后詞語(yǔ)是否存在關(guān)聯(lián),是否需要組合成新的詞,從而有效地避免出現(xiàn)誤切詞和漏切詞的情況,進(jìn)而保證切詞的準(zhǔn)確性和全面性。優(yōu)選地,對(duì)醫(yī)療文本進(jìn)行切詞得到的詞為醫(yī)療詞語(yǔ),從而避免無關(guān)詞匯(例如,每天、患者、本院)對(duì)確定醫(yī)療文本關(guān)聯(lián)度時(shí)的干擾。
在上述任一技術(shù)方案中,優(yōu)選地,所述處理單元202包括:聚類單元2024,用于根據(jù)國(guó)際疾病分類和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類。
在該技術(shù)方案中,可以根據(jù)國(guó)際疾病分類(International Classification of Disease,國(guó)際疾病分類)和K-means算法,對(duì)所述多個(gè)醫(yī)療文本進(jìn)行聚類,由于聚類得到的同一類別的醫(yī)療文本的患病相同,因此,聚類得到的同一類別的醫(yī)療文本的詞之間存在關(guān)聯(lián)的可能性比較大,然后對(duì)該同一類別的醫(yī)療文本進(jìn)行進(jìn)一步地處理,以保證處理速度。
在上述任一技術(shù)方案中,優(yōu)選地,所述存儲(chǔ)單元208具體用于,根據(jù)所述存在關(guān)聯(lián)關(guān)系的詞的屬性,對(duì)所述存在關(guān)聯(lián)關(guān)系的詞進(jìn)行存儲(chǔ)。
在該技術(shù)方案中,根據(jù)存在關(guān)聯(lián)關(guān)系的詞的屬性對(duì)該詞進(jìn)行存儲(chǔ),例如,詞的屬性為:身體部位(如“頭”、“四肢”等)、謂詞(如“疼痛”、“勞損”等)、疾病(如“發(fā)熱”、“心臟病”等)、藥物(如“格華止片”,“葡萄糖注射液”等)、治療手段(如“點(diǎn)滴”、“麻醉”等)、忽略詞(如“本院”、“患者”等對(duì)信息抽取沒有貢獻(xiàn)的詞),從而保證關(guān)聯(lián)關(guān)系的詞的存儲(chǔ)更加有條理。
圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的醫(yī)療信息處理裝置的原理示意圖。
如圖3所示,醫(yī)療信息處理裝置300首先通過爬蟲技術(shù)從醫(yī)學(xué)專業(yè)網(wǎng)站中獲取醫(yī)學(xué)文本,以及在醫(yī)院的醫(yī)療系統(tǒng)中獲取電子病歷,由于在醫(yī)學(xué)專業(yè)網(wǎng)站和醫(yī)療系統(tǒng)中獲取的信息量很大,因此,將在醫(yī)學(xué)專業(yè)網(wǎng)站中獲取的醫(yī)學(xué)文本和電子病歷作為多個(gè)醫(yī)療文本存儲(chǔ)在分布式文件系統(tǒng)中,對(duì)多個(gè)醫(yī)療文本進(jìn)行切詞和聚類,然后根據(jù)同一類別的醫(yī)療文本中每?jī)蓚€(gè)醫(yī)療文本中的詞,采用Jacard方法計(jì)算每?jī)蓚€(gè)醫(yī)療文本的關(guān)聯(lián)度,例如對(duì)于兩個(gè)醫(yī)療文本A和B,A醫(yī)療文本進(jìn)行切詞之后的詞有:“患者”、“咽痛咽癢”、“無痰”、“胃脹”、“腰痛”,B醫(yī)療文本進(jìn)行切詞之后的詞有:“干咳”、“咽痛咽癢”、“無痰”、“胃痛”、“腰酸”、“怕冷”,通過計(jì)算可以得出完全相同的分詞對(duì):“咽痛咽癢”和“咽痛咽癢”,“無痰”和“無痰”;以及相似度較高的分詞對(duì)“胃脹”和“胃痛”,“腰痛”和“腰酸”。然后再采用向量余弦方法確定同一類別的醫(yī)療文本中任兩個(gè)醫(yī)療文本是否存在關(guān)聯(lián)關(guān)系,從而得到一些詞的關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系可能在采用Jacard方法計(jì)算相似度時(shí)中無法計(jì)算得出。例如上述兩個(gè)醫(yī)療文本A和B,以及另一個(gè)醫(yī)療文本C,C醫(yī)療文本進(jìn)行切詞之后的詞有:“發(fā)熱”、“咽痛咽癢”、“咳嗽”、“扁桃體發(fā)炎”,通過計(jì)算可知病歷A與C具有關(guān)聯(lián)關(guān)系,因此,A與C中的詞存在著關(guān)聯(lián)關(guān)系,如“咽痛咽癢”和“扁桃體發(fā)炎”存在關(guān)聯(lián)關(guān)系,然后將關(guān)聯(lián)關(guān)系的詞存儲(chǔ)在醫(yī)學(xué)詞庫(kù)中,從而構(gòu)建出一個(gè)面向醫(yī)療實(shí)際場(chǎng)景的醫(yī)學(xué)詞庫(kù)。
以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案,通過對(duì)醫(yī)院的醫(yī)療系統(tǒng)中的真實(shí)數(shù)據(jù)(即病歷)以及醫(yī)學(xué)專業(yè)網(wǎng)站中的醫(yī)療文本進(jìn)行分析,可以比較準(zhǔn)確、全面地挖掘出醫(yī)療文本中存在關(guān)聯(lián)關(guān)系的詞,從而構(gòu)建出一個(gè)面向醫(yī)療實(shí)際場(chǎng)景的醫(yī)學(xué)詞庫(kù)。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。