欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法及裝置與流程

文檔序號(hào):12825354閱讀:261來源:國知局
面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法及裝置與流程

本發(fā)明涉及醫(yī)療實(shí)體識(shí)別技術(shù)領(lǐng)域,尤其涉及一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法及裝置。



背景技術(shù):

當(dāng)前,大數(shù)據(jù)時(shí)代,隨著醫(yī)療衛(wèi)生領(lǐng)域的不斷發(fā)展,醫(yī)療衛(wèi)生領(lǐng)域不同業(yè)務(wù)不同格式的數(shù)據(jù)從各個(gè)領(lǐng)域涌現(xiàn)出來,這些數(shù)據(jù)稱為醫(yī)療大數(shù)據(jù)。醫(yī)療大數(shù)據(jù)中隱藏著大量可以被識(shí)別和挖掘的信息,是一座醫(yī)學(xué)知識(shí)寶庫。因此如何利用醫(yī)療大數(shù)據(jù)為醫(yī)療機(jī)構(gòu)和廣大患者服務(wù)是目前重要的課題,也是移動(dòng)互聯(lián)網(wǎng)醫(yī)療時(shí)代的熱點(diǎn)也是重點(diǎn)問題。目前,醫(yī)療大數(shù)據(jù)的應(yīng)用方向有:1)臨床治療效果比較研究,主要思想是從醫(yī)療大數(shù)據(jù)中分析病人特征數(shù)據(jù)和療效數(shù)據(jù),比較不同干預(yù)措施的有效性,找到針對(duì)特定病人最佳治療途徑,從而提高臨床服務(wù)質(zhì)量。2)公共衛(wèi)生的疫情監(jiān)測,主要思想是從醫(yī)療大數(shù)據(jù)中分析某地區(qū)病人的發(fā)病情況、臨床癥狀等數(shù)據(jù),預(yù)測出該地區(qū)患有某疾病的可能與動(dòng)向,從而提高疾病預(yù)報(bào)和預(yù)警能力,防止疫情爆發(fā)??梢?,上述的醫(yī)療大數(shù)據(jù)的應(yīng)用離不開醫(yī)療數(shù)據(jù)中疾病類實(shí)體的識(shí)別。

近年來,醫(yī)療健康領(lǐng)域的蓬勃發(fā)展使得該領(lǐng)域的研究逐漸增多,例如醫(yī)療問答、智能診斷、疾病預(yù)警等。作為醫(yī)療健康數(shù)據(jù)分析的重要的一步,醫(yī)療實(shí)體識(shí)別(特別是疾病類實(shí)體識(shí)別)可以抽取出相關(guān)文本中存在的醫(yī)療術(shù)語,對(duì)后續(xù)研究的性能起到重要的作用。目前常見的實(shí)體識(shí)別技術(shù)有基于詞表的醫(yī)學(xué)實(shí)體識(shí)別和基于條件隨機(jī)場(conditionalrandomfields,簡稱crf)的醫(yī)學(xué)實(shí)體識(shí)別,然而基于詞表的醫(yī)學(xué)實(shí)體識(shí)別僅僅依靠語庫匹配,缺少上下文語境識(shí)別,且語庫匹配存在較大局限性。而基于crf的醫(yī)學(xué)實(shí)體識(shí)別技術(shù),缺少大數(shù)據(jù)語料庫和語言規(guī)則的應(yīng)用,語料均為人工標(biāo)注后的語料,而沒有利用半監(jiān)督學(xué)習(xí)等方法,增加對(duì)數(shù)量更龐大的未標(biāo)注數(shù)據(jù)的使用,使得模型不夠完善,缺少基于語言學(xué)與醫(yī)療信息的規(guī)則,僅僅依靠模型,對(duì)數(shù)據(jù)的針對(duì)性不夠強(qiáng)??梢姡?dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行疾病類實(shí)體識(shí)別。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的實(shí)施例提供一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法及裝置,以解決當(dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行疾病類實(shí)體識(shí)別的問題。

為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:

一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法,包括:

獲取原始數(shù)據(jù)中的待處理語句;

將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;

根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;

根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;

根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;

根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體;

若第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。

具體的,所述根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果,包括:

確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;

若待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果;

若待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果;

或者,確定來源于相同待處理語句的原始字符串的第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為疾病類實(shí)體結(jié)果。

具體的,所述原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病歷emr數(shù)據(jù)、電子健康檔案ehr數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括臨床結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療知識(shí)庫數(shù)據(jù)。

具體的,根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列,包括:

從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;

根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:

根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;

將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。

具體的,根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體,包括:

在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。

進(jìn)一步的,該面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法,還包括:

在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;

將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的疾病本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;

確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;

將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;

其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;

所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)。

具體的,根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體,包括:

將待處理語句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;

調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;

將預(yù)處理后的待處理語句采用最大匹配原則與預(yù)先設(shè)置的疾病本體庫進(jìn)行匹配切分,形成本體切分結(jié)果;

根據(jù)預(yù)處理后的待處理語句以及其中的本體切分結(jié)果,確定預(yù)處理后的待處理語句中除本體切分結(jié)果之外的其他字符;

將所述其他字符與所述本體切分結(jié)果以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第一切分結(jié)果;

將預(yù)處理后的待處理語句的原始字符串按順序檢查字符串中的符號(hào),并在字符串中的符號(hào)滿足預(yù)設(shè)切分條件時(shí),轉(zhuǎn)換為系統(tǒng)分隔符進(jìn)行切分,形成基于符號(hào)切分結(jié)果;

根據(jù)所述第一切分結(jié)果和基于符號(hào)切分結(jié)果中符號(hào)的類型和位置,以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第二組候選實(shí)體。

具體的,根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體,包括:

判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非疾病術(shù)語字符;

若各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非疾病術(shù)語字符,將所述候選實(shí)體舍棄。

一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置,包括:

待處理語句獲取單元,用于獲取原始數(shù)據(jù)中的待處理語句;

單字切分單元,用于將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;

實(shí)體標(biāo)記序列確定單元,用于根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;

第一組候選實(shí)體確定單元,用于根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;

第二組候選實(shí)體確定單元,用于根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;

候選實(shí)體篩選單元,用于根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體;

疾病類實(shí)體結(jié)果確定單元,用于在第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同時(shí),根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。

具體的,所述疾病類實(shí)體結(jié)果確定單元,包括:

術(shù)語切分判斷模塊,用于確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;

疾病類實(shí)體結(jié)果確定模塊,用于在待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果;在待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果;

所述疾病類實(shí)體結(jié)果確定模塊,還用于確定來源于相同待處理語句的原始字符串的第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為疾病類實(shí)體結(jié)果。

具體的,所述待處理語句獲取單元中的原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病歷emr數(shù)據(jù)、電子健康檔案ehr數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括臨床結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療知識(shí)庫數(shù)據(jù)。

進(jìn)一步的,所述實(shí)體標(biāo)記序列確定單元,包括:

crf統(tǒng)計(jì)特征值提取模塊,用于從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值;

訓(xùn)練模型確定模塊,用于根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:

實(shí)體標(biāo)記計(jì)算模塊,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj;

實(shí)體標(biāo)記序列確定模塊,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。

此外,所述第一組候選實(shí)體確定單元,具體用于:

在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。

進(jìn)一步的,所述的面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置,還包括語料庫更新單元,用于:

在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;

將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的疾病本體庫匹配,在匹配成功時(shí),將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;

確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例;

將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新;

其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;

所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)。

此外,所述第二組候選實(shí)體確定單元,包括:

預(yù)處理模塊,用于將待處理語句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句;

本體切分模塊,用于將預(yù)處理后的待處理語句采用最大匹配原則與預(yù)先設(shè)置的疾病本體庫進(jìn)行匹配切分,形成本體切分結(jié)果;

第一切分結(jié)果形成模塊,用于根據(jù)預(yù)處理后的待處理語句以及其中的本體切分結(jié)果,確定預(yù)處理后的待處理語句中除本體切分結(jié)果之外的其他字符;將所述其他字符與所述本體切分結(jié)果以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第一切分結(jié)果;

符號(hào)切分模塊,用于將預(yù)處理后的待處理語句的原始字符串按順序檢查字符串中的符號(hào),并在字符串中的符號(hào)滿足預(yù)設(shè)切分條件時(shí),轉(zhuǎn)換為系統(tǒng)分隔符進(jìn)行切分,形成基于符號(hào)切分結(jié)果;

第二組候選實(shí)體形成模塊,用于根據(jù)所述第一切分結(jié)果和基于符號(hào)切分結(jié)果中符號(hào)的類型和位置,以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第二組候選實(shí)體。

此外,所述候選實(shí)體篩選單元,包括:

非疾病術(shù)語字符判斷模塊,用于判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非疾病術(shù)語字符;

候選實(shí)體舍棄模塊,用于在各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非疾病術(shù)語字符時(shí),將所述候選實(shí)體舍棄。

本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法及裝置,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體;若第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別疾病類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法的流程圖一;

圖2為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法的流程圖二;

圖3為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖一;

圖4為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖二。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

如圖1所示,本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法,包括:

步驟101、獲取原始數(shù)據(jù)中的待處理語句。

步驟102、將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。

步驟103、根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列。

步驟104、根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體。

步驟105、根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體。

步驟106、根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體。

步驟107、若第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。

本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體;若第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別疾病類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。

為了使本領(lǐng)域的技術(shù)人員更好的了解本發(fā)明,下面結(jié)合具體的實(shí)例來說明本發(fā)明。如圖2所示,本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法,包括:

步驟201、獲取原始數(shù)據(jù)中的待處理語句。

具體的,所述原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病歷emr(electronicmedicalrecord)數(shù)據(jù)、電子健康檔案ehr(electronichealthrecord)數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括臨床結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療知識(shí)庫數(shù)據(jù)、文獻(xiàn)庫數(shù)據(jù)等。可見,本發(fā)明實(shí)施例所能處理的原始數(shù)據(jù)多樣,不僅僅局限于單一數(shù)據(jù)源。

步驟202、將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。

例如,待處理語句為“高血壓怎么治療?”,則單字切分后,每個(gè)文字為:“高”、“血”、“壓”、“怎”、“么”、“治”、“療”、“?”。

步驟203、從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值。

所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。

對(duì)于預(yù)先設(shè)置的語料庫可以由人為預(yù)先標(biāo)注,例如語句:

“高血壓能否吃法華林?”

“高血壓怎么治療?”

則對(duì)于疾病類實(shí)體,可以分別標(biāo)注出:

c=高血壓p=1:01:2

c=高血壓p=2:02:2

其中,c表示疾病類實(shí)體,p表示疾病類實(shí)體所在語料庫中句子的行號(hào)及句子中字符位置。

對(duì)于crf統(tǒng)計(jì)特征值,例如語句“高血壓怎么治療?”,其實(shí)體標(biāo)記序列為“bieooooo”。例如,對(duì)于“壓”字,crf統(tǒng)計(jì)特征說明如下表1所示:

表1:

步驟204、根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型。

其中,所述訓(xùn)練模型為:

步驟205、根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj。

其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù),訓(xùn)練得到的模型參數(shù)可使句子的訓(xùn)練模型p(y|x)的和達(dá)到最大;m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。

對(duì)于fi(yj,yj-1,x),其表示若yj、yj-1、x均出現(xiàn)在語料中,則fi(yj,yj-1,x)=1,否則為0。

步驟206、將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列。

例如語句“高血壓怎么治療?”,其實(shí)體標(biāo)記序列為“bieooooo”。

步驟207、在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。

例如,對(duì)于“高血壓怎么治療?”,其第一組候選實(shí)體為“高血壓”。

步驟208、將待處理語句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母。

步驟209、調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句。

步驟210、將預(yù)處理后的待處理語句采用最大匹配原則與預(yù)先設(shè)置的疾病本體庫進(jìn)行匹配切分,形成本體切分結(jié)果。

疾病本體庫是以國際icd10為基本框架,在不改變icd10本身術(shù)語、結(jié)構(gòu)和使用方法的基礎(chǔ)上構(gòu)建自然語言及不同版本icd10與衛(wèi)生部icd10的關(guān)聯(lián)關(guān)系。構(gòu)建方法首先對(duì)衛(wèi)生部版icd-10進(jìn)行結(jié)構(gòu)化,對(duì)每一個(gè)icd-10分類和實(shí)體進(jìn)行規(guī)范化的描述。每一個(gè)icd-10分類和實(shí)體至少有一個(gè)正式的概念描述(標(biāo)準(zhǔn)術(shù)語),這些標(biāo)準(zhǔn)術(shù)語基于編碼用一個(gè)樹狀結(jié)構(gòu)來表示,并且每一個(gè)語義關(guān)聯(lián)都包含基數(shù)信息。這一步主要的目的主要有兩個(gè):(1)從每一個(gè)類別名稱當(dāng)中識(shí)別其組成概念范疇;(2)賦予每一個(gè)標(biāo)準(zhǔn)術(shù)語語義關(guān)系來形成樹狀結(jié)構(gòu)。

舉例如下:

如,原始數(shù)據(jù)“患者無高血壓冠心病”,如果術(shù)語表中有術(shù)語“血壓”、“高血壓”、“冠心病”,則匹配結(jié)果為“患者無[高血壓][冠心病]”(方括號(hào)內(nèi)的為匹配到的術(shù)語)。

再如,原始數(shù)據(jù)“初步診斷為:胸腺瘤,a型”,如果術(shù)語表中有術(shù)語“胸腺瘤,a型”,則匹配結(jié)果為“初步診斷為:[胸腺瘤,a型]”(方括號(hào)內(nèi)的為匹配到的術(shù)語)。

步驟211、根據(jù)預(yù)處理后的待處理語句以及其中的本體切分結(jié)果,確定預(yù)處理后的待處理語句中除本體切分結(jié)果之外的其他字符。

步驟212、將所述其他字符與所述本體切分結(jié)果以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第一切分結(jié)果。

當(dāng)上述步驟210抽出的兩個(gè)詞之間是帶有“伴、合并”等連接詞時(shí),需重新將該兩詞與“伴、合并”作為整體抽出。

例如原始數(shù)據(jù)“前列腺增生伴急性尿潴留”,基于本體抽詞后的結(jié)果為“[前列腺增生]伴[急性尿潴留]”,基于步驟212的切分規(guī)則后的第一切分結(jié)果為“[前列腺增生伴急性尿潴留]”。

當(dāng)上述步驟210抽出的兩個(gè)詞之間是表示疾病程度或解剖術(shù)語時(shí),將疾病程度或解剖術(shù)語與第二個(gè)詞作為整體抽出。

例如原始數(shù)據(jù)“前列腺增生急性腎性貧血”,基于本體抽詞后的結(jié)果為“[前列腺增生]急性[腎性貧血]”,基于切分規(guī)則后的結(jié)果為“[前列腺增生][急性腎性貧血]”。上述的方括號(hào)內(nèi)的內(nèi)容為抽出的術(shù)語。

當(dāng)上述步驟210完成后,剩下的字符串為原始術(shù)語的開頭部分,且是疾病程度或解剖術(shù)語,則將疾病程度或解剖術(shù)語與其后相連的術(shù)語作為整體抽出。例如原始數(shù)據(jù)“亞急性支氣管炎前列腺增生”,基于本體抽詞后的結(jié)果為“亞急性[支氣管炎][前列腺增生]”,基于切分規(guī)則后的結(jié)果為“[亞急性支氣管炎][前列腺增生]”。上述的方括號(hào)內(nèi)的內(nèi)容為抽出的術(shù)語。

當(dāng)上述步驟210完成后,剩下的字符串為原始術(shù)語的末尾部分,且是疾病程度或解剖術(shù)語,則將疾病程度或解剖術(shù)語與其前相連的術(shù)語作為整體抽出。例如示例中的“支氣管炎前列腺癌晚期”,基于本體抽詞后的結(jié)果為“[支氣管炎][前列腺癌]晚期”,基于切分規(guī)則后的結(jié)果為“[支氣管炎][前列腺癌晚期]”。上述方括號(hào)內(nèi)的內(nèi)容為抽出的術(shù)語。

步驟213、將預(yù)處理后的待處理語句的原始字符串按順序檢查字符串中的符號(hào),并在字符串中的符號(hào)滿足預(yù)設(shè)切分條件時(shí),轉(zhuǎn)換為系統(tǒng)分隔符進(jìn)行切分,形成基于符號(hào)切分結(jié)果。

預(yù)設(shè)切分條件可以是例如:

數(shù)字與“,、.?!钡慕M合,將這個(gè)組合整體進(jìn)行切分。

對(duì)于“:”,如果冒號(hào)前后不全是漢字,則切分,否則不予處理。如“腹痛:?”,需切分,如“先天性心臟病:室間隔缺損”不處理。

對(duì)于“+”,判斷前后術(shù)語是否都是中文,如果是則切分,否則不處理。

對(duì)于“-”,不予處理。

對(duì)于“;;.。??!!“'‘\"|\n\t,,、/()”這樣的字符,則直接切分。

步驟214、根據(jù)所述第一切分結(jié)果和基于符號(hào)切分結(jié)果中符號(hào)的類型和位置,以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第二組候選實(shí)體。

此處,在步驟214中,該預(yù)先設(shè)置的切分規(guī)則可以為:

如果符號(hào)是頓號(hào)、斜杠、逗號(hào)、括號(hào)時(shí),如果基于符號(hào)切分后的兩個(gè)連續(xù)字符串中,有一個(gè)字符是疾病限定時(shí),則需將此兩字符串連同符號(hào)一起作為整體抽出。例如“急、慢性肺炎”,“高血壓,3級(jí)”。

如果符號(hào)是頓號(hào)、斜杠、逗號(hào)、括號(hào)時(shí),如果基于符號(hào)切分后的兩個(gè)連續(xù)字符串中,有一個(gè)字符是解剖術(shù)語時(shí),則需將此兩字符串連同符號(hào)一起作為整體抽出。例如示例中的“支氣管/肺炎”。

如果符號(hào)是頓號(hào)、斜杠、逗號(hào)、括號(hào)時(shí),如果基于符號(hào)切分后的兩個(gè)連續(xù)字符串中,有一個(gè)字符是單字時(shí)時(shí),則需將此兩字符串連同符號(hào)一起作為整體抽出。例如“支/衣原體感染”,“急、慢性肺炎”。

步驟215、判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非疾病術(shù)語字符。

該預(yù)先設(shè)置的非疾病術(shù)語字符可以是例如“手術(shù)、檢查、膠囊、藥、術(shù)”等。

步驟216、若各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非疾病術(shù)語字符,將所述候選實(shí)體舍棄。

在步驟216之后,執(zhí)行步驟217或者步驟220。

步驟217、在第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同時(shí),確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分。

在步驟217之后,執(zhí)行步驟218或者步驟219。

步驟218、若待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果。

步驟219、若待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果。

例如,原始數(shù)據(jù)“初步診斷:前列腺增生急性腎性貧血,高血壓,3級(jí)”,

第一組疾病類候選實(shí)體為“[前列腺增生]急性[腎性貧血],[高血壓],3級(jí)”;

第二組疾病類候選實(shí)體為“[前列腺增生][急性腎性貧血],[高血壓,3級(jí)]”,即第二組疾病類候選實(shí)體是經(jīng)過切分規(guī)則切分形成的。

則,最終結(jié)果為“[前列腺增生][急性腎性貧血],[高血壓,3級(jí)]”。

步驟220、在第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同時(shí),確定來源于相同待處理語句的原始字符串的第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為疾病類實(shí)體結(jié)果。

例如,原始數(shù)據(jù)“便秘(脾虛型),埃博拉病毒出血熱”,第一組疾病類候選實(shí)體為“[便秘(脾虛型)][埃博拉出病毒血熱]”,第二組疾病類候選實(shí)體為“[便秘][脾虛型][病毒][出血熱]”,則最終結(jié)果為““[便秘(脾虛型)][埃博拉出病毒血熱]”。

通過上述步驟201至步驟220,最終可以得到疾病類實(shí)體識(shí)別結(jié)果,例如原始數(shù)據(jù)為:“病人因風(fēng)濕性聯(lián)合瓣膜病、慢性支氣管炎感染加重入院”。則疾病類實(shí)體識(shí)別結(jié)果為:

風(fēng)濕性聯(lián)合瓣膜病【疾病】;

慢性支氣管炎【疾病】;

感染【疾病】;

為了實(shí)現(xiàn)對(duì)語料庫進(jìn)行更新,可以由人工總結(jié)發(fā)現(xiàn)新的句型特征,并人工標(biāo)注加入到語料庫中;另外,還可以在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。

將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的疾病本體庫匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。

確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例。

將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新。

其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積。

所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)。

可見,通過語料庫的更新,可以實(shí)現(xiàn)實(shí)體識(shí)別所需語料數(shù)據(jù)利用半監(jiān)督自學(xué)習(xí)方法,實(shí)現(xiàn)語料庫不斷豐富,解決了語料庫數(shù)目不足、不完整的問題。

本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別方法,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體;若第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別疾病類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。

對(duì)應(yīng)于上述圖1和圖2所示的方法實(shí)施例,如圖3所示,本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置,包括:

待處理語句獲取單元31,用于獲取原始數(shù)據(jù)中的待處理語句。

單字切分單元32,用于將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字。

實(shí)體標(biāo)記序列確定單元33,用于根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列。

第一組候選實(shí)體確定單元34,用于根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體。

第二組候選實(shí)體確定單元35,用于根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體。

候選實(shí)體篩選單元36,用于根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體。

疾病類實(shí)體結(jié)果確定單元37,用于在第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同時(shí),根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。

具體的,如圖4所示,所述疾病類實(shí)體結(jié)果確定單元37,包括:

術(shù)語切分判斷模塊371,用于確定待處理語句在進(jìn)行術(shù)語切分時(shí),是否通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分。

疾病類實(shí)體結(jié)果確定模塊372,用于在待處理語句在進(jìn)行術(shù)語切分時(shí),通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果;在待處理語句在進(jìn)行術(shù)語切分時(shí),未通過預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組疾病類候選實(shí)體中的候選實(shí)體作為疾病類實(shí)體結(jié)果。

所述疾病類實(shí)體結(jié)果確定模塊372,還可以確定來源于相同待處理語句的原始字符串的第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為疾病類實(shí)體結(jié)果。

具體的,所述待處理語句獲取單元31中的原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù);所述非結(jié)構(gòu)化數(shù)據(jù)包括電子病歷emr數(shù)據(jù)、電子健康檔案ehr數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括臨床結(jié)算單數(shù)據(jù)、網(wǎng)絡(luò)醫(yī)療知識(shí)庫數(shù)據(jù)。

進(jìn)一步的,如圖4所示,所述實(shí)體標(biāo)記序列確定單元33,包括:

crf統(tǒng)計(jì)特征值提取模塊331,用于從預(yù)先設(shè)置的語料庫中提取待處理語句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語料庫中記錄有原始數(shù)據(jù)中各語句、各語句中的實(shí)體、以及各語句中的實(shí)體在各語句中的位置以及實(shí)體類別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語表特征值。

訓(xùn)練模型確定模塊332,用于根據(jù)每個(gè)字在各語句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:

實(shí)體標(biāo)記計(jì)算模塊333,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語句中的每個(gè)文字的實(shí)體標(biāo)記yj。

實(shí)體標(biāo)記序列確定模塊334,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語句;yj表示待處理語句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語句中的標(biāo)記概率。

此外,所述第一組候選實(shí)體確定單元34,具體用于:

在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語句的第一組候選實(shí)體。

進(jìn)一步的,如圖4所示,所述的面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置,還包括語料庫更新單元38用于:

在所述待處理語句未在預(yù)先設(shè)置的語料庫中被標(biāo)注,根據(jù)公式:確定待處理語句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。

將待處理語句中不確定值為1的實(shí)體與預(yù)先設(shè)置的疾病本體庫匹配,在匹配成功時(shí),將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。

確定待處理語句的預(yù)測置信度和字典匹配標(biāo)記的實(shí)體比例。

將預(yù)測置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語句加入到所述語料庫中,以進(jìn)行語料庫更新。

其中,所述預(yù)測置信度為待處理語句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積。

所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語句中預(yù)測出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語句中預(yù)測出的實(shí)體總數(shù)。

此外,如圖4所示,所述第二組候選實(shí)體確定單元35,包括:

預(yù)處理模塊351,用于將待處理語句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語表,檢查待處理語句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語表中的術(shù)語,并將待處理語句中存在的非醫(yī)學(xué)術(shù)語表中的術(shù)語刪除,形成預(yù)處理后的待處理語句。

本體切分模塊352,用于將預(yù)處理后的待處理語句采用最大匹配原則與預(yù)先設(shè)置的疾病本體庫進(jìn)行匹配切分,形成本體切分結(jié)果。

第一切分結(jié)果形成模塊353,用于根據(jù)預(yù)處理后的待處理語句以及其中的本體切分結(jié)果,確定預(yù)處理后的待處理語句中除本體切分結(jié)果之外的其他字符;將所述其他字符與所述本體切分結(jié)果以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第一切分結(jié)果。

符號(hào)切分模塊354,用于將預(yù)處理后的待處理語句的原始字符串按順序檢查字符串中的符號(hào),并在字符串中的符號(hào)滿足預(yù)設(shè)切分條件時(shí),轉(zhuǎn)換為系統(tǒng)分隔符進(jìn)行切分,形成基于符號(hào)切分結(jié)果。

第二組候選實(shí)體形成模塊355,用于根據(jù)所述第一切分結(jié)果和基于符號(hào)切分結(jié)果中符號(hào)的類型和位置,以預(yù)先設(shè)置的切分規(guī)則重新進(jìn)行切分,形成第二組候選實(shí)體。

此外,如圖4所示,所述候選實(shí)體篩選單元36,包括:

非疾病術(shù)語字符判斷模塊361,用于判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非疾病術(shù)語字符。

候選實(shí)體舍棄模塊362,用于在各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非疾病術(shù)語字符時(shí),將所述候選實(shí)體舍棄。

值得說明的是,本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置的具體實(shí)現(xiàn)方式可以參見上述的方法實(shí)施例,此處不再贅述。

本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的疾病類實(shí)體識(shí)別裝置,首先,獲取原始數(shù)據(jù)中的待處理語句;將所述待處理語句進(jìn)行單字切分,確定待處理語句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語句中的每個(gè)文字在待處理語句中的實(shí)體標(biāo)記,并確定待處理語句的實(shí)體標(biāo)記序列;根據(jù)待處理語句的實(shí)體標(biāo)記序列,確定待處理語句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對(duì)所述待處理語句進(jìn)行術(shù)語切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體;若第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實(shí)體和第二組疾病類候選實(shí)體中確定疾病類實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語切分方法相結(jié)合,能夠自動(dòng)識(shí)別疾病類實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問題。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

本發(fā)明中應(yīng)用了具體實(shí)施例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
迭部县| 宜川县| 延吉市| 遂宁市| 泽库县| 区。| 阿拉尔市| 确山县| 微山县| 衡山县| 井研县| 疏勒县| 赤峰市| 宣化县| 多伦县| 横峰县| 彰武县| 棋牌| 剑川县| 龙南县| 海门市| 久治县| 桂东县| 五台县| 涪陵区| 卢氏县| 司法| 和静县| 张家界市| 武冈市| 滨海县| 宁波市| 鄂尔多斯市| 贵溪市| 团风县| 公主岭市| 那曲县| 维西| 北票市| 遵化市| 梨树县|