本發(fā)明涉及醫(yī)療實(shí)體識(shí)別
技術(shù)領(lǐng)域:
,尤其涉及一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法及裝置。
背景技術(shù):
:目前,隨著網(wǎng)絡(luò)和醫(yī)療信息技術(shù)的發(fā)展、中國(guó)人口逐漸趨于老年化、互聯(lián)網(wǎng)醫(yī)療逐漸興起,醫(yī)藥行業(yè)大數(shù)據(jù)也相繼產(chǎn)生。大數(shù)據(jù)在醫(yī)藥行業(yè)釋放出的巨大價(jià)值吸引著諸多醫(yī)藥行業(yè)人士的興趣和關(guān)注。人們開(kāi)始探討和學(xué)習(xí)如何利用大數(shù)據(jù)提高醫(yī)藥行業(yè)經(jīng)營(yíng)管理服務(wù),如通過(guò)藥品銷(xiāo)售大數(shù)據(jù)分析得到藥品品牌、消費(fèi)人群、消費(fèi)途徑等營(yíng)銷(xiāo)策略;提高臨床醫(yī)療服務(wù)質(zhì)量,如通過(guò)療效對(duì)比得到最佳治療路徑;提高醫(yī)學(xué)科研水平,如分析臨床試驗(yàn)數(shù)據(jù)和病人記錄,確定藥品更多的適應(yīng)癥和發(fā)現(xiàn)副作用等。而醫(yī)藥大數(shù)據(jù)的利用分析和挖掘的前提和基礎(chǔ)之一是藥品類(lèi)實(shí)體的識(shí)別,藥品相關(guān)實(shí)體的識(shí)別是醫(yī)療大數(shù)據(jù)應(yīng)用的基礎(chǔ)工作。近年來(lái),醫(yī)療健康領(lǐng)域的蓬勃發(fā)展使得該領(lǐng)域的研究逐漸增多,例如醫(yī)療問(wèn)答、智能診斷、藥品預(yù)警等。作為醫(yī)療健康數(shù)據(jù)分析的重要的一步,醫(yī)療實(shí)體識(shí)別(例如藥品類(lèi)的實(shí)體識(shí)別)可以抽取出相關(guān)文本中存在的醫(yī)療術(shù)語(yǔ),對(duì)后續(xù)研究的性能起到重要的作用。目前常見(jiàn)的實(shí)體識(shí)別技術(shù)有基于詞表的醫(yī)學(xué)實(shí)體識(shí)別和基于條件隨機(jī)場(chǎng)(conditionalrandomfields,簡(jiǎn)稱(chēng)crf)的醫(yī)學(xué)實(shí)體識(shí)別,然而基于詞表的醫(yī)學(xué)實(shí)體識(shí)別僅僅依靠術(shù)語(yǔ)庫(kù)匹配,缺少上下文語(yǔ)境識(shí)別,且術(shù)語(yǔ)庫(kù)匹配存在較大局限性,比如對(duì)于藥品來(lái)說(shuō),藥品的廠家數(shù)量繁多,術(shù)語(yǔ)庫(kù)可能難以一一涵蓋。而基于crf的醫(yī)學(xué)實(shí)體識(shí)別技術(shù),缺少大數(shù)據(jù)語(yǔ)料庫(kù)和語(yǔ)言規(guī)則的應(yīng)用,語(yǔ)料均為人工標(biāo)注后的語(yǔ)料,而沒(méi)有利用半監(jiān)督學(xué)習(xí)等方法,增加對(duì)數(shù)量更龐大的未標(biāo)注數(shù)據(jù)的使用,使得模型不夠完善,缺少基于語(yǔ)言學(xué)與醫(yī)療信息的規(guī)則,僅僅依靠模型,對(duì)數(shù)據(jù)的針對(duì)性不夠強(qiáng)。可見(jiàn),當(dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行藥品類(lèi)實(shí)體識(shí)別。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的實(shí)施例提供一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法及裝置,以解決當(dāng)前的實(shí)體識(shí)別方案并不能準(zhǔn)確進(jìn)行藥品類(lèi)實(shí)體識(shí)別的問(wèn)題。為達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法,包括:獲取原始數(shù)據(jù)中的待處理語(yǔ)句;將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列;根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體;根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體;若第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。具體的,所述根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果,包括:確定待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),是否通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;若待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果;若待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),未通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果;或者,確定來(lái)源于相同待處理語(yǔ)句的原始字符串的第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為藥品類(lèi)實(shí)體結(jié)果。具體的,所述原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、門(mén)診處方數(shù)據(jù)、住院醫(yī)囑數(shù)據(jù)、醫(yī)藥企業(yè)藥品試驗(yàn)數(shù)據(jù)、醫(yī)藥企業(yè)銷(xiāo)售數(shù)據(jù)、醫(yī)療知識(shí)庫(kù)及文獻(xiàn)庫(kù)數(shù)據(jù)、藥品說(shuō)明書(shū)數(shù)據(jù)。具體的,根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列,包括:從預(yù)先設(shè)置的語(yǔ)料庫(kù)中提取待處理語(yǔ)句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語(yǔ)料庫(kù)中記錄有原始數(shù)據(jù)中各語(yǔ)句、各語(yǔ)句中的實(shí)體、以及各語(yǔ)句中的實(shí)體在各語(yǔ)句中的位置以及實(shí)體類(lèi)別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語(yǔ)句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語(yǔ)表特征值;根據(jù)每個(gè)字在各語(yǔ)句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:根據(jù)所述訓(xùn)練模型,計(jì)算待處理語(yǔ)句中的每個(gè)文字的實(shí)體標(biāo)記yj;將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語(yǔ)句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語(yǔ)句;yj表示待處理語(yǔ)句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語(yǔ)句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語(yǔ)句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語(yǔ)句中的標(biāo)記概率。具體的,根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體,包括:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語(yǔ)句的第一組候選實(shí)體。進(jìn)一步的,該面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法,還包括:在所述待處理語(yǔ)句未在預(yù)先設(shè)置的語(yǔ)料庫(kù)中被標(biāo)注,根據(jù)公式:確定待處理語(yǔ)句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開(kāi)始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語(yǔ)句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語(yǔ)句中不確定值為1的實(shí)體與預(yù)先設(shè)置的藥品本體庫(kù)匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語(yǔ)句的預(yù)測(cè)置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測(cè)置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語(yǔ)句加入到所述語(yǔ)料庫(kù)中,以進(jìn)行語(yǔ)料庫(kù)更新;其中,所述預(yù)測(cè)置信度為待處理語(yǔ)句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)。具體的,根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體,包括:將待處理語(yǔ)句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫(xiě)英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語(yǔ)表,檢查待處理語(yǔ)句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ),并將待處理語(yǔ)句中存在的非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ)刪除,形成預(yù)處理后的待處理語(yǔ)句;將預(yù)處理后的待處理語(yǔ)句采用逆向最大匹配原則與預(yù)先設(shè)置的藥品規(guī)格數(shù)據(jù)庫(kù)和包裝規(guī)格數(shù)據(jù)庫(kù)進(jìn)行匹配,將從藥品規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為規(guī)格實(shí)體,將從包裝規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包裝規(guī)格實(shí)體;或者,識(shí)別預(yù)處理后的待處理語(yǔ)句中的數(shù)字組合;判斷預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串是否為計(jì)量單位;若預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串為計(jì)量單位,則根據(jù)計(jì)量單位類(lèi)型,將所述數(shù)字組合和計(jì)量單位作為整體抽出,形成規(guī)格實(shí)體或者包裝規(guī)格實(shí)體;將預(yù)處理后的待處理語(yǔ)句中規(guī)格實(shí)體和包裝規(guī)格實(shí)體之外的其他字符串,采用逆向最大匹配原則與預(yù)先設(shè)置的藥品名稱(chēng)數(shù)據(jù)庫(kù)、劑型數(shù)據(jù)庫(kù)以及包材數(shù)據(jù)庫(kù)進(jìn)行匹配;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為產(chǎn)品名的待處理語(yǔ)句的字符串確定為藥品產(chǎn)品名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為通用名的待處理語(yǔ)句的字符串確定為藥品通用名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為商品名的待處理語(yǔ)句的字符串確定為藥品商品名實(shí)體;將從劑型數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為劑型實(shí)體;將從包材數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包材實(shí)體;根據(jù)一預(yù)先設(shè)置的酸根堿根數(shù)據(jù)表,在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之前是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞;并在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之后是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞;將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變;將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變;若在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體與劑型實(shí)體相鄰,則將藥品通用名實(shí)體與劑型實(shí)體作為整體抽出,形成藥品產(chǎn)品名實(shí)體;若在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體之后與預(yù)先設(shè)置的表示劑型的單字相鄰,則將藥品通用名實(shí)體與所述表示劑型的單字作為整體抽出,形成藥品產(chǎn)品名實(shí)體;判斷預(yù)處理后的待處理語(yǔ)句中是否存在藥品名相關(guān)實(shí)體;所述藥品名相關(guān)實(shí)體包括藥品通用名實(shí)體、藥品產(chǎn)品名實(shí)體和藥品商品名實(shí)體;若預(yù)處理后的待處理語(yǔ)句中存在藥品名相關(guān)實(shí)體,則將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體中的一個(gè)或多個(gè)實(shí)體與所述藥品名相關(guān)實(shí)體作為所述第二組候選實(shí)體;若預(yù)處理后的待處理語(yǔ)句中不存在藥品名相關(guān)實(shí)體,則將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體舍棄。具體的,根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體,包括:判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符;若各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符,將所述候選實(shí)體舍棄。一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置,包括:待處理語(yǔ)句獲取單元,用于獲取原始數(shù)據(jù)中的待處理語(yǔ)句;單字切分單元,用于將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字;實(shí)體標(biāo)記序列確定單元,用于根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列;第一組候選實(shí)體確定單元,用于根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體;第二組候選實(shí)體確定單元,用于根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體;候選實(shí)體篩選單元,用于根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體;藥品類(lèi)實(shí)體結(jié)果確定單元,用于在第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同時(shí),根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。具體的,所述藥品類(lèi)實(shí)體結(jié)果確定單元,包括:術(shù)語(yǔ)切分判斷模塊,用于確定待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),是否通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分;藥品類(lèi)實(shí)體結(jié)果確定模塊,用于在待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果;在待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),未通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果;所述藥品類(lèi)實(shí)體結(jié)果確定模塊,還用于確定來(lái)源于相同待處理語(yǔ)句的原始字符串的第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為藥品類(lèi)實(shí)體結(jié)果。具體的,所述待處理語(yǔ)句獲取單元中的原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、門(mén)診處方數(shù)據(jù)、住院醫(yī)囑數(shù)據(jù)、醫(yī)藥企業(yè)藥品試驗(yàn)數(shù)據(jù)、醫(yī)藥企業(yè)銷(xiāo)售數(shù)據(jù)、醫(yī)療知識(shí)庫(kù)及文獻(xiàn)庫(kù)數(shù)據(jù)、藥品說(shuō)明書(shū)數(shù)據(jù)。進(jìn)一步的,所述實(shí)體標(biāo)記序列確定單元,包括:crf統(tǒng)計(jì)特征值提取模塊,用于從預(yù)先設(shè)置的語(yǔ)料庫(kù)中提取待處理語(yǔ)句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語(yǔ)料庫(kù)中記錄有原始數(shù)據(jù)中各語(yǔ)句、各語(yǔ)句中的實(shí)體、以及各語(yǔ)句中的實(shí)體在各語(yǔ)句中的位置以及實(shí)體類(lèi)別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語(yǔ)句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語(yǔ)表特征值;訓(xùn)練模型確定模塊,用于根據(jù)每個(gè)字在各語(yǔ)句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:實(shí)體標(biāo)記計(jì)算模塊,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語(yǔ)句中的每個(gè)文字的實(shí)體標(biāo)記yj;實(shí)體標(biāo)記序列確定模塊,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語(yǔ)句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語(yǔ)句;yj表示待處理語(yǔ)句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語(yǔ)句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語(yǔ)句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語(yǔ)句中的標(biāo)記概率。此外,所述第一組候選實(shí)體確定單元,具體用于:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語(yǔ)句的第一組候選實(shí)體。進(jìn)一步的,所述的面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置,還包括語(yǔ)料庫(kù)更新單元,用于:在所述待處理語(yǔ)句未在預(yù)先設(shè)置的語(yǔ)料庫(kù)中被標(biāo)注,根據(jù)公式:確定待處理語(yǔ)句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開(kāi)始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語(yǔ)句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率;將待處理語(yǔ)句中不確定值為1的實(shí)體與預(yù)先設(shè)置的藥品本體庫(kù)匹配,在匹配成功時(shí),將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存;確定待處理語(yǔ)句的預(yù)測(cè)置信度和字典匹配標(biāo)記的實(shí)體比例;將預(yù)測(cè)置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語(yǔ)句加入到所述語(yǔ)料庫(kù)中,以進(jìn)行語(yǔ)料庫(kù)更新;其中,所述預(yù)測(cè)置信度為待處理語(yǔ)句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積;所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)。此外,所述第二組候選實(shí)體確定單元,包括:預(yù)處理模塊,用于將待處理語(yǔ)句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫(xiě)英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語(yǔ)表,檢查待處理語(yǔ)句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ),并將待處理語(yǔ)句中存在的非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ)刪除,形成預(yù)處理后的待處理語(yǔ)句;規(guī)格和包裝規(guī)格實(shí)體識(shí)別模塊,用于將預(yù)處理后的待處理語(yǔ)句采用逆向最大匹配原則與預(yù)先設(shè)置的藥品規(guī)格數(shù)據(jù)庫(kù)和包裝規(guī)格數(shù)據(jù)庫(kù)進(jìn)行匹配,將從藥品規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為規(guī)格實(shí)體,將從包裝規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包裝規(guī)格實(shí)體;或者,識(shí)別預(yù)處理后的待處理語(yǔ)句中的數(shù)字組合;判斷預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串是否為計(jì)量單位;若預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串為計(jì)量單位,則根據(jù)計(jì)量單位類(lèi)型,將所述數(shù)字組合和計(jì)量單位作為整體抽出,形成規(guī)格實(shí)體或者包裝規(guī)格實(shí)體;其他實(shí)體識(shí)別模塊,用于將預(yù)處理后的待處理語(yǔ)句中規(guī)格實(shí)體和包裝規(guī)格實(shí)體之外的其他字符串,采用逆向最大匹配原則與預(yù)先設(shè)置的藥品名稱(chēng)數(shù)據(jù)庫(kù)、劑型數(shù)據(jù)庫(kù)以及包材數(shù)據(jù)庫(kù)進(jìn)行匹配;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為產(chǎn)品名的待處理語(yǔ)句的字符串確定為藥品產(chǎn)品名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為通用名的待處理語(yǔ)句的字符串確定為藥品通用名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為商品名的待處理語(yǔ)句的字符串確定為藥品商品名實(shí)體;將從劑型數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為劑型實(shí)體;將從包材數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包材實(shí)體;酸根堿根詞判斷模塊,用于根據(jù)一預(yù)先設(shè)置的酸根堿根數(shù)據(jù)表,在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之前是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞;并在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之后是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞;實(shí)體調(diào)整模塊,用于將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變;將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變;所述實(shí)體調(diào)整模塊,還用于在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體與劑型實(shí)體相鄰時(shí),將藥品通用名實(shí)體與劑型實(shí)體作為整體抽出,形成藥品產(chǎn)品名實(shí)體;在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體之后與預(yù)先設(shè)置的表示劑型的單字相鄰時(shí),將藥品通用名實(shí)體與所述表示劑型的單字作為整體抽出,形成藥品產(chǎn)品名實(shí)體;第二組候選實(shí)體形成模塊,用于判斷預(yù)處理后的待處理語(yǔ)句中是否存在藥品名相關(guān)實(shí)體;所述藥品名相關(guān)實(shí)體包括藥品通用名實(shí)體、藥品產(chǎn)品名實(shí)體和藥品商品名實(shí)體;在預(yù)處理后的待處理語(yǔ)句中存在藥品名相關(guān)實(shí)體時(shí),將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體中的一個(gè)或多個(gè)實(shí)體與所述藥品名相關(guān)實(shí)體作為所述第二組候選實(shí)體;在預(yù)處理后的待處理語(yǔ)句中不存在藥品名相關(guān)實(shí)體時(shí),將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體舍棄。此外,所述候選實(shí)體篩選單元,包括:非藥品術(shù)語(yǔ)字符判斷模塊,用于判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符;候選實(shí)體舍棄模塊,用于在各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符時(shí),將所述候選實(shí)體舍棄。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法及裝置,首先,獲取原始數(shù)據(jù)中的待處理語(yǔ)句;將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列;根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體;若第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場(chǎng)crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語(yǔ)切分方法相結(jié)合,能夠自動(dòng)識(shí)別藥品類(lèi)實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問(wèn)題。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法的流程圖一;圖2為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法的流程圖二的a部分;圖3為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法的流程圖二的b部分;圖4為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖一;圖5為本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖二。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示,本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法,包括:步驟101、獲取原始數(shù)據(jù)中的待處理語(yǔ)句。步驟102、將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字。步驟103、根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列。步驟104、根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體。步驟105、根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體。步驟106、根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體。步驟107、若第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法,首先,獲取原始數(shù)據(jù)中的待處理語(yǔ)句;將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列;根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體;若第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場(chǎng)crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語(yǔ)切分方法相結(jié)合,能夠自動(dòng)識(shí)別藥品類(lèi)實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問(wèn)題。為了使本領(lǐng)域的技術(shù)人員更好的了解本發(fā)明,下面結(jié)合具體的實(shí)例來(lái)說(shuō)明本發(fā)明。如圖2和圖3所示(其中,圖2為一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法的a部分,圖3為一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法的b部分,此處分為a、b部分是由于本發(fā)明實(shí)施例的步驟較多,并非表示實(shí)際意義上的區(qū)別,a部分與b部分形成整個(gè)步驟201至步驟225,其中圖2示出了步驟201至步驟213,圖3示出了步驟214至步驟225。),本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法,包括:步驟201、獲取原始數(shù)據(jù)中的待處理語(yǔ)句。具體的,所述原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、門(mén)診處方數(shù)據(jù)、住院醫(yī)囑數(shù)據(jù)、醫(yī)藥企業(yè)藥品試驗(yàn)數(shù)據(jù)、醫(yī)藥企業(yè)銷(xiāo)售數(shù)據(jù)、醫(yī)療知識(shí)庫(kù)及文獻(xiàn)庫(kù)數(shù)據(jù)、藥品說(shuō)明書(shū)數(shù)據(jù)等。可見(jiàn),本發(fā)明實(shí)施例所能處理的原始數(shù)據(jù)多樣,不僅僅局限于單一數(shù)據(jù)源。步驟202、將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字。例如,待處理語(yǔ)句為“注射用鹽酸伊立替康(艾力)的副作用?”,則單字切分后,每個(gè)文字為:“注”、“射”、“用”、“鹽”、“酸”、“伊”、“立”、“替”、“康”、“(”、“艾”、“力”、“)”、“的”、“副”、“作”、“用”、“?”。步驟203、從預(yù)先設(shè)置的語(yǔ)料庫(kù)中提取待處理語(yǔ)句中的每個(gè)文字的crf統(tǒng)計(jì)特征值。所述預(yù)先設(shè)置的語(yǔ)料庫(kù)中記錄有原始數(shù)據(jù)中各語(yǔ)句、各語(yǔ)句中的實(shí)體、以及各語(yǔ)句中的實(shí)體在各語(yǔ)句中的位置以及實(shí)體類(lèi)別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語(yǔ)句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語(yǔ)表特征值。對(duì)于預(yù)先設(shè)置的語(yǔ)料庫(kù)可以由人為預(yù)先標(biāo)注,例如語(yǔ)句:“h▲注射用鹽酸伊立替康|◆艾力”“▲泰脂安膠囊△(含熊果酸35mg)(中)”則對(duì)于藥品類(lèi)實(shí)體,可以分別標(biāo)注出:c=注射用鹽酸伊立替康p=1:31:11t=藥品產(chǎn)品名;c=艾力p=1:141:15t=藥品商品名;c=泰脂安膠囊p=2:22:6t=藥品產(chǎn)品名;c=35mgp=2:132:16t=規(guī)格;其中,c表示藥品類(lèi)實(shí)體,p表示藥品類(lèi)實(shí)體所在語(yǔ)料中句子的行號(hào)及句子中字符位置,t表示藥品實(shí)體類(lèi)別(在本發(fā)明中藥品實(shí)體類(lèi)別包括藥品通用名實(shí)體、藥品產(chǎn)品名實(shí)體、藥品商品名實(shí)體、劑型實(shí)體、規(guī)格實(shí)體、包裝規(guī)格實(shí)體)。對(duì)于crf統(tǒng)計(jì)特征值,例如語(yǔ)句“注射用鹽酸伊立替康(艾力)的副作用?”,其實(shí)體標(biāo)記序列為“biiiiiiieobeoooooo”。例如,對(duì)于“康”字,crf統(tǒng)計(jì)特征說(shuō)明如下表1所示:表1:步驟204、根據(jù)每個(gè)字在各語(yǔ)句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型。其中,所述訓(xùn)練模型為:步驟205、根據(jù)所述訓(xùn)練模型,計(jì)算待處理語(yǔ)句中的每個(gè)文字的實(shí)體標(biāo)記yj。其中,x表示所述待處理語(yǔ)句;yj表示待處理語(yǔ)句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語(yǔ)句中分詞特征i的函數(shù)值;λi為模型參數(shù),訓(xùn)練得到的模型參數(shù)可使句子的訓(xùn)練模型p(y|x)的和達(dá)到最大;m表示分詞特征的個(gè)數(shù);n表示待處理語(yǔ)句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語(yǔ)句中的標(biāo)記概率。對(duì)于fi(yj,yj-1,x),其表示若yj、yj-1、x均出現(xiàn)在語(yǔ)料中,則fi(yj,yj-1,x)=1,否則為0。步驟206、將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語(yǔ)句的實(shí)體標(biāo)記序列。例如語(yǔ)句“注射用鹽酸伊立替康(艾力)的副作用?”,其實(shí)體標(biāo)記序列為“biiiiiiieobeoooooo”。步驟207、在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語(yǔ)句的第一組候選實(shí)體。例如,對(duì)于“乳酸左氧氟沙星滴眼液的適應(yīng)癥?”,其實(shí)體標(biāo)記序列為“oobiiiiiieooooo”,因此,可識(shí)別出第一組候選實(shí)體為“左氧氟沙星滴眼液”。步驟208、將待處理語(yǔ)句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫(xiě)英文字母。此處的英文字母不包括希臘字母。步驟209、調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語(yǔ)表,檢查待處理語(yǔ)句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ),并將待處理語(yǔ)句中存在的非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ)刪除,形成預(yù)處理后的待處理語(yǔ)句。在步驟209之后執(zhí)行步驟210或者步驟211。步驟210、將預(yù)處理后的待處理語(yǔ)句采用逆向最大匹配原則與預(yù)先設(shè)置的藥品規(guī)格數(shù)據(jù)庫(kù)和包裝規(guī)格數(shù)據(jù)庫(kù)進(jìn)行匹配,將從藥品規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為規(guī)格實(shí)體,將從包裝規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包裝規(guī)格實(shí)體。此處的藥品規(guī)格數(shù)據(jù)庫(kù)可以包括例如表2所示的規(guī)格表:表2:此處的包裝規(guī)格數(shù)據(jù)庫(kù)可以包括例如表3所示的包裝規(guī)格表:表3:標(biāo)準(zhǔn)包裝規(guī)格同義詞24片/盒12片/板*2板/盒24片/盒6片*4板/盒1片/盒1只/盒步驟211、識(shí)別預(yù)處理后的待處理語(yǔ)句中的數(shù)字組合;判斷預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串是否為計(jì)量單位;若預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串為計(jì)量單位,則根據(jù)計(jì)量單位類(lèi)型(可分為規(guī)格和包裝規(guī)格),將所述數(shù)字組合和計(jì)量單位作為整體抽出,形成規(guī)格實(shí)體或者包裝規(guī)格實(shí)體。如原始數(shù)據(jù)“乳酸左氧氟沙星滴眼液(40mg)”,利用上述步驟210未抽出實(shí)體時(shí),則采用步驟211在抽出數(shù)字“40”,根據(jù)單位表判斷mg為規(guī)格單位后,將40mg作為規(guī)格實(shí)體抽出。所述單位表可以如下表4所示:表4:標(biāo)準(zhǔn)規(guī)格單位同義詞類(lèi)型mg毫克規(guī)格袋代包裝規(guī)格盒合包裝規(guī)格支只包裝規(guī)格在步驟210和步驟211之后,繼續(xù)執(zhí)行后續(xù)步驟212。步驟212、將預(yù)處理后的待處理語(yǔ)句中規(guī)格實(shí)體和包裝規(guī)格實(shí)體之外的其他字符串,采用逆向最大匹配原則與預(yù)先設(shè)置的藥品名稱(chēng)數(shù)據(jù)庫(kù)、劑型數(shù)據(jù)庫(kù)以及包材數(shù)據(jù)庫(kù)進(jìn)行匹配;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為產(chǎn)品名的待處理語(yǔ)句的字符串確定為藥品產(chǎn)品名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為通用名的待處理語(yǔ)句的字符串確定為藥品通用名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為商品名的待處理語(yǔ)句的字符串確定為藥品商品名實(shí)體;將從劑型數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為劑型實(shí)體;將從包材數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包材實(shí)體。此處,預(yù)處理后的待處理語(yǔ)句中規(guī)格實(shí)體和包裝規(guī)格實(shí)體之外的其他字符串,可以是例如原始數(shù)據(jù)“乳酸左氧氟沙星滴眼液(40mg)”,抽出規(guī)格實(shí)體“40mg”后,剩下字符串的內(nèi)容為“乳酸左氧氟沙星滴眼液”。上述的藥品名稱(chēng)數(shù)據(jù)庫(kù)可以包括如下表5所示的藥品名稱(chēng)表:表5:上述的劑型數(shù)據(jù)庫(kù)可以包括如下表6所示的劑型表:表6:藥品標(biāo)準(zhǔn)劑型同義詞片劑舌下片咀嚼片分散片腸溶片片劑(腸溶片)上述的包材數(shù)據(jù)庫(kù)可以包括如下表7所示的包材表:表7:藥品標(biāo)準(zhǔn)包裝材質(zhì)包裝材質(zhì)非pvc軟袋玻璃瓶玻瓶塑料瓶塑瓶步驟213、根據(jù)一預(yù)先設(shè)置的酸根堿根數(shù)據(jù)表,在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之前是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞;并在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之后是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞。上述的酸根堿根數(shù)據(jù)表可以如下表8所示,但不僅僅局限于此:表8:名稱(chēng)乳酸硫酸鉀鈉步驟214、將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變;將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變。例如原始數(shù)據(jù)為“乳酸左氧氟沙星”,基于上述步驟212抽出的實(shí)體為“左氧氟沙星”(類(lèi)型為藥品通用名),“乳酸”為酸根,因此最終通過(guò)步驟213抽出實(shí)體為“乳酸左氧氟沙星”,實(shí)體類(lèi)型為藥品通用名,即實(shí)體類(lèi)型不變。步驟215、若在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體與劑型實(shí)體相鄰,則將藥品通用名實(shí)體與劑型實(shí)體作為整體抽出,形成藥品產(chǎn)品名實(shí)體。例如,原始數(shù)據(jù)為“乳酸左氧氟沙星滴眼液”,基于上述步驟215之前的步驟抽出的實(shí)體為“左氧氟沙星”(類(lèi)型為藥品通用名實(shí)體),“滴眼液”為劑型實(shí)體,則最終抽出實(shí)體應(yīng)為“乳酸左氧氟沙星滴眼液”,實(shí)體類(lèi)型為藥品產(chǎn)品名實(shí)體。步驟216、若在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體之后與預(yù)先設(shè)置的表示劑型的單字相鄰,則將藥品通用名實(shí)體與所述表示劑型的單字作為整體抽出,形成藥品產(chǎn)品名實(shí)體。該預(yù)先設(shè)置的表示劑型的單字可以為“片”、“丸”、“丹”等,但不僅局限于此。例如原始數(shù)據(jù)為“復(fù)方感冒靈片”,基于步驟216之前的步驟抽出的實(shí)體為“復(fù)方感冒靈”(類(lèi)型為藥品通用名實(shí)體),剩下字符為“片”,則經(jīng)過(guò)步驟216最終抽出的實(shí)體為“復(fù)方感冒靈片”,實(shí)體類(lèi)別為藥品產(chǎn)品名。步驟217、判斷預(yù)處理后的待處理語(yǔ)句中是否存在藥品名相關(guān)實(shí)體。其中,所述藥品名相關(guān)實(shí)體包括藥品通用名實(shí)體、藥品產(chǎn)品名實(shí)體和藥品商品名實(shí)體。若預(yù)處理后的待處理語(yǔ)句中存在藥品名相關(guān)實(shí)體,則執(zhí)行步驟218。若預(yù)處理后的待處理語(yǔ)句中不存在藥品名相關(guān)實(shí)體,則執(zhí)行步驟219。此處的步驟217是考慮到藥品類(lèi)實(shí)體的特殊型,由于藥品類(lèi)實(shí)體不僅僅只有藥品名相關(guān)實(shí)體,還存在規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體,而規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體不能單獨(dú)存在,即在有藥品名相關(guān)實(shí)體存在的情況下,規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體一般才有效。步驟218、將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體中的一個(gè)或多個(gè)實(shí)體與所述藥品名相關(guān)實(shí)體作為所述第二組候選實(shí)體。在步驟218之后,繼續(xù)執(zhí)行步驟220。步驟219、將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體舍棄。步驟220、判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符。該預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符可以是例如“手術(shù)、檢查、病、術(shù)”等。步驟221、若各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符,將所述候選實(shí)體舍棄。在步驟221之后,執(zhí)行步驟222或者步驟225。步驟222、在第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同時(shí),確定待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),是否通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分。在步驟222之后,執(zhí)行步驟223或者步驟224。步驟223、若待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果。步驟224、若待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),未通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果。例如,原始數(shù)據(jù)為“乳酸左氧氟沙星滴眼液(聯(lián)邦左???(5ml:15mg)”,第一組藥品類(lèi)候選實(shí)體為“左氧氟沙星滴眼液【產(chǎn)品名】聯(lián)邦左??怠旧唐访?ml:15mg【規(guī)格】”;第二組藥品類(lèi)候選實(shí)體為“乳酸左氧氟沙星滴眼液【產(chǎn)品名】聯(lián)邦左??怠旧唐访?ml:15mg【規(guī)格】”,即第二組藥品類(lèi)候選實(shí)體是經(jīng)過(guò)切分規(guī)則切分形成的。則,最終結(jié)果為“乳酸左氧氟沙星滴眼液【產(chǎn)品名】聯(lián)邦左??怠旧唐访?ml:15mg【規(guī)格】”。步驟225、在第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同時(shí),確定來(lái)源于相同待處理語(yǔ)句的原始字符串的第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為藥品類(lèi)實(shí)體結(jié)果。例如,原始數(shù)據(jù)“枯草桿菌、腸球菌二聯(lián)活菌多維顆粒”,第一組藥品類(lèi)候選實(shí)體為“枯草桿菌、腸球菌二聯(lián)活菌多維顆粒【產(chǎn)品名】”,第二組藥品類(lèi)候選實(shí)體為“腸球菌二聯(lián)活菌多維顆粒【產(chǎn)品名】”,則最終結(jié)果為“枯草桿菌、腸球菌二聯(lián)活菌多維顆?!井a(chǎn)品名】”。通過(guò)上述步驟201至步驟225,最終可以得到藥品類(lèi)實(shí)體識(shí)別結(jié)果。另外,為了實(shí)現(xiàn)對(duì)語(yǔ)料庫(kù)進(jìn)行更新,可以由人工總結(jié)發(fā)現(xiàn)新的句型特征,并人工標(biāo)注加入到語(yǔ)料庫(kù)中;另外,還可以在所述待處理語(yǔ)句未在預(yù)先設(shè)置的語(yǔ)料庫(kù)中被標(biāo)注,根據(jù)公式:確定待處理語(yǔ)句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開(kāi)始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語(yǔ)句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。例如,“乳酸左氧氟沙星滴眼液的適應(yīng)癥?”,實(shí)體標(biāo)記序列為“oobiiiiiieooooo”,位置序列為“01234567891011121314”,看出實(shí)體為左氧氟沙星滴眼液,位置為“23456789”,因此,kstart為2,kend為9。將待處理語(yǔ)句中不確定值為1的實(shí)體與預(yù)先設(shè)置的藥品本體庫(kù)匹配,若匹配成功,則將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。確定待處理語(yǔ)句的預(yù)測(cè)置信度和字典匹配標(biāo)記的實(shí)體比例。將預(yù)測(cè)置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語(yǔ)句加入到所述語(yǔ)料庫(kù)中,以進(jìn)行語(yǔ)料庫(kù)更新。其中,所述預(yù)測(cè)置信度為待處理語(yǔ)句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積。所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)??梢?jiàn),通過(guò)語(yǔ)料庫(kù)的更新,可以實(shí)現(xiàn)實(shí)體識(shí)別所需語(yǔ)料數(shù)據(jù)利用半監(jiān)督自學(xué)習(xí)方法,實(shí)現(xiàn)語(yǔ)料庫(kù)不斷豐富,解決了語(yǔ)料庫(kù)數(shù)目不足、不完整的問(wèn)題。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別方法,首先,獲取原始數(shù)據(jù)中的待處理語(yǔ)句;將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列;根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體;若第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場(chǎng)crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語(yǔ)切分方法相結(jié)合,能夠自動(dòng)識(shí)別藥品類(lèi)實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問(wèn)題。對(duì)應(yīng)于上述圖1、圖2、圖3所示的方法實(shí)施例,如圖4所示,本發(fā)明實(shí)施例提供一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置,包括:待處理語(yǔ)句獲取單元31,用于獲取原始數(shù)據(jù)中的待處理語(yǔ)句。單字切分單元32,用于將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字。實(shí)體標(biāo)記序列確定單元33,用于根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列。第一組候選實(shí)體確定單元34,用于根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體。第二組候選實(shí)體確定單元35,用于根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體。候選實(shí)體篩選單元36,用于根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體。藥品類(lèi)實(shí)體結(jié)果確定單元37,用于在第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同時(shí),根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。具體的,如圖5所示,所述藥品類(lèi)實(shí)體結(jié)果確定單元37,包括:術(shù)語(yǔ)切分判斷模塊371,用于確定待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),是否通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分。藥品類(lèi)實(shí)體結(jié)果確定模塊372,用于在待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第二組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果;在待處理語(yǔ)句在進(jìn)行術(shù)語(yǔ)切分時(shí),未通過(guò)預(yù)先設(shè)置的切分規(guī)則進(jìn)行切分,則選擇所述第一組藥品類(lèi)候選實(shí)體中的候選實(shí)體作為藥品類(lèi)實(shí)體結(jié)果。所述藥品類(lèi)實(shí)體結(jié)果確定模塊372,還可以確定來(lái)源于相同待處理語(yǔ)句的原始字符串的第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中,實(shí)體個(gè)數(shù)少,且實(shí)體包含的字符數(shù)多的一組實(shí)體作為藥品類(lèi)實(shí)體結(jié)果。具體的,所述待處理語(yǔ)句獲取單元31中的原始數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù);所述結(jié)構(gòu)化數(shù)據(jù)包括結(jié)算單數(shù)據(jù)、門(mén)診處方數(shù)據(jù)、住院醫(yī)囑數(shù)據(jù)、醫(yī)藥企業(yè)藥品試驗(yàn)數(shù)據(jù)、醫(yī)藥企業(yè)銷(xiāo)售數(shù)據(jù)、醫(yī)療知識(shí)庫(kù)及文獻(xiàn)庫(kù)數(shù)據(jù)、藥品說(shuō)明書(shū)數(shù)據(jù)。進(jìn)一步的,如圖5所示,所述實(shí)體標(biāo)記序列確定單元33,包括:crf統(tǒng)計(jì)特征值提取模塊331,用于從預(yù)先設(shè)置的語(yǔ)料庫(kù)中提取待處理語(yǔ)句中的每個(gè)文字的crf統(tǒng)計(jì)特征值;所述預(yù)先設(shè)置的語(yǔ)料庫(kù)中記錄有原始數(shù)據(jù)中各語(yǔ)句、各語(yǔ)句中的實(shí)體、以及各語(yǔ)句中的實(shí)體在各語(yǔ)句中的位置以及實(shí)體類(lèi)別;所述crf統(tǒng)計(jì)特征值包括每個(gè)文字在各語(yǔ)句中的分詞特征值、詞性特征值、字符特征值、上下文特征值以及術(shù)語(yǔ)表特征值。訓(xùn)練模型確定模塊332,用于根據(jù)每個(gè)字在各語(yǔ)句中的crf統(tǒng)計(jì)特征值,確定一訓(xùn)練模型;所述訓(xùn)練模型為:實(shí)體標(biāo)記計(jì)算模塊333,用于根據(jù)所述訓(xùn)練模型,計(jì)算待處理語(yǔ)句中的每個(gè)文字的實(shí)體標(biāo)記yj。實(shí)體標(biāo)記序列確定模塊334,用于將每個(gè)文字的實(shí)體標(biāo)記進(jìn)行組合,形成待處理語(yǔ)句的實(shí)體標(biāo)記序列;其中,x表示所述待處理語(yǔ)句;yj表示待處理語(yǔ)句中j位置對(duì)應(yīng)的文字的實(shí)體標(biāo)記;fi(yj,yj-1,x)表示待處理語(yǔ)句中分詞特征i的函數(shù)值;λi為模型參數(shù);m表示分詞特征的個(gè)數(shù);n表示待處理語(yǔ)句中的文字位置個(gè)數(shù);z(x)表示歸一化因子;p(y|x)表示文字在待處理語(yǔ)句中的標(biāo)記概率。此外,所述第一組候選實(shí)體確定單元34,具體用于:在實(shí)體標(biāo)記序列中確定各文字對(duì)應(yīng)的分詞特征值,并根據(jù)所述分詞特征值確定待處理語(yǔ)句的第一組候選實(shí)體。進(jìn)一步的,如圖5所示,所述的面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置,還包括語(yǔ)料庫(kù)更新單元38用于:在所述待處理語(yǔ)句未在預(yù)先設(shè)置的語(yǔ)料庫(kù)中被標(biāo)注,根據(jù)公式:確定待處理語(yǔ)句中各實(shí)體的不確定值;其中,iek為第k個(gè)實(shí)體的不確定值;kstart為第k個(gè)實(shí)體的實(shí)體標(biāo)記的開(kāi)始位置;kend為第k個(gè)實(shí)體的實(shí)體標(biāo)記的尾部位置;為待處理語(yǔ)句中s位置的文字對(duì)應(yīng)第j個(gè)實(shí)體標(biāo)記的概率。將待處理語(yǔ)句中不確定值為1的實(shí)體與預(yù)先設(shè)置的藥品本體庫(kù)匹配,在匹配成功時(shí),將匹配成功的實(shí)體的實(shí)體標(biāo)記進(jìn)行保存。確定待處理語(yǔ)句的預(yù)測(cè)置信度和字典匹配標(biāo)記的實(shí)體比例。將預(yù)測(cè)置信度大于預(yù)設(shè)置信度閾值和字典匹配標(biāo)記的實(shí)體比例大于預(yù)設(shè)比例閾值的待處理語(yǔ)句加入到所述語(yǔ)料庫(kù)中,以進(jìn)行語(yǔ)料庫(kù)更新。其中,所述預(yù)測(cè)置信度為待處理語(yǔ)句中各文字對(duì)應(yīng)的標(biāo)記概率的乘積。所述字典匹配標(biāo)記的實(shí)體比例為:其中,c為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)中出現(xiàn)在預(yù)設(shè)字典中的實(shí)體數(shù);b為待處理語(yǔ)句中預(yù)測(cè)出的實(shí)體總數(shù)。此外,如圖5所示,所述第二組候選實(shí)體確定單元35,包括:預(yù)處理模塊351,用于將待處理語(yǔ)句中的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)換為半角,并將英文字母統(tǒng)一為大寫(xiě)英文字母;調(diào)用預(yù)先設(shè)置的非醫(yī)學(xué)術(shù)語(yǔ)表,檢查待處理語(yǔ)句中的原始字符串是否存在非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ),并將待處理語(yǔ)句中存在的非醫(yī)學(xué)術(shù)語(yǔ)表中的術(shù)語(yǔ)刪除,形成預(yù)處理后的待處理語(yǔ)句。規(guī)格和包裝規(guī)格實(shí)體識(shí)別模塊352,用于將預(yù)處理后的待處理語(yǔ)句采用逆向最大匹配原則與預(yù)先設(shè)置的藥品規(guī)格數(shù)據(jù)庫(kù)和包裝規(guī)格數(shù)據(jù)庫(kù)進(jìn)行匹配,將從藥品規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為規(guī)格實(shí)體,將從包裝規(guī)格數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包裝規(guī)格實(shí)體;或者,識(shí)別預(yù)處理后的待處理語(yǔ)句中的數(shù)字組合;判斷預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串是否為計(jì)量單位;若預(yù)處理后的待處理語(yǔ)句中所述數(shù)字組合后的字符串為計(jì)量單位,則根據(jù)計(jì)量單位類(lèi)型,將所述數(shù)字組合和計(jì)量單位作為整體抽出,形成規(guī)格實(shí)體或者包裝規(guī)格實(shí)體。其他實(shí)體識(shí)別模塊353,用于將預(yù)處理后的待處理語(yǔ)句中規(guī)格實(shí)體和包裝規(guī)格實(shí)體之外的其他字符串,采用逆向最大匹配原則與預(yù)先設(shè)置的藥品名稱(chēng)數(shù)據(jù)庫(kù)、劑型數(shù)據(jù)庫(kù)以及包材數(shù)據(jù)庫(kù)進(jìn)行匹配;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為產(chǎn)品名的待處理語(yǔ)句的字符串確定為藥品產(chǎn)品名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為通用名的待處理語(yǔ)句的字符串確定為藥品通用名實(shí)體;將從藥品名稱(chēng)數(shù)據(jù)庫(kù)中匹配到的,且對(duì)應(yīng)藥品名稱(chēng)數(shù)據(jù)庫(kù)中的詞語(yǔ)類(lèi)型為商品名的待處理語(yǔ)句的字符串確定為藥品商品名實(shí)體;將從劑型數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為劑型實(shí)體;將從包材數(shù)據(jù)庫(kù)中匹配到的待處理語(yǔ)句的字符串確定為包材實(shí)體。酸根堿根詞判斷模塊354,用于根據(jù)一預(yù)先設(shè)置的酸根堿根數(shù)據(jù)表,在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之前是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞;并在預(yù)處理后的待處理語(yǔ)句中確定切分出的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體之后是否存在分別與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞。實(shí)體調(diào)整模塊355,用于將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的酸根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變;將與藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體連續(xù)的堿根詞抽出,并加入到其對(duì)應(yīng)的藥品通用名實(shí)體或藥品產(chǎn)品名實(shí)體中,且實(shí)體類(lèi)型不變。所述實(shí)體調(diào)整模塊355,還用于在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體與劑型實(shí)體相鄰時(shí),將藥品通用名實(shí)體與劑型實(shí)體作為整體抽出,形成藥品產(chǎn)品名實(shí)體;在預(yù)處理后的待處理語(yǔ)句中藥品通用名實(shí)體之后與預(yù)先設(shè)置的表示劑型的單字相鄰時(shí),將藥品通用名實(shí)體與所述表示劑型的單字作為整體抽出,形成藥品產(chǎn)品名實(shí)體。第二組候選實(shí)體形成模塊356,用于判斷預(yù)處理后的待處理語(yǔ)句中是否存在藥品名相關(guān)實(shí)體;所述藥品名相關(guān)實(shí)體包括藥品通用名實(shí)體、藥品產(chǎn)品名實(shí)體和藥品商品名實(shí)體;在預(yù)處理后的待處理語(yǔ)句中存在藥品名相關(guān)實(shí)體時(shí),將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體中的一個(gè)或多個(gè)實(shí)體與所述藥品名相關(guān)實(shí)體作為所述第二組候選實(shí)體;在預(yù)處理后的待處理語(yǔ)句中不存在藥品名相關(guān)實(shí)體時(shí),將預(yù)處理后的待處理語(yǔ)句中抽取出的規(guī)格實(shí)體、包裝規(guī)格實(shí)體、劑型實(shí)體、包材實(shí)體舍棄。此外,如圖5所示,所述候選實(shí)體篩選單元36,包括:非藥品術(shù)語(yǔ)字符判斷模塊361,用于判斷第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符是否為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符。候選實(shí)體舍棄模塊362,用于在各候選實(shí)體的末尾字符為預(yù)先設(shè)置的非藥品術(shù)語(yǔ)字符時(shí),將所述候選實(shí)體舍棄。值得說(shuō)明的是,本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置的具體實(shí)現(xiàn)方式可以參見(jiàn)上述的方法實(shí)施例,此處不再贅述。本發(fā)明實(shí)施例提供的一種面向多數(shù)據(jù)源的藥品類(lèi)實(shí)體識(shí)別裝置,首先,獲取原始數(shù)據(jù)中的待處理語(yǔ)句;將所述待處理語(yǔ)句進(jìn)行單字切分,確定待處理語(yǔ)句中的每個(gè)文字;根據(jù)預(yù)先訓(xùn)練完成的crf訓(xùn)練模型,確定待處理語(yǔ)句中的每個(gè)文字在待處理語(yǔ)句中的實(shí)體標(biāo)記,并確定待處理語(yǔ)句的實(shí)體標(biāo)記序列;根據(jù)待處理語(yǔ)句的實(shí)體標(biāo)記序列,確定待處理語(yǔ)句的第一組候選實(shí)體;然后,根據(jù)預(yù)先設(shè)置的藥品類(lèi)術(shù)語(yǔ)切分策略,對(duì)所述待處理語(yǔ)句進(jìn)行術(shù)語(yǔ)切分,確定第二組候選實(shí)體;根據(jù)第一組候選實(shí)體和第二組候選實(shí)體中各候選實(shí)體的末尾字符,對(duì)各候選實(shí)體進(jìn)行篩選,分別形成第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體;若第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體不相同,根據(jù)預(yù)先設(shè)置的判斷策略從第一組藥品類(lèi)候選實(shí)體和第二組藥品類(lèi)候選實(shí)體中確定藥品類(lèi)實(shí)體結(jié)果。本發(fā)明將條件隨機(jī)場(chǎng)crf統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與術(shù)語(yǔ)切分方法相結(jié)合,能夠自動(dòng)識(shí)別藥品類(lèi)實(shí)體,克服了當(dāng)前的實(shí)體識(shí)別的數(shù)據(jù)源較為單一,實(shí)體識(shí)別不準(zhǔn)確的問(wèn)題。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。本發(fā)明中應(yīng)用了具體實(shí)施例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。當(dāng)前第1頁(yè)12