一種文本處理方法和文本處理裝置制造方法
【專利摘要】本發(fā)明公開了一種文本處理方法和一種文本處理裝置,文本處理方法包括以下步驟:S100、使用語義標準化表、第一標準庫和第二標準庫生成關(guān)聯(lián)對照表;其中,所述語義標準化表的表項分別包括普通術(shù)語和對應(yīng)的標準化術(shù)語;S200、使用語義標準化表對依據(jù)第一標準庫創(chuàng)建的文本進行語義標準化操作,得到經(jīng)標準化處理的文本;S300、判斷經(jīng)標準化處理的文本是否能夠與關(guān)聯(lián)對照表中的表項進行語義精確匹配,若是則執(zhí)行步驟S400,否則進一步執(zhí)行語義模糊匹配和/或人工匹配以及根據(jù)匹配結(jié)果更新語義標準化表并返回步驟S200;S400、利用與關(guān)聯(lián)對照表中的所述匹配的表項相對應(yīng)的第二標準庫的文本,代替所述經(jīng)標準化處理的文本和/或編碼。
【專利說明】一種文本處理方法和文本處理裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,具體涉及一種適于實現(xiàn)文本在不同標準之間自動轉(zhuǎn)換的文本處理方法和文本處理裝置。
【背景技術(shù)】
[0002]目前由于各行業(yè)內(nèi)部的不同機構(gòu)使用的標準往往不統(tǒng)一,需要實現(xiàn)文本在不同標準之間自動的轉(zhuǎn)換。
[0003]以醫(yī)療系統(tǒng)為例進行說明,基本醫(yī)療保險結(jié)算單數(shù)據(jù)中的醫(yī)學(xué)術(shù)語普遍存在術(shù)語標準各異、表述多樣、術(shù)語標準覆蓋不全面的情況,為信息的處理和應(yīng)用帶來了極大障礙。
[0004]現(xiàn)有技術(shù)的醫(yī)療機構(gòu)將醫(yī)療文本“術(shù)語標準化”都是通過“碼對碼”轉(zhuǎn)換實現(xiàn)的。例如,醫(yī)保局要求醫(yī)院上傳申報數(shù)據(jù)時,須上傳醫(yī)保標準庫中的醫(yī)保碼,這就要求醫(yī)院向醫(yī)保局申報之前,需要將自己醫(yī)院信息系統(tǒng)(即本地系統(tǒng))中的數(shù)據(jù)與醫(yī)保局標準數(shù)據(jù)庫中數(shù)據(jù)建立映射關(guān)系。
[0005]以某一藥品為例,表(一)為醫(yī)院的信息系統(tǒng)數(shù)據(jù)庫中的術(shù)語,表(二)為醫(yī)保標準庫中的術(shù)語;反映了同一術(shù)語在不同標準中的表現(xiàn)形式不同,現(xiàn)有的方法是通過編碼匹配使得使用兩種標準的使用者都能夠獲知術(shù)語的含義的。
[0006]表(一)
[0007]
【權(quán)利要求】
1.一種文本處理方法,該方法包括以下步驟: S100、使用語義標準化表、第一標準庫和第二標準庫生成關(guān)聯(lián)對照表;其中,所述語義標準化表的表項分別包括普通術(shù)語和對應(yīng)的標準化術(shù)語; S200、使用語義標準化表對依據(jù)第一標準庫創(chuàng)建的文本進行語義標準化操作,得到經(jīng)標準化處理的文本; S300、判斷經(jīng)標準化處理的文本是否能夠與關(guān)聯(lián)對照表中的表項進行語義精確匹配,若是則執(zhí)行步驟S400,否則進一步執(zhí)行語義模糊匹配和/或人工匹配以及根據(jù)匹配結(jié)果更新語義標準化表并返回步驟S200 ; S400、利用與關(guān)聯(lián)對照表中的所述匹配的表項相對應(yīng)的第二標準庫的文本和/或編碼,代替所述經(jīng)標準化處理的文本。
2.根據(jù)權(quán)利要求1所述的方法,其中,步驟S200,具體包括以下步驟: S202、將文本切分為詞匯序列; S204、從所述詞匯序列中識別并提取術(shù)語; S206、將所述術(shù)語與語義標準化表中的普通術(shù)語進行比對,使用匹配的表項所包括的標準化術(shù)語代替對應(yīng)的術(shù)語,從而得到經(jīng)標準化處理的文本。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟S300,具體包括: 將經(jīng)標準化處理的文本中的各術(shù)語,分別與關(guān)聯(lián)對照表中的標準化術(shù)語進行語義精確匹配,若所有的術(shù)語均能夠精確匹配則執(zhí)行步驟S400,否則進一步執(zhí)行語義模糊匹配和/或人工匹配以及根據(jù)匹配結(jié)果更新語義標準化表并返回步驟S200。`
4.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟S100,具體包括: S102、將第一標準庫中的第一表項與語義標準化表的普通術(shù)語進行精確匹配,若存在不能精確匹配的第一表項則通過配置新的表項而調(diào)整語義標準化表并再次將所述第一表項與經(jīng)調(diào)整的語義標準化表的普通術(shù)語進行精確匹配,從而得到匹配的標準化術(shù)語;將第二標準庫中的第二表項與語義標準化表的普通術(shù)語進行精確匹配,若存在不能精確匹配的第二表項則通過配置新的表項而調(diào)整語義標準化表并再次將所述第二表項與經(jīng)調(diào)整的語義標準化表的普通術(shù)語進行精確匹配,從而得到匹配的標準化術(shù)語; S104、將與相同標準化術(shù)語匹配的第一表項與第二表項建立關(guān)聯(lián),得到關(guān)聯(lián)對照表的表項。
5.根據(jù)權(quán)利要求1至4任一項所述的方法,其中, 所述文本為醫(yī)療文本;所述第一標準庫為醫(yī)療機構(gòu)的標準庫;所述第二標準庫為醫(yī)療管理機構(gòu)的標準庫。
6.一種文本處理裝置,其中,該文本處理裝置包括: 關(guān)聯(lián)單元,適于使用語義標準化表、第一標準庫和第二標準庫生成關(guān)聯(lián)對照表;其中,所述語義標準化表的表項分別包括普通術(shù)語和對應(yīng)的標準化術(shù)語; 文本標準化單元,適于使用語義標準化表對依據(jù)第一標準庫創(chuàng)建的文本進行語義標準化操作,得到經(jīng)標準化處理的文本; 語義匹配單元,適于判斷經(jīng)標準化處理的文本是否能夠與關(guān)聯(lián)對照表中的表項進行語義精確匹配,若是則將匹配結(jié)果發(fā)送至文本替換單元,否則進一步執(zhí)行語義模糊匹配和/或人工匹配以及根據(jù)匹配結(jié)果更新語義標準化表,并將匹配未成功的消息通知文本標準化單元; 文本替換單元,適于利用與關(guān)聯(lián)對照表中的所述匹配的表項相對應(yīng)的第二標準庫的文本和/或編碼,代替所述經(jīng)標準化處理的文本。
7.根據(jù)權(quán)利要求6所述的裝置,其中, 所述文本標準化單元,適于將文本切分為詞匯序列;從所述詞匯序列中識別并提取術(shù)語;以及將所述術(shù)語與語義標準化表中的普通術(shù)語進行比對,使用匹配的表項所包括的標準化術(shù)語代替對應(yīng)的術(shù)語,從而得到經(jīng)標準化處理的文本。
8.根據(jù)權(quán)利要求7所述的裝置,其中, 所述語義匹配單元,適于將經(jīng)標準化處理的文本中的各術(shù)語,分別與關(guān)聯(lián)對照表中的表項的標準化術(shù)語進行語義精確匹配,若所有的術(shù)語均能夠精確匹配則將匹配結(jié)果發(fā)送至文本替換單元,否則進一步執(zhí)行語義模糊匹配和/或人工匹配以及根據(jù)匹配結(jié)果更新語義標準化表,并將匹配未成功的消息通知文本標準化單元,以由文本標準化單元對文本重新進行語義標準化操作。
9.根據(jù)權(quán)利要求6所述的裝置,其中, 所述關(guān)聯(lián)單元,適于將第一標準庫中的第一表項與語義標準化表的普通術(shù)語進行精確匹配,若存在不能精確匹配的第一表項則通過配置新的表項而調(diào)整語義標準化表并再次將所述第一表項與經(jīng)調(diào)整的語義標準化表的普通術(shù)語進行精確匹配,從而得到匹配的標準化術(shù)語;將第二標準庫中的第二表項與語義標準化表的普通術(shù)語進行精確匹配,若存在不能精確匹配的第二表項則通過配置新的表項而調(diào)整語義標準化表并再次將所述第二表項與經(jīng)調(diào)整的語義標準化表的普通術(shù)語進行精確匹配,從而得到匹配的標準化術(shù)語;以及將與相同標準化術(shù)語匹配的第一表項與第二表項建立關(guān)聯(lián),得到關(guān)聯(lián)對照表的表項。
10.根據(jù)權(quán)利要求6至`9任一項所述的裝置,其中, 所述文本為醫(yī)療文本;所述第一標準庫為醫(yī)療機構(gòu)的標準庫;所述第二標準庫為醫(yī)療管理機構(gòu)的標準庫。
【文檔編號】G06F17/21GK103678262SQ201310741364
【公開日】2014年3月26日 申請日期:2013年12月27日 優(yōu)先權(quán)日:2013年12月27日
【發(fā)明者】金以東 申請人:中西亞通醫(yī)療信息科技(北京)有限公司