解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法,該系統(tǒng)包括資源詞庫、目標值域庫、模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單元;該方法包括:從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù),根據(jù)目標值域庫存儲的標準碼或匹配表存儲的存儲映射匹配規(guī)則信息,對獲取的數(shù)據(jù)進行精確匹配映射;對從數(shù)據(jù)源獲取的數(shù)據(jù)進行模糊語義分析;對模擬語義分詞結(jié)果進行模糊匹配處理,并生成映射匹配結(jié)果;根據(jù)匹配表中的映射匹配規(guī)則信息將醫(yī)療數(shù)據(jù)映射成標準碼,生成醫(yī)療數(shù)據(jù)映射處理結(jié)果。本發(fā)明建立了一種自動化映射匹配的處理流程,通過模糊匹配、人工校驗、機器訓(xùn)練等技術(shù)相結(jié)合的方式,實現(xiàn)映射匹配結(jié)果的較高準確性和匹配精度。
【專利說明】解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,具體涉及一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的 映射處理系統(tǒng)及方法。
【背景技術(shù)】
[0002] 在醫(yī)療數(shù)據(jù)的使用過程中,通常需要對數(shù)據(jù)值域內(nèi)容進行匹配處理,將醫(yī)療數(shù)據(jù) 值根據(jù)標準要求映射成其它值,即基于標準編碼的映射處理。通常,該處理過程需要根據(jù)實 際業(yè)務(wù)情況來進行手工配置,手工配置方式匹配效率低、匹配錯誤率高、工作量大,在實際 業(yè)務(wù)數(shù)據(jù)匹配構(gòu)建過程中無法根據(jù)實際情況進行快速構(gòu)建。因此,需要一種可以實現(xiàn)高效、 簡便的映射處理方法來解決數(shù)據(jù)編碼的標準化對照問題,可以基于已有的編碼規(guī)則來快速 實現(xiàn)數(shù)據(jù)編碼標準化映射,而無需手工重新對照映射。
【發(fā)明內(nèi)容】
[0003] 針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映 射處理系統(tǒng)及方法。
[0004] 本發(fā)明的技術(shù)方案是:
[0005] 解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng),包括:資源詞庫、目標值域庫、 模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單元;
[0006] 資源詞庫:存儲有基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯;
[0007] 目標值域庫:用于存儲標準碼,即GB/T或醫(yī)療行業(yè)規(guī)范定義的編碼值;
[0008] 模擬語義分詞單元:包括分詞模塊、詞庫加載模塊、詞元處理模塊、相似度評估模 塊和分析模塊;
[0009] 所述分詞模塊用于采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù) 信息進行語義分解和分詞切分處理;
[0010] 所述詞庫加載模塊用于實現(xiàn)字典加載管理,對資源詞庫信息進行加載,將資源詞 庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯加載到緩存中,為詞元處理模塊提供詞元信息;
[0011] 所述詞元處理模塊對詞庫加載模塊提供的詞元信息進行緩存,對中文詞匯、數(shù)量 詞匯、字母詞匯進行分類處理,并為分析模塊提供詞元支撐;
[0012] 所述相似度評估模塊用于對分類處理后數(shù)據(jù)的相似度評估,得到相似度評估結(jié) 果;
[0013] 所述分析模塊用于對調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊進行協(xié)調(diào)調(diào) 度,并將相似度評估結(jié)果作為模擬語義分詞結(jié)果輸出至模糊匹配單元;
[0014] 模糊匹配單元:包括語法分析模塊、索引創(chuàng)建模塊、索引存儲模塊、索引庫、索引搜 索模塊、相關(guān)性排序模塊和匹配優(yōu)化模塊;
[0015] 模糊匹配單元用于根據(jù)目標值域庫信息對模擬語義分詞處理結(jié)果進行模糊匹配 處理;
[0016] 所述語法分析模塊用于對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干 詞;
[0017] 所述索引創(chuàng)建模塊用于根據(jù)語法分析模塊形成的若干詞生成詞典索引和反向索 引;
[0018] 所述索引存儲模塊用于根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存 儲到索引庫中;
[0019] 所述索引庫用于存儲詞典索引和反向索引;
[0020] 所述索引搜索模塊用于將索引庫中的詞典索引和反向索引載入到內(nèi)存,利用查詢 樹搜索索引,得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表,對該信息鏈表進行布爾運算后獲得數(shù)據(jù) 源信息的具體指向位置,從而得到索引搜索結(jié)果;
[0021] 所述相關(guān)性排序模塊用于計算索引搜索結(jié)果與源詞庫中的醫(yī)療專業(yè)詞匯的相關(guān) 度并進行排序;
[0022] 所述匹配優(yōu)化模塊用于根據(jù)相關(guān)度閾值來選取資源詞庫中的醫(yī)療專業(yè)詞匯與數(shù) 據(jù)源信息鏈的最佳匹配關(guān)聯(lián)關(guān)系,并經(jīng)過人工校驗后將該最佳匹配關(guān)聯(lián)關(guān)系作為模糊匹配 結(jié)果存儲至匹配表中;
[0023] 精確匹配單元:包括數(shù)據(jù)獲取模塊和精確匹配模塊;
[0024] 所述數(shù)據(jù)獲取模塊用于獲取數(shù)據(jù)源提供的數(shù)據(jù)信息;
[0025] 所述精確匹配模塊用于根據(jù)數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)源提供的數(shù)據(jù)信息與目標 值域庫存儲的標準碼或者匹配表存儲的映射匹配規(guī)則信息進行精確匹配映射,生成數(shù)據(jù)映 射匹配結(jié)果,即精確匹配結(jié)果;
[0026] 所述匹配表用于存儲映射匹配規(guī)則信息,映射匹配規(guī)則信息即數(shù)據(jù)源的數(shù)據(jù)信息 與目標值域庫間的匹配關(guān)聯(lián)關(guān)系;
[0027] 人工管理單元:用于對資源詞庫、目標值域庫與匹配表進行調(diào)整。
[0028] 采用所述的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)的醫(yī)療數(shù)據(jù)映射處 理方法,包括以下步驟:
[0029] 步驟1 :從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù),根據(jù)目標值域表存儲的標準碼或匹配表存儲的 存儲映射匹配規(guī)則信息,對獲取的數(shù)據(jù)進行精確匹配映射:若獲取的數(shù)據(jù)與匹配表存儲的 映射匹配規(guī)則信息完全匹配,則執(zhí)行步驟4 ;否則,執(zhí)行步驟2 ;
[0030] 步驟2 :對從數(shù)據(jù)源獲取的數(shù)據(jù)進行模糊語義分析;
[0031] 步驟2-1 :通過對資源詞庫信息進行加載,將資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè) 詞匯加載到緩存中,為詞元處理提供詞元信息;
[0032] 步驟2-2 :采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息進行 分詞處理,包括語義分解和分詞切分處理;
[0033] 步驟2-3 :進行詞元處理:對資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯進行緩存,對 中文詞匯、數(shù)量詞匯、字母詞匯進行分類處理;
[0034] 步驟2-4 :對加載的詞元信息與分詞處理后的數(shù)據(jù)進行相似度評估,得到相似度 評估結(jié)果;
[0035] 步驟2-5 :將相似度評估結(jié)果作為模擬語義分詞結(jié)果;
[0036] 步驟3 :對模擬語義分詞結(jié)果進行模糊匹配處理,并生成映射匹配結(jié)果;
[0037] 步驟3-1 :對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞;
[0038] 步驟3-2 :根據(jù)形成的若干詞生成詞典索引和反向索引;
[0039] 步驟3-3 :根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到索引庫 中;
[0040] 步驟3-4 :將索引庫中的詞典索引和反向索引載入到內(nèi)存,利用查詢樹搜索索引, 得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表,對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信息的具體 指向位置,從而得到索引搜索結(jié)果;
[0041] 步驟3-5 :計算各索引搜索結(jié)果與目標值域庫中的標準碼之間的關(guān)聯(lián)度,并對各 關(guān)聯(lián)度進行排序;
[0042] 步驟3-6 :人工設(shè)定關(guān)聯(lián)度閾值,對符合關(guān)聯(lián)度閾值的索引搜索結(jié)果進行人工校 驗,并建立匹配關(guān)聯(lián)關(guān)系,該匹配關(guān)聯(lián)關(guān)系作為映射匹配規(guī)則信息存儲至匹配表中;
[0043] 步驟4 :根據(jù)匹配表中的映射匹配規(guī)則信息將醫(yī)療數(shù)據(jù)映射成標準碼,生成醫(yī)療 數(shù)據(jù)映射處理結(jié)果。
[0044] 有益效果:
[0045] 本發(fā)明解決了在醫(yī)療信息向標準化衛(wèi)生平臺上報過程中的編碼規(guī)范化問題,建立 了一種自動化映射匹配的處理流程,同時提供了比較完備的業(yè)務(wù)處理能力。通過模糊匹配、 人工校驗、機器訓(xùn)練等技術(shù)相結(jié)合的方式,實現(xiàn)映射匹配結(jié)果的較高準確性和匹配精度。本 方法首先通過模糊匹配,根據(jù)關(guān)聯(lián)度值的情況完成映射匹配,匹配結(jié)果經(jīng)人工校校驗后得 到正確的匹配關(guān)聯(lián)關(guān)系,此匹配關(guān)聯(lián)關(guān)系會被系統(tǒng)進行記錄和學(xué)習(xí)。在進行多次固定行業(yè) 的映射匹配后,匹配的精度和準確性會隨著行業(yè)實踐次數(shù)的積累而線性提升。本發(fā)明成功 實施在醫(yī)療信息的處理項目匯總,使得業(yè)務(wù)數(shù)據(jù)得到穩(wěn)定高效的處理和發(fā)布,從而推動醫(yī) 療衛(wèi)生體系的建設(shè)和管理,為區(qū)域醫(yī)療系統(tǒng)的構(gòu)建提供有力支撐。
【專利附圖】
【附圖說明】
[0046] 圖1是本發(fā)明【具體實施方式】的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng) 結(jié)構(gòu)框圖;
[0047] 圖2是本發(fā)明【具體實施方式】的模擬語義分詞單元結(jié)構(gòu)框圖;
[0048] 圖3是本發(fā)明【具體實施方式】的模糊匹配單元結(jié)構(gòu)框圖;
[0049] 圖4是本發(fā)明【具體實施方式】的精確匹配單元結(jié)構(gòu)框圖;
[0050] 圖5是本發(fā)明【具體實施方式】的人工管理單元工作原理示意圖;
[0051] 圖6是本發(fā)明【具體實施方式】的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng) 應(yīng)用結(jié)構(gòu)不意圖;
[0052] 圖7是本發(fā)明【具體實施方式】的對從醫(yī)療數(shù)據(jù)源中獲取的數(shù)據(jù)進行結(jié)構(gòu)標準化處 理的不意圖;
[0053] 圖8是本發(fā)明【具體實施方式】的模擬語義分詞單元處理示意圖;
[0054] 圖9是本發(fā)明【具體實施方式】的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理方法;
[0055] 圖10是本發(fā)明【具體實施方式】的根據(jù)內(nèi)容類型進行分類后得到的結(jié)果示意圖;
[0056] 圖11是本發(fā)明【具體實施方式】的據(jù)資源詞庫內(nèi)容得到分詞結(jié)果得到的結(jié)果示意 圖;
[0057] 圖12是本發(fā)明【具體實施方式】的分詞結(jié)果鏈表;
[0058] 圖13是本發(fā)明【具體實施方式】的對分詞結(jié)果創(chuàng)建的緩存表;
[0059] 圖14是本發(fā)明【具體實施方式】的根據(jù)緩存表生成的倒排鏈表。
【具體實施方式】
[0060] 下面結(jié)合附圖對本發(fā)明【具體實施方式】進行詳細說明。
[0061] 針對醫(yī)療數(shù)據(jù)源實施本發(fā)明的技術(shù)方案,數(shù)據(jù)源是指提供某種所需要數(shù)據(jù)的器件 或原始媒體,醫(yī)療數(shù)據(jù)源則是存儲醫(yī)療業(yè)務(wù)數(shù)據(jù)的器件或原始媒體,而醫(yī)療數(shù)據(jù)具有數(shù)據(jù) 量龐大、存儲類型靈活多變、標準約束性強等特點。
[0062] 本實施方式提供一種實現(xiàn)醫(yī)院端數(shù)據(jù)清洗和映射匹配的實施方式。在網(wǎng)絡(luò)構(gòu)建結(jié) 構(gòu)上,本實施方式的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)部署于不同區(qū)域醫(yī)院 信息系統(tǒng)中,從區(qū)域醫(yī)院信息系統(tǒng)中的HIS數(shù)據(jù)庫中獲取所需的醫(yī)療業(yè)務(wù)數(shù)據(jù),部署方式 可采用分布式部署,根據(jù)需要來對指定單個系統(tǒng)或集群數(shù)據(jù)源系統(tǒng)(HIS數(shù)據(jù)庫)進行數(shù)據(jù) 的標準對碼映射處理,本實施方式的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)應(yīng)用 結(jié)構(gòu)如圖6所示。
[0063] 如圖1所示,解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng),包括:資源詞庫、 目標值域庫、模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單元; [0064] 資源詞庫:存儲有基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯;
[0065]目標值域庫:用于存儲標準碼,即GB/T或醫(yī)療行業(yè)規(guī)范定義的編碼值;目標值域 庫中包括標準值域表和標準結(jié)構(gòu)表,其中標準值域表記錄規(guī)范的標準編碼和描述信息,而 標準結(jié)構(gòu)表記錄標準的業(yè)務(wù)模型結(jié)構(gòu)信息;
[0066] 模擬語義分詞單元:包括分詞模塊、詞庫加載模塊、詞元處理模塊、相似度評估模 塊和分析模塊;
[0067] 分詞模塊用于采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息 進行語義分解和分詞切分處理;
[0068] 詞庫加載模塊用于實現(xiàn)字典加載管理,對資源詞庫信息進行加載,將資源詞庫中 的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯加載到緩存中,為詞元處理模塊提供詞元信息;
[0069] 詞元處理模塊對詞庫加載模塊提供的詞元信息進行緩存,對中文詞匯、數(shù)量詞匯、 字母詞匯進行分類處理,并為分析模塊提供詞元支撐;
[0070] 相似度評估模塊用于對分類處理后數(shù)據(jù)的相似度評估,得到相似度評估結(jié)果;
[0071] 分析模塊用于對調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊進行協(xié)調(diào)調(diào)度,并 將相似度評估結(jié)果作為模擬語義分詞結(jié)果輸出至模糊匹配單元;
[0072] 模糊匹配單元:包括語法分析模塊、索引創(chuàng)建模塊、索引存儲模塊、索引庫、索引搜 索模塊、相關(guān)性排序模塊和匹配優(yōu)化模塊;
[0073] 模糊匹配單元用于根據(jù)目標值域庫信息對模擬語義分詞處理結(jié)果進行模糊匹配 處理;
[0074] 語法分析模塊用于對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞;
[0075] 索引創(chuàng)建模塊用于根據(jù)語法分析模塊形成的若干詞生成詞典索引和反向索引;
[0076] 索引存儲模塊用于根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到 索引庫中;
[0077] 索引庫用于存儲詞典索引和反向索引;
[0078] 索引搜索模塊用于將索引庫中的詞典索引和反向索引載入到內(nèi)存,利用查詢樹搜 索索引,得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表,對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信 息的具體指向位置,從而得到索引搜索結(jié)果;
[0079] 相關(guān)性排序模塊用于計算索引搜索結(jié)果與源詞庫中的醫(yī)療專業(yè)詞匯的相關(guān)度并 進行排序;
[0080] 匹配優(yōu)化模塊用于根據(jù)相關(guān)度閾值來選取資源詞庫中的醫(yī)療專業(yè)詞匯與數(shù)據(jù)源 信息鏈的最佳匹配關(guān)聯(lián)關(guān)系,并經(jīng)過人工校驗后將該最佳匹配關(guān)聯(lián)關(guān)系作為模糊匹配結(jié)果 存儲至匹配表中,用于在進行精確匹配時提升匹配效率,對精確匹配單元提供匹配支持。
[0081] 精確匹配單元:包括數(shù)據(jù)獲取模塊和精確匹配模塊,如圖4所示;
[0082] 數(shù)據(jù)獲取模塊用于獲取數(shù)據(jù)源提供的數(shù)據(jù)信息;通過編輯SQL腳本的方式,使用 JDBC數(shù)據(jù)源連通方式,將醫(yī)療數(shù)據(jù)源中需要映射匹配的信息進行加載;
[0083] 精確匹配模塊用于根據(jù)數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)源提供的數(shù)據(jù)信息與目標值域 庫存儲的標準碼或者匹配表存儲的映射匹配規(guī)則信息進行精確匹配映射,生成數(shù)據(jù)映射匹 配結(jié)果,即精確匹配結(jié)果;精確匹配模塊根據(jù)匹配表中記錄的映射管理關(guān)系,對從數(shù)據(jù)源加 載的醫(yī)療數(shù)據(jù)進行映射匹配處理。匹配映射是基于對具體數(shù)據(jù)項展開的映射匹配過程,即 將具體數(shù)據(jù)項映射成為目標值域庫中指定的編碼值,目標值域庫是基于醫(yī)療衛(wèi)生行業(yè)機構(gòu) 分類單元以及GB/T國標來定義,具有極強的標準符合性。
[0084] 匹配表用于存儲映射匹配規(guī)則信息,映射匹配規(guī)則信息即數(shù)據(jù)源的數(shù)據(jù)信息與目 標值域表間的匹配關(guān)聯(lián)關(guān)系;
[0085] 人工管理單元:用于對資源詞庫、目標值域庫與匹配表進行調(diào)整,實現(xiàn)對數(shù)據(jù)的基 礎(chǔ)性維護。
[0086] 本系統(tǒng)的精確匹配單元獲取數(shù)據(jù)源信息后,根據(jù)數(shù)據(jù)源信息與匹配表進行匹配對 照,如果匹配表中存在與當前數(shù)據(jù)源信息匹配的記錄信息時,根據(jù)匹配表中記錄信息將數(shù) 據(jù)源信息匹配映射成目標值域庫要求的結(jié)果,并生成匹配結(jié)果;如果匹配表中不含當前數(shù) 據(jù)源信息,精確匹配單元的映射處理工作交由模糊匹配單元進行。
[0087] 模糊匹配單元在獲得數(shù)據(jù)源信息后,將數(shù)據(jù)源信息交由模擬語義分詞單元進行分 詞處理。模擬語義分詞單元根據(jù)資源詞庫中記錄的行業(yè)詞匯對信息進行詞元切分處理,切 分處理后的信息被重新送至模糊匹配單元。模糊匹配單元根據(jù)切分處理的數(shù)據(jù)源信息與目 標值域進行模糊匹配,模糊匹配結(jié)果經(jīng)匹配優(yōu)化模塊校驗后,保存至匹配表中,更新后的匹 配表為本方法執(zhí)行精確匹配時提供支持。模糊匹配的匹配優(yōu)化模塊提供人工校驗接口,為 人工審核模糊匹配結(jié)果提供功能支持,如果不經(jīng)過人工校驗,那么模糊匹配單元會根據(jù)數(shù) 據(jù)源與目標值域相似度評估算法來給出最佳的匹配關(guān)聯(lián)關(guān)系,并根據(jù)此關(guān)聯(lián)關(guān)系進行映射 處理,并生成最終映射匹配結(jié)果。
[0088] 如圖2所示,模擬語義分詞單元對數(shù)據(jù)源信息進行語義分析和分詞處理,并將經(jīng) 過模擬語義分詞處理后的數(shù)據(jù)發(fā)回模糊匹配單元。模擬語義分詞單元的分析模塊實現(xiàn)數(shù)據(jù) 源信息的主體語義分詞處理,首先分詞模塊選取分詞的方式,即使用最細粒度分詞策略或 智能分詞策略,為分析模塊提供分詞策略支持,并對提供的數(shù)據(jù)源信息進行語義分解,根據(jù) 選取的分詞策略來對信息進行分詞切分處理;詞庫加載模塊實現(xiàn)詞典加載管理功能,通過 詞典檢索算法來完成對資源詞庫信息的加載,將資源詞庫中基礎(chǔ)詞匯和專業(yè)詞匯加載到緩 存中,為詞元處理模塊提供詞元信息支撐;詞元處理模塊負責(zé)對詞元信息進行緩存,對中文 詞匯、數(shù)量詞匯、字母詞匯進行分類處理,并為分析模塊提供詞元支撐;相似度評估模塊根 據(jù)詞元相似度算法,實現(xiàn)詞元處理模塊對加載的詞元信息與分詞模塊提供的分詞后數(shù)據(jù)的 相似度評估,為分析模塊提供分詞處理提供分詞相似度評估值支持。分析模塊實現(xiàn)對數(shù)據(jù) 源數(shù)據(jù)進行綜合分詞處理,協(xié)調(diào)調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊來實現(xiàn)基于 語義的職能分詞處理,并將處理結(jié)果反饋至模糊匹配單元。
[0089] 如圖3所示,模糊匹配單元對數(shù)據(jù)源信息映射配置過程主要分為索引過程和搜索 過程兩個步驟。索引過程的目的在于對數(shù)據(jù)源信息建立索引信息;搜索過程的目的在于根 據(jù)建立的索引信息進行反向查詢出符合要求的數(shù)據(jù)源信息。索引過程首先將數(shù)據(jù)源信息 經(jīng)過模擬語義分詞單元進行語法分析和語言處理形成一系列詞,詞經(jīng)過本單元索引創(chuàng)建模 塊形成詞典和反向索引信息,而索引存儲模塊則將詞典與反向索引信息進行對應(yīng)關(guān)聯(lián)后存 儲到索引庫中,待模糊匹配單元的搜索過程利用。搜索過程首先將需要進行映射匹配的目 標值域信息通過語法分析模塊生成一個查詢樹,通過索引搜索模塊將索引庫信息載入到內(nèi) 存,利用查詢樹進行搜索索引,得到每個詞的數(shù)據(jù)源信息鏈表,對信息鏈表進行布爾運算后 獲得數(shù)據(jù)源信息具體指向位置,從而得到搜索結(jié)果,通過相關(guān)性排序模塊對搜索結(jié)果進行 排序后,匹配優(yōu)化模塊會根據(jù)相關(guān)度域值來選取目標值域與數(shù)據(jù)源信息鏈最佳匹配關(guān)聯(lián)關(guān) 系,并經(jīng)過人工校驗后保存至匹配表。
[0090] 如圖4所示,精確匹配單元實現(xiàn)對數(shù)據(jù)源信息根據(jù)匹配表進行的精確匹配映射, 并根據(jù)匹配表生成數(shù)據(jù)映射匹配結(jié)果。匹配表中持久化了映射匹配規(guī)則信息,該匹配規(guī)則 為數(shù)據(jù)源信息與目標值域間的匹配關(guān)聯(lián)關(guān)系。精確匹配單元用于執(zhí)行匹配表中持久化的映 射匹配關(guān)系,將數(shù)據(jù)源信息映射成標準碼信息,并生成最終匹配結(jié)果。同時,精確匹配模塊 也根據(jù)匹配表中記錄情況來判斷本單元是否可以完成此輪數(shù)據(jù)源信息的映射匹配操作,即 當匹配表中不含有當前數(shù)據(jù)源信息與目標值域庫中標準值域表的標準碼的匹配關(guān)系時,精 確匹配模塊將匹配映射工作交由模糊匹配單元進行,并將數(shù)據(jù)源信息轉(zhuǎn)發(fā)至模糊匹配單元 進行匹配映射處理。其中,數(shù)據(jù)獲取模塊實現(xiàn)對數(shù)據(jù)源提供的原始數(shù)據(jù)的獲取,完成對轉(zhuǎn)換 數(shù)據(jù)的加載。
[0091] 如圖5所示,人工管理單元實現(xiàn)對本方法中涉及的資源詞庫、目標值域庫與匹配 的手工調(diào)整,對本方法的數(shù)據(jù)進行基礎(chǔ)性維護。在本方法中,需要對一類持久化文件進行維 護和管理,包括對模糊語義分詞單元中資源詞庫的管理維護;對目標值域庫中標準碼信息 進行管理維護;以及在進行模糊匹配過程中進行人工校驗,對匹配過程值進行人工干預(yù)和 確認,并將干預(yù)和確認的結(jié)果記錄在匹配表中,用于提升下輪映射匹配精度。
[0092] 采用上述的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)的醫(yī)療數(shù)據(jù)映射處 理方法,如圖9所示,包括以下步驟:
[0093] 步驟1 :從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù),根據(jù)目標值域表存儲的標準碼或匹配表存儲的 存儲映射匹配規(guī)則信息,對獲取的數(shù)據(jù)進行精確匹配映射:若獲取的數(shù)據(jù)與匹配表存儲的 映射匹配規(guī)則信息完全匹配,則執(zhí)行步驟4 ;否則,執(zhí)行步驟2 ;
[0094] 本實施方式實現(xiàn)對醫(yī)療數(shù)據(jù)源基于標準編碼的映射匹配處理功能,在實際使用過 程中,通常需要首先對從醫(yī)療數(shù)據(jù)源中獲取的數(shù)據(jù)進行結(jié)構(gòu)標準化處理,即使用目標值域 庫中的標準結(jié)構(gòu)表對數(shù)據(jù)獲取模塊通過編輯SQL腳本的方式獲得數(shù)據(jù)信息結(jié)構(gòu)進行標準 化,關(guān)聯(lián)關(guān)系如圖7中①所示;之后,對SQL腳本的方式獲得數(shù)據(jù)信息內(nèi)容進行匹配映射,關(guān) 聯(lián)關(guān)系如圖7中②所示。
[0095] 例如,衛(wèi)生數(shù)據(jù)接收平臺需要提供根據(jù)《GB/T 2261. 1-2003個人基本信息分類與 代碼第1部分:性別代碼》來獲得醫(yī)療記錄中的性別編碼(標準碼),并假設(shè)目標值域庫的 標準結(jié)構(gòu)表中已經(jīng)建立針對性別編碼的標準列"性別"。
[0096] 第一步:將從醫(yī)療數(shù)據(jù)源獲取的數(shù)據(jù)字段名稱映射成衛(wèi)生數(shù)據(jù)接收平臺端業(yè)務(wù)要 求的標準列名稱,該標準列名對應(yīng)標準庫中標準結(jié)構(gòu)表內(nèi)容。標準結(jié)構(gòu)表記錄的標準列用 于醫(yī)療平臺端對具體上報數(shù)據(jù)項的解析。本實施方式是將通過編輯SQL腳本的方式獲得數(shù) 據(jù)信息結(jié)構(gòu)中醫(yī)療數(shù)據(jù)源中的字段名列"P_SEX"映射為標準列的"性別";再對醫(yī)療數(shù)據(jù)源 中的字段名列"P_SEX"查詢內(nèi)容根據(jù)GB/T 2261. 1-2003表中"描述"列中的關(guān)聯(lián)關(guān)系進行 模糊匹配。
[0097] 表1 GB/T 2261. 1-2003性別編碼/標準碼表
【權(quán)利要求】
1. 一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng),其特征在于:包括:資源詞 庫、目標值域庫、模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單 元; 資源詞庫:存儲有基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯; 目標值域庫:用于存儲標準碼,即GB/T或醫(yī)療行業(yè)規(guī)范定義的編碼值; 模擬語義分詞單元:包括分詞模塊、詞庫加載模塊、詞元處理模塊、相似度評估模塊和 分析模塊; 所述分詞模塊用于采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息 進行語義分解和分詞切分處理; 所述詞庫加載模塊用于實現(xiàn)字典加載管理,對資源詞庫信息進行加載,將資源詞庫中 的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯加載到緩存中,為詞元處理模塊提供詞元信息; 所述詞元處理模塊對詞庫加載模塊提供的詞元信息進行緩存,對中文詞匯、數(shù)量詞匯、 字母詞匯進行分類處理,并為分析模塊提供詞元支撐; 所述相似度評估模塊用于對分類處理后數(shù)據(jù)的相似度評估,得到相似度評估結(jié)果; 所述分析模塊用于對調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊進行協(xié)調(diào)調(diào)度,并 將相似度評估結(jié)果作為模擬語義分詞結(jié)果輸出至模糊匹配單元; 模糊匹配單元:包括語法分析模塊、索引創(chuàng)建模塊、索引存儲模塊、索引庫、索引搜索模 塊、相關(guān)性排序模塊和匹配優(yōu)化模塊; 模糊匹配單元用于根據(jù)目標值域庫信息對模擬語義分詞處理結(jié)果進行模糊匹配處 理; 所述語法分析模塊用于對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞; 所述索引創(chuàng)建模塊用于根據(jù)語法分析模塊形成的若干詞生成詞典索引和反向索引; 所述索引存儲模塊用于根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到 索引庫中; 所述索引庫用于存儲詞典索引和反向索引; 所述索引搜索模塊用于將索引庫中的詞典索引和反向索引載入到內(nèi)存,利用查詢樹搜 索索引,得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表,對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信 息的具體指向位置,從而得到索引搜索結(jié)果; 所述相關(guān)性排序模塊用于計算索引搜索結(jié)果與源詞庫中的醫(yī)療專業(yè)詞匯的相關(guān)度并 進行排序; 所述匹配優(yōu)化模塊用于根據(jù)相關(guān)度閾值來選取資源詞庫中的醫(yī)療專業(yè)詞匯與數(shù)據(jù)源 信息鏈的最佳匹配關(guān)聯(lián)關(guān)系,并經(jīng)過人工校驗后將該最佳匹配關(guān)聯(lián)關(guān)系作為模糊匹配結(jié)果 存儲至匹配表中; 精確匹配單元:包括數(shù)據(jù)獲取模塊和精確匹配模塊; 所述數(shù)據(jù)獲取模塊用于獲取數(shù)據(jù)源提供的數(shù)據(jù)信息; 所述精確匹配模塊用于根據(jù)數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)源提供的數(shù)據(jù)信息與目標值域 庫存儲的標準碼或者匹配表存儲的映射匹配規(guī)則信息進行精確匹配映射,生成數(shù)據(jù)映射匹 配結(jié)果,即精確匹配結(jié)果; 所述匹配表用于存儲映射匹配規(guī)則信息,映射匹配規(guī)則信息即數(shù)據(jù)源的數(shù)據(jù)信息與目 標值域庫間的匹配關(guān)聯(lián)關(guān)系; 人工管理單元:用于對資源詞庫、目標值域庫與匹配表進行調(diào)整。
2.采用權(quán)利要求1所述的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)的醫(yī)療數(shù) 據(jù)映射處理方法,其特征在于:包括以下步驟: 步驟1 :從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù),根據(jù)目標值域庫存儲的標準碼或匹配表存儲的存儲 映射匹配規(guī)則信息,對獲取的數(shù)據(jù)進行精確匹配映射:若獲取的數(shù)據(jù)與匹配表存儲的映射 匹配規(guī)則信息完全匹配,則執(zhí)行步驟4 ;否則,執(zhí)行步驟2 ; 步驟2 :對從數(shù)據(jù)源獲取的數(shù)據(jù)進行模糊語義分析; 步驟2-1 :通過對資源詞庫信息進行加載,將資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯 加載到緩存中,為詞元處理提供詞元信息; 步驟2-2 :采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息進行分詞 處理,包括語義分解和分詞切分處理; 步驟2-3 :進行詞元處理:對資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯進行緩存,對中文 詞匯、數(shù)量詞匯、字母詞匯進行分類處理; 步驟2-4 :對加載的詞元信息與分詞處理后的數(shù)據(jù)進行相似度評估,得到相似度評估 結(jié)果; 步驟2-5 :將相似度評估結(jié)果作為模擬語義分詞結(jié)果; 步驟3 :對模擬語義分詞結(jié)果進行模糊匹配處理,并生成映射匹配結(jié)果; 步驟3-1 :對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞; 步驟3-2 :根據(jù)形成的若干詞生成詞典索引和反向索引; 步驟3-3 :根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到索引庫中; 步驟3-4 :將索引庫中的詞典索引和反向索引載入到內(nèi)存,利用查詢樹搜索索引,得到 每個詞對應(yīng)的數(shù)據(jù)源信息鏈表,對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信息的具體指向 位置,從而得到索引搜索結(jié)果; 步驟3-5:計算各索引搜索結(jié)果與目標值域庫中的標準碼之間的關(guān)聯(lián)度,并對各關(guān)聯(lián) 度進行排序; 步驟3-6 :人工設(shè)定關(guān)聯(lián)度閾值,對符合關(guān)聯(lián)度閾值的索引搜索結(jié)果進行人工校驗,并 建立匹配關(guān)聯(lián)關(guān)系,該匹配關(guān)聯(lián)關(guān)系作為映射匹配規(guī)則信息存儲至匹配表中; 步驟4 :根據(jù)匹配表中的映射匹配規(guī)則信息將醫(yī)療數(shù)據(jù)映射成標準碼,生成醫(yī)療數(shù)據(jù) 映射處理結(jié)果。
【文檔編號】G06F17/30GK104156415SQ201410374349
【公開日】2014年11月19日 申請日期:2014年7月31日 優(yōu)先權(quán)日:2014年7月31日
【發(fā)明者】李軼強, 馬國耀, 蔡軍, 孫勇韜, 肖華 申請人:沈陽銳易特軟件技術(shù)有限公司