解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法

文檔序號：6622139閱讀：898來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法，該系統(tǒng)包括資源詞庫、目標值域庫、模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單元；該方法包括：從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù)，根據(jù)目標值域庫存儲的標準碼或匹配表存儲的存儲映射匹配規(guī)則信息，對獲取的數(shù)據(jù)進行精確匹配映射；對從數(shù)據(jù)源獲取的數(shù)據(jù)進行模糊語義分析；對模擬語義分詞結(jié)果進行模糊匹配處理，并生成映射匹配結(jié)果；根據(jù)匹配表中的映射匹配規(guī)則信息將醫(yī)療數(shù)據(jù)映射成標準碼，生成醫(yī)療數(shù)據(jù)映射處理結(jié)果。本發(fā)明建立了一種自動化映射匹配的處理流程，通過模糊匹配、人工校驗、機器訓(xùn)練等技術(shù)相結(jié)合的方式，實現(xiàn)映射匹配結(jié)果的較高準確性和匹配精度。
【專利說明】解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】，具體涉及一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法。

【背景技術(shù)】
[0002] 在醫(yī)療數(shù)據(jù)的使用過程中，通常需要對數(shù)據(jù)值域內(nèi)容進行匹配處理，將醫(yī)療數(shù)據(jù) 值根據(jù)標準要求映射成其它值，即基于標準編碼的映射處理。通常，該處理過程需要根據(jù)實際業(yè)務(wù)情況來進行手工配置，手工配置方式匹配效率低、匹配錯誤率高、工作量大，在實際業(yè)務(wù)數(shù)據(jù)匹配構(gòu)建過程中無法根據(jù)實際情況進行快速構(gòu)建。因此，需要一種可以實現(xiàn)高效、簡便的映射處理方法來解決數(shù)據(jù)編碼的標準化對照問題，可以基于已有的編碼規(guī)則來快速實現(xiàn)數(shù)據(jù)編碼標準化映射，而無需手工重新對照映射。

【發(fā)明內(nèi)容】

[0003] 針對現(xiàn)有技術(shù)存在的問題，本發(fā)明提供一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法。
[0004] 本發(fā)明的技術(shù)方案是：
[0005] 解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)，包括：資源詞庫、目標值域庫、模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單元；
[0006] 資源詞庫：存儲有基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯；
[0007] 目標值域庫：用于存儲標準碼，即GB/T或醫(yī)療行業(yè)規(guī)范定義的編碼值；
[0008] 模擬語義分詞單元：包括分詞模塊、詞庫加載模塊、詞元處理模塊、相似度評估模塊和分析模塊；
[0009] 所述分詞模塊用于采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù) 信息進行語義分解和分詞切分處理；
[0010] 所述詞庫加載模塊用于實現(xiàn)字典加載管理，對資源詞庫信息進行加載，將資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯加載到緩存中，為詞元處理模塊提供詞元信息；
[0011] 所述詞元處理模塊對詞庫加載模塊提供的詞元信息進行緩存，對中文詞匯、數(shù)量詞匯、字母詞匯進行分類處理，并為分析模塊提供詞元支撐；
[0012] 所述相似度評估模塊用于對分類處理后數(shù)據(jù)的相似度評估，得到相似度評估結(jié) 果；
[0013] 所述分析模塊用于對調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊進行協(xié)調(diào)調(diào) 度，并將相似度評估結(jié)果作為模擬語義分詞結(jié)果輸出至模糊匹配單元；
[0014] 模糊匹配單元：包括語法分析模塊、索引創(chuàng)建模塊、索引存儲模塊、索引庫、索引搜索模塊、相關(guān)性排序模塊和匹配優(yōu)化模塊；
[0015] 模糊匹配單元用于根據(jù)目標值域庫信息對模擬語義分詞處理結(jié)果進行模糊匹配處理；
[0016] 所述語法分析模塊用于對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞；
[0017] 所述索引創(chuàng)建模塊用于根據(jù)語法分析模塊形成的若干詞生成詞典索引和反向索引；
[0018] 所述索引存儲模塊用于根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到索引庫中；
[0019] 所述索引庫用于存儲詞典索引和反向索引；
[0020] 所述索引搜索模塊用于將索引庫中的詞典索引和反向索引載入到內(nèi)存，利用查詢樹搜索索引，得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表，對該信息鏈表進行布爾運算后獲得數(shù)據(jù) 源信息的具體指向位置，從而得到索引搜索結(jié)果；
[0021] 所述相關(guān)性排序模塊用于計算索引搜索結(jié)果與源詞庫中的醫(yī)療專業(yè)詞匯的相關(guān) 度并進行排序；
[0022] 所述匹配優(yōu)化模塊用于根據(jù)相關(guān)度閾值來選取資源詞庫中的醫(yī)療專業(yè)詞匯與數(shù) 據(jù)源信息鏈的最佳匹配關(guān)聯(lián)關(guān)系，并經(jīng)過人工校驗后將該最佳匹配關(guān)聯(lián)關(guān)系作為模糊匹配結(jié)果存儲至匹配表中；
[0023] 精確匹配單元：包括數(shù)據(jù)獲取模塊和精確匹配模塊；
[0024] 所述數(shù)據(jù)獲取模塊用于獲取數(shù)據(jù)源提供的數(shù)據(jù)信息；
[0025] 所述精確匹配模塊用于根據(jù)數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)源提供的數(shù)據(jù)信息與目標值域庫存儲的標準碼或者匹配表存儲的映射匹配規(guī)則信息進行精確匹配映射，生成數(shù)據(jù)映射匹配結(jié)果，即精確匹配結(jié)果；
[0026] 所述匹配表用于存儲映射匹配規(guī)則信息，映射匹配規(guī)則信息即數(shù)據(jù)源的數(shù)據(jù)信息與目標值域庫間的匹配關(guān)聯(lián)關(guān)系；
[0027] 人工管理單元：用于對資源詞庫、目標值域庫與匹配表進行調(diào)整。
[0028] 采用所述的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)的醫(yī)療數(shù)據(jù)映射處理方法，包括以下步驟：
[0029] 步驟1 :從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù)，根據(jù)目標值域表存儲的標準碼或匹配表存儲的存儲映射匹配規(guī)則信息，對獲取的數(shù)據(jù)進行精確匹配映射：若獲取的數(shù)據(jù)與匹配表存儲的映射匹配規(guī)則信息完全匹配，則執(zhí)行步驟4 ;否則，執(zhí)行步驟2 ;
[0030] 步驟2 :對從數(shù)據(jù)源獲取的數(shù)據(jù)進行模糊語義分析；
[0031] 步驟2-1 :通過對資源詞庫信息進行加載，將資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè) 詞匯加載到緩存中，為詞元處理提供詞元信息；
[0032] 步驟2-2 :采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息進行分詞處理，包括語義分解和分詞切分處理；
[0033] 步驟2-3 :進行詞元處理：對資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯進行緩存，對中文詞匯、數(shù)量詞匯、字母詞匯進行分類處理；
[0034] 步驟2-4 :對加載的詞元信息與分詞處理后的數(shù)據(jù)進行相似度評估，得到相似度評估結(jié)果；
[0035] 步驟2-5 :將相似度評估結(jié)果作為模擬語義分詞結(jié)果；
[0036] 步驟3 :對模擬語義分詞結(jié)果進行模糊匹配處理，并生成映射匹配結(jié)果；
[0037] 步驟3-1 :對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞；
[0038] 步驟3-2 :根據(jù)形成的若干詞生成詞典索引和反向索引；
[0039] 步驟3-3 :根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到索引庫中；
[0040] 步驟3-4 :將索引庫中的詞典索引和反向索引載入到內(nèi)存，利用查詢樹搜索索引，得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表，對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信息的具體指向位置，從而得到索引搜索結(jié)果；
[0041] 步驟3-5 :計算各索引搜索結(jié)果與目標值域庫中的標準碼之間的關(guān)聯(lián)度，并對各關(guān)聯(lián)度進行排序；
[0042] 步驟3-6 :人工設(shè)定關(guān)聯(lián)度閾值，對符合關(guān)聯(lián)度閾值的索引搜索結(jié)果進行人工校驗，并建立匹配關(guān)聯(lián)關(guān)系，該匹配關(guān)聯(lián)關(guān)系作為映射匹配規(guī)則信息存儲至匹配表中；
[0043] 步驟4 :根據(jù)匹配表中的映射匹配規(guī)則信息將醫(yī)療數(shù)據(jù)映射成標準碼，生成醫(yī)療數(shù)據(jù)映射處理結(jié)果。
[0044] 有益效果：
[0045] 本發(fā)明解決了在醫(yī)療信息向標準化衛(wèi)生平臺上報過程中的編碼規(guī)范化問題，建立了一種自動化映射匹配的處理流程，同時提供了比較完備的業(yè)務(wù)處理能力。通過模糊匹配、人工校驗、機器訓(xùn)練等技術(shù)相結(jié)合的方式，實現(xiàn)映射匹配結(jié)果的較高準確性和匹配精度。本方法首先通過模糊匹配，根據(jù)關(guān)聯(lián)度值的情況完成映射匹配，匹配結(jié)果經(jīng)人工校校驗后得到正確的匹配關(guān)聯(lián)關(guān)系，此匹配關(guān)聯(lián)關(guān)系會被系統(tǒng)進行記錄和學(xué)習(xí)。在進行多次固定行業(yè) 的映射匹配后，匹配的精度和準確性會隨著行業(yè)實踐次數(shù)的積累而線性提升。本發(fā)明成功實施在醫(yī)療信息的處理項目匯總，使得業(yè)務(wù)數(shù)據(jù)得到穩(wěn)定高效的處理和發(fā)布，從而推動醫(yī) 療衛(wèi)生體系的建設(shè)和管理，為區(qū)域醫(yī)療系統(tǒng)的構(gòu)建提供有力支撐。

【專利附圖】

【附圖說明】
[0046] 圖1是本發(fā)明【具體實施方式】的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng) 結(jié)構(gòu)框圖；
[0047] 圖2是本發(fā)明【具體實施方式】的模擬語義分詞單元結(jié)構(gòu)框圖；
[0048] 圖3是本發(fā)明【具體實施方式】的模糊匹配單元結(jié)構(gòu)框圖；
[0049] 圖4是本發(fā)明【具體實施方式】的精確匹配單元結(jié)構(gòu)框圖；
[0050] 圖5是本發(fā)明【具體實施方式】的人工管理單元工作原理示意圖；
[0051] 圖6是本發(fā)明【具體實施方式】的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng) 應(yīng)用結(jié)構(gòu)不意圖；
[0052] 圖7是本發(fā)明【具體實施方式】的對從醫(yī)療數(shù)據(jù)源中獲取的數(shù)據(jù)進行結(jié)構(gòu)標準化處理的不意圖；
[0053] 圖8是本發(fā)明【具體實施方式】的模擬語義分詞單元處理示意圖；
[0054] 圖9是本發(fā)明【具體實施方式】的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理方法；
[0055] 圖10是本發(fā)明【具體實施方式】的根據(jù)內(nèi)容類型進行分類后得到的結(jié)果示意圖；
[0056] 圖11是本發(fā)明【具體實施方式】的據(jù)資源詞庫內(nèi)容得到分詞結(jié)果得到的結(jié)果示意圖；
[0057] 圖12是本發(fā)明【具體實施方式】的分詞結(jié)果鏈表；
[0058] 圖13是本發(fā)明【具體實施方式】的對分詞結(jié)果創(chuàng)建的緩存表；
[0059] 圖14是本發(fā)明【具體實施方式】的根據(jù)緩存表生成的倒排鏈表。

【具體實施方式】
[0060] 下面結(jié)合附圖對本發(fā)明【具體實施方式】進行詳細說明。
[0061] 針對醫(yī)療數(shù)據(jù)源實施本發(fā)明的技術(shù)方案，數(shù)據(jù)源是指提供某種所需要數(shù)據(jù)的器件或原始媒體，醫(yī)療數(shù)據(jù)源則是存儲醫(yī)療業(yè)務(wù)數(shù)據(jù)的器件或原始媒體，而醫(yī)療數(shù)據(jù)具有數(shù)據(jù) 量龐大、存儲類型靈活多變、標準約束性強等特點。
[0062] 本實施方式提供一種實現(xiàn)醫(yī)院端數(shù)據(jù)清洗和映射匹配的實施方式。在網(wǎng)絡(luò)構(gòu)建結(jié) 構(gòu)上，本實施方式的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)部署于不同區(qū)域醫(yī)院信息系統(tǒng)中，從區(qū)域醫(yī)院信息系統(tǒng)中的HIS數(shù)據(jù)庫中獲取所需的醫(yī)療業(yè)務(wù)數(shù)據(jù)，部署方式可采用分布式部署，根據(jù)需要來對指定單個系統(tǒng)或集群數(shù)據(jù)源系統(tǒng)（HIS數(shù)據(jù)庫）進行數(shù)據(jù) 的標準對碼映射處理，本實施方式的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)應(yīng)用結(jié)構(gòu)如圖6所示。
[0063] 如圖1所示，解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)，包括：資源詞庫、目標值域庫、模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單元； [0064] 資源詞庫：存儲有基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯；
[0065]目標值域庫：用于存儲標準碼，即GB/T或醫(yī)療行業(yè)規(guī)范定義的編碼值；目標值域庫中包括標準值域表和標準結(jié)構(gòu)表，其中標準值域表記錄規(guī)范的標準編碼和描述信息，而標準結(jié)構(gòu)表記錄標準的業(yè)務(wù)模型結(jié)構(gòu)信息；
[0066] 模擬語義分詞單元：包括分詞模塊、詞庫加載模塊、詞元處理模塊、相似度評估模塊和分析模塊；
[0067] 分詞模塊用于采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息進行語義分解和分詞切分處理；
[0068] 詞庫加載模塊用于實現(xiàn)字典加載管理，對資源詞庫信息進行加載，將資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯加載到緩存中，為詞元處理模塊提供詞元信息；
[0069] 詞元處理模塊對詞庫加載模塊提供的詞元信息進行緩存，對中文詞匯、數(shù)量詞匯、字母詞匯進行分類處理，并為分析模塊提供詞元支撐；
[0070] 相似度評估模塊用于對分類處理后數(shù)據(jù)的相似度評估，得到相似度評估結(jié)果；
[0071] 分析模塊用于對調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊進行協(xié)調(diào)調(diào)度，并將相似度評估結(jié)果作為模擬語義分詞結(jié)果輸出至模糊匹配單元；
[0072] 模糊匹配單元：包括語法分析模塊、索引創(chuàng)建模塊、索引存儲模塊、索引庫、索引搜索模塊、相關(guān)性排序模塊和匹配優(yōu)化模塊；
[0073] 模糊匹配單元用于根據(jù)目標值域庫信息對模擬語義分詞處理結(jié)果進行模糊匹配處理；
[0074] 語法分析模塊用于對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞；
[0075] 索引創(chuàng)建模塊用于根據(jù)語法分析模塊形成的若干詞生成詞典索引和反向索引；
[0076] 索引存儲模塊用于根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到索引庫中；
[0077] 索引庫用于存儲詞典索引和反向索引；
[0078] 索引搜索模塊用于將索引庫中的詞典索引和反向索引載入到內(nèi)存，利用查詢樹搜索索引，得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表，對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信息的具體指向位置，從而得到索引搜索結(jié)果；
[0079] 相關(guān)性排序模塊用于計算索引搜索結(jié)果與源詞庫中的醫(yī)療專業(yè)詞匯的相關(guān)度并進行排序；
[0080] 匹配優(yōu)化模塊用于根據(jù)相關(guān)度閾值來選取資源詞庫中的醫(yī)療專業(yè)詞匯與數(shù)據(jù)源信息鏈的最佳匹配關(guān)聯(lián)關(guān)系，并經(jīng)過人工校驗后將該最佳匹配關(guān)聯(lián)關(guān)系作為模糊匹配結(jié)果存儲至匹配表中，用于在進行精確匹配時提升匹配效率，對精確匹配單元提供匹配支持。
[0081] 精確匹配單元：包括數(shù)據(jù)獲取模塊和精確匹配模塊，如圖4所示；
[0082] 數(shù)據(jù)獲取模塊用于獲取數(shù)據(jù)源提供的數(shù)據(jù)信息；通過編輯SQL腳本的方式，使用 JDBC數(shù)據(jù)源連通方式，將醫(yī)療數(shù)據(jù)源中需要映射匹配的信息進行加載；
[0083] 精確匹配模塊用于根據(jù)數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)源提供的數(shù)據(jù)信息與目標值域庫存儲的標準碼或者匹配表存儲的映射匹配規(guī)則信息進行精確匹配映射，生成數(shù)據(jù)映射匹配結(jié)果，即精確匹配結(jié)果；精確匹配模塊根據(jù)匹配表中記錄的映射管理關(guān)系，對從數(shù)據(jù)源加載的醫(yī)療數(shù)據(jù)進行映射匹配處理。匹配映射是基于對具體數(shù)據(jù)項展開的映射匹配過程，即將具體數(shù)據(jù)項映射成為目標值域庫中指定的編碼值，目標值域庫是基于醫(yī)療衛(wèi)生行業(yè)機構(gòu) 分類單元以及GB/T國標來定義，具有極強的標準符合性。
[0084] 匹配表用于存儲映射匹配規(guī)則信息，映射匹配規(guī)則信息即數(shù)據(jù)源的數(shù)據(jù)信息與目標值域表間的匹配關(guān)聯(lián)關(guān)系；
[0085] 人工管理單元：用于對資源詞庫、目標值域庫與匹配表進行調(diào)整，實現(xiàn)對數(shù)據(jù)的基礎(chǔ)性維護。
[0086] 本系統(tǒng)的精確匹配單元獲取數(shù)據(jù)源信息后，根據(jù)數(shù)據(jù)源信息與匹配表進行匹配對照，如果匹配表中存在與當前數(shù)據(jù)源信息匹配的記錄信息時，根據(jù)匹配表中記錄信息將數(shù) 據(jù)源信息匹配映射成目標值域庫要求的結(jié)果，并生成匹配結(jié)果；如果匹配表中不含當前數(shù) 據(jù)源信息，精確匹配單元的映射處理工作交由模糊匹配單元進行。
[0087] 模糊匹配單元在獲得數(shù)據(jù)源信息后，將數(shù)據(jù)源信息交由模擬語義分詞單元進行分詞處理。模擬語義分詞單元根據(jù)資源詞庫中記錄的行業(yè)詞匯對信息進行詞元切分處理，切分處理后的信息被重新送至模糊匹配單元。模糊匹配單元根據(jù)切分處理的數(shù)據(jù)源信息與目標值域進行模糊匹配，模糊匹配結(jié)果經(jīng)匹配優(yōu)化模塊校驗后，保存至匹配表中，更新后的匹配表為本方法執(zhí)行精確匹配時提供支持。模糊匹配的匹配優(yōu)化模塊提供人工校驗接口，為人工審核模糊匹配結(jié)果提供功能支持，如果不經(jīng)過人工校驗，那么模糊匹配單元會根據(jù)數(shù) 據(jù)源與目標值域相似度評估算法來給出最佳的匹配關(guān)聯(lián)關(guān)系，并根據(jù)此關(guān)聯(lián)關(guān)系進行映射處理，并生成最終映射匹配結(jié)果。
[0088] 如圖2所示，模擬語義分詞單元對數(shù)據(jù)源信息進行語義分析和分詞處理，并將經(jīng) 過模擬語義分詞處理后的數(shù)據(jù)發(fā)回模糊匹配單元。模擬語義分詞單元的分析模塊實現(xiàn)數(shù)據(jù) 源信息的主體語義分詞處理，首先分詞模塊選取分詞的方式，即使用最細粒度分詞策略或智能分詞策略，為分析模塊提供分詞策略支持，并對提供的數(shù)據(jù)源信息進行語義分解，根據(jù) 選取的分詞策略來對信息進行分詞切分處理；詞庫加載模塊實現(xiàn)詞典加載管理功能，通過詞典檢索算法來完成對資源詞庫信息的加載，將資源詞庫中基礎(chǔ)詞匯和專業(yè)詞匯加載到緩存中，為詞元處理模塊提供詞元信息支撐；詞元處理模塊負責(zé)對詞元信息進行緩存，對中文詞匯、數(shù)量詞匯、字母詞匯進行分類處理，并為分析模塊提供詞元支撐；相似度評估模塊根據(jù)詞元相似度算法，實現(xiàn)詞元處理模塊對加載的詞元信息與分詞模塊提供的分詞后數(shù)據(jù)的相似度評估，為分析模塊提供分詞處理提供分詞相似度評估值支持。分析模塊實現(xiàn)對數(shù)據(jù) 源數(shù)據(jù)進行綜合分詞處理，協(xié)調(diào)調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊來實現(xiàn)基于語義的職能分詞處理，并將處理結(jié)果反饋至模糊匹配單元。
[0089] 如圖3所示，模糊匹配單元對數(shù)據(jù)源信息映射配置過程主要分為索引過程和搜索過程兩個步驟。索引過程的目的在于對數(shù)據(jù)源信息建立索引信息；搜索過程的目的在于根據(jù)建立的索引信息進行反向查詢出符合要求的數(shù)據(jù)源信息。索引過程首先將數(shù)據(jù)源信息經(jīng)過模擬語義分詞單元進行語法分析和語言處理形成一系列詞，詞經(jīng)過本單元索引創(chuàng)建模塊形成詞典和反向索引信息，而索引存儲模塊則將詞典與反向索引信息進行對應(yīng)關(guān)聯(lián)后存儲到索引庫中，待模糊匹配單元的搜索過程利用。搜索過程首先將需要進行映射匹配的目標值域信息通過語法分析模塊生成一個查詢樹，通過索引搜索模塊將索引庫信息載入到內(nèi) 存，利用查詢樹進行搜索索引，得到每個詞的數(shù)據(jù)源信息鏈表，對信息鏈表進行布爾運算后獲得數(shù)據(jù)源信息具體指向位置，從而得到搜索結(jié)果，通過相關(guān)性排序模塊對搜索結(jié)果進行排序后，匹配優(yōu)化模塊會根據(jù)相關(guān)度域值來選取目標值域與數(shù)據(jù)源信息鏈最佳匹配關(guān)聯(lián)關(guān) 系，并經(jīng)過人工校驗后保存至匹配表。
[0090] 如圖4所示，精確匹配單元實現(xiàn)對數(shù)據(jù)源信息根據(jù)匹配表進行的精確匹配映射，并根據(jù)匹配表生成數(shù)據(jù)映射匹配結(jié)果。匹配表中持久化了映射匹配規(guī)則信息，該匹配規(guī)則為數(shù)據(jù)源信息與目標值域間的匹配關(guān)聯(lián)關(guān)系。精確匹配單元用于執(zhí)行匹配表中持久化的映射匹配關(guān)系，將數(shù)據(jù)源信息映射成標準碼信息，并生成最終匹配結(jié)果。同時，精確匹配模塊也根據(jù)匹配表中記錄情況來判斷本單元是否可以完成此輪數(shù)據(jù)源信息的映射匹配操作，即當匹配表中不含有當前數(shù)據(jù)源信息與目標值域庫中標準值域表的標準碼的匹配關(guān)系時，精確匹配模塊將匹配映射工作交由模糊匹配單元進行，并將數(shù)據(jù)源信息轉(zhuǎn)發(fā)至模糊匹配單元進行匹配映射處理。其中，數(shù)據(jù)獲取模塊實現(xiàn)對數(shù)據(jù)源提供的原始數(shù)據(jù)的獲取，完成對轉(zhuǎn)換數(shù)據(jù)的加載。
[0091] 如圖5所示，人工管理單元實現(xiàn)對本方法中涉及的資源詞庫、目標值域庫與匹配的手工調(diào)整，對本方法的數(shù)據(jù)進行基礎(chǔ)性維護。在本方法中，需要對一類持久化文件進行維護和管理，包括對模糊語義分詞單元中資源詞庫的管理維護；對目標值域庫中標準碼信息進行管理維護；以及在進行模糊匹配過程中進行人工校驗，對匹配過程值進行人工干預(yù)和確認，并將干預(yù)和確認的結(jié)果記錄在匹配表中，用于提升下輪映射匹配精度。
[0092] 采用上述的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)的醫(yī)療數(shù)據(jù)映射處理方法，如圖9所示，包括以下步驟：
[0093] 步驟1 :從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù)，根據(jù)目標值域表存儲的標準碼或匹配表存儲的存儲映射匹配規(guī)則信息，對獲取的數(shù)據(jù)進行精確匹配映射：若獲取的數(shù)據(jù)與匹配表存儲的映射匹配規(guī)則信息完全匹配，則執(zhí)行步驟4 ;否則，執(zhí)行步驟2 ;
[0094] 本實施方式實現(xiàn)對醫(yī)療數(shù)據(jù)源基于標準編碼的映射匹配處理功能，在實際使用過程中，通常需要首先對從醫(yī)療數(shù)據(jù)源中獲取的數(shù)據(jù)進行結(jié)構(gòu)標準化處理，即使用目標值域庫中的標準結(jié)構(gòu)表對數(shù)據(jù)獲取模塊通過編輯SQL腳本的方式獲得數(shù)據(jù)信息結(jié)構(gòu)進行標準化，關(guān)聯(lián)關(guān)系如圖7中①所示；之后，對SQL腳本的方式獲得數(shù)據(jù)信息內(nèi)容進行匹配映射，關(guān) 聯(lián)關(guān)系如圖7中②所示。
[0095] 例如，衛(wèi)生數(shù)據(jù)接收平臺需要提供根據(jù)《GB/T 2261. 1-2003個人基本信息分類與代碼第1部分：性別代碼》來獲得醫(yī)療記錄中的性別編碼（標準碼），并假設(shè)目標值域庫的標準結(jié)構(gòu)表中已經(jīng)建立針對性別編碼的標準列"性別"。
[0096] 第一步：將從醫(yī)療數(shù)據(jù)源獲取的數(shù)據(jù)字段名稱映射成衛(wèi)生數(shù)據(jù)接收平臺端業(yè)務(wù)要求的標準列名稱，該標準列名對應(yīng)標準庫中標準結(jié)構(gòu)表內(nèi)容。標準結(jié)構(gòu)表記錄的標準列用于醫(yī)療平臺端對具體上報數(shù)據(jù)項的解析。本實施方式是將通過編輯SQL腳本的方式獲得數(shù) 據(jù)信息結(jié)構(gòu)中醫(yī)療數(shù)據(jù)源中的字段名列"P_SEX"映射為標準列的"性別";再對醫(yī)療數(shù)據(jù)源中的字段名列"P_SEX"查詢內(nèi)容根據(jù)GB/T 2261. 1-2003表中"描述"列中的關(guān)聯(lián)關(guān)系進行模糊匹配。
[0097] 表1 GB/T 2261. 1-2003性別編碼/標準碼表

【權(quán)利要求】
1. 一種解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)，其特征在于：包括：資源詞庫、目標值域庫、模擬語義分詞單元、模糊匹配單元、精確匹配單元、匹配表和人工管理單元；資源詞庫：存儲有基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯；目標值域庫：用于存儲標準碼，即GB/T或醫(yī)療行業(yè)規(guī)范定義的編碼值；模擬語義分詞單元：包括分詞模塊、詞庫加載模塊、詞元處理模塊、相似度評估模塊和分析模塊；所述分詞模塊用于采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息進行語義分解和分詞切分處理；所述詞庫加載模塊用于實現(xiàn)字典加載管理，對資源詞庫信息進行加載，將資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯加載到緩存中，為詞元處理模塊提供詞元信息；所述詞元處理模塊對詞庫加載模塊提供的詞元信息進行緩存，對中文詞匯、數(shù)量詞匯、字母詞匯進行分類處理，并為分析模塊提供詞元支撐；所述相似度評估模塊用于對分類處理后數(shù)據(jù)的相似度評估，得到相似度評估結(jié)果；所述分析模塊用于對調(diào)度分詞模塊、相似度評估模塊、詞元處理模塊進行協(xié)調(diào)調(diào)度，并將相似度評估結(jié)果作為模擬語義分詞結(jié)果輸出至模糊匹配單元；模糊匹配單元：包括語法分析模塊、索引創(chuàng)建模塊、索引存儲模塊、索引庫、索引搜索模塊、相關(guān)性排序模塊和匹配優(yōu)化模塊；模糊匹配單元用于根據(jù)目標值域庫信息對模擬語義分詞處理結(jié)果進行模糊匹配處理；所述語法分析模塊用于對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞；所述索引創(chuàng)建模塊用于根據(jù)語法分析模塊形成的若干詞生成詞典索引和反向索引；所述索引存儲模塊用于根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到索引庫中；所述索引庫用于存儲詞典索引和反向索引；所述索引搜索模塊用于將索引庫中的詞典索引和反向索引載入到內(nèi)存，利用查詢樹搜索索引，得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表，對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信息的具體指向位置，從而得到索引搜索結(jié)果；所述相關(guān)性排序模塊用于計算索引搜索結(jié)果與源詞庫中的醫(yī)療專業(yè)詞匯的相關(guān)度并進行排序；所述匹配優(yōu)化模塊用于根據(jù)相關(guān)度閾值來選取資源詞庫中的醫(yī)療專業(yè)詞匯與數(shù)據(jù)源信息鏈的最佳匹配關(guān)聯(lián)關(guān)系，并經(jīng)過人工校驗后將該最佳匹配關(guān)聯(lián)關(guān)系作為模糊匹配結(jié)果存儲至匹配表中；精確匹配單元：包括數(shù)據(jù)獲取模塊和精確匹配模塊；所述數(shù)據(jù)獲取模塊用于獲取數(shù)據(jù)源提供的數(shù)據(jù)信息；所述精確匹配模塊用于根據(jù)數(shù)據(jù)獲取模塊獲取的數(shù)據(jù)源提供的數(shù)據(jù)信息與目標值域庫存儲的標準碼或者匹配表存儲的映射匹配規(guī)則信息進行精確匹配映射，生成數(shù)據(jù)映射匹配結(jié)果，即精確匹配結(jié)果；所述匹配表用于存儲映射匹配規(guī)則信息，映射匹配規(guī)則信息即數(shù)據(jù)源的數(shù)據(jù)信息與目標值域庫間的匹配關(guān)聯(lián)關(guān)系；人工管理單元：用于對資源詞庫、目標值域庫與匹配表進行調(diào)整。
2.采用權(quán)利要求1所述的解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)的醫(yī)療數(shù) 據(jù)映射處理方法，其特征在于：包括以下步驟：步驟1 :從醫(yī)療數(shù)據(jù)源獲取數(shù)據(jù)，根據(jù)目標值域庫存儲的標準碼或匹配表存儲的存儲映射匹配規(guī)則信息，對獲取的數(shù)據(jù)進行精確匹配映射：若獲取的數(shù)據(jù)與匹配表存儲的映射匹配規(guī)則信息完全匹配，則執(zhí)行步驟4 ;否則，執(zhí)行步驟2 ; 步驟2 :對從數(shù)據(jù)源獲取的數(shù)據(jù)進行模糊語義分析；步驟2-1 :通過對資源詞庫信息進行加載，將資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯加載到緩存中，為詞元處理提供詞元信息；步驟2-2 :采用最細粒度分詞方式或智能分詞方式對數(shù)據(jù)源提供的數(shù)據(jù)信息進行分詞處理，包括語義分解和分詞切分處理；步驟2-3 :進行詞元處理：對資源詞庫中的基礎(chǔ)詞匯和醫(yī)療專業(yè)詞匯進行緩存，對中文詞匯、數(shù)量詞匯、字母詞匯進行分類處理；步驟2-4 :對加載的詞元信息與分詞處理后的數(shù)據(jù)進行相似度評估，得到相似度評估結(jié)果；步驟2-5 :將相似度評估結(jié)果作為模擬語義分詞結(jié)果；步驟3 :對模擬語義分詞結(jié)果進行模糊匹配處理，并生成映射匹配結(jié)果；步驟3-1 :對模擬語義分詞結(jié)果進行語法分析和語言處理形成若干詞；步驟3-2 :根據(jù)形成的若干詞生成詞典索引和反向索引；步驟3-3 :根據(jù)詞典索引和反向索引對形成的若干詞進行關(guān)聯(lián)后存儲到索引庫中；步驟3-4 :將索引庫中的詞典索引和反向索引載入到內(nèi)存，利用查詢樹搜索索引，得到每個詞對應(yīng)的數(shù)據(jù)源信息鏈表，對該信息鏈表進行布爾運算后獲得數(shù)據(jù)源信息的具體指向位置，從而得到索引搜索結(jié)果；步驟3-5:計算各索引搜索結(jié)果與目標值域庫中的標準碼之間的關(guān)聯(lián)度，并對各關(guān)聯(lián) 度進行排序；步驟3-6 :人工設(shè)定關(guān)聯(lián)度閾值，對符合關(guān)聯(lián)度閾值的索引搜索結(jié)果進行人工校驗，并建立匹配關(guān)聯(lián)關(guān)系，該匹配關(guān)聯(lián)關(guān)系作為映射匹配規(guī)則信息存儲至匹配表中；步驟4 :根據(jù)匹配表中的映射匹配規(guī)則信息將醫(yī)療數(shù)據(jù)映射成標準碼，生成醫(yī)療數(shù)據(jù) 映射處理結(jié)果。
【文檔編號】G06F17/30GK104156415SQ201410374349
【公開日】2014年11月19日申請日期:2014年7月31日優(yōu)先權(quán)日:2014年7月31日
【發(fā)明者】李軼強, 馬國耀, 蔡軍, 孫勇韜, 肖華申請人:沈陽銳易特軟件技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李軼強;馬國耀;蔡軍;孫勇韜;肖華
技術(shù)所有人：沈陽銳易特軟件技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種具有圖像處理能力的財務(wù)監(jiān)管方法
上一篇：一種無人駕駛智能車遠程調(diào)度系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

解決醫(yī)療數(shù)據(jù)標準編碼對照問題的映射處理系統(tǒng)及方法