。
[0163] 步驟S402,對中文疾病診斷信息進行自然語言處理,得到一個或多個待編碼名稱。
[0164] 步驟S403,基于合并術(shù)語庫,對步驟S402得到的一個或多個待編碼名稱進行預(yù)處 理,判斷所述一個或多個待編碼名稱中,是否包含任意一個或多個合并術(shù)語的全部合并對 象,若包含,則將所述任意一個或多個合并術(shù)語的全部合并對象替換成對應(yīng)的合并術(shù)語。
[0165] 本實施例中,合并術(shù)語庫按照如圖5B所示的步驟創(chuàng)建:
[0166] 步驟E1,將可以替代至少兩個同時出現(xiàn)的標準術(shù)語的單個標準術(shù)語確定為合并術(shù) 語,確定為合并術(shù)語;并將該至少兩個不同的標準術(shù)語中的每一個確定為該合并術(shù)語的合 并對象。
[0167] 步驟E2,根據(jù)所述所要參考的ICD版本,確定每一個合并術(shù)語的編碼。
[0168] 步驟E3,存儲所述合并術(shù)語及其編碼、以及所述合并術(shù)語的全部合并對象,得到合 并術(shù)語庫。
[0169] ICD中,若多個疾病術(shù)語同時出現(xiàn),可以由另一個疾病術(shù)語來替代這些同時出現(xiàn)的 多個疾病術(shù)語,在ICD編碼時,ICD規(guī)定只輸出該單個疾病術(shù)語的編碼即可。在本實施例 中,將屬于以上情況,可以替代其他多個同時出現(xiàn)的疾病術(shù)語的單個疾病術(shù)語確定為合并 術(shù)語,并將可以被替代的每一個疾病術(shù)語確定為合并對象。
[0170] 例如,在疾病類別中,若"胃潰瘍"與"上消化道出血"同時出現(xiàn),則可以由"胃潰瘍 伴出血"來替代,ICD編碼時,只需輸出"胃潰瘍伴出血"的編碼即可。
[0171] 考慮到以上情況,本實施例在對中文疾病診斷信息進行自然語言處理而得到一個 或多個待編碼名稱之后,增加對這些待編碼名稱預(yù)處理的步驟,即查找這些待編碼名稱中 是否存在可以被替代的合并對象,若其中包含某一個合并術(shù)語對應(yīng)的全部合并對象,則利 用這一合并術(shù)語替代其全部合并對象。
[0172] 可選地,合并術(shù)語庫可以采用數(shù)據(jù)表或樹形結(jié)構(gòu)的形式存儲合并術(shù)語及其編碼。
[0173] 可選地,還可以實時修改合并術(shù)語庫,例如,當所參考的ICD版本有新的更新版本 時,根據(jù)更新版本,增加、修改或刪除合并術(shù)語,以使合并術(shù)語庫更符合ICD編碼的需要。
[0174] 圖5C所示為本實施例的一數(shù)據(jù)表形式的合并術(shù)語庫,圖5C中陰影部分為解釋說 明內(nèi)容,可以不出現(xiàn)在實際的合并術(shù)語庫中。
[0175] 步驟S404,基于已創(chuàng)建的標準術(shù)語庫、擴充術(shù)語庫、假定分類術(shù)語庫和多編碼術(shù)語 庫,查找與步驟S403預(yù)處理后的待編碼名稱相匹配的標準術(shù)語、擴充術(shù)語、假定分類術(shù)語 或多編碼術(shù)語,并將匹配成功的標準術(shù)語、擴充術(shù)語、假定分類術(shù)語或多編碼術(shù)語的編碼, 確定為待編碼名稱的編碼。
[0176] 其中,本實施例與示例性方法采用相同的方法創(chuàng)建標準術(shù)語庫和擴充術(shù)語庫,與 實施例一采用相同的方法創(chuàng)建假定分類術(shù)語庫,與實施例二采用相同的方法創(chuàng)建多編碼術(shù) 語庫,此處均不再贅述。
[0177] 可選地,具體實施步驟S403時,可以采用遍歷標準術(shù)語庫、擴充術(shù)語庫、假定分類 術(shù)語庫和多編碼術(shù)語庫的方式,查找與待編碼名稱匹配的標準術(shù)語或擴充術(shù)語或假定分類 術(shù)語庫或多編碼術(shù)語??紤]到遍歷術(shù)語庫的時間成本,可選地,也可以先根據(jù)待編碼名稱的 語義,判斷待編碼名稱可能的屬種關(guān)系,然后到具體的數(shù)據(jù)表或樹形結(jié)構(gòu)中查找能夠匹配 的標準術(shù)語或擴充術(shù)語或假定分類術(shù)語或多編碼術(shù)語。
[0178] 本實施例在標準術(shù)語庫和擴充術(shù)語庫的基礎(chǔ)上,又增加了合并術(shù)語庫,將中文疾 病診斷信息中出現(xiàn)的合并術(shù)語考慮在內(nèi),更大范圍地涵蓋了中文疾病診斷信息中可能出現(xiàn) 的疾病術(shù)語,為滿足自動分辨中文疾病診斷信息中的疾病術(shù)語提供了更加的完備的基礎(chǔ), 有利于實現(xiàn)自動化的ICD編碼。本實施例提供的ICD編碼方法,無需人工參與,具有編碼速 度快、成本低、正確率高等優(yōu)點。
[0179] 實施例四
[0180] 參見圖6A所示,為本發(fā)明一實施例的I⑶編碼方法。
[0181] 如圖6A所示,該I⑶編碼方法可以包括:
[0182] 步驟S501,輸入中文疾病診斷信息。
[0183] 步驟S502,對中文疾病診斷信息進行自然語言處理,得到一個或多個待編碼名稱。
[0184] 步驟S503,基于合并術(shù)語庫,對步驟S502得到的一個或多個待編碼名稱進行預(yù)處 理,判斷一個或多個待編碼名稱中,是否包含任意一個或多個合并術(shù)語的全部合并對象,若 包含,則將任意一個或多個合并術(shù)語的全部合并對象替換成對應(yīng)的合并術(shù)語。
[0185] 步驟S504,基于標準術(shù)語庫、擴充術(shù)語庫、假定分類術(shù)語庫、多編碼術(shù)語庫,查找與 待編碼名稱相匹配的標準術(shù)語、擴充術(shù)語、假定分類術(shù)語、多編碼術(shù)語,并將匹配成功的標 準術(shù)語、擴充術(shù)語、假定分類術(shù)語、多編碼術(shù)語的編碼,確定為待編碼名稱的編碼;將未查找 到相匹配的標準術(shù)語、擴充術(shù)語、假定分類術(shù)語、多編碼術(shù)語的待編碼名稱,確定為未確定 編碼的待編碼名稱;
[0186] 其中,本實施例與示例性方法采用相同的方法創(chuàng)建標準術(shù)語庫和擴充術(shù)語庫,與 實施例一采用相同的方法創(chuàng)建假定分類術(shù)語庫,與實施例二采用相同的方法創(chuàng)建多編碼術(shù) 語庫,此處均不再贅述。
[0187] 步驟S505,將未確定編碼的待編碼名稱與無編碼術(shù)語庫中的無編碼術(shù)語進行匹 配,若匹配成功,則執(zhí)行預(yù)設(shè)的處理步驟以表示不對該未確定編碼的待編碼名稱進行編碼 (例如輸出為空,或者,顯示"無碼可編"等字符信息),若匹配失敗,則將該未確定編碼的待 編碼名稱發(fā)送至人工處理平臺進行人工處理。
[0188] 本實施例中,無編碼術(shù)語庫包括若干無編碼術(shù)語。這些無編碼術(shù)語包括:預(yù)設(shè)的中 醫(yī)類術(shù)語;預(yù)設(shè)的手術(shù)操作術(shù)語;預(yù)設(shè)的藥品名稱術(shù)語;預(yù)設(shè)的醫(yī)療耗材術(shù)語;以及預(yù)設(shè)的 檢查檢驗術(shù)語。
[0189] 圖6B所示為本實施例的一數(shù)據(jù)表形式的無編碼術(shù)語庫,圖6B中陰影部分為解釋 說明內(nèi)容,可以不出現(xiàn)在實際的無編碼術(shù)語庫中。
[0190] 實際的中文疾病診斷信息中往往會涉及醫(yī)療領(lǐng)域的多種概念,不僅僅是疾病術(shù) 語,還可能是手術(shù)操作術(shù)語、藥品名稱術(shù)語、醫(yī)療耗材術(shù)語、檢查檢驗術(shù)語等,但本發(fā)明只是 涉及對疾病的分類編碼,并且國際疾病分類ICD版本中沒有對手術(shù)操作術(shù)語、藥品名稱術(shù) 語、醫(yī)療耗材術(shù)語、檢查檢驗術(shù)語等進行分類編碼,因此,若中文疾病診斷信息中出現(xiàn)了手 術(shù)操作術(shù)語、藥品名稱術(shù)語、醫(yī)療耗材術(shù)語、檢查檢驗術(shù)語,不予編碼(即無碼可編)。另外, 國際疾病分類ICD版本中也沒有對中醫(yī)類術(shù)語進行分類編碼,因此,若中文疾病診斷信息 中出現(xiàn)了中醫(yī)類術(shù)語,也不予編碼(即無碼可編)。
[0191] 對于這類不予編碼的術(shù)語,可以輸出一預(yù)先設(shè)定的結(jié)果(例如可以輸出"無碼可 編"之類的結(jié)果),以表明已識別出其為手術(shù)操作術(shù)語、藥品名稱術(shù)語、醫(yī)療耗材術(shù)語、檢查 檢驗術(shù)語或中醫(yī)類術(shù)語,只是沒有ICD碼可以賦予。
[0192] 本實施例中,對于未查找到相匹配的標準術(shù)語、擴充術(shù)語、假定分類術(shù)語、多編碼 術(shù)語的待編碼名稱,若能查找到相匹配的無編碼術(shù)語,則說明其屬于手術(shù)操作術(shù)語、藥品名 稱術(shù)語、醫(yī)療耗材術(shù)語、檢查檢驗術(shù)語或中醫(yī)類術(shù)語中的一種,不予編碼,而對于不能查找 到相匹配的無編碼術(shù)語,說明其不屬于上述類型,對于這類待編碼名稱,本實施例將其發(fā)送 給人工處理平臺,由人工繼續(xù)處理,具體處理過程,本發(fā)明對其不作限定。
[0193] 實施例五
[0194] 如圖12A所示,為適用于本發(fā)明示例性方法的一種對中文疾病診斷信息進行自然 語言處理以得到待編碼名稱的【具體實施方式】,包括:
[0195] 步驟S61,對中文疾病診斷信息字符串進行預(yù)處理,得到預(yù)處理后的中文疾病診斷 信息字符串。
[0196] 該步驟的目的是將中文疾病診斷信息字符串中的字符轉(zhuǎn)換成統(tǒng)一的編碼格式,以 便后續(xù)處理。
[0197] 可選地,該步驟可以按照如下具體方式實施:對中文疾病診斷信息字符串中的非 漢字進行格式歸一化處理(例如,將中文疾病診斷信息字符串中的符號全部轉(zhuǎn)換為半角格 式或全部轉(zhuǎn)換為全角格式,將其中的英文字母全部轉(zhuǎn)換為大寫格式或小寫格式);并刪除 中文疾病診斷信息字符串中的非醫(yī)學(xué)術(shù)語。其中非醫(yī)學(xué)術(shù)語由一預(yù)先建立的非醫(yī)學(xué)術(shù)語詞 典提供,且非醫(yī)學(xué)術(shù)語為起備注作用的詞語或描述性語句(例如"待查、原因、溫馨提示、建 議、如病情加重請隨時就診"等)。
[0198] 步驟S62,基于預(yù)先建立的本體詞典、疾病程度術(shù)語詞典、疾病并發(fā)術(shù)語詞典、發(fā)病 部位術(shù)語詞典,將預(yù)處理后的中文疾病診斷信息字符串切分成第一類型子字符串和/或第 二類型子字符串。
[0199] 其中,第一類型子字符串和第二類型子字符串具有獨立語義,即所表示的醫(yī)療信 息不受其之前或之后的字符影響,且第一類型子字符串能夠與本體詞典中的本體直接匹 配,第二類型子字符串不能夠與本體詞典中的本體直接匹配。
[0200] 本體詞典包括前述標準術(shù)語庫和擴充術(shù)語庫,具體包括標準術(shù)語和擴充術(shù)語以及 相應(yīng)的編碼,其中,標準術(shù)語和擴充術(shù)語被視作本體詞典中的本體。
[0201] 需要說明的是,當本發(fā)明提供的自動化的國際疾病分類編碼方法中使用到了前述 的假定分類術(shù)語庫和/或多編碼術(shù)語庫時,本體詞典也應(yīng)當包括假定分類術(shù)語庫和/或多 編碼術(shù)語庫(此時,假定分類術(shù)語和/或多編碼術(shù)語也被視作本體詞典中的本體),以使得 切分出的第一類型子字符串或第二類型子字符串作為待編碼名稱時能夠與假定分類術(shù)語 或多編碼術(shù)語相匹配。
[0202] 疾病程度術(shù)語詞典包括若干疾病程度術(shù)語,疾病程度術(shù)語是用于描述疾病急慢性 程度或疾病嚴重程度或病理類型或臨床分期等的詞語。如圖12B所示為疾病程度術(shù)語詞典 包括的部分疾病程度術(shù)語。
[0203] 疾病并發(fā)術(shù)語詞典包括若干疾病并發(fā)術(shù)語,疾病并發(fā)術(shù)語是用于描述至少兩種疾 病并發(fā)出現(xiàn)的詞語。如圖12C所示為疾病并發(fā)術(shù)語詞典包括的部分疾病并發(fā)術(shù)語。
[0204] 發(fā)病部位術(shù)語詞典包括若干發(fā)病部位術(shù)語,發(fā)病部位術(shù)語是用于描述疾病發(fā)病部 位的詞語。如圖12D所示為發(fā)病部位術(shù)語詞典包括的部分發(fā)病部位術(shù)語。
[0205] 該步驟的目的是將中文疾病診斷信息切分成具有獨立語義的子字符串(第一類 型子字符串或第二類型子字符串),以有效避免將具有關(guān)聯(lián)關(guān)系的多個字符分別進行識別 從而導(dǎo)致識別錯誤的問題。
[0206] 步驟S63,將切分出的第一類型子字符串和第二類型子字符串確定為待編碼名稱。
[0207] 將切分出的第一類型子字符串和第二類型子字符串確定為待編碼名稱之后,在后 續(xù)利用實施例三中的合并術(shù)語庫對待編碼名稱進行預(yù)處理時,由于第一類型子字符串和第 二類型子字符串對應(yīng)的本體可能是擴充術(shù)語,而合并術(shù)語庫中的合并對象均為標準術(shù)語, 因此,需將第一類型子字符串和第二類型子字符串所對應(yīng)的擴充術(shù)語轉(zhuǎn)換為相應(yīng)的標準術(shù) 語,然后再利用合并術(shù)語庫進行預(yù)處理。
[0208] 如圖12E所示,步驟S62具體包括:
[0209] 步驟S70,判斷預(yù)處理后的中文疾病診斷信息字符串是否包含符號;如果包含符 號,則執(zhí)行步驟S71 ;如果未包含符號,則執(zhí)行步驟S72。
[0210] 步驟S71,將預(yù)處理后的中文疾病診斷信息字符串中每相鄰兩個符號之間的字符 作為整體與本體詞典中的本體進行匹配;若匹配成功,則執(zhí)行步驟S711 ;若匹配失敗,則執(zhí) 行步驟S712。
[0211] 步驟S711,將該相鄰兩個符號之間的字符切分出來作為第一類型子字符串。
[0212] 步驟S712,該相鄰兩個符號及其之間的字符確定為暫不切分字符串,然后執(zhí)行步 驟 S73〇
[0213]步驟S71、步驟S711、步驟S712依據(jù)的處理規(guī)則是:將相鄰符號之間的全部字符作 為整體與本體進行匹配,只有匹配時才切分,否則暫時不予切分。
[0214] 例如圖12F所示對"重度關(guān)節(jié)炎,并積血;A型胸腺瘤;冠心病"的切分,其中,"重 度關(guān)節(jié)炎,并積血"、"A型胸腺瘤"和"冠心病"均為符號之間的全部字符,并且可以查找到 相匹配的本體,因此,分別被切分出來。
[0215] 步驟S72,采用機械分詞法將預(yù)處理后的中文疾病診斷信息字符串與本體詞典中 的本體進行匹配;若預(yù)處理后的中文疾病診斷信息字符串中的所有字符均能夠與本體匹 配,則執(zhí)行步驟S721 ;若預(yù)處理后的中文疾病診斷信息字符串中存在未能與本體匹配的單 個字符或多個連續(xù)的字符,則執(zhí)行步驟S722。
[0216] 步驟S721,依據(jù)所匹配的本體將預(yù)處理后的中文疾病診斷信息字符串中的字符切 分出來作為第一類型子字符串。
[0217] 步驟S722,判斷未能與本體匹配的單個字符或多個連續(xù)的字符是否是疾病程度術(shù) 語、疾病并發(fā)術(shù)語或發(fā)病部位術(shù)語,如果是疾病程度術(shù)語、疾病并發(fā)術(shù)語或發(fā)病部位術(shù)語, 則執(zhí)行步驟S7221 ;如果不是疾病程度術(shù)語、疾病并發(fā)術(shù)語或發(fā)病部位術(shù)語,則執(zhí)行步驟 S7222。
[0218] 步驟S72、步驟S721、步驟S722依據(jù)的處理規(guī)則是:采用機械分詞法將預(yù)處理后的 中文疾病診斷信息字符串中的字符與本體進行匹配,只有全部字符都能查找到相匹配的本 體時才切分,否則暫時不予切分。
[0219] 例如圖12G所示為對"高血壓冠心病"的切分,采用機械分詞法可分別查找到"高 血壓"和"冠心病"相匹配的本體,因此,分別被切分出來。
[0220] 步驟S72采用的機械分詞法可以是正向最大匹配型,逆向最大匹配型,或最少切 分型。具體的切分過程,本實施例不再贅述。
[0221] 步驟S7221,根據(jù)未能與本體匹配的單個字符或多個連續(xù)的字符在預(yù)處理后的中 文疾病診斷信息字符串中的位置,將未能與本體匹配的單個字符或多個連續(xù)的字符與其之 前或之后能夠與本體匹配的單個字符或多個連續(xù)的字符合并切分出來作為第二類型子字 符串,并將其余的能夠與本體匹配的單個字符或多個連續(xù)的字符切分出來作為第一類型子 字符串。
[0222] 步驟S7222,將預(yù)處理后的中文疾病診斷信息字符串整體切分出來作為第二類型 子字符串。
[0223] 步驟S7221、步驟S7222依據(jù)的處理規(guī)則是:如果未能與本體匹配的單個字符或多 個連續(xù)的字符為疾病程度術(shù)語、疾病并發(fā)術(shù)語或發(fā)病部位術(shù)語,則執(zhí)行切分,并且切分時是 將其與其之前或之后的字符合并切分出來。
[0224] 例如圖12H所示為對"前列腺增生伴急性尿潴留糖尿病"的切分,采用機械分詞法 可分別查找到"前列腺增生"、"急性尿潴留"和"糖尿病"相匹配的本體,其中的"伴"為疾病 并發(fā)術(shù)語,因此,將"前列腺增生"與"急性尿潴留"合并切分出來,"糖尿病"單獨切分出來。
[0225] 例如圖121所示為對"前列腺增生急性腎性貧血"的切分,采用機械分詞法可分別 查找到"前列腺增生"和"腎性貧血"相匹配