本發(fā)明涉及信息提取,具體而言,涉及一種診斷內(nèi)容提取方法、系統(tǒng)、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、現(xiàn)有技術(shù)在提取病人信息時,首先需要人為手動指定提取區(qū)域,再在提取區(qū)域上提取關(guān)鍵信息,最后整理輸出。
2、現(xiàn)有的流程存在局限性,主要體現(xiàn)在以下四個方面:1.提取區(qū)域粒度過小,人工指定費(fèi)時費(fèi)力;2.提取區(qū)域位置固定,不能適配變長內(nèi)容;3.不同文件結(jié)構(gòu)不同,處理流程難統(tǒng)一;4.關(guān)鍵信息類型多樣,其中關(guān)鍵信息可能存在表格和文本的形式,在不同的文件中的形式不同,導(dǎo)致提取模式難設(shè)計。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請實施例的目的在于提供一種診斷內(nèi)容提取方法、系統(tǒng)、介質(zhì)及產(chǎn)品,能夠改善現(xiàn)有技術(shù)處理流程難統(tǒng)一以及提取模式難設(shè)計的問題。
2、為實現(xiàn)上述技術(shù)目的,本申請采用的技術(shù)方案如下:
3、第一方面,本申請實施例提供了一種診斷內(nèi)容提取方法,所述方法包括:
4、接收待處理文檔;
5、讀取用戶在待處理文檔上劃分的提取區(qū)域;
6、基于所述提取區(qū)域內(nèi)診斷內(nèi)容的結(jié)構(gòu)信息,選擇對應(yīng)的信息提取模式進(jìn)行信息提取,所述結(jié)構(gòu)信息包括文本或者表格。
7、進(jìn)一步,所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取以前,所述方法還包括:
8、所述診斷內(nèi)容為表格時,將相鄰的且間距小于設(shè)定閾值的字符聚合為一個單元格
9、進(jìn)一步,所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取以前,所述方法還包括:
10、所述診斷內(nèi)容為文字時,將所述診斷內(nèi)容中離散的單個字符聚合為行,然后整合所有行。
11、進(jìn)一步,所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取以前,所述方法還包括:
12、去除所有干擾字符;
13、當(dāng)前頁的所述干擾字符為上一頁相同位置出現(xiàn)的相同字符。
14、進(jìn)一步,所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取包括:選擇表格信息提取模式對診斷內(nèi)容進(jìn)行信息提取,所述表格信息提取模式包括:
15、將同一行的兩個單元格配對為鍵值對,得到所有行的二元組;
16、基于二元組的key值,逐行提取與key值匹配的value。
17、進(jìn)一步,所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取包括:所述診斷內(nèi)容為文本時,選擇正則表達(dá)式對診斷內(nèi)容進(jìn)行信息提取。
18、進(jìn)一步,所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取包括:所述診斷內(nèi)容為文本時,選擇詞語法分析的方式對子診斷內(nèi)容進(jìn)行信息提取。
19、第二方面,本申請實施例還提供一種診斷內(nèi)容提取系統(tǒng),包括:
20、接收模塊,配置為接收待處理文檔;
21、讀取模塊,配置為讀取用戶在待處理文檔上劃分的提取區(qū)域;
22、信息提取模塊,配置為基于所述提取區(qū)域內(nèi)診斷內(nèi)容的結(jié)構(gòu)信息,選擇對應(yīng)的信息提取模式進(jìn)行信息提取,所述結(jié)構(gòu)信息包括文本或者表格。
23、第三方面,本申請實施例還提出了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)程序,當(dāng)所述計算機(jī)程序在計算機(jī)上運(yùn)行時,使得所述計算機(jī)執(zhí)行上述的方法。
24、第四方面,本申請實施例還提出了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序在被處理器執(zhí)行時實現(xiàn)上述的方法。
25、采用上述技術(shù)方案的發(fā)明,具有如下優(yōu)點(diǎn):
26、本申請讀取待處理文檔的提取區(qū)域后,針對提取區(qū)域內(nèi)診斷內(nèi)容的結(jié)構(gòu)信息,選擇對應(yīng)的信息提取模式,進(jìn)行診斷內(nèi)容的提取,上述過程形成了模塊化流程,有利于模塊化設(shè)計,適用于所有格式的文件,進(jìn)而統(tǒng)一了處理流程,同時,針對不同的結(jié)構(gòu)信息的診斷內(nèi)容采用對應(yīng)的信息提取模式,提高了診斷內(nèi)容提取的效率。
27、本申請在選擇對應(yīng)的信息提取模式進(jìn)行信息提取以前,執(zhí)行將離散的單個字符聚合成行、去除干擾字符以及將相鄰的且間距小于設(shè)定閾值的字符聚合為一個單元格的步驟,避免在提取信息后的人為修改,提高了診斷內(nèi)容提取的效率。
1.一種診斷內(nèi)容提取方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取以前,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取以前,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取以前,所述方法還包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于:所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取包括:選擇表格信息提取模式對診斷內(nèi)容進(jìn)行信息提??;
6.根據(jù)權(quán)利要求4所述的方法,其特征在于:所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取包括:所述診斷內(nèi)容為文本時,選擇正則表達(dá)式對診斷內(nèi)容進(jìn)行信息提取。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于:所述選擇對應(yīng)的信息提取模式進(jìn)行信息提取包括:所述診斷內(nèi)容為文本時,選擇詞語法分析的方式對子診斷內(nèi)容進(jìn)行信息提取。
8.一種診斷內(nèi)容提取系統(tǒng),其特征在于,包括:
9.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)程序,當(dāng)所述計算機(jī)程序在計算機(jī)上運(yùn)行時,使得所述計算機(jī)執(zhí)行如權(quán)利要求1-7中任一項所述的方法。
10.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)程序,所述計算機(jī)程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-7中任一項所述的方法。