欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔處理裝置和文檔處理方法

文檔序號(hào):6539437閱讀:149來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):文檔處理裝置和文檔處理方法
技術(shù)領(lǐng)域
本申請(qǐng)涉及一種提高識(shí)別通過(guò)光學(xué)讀取文檔獲得的圖像數(shù)據(jù)中的字符的識(shí)別精度的技術(shù)。
背景技術(shù)
用于識(shí)別通過(guò)光學(xué)讀取文檔獲得的圖像數(shù)據(jù)中的字符的技術(shù)的OCR(光學(xué)字符識(shí)別)被很普遍地使用。已經(jīng)在OCR領(lǐng)域提出了各種技術(shù)來(lái)提高字符識(shí)別的精度。
已知提供有一種根據(jù)用戶(hù)的修正操作更新識(shí)別字典(dictionary)來(lái)提高識(shí)別精度的技術(shù)。利用這種技術(shù),不能被識(shí)別或被不正確識(shí)別的字符通過(guò)用戶(hù)進(jìn)行的修正操作來(lái)進(jìn)行糾正,從而登記在用于修正字符的特征向量數(shù)據(jù)庫(kù)中的字符形狀的特征向量被更新,以在識(shí)別修正的字符時(shí)反映該字符形狀的特征向量。
已知提供有一種通過(guò)在執(zhí)行語(yǔ)法分析之后更新識(shí)別字典來(lái)提高識(shí)別精度的技術(shù)。根據(jù)這種技術(shù),對(duì)識(shí)別結(jié)果進(jìn)行語(yǔ)法分析,指定要修正成的、語(yǔ)法正確的字符,并更新識(shí)別字典以便能夠不進(jìn)行語(yǔ)法分析就能識(shí)別語(yǔ)法正確的字符。
已知提供有一種在借助語(yǔ)法分析來(lái)修正識(shí)別結(jié)果時(shí)使用字的出現(xiàn)頻率進(jìn)行修正而提高識(shí)別精度的技術(shù)。根據(jù)該技術(shù),如果在對(duì)識(shí)別結(jié)果進(jìn)行語(yǔ)法分析期間,識(shí)別結(jié)果的字符串中的多個(gè)字是可能的候選,那么根據(jù)識(shí)別結(jié)果中的各個(gè)字的出現(xiàn)頻率來(lái)選擇一個(gè)字。
在打印文檔的OCR中,可以通過(guò)對(duì)字符識(shí)別使用特征向量數(shù)據(jù)庫(kù)來(lái)增加識(shí)別精度,所述特征向量數(shù)據(jù)庫(kù)適合于打印的字體。例如,在有限環(huán)境(例如公司或部門(mén))中使用的字體數(shù)量是有限的,從而能夠制備足以適用于打印的字體的特征向量數(shù)據(jù)庫(kù)。如果使用了這種特征向量數(shù)據(jù)庫(kù),那么將會(huì)提高這種有限環(huán)境中的文檔識(shí)別精度。
此外,在手寫(xiě)文檔的OCR中,通過(guò)對(duì)字符識(shí)別使用適用于那些文檔的作者的字符識(shí)別特征向量數(shù)據(jù)庫(kù)則可能增加識(shí)別精度。例如,在上述有限環(huán)境中準(zhǔn)備手寫(xiě)文檔的人的數(shù)量是有限的,從而能夠準(zhǔn)備足以適用于那些文檔的作者的特征向量數(shù)據(jù)庫(kù)。如果使用了這樣一種特征向量數(shù)據(jù)庫(kù),那么將會(huì)提高在這種有限環(huán)境下的文檔識(shí)別精度。
此外,同上述技術(shù)一樣,如果加入語(yǔ)法分析,那么就可通過(guò)執(zhí)行適合于上述有限環(huán)境的語(yǔ)法分析來(lái)提高識(shí)別精度。例如,如果將在所述有限環(huán)境中使用的不常用字登記在語(yǔ)法分析字典中,那么就能夠減少未知字(未登記字)的數(shù)量(所述未知字是降低語(yǔ)法分析的精度的原因),從而增加了識(shí)別精度。例如,也可通過(guò)在語(yǔ)法分析字典中登記在上述有限環(huán)境中所使用的各個(gè)字的使用頻率,并根據(jù)這些使用頻率進(jìn)行語(yǔ)法分析來(lái)提高識(shí)別精度。
因此,能夠針對(duì)被OCR的文檔的特性進(jìn)行識(shí)別處理來(lái)提高識(shí)別精度。然而,在這些情況中的任何一種情況下,需要在用于識(shí)別的字典中預(yù)先登記針對(duì)被OCR的文檔的特性的信息。此外,為了獲得足以適用于所述有限環(huán)境的字典,必須預(yù)先收集適合于在所述有限環(huán)境下被OCR的文檔的特性的大量信息。迄今為止,還沒(méi)有用于有效收集這種信息的技術(shù)。

發(fā)明內(nèi)容
本發(fā)明就是鑒于上述情形做出的,并且提供了一種有效地收集在估計(jì)圖像數(shù)據(jù)中的字符時(shí)可用于提高估計(jì)精度的數(shù)據(jù)的技術(shù),所述圖像數(shù)據(jù)是通過(guò)對(duì)有限環(huán)境中的文檔進(jìn)行光學(xué)讀取獲得的。
本發(fā)明提供一種文檔處理裝置,包括一普通特征向量存儲(chǔ)器,用于存儲(chǔ)多個(gè)字符中的每一個(gè)字符的形狀的特征向量;一輸入單元,用于光學(xué)讀入一文檔;一提取單元,用于根據(jù)由輸入單元讀入的文檔中的字符的形狀提取特征向量;一普通形狀識(shí)別單元,用于根據(jù)由提取單元提取的特征向量和存儲(chǔ)在普通特征向量存儲(chǔ)器中的內(nèi)容來(lái)估計(jì)其形狀的特征向量已由所述提取單元提取的字符;和一特殊特征向量存儲(chǔ)器,用于與所述普通形狀識(shí)別單元的估計(jì)結(jié)果相關(guān)聯(lián)地存儲(chǔ)由提取單元提取的特征向量。
利用這種文檔處理裝置,當(dāng)光學(xué)讀取一個(gè)文檔并打印該文檔時(shí),根據(jù)所讀取的文檔中的字符的形狀來(lái)提取特征向量,使用這些所提取的特征向量來(lái)估計(jì)字符,并將特征向量與這些字符相關(guān)聯(lián)地存儲(chǔ)。


下面將根據(jù)附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施例,其中圖1為表示根據(jù)本發(fā)明一實(shí)施例的文檔處理裝置2的結(jié)構(gòu)的方框圖;圖2為表示輸入到文檔處理裝置2的文檔的一個(gè)例子的示意圖;圖3為表示由文檔處理裝置2執(zhí)行的登記處理的流程圖;圖4為表示登記處理中的估計(jì)結(jié)果的例子的示圖;圖5是表示所述登記處理的估計(jì)結(jié)果的準(zhǔn)確性的例子的摘錄的示意圖;圖6為表示文檔處理裝置2中的特殊特征向量數(shù)據(jù)庫(kù)D23的內(nèi)容的例子的示意圖;圖7為表示文檔處理裝置2中的特殊字字典D24的內(nèi)容的一個(gè)示例的示意圖;圖8為表示輸入給文檔處理裝置2的文檔的一個(gè)示例的示圖;圖9為由文檔處理裝置2執(zhí)行的OCR處理的流程圖;圖10為表示OCR處理中間的估計(jì)結(jié)果的一個(gè)示例的示圖;圖11是表示OCR處理中間的估計(jì)結(jié)果的準(zhǔn)確性的例子的摘錄的示意圖;圖12是表示OCR處理中間的估計(jì)結(jié)果的準(zhǔn)確性的例子的摘錄的示意圖;圖13為表示OCR處理中間的估計(jì)結(jié)果的一個(gè)例子的示圖;圖14為表示OCR處理的最終估計(jì)結(jié)果的一個(gè)示例的示圖。
具體實(shí)施例方式
下面將參照

根據(jù)本發(fā)明的實(shí)施例。
結(jié)構(gòu)圖1為表示根據(jù)本發(fā)明一實(shí)施例的文檔處理裝置2的結(jié)構(gòu)的方框圖。
文檔處理裝置2被安裝在一個(gè)公司中,被公司職員所共享,其具有操作單元21,職員通過(guò)操作將指令輸入到所述操作單元;掃描儀22,其中放置在文檔處理裝置2的文檔保持架(未示出)上的文檔被光學(xué)讀取并作為圖像數(shù)據(jù)輸入;RAM23,用于在其中臨時(shí)存儲(chǔ)圖像數(shù)據(jù);打印單元24,其根據(jù)存儲(chǔ)在RAM23中的圖像數(shù)據(jù),在紙上形成圖像并從文檔處理裝置2彈出所述紙張作為文檔;非易失性存儲(chǔ)器25,用于在其中存儲(chǔ)數(shù)據(jù);通信單元26,其通過(guò)通信路徑(未示出)與圖中未示出的外部裝置交換數(shù)據(jù);和用于控制各個(gè)單元的CPU27。
非易失性存儲(chǔ)器25可在電源(圖中未示出)未提供電力的情況下保存數(shù)據(jù),并存儲(chǔ)CPU27控制每個(gè)單元時(shí)所使用的控制程序P21;用于使文檔處理裝置2執(zhí)行如下所述的復(fù)制和登記處理的復(fù)制和登記程序P22;用于使文檔處理裝置2執(zhí)行如下所述的OCR處理的OCR執(zhí)行程序P23;用于OCR的普通特征向量數(shù)據(jù)庫(kù)D21;和用于OCR的普通字字典D22。在所述普通特征向量數(shù)據(jù)庫(kù)D21中,使普通文檔中使用的所有字符和這些字符形狀的特征向量相關(guān)聯(lián)。在普通字字典D22中,在普通文檔中使用的字被登記。
非易失性存儲(chǔ)器25還存儲(chǔ)一特殊特征向量數(shù)據(jù)庫(kù)D23和特殊字字典D24。在所述特殊特征向量數(shù)據(jù)庫(kù)D23中,在上述公司中所復(fù)制的文檔內(nèi)出現(xiàn)的字符與字符形狀的特征向量相關(guān)聯(lián)。在特殊字字典D24中,對(duì)于未知字,使字符串和出現(xiàn)頻率相關(guān)聯(lián)并將其登記,這些未知字是在上述公司中復(fù)制的文檔內(nèi)出現(xiàn)的但未被登記在普通字字典D22中的字。字的出現(xiàn)頻率為字在輸入給文檔處理裝置2的文檔中出現(xiàn)的次數(shù)。注意,在其初始狀態(tài)下所述特殊特征向量數(shù)據(jù)庫(kù)D23和特殊字字典D24中什么都沒(méi)登記。
當(dāng)被電源(圖中未示出)提供了電力時(shí),CPU27從非易失性存儲(chǔ)器25中讀取控制程序P21并執(zhí)行它。這使得CPU27能夠控制文檔處理裝置2的各個(gè)單元。當(dāng)使用操作單元21輸入復(fù)制指令時(shí),CPU27從非易失性存儲(chǔ)器25讀取復(fù)制和登記程序P22并執(zhí)行它。利用該程序,文檔處理裝置2執(zhí)行復(fù)制和登記處理。當(dāng)在上面的狀態(tài)下使用操作單元21將OCR處理指令輸入到CPU27中時(shí),CPU27從非易失性存儲(chǔ)器25讀取OCR執(zhí)行程序P23并執(zhí)行它。由此,文檔處理裝置2執(zhí)行OCR處理。將與文檔處理裝置2的操作相結(jié)合地說(shuō)明這些處理。當(dāng)CPU27處于這樣的狀態(tài)并通過(guò)通信單元26接收預(yù)定的請(qǐng)求時(shí),CPU從非易失性存儲(chǔ)器25中的預(yù)定區(qū)域讀取OCR處理的結(jié)果并將它們發(fā)送給發(fā)出請(qǐng)求的地方。
操作下面說(shuō)明具有上述構(gòu)成的文檔處理裝置2的操作。
首先,職員No.1在文檔保持架上放置一表示圖2的日語(yǔ)文檔。日語(yǔ)單詞“本願(yuàn)”(Hongan)和“本題”(hondai)為在普通字字典D22中未登記的僅在文檔中出現(xiàn)的單詞。這些單詞中的每一個(gè)都在所述文檔中出現(xiàn)兩次。此外,在所述文檔頂部(首先被讀取的部分)的字符要大于在其它部分中出現(xiàn)的字符。
接著,所述職員使用操作單元21輸入一復(fù)制指令。由此,CPU27執(zhí)行復(fù)制和登記處理。
在復(fù)制和登記處理中,CPU27通過(guò)掃描儀22光學(xué)讀取設(shè)置在文檔保持架上的文檔,作為圖像數(shù)據(jù)輸入,將該圖像數(shù)據(jù)寫(xiě)入RAM23,并使用打印單元24根據(jù)所述圖像數(shù)據(jù)在紙上形成圖像并從文檔處理裝置2彈出所述紙張。文檔以這種方式被復(fù)制。
CPU27與該復(fù)制并行地執(zhí)行圖3中所示的登記處理。
首先,使用普通特征向量數(shù)據(jù)庫(kù)D21進(jìn)行字符識(shí)別(步驟SC1)。具體地,存儲(chǔ)在RAM23中的圖像數(shù)據(jù)被分割成單個(gè)的字符單元。對(duì)所有分割出的圖像數(shù)據(jù),進(jìn)行從圖像數(shù)據(jù)中提取字符形狀的特征向量的處理,并將所提取的特征向量與存儲(chǔ)在普通特征向量數(shù)據(jù)庫(kù)D21中的特征向量進(jìn)行比較并估計(jì)字符的處理。估計(jì)的準(zhǔn)確性也被計(jì)算。以這種方式,對(duì)于圖2中所示的文檔就獲得了圖4中所示的估計(jì)結(jié)果和圖5中所示的準(zhǔn)確性。從附圖可以清楚地看出,對(duì)于較大字符的估計(jì)結(jié)果的準(zhǔn)確性是相對(duì)較高的。
接著,準(zhǔn)確性足夠高的估計(jì)結(jié)果(字符)與在估計(jì)期間提取的特征向量相關(guān)聯(lián)并登記在特殊特征向量數(shù)據(jù)庫(kù)D23中(步驟SC2)。確定準(zhǔn)確性是否足夠高是通過(guò)這樣的過(guò)程實(shí)現(xiàn)的即將估計(jì)結(jié)果(字符)的準(zhǔn)確性與一預(yù)定基準(zhǔn)登記準(zhǔn)確性(對(duì)于文檔處理裝置2為95%)進(jìn)行比較并確定所獲得的估計(jì)結(jié)果的準(zhǔn)確性是否等于或高于所述基準(zhǔn)登記準(zhǔn)確性。從所述說(shuō)明可以清楚地看出,例如“本”(hon)被登記了四次。然而,在第一次登記“本”(hon)之后的登記中,只將特征向量寫(xiě)入到非易失性存儲(chǔ)器25中。以這種方式,如圖6所示,字符“(”、“1”、“)”、“本”(hon)、“願(yuàn)”(gan)、“で”(de)、“の”(no)、和“題”(dai)與它們的特征向量相關(guān)聯(lián)地登記在特殊特征向量數(shù)據(jù)庫(kù)D23中。
接著,對(duì)估計(jì)結(jié)果中的字符串進(jìn)行形態(tài)分析(morphologicalanalysis)(步驟SC3)。其將估計(jì)結(jié)果中的字符串分割成字。接著,使用普通字字典D22從所述形態(tài)分析獲得的字中提取未知字,準(zhǔn)確性足夠高的未知字的字符串被登記在特殊字字典D24中,并終止登記處理。
確定一個(gè)字是否為準(zhǔn)確性足夠高的未知字是通過(guò)確定構(gòu)成所述未知字的所有字符的估計(jì)結(jié)果的準(zhǔn)確性是否都等于或高于基準(zhǔn)登記準(zhǔn)確性來(lái)實(shí)現(xiàn)的。例如,在圖2中的文檔的末尾部分出現(xiàn)的“本願(yuàn)”(Hongan)和在開(kāi)始部分出現(xiàn)的“本願(yuàn)”(Hongan)和“本題”(hondai)被確定是準(zhǔn)確性足夠高的未知字,同時(shí)在末尾部分出現(xiàn)的“本題”(hondai)未被確定為是準(zhǔn)確性足夠高的未知字。
登記到特殊字字典D24的操作取決于將被登記的字符串是否已被登記在特殊字字典D24中。如果將被登記的字符串未被登記在特殊字字典D24中,那么CPU27將所述字符串與出現(xiàn)頻率“1”相關(guān)聯(lián)并將它登記在特殊字字典D24中。如果已經(jīng)被登記,則將與該字符串相關(guān)聯(lián)并被登記在特殊字字典D24中的出現(xiàn)頻率加1。如圖7所示,作為這種登記方式的結(jié)果,字符串“本願(yuàn)”(Hongan)和出現(xiàn)頻率“2”相關(guān)地登記在特殊字字典D24中,字符串“本題”(hondai)和出現(xiàn)頻率“1”相關(guān)地登記在特殊字字典D24中。
接著,職員No.2在文檔保持架上放置一如圖8中所示的日語(yǔ)文檔。在該文檔中,“(1)hongan”出現(xiàn)在開(kāi)始部分中,而“本願(yuàn)”(Hongan)和“本題では”(hondai de wa)出現(xiàn)在末尾部分中。然后,該職員使用操作單元21輸入一OCR指令。接著,CPU27就執(zhí)行OCR處理。
在OCR處理中,CPU27通過(guò)掃描儀22光學(xué)讀取設(shè)置在文檔保持架中的文檔作為圖像數(shù)據(jù)輸入并將該圖像數(shù)據(jù)寫(xiě)入到RAM23(步驟SD1)。接著,使用普通特征向量數(shù)據(jù)庫(kù)D21對(duì)該圖像數(shù)據(jù)進(jìn)行字符識(shí)別(步驟SD2)。所述字符識(shí)別的內(nèi)容與圖3的步驟SC1中的相同。因此對(duì)圖8所示的文檔獲得了如圖10中所示的估計(jì)結(jié)果和如圖11中的摘錄所示的準(zhǔn)確性。從附圖可以清楚地看出,在該階段發(fā)生了錯(cuò)誤估計(jì)。更具體地說(shuō),所述文檔中的“1”的估計(jì)結(jié)果是“I”,字符“願(yuàn)”(gan)的估計(jì)結(jié)果是字符“題”(dai)或“頸”(kei)。
接著,執(zhí)行這樣一個(gè)處理,其中如果估計(jì)結(jié)果中的每個(gè)字符的估計(jì)準(zhǔn)確性足夠高,則當(dāng)前的估計(jì)結(jié)果(使用普通特征向量的估計(jì)結(jié)果)就被采用,但如果所述估計(jì)準(zhǔn)確性不是足夠高,則利用特殊特征向量數(shù)據(jù)庫(kù)D23進(jìn)行字符識(shí)別;并且進(jìn)一步如果這種字符識(shí)別的估計(jì)結(jié)果的準(zhǔn)確性高于使用普通特征向量數(shù)據(jù)庫(kù)D21的估計(jì)結(jié)果的準(zhǔn)確性,那么就使用利用特殊特征向量數(shù)據(jù)庫(kù)D23的估計(jì)結(jié)果,但如果并未高于使用普通特征向量數(shù)據(jù)庫(kù)D21的估計(jì)結(jié)果的準(zhǔn)確性,則使用利用普通特征向量數(shù)據(jù)庫(kù)D21的估計(jì)結(jié)果(步驟SD3-SD9)。
確定估計(jì)準(zhǔn)確性是否足夠高是通過(guò)將使用普通特征向量數(shù)據(jù)庫(kù)D21的估計(jì)準(zhǔn)確性與一預(yù)定的基準(zhǔn)確認(rèn)準(zhǔn)確性(對(duì)于文檔處理裝置2為90%)相比較并確定所獲得的估計(jì)結(jié)果的準(zhǔn)確性是否等于或高于基準(zhǔn)確認(rèn)準(zhǔn)確性來(lái)實(shí)現(xiàn)的。例如,在圖11中只有三個(gè)字符“本”(hon)的估計(jì)準(zhǔn)確性足夠高。對(duì)于這三個(gè)字符“本”(hon)之外的其它字符進(jìn)行使用特殊特征向量數(shù)據(jù)庫(kù)D23的字符識(shí)別。估計(jì)結(jié)果和以這種方式獲得的準(zhǔn)確性如圖12中的摘錄所示。
圖12中的“(”、“1”、“)”、第一個(gè)“願(yuàn)”(gan)、第二個(gè)“願(yuàn)”(gan)和“題”(dai)分別對(duì)應(yīng)于圖11中的“(”、“I”、“)”、第一個(gè)“題”(dai)、第二個(gè)“題”(dai)和“頸”(kei)。在該對(duì)應(yīng)關(guān)系中,對(duì)于圖12中的“1”、第一個(gè)“願(yuàn)”(gan)、第二個(gè)“願(yuàn)”(gan)來(lái)說(shuō),圖12中的準(zhǔn)確性高于圖11中的準(zhǔn)確性。因此,所采用的估計(jì)結(jié)果如圖13所示。從附圖可以清楚地看出,在此階段只有一個(gè)錯(cuò)誤估計(jì)(“頸”(kei))出現(xiàn)。
接著,對(duì)所采用的估計(jì)結(jié)果中的字符串進(jìn)行形態(tài)分析(步驟SD10)。然后,使用形態(tài)分析的結(jié)果利用語(yǔ)法分析來(lái)獲得最終的估計(jì)結(jié)果(步驟SD11)。接著,將最終估計(jì)結(jié)果寫(xiě)入非易失性存儲(chǔ)器25中的預(yù)定區(qū)域(步驟SD12)并終止OCR處理。下面說(shuō)明在步驟SD11中進(jìn)行的語(yǔ)法分析。
CPU27在語(yǔ)法分析中使用普通字字典D22和特殊字字典D24。如圖7所示,“本願(yuàn)”(Hongan)和“本題”(hondai)被登記在特殊字字典D24中,所以CPU27不需要將這些字符串處理為未知字。在該分析中,CPU27在估計(jì)結(jié)果中找出導(dǎo)致語(yǔ)法錯(cuò)誤的字,檢查找出的字是否為可靠字,如果它們不是,那么就確定是否存在不會(huì)產(chǎn)生語(yǔ)法錯(cuò)誤的字作為所述字的替代選項(xiàng),如果這樣的字存在,那么就從替代選項(xiàng)中選擇最佳字,并使用它們來(lái)替代導(dǎo)致語(yǔ)法錯(cuò)誤的字。
圖13中的“本頸”(honkei)是語(yǔ)法錯(cuò)誤的一個(gè)例子。在該情況下,CPU27將“本頸”(honkei)檢測(cè)為產(chǎn)生語(yǔ)法錯(cuò)誤的詞?!氨绢i”(honkei)中的“本”(hon)的準(zhǔn)確性等于或高于基準(zhǔn)確認(rèn)準(zhǔn)確性,但“頸”(kei)的準(zhǔn)確性低于基準(zhǔn)確認(rèn)準(zhǔn)確性。因此,因?yàn)椤氨绢i”(honkei)包括有問(wèn)題的字符,所以它不是可靠字。此外,雖然在所述說(shuō)明中沒(méi)有包括,但當(dāng)“頸”(kei)變成估計(jì)結(jié)果時(shí),其在使用特殊特征向量數(shù)據(jù)庫(kù)D23進(jìn)行的字符識(shí)別之后的準(zhǔn)確性為31%,而“願(yuàn)”(gan)的準(zhǔn)確性為29%。這些準(zhǔn)確性都等于或高于預(yù)定的基準(zhǔn)替代準(zhǔn)確性(對(duì)于文檔處理裝置2來(lái)說(shuō)為25%),并且因?yàn)椤氨绢?yuàn)”(Hongan)和“本題”(hondai)都不會(huì)產(chǎn)生語(yǔ)法錯(cuò)誤,所以“本願(yuàn)”(Hongan)和“本題”(hondai)作為替代選項(xiàng)存在。這些替代選項(xiàng)中只能有一項(xiàng)被選擇,并且選擇的標(biāo)準(zhǔn)是每個(gè)選項(xiàng)的準(zhǔn)確性和出現(xiàn)頻率。如上所述,在每項(xiàng)的準(zhǔn)確性之間不存在大的差別,但如圖7所示,在出現(xiàn)頻率之間存在大的差別(兩倍)。因此,具有較高出現(xiàn)頻率的“本願(yuàn)”(Hongan)被選擇,并被替代“本頸”(honkei)使用。因此,最終的估計(jì)結(jié)果如圖14所示。
在OCR處理之后,職員No.2使用能夠與文檔處理裝置2進(jìn)行通信的計(jì)算機(jī)來(lái)向文檔處理裝置2發(fā)送預(yù)定的請(qǐng)求。由CPU27通過(guò)通信單元26來(lái)獲得該請(qǐng)求。相應(yīng)地,CPU27從非易失性存儲(chǔ)器25的預(yù)定區(qū)域讀取最終的估計(jì)結(jié)果并將它們發(fā)送給發(fā)出請(qǐng)求的計(jì)算機(jī)。以這種方式,OCR處理的結(jié)果就被傳送給職員No.2。
結(jié)論如上所述,用戶(hù)僅通過(guò)使文檔處理裝置2進(jìn)行光學(xué)讀取和打印文檔就能將數(shù)據(jù)存儲(chǔ)在文檔處理裝置2中,所述文檔處理裝置2用于在估計(jì)通過(guò)光學(xué)讀取一公司中的文檔獲得的圖像數(shù)據(jù)中的字符時(shí)提高估計(jì)準(zhǔn)確性。另外,該存儲(chǔ)是在用戶(hù)沒(méi)有感知它的情況下進(jìn)行的。此外,因?yàn)槲臋n處理裝置2由職員共享,所以能夠有效地進(jìn)行數(shù)據(jù)積累。
用戶(hù)通過(guò)使文檔處理裝置2使用積累的數(shù)據(jù)執(zhí)行OCR處理就可獲得具有足夠高精度的識(shí)別結(jié)果。
此外,只在字符和/或字符串是以足夠高的準(zhǔn)確性估計(jì)的時(shí)候,文檔處理裝置2才積累上述數(shù)據(jù)。因此,能夠無(wú)錯(cuò)誤地避免積累不正確的數(shù)據(jù)以及識(shí)別精度降低。
上面的實(shí)施例也可如下所述地變化。
例如,可在OCR處理中不使用特殊特征向量數(shù)據(jù)庫(kù)D23,還可不使用特殊字字典D24。還可不在特殊字字典D24中登記出現(xiàn)頻率,而且也可將在OCR處理中登記在特殊字字典D24中的字符串處理為未知字。
還可響應(yīng)來(lái)自其它裝置的請(qǐng)求將特殊特征向量數(shù)據(jù)庫(kù)D23和特殊字字典D24發(fā)送給該裝置。
當(dāng)然,也能夠?qū)⒈景l(fā)明應(yīng)用于在任何文檔中進(jìn)行的字符識(shí)別,包括日語(yǔ)之外的自然語(yǔ)言書(shū)寫(xiě)的文檔和計(jì)算機(jī)程序表。
如上所述,本發(fā)明提供了一種文檔處理裝置,包括一普通特征向量存儲(chǔ)器,用于存儲(chǔ)多個(gè)字符中的每個(gè)字符的形狀的特征向量;一輸入單元,用于光學(xué)讀入一個(gè)文檔;一提取單元,用于根據(jù)由輸入單元讀入的文檔中的字符的形狀提取特征向量;一普通形狀識(shí)別單元,用于根據(jù)由提取單元提取的特征向量和存儲(chǔ)在普通特征向量存儲(chǔ)器中的內(nèi)容來(lái)估計(jì)其形狀的特征向量已由所述提取單元提取的字符;和一特殊特征向量存儲(chǔ)器,用于與所述普通形狀識(shí)別單元的估計(jì)結(jié)果相關(guān)聯(lián)地存儲(chǔ)由提取單元提取的特征向量。
按照該文檔處理裝置,當(dāng)光學(xué)讀取一個(gè)文檔并打印該文檔時(shí),根據(jù)所讀取文檔中的字符的形狀來(lái)提取特征向量,使用這些提取的特征向量來(lái)估計(jì)字符,并將特征向量與這些字符相關(guān)聯(lián)地存儲(chǔ)。
此外,本發(fā)明提供了一種文檔處理裝置,包括一普通字存儲(chǔ)器,用于存儲(chǔ)字;一輸入單元,用于光學(xué)讀入一個(gè)文檔;一識(shí)別單元,用于根據(jù)由所述輸入單元讀入的文檔中的字符的形狀來(lái)估計(jì)構(gòu)成該文檔的字符串;一未知字檢測(cè)單元,用于根據(jù)所述識(shí)別單元的估計(jì)結(jié)果提取未存儲(chǔ)在所述普通字存儲(chǔ)器中的字;和一特殊字存儲(chǔ)器,用于存儲(chǔ)由所述未知字檢測(cè)單元提取的字。
根據(jù)該文檔處理裝置,當(dāng)光學(xué)讀取一個(gè)文檔并打印該文檔時(shí),根據(jù)所讀取的文檔中的字符的形狀估計(jì)構(gòu)成所述文檔的字符,并根據(jù)該估計(jì)結(jié)果提取未存儲(chǔ)在普通字存儲(chǔ)單元中的字并將其存儲(chǔ)在特定字存儲(chǔ)單元中。
此外,本發(fā)明提供一種文檔處理裝置,包括一頻率存儲(chǔ)器,用于存儲(chǔ)多個(gè)字中的每一個(gè)字的出現(xiàn)頻率;一輸入單元,用于光學(xué)讀入一個(gè)文檔;一識(shí)別單元,用于根據(jù)由所述輸入單元讀入的文檔中的字符的形狀估計(jì)構(gòu)成該文檔的字符串;和一更新單元,用于根據(jù)識(shí)別單元的估計(jì)結(jié)果更新存儲(chǔ)在頻率存儲(chǔ)器中的頻率。
根據(jù)該文檔處理裝置,當(dāng)光學(xué)讀取一個(gè)文檔并打印該文檔時(shí),根據(jù)所讀取的文檔中的字符的形狀估計(jì)所述文檔的字符,并根據(jù)該估計(jì)結(jié)果更新存儲(chǔ)在頻率存儲(chǔ)單元中的字的出現(xiàn)頻率。
上述文檔處理裝置僅通過(guò)使該文檔處理裝置讀入和打印文檔就能夠進(jìn)行數(shù)據(jù)收集,所述數(shù)據(jù)用于在估計(jì)通過(guò)光學(xué)讀取一有限環(huán)境內(nèi)的文檔獲得的圖像數(shù)據(jù)中的字符時(shí)提高估計(jì)準(zhǔn)確性,所述有限環(huán)境例如設(shè)置有該文檔處理裝置的公司或部門(mén)。此外,用這些文檔處理裝置光學(xué)讀入和打印文檔的用戶(hù)越多,執(zhí)行數(shù)據(jù)收集的效率越高。
此外,本發(fā)明提供了一種由預(yù)定用戶(hù)共享的文檔處理裝置執(zhí)行的文檔處理方法,其包括接收文檔和指令,根據(jù)接收的指令對(duì)接收的文檔進(jìn)行處理,并輸出處理過(guò)的文檔,同時(shí)對(duì)所接收的文檔上的字符進(jìn)行識(shí)別,并獲得和存儲(chǔ)反映字符識(shí)別準(zhǔn)確性的信息;以及接收文檔并根據(jù)存儲(chǔ)的信息對(duì)所接收的文檔上的字符進(jìn)行識(shí)別。
該文檔處理方法僅通過(guò)使該文檔處理裝置讀入和打印文檔就能夠進(jìn)行數(shù)據(jù)收集,所述數(shù)據(jù)用于在估計(jì)通過(guò)光學(xué)讀取一有限環(huán)境內(nèi)的文檔獲得的圖像數(shù)據(jù)中的字符時(shí)提高估計(jì)的準(zhǔn)確性,所述有限環(huán)境例如設(shè)置有該文檔處理裝置的公司或部門(mén)。此外,用這些文檔處理裝置光學(xué)讀入和打印文檔的用戶(hù)越多,執(zhí)行數(shù)據(jù)收集的效率越高。另外,所收集的數(shù)據(jù)用于在執(zhí)行步驟中進(jìn)行字符識(shí)別,從而能夠以足夠高的精度識(shí)別字符。
為了解釋和說(shuō)明的目的,前面已經(jīng)給出了本發(fā)明的實(shí)施例的說(shuō)明。但其并不是窮舉性的,也不旨在將本發(fā)明限制于所公開(kāi)的確切形式。很明顯,許多修改和變化對(duì)于本領(lǐng)域技術(shù)人員將是顯而易見(jiàn)的。所述各實(shí)施例被選擇說(shuō)明以最好地解釋本發(fā)明的原理及其實(shí)際應(yīng)用,以便由此能夠使本領(lǐng)域技術(shù)人員理解本發(fā)明的各個(gè)實(shí)施例及其各種修改,以適合于特定的預(yù)期應(yīng)用。本發(fā)明的范圍由下述的權(quán)利要求及其等價(jià)內(nèi)容定義。
本申請(qǐng)要求于2004年5月25日提交的日本專(zhuān)利申請(qǐng)第2004-154970號(hào)的優(yōu)先權(quán),其全部?jī)?nèi)容通過(guò)引用而被并入本文中。
權(quán)利要求
1.一種文檔處理裝置,包括一普通特征向量存儲(chǔ)器,用于存儲(chǔ)多個(gè)字符中的每個(gè)字符的形狀的特征向量;一輸入單元,用于光學(xué)讀入一文檔;一提取單元,用于根據(jù)所述輸入單元讀入的文檔中的字符的形狀提取特征向量;一普通形狀識(shí)別單元,用于根據(jù)所述提取單元提取的特征向量和存儲(chǔ)在普通特征向量存儲(chǔ)器中的內(nèi)容估計(jì)其形狀的特征向量已由所述提取單元提取的字符;和一特殊特征向量存儲(chǔ)器,用于與所述普通形狀識(shí)別單元的估計(jì)結(jié)果相關(guān)聯(lián)地存儲(chǔ)由提取單元提取的特征向量。
2.根據(jù)權(quán)利要求1所述的文檔處理裝置,其中所述特殊特征向量存儲(chǔ)器只在所述普通形狀識(shí)別單元獲得的估計(jì)準(zhǔn)確性足夠高時(shí),才存儲(chǔ)普通形狀識(shí)別單元的估計(jì)結(jié)果和由所述提取單元提取的特征向量。
3.根據(jù)權(quán)利要求1所述的文檔處理裝置,進(jìn)一步包括一特殊形狀識(shí)別單元,用于根據(jù)由提取單元提取的特征向量和存儲(chǔ)在特殊特征向量存儲(chǔ)器中的內(nèi)容估計(jì)其形狀的特征向量已由所述提取單元進(jìn)行提取了的特殊字符;和一形狀識(shí)別存儲(chǔ)器,如果由普通形狀識(shí)別單元獲得的估計(jì)準(zhǔn)確性不是足夠高并且由特殊形狀識(shí)別單元獲得的估計(jì)準(zhǔn)確性比普通形狀識(shí)別單元獲得的估計(jì)準(zhǔn)確性高,則存儲(chǔ)特殊形狀識(shí)別單元的估計(jì)結(jié)果,否則存儲(chǔ)普通形狀識(shí)別單元的估計(jì)結(jié)果。
4.一種文檔處理裝置,包括一普通字存儲(chǔ)器,用于存儲(chǔ)字;一輸入單元,用于光學(xué)讀入一個(gè)文檔;一識(shí)別單元,用于根據(jù)所述輸入單元讀入的文檔中的字符的形狀估計(jì)構(gòu)成該文檔的字符串;一未知字檢測(cè)單元,用于根據(jù)所述識(shí)別單元的估計(jì)結(jié)果提取未存儲(chǔ)在普通字存儲(chǔ)器中的字;和一特殊字存儲(chǔ)器,用于存儲(chǔ)由所述未知字檢測(cè)單元提取的字。
5.根據(jù)權(quán)利要求4所述的文檔處理裝置,其中所述特殊字存儲(chǔ)器只在所述識(shí)別單元獲得的估計(jì)準(zhǔn)確性足夠高時(shí),才存儲(chǔ)由所述未知字檢測(cè)單元提取的字。
6.根據(jù)權(quán)利要求4所述的文檔處理裝置,還包括一字識(shí)別存儲(chǔ)器,用于存儲(chǔ)所述識(shí)別單元的估計(jì)結(jié)果;其中所述識(shí)別單元包括一形狀識(shí)別單元,用于根據(jù)輸入單元讀入的文檔中的字符的形狀來(lái)估計(jì)這些字符;和一字分析單元,用于根據(jù)存儲(chǔ)在普通字存儲(chǔ)器中的內(nèi)容和存儲(chǔ)在特殊字存儲(chǔ)器中的內(nèi)容,對(duì)由形狀識(shí)別單元的估計(jì)結(jié)果形成的字符串進(jìn)行語(yǔ)法分析,以修正那些字符串并將修正后的字符串作為估計(jì)結(jié)果。
7.一種文檔處理裝置,包括一頻率存儲(chǔ)器,用于存儲(chǔ)多個(gè)字中的每個(gè)字的出現(xiàn)頻率;一輸入單元,用于光學(xué)讀入一個(gè)文檔;一識(shí)別單元,用于根據(jù)所述輸入單元讀入的文檔中的字符的形狀估計(jì)構(gòu)成該文檔的字符串;和一更新單元,用于根據(jù)所述識(shí)別單元的估計(jì)結(jié)果更新存儲(chǔ)在頻率存儲(chǔ)器中的頻率。
8.根據(jù)權(quán)利要求7所述的文檔處理裝置,還包括一頻率識(shí)別存儲(chǔ)器,用于存儲(chǔ)識(shí)別單元的估計(jì)結(jié)果;其中所述識(shí)別單元包括一形狀識(shí)別單元,用于根據(jù)由輸入單元讀入的文檔中的字符的形狀估計(jì)這些字符;和一字頻率單元,用于根據(jù)存儲(chǔ)在頻率存儲(chǔ)器中的內(nèi)容對(duì)由形狀識(shí)別單元的估計(jì)結(jié)果形成的字符串進(jìn)行語(yǔ)法分析,以修正所述字符串并將修正后的字符串作為估計(jì)結(jié)果。
9.根據(jù)權(quán)利要求1所述的文檔處理裝置,還包括一能由用戶(hù)進(jìn)行操作的操作單元;其中當(dāng)使用操作單元輸入一預(yù)定指令時(shí),所述輸入單元光學(xué)讀取一文檔。
10.一種由預(yù)定用戶(hù)共享的文檔處理裝置執(zhí)行的文檔處理方法,包括接收文檔和指令,根據(jù)接收的指令對(duì)接收的文檔進(jìn)行處理,并輸出處理過(guò)的文檔,同時(shí)對(duì)接收的文檔上的字符進(jìn)行識(shí)別,并獲得和存儲(chǔ)反映字符識(shí)別準(zhǔn)確性的信息;和接收文檔并根據(jù)存儲(chǔ)的信息對(duì)所接收的文檔上的字符進(jìn)行識(shí)別。
全文摘要
文檔處理裝置和文檔處理方法。本發(fā)明所提供的文檔處理裝置包括一普通特征向量存儲(chǔ)器,用于存儲(chǔ)多個(gè)字符中的每個(gè)字符的形狀的特征向量;一輸入單元,用于光學(xué)讀入一個(gè)文檔;一提取單元,用于根據(jù)輸入單元讀入的文檔中的字符的形狀提取特征向量;一普通形狀識(shí)別單元,用于根據(jù)由提取單元提取的特征向量和存儲(chǔ)在普通特征向量存儲(chǔ)器中的內(nèi)容估計(jì)其形狀的特征向量由所述提取單元提取的字符;和一特殊特征向量存儲(chǔ)器,用于與所述普通形狀識(shí)別單元的估計(jì)結(jié)果相關(guān)聯(lián)地存儲(chǔ)由提取單元提取的特征向量。
文檔編號(hào)G06K9/00GK1702682SQ20051005541
公開(kāi)日2005年11月30日 申請(qǐng)日期2005年3月17日 優(yōu)先權(quán)日2004年5月25日
發(fā)明者田代潔, 田川昌俊, 增市博, 伊藤篤, 石川恭輔, 劉紹明, 田宗道弘, 佐藤直子 申請(qǐng)人:富士施樂(lè)株式會(huì)社
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
中卫市| 田东县| 江阴市| 陆川县| 闽清县| 辽源市| 石林| 渝中区| 平谷区| 尖扎县| 长海县| 凤台县| 红安县| 滨州市| 恩平市| 乌拉特中旗| 会昌县| 葵青区| 许昌市| 台北县| 荔浦县| 鄂伦春自治旗| 临泉县| 富顺县| 宁强县| 临泽县| 寻甸| 易门县| 临沂市| 响水县| 娱乐| 潞西市| 当阳市| 麻阳| 东阿县| 巨野县| 滕州市| 延寿县| 高平市| 湾仔区| 沂水县|