欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種字符識(shí)別方法及系統(tǒng)的制作方法

文檔序號(hào):6604781閱讀:154來源:國知局
專利名稱:一種字符識(shí)別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文字識(shí)別技術(shù)領(lǐng)域,尤其涉及一種字符識(shí)別方法及系統(tǒng)。
背景技術(shù)
在當(dāng)前數(shù)字化處理行業(yè),印刷體漢字識(shí)別技術(shù)已經(jīng)被廣泛的應(yīng)用。目前使用識(shí)別系統(tǒng)進(jìn)行印刷體數(shù)字化工作,主要采用以下兩種技術(shù)一種是采用單一的識(shí)別系統(tǒng),經(jīng)過識(shí)別后的文本直接交給人工進(jìn)行后期修改工作。這種方法的不足是單一識(shí)別系統(tǒng)由于識(shí)別算法的唯一性,對(duì)圖像與識(shí)別字典的匹配度計(jì)算就有局限性,從而使得某些字符在此種算法下的相似度很高,造成誤識(shí)率高,后期必須做逐字校對(duì)才能滿足質(zhì)量要求。另一種是將兩個(gè)識(shí)別系統(tǒng)識(shí)別后的文本文件通過校對(duì)軟件進(jìn)行對(duì)比,找出不同的地方標(biāo)記出來。相同的部分則視為識(shí)別準(zhǔn)確。此方法的不足是由于各個(gè)識(shí)別系統(tǒng)的切分算法不一致,使得識(shí)別出來的文字并不是一一對(duì)應(yīng)的,增加了校對(duì)算法的難度,有的情況甚至是不能對(duì)比的,另外是并沒有利用識(shí)別系統(tǒng)自身的識(shí)別相似度的數(shù)據(jù),只是機(jī)械的把各個(gè)識(shí)別系統(tǒng)的結(jié)果分為一致和不一致兩種?,F(xiàn)有技術(shù)不足之處在于幾乎所有的識(shí)別系統(tǒng)都以文字識(shí)別正確率作為主要參數(shù), 而很少提供誤識(shí)率和錯(cuò)字定位相關(guān)信息。而后者正是海量數(shù)據(jù)加工過程中的重要信息。對(duì)于識(shí)別后的修改工作,查找一個(gè)錯(cuò)字的位置所用的時(shí)間遠(yuǎn)比修改它要多得多?,F(xiàn)有處理方法中并不能大幅地削減人工后期修改的工作量,而人工修改環(huán)節(jié)是整個(gè)數(shù)字化工藝中成本最高的一個(gè)環(huán)節(jié)。同時(shí)由于沒有挖掘多種識(shí)別系統(tǒng)的過程數(shù)據(jù)來自動(dòng)判斷文字的置信度, 文字質(zhì)量還要過多的依靠人工判別,使得質(zhì)量的穩(wěn)定性和準(zhǔn)確性難以保證。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中所存在的問題,本發(fā)明的目的是提供一種字符識(shí)別方法及系統(tǒng)。 該方法及系統(tǒng)能夠應(yīng)用多個(gè)識(shí)別核心,通過加權(quán)計(jì)算不但可以提供每個(gè)字符的綜合識(shí)別結(jié)果,同時(shí)提供字符識(shí)別結(jié)果的準(zhǔn)確度,準(zhǔn)確度達(dá)到一定標(biāo)準(zhǔn)的字符則不需要進(jìn)行人工檢驗(yàn)修改,從而提高識(shí)別結(jié)果后期編改的工作效率。為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是一種字符識(shí)別方法,包括以下步驟(1)對(duì)待識(shí)別文檔進(jìn)行版面分析,將分析得到的字符區(qū)域進(jìn)行字符切割以獲得字符圖像數(shù)據(jù);(2)利用不同的識(shí)別核心分別對(duì)字符圖像數(shù)據(jù)依次進(jìn)行字符識(shí)別,得到每個(gè)字符識(shí)別結(jié)果和各個(gè)字符識(shí)別結(jié)果相似度;(3)根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度。進(jìn)一步,步驟O)中,所述的每個(gè)字符識(shí)別結(jié)果包括首選識(shí)別結(jié)果和第一備選識(shí)別結(jié)果。進(jìn)一步,步驟O)中,所述各個(gè)字符識(shí)別結(jié)果的相似度包括每個(gè)識(shí)別核心的首選識(shí)別結(jié)果相似度和首選識(shí)別結(jié)果與第一備選識(shí)別結(jié)果相似度差值,其中所述識(shí)別結(jié)果相似度表示識(shí)別核心所返回的識(shí)別結(jié)果與原字符的相似度。進(jìn)一步,步驟O)中,若每個(gè)識(shí)別核心的相似度度量單位不同,則按比例轉(zhuǎn)化為相同的度量單位。進(jìn)一步,所述根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,具體步驟包括a.判斷字符識(shí)別結(jié)果的字符類型;b.獲取識(shí)別核心所述字符類型的加權(quán)參考值;c.利用所述字符識(shí)別結(jié)果相似度和所述加權(quán)參考值,計(jì)算得到該字符識(shí)別結(jié)果的
綜合直{曰度。進(jìn)一步,所述該識(shí)別結(jié)果的綜合置信度是指首選識(shí)別結(jié)果相似度、首選識(shí)別結(jié)果與第一備選識(shí)別結(jié)果相似度差值以及識(shí)別核心字符類型的加權(quán)參考值的乘積。進(jìn)一步,所述得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度,具體包括i.對(duì)于同一字符圖像數(shù)據(jù),依據(jù)每個(gè)識(shí)別核心字符識(shí)別結(jié)果的綜合置信度,選擇綜合置信度高的作為最終字符識(shí)別結(jié)果;ii.依據(jù)每個(gè)識(shí)別核心字符識(shí)別結(jié)果的差異性,確定字符識(shí)別結(jié)果的準(zhǔn)確度;若各個(gè)識(shí)別核心結(jié)果相同,則字符識(shí)別結(jié)果的準(zhǔn)確度最高,若各個(gè)識(shí)別核心結(jié)果均不相同,則字符識(shí)別結(jié)果的準(zhǔn)確度最低。進(jìn)一步,所述的首選識(shí)別結(jié)果與第一備選識(shí)別結(jié)果相似度的差值與字符識(shí)別結(jié)果的準(zhǔn)確度成反比,其差值越大,識(shí)別核心對(duì)字符識(shí)別結(jié)果的準(zhǔn)確度越高;其差值越小,識(shí)別核心對(duì)字符識(shí)別結(jié)果的準(zhǔn)確度越低。進(jìn)一步,若不同識(shí)別核心的的字符識(shí)別結(jié)果存在相同情況,則計(jì)算相同結(jié)果對(duì)應(yīng)的綜合置信度的平均值并將其作為調(diào)整后的該字符識(shí)別結(jié)果的綜合置信度。進(jìn)一步,在字符識(shí)別過程中,根據(jù)待識(shí)別文檔中已得到的最終字符識(shí)別結(jié)果調(diào)整各個(gè)識(shí)別核心的加權(quán)參考值。更進(jìn)一步,所述的方法進(jìn)一步包括將每個(gè)字符圖像數(shù)據(jù)的最終字符識(shí)別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。為實(shí)現(xiàn)上述方法,本發(fā)明提供了一種字符識(shí)別系統(tǒng),包括字符切割裝置,用于對(duì)待識(shí)別文檔進(jìn)行版面分析,并將分析得到的字符區(qū)域進(jìn)行字符切割以獲得字符圖像數(shù)據(jù);識(shí)別裝置,用于利用不同的識(shí)別核心分別對(duì)字符圖像數(shù)據(jù)依次進(jìn)行字符識(shí)別,得到每個(gè)字符識(shí)別結(jié)果和各個(gè)字符識(shí)別結(jié)果的相似度;計(jì)算裝置,用于根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度。進(jìn)一步,所述的計(jì)算裝置包括字符類型判斷模塊,用于判斷字符識(shí)別結(jié)果的字符類型;加權(quán)參考值獲取模塊,用于獲取識(shí)別核心所述字符類型的加權(quán)參考值;
綜合置信度計(jì)算模塊,用于利用字符識(shí)別結(jié)果相似度和加權(quán)參考值,計(jì)算得到識(shí)別結(jié)果的綜合置信度。更進(jìn)一步,所述系統(tǒng)還包括輸出裝置用于將每個(gè)字符圖像數(shù)據(jù)的最終字符識(shí)別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。本發(fā)明的效果在于本發(fā)明通過識(shí)別過程結(jié)果的計(jì)算和對(duì)比,輔以海量測試數(shù)據(jù)的分析結(jié)果,利用不同識(shí)別核心的優(yōu)勢,對(duì)識(shí)別文字結(jié)果可以定量得計(jì)算出每個(gè)字符不同的準(zhǔn)確度,使后期識(shí)別結(jié)果的修改工作可以集中在準(zhǔn)確度較低的部分,對(duì)于準(zhǔn)確度較高的部分則可以不用修改。所以不需要對(duì)結(jié)果逐字進(jìn)行也能達(dá)到質(zhì)量要求,大大的節(jié)省了人工的勞動(dòng)強(qiáng)度和成本,同時(shí)質(zhì)量更加可靠。


圖1為具體實(shí)施方式
中所述一種字符識(shí)別系統(tǒng)的結(jié)構(gòu)框圖;圖2為具體實(shí)施方式
中所述一種字符識(shí)別方法的流程圖;圖3為具體實(shí)施方式
中待識(shí)別文檔;圖4為具體實(shí)施方式
中待識(shí)別文檔經(jīng)過版面分析后的字符區(qū)域;圖5為具體實(shí)施方式
中經(jīng)字符切割后的字符圖像數(shù)據(jù);圖6為具體實(shí)施方式
中經(jīng)識(shí)別核心識(shí)別后的字符識(shí)別結(jié)果。
具體實(shí)施例方式下面結(jié)合說明書附圖和具體實(shí)施方式
,對(duì)本發(fā)明進(jìn)行詳細(xì)說明。圖1示出了具體實(shí)施方式
中所述一種字符識(shí)別系統(tǒng)的結(jié)構(gòu)框圖,該系統(tǒng)包括字符切割裝置11,用于對(duì)待識(shí)別文檔進(jìn)行版面分析,并將分析得到的字符區(qū)域進(jìn)行字符切割以獲得字符圖像數(shù)據(jù);識(shí)別裝置12,用于利用不同的的識(shí)別核心分別對(duì)字符圖像數(shù)據(jù)依次進(jìn)行字符識(shí)別,得到每個(gè)字符識(shí)別結(jié)果和各個(gè)字符識(shí)別結(jié)果的相似度;計(jì)算裝置13,用于根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度。其中,計(jì)算裝置13還包括用于判斷字符識(shí)別結(jié)果的字符類型的字符類型判斷模塊31、用于獲取識(shí)別核心所述字符類型的加權(quán)參考值的加權(quán)參考值獲取模塊32和用于利用字符識(shí)別結(jié)果相似度和加權(quán)參考值,計(jì)算得到識(shí)別結(jié)果的綜合置信度的綜合置信度計(jì)算模塊33。輸出裝置14,用于將每個(gè)字符圖像數(shù)據(jù)的最終字符識(shí)別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。圖2示出了具體實(shí)施方式
中采用圖1所示系統(tǒng)進(jìn)行字符識(shí)別的一種字符識(shí)別方法,該方法包括以下步驟Sll 對(duì)待識(shí)別文檔進(jìn)行版面分析,將分析得到的字符區(qū)域進(jìn)行字符切割以獲得字符圖像數(shù)據(jù);首先對(duì)原始圖像按照常規(guī)的方法進(jìn)行二值化、糾斜和版面分析。本實(shí)施例中采用大津法進(jìn)行二值化,糾斜采用投影圖的方式查找連續(xù)線段最高峰,使用Hough變換搜索傾斜角度。版面分析則利用游程圖采用自底向上的分析方法,將圖像數(shù)據(jù)劃分為具有不同符號(hào)的區(qū)域,如字符區(qū)域、圖形區(qū)域、表格區(qū)域等。然后,對(duì)字符區(qū)域的水平方向和垂直方向進(jìn)行投影,然后根據(jù)投影,根據(jù)投影圖進(jìn)行字符切割以獲得每個(gè)字符圖像數(shù)據(jù)。顯然,也可以采用連通域法等其它字符切割方法。本實(shí)施例中,如圖3中所示為待識(shí)別文檔,經(jīng)版面分析后得到識(shí)別區(qū)域即字符區(qū)域,如圖4所示,再經(jīng)過字符切割獲每個(gè)字符圖像數(shù)據(jù),如圖5所示。S12:利用不同的識(shí)別核心分別對(duì)字符圖像數(shù)據(jù)依次進(jìn)行字符識(shí)別,得到每個(gè)字符識(shí)別結(jié)果和各個(gè)字符識(shí)別結(jié)果的相似度;其中,所得到的每個(gè)字符識(shí)別結(jié)果包括首選識(shí)別結(jié)果和第一備選識(shí)別結(jié)果。本實(shí)施例中,選用的不同的識(shí)別核心為三個(gè),分別為ABBYY公司的識(shí)別核心、漢王公司的識(shí)別核心、文通公司的識(shí)別核心,當(dāng)然也可以選擇其它識(shí)別核心,識(shí)別核心的數(shù)量也可以是四個(gè)或者四個(gè)以上不同的識(shí)別核心。本實(shí)施例中,選用ABBYY公司的識(shí)別核心、漢王公司的識(shí)別核心、文通公司的識(shí)別核心(分別用識(shí)別核心A、識(shí)別核心B和識(shí)別核心C表示)分別對(duì)字符圖像數(shù)據(jù)進(jìn)行字符識(shí)別。所述各個(gè)字符識(shí)別結(jié)果的相似度包括每個(gè)識(shí)別核心的首選識(shí)別結(jié)果相似度和首選識(shí)別結(jié)果與第一備選識(shí)別結(jié)果相似度差值,其中所述識(shí)別結(jié)果相似度表示識(shí)別核心所返回的識(shí)別結(jié)果與原字符的相似度。本實(shí)施例中引入此參數(shù)的原因?yàn)樵趯?shí)際數(shù)據(jù)中識(shí)別結(jié)果的準(zhǔn)確度越高,此相似度差值越大。相反地,如果識(shí)別核心對(duì)識(shí)別結(jié)果準(zhǔn)確度越低,此相似度差值越小。引入此參數(shù)可以放大首選識(shí)別結(jié)果相似度。本實(shí)施例中,若每個(gè)識(shí)別核心的相似度度量單位不同(比如有的識(shí)別核心用0-10 之間的數(shù)值來表示相似度,有的識(shí)別核心用0-100之間的數(shù)值來表示相似度),則按比例轉(zhuǎn)化為相同的度量單位。如將相似度統(tǒng)一轉(zhuǎn)化為0-10之間的數(shù)值。S13:根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度。根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,具體步驟包括a.判斷字符識(shí)別結(jié)果的字符類型;b.獲取識(shí)別核心所述字符類型的加權(quán)參考值,所述的加權(quán)參考值是根據(jù)預(yù)先大量的測試和統(tǒng)計(jì)得到的;如表1所示,表1中的數(shù)值為識(shí)別核心A、識(shí)別核心B和識(shí)別核心C的各字符類型加權(quán)值如對(duì)于識(shí)別核心A、識(shí)別核心B與識(shí)別核心C,當(dāng)代簡體漢字的加權(quán)參考值均為1. 2 ; 對(duì)于當(dāng)代繁體漢字,識(shí)別核心A的加權(quán)參考值為0. 9,識(shí)別核心B的為1. 1,識(shí)別核心C的為 1 ;可見,利用不同識(shí)別核心進(jìn)行字符識(shí)別對(duì)識(shí)別文字結(jié)果可以定量計(jì)算出每個(gè)字符不同的準(zhǔn)確度。
權(quán)利要求
1.一種字符識(shí)別方法,包括以下步驟(1)對(duì)待識(shí)別文檔進(jìn)行版面分析,將分析得到的字符區(qū)域進(jìn)行字符切割以獲得字符圖像數(shù)據(jù);(2)利用不同的識(shí)別核心分別對(duì)字符圖像數(shù)據(jù)依次進(jìn)行字符識(shí)別,得到每個(gè)字符識(shí)別結(jié)果和各個(gè)字符識(shí)別結(jié)果相似度;(3)根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度。
2.如權(quán)利要求1所述的一種字符識(shí)別方法,其特征在于,步驟(2)中,所述的每個(gè)字符識(shí)別結(jié)果包括首選識(shí)別結(jié)果和第一備選識(shí)別結(jié)果。
3.如權(quán)利要求2所述的一種字符識(shí)別方法,其特征在于,步驟O)中,所述各個(gè)字符識(shí)別結(jié)果的相似度包括每個(gè)識(shí)別核心的首選識(shí)別結(jié)果相似度和首選識(shí)別結(jié)果與第一備選識(shí)別結(jié)果相似度差值,其中所述識(shí)別結(jié)果相似度表示識(shí)別核心所返回的識(shí)別結(jié)果與原字符的相似度。
4.如權(quán)利要求1所述的一種字符識(shí)別方法,其特征在于,步驟O)中,不同的識(shí)別核心為三個(gè);若不同識(shí)別核心的相似度度量單位不同,則按比例轉(zhuǎn)化為相同的度量單位。
5.如權(quán)利要求1所述的一種字符識(shí)別方法,其特征在于,步驟(3)中,所述根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,具體步驟包括a.判斷字符識(shí)別結(jié)果的字符類型;b.獲取識(shí)別核心所述字符類型的加權(quán)參考值;c.利用所述字符識(shí)別結(jié)果相似度和所述加權(quán)參考值,計(jì)算得到該字符識(shí)別結(jié)果的綜合置信度。
6.如權(quán)利要求5所述的一種字符識(shí)別方法,其特征在于,所述該識(shí)別結(jié)果的綜合置信度是指首選識(shí)別結(jié)果相似度、首選識(shí)別結(jié)果與第一備選識(shí)別結(jié)果相似度差值以及識(shí)別核心字符類型的加權(quán)參考值的乘積。
7.如權(quán)利要求1所述的一種字符識(shí)別方法,其特征在于,步驟(3)中,所述得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度,具體包括i.對(duì)于同一字符圖像數(shù)據(jù),依據(jù)每個(gè)識(shí)別核心字符識(shí)別結(jié)果的綜合置信度,選擇綜合置信度高的作為最終字符識(shí)別結(jié)果; .依據(jù)每個(gè)識(shí)別核心字符識(shí)別結(jié)果的差異性,確定字符識(shí)別結(jié)果的準(zhǔn)確度;若各個(gè)識(shí)別核心結(jié)果相同,則字符識(shí)別結(jié)果的準(zhǔn)確度最高,若各個(gè)識(shí)別核心結(jié)果均不相同,則字符識(shí)別結(jié)果的準(zhǔn)確度最低。
8.如權(quán)利要求3所述的一種字符識(shí)別方法,其特征在于,所述的首選識(shí)別結(jié)果與第一備選識(shí)別結(jié)果相似度的差值與字符識(shí)別結(jié)果的準(zhǔn)確度成正比,其差值越大,識(shí)別核心對(duì)字符識(shí)別結(jié)果的準(zhǔn)確度越高;其差值越小,識(shí)別核心對(duì)字符識(shí)別結(jié)果的準(zhǔn)確度越低。
9.如權(quán)利要求7所述的一種字符識(shí)別方法,其特征在于,若不同識(shí)別核心得到的字符識(shí)別結(jié)果存在相同情況,則計(jì)算相同結(jié)果對(duì)應(yīng)的綜合置信度的平均值并將其作為調(diào)整后的該字符識(shí)別結(jié)果的綜合置信度。
10.如權(quán)利要求7所述的一種字符識(shí)別方法,其特征在于,在字符識(shí)別過程中,根據(jù)待識(shí)別文檔中已得到的最終字符識(shí)別結(jié)果調(diào)整各個(gè)識(shí)別核心的加權(quán)參考值。
11.如權(quán)利要求1至10之一所述的一種字符識(shí)別方法,其特征在于,所述方法進(jìn)一步包括(4)將每個(gè)字符圖像數(shù)據(jù)的最終字符識(shí)別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。
12.—種字符識(shí)別系統(tǒng),包括字符切割裝置,用于對(duì)待識(shí)別文檔進(jìn)行版面分析,并將分析得到的字符區(qū)域進(jìn)行字符切割以獲得字符圖像數(shù)據(jù);識(shí)別裝置,用于利用不同的識(shí)別核心分別對(duì)字符圖像數(shù)據(jù)依次進(jìn)行字符識(shí)別,得到每個(gè)字符識(shí)別結(jié)果和各個(gè)字符識(shí)別結(jié)果的相似度;計(jì)算裝置,用于根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度。
13.如權(quán)利要求12所述的一種字符識(shí)別系統(tǒng),其特征在于,所述計(jì)算裝置包括 字符類型判斷模塊,用于判斷字符識(shí)別結(jié)果的字符類型;加權(quán)參考值獲取模塊,用于獲取識(shí)別核心所述字符類型的加權(quán)參考值; 綜合置信度模塊,用于利用字符識(shí)別結(jié)果相似度和加權(quán)參考值,計(jì)算得到字符識(shí)別結(jié)果的綜合置信度。
14.如權(quán)利要求12或13所述的一種字符識(shí)別系統(tǒng),其特征在于,該系統(tǒng)還包括輸出裝置用于將每個(gè)字符圖像數(shù)據(jù)的最終字符識(shí)別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。
全文摘要
本發(fā)明公開了一種字符識(shí)別方法及系統(tǒng),屬于文字識(shí)別技術(shù)領(lǐng)域。現(xiàn)有的文字識(shí)別方法人工的勞動(dòng)強(qiáng)度和成本大、且質(zhì)量的穩(wěn)定性和準(zhǔn)確性難以保證。本發(fā)明所述的方法首先對(duì)待識(shí)別文檔進(jìn)行版面分析,將分析得到的字符區(qū)域進(jìn)行字符切割以獲得字符圖像數(shù)據(jù);其次,利用不同的識(shí)別核心分別對(duì)字符圖像數(shù)據(jù)依次進(jìn)行字符識(shí)別,得到各個(gè)字符識(shí)別結(jié)果的相似度;最后,根據(jù)識(shí)別核心加權(quán)參考值以及字符識(shí)別結(jié)果相似度對(duì)所述字符識(shí)別結(jié)果進(jìn)行加權(quán)計(jì)算,得到最終字符識(shí)別結(jié)果及其準(zhǔn)確度。本發(fā)明所述方法及系統(tǒng)可以利用不同識(shí)別核心的優(yōu)勢,對(duì)識(shí)別文字結(jié)果可以定量得計(jì)算出每個(gè)字符不同的準(zhǔn)確度,減少后期人工修改的工作量,同時(shí)質(zhì)量更加可靠。
文檔編號(hào)G06K9/20GK102298696SQ20101021136
公開日2011年12月28日 申請(qǐng)日期2010年6月28日 優(yōu)先權(quán)日2010年6月28日
發(fā)明者周長嶺, 趙海濤 申請(qǐng)人:方正國際軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
绥芬河市| 福泉市| 四川省| 昌图县| 罗定市| 夏邑县| 河池市| 奉化市| 永胜县| 临邑县| 澄迈县| 汝州市| 闻喜县| 台南市| 高雄市| 新田县| 报价| 新丰县| 囊谦县| 凤山市| 临海市| 巫溪县| 仪征市| 南阳市| 婺源县| 南华县| 贺州市| 资溪县| 三明市| 调兵山市| 张北县| 高州市| 塔河县| 邻水| 连城县| 太原市| 哈尔滨市| 宜兰县| 色达县| 洪泽县| 日土县|