專利名稱:包括經(jīng)歷ocr處理的文本的圖像的分辨率調(diào)整的制作方法
包括經(jīng)歷OCR處理的文本的圖像的分辨率調(diào)整
背景技術(shù):
光學(xué)字符識(shí)別(OCR)是一般在標(biāo)準(zhǔn)編碼方案下,文本的圖像到作為機(jī)器可編輯文本的數(shù)字形式的基于計(jì)算機(jī)轉(zhuǎn)換。這個(gè)過(guò)程消除了將文檔手打到計(jì)算機(jī)系統(tǒng)中的需要。由于差的圖像質(zhì)量、掃描過(guò)程造成的瑕疵等,可能引起許多不同的問(wèn)題。例如,傳統(tǒng)OCR引擎可以與掃描文本頁(yè)面的平板掃描儀耦合。由于頁(yè)面直接靠著掃描儀的掃描表面放置,因此掃描儀生成的圖像通常呈現(xiàn)均勻的對(duì)比度和亮度、減小的扭曲和失真以及高的分辨率。因此,OCR引擎可以容易地將圖像中的文本轉(zhuǎn)換成機(jī)器可編輯文本。然而,當(dāng)圖像在對(duì)比度、亮度、扭曲等方面的質(zhì)量較差時(shí),OCR引擎的性能可能下降,并且處理時(shí)間可能由于處理圖像中的所有像素而增加。例如,當(dāng)圖像由基于成像器的掃描儀生成時(shí),可能就是這種情況, 這是由于從遠(yuǎn)處、從變化取向以及以變化亮度掃描文本/圖片。即使掃描過(guò)程的性能是好的,當(dāng)正掃描相對(duì)低質(zhì)量的文本頁(yè)面時(shí),OCR引擎的性能也可能下降。
發(fā)明內(nèi)容
光學(xué)字符識(shí)別需要辨認(rèn)文本圖像中的文本行,以便辨認(rèn)各個(gè)單詞和字符。文本行可以通過(guò)它們的基線、中線和X-高度來(lái)表征。當(dāng)掃描圖像遭受非線性失真的一些類別的文檔(例如,厚書)時(shí),可能引起文本行不完全水平,當(dāng)文本行不完全水平時(shí),可能就變得難以確定這些特征。在這樣的情況下,基線和中線在整個(gè)文本行中可能不是常數(shù)。為了克服這些問(wèn)題,在一種實(shí)現(xiàn)中,通過(guò)找出使第一吻合函數(shù)最大的參數(shù)曲線確定圖像中的至少一個(gè)文本行的基線,該第一吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值?;€對(duì)應(yīng)于使第一吻合函數(shù)最大的參數(shù)曲線。第一吻合函數(shù)被設(shè)計(jì)成隨著正好在參數(shù)曲線下面的像素的明亮度或亮度增大而增大,同時(shí)也隨著參數(shù)曲線通過(guò)的像素的明亮度減小而增大。在一些實(shí)現(xiàn)中,可以通過(guò)向上遞增地將基線移動(dòng)預(yù)定數(shù)量(例如,單個(gè)像素)直到使偏移基線的第二吻合函數(shù)最大來(lái)確定中線。第二吻合函數(shù)基本上就是第一吻合函數(shù)的反向。具體地說(shuō),第二吻合函數(shù)隨著正好在偏移基線上面的像素的明亮度增大而增大,同時(shí)也隨著偏移基線通過(guò)的像素的明亮度減小而增大。在一些實(shí)現(xiàn)中,可以從已經(jīng)計(jì)算的基線和中線中確定X-高度。尤其,X-高度等于使基線向上移動(dòng)以便使第二吻合函數(shù)最大的預(yù)定數(shù)量。提供此發(fā)明內(nèi)容部分是為了介紹下面在具體實(shí)施方式
部分中進(jìn)一步描述的簡(jiǎn)化形式的概念的選擇。此發(fā)明內(nèi)容部分不是打算辨認(rèn)要求保護(hù)主題的關(guān)鍵特征或基本特征,也不是打算用于幫助確定要求保護(hù)主題的范圍。
圖I示出用于圖像中的光學(xué)字符識(shí)別(OCR)的系統(tǒng)5的一個(gè)例示性例子。圖2示出掃描圖像中不完全水平的文本行的例子。圖3例示掃描圖像中的單個(gè)單詞的文本行的基線。
圖4是例示為不同文本行組確定X-高度的過(guò)程的流程圖。圖5示出可以執(zhí)行提取有關(guān)文本圖像中的文本行的信息的過(guò)程的圖像處理裝置的一個(gè)例子。
具體實(shí)施例方式圖I示出用于圖像中的光學(xué)字符識(shí)別(OCR)的系統(tǒng)5的一個(gè)例示性例子,該系統(tǒng)5包括生成文檔15的圖像的數(shù)據(jù)捕獲裝置(例如,掃描儀10)。掃描儀10可以是將電荷耦合器件用作圖像傳感器來(lái)生成圖像的基于成像器的掃描儀。掃描儀10處理圖像以生成輸入數(shù)據(jù),并將輸入數(shù)據(jù)發(fā)送給用于圖像內(nèi)的字符識(shí)別的處理裝置(例如,OCR引擎20)。在這個(gè)特定例子中,OCR引擎20被并入掃描儀10中。但是,在其它例子中,OCR引擎20可以是像獨(dú)立單元那樣的分立單元或并入像PC、服務(wù)器等那樣的另一臺(tái)設(shè)備中的單元。OCR引擎20接收文本圖像作為文本行的位圖。需要確定的那些文本行的三個(gè)參數(shù) 是“基線”、“中線”和“X-高度”。將“基線”定義成通過(guò)一行文本中的大多數(shù)字符(除了下伸字母之外)的底端的水平線。其次,將“中線”定義成通過(guò)一行文本中的大多數(shù)字符(除了上行字母之外)的頂端的水平線。第三,將“X-高度”定義成基線與中線之間的垂直距離,其對(duì)應(yīng)于該行中的大多數(shù)小寫字母(除了下行字母和上行字母之外)的高度。由于許多原因,尤其在相同形狀的大寫字母和小寫字母之間區(qū)分時(shí),知道精確的基線和X-高度是重要的。如果文本行完全水平并且只包含一種字體和大小,則基線和X-高度在整個(gè)行上都保持常數(shù)值。針對(duì)完全水平文本行計(jì)算這些值不是困難的任務(wù)。但是,當(dāng)掃描一些類別的文檔(例如,厚書)時(shí),文檔圖像可能遭受非線性失真。在這樣的情況下,基線坐標(biāo)在整個(gè)文本行上將不會(huì)是常數(shù)。包含這種重影的文本行的例子顯示在圖2中??梢钥闯?,文本具有從行的中間向左或向右平均字母位置減小引起的“波浪狀”外觀。這種性質(zhì)的重影使得更加難以確定基線。從文本圖像中提取X-高度信息也可能成問(wèn)題。例如,有時(shí)大部分文本行(或甚至整個(gè)文本行)由大寫字母或數(shù)字組成。在這樣的情況下,將行的位圖用作唯一信息源來(lái)提取X-高度是不可靠的。圖2還示出基線、中線和X-高度。如下詳述,提供了一種以參數(shù)曲線的形式計(jì)算變形文本行的基線的方法。此外,使用從整個(gè)圖像中獲得的上下文信息估計(jì)給定行的最可能的X-高度值?;€計(jì)算
首先,可以從基線定義中得到兩個(gè)觀察
由于大多數(shù)字體的性質(zhì),基線將與源自字母底部的大量暗像素重疊?!ふ迷诨€的下面沒(méi)有暗像素(除了下降字母部分之外)。與基線嚴(yán)格水平還是(在非線性變形的情況下)“波浪狀”無(wú)關(guān),應(yīng)該可以根據(jù)從這些觀察中獲得的至少兩個(gè)特性建立簡(jiǎn)單的吻合函數(shù)?!ぬ匦訧 :隨著正好在基線下面的像素變得更明亮(S卩,更亮),吻合函數(shù)的值將增大(反之亦然)?!ぬ匦? :隨著與基線重疊的像素變得更暗,吻合函數(shù)的值將增大(反之亦然)。在給定文本行位圖中找出基線的目標(biāo)轉(zhuǎn)換成找出具有最大吻合函數(shù)值的(曲)線的問(wèn)題??梢詫⒐鈻呕€實(shí)現(xiàn)成陣列對(duì)于輸入位圖的每個(gè)X坐標(biāo),應(yīng)該有一個(gè)且只有一個(gè)描述局部基線值的y坐標(biāo)??紤]到這一點(diǎn),吻合函數(shù)的簡(jiǎn)單推薦函數(shù)是
權(quán)利要求
1.一種提取表征圖像中的文本行的信息的系統(tǒng),其包含 輸入組件,用于接收包括文本行的輸入圖像的位圖;以及 參數(shù)化引擎,用于通過(guò)找出使吻合函數(shù)最大的參數(shù)曲線為圖像中的至少一個(gè)文本行確定基線,該吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值,其中該基線對(duì)應(yīng)于使吻合函數(shù)最大的參數(shù)曲線。
2.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎被配置成將吻合函數(shù)定義成fitness (baseline),并等于
3.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎被配置成至少一個(gè)控制參數(shù)約束參數(shù)曲線的至少一種特征。
4.如權(quán)利要求3所述的系統(tǒng),其中該參數(shù)化引擎被配置成通過(guò)控制參數(shù)確定的參數(shù)曲線的特征是參數(shù)曲線沿著文本行的最大變化率。
5.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎被配置成該參數(shù)曲線包括通過(guò)直線連接的多個(gè)控制點(diǎn),其中該控制點(diǎn)被約束成只在垂直方向移動(dòng)。
6.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎被配置成將該參數(shù)曲線定義成具有通過(guò)其樣條系數(shù)確定的形狀的B-樣條。
7.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎被配置成使用優(yōu)化技術(shù)使吻合函數(shù)最大。
8.如權(quán)利要求7所述的系統(tǒng),其中該參數(shù)化引擎被配置成從由遺傳搜索和動(dòng)態(tài)規(guī)劃組成的群組中選擇所述優(yōu)化技術(shù)。
9.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎進(jìn)一步包含為至少一個(gè)文本行確定平均高度的平均高度確定組件。
10.如權(quán)利要求9所述的系統(tǒng),其中該平均高度確定組件通過(guò)針對(duì)第二參數(shù)曲線使第二吻合函數(shù)最大來(lái)確定平均高度,其中第二吻合函數(shù)隨著正好在第二參數(shù)曲線上面的像素的明亮度增大而增大,并且還隨著第二參數(shù)曲線通過(guò)的像素的明亮度減小而增大。
11.如權(quán)利要求10所述的系統(tǒng),其中該平均高度確定組件通過(guò)如下步驟確定平均高度 向上遞增地將基線移動(dòng)預(yù)定數(shù)量直到使偏移基線的第二吻合函數(shù)最大,其中第二吻合函數(shù)隨著正好在偏移基線上面的像素的明亮度增大而增大,并且也隨著偏移基線通過(guò)的像素的明亮度減小而增大。
12.如權(quán)利要求11所述的系統(tǒng),進(jìn)一步包含為至少一個(gè)文本行確定X-高度的X-高度確定組件,其中X-高度等于將基線向上移動(dòng)以便使第二吻合函數(shù)最大的預(yù)定數(shù)量之和。
13.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎為輸入圖像中的不同文本行組確定不同基線。
14.如權(quán)利要求12所述的系統(tǒng),其中該參數(shù)化引擎根據(jù)它們的主導(dǎo)筆劃寬度將輸入圖像中的文本行劃分到組。
15.—種提取表征圖像中的文本行的信息的方法,其包含 接收包括文本行的輸入圖像的位圖;以及 通過(guò)找出使吻合函數(shù)最大的參數(shù)曲線為圖像中的至少一個(gè)文本行確定基線,該吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值,其中該基線對(duì)應(yīng)于使吻合函數(shù)最大的參數(shù)曲線。
全文摘要
一種光學(xué)字符識(shí)別處理通過(guò)它們的基線、中線和x-高度表征文本圖像中的文本行。通過(guò)找出使第一吻合函數(shù)最大的參數(shù)曲線確定圖像中的至少一個(gè)文本行的基線,該第一吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值。通過(guò)向上遞增地將基線移動(dòng)預(yù)定數(shù)量(例如,單個(gè)像素)直到使偏移基線的第二吻合函數(shù)最大來(lái)確定中線。第二吻合函數(shù)基本上就是第一吻合函數(shù)的反向。具體地說(shuō),第二吻合函數(shù)隨著正好在偏移基線上面的像素的明亮度增大而增大,同時(shí)也隨著偏移基線通過(guò)的像素的明亮度減小而增大。
文檔編號(hào)G06K9/20GK102782705SQ201180012992
公開日2012年11月14日 申請(qǐng)日期2011年3月7日 優(yōu)先權(quán)日2010年3月9日
發(fā)明者B.德雷塞維奇, D.尼耶姆塞維奇, M.烏德利亞 申請(qǐng)人:微軟公司