包括經(jīng)歷ocr處理的文本的圖像的分辨率調(diào)整的制作方法

文檔序號(hào)：6359826閱讀：469來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：包括經(jīng)歷ocr處理的文本的圖像的分辨率調(diào)整的制作方法
包括經(jīng)歷OCR處理的文本的圖像的分辨率調(diào)整
背景技術(shù)：
光學(xué)字符識(shí)別(OCR)是一般在標(biāo)準(zhǔn)編碼方案下，文本的圖像到作為機(jī)器可編輯文本的數(shù)字形式的基于計(jì)算機(jī)轉(zhuǎn)換。這個(gè)過(guò)程消除了將文檔手打到計(jì)算機(jī)系統(tǒng)中的需要。由于差的圖像質(zhì)量、掃描過(guò)程造成的瑕疵等，可能引起許多不同的問(wèn)題。例如，傳統(tǒng)OCR引擎可以與掃描文本頁(yè)面的平板掃描儀耦合。由于頁(yè)面直接靠著掃描儀的掃描表面放置，因此掃描儀生成的圖像通常呈現(xiàn)均勻的對(duì)比度和亮度、減小的扭曲和失真以及高的分辨率。因此，OCR引擎可以容易地將圖像中的文本轉(zhuǎn)換成機(jī)器可編輯文本。然而，當(dāng)圖像在對(duì)比度、亮度、扭曲等方面的質(zhì)量較差時(shí)，OCR引擎的性能可能下降，并且處理時(shí)間可能由于處理圖像中的所有像素而增加。例如，當(dāng)圖像由基于成像器的掃描儀生成時(shí)，可能就是這種情況，這是由于從遠(yuǎn)處、從變化取向以及以變化亮度掃描文本/圖片。即使掃描過(guò)程的性能是好的，當(dāng)正掃描相對(duì)低質(zhì)量的文本頁(yè)面時(shí)，OCR引擎的性能也可能下降。

發(fā)明內(nèi)容
光學(xué)字符識(shí)別需要辨認(rèn)文本圖像中的文本行，以便辨認(rèn)各個(gè)單詞和字符。文本行可以通過(guò)它們的基線、中線和X-高度來(lái)表征。當(dāng)掃描圖像遭受非線性失真的一些類別的文檔(例如，厚書)時(shí)，可能引起文本行不完全水平，當(dāng)文本行不完全水平時(shí)，可能就變得難以確定這些特征。在這樣的情況下，基線和中線在整個(gè)文本行中可能不是常數(shù)。為了克服這些問(wèn)題，在一種實(shí)現(xiàn)中，通過(guò)找出使第一吻合函數(shù)最大的參數(shù)曲線確定圖像中的至少一個(gè)文本行的基線，該第一吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值?；€對(duì)應(yīng)于使第一吻合函數(shù)最大的參數(shù)曲線。第一吻合函數(shù)被設(shè)計(jì)成隨著正好在參數(shù)曲線下面的像素的明亮度或亮度增大而增大，同時(shí)也隨著參數(shù)曲線通過(guò)的像素的明亮度減小而增大。在一些實(shí)現(xiàn)中，可以通過(guò)向上遞增地將基線移動(dòng)預(yù)定數(shù)量(例如，單個(gè)像素)直到使偏移基線的第二吻合函數(shù)最大來(lái)確定中線。第二吻合函數(shù)基本上就是第一吻合函數(shù)的反向。具體地說(shuō)，第二吻合函數(shù)隨著正好在偏移基線上面的像素的明亮度增大而增大，同時(shí)也隨著偏移基線通過(guò)的像素的明亮度減小而增大。在一些實(shí)現(xiàn)中，可以從已經(jīng)計(jì)算的基線和中線中確定X-高度。尤其，X-高度等于使基線向上移動(dòng)以便使第二吻合函數(shù)最大的預(yù)定數(shù)量。提供此發(fā)明內(nèi)容部分是為了介紹下面在具體實(shí)施方式
部分中進(jìn)一步描述的簡(jiǎn)化形式的概念的選擇。此發(fā)明內(nèi)容部分不是打算辨認(rèn)要求保護(hù)主題的關(guān)鍵特征或基本特征，也不是打算用于幫助確定要求保護(hù)主題的范圍。

圖I示出用于圖像中的光學(xué)字符識(shí)別(OCR)的系統(tǒng)5的一個(gè)例示性例子。圖2示出掃描圖像中不完全水平的文本行的例子。圖3例示掃描圖像中的單個(gè)單詞的文本行的基線。
圖4是例示為不同文本行組確定X-高度的過(guò)程的流程圖。圖5示出可以執(zhí)行提取有關(guān)文本圖像中的文本行的信息的過(guò)程的圖像處理裝置的一個(gè)例子。
具體實(shí)施例方式圖I示出用于圖像中的光學(xué)字符識(shí)別(OCR)的系統(tǒng)5的一個(gè)例示性例子，該系統(tǒng)5包括生成文檔15的圖像的數(shù)據(jù)捕獲裝置(例如，掃描儀10)。掃描儀10可以是將電荷耦合器件用作圖像傳感器來(lái)生成圖像的基于成像器的掃描儀。掃描儀10處理圖像以生成輸入數(shù)據(jù)，并將輸入數(shù)據(jù)發(fā)送給用于圖像內(nèi)的字符識(shí)別的處理裝置(例如，OCR引擎20)。在這個(gè)特定例子中，OCR引擎20被并入掃描儀10中。但是，在其它例子中，OCR引擎20可以是像獨(dú)立單元那樣的分立單元或并入像PC、服務(wù)器等那樣的另一臺(tái)設(shè)備中的單元。OCR引擎20接收文本圖像作為文本行的位圖。需要確定的那些文本行的三個(gè)參數(shù) 是“基線”、“中線”和“X-高度”。將“基線”定義成通過(guò)一行文本中的大多數(shù)字符(除了下伸字母之外)的底端的水平線。其次，將“中線”定義成通過(guò)一行文本中的大多數(shù)字符(除了上行字母之外)的頂端的水平線。第三，將“X-高度”定義成基線與中線之間的垂直距離，其對(duì)應(yīng)于該行中的大多數(shù)小寫字母(除了下行字母和上行字母之外)的高度。由于許多原因，尤其在相同形狀的大寫字母和小寫字母之間區(qū)分時(shí)，知道精確的基線和X-高度是重要的。如果文本行完全水平并且只包含一種字體和大小，則基線和X-高度在整個(gè)行上都保持常數(shù)值。針對(duì)完全水平文本行計(jì)算這些值不是困難的任務(wù)。但是，當(dāng)掃描一些類別的文檔(例如，厚書)時(shí)，文檔圖像可能遭受非線性失真。在這樣的情況下，基線坐標(biāo)在整個(gè)文本行上將不會(huì)是常數(shù)。包含這種重影的文本行的例子顯示在圖2中?？梢钥闯?，文本具有從行的中間向左或向右平均字母位置減小引起的“波浪狀”外觀。這種性質(zhì)的重影使得更加難以確定基線。從文本圖像中提取X-高度信息也可能成問(wèn)題。例如，有時(shí)大部分文本行(或甚至整個(gè)文本行)由大寫字母或數(shù)字組成。在這樣的情況下，將行的位圖用作唯一信息源來(lái)提取X-高度是不可靠的。圖2還示出基線、中線和X-高度。如下詳述，提供了一種以參數(shù)曲線的形式計(jì)算變形文本行的基線的方法。此外，使用從整個(gè)圖像中獲得的上下文信息估計(jì)給定行的最可能的X-高度值?；€計(jì)算
首先，可以從基線定義中得到兩個(gè)觀察
由于大多數(shù)字體的性質(zhì)，基線將與源自字母底部的大量暗像素重疊?！ふ迷诨€的下面沒(méi)有暗像素(除了下降字母部分之外)。與基線嚴(yán)格水平還是(在非線性變形的情況下)“波浪狀”無(wú)關(guān)，應(yīng)該可以根據(jù)從這些觀察中獲得的至少兩個(gè)特性建立簡(jiǎn)單的吻合函數(shù)?！ぬ匦訧 :隨著正好在基線下面的像素變得更明亮(S卩，更亮)，吻合函數(shù)的值將增大(反之亦然)?！ぬ匦? :隨著與基線重疊的像素變得更暗，吻合函數(shù)的值將增大(反之亦然)。在給定文本行位圖中找出基線的目標(biāo)轉(zhuǎn)換成找出具有最大吻合函數(shù)值的(曲)線的問(wèn)題?？梢詫⒐鈻呕€實(shí)現(xiàn)成陣列對(duì)于輸入位圖的每個(gè)X坐標(biāo)，應(yīng)該有一個(gè)且只有一個(gè)描述局部基線值的y坐標(biāo)?？紤]到這一點(diǎn)，吻合函數(shù)的簡(jiǎn)單推薦函數(shù)是
權(quán)利要求
1.一種提取表征圖像中的文本行的信息的系統(tǒng)，其包含輸入組件，用于接收包括文本行的輸入圖像的位圖；以及參數(shù)化引擎，用于通過(guò)找出使吻合函數(shù)最大的參數(shù)曲線為圖像中的至少一個(gè)文本行確定基線，該吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值，其中該基線對(duì)應(yīng)于使吻合函數(shù)最大的參數(shù)曲線。
2.如權(quán)利要求I所述的系統(tǒng)，其中該參數(shù)化引擎被配置成將吻合函數(shù)定義成fitness (baseline)，并等于
3.如權(quán)利要求I所述的系統(tǒng)，其中該參數(shù)化引擎被配置成至少一個(gè)控制參數(shù)約束參數(shù)曲線的至少一種特征。
4.如權(quán)利要求3所述的系統(tǒng)，其中該參數(shù)化引擎被配置成通過(guò)控制參數(shù)確定的參數(shù)曲線的特征是參數(shù)曲線沿著文本行的最大變化率。
5.如權(quán)利要求I所述的系統(tǒng)，其中該參數(shù)化引擎被配置成該參數(shù)曲線包括通過(guò)直線連接的多個(gè)控制點(diǎn)，其中該控制點(diǎn)被約束成只在垂直方向移動(dòng)。
6.如權(quán)利要求I所述的系統(tǒng)，其中該參數(shù)化引擎被配置成將該參數(shù)曲線定義成具有通過(guò)其樣條系數(shù)確定的形狀的B-樣條。
7.如權(quán)利要求I所述的系統(tǒng)，其中該參數(shù)化引擎被配置成使用優(yōu)化技術(shù)使吻合函數(shù)最大。
8.如權(quán)利要求7所述的系統(tǒng)，其中該參數(shù)化引擎被配置成從由遺傳搜索和動(dòng)態(tài)規(guī)劃組成的群組中選擇所述優(yōu)化技術(shù)。
9.如權(quán)利要求I所述的系統(tǒng),其中該參數(shù)化引擎進(jìn)一步包含為至少一個(gè)文本行確定平均高度的平均高度確定組件。
10.如權(quán)利要求9所述的系統(tǒng)，其中該平均高度確定組件通過(guò)針對(duì)第二參數(shù)曲線使第二吻合函數(shù)最大來(lái)確定平均高度，其中第二吻合函數(shù)隨著正好在第二參數(shù)曲線上面的像素的明亮度增大而增大，并且還隨著第二參數(shù)曲線通過(guò)的像素的明亮度減小而增大。
11.如權(quán)利要求10所述的系統(tǒng)，其中該平均高度確定組件通過(guò)如下步驟確定平均高度向上遞增地將基線移動(dòng)預(yù)定數(shù)量直到使偏移基線的第二吻合函數(shù)最大，其中第二吻合函數(shù)隨著正好在偏移基線上面的像素的明亮度增大而增大，并且也隨著偏移基線通過(guò)的像素的明亮度減小而增大。
12.如權(quán)利要求11所述的系統(tǒng)，進(jìn)一步包含為至少一個(gè)文本行確定X-高度的X-高度確定組件，其中X-高度等于將基線向上移動(dòng)以便使第二吻合函數(shù)最大的預(yù)定數(shù)量之和。
13.如權(quán)利要求I所述的系統(tǒng)，其中該參數(shù)化引擎為輸入圖像中的不同文本行組確定不同基線。
14.如權(quán)利要求12所述的系統(tǒng)，其中該參數(shù)化引擎根據(jù)它們的主導(dǎo)筆劃寬度將輸入圖像中的文本行劃分到組。
15.—種提取表征圖像中的文本行的信息的方法,其包含接收包括文本行的輸入圖像的位圖；以及通過(guò)找出使吻合函數(shù)最大的參數(shù)曲線為圖像中的至少一個(gè)文本行確定基線，該吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值，其中該基線對(duì)應(yīng)于使吻合函數(shù)最大的參數(shù)曲線。
全文摘要
一種光學(xué)字符識(shí)別處理通過(guò)它們的基線、中線和x-高度表征文本圖像中的文本行。通過(guò)找出使第一吻合函數(shù)最大的參數(shù)曲線確定圖像中的至少一個(gè)文本行的基線，該第一吻合函數(shù)取決于參數(shù)曲線通過(guò)的像素和在參數(shù)曲線下面的像素的數(shù)值。通過(guò)向上遞增地將基線移動(dòng)預(yù)定數(shù)量(例如，單個(gè)像素)直到使偏移基線的第二吻合函數(shù)最大來(lái)確定中線。第二吻合函數(shù)基本上就是第一吻合函數(shù)的反向。具體地說(shuō)，第二吻合函數(shù)隨著正好在偏移基線上面的像素的明亮度增大而增大，同時(shí)也隨著偏移基線通過(guò)的像素的明亮度減小而增大。
文檔編號(hào)G06K9/20GK102782705SQ201180012992
公開日2012年11月14日申請(qǐng)日期2011年3月7日優(yōu)先權(quán)日2010年3月9日
發(fā)明者B.德雷塞維奇, D.尼耶姆塞維奇, M.烏德利亞申請(qǐng)人:微軟公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D.尼耶姆塞維奇;M.烏德利亞;B.德雷塞維奇
技術(shù)所有人：微軟公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像分辨率相關(guān)技術(shù)

超分辨率圖像重建相關(guān)技術(shù)

圖像分辨率的單位是相關(guān)技術(shù)

圖像分辨率的單位相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

包括經(jīng)歷ocr處理的文本的圖像的分辨率調(diào)整的制作方法