欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

檢測(cè)文檔圖像中的字符的方向的制作方法

文檔序號(hào):6557733閱讀:184來源:國(guó)知局
專利名稱:檢測(cè)文檔圖像中的字符的方向的制作方法
技術(shù)領(lǐng)域
以下公開一般涉及各自能夠檢測(cè)文檔圖像中的字符的方向的設(shè)備、方法、系統(tǒng)、計(jì)算機(jī)程序和產(chǎn)品。
背景技術(shù)
現(xiàn)有圖像處理設(shè)備可基于文檔圖像中包含的字符來檢測(cè)文檔圖像的方向。然而,通常不知道字符的類型。由此,為了正確檢測(cè)文檔圖像的方向,現(xiàn)有圖像處理設(shè)備需要存儲(chǔ)用于多種語(yǔ)言和其每個(gè)方向的大量參考文檔圖像。結(jié)果,現(xiàn)有設(shè)備需要大量存儲(chǔ)器。此外,由于現(xiàn)有圖像處理設(shè)備需要比較文檔圖像和每個(gè)參考文檔圖像,所以檢測(cè)文檔圖像的方向的處理耗費(fèi)時(shí)間。所以,存在對(duì)于較不笨重并能更有效和高效地工作的圖像處理設(shè)備的需求。

發(fā)明內(nèi)容
本發(fā)明的示范實(shí)施例包括各自能夠檢測(cè)文檔圖像中的字符方向的設(shè)備、方法、系統(tǒng)、計(jì)算機(jī)程序和產(chǎn)品。
在一個(gè)示例中,從輸入文檔圖像中提取至少一個(gè)字符行。該字符行被旋轉(zhuǎn)預(yù)定角度以具有選定方向。具有選定方向的字符行被轉(zhuǎn)換為第一符號(hào)集。獲得基于具有正立(upright)位置的參考文檔圖像而產(chǎn)生的訓(xùn)練數(shù)據(jù)。檢測(cè)具有選定方向的字符行和正立位置的訓(xùn)練數(shù)據(jù)之間的相似度,以產(chǎn)生字符行的檢測(cè)結(jié)果?;谠摍z測(cè)結(jié)果,而確定輸入文檔圖像的方向。


通過結(jié)合附圖考慮時(shí)參考以下詳細(xì)描述,本公開的更全面的評(píng)價(jià)及其許多附帶的優(yōu)點(diǎn)將易于獲得并變得更好理解,其中圖1是圖示了根據(jù)本發(fā)明示范實(shí)施例的圖像處理設(shè)備的結(jié)構(gòu)的示意性方框圖;圖2是圖示了根據(jù)本發(fā)明的示范實(shí)施例的由圖1的圖像處理設(shè)備執(zhí)行的檢測(cè)文檔圖像中的字符方向的操作的流程圖;圖3是用于解釋根據(jù)本發(fā)明的示范實(shí)施例的由圖1的圖像處理設(shè)備執(zhí)行的檢測(cè)文檔圖像中的字符方向的操作的圖解;圖4A是從具有從正立位置旋轉(zhuǎn)了0度的水平字符行的文檔圖像中提取的示例水平字符行的圖解;圖4B是從具有從正立位置旋轉(zhuǎn)了180度的水平字符行的文檔圖像中提取的示例水平字符行的圖解;圖4C是從具有從正立位置旋轉(zhuǎn)了90度的垂直字符行的文檔圖像中提取的示例水平字符行的圖解;圖4D是從具有從正立位置旋轉(zhuǎn)了270度的垂直字符行的文檔圖像中提取的示例水平字符行的圖解;圖5A是從具有從正立位置旋轉(zhuǎn)了90度的水平字符行的文檔圖像中提取的示例垂直字符行的圖解;圖5B是從具有從正立位置旋轉(zhuǎn)了270度的水平字符行的文檔圖像中提取的示例垂直字符行的圖解;圖5C是從具有從正立位置旋轉(zhuǎn)了0度的垂直字符行的文檔圖像中提取的示例垂直字符行的圖解;圖5D是從具有從正立位置旋轉(zhuǎn)了180度的垂直字符行的文檔圖像中提取的示例垂直字符行的圖解;圖6是圖示了根據(jù)本發(fā)明示范實(shí)施例的檢測(cè)字符行中的字符方向的操作的流程圖;圖7是字符行中的示例外接矩形的圖解;圖8是示例傾斜字符行的圖解;圖9A是具有英文字符的示例水平字符行的圖解;圖9B是具有日文字符的示例水平字符行的圖解;圖10A是用于解釋根據(jù)本發(fā)明示范實(shí)施例的將圖9A的字符行轉(zhuǎn)換為符號(hào)集的操作的圖解;圖10B是用于解釋根據(jù)本發(fā)明示范實(shí)施例的將圖9B的字符行轉(zhuǎn)換為符號(hào)集的操作的圖解;圖11是包括符號(hào)集的數(shù)據(jù)的示例結(jié)構(gòu)的圖解;圖12是圖1的圖像處理設(shè)備中存儲(chǔ)的示例三元組(trigram)表格的圖解;
圖13是彼此相鄰的示例外接矩形的圖解;圖14是用于解釋根據(jù)本發(fā)明示范實(shí)施例的將圖9A的字符行轉(zhuǎn)換為符號(hào)集的操作的圖解;圖15是從鏡像文檔圖像中提取的示例水平字符行的圖解;圖16是圖示了根據(jù)本發(fā)明示范實(shí)施例的圖像處理設(shè)備的功能結(jié)構(gòu)的示意性方框圖;圖17是圖示了根據(jù)本發(fā)明示范實(shí)施例的圖像處理系統(tǒng)的結(jié)構(gòu)的示意性方框圖;和圖18是圖示了合并圖1的圖像處理設(shè)備的圖像形成設(shè)備的外貌的透視圖。
具體實(shí)施例方式
在描述圖中所示的優(yōu)選實(shí)施例時(shí),為了簡(jiǎn)明而采用了特定術(shù)語(yǔ)。然而,該專利說明書的公開不意欲限于所選擇的特定術(shù)語(yǔ),并且應(yīng)該理解每個(gè)特定元件包括以類似方式工作的所有技術(shù)等同?,F(xiàn)在參考附圖,其中幾幅圖中的相同附圖標(biāo)記表示相同或?qū)?yīng)的部分,圖1圖示了根據(jù)本發(fā)明示范實(shí)施例的圖像處理設(shè)備100。
該圖像處理設(shè)備100能夠檢測(cè)一部分或整個(gè)文檔圖像中的字符的方向。
如圖1所示,該圖像處理設(shè)備100包括經(jīng)由總線相連的中央處理單元(CPU)1、只讀存儲(chǔ)器(ROM)2、非易失性隨機(jī)存取存儲(chǔ)器(NVRAM)5、通信裝置9、顯示裝置7、硬盤驅(qū)動(dòng)器(HDD)3、隨機(jī)存取存儲(chǔ)器(RAM)4、輸入裝置6、和介質(zhì)驅(qū)動(dòng)器8。
CPU 1控制圖像處理設(shè)備100的整體操作。
HDD 3存儲(chǔ)各種數(shù)據(jù),包括以各種方式輸入到圖像處理設(shè)備100的文檔圖像。例如,文檔圖像可通過使用掃描儀掃描文檔而獲得。該掃描儀可合并在圖像處理設(shè)備100中或與圖像處理設(shè)備100相耦接。在另一示例中,該文檔圖像可利用ROM 2中存儲(chǔ)的字處理程序由圖像處理設(shè)備100產(chǎn)生。在另一示例中,該文檔圖像可通過通信裝置9從通信線路或網(wǎng)絡(luò)中接收。在另一示例中,該文檔圖像可從HDD 3中讀出。
在該例子中,HDD 3另外存儲(chǔ)包括例如Windows或Unix的操作系統(tǒng)程序的各種計(jì)算機(jī)程序、或包括本發(fā)明的方向檢測(cè)程序的各種應(yīng)用程序。
ROM 2存儲(chǔ)計(jì)算機(jī)程序,其使得CPU 1將存儲(chǔ)在HDD 3中的一個(gè)或多個(gè)計(jì)算機(jī)程序裝載到RAM 4上。RAM 4起到CPU 1的工作區(qū)的作用。例如,RAM 4配置從HDD 3所獲得的文檔圖像用于進(jìn)一步處理。
NVRAM 5存儲(chǔ)訓(xùn)練數(shù)據(jù),其是對(duì)各自具有偏離正立位置0度的方向的一類或多類參考文檔圖像進(jìn)行訓(xùn)練得到的。
在該示例中,NVRAM 5存儲(chǔ)三種類型的訓(xùn)練數(shù)據(jù),包括第一類、第二類、和第三類。第一類訓(xùn)練數(shù)據(jù)是對(duì)從位于正立位置的亞洲參考文檔圖像中提取的水平字符行中包含的多個(gè)字符進(jìn)行訓(xùn)練得到的。第二類訓(xùn)練數(shù)據(jù)是對(duì)從位于正立位置的亞洲參考文檔圖像中提取的垂直字符行中包含的多個(gè)字符進(jìn)行訓(xùn)練得到的。第三類訓(xùn)練數(shù)據(jù)是對(duì)從位于正立位置的拉丁參考文檔圖像中提取的水平字符行中包含的多個(gè)字符進(jìn)行訓(xùn)練得到的。在該示例中,亞洲參考文檔圖像包括來自包括日語(yǔ)、韓語(yǔ)和漢語(yǔ)的亞洲語(yǔ)言的任一種的字符。拉丁參考文檔圖像包括來自包括英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、和意大利語(yǔ)的拉丁語(yǔ)言的任一種的字符。然而,亞洲參考文檔圖像或拉丁參考文檔圖像可包括來自任何其它語(yǔ)言的字符,只要這些字符在以下參考圖9A和9B所述的布局信息方面類似即可。
輸入裝置6包括允許用戶輸入各種數(shù)據(jù)的任何類型的裝置,例如鍵盤或鼠標(biāo)。
顯示裝置8包括能夠顯示各種數(shù)據(jù)的任何類型的裝置,例如液晶顯示器。
介質(zhì)驅(qū)動(dòng)器8包括能夠從存儲(chǔ)介質(zhì)讀取數(shù)據(jù)的任何類型的裝置。存儲(chǔ)介質(zhì)的例子包括但不限于軟盤、硬盤、光盤、磁光盤、磁帶、非易失性存儲(chǔ)卡、ROM(只讀存儲(chǔ)器)等。該存儲(chǔ)介質(zhì)也可存儲(chǔ)CPU 1要使用的任何一種計(jì)算機(jī)程序。
通信裝置9包括能夠?qū)D像處理設(shè)備100連接到通信線路或網(wǎng)絡(luò)例如因特網(wǎng)或局域網(wǎng)(LAN)的任何類型的裝置。通信裝置9可以使圖像處理設(shè)備100從/向網(wǎng)絡(luò)下載/上載數(shù)據(jù)。
現(xiàn)在參考圖2,根據(jù)本發(fā)明的示范實(shí)施例而解釋用于檢測(cè)文檔圖像中的字符方向的操作。當(dāng)用戶使用輸入裝置6輸入命令數(shù)據(jù)時(shí),由CPU 1執(zhí)行圖2所示的步驟。
步驟S1輸入文檔圖像。文檔圖像具有多個(gè)字符,如圖3所示。在該示例中,文檔圖像中的字符包括日語(yǔ)字符和英語(yǔ)字符。然而,該文檔圖像可包括任何語(yǔ)言的任何字符。此外,該文檔圖像可以是具有比原始文檔圖像的分辨率低的分辨率的壓縮圖像。
步驟S2利用任何一種公知字符識(shí)別方法提取文檔圖像中的每個(gè)字符的一個(gè)或多個(gè)外接矩形。此外,步驟S2基于所提取的外接矩形而形成一個(gè)或多個(gè)字符行。例如,CPU 1提取黑像素的行程(run)并基于所提取的行程而形成最小外接矩形(下面稱為“外接矩形”)。位置接近的外接矩形被集合成一個(gè)字符行。
此時(shí),沒有標(biāo)識(shí)文檔圖像中的字符方向。如果外接矩形被形成為水平字符行,則可為了提取的字符行中的字符而假設(shè)四類方向,如圖4A到4D所示。如圖4A所示,提取的水平字符行可包括具有偏離正立位置0度的方向的多個(gè)字符,其原始地屬于水平字符行(“HL 0”)。如圖4B所示,提取的水平字符行可包括具有偏離正立位置180度的方向的多個(gè)字符,其原始地屬于水平字符行(“HL 180”)。如圖4C所示,提取的水平字符行可包括具有偏離正立位置90度的方向的多個(gè)字符,其原始地屬于垂直字符行(“VL 90”)。如圖4D所示,提取的水平字符行可包括具有偏離正立位置270度的方向的多個(gè)字符,其原始地屬于垂直字符行(“VL 270”)。
在另一例子中,如果外接矩形被形成為垂直字符行,則可為了提取的字符行中的字符而假設(shè)四類方向,如圖5A到5D所示。如圖5A所示,提取的垂直字符行可包括具有偏離正立位置90度的方向的多個(gè)字符,其原始地屬于水平字符行(“HL 90”)。如圖5B所示,提取的垂直字符行可包括具有偏離正立位置270度的方向的多個(gè)字符,其原始地屬于水平字符行(“HL 270”)。如圖5C所示,提取的垂直字符行可包括具有偏離正立位置0度的方向的多個(gè)字符,其原始地屬于垂直字符行(“VL 0”)。如圖5D所示,提取的垂直字符行可包括具有偏離正立位置180度的方向的多個(gè)字符,其原始地屬于垂直字符行(“VL 180”)。
在該示例中,從字符行或文檔圖像的正立位置沿順時(shí)針方向測(cè)量字符行或文檔圖像中的字符方向。然而,也可沿逆時(shí)針方向測(cè)量該方向。
此外,字符行的類型數(shù)目可根據(jù)字符中使用的語(yǔ)言類型而不同。例如,來自例如英語(yǔ)語(yǔ)言的拉丁語(yǔ)言的字符僅形成為水平字符行。因此,不考慮圖4C、4D、5C、和5D中示出的示例情況。
此外,可考慮除了圖4A、4B、4C、4D、5A、5B、5C和5D中示出的上述方向之外的任何數(shù)目的方向。例如,該角度可以是90的倍數(shù)。在另一示例中,可如下參考圖15所述考慮指明從文檔圖像的鏡像中提取字符行的示例情況的相反方向。
此外,在步驟S2,不是從整個(gè)文檔圖像中提取,而是可從部分文檔圖像中提取多個(gè)字符行。
步驟S3選擇在步驟S2中形成的字符行中的一個(gè)。
步驟S4利用NVRAM 5中存儲(chǔ)的至少一類訓(xùn)練數(shù)據(jù)檢測(cè)所選字符行中的字符方向。
對(duì)于步驟S2中形成的每個(gè)字符行,而執(zhí)行步驟S3和S4。因此,對(duì)于每個(gè)字符行,產(chǎn)生指明字符行中的字符方向的檢測(cè)結(jié)果。
步驟S5分析文檔圖像中的字符行的檢測(cè)結(jié)果。
步驟S6基于步驟S5作出的分析而確定文檔圖像中的字符方向。
現(xiàn)在參考圖6,根據(jù)本發(fā)明的示范實(shí)施例解釋檢測(cè)字符行中的字符方向的操作。在CPU 1選擇字符行之一之后,在圖2和3的步驟S4中執(zhí)行圖6所示的步驟。
步驟S40選擇要首先考慮的語(yǔ)言類型。在該例子中,首先考慮亞洲語(yǔ)言。
步驟S41選擇要首先考慮的方向。在該例子中,假設(shè)要處理的字符行具有從正立位置偏離0度的方向的多個(gè)字符(“HL0”或“VL0”)。由此,缺省選擇0度方向。
步驟S42基于字符行中的外接矩形的高度而定義字符行的高度。
例如,如圖7所示,字符行的高度H最好被設(shè)置為大于外接矩形21的高度h。該外接矩形21可以是屬于字符行的任何一個(gè)外接矩形。如圖7所示,外接矩形21可以由位于外接矩形的左上角的起點(diǎn)(Xs,Ys)和位于外接矩形的右下角的終點(diǎn)(Xe,Ye)表示。外接矩形21的高度h可以被計(jì)算為起點(diǎn)和終點(diǎn)在Y坐標(biāo)中的差(Ys-Ye)。通過將字符行的高度H設(shè)置為大于外接矩形21的高度h,即使當(dāng)字符行包含小尺寸字符時(shí)或者即使當(dāng)字符傾斜時(shí),也可正確標(biāo)識(shí)字符行中的字符。
可以以各種方式獲得字符行的高度H。在一個(gè)例子中,將首先選擇的外接矩形的高度h乘以預(yù)定常數(shù)A。相乘的高度(h*A)被設(shè)置為高度H的當(dāng)前值。類似地,將其次選擇的外接矩形的高度h乘以預(yù)定常數(shù)A。然后將相乘的高度(h*A)與高度H的當(dāng)前值作比較。如果相乘的高度(h*A)大于高度H的當(dāng)前值,則其次選擇的外接矩形的相乘的高度(h*A)被用作高度H的當(dāng)前值。在對(duì)于字符行中的每個(gè)外接矩形執(zhí)行該操作之后,高度H被設(shè)置為大于任一個(gè)外接矩形的高度。例如,預(yù)定常數(shù)A可被設(shè)置為1.2。
在另一例子中,可利用作為從字符行中的外接矩形的高度中選擇出的最大高度值的最大高度hs計(jì)算字符行的高度H。最大高度hs被乘以預(yù)定常數(shù)A,并且高度H的值被設(shè)置為相乘的高度(hs*A)。
圖6的步驟S43利用外接矩形的終點(diǎn)的Y坐標(biāo)值Ye來定義字符行的基線。在該例子中,CPU 1獲得字符行中所有外接矩形的值Ye,并僅提取低于所定義高度H的一半的值Ye?;谒崛〉闹礩e,利用任一種已知方法來繪出回歸線。該回歸線用作字符行的基線。
代替繪出回歸線,可利用任何其它方法確定基線。例如,可通過繪出以下直線而確定基線,該直線經(jīng)過在字符行的末尾安排的外接矩形的終點(diǎn)。然而,如果如圖8所示提取傾斜字符行30,則基線可被不正確地定義為如圖8的“e”所示。通過繪出回歸線可將基線“e”調(diào)整為基線“d”,其擬合字符行30中的外接矩形的終點(diǎn)。
返回參考圖6,步驟S44獲得字符行中的外接矩形的布局信息,并對(duì)該布局信息進(jìn)行歸一化(normalize)。
字符行中的外接矩形的布局信息根據(jù)字符行中的字符方向而不同。此外,該布局信息根據(jù)字符行中的字符中使用的語(yǔ)言類型而變化。在該例子中,可從外接矩形中提取一個(gè)或多個(gè)參數(shù)作為布局信息,包括從基線開始的高度Ys、高度h、和寬度w,如圖7所示。該布局信息稍后用于檢測(cè)字符行中的字符的方向。
圖9A和9B圖示了這樣的示例情況,用于解釋如何可將布局信息用于檢測(cè)字符行中的字符方向或字符行中的字符中所使用的語(yǔ)言類型。
如圖9A所示,英語(yǔ)字符行主要包括兩類字符大寫字符(即大寫字母),例如“W”;和小寫字符(即小寫字母),例如“h”。除了這些字符類型,可存在例如單引號(hào)“′”或句號(hào)“.”的標(biāo)點(diǎn)符號(hào)。
在該英語(yǔ)字符行中,從基線開始的外接矩形的高度Ys可被分類為兩組。大寫字符相對(duì)于基線具有相對(duì)大的高度Ys,如圖9A中的“a”所示。小寫字符相對(duì)于基線具有相對(duì)低的高度Ys,如圖9A中的“b”所示。類似地,外接矩形的高度h可被分類為兩組。在圖9A中,字符“W”、“h”、“y”、“t”、“f”、和“d”具有相對(duì)大的高度h,而字符“w”、“o”、“a”、和“s”具有相對(duì)小的高度h。英語(yǔ)字符的寬度基本相同,除了標(biāo)點(diǎn)符號(hào)之外。
如果圖9A的英語(yǔ)字符行中的字符從正立位置旋轉(zhuǎn),則可由上述參數(shù)表示的這些特性發(fā)生變化。通過分析外接矩形的參數(shù),可檢測(cè)字符行中的字符方向。
上述特性也可共用于例如法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、德語(yǔ)等的其它拉丁語(yǔ)言。
如圖9B所示,日語(yǔ)字符行主要包括三種類型字符由“d”指明的片假名字符、由“e”指明的平假名字符、和由“f”指明的日本漢字字符。除了這些字符類型之外,可存在例如“g”指明的引號(hào)或標(biāo)點(diǎn)符號(hào)的記號(hào)。
在日語(yǔ)字符行中,從基線開始的外接矩形的高度Ys可改變,特別是當(dāng)如日本漢字字符f所示為一個(gè)字符形成多于一個(gè)外接矩形時(shí)。類似地,外接矩形的高度h或?qū)挾葁可改變,特別是當(dāng)為一個(gè)字符形成多于一個(gè)外接矩形時(shí)。
如果圖9B中的日語(yǔ)字符行中的字符從正立位置旋轉(zhuǎn),則可由上述參數(shù)表示的這些特性發(fā)生變化。通過分析外接矩形的參數(shù),可檢測(cè)字符行中的字符方向。
上述特性也可共用于例如漢語(yǔ)和韓語(yǔ)的其他亞洲語(yǔ)言。
一旦為字符行中的每一外接矩形獲得布局信息,該布局信息就可被歸一化為在0和1之間的范圍內(nèi)。例如,相對(duì)于字符行的高度H而歸一化高度Ys以獲得歸一化的高度YsRate=Y(jié)s/H。類似地,相對(duì)于字符行的高度H而分別歸一化高度h和寬度w,以獲得歸一化的高度hRate=h/H和歸一化的寬度wRate=w/H。
返回參考圖6,步驟S45將字符行的歸一化的布局信息轉(zhuǎn)換為符號(hào)集。
從左到右安排字符行中的字符以形成字符串。由于每一字符可由一個(gè)或多個(gè)外接矩形表示,并且每一外接矩形可由布局信息表示,所以該字符行可由時(shí)間序列的布局信息表示。此外,利用任何一種公知量化方法,可將時(shí)間序列的布局信息量化為離散符號(hào)的集合。
例如,如果歸一化的高度YsRate被獲得為布局信息,則歸一化的高度YsRate可被量化為多個(gè)整數(shù)值,如等式INT(YsRate*(N-1))所述,其中N對(duì)應(yīng)于量化級(jí)別的數(shù)目。在該示例中,歸一化的高度YsRate被量化為15個(gè)級(jí)別。所獲得的每個(gè)值還分配有ID(標(biāo)識(shí))標(biāo)簽。以這種方式,如圖10A所示,可基于外接矩形的高度Ys將圖9A的英語(yǔ)字符行轉(zhuǎn)換為符號(hào)s021、s124、s032、s048、s012等的集合。類似地,如圖10B所示,可基于外接矩形的高度Ys將圖9B的日語(yǔ)字符行轉(zhuǎn)換為符號(hào)s243、s086、s045、s189、s211等的集合。
在另一示例中,如果歸一化的高度hRate被獲得為布局信息,則歸一化的高度hRate可被量化為多個(gè)整數(shù)值,如等式INT(hRate*(N-1))所述,其中N對(duì)應(yīng)于量化級(jí)別的數(shù)目。在該示例中,歸一化的高度hRate可被量化為8個(gè)級(jí)別。另外,所獲得的每個(gè)值還分配有ID標(biāo)簽。
在另一示例中,如果歸一化的寬度wRate被獲得為布局信息,則歸一化的寬度wRate可被量化為多個(gè)整數(shù)值,如等式INT(wRate*(N-1))所述,其中N對(duì)應(yīng)于量化級(jí)別的數(shù)目。在該示例中,歸一化的寬度wRate可被量化為2個(gè)級(jí)別。另外,所獲得的每個(gè)值還分配有ID標(biāo)簽。
可替換地,包括上述參數(shù)YsRate、hRate、和wRate的任何組合可用于量化。例如,字符行可由參數(shù)YsRate、hRate、和wRate所定義的三維矢量的時(shí)間序列表示。利用公知矢量量化方法中的任一種,三維矢量的時(shí)間序列可被量化為可以以一維表示的符號(hào)集合。在該示例中,歸一化的高度YsRate、歸一化的高度hRate、和歸一化的寬度wRate分別被量化為15個(gè)級(jí)別、8個(gè)級(jí)別、和2個(gè)級(jí)別。所量化的布局信息還分配有從240個(gè)ID級(jí)別中選出的ID級(jí)別。
此外,如圖11所示,所量化的布局信息可由8比特?cái)?shù)據(jù)(即1字節(jié)數(shù)據(jù))表示。如圖11所示,歸一化的高度YsRate作為4比特?cái)?shù)據(jù)而存儲(chǔ)在數(shù)據(jù)區(qū)As中。歸一化的高度hRate作為3比特?cái)?shù)據(jù)而存儲(chǔ)在數(shù)據(jù)區(qū)Ah中。歸一化的寬度wRate作為1比特?cái)?shù)據(jù)而存儲(chǔ)在數(shù)據(jù)區(qū)Aw中。
返回參考圖6,步驟S46利用NVRAM 5中存儲(chǔ)的至少一類訓(xùn)練數(shù)據(jù),而針對(duì)步驟S40中選擇的語(yǔ)言和步驟S41中選擇的方向來計(jì)算符號(hào)集合的發(fā)生概率。
在該示例中,NVRAM 5存儲(chǔ)3類n元組(n-gram)的模型作為訓(xùn)練數(shù)據(jù)。對(duì)從位于正立位置的亞洲參考文檔圖像提取的水平字符行中的字符訓(xùn)練第一類n元組模型。對(duì)從位于正立位置的亞洲參考文檔圖像提取的垂直字符行中的字符訓(xùn)練第二類n元組模型。對(duì)從拉丁參考文檔圖像提取的水平字符行中的字符訓(xùn)練第三類n元組模型。此外,在該示例中,使用三元組模型作為檢測(cè)字符方向的n元組模型。
首先,CPU 1獲得要用于檢測(cè)字符行中的字符方向的三元組模型之一。在該示例中,由于在步驟S40選擇亞洲語(yǔ)言,所以CPU 1獲得對(duì)亞洲參考文檔圖像進(jìn)行訓(xùn)練得到的第一和第二類三元組模型。此外,該示例假設(shè)已在前一步驟中提取了水平字符行。因此,首先選擇用于亞洲參考文檔圖像的水平字符行的三元組模型。
如以上參考圖1所述,三元組模型例如以圖12所示表格的形式存儲(chǔ)在NVRAM 5中。參考圖12,n元組模型可用于獲得符號(hào)Wi跟隨在符號(hào)Wi-2和Wi-1之后的發(fā)生概率P(W),其由等式P(W)=∏(i=1,n)P(Wi|Wi-2,Wi-1)表示。此外,在該示例中,通過將發(fā)生概率的對(duì)數(shù)乘以-1000,而將發(fā)生概率轉(zhuǎn)換為整數(shù)值,以利于計(jì)算。為字符行中的多組三個(gè)連續(xù)字符中的每一組獲得整數(shù)值。所獲得的整數(shù)值的和可用作得分(score),其指明具有選定方向的字符行與具有正立位置的n元組模型的水平字符行之間的相似度。更具體地,如果該得分為低,則正處理的字符行可象圖4A所示的“HL0”的示例情況一樣。以這種方式,可檢測(cè)字符行中的字符方向。
圖6的步驟S47確定是否已為所選語(yǔ)言的所有可能方向計(jì)算了概率(即得分)。如果已考慮了所有可能的方向(步驟S47中的“是”),則操作進(jìn)行到步驟S49。如果還沒有考慮所有可能的方向(步驟S47中的“否”),則操作進(jìn)行到步驟S48。
步驟S48選擇下次考慮的下一方向。
例如,如果為水平字符行中的字符首先考慮0度方向,則CPU 1使得正處理的字符行從正立位置旋轉(zhuǎn)90度。CPU 1然后選擇與從正立位置偏離0度方向的參考文檔圖像的垂直字符行對(duì)應(yīng)的三元組模型之一。利用所選三元組模型,CPU 1以與以上參考步驟S42到S46所述基本類似的方式計(jì)算得分,其指明具有所選方向(即90度方向)的字符行和具有正立位置的n元組模型的垂直字符行之間的相似度。更具體地,如果該得分為低,則正處理的字符行可能看起來象圖4D所示的“VL270”的示例情況一樣。該得分可以存儲(chǔ)在NVRAM 5中供進(jìn)一步使用。
類似地,在考慮90度的方向之后,CPU 1可使得具有90度方向的字符行旋轉(zhuǎn)90度??商鎿Q地,CPU 1可使得具有0度方向的字符行從正立位置旋轉(zhuǎn)180度。CPU 1然后選擇與具有0度方向的參考文檔圖像的水平字符行對(duì)應(yīng)的三元組模型。利用所選的三元組模型,CPU 1以與以上參考步驟S42到S46所述基本類似的方式計(jì)算得分,其指明具有所選方向(即180度方向)的字符行和具有正立位置的n元組模型的水平字符行之間的相似度。更具體地,如果該得分為低,則正處理的字符行可能看起來象圖4B所示的“HL180”的示例情況一樣。該得分可以存儲(chǔ)在NVRAM 5中供進(jìn)一步使用。
類似地,在考慮180度的方向之后,CPU 1可使得具有180度方向的字符行旋轉(zhuǎn)90度??商鎿Q地,CPU 1可使得具有0度方向的字符行從正立位置旋轉(zhuǎn)270度。CPU 1然后選擇與具有0度方向的參考文檔圖像的垂直字符行對(duì)應(yīng)的三元組模型。利用所選的三元組模型,CPU 1以與以上參考步驟S42到S46所述基本類似的方式計(jì)算得分,其指明具有所選方向(即270度方向)的字符行和具有正立位置的n元組模型的垂直字符行之間的相似度。更具體地,如果該得分為低,則正處理的字符行可象圖4C所示的“VL90”的示例情況一樣。該得分可以存儲(chǔ)在NVRAM 5中供進(jìn)一步使用。
在該示例中,CPU 1利用三角函數(shù)而改變字符行中的字符方向。例如,通過將原始坐標(biāo)(x,y)旋轉(zhuǎn)θ度而獲得的新坐標(biāo)(rx,ry)可通過以下函數(shù)獲得rx=cosθ*x+sinθ*y;和ry=-sinθ*x+cosθ*y。
然而,如果要考慮的字符方向被限制為90度的倍數(shù),例如0、90、180或270度,則cosθ和sinθ的值是固定的。由此,可進(jìn)一步簡(jiǎn)化上述三角函數(shù)。
返回參考圖6,步驟S49確定是否已為所有語(yǔ)言類型考慮了可能方向。如果已考慮了所有語(yǔ)言類型(步驟S49中的“是”),則操作結(jié)束。如果還沒有考慮所有語(yǔ)言類型(步驟S49中的“否”),則操作進(jìn)行到步驟S50。
步驟S50選擇下一語(yǔ)言類型。在該示例中,選擇拉丁語(yǔ)言用于進(jìn)一步處理。以這種方式,可為亞洲和拉丁語(yǔ)言類型中的每一種的預(yù)定數(shù)目的方向計(jì)算概率(即得分)。
CPU 1然后選擇具有最大發(fā)生概率值(即最小得分值)的方向之一。例如,參考圖3,由于方向“HL0”具有最低得分23098,所以CPU 1確定所提取的水平字符行的方向?yàn)?度。
圖6的操作可以以各種其它方式執(zhí)行。
在一個(gè)示例中,除了三元組模型之外的任何類型的n元組模型可用作訓(xùn)練數(shù)據(jù),例如二元組模型。
在另一示例中,CPU 1可在步驟S40之前利用布局信息首先檢測(cè)字符行的語(yǔ)言類型,并在步驟S40選擇所檢測(cè)的語(yǔ)言類型。例如,存在于外接矩形中的黑像素的數(shù)目,即外接矩形的黑像素的密度,可用于檢測(cè)語(yǔ)言類型。如圖9A和9B所示,黑像素的密度趨向于在英語(yǔ)字符行中相對(duì)低,而黑像素的密度趨向于在日語(yǔ)字符行中相對(duì)高。由此,黑像素的密度可促進(jìn)檢測(cè)字符行的語(yǔ)言類型的操作,該操作可在步驟S40之前執(zhí)行。一旦指定了語(yǔ)言類型,則僅需要為所檢測(cè)的語(yǔ)言類型計(jì)算發(fā)生概率或得分。因此,可不執(zhí)行步驟S40、S49和S50。
此外,可根據(jù)文檔圖像的內(nèi)容而預(yù)先設(shè)置語(yǔ)言類型。例如,如果文檔圖像僅包含日語(yǔ)字符,則可不執(zhí)行步驟S40、S49和S50中的任一個(gè)??山?jīng)由圖1的輸入裝置6從用戶預(yù)先獲得有關(guān)文檔圖像的內(nèi)容的信息,例如在文檔圖像中使用的語(yǔ)言。
在另一示例中,可根據(jù)布局信息或用戶偏好而考慮任意數(shù)目的方向。例如,可僅考慮0和180度的方向,以降低計(jì)算負(fù)荷。此外,可利用三角函數(shù)考慮除了包括0、90、180、和270度的上述方向之外的任何方向。
此外,如圖15所示,如果使用手動(dòng)掃描儀,則可能已從通過在掃描文檔圖像時(shí)交替掃描和副掃描(sub-scan)方向而產(chǎn)生的鏡像文檔圖像中提取了字符行。特別是,圖15所示字符行對(duì)應(yīng)于圖4A所示字符行的鏡像??赏ㄟ^對(duì)基于具有0度方向的參考文檔圖像產(chǎn)生的n元組模型應(yīng)用仿射變換,而獲得所提取的字符行與從鏡像文檔圖像提取的字符行對(duì)應(yīng)的概率。
在另一示例中,除了外接矩形的包括高度Ys、高度h、和寬度w的參數(shù)之外,或者可替換地,可從外接矩形中提取任何其它類型的參數(shù)作為布局信息。
例如,可提取指明與字符行中的其它外接矩形的關(guān)系的外接矩形的參數(shù),例如到相鄰?fù)饨泳匦蔚木嚯x。這是因?yàn)閷?duì)于每種語(yǔ)言類型來說,兩個(gè)相鄰字符的距離都是不同的。例如,如圖9A所示,英語(yǔ)字符行包括相對(duì)大數(shù)量的空白,每個(gè)空白對(duì)應(yīng)于外接矩形的標(biāo)準(zhǔn)尺寸。如圖9B所示,日語(yǔ)字符行包括相對(duì)小數(shù)量的空白。此外,如圖9A所示,撇號(hào)可在英語(yǔ)字符行的下部產(chǎn)生空白。由此,通過分析字符行中的外接矩形的距離,可檢測(cè)字符行的方向。
參考圖13,可提取相對(duì)于安排在外接矩形43的右邊的外接矩形45的距離d作為布局信息。可獲得該距離d,作為相鄰?fù)饨泳匦?5的起點(diǎn)的X坐標(biāo)X2s和外接矩形43的終點(diǎn)的X坐標(biāo)X1e之間的差值(X2s-X1e)。在該示例中,假設(shè)該距離d具有大于0的值。然而,在一些情況下,包括兩個(gè)相鄰?fù)饨泳匦窝厮椒较?即X軸)重疊的情況下,距離d可具有負(fù)值。
可相對(duì)于字符行的高度H而歸一化外接矩形的距離d,以獲得歸一化的距離dRate=d/H。歸一化的距離dRate可被量化為多個(gè)整數(shù)值,如等式INT((dRate*(N-1))+B)所述,其中N對(duì)應(yīng)于量化級(jí)別的數(shù)目并且B對(duì)應(yīng)于預(yù)定常數(shù)。所獲得的每個(gè)值還分配有ID標(biāo)簽。
如圖14所示,可基于外接矩形的距離d而將圖9A的英語(yǔ)字符行中包括的空白轉(zhuǎn)換為符號(hào)sSPC。在圖14中,字符41和42之間的距離a沒有被轉(zhuǎn)換為符號(hào),因?yàn)槠渚哂斜瘸?shù)B定義的預(yù)定值小的值。例如,如果該預(yù)定值被設(shè)置為0.25,則具有小于0.25的值的距離“a”沒有被轉(zhuǎn)換為符號(hào)。各自具有大于0.25的值的字符43和45之間的距離“b”以及字符46和48之間的距離“c”分別被轉(zhuǎn)換為符號(hào)sSPC。
此外,在該示例中,可根據(jù)距離d的值而向字符行中的空白分配多于一個(gè)符號(hào)sSPC。例如,如果距離d值具有負(fù)值,則可向具有距離d的空白分配與符號(hào)sSPC不同的符號(hào)。
此外,如上所述,距離d可與任意數(shù)目的上述參數(shù)相組合。例如,字符行可由由參數(shù)YsRate、hRate、wRate和dRate定義的四維矢量的時(shí)間序列表示。此外,由這些參數(shù)定義的布局信息可由圖11所示的8比特?cái)?shù)據(jù)表示。由于可為包括YsRate、hRate、和wRate的參數(shù)分配240個(gè)符號(hào),所以可為參數(shù)dRate分配16個(gè)符號(hào)。
在另一示例中,取代單獨(dú)利用發(fā)生概率,CPU 1可使用其他參數(shù),用于確定字符行中的字符方向。
例如,在一些情況下,發(fā)生概率的最大值可比發(fā)生概率的第二大值僅大很小量。為了提高準(zhǔn)確率,CPU 1可確定發(fā)生概率的最大值是否比發(fā)生概率的第二大值大預(yù)定量。如果最大值大預(yù)定量,則CPU 1將選擇具有發(fā)生概率的最大值的方向作為字符行中的字符方向。如果該最大值不足夠大,則CPU 1可確定該字符行中的字符方向是不可檢測(cè)的。
返回參考圖2,一旦對(duì)于在圖2和3的步驟S2中提取的所有字符行檢測(cè)了字符方向,則CPU 1分析該檢測(cè)結(jié)果(步驟S5),并基于該分析而確定文檔圖像的方向(步驟S6)。
例如,CPU 1可分析作為圖3所示表格在步驟S4獲得的檢測(cè)結(jié)果。圖3的表格以與包括VL0、VL90、VL180、VL270、HL0、HL90、HL180、和HL270的檢測(cè)方向?qū)?yīng)的方式列出文檔圖像中的多個(gè)字符行。
在一個(gè)示例中,CPU 1可選擇具有最大數(shù)目字符行的方向作為文檔圖像的方向。參考圖3,將選擇具有最大數(shù)68的方向HL0。
然而,在一些示例情況下,字符行的最大數(shù)可僅比字符行的第二大數(shù)大很小量。例如,如果對(duì)于每個(gè)字符提取出沿四個(gè)方向(上、下、左、和右)基本對(duì)稱的一個(gè)外接矩形,則不能正確檢測(cè)亞洲字符行的方向。在另一示例中,根據(jù)字符行中的兩個(gè)相鄰字符之間的距離,在步驟S2可能不正確地確定字符行的水平或垂直方向。
為了提高準(zhǔn)確率,CPU 1可確定字符行的最大數(shù)是否比字符行的第二大數(shù)大預(yù)定量。如果該最大數(shù)大預(yù)定量,則CPU 1將選擇具有最大數(shù)的方向作為文檔圖像的方向。如果該最大數(shù)不足夠大,則CPU 1可確定該文檔圖像的方向是不可檢測(cè)的。
在另一示例中,CPU 1可考慮每一字符行中包括的字符數(shù)目。通過選擇具有相對(duì)大數(shù)目字符的字符行,可提高準(zhǔn)確率。
在另一例子中,為了提高準(zhǔn)確率,可以不考慮具有小于預(yù)定長(zhǎng)度的長(zhǎng)度的字符行。
在另一例子中,為了提高準(zhǔn)確率,可考慮具有在文檔圖像中最頻繁發(fā)生的高度的字符行。
在確定了文檔圖像的方向之后,如果所確定的方向不對(duì)應(yīng)于正立位置,則CPU 1還可利用任一已知方法來校正文檔圖像的方向。具有正確方向的文檔圖像還可被存儲(chǔ)在HDD 3中,或由顯示裝置7顯示??商鎿Q地,具有正確方向的文檔圖像可利用打印機(jī)打印出,該打印機(jī)可合并在圖像處理設(shè)備100中或與其耦接。
根據(jù)以上教義的各種附加修改和變形都是另外可能的。所以,應(yīng)理解,在所附權(quán)利要求的范圍內(nèi),可以以除了這里特別描述的方式之外的方式實(shí)現(xiàn)該專利說明書中的公開。
例如,在該公開和所附權(quán)利要求的范圍內(nèi),不同示意性實(shí)施例的元件和/或特征可彼此組合和/或彼此替換。
此外,圖像處理設(shè)備100的結(jié)構(gòu)可不限于圖1所示結(jié)構(gòu),只要執(zhí)行參考圖16所述功能即可。
如圖16所示,圖像處理設(shè)備200包括字符行提取器201、方向變換器202、符號(hào)獲得器203、訓(xùn)練數(shù)據(jù)獲得器204、行方向檢測(cè)器205、和圖像方向確定器206。
字符行提取器201接收具有多個(gè)字符的輸入文檔圖像。字符行提取器201然后從部分或整個(gè)文檔圖像中提取字符行。在該示例中,字符行可以由各自基于字符行中的至少一個(gè)字符產(chǎn)生的多個(gè)外接矩形表示。由于基于多個(gè)外接矩形形成字符行,所以甚至可以從具有低分辨率的壓縮文檔圖像中提取字符行。
方向變換器202通過將字符行旋轉(zhuǎn)預(yù)定角度而使得字符行具有選定方向。所述預(yù)定角度可以是90的倍數(shù),例如0、90、180和270。此外,字符行的方向可利用三角函數(shù)進(jìn)行改變。此外,該選定方向可以是與從輸入文檔圖像的鏡像中提取的字符行對(duì)應(yīng)的反向方向。
該符號(hào)獲得器203將具有選定方向的字符行轉(zhuǎn)換為第一符號(hào)集。例如,可以從字符行中的外接矩形獲得布局信息。在該示例中,布局信息對(duì)應(yīng)于多個(gè)參數(shù)中的至少一個(gè)或任意組合,所述參數(shù)包括從字符行的基線開始的外接矩形的高度、外接矩形的高度、外接矩形的寬度、外接矩形相對(duì)于與該外接矩形相鄰安排的外接矩形之一的距離、外接矩形中包括的黑像素的數(shù)目等。該布局信息然后被轉(zhuǎn)換為第一符號(hào)集。
該訓(xùn)練數(shù)據(jù)獲得器204獲得基于具有正立位置的參考文檔圖像而產(chǎn)生的訓(xùn)練數(shù)據(jù)。在該示例中,字符行提取器201預(yù)先從一個(gè)或多個(gè)參考文檔圖像中提取兩類字符行一類對(duì)應(yīng)于水平字符行;而另一類對(duì)應(yīng)于垂直字符行。該字符行(即水平或垂直字符行)然后利用符號(hào)獲得器203而被轉(zhuǎn)換為第二符號(hào)集。第二符號(hào)集的統(tǒng)計(jì)趨勢(shì)(例如由n元組模型表示的發(fā)生概率)然后被計(jì)算并被存儲(chǔ)為訓(xùn)練數(shù)據(jù)。因此,訓(xùn)練數(shù)據(jù)至少包括對(duì)從參考文檔圖像提取的水平字符行進(jìn)行訓(xùn)練得到的第一類訓(xùn)練數(shù)據(jù)、和對(duì)從參考文檔圖像提取的垂直字符行進(jìn)行訓(xùn)練得到的第二類訓(xùn)練數(shù)據(jù)。
行方向檢測(cè)器205檢測(cè)具有選定方向的字符行和正立位置的訓(xùn)練數(shù)據(jù)之間的相似度,以產(chǎn)生檢測(cè)結(jié)果。
例如,行方向檢測(cè)器205利用正立位置的訓(xùn)練數(shù)據(jù)獲得具有選定方向的字符行的發(fā)生概率。該發(fā)生概率可被存儲(chǔ)為得分以供進(jìn)一步使用。此外,在該示例中,可根據(jù)正被處理的字符行而切換用于檢測(cè)的訓(xùn)練數(shù)據(jù)。例如,可根據(jù)字符行的選定方向而切換第一類和第二類訓(xùn)練數(shù)據(jù)。
圖像方向確定器206基于檢測(cè)結(jié)果確定輸入文檔圖像中的多個(gè)字符的方向,以產(chǎn)生確定結(jié)果。
除了上述元件之外,圖16的圖像處理設(shè)備200可包括圖像方向校正器,其基于確定結(jié)果而將輸入文檔圖像的方向校正為正立位置。可替換地,可以由方向變換器202調(diào)整輸入文檔圖像的方向。
此外,如圖17所示,可以由具有一個(gè)或多個(gè)設(shè)備的圖像處理系統(tǒng)執(zhí)行本發(fā)明的上述和其它功能或方法中的任一個(gè)。
參考圖17,方向檢測(cè)程序可以經(jīng)由網(wǎng)絡(luò)而上傳到圖像處理設(shè)備102和103中的任一個(gè)。利用從網(wǎng)絡(luò)下載的程序,圖像處理設(shè)備102和103中的任一個(gè)變得能夠以與上述基本類似的方式檢測(cè)文檔圖像中的字符方向。
此外,可與任何其它設(shè)備相組合地使用本發(fā)明的上述和其它圖像處理設(shè)備。
例如,如圖18所示,圖1的圖像處理設(shè)備100可合并在圖像形成設(shè)備300中。圖像形成設(shè)備300另外包括掃描儀301和打印機(jī)302。
在示例操作中,掃描儀301將要處理的文檔掃描為輸入文檔圖像。圖像處理設(shè)備100檢測(cè)輸入文檔圖像的方向,并將該方向校正為正立位置。打印機(jī)302將具有正確方向的輸入文檔圖像作為打印圖像打印。
此外,可利用由此編程的一個(gè)或多個(gè)傳統(tǒng)通用目的微處理器和/或信號(hào)處理器、通過傳統(tǒng)組件電路的合適網(wǎng)絡(luò)的互連而準(zhǔn)備的ASIC或通過其組合,而實(shí)現(xiàn)本發(fā)明的上述和其它方法中的任何一個(gè)。
本專利申請(qǐng)基于2005年3月17日向日本專利局提交的日本專利申請(qǐng)第2005-077879號(hào)并要求其優(yōu)先權(quán),通過引用而由此合并其全部?jī)?nèi)容。
權(quán)利要求
1.一種圖像處理設(shè)備,包括用于從具有多個(gè)字符的輸入文檔圖像中提取字符行的部件;用于通過將字符行旋轉(zhuǎn)預(yù)定角度而使得該字符行具有選定方向的部件;用于將具有選定方向的字符行轉(zhuǎn)換為第一字符集的部件;用于獲得基于具有正立位置的參考文檔圖像所產(chǎn)生的訓(xùn)練數(shù)據(jù)的部件;用于檢測(cè)具有選定方向的字符行和正立位置的訓(xùn)練數(shù)據(jù)之間的相似度以產(chǎn)生檢測(cè)結(jié)果的部件;和用于基于該檢測(cè)結(jié)果而確定輸入文檔圖像中的多個(gè)字符的方向的部件。
2.根據(jù)權(quán)利要求1的設(shè)備,其中利用三角函數(shù)而改變字符行的方向。
3.根據(jù)權(quán)利要求1的設(shè)備,其中該預(yù)定角度是90的倍數(shù)。
4.根據(jù)權(quán)利要求3的設(shè)備,其中該選定方向包括與從輸入文檔圖像的鏡像中提取的字符行對(duì)應(yīng)的反向方向。
5.根據(jù)權(quán)利要求1的設(shè)備,其中該訓(xùn)練數(shù)據(jù)包括對(duì)從參考文檔圖像提取的水平字符行進(jìn)行訓(xùn)練得到的第一類訓(xùn)練數(shù)據(jù);和對(duì)從參考文檔圖像提取的垂直字符行進(jìn)行訓(xùn)練得到的第二類訓(xùn)練數(shù)據(jù)。
6.根據(jù)權(quán)利要求1的設(shè)備,還包括用于輸入輸入文檔圖像以進(jìn)一步處理的部件。
7.根據(jù)權(quán)利要求6的設(shè)備,還包括用于將輸入文檔圖像的方向校正為正立位置的部件。
8.根據(jù)權(quán)利要求7的設(shè)備,還包括用于輸出具有正立位置的輸入文檔圖像的部件。
9.一種圖像處理方法,包括步驟從具有多個(gè)字符的輸入文檔圖像中提取字符行;首先選擇要考慮的方向,其中將該字符行旋轉(zhuǎn)預(yù)定角度以具有選定方向;從該字符行獲得布局信息;將該布局信息轉(zhuǎn)換為符號(hào)集;和計(jì)算該符號(hào)集的發(fā)生概率以產(chǎn)生檢測(cè)結(jié)果,其中對(duì)于字符行的預(yù)定數(shù)目的方向,重復(fù)首先選擇、獲得、轉(zhuǎn)換、和計(jì)算的步驟。
10.根據(jù)權(quán)利要求9的方法,其中利用從位于正立位置的參考文檔圖像產(chǎn)生的n元組模型,而計(jì)算該發(fā)生概率。
11.根據(jù)權(quán)利要求10的方法,其中該n元組模型包括基于從參考文檔圖像提取的水平字符行而產(chǎn)生的第一n元組模型;和基于從參考文檔圖像提取的垂直字符行而產(chǎn)生的第二n元組模型。
12.根據(jù)權(quán)利要求11的方法,其中根據(jù)具有選定方向的字符行,而切換第一n元組模型和第二n元組模型。
13.根據(jù)權(quán)利要求9的方法,還包括步驟其次選擇要考慮的語(yǔ)言類型,其中該選定方向是基于該語(yǔ)言類型而確定的。
14.根據(jù)權(quán)利要求13的方法,其中該語(yǔ)言類型是基于由轉(zhuǎn)換步驟獲得的布局信息而選擇的。
15.根據(jù)權(quán)利要求13的方法,其中對(duì)于預(yù)定數(shù)目的語(yǔ)言類型,重復(fù)首先選擇、其次選擇、獲得、轉(zhuǎn)換、和計(jì)算的步驟。
16.根據(jù)權(quán)利要求9的方法,還包括步驟基于檢測(cè)結(jié)果確定輸入文檔圖像的方向以產(chǎn)生確定結(jié)果。
17.根據(jù)權(quán)利要求16的方法,還包括步驟基于該確定結(jié)果而旋轉(zhuǎn)該輸入文檔圖像,以具有與正立位置對(duì)應(yīng)的方向。
18.一種圖像處理系統(tǒng),包括處理器;存儲(chǔ)裝置,配置為存儲(chǔ)多個(gè)指令,當(dāng)所述多個(gè)指令由處理器激活時(shí),其使得處理器執(zhí)行多個(gè)功能中的至少一個(gè),所述多個(gè)功能包括從輸入文檔圖像中提取字符行;將該字符行旋轉(zhuǎn)預(yù)定角度以具有選定方向;將具有選定方向的字符行轉(zhuǎn)換為第一符號(hào)集;獲得具有選定方向的字符行的得分,其中該得分指明具有選定方向的字符行和正立位置的訓(xùn)練數(shù)據(jù)之間的相似度;和基于該得分確定輸入文檔圖像的方向。
19.根據(jù)權(quán)利要求18的系統(tǒng),其中該存儲(chǔ)裝置還包括對(duì)具有正立位置的參考文檔圖像進(jìn)行訓(xùn)練得到的訓(xùn)練數(shù)據(jù)。
20.一種計(jì)算機(jī)程序,被采用為當(dāng)在處理器上運(yùn)行時(shí),使得該處理器執(zhí)行圖像處理方法,該圖像處理方法包括步驟從具有多個(gè)字符的輸入文檔圖像中提取字符行;從預(yù)定數(shù)目的方向中選擇要考慮的方向,其中將該字符行旋轉(zhuǎn)預(yù)定角度以具有選定方向;從該字符行獲得布局信息;將該布局信息轉(zhuǎn)換為符號(hào)集;和利用訓(xùn)練數(shù)據(jù)計(jì)算該符號(hào)集的發(fā)生概率,以產(chǎn)生檢測(cè)結(jié)果,其中對(duì)于預(yù)定數(shù)目的方向,重復(fù)選擇、獲得、轉(zhuǎn)換、和計(jì)算的步驟。
21.一種計(jì)算機(jī)可讀介質(zhì),存儲(chǔ)有計(jì)算機(jī)指令,用于執(zhí)行圖像處理操作,包括從具有多個(gè)字符的輸入文檔圖像中提取字符行;從預(yù)定數(shù)目的方向中選擇要考慮的方向,其中將該字符行旋轉(zhuǎn)預(yù)定角度以具有選定方向;從該字符行獲得布局信息;將該布局信息轉(zhuǎn)換為符號(hào)集;和利用訓(xùn)練數(shù)據(jù)計(jì)算該符號(hào)集的發(fā)生概率,以產(chǎn)生檢測(cè)結(jié)果,其中對(duì)于預(yù)定數(shù)目的方向,重復(fù)選擇、獲得、轉(zhuǎn)換、和計(jì)算的步驟。
全文摘要
公開了一種各自能夠檢測(cè)文檔圖像中的字符方向的設(shè)備、方法、系統(tǒng)、計(jì)算機(jī)程序和產(chǎn)品。該字符方向是基于檢測(cè)結(jié)果而確定的,該檢測(cè)結(jié)果指明具有選定方向的文檔圖像的字符行與正立位置的訓(xùn)練數(shù)據(jù)之間的相似度。
文檔編號(hào)G06K9/32GK1834992SQ200610067618
公開日2006年9月20日 申請(qǐng)日期2006年3月17日 優(yōu)先權(quán)日2005年3月17日
發(fā)明者大黑慶久 申請(qǐng)人:株式會(huì)社理光
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
龙口市| 玉龙| 南城县| 平安县| 沾益县| 克拉玛依市| 乐都县| 浏阳市| 双鸭山市| 缙云县| 略阳县| 连城县| 塘沽区| 惠来县| 遵义县| 长岛县| 昌图县| 牡丹江市| 连江县| 泗洪县| 宁海县| 布尔津县| 宜都市| 逊克县| 辽阳县| 澎湖县| 夏邑县| 桦川县| 永泰县| 九寨沟县| 岳西县| 裕民县| 乌兰浩特市| 合阳县| 兰坪| 郓城县| 太仆寺旗| 平泉县| 北碚区| 韶山市| 探索|