欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種處理掃描書數(shù)據(jù)的方法及裝置的制作方法

文檔序號:6443812閱讀:161來源:國知局
專利名稱:一種處理掃描書數(shù)據(jù)的方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字排版領(lǐng)域,尤其涉及一種處理掃描書數(shù)據(jù)的方法及裝置。
背景技術(shù)
所謂的“掃描書”是指利用掃描儀等設(shè)備對紙質(zhì)書籍進(jìn)行掃描而得到的電子書。掃描書中的每一頁對應(yīng)一張DPI (Dot Per Inch,分辨率)較高的掃描圖,由于掃描圖數(shù)據(jù)量較大,因此不利于數(shù)據(jù)的存儲和傳輸;并且,每一頁上的數(shù)據(jù)都很難得到有效的利用,例如文字拷貝、版面重排等應(yīng)用。為實(shí)現(xiàn)文字拷貝,目前提出了一種雙層頁面的技術(shù),即在掃描圖上附加一層透明層,利用OCR (Optical Character Recognition,光學(xué)字符識別)在該透明層的相應(yīng)位置上添加透明文字,以使得用戶在使用掃描書時可以在不影響掃描書原始頁面結(jié)構(gòu)的同時能夠?qū)⑼该鲗由系耐该魑淖挚截愊聛怼T摲N方式雖然能夠?qū)崿F(xiàn)掃描書的文字的拷貝,但是由于OCR本身的技術(shù)特點(diǎn),透明層上的文字難以用于諸如版面重排等高級應(yīng)用。因此,目前的掃描書仍然存在數(shù)據(jù)量較大、不能進(jìn)行版面重排的問題。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中不能實(shí)現(xiàn)對掃描書進(jìn)行版面重排的問題,本發(fā)明實(shí)施例提供一種處理掃描書數(shù)據(jù)的方法及裝置,為實(shí)現(xiàn)對掃描書的版面重排提供條件,從而實(shí)現(xiàn)對掃描書的版面重排。一種處理掃描書數(shù)據(jù)的方法,針對掃描書中的每頁文檔,包括:讀取所述頁面文檔的頁面圖像數(shù)據(jù);對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼;對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息;存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。較佳地,上述方法中,根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正,具體包括:根據(jù)所述文字行信息確定出所述每行文字對應(yīng)的行高;將所述每行文字中的所有文字的矩形框的高度調(diào)整為與所述每行文字對應(yīng)的行高相同。較佳地,確定出所述每行文字對應(yīng)的行高之后,還包括:根據(jù)所述每行文字的前一行文字和后一行文字的行高,對所述每行文字的行高進(jìn)行修正。
較佳地,根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正之后,還包括:針對所述頁面文檔,根據(jù)所述頁面文檔中的文字的像素?cái)?shù)據(jù),對所述頁面文檔中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;將所述頁面文檔中的每類文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。較佳地,根據(jù)相應(yīng)的文字行信息對所述掃描書中所有文字對應(yīng)的矩形框進(jìn)行修正之后,還包括:針對每本掃描書,根據(jù)所述每本掃描書的所有文字的像素?cái)?shù)據(jù),對所述每本掃描書中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;針對所述每本掃描書中的每個頁面文檔,將該頁面文檔中的文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。較佳地,對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,具體包括:采用光學(xué)字符識別OCR技術(shù)對所述頁面圖像數(shù)據(jù)進(jìn)行分割和識別操作。一種處理掃描書數(shù)據(jù)的裝置,包括:頁面圖像數(shù)據(jù)讀取單元,用于讀取掃描書中的每個頁面文檔的頁面圖像數(shù)據(jù);文字信息獲取單元,用于對所述頁面圖像數(shù)據(jù)讀取單元讀取得到的所述頁面文檔的頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼;文字修正單元,用于對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息;信息存儲單元,用于存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。較佳地,所述文字修正單元根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正,具體用于:根據(jù)所述文字行信息確定出所述每行文字對應(yīng)的行高;將所述每行文字中的所有文字的矩形框的高度調(diào)整為與所述每行文字對應(yīng)的行高相同。較佳地,所述裝置還包括:壓縮處理單元,用于在所述文字修正單元根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正之后,針對所述頁面文檔,根據(jù)所述頁面文檔中的文字的像素?cái)?shù)據(jù),對所述頁面文檔中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;將所述頁面文檔中的每類文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔;或者,壓縮處理單元,用于在所述文字修正單元根據(jù)相應(yīng)的文字行信息對所述掃描書中所有文字對應(yīng)的矩形框進(jìn)行修正之后,針對每本掃描書,根據(jù)所述每本掃描書的所有文字的像素?cái)?shù)據(jù),對所述每本掃描書中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;針對所述每本掃描書中的每個頁面文檔,將該頁面文檔中的文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。較佳地,所述文字信息獲取單元,具體用于:采用光學(xué)字符識別OCR技術(shù)對所述每頁文檔的頁面圖像數(shù)據(jù)進(jìn)行分割和識別操作,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼。本發(fā)明實(shí)施例中,一方面,讀取所述頁面文檔的頁面圖像數(shù)據(jù);對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼;對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息;存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。采用本發(fā)明技術(shù)方案,由于獲取并保存每個文字的確切圖像矩形框位置信息、文字行聚合信息以及字符編碼,因此為后續(xù)對該頁文檔進(jìn)行版面重排提供了必要信息,因此采用本發(fā)明技術(shù)方案能夠?qū)崿F(xiàn)對掃描書進(jìn)行版面重排。另一方面,本發(fā)明技術(shù)方案在對掃描書的每個頁面文檔的所有文字進(jìn)行修正處理之后,還將該頁面文檔中的文字進(jìn)行分類得到多類文字圖像,并為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及相應(yīng)編號;再將所述頁面文檔中的每類文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔;因此,采用本發(fā)明技術(shù)方案,對原來包含很多文字圖像的文檔中的文字圖像刪除并壓縮,從而在很大程度上降低掃描書的文件體積;并且由于存儲了文檔中各類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及相應(yīng)編號,因此可以還原出壓縮之前的文檔;在不影響文檔正常呈現(xiàn)的情況下還能夠?qū)?dāng)前不需要呈現(xiàn)的文檔設(shè)置為壓縮狀態(tài),從而在很大程度上降低了掃描書的數(shù)據(jù)量。


圖1為本發(fā)明實(shí)施例中處理掃描書數(shù)據(jù)的方法流程圖之一;圖2為本發(fā)明實(shí)施例中處理掃描書數(shù)據(jù)的方法流程圖之二 ;圖3為本發(fā)明實(shí)施例中處理掃描書數(shù)據(jù)的方法流程圖之三;圖4A、圖4B、圖4C、圖4D、圖4E和圖4F分別為對數(shù)字掃描書中的某一頁面圖像數(shù)據(jù)進(jìn)行具體處理時的各階段的示意圖;圖5為本發(fā)明實(shí)施例中處理掃描書數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖之一;圖6為本發(fā)明實(shí)施例中處理掃描書數(shù)據(jù)的裝置的結(jié)構(gòu)示意圖之二。
具體實(shí)施方式
針對現(xiàn)有技術(shù)中,不能實(shí)現(xiàn)對掃描書進(jìn)行版面重排的問題,本發(fā)明實(shí)施例提供一種處理掃描書數(shù)據(jù)的方法及裝置,為實(shí)現(xiàn)對掃描書進(jìn)行版面重排提供必要信息,從而實(shí)現(xiàn)對掃描書的版面重排。處理掃描書數(shù)據(jù)的方法,可包括:讀取所述頁面文檔的頁面圖像數(shù)據(jù);對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼;對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息;存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。采用本發(fā)明技術(shù)方案,由于獲取并保存每個文字的確切圖像矩形框位置信息、文字行聚合信息以及字符編碼,因此為后續(xù)對該頁文檔進(jìn)行版面重排提供了必要信息,因此采用本發(fā)明技術(shù)方案能夠?qū)崿F(xiàn)對掃描書進(jìn)行版面重排。下面結(jié)合說明書附圖對本發(fā)明技術(shù)方案進(jìn)行詳細(xì)的描述。參見圖1,為本發(fā)明實(shí)施例中處理掃描書數(shù)據(jù)的方法流程圖,該方法針對掃描書中的每個頁面文檔(即每一頁),包括:步驟101、讀取所述頁面文檔的頁面圖像數(shù)據(jù)。步驟102、對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼。步驟103、對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息。步驟104、存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。本發(fā)明實(shí)施例中,文字行信息包括:文字行在頁面文檔中的位置信息、大小、該行文字中各文字的排序信息、文字行高度等信息;文字聚合信息包括:文字的像素?cái)?shù)據(jù)、輪廓信息、切割準(zhǔn)確度、文字在相應(yīng)文字行中的位置等信息。較佳地,上述步驟103中,根據(jù)相應(yīng)的文字行信息對每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,具體可采用以下方式:根據(jù)所述文字行信息確定出所述每行文字對應(yīng)的行高;將所述每行文字中的所有文字的矩形框的高度調(diào)整為與所述每行文字對應(yīng)的行高相同。較佳地,為避免后續(xù)在對掃描書中的頁面文檔進(jìn)行版面重排時出現(xiàn)折行或拼接行而導(dǎo)致版面重排失敗的問題,本發(fā)明實(shí)施例中,上述步驟103中,確定出所述每行文字對應(yīng)的行高之后,還包括:根據(jù)所述每行文字的前一行文字和后一行文字的行高,對所述每行文字的行高進(jìn)行修正。較佳地,為降低掃描書的數(shù)據(jù)量,上述方法還可包括步驟105a或步驟105b,該步驟105a是在對掃描書中的每頁文檔的所有文字進(jìn)行修正處理之后對該頁文檔所進(jìn)行的操作,步驟105b是在對掃描書中的所有頁面文檔的文字進(jìn)行修正處理之后對該掃描書的所有頁面文檔所進(jìn)行的操作。當(dāng)對掃描書中的某頁文檔進(jìn)行操作時,如圖2所示:步驟105a、針對所述頁面文檔,根據(jù)所述頁面文檔中的文字的像素?cái)?shù)據(jù),對所述頁面文檔中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;將所述頁面文檔中的每類文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。當(dāng)對掃描書中的所有文檔進(jìn)行操作時,如圖3所示:步驟105b、針對每本掃描書,根據(jù)所述每本掃描書的所有文字的像素?cái)?shù)據(jù),對所述每本掃描書中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;針對所述每本掃描書中的每個頁面文檔,將該頁面文檔中的文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。較佳地,上述步驟105a和步驟105b中,將視覺相同的文字歸為一類,可采用以下方式實(shí)現(xiàn):根據(jù)各文字的像素?cái)?shù)據(jù)、形態(tài)、顏色等因素綜合確定視覺上無差異的文字。較佳地,上述方法流程中的步驟102中,對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,采用以下方式實(shí)現(xiàn):采用OCR技術(shù)對所述頁面圖像數(shù)據(jù)進(jìn)行分割和識別操作。為了更清楚、詳細(xì)的描述本發(fā)明技術(shù)方案,下面以一具體的實(shí)例進(jìn)行詳細(xì)的描述。假設(shè)掃描書中的某一頁面文檔的頁面圖像數(shù)據(jù)如圖4A所示。步驟1,采用OCR技術(shù)對上述文檔的頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到頁面圖像數(shù)據(jù)中的每個文字在相應(yīng)頁面上的矩形框位置和字符編碼(本發(fā)明實(shí)施例中字符編碼為Unicode碼),如圖4B以頁面圖像數(shù)據(jù)的第一行文字為例進(jìn)行分割、識別等操作。上述每個矩形框代表文檔中切割得到一個文字,而第一行上方的文字則是識別出的字符編碼所對應(yīng)的文字;由上可知,通過OCR技術(shù)分割出的各個文字的矩形框的尺寸大小不一,并且識別出的文字存在錯誤,如將橫線誤識別為漢字的大寫“一”,逗號“,”被誤識別為點(diǎn)號”等,這些誤識別的字符將可能不利于對文檔的版面重排。步驟2,采用文字行聚合技術(shù)對所述頁面文檔中的每行文字進(jìn)行處理,得到相應(yīng)的文字行信息,并根據(jù)文字行信息修對該行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到所述每個文字的確切圖像矩形框位置信息和文字行聚合信息;圖4C中的粗體橫線部分為第一行文字對應(yīng)的文字行。根據(jù)文字行對第一行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正后,如圖4D所示。步驟3、利用聚類技術(shù)對該文檔的文字的像素?cái)?shù)據(jù)進(jìn)行聚類操作,如將上述頁面數(shù)據(jù)中的字母“O”歸為同一類;第一個字母“g”右上鉤較平,第二字母“g”的右上較為傾斜,差異較大,因此第一個字母“g”和第二個字母“g”歸到不同類中,依此,得到多類文字圖像,并對該多類文字圖像分配相應(yīng)的編號。對于一類文字圖像來說,通過計(jì)算得到一個合適的文字圖像作為該類文字圖像的文字圖像代表。在本實(shí)施例中,由于對于歸屬于同一類的多個文字圖像來說,難以從視覺上察覺它們之間的差異,因此,可以將該類文字圖像中的任意一個文字圖像選取為該類文字圖像的文字圖像代表;或者,還可以通過其他方式選取文字圖像代表,如:計(jì)算該類文字圖像的像素平均值,將像素等于像素平均值的文字圖像確定為文字圖像代表;或者,根據(jù)一個偏序函數(shù)對該類文字圖像中的多個文字圖像進(jìn)行排序,將位于中間的文字圖像確定為文字圖像代表。針對本實(shí)例中的第一行文字可以得到以下幾類文字圖像及其對應(yīng)的編號,如圖4E所示。
步驟3、存儲每類文字圖像中的文字圖像的確切圖像矩形框位置信息、字符編碼和編號,如下表I所示:
權(quán)利要求
1.一種處理掃描書數(shù)據(jù)的方法,其特征在于,針對掃描書中的每個頁面文檔,包括: 讀取所述頁面文檔的頁面圖像數(shù)據(jù); 對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼; 對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息; 存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正,具體包括: 根據(jù)所述文字行信息確定出所述每行文字對應(yīng)的行高; 將所述每行文字中的所有文字的矩形框的高度調(diào)整為與所述每行文字對應(yīng)的行高相同。
3.如權(quán)利要求2所述的方法,其特征在于,確定出所述每行文字對應(yīng)的行高之后,還包括: 根據(jù)所述每行文字的前一行文字和后一行文字的行高,對所述每行文字的行高進(jìn)行修正。
4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正之后,還包括: 針對所述頁面文檔,根據(jù)所述頁面文檔中的文字的像素?cái)?shù)據(jù),對所述頁面文檔中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像; 為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號; 將所述頁面文檔中的每類文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。
5.如權(quán)利要求1所述的方法,其特征在于,根據(jù)相應(yīng)的文字行信息對所述掃描書中所有文字對應(yīng)的矩形框進(jìn)行修正之后,還包括: 針對每本掃描書,根據(jù)所述每本掃描書的所有文字的像素?cái)?shù)據(jù),對所述每本掃描書中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像; 為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號; 針對所述每本掃描書中的每個頁面文檔,將該頁面文檔中的文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。
6.如權(quán)利要求1所述的方法,其特征在于,對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,具體包括: 采用光學(xué)字符識別OCR技術(shù)對所述頁面圖像數(shù)據(jù)進(jìn)行分割和識別操作。
7.—種處理掃描書數(shù)據(jù)的裝置,其特征在于,包括: 頁面圖像數(shù)據(jù)讀取單元,用于讀取掃描書中的每個頁面文檔的頁面圖像數(shù)據(jù);文字信息獲取單元,用于對所述頁面圖像數(shù)據(jù)讀取單元讀取得到的所述頁面文檔的頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼; 文字修正單元,用于對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息; 信息存儲單元,用于存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。
8.如權(quán)利要求7所述的裝置,其特征在于,所述文字修正單元根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正,具體用于: 根據(jù)所述文字 行信息確定出所述每行文字對應(yīng)的行高; 將所述每行文字中的所有文字的矩形框的高度調(diào)整為與所述每行文字對應(yīng)的行高相同。
9.如權(quán)利要求7所述的裝置,其特征在于,還包括: 壓縮處理單元,用于在所述文字修正單元根據(jù)相應(yīng)的文字行信息對所述每行文字中的每個文字的矩形框進(jìn)行修正之后,針對所述頁面文檔,根據(jù)所述頁面文檔中的文字的像素?cái)?shù)據(jù),對所述頁面文檔中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;將所述頁面文檔中的每類文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔;或者, 壓縮處理單元,用于在所述文字修正單元根據(jù)相應(yīng)的文字行信息對所述掃描書中所有文字對應(yīng)的矩形框進(jìn)行修正之后,針對每本掃描書,根據(jù)所述每本掃描書的所有文字的像素?cái)?shù)據(jù),對所述每本掃描書中的所有文字進(jìn)行分類,將視覺相同的文字歸為一類,從而得到多類文字圖像;為每類文字圖像分配相應(yīng)的編號,并存儲該類文字圖像中每個文字圖像的確切圖像矩形框位置信息、字符編碼及對應(yīng)的編號;針對所述每本掃描書中的每個頁面文檔,將該頁面文檔中的文字圖像刪除,并對刪除后的頁面文檔進(jìn)行壓縮得到壓縮文檔,并存儲所述壓縮文檔。
10.如權(quán)利要求7所述的裝置,其特征在于,所述文字信息獲取單元,具體用于: 采用光學(xué)字符識別OCR技術(shù)對所述頁面文檔的頁面圖像數(shù)據(jù)進(jìn)行分割和識別操作,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼。
全文摘要
本發(fā)明公開了一種處理掃描書數(shù)據(jù)的方法及裝置,為實(shí)現(xiàn)對掃描書的頁面文檔進(jìn)行版面重排提供必要條件,從而能夠?qū)崿F(xiàn)對掃描書進(jìn)行版面重排。方法包括讀取所述頁面文檔的頁面圖像數(shù)據(jù);對所述頁面圖像數(shù)據(jù)進(jìn)行分割、識別,得到所述頁面文檔中的每個文字在相應(yīng)頁面文檔上的矩形框位置和字符編碼;對所述頁面文檔中的每行文字進(jìn)行文字行聚合處理,得到所述每行文字的文字行信息,并根據(jù)所述文字行信息對所述每行文字中的每個文字對應(yīng)的矩形框進(jìn)行修正,得到每個文字的確切圖像矩形框位置信息和文字行聚合信息;存儲所述頁面文檔中每個文字對應(yīng)的確切圖像矩形框位置信息、文字行聚合信息和字符編碼。
文檔編號G06K9/20GK103186911SQ20111044822
公開日2013年7月3日 申請日期2011年12月28日 優(yōu)先權(quán)日2011年12月28日
發(fā)明者仇睿恒, 李赟 申請人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
开鲁县| 台东市| 闻喜县| 兰州市| 广饶县| 涿鹿县| 泗阳县| 诸城市| 灵丘县| 留坝县| 苍梧县| 施秉县| 龙泉市| 灵丘县| 边坝县| 涟水县| 华蓥市| 柏乡县| 滦南县| 仙居县| 阿拉尔市| 睢宁县| 株洲县| 聂荣县| 武陟县| 南京市| 讷河市| 民和| 彭州市| 巢湖市| 苍山县| 博客| 湖南省| 华阴市| 霍州市| 桦川县| 伽师县| 工布江达县| 神农架林区| 襄城县| 馆陶县|