專(zhuān)利名稱(chēng):文檔掃描儀的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及文檔掃描,更具體地說(shuō),涉及一種將文檔圖像轉(zhuǎn)換成包括像素的圖像數(shù)據(jù)的方法,每個(gè)像素具有表示圖像元素的亮度和/或顏色的值,其中,所述文檔圖像包括諸如字詞或成組字詞的文本布局元素。本發(fā)明也涉及適用于執(zhí)行所述方法的掃描設(shè)備和用于在處理器中執(zhí)行時(shí)執(zhí)行所述方法的計(jì)算機(jī)程序產(chǎn)品。
圖像數(shù)據(jù)的掃描文件由掃描儀生成時(shí),文件名稱(chēng)必須定義為使該文件可以被檢索。通常,在掃描儀是連接到網(wǎng)絡(luò)的獨(dú)立設(shè)備的大型系統(tǒng)中,掃描儀自動(dòng)為掃描文件生成文件名。文件名從設(shè)備可獲得的變量合成,如掃描id、日期和時(shí)間,但系統(tǒng)無(wú)法生成實(shí)質(zhì)上與掃描文檔相關(guān)的文件名。此外,獨(dú)立掃描儀常常不具有完整的鍵盤(pán),因而操作員不可能在掃描過(guò)程中在掃描儀位置鍵入有意義的文件名。因此,以后可能難以識(shí)別掃描文件,特別是在掃描了大量文檔的情況下。
本發(fā)明的目的是提供一種為掃描文件定義有意義文件名的簡(jiǎn)單方式。對(duì)于能夠生成包括掃描文件(例如,作為附件)的電子郵件消息的高級(jí)掃描儀設(shè)備,本發(fā)明還有一個(gè)目的是提供一種同樣簡(jiǎn)單的方式,在電子郵件消息的“主題”字段中定義文件標(biāo)志符,以便消息到達(dá)時(shí)可輕松地識(shí)別出在傳送掃描文件。
此目的由如權(quán)利要求1所述的方法實(shí)現(xiàn)。根據(jù)本發(fā)明,掃描的圖像在顯示屏幕上向操作員顯示,并且操作員能夠根據(jù)其意愿指向可更好地描述文檔內(nèi)容的字詞或字詞組合(通常稱(chēng)為文本布局元素),例如,標(biāo)題、作者、文檔類(lèi)型、關(guān)鍵字、內(nèi)容(簡(jiǎn)短)摘要等。
根據(jù)操作員的選擇,系統(tǒng)從掃描圖像提取選定的圖像信息,并通過(guò)OCR將它轉(zhuǎn)換為編碼的文本。提取的文本隨后由系統(tǒng)自動(dòng)轉(zhuǎn)換成文件標(biāo)志符,如文件名或包含掃描文件的電子郵件消息的主題名。
要用作文件標(biāo)志符的布局元素是已從文檔圖像提取的元素,由于它源于文檔的圖像數(shù)據(jù),并且專(zhuān)門(mén)用作例如有意義的文件名等有關(guān)文檔的信息,因此也將稱(chēng)為“元數(shù)據(jù)”。
文檔為數(shù)字編碼形式時(shí),如MS WORDTM文檔,元數(shù)據(jù)可由掃描文檔并提取預(yù)編程關(guān)鍵字的專(zhuān)用程序自動(dòng)識(shí)別。然而,可作為圖像、即黑色(有色)和白色像素組合來(lái)提供的文檔必須先由OCR轉(zhuǎn)換成數(shù)字編碼形式,這是需要大量計(jì)算能力但不能始終適當(dāng)?shù)毓ぷ鞯倪^(guò)程。此外,索引程序處理文檔需要相當(dāng)長(zhǎng)的時(shí)間。
自動(dòng)解釋文檔圖像對(duì)于嚴(yán)格結(jié)構(gòu)化的文檔、如專(zhuān)利文檔是已知的。此類(lèi)文檔具有嚴(yán)格規(guī)定的形式,并且計(jì)算機(jī)可編程為在文檔圖像中查找和處理特殊的預(yù)定信息項(xiàng)目。然而,自由形式文檔無(wú)法以此方式處理。
人類(lèi)操作員具有的優(yōu)點(diǎn)是他們可以輕松地檢查文檔圖像并查找其中的相關(guān)項(xiàng)目。因此,讓操作員在文檔圖像中選擇元數(shù)據(jù)是有利的,而元數(shù)據(jù)隨后由計(jì)算機(jī)系統(tǒng)自動(dòng)提取并作為標(biāo)志符與掃描文件相關(guān)聯(lián)。
提取元數(shù)據(jù)的方法本身(即,不是用于組成相關(guān)聯(lián)掃描文件的文件名,而是用于編輯目的)在先有技術(shù)中已為人知。
從EP 1136938可了解一種從文檔提取元數(shù)據(jù)的方法。使用連接到計(jì)算機(jī)的掃描儀,先掃描文檔以生成像素圖像。掃描的文檔具有結(jié)構(gòu)化布局,在該布局中,表示元數(shù)據(jù)的文本串位于框中,而這些框用畫(huà)出的線(xiàn)條圍住了文本串。具體而言,技術(shù)繪圖具有包含諸如標(biāo)題、日期、版本等元數(shù)據(jù)的此類(lèi)框。用戶(hù)操作計(jì)算機(jī)的定點(diǎn)構(gòu)件指定文檔的至少一個(gè)框中的任意點(diǎn)。在用戶(hù)指定點(diǎn)后,通過(guò)檢測(cè)周?chē)木€(xiàn)條識(shí)別包含該點(diǎn)的框。隨后,所述框中的字符由光學(xué)字符識(shí)別(OCR)識(shí)別以便檢索元數(shù)據(jù),并在連接到計(jì)算機(jī)的數(shù)據(jù)庫(kù)中存儲(chǔ)它,從而使以此方式掃描的文檔能夠被編索引。因此,采取元數(shù)據(jù)的加框結(jié)構(gòu)用于識(shí)別元數(shù)據(jù)。在EP 1 256 900和NEWMAN W等人的“Camworks一種從紙件源文檔進(jìn)行有效捕捉的基于視頻的工具”(Multimedia Computing and Systems,1999,IEEE InternationalConference on Florence,Italy,7-11 June 1999,Los Alamitos,CA,USA,IEEE Comp.Soc.,pp.647-653)中,公開(kāi)了為編輯或索引目的而從掃描的文檔圖像提取文本的其它方法。
根據(jù)操作員指示掃描圖像內(nèi)選擇點(diǎn),自動(dòng)確定提取區(qū)域可以幾種方式完成。
此類(lèi)過(guò)程的第一個(gè)示例是基于圖像(或至少其一部分)的初步自動(dòng)分割成諸如字詞或行等布局元素的結(jié)果。將文檔圖像分割成布局元素的方法本身為人所知,例如,在申請(qǐng)人的專(zhuān)利US 5856877中公開(kāi)的方法或在上面引用的Newman等人中公開(kāi)的方法。分割結(jié)果存儲(chǔ)在設(shè)備的存儲(chǔ)器中,而不是向操作員顯示,以免使其迷惑。
經(jīng)由諸如觸摸屏或鼠標(biāo)等用戶(hù)接口,用戶(hù)在文檔圖像的顯示部分中指明要用作文件標(biāo)志符的字詞。作為響應(yīng),所指明的布局元素被自動(dòng)選定,并且完全覆蓋布局元素的對(duì)應(yīng)建議提取區(qū)域得以確定和顯示。
操作員可調(diào)整最初自動(dòng)確定的提取區(qū)域,例如,通過(guò)指明又一元數(shù)據(jù)元素中的至少又一選擇點(diǎn)要包括在提取區(qū)域中,這種情況下,系統(tǒng)自動(dòng)增大提取區(qū)域以另外包括所述又一元數(shù)據(jù)元素及其間的任何元素。
提取區(qū)域確定過(guò)程的第二示例開(kāi)始是基于具有前景屬性的像素值,自動(dòng)將像素分類(lèi)為前景像素,然后基于以預(yù)定連接距離連接到選擇點(diǎn)所示前景像素的前景像素來(lái)確定提取區(qū)域。具體而言,此方法包括包括選擇點(diǎn)所示的前景像素;逐漸包括距連接區(qū)中包括的其它前景像素在連接距離以?xún)?nèi)的其它前景像素;以及將提取區(qū)域設(shè)為完全包含連接區(qū)的區(qū)域。
操作員同樣可調(diào)整自動(dòng)確定的提取區(qū)域,例如,指明又一選擇點(diǎn),或者執(zhí)行諸如單擊鼠標(biāo)按鈕或操作鼠標(biāo)滾輪等補(bǔ)充用戶(hù)控制事件。在后一情況下,連接距離可以被增大,例如,每次單擊增大一個(gè)像素。
雖然上面詳述了兩種提取方法,但是本發(fā)明并不限于使用這些方法。產(chǎn)生類(lèi)似結(jié)果的其它方法也可在本發(fā)明中使用并可產(chǎn)生滿(mǎn)意的結(jié)果。
在此說(shuō)明中,文檔圖像可包括多個(gè)物理文檔頁(yè)面。一般來(lái)說(shuō),顯示器上所示的部分文檔是第一頁(yè)面圖像,因?yàn)橥ǔD鞘前瑢?duì)于元數(shù)據(jù)提取相關(guān)的最多信息的頁(yè)面。然而,本發(fā)明者考慮了提供具有瀏覽功能的設(shè)備以導(dǎo)航通過(guò)整個(gè)文檔圖像,即,通過(guò)多個(gè)物理文檔頁(yè)面。
其它權(quán)利要求中提供了根據(jù)本發(fā)明的設(shè)備的其它優(yōu)選實(shí)施例。
通過(guò)參照下述說(shuō)明中以示例方式描述的實(shí)施例并參照附圖,本發(fā)明的這些和其它方面將變得明白并得以闡明,其中
圖1示出掃描的文檔和元數(shù)據(jù)提取區(qū)域;圖2示出用于處理文檔和提取元數(shù)據(jù)的設(shè)備;圖3示出根據(jù)第一示范方法提取元數(shù)據(jù)的過(guò)程的流程圖;圖4a示出分割結(jié)果;圖4b示出分割結(jié)果的詳情;圖5示出根據(jù)第二示范方法提取元數(shù)據(jù)的過(guò)程的流程圖;圖6a、6b和6c示出從選擇點(diǎn)增大區(qū)域;圖7示出調(diào)整元數(shù)據(jù)提取區(qū)域;以及圖8示出調(diào)整非矩形提取區(qū)域的形狀。這些圖是示意圖,未按比例繪制。在圖中,與已經(jīng)描述的元素對(duì)應(yīng)的元素具有相同的標(biāo)號(hào)。
圖1示出掃描的文檔和元數(shù)據(jù)提取區(qū)域。文檔13已掃描以生成像素圖像。像素(圖像元素的簡(jiǎn)稱(chēng))是文檔的數(shù)字表示,并且具有表示圖像元素的亮度和/或顏色的值。部分圖像在顯示器12上顯示(示意地畫(huà)出),以便用戶(hù)交互式確定要用于生成例如文件名等文件標(biāo)志符的元數(shù)據(jù)。文檔的圖像文件可包含文檔的每個(gè)頁(yè)面的分開(kāi)的圖像。通常為第一頁(yè)的標(biāo)題頁(yè)包含有關(guān)文檔內(nèi)容的相關(guān)信息,如標(biāo)題、文檔類(lèi)型、作者、出版日期等。此類(lèi)信息在此說(shuō)明中稱(chēng)為元數(shù)據(jù)。用戶(hù)可選擇操作顯示器以顯示圖像或圖像文件的相關(guān)部分,例如通過(guò)滾動(dòng)?;蛘?,顯示器可顯示單頁(yè)文檔的完整頁(yè)面。
元數(shù)據(jù)元素的一個(gè)示例是文檔編號(hào)11,這是文檔類(lèi)型的一部分。在應(yīng)用限制內(nèi),元數(shù)據(jù)元素可以是單個(gè)字詞,如文檔編號(hào)11,也可以是多個(gè)字詞,或者甚至可以是一個(gè)或多個(gè)文本行。例如,圖1所示的摘要包含大約6行文本。
在顯示器12上,提取區(qū)域14顯示為圍繞包括文檔編號(hào)11的文檔類(lèi)型。提取區(qū)域是查找元數(shù)據(jù)并識(shí)別元數(shù)據(jù)的處理單元要使用的圖像區(qū)域。在本發(fā)明的上下文中,元數(shù)據(jù)是文本,并且提取區(qū)域被分析以便識(shí)別字符或字詞,這通常稱(chēng)為光學(xué)字符識(shí)別(OCR)。
為構(gòu)建提取區(qū)域,用戶(hù)在其認(rèn)為相關(guān)的元數(shù)據(jù)元素中指明選擇點(diǎn),例如,文檔編號(hào)11。指明選擇點(diǎn)是選擇命令的第一步。要指明選擇點(diǎn),必須在諸如觸摸屏等敏感屏幕上容納該顯示。用戶(hù)可使用手指或者使用專(zhuān)用定點(diǎn)棒指明選擇點(diǎn)?;蛘?,顯示器可顯示由用戶(hù)通過(guò)例如鼠標(biāo)、軌跡球等等控制的光標(biāo)。隨后,通過(guò)定位光標(biāo)并激活按鈕、諸如鼠標(biāo)點(diǎn)擊,可指示選擇點(diǎn)。
在用戶(hù)指示了選擇點(diǎn)后,提取區(qū)域由包含選擇點(diǎn)或與選擇點(diǎn)最近的布局元素(字詞)確定。許多方式可找到布局元素,并且下面詳細(xì)描述了其中的兩種方式。然而,本發(fā)明并不限于本文所述確定由操作員所指示的布局元素的方法。
如果選擇點(diǎn)的位置在背景區(qū)域,則系統(tǒng)可判定用戶(hù)不想選擇布局元素。在一個(gè)實(shí)施例中,如果到最近布局元素的距離在預(yù)定限制內(nèi),系統(tǒng)可判定用戶(hù)要選擇最近的布局元素。如果選擇點(diǎn)在遠(yuǎn)離前景點(diǎn)的背景像素上,則系統(tǒng)可將此選擇視為取消當(dāng)前選定元數(shù)據(jù)提取區(qū)域的命令。
基于選擇點(diǎn)所確定的布局元素(字詞),提取區(qū)域在布局元素周?chē)?huà)出并向用戶(hù)顯示,例如,框或彩色區(qū)域。用戶(hù)可確認(rèn)建議的區(qū)域,或者可如下所述改變建議的提取區(qū)域。最后,通過(guò)處理提取區(qū)域中的像素而提取元數(shù)據(jù)。掃描文件的文件名隨后可以提取的一個(gè)或多個(gè)字詞的形式或以提取的一個(gè)或多個(gè)字詞和自動(dòng)添加的系統(tǒng)信息、如日期和/或時(shí)間等的組合的形式自動(dòng)生成。
圖2示出根據(jù)本發(fā)明用于處理文檔和提取元數(shù)據(jù)的設(shè)備。設(shè)備具有用于輸入數(shù)字圖像的輸入單元21,包括用于從物理文檔掃描圖像的掃描單元,如電光掃描儀。輸入單元21連接到與存儲(chǔ)單元22協(xié)作的處理單元24。存儲(chǔ)單元可包括用于在象磁帶或光盤(pán)等記錄載體上存儲(chǔ)圖像和/或元數(shù)據(jù)的記錄單元。處理單元可包括通用計(jì)算機(jī)中央處理器(CPU)和支持電路,使用用于執(zhí)行如上所述元數(shù)據(jù)提取的軟件進(jìn)行操作。處理單元連接到至少配備定點(diǎn)單元以指示圖像上選擇點(diǎn)的用戶(hù)接口25。用戶(hù)接口可包括諸如鍵盤(pán)、鼠標(biāo)設(shè)備或操作員按鈕等控制工具。處理單元連接到顯示單元23。顯示單元包括如上面參照?qǐng)D1所述,用于顯示圖像和提取區(qū)域的顯示屏。特別是,顯示單元和定點(diǎn)單元可由觸摸屏實(shí)現(xiàn),它對(duì)用戶(hù)使用手指指向顯示圖像中的元數(shù)據(jù)元素以指示選擇點(diǎn)敏感。處理單元可連接到打印單元,用以在紙張上輸出處理的圖像或元數(shù)據(jù)。由輸入單元21生成的掃描文件可基于提取的元數(shù)據(jù)被給予文件名,并例如可存儲(chǔ)在數(shù)據(jù)庫(kù)中,例如,在存儲(chǔ)單元22或在分開(kāi)的計(jì)算機(jī)系統(tǒng)中。
要注意,設(shè)備可使用標(biāo)準(zhǔn)計(jì)算機(jī)硬件組件和用于執(zhí)行如下所述元數(shù)據(jù)提取過(guò)程的計(jì)算機(jī)程序來(lái)構(gòu)建?;蛘?,設(shè)備可以是包含掃描單元、處理單元和容許元數(shù)據(jù)提取的顯示器的專(zhuān)用硬件設(shè)備。此外,掃描過(guò)程可與元數(shù)據(jù)提取的交互過(guò)程分離,例如,在郵件接收室的掃描單元可經(jīng)LAN連接到具有顯示器和操作員的編索引位置。
圖3示出根據(jù)第一示范方法提取元數(shù)據(jù)的過(guò)程的流程圖。此方法先基于像素值將圖像分成多個(gè)布局元素,如字詞和行,并在布局元素級(jí)處理提取區(qū)域的完全確定。
根據(jù)此方法,基于具有前景屬性的值,通常為表示白色背景文檔上黑色的值,將像素分類(lèi)為前景像素。在彩色圖像中,前景屬性可以是表示特定顏色的值,例如,從選擇點(diǎn)所指示的像素的顏色交互確定的顏色。
將圖像分割為布局元素是圖像處理中本身已知的步驟。例如,在US 5856877中,描述了一種用于分割圖像的方法。分割可在向用戶(hù)顯示圖像之前執(zhí)行,或者可在系統(tǒng)中具有處理能力時(shí)立即啟動(dòng),例如,作為向用戶(hù)顯示文檔期間的后臺(tái)進(jìn)程。分割也可響應(yīng)用戶(hù)對(duì)選擇點(diǎn)的指示來(lái)執(zhí)行,然后只局限于與所指示點(diǎn)相對(duì)較近的區(qū)域。注意,分割結(jié)果不向用戶(hù)顯示。因此,分割無(wú)需完成,并且用戶(hù)在掃描文檔后將體驗(yàn)系統(tǒng)提供的快速文檔顯示。此外,在整個(gè)顯示的文檔圖像上,用戶(hù)不會(huì)受到框或其它劃界元素的干擾。
在一個(gè)實(shí)施例中,分割過(guò)程集中在選擇點(diǎn)周?chē)膮^(qū)域,例如,只在向用戶(hù)實(shí)際顯示的圖像區(qū)域上執(zhí)行。注意,用戶(hù)可先通過(guò)滾動(dòng)文檔而選擇感興趣的區(qū)域?;蛘?,可在用戶(hù)指示選擇點(diǎn)后選擇性執(zhí)行分割。
轉(zhuǎn)到圖3,在第一步驟“準(zhǔn)備輸入圖像S31”中,從掃描設(shè)備接收作為像素值的數(shù)字文件的圖像。該步驟可以還包括基于預(yù)定知識(shí)或檢測(cè)到的圖像屬性進(jìn)行的圖像處理,諸如增強(qiáng)對(duì)比度,從圖像的全局統(tǒng)計(jì)數(shù)據(jù)確定前景和或背景屬性,旋轉(zhuǎn)圖像等。另外,該步驟可包括將圖像分割為布局元素。然而,注意,分割無(wú)需在圖像顯示前完成,而是可作為后臺(tái)過(guò)程繼續(xù),直至在步驟“查找布局元素S34”中需要布局元素?;蛘?,可作為分開(kāi)的圖像處理系統(tǒng)中的準(zhǔn)備步驟確定分割結(jié)果。
在下一步驟“顯示圖像S32”中,在顯示器上向用戶(hù)顯示圖像。該步驟可包括例如從以大的白色區(qū)域開(kāi)始的頁(yè)面查找要顯示的圖像的相關(guān)部分,顯示具有第一文本行的部分。在下一步驟“選擇點(diǎn)S33”中,預(yù)期用戶(hù)動(dòng)作在圖像中,具體而言是在元數(shù)據(jù)元素中指示選擇點(diǎn)。圖中的符號(hào)等待環(huán)L33指示系統(tǒng)在等待用戶(hù)動(dòng)作。
在下一步驟“查找布局元素S34”中,處理分割的圖像以查找用戶(hù)要提取元數(shù)據(jù)的布局元素。如下參照?qǐng)D4所述,選擇點(diǎn)指示已選擇的布局元素。在下一步驟“顯示提取區(qū)域S35”中,顯示覆蓋選定布局元素的提取區(qū)域。提取區(qū)域可顯示為正好包含布局元素的矩形、突出顯示區(qū)域或任何其它合適的顯示特征。
注意,用戶(hù)可主動(dòng)輸入選擇點(diǎn),例如,通過(guò)在光標(biāo)位于所需元數(shù)據(jù)元素時(shí)單擊鼠標(biāo)按鈕,或者把手指放在觸摸屏上。然而,系統(tǒng)也可在用戶(hù)將定點(diǎn)器元素(如光標(biāo))置于前景對(duì)象附近時(shí)立即自動(dòng)顯示建議的提取區(qū)域,或在預(yù)定(短)等待時(shí)間之后自動(dòng)顯示。在自動(dòng)模式中,步驟“選擇點(diǎn)S33”、“查找布局元素S34”和“顯示提取區(qū)域S35”組合在一起。光標(biāo)可顯示為表明自動(dòng)模式的特定符號(hào),例如,通過(guò)添加小的矩形到光標(biāo)符號(hào)上。用戶(hù)可基于建議的提取區(qū)域的可見(jiàn)反饋而確定選擇點(diǎn)。
基于所顯示的提取區(qū)域,用戶(hù)可檢查提取區(qū)域覆蓋其所需的元數(shù)據(jù)元素。在下一步驟“最終區(qū)域S36”中,用戶(hù)確認(rèn)顯示的提取區(qū)域,例如,通過(guò)鼠標(biāo)命令確認(rèn)或者通過(guò)輸入下一文檔隱含地確認(rèn)。
如隨符號(hào)環(huán)L36所示,用戶(hù)也可如參照?qǐng)D7或圖8所述調(diào)整建議的提取區(qū)域。例如,用戶(hù)可指示提取區(qū)域中也必須包括的第二點(diǎn),或者用戶(hù)通過(guò)從選擇點(diǎn)按其所需擴(kuò)展提取區(qū)域的方向拖動(dòng)定點(diǎn)元素而指示所建議提取區(qū)域的擴(kuò)展。顯示器可響應(yīng)調(diào)整而顯示最終區(qū)域。
在下一步驟“提取元數(shù)據(jù)S37”中,處理最終確認(rèn)的提取區(qū)域以檢測(cè)和識(shí)別元數(shù)據(jù)元素,如經(jīng)OCR檢測(cè)和識(shí)別的字詞。結(jié)果轉(zhuǎn)換為掃描文件標(biāo)志符,如文件名,這可在顯示器上的文本字段中顯示。掃描文件隨后可使用文件標(biāo)志符存儲(chǔ)在存儲(chǔ)單元22中。
圖4a示出分割結(jié)果。注意,分割結(jié)果不向用戶(hù)顯示,但只在處理系統(tǒng)內(nèi)部可用。圖1所示圖像用作示例。分割導(dǎo)致檢測(cè)到許多布局元素。該過(guò)程基本上檢測(cè)各個(gè)字詞,例如矩形41和43所指示的字詞,并且還檢測(cè)如行等字詞的所有組合,例如矩形42所示的行,以及檢測(cè)文本塊,例如矩形44所示的文本塊。
實(shí)際上只具有背景像素的中間區(qū)域分類(lèi)為背景45。如黑線(xiàn)條46等預(yù)定的“非文本”元素也可分類(lèi)為背景,或至少分類(lèi)為不可選元素。用戶(hù)通過(guò)在其要提取的元數(shù)據(jù)元素附近或上面定位諸如光標(biāo)等定點(diǎn)元素而指示選擇點(diǎn)。隨后,確定完全覆蓋該布局元素的提取區(qū)域。提取區(qū)域向可確認(rèn)建議的提取區(qū)域的用戶(hù)顯示。用戶(hù)可判定提取區(qū)域太小、太大等。在該情況下,用戶(hù)可如下所述補(bǔ)充其選擇命令。
圖4b示出分割結(jié)果的詳情。它包括對(duì)應(yīng)于第一字詞,由第一矩形47所示的第一布局元素;對(duì)應(yīng)于第二字詞,由第二矩形48所示的第二布局元素;以及由第三矩形49所示分割的第三布局元素,即,對(duì)應(yīng)于文檔類(lèi)型中的編號(hào)。
此外,分割過(guò)程檢測(cè)到三個(gè)字詞元素的組合,即,矩形42所示的行。
在用戶(hù)指示第三矩形49中的選擇點(diǎn)后,系統(tǒng)將顯示只圍繞文檔編號(hào)的小提取區(qū)域。
在用戶(hù)現(xiàn)在在建議的提取區(qū)域上單擊(鼠標(biāo))或點(diǎn)觸(觸摸屏)時(shí),過(guò)程自動(dòng)選擇下一較高級(jí)布局元素,在此示例中為矩形42中的“行”。另外更高級(jí)將是文本塊(段落),但在此特定示例中未顯示?;蛘?,單擊可導(dǎo)致通過(guò)添加字詞而逐漸擴(kuò)展選擇區(qū)域,例如,在讀取方向上擴(kuò)展。在圖4b的示例中,用戶(hù)通過(guò)指向矩形47中的字詞而開(kāi)始,并且相繼的單擊(點(diǎn)觸)將分別相繼地添加矩形48和49中的字詞。
不同的鼠標(biāo)單擊(例如,使用鼠標(biāo)上的右鍵而不是左鍵)可按級(jí)或按字詞逐漸減小選定區(qū)域。
在擴(kuò)展選擇區(qū)域的備選方式中,用戶(hù)可指示圖像中又一布局元素中的第二選擇點(diǎn),例如,通過(guò)指向矩形48中的新位置。新的布局元素可能只是添加到原布局元素。如果有中間布局元素,則用戶(hù)最可能希望也包括中間元素。例如,如果第二選擇點(diǎn)是在第一矩形47中,則所有三個(gè)矩形47、48和49組合在提取區(qū)域中。
用戶(hù)也可通過(guò)在第一矩形47的方向上(朝紙張的左緣)拖動(dòng)光標(biāo)而改變提取區(qū)域。系統(tǒng)從此移動(dòng)得出另外連接布局元素的命令,并且連接下一矩形48以構(gòu)成圍繞相鄰矩形48、49的新提取區(qū)域。連接可應(yīng)用于在連接距離以?xún)?nèi)的布局元素。連接距離用于選擇要組合為選定布局元素的布局元素,即,在布局元素之間的背景小于連接距離。連接距離可定義為布局元素邊界之間的最短歐幾里得距離,或者水平(x)或垂直(y)方向上具有最近x或y坐標(biāo)的布局元素點(diǎn)之間的距離。連接布局元素的閾值距離可以是預(yù)定距離,例如,稍微大于在分割期間使用的距離,以便加入具有中間背景像素的圖像元素。對(duì)選擇命令的補(bǔ)充也可轉(zhuǎn)換為用戶(hù)定義的連接距離,例如,可從用戶(hù)移動(dòng)光標(biāo)的距離以交互方式得出連接距離。在一個(gè)實(shí)施例中,用戶(hù)可重復(fù)單擊或指向同一位置以將連接距離增大預(yù)定量,或者可操作鼠標(biāo)滾輪以逐漸增大或減小連接距離。
對(duì)于不同方向,連接距離可以不同。例如,水平方向上的連接距離可大于垂直方向上的連接距離。對(duì)于普通文本文檔,這會(huì)導(dǎo)致將字符穩(wěn)固地連接為字詞,將字詞連接為文本行,而不將文本行連接到下一或上一行。在預(yù)處理步驟中,可例如通過(guò)分析背景像素的布局而確定讀取方向。連接距離可基于讀取方向,例如,從左到右,并且從選擇點(diǎn)到右,連接距離可較大。
在連接過(guò)程的一個(gè)實(shí)施例中,連接距離可依據(jù)經(jīng)由對(duì)選擇命令的補(bǔ)充接收的選擇方向進(jìn)行調(diào)整。建議的提取區(qū)域向用戶(hù)顯示,并且用戶(hù)將輕松地檢測(cè)到提取區(qū)域要在特定方向上擴(kuò)展。用戶(hù)可通過(guò)沿選擇方向從選擇點(diǎn)拖動(dòng)選擇項(xiàng)目(光標(biāo)或觸摸屏上的手指)而指示選擇方向。
圖5示出根據(jù)第二示范方法提取元數(shù)據(jù)的過(guò)程的流程圖。在此方法中,操作員所指示的布局元素的確定及隨后的提取區(qū)域完全是在像素級(jí)執(zhí)行的。
像素基于具有前景屬性的值,通常為表示白色背景文檔上黑色的值而分類(lèi)為前景像素。在彩色圖像中,前景屬性可以是表示特定顏色的值,例如,從選擇點(diǎn)所指示的像素的顏色交互確定的顏色,或不同于背景顏色的顏色。區(qū)分前景和背景像素的方法在本領(lǐng)域中為人所知。
發(fā)現(xiàn)的第一前景像素由選擇點(diǎn)指示,即,對(duì)應(yīng)于選擇點(diǎn)的位置或者若選擇點(diǎn)在元數(shù)據(jù)元素中的背景像素上、則靠近選擇點(diǎn)的前景像素。如果選擇點(diǎn)在前景點(diǎn)的預(yù)定距離以?xún)?nèi)的背景像素上,則系統(tǒng)可將所指示的像素視為前景像素,以便查找構(gòu)成所需元數(shù)據(jù)元素的像素,即,由于選擇點(diǎn)已被用戶(hù)指示的原因而將選擇點(diǎn)(重新)分類(lèi)為前景像素。或者,系統(tǒng)可將最近的前景像素選擇為選擇點(diǎn)。如果選擇點(diǎn)在遠(yuǎn)離前景點(diǎn)的背景像素上,則系統(tǒng)可將此選擇視為取消當(dāng)前選定的元數(shù)據(jù)提取區(qū)域的命令。
基于第一前景像素,檢測(cè)到像素區(qū)并將其假定為元數(shù)據(jù)的一部分,并且圍繞該區(qū)畫(huà)出提取區(qū)域并向用戶(hù)顯示。元數(shù)據(jù)通過(guò)處理提取區(qū)域中的像素來(lái)提取,并轉(zhuǎn)換成掃描文件標(biāo)志符。
轉(zhuǎn)到圖5,在第一步驟“準(zhǔn)備輸入圖像S131”中,從掃描設(shè)備接收作為像素值的數(shù)字文件的圖像。該步驟可以還包括基于預(yù)定知識(shí)或檢測(cè)到的圖像屬性進(jìn)行的圖像處理,諸如增強(qiáng)對(duì)比度,從圖像的全局統(tǒng)計(jì)數(shù)據(jù)確定前景和或背景屬性,旋轉(zhuǎn)圖像等。此外,此步驟可包括準(zhǔn)備具有較低分辨率的其它輸入圖像,以便在步驟S134(在下面解釋)的圖像分析中使用。由于掃描圖像具有相當(dāng)高的分辨率,因此,適當(dāng)降低分辨率通常不會(huì)損害分析,例如將因數(shù)從2改為4,而這減少所需的處理能力。原來(lái)的高分辨率輸入圖像將仍用于顯示和數(shù)據(jù)提取。
在下一步驟“顯示圖像S132”中,在顯示器上向用戶(hù)顯示圖像。該步驟可包括例如從以大的白色區(qū)域開(kāi)始的頁(yè)面查找要顯示的圖像的相關(guān)部分,顯示具有第一文本行的部分。在下一步驟“選擇點(diǎn)S133”中,預(yù)期的用戶(hù)動(dòng)作是在圖像中,具體而言是在元數(shù)據(jù)元素中指示選擇點(diǎn)。圖中的符號(hào)等待環(huán)L133指明系統(tǒng)在等待用戶(hù)動(dòng)作。
在下一步驟“查找連接區(qū)S134”中,如下面參照?qǐng)D6所述,分析選擇點(diǎn)周?chē)南袼匾圆檎以谶B接范圍以?xún)?nèi)的前景像素。在下一步驟“顯示提取區(qū)域S135”中,顯示了覆蓋連接區(qū)的提取區(qū)域。提取區(qū)域可顯示為正好包含連接區(qū)的矩形區(qū)域、突出顯示的區(qū)域或任何其它合適的顯示特征。
注意,用戶(hù)可主動(dòng)輸入選擇點(diǎn),例如,通過(guò)在光標(biāo)位于所需元數(shù)據(jù)元素時(shí)單擊鼠標(biāo)按鈕,或者把手指放在觸摸屏上。然而,系統(tǒng)也可在用戶(hù)將定點(diǎn)器元素(如光標(biāo))置于前景對(duì)象附近時(shí)立即自動(dòng)顯示建議的提取區(qū)域,或在預(yù)定(短)等待時(shí)間之后自動(dòng)顯示。在自動(dòng)模式中,步驟“選擇點(diǎn)S133”、“查找連接區(qū)S134”和“顯示提取區(qū)域S135”組合在一起。光標(biāo)可顯示為表明自動(dòng)模式的特定符號(hào),例如,通過(guò)添加小的矩形到光標(biāo)符號(hào)上。用戶(hù)可基于建議的提取區(qū)域的可見(jiàn)反饋而確定選擇點(diǎn)。
基于所顯示的提取區(qū)域,用戶(hù)可檢查提取區(qū)域覆蓋其所需的元數(shù)據(jù)元素。在下一步驟“最終區(qū)域S136”中,用戶(hù)確認(rèn)顯示的提取區(qū)域,例如,通過(guò)鼠標(biāo)命令確認(rèn)或者通過(guò)輸入下一文檔隱含地確認(rèn)。
如隨符號(hào)環(huán)L136所示,用戶(hù)也可如參照?qǐng)D7或圖8所述調(diào)整建議的提取區(qū)域。例如,用戶(hù)可指示提取區(qū)域中也必須包括的第二點(diǎn),或者用戶(hù)通過(guò)從選擇點(diǎn)按其所需擴(kuò)展提取區(qū)域的方向拖動(dòng)定點(diǎn)元素而指示建議的提取區(qū)域的擴(kuò)展。顯示器可響應(yīng)調(diào)整而顯示最終區(qū)域。
在下一步驟“提取元數(shù)據(jù)S137”中,處理最終確認(rèn)的提取區(qū)域以檢測(cè)和識(shí)別元數(shù)據(jù)元素,如經(jīng)OCR檢測(cè)和識(shí)別的字詞。結(jié)果可在顯示器上在文本字段中顯示。結(jié)果轉(zhuǎn)換為掃描文件標(biāo)志符,如文件名,這可在顯示器上在文本字段中顯示。掃描文件隨后可使用文件標(biāo)志符存儲(chǔ)在存儲(chǔ)單元22中。
圖6a、6b和6c示出從選擇點(diǎn)增大區(qū)域。用戶(hù)指示圖像中的選擇點(diǎn),然后如下所述形成區(qū)域。在選擇點(diǎn)選擇起始前景像素。如果選擇點(diǎn)在背景像素上,但在距某前景像素的預(yù)定距離以?xún)?nèi),則該前景像素可用作起始像素。
圖6a示出以一個(gè)像素的連接距離增長(zhǎng)的區(qū)域。圖像81的詳細(xì)部分在四個(gè)區(qū)域增長(zhǎng)階段中示出,各個(gè)像素顯示為白色(背景)或灰色(前景)。用戶(hù)指示了由黑點(diǎn)表示的選擇點(diǎn)80。區(qū)域增長(zhǎng)從對(duì)應(yīng)于選擇點(diǎn)80的像素開(kāi)始,并且最初顯示只一個(gè)像素的起始區(qū)域82。用于增長(zhǎng)的連接距離假定為一個(gè)像素,即,不允許中間背景像素。在第二增長(zhǎng)階段,顯示的第二區(qū)域83朝下擴(kuò)展以包括直接連接的像素。在第三增長(zhǎng)階段,顯示的第三區(qū)域84向右擴(kuò)展以包括直接連接的像素。在第四增長(zhǎng)階段,顯示的第四區(qū)域85同樣向右擴(kuò)展以包括直接連接的像素。由于無(wú)其它前景像素在連接距離(等于1)以?xún)?nèi),因此區(qū)域增長(zhǎng)停止。注意,在增長(zhǎng)區(qū)域82、83、84和85周?chē)蕴摼€(xiàn)畫(huà)出矩形區(qū)域。該區(qū)域也包括背景像素。在結(jié)束區(qū)域增長(zhǎng)過(guò)程后,畫(huà)出的區(qū)域可成為建議的提取區(qū)域。
圖6b示出以?xún)蓚€(gè)像素的連接距離增長(zhǎng)的區(qū)域。它示出如圖6a中所示的相同圖像詳情。連接距離增加為2個(gè)像素,因此,單個(gè)中間背景像素將被跨過(guò)。結(jié)果得到的矩形區(qū)域86包含具有2個(gè)像素連接距離的前景像素。用戶(hù)可確認(rèn)結(jié)果區(qū)域,或者可判定該矩形區(qū)域太小。在該情況下,用戶(hù)可補(bǔ)充其選擇命令。此外,用戶(hù)可在圖像的又一前景部分中指示第二選擇點(diǎn)87,例如,通過(guò)指向新位置或從選擇點(diǎn)86拖到第二選擇點(diǎn)87。對(duì)選擇命令的補(bǔ)充由處理單元24轉(zhuǎn)換為正好適合將第二選擇點(diǎn)87添加到選擇區(qū)域的更大連接距離。這可導(dǎo)致選擇區(qū)域在其它方向上也擴(kuò)大。
在一個(gè)實(shí)施例中,用戶(hù)可重復(fù)單擊或指向同一位置以增大連接距離。對(duì)于每次鼠標(biāo)單擊或觸摸屏上的點(diǎn)觸,連接距離會(huì)增大一個(gè)像素,或增大預(yù)定的多個(gè)像素。此外,連接距離的增大可以在具有實(shí)際增大提取區(qū)域的效果的步驟中進(jìn)行。在使用鼠標(biāo)的情況下,單擊鼠標(biāo)上的不同按鈕可分別與增大和減小連接距離相關(guān)聯(lián)。
圖6c示出以三個(gè)像素的連接距離增長(zhǎng)的區(qū)域。它示出如圖6b中所示的相同圖像詳情。連接距離增加為3個(gè)像素,因此多達(dá)兩個(gè)中間背景像素將被跨過(guò)。結(jié)果得到的矩形區(qū)域88包含第二選擇點(diǎn)87。注意,區(qū)域增長(zhǎng)過(guò)程也可調(diào)整到實(shí)現(xiàn)的結(jié)果,或者可包括了解選項(xiàng),例如,在多數(shù)情況下用戶(hù)需要增大區(qū)域時(shí)使用更大的連接距離。此外,如果發(fā)現(xiàn)小于預(yù)定大小的連接區(qū),則過(guò)程可包括自動(dòng)增大連接距離以至少達(dá)到預(yù)定大小。
在區(qū)域增長(zhǎng)過(guò)程的又一實(shí)施例中,連接距離對(duì)于不同的方向不同。例如,水平方向上的連接距離可大于垂直方向上的連接距離。對(duì)于普通文本文檔,這會(huì)導(dǎo)致穩(wěn)固地連接文本行中的字詞,而不將文本行連接到下一或上一行。在預(yù)處理步驟中,可例如通過(guò)分析背景像素的布局而確定讀取方向。連接距離可基于讀取方向,例如,從左到右,并且從選擇點(diǎn)到右,連接距離可較大。
在區(qū)域增長(zhǎng)過(guò)程的一個(gè)實(shí)施例中,連接距離依據(jù)經(jīng)由對(duì)選擇命令的補(bǔ)充接收的選擇方向進(jìn)行調(diào)整。建議的提取區(qū)域向用戶(hù)顯示,并且用戶(hù)將輕松地檢測(cè)到提取區(qū)域要在特定方向上擴(kuò)展。用戶(hù)可通過(guò)沿選擇方向從選擇點(diǎn)拖動(dòng)選擇項(xiàng)目(光標(biāo)或觸摸屏上的手指)而指示選擇方向。注意,連接距離的增大可根據(jù)從第一選擇點(diǎn)拖動(dòng)的距離得出。
設(shè)備可提供其它選項(xiàng)以調(diào)整以上所述的任一示范方法中確定的提取區(qū)域的形狀。
圖7示出調(diào)整元數(shù)據(jù)提取區(qū)域。最初,矩形提取區(qū)域50向用戶(hù)顯示。提取區(qū)域的形狀可通過(guò)建議的提取區(qū)域的可控元素52、53改變。用戶(hù)現(xiàn)在可移動(dòng)可控元素之一??煽卦赝ㄟ^(guò)附加符號(hào)向用戶(hù)顯示,例如,添加到提取區(qū)域50各側(cè)和邊緣的小方形。例如,用戶(hù)可拖動(dòng)提取區(qū)域50的上側(cè)。結(jié)果可能只是向上擴(kuò)展提取區(qū)。通過(guò)操作可控邊緣53,移動(dòng)對(duì)應(yīng)的左側(cè)和下側(cè)。各側(cè)和邊緣的可能新位置可在操作期間顯示為虛線(xiàn)51。在最終選擇區(qū)域后,各側(cè)和邊緣的新位置將顯示為實(shí)線(xiàn)。注意,可應(yīng)用其它可見(jiàn)元素以顯示控制選項(xiàng),如顏色、閃爍等。
圖8示出調(diào)整非矩形提取區(qū)域的形狀。它示出為選擇部分文本段而構(gòu)建的提取區(qū)域60。選擇從行中間的一個(gè)字詞開(kāi)始,并也在行中間結(jié)束。假定文本的列布局。垂直側(cè)可輕松地檢測(cè)到,并且可能甚至是用戶(hù)不可控制的。底側(cè)61具有兩個(gè)水平部分和一個(gè)中間垂直部分。底部行61可拖到虛線(xiàn)所示的新位置62。具體而言,中間垂直部分可拖到要包括在元數(shù)據(jù)中的最后字詞之后的文本行中的位置。
在最終設(shè)置提取區(qū)域后,元數(shù)據(jù)可被抽取并由光學(xué)字符識(shí)別(OCR)處理。隨后,提取的元數(shù)據(jù)用于確定附加到掃描文檔的文件名。提取區(qū)域可受文件名的任何要求影響,例如,具有最小和最大長(zhǎng)度。提取過(guò)程可包括調(diào)整文本字符串以符合文件命名規(guī)則,諸如去除禁止的字符并禁止再次使用相同的文件名。可添加象日期或時(shí)間的其它標(biāo)識(shí)數(shù)據(jù)。掃描的文檔可使用形成的文件名自動(dòng)存儲(chǔ)。
雖然主要通過(guò)使用表示數(shù)字圖像中元數(shù)據(jù)的文本元素的實(shí)施例描述了本發(fā)明,但是本發(fā)明也適用于元數(shù)據(jù)信息的任何表示,諸如符號(hào)、徽標(biāo)或可分類(lèi)的其它圖形元素,如肖像。注意,在本文檔中,動(dòng)詞‘包括’及其變化形式的使用并不排除所列元素或步驟外其它元素或步驟的存在,并且元素前的數(shù)詞‘一’并不排除存在多個(gè)此類(lèi)元素;任一參考符號(hào)并不限制權(quán)利要求的范圍;所述本發(fā)明和每個(gè)單元或工具可由適合的硬件和/或軟件實(shí)現(xiàn);以及幾個(gè)‘工具’或‘單元’可由同一項(xiàng)目表示。此外,本發(fā)明的范圍并不限于所述實(shí)施例,并且本發(fā)明在于每一個(gè)新穎的特征或上述特征的組合。
權(quán)利要求
1.將文檔圖像轉(zhuǎn)換為包括像素的圖像數(shù)據(jù)的方法,每個(gè)像素具有表示圖像元素的亮度和/或顏色的值,其中,所述文檔圖像包括諸如字詞或成組字詞的文本布局元素,所述方法包括-通過(guò)掃描儀設(shè)備掃描文檔,并由此生成圖像數(shù)據(jù)的掃描文件,-為用戶(hù)顯示至少部分所述掃描圖像,-從所述用戶(hù)接收選擇命令,所述選擇命令包括在所述圖像中的布局元素中指示選擇點(diǎn),-基于所述選擇點(diǎn)所指示的所述布局元素,自動(dòng)確定所述掃描圖像內(nèi)的提取區(qū)域,-通過(guò)處理所述提取區(qū)域中的像素來(lái)提取所述布局元素,以及其特征在于以下步驟-在所述掃描文件的標(biāo)志符中包括所述提取的布局元素。
2.如權(quán)利要求1所述的方法,其特征在于,所述標(biāo)志符是文件名。
3.如權(quán)利要求1所述的方法,其特征在于,所述標(biāo)志符是用于包含所述掃描文件的電子郵件消息的主題名稱(chēng)。
4.如權(quán)利要求1到3中任一項(xiàng)所述的方法,其特征在于,還包括基于具有前景屬性或背景屬性的像素的值自動(dòng)將至少部分所述掃描圖像分割成布局元素、但不顯示分割結(jié)果的預(yù)處理步驟,并且其中自動(dòng)確定所述掃描圖像內(nèi)的提取區(qū)域的步驟是基于所述分割步驟的結(jié)果。
5.如權(quán)利要求4所述的方法,其特征在于,還包括接收對(duì)所述選擇命令的補(bǔ)充,以便調(diào)整所述提取區(qū)域,具體是通過(guò)用戶(hù)指示又一元數(shù)據(jù)元素中的至少又一選擇點(diǎn)要包括在所述提取區(qū)域中。
6.如權(quán)利要求4所述的方法,其特征在于,還包括在諸如單擊鼠標(biāo)按鈕或操作鼠標(biāo)滾輪之類(lèi)的補(bǔ)充用戶(hù)控制事件時(shí),通過(guò)自動(dòng)增大或減小提取區(qū)域的大小來(lái)調(diào)整所述提取區(qū)域。
7.如權(quán)利要求1到3中任一項(xiàng)所述的方法,其特征在于,還包括基于具有前景屬性的像素值自動(dòng)將像素分類(lèi)為前景像素的步驟,其中自動(dòng)確定所述圖像內(nèi)的提取區(qū)域的步驟是基于以預(yù)定連接距離連接到所述選擇點(diǎn)所指示的前景像素的前景像素。
8.如權(quán)利要求7所述的方法,其特征在于,確定所述提取區(qū)域包括通過(guò)以下步驟自動(dòng)生成連接區(qū)-包括所述選擇點(diǎn)所指示的所述前景像素,-逐漸包括距所述連接區(qū)中包括的其它前景像素在所述連接距離以?xún)?nèi)的其它前景像素,以及-將所述提取區(qū)域設(shè)為完全包含所述連接區(qū)的區(qū)域。
9.如權(quán)利要求8所述的方法,其特征在于,所述連接距離是依據(jù)連接方向而設(shè)置的,具體而言,所述連接方向?yàn)樗健⒋怪被蛩扇〉淖x取方向。
10.如權(quán)利要求7、8或9所述的方法,其特征在于,所述輸入文檔圖像轉(zhuǎn)換為較低分辨率,并且將像素分類(lèi)和確定提取區(qū)域的步驟在所述較低分辨率圖像上執(zhí)行。
11.如權(quán)利要求8所述的方法,其特征在于,還包括響應(yīng)對(duì)所述選擇命令的補(bǔ)充而自動(dòng)調(diào)整所述連接距離,其中,對(duì)所述選擇命令的所述補(bǔ)充包括用戶(hù)指示又一選擇點(diǎn)。
12.如權(quán)利要求8所述的方法,其特征在于,還包括響應(yīng)諸如單擊鼠標(biāo)按鈕或操作鼠標(biāo)滾輪之類(lèi)的補(bǔ)充用戶(hù)控制事件,自動(dòng)增大或減小所述連接距離。
13.掃描設(shè)備,用于掃描包括諸如字詞或成組字詞的文本布局元素的文檔圖像,由此生成包括像素的圖像數(shù)據(jù)的掃描文件,每個(gè)像素具有表示圖像元素的亮度和/或顏色的值,所述設(shè)備包括-用于掃描所述文檔圖像并生成所述掃描文件的掃描儀(21),-用于向用戶(hù)顯示至少部分所述圖像的顯示器(23),-用于從所述用戶(hù)接收選擇命令的用戶(hù)接口(25),所述選擇命令包括在所述圖像中的元數(shù)據(jù)元素中的選擇點(diǎn),以及-處理單元(24),可用于-基于所述選擇點(diǎn)指示的所述布局元素,自動(dòng)確定所述掃描圖像內(nèi)的提取區(qū)域,-通過(guò)處理所述提取區(qū)域中的像素來(lái)提取所述布局元素,特征在于所述處理單元(24)也可用于-在所述掃描文件的標(biāo)志符中包括所述提取的布局元素。
14.如權(quán)利要求13所述的設(shè)備,其特征在于,所述處理單元(24)自動(dòng)為包括所述提取的布局元素的所述掃描文件生成文件名。
15.如權(quán)利要求13或14所述的設(shè)備,其特征在于,所述處理單元(24)自動(dòng)生成包括所述掃描文件的電子郵件消息,并且在所述消息的“主題”字段中包括所述提取的布局元素。
16.如權(quán)利要求13所述的設(shè)備,其特征在于,所述處理單元(24)包括用于基于具有前景屬性或背景屬性的像素值將至少部分所述掃描圖像自動(dòng)分割成布局元素的預(yù)處理模塊,并且其中,所述處理單元(24)基于所述預(yù)處理模塊的分割結(jié)果確定所述掃描圖像內(nèi)的所述提取區(qū)域。
17.如權(quán)利要求13所述的設(shè)備,其特征在于,所述處理單元(24)基于具有前景屬性的像素值自動(dòng)將像素分類(lèi)為前景像素,以及基于以預(yù)定連接距離連接到所述選擇點(diǎn)所指示的前景像素的前景像素來(lái)確定所述圖像內(nèi)的所述提取區(qū)域。
18.計(jì)算機(jī)程序,用于結(jié)合文檔掃描儀設(shè)備,執(zhí)行如權(quán)利要求1到12中任一項(xiàng)所述的方法。
19.存儲(chǔ)在載體上的計(jì)算機(jī)程序,用于結(jié)合文檔掃描儀設(shè)備,執(zhí)行如權(quán)利要求1到12中任一項(xiàng)所述的方法。
全文摘要
描述了用于掃描文檔和通過(guò)提取操作員指定的如字詞或成組字詞的文本布局元素并在掃描文件的標(biāo)志符中包括后者處理在過(guò)程中生成的圖像數(shù)據(jù)的方法和設(shè)備。至少部分文檔圖像在顯示器上向用戶(hù)顯示。諸如鼠標(biāo)或觸摸屏的用戶(hù)接口中的定點(diǎn)控制元素由用戶(hù)操作以生成選擇命令,這包括圖像布局元素中的選擇點(diǎn)。提取區(qū)域隨后自動(dòng)圍繞包含選擇點(diǎn)的布局元素構(gòu)建。建議的提取區(qū)域向用戶(hù)顯示,而用戶(hù)可確認(rèn)該提取區(qū)域或調(diào)整它。最后,通過(guò)處理提取區(qū)域中的像素而提取所需的布局元素。文件標(biāo)志符可以是掃描文件的文件名或包括掃描文件的電子郵件消息的“主題”字符串。
文檔編號(hào)G06F17/30GK1839396SQ200480023729
公開(kāi)日2006年9月27日 申請(qǐng)日期2004年4月26日 優(yōu)先權(quán)日2003年8月20日
發(fā)明者J·F·杰格 申請(qǐng)人:奧西-技術(shù)有限公司