專利名稱:用于捕捉圖像的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明總體上涉及使用數(shù)碼相機來捕捉圖像的方法和系統(tǒng)。尤其(但非排他地)涉及一種捕捉例如名片等文檔的圖像的方法和系統(tǒng)。
背景技術:
增強的小型化數(shù)碼相機技術導致了數(shù)碼相機在各種手持電子裝置中廣泛使用。例如,現(xiàn)今數(shù)碼相機通常結合到移動電話、個人數(shù)字助理(PDA)以及膝上型電腦中。數(shù)碼相機的這種普遍存在的可用性產(chǎn)生了許多新穎的用于數(shù)字圖像的商業(yè)應用。例如,商業(yè)人員能夠使用結合到移動電話中的數(shù)碼相機來快速、便利地捕捉名片中的數(shù)字圖像。然后,對名片的數(shù)字圖像執(zhí)行光學字符識別(OCR),并將印刷在名片上的姓名、地址及其它信息自動存儲在電話的聯(lián)系文件(contactfile)中。
OCR可定義為將文本圖像數(shù)據(jù)轉換成字符代碼格式的處理過程,所述字符代碼格式例如文字處理應用軟件可讀取的ASCII碼。在原始的文本圖像數(shù)據(jù)中,文本字符和例如圖形或線條的其它類型的圖像數(shù)據(jù)一樣是由各個像素組成。在轉換為字符代碼格式后,文本字符的原始圖像常常不再可用來對轉換結果進行編輯和糾錯。因此,為了將圖像轉換成特殊的字符代碼,OCR處理過程需要質量相當高的單個字符圖像。
然而,現(xiàn)在使用數(shù)碼相機的許多環(huán)境,對于捕捉高質量的圖像并不理想。例如,試圖捕捉名片圖像的數(shù)碼相機的用戶只是用一只手隨意地拿住名片放在相機鏡頭前,同時用另一只手拿住相機,然后拍照。在那種情況下,諸如鏡頭到名片的距離,及相機的圖像平面相對于名片正面的角度這樣的可變因素是不理想的。因此,最后所得到的圖像可能包含象射影變形這樣的缺陷。
為了使本發(fā)明易于理解,并有效地付諸實踐,參考附圖所示的示范實施例,其中在遍及各個視圖中,相同的數(shù)字表示同樣的或功能類似的元件。結合下面詳細描述并且組成說明書一部分的附圖,有助于進一步說明依據(jù)本發(fā)明的實施例并且解釋依據(jù)本發(fā)明的各種原理和優(yōu)點,其中圖1示出了依據(jù)本發(fā)明實施例的相機系統(tǒng)的正面示意圖。
圖2示出了依據(jù)本發(fā)明實施例的相機系統(tǒng)的背面示意圖。
圖3示出了圖像射影變形原理的示意圖。
圖4示出了通過相機系統(tǒng)的預覽視窗所觀察到的顯著射影變形的名片圖像。
圖5是依據(jù)本發(fā)明實施例用于描繪名片預覽圖像的預覽視窗示意圖。
圖6示出了依據(jù)本發(fā)明一個實施例的捕捉物體正面圖像方法的步驟流程圖,該物體具有至少兩個基本上直的邊緣。
熟練的技術人員應當理解到為了簡單清晰地說明附圖中的元件,無需按照一定比例繪圖。例如,為了增進理解本發(fā)明的實施例,附圖中的一些元件尺寸可以相對于其它元件放大些。
具體實施例方式
在詳細描述依據(jù)本發(fā)明的實施例之前,應當注意到,實施例主要在于涉及用于捕捉圖像的方法和系統(tǒng)的方法步驟和裝置的組件。因此,裝置件件和方法步驟通過常用符號適當?shù)谋硎驹诟綀D中,這里僅僅示出了那些和理解本發(fā)明實施例有關的具體細節(jié),以免對于受益于這里描述的本領域普通技術人員來說是容易理解的細節(jié)使得本公開難懂。
在該文件中,相關術語如左和右、上和下等等僅用來區(qū)別一實體或動作和其他的實體或動作,無需要求或暗示這種實體或動作之間的任何實際的這種關系或次序。術語“包括”、“包含”或其任何其它的變體規(guī)定為覆蓋一個非專有包括,使得包括元件列表的過程、方法、項(article)或裝置并不僅僅包括那些已述元件,而且還包括其它未特別列出的元件或這種過程、方法、項目或裝置固有的元件。無需更多的約束條件,為一個元件加上前言“包含一……”并不排除在包括該元件的過程、方法、項目或裝置中出現(xiàn)另外完全相同的元件。
參考圖1所示,示出了依據(jù)本發(fā)明實施例的相機系統(tǒng)100的示意圖。和大多數(shù)相機一樣,系統(tǒng)100包括結合一正面110的相機外殼105。正面110包括一適合于接收圖像的圖像傳感器115。圖像傳感器115可以包括常規(guī)的透鏡和光學器件,以及數(shù)字圖像傳感器,例如電荷耦合裝置(CCD)傳感器、CMOS傳感器,等等。
參考圖2,示出了相機系統(tǒng)100的背面120的示意圖。背面120包括一預覽視窗125,該預覽視窗適合于顯示圖像傳感器115接收到的圖像表示。和許多數(shù)碼相機一樣,本領域的技術人員應當認識到,預覽視窗125可充當常規(guī)相機的取景器,并且實時顯示位于圖像傳感器115前的場景的任何移動圖像。典型地,在預覽視窗125中所顯示的這種實時圖像僅僅是瞬時的,并且只有當用戶啟動快門按扭(未示出)、定時器或其它圖像捕捉觸發(fā)機構時,該實時圖像才能被捕捉到系統(tǒng)100的內存中。本發(fā)明的一個實施例進一步包括模式選擇開關130,該模式選擇開關可以用來將相機系統(tǒng)100設置成各種照相模式。例如,和許多現(xiàn)有技術的設備一樣,模式選擇開關130可以用來將系統(tǒng)100設置成標準靜態(tài)圖像模式、視頻模式、低光線模式、高速模式,等等。依據(jù)本發(fā)明,模式選擇開關130還可以用來將系統(tǒng)100設置成文檔捕捉模式。當模式選擇開關130被設置成文檔捕捉模式時,基準線135顯示在預覽視窗125中。本領域的技術人員應當認識到,模式選擇開關130可以是位于相機外殼105上的物理開關或觸發(fā)按扭,或例如可以是使預覽視窗125啟動的軟件開關。外殼105的內部還包括處理器140,該處理器可操作地連接到圖像傳感器115、預覽視窗125以及模式選擇開關130,有助于控制那些元件之間的交互作用,并且用于處理圖像數(shù)據(jù)。
依據(jù)本發(fā)明不同的實施例,基準線135可包括各種尺寸、形狀、顏色及格式,并且可以是半透明或不透明的。在使用基準線135期間,基準線135用來指導系統(tǒng)100的用戶使圖像傳感器115位于相對于例如名片物體的適當方位上。因此,在使用基準線135定位期間,基準線135通常相對于預覽視窗125固定。依據(jù)本發(fā)明的另一個實施例,基準線135可以被印刷在預覽視窗125上,或以別的方式永久地疊印在預覽視窗125上。
如圖2所示,在實施本發(fā)明一個實施例的操作期間,用戶常常通過如下確定基準線135的位置來試圖確定文檔的框架使基準線135基本上平行的緊鄰預覽視窗125中所顯示的文檔表示的直線邊緣205或基本上平行的位于直線邊緣205之上。在這樣的定位中,系統(tǒng)100被設計來捕捉良好聚焦并且清晰的文檔圖像,該系統(tǒng)具有適當?shù)姆直媛剩允沟糜∷⒃谖臋n上的任何文本的光學字符識別有效并且可靠。
參考圖3,示出了圖像射影變形原理的示意圖,如本領域技術人員所了解的。所示的光線305通過透鏡315從物體平面310傳播到圖像平面320上。至于本發(fā)明,物體平面310相當于將要映像的物體表面,例如名片的表面,透鏡315相當于相機系統(tǒng)100的圖像傳感器115的元件,圖像平面320相當于接收到的圖像,例如在系統(tǒng)100的預覽視窗125中所顯示的預覽圖像。在物體平面310和圖像平面320不能達到基本平行的情況下,透鏡315使得印刷在物體平面310上的圖像描繪按照已知的射影變形方式在圖像平面320上發(fā)生變形。例如,在物體平面上的區(qū)域“P”的形狀可以通過透鏡315放大,并且通過射影變形扭曲成圖像平面上不同形狀的區(qū)域“Q”。
參考圖4,示出了通過相機系統(tǒng)100的預覽視窗125所觀察到的顯著射影變形的名片圖像。盡管名片左側上的印刷文本保持清晰并且易讀,但由于名片的表面傾斜于系統(tǒng)100的圖像平面320,因此顯示出的名片右側上的印刷文本是模糊的并且不易讀取。正如本領域技術人員所知的,相機系統(tǒng)100的有限景深和射影變形使得圖像右側變得模糊不清。
本發(fā)明能夠通過確保被映像的物體的正面基本上平行于相機系統(tǒng)100的圖像平面320來減少圖像的射影變形。例如,當系統(tǒng)100處于文檔捕捉模式時,僅僅當名片的直線邊緣205基本上平行于預覽視窗125中所顯示的相應的基準線135時,系統(tǒng)100才為用戶提供捕捉物體的圖像,例如名片。
參考圖5,是依據(jù)本發(fā)明具體實施例用于描繪名片預覽圖像的預覽視窗125的示意圖。為了達到說明的目的,所示名片傾斜于系統(tǒng)100的圖像平面320,使得卡片的頂部直線邊緣205不能達到基本平行于相應的頂部基準線135。在這樣的定位中,當系統(tǒng)100在上述文檔捕捉模式中操作時,系統(tǒng)100顯示出物體平面310和圖像平面320達不到基本平行,因此不能捕捉到最終的名片圖像。正如本領域中眾所周知的,可使用圖像邊緣檢測技術來可靠地計算出具體的基準線135和文檔預覽圖像中相應的直線邊緣205之間的角度。在圖5中,示出了3條基準線135;然而,根據(jù)本發(fā)明公開的內容,本領域技術人員應當認識到,依據(jù)本發(fā)明不同的實施例可以使用不同數(shù)量的基準線135,例如二條、三條、四條或更多的基準線135。此外,所有的基準線135不必是直交的。因此,例如相機系統(tǒng)100可以使用三角形排列的三條基準線135來校準三角形狀的文檔。
可以使用各種技術來向用戶指示適當數(shù)量的基準線135基本上平行于預覽視窗125中所描繪的物體的相應直線邊緣205。例如,可以提供由聲音組成的警報,象從相機系統(tǒng)100輸出的嗶嗶聲。同樣,還可以是在預覽視窗125上照亮的光線或在相機系統(tǒng)100其它別的地方上照亮的光線。此外,圖象指示器可以顯示在預覽視窗125上,例如,其中當每一條基準線135基本上平行于相應的直線邊緣205時,該基準線135可以單獨地改變顏色或閃爍。作為替換,當預覽視窗125上所顯示的直線邊緣205基本上平行于相應的基準線135時,系統(tǒng)100能夠自動捕捉所選擇的圖像,為用戶提供或不提供指示。
依據(jù)本發(fā)明的另一個實施例,可使用附加的幾何校準技術來測量物體平面310是否和圖像平面320對齊。例如,依據(jù)本領域技術人員已知的標準圖像分析技術來測量在預覽視窗125中所描繪的不同直線邊緣205的長度?;凇皼]影點(vanishing point)”的效應,當邊205之一離圖像傳感器115更遠時,按照二維圖像的顯示,矩形文檔的兩條相對平行的直線邊緣205具有不同的長度。因而在圖5中,離相機系統(tǒng)100較遠的名片右側的垂直直線邊緣205比名片左側的垂直直線邊緣205短。因此,在本發(fā)明的實施例中增加了額外的靈敏度,其中僅僅當預覽視窗125中所顯示的物體的兩平行直線邊緣205基本上具有相同的長度并且基本上與相應的基準線135平行時,才可以捕捉到圖像。
本領域技術人員應當認識到,小型化數(shù)碼相機技術使得相機外殼105、圖像傳感器115及預覽視窗125幾乎可以是任意尺寸的,因而本發(fā)明的實施例可以結合到各種電子裝置中,例如移動電話、個人數(shù)字助理及膝上型電腦。此外,基準線135可以被設計成與不同類型物體的直線邊緣205一致。例如這種物體可以包括矩形、三角形或其它形狀的紙件,如名片,或其它具有直線邊緣205和一表面的物體,其中將該表面定位在平行于相機系統(tǒng)100的圖像平面320的方向上有助于減少射影變形。
參考圖6,示出了依據(jù)本發(fā)明一個實施例的捕捉物體正面圖像方法的步驟流程圖,該物體具有至少兩個基本上直的邊緣205。首先,在步驟605,系統(tǒng)100的圖像傳感器115接收預覽圖像。預覽圖像描繪了物體的直線邊緣205。如上所述,該預覽圖像通常是瞬時圖像,用于適當?shù)卮_定或校準相機系統(tǒng)100相對于物體平面的方向。接下來,在步驟610,顯示出預覽圖像表示,其描繪了與相機系統(tǒng)100相關的預覽視窗125中的直線邊緣205和同時存在的至少兩條基準線135,其中每一條基準線135對應于一條直線邊緣205。依據(jù)本發(fā)明的一個實施例,在用戶選擇一種文檔捕捉模式之后,基準線135才顯示在相機系統(tǒng)100中;作為替換,基準線可以被永久地疊印到預覽視窗125上。接下來,在步驟615,當預覽視窗125中所顯示的直線邊緣205基本上與相應的基準線135平行時,為用戶提供一個指示。在步驟620,僅僅當預覽視窗125中所顯示的直線邊緣205基本上與相應的基準線135平行時,才提供用于捕捉物體圖像。最后,在步驟625,對捕捉到的物體圖像執(zhí)行光學字符識別。
方法600中的步驟625可以使用存儲在相機系統(tǒng)100中的軟件來執(zhí)行,或作為替換在遠程位置執(zhí)行步驟625。例如,相機系統(tǒng)100可以僅用來捕捉精確、清晰的文本數(shù)據(jù)圖像,在執(zhí)行任何光學字符識別之前,可將該圖像下載到另一個位置。
總之,本發(fā)明是用于捕捉至少具有兩條基本上直的邊緣205的物體正面圖像的改進方法和系統(tǒng)。本發(fā)明的實施例采用象模式選擇開關130和預覽視窗125這種相機系統(tǒng)100常見的特征使得用戶在使用中友好并且直觀。因而本發(fā)明有助于用戶精確、可靠地捕捉物體正面的圖像,其中物體平面310基本上平行于圖像平面320。因此,減少了圖像中的射影變形,使圖像更加清楚、精確。在減少射影變形的情況下,更有可能高精確度地執(zhí)行加速圖像捕捉處理過程,例如對文本圖像所執(zhí)行的光學字符識別處理過程。
上面的詳細描述僅僅提供了示范實施例,并不意味著限制本發(fā)明的范圍、適用性或構造。相反地,示范實施例的詳細描述為本領域的技術人員提供了用于實施本發(fā)明示范實施例的可執(zhí)行描述。應該理解,在不脫離所附權利要求所闡述的本發(fā)明的精神和范圍內,能夠作出對元件的功能和配置及步驟進行的各種變化。應當理解這里所描述的實施例可由一個或多個常規(guī)處理器和控制一個或多個處理器運行的唯一存儲的程序指令組成,結合特定的非處理器電路,這里所描述的用于捕捉物體正面圖像的一些、大多數(shù)或所有功能。該非處理器電路可以包括(但不限于)無線電接收機,無線電發(fā)射機,信號驅動器,時鐘脈沖電路,電源電路,以及用戶輸入設備。同樣地,這些功能可以被解釋為執(zhí)行捕獲物體正面圖像方法的步驟。作為替換,一些或全部的功能可以通過不具有存儲程序指令的狀態(tài)機來實現(xiàn),或在一個或多個特定用途集成電路(ASIC)中實現(xiàn),其中每一項功能或某些特定功能的結合作為常規(guī)邏輯電路來實現(xiàn)。當然,也可以結合兩種方法來使用。因而,這里描述了執(zhí)行這些功能的方法和裝置。此外,希望普通技術人員在這里所公開的原理和原則的指導下,使用最小限度的實驗就能夠容易地生成這類軟件指令和程序以及IC,盡管可能付出巨大努力,以及基于如可利用的時間、當前技術和經(jīng)濟上的考慮激發(fā)出多種設計選擇。
在前述的說明中,描述了本發(fā)明的具體實施例。然而,本領域的普通技術人員應當理解,在不脫離如權利要求所闡述的本發(fā)明范圍內,對本發(fā)明可作出各種修改和變化。因此,說明書及附圖應當認為是對本發(fā)明的解釋而非限定,以及所有這樣的修改都意味著包括在本發(fā)明的范圍內。該利益、優(yōu)點、問題的解決方法以及可產(chǎn)生任何利益、優(yōu)點、或發(fā)生或變得更為顯著的解決方法的任意成份,都不能解釋為任一或全部權利要求的重要、必需或基本的特征或成份。本發(fā)明由所附權利要求單獨定義,在該申請未決期間所作出的任何修改以及那些權利要求的所有等價物都包含在其內。
權利要求
1.一種用于捕捉至少具有兩條基本上直的邊緣的物體正面圖像的方法,該方法包括在照相機的圖像傳感器上接收預覽圖像,所述預覽圖像描繪了直線邊緣;在與照相機相關的預覽視窗中顯示預覽圖像的表示,所述預覽圖像描繪了直線邊緣和同時存在的至少兩條基準線,其中每一條基準線對應于一條直線邊緣;及僅僅當預覽視窗中所顯示的直線邊緣基本上平行于相應的基準線時,才提供用于捕捉物體圖像。
2.根據(jù)權利要求1所述的方法,其中至少有三條基準線顯示在所述預覽視窗中。
3.根據(jù)權利要求1所述的方法,其中,當所述預覽視窗中所顯示的直線邊緣基本上平行于相應的基準線時,自動地捕捉圖像。
4.根據(jù)權利要求1所述的方法,其中,僅僅當所述預覽視窗中所顯示的平行直線邊緣基本上具有相同的長度,并且每條直線邊緣基本上平行于相應的基準線時,才捕捉圖像。
5.根據(jù)權利要求1所述的方法,進一步包括在捕捉物體圖像前,當預覽視窗中所顯示的直線邊緣基本上平行于相應的基準線時,為用戶提供指示。
6.根據(jù)權利要求1所述的方法,進一步包括對捕捉到的物體圖像執(zhí)行光學字符識別。
7.根據(jù)權利要求1所述的方法,其中,所述基準線被永久地疊印在所述預覽視窗上。
8.一種用于捕捉物體正面圖像的照相機系統(tǒng),所述物體具有至少兩條基本上平行的直線邊緣,該照相機系統(tǒng)包括圖像傳感器,適合于接收描繪了直線邊緣的預覽圖像;及預覽視窗,可操作地連接到所述圖像傳感器,并且適合于顯示所述預覽圖像的表示,所述預覽圖像描繪了直線邊緣和同時存在的至少兩條基準線,其中每條基準線對應于一條直線邊緣;其中,僅僅當所述預覽視窗中所顯示的直線邊緣基本上平行于相應的基準線時,才能捕捉物體圖像。
9.根據(jù)權利要求8所述的系統(tǒng),其中至少有三條基準線顯示在所述預覽視窗中。
10.根據(jù)權利要求8所述的系統(tǒng),其中,當所述預覽視窗中所顯示的直線邊緣基本上平行于相應的基準線時,自動地捕捉圖像。
11.根據(jù)權利要求8所述的系統(tǒng),其中,在捕捉物體圖像前,當所述預覽視窗中所顯示的直線邊緣基本上平行于相應的基準線時,為用戶提供指示。
12.根據(jù)權利要求8所述的系統(tǒng),其中,僅僅當所述預覽視窗中所顯示的平行直線邊緣基本上具有相同的長度,并且每一條直線邊緣基本上平行于相應的基準線時,才能捕捉物體的圖像。
13.根據(jù)權利要求11所述的系統(tǒng),其中,所述物體是名片,并且所述指示包括聲音發(fā)生器、光線或顯示在所述預覽視窗上的指示器。
14.根據(jù)權利要求8所述的系統(tǒng),其中所述基準線被永久地疊印在所述預覽視窗上。
全文摘要
一種用于捕捉至少具有兩條基本上直的邊緣(205)的物體正面圖像的方法系統(tǒng),有助于減少圖像中的射影變形。該方法包括在相機(100)的圖像傳感器(115)上接收預覽圖像,其中該預覽圖像描繪了直線邊緣(205)。隨后描繪了直線邊緣(205)和同時存在的至少兩條基準線(135)的預覽圖像顯示在與相機系統(tǒng)(100)相關的預覽視窗(125)中,其中每條參考線(135)對應于一條直線邊緣(205)。僅僅當預覽視窗(125)中所顯示的直線邊緣(205)基本上平行于相應的基準線(135)時,才捕捉物體的圖像。
文檔編號H04N5/225GK1897644SQ20051008199
公開日2007年1月17日 申請日期2005年7月15日 優(yōu)先權日2005年7月15日
發(fā)明者羅希平, 彭剛, 鎮(zhèn)立新 申請人:摩托羅拉公司