專利名稱:帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明是有關(guān)帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置和方法的。詳細地說,就是通過靈活運用以統(tǒng)計方法為基礎(chǔ)的字符數(shù)據(jù)基礎(chǔ)、只對最少的文字數(shù)據(jù)采樣取值從而進行文字識別的方法,來減少文字識別引擎的計算量,進而更快地進行文字識別,然后通過聲音輸出識別出的文字信息,從而提高用戶的方便程度。
背景技術(shù):
一般情況下,所謂便攜式信息終端機是指具有中央處理裝置、存儲器和顯示裝置(它能向用戶提供影像)的體積小、便于攜帶的終端機。它包括可設(shè)置數(shù)字攝像頭的移動通信終端機、PDA(個人攜帶信息終端)等。
最近的各種便攜式信息終端機得益于數(shù)字技術(shù)的飛躍性發(fā)展,除了通信功能、PDA之外還增加了設(shè)置高性能數(shù)字攝像頭的功能。尤其是高性能數(shù)字攝像頭,由于CCD/CMOS等傳感技術(shù)的發(fā)展而達到兆像素級以上,因而解像度也正在迅速地提高。它能夠利用光學(xué)變焦和數(shù)字變焦來進行數(shù)字影像處理,使影像的擴大和縮小等處理功能與過去相比更加精巧。
設(shè)置有上述高性能數(shù)字攝像頭的便攜式信息終端機通過應(yīng)用攝像機,不僅可以提供靜止影像的捕獲與集合等功能,還可以提供動影像的拍攝與讀取等功能。另外,類似的各種功能(如在沒有其他掃描設(shè)備的情況下也可以進行文字識別)也都處在開發(fā)當(dāng)中。
尤其是在文字識別方面,目前正通過進一步完善對肉眼難以識別的文字的判讀和受現(xiàn)有視力局限的文字信息的獲取體制,來持續(xù)進行提高那些附加價值高并且能向用戶傳送更清晰的文字識別及文字信息方法的便利性的研究。
但是,原有的文字識別方法由于文字識別引擎計算量大,不僅文字識別的速度慢,而且對肉眼難以識別的小字的識別正確率也非常低。
發(fā)明內(nèi)容因此,本發(fā)明就是為了解決上述問題而創(chuàng)造出來的,它靈活運用了以統(tǒng)計方法為基礎(chǔ)的字符數(shù)據(jù)基礎(chǔ),只對最小的文字數(shù)據(jù)取值來進行文字識別,通過以上方法來減少文字識別引擎的計算量,從而能夠更快地進行文字識別。然后通過聲音將已識別的文字信息輸出,以此來提高用戶的方便性。本發(fā)明的目的就是提供帶攝像頭的便攜式信息終端機文字識別及聲音輸出的裝置和方法。
為了達到上述目的,本發(fā)明由以下四個部分組成①影像輸入部。它能夠以幀為單位接收反拍攝的影像,并對規(guī)定的選擇區(qū)域進行放大和縮小等處理。②影像前處理部。它能夠在頻率區(qū)域內(nèi)將上述‘影像輸入部’接收的影像進行數(shù)據(jù)信號處理從而獲得文字區(qū)域并將文字的筆畫、幅度等信息做二進制處理。③文字識別引擎部。它能夠?qū)⑸鲜龆M制化的文字信息與以統(tǒng)計方法預(yù)先設(shè)置的字符數(shù)據(jù)基礎(chǔ)的字符進行比較,然后搜索出在構(gòu)造和統(tǒng)計上最少的字符。④聲音合成處理部。它能夠?qū)⑸鲜鑫淖肿R別引擎部識別出的文字經(jīng)過聲音合成處理后變換成聲音。
而且,為了達到上述目的,本發(fā)明包含了以下幾個步驟①接收拍攝的影像,用最大的‘解像度’重新設(shè)定規(guī)定的選擇區(qū)域,從而確保‘高解像度’影像的步驟。②在頻率區(qū)域內(nèi)有選擇性地過濾通過上述‘高解像度’獲得的選擇區(qū)域影像的步驟。③將經(jīng)上述過濾的影像中除背景影像方塊之外的、相當(dāng)于文字區(qū)域的方塊分割成多個小文字區(qū)域的步驟。④利用統(tǒng)計方法將上述小文字區(qū)域的文字和預(yù)先設(shè)定的字符數(shù)據(jù)基礎(chǔ)的字符相比較,從而搜索出最少的字符的步驟。⑤以經(jīng)過上述搜索而選擇的標準文字數(shù)據(jù)為基礎(chǔ)再次進行標本化之后,對上述各小文字區(qū)域另行標本化的文字數(shù)據(jù)進行綜合的步驟。⑥將上述綜合的文字數(shù)據(jù)顯示在畫面上或經(jīng)過聲音合成過程輸出聲音的步驟。
本發(fā)明的主旨是提供能夠靈活運用設(shè)置在便攜式信息終端機上數(shù)字攝像頭的數(shù)字影像擴大和數(shù)字影像處理的功能,通過統(tǒng)計性的文字識別來提高對肉眼難以識別的小字的文字信息認知度,通過隨后的影像處理和聲音合成將識別的文字以聲音形式輸出并告知用戶,從而提高用戶方便性的裝置和方法。
如上所述,本發(fā)明的帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置和方法,通過靈活運用以統(tǒng)計方法為基礎(chǔ)的字符數(shù)據(jù)基礎(chǔ)、只對最少的文字數(shù)據(jù)取值后進行文字的識別,來減少文字識別引擎的計算量,進而達到更快速識別文字的目的。通過將識別后的文字信息以聲音形式輸出,來達到提高用戶方便性的效果。
圖1是本發(fā)明中帶攝像頭的便攜式信息終端機的文字識別及聲音輸出裝置的構(gòu)成方塊圖。
圖2是對本發(fā)明中便攜式信息終端機拍攝的影像進行前處理的文字識別過程順序圖。
具體實施方式下面將參照附圖對本發(fā)明的理想實施例進行詳細說明。
圖1是本發(fā)明中帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置的構(gòu)成方塊圖。如圖所示,該裝置由以下幾個部分構(gòu)成①將被拍攝物體轉(zhuǎn)換成電信號的數(shù)據(jù)攝像傳感部101。②通過上述數(shù)據(jù)攝像傳感部101以幀為單位接收被拍攝物體的影像,針對規(guī)定的選擇區(qū)域進行影像擴大和縮小等處理的影像輸入部102。③在頻率區(qū)域內(nèi)將影像輸入部102接收的影像進行數(shù)據(jù)信號處理,從而取得文字區(qū)域并將文字的筆畫和幅度等文字信息做二進制處理的影像前處理部103。④將上述二進制化的文字信息與以統(tǒng)計方法預(yù)先設(shè)置的字符數(shù)據(jù)基礎(chǔ)的字符進行比較,然后搜索出在構(gòu)造和統(tǒng)計上最少的字符的‘文字識別引擎部’104。⑤通過上述文字識別引擎部104對文字和背景進行影像處理,進而將識別出的文字更清晰地展現(xiàn)給用戶的影像后處理部105。⑥通過上述文字識別引擎部104將識別的文字進行聲音合成從而轉(zhuǎn)換成聲音的聲音合成處理部106。⑦顯示經(jīng)過上述影像后處理部處理過的文字和輸出經(jīng)過聲音合成處理部變換的聲音的用戶界面107。
下面將說明一下具有上述構(gòu)成的帶攝像頭的便攜式信息終端機的文字識別和聲音輸出裝置的動作及作用。
當(dāng)用戶通過便攜式信息終端機內(nèi)置的數(shù)據(jù)攝像頭來判讀由于用戶視力下降而難以用肉眼識別的文字(遠處的廣告板或道路標示牌等)時,用戶可以利用相關(guān)文字區(qū)域的攝像頭的變焦功能進行適當(dāng)?shù)臄U大以提高解像度,進而捕獲影像。
如此,在影像前處理部103,被捕獲的影像通過頻率區(qū)域的過濾有選擇性地取得比背景影像頻率高的文字信息,以被判斷為文字區(qū)域的部分為單位進行細部分割并正規(guī)化之后,與具有數(shù)據(jù)基礎(chǔ)(對多種形態(tài)的文字進行統(tǒng)計化的數(shù)據(jù)基礎(chǔ))的字符數(shù)據(jù)相比較,將文字的筆畫和幅度重新標本化,刪除不必要的信息,只對文字識別引擎所需的數(shù)據(jù)進行二進位轉(zhuǎn)換。
然后,以經(jīng)上述方法獲得的二進制數(shù)據(jù)為基礎(chǔ),以文字的構(gòu)成性、統(tǒng)計性特征為依據(jù),在文字識別引擎內(nèi)進行文字識別并取得文字信息,通過字符數(shù)據(jù)將文字信息再次合成為具有規(guī)定大小和形態(tài)的文字,為了使這些文字更清晰地表現(xiàn)出來,影像后處理部105對背景影像進行再處理以提高文字的清晰度,之后再通過用戶界面107的顯示裝置進行輸出。
而且,在聲音合成處理部106,以經(jīng)過文字識別引擎部104識別的文字信息為基礎(chǔ)合成符合相關(guān)文字的聲音,通過用戶界面107的聲音輸出裝置進行輸出,從而將上述識別的文字信息通過聲音和畫面準確地告知給用戶。
另外,圖2是對用本發(fā)明的便攜式信息終端機拍攝的影像進行再處理的文字識別過程順序圖。它包括以下幾個過程①所拍攝影像以幀為單位通過影像輸入部進行接收S201,②利用最大的解像度將采用數(shù)字變焦等的用戶選擇區(qū)域進行重新選定并擴大影像S202,③經(jīng)上述最大‘解像度’所獲得的選擇區(qū)域影像在頻率區(qū)域進行有選擇性的過濾S203,④然后將過濾后影像中除背景影像方塊之外的相當(dāng)于文字區(qū)域的方塊細分成多個小文字區(qū)域S204、S205,⑤將上述細分出來的文字區(qū)域的文字與利用統(tǒng)計方法預(yù)先設(shè)置的字符數(shù)據(jù)基礎(chǔ)的字符相比較,搜索出最小的字符S206,⑥以上述搜索所選擇的標準字符為基礎(chǔ)進行重新標本化S207,⑦然后與上述各小文字區(qū)域另行標本化的文字數(shù)據(jù)綜合起來S208,⑧經(jīng)過影像后處理過程顯示在畫面上或經(jīng)過聲音合成過程輸出聲音S209。
即,上述影像前處理過程是通過攝像頭由用戶以幀為單位來指定被輸入影像數(shù)據(jù)的選擇區(qū)域,在此基礎(chǔ)上,用最大的解像度在選擇區(qū)域內(nèi)重新取得影像數(shù)據(jù),然后通過頻率區(qū)域的過濾取得區(qū)別于背景影像的文字影像數(shù)據(jù),再將背景影像刪除,將相當(dāng)于文字區(qū)域的影像分成小文字區(qū)域。
然后,參照字符數(shù)據(jù)基礎(chǔ)(將多種形態(tài)的文字統(tǒng)計化所得的數(shù)據(jù)基礎(chǔ))來分別比較上述各小文字區(qū)域的最恰當(dāng)字符,對搜索后所選擇的字符進行重新取樣,以此作為相關(guān)小文字區(qū)域的代表值,將各小文字區(qū)域的‘代表值’綜合起來重新構(gòu)成文字區(qū)域之后,將這個值二進制化后輸入文字識別引擎來使用。
以上述方式的影像前處理為依據(jù)的文字識別引擎中的文字識別過程,由于在字符數(shù)據(jù)基礎(chǔ)中只對用于文字識別的最少的文字影像數(shù)據(jù)進行取值,因而減少文字識別引擎的計算量、提高文字識別過程的準確性,并縮短了所需時間,進而能夠提供更快的應(yīng)答速度。
綜上所述,本發(fā)明中利用帶攝像頭便攜式信息終端的文字識別及聲音輸出方法,能夠用最大的解像度將用戶選擇區(qū)域(利用光學(xué)變焦或數(shù)據(jù)變焦的選擇區(qū)域)擴大來進行文字識別,并且在清晰地顯示文字的同時能夠通過聲音合成來以聲音形式輸出文字。通過以上方式來為識別肉眼難以識別的文字(遠處的廣告板或道路標示牌等)及告知用戶提供便利,通過以統(tǒng)計方法將文字影像數(shù)據(jù)二進位化,來減少文字識別引擎的計算量,同時提高文字識別的準確度,進而提供整體識別系統(tǒng)的更快的應(yīng)答速度,更快地將準確的文字信息提供給用戶。
權(quán)利要求
1.帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置,包括影像輸入部,以幀為單位接收拍攝的影像,并對規(guī)定的選擇區(qū)域進行放大和縮小處理;影像前處理部,在頻率區(qū)域內(nèi)將上述影像輸入部接收的影像進行數(shù)據(jù)信號處理從而獲得文字區(qū)域并將文字的筆畫、幅度等信息做二進制處理;文字識別引擎部,它能夠?qū)⑸鲜龆M制化的文字信息以統(tǒng)計的方法與預(yù)先設(shè)置的字符數(shù)據(jù)基礎(chǔ)的字符進行比較,然后搜索出在構(gòu)造和統(tǒng)計上最少的字符;聲音合成處理部,將上述文字識別引擎部識別出的文字經(jīng)過聲音合成處理后變換成聲音。
2.如權(quán)利要求1所述的帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置,其特征在于,上述字符數(shù)據(jù)基礎(chǔ)是通過將多種形態(tài)的文字統(tǒng)計化而構(gòu)成的數(shù)據(jù)基礎(chǔ)。
3.如權(quán)利要求1所述的帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置,其特征在于,上述選擇區(qū)域是利用光學(xué)變焦或數(shù)據(jù)變焦構(gòu)成的可以進行選擇的區(qū)域。
4.如權(quán)利要求1所述的帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置,其特征在于,所述裝置進一步包括影像后處理部,對文字和背景進行影像處理,以便將通過上述文字識別引擎部識別的文字更清晰地顯示給用戶;用戶界面,顯示通過上述影像后處理部處理的文字和輸出通過上述聲音合成部變換的聲音。
5.帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的方法,包括接收所拍攝影像,并利用最大的解像度將規(guī)定的選擇區(qū)域進行重新選定并確保高解像度影像的步驟;在頻率區(qū)域內(nèi)對上述通過高解像度獲得的選擇區(qū)域進行有選擇性采樣的步驟;將上述被采樣的影像中除背景影像之外的、相當(dāng)于文字區(qū)域的方塊分成多個小文字區(qū)域的步驟;將上述小文字區(qū)域的文字與利用統(tǒng)計方法預(yù)先設(shè)置的字符數(shù)據(jù)基礎(chǔ)的字符相比較,搜索出最少的字符的步驟;以上述搜索出的標準字符為基礎(chǔ)進行再次標本化之后,將上述各小文字區(qū)域另行標本化的文字數(shù)據(jù)綜合起來的步驟;將上述綜合后的文字數(shù)據(jù)顯示在畫面上或通過聲音合成過程輸出聲音的步驟。
全文摘要
本發(fā)明是有關(guān)帶攝像頭的便攜式信息終端機的文字識別及聲音輸出的裝置和方法的。它由以下四個部分組成①影像輸入部。它能夠以幀為單位接收反拍攝的影像,并對規(guī)定的選擇區(qū)域進行放大和縮小等處理。②影像前處理部。它能夠在頻率區(qū)域內(nèi)將上述影像輸入部接收的影像進行數(shù)據(jù)信號處理從而獲得文字區(qū)域并將文字的筆畫、幅度等信息做二進制處理。③文字識別引擎部。它能夠?qū)⑸鲜龆M制化的文字信息與以統(tǒng)計方法預(yù)先設(shè)置的字符數(shù)據(jù)基礎(chǔ)的字符進行比較,然后搜索出在構(gòu)造和統(tǒng)計上最少的字符。④聲音合成處理部。它能夠?qū)⑸鲜鑫淖肿R別引擎部識別出的文字經(jīng)過聲音合成處理后變換成聲音。
文檔編號G06F3/16GK1773523SQ200410067969
公開日2006年5月17日 申請日期2004年11月8日 優(yōu)先權(quán)日2004年11月8日
發(fā)明者申鉉定, 安男皓 申請人:樂金電子(昆山)電腦有限公司