使用背景信息的移動裝置上的光學(xué)字符辨識的制作方法

文檔序號：6496329閱讀：156來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

使用背景信息的移動裝置上的光學(xué)字符辨識的制作方法
【專利摘要】本發(fā)明的實施例描述用于執(zhí)行背景敏感OCR的方法和設(shè)備。裝置使用耦合到所述裝置的相機來獲得圖像。所述裝置識別包括圖形對象的所述圖像的一部分。所述裝置推斷與所述圖像相關(guān)聯(lián)的背景且基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組。使用所述圖形對象群組來產(chǎn)生改進(jìn)的OCR結(jié)果?？墒褂脕碜园溈孙L(fēng)、GPS和相機等各種傳感器的輸入連同包含話音、觸摸和用戶使用模式的用戶輸入一起推斷用戶背景且選擇與所述所推斷的背景最相關(guān)的字典。
【專利說明】使用背景信息的移動裝置上的光學(xué)字符辨識
[0001]相關(guān)申請案的交叉參考
[0002]本申請案主張2011年8月29日申請的標(biāo)題為“具有背景信息的相機OCR (CAMERAOCR WITH CONTEXT INFORMATION) ”的第61/528，741號美國臨時申請案的優(yōu)先權(quán)，且所述申請案以引用的方式并入本文中。
【背景技術(shù)】
[0003]光學(xué)字符辨識(OCR)將書寫的、打字的或印刷的文本、圖形或符號的掃描圖像機械地或電子地轉(zhuǎn)變?yōu)闄C器編碼的文本。OCR是在計算機視覺和擴增現(xiàn)實應(yīng)用中的增長的研究領(lǐng)域。計算機視覺允許裝置感知其附近的環(huán)境。計算機視覺通過允許來自與現(xiàn)實世界的終端用戶交互的傳感輸入延伸到虛擬世界中而實現(xiàn)擴增現(xiàn)實中的應(yīng)用。在現(xiàn)實實例應(yīng)用中，具備計算機視覺功能的OCR可幫助視覺殘障的個人感知例如智能電話等個人移動裝置的相機的視野中的書寫文本和符號。
[0004]模擬到數(shù)字變換的時代還促進(jìn)了 OCR的應(yīng)用以及所述技術(shù)中的改進(jìn)。大多數(shù)文件柜和大型記錄摘要系統(tǒng)會進(jìn)行到數(shù)字可搜索媒體的變換。在OCR技術(shù)中的所有進(jìn)步下，OCR仍不適合于具有有限處理能力的移動裝置。來自由移動裝置俘獲的相機圖像的字符和符號的無限辨識會由于對不同語言和不同文化的字、字符和符號的龐大選擇而難以處理。因為OCR需要在移動裝置上實時或幾乎實時地運行以支持計算機視覺和擴增現(xiàn)實應(yīng)用，所以計算復(fù)雜性也是問題。
[0005]本發(fā)明的實施例解決了這些和其它問題。

【發(fā)明內(nèi)容】

[0006]本發(fā)明提供用于執(zhí)行背景敏感OCR的技術(shù)。本文中所描述的技術(shù)對于具有有限處理能力的移動裝置特別有用。然而，本文中所描述的技術(shù)的應(yīng)用不限于移動裝置，且可適用于所有OCR應(yīng)用。來自包含麥克風(fēng)、GPS和相機的各種傳感器的輸入連同包含話音、觸摸和用戶使用模式的用戶輸入一起用于推斷用戶背景且選擇與所推斷的背景最相關(guān)的字典的過程中。
[0007]—種用于執(zhí)行OCR的方法的實例包含:使用耦合到裝置的相機來獲得圖像；識別包括至少一個圖形對象的圖像的一部分；推斷與所述圖像相關(guān)聯(lián)的背景；基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組；以及使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果。在一些實施例中，改進(jìn)OCR結(jié)果包含使用所述圖形對象群組來執(zhí)行OCR。在另一實施例中，改進(jìn)所述OCR結(jié)果包含:通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者；以及使用所述圖形對象群組從所述多個OCR候選者中選擇一 OCR候選者。所述方法可進(jìn)一步包含使用OCR結(jié)果來改進(jìn)所述推斷的背景。
[0008]此方法的實施可包含以下特征中的一者或一者以上。圖形對象可包含符號、字符、字、標(biāo)志和數(shù)字中的一者或一者以上。所述圖形對象群組可包含通過共同特性而彼此相關(guān)聯(lián)的多個圖形對象，且可表示字典或字典的精煉。在本發(fā)明的一些方面中，圖像的背景是非文本的。在其它方面中，可使用圖形說明來推斷背景，其中圖形說明可來自包括對象的姿勢和圖形表示的群組中的至少一者。還可使用傳感器輸入來推斷圖像的背景?？赏ㄟ^相機、麥克風(fēng)、光傳感器、時鐘和GPS兀件中的一者或一者以上來提供所述傳感器輸入。還可通過估計相機與至少一個圖形對象之間的距離且基于所述相機與所述至少一個圖形對象之間的所述所估計的距離來推斷背景，而推斷背景。推斷背景還可包含:檢測與在其中獲得圖像的環(huán)境中的多個光線相關(guān)聯(lián)的至少一個特性；以及基于與所述多個光線相關(guān)聯(lián)的所述至少一個特性來推斷背景。此外，與所述多個光線相關(guān)聯(lián)的所述至少一個特性可為亮度，其中閾值以下的亮度會產(chǎn)生在室內(nèi)獲得圖像的推斷，且閾值以上的亮度會產(chǎn)生在室外獲得圖像的推斷
[0009]在其它實施方案中，推斷背景可包含:使用麥克風(fēng)接收音頻輸入；對所述視頻輸入執(zhí)行模式辨識；以及基于所述音頻輸入中的所辨識的模式來推斷背景。所述所辨識的模式可為來自用戶的話音命令，或相機的在接收音頻輸入時的位置的指示。推斷背景還可包含從用戶接收背景相關(guān)信息，且基于來自用戶的所述所接收的背景相關(guān)信息而推斷背景。還可基于裝置的位置來推斷背景，其可包含:估計裝置的位置；以及基于裝置的所述所估計的位置而推斷背景?？墒褂醚b置的GPS元件、相對于小區(qū)塔的信號的強度或來自麥克風(fēng)的音頻輸入來估計裝置的位置。
[0010]在一些實施例中，內(nèi)容語義和結(jié)構(gòu)分析還可用于分析與圖像相關(guān)聯(lián)的背景的過程中對于結(jié)構(gòu)布局分析，可將圖形對象之間的關(guān)系彼此進(jìn)行比較或與圖形說明進(jìn)行比較。圖形說明可為對象的姿勢或圖形表示。對于內(nèi)容語義分析，可分析圖形對象彼此的共現(xiàn)或與圖形說明的共現(xiàn)。
[0011]此外，可使用例如圖像中的以多種語言顯示的文本等圖形對象來分析內(nèi)容語義。在一個實施例中，識別包括呈第一種語言的第一圖形對象和呈第二種語言的第二圖形對象的圖像的一個或一個以上部分，其中所述第一圖形對象和所述第二圖形對象具有類似含義。還識別第一圖形對象的第一多個候選者以及第二圖形對象的第二多個候選者，且所述圖形對象是選自與第二多個候選者中的至少一者具有類似含義的第一多個候選者。此外，來自第一多個候選者的圖形對象可包含將第二圖形對象的第二多個候選者翻譯為第一語言；以及從第一多個候選者中找出與經(jīng)翻譯的第二多個候選者具有類似含義的至少一個圖形對象。
[0012]一種用于執(zhí)行OCR的裝置的實例包含:處理器；用于獲得圖像的相機；以及耦合到所述處理器的非暫時性計算機可讀存儲媒體，其中所述非暫時性計算機可讀存儲媒體包括可由所述處理器執(zhí)行以用于實施方法的代碼，所述方法包含:使用耦合到裝置的相機獲得圖像；識別包括至少一個圖形對象的圖像的一部分；推斷與所述圖像相關(guān)聯(lián)的背景；基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組；以及使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果。改進(jìn)OCR結(jié)果可包含使用所述圖形對象群組來執(zhí)行OCR。改進(jìn)所述OCR結(jié)果還可包含:通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者；以及使用所述圖形對象群組從所述多個OCR候選者中選擇一OCR候選者。所述裝置可進(jìn)一步使用所述OCR結(jié)果來改進(jìn)所述推斷的背景。此裝置的實施可包含上文關(guān)于其它實例所論述的特征中的一者或一者以上。
[0013]本發(fā)明的實施例的額外實例包含耦合到所述處理器的非暫時性計算機可讀存儲媒體，其中所述非暫時性計算機可讀存儲媒體包括可由所述處理器執(zhí)行以用于實施方法的代碼，所述方法可包含:使用耦合到裝置的相機獲得圖像；識別包括至少一個圖形對象的圖像的一部分；推斷與所述圖像相關(guān)聯(lián)的背景；基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組；以及使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果。改進(jìn)所述OCR結(jié)果包含使用所述圖形對象群組來執(zhí)行OCR。改進(jìn)所述OCR結(jié)果還可包含:通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者；以及使用所述圖形對象群組從所述多個OCR候選者中選擇一 OCR候選者。此設(shè)備的實施可包含上文關(guān)于其它實例所論述的特征中的一者或一者以上。
[0014]一種用于執(zhí)行OCR的方法的設(shè)備的又一實例可包含:用于使用耦合到裝置的相機來獲得圖像的裝置；用于識別包括至少一個圖形對象的圖像的一部分的裝置；用于推斷與所述圖像相關(guān)聯(lián)的背景的裝置；用于基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組的裝置；以及用于使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果的裝置。改進(jìn)所述OCR結(jié)果包含使用所述圖形對象群組來執(zhí)行OCR。改進(jìn)所述OCR結(jié)果還可包含:通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者；以及使用所述圖形對象群組從所述多個OCR候選者中選擇一 OCR候選者。此設(shè)備的實施可包含上文關(guān)于其它實例所論述的特征中的一者或一者以上。
[0015]前述內(nèi)容已相當(dāng)廣泛地概述了根據(jù)本發(fā)明的實例的特征及技術(shù)優(yōu)點以便可較好地理解下文的詳細(xì)描述。下文將描述額外特征和優(yōu)點。所揭示的概念和特定實施例可容易地用作用于修改或設(shè)計用于實行本發(fā)明的相同目的的其它結(jié)構(gòu)的基礎(chǔ)。此等效構(gòu)造不脫離所附權(quán)利要求書的精神和范圍。當(dāng)結(jié)合附圖進(jìn)行考慮時，將從以下描述更好地理解據(jù)信為本文所揭示的概念的特性的特征(關(guān)于其組織和操作方法兩者)連同相關(guān)聯(lián)的優(yōu)點。僅出于說明和描述的目的而提供各圖中的每一者，且其不作為對權(quán)利要求書的限制的界定。
【專利附圖】

【附圖說明】
[0016]參考圖式來提供以下描述，其中相同參考標(biāo)號始終用于指代相同元件。雖然在本文描述一種或一種以上技術(shù)的各種細(xì)節(jié)，但其它技術(shù)也是可能的。在一些情況下，以框圖形式來展示眾所周知的結(jié)構(gòu)和裝置以便有助于描述各種技術(shù)。
[0017]可通過參考說明書和圖式的其余部分來實現(xiàn)對由本發(fā)明提供的實例的性質(zhì)和優(yōu)點的進(jìn)一步理解，其中在所有若干圖式中使用相同的參考數(shù)字來指代類似組件。在一些情況下，子標(biāo)記與參考數(shù)字相關(guān)聯(lián)以表示多個類似組件中的一者。當(dāng)在沒有對現(xiàn)有子標(biāo)記的規(guī)范的情況下參考參考數(shù)字時，參考數(shù)字指代所有此類類似組件。
[0018]圖1說明并入有用于實踐本發(fā)明的實施例的裝置的若干部分的示范性計算機系統(tǒng)。
[0019]圖2A描繪展示由背景敏感OCR的移動裝置俘獲的圖像的示范性表示的圖。
[0020]圖2B描繪展示由背景敏感OCR的移動裝置俘獲的圖像的示范性表示的另一圖。
[0021]圖3說明流程圖，其展示使用背景信息來選擇OCR的圖形對象群組的非限制性示范性決策樹。
[0022]圖4說明流程圖，其描述背景敏感OCR的示范性實施例。
[0023]圖5是流程圖，其描述用于執(zhí)行背景敏感OCR的方法的又一示范性實施例。[0024]圖6是流程圖，其描述用于執(zhí)行背景敏感OCR的方法的一示范性實施例。
[0025]圖7是流程圖，其描述使用光條件的背景敏感OCR的另一示范性實施例。
[0026]圖8是流程圖，其展示其中選擇OCR的圖形對象群組的背景是基于來自麥克風(fēng)的輸入的示范性實施例。
[0027]圖9是流程圖，其描述使用手動輸入來用于背景敏感OCR的實施例。
[0028]圖10是流程圖，其論述用于執(zhí)行使用在其中俘獲圖像的位置來進(jìn)行背景敏感OCR的方法的另一實施例。
[0029]圖11是流程圖，其描述使用麥克風(fēng)來辨識環(huán)境以選擇背景敏感OCR的字典的另一示范性實施例。
[0030]圖12是流程圖，其描述使用內(nèi)容分析來進(jìn)行背景識別的實施例。
[0031]圖13是流程圖，其描述通過分析圖像的結(jié)構(gòu)布局來進(jìn)行背景識別的實施例。
[0032]圖14是流程圖，其描述使用內(nèi)容分析來進(jìn)行背景識別的實施例。
[0033]圖15是流程圖，其描述使用行為元素的背景敏感OCR的實施例。
[0034]圖16是多種語言的示范性交通標(biāo)志的框圖。
[0035]圖17是流程圖，其描述用于在標(biāo)志呈一種以上語言時增加OCR結(jié)果的準(zhǔn)確性和速度的方法。
【具體實施方式】
[0036]可并入如圖1中所說明的計算機系統(tǒng)以作為先前所描述的計算機化裝置的部分。舉例來說，計算機系統(tǒng)1200可表示移動裝置的組件中的一些。移動裝置可為具有比如相機和顯示單元等輸入傳感單元的任何計算裝置。移動裝置的實例包含(但不限于)視頻游戲控制臺、平板計算機、智能電話和任何其它手持式裝置。圖1提供計算機系統(tǒng)100的一個實施例的示意性說明，其可執(zhí)行如本文中所描述的各種其它實施例所提供的方法，且/或可充當(dāng)主機計算機系統(tǒng)、遠(yuǎn)程電話亭/終端、銷售點裝置、移動裝置、機頂盒和/或計算機系統(tǒng)。圖1僅打算提供各種組件的一股化說明，所述組件中的任一者或全部可在適當(dāng)時利用。因此，圖1廣泛地說明可如何以相對單獨或相對更整合的方式來實施個別系統(tǒng)元件。
[0037]計算機系統(tǒng)100被展示為包括可經(jīng)由總線105(或可在適當(dāng)時以其它方式通信)電耦合的硬件元件。所述硬件元件可包含:一個或一個以上處理器110，包含(不限制)一個或一個以上通用處理器和/或一個或一個以上專用處理器(例如，數(shù)字信號處理芯片、圖形加速處理器和/或類似物)；一個或一個以上輸入裝置115，其可包含(不限制)相機、傳感器(例如，包含慣性傳感器)、鼠標(biāo)、鍵盤和/或類似物；以及一個或一個以上輸出裝置120，其可包含(不限制)顯示單元、打印機和/或類似物。
[0038]計算機系統(tǒng)100可進(jìn)一步包含(且/或與之通信)一個或一個以上非暫時性存儲裝置125，其可包括(不限制)本地和/或網(wǎng)絡(luò)可存取存儲裝置，且/或可包含(不限制)磁盤驅(qū)動器、驅(qū)動陣列、光線存儲裝置、固態(tài)存儲裝置，例如隨機存取存儲器(“RAM”)和/或只讀存儲器(“R0M”)，其可為可編程的、閃存可更新的，和/或類似物。此些存儲裝置可經(jīng)配置以實施任何適當(dāng)?shù)臄?shù)據(jù)存儲裝置，包含(不限制)各種文件系統(tǒng)、數(shù)據(jù)庫結(jié)構(gòu)和/或類似物。
[0039]計算機系統(tǒng)100還可能包含通信子系統(tǒng)130，所述通信子系統(tǒng)可包含(不限制)調(diào)制解調(diào)器、網(wǎng)卡(無線或有線)、紅外線通信裝置、無線通信裝置和/或芯片組(例如，BluetoothTM裝置、802.11裝置、WiFi裝置、WiMax裝置、蜂窩式通信設(shè)施等)，和/或類似物。通信子系統(tǒng)130可準(zhǔn)許與網(wǎng)絡(luò)(例如，下文所描述的網(wǎng)絡(luò)(舉一個實例))、其它計算機系統(tǒng)和/或本文中所描述的任何其它裝置交換數(shù)據(jù)。在許多實施例中，計算機系統(tǒng)100將進(jìn)一步包括非暫時性工作存儲器135，其可包含如上文所描述的RAM或ROM裝置。
[0040]計算機系統(tǒng)100還可包括展示為同時位于工作存儲器135內(nèi)的軟件元件，包含操作系統(tǒng)140、裝置驅(qū)動器、可執(zhí)行庫和/或其它代碼，例如一個或一個以上應(yīng)用程序145，所述應(yīng)用程序可包括由各種實施例提供的計算機程序，且/或可經(jīng)設(shè)計以實施由其它實施例提供的方法且/或配置由其它實施例提供的系統(tǒng)，如本文中所描述。僅舉例來說，關(guān)于上文所論述的方法而描述的一個或一個以上過程可能被實施為可由計算機(和/或計算機內(nèi)的處理器)執(zhí)行的代碼和/或指令；在一方面中，此類代碼和/或指令可隨后用于配置和/或調(diào)適通用計算機(或其它裝置)來執(zhí)行根據(jù)所描述的方法的一個或一個以上操作。
[0041]一組這些指令和/或代碼可能存儲在計算機可讀存儲媒體上，例如上文所描述的存儲裝置125。在一些情況下，存儲媒體可能并入在例如計算機系統(tǒng)100等計算機系統(tǒng)內(nèi)。在其它實施例中，存儲媒體可能與計算機系統(tǒng)分開(例如，可移除媒體，例如壓縮光盤)，且/或提供在安裝包中，使得存儲媒體可用其上存儲的指令/代碼來編程、配置和/或調(diào)適通用計算機。這些指令可能采取可由計算機系統(tǒng)100執(zhí)行的可執(zhí)行代碼的形式，且/或可能采取源和/或可安裝代碼的形式，其在計算機系統(tǒng)100上編譯和/或安裝后(例如，使用多種一股可用的編譯器、安裝程序、壓縮/解壓縮公用程序等中的任一者)即刻采取可執(zhí)行代碼的形式。
[0042]可根據(jù)特定要求進(jìn)行實質(zhì)性變化。舉例來說，還可能使用定制的硬件，且/或特定元件可能實施于硬件、軟件(包含便攜式軟件，例如applet等)或兩者中。此外，可使用到例如網(wǎng)絡(luò)輸入/輸出裝置等其它計算裝置的連接。
[0043]一些實施例可使用計算機系統(tǒng)(例如，計算機系統(tǒng)100)來執(zhí)行根據(jù)本發(fā)明的方法。舉例來說，所描述的方法的過程中的一些或全部可由計算機系統(tǒng)100響應(yīng)于處理器110執(zhí)行工作存儲器135中所含有的一個或一個以上指令的一個或一個以上序列(其可能并入到操作系統(tǒng)140和/或其它代碼(例如，應(yīng)用程序145)中)來執(zhí)行。可從另一計算機可讀媒體(例如，存儲裝置125中的一者或一者以上)將此些指令讀取到工作存儲器135中。僅舉例來說，執(zhí)行工作存儲器135中所含有的指令的序列可能致使處理器110執(zhí)行本文中所描述的方法的一個或一個以上過程。
[0044]如本文中所使用的術(shù)語“機器可讀媒體”和“計算機可讀媒體”指代參與提供致使機器以特定方式操作的數(shù)據(jù)的任何媒體。在使用計算機系統(tǒng)100實施的實施例中，各種計算機可讀媒體可能涉及向處理器110提供指令/代碼以供執(zhí)行且/或可能用于存儲和/或攜載此類指令/代碼(例如，作為信號)。在許多實施方案中，計算機可讀媒體是物理的和/或有形的存儲媒體。此媒體可采取許多形式，包含(但不限于)非易失性媒體、易失性媒體和傳輸媒體。非易失性媒體包含(例如)光盤和/或磁盤，例如存儲裝置125。易失性媒體包含(不限制)動態(tài)存儲器，例如工作存儲器135。傳輸媒體包含(不限制)同軸電纜、銅線和光纖，包含包括總線105的電線，以及通信子系統(tǒng)130的各種組件(和/或通信子系統(tǒng)130借以提供與其它裝置的通信的媒體)。此處，傳輸媒體還可采取波(包含(不限制)無線電、聲波和/或光波，例如在無線電波和紅外線數(shù)據(jù)通信期間所產(chǎn)生的波)的形式。
[0045]物理的和/或有形的計算機可讀媒體的常見形式包含(例如)軟盤、柔性磁盤、硬盤、磁帶或任何其它磁性媒體、CD-ROM、任何其它光學(xué)媒體，穿孔卡、紙帶、具有孔圖案的任何其它物理媒體、RAM、PROM、EPROM、FLASH-EPR0M、任何其它存儲器芯片或盒式磁帶、載波(如下文所描述)，或計算機可從其讀取指令和/或代碼的任何其它媒體。
[0046]在將一個或一個以上指令的一個或一個以上序列載運到處理器110以供執(zhí)行的過程中可涉及各種形式的計算機可讀媒體。僅舉例來說，所述指令可起初被攜載在遠(yuǎn)程計算機的磁盤和/或光盤上。遠(yuǎn)程計算機可能將所述指令加載到其動態(tài)存儲器中，且經(jīng)由傳輸媒體將所述指令作為信號進(jìn)行發(fā)送以讓計算機系統(tǒng)100接收和/或執(zhí)行。根據(jù)本發(fā)明的各種實施例，可能呈電磁信號、聲學(xué)信號、光學(xué)信號和/或類似物的形式的這些信號是可在其上編碼指令的載波的全部實例。
[0047]通信子系統(tǒng)130 (和/或其組件)一股將接收所述信號，且總線105隨后可能將所述信號(和/或由所述信號載運的數(shù)據(jù)、指令等)載運到工作存儲器135，處理器110從所述工作存儲器檢索和執(zhí)行所述指令。由工作存儲器135接收的指令可在由處理器110執(zhí)行之前或之后任選地存儲于非暫時性存儲裝置125上。
[0048]上文所論述的方法、系統(tǒng)和裝置是實例。各種實施例可在適當(dāng)時省略、替代或添加各種過程或組件。舉例來說，在替代性配置中，所描述的方法可以不同于所描述的次序的次序執(zhí)行，且/或可添加、省略和/或組合各種階段。而且，關(guān)于某些實施例所描述的特征可組合在各種其它實施例中。實施例的不同方面和元件可以類似方式組合。而且，技術(shù)會演進(jìn)且因此許多元件是實例，其不將本發(fā)明的范圍限制于那些特定實例。
[0049]在描述中給出特定細(xì)節(jié)以提供對實施例的透徹理解。然而，可以在沒有這些特定細(xì)節(jié)的情況下實踐實施例。舉例來說，已在沒有不必要的細(xì)節(jié)的情況下展示眾所周知的電路、過程、算法、結(jié)構(gòu)和技術(shù)，以便避免使所述實施例模糊不清。此描述僅提供實例性實施例，且無意限制本發(fā)明的范圍、適用性或配置。而是，實施例的前述描述將向所屬領(lǐng)域的技術(shù)人員提供用于實施本發(fā)明的實施例的啟用性描述。在不脫離本發(fā)明的精神和范圍的情況下，可在元件的功能和布置方面作出各種改變。
[0050]而且，將一些實施例描述為被描繪為流程圖或框圖的過程。雖然每一實施例可將操作描述為連續(xù)過程，但許多操作可并行地或同時地執(zhí)行。另外，操作的次序可重新排列。過程可具有圖中未包含的額外步驟。此外，所述方法的實施例可由硬件、軟件、固件、中間件、微碼、硬件描述語言或其任何組合來實施。當(dāng)實施于軟件、固件、中間件或微碼中時，用以執(zhí)行相關(guān)聯(lián)的任務(wù)的程序代碼或代碼段可存儲在例如存儲媒體等計算機可讀媒體中。處理器可執(zhí)行相關(guān)聯(lián)的任務(wù)。
[0051]雖然已描述了若干實施例，但在不脫離本發(fā)明的精神的情況下，可使用各種修改、替代性構(gòu)造和等效物。舉例來說，以上元件可僅為較大系統(tǒng)的組件，其中其它規(guī)則可優(yōu)先于或以其它方式修改本發(fā)明的應(yīng)用。而且，可在考慮以上元件之前、期間或之后著手一定數(shù)目的步驟。因此，以上描述不限制本發(fā)明的范圍。
[0052]如本文所描述，來自圖像的圖形對象是OCR的目標(biāo)，且可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志、數(shù)字或文本。舉例來說，圖像中的圖形對象可為任何語言的字或句子。字可表示為一些語言的符號。類似地，一種語言或文化的句子可簡單地使用另一種語言或文化的符號來表示。在另一實例中，圖形對象可為例如STOP、YIELD等街道標(biāo)志。可在不同地區(qū)中、以不同語言或文化使用不同圖形對象來表示相同含義。另外，還可從圖像中識別圖形說明。圖形說明可包含對象(例如，文本文字、符號等)的姿勢或圖形表示。舉例來說，蘋果的圖像是字“蘋果”的圖形說明。一股來說，圖形說明輔助改進(jìn)圖形對象的OCR結(jié)果。
[0053]如本文中所描述，圖形對象群組可包括通過共同特性而彼此相關(guān)聯(lián)的多個圖形對象。在一個實施例中，圖形對象群組表示字典。在另一實施例中，圖形對象群組表示字典的精煉。在又一實施例中，圖形對象群組可為分組在一起的共享一個或一個以上特性的對象的索引。在本文中所描述的方法中，出于說明性目的而使用字典來描述一些實施例；然而，在這些實施例中使用字典不以任何方式具有約束性，且可利用任何圖形對象群組。
[0054]在一個實施方案中，對圖形對象群組的分組可預(yù)先確定且預(yù)先分類。舉例來說，可將圖形對象預(yù)先分類為不同地區(qū)和不同語言。在另一實施方案中，對圖形對象群組的分組可實時地或幾乎實時地執(zhí)行?？墒褂面溄恿斜怼㈥嚵?、數(shù)據(jù)庫或任何其它合適手段來組織和實施所述分組。
[0055]圖2A和2B描繪具有使用用于背景敏感OCR的移動裝置獲得的圖像的示范性表示的圖。背景敏感OCR通過收窄針對OCR而選擇的圖形對象群組而實現(xiàn)更準(zhǔn)確和更快速的OCR結(jié)果。在一個方面中，圖形對象群組可為符號或字的字典。一旦執(zhí)行0CR，便可使用檢測到的背景來產(chǎn)生或選擇一定數(shù)目的合適字?？墒筄CR結(jié)果與可用的字典匹配以找出檢測到的背景的正確字。背景敏感OCR可單獨地或彼此結(jié)合地使用本文中所描述的本發(fā)明的眾多不同實施例來為OCR選擇最合適的字典或字典的精煉。
[0056]圖2A是來自韓國餐館的菜單。舉例來說，移動裝置的用戶的位置可通過耦合到移動裝置的GPS元件或麥克風(fēng)而獲得，且可幫助識別語言，且可能還幫助識別特定餐館。文檔的結(jié)構(gòu)、照明、來自相機鏡頭的菜單的文本的焦距以及日時全部可幫助確定用戶正集中在正餐菜單。此允許移動裝置盡可能窄地選擇字典或進(jìn)一步精煉字典。使背景信息匹配會增加OCR的準(zhǔn)確性和速度，且還可潛在地降低OCR所需的處理能力。此外，在圖2A中，還以英語以更小的字體描述菜單項目。本發(fā)明的各方面還可對圖像的英語部分執(zhí)行OCR、將英語OCR結(jié)果翻譯為韓語，且將來自韓語OCR和英語OCR的潛在候選者進(jìn)行比較以選擇韓語OCR的最佳匹配。
[0057]類似地，圖2B是日本快速客運系統(tǒng)的圖像。文檔的位置、語言、照明、結(jié)構(gòu)、環(huán)境、噪聲條件以及許多其它類似輸入可幫助確定背景且為用戶加速用于辨識圖像中的文本和標(biāo)志的OCR過程。
[0058]圖3是流程圖，其說明使用背景信息來選擇OCR的圖形對象群組的非限制性示范性決策樹。圖形對象群組可為字典或字典的精煉。在關(guān)于圖3所描述的實施例中，字典從最寬準(zhǔn)則收窄為最窄或最集中的準(zhǔn)則。在其它實施例中，可在實現(xiàn)對背景和相關(guān)聯(lián)的字典的選擇的過程中使用僅一個源或傳感輸入。但是，在其它實施例中，在收窄對字典的選擇的過程中所采用的決策序列可在次序上不同。方法300由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法300由圖1的裝置100執(zhí)行。
[0059]參看圖3，在框302處，移動裝置可基于多種傳感器輸入(例如，來自麥克風(fēng)的音頻輸入、地理位置或從圖像辨識一些圖形對象)來確定語言。確定語言允許OCR顯著地收窄對用于產(chǎn)生OCR結(jié)果的正確字的搜索空間。
[0060]在框304處，移動裝置可基于來自位置識別符的輸入而確定位置?？墒褂脕碜砸苿友b置上的GPS元件的輸入、相對于小區(qū)電話塔的信號強度、用戶的麥克風(fēng)輸入或手動選擇而得到所述位置?？梢圆煌６忍峁┖褪褂盟鑫恢眯畔?。舉例來說，所述位置可幫助確定一人是在城市還是在郊區(qū)。所述位置信息還可特定為餐館或街道名稱。作為一實例，如果移動裝置確定所述位置是街道，那么可將含有那個特定城市的所有街道名稱的字典或經(jīng)精煉的字典用于更快速的OCR。
[0061]在框306處，選擇圖形對象群組的域。域可為背景的子分類。舉例來說，一個位置可具有多個域。在框304處，如果位置是街道，那么域可為街道標(biāo)志。類似地，如果位置是餐館，那么域可為信用卡或正餐菜單。稍后更詳細(xì)地描述的比如文檔結(jié)構(gòu)分析和內(nèi)容語義分析等許多技術(shù)也可用于確定域。
[0062]在框308處，可通過發(fā)現(xiàn)域中的關(guān)注焦點來進(jìn)一步收窄搜索。舉例來說，信用卡上的關(guān)注焦點可為人名或信用卡號。用戶可給出話音命令來選擇關(guān)注焦點或可觸摸圖像中的文本來選擇關(guān)注焦點。
[0063]在本發(fā)明的各種實施例中，可單獨地或彼此結(jié)合地使用不同背景源來確定背景，并且選擇OCR的最合適圖形對象群組。背景源的一些實例可包含位置、用戶、時鐘、相機和用戶模式。每一背景源可進(jìn)一步與傳感器輸入裝置相關(guān)聯(lián)。舉例來說，可使用移動裝置中存在的GPS元件、相對于小區(qū)電話塔的信號強度或通過音頻輸入來確定位置。用戶還可通過從移動裝置上顯示的菜單或通過對所述裝置的口頭命令來手動地選擇背景或字典而提供背景源。此外，可使用用戶行為模式來建構(gòu)源自用戶的背景。類似地，時鐘和日期可提供關(guān)于夜晚或白天環(huán)境或季節(jié)的重要信息。相機也是重要的背景源，因為相機可提供距離、字符大小、光條件等的背景。除了相機之外，移動裝置還可具有光傳感器來更好地度量光條件。
[0064]應(yīng)理解，圖3中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ?，或其之間的任何組合。另外，圖3中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法300的許多變化、修改和替代方案。
[0065]圖4是流程圖，其描述用于執(zhí)行背景敏感OCR的方法的一示范性實施例。方法400由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法400由圖1的裝置100執(zhí)行。
[0066]參考圖4，在框402處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框404處，識別包括圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志或數(shù)字。在一個實施方案中，在圖形對象周圍放置矩形文本框。在框406處，部分地或完全地辨識圖形對象。在一個方面中，利用OCR來辨識圖形對象。在框408處，識別圖形對象群組(例如，一個或一個以上字典)。在一個方面中，圖形對象群組可為基于圖像的背景產(chǎn)生的字典或字典的精煉。
[0067]在一個實施例中，與處理圖像并行地選擇圖像的背景，使得在來自O(shè)CR的結(jié)果就緒以查詢圖形對象群組之前，背景和圖形對象群組就緒或更接近就緒。在框410處，背景選擇器可基于來自不同傳感器的輸入和可能的用戶輸入來確定背景。所述背景可基于位置、相機輸入、時間輸入和歷史，以及其它因素。在框412處，一旦選擇正確的背景，可使適當(dāng)?shù)淖值浠蜃值涞木珶捙c選定的背景相關(guān)聯(lián)且前進(jìn)到框408。在框408處，使用基于圖像的背景而選擇的字典或字典的精煉來執(zhí)行搜索。在框414處，輸出OCR結(jié)果。
[0068]在另一實施例中，可在確定文本的背景的過程中使用文本距相機鏡頭的距離和物理字符大小。標(biāo)志距移動裝置的距離的知識實現(xiàn)可用于收窄圖形對象群組選擇的角度。舉例來說，街道上的標(biāo)志在遠(yuǎn)處。餐館中的菜單處于靠近范圍中。文本與書本可能會更靠近。對于實施例的此實施方案，可能不需要文本距相機的確切距離。替代地，可將距離劃分為更廣的類別，例如靠近、房間大小和遠(yuǎn)。在另一示范性分類中，距離可近似為單獨類別，例如在相機自動聚焦時的特寫、正常和無限遠(yuǎn)。此外，對字的數(shù)目的分組還可幫助產(chǎn)生標(biāo)的物的線索。舉例來說，街道標(biāo)志可具有約2到4個字。相比之下，文本-書本可具有20到30個字的更大分組。所投影的文本大小可幫助拘束OCR可能需要考慮的文本塊大小。
[0069]應(yīng)理解，圖4中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ剑蚱渲g的任何組合。另外，圖4中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法400的許多變化、修改和替代方案。
[0070]圖5是流程圖，其描述用于執(zhí)行背景敏感OCR的方法的又一示范性實施例。方法500由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法500由圖1的裝置100執(zhí)行。
[0071]參考圖5，在框502處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框504處，識別包括圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志或數(shù)字。在一個實施方案中，在圖形對象周圍放置矩形文本框。在框506處，部分地或完全地辨識圖形對象。在一個方面中，利用OCR來辨識圖形對象。在框508處，通過對圖形對象執(zhí)行OCR而產(chǎn)生一個或一個以上OCR候選者。在框510處，使用圖形對象群組從多個OCR候選者中選擇一 OCR候選者。舉例來說，執(zhí)行OCR可產(chǎn)生10個OCR候選者。同時，裝置還可基于建構(gòu)背景且基于所述背景來選擇圖形對象群組(例如，一個或一個以上字典)。在一個實施例中，可將與來自圖形對象群組的圖形對象中的一者匹配的最佳候選者或候選者視為OCR結(jié)果。
[0072]在一個實施例中，與處理圖像并行地選擇圖像的背景，使得在來自O(shè)CR的結(jié)果就緒以查詢圖形對象群組之前，背景和圖形對象群組就緒或更接近就緒。在框512處，背景選擇器可基于來自不同傳感器的輸入和可能的用戶輸入來確定背景。所述背景可基于位置、相機輸入、時間輸入和歷史，以及其它因素。在框514處，一旦選擇正確的背景，可使適當(dāng)?shù)淖值浠蜃值涞木珶捙c選定的背景相關(guān)聯(lián)且前進(jìn)到框510。在框510處，如上文所描述，使用圖形對象群組來選擇最佳候選者。在框516處，輸出OCR結(jié)果。
[0073]應(yīng)理解，圖5中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ?，或其之間的任何組合。另外，圖5中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法500的許多變化、修改和替代方案。
[0074]圖6是流程圖，其描述用于執(zhí)行背景敏感OCR的方法的一示范性實施例。方法600由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法600由圖1的裝置100執(zhí)行。
[0075]參看圖6，在框602處，可使用本文中所描述的機制來推斷圖形對象的背景。一旦推斷出OCR背景，在框604處，使用所推斷的背景來改進(jìn)OCR結(jié)果。另外，在框606處，可通過使用OCR結(jié)果進(jìn)一步改進(jìn)所推斷的背景。
[0076]應(yīng)理解，圖6中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ剑蚱渲g的任何組合。另外，圖6中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法600的許多變化、修改和替代方案。
[0077]圖7是流程圖，其說明用于基于在獲得圖像時的光條件來選擇OCR的背景的本發(fā)明的實施例。方法700由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法700由圖1的裝置100執(zhí)行。
[0078]參看圖7，在一個實施例中，選擇OCR的字典的背景是基于在獲得圖像時的光條件。字典是在描述圖7時用于說明性目的的圖形對象群組的實例。在框702處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框704處，識別包括圖形對象(例如，字)的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志或數(shù)字。在一個實施方案中，在圖形對象周圍放置矩形文本框。在框706處，部分地或完全地辨識圖形對象。在一個方面中，利用OCR來辨識圖形對象。在框708處，識別圖形對象群組。在一個方面中，圖形對象群組可為基于圖像的背景產(chǎn)生的字典或字典的精煉。
[0079]在框710處,移動裝置從光傳感器接收輸入。在一個實施方案中，可將光電池用作光傳感器?；趤碜怨鈧鞲衅鞯妮斎?，移動裝置可確定圖片是在室外還是在室內(nèi)取得。舉例來說，可使用光傳感器的輸出來確定與多個光線相關(guān)聯(lián)的亮度。在一個實施例中，如果閾值以下的亮度會產(chǎn)生在室內(nèi)獲得圖像的推斷，且閾值以上的亮度會產(chǎn)生在室外獲得圖像的推斷。光線的亮度可指代明度、色溫或兩者。此外，在一些實施例中，為了增加決策的質(zhì)量，移動裝置還可檢測不同于僅室內(nèi)環(huán)境非常良好地照亮的陽光的性質(zhì)。舉例來說，可使用熒光燈來良好地照亮房間。在框712處，移動裝置確定圖像是在室內(nèi)還是在外面俘獲。通過知道在哪里俘獲圖像來顯著地收窄對字典的選擇。舉例來說，在室內(nèi)獲得的圖像的OCR將針對將一股具有較小的印刷(比如餐館菜單或書本)的字典或字典的精煉。另一方面，圖像的室外俘獲的OCR將針對將一股具有較大的印刷且在外面發(fā)現(xiàn)(比如街道名稱)的字典。在框714處，選擇字典且將字典提供給框708。在框708處，從選定的字典選擇適當(dāng)?shù)淖帧Ｔ诳?16處，輸出OCR結(jié)果。
[0080]應(yīng)理解，圖7中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ?，或其之間的任何組合。另外，圖7中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法700的許多變化、修改和替代方案。
[0081]圖8是流程圖，其展示其中選擇OCR的字典的背景是基于來自麥克風(fēng)的輸入的一個實施例。方法800由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法800由圖1的裝置100執(zhí)行。
[0082]參考圖8，在框802處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框804處，識別包括圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志或數(shù)字。在一個實施方案中，在圖形對象周圍放置矩形文本框。在框806處，部分地或完全地辨識圖形對象。在一個方面中，利用OCR來辨識圖形對象。
[0083]在框810處，麥克風(fēng)通過麥克風(fēng)接收音頻輸入且記錄音頻。在框812處，移動裝置對音頻記錄執(zhí)行語音辨識。在一些實施例中，用戶可能夠口頭地選擇在框802中俘獲的圖像的背景。舉例來說，用戶可指定應(yīng)從其選擇字典的語言。在其它實施例中，用戶還可口頭地選擇用戶從圖像感興趣的特定字段。舉例來說，用戶可選擇可在圖像中看見的適當(dāng)名稱或數(shù)字，或用戶可給出更特定的口頭命令來選擇信用卡號或項目的成本來用于OCR處理。在框814處，在一個實施例中，可從所辨識的音頻模式檢測關(guān)鍵字。在另一實施例中，基于所辨識的音頻模式來推斷背景。在框808處，來自框814的所檢測的關(guān)鍵字和所推斷的背景可進(jìn)一步用于改進(jìn)OCR結(jié)果的過程中。在一個實施例中，在框808處，顯示覆蓋由用戶在屏幕上選擇的字。在框816處，可輸出OCR結(jié)果。
[0084]應(yīng)理解，圖8中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ剑蚱渲g的任何組合。另外，圖8中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法800的許多變化、修改和替代方案。
[0085]圖9是流程圖，其描述使用手動輸入來用于背景敏感OCR的實施例。方法900由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法900由圖1的裝置100執(zhí)行。
[0086]參考圖9，在框902處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框904處，識別包括圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志或數(shù)字。在一個實施方案中，在圖形對象周圍放置矩形文本框。在框906處，部分地或完全地辨識圖形對象。在一個方面中，利用OCR來辨識圖形對象。
[0087]圖9中的實施例可結(jié)合本文中所論述的其它實施例來使用。在一個實例中，可使用不同的背景源來選擇不同的字典，且呈現(xiàn)給用戶以進(jìn)行最終選擇。在又一實施例中，用戶可通過移動裝置所提供的用戶接口由用戶手動地選擇將用于背景中的字典。在框910處，來自各種源的候選字典被選擇且呈現(xiàn)給用戶以進(jìn)行最終選擇。在框912處，用戶選擇字典。在框914處，在選擇字典的過程中考慮到來自用戶輸入的反饋。在一些實施例中，用戶可選擇字典的背景而非字典本身。在其它實施例中，用戶可選擇字典的分組或類別。在框908處，基于用戶選擇來辨識圖形對象且輸出OCR的最終結(jié)果(框916)。
[0088]應(yīng)理解，圖9中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ?，或其之間的任何組合。另外，圖9中所說明的個別步驟可包含可在對所述個別步驟適當(dāng)各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法900的許多變化、修改和替代方案。
[0089]圖10是流程圖，其論述用于使用俘獲圖像的位置來進(jìn)行背景敏感OCR的方法的另一實施例。舉例來說，如果用戶在特定餐館內(nèi)，那么所選擇的字典可為那個餐館特有的。方法1000由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法1000由圖1的裝置100執(zhí)行。
[0090]參考圖10，在框1002處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框1004處，識別包括圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志或數(shù)字。在一個實施方案中，在圖形對象周圍放置矩形文本框。在框1006處，部分地或完全地辨識圖形對象。在一個方面中，利用OCR來辨識圖形對象。
[0091]在框1010處，獲得數(shù)據(jù)的位置。在一個實施例中，可使用移動裝置中的GPS元件來斷定俘獲圖像的人的位置?；蛘?，可使用相對于小區(qū)塔的信號的強度或通過比如WiFi等無線接入點連接或任何其它合適手段來確定用戶位置。在框1012處，移動裝置處理位置數(shù)據(jù)以確定位置的細(xì)節(jié)。位置的粒度還可確定所選擇的字典的粒度。在框1014處，選擇基于位置的字典。如果在框1012中選擇的位置是國家或國家的特定地區(qū)，那么可在框1014處選擇那個地區(qū)的適當(dāng)?shù)恼Z言字典。舉例來說，對于韓國的用戶，可選擇韓語。
[0092]通過在框1012處所斷定的位置的粒度的增加，可在框1014處選擇進(jìn)一步精煉的字典。在另一實施例中，移動裝置可接入網(wǎng)絡(luò)以獲取關(guān)于某一位置的更多信息。舉例來說，在一個實施例中，一旦獲得移動裝置的GPS坐標(biāo)，移動裝置可查詢本地或遠(yuǎn)程定位的數(shù)據(jù)庫以斷定與位置相關(guān)聯(lián)的細(xì)節(jié)。在一個實例中，在框1012處，特定位置的GPS坐標(biāo)與希臘餐館相關(guān)聯(lián)。在框1014處，為OCR選擇的字典可為那個餐館特有的。如果那個餐館特有的字典不可得，那么可選擇與希臘食物相關(guān)的更多一股字典。在框1008處，基于來自框1014的位置背景從圖形對象群組中選擇所識別的圖形對象。在框1018處，可輸出選定的OCR圖形對象。
[0093]在框1016處，麥克風(fēng)傳感器還可在框1012處提供位置信息以用于確定特定位置。在一個實例中，餐館可具有與那個位置相關(guān)聯(lián)的簽名音調(diào)。移動裝置記錄并分析所述音調(diào)且在本地在移動裝置上或在遠(yuǎn)程服務(wù)器上確定與所述音調(diào)相關(guān)聯(lián)的位置。第12/898,647號相關(guān)專利申請案“使用環(huán)境信息的移動裝置位置估計(Mobile device locationestimation using environmental information) ”專利申請案更詳細(xì)地描述了用于確定餐館的此實施例。
[0094]應(yīng)理解，圖10中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ?，或其之間的任何組合。另外，圖10中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法1000的許多變化、修改和替代方案。
[0095]圖11是流程圖，其描述使用麥克風(fēng)來辨識環(huán)境以選擇背景敏感OCR的圖形對象群組的另一示范性實施例。字典是在描述圖11時用于說明性目的的圖形對象群組的實例。方法1100由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法1100由圖1的裝置100執(zhí)行。
[0096]參考圖11，在框1102處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框1104處，識別包括圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、標(biāo)志或數(shù)字。在一個實施方案中，在圖形對象周圍放置矩形文本框。在框1106處，部分地或完全地辨識圖形對象。在一個方面中，利用OCR來辨識圖形對象。
[0097]在方框1110處，麥克風(fēng)從周圍環(huán)境接收輸入。在方框1112處，分析從框1110接收的音頻輸入?；谒鲆曨l輸入來辨識用戶的環(huán)境。舉例來說，在框1112處，移動裝置可確定所述環(huán)境是餐館、街道或辦公室。在框1114處，移動裝置可基于使用來自麥克風(fēng)的音頻輸入所檢測到的環(huán)境來選擇適當(dāng)?shù)淖值?，且將所述字典提供給框1108。在框1108處，基于所推斷的背景從字典選擇適當(dāng)?shù)膱D形對象且在框1116處輸出。第61/449，475號相關(guān)臨時專利申請案“在本地裝置和服務(wù)器上辨識環(huán)境(Recognizing environmental sound onlocal device and server)專利申請案更詳細(xì)地描述了用于檢測環(huán)境因素的此實施例?！?br> [0098]應(yīng)理解，圖11中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ剑蚱渲g的任何組合。另外，圖11中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法1100的許多變化、修改和替代方案。
[0099]圖12是流程圖，其描述使用內(nèi)容分析來進(jìn)行背景識別的實施例。在此實施例中，最終的OCR結(jié)果考慮到文檔結(jié)構(gòu)分析、內(nèi)容語義分析和傳統(tǒng)的OCR結(jié)果，之后輸出OCR結(jié)果。方法1200由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法1200由圖1的裝置100執(zhí)行。
[0100]參考圖12，在框1202處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框1204處，識別包括例如文本等圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、文本、標(biāo)志或數(shù)字。文本是在描述圖12時用于說明性目的的圖形對象的實例；然而，可結(jié)合類似的方法使用任何圖形對象。另外，還可在框1204處識別圖形說明。圖形說明可包含對象(例如，文本文字、符號等)的姿勢或圖形表示。舉例來說，蘋果的圖像是字“蘋果”的圖形說明。一股來說，圖形說明輔助改進(jìn)圖形對象的OCR結(jié)果。在一個實施方案中，在文本周圍放置矩形文本框。一旦在框1204處檢測到文本區(qū)，可在框1206處并行地開始對文本區(qū)的文檔結(jié)構(gòu)分析和內(nèi)容語義分析。
[0101]文檔結(jié)構(gòu)分析開始于框1208處。文檔結(jié)構(gòu)分析集中于例如文本等圖形對象的結(jié)構(gòu)和布局，以及任何所識別的圖形說明，以確定圖形對象的背景。舉例來說，餐館處的正餐菜單具有與書本封面顯著不同的文本布局。文檔結(jié)構(gòu)分析可集中于文本區(qū)的一元特征，比如字體高度，且還集中于文本區(qū)之間的二元特征。二元特征可包含特殊布置的分析，比如共線性以及水平和垂直重疊的程度。
[0102]一旦檢測到具有文本的部分，對文檔的內(nèi)容語義分析也可開始。在框1210處，執(zhí)行初步的OCR。從OCR輸出的所辨識的文本(框1212)用于內(nèi)容語義分析。舉例來說，一旦使用OCR部分辨識出一些字，那么可實施使用那些字來推斷背景的各種方案(框1214)。在一個實施例中，在使用屬于最頻繁檢測到的類別的字來建構(gòu)背景的情況下，使用多數(shù)表決方案。在另一實施例中，可基于背景來推斷域?qū)Ｓ械谋尘?。在一些實施例中，?nèi)容語義分析與文檔結(jié)構(gòu)分析結(jié)合工作來推斷背景。舉例來說，在餐館菜單中，食物名稱和價格一起出現(xiàn)。類似地，在書本標(biāo)題中，人名以相對小的字體出現(xiàn)。
[0103]在框1216處，使用來自文檔結(jié)構(gòu)分析和內(nèi)容語義分析的背景來精煉字典。字典是在圖12中用于說明性目的的圖形對象群組的實例；然而，可利用使用任何圖形對象群組的其它方法。在框1218處，執(zhí)行另一 OCR。來自O(shè)CR的結(jié)果使用在框1216處產(chǎn)生的來自文檔結(jié)構(gòu)分析和內(nèi)容語義分析的經(jīng)精煉字典。一旦在框1206處檢測到文本區(qū)，在框1218處，OCR可與文檔結(jié)構(gòu)分析和內(nèi)容語義分析并行地開始。在框1220處，產(chǎn)生背景敏感OCR的輸出文本。
[0104]應(yīng)理解，圖12中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ剑蚱渲g的任何組合。另外，圖12中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法1200的許多變化、修改和替代方案。
[0105]圖13是流程圖，其描述通過分析圖像的結(jié)構(gòu)布局來進(jìn)行背景識別的實施例。在一個實施例中，最終的OCR結(jié)果考慮到文檔結(jié)構(gòu)分析以及傳統(tǒng)的OCR結(jié)果，之后輸出OCR結(jié)果。方法1300由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法1300由圖1的裝置100執(zhí)行。
[0106]參考圖13，在框1302處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框1304處，識別包括例如文本等圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、文本、標(biāo)志或數(shù)字。文本是在描述圖13時用于說明性目的的圖形對象的實例；然而，可結(jié)合類似的方法使用任何圖形對象。另外，還可在框1304(未圖示)處識別圖形說明。圖形說明可包含對象(例如，文本文字、符號等)的姿勢或圖形表示。舉例來說，蘋果的圖像是字“蘋果”的圖形說明。一股來說，圖形說明輔助改進(jìn)圖形對象的OCR結(jié)果。在一個實施方案中，在圖形對象周圍放置矩形文本框。一旦在框1304處檢測到具有圖形對象和/或圖形說明的圖像的一個或一個以上部分，在框1308處，可并行地開始文檔結(jié)構(gòu)分析。
[0107]文檔結(jié)構(gòu)分析開始于框1308處。文檔結(jié)構(gòu)分析集中于例如文本等圖形對象的結(jié)構(gòu)和布局，以及任何所識別的圖形說明，以確定圖形對象的背景。舉例來說，餐館處的正餐菜單具有與書本封面顯著不同的文本布局。文檔結(jié)構(gòu)分析可集中于文本區(qū)的一元特征，比如字體高度，且還集中于圖形對象或圖形對象和圖形說明之間的二元特征。還可在產(chǎn)生文檔結(jié)構(gòu)分析的同時考慮文檔的額外特征，例如空白和表格。二元特征可包含特殊布置的分析，比如共線性以及水平和垂直重疊的程度。
[0108]在框1310處，使用來自文檔結(jié)構(gòu)分析的背景來精煉字典。字典是在圖13中用于說明性目的的圖形對象群組的實例；然而，可利用使用任何圖形對象群組的其它方法。在框1306處，識別來自圖像的圖形對象?？蓤?zhí)行另一 OCR以用于識別圖形對象。在識別圖形對象的過程中，所述方法可使用在框1310處產(chǎn)生的來自文檔結(jié)構(gòu)分析的經(jīng)精煉字典。在框1312處，產(chǎn)生背景敏感OCR的輸出文本。
[0109]應(yīng)理解，圖13中所說明的特定步驟提供根據(jù)本發(fā)明的實施例的在操作模式之間切換的特定方法。因此在替代性實施例中還可執(zhí)行其它步驟序列。舉例來說，本發(fā)明的替代性實施例可以不同次序執(zhí)行上文概述的步驟。為了說明，用戶可選擇從第三操作模式改變?yōu)榈谝徊僮髂Ｊ?，從第四模式改變?yōu)榈诙Ｊ?，或其之間的任何組合。另外，圖13中所說明的個別步驟可包含在對所述個別步驟適當(dāng)時可在各種序列中執(zhí)行的多個子步驟。此外，可取決于特定應(yīng)用而添加或移除額外的步驟。所屬領(lǐng)域的技術(shù)人員將認(rèn)識和了解方法1300的許多變化、修改和替代方案。
[0110]圖14是流程圖，其描述使用內(nèi)容分析來進(jìn)行背景識別的實施例。在一個實施例中，最終的OCR結(jié)果考慮到內(nèi)容語義分析以及傳統(tǒng)的OCR結(jié)果，之后輸出OCR結(jié)果。方法1400由包括硬件(電路、專用邏輯等)、軟件(例如，運行在通用計算系統(tǒng)或?qū)Ｓ脵C器上)、固件(嵌入式軟件)或其任何組合的處理邏輯執(zhí)行。在一個實施例中，方法1400由圖1的裝置100執(zhí)行。
[0111]參考圖14，在框1402處獲得圖像。在一個實施例中，使用耦合到移動裝置的相機來獲得所述圖像。一旦獲得所述圖像，在框1404處，識別包括例如文本等圖形對象的圖像的一部分。圖像中的圖形對象可包含(但不限于)一個或一個以上符號、字母數(shù)字字符、字、文本、標(biāo)志或數(shù)字。文本是在描述圖14時用于說明性目的的圖形對象的實例；然而，可結(jié)合類似的方法使用任何圖形對象。另外，還可在框1404處識別圖形說明。圖形說明可包含對象(例如，文本文字、符號等)的姿勢或圖形表示。舉例來說，蘋果的圖像是字“蘋果”的圖形說明。一股來說，圖形說明輔助改進(jìn)圖形對象的OCR結(jié)果。在一個實施方案中，在圖形對象周圍放置矩形文本框。一旦在框1404處檢測到圖形對象區(qū)，可在框1408處開始對文本區(qū)的內(nèi)容語義分析。
[0112]一旦檢測到具有圖形對象的部分，可通過識別圖形對象來開始對文檔的內(nèi)容語義分析(框1408)。在框1410處，可執(zhí)行初步的OCR。在框1412處，從OCR輸出的所辨識的圖形對象(框1410)用于內(nèi)容語義分析。舉例來說，一旦使用OCR部分辨識出一些字，那么可實施使用那些字來推斷背景的各種方案。在一個實施例中，在使用屬于最頻繁檢測到的類別的字來建構(gòu)背景的情況下，使用多數(shù)表決方案。在另一實施例中，可基于背景來推斷域?qū)Ｓ械谋尘?。在一些實施例中，?nèi)容語義分析與文檔結(jié)構(gòu)分析結(jié)合工作來推斷背景。舉例來說，在餐館菜單中，食物名稱和價格一起出現(xiàn)。
[0113]在一個實施例中，在框1412處，分析內(nèi)容語義是基于分析圖形對象之間的共現(xiàn)的概率。在本發(fā)明的一個方面中，可基于圖形對象(例如，在圖像中找到的字)的關(guān)聯(lián)來確定背景。舉例來說，一意大利菜單項目常常與其它意大利菜單項目一起被看到。類似地，地鐵站名稱一起被看到。這些群組中的字之間的相關(guān)性相對很高。具有高相關(guān)性的字和文本塊的共現(xiàn)矩陣可預(yù)先產(chǎn)生或通過訓(xùn)練裝置而創(chuàng)建或更新。
[0114]在一個實施例中，可通過以下等式來表示共現(xiàn)矩陣的最大化的總共現(xiàn)率:
【權(quán)利要求】
1.一種用于執(zhí)行OCR的方法，所述方法包括: 使用耦合到裝置的相機來獲得圖像；識別包括至少一個圖形對象的所述圖像的一部分；推斷與所述圖像相關(guān)聯(lián)的背景；基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組；以及使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其中改進(jìn)所述OCR結(jié)果包括使用所述圖形對象群組來執(zhí)行OCR。
3.根據(jù)權(quán)利要求1所述的方法，其中改進(jìn)所述OCR結(jié)果包括: 通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者；以及使用所述圖形對象群組從所述多個OCR候選者中選擇一 OCR候選者。
4.根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括使用所述OCR結(jié)果來改進(jìn)所述所推斷的進(jìn)旦同ο
5.根據(jù)權(quán)利要求1所述的方法，其中所述至少一個圖形對象包括符號、字符、字、標(biāo)志和數(shù)字中的一者或一者以上。
6.根據(jù)權(quán)利要求1所述的方法，其中所述圖形對象群組包括通過共同特性而彼此相關(guān)聯(lián)的多個圖形對象。
7.根據(jù)權(quán)利要求1所述的方法，其中所述圖形對象群組表示字典。
8.根據(jù)權(quán)利要求1所述的方法，其中所述圖形對象群組表示字典的精煉。
9.根據(jù)權(quán)利要求1所述的方法，其中所述圖像的所述背景是非文本的。
10.根據(jù)權(quán)利要求1所述的方法，其中使用圖形說明來推斷所述背景，其中所述圖形說明是來自包括對象的姿勢和圖形表示的群組的至少一者。
11.根據(jù)權(quán)利要求1所述的方法，其中使用傳感器輸入來推斷所述圖像的所述背景。
12.根據(jù)權(quán)利要求11所述的方法，其中通過所述相機、麥克風(fēng)、光傳感器、時鐘和GPS元件中的一者或一者以上來提供所述傳感器輸入。
13.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括: 估計所述相機與所述至少一個圖形對象之間的距離；以及基于所述相機與所述至少一個圖形對象之間的所述所估計的距離來推斷所述背景。
14.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括: 檢測與在其中獲得所述圖像的環(huán)境中的多個光線相關(guān)聯(lián)的至少一個特性；以及基于與所述多個光線相關(guān)聯(lián)的所述至少一個特性來推斷所述背景。
15.根據(jù)權(quán)利要求14所述的方法，其中與所述多個光線相關(guān)聯(lián)的所述至少一個特性是亮度，其中閾值以下的亮度會產(chǎn)生在室內(nèi)獲得所述圖像的推斷，且所述閾值以上的亮度會產(chǎn)生在室外獲得所述圖像的所述推斷。
16.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括: 使用麥克風(fēng)接收音頻輸入；對所述視頻輸入執(zhí)行模式辨識；以及基于所述音頻輸入中的所辨識的模式來推斷所述背景。
17.根據(jù)權(quán)利要求16所述的方法，其中所述所辨識的模式包括來自用戶的話音命令。
18.根據(jù)權(quán)利要求16所述的方法，其中所述所辨識的模式包括所述相機在接收所述音頻輸入時的位置的指示。
19.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括: 從用戶接收背景相關(guān)信息；以及基于來自所述用戶的所述所接收的背景相關(guān)信息來推斷所述背景。
20.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括: 估計所述裝置的位置；以及基于所述裝置的所述所估計的位置來推斷所述背景。
21.根據(jù)權(quán)利要求20所述的方法，其中使用所述裝置的GPS元件來估計所述裝置的所述位置。
22.根據(jù)權(quán)利要求20所述的方法，其中使用相對于小區(qū)塔的信號的強度來估計所述裝置的所述位置。
23.根據(jù)權(quán)利要求20所述的方法，其中使用來自麥克風(fēng)的音頻輸入來估計所述裝置的所述位置。
24.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括基于分析所述圖像的結(jié)構(gòu)布局來推斷所述背景。
25.根據(jù)權(quán)利要求24所述的方法，其中通過比較多個圖形對象之間的關(guān)系來分析所述結(jié)構(gòu)布局。
26.根據(jù)權(quán)利要求24所述的方法，其中通過比較至少一個圖形對象與至少一個圖形說明之間的關(guān)系來分析所述結(jié)構(gòu)布局。
27.根據(jù)權(quán)利要求26所述的方法，其中所述至少一個圖形說明包括來自包括對象的姿勢和圖形表示的群組的至少一者。
28.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括分析與所述圖像相關(guān)聯(lián)的多個內(nèi)容語義。
29.根據(jù)權(quán)利要求28所述的方法，其中分析所述多個內(nèi)容語義是基于分析多個圖形對象之間的共現(xiàn)的概率。
30.根據(jù)權(quán)利要求28所述的方法，其中分析所述多個內(nèi)容語義是基于分析至少一個圖形對象與至少一個圖形說明之間的關(guān)系。
31.根據(jù)權(quán)利要求30所述的方法，其中所述至少一個圖形說明包括來自包括對象的姿勢和圖形表示的群組的至少一者。
32.根據(jù)權(quán)利要求28所述的方法，其中基于多種語言來分析所述多個內(nèi)容語義。
33.根據(jù)權(quán)利要求1所述的方法，其中推斷所述背景包括從多個圖形對象中識別至少一個圖形對象；以及基于來自所述多個圖形對象的所述至少一個所識別的圖形對象來推斷所述背景。
34.根據(jù)權(quán)利要求33所述的方法，其中推斷所述背景包括: 使用來自至少一個傳感器的輸入來檢測環(huán)境因素；在存在類似環(huán)境因素期間檢索用戶的過去行為響應(yīng)；以及使用所述用戶的過去行為響應(yīng)來推斷所述背景。
35.根據(jù)權(quán)利要求34所述的方法，其中環(huán)境因素包括時間、位置、聲音以及所述圖像的主體距所述用戶的距離中的一者或一者以上。
36.根據(jù)權(quán)利要求32所述的方法，其中基于多種語言來分析所述多個內(nèi)容語義包括: 識別包括呈第一種語言的第一圖形對象和呈第二種語言的第二圖形對象的所述圖像的一個或一個以上部分，其中所述第一圖形對象和所述第二圖形對象具有類似含義；識別所述第一圖形對象的第一多個候選者以及所述第二圖形對象的第二多個候選者；以及從與所述第二多個候選者中的至少一者具有類似含義的所述第一多個候選者中選擇圖形對象。
37.根據(jù)權(quán)利要求36所述的方法，其中從所述第一多個候選者中選擇所述圖形對象包括: 將所述第二圖形對象的所述第二多個候選者翻譯為所述第一語言；以及從所述第一多個候選者中找出與所述經(jīng)翻譯的第二多個候選者具有所述類似含義的至少一個圖形對象。
38.一種裝置，其包括: 處理器；用于獲得圖像的相機；以及耦合到所述處理器的非暫時性計算機可讀存儲媒體，其中所述非暫時性計算機可讀存儲媒體包括可由所述處理器執(zhí)行以用于實施方法的代碼，所述方法包括: 使用耦合到所述裝置的所述相機來獲得圖像；識別包括至少一個圖形對象的所述圖像的一部分；推斷與所述圖像相關(guān)聯(lián)的背景；基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組；以及使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果。
39.根據(jù)權(quán)利要求38所述的裝置，其中改進(jìn)所述OCR結(jié)果包括使用所述圖形對象群組來執(zhí)行OCR。
40.根據(jù)權(quán)利要求38所述的裝置，其中改進(jìn)所述OCR結(jié)果包括: 通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者；以及使用所述圖形對象群組從所述多個OCR候選者中選擇一 OCR候選者。
41.根據(jù)權(quán)利要求38所述的裝置，其進(jìn)一步包括使用所述OCR結(jié)果來改進(jìn)所述所推斷的背景。
42.根據(jù)權(quán)利要求38所述的裝置，其中所述至少一個圖形對象包括符號、字符、字、標(biāo)志和數(shù)字中的一者或一者以上。
43.根據(jù)權(quán)利要求38所述的裝置，其中所述圖形對象群組包括通過共同特性而彼此相關(guān)聯(lián)的多個圖形對象。
44.根據(jù)權(quán)利要求38所述的裝置，其中所述圖形對象群組表示字典。
45.根據(jù)權(quán)利要求38所述的裝置，其中所述圖形對象群組表示字典的精煉。
46.根據(jù)權(quán)利要求38所述的裝置，其中所述圖像的所述背景是非文本的。
47.根據(jù)權(quán)利要求38所述的裝置，其中所述背景是使用圖形說明來推斷，其中所述圖形說明是來自包括對象的姿勢和圖形表示的群組的至少一者。
48.根據(jù)權(quán)利要求38所述的裝置，其中所述圖像的所述背景是使用傳感器輸入來推斷。
49.根據(jù)權(quán)利要求48所述的裝置，其中所述傳感器輸入是通過所述相機、麥克風(fēng)、光傳感器、時鐘和GPS元件中的一者或一者以上來提供。
50.根據(jù)權(quán)利要求38所述的裝置，其中推斷所述背景包括: 估計所述相機與所述至少一個圖形對象之間的距離；以及基于所述相機與所述至少一個圖形對象之間的所述所估計的距離來推斷所述背景。
51.根據(jù)權(quán)利要求38所述的裝置，其中推斷所述背景包括: 檢測與在其中獲得所述圖像的環(huán)境中的多個光線相關(guān)聯(lián)的至少一個特性；以及基于與所述多個光線相關(guān)聯(lián)的所述至少一個特性來推斷所述背景。
52.根據(jù)權(quán)利要求51所述的裝置，其中與所述多個光線相關(guān)聯(lián)的所述至少一個特性是亮度，其中閾值以下的亮度會產(chǎn)生在室內(nèi)獲得所述圖像的推斷，且所述閾值以上的亮度會產(chǎn)生在室外獲得所述圖像的所述推斷。
53.根據(jù)權(quán)利要求38所述的裝置，其中推斷所述背景包括: 使用麥克風(fēng)接收音頻輸入；對所述視頻輸入執(zhí)行模式辨識；以及基于所述音頻輸入中的所辨識的模式來推斷所述背景。
54.根據(jù)權(quán)利要求53所述的裝置，其中所述所辨識的模式包括來自用戶的話音命令。
55.根據(jù)權(quán)利要求53所述的裝置，其中所述所辨識的模式包括所述相機在接收所述音頻輸入時的位置的指示。
56.根據(jù)權(quán)利要求55所述的裝置，其中推斷所述背景包括: 從用戶接收背景相關(guān)信息；以及基于來自所述用戶的所述所接收的背景相關(guān)信息來推斷所述背景。
57.根據(jù)權(quán)利要求38所述的裝置，其中推斷所述背景包括: 估計所述裝置的位置；以及基于所述裝置的所述所估計的位置來推斷所述背景。
58.根據(jù)權(quán)利要求57所述的裝置，其中所述裝置的所述位置是使用所述裝置的GPS元件來估計。
59.根據(jù)權(quán)利要求56所述的裝置，其中所述裝置的所述位置是使用相對于小區(qū)塔的信號的強度來估計。
60.根據(jù)權(quán)利要求57所述的裝置，其中所述裝置的所述位置是使用來自麥克風(fēng)的音頻輸入來估計。
61.根據(jù)權(quán)利要求38所述的裝置，其中推斷所述背景包括: 基于分析所述圖像的結(jié)構(gòu)布局來推斷所述背景。
62.根據(jù)權(quán)利要求61所述的裝置，其中所述結(jié)構(gòu)布局是通過比較多個圖形對象之間的關(guān)系來分析。
63.根據(jù)權(quán)利要求61所述的裝置，其中所述結(jié)構(gòu)布局是通過比較至少一個圖形對象與至少一個圖形說明之間的關(guān)系來分析。
64.根據(jù)權(quán)利要求63所述的裝置，其中所述至少一個圖形說明包括來自包括對象的姿勢和圖形表示的群組的至少一者。
65.根據(jù)權(quán)利要求61所述的裝置，其中推斷所述背景包括分析與所述圖像相關(guān)聯(lián)的多個內(nèi)容語義。
66.根據(jù)權(quán)利要求65所述的裝置，其中分析所述多個內(nèi)容語義是基于分析多個圖形對象之間的共現(xiàn)的概率。
67.根據(jù)權(quán)利要求65所述的裝置，其中分析所述多個內(nèi)容語義是基于分析至少一個圖形對象與至少一個圖形說明之間的關(guān)系。
68.根據(jù)權(quán)利要求67所述的裝置，其中所述至少一個圖形說明包括來自包括對象的姿勢和圖形表示的群組的至少一者。
69.根據(jù)權(quán)利要求65所述的裝置，其中所述多個內(nèi)容語義是基于多種語言來分析。
70.根據(jù)權(quán)利要求38所述的裝置，其中推斷所述背景包括: 從多個圖形對象識別至少一個圖形對象；以及基于來自所述多個圖形對象的所述至少一個所識別的圖形對象來推斷所述背景。
71.根據(jù)權(quán)利要求38所述的裝置，其中推斷所述背景包括: 使用來自至少一個傳感器的輸入來檢測環(huán)境因素；在存在類似環(huán)境因素期間檢索用戶的過去行為響應(yīng)；以及使用所述用戶的所述過去行為響應(yīng)來推斷所述背景。
72.根據(jù)權(quán)利要求63所述的裝置，其中環(huán)境因素包括時間、位置、聲音以及所述圖像的主體距用戶的距離中的一者或一者以上。
73.根據(jù)權(quán)利要求67所述的裝置，其中基于多種語言來分析所述多個內(nèi)容語義包括: 識別包括呈第一種語言的第一圖形對象和呈第二種語言的第二圖形對象的所述圖像的一個或一個以上部分，其中所述第一圖形對象和所述第二圖形對象具有類似含義；識別所述第一圖形對象的第一多個候選者以及所述第二圖形對象的第二多個候選者；以及從與所述第二多個候選者中的至少一者具有類似含義的所述第一多個候選者中選擇圖形對象。
74.根據(jù)權(quán)利要求73所述的裝置，其中從所述第一多個候選者中選擇所述圖形對象包括: 將所述第二圖形對象的所述第二多個候選者翻譯為所述第一語言；以及從所述第一多個候選者中找出與所述經(jīng)翻譯的第二多個候選者具有所述類似含義的至少一個圖形對象。
75.一種非暫時性計算機可讀存儲媒體，其耦合到處理器，其中所述非暫時性計算機可讀存儲媒體包括可由所述處理器執(zhí)行以用于實施方法的代碼，所述方法包括: 使用耦合到裝置的相機來獲得圖像；識別包括至少一個圖形對象的所述圖像的一部分；推斷與所述圖像相關(guān)聯(lián)的背景；基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組；以及使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果。
76.根據(jù)權(quán)利要求75所述的非暫時性計算機可讀存儲媒體，其中改進(jìn)所述OCR結(jié)果包括使用所述圖形對象群組來執(zhí)行OCR。
77.根據(jù)權(quán)利要求75所述的非暫時性計算機可讀存儲媒體，其中改進(jìn)所述OCR結(jié)果包括: 通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者；以及使用所述圖形對象群組從所述多個OCR候選者中選擇一 OCR候選者。
78.—種用于執(zhí)行OCR的設(shè)備,其包括: 用于使用耦合到裝置的相機來獲得圖像的裝置；用于識別包括至少一個圖形對象的所述圖像的一部分的裝置；用于推斷與所述圖像相關(guān)聯(lián)的背景的裝置；用于基于與所述圖像相關(guān)聯(lián)的所述背景來選擇圖形對象群組的裝置；以及用于使用所述圖形對象群組來改進(jìn)所述至少一個圖形對象的OCR結(jié)果的裝置。
79.根據(jù)權(quán)利要求78所述的設(shè)備，其中改進(jìn)所述OCR結(jié)果包括用于使用所述圖形對象群組來執(zhí)行OCR的裝置。
80.根據(jù)權(quán)利要求78所述的設(shè)備，其中改進(jìn)所述OCR結(jié)果包括: 用于通過對所述至少一個圖形對象執(zhí)行OCR來產(chǎn)生所述至少一個圖形對象的多個OCR候選者的裝置；用于使用所述圖形對象群組從所述多個OCR候選者中選擇一 OCR候選者的裝置；以及用于在改進(jìn)所述OCR結(jié)果的過程中使用所述選定的OCR候選者的裝置。
【文檔編號】G06K9/03GK103765440SQ201280041851
【公開日】2014年4月30日申請日期:2012年8月6日優(yōu)先權(quán)日:2011年8月29日
【發(fā)明者】黃奎雄, 太元·李, 金杜勛, 延奇宣, 真珉豪, 金泰殊, 朝玄默申請人:高通股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃奎雄;太元·李;金杜勛;延奇宣;真珉豪;金泰殊;朝玄默
技術(shù)所有人：高通股份有限公司
我是此專利的發(fā)明人

上一篇：利用移動設(shè)備的客戶管理系統(tǒng)及方法
上一篇：使用圖像區(qū)域的文本檢測的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

光學(xué)字符識別技術(shù)相關(guān)技術(shù)

光學(xué)字符識別相關(guān)技術(shù)

光學(xué)字符識別軟件相關(guān)技術(shù)

光學(xué)字符識別安裝失敗相關(guān)技術(shù)

ocr光學(xué)字符識別技術(shù)相關(guān)技術(shù)

ocr光學(xué)字符識別相關(guān)技術(shù)

office光學(xué)字符識別相關(guān)技術(shù)

光學(xué)字符相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用背景信息的移動裝置上的光學(xué)字符辨識的制作方法