一種圖文識別方法及圖文識別裝置與流程

文檔序號：11868183閱讀：420來源：國知局

本發(fā)明涉及文字/圖像識別技術，尤其涉及一種圖文識別方法及圖文識別裝置。

背景技術：
當前，各種移動終端及相關應用得到了飛速發(fā)展。各種計算機軟件也基本遷移到了各種移動平臺中。而且結合移動終端的特性，部分移動應用還實現(xiàn)了個人電腦(PC)版本無法實現(xiàn)的功能。例如，現(xiàn)有的PC版本的翻譯/字典軟件一般可以實現(xiàn)查詞、屏幕取詞功能。然而，移動版本的翻譯軟件中，由于移動終端一般配置有一個或多個攝像頭，可以方便的利用攝像頭拍攝非電子媒介中的文字或者圖片，結合光學字符識別(OpticalCharacterRecognition，OCR)技術就可以實現(xiàn)實時拍攝并識別功能。但是，可以理解，移動終端具其局限性，例如尺寸較小硬件性能受到限制，一般都是由用戶手持因此穩(wěn)定性不佳，因此，如何使得移動終端使用方便，最大程度提高用戶使用體驗就成為移動終端及其應用開發(fā)所著重考慮的問題之一。

技術實現(xiàn)要素：
有鑒于此，有必要提供一種能提升用戶使用體驗的圖文識別方法及圖文識別裝置。上述的圖文識別方法及圖文識別裝置是通過以下技術方案實現(xiàn)的：一種圖文識別方法，其包括：在顯示屏中顯示一個畫面；在該畫面上方顯示第一指標；針對該畫面以該第一指標處執(zhí)行圖文識別程序；以及當該圖文識別程序成功識別文字或者圖像則顯示識別結果并改變該第一指標的狀態(tài)。作為上述圖文識別方法的進一步改進，其還包括：在該畫面上方顯示圍繞該第一指標的第二指標；以及當該圖文識別程序成功識別文字或者圖像則調整該第二指標使其輪廓與該文字或者圖像匹配。作為上述圖文識別方法的進一步改進，其還包括：顯示第三指標；根據(jù)用戶的操作旋轉該第三指標；以及根據(jù)該第三指標的角度切換該圖文識別程序。作為上述圖文識別方法的進一步改進，該畫面是采用攝像裝置實時獲取的。作為上述圖文識別方法的進一步改進，其還包括：當該圖文識別程序成功識別文字或者圖像則使該顯示屏顯示的該畫面定格。作為上述圖文識別方法的進一步改進，該圖文識別程序為文字識別程序，該文字識別程序包括字符切割步驟，該字符切割步驟中以該第一指標處為中心向兩側進行直至檢測到空格。作為上述圖文識別方法的進一步改進，當該圖文識別程序未成功識別文字或者圖像則重新執(zhí)行該圖文識別程序。一種圖文識別裝置，其包括：顯示屏，用于顯示畫面；顯示模塊，用于在該畫面上顯示第一指標；圖文識別模塊，用于對該畫面位于該第一指標處進行文字或者圖像識別；以及調整模塊，用于當該圖文識別模塊成功識別文字或圖像時改變該第一指標的狀態(tài)。作為上述圖文識別裝置的進一步改進，該顯示模塊還用于在該畫面上方顯示圍繞該第一指標的第二指標，該調整模塊還用于當該圖文識別程序成功識別文字或者圖像則調整該第二指標使其輪廓與該文字或者圖像匹配。作為上述圖文識別裝置的進一步改進，該顯示模塊還用于顯示第三指標，該調整模塊還用于根據(jù)用戶的操作旋轉該第三指標，及根據(jù)該第三指標的角度切換該圖文識別模塊的功能或者接口。作為上述圖文識別裝置的進一步改進，該智能終端還包括攝像裝置，用于實時獲取該畫面。作為上述圖文識別裝置的進一步改進，其還包括定格模塊，用于當該圖文識別程序成功識別文字或者圖像則使該顯示屏顯示的該畫面定格。作為上述圖文識別裝置的進一步改進，該圖文識別模塊為文字識別模塊，該文字識別模塊包括字符切割單元，用于以該第一指標處為中心向兩側進行字符切割直至檢測到空格。作為上述圖文識別裝置的進一步改進，該圖文識別模塊還用于當該圖文識別程序未成功識別文字或者圖像則重新執(zhí)行該圖文識別程序。在上述圖文識別方法有圖文識別裝置中，通過改變第二指標的狀態(tài)，可以讓用戶在使用過程中直觀的看到文字或者圖像識別成功；通過改變第二指標的狀態(tài)，可以使實時拍攝取詞過程具有動感效果；通過字符切割的改進，減少了字符切割及識別的時間；而通第三指標可以方便的實現(xiàn)不同功能或者接口之間的切換。為讓本發(fā)明的上述和其他目的、特征和優(yōu)點能更明顯易懂，下文特舉較佳實施例，并配合所附圖式，作詳細說明如下。附圖說明圖1為本發(fā)明所揭示的一種圖文識別方法的流程圖。圖2為本發(fā)明所揭示的圖文識別方法第一實施例的示意圖。圖3為本發(fā)明所揭示的圖文識別方法第一實施例中字符切割流程圖。圖4為本發(fā)明所揭示的圖文識別方法第一實施例的另一示意圖。圖5為本發(fā)明所揭示的圖文識別方法第二實施例的示意圖。圖6為本發(fā)明所揭示的圖文識別方法第三實施例的示意圖。圖7為本發(fā)明所揭示的圖文識別方法第四實施例的示意圖。圖8為本發(fā)明所揭示的圖文識別方法第四實施例的另一示意圖。圖9為本發(fā)明所揭示的圖文識別裝置的結構框圖。具體實施方式為更進一步闡述本發(fā)明為實現(xiàn)預定發(fā)明目的所采取的技術手段及功效，以下結合附圖及較佳實施例，對依據(jù)本發(fā)明提出的圖文識別方法及圖文識別裝置的具體實施方式、結構、特征及其功效，詳細說明如后。圖1為本發(fā)明揭示的一種圖文識別方法流程圖。如圖1所示，該方法包括以下步驟：步驟S101，在顯示屏中顯示一個畫面；步驟S102，在畫面上方顯示第一指標；步驟S103，對畫面以第一指標處執(zhí)行圖文識別程序；以及步驟S104，當圖文識別程序成功識別文字或者圖像則顯示識別結果并改變該第一指標的狀態(tài)。上述圖文識別方法中，當圖文識別程序成功識別文字或者圖像則顯示識別結果并改變該第一指標的狀態(tài)，在用戶調整智能終端時可以直觀的得知已經(jīng)準確瞄準要識別的字詞或者圖像，提升了用戶使用體驗。圖文識別方法第一實施例本實施例中，顯示屏例如是一個移動智能終端如平板電腦、智能手機的觸控顯示屏。圖2為顯示屏顯示的一個畫面的示意圖，此畫面的內(nèi)容例如為存儲在移動智能終端內(nèi)的一篇英文文檔的部分內(nèi)容或者直接使用移動智能終端的攝像裝置實時獲取的畫面。第一指標110呈類似于眼睛的形狀。此外，除第一指標110外，畫面中還顯示有第二指標120。第二指標120呈環(huán)狀，而第一指標110位于第二指標120的中心處。用戶可以通過觸控顯示屏移動第一指標110與第二指標120。本實施例中，由于顯示的畫面是英文，因此步驟S103中需要啟動英文單詞識別程序。參閱圖3，一般來說，文字識別程序，無論是針對英文還是中文，其具體可包括以下步驟：步驟S131，對顯示的畫面進行二值化操作以得二值化后的圖像；步驟S132，根據(jù)二值化后的圖像進行聚類版面分析，此步驟的作用是主要用于完成文檔圖像中的文字域、表格域、圖形、圖像域分割工作；步驟S133，針對文字域，進行行提取分析切分操作，此步驟的作用主要是用于將文字域拆分為多行；步驟S134，中心行確定，具體地，定位第一指示110所在的行為中心行；步驟S135，對中心行進行文字識別程序。以上針對文字識別程序的描述僅為其大體流程，其具體算法屬于OCR技術領域所熟知的內(nèi)容，在此不再贅述。如圖4所示，當步驟S103中成功識別英文單詞“programming”時在下方顯示英漢字典結果130。此外，相比于圖3，將第一指標110的狀態(tài)，從而變成圖4中的第一指標110a。此處的狀態(tài)可以是指第一指標的顏色、大小、圖案等。例如，在圖2所示的狀態(tài)中，第一指標110為空心的圖案，而圖4中，則變成藍色、綠色等顏色部分或全部填充的圖案?？梢岳斫猓陨戏绞絻H為示例，任意前后有較明顯差異的方式均可用于區(qū)分第一指標110與110a本實施例中。此外，當顯示的畫面是攝像裝置實時獲取的并且上述圖文識別程序成功完成識別后還可將顯示的畫面定格，以防止畫面晃動；反之，當顯示的畫面是攝像裝置實時獲取的但并未成功識別時則需要重新執(zhí)行圖文識別程序。本實施例的圖文識別方法中，當圖文識別程序成功識別文字或者圖像則顯示識別結果并改變該第一指標的狀態(tài)，在用戶調整智能終端時可以直觀的得知已經(jīng)準確瞄準要識別的字詞或者圖像，提升了用戶使用體驗。圖文識別方法第二實施例第二實施例的圖文識別方法與第一實施例相似，其不同之處在于當步驟S103中成功識別英文單詞“programming”時除了改變第一指標110的狀態(tài)外還改變第二指標120的狀態(tài)。如圖5所示，調整第二指標120的大小使其輪廓與英文單詞“programming”相匹配。換言之，第二指標120變?yōu)榈诙笜?20a，而“programming”恰好被框在第二指標120a內(nèi)。從圖4到圖5的狀態(tài)變化過程可以是漸變的，當然此漸變過程可以在一個較短的時間例如0.5秒內(nèi)進行，從而使用戶具有英文單詞“programming”被定位的動態(tài)感覺，進一步提升用戶使用體驗?？梢岳斫?，上述輪廓與英文單詞“programming”相匹配仍然依賴于第二指標120的形狀。例如，當?shù)诙笜?20為圓形時，使其直徑約大于英文單詞“programming”的長度并使“programming”恰好被框在第二指標120a內(nèi)即可，值得注意的是，此時第二指標120頂部及底部與“programming”仍然相距一定距離。當?shù)诙笜?20呈矩形時，其輪廓可以最大程度的匹配“programming”。圖文識別方法第三實施例第三實施例的圖文識別方法與第一實施例相似，其不同之處在于針對步驟103中的文字識別程序作進一步優(yōu)化?？梢岳斫猓贠CR識別算法中，一個重要的過程就是進行字符切割，將代表一行文字的圖像拆分成多個字符的圖像。如圖6所示，本實施例中，字符切割步驟是以第一指標110(a)為中心向兩側進行。對于具有分隔符的文字例如英文或者其他拉丁語系來說，位于兩個空格之間的一個或多個字符構成一個單詞，因此識別出空格即得到單詞的邊界，亦即上述字符切割步驟進行到檢測空格為止。然而對于無分隔符的語言例如中文則無法通過分隔符區(qū)分詞組的邊界，此時可以預先確定字符長度k，字符切割步驟僅針對以第一指標110(a)為中心距離-k到k之間的字符，此時得到的字符數(shù)為2k+1，k可由經(jīng)驗或者統(tǒng)計規(guī)則確定，一般來說中文詞組字符數(shù)不會超過7，例如可以確定k為7。本實施例中，字符切割引擎檢測到了‘p’–‘g’等共11個字符，值得注意的是，此時字符仍未被識別，上述‘p’、‘g’僅為標識，切割后的字符可以傳遞給字符識別模塊進行識別。識別后的字符串可以送入詞典中查詢。當待識別的文字為中文時，還需要針對識別后的2k+1個字符進行詞組匹配，其具體過程如下：步驟一、以第一指標110(a)指向的字符為中心，設為index＝0；步驟二、從index＝-k的位置開始遍歷，將長度為N的單詞送入詞典中驗證，N從k-index到2遞減，如果發(fā)現(xiàn)單詞則跳出。步驟三、index加1，重復步驟二的操作，直到index＝0跳出。通過此詞組匹配步驟可能匹配得到多個單詞，可以選出其中最靠近第一指標110(a)輸出?？梢钥闯?，本實施例的字符切割步驟僅針對要識別的單詞或者預定距離范圍內(nèi)的字符，減少了字符切割的時間，并且降低了字符識別的字符個數(shù)，從而減少了識別時間。圖文識別方法第四實施例第四實施例的圖文識別方法與第一實施例相似，如圖7所示，其不同之處在于除了第一指標110、第二指標120外，還顯示第三指標130。第三指標130呈弧狀，位于顯示屏的底部，其可包括多個子指標，每個子指標代表一項功能，第三指標130位于屏幕中間部位的子指標表示當前功能。例如圖7中相機狀圖案表示當前功能為實時拍攝取詞，在此狀態(tài)下，步驟S103啟動的就是文字識別程序。用戶可以通過點擊激活第三指標130，然后通過旋轉操作轉轉動第三指標130。對比圖7與圖8，將第三指標130逆時針方向轉動后即可將當前功能切換，例如，切換至圖8中所示的明星臉識別功能，在此狀態(tài)下，步驟S103中啟動的就是人臉識別程序。此外，根據(jù)當前活動的子指標的不同，還可改變第二指標120的形狀，例如將第二指標120改變?yōu)槿四樞螤?。本實施例的圖文識別方法中，通過第三指標130可以方便的實現(xiàn)不同功能之間的便利切換。圖9為本發(fā)明所揭示的一種圖文識別裝置的結構框圖。如圖1所示，圖文識別裝置600包括處理器60、顯示屏61及攝像裝置62。在具體實現(xiàn)上，圖文識別裝置600例如可為臺式電腦、筆記本電腦、平板電腦、智能手機等。顯示屏61例如可為觸控式液晶顯示屏。攝像裝置62例如可為相機模組。處理器60包括顯示模塊610、圖文識別模塊620、調整模塊630、及定格模塊640。顯示模塊610用于在顯示屏61中顯示一畫面，在該畫面上方顯示第一指標、圍繞第一指標的第二指標及第三指標。上述畫面可以是攝像裝置62實時獲取的，或者源自圖文識別裝置600內(nèi)的文檔。圖文識別模塊620用于對畫面位于第一指標處進行文字或者圖像識別。用于識別文字時，圖文識別模塊620可為文字識別模塊，該文字識別模塊包括字符切割單元，用于以該第一指標處為中心向兩側進行直至檢測到空格從而完成字符切割。當畫面是攝像裝置62實時獲取時，如果圖文識別模塊620沒有成功識別文字或者圖像，圖文識別模塊620可以立刻或間隔一時間后再次進行圖文識別程序。調整模塊630用于當圖文識別模塊620成功識別文字或圖像時改變該第一指標的狀態(tài)及改變第二指標的狀態(tài)，用于當圖文識別模塊620成功識別文字或者圖像則調整第二指標使其輪廓與被識別的文字或者圖像匹配，用于根據(jù)用戶的操作旋轉第三指標，及根據(jù)該第三指標的角度切換該圖文識別模塊620的功能或者接口。改變第一指標的狀態(tài)例如是指改變第一指標的顏色，填充圖案等；改變第二指標的狀態(tài)例如是指改變第二指標的輪廓使其與被識別的文字或者圖像匹配。定格模塊640用于當圖文識別模塊620成功識別文字或者圖像則使該顯示屏61顯示的畫面定格以防止畫面晃動。本實施例的圖文識別裝置100中，通過改變第二指標的狀態(tài)，可以讓用戶在使用過程中直觀的看到文字或者圖像識別成功；通過改變第二指標的狀態(tài)，可以使實時拍攝取詞過程具有動感效果；通過字符切割單元的改進，減少了字符切割及識別的時間；而通第三指標可以方便的實現(xiàn)不同功能或者接口之間的切換。以上所述，僅是本發(fā)明的較佳實施例而已，并非對本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實施例揭示如上，然而并非用以限定本發(fā)明，任何本領域技術人員，在不脫離本發(fā)明技術方案范圍內(nèi)，當可利用上述揭示的技術內(nèi)容作出些許更動或修飾為等同變化的等效實施例，但凡是未脫離本發(fā)明技術方案內(nèi)容，依據(jù)本發(fā)明的技術實質對以上實施例所作的任何簡介修改、等同變化與修飾，均仍屬于本發(fā)明技術方案的范圍內(nèi)。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：陳波;王冬;黃橙藍;饒豐
技術所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：原味冰淇淋及其制備方法與流程
上一篇：組合型防靜電矽鋼片的制作方法與工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種圖文識別方法及圖文識別裝置與流程