用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法與流程

文檔序號：11775301閱讀：390來源：國知局

本發(fā)明涉及視頻處理
技術(shù)領(lǐng)域：
：，特別涉及一種用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法。
背景技術(shù)：
：：翻譯文本技術(shù)主要應用在桌面電腦端和手機移動端，通常需要用戶使用鍵盤或鼠標，將需要翻譯的文字輸入到設(shè)備中，設(shè)備通過離線或在線方式查詢出翻譯結(jié)果，再通過屏幕展現(xiàn)給用戶。后續(xù)有了屏幕取詞的交互方式，它在原有翻譯文本技術(shù)的基礎(chǔ)上增加了識別文本技術(shù)。在桌面電腦端即用戶使用鼠標指定屏幕中的文字區(qū)域，設(shè)備自動框定鼠標位置處的文本，將該文本進行翻譯；在手機移動端即用戶打開攝像頭拍攝文本區(qū)域，設(shè)備通過識別圖片或者視頻中的文本，再進行翻譯。使用上述應用或設(shè)備時大多需要用戶手動輸入文字或手持設(shè)備拍攝等方式進行交互，會打斷用戶當前正在進行的手頭工作，并且以上識別及翻譯過程大多是非實時和異步的。進一步，上述識別文本并翻譯的技術(shù)通常只能針對規(guī)范的印刷體文字、背景干凈、文本方正無傾斜、文本排版簡單等特定情境下有較好的效果，因為隨意在自然場景下指定或拍攝的圖像可能會遇到背景復雜、視角傾斜導致文本塊透視畸變、藝術(shù)裝飾字體形態(tài)和排版復雜等情況，導致文本檢測運算量大、文本識別過程噪聲大導致誤識別，進而導致翻譯錯誤。再次，翻譯結(jié)果通常以平面的圖文顯示在設(shè)備屏幕或以語音播放，無法以更直觀更生動更立體的方式展現(xiàn)。對所見的環(huán)境和物件上的文字進行識別和翻譯的技術(shù)更適合應用在頭戴式智能設(shè)備上，可在近眼顯示屏上實時展現(xiàn)虛擬結(jié)合的圖文聲翻譯結(jié)果。但是，通過視頻流進行實時文本識別和翻譯技術(shù)當前尚沒有應用在頭戴式智能設(shè)備上的成熟方案或典型案例。技術(shù)實現(xiàn)要素：本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。為此，本發(fā)明的目的在于提出一種用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法。為了實現(xiàn)上述目的，本發(fā)明的實施例提供一種用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法，包括如下步驟：步驟s1，利用頭戴式智能設(shè)備的雙目攝像頭獲取視頻流數(shù)據(jù)，利用頭戴式智能設(shè)備的傳感器裝置獲取用戶頭部運動的動態(tài)數(shù)據(jù)；步驟s2，根據(jù)所述視頻流數(shù)據(jù)和用戶頭部運動的動態(tài)數(shù)據(jù)分析用戶操作，判斷用戶行為是否符合啟動服務(wù)條件，以及利用所述視頻流數(shù)據(jù)和用戶頭部運動的動態(tài)數(shù)據(jù)對用戶視區(qū)內(nèi)環(huán)境進行感知，獲取感知結(jié)果，并利用所述感知結(jié)果使用雙目視頻三維重建算法對環(huán)境進行三維重建，從空間離散的深度信息點云優(yōu)化出空間的三維信息；步驟s3，當判斷用戶行為符合啟動服務(wù)條件時，將所述視頻流數(shù)據(jù)根據(jù)用戶視點區(qū)域進行文本檢測和文本識別，將識別出的文字根據(jù)用戶需求進行目標語言的翻譯，繪制多媒體形式的翻譯結(jié)果，包括：繪制翻譯結(jié)果和合成翻譯語音；步驟s4，將步驟s2中的空間三維信息聯(lián)合步驟s3中的文本檢測區(qū)域，計算得到目標文本的三維位置，根據(jù)該三維位置信息和目標文本的圖像信息進行目標文本的位置跟蹤；步驟s5，根據(jù)所述步驟s3中的多媒體形式的翻譯結(jié)構(gòu)和步驟s4中的目標文本的位置跟蹤結(jié)果，采用增強現(xiàn)實技術(shù)，將繪制的翻譯結(jié)果以貼合、指示或覆蓋的方式疊加在用戶視角下的目標文本處，或?qū)⒑铣傻姆g語音進行直接播放或根據(jù)定位信息以不同的方式進行播放。進一步，在所述步驟s2中，所述分析用戶操作，包括如下步驟：分析所述視頻流數(shù)據(jù)中相鄰幀圖像的差異大小、計算用戶頭部在空間中的運動速度、判斷用戶行為是否符合啟動服務(wù)的條件。進一步，在所述步驟s2中，所述對用戶視點區(qū)域內(nèi)環(huán)境進行感知，包括如下步驟：通過所述視頻流數(shù)據(jù)分析估算環(huán)境的光照度和環(huán)境色，通過雙目視頻的視差及用戶頭部運動的動態(tài)數(shù)據(jù)感知環(huán)境深度。進一步，在所述步驟s3中，所述文本檢測，包括如下步驟：視頻流數(shù)據(jù)進行圖像預處理，對預處理后的圖像進行文本特征判斷和文本切割，以判斷用戶所視范圍內(nèi)是否有文本，包括采用極值區(qū)域法進行文本特征判斷，以判斷是否有文本以及文本在平面圖像中的位置。在所述步驟s4中，所述目標文本的位置跟蹤，包括如下步驟：計算目標文本的三維位置，根據(jù)該三維位置信息和目標文本的圖像信息進行目標文本的位置跟蹤。進一步，在所述步驟s3中，所述文本識別，包括如下步驟：在獲取文本位置后，將包圍該文本的部分圖像從視頻流數(shù)據(jù)中截取出來，根據(jù)用戶使用的語言進行文本識別計算，包括：建立字庫管理中心，所述字庫管理中心用于管理各種字庫數(shù)據(jù)，利用所述字庫管理中心對截取出的文本圖像進行一次識別；使用深度學習方法對截取出的文本圖像進行端到端的二次識別，學習用戶的偏好模式對所述端到端的文本識別計算結(jié)果和一次識別結(jié)果進行評估，得到優(yōu)化的文本識別結(jié)果。進一步，在所述步驟s3中，還包括如下步驟：當因視角和尺度問題導致文本出現(xiàn)透視畸變時，利用三維重建獲得的空間三維信息對被裁切下來的文本圖像數(shù)據(jù)進行畸變修正之后，再進行文本識別計算。進一步，在所述步驟s3中，所述文本翻譯，包括如下步驟：利用語言庫管理中心對文本識別結(jié)果進行文本翻譯，將得到的翻譯結(jié)果根據(jù)具體應用需求合成出多媒體形式的翻譯結(jié)果，包括圖片、文字、視頻、語音形式的翻譯結(jié)果。進一步，在所述步驟s5中，還包括如下步驟：采用增強現(xiàn)實技術(shù)，將繪制的翻譯結(jié)果以貼合、指示或覆蓋的方式疊加在用戶視角下的目標文本處，或?qū)⒑铣傻姆g語音進行直接播放或根據(jù)定位信息以不同的方式進行播放。根據(jù)本發(fā)明實施例的用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法，具有以下有益效果：第一，本發(fā)明將文本識別和翻譯技術(shù)應用在頭戴式智能設(shè)備上，避免了用戶手持移動端設(shè)備的不便性。用戶帶上頭戴式智能設(shè)備后，只需關(guān)注需要翻譯的文本，即可啟動算法進行文本識別和翻譯工作。這種交互方式更為便捷，不會打斷用戶當前手頭正在進行的工作，并且結(jié)合視頻信息和傳感器信息能使對用戶操作的判定更為多樣和精確。第二，本發(fā)明使用增強現(xiàn)實技術(shù)，將翻譯結(jié)果用文字，圖像、視頻、音頻以虛實結(jié)合的方式展現(xiàn)給用戶，信息的呈現(xiàn)形式更為自然和直觀。第三，本發(fā)明涉及的學習功能可使用深度學習方法進行端到端的文本識別計算，能應付如背景復雜、視角傾斜導致文本塊透視畸變等情景，還可分析用戶的歷史翻譯文本、使用行為和個人習慣，學習出用戶的偏好模式，以優(yōu)化識別效果和提供個性化的智能服務(wù)。第四，該方法中支持多種字庫的加載，能更好地應對多語言、專業(yè)領(lǐng)域術(shù)語、藝術(shù)裝飾字體、文本塊排版復雜等情景，增強了方法的實用性。本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實踐了解到。附圖說明本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解，其中：圖1為根據(jù)本發(fā)明實施例的用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法流程圖；圖2為根據(jù)本發(fā)明實施例的用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法示意圖；圖3為根據(jù)本發(fā)明實施例的基于極值區(qū)域的文本檢測方法的流程圖。具體實施方式下面詳細描述本發(fā)明的實施例，實施例的示例在附圖中示出，其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。本發(fā)明提出一種用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法，屬于自然場景下文本檢測、文字識別技術(shù)(ocr)，文本翻譯，增強現(xiàn)實
技術(shù)領(lǐng)域：
：內(nèi)的一種應用。本發(fā)明通過視頻流進行實時文本識別和翻譯的技術(shù)是應用于頭戴式智能設(shè)備上的，通過使用雙目攝像頭獲取視頻流數(shù)據(jù)，同時用于環(huán)境三維重建和自然場景下的文本檢測計算。如圖1和圖2所示，本發(fā)明實施例的用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法，包括如下步驟：步驟s1，利用頭戴式智能設(shè)備的雙目攝像頭獲取視頻流數(shù)據(jù)，利用頭戴式智能設(shè)備的傳感器裝置獲取用戶頭部運動的動態(tài)數(shù)據(jù)。步驟s2，根據(jù)視頻流數(shù)據(jù)和用戶頭部運動的動態(tài)數(shù)據(jù)分析用戶操作，判斷用戶行為是否符合啟動服務(wù)條件。具體地，分析用戶操作，包括如下步驟：分析視頻流數(shù)據(jù)中相鄰幀圖像的差異大小、計算用戶頭部在空間中的運動速度、判斷用戶行為是否符合啟動服務(wù)的條件。例如，用戶注目某個區(qū)域靜止一段時間或用戶視點沿著文本方向以一定速度滑行等。判定用戶操作的條件可按具體應用情景進行定制。利用視頻流數(shù)據(jù)和用戶頭部運動的動態(tài)數(shù)據(jù)對用戶視區(qū)內(nèi)環(huán)境進行初步感知，即通過視頻流數(shù)據(jù)分析估算環(huán)境的光照度和環(huán)境色，通過雙目視頻的視差及傳感器獲取的運動數(shù)據(jù)感知環(huán)境深度，獲取感知結(jié)果，并利用感知結(jié)果使用雙目視頻三維重建算法對環(huán)境進行三維重建，從空間離散的深度信息點云優(yōu)化出空間的三維信息。步驟s3，當判斷用戶行為符合啟動服務(wù)條件時，將視頻流數(shù)據(jù)根據(jù)用戶視點區(qū)域進行文本檢測和文本識別，將識別出的文字根據(jù)用戶需求進行目標語言的翻譯，繪制多媒體形式的翻譯結(jié)果，包括：繪制翻譯結(jié)果和合成翻譯語音。具體地，文本檢測，包括如下步驟：視頻流數(shù)據(jù)進行圖像預處理，對預處理后的圖像進行文本特征判斷和文本切割，以判斷用戶所視范圍內(nèi)是否有文本，包括采用極值區(qū)域法進行文本特征判斷，以判斷是否有文本以及文本在平面圖像中的位置。下面參考圖3對極值區(qū)域的文本檢測方法流程進行說明。文本檢測是將圖片中的文字部分區(qū)域定位出來的過程。復雜背景下的文本檢測有著字體的變換，大小，顏色，方向變換以及類字符圖案等一些干擾，復雜的背景或者光線的變化都會導致圖像中文本的失真和變形。在復雜背景下檢測文本區(qū)域的問題可基于一種滿足絕大都數(shù)情景的假定：圖片中文本的顏色灰度一致，并且有別于背景的顏色灰度。極值區(qū)域(extremalregions，er)是圖像在一定顏色灰度閾值的過濾下，具有明顯區(qū)分于背景的連通區(qū)域。er對于光照、方向有著極強的不變形，對文本檢測是很好的特征候選。在er的基礎(chǔ)上，還有一種用于文本檢測更為穩(wěn)定的特征——最大穩(wěn)定極值區(qū)域(maximallystableextremalregions，mser)。mser對圖像灰度具有仿射變換不變性，可以實現(xiàn)多尺度檢測，具有更高的穩(wěn)定性。下面是對er和mser的形式化定義：圖像i，是一種映射其中s通常為{0,1,…,255}(對于灰度圖)。定義一種相鄰關(guān)系即p，q∈d在當時為相鄰，并表示為(paq)。圖像i中的區(qū)域是d的一個連續(xù)子集，滿足區(qū)域邊界則為極值區(qū)域(er)q即一個區(qū)域邊界的值嚴格穩(wěn)定地高于區(qū)域值本身，即這里θ表示er的閾值。令q1，q2，...，qi-1，qi...是一系列嵌套的極值區(qū)域，即滿足如果q(i)＝|qi+δ\qi-δ|/|qi|在i*處具有局部最小值，則q1’是最大穩(wěn)定極值區(qū)域。其中|·|表示集合的勢，對于離散圖像來說就是像素面積，δ∈ε是具體計算時的參數(shù)。具體編程實現(xiàn)提取mser時，可使用基于改進的分水嶺算法，并把面積的計算方法從上述的雙邊檢測簡化為單邊檢測，即q(i)＝|qi\qi-1|/|qi-δ|。如圖3所示，首先初始化堆和棧，然后標記源像素為已訪問，將空組件推入棧。判斷當前像素的相鄰像素是否未訪問，如果是則將相鄰像素標記為已訪問，并判斷相鄰像素的灰度值是否大于當前像素，如果大于則將當前像素放入堆頂并將相鄰像素作為當前像素，將空組件推入棧。如果相鄰像素的灰度值小于當前像素，則將相鄰像素放入堆頂。如果當前像素的相鄰像素未訪問，則累計棧頂組塊的像素個數(shù)，即計算區(qū)域面積，彈出堆中的邊界像素，判斷堆是否為空，如果是，則結(jié)束流程，否則判斷彈出的邊界像素灰度值是否等于當前值，如果否則處理棧頂?shù)慕M件。對于上述兩個過程，在將相鄰像素放入堆頂，以及處理棧頂?shù)慕M件之后，均執(zhí)行如下步驟：判斷當前組件灰度值是否大于棧頂?shù)诙慕M件，如果是，則返回判斷彈出的邊界像素灰度值是否等于當前值；如果否則將棧頂組件的灰度值更改為邊界像素的灰度值，判斷當前組件灰度值是否大于棧頂，如果是則返回處理棧頂?shù)慕M件，否則繼續(xù)判斷當前像素的相鄰像素是否為未訪問。文本識別包括如下步驟：在獲取文本位置后，將包圍該文本的部分圖像從視頻流數(shù)據(jù)中截取出來，根據(jù)用戶使用的語言進行文本識別計算，具體流程如下：建立字庫管理中心，字庫管理中心用于管理各種字庫數(shù)據(jù)，利用字庫管理中心對截取出的文本圖像進行一次識別。字庫管理中心中的字庫數(shù)據(jù)，包括中文、英文等各國文字，以及藝術(shù)字、多方向文本等特殊字體或排版方式。字庫管理中心加載哪些字庫數(shù)據(jù)可根據(jù)用戶的需求進行定制，同時也支持匹配本專利方法的第三方字庫。字庫數(shù)據(jù)可以是離線的也可以是在線的。使用深度學習方法對截取出的文本圖像進行端到端的二次識別，學習用戶的偏好模式對端到端的文本識別計算結(jié)果和一次識別結(jié)果進行評估，得到優(yōu)化的文本識別結(jié)果。具體地，首先使用深度學習方法可對判定出的文本區(qū)域進行端到端的文本識別計算。在本發(fā)明的一個實施例中，采用基于卷積神經(jīng)網(wǎng)絡(luò)深度學習框架的端到端文本識別方法，進行端到端的文本識別計算。然后，分析用戶的歷史翻譯文本、使用行為和個人習慣，學習出用戶的偏好模式，對端到端的文本識別結(jié)果和利用字庫管理中心一次識別的文本識別結(jié)果進行評估，將可信度更高的文本識別結(jié)果優(yōu)化出來。下面對基于卷積神經(jīng)網(wǎng)絡(luò)深度學習框架的端到端文本識別方法進行說明。具體來說，與通過掃描的標準印刷文本圖片相比，自然場景下的文字識別，文字的特征更加難以確定和提取。深度學習方法能自適應地學習特征從而更準確地抽象出數(shù)據(jù)的表達。借助這一點，使用深度學習方法進行自然場景下的文字識別可以在一定程度上解決人工特征設(shè)計和抽取的難題。近年來，隨著深度學習的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)在文本識別等領(lǐng)域獲得了突出的成績。卷積運算可以使原始信號特征增強并且降低噪音，這對自然場景下對文本的檢測和識別具有有益作用。本方法的實現(xiàn)分為兩大過程，一個是使用訓練樣本對卷積神經(jīng)網(wǎng)絡(luò)進行訓練，一個是使用訓練好的模型對新的輸入文本圖片進行識別。1、訓練過程1.1首先對收集到的文本訓練樣本圖片進行預處理，包括轉(zhuǎn)化為灰度圖、圖像二值化、圖像歸一化等。1.2設(shè)定迭代次數(shù)上限c和誤差閾值e，作為迭代終止條件的參數(shù)，設(shè)定學習率λ以控制每次迭代的修正量。1.3初始化卷積神經(jīng)網(wǎng)絡(luò)中各分層中第i個神經(jīng)元和第j個神經(jīng)元間連接的卷積權(quán)重wij，以及隱含層各神經(jīng)元i的偏置值bj＝o。1.4計算隱含層各節(jié)點j的加權(quán)卷積輸出為ij＝∑iwij×oi+bj，經(jīng)過激活函數(shù)計算后節(jié)點j的輸出為oj＝f(ij)。1.5計算節(jié)點j的誤差值，其中δj＝oj×(1-oj)×(tj-oi)是輸出單元的計算公式，δj＝oj×(1-oj)×∑ken(i)δk×wjk是隱含層節(jié)點的計算公式。tj表示j節(jié)點的目標值，n(j)表示下一層中與節(jié)點j連接的神經(jīng)元集合。1.6對卷積權(quán)重進行修正wij*＝wij+λ×δj×oi，對偏置進行修正bj′＝bj+λ×δi。1.7針對訓練樣本d計算誤差o(all)表示輸出層中所有輸出單元的集合。如果ej＜e或者迭代次數(shù)大于c則停止訓練，否則轉(zhuǎn)入步驟5再次進行迭代。2、識別過程2.1對于新輸入的文本圖片，首先經(jīng)過本專利提出的文本檢測處理獲取包圍文本的部分圖像數(shù)據(jù)。2.2對上述步驟得到的圖像進行預處理，包括轉(zhuǎn)化為灰度圖、圖像二值化、圖像歸一化等。2.3輸入層的輸出即輸入，o1＝l1。2.4隱含層各節(jié)點j的加權(quán)卷積輸出為ij＝∑iwij×oi+bj，經(jīng)過激活函數(shù)計算后節(jié)點j的輸出為oj＝f(ii)，其中wij是訓練好的卷積神經(jīng)網(wǎng)絡(luò)中第i個神經(jīng)元和第j個神經(jīng)元間連接的卷積權(quán)重，bj是訓練好的卷積神經(jīng)網(wǎng)絡(luò)中神經(jīng)元j的偏置值。2.5各層神經(jīng)元按2.4計算最終得到輸出層所有單元的集合o(all)。2.6找到o(all)在樣本空間中誤差值最小時對應的樣本d，則d為識別結(jié)果。此外，如果當因視角和尺度問題導致文本出現(xiàn)透視畸變時，利用三維重建獲得的空間三維信息對被裁切下來的文本圖像數(shù)據(jù)進行畸變修正之后，再進行文本識別計算，這樣能大大降低文本誤識別的風險。文本翻譯，包括如下步驟：根據(jù)用戶的需求進行目標語言的翻譯,利用語言庫管理中心對文本識別結(jié)果進行文本翻譯，將得到的翻譯結(jié)果根據(jù)具體應用需求合成出多媒體形式的翻譯結(jié)果，包括圖片、文字、視頻、語音形式的翻譯結(jié)果。需要說明的是，文本翻譯計算需要語言庫數(shù)據(jù)的支持，語言庫管理中心用于管理各種語言庫數(shù)據(jù)，包括中英互譯等多語言翻譯數(shù)據(jù)庫。語言庫管理中心加載哪些語言庫數(shù)據(jù)可根據(jù)用戶的需求進行定制。語言庫數(shù)據(jù)可以是離線的也可以是在線的。翻譯結(jié)果可根據(jù)具體應用需求合成出圖片、文字、視頻、語音等，根據(jù)輸出端設(shè)備不同，可概括為繪制翻譯結(jié)果和合成翻譯語音兩種。步驟s4，將步驟s2中的空間三維信息聯(lián)合步驟s3中的文本檢測區(qū)域，計算得到目標文本的三維位置，根據(jù)該三維位置信息和目標文本的圖像信息進行目標文本的位置跟蹤。具體地，在步驟s4中，目標文本的位置跟蹤，包括如下步驟：計算目標文本的三維位置，根據(jù)該三維位置信息和目標文本的圖像信息進行目標文本的位置跟蹤。步驟s5，根據(jù)步驟s3中的多媒體形式的翻譯結(jié)構(gòu)和步驟s4中的目標文本的位置跟蹤結(jié)果，采用增強現(xiàn)實技術(shù)，將繪制的翻譯結(jié)果以貼合、指示或覆蓋的方式疊加在用戶視角下的目標文本處，或?qū)⒑铣傻姆g語音進行直接播放或根據(jù)定位信息以不同的方式進行播放。虛擬合成的數(shù)據(jù)以什么形式與現(xiàn)實所見的實像進行虛實融合將根據(jù)具體應用情景的變化而變化。需要說明的是，本發(fā)明實施例的用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法是實時運行的，實現(xiàn)單次“檢測-識別-翻譯-顯示”功能具有實時性。根據(jù)本發(fā)明實施例的用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法，具有以下有益效果：第一，本發(fā)明將文本識別和翻譯技術(shù)應用在頭戴式智能設(shè)備上，避免了用戶手持移動端設(shè)備的不便性。用戶帶上頭戴式智能設(shè)備后，只需關(guān)注需要翻譯的文本，即可啟動算法進行文本識別和翻譯工作。這種交互方式更為便捷，不會打斷用戶當前手頭正在進行的工作，并且結(jié)合視頻信息和傳感器信息能使對用戶操作的判定更為多樣和精確。第二，本發(fā)明使用增強現(xiàn)實技術(shù)，將翻譯結(jié)果用文字，圖像、視頻、音頻以虛實結(jié)合的方式展現(xiàn)給用戶，信息的呈現(xiàn)形式更為自然和直觀。第三，本發(fā)明涉及的學習功能可使用深度學習方法進行端到端的文本識別計算，能應付如背景復雜、視角傾斜導致文本塊透視畸變等情景，還可分析用戶的歷史翻譯文本、使用行為和個人習慣，學習出用戶的偏好模式，以優(yōu)化識別效果和提供個性化的智能服務(wù)。第四，該方法中支持多種字庫的加載，能更好地應對多語言、專業(yè)領(lǐng)域術(shù)語、藝術(shù)裝飾字體、文本塊排版復雜等情景，增強了方法的實用性。在本說明書的描述中，參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中，對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例，可以理解的是，上述實施例是示例性的，不能理解為對本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求及其等同限定。當前第1頁12當前第1頁12

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：范懿文;杜晶;陳清甫
技術(shù)所有人：幻視互動（北京）科技有限公司
我是此專利的發(fā)明人

上一篇：一種基于圖像識別的車牌檢測識別方法與流程
上一篇：車牌的識別方法、裝置、存儲介質(zhì)及處理器與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

htcvive智能頭戴安裝相關(guān)技術(shù)

頭戴式智能設(shè)備相關(guān)技術(shù)

頭戴式耳機推薦相關(guān)技術(shù)

頭戴式耳機相關(guān)技術(shù)

頭戴式藍牙耳機推薦相關(guān)技術(shù)

不夾耳朵的頭戴式耳機相關(guān)技術(shù)

索尼頭戴式耳機相關(guān)技術(shù)

頭戴藍牙耳機推薦相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于頭戴式智能設(shè)備的視頻流實時文本識別及翻譯的方法與流程