欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

針對圖像進行文字識別的方法及裝置的制造方法

文檔序號:10697761閱讀:228來源:國知局
針對圖像進行文字識別的方法及裝置的制造方法
【專利摘要】本發(fā)明的實施例提供了針對圖像進行文字識別的方法和裝置。該方法包括:將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量;以及計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。上述針對圖像進行文字識別的方法和裝置可以使用同一個識別模型進行各種文字的較準確識別,且無需在識別模型訓練時收集針對目標識別字符集的大量標注數(shù)據(jù)。此外,因為同一個識別模型可以滿足多種文字的識別需求,避免了使用多個識別模型或修正識別模型,進而避免了多個識別模型占用大量存儲空間以及其運行時的內存。
【專利說明】
針對圖像進行文字識別的方法及裝置
技術領域
[0001]本發(fā)明涉及圖像處理領域,更具體地涉及一種針對圖像進行文字識別的方法和裝置。
【背景技術】
[0002]人們在生產和生活中,要處理大量的文字和報表。為了減輕人們的勞動,提高處理效率,隨著圖像處理技術的日新月異,越來越多的應用場景采用了文字識別技術。例如文字識別技術已經廣泛應用于金融、財務、保險和電商等行業(yè)的業(yè)務中。
[0003]現(xiàn)有的針對圖像進行文字識別的方法通常包括如下步驟:首先,確定目標識別字符集,如漢字或英文等;然后,僅針對這一目標識別字符集收集大量標注好的圖像與文字對,例如,如果目標識別字符集是漢字,那么將僅收集包括漢字的圖像與漢字對;然后,利用標注好的圖像與文字對針對識別模型(例如,神經網絡)進行訓練;最后,將包括待識別對象的圖像輸入至識別模型進行文字識別,以獲得識別結果。
[0004]以上針對圖像進行文字識別的方法需要針對不同的目標識別字符集訓練不同的識別模型,且在訓練識別模型的過程中,需要大量的、針對目標識別字符集的標注數(shù)據(jù),即標注好的圖像和文字對。這對于一些缺少數(shù)據(jù)的字符集(例如阿拉伯語等)而言代價較高,如果未能收集到大量的、針對目標識別字符集的標注數(shù)據(jù)來訓練相應的識別模型,那么利用這樣訓練得到的識別模型進行文字識別準確率較低。此外,在實際產品需求中,如果已知某一圖像的文字識別結果為數(shù)字,為了避免將數(shù)字“O”識別為字母“O”,還需要定義特別的修正規(guī)則對識別模型進行修正或者使用新的識別模型,從而導致存儲空間的大量占用以及工程上的額外信息量、工作量和維護困難。

【發(fā)明內容】

[0005]考慮到上述問題而提出了本發(fā)明。本發(fā)明提供了一種針對圖像進行文字識別的方法和裝置,通過識別模型獲得待識別對象的矢量并針對該表示待識別對象的矢量進行匹配計算來進行文字識別,可以使用同一個識別模型針對圖像進行各種文字的較準確識別,且無需在訓練識別模型時收集針對目標識別字符集的大量標注數(shù)據(jù),從而避免了由于缺少特定數(shù)據(jù)字符集而引起的識別模型訓練不好導致文字識別率低、以及針對不同的目標識別字符集單獨訓練識別模型或者修正識別模型所帶來的額外工作量。
[0006]根據(jù)本發(fā)明一方面,提供了一種針對圖像進行文字識別的方法,包括:
[0007]將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量;以及
[0008]計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。
[0009 ]示例性地,所述計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度包括:計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的矢量點積,其中,所述矢量點積表示標準矢量所表示的文字作為所述待識別對象的置信度。
[0010]示例性地,所述方法還包括:
[0011]將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為所述識別模型,其中d是正整數(shù)。
[0012]示例性地,所述方法還包括:
[0013]接收訓練圖像和對應的標注內容;以及
[0014]利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡。
[0015]示例性地,所述利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡包括:
[0016]S110,將所述訓練圖像輸入至所述用于文字識別的神經網絡,以獲得所述訓練圖像的識別結果;
[0017]S130,根據(jù)所述訓練圖像的識別結果和所述標注內容,計算所述用于文字識別的神經網絡的損失函數(shù)值;以及
[0018]S150,在所述損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整所述用于文字識別的神經網絡的參數(shù)并且轉所述步驟S110,否則,停止對所述用于文字識別的神經網絡的訓練并獲得訓練好的神經網絡以用于獲得所述識別模型。
[0019]示例性地,所述標注內容包括文字標注和/或非文字標注。
[0020]示例性地,所述方法還包括:根據(jù)期望輸出文字集合,從標準矢量總集合中確定所述預定標準矢量集合。
[0021]示例性地,所述方法還包括:將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量,其中,所述標準矢量總集合包括所述標準字體的文字對應的標準矢量。
[0022]示例性地,所述將包括標準字體的文字的白底黑字圖像輸入至所述識別模型以獲得與所述標準字體的文字對應的標準矢量的步驟是離線進行的。
[0023]根據(jù)本發(fā)明另一方面,還提供了一種針對圖像進行文字識別的裝置,包括:
[0024]映射模塊,用于將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量;以及
[0025]匹配模塊,用于計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。
[0026]示例性地,所述匹配模塊包括點積計算單元,用于計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的矢量點積,其中,所述矢量點積表示標準矢量所表示的文字作為所述待識別對象的置信度。
[0027]示例性地,所述裝置還包括:
[0028]模型獲得模塊,用于將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為所述識別模型,其中d是正整數(shù)。
[0029]示例性地,所述裝置還包括:
[0030]接收模塊,用于接收訓練圖像和對應的標注內容;以及
[0031]訓練模塊,用于利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡。
[0032]示例性地,所述訓練模塊包括:
[0033]識別單元,用于將所述訓練圖像輸入至所述用于文字識別的神經網絡,以獲得所述訓練圖像的識別結果;
[0034]損失函數(shù)計算單元,用于根據(jù)所述訓練圖像的識別結果和所述標注內容,計算所述用于文字識別的神經網絡的損失函數(shù)值;以及
[0035]調整單元,用于在所述損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整所述用于文字識別的神經網絡的參數(shù)并且啟動所述識別單元;否則,停止對所述用于文字識別的神經網絡的訓練并獲得訓練好的神經網絡以用于獲得所述識別模型。
[0036]示例性地,所述標注內容包括文字標注和/或非文字標注。
[0037]示例性地,所述裝置還包括選擇模塊,用于根據(jù)期望輸出文字集合,從標準矢量總集合中確定所述預定標準矢量集合。
[0038]示例性地,所述裝置還包括標準矢量獲得模塊,用于將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量,其中,所述標準矢量總集合包括所述標準字體的文字對應的標準矢量。
[0039]示例性地,所述標準矢量獲得模塊是離線運行的。
[0040]上述方法和裝置可以使用同一個識別模型針對圖像進行各種文字的準確識別。而且,無需在訓練識別模型時收集針對目標識別字符集的大量標注數(shù)據(jù),從而避免了由于缺少特定數(shù)據(jù)字符集而引起的識別模型訓練不好導致文字識別率低。此外,因為同一個識別模型可以滿足多種文字的識別需求,所以不需要針對不同的目標識別字符集使用多個識別模型或者修正識別模型,從而避免了使用多個識別模型占用大量存儲空間和運行時的內存,減少了工程上的額外信息量、工作量,并且減輕了工程上的維護困難。
【附圖說明】
[0041]通過結合附圖對本發(fā)明實施例進行更詳細的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本發(fā)明實施例的進一步理解,并且構成說明書的一部分,與本發(fā)明實施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中,相同的參考標號通常代表相同或相似部件或步驟。
[0042]圖1示出了用于實現(xiàn)根據(jù)本發(fā)明實施例的用于針對圖像進行文字識別的方法和裝置的示例電子設備的示意性框圖;
[0043]圖2示出了根據(jù)本發(fā)明一個實施例的針對圖像進行文字識別的方法的示意性流程圖;
[0044]圖3示出了根據(jù)本發(fā)明另一個實施例的針對圖像進行文字識別的方法的示意性流程圖;
[0045]圖4示出了根據(jù)本發(fā)明一個實施例的訓練用于文字識別的神經網絡的方法的示意性流程圖;
[0046]圖5A示出了根據(jù)本發(fā)明一個實施例的訓練圖像;
[0047]圖5B示出了根據(jù)本發(fā)明另一個實施例的訓練圖像;
[0048]圖6示出了根據(jù)本發(fā)明一個實施例的利用訓練圖像和標注內容訓練用于文字識別的神經網絡的示意性流程圖;
[0049]圖7示出了根據(jù)本發(fā)明又一個實施例的針對圖像進行文字識別的方法;
[0050]圖8示出了根據(jù)本發(fā)明一個實施例的針對圖像進行文字識別的裝置的示意性框圖;
[0051]圖9示出了根據(jù)本發(fā)明另一實施例的針對圖像進行文字識別的裝置的示意性框圖;以及
[0052]圖10是根據(jù)本發(fā)明一個實施例的文字識別設備的示意性框圖。
【具體實施方式】
[0053]為了使得本發(fā)明的目的、技術方案和優(yōu)點更為明顯,下面將參照附圖詳細描述根據(jù)本發(fā)明的示例實施例。顯然,所描述的實施例僅僅是本發(fā)明的一部分實施例,而不是本發(fā)明的全部實施例,應理解,本發(fā)明不受這里描述的示例實施例的限制。基于本發(fā)明中描述的本發(fā)明實施例,本領域技術人員在沒有付出創(chuàng)造性勞動的情況下所得到的所有其它實施例都應落入本發(fā)明的保護范圍之內。
[0054]首先,參照圖1來描述用于實現(xiàn)本發(fā)明實施例的針對圖像進行文字識別的方法和裝置的示例電子設備100。
[0055]如圖1所示,電子設備100包括一個或多個處理器102、一個或多個存儲裝置104、輸入裝置106和輸出裝置108,這些組件通過總線系統(tǒng)110和/或其它形式的連接機構(未示出)互連。應當注意,圖1所示的電子設備100的組件和結構只是示例性的,而非限制性的,根據(jù)需要,所述電子設備也可以具有其他組件和結構。
[0056]所述處理器102可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制所述電子設備100中的其它組件以執(zhí)行期望的功能。
[0057]所述存儲裝置104可以包括一個或多個計算機程序產品,所述計算機程序產品可以包括各種形式的計算機可讀存儲介質,例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機存取存儲器(RAM)和/或高速緩沖存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(R0M)、硬盤、閃存等。在所述計算機可讀存儲介質上可以存儲一個或多個計算機程序指令,處理器102可以運行所述程序指令,以實現(xiàn)下文所述的本發(fā)明實施例中(由處理器實現(xiàn))的計算機功能以及/或者其它期望的功能。在所述計算機可讀存儲介質中還可以存儲各種應用程序和各種數(shù)據(jù),例如所述應用程序使用和/或產生的各種數(shù)據(jù)等。
[0058]所述輸入裝置106可以是用來接收用戶所輸入的指令以及采集數(shù)據(jù)的裝置,并且可以包括鍵盤、鼠標、麥克風、觸摸屏和攝像頭等中的一個或多個。
[0059]所述輸出裝置108可以向外部(例如用戶)輸出各種信息(例如圖像或聲音),并且可以包括顯示器、揚聲器等中的一個或多個。
[0060]上述輸入裝置106和輸出裝置108主要用于與用戶交互。
[0061]下面,將參考圖2描述根據(jù)本發(fā)明一個實施例的針對圖像進行文字識別的方法200。
[0062]在步驟S220中,將包括待識別對象的圖像輸入至識別模型,以獲得表示該待識別對象的矢量。
[0063]在很多應用場景中,需要針對圖像進行文字識別。待識別對象通常是文字。本文中,文字是廣義的概念。人類用來記錄語言的所有符號均可以稱為文字。具體地,待識別對象可以是各種語言的文字,例如中文文字、英文單詞、阿拉伯文單詞和德文單詞等。待識別對象可以是單詞,還可以是字符。以英文為例,文字即包括諸如“apple”、“computer”、“process”等單詞,又包括諸如“a”、“b”、“c”等字母。再以中文為例,文字即包括諸如“蘋果”、“計算機”、“處理”等詞語,又包括諸如“彩”、“大”、“更”等單字。
[0064]識別模型可以是一個神經網絡(Neural Network,簡寫為NN)。神經網絡是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數(shù)學模型。神經網絡依靠模型的復雜程度,通過調整神經網絡內部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。神經網絡適于處理復雜的、無法簡單地用函數(shù)處理的計算。而圖像數(shù)據(jù)本身不僅數(shù)據(jù)量大,而且其沒有簡單的規(guī)律性,利用神經網絡可以更好地針對圖像進行文字識別。
[0065]可以將包括待識別對象的圖像輸入至識別模型,識別模型將輸出與圖像相對應的矢量。換言之,識別模型與現(xiàn)有的用于文字識別的神經網絡不同,識別模型將所輸入的圖像映射為矢量,而現(xiàn)有的用于文字識別的神經網絡將所輸入的圖像直接映射為文字。根據(jù)本發(fā)明的實施例,根據(jù)用于文字識別的神經網絡,可以獲得所述識別模型。識別模型所輸出的矢量與所輸入的圖像具有一一映射關系。對于不同的待識別對象,一個識別模型都可以輸出特定長度的矢量。長度是指矢量包含的元素的個數(shù)。識別模型所輸出的矢量的長度通常大于I。例如矢量的長度可以是4096??梢愿鶕?jù)該特定長度的矢量來識別與之對應的待識別對象。
[0066]在步驟S240中,計算表示該待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為該待識別對象的識別結果O
[0067]標準矢量集合中的標準矢量與表示待識別對象的矢量的長度是一致的。每個標準矢量與一個特定文字相對應,即該標準矢量表示該特定文字。
[0068]不同矢量之間的匹配度表明了兩個矢量之間的相似程度,進而表明了兩個矢量各自所表示的文字之間的相似度。標準矢量與表示待識別對象的矢量的匹配度越高,那么該待識別對象越有可能是該標準矢量所表示的特定文字。因此,可以將與表示待識別對象的矢量匹配度最高的標準矢量所表示的文字作為該待識別對象的識別結果。
[0069I 可選地,步驟S240可以通過計算該表示待識別對象的矢量q與預定標準矢量集合中的每一個標準矢量的矢量點積來實現(xiàn)??梢员闅v預定標準矢量集合中的所有標準矢量Vi,V2,...,Vn。分另Iji十算矢量點積si = corr(vi,q),S2 = corr(v2,q),...,Sn = corr(vn,q),其中corr( Vi, q)表示預定標準矢量集合中的每一個標準矢量Vi和待識別對象的矢量q的點積計算。每個矢量點積可以表示將對應的標準矢量所表示的文字作為待識別對象的置信度,即將待識別對象識別為對應的標準矢量所表示的文字的置信度。
[0070]通過點積計算來確定矢量之間的匹配度,保證了待識別對象的識別準確性并且易于實現(xiàn)。
[0071]可以理解,除了點積可以表示匹配度,還可以通過計算矢量的平方差之和來計算矢量之間的匹配度。
[0072]上述針對圖像進行文字識別的方法,通過識別模型獲得待識別對象的矢量并針對表示待識別對象的矢量進行匹配計算來進行文字識別,可以使用同一個識別模型針對圖像進行各種文字的較準確識別,且無需在訓練識別模型時收集針對目標識別字符集的大量標注數(shù)據(jù),從而避免了由于缺少特定數(shù)據(jù)字符集而引起的識別模型訓練不好導致文字識別率低。此外,因為同一個識別模型可以滿足多種文字的識別需求,所以不需要針對不同的目標識別字符集使用多個識別模型或者修正識別模型,從而避免了使用多個識別模型占用大量存儲空間和其運行時的內存,減少了工程上的額外信息量、工作量,并且減輕了工程上的維護困難。
[0073]圖3示出了根據(jù)本發(fā)明另一實施例的針對圖像進行文字識別的方法300的示意性流程圖。如圖3所示,與上述針對圖像進行文字識別的方法200相比,針對圖像進行文字識別的方法300增加了步驟S313。通過步驟S313獲得了用于針對圖像進行文字識別的識別模型。方法300中的步驟S320和步驟S340分別與方法200中的對應步驟S220和S240類似,為了簡潔,在此不再贅述。
[0074]在步驟S313中,將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為識別模型,其中d是正整數(shù),表示用于文字識別的神經網絡與所述識別模型的層數(shù)差。
[0075]可以理解神經網絡包括輸入端和輸出端。輸入端用于接收待分析處理的圖像。輸出端用于輸出分析處理結果,在本發(fā)明中用于文字識別的神經網絡的輸出端用于輸出圖像的文字識別結果。
[0076]神經網絡通常包括多個層。在步驟S313中,將神經網絡從輸出端去掉d層。假設神經網絡從輸入端到輸出端,共包括第I層,第2層,…,第m層,那么在步驟S313中,保留了第I層,第2層,…,第(m-d)層,但去掉了d層(從第(m-d+1)到第m層)。也就是說神經網絡的第I層,第2層,…,第(m-d)層構成了識別模型。例如,可以去掉神經網絡的輸出層的前一層。對于具有m層的神經網絡,將輸出層(第m層)去掉,只保留神經網絡的第I層,第2層,…,第(m-1)層作為識別模型。識別模型的輸入與上述包括m層的神經網絡的輸入一致。但是,識別模型以其第(m-d)層的輸出為其最后圖像處理結果,其輸出為待識別對象的矢量。
[0077]上述針對圖像進行文字識別的方法300利用了用于文字識別的神經網絡來獲得識別模型。獲得的識別模型可以輸出待識別對象的矢量。所述待識別對象可以是各種類型的文字。使用神經網絡獲得識別模型可以在實現(xiàn)容易的基礎上,獲得可靠性和實用性。此外,上述獲得識別模型的方法可以利用包括各種文字和/或非文字的訓練圖像來訓練用于文字識別的神經網絡,可以使最終獲得的識別模型魯棒性更強,能夠普遍適用于各種文字的識別。
[0078]圖4示出了根據(jù)本發(fā)明一個實施例的訓練用于文字識別的神經網絡的方法的示意性流程圖。
[0079]在步驟S411中,接收訓練圖像和對應的標注內容。
[0080]訓練圖像是已知其中所包括的文字的圖像。訓練圖像可以是包含各種文字的圖像,即圖像中的文字種類豐富。與這類訓練圖像對應的標注內容是文字標注。例如,訓練圖像可以包括不同語言的文字,例如中文、英文和日文等等。又例如,訓練圖像可以包括不同粒度的文字,例如字符、整詞等等。此外,訓練圖像可以包括各種非文字圖像,例如圖標、交通標志燈等。換言之,與這類訓練圖像對應的標注內容是非文字標注??梢越y(tǒng)稱這類訓練圖像為背景圖像。根據(jù)本發(fā)明的實施例,訓練所述用于文字識別的神經網絡,可以使用包括文字和/或非文字圖像(對應的為文字標注和/或非文字標注)在內的訓練圖像,且并不針對特定目標識別文字字符集進行訓練,所以訓練圖像的數(shù)量可以大大增加,從而使得訓練出來的神經網絡在識別文字時具有更強的魯棒性和準確性。
[0081]圖5A示出了根據(jù)本發(fā)明一個實施例的一個訓練圖像。該訓練圖像中所包括的文字是“壽”字。即與該訓練圖像所對應的標注內容為“壽”。可以理解,對于一個標注內容,例如“壽”字,可以存在多個訓練圖像與之對應,諸如包括不同字體的“壽”的圖像。但是,對于一個訓練圖像,與之對應的標注內容是唯一的。
[0082]圖5B示出了根據(jù)本發(fā)明另一個實施例的一個訓練圖像。該訓練圖像中包括一個交通標志。該訓練圖像的標注內容可以是“背景”,其為非文字標注。
[0083]在步驟S412中,利用步驟S411中所接收的訓練圖像和標注內容訓練用于文字識別的神經網絡。
[0084]通過該步驟S412,訓練所述用于文字識別的神經網絡,該神經網絡可以用于對圖像進行文字識別。將大量的訓練圖像輸入該神經網絡,該神經網絡可以識別并輸出該圖像中的文字。根據(jù)該用于文字識別的神經網絡獲得的文字與對應訓練圖像中標注的真實文字的差異,調整所述用于文字識別的神經網絡的損失函數(shù),可以獲得理想的用于文字識別的神經網絡。換言之,將訓練圖像輸入該用于文字識別的神經網絡所獲得的文字與訓練圖像所對應的標注內容進行比對來調整神經網絡的參數(shù),以得到可以用于文字識別的神經網絡。由此,該神經網絡可以保證在其使用過程中可以獲得理想的文字識別結果。
[0085]圖6示出了根據(jù)本發(fā)明一個實施例的步驟S412的實現(xiàn)過程。如圖6所示,步驟S412可以進一步包括:步驟S612a、步驟S612b和步驟S612c。
[0086]在步驟S612a中,將訓練圖像輸入至用于文字識別的神經網絡,以獲得訓練圖像的識別結果。針對每個訓練圖像,所述神經網絡輸出與其對應的識別結果。識別結果可以是各種文字或背景。
[0087]在步驟S612b中,根據(jù)訓練圖像的識別結果和標注內容,計算所述神經網絡的損失函數(shù)值。
[0088]對于每個訓練圖像,期望神經網絡的識別結果和標注內容一致。訓練圖像的識別結果與標注內容差異越大,那么所計算的損失函數(shù)值越大,這表明越需要調整神經網絡的當前參數(shù),以獲得更準確的識別結果。損失函數(shù)值可以包括神經網絡的交叉熵和回歸損失函數(shù)值。該損失函數(shù)值能夠較好地體現(xiàn)神經網絡的識別準確率,由此可以獲得一個更理想的神經網絡,進而獲得更理想的識別模型。
[0089]在步驟S612c中,在損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整神經網絡的參數(shù)并且轉所述步驟S612a,否則,停止對神經網絡的訓練并獲得訓練好的神經網絡以用于獲得識別模型。
[0090]可以將損失函數(shù)值滿足預設條件以及迭代次數(shù)小于閾值這兩個條件中的一個或二者作為步驟S612c執(zhí)行結束的條件。損失函數(shù)值滿足預設條件表示當前的神經網絡可以獲得一個相對準確的識別結果。增加迭代次數(shù)的約束條件可以使得系統(tǒng)能夠適時停止運算,避免無謂的計算,提高計算效率。
[0091 ]在步驟S313中,將步驟S412訓練獲得的用于文字識別的神經網絡從輸出端去掉d層,以獲得識別模型,其中d是正整數(shù),表示所述用于文字識別的神經網絡與識別模型的層數(shù)差。
[0092]上述針對圖像進行文字識別的方法300利用了用于文字識別的神經網絡來獲得識別模型。基于用于文字識別的神經網絡獲得的識別模型可以在實現(xiàn)容易的基礎上,具有可靠性和實用性。此外,上述獲得識別模型的方法利用包括各種文字以及非文字的訓練圖像來訓練神經網絡,可以使最終獲得的識別模型魯棒性更強,能夠普遍適用于各種文字的識別。
[0093]圖7示出了根據(jù)本發(fā)明又一個實施例的針對圖像進行文字識別的方法700。如圖7所示,與上述針對圖像進行文字識別的方法200相比,針對圖像進行文字識別的方法700增加了步驟S715 ο方法700中的步驟S720和步驟S740分別與方法200中的對應步驟類似,為了簡潔,在此不再贅述。
[0094]在步驟S715中,根據(jù)期望輸出文字集合,從標準矢量總集合中確定上述預定標準矢量集合。
[0095]標準矢量總集合中包括全部標準矢量。在一些應用場景中,可能預先知道識別結果的范圍。根據(jù)期望的輸出文字集合,從標準矢量總集合中確定所述預定標準矢量集合。比如,知道某一圖像的文字識別結果必然為數(shù)字,可以根據(jù)輸出數(shù)字集合的期望,從全部標準矢量中選擇包括數(shù)字和逗號的預定標準矢量集合??梢愿鶕?jù)該先驗知識,從標準矢量總集合中選擇一部分矢量,來構成預定標準矢量集合,從而縮小識別結果的范圍。從而,在計算識別模型輸出的矢量與標準矢量的匹配度時,僅針對所選擇的這一部分進行計算。這樣,不僅避免了無謂的計算,還能夠顯著提高識別準確率。例如,避免了將數(shù)字“O”識別為字母“O”的錯誤。
[0096]示例性地,可以將包括已知內容的文字的圖像輸入至識別模型,以獲得與該文字對應的標準矢量。這些標準矢量可以構成標準矢量總集合。如前所述,當針對圖像進行文字識別時,根據(jù)期望輸出的文字集合,從標準矢量總集合中確定預定標準矢量集合,可以將識別模型所輸出的、表示待識別對象的矢量與預定標準矢量集合中的每一個標準矢量相比對。將相似度最高的標準矢量所表示的文字作為待識別對象的識別結果。
[0097]可選地,文字是標準字體和/或包括該文字的圖像是白底黑字圖像。這兩點可以使與該文字對應的矢量更能夠表達該文字的特征,而免受字體、圖像背景等因素干擾。從而,提高圖像的文字識別的準確率。
[0098]可選地,可以通過離線獲得標準矢量,從而顯著提高系統(tǒng)運行速度,節(jié)約計算時間。
[0099]可以理解,除了利用上述方式獲得標準矢量,還可以采用其他方式來獲得標準矢量。例如,將標準矢量預先存儲在本地。
[0100]還應該理解的是,上述標準矢量總集合還可以隨著期望輸出文字集合而擴展。例如,在現(xiàn)有的標準矢量總集合中不包括期望輸出文字時,可以根據(jù)期望輸出文字集合,將對應的包括新增的標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述新增的標準字體的文字對應的標準矢量,并將其作為標準矢量總集合的一部分。例如,為了使所述識別模型可以識別不常用的文字,例如,阿拉伯文字,可以通過將包括標準字體的阿拉伯文字的白底黑字的圖像輸入至所述識別模型,以獲得與標準字體的阿拉伯文字對應的標準矢量,并將其作為標準矢量總集合中的一部分,用于識別阿拉伯文字。
[0101]通過使用所述識別模型進行文字識別,可以在使用過程中,將包括標準字體的文字的圖像輸入識別網絡(而不需要類似訓練過程中的大量包括該文字的圖像),獲得與所述標準字體的文字對應的標準矢量,以用于識別文字,從而,對于識別那些訓練數(shù)據(jù)稀缺的字符集而言,避免了在訓練過程中由于數(shù)據(jù)的不充足而造成神經網絡模型的訓練不佳影響識別效果。
[0102]圖8示出了根據(jù)本發(fā)明一個實施例的針對圖像進行文字識別的裝置800的示意性框圖。如圖8所示,所述裝置800可以包括映射模塊820和匹配模塊840。
[0103]映射模塊820用于將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量。識別模型將包括待識別對象的圖像映射為一個定長矢量。該矢量可以表示待識別對象。
[0104]匹配模塊840用于計算表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。預定標準矢量集合是備選矢量的集合,待識別對象的識別結果根據(jù)表示待識別對象的矢量與備選矢量之間的匹配度確定??梢哉J為匹配度最高的備選矢量所表示的文字是待識別對象的識別結果。
[0105]可選地,匹配模塊840可以包括點積計算單元(未示出)。點積計算單元用于計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的矢量點積。換言之,兩個矢量的點積可以表示兩者之間的匹配度。
[0106]上述針對圖像進行文字識別的裝置800,通過針對表示待識別對象的矢量進行匹配計算來進行文字識別,可以針對圖像進行各種文字的較準確識別。此外,無需在訓練識別模型時收集針對目標識別字符集的大量標注數(shù)據(jù)。而且,因為同一個識別模型可以滿足多種文字的識別需求,避免了使用多個識別模型,所以不需要針對不同的目標字符集使用多個識別模型或者修正識別模型,從而避免了使用多個識別模型占用大量存儲空間和其運行時的內存,減少了工程上的額外信息量、工作量,并且減輕了工程上的維護困難。
[0107]圖9示出了根據(jù)本發(fā)明另一實施例的針對圖像進行文字識別的裝置900的示意性框圖。如圖9所示,相比于上述裝置800,裝置900中還包括模型獲得模塊913。裝置900中的映射模塊920和匹配模塊940分別與裝置800中的對應模塊820和840類似,為了簡潔,在此不再贅述。
[0108]模型獲得模塊913用于將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為所述識別模型,其中d是正整數(shù),表示所述用于文字識別的神經網絡與所述識別模型的層數(shù)差。
[0109]為了得到訓練好的用于文字識別的神經網絡,所述裝置900還可以包括接收模塊911和訓練模塊912(未示出)。
[0110]接收模塊911用于接收訓練圖像和對應的標注內容。訓練圖像是其所包括的內容已經利用自動或手動方法進行了標注的圖像。例如,有的訓練圖像的標注內容是文字標注,該文字可以是各種語言的。有的訓練圖像的標注內容是非文字標注,可以將其標注為“背景”。具有豐富標注內容的大量訓練圖像可以幫助獲得更穩(wěn)定的識別模型。
[0111]訓練模塊912用于利用所述訓練圖像和所述標注內容訓練用于文字識別的神經網絡。
[0112]示例性地,訓練模塊912包括識別單元、損失函數(shù)計算單元和調整單元。識別單元用于將所述訓練圖像輸入至所述用于文字識別的神經網絡,以獲得所述訓練圖像的識別結果。損失函數(shù)計算單元用于根據(jù)所述訓練圖像的識別結果和所述標注內容,計算所述識別模型的損失函數(shù)值。調整單元用于在所述損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整所述用于文字識別的神經網絡的參數(shù)并且啟動所述識別單元;否則,停止對所述用于文字識別的神經網絡的訓練并獲得訓練好的神經網絡以用于獲得所述識別模型。
[0113]示例性地,所述裝置800或裝置900還可以包括選擇模塊,用于從標準矢量總集合中根據(jù)期望輸出文字集合確定所述預定標準矢量集合。
[0114]示例性地,所述裝置800或裝置900還可以包括標準矢量獲得模塊,用于將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量,以構成標準矢量總集合。所述標準矢量獲得模塊可以是離線運行的。
[0115]本領域普通技術人員通過閱讀上文關于針對圖像進行文字識別的方法和的詳細描述,能夠理解上述針對圖像進行文字識別的裝置的結構、實現(xiàn)以及優(yōu)點,因此這里不再贅述。
[0116]本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
[0117]圖10示出了根據(jù)本發(fā)明實施例的文字識別設備1000的示意性框圖。該文字識別設備1000可以針對圖像進行文字識別。文字識別設備1000包括輸入裝置1010、存儲裝置1020、處理器1030以及輸出裝置1040。
[0118]所述輸入裝置1010用于接收用戶所輸入的操作指令以及采集數(shù)據(jù)。輸入裝置1010可以包括鍵盤、鼠標、麥克風、觸摸屏和攝像頭等中的一個或多個。
[0119]所述存儲裝置1020存儲用于實現(xiàn)根據(jù)本發(fā)明實施例的針對圖像進行文字識別的方法中的相應步驟的程序代碼。
[0120]所述處理器1030用于運行所述存儲裝置1020中存儲的程序代碼,以執(zhí)行根據(jù)本發(fā)明實施例的針對圖像進行文字識別的方法的相應步驟,并且用于實現(xiàn)根據(jù)本發(fā)明實施例的針對圖像進行文字識別的裝置中的映射模塊820和匹配模塊840。
[0121 ]在一個實施例中,在所述程序代碼被所述處理器1030運行時使所述文字識別設備1000執(zhí)行以下步驟:
[0122]將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量;以及
[0123]計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。
[0124]示例性地,在所述程序代碼被所述處理器1030運行時使所述文字識別設備1000執(zhí)行計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度的步驟包括:
[0125]計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的矢量點積,其中,所述矢量點積表示標準矢量所表示的文字作為所述待識別對象的置信度。
[0126]示例性地,在所述程序代碼被所述處理器1030運行時使所述文字識別設備1000還執(zhí)行以下步驟:
[0127]將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為所述識別模型,其中d是正整數(shù)。
[0128]示例性地,在所述程序代碼被所述處理器1030運行時使所述文字識別設備1000還執(zhí)行以下步驟:
[0129]接收訓練圖像和對應的標注內容;以及
[0130]利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡。
[0131]示例性地,在所述程序代碼被所述處理器1030運行時使所述文字識別設備1000執(zhí)行利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡的步驟包括:
[0132]S312a,將所述訓練圖像輸入至所述用于文字識別的神經網絡,以獲得所述訓練圖像的識別結果;
[0133]S312b,根據(jù)所述訓練圖像的識別結果和所述標注內容,計算所述用于文字識別的神經網絡的損失函數(shù)值;以及
[0134]S312c,在所述損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整所述用于文字識別的神經網絡的參數(shù)并且轉所述步驟S312a,否則,停止對所述用于文字識別的神經網絡的訓練并獲得訓練好的神經網絡以用于獲得所述識別模型。
[0135]示例性地,所述標注內容包括文字標注和/或非文字標注。
[0136]示例性地,在所述程序代碼被所述處理器1030運行時使所述文字識別設備1000還執(zhí)行以下步驟:根據(jù)期望輸出文字集合,從標準矢量總集合中確定所述預定標準矢量集合。
[0137]示例性地,在所述程序代碼被所述處理器1030運行時使所述文字識別設備1000還執(zhí)行以下步驟:將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量,其中,所述標準矢量總集合包括所述標準字體的文字對應的標準矢量。
[0138]上述將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量的步驟可以離線進行。
[0139]此外,根據(jù)本發(fā)明實施例,還提供了一種存儲介質,在所述存儲介質上存儲了程序指令,在所述程序指令被計算機或處理器運行時用于執(zhí)行本發(fā)明實施例的針對圖像進行文字識別的方法的相應步驟,并且用于實現(xiàn)根據(jù)本發(fā)明實施例的針對圖像進行文字識別的裝置中的相應模塊。所述存儲介質例如可以包括智能電話的存儲卡、平板電腦的存儲部件、個人計算機的硬盤、只讀存儲器(R0M)、可擦除可編程只讀存儲器(EPROM)、便攜式緊致盤只讀存儲器(CD-ROM)、USB存儲器、或者上述存儲介質的任意組合。所述計算機可讀存儲介質可以是一個或多個計算機可讀存儲介質的任意組合。
[0140]在一個實施例中,所述計算機程序指令在被計算機或處理器運行時,使得所述計算機或處理器執(zhí)行以下步驟:
[0141]將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量;以及
[0142]計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。
[0143]在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度的步驟包括:
[0144]計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的矢量點積,其中,所述矢量點積表示標準矢量所表示的文字作為所述待識別對象的置信度。
[0145]在一個實施例中,所述計算機程序指令在被計算機或處理器運行時,使得所述計算機或處理器運行時還執(zhí)行以下步驟:
[0146]將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為所述識別模型,其中d是正整數(shù)。
[0147]在一個實施例中,所述計算機程序指令在被計算機或處理器運行時,還使得所述計算機或處理器執(zhí)行以下步驟:
[0148]接收訓練圖像和對應的標注內容;以及
[0149]利用所述訓練圖像和所述標注內容訓練用于文字識別的神經網絡。
[0150]在所述計算機程序指令在被所述計算機或處理器運行時使計算機或處理器執(zhí)行利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡的步驟包括:
[0151]S312a,將所述訓練圖像輸入至所述用于文字識別的神經網絡,以獲得所述訓練圖像的識別結果;
[0152]S312b,根據(jù)所述訓練圖像的識別結果和所述標注內容,計算所述用于文字識別的神經網絡的損失函數(shù)值;以及
[0153]S312c,在所述損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整所述用于文字識別的神經網絡的參數(shù)并且轉所述步驟S312a,否則,停止對所述用于文字識別的神經網絡的訓練并獲得訓練好的神經網絡以用于獲得所述識別模型。
[0154]示例性地,所述標注內容包括文字標注和/或非文字標注。
[0155]在一個實施例中,所述計算機程序指令在被計算機或處理器運行時還使得所述計算機或處理器執(zhí)行以下步驟:根據(jù)期望輸出文字集合,從標準矢量總集合中確定所述預定標準矢量集合。
[0156]在一個實施例中,所述計算機程序指令在被計算機或處理器運行時還使得所述計算機或處理器執(zhí)行以下步驟:將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量,其中,所述標準矢量總集合包括所述標準字體的文字對應的標準矢量。
[0157]示例性地,上述將包括標準字體的文字的白底黑字圖像輸入至所述識別模型以獲得與所述標準字體的文字對應的標準矢量的步驟可以離線進行。
[0158]根據(jù)本發(fā)明實施例的文字識別設備中的各模塊可以通過根據(jù)本發(fā)明實施例的處理器運行在存儲器中存儲的計算機程序指令來實現(xiàn),或者可以在根據(jù)本發(fā)明實施例的計算機程序產品的計算機可讀存儲介質中存儲的計算機指令被計算機或處理器運行時實現(xiàn)。
[0159]根據(jù)本發(fā)明實施例的針對圖像進行文字識別的方法及裝置、文字識別設備以及存儲介質,通過同一個識別模型可以針對圖像進行各種文字的較準確識別且無需在訓練識別模型時收集針對目標識別字符集的大量標注數(shù)據(jù),從而避免了由于缺少特定數(shù)據(jù)字符集而引起的識別模型訓練不好導致文字識別率低。此外,因為同一個識別模型可以滿足多種文字的識別需求,所以不需要針對不同的目標識別字符集使用多個識別模型或者修正識別模型,從而避免了多個識別模型占用大量存儲空間和其運行時的內存,減少了工程上的額外信息量、工作量,并且減輕了工程上的維護困難。
[0160]盡管這里已經參考附圖描述了示例實施例,應理解上述示例實施例僅僅是示例性的,并且不意圖將本發(fā)明的范圍限制于此。本領域普通技術人員可以在其中進行各種改變和修改,而不偏離本發(fā)明的范圍和精神。所有這些改變和修改意在被包括在所附權利要求所要求的本發(fā)明的范圍之內。
[0161]本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
[0162]在本申請所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個設備,或一些特征可以忽略,或不執(zhí)行。
[0163]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0164]類似地,應當理解,為了精簡本發(fā)明并幫助理解各個發(fā)明方面中的一個或多個,在對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該本發(fā)明的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如相應的權利要求書所反映的那樣,其發(fā)明點在于可以用少于某個公開的單個實施例的所有特征的特征來解決相應的技術問題。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發(fā)明的單獨實施例。
[0165]本領域的技術人員可以理解,除了特征之間相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0166]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如,在權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0167]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的針對圖像進行文字識別的裝置中的一些模塊的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0168]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0169]以上所述,僅為本發(fā)明的【具體實施方式】或對【具體實施方式】的說明,本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內。本發(fā)明的保護范圍應以權利要求的保護范圍為準。
【主權項】
1.一種針對圖像進行文字識別的方法,包括: 將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量;以及 計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。2.如權利要求1所述的方法,其中,所述計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度包括: 計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的矢量點積,其中,所述矢量點積表示標準矢量所表示的文字作為所述待識別對象的置信度。3.如權利要求1所述的方法,其中,所述方法還包括: 將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為所述識別模型,其中d是正整數(shù)。4.如權利要求3所述的方法,所述方法還包括: 接收訓練圖像和對應的標注內容;以及 利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡。5.如權利要求4所述的方法,其中,所述利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡包括: S110,將所述訓練圖像輸入至所述用于文字識別的神經網絡,以獲得所述訓練圖像的識別結果; S130,根據(jù)所述訓練圖像的識別結果和所述標注內容,計算所述用于文字識別的神經網絡的損失函數(shù)值;以及 S150,在所述損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整所述用于文字識別的神經網絡的參數(shù)并且轉所述步驟S110,否則,停止對所述用于文字識別的神經網絡的訓練并獲得訓練好的神經網絡以用于獲得所述識別模型。6.如權利要求4或5所述的方法,其中,所述標注內容包括文字標注和/或非文字標注。7.如權利要求1或2所述的方法,其中,所述方法還包括: 根據(jù)期望輸出文字集合,從標準矢量總集合中確定所述預定標準矢量集合。8.如權利要求7所述的方法,其中,所述方法還包括: 將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量,其中,所述標準矢量總集合包括所述標準字體的文字對應的標準矢量。9.如權利要求8所述的方法,其中,所述將包括標準字體的文字的白底黑字圖像輸入至所述識別模型以獲得與所述標準字體的文字對應的標準矢量的步驟是離線進行的。10.—種針對圖像進行文字識別的裝置,包括: 映射模塊,用于將包括待識別對象的圖像輸入至識別模型,以獲得表示所述待識別對象的矢量;以及 匹配模塊,用于計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的匹配度,并且將匹配度最高的標準矢量所表示的文字作為所述待識別對象的識別結果。11.如權利要求10所述的裝置,其中,所述匹配模塊包括: 點積計算單元,用于計算所述表示所述待識別對象的矢量與預定標準矢量集合中的每一個標準矢量的矢量點積,其中,所述矢量點積表示標準矢量所表示的文字作為所述待識別對象的置信度。12.如權利要求10所述的裝置,其中,所述裝置還包括: 模型獲得模塊,用于將用于文字識別的神經網絡從輸出端去掉d層,并將去掉d層后的神經網絡作為所述識別模型,其中d是正整數(shù)。13.如權利要求12所述的裝置,其中,所述裝置還包括: 接收模塊,用于接收訓練圖像和對應的標注內容;以及 訓練模塊,用于利用所述訓練圖像和所述標注內容訓練所述用于文字識別的神經網絡。14.如權利要求13所述的裝置,其中,所述訓練模塊包括: 識別單元,用于將所述訓練圖像輸入至所述用于文字識別的神經網絡,以獲得所述訓練圖像的識別結果; 損失函數(shù)計算單元,用于根據(jù)所述訓練圖像的識別結果和所述標注內容,計算所述用于文字識別的神經網絡的損失函數(shù)值;以及 調整單元,用于在所述損失函數(shù)值不滿足預設條件的情況和/或迭代次數(shù)小于閾值的情況下,調整所述用于文字識別的神經網絡的參數(shù)并且啟動所述識別單元;否則,停止對所述用于文字識別的神經網絡的訓練并獲得訓練好的神經網絡以用于獲得所述識別模型。15.如權利要求13或14所述的裝置,其中,所述標注內容包括文字標注和/或非文字標注。16.如權利要求10或11所述的裝置,其中,所述裝置還包括: 選擇模塊,用于根據(jù)期望輸出文字集合,從標準矢量總集合中確定所述預定標準矢量口 O17.如權利要求16所述的裝置,其中,所述裝置還包括: 標準矢量獲得模塊,用于將包括標準字體的文字的白底黑字圖像輸入至所述識別模型,以獲得與所述標準字體的文字對應的標準矢量,其中,所述標準矢量總集合包括所述標準字體的文字對應的標準矢量。18.如權利要求17所述的裝置,其中,所述標準矢量獲得模塊是離線運行的。
【文檔編號】G06K9/62GK106067019SQ201610366232
【公開日】2016年11月2日
【申請日】2016年5月27日 公開號201610366232.8, CN 106067019 A, CN 106067019A, CN 201610366232, CN-A-106067019, CN106067019 A, CN106067019A, CN201610366232, CN201610366232.8
【發(fā)明人】周舒暢, 姚聰, 溫和, 何蔚然, 印奇
【申請人】北京曠視科技有限公司, 北京小孔科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乌鲁木齐县| 双峰县| 札达县| 建始县| 蛟河市| 涪陵区| 修武县| 大理市| 茂名市| 秭归县| 白城市| 花垣县| 孝义市| 开江县| 垫江县| 西盟| 芜湖县| 读书| 利辛县| 锡林郭勒盟| 绥江县| 富锦市| 抚远县| 濮阳县| 迁安市| 遂宁市| 漯河市| 垣曲县| 新乡市| 太保市| 黄大仙区| 延庆县| 孙吴县| 乌兰浩特市| 虎林市| 深圳市| 墨江| 云安县| 德惠市| 姚安县| 大化|