本發(fā)明涉及圖文處理
技術(shù)領(lǐng)域:
,更具體而言,涉及一種圖像中文字區(qū)域的定位方法及裝置。
背景技術(shù):
:在網(wǎng)絡(luò)商品交易中,由于消費者無法直觀的看到商品,商品圖像成為商家向消費者描述商品的重要手段。然而,部分商家為了提高商品的關(guān)注度,會在商品圖像中嵌入虛假的宣傳性文字,不僅造成惡意競爭,而且導(dǎo)致消費者體驗不好。因此,各個電子商務(wù)網(wǎng)站均對商品圖像的文字內(nèi)容進行審核,以形成對商品圖像的監(jiān)控。通常,現(xiàn)有的審核商品圖像中文字的流程一般為,首先,對商品圖像中的文字區(qū)域進行定位,確定圖像中文字部分的位置;然后,根據(jù)所確定的文字區(qū)域,將文字內(nèi)容精細化,得到清晰的文字內(nèi)容。目前對商品圖像中文字進行定位的技術(shù)手段通常為,首先對商品圖像中的文字顯著性區(qū)域進行粗定位,盡可能排除背景區(qū)域;其次,利用邊緣和顏色等信息進行進一步的分析,篩除、合并文字區(qū)域,得到可能的文字行;最后,使用分類器對候選的文字行區(qū)域進行分類驗證,得到真實的文字行區(qū)域。然而,商品圖像的尺寸、字體、顏色、語種等均具有不確定性,而且商品圖像中的文字與商品圖像復(fù)雜的背景極易混淆,為定位圖像中的文字區(qū)域帶來很大的干擾,導(dǎo)致無法定位圖像中的文字區(qū)域,進而無法得到清晰的文字內(nèi)容,無法通過自動化的方式進行商品圖像的審核。技術(shù)實現(xiàn)要素:為克服現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種圖像中文字區(qū)域的定位方法及裝置。第一方面,本發(fā)明提供了一種圖像中文字區(qū)域的定位方法,包括:構(gòu)建參數(shù)回歸模型;通過所述參數(shù)回歸模型生成與圖像對應(yīng)的文本空間分布參數(shù);根據(jù)所述文本空間分布參數(shù)重構(gòu)與所述圖像對應(yīng)的文字-非文字二值圖像。在第一方面第一種可能的實現(xiàn)方式中,所述構(gòu)建參數(shù)回歸模型,包括:獲取所述參數(shù)回歸模型的目標文本空間分布參數(shù);將測試圖像輸入所述參數(shù)回歸模型生成測試文本空間分布參數(shù);根據(jù)所述目標文本空間分布參數(shù)與所述測試文本空間分布參數(shù)運算得到當前誤差;計算所述當前誤差與基礎(chǔ)誤差的差值;其中,所述基礎(chǔ)誤差為上次運算得到 的誤差;判斷所述差值是否小于第一預(yù)設(shè)閾值;若所述差值大于或者等于所述第一預(yù)設(shè)閾值,根據(jù)所述當前誤差調(diào)整所述參數(shù)回歸模型的未知參數(shù),將所述當前誤差確定為基礎(chǔ)誤差,并重復(fù)執(zhí)行步驟將測試圖像輸入所述參數(shù)回歸模型生成測試文本空間分布參數(shù),直至所述差值小于所述第一預(yù)設(shè)閾值;若所述差值小于所述第一預(yù)設(shè)閾值,將所述參數(shù)回歸模型未知參數(shù)的當前值確定為模型參數(shù)。結(jié)合上述第一方面,在第二種可能的實施方式中,所述根據(jù)所述文本空間分布參數(shù)重構(gòu)與所述圖像對應(yīng)的文字-非文字二值圖像,包括:將所述文本空間分布參數(shù)中小于第二預(yù)設(shè)閾值的參數(shù)設(shè)置為0;將所述文本空間分布參數(shù)中大于所述第二預(yù)設(shè)閾值的參數(shù)設(shè)置為1;將參數(shù)0和參數(shù)1轉(zhuǎn)換為二值像素灰度值;根據(jù)所述的二值像素灰度值構(gòu)建所述文字-非文字二值圖像。結(jié)合上述第一方面,在第三種可能的實施方式中,在所述將所述文本空間分布參數(shù)中小于預(yù)設(shè)閾值的參數(shù)設(shè)置為0;將所述文本空間分布參數(shù)中大于預(yù)設(shè)閾值的參數(shù)設(shè)置為1之前,還包括:構(gòu)建降維模型;將所述文本空間分布參數(shù)輸入所述降維模型;通過參數(shù)重構(gòu)的方式將所述文本空間分布參數(shù)進行降維處理。結(jié)合上述第一方面,在第四種可能的實施方式中,所述構(gòu)建降維模型,包括:獲取預(yù)先標注的二值化圖像的文本空間分布參數(shù)作為標定文本空間分布參數(shù);將所述二值化圖像的像素灰度值輸入所述降維模型生成重構(gòu)文本空間分布參數(shù);根據(jù)所述標定文本空間分布參數(shù)與所述重構(gòu)文本空間分布參數(shù)運算得到當前誤差;計算所述當前誤差與基礎(chǔ)誤差的差值;其中,所述基礎(chǔ)誤差為上次運算得到的誤差;判斷所述差值是否小于第三預(yù)設(shè)閾值;若所述差值大于等于所述第三預(yù)設(shè)閾值,根據(jù)所述當前誤差調(diào)整所述降維模型的未知參數(shù),將所述當前誤差確定為基礎(chǔ)誤差,并重復(fù)執(zhí)行步驟將所述二值化圖像的像素灰度值輸入所述降維模型生成重構(gòu)文本空間分布參數(shù),直至所述差值小于所述第三預(yù)設(shè)閾值;若所述差值小于所述第三預(yù)設(shè)閾值,將所述降維模型未知參數(shù)的當前值確定為模型參數(shù)。結(jié)合上述第一方面,在第五種可能的實施方式中,所述獲取所述參數(shù)回歸模型的目標文本空間分布參數(shù),包括:讀取所述降維模型最后一層的輸出數(shù)據(jù);將所述降維模型最后一層的輸出數(shù)據(jù)確定為所述目標文本空間分布參數(shù)。第二方面,本發(fā)明提供了一種圖像中文字區(qū)域的定位裝置,包括:構(gòu)建模塊,用于構(gòu)建參數(shù)回歸模型;生成模塊,用于通過所述構(gòu)建模塊所構(gòu)建的參數(shù)回歸模型生成與圖像對應(yīng)的文本空間分布參數(shù);重構(gòu)模塊,用于根據(jù)所述生成模塊所生成的文本空間分布參數(shù)重構(gòu)與所述圖像對應(yīng)的文字-非文字二值圖像。在第二方面第一種可能的實現(xiàn)方式中,所述構(gòu)建模塊包括:獲取單元,生成單元、 計算單元、判斷單元、調(diào)整單元和確定單元,其中,所述獲取單元,用于獲取所述參數(shù)回歸模型的目標文本空間分布參數(shù);所述生成單元,用于將測試圖像輸入所述參數(shù)回歸模型生成測試文本空間分布參數(shù);所述計算單元,用于根據(jù)所述目標文本空間分布參數(shù)與所述測試文本空間分布參數(shù)運算得到當前誤差;還用于計算所述當前誤差與基礎(chǔ)誤差的差值;其中,所述基礎(chǔ)誤差為上次運算得到的誤差;所述判斷單元,用于判斷所述差值是否小于第一預(yù)設(shè)閾值;在所述差值大于或者等于所述第一預(yù)設(shè)閾值時,所述調(diào)整單元,用于根據(jù)所述當前誤差調(diào)整所述參數(shù)回歸模型的未知參數(shù);所述確定單元,用于在所述差值大于或者等于所述第一預(yù)設(shè)閾值時,將所述當前誤差確定為基礎(chǔ)誤差;在所述差值小于所述第一預(yù)設(shè)閾值時,所述確定單元,還用于將所述參數(shù)回歸模型未知參數(shù)的當前值確定為模型參數(shù)。結(jié)合上述第二方面,在第二種可能的實施方式中,所述重構(gòu)模塊包括:二值化單元、轉(zhuǎn)換單元和構(gòu)建單元,其中,所述二值化單元,用于將所述文本空間分布參數(shù)中小于第二預(yù)設(shè)閾值的參數(shù)設(shè)置為0;將所述文本空間分布參數(shù)中大于所述第二預(yù)設(shè)閾值的參數(shù)設(shè)置為1;所述轉(zhuǎn)換單元,用于將參數(shù)0和參數(shù)1轉(zhuǎn)換為二值像素灰度值;所述構(gòu)建單元,用于根據(jù)所述的二值像素灰度值構(gòu)建所述文字-非文字二值圖像。結(jié)合上述第二方面,在第三種可能的實施方式中,所述裝置還包括:輸入單元和降維單元,其中,所述構(gòu)建模塊,還用于構(gòu)建降維模型;所述輸入單元,用于將所述文本空間分布參數(shù)輸入所述降維模型;所述降維單元,用于通過參數(shù)重構(gòu)的方式將所述文本空間分布參數(shù)進行降維處理。結(jié)合上述第二方面,在第四種可能的實施方式中,所述獲取單元,還用于獲取預(yù)先標注的二值化圖像的文本空間分布參數(shù)作為標定文本空間分布參數(shù);所述生成單元,還用于將所述二值化圖像的像素灰度值輸入所述降維模型生成重構(gòu)文本空間分布參數(shù);所述計算單元,還用于根據(jù)所述標定文本空間分布參數(shù)與所述重構(gòu)文本空間分布參數(shù)運算得到當前誤差;計算所述當前誤差與基礎(chǔ)誤差的差值;所述判斷單元,還用于判斷所述差值是否小于第三預(yù)設(shè)閾值;在所述差值大于等于所述第三預(yù)設(shè)閾值時,所述調(diào)整單元,還用于根據(jù)所述當前誤差調(diào)整所述降維模型的未知參數(shù);所述確定單元,還用于將所述當前誤差確定為基礎(chǔ)誤差;在所述差值小于所述第三預(yù)設(shè)閾值時,所述確定單元,還用于將所述降維模型未知參數(shù)的當前值確定為模型參數(shù)。結(jié)合上述第二方面,在第五種可能的實施方式中,所述獲取單元包括:讀取子單元,用于讀取所述降維模型最后一層的輸出數(shù)據(jù);所述確定單元,還用于將所述降維模型最后一層的輸出數(shù)據(jù)確定為所述目標文本空間分布參數(shù)。由以上技術(shù)方案可知,本發(fā)明實施例在定位圖像中的文字區(qū)域時,首先,構(gòu)建參數(shù)回歸模型,通過參數(shù)回歸模型生成與圖像相對應(yīng)的文本空間分布參數(shù),然后,根據(jù)文本 空間分布參數(shù)構(gòu)建文字-非文字二值圖像,將圖像的文本和非文本明確的表示出。即,將圖像參數(shù)化,通過對圖像對應(yīng)的參數(shù)進行處理,將圖像中的文字區(qū)域進行明確的定位。可以看出,本發(fā)明實施例的技術(shù)方案,完全摒棄傳統(tǒng)通過圖像輪廓或者區(qū)域特征進行文字區(qū)域定位的方式,通過對圖像更深層次的語義特征,圖像文本空間分布參數(shù),進行分析,對文字區(qū)域進行定位,不僅能夠避免圖像尺寸、字體、顏色、語種等對定位的干擾,使定位更加精準,更加魯棒,而且該方法基于圖像最基本的語義特征,能夠適用于各種格式的圖像,具有通用性。應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅為示例性和解釋性描述,對本發(fā)明技術(shù)方案并不構(gòu)成限制。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。通過附圖所示,本發(fā)明的上述及其它目的、特征和優(yōu)勢將更加清晰。在全部附圖中相同的附圖標注指示相同的部分。并未刻意按實際尺寸等比例縮放繪制附圖,重點在于示出本發(fā)明的主旨。圖1是本發(fā)明實施例提供的一種圖像中文字區(qū)域的定位方法的流程圖;圖2是本發(fā)明實施例提供的另一種圖像中文字區(qū)域的定位方法的流程圖;圖3是本發(fā)明提供待定位圖像的示意圖;圖4為圖3所示圖像對應(yīng)的文字-非文字二值圖像;圖5是本發(fā)明實施例提供的一種圖像中文字區(qū)域的定位裝置的結(jié)構(gòu)示意圖;圖6是本發(fā)明實施例提供的另一種圖像中文字區(qū)域的定位裝置的結(jié)構(gòu)示意圖。具體實施方式現(xiàn)有的定位圖像中文字區(qū)域的方式包括:基于區(qū)域特征提取(MaximallyStableExtremalRegions,MSER)或者基于筆畫寬度變換(StrokeWidthTransform,SWT)的文字區(qū)域定位方法等。而現(xiàn)有的文字區(qū)域定位方式大多基于人工設(shè)計的特征和規(guī)則實現(xiàn),人工設(shè)計的特征和規(guī)則泛化能力并不好,對于定位顏色單一,文字欄、文字行、文字間隔一致等規(guī)則單一的文字區(qū)域比較適用,在檢測復(fù)雜多變的圖像中的文字區(qū)域時,很容易產(chǎn)生誤檢,魯棒性差。為了解決上述技術(shù)問題,提出了本發(fā)明技術(shù)方案。下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整 的描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。請參見圖1,圖1為本發(fā)明實施例提供的一種圖像中文字區(qū)域的定位方法的流程,該方法包括以下步驟。步驟S101,構(gòu)建參數(shù)回歸模型。其中,本發(fā)明實施例通過參數(shù)回歸的方式將圖像轉(zhuǎn)換為文本空間分布參數(shù),為了能夠精確的得到圖像的文本空間分布參數(shù),本發(fā)明實施例的技術(shù)方案可通過標注樣本學(xué)習(xí)的方式構(gòu)建參數(shù)回歸模型。本實施例中,參數(shù)回歸模型可以為深度卷積網(wǎng)絡(luò)(Depthofconvolutionalnetwork,DCNN)、深度神經(jīng)網(wǎng)絡(luò)(Depthofneuralnetwork,DNN)、支持向量機(SupportVectorMachine,SVM))或者AdaBoost等。具體的,本實施例以DCNN學(xué)習(xí)優(yōu)化為例,對構(gòu)建參數(shù)回歸模型進行說明。首先確定參數(shù)回歸模型,參數(shù)回歸模型可以如下述式(1)至式(4),其中,S為參數(shù)回歸模型的目標文本空間分布參數(shù),x為輸入的文本圖像,S與x滿足映射關(guān)系F,如式(1)所示,在本發(fā)明實施例中F代表非線性映射函數(shù),該映射關(guān)系如式(2)所示。式(2)中fi為每一層的映射函數(shù),映射函數(shù)式如式(3)所示。式(3)中σ代表激活函數(shù),例如,式(4)所示,為最后一層的激活函數(shù)。F:S←x(1)F*=argminF||Sg(x)-fk(fk-1(Lf1(x)))||22+αΣi=1k||Wi||F2---(2)]]>fi(ai-1)=σ(Wiai-1+bi)@ai,i=1,K,k-1(3)fk(ak-1)=Wkak-1+bk@S0(4)本實施例中,在初始狀態(tài)時將Wi,bi的值預(yù)設(shè)為任意非零的參數(shù),該初始化值可以為任意自然數(shù)。由于初始時Wi,bi的值為任意值,導(dǎo)致參數(shù)回歸模型可能并非最佳模型,根據(jù)輸入樣本圖像計算所得的文本空間分布參數(shù)可能與目標文本空間分布參數(shù)存在較大的誤差,因此,構(gòu)建參數(shù)回歸模型的過程為優(yōu)化模型中Wi,bi的過程。由于模型的優(yōu)化程度能夠通過文本空間分布參數(shù)的誤差進行反應(yīng),在本發(fā)明實施例中,可以以誤差為根據(jù)對Wi,bi的值進行調(diào)整,從而對模型進行優(yōu)化。具體的,以一個標注出文字區(qū)域的二值圖像作為樣本,可以將該樣本的文本空間分布參數(shù)作為參數(shù)回歸函數(shù)的目標文本空間分布參數(shù),即式(1)中的S,然后將該樣本的RGB圖像作為輸入樣本圖像,即式(1)中的x。將當前參數(shù)回歸模型計算所得的文本空間分布參數(shù)作為測試文本空間分布參數(shù),計算測試文本空間分布參數(shù)和目標文本空間分布參數(shù)的誤差,并計算當前誤差與上次所得誤差的差值,如果該差值小于預(yù)設(shè)第一預(yù)設(shè)閾值,則認為Wi,bi已經(jīng)收斂到最優(yōu)值,可以作為參數(shù)回歸模型的模型參數(shù);如果該差值大于或者等于預(yù)設(shè)第一預(yù)設(shè)閾值,說明當前Wi,bi并未收斂到最優(yōu)值,可以根據(jù)當前誤差值調(diào)整Wi,bi,以縮小測試文本空間分布參數(shù)和目標文本空間分布參數(shù)的誤差,然后重新將該樣本的RGB圖像作為輸入樣本圖像輸入?yún)?shù)回歸模型,生成新的測試文本空間分布參數(shù),計算得到新的誤差,然后計算本次得到的新的誤差與上次誤差的差值,直到差值小于預(yù)設(shè)第一預(yù)設(shè)閾值。需要說明的是,本實施例中,當?shù)谝淮螌颖緢D像輸入?yún)?shù)回歸模型時,由于不存在上次所產(chǎn)生的誤差,因此,在計算本次誤差與上次誤差的差值時,將上次誤差設(shè)置為0。此外,第一預(yù)設(shè)閾值可以根據(jù)參數(shù)回歸模型的具體函數(shù)關(guān)系,以及經(jīng)驗值設(shè)定,并非固定值,本發(fā)明此處不進行贅述。本實施例中,通過機器學(xué)習(xí)的方式對參數(shù)回歸模型進行訓(xùn)練,不僅能夠保證模型在使用時輸出的參數(shù)精確度更高,而且能夠避免人工設(shè)計的特征,適用性更廣。步驟S102,通過所述參數(shù)回歸模型生成與圖像對應(yīng)的文本空間分布參數(shù)。其中,如果將圖像作為二維空間,那么圖像中每個像素均與該二維空間的一個位置對應(yīng),而二維空間的位置可以通過文本空間分布參數(shù)表示,因此,圖像中每個像素均與一個文本空間分布參數(shù)相互映射,可以通過文本空間分布參數(shù)表示像素所在的位置。根據(jù)上述描述可知,參數(shù)回歸模型通過標注樣本反復(fù)學(xué)習(xí)構(gòu)建,將圖像輸入?yún)?shù)回歸模型即可生成該圖像的文本空間分布參數(shù),而且所得到的文本空間分布參數(shù)相對較準確。需要指出的,在得到像素對應(yīng)位置的同時,還應(yīng)當?shù)玫皆撓袼氐念伾担员阌诖_定圖像中文字區(qū)域的位置,因此,在輸入圖像后,模型通過讀取像素的R、G、B三個顏色值計算該像素的文本空間分布參數(shù),而所生成的文本空間分布參數(shù)為一系列可以表示像素位置及顏色的浮點數(shù),例如,0.5、0.8等,其中,每個浮點數(shù)對應(yīng)圖像中的一個像素。此外,在構(gòu)建參數(shù)回歸模型時,為了減少計算量,提高模型處理圖像的效率,可以通過最近鄰插值算法將圖像進行歸一化處理,降低圖像的維度,例如,將原大小為 1024*1024的圖像,通過最近鄰插值算法歸一化為256*256大小。需要指出的是,為了保證所生成的文本空間分布參數(shù)的準確性,構(gòu)建參數(shù)回歸模型時輸入的樣本圖像大小為多少,通過參數(shù)回歸模型定位時輸入的圖像也應(yīng)當為相應(yīng)大小,例如,若構(gòu)建參數(shù)回歸模型時,輸入的樣本圖像大小為256*256,那么在使用參數(shù)回歸模型時所輸入的圖像大小也為256*256。當然,上述僅為本發(fā)明的一個優(yōu)選實施方式,根據(jù)參數(shù)回歸模型的不同,圖像歸一化后的大小也不相同,本發(fā)明對此不做限制。此外,通過最近鄰插值算法將圖像進行處理為本領(lǐng)域技術(shù)人員所熟知的技術(shù),本發(fā)明此處不再贅述。本實施例的設(shè)定,不僅能夠準確的得到圖像像素對應(yīng)的文本空間分布參數(shù),為定位文字區(qū)域的提供精確的數(shù)據(jù)依據(jù),而且將圖像進行歸一化處理,還能夠大大減少參數(shù)回歸模型的計算量。步驟S103,根據(jù)所述文本空間分布參數(shù)重構(gòu)與所述圖像對應(yīng)的文字-非文字二值圖像。其中,在商品圖像中,為了能夠吸引消費者的注意力,宣傳或描述性文字大多醒目,即使圖像中可能會出現(xiàn)不同顏色、位置和大小的文字,但是文字在一個小區(qū)域內(nèi)通常具有很強的一致性,那么所表現(xiàn)的為該區(qū)域內(nèi)的像素灰度值接近,而且與其他區(qū)域內(nèi)的像素灰度值不同,因此,可以通過分析圖像中的像素灰度值及所在位置,對圖像中的文字區(qū)域進行定位。根據(jù)上述描述可知,文本空間分布參數(shù)所表示的為圖像像素灰度值及位置,本實施例通過對文本空間分布參數(shù)的處理檢測圖像的文字區(qū)域。為了明確的將文字區(qū)域與非文字區(qū)域進行區(qū)分,本發(fā)明實施例將文字與非文字區(qū)域設(shè)置為兩種顏色的二值圖像。例如,將文字區(qū)域設(shè)置白色,非文字區(qū)域設(shè)置為黑色。具體的,由于所生成的文本空間分布參數(shù)為大小各異的數(shù)值,首先,需要將文本空間分布參數(shù)二值化,然后將二值化的文本空間分布參數(shù)轉(zhuǎn)化為二值化的像素灰度值,從而根據(jù)二值化的像素灰度值構(gòu)建文字-非文字二值圖像。將文本空間分布參數(shù)二值化包括,設(shè)定第二預(yù)設(shè)閾值,將文本空間分布參數(shù)中小于第二預(yù)設(shè)閾值的參數(shù)設(shè)置為0;將文本空間分布參數(shù)中大于第二預(yù)設(shè)閾值的參數(shù)設(shè)置為1,從而使文本空間分布參數(shù)只存在兩種設(shè)置。若構(gòu)建黑-白二值圖像,再將二值化后的文本空間分布參數(shù)乘以255,生成黑色和白色兩種顏色灰度值,按照顏色灰度值構(gòu)建形成文字-非文字二值圖像。需要指出的,構(gòu)建形成的二值圖像與輸入?yún)?shù)回歸模型的圖像大小一致,而輸入?yún)?shù)回歸模型的圖像可能已經(jīng)經(jīng)過歸一化處理,并非原大小,導(dǎo)致構(gòu)建形成的二值圖像并非原大小,因此,在得到文字-非文字二值圖像之后,還需要判斷該二值圖像是否小于原圖像的大小,若小于,則通過最近鄰插值算法將該二值圖像歸一化為原圖像大小。由上述實施例可知,本發(fā)明實施例所述的圖像中文字區(qū)域的定位方法,將圖像參數(shù)化,通過對圖像對應(yīng)的參數(shù)進行處理,將圖像中的文字區(qū)域進行明確的定位。可以看出,本發(fā)明實施例的技術(shù)方案,完全摒棄傳統(tǒng)通過圖像輪廓或者區(qū)域特征進行文字區(qū)域定位的方式,通過對圖像更深層次的語義特征,圖像文本空間分布參數(shù),進行分析,對文字區(qū)域進行定位,不僅能夠避免圖像尺寸、字體、顏色、語種等對定位的干擾,使定位更加精準,更加魯棒,而且該方法基于圖像最基本的語義特征,能夠適用于各種格式的圖像,具有通用性。上述實施例從一個方面描述了本發(fā)明實施例的定位方法,為了使本發(fā)明的技術(shù)方案更加清楚、完善,在上述實施例的基礎(chǔ)上,本發(fā)明實施例還從另一個方面對本發(fā)明技術(shù)方案進行了描述。由于本實施例是對上述實施例的補充描述,因此,本實施例與上述實施例相同的部分詳見上述實施例的描述,本實施例中不再贅述。請參見圖2,圖2為本發(fā)明實施例提供的另一種圖像中文字區(qū)域的定位方法的流程圖,該問題定位方法包括以下步驟。步驟S201,構(gòu)建參數(shù)回歸模型。本實施例中,假設(shè)參數(shù)回歸模型為DCNN,構(gòu)建DCNN時,樣本圖像大小的256*256。構(gòu)建DCNN的過程詳見上述實施例的描述,本實施例此處不再贅述。步驟S202,通過所述參數(shù)回歸模型生成與圖像對應(yīng)的文本空間分布參數(shù)。參見圖3,圖3為本發(fā)明實施例提供的待定位圖像,該圖像中區(qū)域01、區(qū)域02和區(qū)域03為文字區(qū)域,其他區(qū)域為背景區(qū)域。假設(shè)該圖像的大小為1024*1024,由于構(gòu)建DCNN時的樣本圖像大小為256*256,因此,在將圖3中的圖像輸入DCNN模型之前,需要將該圖像通過最近鄰插值算法歸一化為256*256,然后將歸一化的圖像輸入DCNN,DCNN模型讀取每個像素的R、G和B的值,并進行計算,對應(yīng)每個像素生成一個文本空間分布參數(shù)。步驟S203,構(gòu)建降維模型。其中,在根據(jù)文本空間分布參數(shù)構(gòu)建二值圖像時,為了降低數(shù)據(jù)處理量,可以將文本空間分布參數(shù)進行降維處理,而將文本空間分布參數(shù)進行降維處理需要通過降維模型進行,因此,需要構(gòu)建降維模型。降維模型設(shè)置有多層網(wǎng)絡(luò)和多個節(jié)點,第一層網(wǎng)絡(luò)接收輸入數(shù)據(jù)后進行運算,運算過程中將節(jié)點進行一次合并;第一層網(wǎng)絡(luò)的輸出數(shù)據(jù)作為第二層網(wǎng)絡(luò)的輸入數(shù)據(jù),將節(jié)點進行二次合并,并將輸出數(shù)據(jù)作為第三層網(wǎng)絡(luò)的輸入數(shù)據(jù),直到得到最后一層網(wǎng)絡(luò)的輸出數(shù)據(jù),通過每層的節(jié)點合并完成降維處理。本實施例中,降維模型可以為深度玻爾茲曼機(ThedepthoftheBoltzmannmachine,DBM)、深度置信網(wǎng)絡(luò)(Deepbeliefnetwork,DBN)或受限玻爾茲曼機(restrictedBoltzmann machine,RBM)等。為了能夠避免人工設(shè)計的特征,與構(gòu)建參數(shù)回歸模型類似,降維模型也可以通過標注樣本學(xué)習(xí)的方式構(gòu)建。本實施例以DBM為例,對構(gòu)建降維模型進行詳細描述。首先,構(gòu)建三層DBM模型,詳見式(4),其中,v代表可見變量,h1和h2分別為第二層和第三層的隱層變量,w為節(jié)點單元之間連接邊的權(quán)重,b和c為節(jié)點單元偏置量。與構(gòu)建參數(shù)回歸模型相似,在初始狀態(tài)時,將上述未知參數(shù)設(shè)定為任意非零的參數(shù),并通過樣本訓(xùn)練確定最優(yōu)值。E(v,h1,h2)=Σibivi+Σi,jwij1vihj1+Σjcj1hj1+Σj,kwjk2hj1hk2+Σkck2hk2---(4)]]>以一個預(yù)先標注的二值圖像作為樣本,獲取該二值圖像的文本空間分布參數(shù)作為DBM模型訓(xùn)練的標定文本空間分布參數(shù),將該樣本的像素灰度值輸入降維模型生成重構(gòu)文本空間分布參數(shù)。由于重構(gòu)文本空間分布參數(shù)通過降維模型生成,因此,降維模型中未知參數(shù)的值,可以直接通過重構(gòu)文本空間分布參數(shù)與標定文本空間分布參數(shù)的誤差體現(xiàn),與構(gòu)建參數(shù)回歸模型類似,可以以誤差值為依據(jù)對降維模型進行優(yōu)化。具體的,根據(jù)標定文本空間分布參數(shù)與重構(gòu)文本空間分布參數(shù)運算得到當前誤差,計算當前誤差與上次所得誤差的差值,如果該差值小于預(yù)設(shè)第三預(yù)設(shè)閾值,則認為未知參數(shù)已經(jīng)收斂到最優(yōu)值,可以作為降維模型的模型參數(shù);如果該差值大于或者等于預(yù)設(shè)第三預(yù)設(shè)閾值,說明當前未知參數(shù)并未收斂到最優(yōu)值,可以根據(jù)當前誤差值進行調(diào)整,以縮小重構(gòu)文本空間分布參數(shù)和標定文本空間分布參數(shù)的誤差,然后重新將該樣本的像素灰度值輸入降維模型,生成新的重構(gòu)文本空間分布參數(shù),計算得到新的誤差,然后計算本次得到的新的誤差與上次誤差的差值,直到差值小于預(yù)設(shè)第三預(yù)設(shè)閾值。需要說明的是,本實施例中,當?shù)谝淮螌颖镜南袼鼗叶戎递斎虢稻S模型時,由于不存在上次所產(chǎn)生的誤差,因此,在計算本次誤差與上次誤差的差值時,將上次誤差設(shè)置為0。此外,將樣本的像素灰度值輸入降維模型生成重構(gòu)文本空間分布參數(shù),具體包括:按照預(yù)設(shè)順序?qū)⒍祱D像的像素灰度值輸入DBM模型的第一層,DBM模型第一層運算的輸出數(shù)據(jù)作為第二層的輸入數(shù)據(jù)繼續(xù)運算,第二層的輸出數(shù)據(jù)作為第三層的輸入數(shù)據(jù)進行運算,DBM模型從第一層開始逐層將輸出數(shù)據(jù)作為下一層的輸入數(shù)據(jù),直至得到最后一層的輸出數(shù)據(jù)。然后,利用最后一層的輸出數(shù)據(jù)進行逆運算,得到該二值圖像的重構(gòu)文本空間分布參數(shù)。需要說明的是,由于預(yù)先標注的二值圖像為二維的圖像,而在訓(xùn)練DBM模型時,所輸入的數(shù)據(jù)應(yīng)當為一維,因此,在讀取數(shù)據(jù)時,以預(yù)先設(shè)定的排或者列為順序進行讀取。此外,本實施例中的DBM模型設(shè)置有三層網(wǎng)絡(luò),第二層的節(jié)點數(shù)量可以設(shè)置為1024,第三層的節(jié)點數(shù)量可以為256。當然,本實施例僅為本發(fā)明的一個優(yōu)選示例,設(shè)計網(wǎng)絡(luò)時,可以根據(jù)需求設(shè)置不同數(shù)量的網(wǎng)絡(luò)層和每層的節(jié)點數(shù),本發(fā)明對此不做限制。步驟S204,將所述文本空間分布參數(shù)輸入所述降維模型。步驟S205,通過參數(shù)重構(gòu)的方式將所述文本空間分布參數(shù)進行降維處理。將DCNN生成的待定位圖像的文本空間分布參數(shù)輸入DBM,DBM通過上述步驟的計算方式逐層進行參數(shù)重構(gòu),DBM最后一層所輸出的數(shù)據(jù)為降維后的文本空間分布參數(shù)。其中,參數(shù)重構(gòu)為本領(lǐng)域技術(shù)人員慣用的技術(shù)手段,本發(fā)明此處不再詳述。由上述實施例可知,DCNN所輸出的文本空間分布參數(shù)為浮點數(shù),而DBM是通過參數(shù)重構(gòu)的方式降低文本空間分布參數(shù)的維度,并不改變文本空間分布參數(shù)值,因此,降維后的文本空間分布參數(shù)仍然為浮點數(shù)。需要說明的是,由于DCNN與DBM是對同一副圖像進行處理,而通過上述描述可知,DBM將最后一層隱層的輸出數(shù)據(jù)作為所抽取的特征,因此,為了增強對文字區(qū)域定位的穩(wěn)定性和魯棒性,在構(gòu)建模型時,可以將DBM最后一層的輸出數(shù)據(jù)作為DCNN的目標文本空間分布參數(shù)。這樣的設(shè)定,首先,通過同一個樣本對DCNN和DBM進行訓(xùn)練,將DCNN和DBM結(jié)合訓(xùn)練和使用,能夠大大的提高定位的性能;其次,DBM最后一層的輸出數(shù)據(jù)為所抽取的特征,因此,不僅具有明確的代表性,而且數(shù)據(jù)量少,作為目標文本空間分布參數(shù)訓(xùn)練DCNN時,能夠在保證訓(xùn)練精確度的條件下很大程度的減少運算量。本實施例中,通過將參數(shù)回歸模型和降維模型結(jié)合使用,能夠大大的提高定位時的性能,而且能夠使得處理結(jié)果魯棒性更高。步驟S206,將所述文本空間分布參數(shù)中小于預(yù)設(shè)閾值的參數(shù)設(shè)置為0;將所述文本空間分布參數(shù)中大于預(yù)設(shè)閾值的參數(shù)設(shè)置為1。其中,本實施例具體為將DBM降維后的文本空間分布參數(shù)進行二值化設(shè)置。步驟S207,將參數(shù)0和參數(shù)1轉(zhuǎn)換為二值像素灰度值。本實施例以將圖3轉(zhuǎn)換為黑-白二值圖為例,將二值化的參數(shù)乘以255,得到像素灰度值0和255,其中,像素灰度值255表示該像素為黑色,像素灰度值0表示該像素為白色。當然,上述僅為本發(fā)明的優(yōu)選示例,也可以將二值化的參數(shù)轉(zhuǎn)化為其他顏色和白色,只要能夠?qū)^(qū)域01、區(qū)域02、區(qū)域03和背景區(qū)域明確的進行區(qū)分即可,本發(fā)明對此不做限制。步驟S208,根據(jù)所述文本空間分布參數(shù)重構(gòu)與所述圖像對應(yīng)的文字-非文字二值圖像。如圖4所示,其為根據(jù)像素灰度值,構(gòu)建出的圖3對應(yīng)的黑-白二值圖像,其中,區(qū)域01、區(qū)域02和區(qū)域03為白的,背景區(qū)域為黑色,從而將圖3中的三處文字區(qū)域進行了明確的定位。此外,需要說明的,由于將圖3輸入DCNN前,將圖3歸一化為大小256*256,而與該大小的圖像對應(yīng)的文本空間分布參數(shù)所表示的也為256*256的二維空間,因此,DBM所生成的二值圖像大小也為256*256,而圖3為中圖像的大小為1024*1024,所以,在DBM生成二值圖像后,還需要將二值圖像通過最近鄰插值算法歸一化為1024*1024大小,得到圖4所示的圖像。由以上技術(shù)方案可知,本發(fā)明實施例在定位圖像中的文字區(qū)域時,首先,構(gòu)建參數(shù)回歸模型,通過參數(shù)回歸模型生成與圖像相對應(yīng)的文本空間分布參數(shù),然后,根據(jù)文本空間分布參數(shù)構(gòu)建文字-非文字二值圖像,將圖像的文本和非文本明確的表示出。即,將圖像參數(shù)化,通過對圖像對應(yīng)的參數(shù)進行處理,將圖像中的文字區(qū)域進行明確的定位??梢钥闯?,本發(fā)明實施例的技術(shù)方案,完全摒棄傳統(tǒng)通過圖像輪廓或者區(qū)域特征進行文字區(qū)域定位的方式,通過對圖像更深層次的語義特征,圖像文本空間分布參數(shù),進行分析,對文字區(qū)域進行定位,不僅能夠避免圖像尺寸、字體、顏色、語種等對定位的干擾,使定位更加精準,更加魯棒,而且該方法基于圖像最基本的語義特征,能夠適用于各種格式的圖像,具有通用性。與上述實現(xiàn)方法相對應(yīng)的,本發(fā)明實施例還提供了一種圖像中文字區(qū)域的定位裝置,請參見圖5,圖5為本發(fā)明實施例提供的一種圖像中文字區(qū)域的定位裝置的結(jié)構(gòu)示意圖,該裝置包括:構(gòu)建模塊11、生成模塊12和重構(gòu)模塊13。其中,構(gòu)建模塊11,用于構(gòu)建參數(shù)回歸模型;生成模塊12,用于通過所述構(gòu)建模塊11所構(gòu)建的參數(shù)回歸模型生成與圖像對應(yīng)的文本空間分布參數(shù);重構(gòu)模塊13,用于根據(jù)所述生成模塊12所生成的文本空間分布參數(shù)重構(gòu)與所述圖像對應(yīng)的文字-非文字二值圖像。所述裝置中各個單元的功能和作用的實現(xiàn)過程詳見上述方法中對應(yīng)的實現(xiàn)過程,在此不再贅述。由本實施例可以看出,本發(fā)明實施例所述的圖像中文字區(qū)域的定位方法,將圖像參數(shù)化,通過對圖像對應(yīng)的參數(shù)進行處理,將圖像中的文字區(qū)域進行明確的定位。可以看出,本發(fā)明實施例的技術(shù)方案,完全摒棄傳統(tǒng)通過圖像輪廓或者區(qū)域特征進行文字區(qū)域定位的方式,通過對圖像更深層次的語義特征,圖像文本空間分布參數(shù),進行分析,對文字區(qū)域進行定位,不僅能夠避免圖像尺寸、字體、顏色、語種等對定位的干擾,使定位更加精準,更加魯棒,而且該方法基于圖像最基本的語義特征,能夠適用于各種格式的圖像,具有通用性。在上述實施例的基礎(chǔ)上,在本實施例中,所述構(gòu)建模塊11包括:獲取單元,生成單元、計算單元、判斷單元、調(diào)整單元和確定單元,其中,所述獲取單元,用于獲取所述參數(shù)回歸模型的目標文本空間分布參數(shù);所述生成單元,用于將測試圖像輸入所述參數(shù)回歸模型生成測試文本空間分布參數(shù);所述計算單元,用于根據(jù)所述目標文本空間分布參數(shù)與所述測試文本空間分布參數(shù)運算得到當前誤差;還用于計算所述當前誤差與基礎(chǔ)誤差的差值;其中,所述基礎(chǔ)誤差為上次運算得到的誤差;所述判斷單元,用于判斷所述差值是否小于第一預(yù)設(shè)閾值;在所述差值大于或者等于所述第一預(yù)設(shè)閾值時,所述調(diào)整單元,用于根據(jù)所述當前誤差調(diào)整所述參數(shù)回歸模型的未知參數(shù);所述確定單元,用于在所述差值大于或者等于所述第一預(yù)設(shè)閾值時,將所述當前誤差確定為基礎(chǔ)誤差;在所述差值小于所述第一預(yù)設(shè)閾值時,所述確定單元,還用于將所述參數(shù)回歸模型未知參數(shù)的當前值確定為模型參數(shù)。所述重構(gòu)模塊13包括:二值化單元、轉(zhuǎn)換單元和構(gòu)建單元,其中,所述二值化單元,用于將所述文本空間分布參數(shù)中小于第二預(yù)設(shè)閾值的參數(shù)設(shè)置為0;將所述文本空間分布參數(shù)中大于所述第二預(yù)設(shè)閾值的參數(shù)設(shè)置為1;所述轉(zhuǎn)換單元,用于將參數(shù)0和參數(shù)1轉(zhuǎn)換為二值像素灰度值;所述構(gòu)建單元,用于根據(jù)所述的二值像素灰度值構(gòu)建所述文字-非文字二值圖像。為了使本發(fā)明的技術(shù)方案更加詳細,本發(fā)明實施例還提供了另一種圖像中文字區(qū)域的定位裝置,請參見圖6,圖6是本發(fā)明實施例提供的另一種圖像中文字區(qū)域的定位裝置的結(jié)構(gòu)示意圖,該裝置包括:構(gòu)建模塊21、生成模塊22、輸入單元23、降維單元24和重構(gòu)模塊25。其中,構(gòu)建模塊21、生成模塊22和重構(gòu)模塊25的功能和作用與上述實施例相似,本發(fā)明實施例此處不再贅述。在本實施例中,構(gòu)建模塊21,還用于還用于構(gòu)建降維模型;輸入單元23,用于將所述文本空間分布參數(shù)輸入所述降維模型;降維單元24,用于通過參數(shù)重構(gòu)的方式將所述文本空間分布參數(shù)進行降維處理。在本實施例中,構(gòu)建模塊21中的獲取單元,還用于獲取預(yù)先標注的二值化圖像的文本空間分布參數(shù)作為標定文本空間分布參數(shù);所述生成單元,還用于將所述二值化圖像的像素灰度值輸入所述降維模型生成重構(gòu)文本空間分布參數(shù);所述計算單元,還用于根據(jù)所述標定文本空間分布參數(shù)與所述重構(gòu)文本空間分布參數(shù)運算得到當前誤差;計算所述當前誤差與基礎(chǔ)誤差的差值;所述判斷單元,還用于判斷所述差值是否小于第三預(yù)設(shè)閾值;在所述差值大于等于所述第三預(yù)設(shè)閾值時,所述調(diào)整單元,還用于根據(jù)所述當前誤差調(diào)整所述降維模型的未知參數(shù);所述確定單元,還用于將所述當前誤差確定為基礎(chǔ)誤差;在所述差值小于所述第三預(yù)設(shè)閾值時,所述確定單元,還用于將所述降維模型未知參數(shù)的當前值確定為模型參數(shù)。結(jié)合上述實施例,在本實施例中,所述獲取單元包括讀取子單元,用于讀取所述降 維模型最后一層的輸出數(shù)據(jù);在本實施例中,所述確定單元,還用于將所述降維模型最后一層的輸出數(shù)據(jù)確定為所述目標文本空間分布參數(shù)。所述裝置中各個單元的功能和作用的實現(xiàn)過程詳見上述方法中對應(yīng)的實現(xiàn)過程,在此不再贅述。綜合上述,本發(fā)明實施例在定位圖像中的文字區(qū)域時,首先,構(gòu)建參數(shù)回歸模型,通過參數(shù)回歸模型生成與圖像相對應(yīng)的文本空間分布參數(shù),然后,根據(jù)文本空間分布參數(shù)構(gòu)建文字-非文字二值圖像,將圖像的文本和非文本明確的表示出。即,將圖像參數(shù)化,通過對圖像對應(yīng)的參數(shù)進行處理,將圖像中的文字區(qū)域進行明確的定位??梢钥闯?,本發(fā)明實施例的技術(shù)方案,完全摒棄傳統(tǒng)通過圖像輪廓或者區(qū)域特征進行文字區(qū)域定位的方式,通過對圖像更深層次的語義特征,圖像文本空間分布參數(shù),進行分析,對文字區(qū)域進行定位,不僅能夠避免圖像尺寸、字體、顏色、語種等對定位的干擾,使定位更加精準,更加魯棒,而且該方法基于圖像最基本的語義特征,能夠適用于各種格式的圖像,具有通用性。本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本發(fā)明旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本
技術(shù)領(lǐng)域:
中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。應(yīng)當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。當前第1頁1 2 3