欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于文本顯著性的場景文本檢測方法與流程

文檔序號:12468632閱讀:352來源:國知局
本發(fā)明涉及一種場景文本檢測方法。
背景技術(shù)
::場景文本檢測是指在不同場景圖像中定位文本區(qū)域所在的位置,比如路標、商店名稱和警示牌等,其是端到端的場景文本識別的一個重要的步驟。有效的場景文本檢測結(jié)果有助于提高大量多媒體應(yīng)用的性能,比如移動視覺搜索、基于內(nèi)容的圖像檢索和自動指示牌翻譯等。近年來,一系列有關(guān)場景文本檢測的國際競賽被成功的舉辦,很大程度上促進了場景文本檢測技術(shù)的研究。但由于自然場景環(huán)境中的很多不可控因素,比如文本大小的不同、顏色的差異和復(fù)雜的背景等,使得場景文本檢測仍然是計算機視覺領(lǐng)域中的一個極具挑戰(zhàn)的問題。場景文本檢測的第一個步驟是候選文本區(qū)域(candidatetextregion,記為CTR)的提取。傳統(tǒng)的CTR提取方法,通常是基于滑動窗口、筆畫寬度變換(strokewidthtransform,記為SWT)和最大穩(wěn)定極值區(qū)域(maximallystableextremalregion,記為MSER),因此它們沒有充分利用文本本身固有的內(nèi)在特性,從而導(dǎo)致提取出比真實文本區(qū)域多很多的大量非文本候選區(qū)域,以至于使得后續(xù)的非文本區(qū)域過濾過程的任務(wù)非常艱巨。而且傳統(tǒng)的這些CTR提取方法對某些外在的因素比較敏感,比如光照變化和圖像模糊等。這些都會引起一部分真實文本區(qū)域不能被提取到,從而導(dǎo)致低的召回率。例如,目前已發(fā)表的文獻在ICDAR2015場景文本檢測庫中最好的召回率只有0.83。因此,候選文本區(qū)域提取的好壞將直接影響最終的文本檢測性能。技術(shù)實現(xiàn)要素:本發(fā)明的目的是借助顯著性檢測的思想,并將其應(yīng)用到場景文本檢測中,進而提出一種基于文本顯著性的場景文本檢測方法。本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:一種基于文本顯著性的場景文本檢測方法,包括如下步驟:一、初始文本顯著性檢測(1)構(gòu)建初始文本顯著性檢測CNN模型,該模型是在VGGNet-16的基礎(chǔ)上進行改進得到,只保留VGGNet-16中的前五個模塊,并分別為每個模塊引入一個側(cè)輸出模塊(包含一個卷積層和一個去卷積層)用于監(jiān)督學(xué)習(xí),前兩個模塊使用文本邊緣作為監(jiān)督信號,后三個模塊使用文本區(qū)域作為監(jiān)督信號,最后將后三個側(cè)輸出模塊的輸出進行融合(即先將三個輸出進行拼接,再使用一個卷積層對其進行卷積)并使用文本區(qū)域作為監(jiān)督信號進行學(xué)習(xí),上述提到的卷積層僅包含一個1×1的卷積核;(2)對于給定的圖像,使用初始文本顯著性檢測CNN模型得到其對應(yīng)的文本顯著性圖;(3)采用大津法對顯著性圖進行二值化后,得到二值圖像;(4)對于二值圖像中的每一個連通體(即候選文本區(qū)域),計算其最小外接矩形;(5)根據(jù)每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為候選文本區(qū)域圖像,該圖像將是文本顯著性細化CNN模型的輸入。二、文本顯著性細化(1)構(gòu)建文本顯著性細化CNN模型,該模型是在去卷積網(wǎng)絡(luò)模型的基礎(chǔ)上進行改進得到,包含十個模塊,前五個模塊記為ENblock,和VGGNet模型中的前五個模塊一樣,后五個模塊記為DEblock,作為前五個模塊的逆過程,每個DEblock由去卷積層或卷積層組成,每個DEblock模塊中最后一個卷積層的輸出與對稱的ENblock中第一個卷積層的輸出沿通道方向進行拼接,并將拼接后的特征圖作為下一個DEblock模塊的輸入,最后一個拼接后特征圖則作為一個卷積層的輸入;(2)將候選文本區(qū)域圖像作為文本顯著性細化CNN模型的輸入,得到與其對應(yīng)的文本顯著性圖;(3)使用大津法對得到的文本顯著性圖進行二值化后,得到文本顯著性區(qū)域,即最終的候選文本區(qū)域。三、文本顯著性區(qū)域分類(1)構(gòu)建文本顯著性區(qū)域分類CNN模型,該模型是在VGGNet-16的基礎(chǔ)上進行改進得到,即:只保留VGGNet-16中的前三個模塊,為了讓模型能接受任意大小的輸入圖像,在第三個模塊后面增加一個全局平均池化層來提取固定長度的特征,最后使用softmax層來對特征進行分類;(2)對于每一個候選文本區(qū)域,從左右兩個方向搜索與其相鄰的候選文本區(qū)域;(3)假設(shè)當前候選文本區(qū)域的最小外接矩形的大小為w×h,其中心點的坐標為(x,y),坐標系的原點在圖像的左上角;如果在區(qū)域(x?1.5h?0.5w,y?0.5h,x+1.5h+0.5w,y+0.5h)范圍內(nèi),包含了其他候選文本區(qū)域且這些區(qū)域的高度h′滿足[0.5h≤h′≤1.5h],將其與當前候選文本區(qū)域進行合并得到擴大的候選文本區(qū)域;(4)對于每一個擴大的候選文本區(qū)域,計算其最小外接矩形;(5)根據(jù)每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為擴大的候選文本區(qū)域?qū)?yīng)的候選文本區(qū)域圖像,該圖像將是文本顯著性區(qū)域分類CNN模型的輸入;(6)使用文本顯著性區(qū)域分類CNN模型過濾掉非文本區(qū)域;(7)根據(jù)剩下的文本區(qū)域的高度和垂直位置,將其聚類成文本行;(8)根據(jù)同一行中的相鄰文本區(qū)域之間的距離,將文本行分割成單詞區(qū)域,即得到最終的文本檢測結(jié)果。本發(fā)明具有如下優(yōu)點:(1)本發(fā)明提出了一種僅對文本區(qū)域有效的顯著性檢測的CNN模型,該模型在不同層使用了不同的監(jiān)督信息,以便充分利用文本的先驗知識來有效地指導(dǎo)模型的訓(xùn)練,并最后將多層信息進行融合來進行多尺度特征學(xué)習(xí),以便提高模型所提特征的魯棒性和區(qū)分能力。在該模型的幫助下,在所檢測到的顯著性圖中,只有文本區(qū)域或近似文本的區(qū)域被凸顯出來,從而使得提取的候選文本區(qū)域的數(shù)量接近于真實文本區(qū)域的個數(shù)。(2)為了提高文本檢測的性能,本發(fā)明提出了一種文本顯著性區(qū)域細化CNN模型和文本顯著性區(qū)域分類CNN模型。在細化CNN模型中,對淺層的特征圖與深層的特征圖進行整合,以便提高文本分割的準確率。在分類CNN模型中,使用的是全卷積神經(jīng)網(wǎng)絡(luò),因此可以使用任意大小的圖像作為模型的輸入。(3)本發(fā)明提出了一種新的圖像構(gòu)造策略,以便構(gòu)造更具區(qū)分能力的圖像區(qū)域用于分類,從而提高分類準確率。(4)本發(fā)明通過在場景文本檢測過程中引入顯著性檢測,能有效地檢測場景中的文本區(qū)域,提高場景文本檢測方法的性能。精確的文本檢測和分割結(jié)果,能進一步提高基于文本檢測的應(yīng)用,比如文本識別、圖像檢索等。附圖說明圖1為本發(fā)明的方法在幾種挑戰(zhàn)場景中的文本檢測結(jié)果實例,其中:(a)原始圖像;(b)粗糙的CTR提取結(jié)果,不同的灰度值表示不同的粗糙CTR;(c)最終的CTR提取結(jié)果,不同的灰度值表示不同的CTR;(d)CTR分類結(jié)果,不同的灰度值表示不同的單詞;(e)最終文本檢測結(jié)果。圖2為對文本有意識的初始文本顯著性檢測CNN結(jié)構(gòu)。圖3為測試圖像經(jīng)初始文本顯著性檢測CNN后的所有輸出結(jié)果實例,其中:(a)輸入圖像,(b)-(f)所有五個模塊由淺到深的輸出結(jié)果,(g)最終融合后的文本有意識的顯著性圖。圖4為文本檢測方法的過程,其中:(a)輸入圖像,(b)文本有意識的顯著性檢測結(jié)果,(c)粗糙CTR提取結(jié)果,(d)將(c)中所有CTR圖像經(jīng)文本顯著性細化CNN后的輸出進行拼接后的顯著性圖,(e)CTR細化結(jié)果,(f)CTR分類結(jié)果,(g)最終文本檢測結(jié)果,(h)真實結(jié)果,(c)、(e)和(f)中的不同灰度值表示不同的候選文本區(qū)域或單詞。圖5為文本顯著性細化CNN結(jié)構(gòu)。圖6為在測試圖像(第一行)中的文本區(qū)域分割結(jié)果(第二行)實例;圖7為文本顯著性區(qū)域分類CNN結(jié)構(gòu)。圖8為不同圖像構(gòu)造方法得到的圖像實例,其中:(a)直接將候選文本區(qū)域歸一化到固定大小的結(jié)果;(b)以候選文本區(qū)域最小外接矩形的高為邊長構(gòu)造一個正方形區(qū)域,再進行歸一化的結(jié)果;(c)本發(fā)明提出的圖像構(gòu)造策略的結(jié)果。圖9為本發(fā)明提出的場景文本檢測方法的成功實例。具體實施方式下面結(jié)合附圖對本發(fā)明的技術(shù)方案作進一步的說明,但并不局限于此,凡是對本發(fā)明技術(shù)方案進行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,均應(yīng)涵蓋在本發(fā)明的保護范圍中。本發(fā)明提供了一種基于文本顯著性區(qū)域的場景文本檢測方法,該方法由三部分組成,分別為:初始文本顯著性檢測、文本顯著性細化和文本顯著性區(qū)域分類。在初始文本顯著性檢測階段,首先設(shè)計一個用于文本顯著性檢測的CNN模型,該模型能從圖像中自動學(xué)習(xí)能夠表征文本內(nèi)在屬性的特征,并得到對文本有意識的顯著性圖。在該顯著性圖中,文本區(qū)域的顯著性值被凸顯出來,而背景區(qū)域的顯著性值被抑制,因此可根據(jù)顯著性圖提取出粗糙的文本顯著性區(qū)域。在文本顯著性細化階段,設(shè)計一個文本顯著性細化CNN模型用來對粗糙的文本顯著性區(qū)域進行進一步文本顯著性檢測,得到更加精確的文本顯著性圖,并可基于該顯著性圖得到最終的文本顯著性區(qū)域,其實際上包含了精確的文本區(qū)域的分割結(jié)果,該文本顯著性區(qū)域即為候選文本區(qū)域。因此,基于上述兩個文本顯著性檢測的CNN模型的候選文本區(qū)域提取方法能克服傳統(tǒng)方法所存在的問題。在文本顯著性區(qū)域分類階段,提出了一種新的圖像構(gòu)造策略,然后使用文本顯著性區(qū)域分類CNN模型來過濾非文本區(qū)域,并得到最終的文本檢測結(jié)果。本發(fā)明提到的文本顯著性區(qū)域也叫候選文本區(qū)域(記為CTR)。上述所有的CNN模型都是基于強大的VGGNet-16模型。因此,對于不同場景,本發(fā)明的方法能得到很好的文本檢測結(jié)果,如圖2所示。由圖2可知,在大部分情況下,本發(fā)明的方法提取的候選文本區(qū)域的個數(shù)較少,且?guī)缀跖c真實文本區(qū)域中的字母個數(shù)一致,并且即便在文本區(qū)域內(nèi)的顏色變化較大或文本和背景的顏色很相似的情況下,本發(fā)明的方法仍然能成功地完成文本檢測。接下來將詳細地介紹本發(fā)明方法中的各部分內(nèi)容。一、初始文本顯著性檢測相比傳統(tǒng)的文本無關(guān)的候選文本生成方法(比如基于MSER的方法),本發(fā)明提出了一種基于對文本有意識的顯著性檢測的候選文本區(qū)域提取方法。該方法中的顯著性檢測是專門針對文本的,即在生成的顯著性圖中,文本區(qū)域是被凸顯出來的,因此該方法是對文本有意識的(或文本相關(guān)的),即提取的候選區(qū)域中的很大一部分為文本區(qū)域,從而大大地減少了候選文本區(qū)域的數(shù)量。本發(fā)明在VGGNet-16的基礎(chǔ)上,設(shè)計了一個深層監(jiān)督的CNN網(wǎng)絡(luò)結(jié)構(gòu)(記為初始文本顯著性檢測CNN)用來預(yù)測圖像中每個像素屬于文本的顯著性值。為了使初始文本顯著性檢測CNN將注意力集中在文本區(qū)域上,那些能反映文本屬性的信息將被用做監(jiān)督信息來訓(xùn)練該CNN模型。區(qū)分文本和背景的一個最重要的信息是文本區(qū)域的形狀,且文本的邊緣和整個區(qū)域能很好的表征文本的形狀。在CNN的學(xué)習(xí)過程中,隨著網(wǎng)絡(luò)深度的增加,CNN所學(xué)到的特征反映了物體中局部信息到全局信息的變化過程。對于文本而言,邊緣是局部信息,整個文本區(qū)域是全局信息。因此,本發(fā)明分別使用文本的邊緣和整個區(qū)域作為CNN結(jié)構(gòu)中淺層和深層的監(jiān)督信息來完成模型的訓(xùn)練。為了得到精確的顯著性預(yù)測結(jié)果,在強大的VGGNet-16模型的基礎(chǔ)上進行相應(yīng)的改進得到初始文本顯著性檢測CNN模型,只保留VGGNet-16中的前五個模塊。如上所述,CNN模型中的淺層通常學(xué)習(xí)到的是局部特征,比如邊緣。而自然場景圖像中包含了大量不同物體的邊緣,包括來自文本的和背景的。因此,為了讓CNN模型在淺層的特征學(xué)習(xí)中,將更多的注意力放在文本邊緣上,僅文本的邊緣被用作淺層的監(jiān)督信號來指導(dǎo)模型的訓(xùn)練。CNN模型中的深層通常學(xué)習(xí)的是目標的全局特征,因此文本的整個區(qū)域被用作深層的監(jiān)督信號來監(jiān)督模型的訓(xùn)練,以至于學(xué)習(xí)到更具區(qū)分性的全局特征來表征文本的特性。綜上所述,由淺層到深層,整個候選文本區(qū)域提取CNN一直都集中于文本特征(包括局部和全局)的學(xué)習(xí)。在此,我們調(diào)查了哪些層應(yīng)當使用文本邊緣或整個區(qū)域作為監(jiān)督信號,并通過實驗發(fā)現(xiàn)當模型中的前兩個模塊和后三個模塊分別使用文本邊緣和整個區(qū)域進行監(jiān)督學(xué)習(xí)時,本發(fā)明的方法取得最好的性能。為了將不同的監(jiān)督信號引入到CNN模型中,通過為每個模塊中最后的卷積層增加一個側(cè)輸出模塊(包括一個卷積層和一個去卷積層)來進行深層監(jiān)督學(xué)習(xí)。為了使最終的顯著性圖對文本大小更加魯棒,這里只對后三個側(cè)輸出模塊的輸出進行融合。因為在對文本有意識的顯著性預(yù)測過程中,我們希望捕捉文本區(qū)域的全局信息,同時通過實驗驗證當把前兩個側(cè)輸出模塊的輸出也進行融合時,總體的性能幾乎沒有提高。到此為止,整個初始文本顯著性檢測CNN的結(jié)構(gòu)以構(gòu)建完成,如圖2所示。在模型的訓(xùn)練過程中,為了緩減正負樣本間的嚴重不均衡現(xiàn)象,使用叉熵損失函數(shù)來計算誤差,并對所有模塊計算得到的誤差求和得到總誤差,然后將誤差回傳來更新模型的參數(shù)直到滿足終止條件。在模型的測試過程中,對于給定的一個圖像,使用訓(xùn)練好的模型可直接得到與其對應(yīng)的顯著性圖。這里,最終融合后的顯著性圖被作為輸入圖像最終的顯著性圖,且在該圖中,文本區(qū)域擁有更大的顯著性值。得益于深層監(jiān)督學(xué)習(xí),在所有側(cè)輸出模塊的輸出結(jié)果中,文本邊緣或文本區(qū)域也通常擁有更大的值。圖3給出了三個圖像經(jīng)過初始文本顯著性檢測CNN后的所有輸出結(jié)果。由圖3可知:(1)在所有側(cè)輸出模塊的輸出結(jié)果中,文本邊緣處的點比背景邊緣處的點擁有更大的顯著性值,由此證明了本發(fā)明提出的監(jiān)督學(xué)習(xí)策略是有效的。(2)隨著網(wǎng)絡(luò)越來越深,更多背景區(qū)域的顯著性值被抑制,而文本區(qū)域的顯著性值持續(xù)被凸顯出來,并且文本區(qū)域的形狀變得越來越模糊,由此證明了隨著網(wǎng)絡(luò)深度的增加,初始文本顯著性檢測CNN能有效地學(xué)習(xí)文本區(qū)域的局部和全局特征。(3)在所有的對文本有意識的顯著性檢測結(jié)果中,最終融合的顯著性圖獲得了最好的文本顯著性檢測效果,由此證明了該融合策略充分考慮到了文本區(qū)域來自不同模塊的多尺度信息。值得注意的是,無論是在訓(xùn)練還是測試階段,輸入圖像的大小可以是任意的,因為初始文本顯著性檢測CNN是一個全卷積網(wǎng)絡(luò)模型。但為了降低時間和內(nèi)存的消耗,對于寬度大于500的圖像,在保持長寬比的前提下,將其寬度放縮到固定大小500。對于給定的圖像(如圖4(a)所示),使用初始文本顯著性檢測CNN模型得到其對應(yīng)的文本有意識的顯著性圖(如圖4(b)所示)后,通過以下步驟很容易提取出粗糙的文本顯著性區(qū)域(候選文本區(qū)域,記為CTR):(1)采用大津法對顯著性圖進行二值化,得到二值圖像,如圖4(c)所示。(2)對于二值圖像中的每一個連通體(即候選文本區(qū)域),計算其最小外接矩形。(3)根據(jù)每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為候選文本區(qū)域圖像,該圖像將是文本顯著性細化CNN模型的輸入。由上可知,候選文本區(qū)域的個數(shù)等于二值圖像中的連通體個數(shù)。由于由此得到的候選文本區(qū)域通常會包含多個字母,因此這里,我們稱之為初始候選文本區(qū)域,其將被后續(xù)的文本顯著性細化CNN模型進行細化得到最終的候選文本區(qū)域。二、文本顯著性細化在自然場景圖像中,由于文本和背景的多樣性,訓(xùn)練集要想把所有的情況都考慮到,這幾乎是不可能。因此,基于初始文本顯著性檢測CNN模型得到的初始候選文本區(qū)域通常會包含一些背景區(qū)域。而且當文本之間相互靠得很近時,一個初始候選文本區(qū)域?qū)鄠€單詞文本或多行文本。如果直接將初始候選文本區(qū)域作為文本檢測結(jié)果,將降低檢測的準確率和召回率。而且,精確的文本分割結(jié)果能為場景文本識別提供有利的信息。因此,對初始候選文本區(qū)域進行細化得到精確文本分割結(jié)果是很用必要的。近年來,語義圖像分割作為計算機視覺領(lǐng)域中最熱門的研究課題之一,它致力于分割圖像中含有不同語義信息的目標。本發(fā)明中的文本區(qū)域分割可被當作為語義圖像分割中的一個簡單的兩類問題,即文本和非文本區(qū)域。當前性能最好的語義圖像分割方法都是基于CNN的,比如全卷積網(wǎng)絡(luò)(fullyconvolutionalnetwork)和去卷積網(wǎng)絡(luò)(deconvolutionalnetwork)。對此,本發(fā)明將在去卷積網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建一個新的CNN模型(記為文本顯著性細化CNN)用于檢測更精確的文本顯著性圖。文本顯著性細化CNN模型包含了十個模塊。前五個模塊(記為ENblock)和VGGNet模型中的前五個模塊一樣,由于池化層的存在,隨著模型的前向傳播,由這五個模塊得到的特征圖的大小被逐漸縮小。后五個模塊(記為DEblock)可被當作前五個模塊的逆過程,每個DEblock模塊由去卷積層或卷積層組成。由于去卷積層的存在,隨著模型的前向傳播,由這五個模塊得到的特征圖的大小被逐漸擴大。每個DEblock中的卷積層的具體配置和與其對稱的ENblock中的卷積層的配置一樣,比如conv102/conv10-1/conv6-1和conv1-1/conv1-2/conv5-3具有相同的參數(shù)配置。對于去卷積層來說,單個輸入單元將對應(yīng)多個輸出,因此去卷積層的輸出相比輸入是被放大的和更密集的。第i個去卷積層(記為deconv-i)中濾波器的大小和步幅分別為2i+1和2i,濾波器的個數(shù)和屬于同一個DEblock的卷積層中的卷積核的個數(shù)一樣。每個卷積層和去卷積層后面緊接一個ReLU非線性激活函數(shù)。傳統(tǒng)的CNN采用逐層的方式進行特征學(xué)習(xí),然而在本發(fā)明中,我們希望候選文本區(qū)域細化CNN中的DEblock模塊能從模糊且小的特征圖中學(xué)習(xí)到更精細且更大的高層特征。因此,我們通過整合淺層ENblock中的信息和深層DEblock中的信息來合并高層全局特征和底層局部特征,并通過自動學(xué)習(xí)來提高文本分割的性能。具體而言,每個DEblock模塊中最后一個卷積層的輸出與對稱的ENblock中第一個卷積層的輸出沿通道方向進行拼接,并將拼接后的特征圖作為下一個DEblock模塊(除了最后一個)的輸入。最后一個拼接后特征圖則作為一個卷積層的輸入,該卷積層只有一個大小為1×1的卷積核。到此為止,整個文本顯著性細化CNN結(jié)構(gòu)已構(gòu)建完成,如圖5所示。和初始文本顯著性檢測CNN不同的是,文本顯著性細化CNN的輸入為初始候選文本區(qū)域圖像而不是整個原始圖像,并僅在最后一個卷積層處使用文本區(qū)域作為監(jiān)督信號來指導(dǎo)模型的訓(xùn)練。對于不同的圖像,提取到的初始候選文本區(qū)域圖像的大小差別較大。在本發(fā)明中,所有初始候選文本區(qū)域圖像被歸一化為固定高度224并保持其長寬比不變。在模型的訓(xùn)練過程中,同樣采用叉熵損失函數(shù)來計算最后一個卷積層的輸出和真實結(jié)果之間的誤差,并使用標準的隨機梯度下降算法來最小化該損失函數(shù)。在模型的測試過程中,對于給定的一個圖像,將其作為訓(xùn)練好的模型的輸入,可直接得到與其對應(yīng)的文本顯著性圖(如圖4(d)所示),該圖中文本區(qū)域?qū)?yīng)的像素點值更大。因此,使用大津法對得到的文本顯著性圖進行二值化后,可得到精確的文本區(qū)域分割結(jié)果,其中的每一個連通體即為一個最終的候選文本區(qū)域(如圖4(e)所示)。圖6給出了五個測試圖像的文本區(qū)域分割結(jié)果。由圖6可知,即便對于背景復(fù)雜的圖像或文本模糊的圖像,基于文本顯著性細化CNN模型的文本分割方法都能得到好的分割結(jié)果。由于作為文本顯著性細化CNN的輸入,初始候選文本區(qū)域圖像是從原始圖像按照初始候選文本區(qū)域的最小外接矩形裁剪得到,因此它們中的背景(如圖6中的第一行圖像)要比原始圖像中的背景(如圖4中的最左列圖像)簡單很多。所以,我們不需要像初始文本顯著性檢測CNN模型一樣使用更多的監(jiān)督信號來訓(xùn)練模型,并通過實驗驗證,當在不同層加入更多監(jiān)督信號時,總體性能變化很小,反而模型的復(fù)雜度提高了。同時還發(fā)現(xiàn)對于文本顯著性細化這一任務(wù),文本顯著性細化CNN模型要比初始文本顯著性檢測CNN模型效果更好。與初始的候選文本區(qū)域(如圖4(c)所示)相比,經(jīng)過細化后的候選文本區(qū)域(如圖4(e)所示)中的文本能被精確地分割出來。三、文本顯著性區(qū)域分類在候選文本區(qū)域(亦稱文本顯著性區(qū)域,如圖4(e)所示)中,仍然存在一部分非文本區(qū)域,因此需要對其進行非文本區(qū)域過濾操作,即將文本顯著性區(qū)域分類為文本和非文本,該過程實際上是圖像分類中的兩分類問題。在著名的ImageNet競賽中,基于CNN的方法(比如VGGNet和GoogleNet)獲得了圖像分類任務(wù)中最好的性能。因此在本發(fā)明中,我們通過對VGGNet進行修改來構(gòu)造一個全卷積神經(jīng)網(wǎng)絡(luò)(記為文本顯著性區(qū)域分類CNN)用于文本顯著性區(qū)域分類。由于文本顯著性區(qū)域分類是一個兩分類問題且文本相比ImageNet中的物體更加簡單,因此文本顯著性區(qū)域分類中,一個網(wǎng)絡(luò)深度比原始VGGNet更淺的CNN就足夠獲得好的性能。在本發(fā)明中,我們只使用VGGNet中的前三個模塊來構(gòu)造文本顯著性區(qū)域分類CNN。VGGNet的輸入圖像的大小為224*224,其對于文本顯著性區(qū)域分類來說太大。為了在模型訓(xùn)練和測試時節(jié)省時間和內(nèi)存,輸入圖像的高度被歸一化為固定大小32。在測試時,輸入圖像的寬度由其原始大小自動決定。在訓(xùn)練時,為了加速訓(xùn)練過程,輸入圖像的寬度被歸一化為固定大小100。為了使模型能接受任意寬度的輸入圖像,在第三個模塊后面增加一個全局平均池化(globalaveragepooling)層而不是全連接層來生成固定長度的特征向量。由于第三個模塊輸出256個特征圖,因此由全局平均池化層生成的特征向量的長度為256。最后,在測試時,使用softmax層來對特征向量進行分類,在訓(xùn)練時,使用softmaxloss層來計算誤差。到此為止,整個文本顯著性區(qū)域分類CNN結(jié)構(gòu)已構(gòu)建完成,如圖7所示。對于給定的一個圖像,經(jīng)過本發(fā)明提出的基于初始文本顯著性檢測CNN和文本顯著性細化CNN的候選文本區(qū)域提取方法后,將產(chǎn)生大量的候選文本區(qū)域(文本顯著性區(qū)域),基于它們來構(gòu)造候選文本區(qū)域圖像作為文本顯著性區(qū)域分類CNN的輸入。眾所周知,與只包含單個字母的文本區(qū)域圖像相比,包含多個字母的文本區(qū)域圖像具有更強的區(qū)分能力。因此,本發(fā)明提出一種新的圖像構(gòu)造策略來構(gòu)造候選文本區(qū)域圖像,其過程如下:(1)對于每一個候選文本區(qū)域,從左右兩個方向搜索與其相鄰的候選文本區(qū)域。將滿足如下條件的候選文本區(qū)域與當前候選文本區(qū)域合并構(gòu)成一個新的擴大的候選文本區(qū)域。假設(shè)當前候選文本區(qū)域的最小外接矩形的大小為w×h,其中心點的坐標為(x,y),坐標系的原點在圖像的左上角。如果在區(qū)域(x?1.5h?0.5w,y?0.5h,x+1.5h+0.5w,y+0.5h)范圍(該四元組中的元素分別表示該區(qū)域的左上角和右下角兩點的坐標)內(nèi),包含了其他候選文本區(qū)域且這些區(qū)域的高度h′滿足[0.5h≤h′≤1.5h],將其與當前候選文本區(qū)域進行合并得到擴大的候選文本區(qū)域。(2)對于每一個擴大的候選文本區(qū)域,計算其最小外接矩形。根據(jù)每一個最小外接矩形,從原始圖像中裁剪得到一個圖像塊,并將其作為擴大的候選文本區(qū)域?qū)?yīng)的候選文本區(qū)域圖像,該圖像將是文本顯著性區(qū)域分類CNN模型的輸入。由上可知,本發(fā)明提出的圖像構(gòu)造策略所構(gòu)造的候選文本區(qū)域圖像,通常包含多個字母區(qū)域。由于全連接層的限制,傳統(tǒng)方法直接將當前的候選文本區(qū)域歸一化到固定大?。ㄈ鐖D8(a)所示),或者以當前候選文本區(qū)域最小外接矩形的高為邊長構(gòu)造一個正方形區(qū)域(如圖8(b)所示),然后再將其歸一化到固定大小。因此,這些方法得到的候選文本區(qū)域圖像通常只包含一個字母區(qū)域。與傳統(tǒng)方法,本發(fā)明提出的圖像構(gòu)造策略有以下兩個優(yōu)點:(1)構(gòu)造的候選文本區(qū)域圖像通常包含多個字母區(qū)域(如圖8(c)所示),從而使得其比僅包含單個字母區(qū)域的圖像擁有更多區(qū)分能力強的信息,以至于提供最終的分類性能。(2)得益于全卷積層,在輸入文本顯著性區(qū)域分類CNN模型時,構(gòu)造的候選文本區(qū)域圖像可保持原始的長寬比,以至于損失更少的信息。在使用文本顯著性區(qū)域分類CNN過濾掉非文本區(qū)域之后,首先根據(jù)剩下的文本區(qū)域(如圖4(f)中的所有連通體)的高度和垂直位置,將其聚類成文本行。然后根據(jù)同一行中的相鄰文本區(qū)域之間的距離,將文本行分割成單詞區(qū)域(如圖4(f)中不同灰度值的成分),即得到最終的文本檢測結(jié)果(如圖4(g)中矩形框所示)。圖9給出了本發(fā)明在幾個具有挑戰(zhàn)性的場景下進行文本檢測成功的實例,比如單個字母、復(fù)雜背景以及文本與背景間的對比度低等場景,由此說明了本發(fā)明的有效性。當前第1頁1 2 3 當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
台北市| 太仆寺旗| 舒城县| 宁国市| 澜沧| 南岸区| 三亚市| 厦门市| 厦门市| 石泉县| 江阴市| 安塞县| 洮南市| 靖西县| 高台县| 张家港市| 巴里| 六枝特区| 新郑市| 鲁甸县| 玛沁县| 大新县| 忻州市| 绵竹市| 城市| 揭西县| 永年县| 祁东县| 香河县| 大足县| 科尔| 延吉市| 仁化县| 西丰县| 崇礼县| 乡宁县| 天全县| 惠安县| 吴旗县| 铜梁县| 大化|