1.一種基于文本顯著性的場景文本檢測方法,其特征在于所述檢測方法步驟如下:
一、初始文本顯著性檢測
(1)構(gòu)建初始文本顯著性檢測CNN模型;
(2)對(duì)于給定的圖像,使用初始文本顯著性檢測CNN模型得到其對(duì)應(yīng)的文本顯著性圖;
(3)采用大津法對(duì)顯著性圖進(jìn)行二值化后,得到二值圖像;
(4)對(duì)于二值圖像中的每一個(gè)連通體,計(jì)算其最小外接矩形;
(5)根據(jù)每一個(gè)最小外接矩形,從原始圖像中裁剪得到一個(gè)圖像塊,并將其作為候選文本區(qū)域圖像,該圖像將是文本顯著性細(xì)化CNN模型的輸入;
二、文本顯著性細(xì)化
(1)構(gòu)建文本顯著性細(xì)化CNN模型;
(2)將候選文本區(qū)域圖像作為文本顯著性細(xì)化CNN模型的輸入,得到與其對(duì)應(yīng)的文本顯著性圖;
(3)使用大津法對(duì)得到的文本顯著性圖進(jìn)行二值化后,得到文本顯著性區(qū)域,即最終的候選文本區(qū)域;
三、文本顯著性區(qū)域分類
(1)構(gòu)建文本顯著性區(qū)域分類CNN模型;
(2)對(duì)于每一個(gè)候選文本區(qū)域,從左右兩個(gè)方向搜索與其相鄰的候選文本區(qū)域;
(3)假設(shè)當(dāng)前候選文本區(qū)域的最小外接矩形的大小為w × h,其中心點(diǎn)的坐標(biāo)為(x,y),坐標(biāo)系的原點(diǎn)在圖像的左上角;如果在區(qū)域(x ? 1.5h ? 0.5w,y ? 0.5h, x + 1.5h + 0.5w,y + 0.5h)范圍內(nèi),包含了其他候選文本區(qū)域且這些區(qū)域的高度h′滿足[0.5h ≤ h′ ≤ 1.5h],將其與當(dāng)前候選文本區(qū)域進(jìn)行合并得到擴(kuò)大的候選文本區(qū)域;
(4)對(duì)于每一個(gè)擴(kuò)大的候選文本區(qū)域,計(jì)算其最小外接矩形;
(5)根據(jù)每一個(gè)最小外接矩形,從原始圖像中裁剪得到一個(gè)圖像塊,并將其作為擴(kuò)大的候選文本區(qū)域?qū)?yīng)的候選文本區(qū)域圖像,該圖像將是文本顯著性區(qū)域分類CNN模型的輸入;
(6)使用文本顯著性區(qū)域分類CNN模型過濾掉非文本區(qū)域;
(7)根據(jù)剩下的文本區(qū)域的高度和垂直位置,將其聚類成文本行;
(8)根據(jù)同一行中的相鄰文本區(qū)域之間的距離,將文本行分割成單詞區(qū)域,即得到最終的文本檢測結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于文本顯著性的場景文本檢測方法,其特征在于所述初始文本顯著性檢測CNN模型是在VGGNet-16的基礎(chǔ)上進(jìn)行改進(jìn)得到,只保留VGGNet-16中的前五個(gè)模塊,并分別為每個(gè)模塊引入一個(gè)側(cè)輸出模塊用于監(jiān)督學(xué)習(xí),前兩個(gè)模塊使用文本邊緣作為監(jiān)督信號(hào),后三個(gè)模塊使用文本區(qū)域作為監(jiān)督信號(hào),最后將后三個(gè)側(cè)輸出模塊的輸出進(jìn)行融合并使用文本區(qū)域作為監(jiān)督信號(hào)進(jìn)行學(xué)習(xí)。
3.根據(jù)權(quán)利要求2所述的基于文本顯著性的場景文本檢測方法,其特征在于所述側(cè)輸出模塊包含一個(gè)卷積層和一個(gè)去卷積層。
4.根據(jù)權(quán)利要求2所述的基于文本顯著性的場景文本檢測方法,其特征在于所述融合方法是先將三個(gè)輸出進(jìn)行拼接,再使用一個(gè)卷積層對(duì)其進(jìn)行卷積。
5.根據(jù)權(quán)利要求3或4所述的基于文本顯著性的場景文本檢測方法,其特征在于所述卷積層僅包含一個(gè)1×1的卷積核。
6.根據(jù)權(quán)利要求1所述的基于文本顯著性的場景文本檢測方法,其特征在于所述文本顯著性細(xì)化CNN模型是在去卷積網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn)得到,包含十個(gè)模塊,前五個(gè)模塊記為ENblock,和VGGNet模型中的前五個(gè)模塊一樣,后五個(gè)模塊記為DEblock,作為前五個(gè)模塊的逆過程,每個(gè)DEblock由去卷積層或卷積層組成,每個(gè)DEblock模塊中最后一個(gè)卷積層的輸出與對(duì)稱的ENblock中第一個(gè)卷積層的輸出沿通道方向進(jìn)行拼接,并將拼接后的特征圖作為下一個(gè)DEblock模塊的輸入,最后一個(gè)拼接后特征圖則作為一個(gè)卷積層的輸入。
7.根據(jù)權(quán)利要求1所述的基于文本顯著性的場景文本檢測方法,其特征在于所述文本顯著性區(qū)域分類CNN模型是在VGGNet-16的基礎(chǔ)上進(jìn)行改進(jìn)得到,只保留VGGNet-16中的前三個(gè)模塊,在第三個(gè)模塊后面增加一個(gè)全局平均池化層來提取固定長度的特征,最后使用softmax層來對(duì)特征進(jìn)行分類。