基于文本顯著性的場景文本檢測方法與流程

文檔序號(hào)：12468632閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于文本顯著性的場景文本檢測方法與流程

技術(shù)特征：

1.一種基于文本顯著性的場景文本檢測方法，其特征在于所述檢測方法步驟如下：

一、初始文本顯著性檢測

（1）構(gòu)建初始文本顯著性檢測CNN模型；

（2）對(duì)于給定的圖像，使用初始文本顯著性檢測CNN模型得到其對(duì)應(yīng)的文本顯著性圖；

（3）采用大津法對(duì)顯著性圖進(jìn)行二值化后，得到二值圖像；

（4）對(duì)于二值圖像中的每一個(gè)連通體，計(jì)算其最小外接矩形；

（5）根據(jù)每一個(gè)最小外接矩形，從原始圖像中裁剪得到一個(gè)圖像塊，并將其作為候選文本區(qū)域圖像，該圖像將是文本顯著性細(xì)化CNN模型的輸入；

二、文本顯著性細(xì)化

（1）構(gòu)建文本顯著性細(xì)化CNN模型；

（2）將候選文本區(qū)域圖像作為文本顯著性細(xì)化CNN模型的輸入，得到與其對(duì)應(yīng)的文本顯著性圖；

（3）使用大津法對(duì)得到的文本顯著性圖進(jìn)行二值化后，得到文本顯著性區(qū)域，即最終的候選文本區(qū)域；

三、文本顯著性區(qū)域分類

（1）構(gòu)建文本顯著性區(qū)域分類CNN模型；

（2）對(duì)于每一個(gè)候選文本區(qū)域，從左右兩個(gè)方向搜索與其相鄰的候選文本區(qū)域；

（3）假設(shè)當(dāng)前候選文本區(qū)域的最小外接矩形的大小為w × h，其中心點(diǎn)的坐標(biāo)為(x,y)，坐標(biāo)系的原點(diǎn)在圖像的左上角；如果在區(qū)域(x ? 1.5h ? 0.5w,y ? 0.5h, x + 1.5h + 0.5w,y + 0.5h)范圍內(nèi)，包含了其他候選文本區(qū)域且這些區(qū)域的高度h^′滿足[0.5h ≤ h^′≤ 1.5h]，將其與當(dāng)前候選文本區(qū)域進(jìn)行合并得到擴(kuò)大的候選文本區(qū)域；

（4）對(duì)于每一個(gè)擴(kuò)大的候選文本區(qū)域，計(jì)算其最小外接矩形；

（5）根據(jù)每一個(gè)最小外接矩形，從原始圖像中裁剪得到一個(gè)圖像塊，并將其作為擴(kuò)大的候選文本區(qū)域?qū)?yīng)的候選文本區(qū)域圖像，該圖像將是文本顯著性區(qū)域分類CNN模型的輸入；

（6）使用文本顯著性區(qū)域分類CNN模型過濾掉非文本區(qū)域；

（7）根據(jù)剩下的文本區(qū)域的高度和垂直位置，將其聚類成文本行；

（8）根據(jù)同一行中的相鄰文本區(qū)域之間的距離，將文本行分割成單詞區(qū)域，即得到最終的文本檢測結(jié)果。

2.根據(jù)權(quán)利要求1所述的基于文本顯著性的場景文本檢測方法，其特征在于所述初始文本顯著性檢測CNN模型是在VGGNet-16的基礎(chǔ)上進(jìn)行改進(jìn)得到，只保留VGGNet-16中的前五個(gè)模塊，并分別為每個(gè)模塊引入一個(gè)側(cè)輸出模塊用于監(jiān)督學(xué)習(xí)，前兩個(gè)模塊使用文本邊緣作為監(jiān)督信號(hào)，后三個(gè)模塊使用文本區(qū)域作為監(jiān)督信號(hào)，最后將后三個(gè)側(cè)輸出模塊的輸出進(jìn)行融合并使用文本區(qū)域作為監(jiān)督信號(hào)進(jìn)行學(xué)習(xí)。

3.根據(jù)權(quán)利要求2所述的基于文本顯著性的場景文本檢測方法，其特征在于所述側(cè)輸出模塊包含一個(gè)卷積層和一個(gè)去卷積層。

4.根據(jù)權(quán)利要求2所述的基于文本顯著性的場景文本檢測方法，其特征在于所述融合方法是先將三個(gè)輸出進(jìn)行拼接，再使用一個(gè)卷積層對(duì)其進(jìn)行卷積。

5.根據(jù)權(quán)利要求3或4所述的基于文本顯著性的場景文本檢測方法，其特征在于所述卷積層僅包含一個(gè)1×1的卷積核。

6.根據(jù)權(quán)利要求1所述的基于文本顯著性的場景文本檢測方法，其特征在于所述文本顯著性細(xì)化CNN模型是在去卷積網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn)得到，包含十個(gè)模塊，前五個(gè)模塊記為ENblock，和VGGNet模型中的前五個(gè)模塊一樣，后五個(gè)模塊記為DEblock，作為前五個(gè)模塊的逆過程，每個(gè)DEblock由去卷積層或卷積層組成，每個(gè)DEblock模塊中最后一個(gè)卷積層的輸出與對(duì)稱的ENblock中第一個(gè)卷積層的輸出沿通道方向進(jìn)行拼接，并將拼接后的特征圖作為下一個(gè)DEblock模塊的輸入，最后一個(gè)拼接后特征圖則作為一個(gè)卷積層的輸入。

7.根據(jù)權(quán)利要求1所述的基于文本顯著性的場景文本檢測方法，其特征在于所述文本顯著性區(qū)域分類CNN模型是在VGGNet-16的基礎(chǔ)上進(jìn)行改進(jìn)得到，只保留VGGNet-16中的前三個(gè)模塊，在第三個(gè)模塊后面增加一個(gè)全局平均池化層來提取固定長度的特征，最后使用softmax層來對(duì)特征進(jìn)行分類。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本不良信息檢測方法相關(guān)技術(shù)

自然場景文本識(shí)別相關(guān)技術(shù)

自然場景文本檢測相關(guān)技術(shù)

場景文本識(shí)別相關(guān)技術(shù)

基于顯著性的圖像分割相關(guān)技術(shù)

顯著性檢驗(yàn)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于文本顯著性的場景文本檢測方法與流程