本發(fā)明涉及圖像處理領(lǐng)域,尤其涉及一種圖片的二值化方法、裝置及終端。
背景技術(shù):
圖像的二值化,就是將圖像上的像素點的灰度值設(shè)置為0或255,從而將整個圖像呈現(xiàn)出明顯的只有黑和白的視覺效果。二值化是圖像處理的基本操作,其應(yīng)用非常廣泛,相應(yīng)地,現(xiàn)有技術(shù)中也有相當多的二值化方法,比如雙峰法、P參數(shù)法、迭代法和最大類間方差法等。
然而,現(xiàn)有的二值化方案,都是基于固定規(guī)則的圖片場景對圖片進行二值化,不具有普適性,因此目前還沒有適配所有場景的二值化方法。二值化方法的多樣性和每個二值化方法的局限性導(dǎo)致了在需要對多種場景的圖片進行二值化時,難以快速找到適合的二值化方法,從而影響了圖片的二值化效果。
技術(shù)實現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提出了一種圖片的二值化方法、裝置及終端。
本發(fā)明具體是以如下技術(shù)方案實現(xiàn)的:
第一方面,提供了一種圖片的二值化方法,所述方法包括:
獲取待處理圖片,所述待處理圖片中包含文字;
分別使用多個預(yù)設(shè)的二值化處理方法對所述待處理圖片進行獨立的二值化處理,每個二值化方法得到一個處理結(jié)果;
根據(jù)所述處理結(jié)果,得到處理結(jié)果集合;
計算所述處理結(jié)果集合中的每一個處理結(jié)果的文字置信度;
選取文字置信度最高的處理結(jié)果作為對所述待處理圖片的二值化結(jié)果。
第二方面,提供了一種圖片的二值化裝置,所述裝置包括:
待處理圖片獲取模塊,用于獲取待處理圖片;
處理結(jié)果得到模塊,用于分別使用多個預(yù)設(shè)的二值化處理方法對所述待處理圖片進行獨立的二值化處理,每個二值化方法得到一個處理結(jié)果;
處理結(jié)果集合得到模塊,用于根據(jù)所述處理結(jié)果,得到處理結(jié)果集合;
文字置信度計算模塊,用于計算所述處理結(jié)果集合中的每一個處理結(jié)果的文字置信度;
二值化結(jié)果得到模塊,用于選取文字置信度最高的處理結(jié)果作為對所述待處理圖片的二值化結(jié)果。
第三方面,提供了一種圖片的二值化終端,所述終端包括上述的一種圖片的二值化裝置。
本發(fā)明的一種圖片的二值化方法、裝置及終端,具有如下有益效果:
本發(fā)明基于光學字符識別計算對于待處理圖片二值化結(jié)果的文字置信度,并根據(jù)文字置信度動態(tài)選擇最優(yōu)的二值化方法,從而獲取對于待處理圖片的最優(yōu)二值化結(jié)果。本發(fā)明能夠在不同場景中動態(tài)選擇最優(yōu)的二值化結(jié)果從而滿足不同場景的多樣性需求,實現(xiàn)了對于圖片二值化的全場景適配。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它附圖。
圖1是本發(fā)明實施例提供的一種圖片的二值化方法的流程圖;
圖2是本發(fā)明實施例提供的文字置信度的獲取方法流程圖;
圖3是本發(fā)明實施例提供的加權(quán)平均值算法的流程圖;
圖4是本發(fā)明實施例提供的基于滑動窗的二值化方法的流程圖;
圖5是本發(fā)明實施例提供的局部二值化方法的流程圖;
圖6是本發(fā)明實施例提供的基于顏色值統(tǒng)計的二值化方法的流程圖;
圖7是本發(fā)明實施例提供的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖;
圖8是本發(fā)明實施例提供的一張待處理圖片;
圖9是本發(fā)明實施例提供的基于滑動窗的二值化方法對于圖8中的待處理圖片的處理結(jié)果;
圖10是本發(fā)明實施例提供的基于顏色值統(tǒng)計的二值化方法對于圖8中的待處理圖片的處理結(jié)果;
圖11是本發(fā)明實施例提供的另一張待處理圖片;
圖12是本發(fā)明實施例提供的基于滑動窗的二值化方法對于圖11中的待處理圖片的處理結(jié)果;
圖13是本發(fā)明實施例提供的基于顏色值統(tǒng)計的二值化方法對于圖11中的待處理圖片的處理結(jié)果;
圖14是本發(fā)明實施例提供的一種圖片的二值化裝置的框圖;
圖15是本發(fā)明實施例提供的文字置信度計算單元的框圖;
圖16是本發(fā)明實施例提供的處理結(jié)果得到模塊的框圖;
圖17是本發(fā)明實施例提供的滑動窗二值化單元的框圖;
圖18是本發(fā)明實施例提供的顏色值統(tǒng)計二值化單元的框圖;
圖19是本發(fā)明實施例提供的終端的結(jié)構(gòu)框圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
請參考圖1,其示出了本發(fā)明一個實施例提供的一種圖片的二值化方法的流程圖。該方法可以包括如下步驟。
步驟101,獲取待處理圖片,所述待處理圖片中包含文字。
步驟102,分別使用多個預(yù)設(shè)的二值化處理方法對所述待處理圖片進行獨立的二值化處理,每個二值化方法得到一個處理結(jié)果。
預(yù)設(shè)的二值化方法可以選擇現(xiàn)有的二值化方法,預(yù)設(shè)的二值化方法的數(shù)量可以為二個或二個以上。
現(xiàn)有的二值化方法主要分為兩類,一類是全局方法,以全局視角確定統(tǒng)一的分割閾值,通過分割閾值進行二值化;另一類是局部自適應(yīng)的方法,根據(jù)圖像不同區(qū)域的情況,確定不同的閾值并根據(jù)所述閾值進行二值化。
全局方法大多根據(jù)圖像的全局顏色統(tǒng)計信息,計算出一個能取得最大二值化效果的分割閾值,然后根據(jù)所述分割閾值進行簡單的二值化。這種方法僅在背景簡單且顏色單一的圖像中效果較好,對紋理信息復(fù)雜或低對比度的圖像效果較差。
局部自適應(yīng)方法大多根據(jù)局部紋理信息來計算二值化閾值,在一定程度上可以避免全局閾值的誤判,但是由此經(jīng)常由于過于注重于局部信息,忽略全局統(tǒng)籌信息,而常常造成相鄰的局部二值化效果迥異,相鄰區(qū)域二值化效果不連貫的問題。
可見,現(xiàn)有的二值化方法都只能處理固定場景,自適應(yīng)能力不強。為優(yōu)化圖像的二值化效果,提高步驟101中的待處理圖片中的文字提取的準確度,在步驟102中可以枚舉多種二值化方法,并通過后續(xù)計算的文字置信度來選擇最佳的二值化方法,從而起到集各種二值化方法之所長、取長補短的效果,進而擴展圖片的二值化場景,并且獲取最佳的二值化效果。
步驟103,根據(jù)所述處理結(jié)果,得到處理結(jié)果集合。
在步驟102中枚舉多種二值化方法,每個二值化方法得到一個處理結(jié)果,從而構(gòu)成了處理結(jié)果集合。
步驟104,計算所述處理結(jié)果集合中的每一個處理結(jié)果的文字置信度。
所述文字置信度用于表征所述處理結(jié)果中的文字能夠被準確識別的概率,所述文字置信度可以作為二值化方法的處理效果的評價指標。文字置信度高,則說明二值化處理效果理想,文字置信度低,則說明二值化處理效果不理想。
步驟105,選取文字置信度最高的處理結(jié)果作為對所述待處理圖片的二值化結(jié)果。
若存在文字置信度最高的處理結(jié)果有多個的時候,則按照預(yù)設(shè)的選擇方法在所述處理結(jié)果中選擇一個作為對所述待處理圖片的二值化結(jié)果。所述預(yù)設(shè)的選擇方法可以為隨機選擇或其它選擇方法。
本發(fā)明實施例通過枚舉多種二值化方法并動態(tài)選擇最優(yōu)的處理結(jié)果的方式,從而可以對各個場景的圖片均能夠進行二值化處理,并取得較好的二值化效果,從而提高了對于圖片處理的兼容性;以文字置信度作為圖片二值化效果的評價標準,可以使得選出的處理結(jié)果獲取最好的文字識別結(jié)果,有利于后期對于所述結(jié)果進行其它的文字處理。
進一步地,請參考圖2,其示出了步驟104中的文字置信度的獲取方法流程圖,包括:
步驟1041,獲取處理結(jié)果中每一個文字的置信度。
具體地,通過將所述處理結(jié)果輸入預(yù)設(shè)的基于光學字符識別(Optical Character Recognition,OCR)的學習引擎,得到所述學習引擎輸出的置信度。所述學習引擎可以為基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎,所述基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎可以更好的識別單字圖片,具有準確度高,置信度準確等特點,優(yōu)于一般的傳統(tǒng)識別引擎。此外,所述基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎相較于傳統(tǒng)的圖像處理算法的優(yōu)點之一在于,避免了對圖像復(fù)雜的前期預(yù)處理過程(提取人工特征等),可以直接輸入原始圖像。比如,可以直接輸入28*28分辨率的單字圖片,并直接輸出置信度。相對傳統(tǒng)方法,置信度的輸出結(jié)果更加可靠。
此外,傳統(tǒng)的Tesseract學習引擎以及Nhocr引擎也支持置信度的識別,同樣可以用于本實施例中。
在基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎,傳統(tǒng)的Tesseract學習引擎以及Nhocr引擎中,輸出的單個文字的置信度均為在0至1之間的小數(shù)。
步驟1042,根據(jù)預(yù)設(shè)的文字置信度算法和每一個文字的置信度計算所述每一個處理結(jié)果的文字置信度。
具體地,所述預(yù)設(shè)的文字置信度算法包括但不限于以置信度的加權(quán)平均值作為文字置信度的加權(quán)平均值算法、以置信度的幾何平均作為文字置信度的幾何平均值算法、以置信度的平方平均值作為文字置信度的平方平均值算法以及以置信度的調(diào)和平均值作為文字置信度的調(diào)和平均值算法。以加權(quán)平均值算法為例,請參考圖3,其示出了加權(quán)平均值算法的流程圖,包括:
S1.設(shè)定每一個文字對應(yīng)的權(quán)值。
以N個文字為例,按照文字在圖片中的先后順序,文字的權(quán)值可以分別為Q0……Qn-1。每個文字對應(yīng)的權(quán)值可以由程序隨機設(shè)定,也可以根據(jù)實際需要進行有針對性的設(shè)定。
S2.根據(jù)每一個文字的置信度和所述文字對應(yīng)的權(quán)值對置信度進行加權(quán)求和。
按照文字在圖片中的先后順序,每個文字的置信度可以分別為Z0……Zn-1,則加權(quán)求和的過程可以表示為
S3.由加權(quán)求和的結(jié)果除以所述處理結(jié)果中的文字的數(shù)量得到加權(quán)平均置信度。
加權(quán)平均置信度為
S4.將所述加權(quán)平均置信度作為文字置信度。
以加權(quán)平均置信度作為文字置信度應(yīng)用于步驟S105之中
本發(fā)明實施例中通過選用不同的文字置信度算法以及在選定的文字置信度算法中設(shè)置不同的參數(shù),可以提升文字置信度的可靠性和區(qū)分能力,支持對于多個處理結(jié)果的區(qū)分,并從多個處理結(jié)果中區(qū)分出最優(yōu)的處理結(jié)果。
進一步地,在步驟102中,可以使用現(xiàn)有的二值化方法,也可以使用自定義的二值化方法,以現(xiàn)有的三種常見的二值化方法為例:
方法一:直接二值化
對圖像灰度化以后,掃描圖像的每個像素值,將灰度值小于127的像素的灰度值設(shè)為0(黑色),將灰度值大于等于127的像素的灰度值設(shè)為255(白色),所述方法的好處是計算量少速度快。缺點是沒有考慮圖像的像素分布情況與像素值特征。
方法二:基于平均值K的二值化
對圖像灰度化以后,計算圖像中像素的平均值K;掃描圖像的每個像素的灰度值,若灰度值大于K,則將所述像素的灰度值設(shè)為255(白色),若灰度值小于等于K,則將所述像素的灰度值設(shè)為0(黑色)。該方法使用平均值作為二值化閾值雖然簡單,但是可能導(dǎo)致部分對象像素或者背景像素丟失。二值化結(jié)果難以真實反映源圖像信息。
方法三:最大類間方差法
假設(shè)圖像是由前景區(qū)域和背景區(qū)域兩部分組成的,通過遍歷計算不同閾值(通常為[0,255]區(qū)間范圍內(nèi))下的分割結(jié)果中前景區(qū)域和背景區(qū)域的灰度直方圖,然后比較兩者之間的方差,使得方差最大化的那個灰度閾值即為所求二值化閾值。
掃描圖像的每個像素值,若灰度值大于所述二值化閾值,則所述像素的灰度值設(shè)為255(白色),若灰度值小于等于所述二值化閾值,則所述像素的灰度值值設(shè)為0(黑色)。
最大類間方差法是二值化的經(jīng)典方法,其在計算速度以及二值化效果之間取得了較好的平衡效果,但是作為全局化的二值化方法,其對紋理信息復(fù)雜或低對比度的圖像效果較差。
上述常見的二值化方法或本發(fā)明實施例中列出的其它二值化方法均可以應(yīng)用于步驟S102中。為取得較好的二值化效果,本發(fā)明實施例在步驟S102中通過基于滑動窗的二值化方法和基于顏色值統(tǒng)計的二值化方法對待處理圖片進行二值化處理。
請參考圖4,其使出了基于滑動窗的二值化方法的流程圖,包括:
步驟T1.將窗口設(shè)置于所述待處理圖片的預(yù)設(shè)位置。
所述窗口的大小和形狀可以根據(jù)實際需要進行設(shè)置,以包含M*N個像素的窗口為例,將所述窗口設(shè)置于預(yù)設(shè)位置。所述預(yù)設(shè)位置也可以根據(jù)實際需要進行設(shè)置,具體地,可以位于待處理圖片的左上角或右下角,對于寬度為M個像素的待處理圖片,可以位于所述待處理圖片的最左端或最右端。
步驟T2.判斷所述窗口內(nèi)的像素與相關(guān)像素是否屬于連續(xù)的圖案。
所述相關(guān)像素為窗口外與所述窗口相鄰的像素。步驟T2的目的在于判斷落入窗口內(nèi)的待處理圖片中的M*N個像素與所述相關(guān)像素是否屬于連續(xù)的圖案,若不屬于,則判定所述窗口內(nèi)包含有文字。
步驟T3.若否,則對所述窗口內(nèi)的像素進行局部二值化。
若窗口內(nèi)包含有文字,則對于窗口內(nèi)的像素進行而二值化處理。本實施例中,只關(guān)注待處理圖片中含有文字部分的二值化效果,因此,若窗口內(nèi)不含有文字,則不予處理,或者將所述窗口直接設(shè)置一個統(tǒng)一的灰度即可。
步驟T4.判斷所述窗口是否到達所述預(yù)設(shè)軌跡的終點。
所述窗口按照預(yù)設(shè)軌跡滑動,到達所述預(yù)設(shè)軌跡的盡頭處滑動結(jié)束。
步驟T5.若否,按照預(yù)設(shè)軌跡滑動所述窗口。
所述預(yù)設(shè)軌跡可以根據(jù)實際需要進行自行設(shè)置。對于寬度為M個像素的待處理圖片,可以位于沿其長度方向移動所述窗口。
步驟T6.返回步驟T2。
具體地,步驟T3使用的局部二值化方法可以使用現(xiàn)有的二值化方法實現(xiàn),在本實施例中,請參考圖5,其示出了本實施例中步驟T3中局部二值化方法的流程圖,包括:
步驟T31.得到窗口內(nèi)的像素的顏色分布統(tǒng)計結(jié)果。
步驟T32.根據(jù)所述統(tǒng)計結(jié)果設(shè)定閾值,所述閾值用于區(qū)分所述待處理圖片的前景和背景。
假設(shè)圖片是由前景區(qū)域和背景區(qū)域兩部分組成的,通過選擇所述閾值區(qū)分出圖像的前景像素和背景像素。比如將顏色大于所述閾值的像素劃歸為前景像素,反之為背景像素;或者將顏色小于所述閾值的像素劃歸為前景像素,反之為背景像素。所述閾值能夠使得基于所述閾值分割后,前景像素的顏色均值和背景像素的顏色均值具有最大的差距。
步驟T33.根據(jù)所述閾值對所述窗口內(nèi)的像素進行二值化。
具體地,可以將前景像素設(shè)定為255(白色),背景像素設(shè)定為0(黑色);也可以將前景像素設(shè)定為0(黑色),背景像素設(shè)定為255(白色)。
本發(fā)明實施例提供的基于滑動窗的二值化方法屬于局部自適應(yīng)方法,較適用于在圖片當中分割文本行的場景,在顏色信息較為單一,背景紋理不復(fù)雜的場景下能夠取得較好的二值化效果。
請參考圖6,其示出了基于顏色值統(tǒng)計的二值化方法的流程圖,包括:
步驟P1.得到所述待處理圖片的像素的顏色分布統(tǒng)計結(jié)果。
步驟P2.基于所述顏色分布統(tǒng)計結(jié)果,使用預(yù)設(shè)的顏色聚類算法得到兩個目標顏色。
聚類是對數(shù)據(jù)的一種聚集,是將類似的數(shù)據(jù)聚成一類。聚類是一種無監(jiān)督的分類方式,其優(yōu)點在于不需要預(yù)先的訓(xùn)練過程。通常情況下,通過顏色聚類算法可以縮小顏色空間的范圍,增大各個顏色間的距離,從而得到顏色聚類結(jié)果(目標顏色),目前比較常用的顏色聚類方式有K-means,混合高斯模型(Gaussian Mixture Models,GMM),Mean shift等方法。
步驟P3.根據(jù)所述兩個目標顏色設(shè)定前景顏色和背景顏色。
步驟P4.依次計算所述待處理圖片的像素的第一距離和第二距離,并根據(jù)計算結(jié)果判定所述像素的歸屬。
具體地,所述第一距離為所述像素的顏色與所述前景顏色之間的歐幾里得距離,所述第二距離為所述像素顏色與所述背景顏色之間的歐幾里得距離。若所述第一距離小于第二距離,則判定所述像素歸屬于前景;若所述第一距離大于第二距離,則判定所述像素歸屬于背景。
步驟P5.根據(jù)所述判定結(jié)果對所述待處理圖片中的像素進行二值化。
假設(shè)圖片是由前景區(qū)域和背景區(qū)域兩部分組成的,通過計算圖片中的像素的第一距離和第二距離判斷所述像素屬于前景像素或背景像素。具體地,可以將前景像素設(shè)定為255(白色),背景像素設(shè)定為0(黑色);也可以將前景像素設(shè)定為0(黑色),背景像素設(shè)定為255(白色)。
本發(fā)明實施例提供的基于顏色值統(tǒng)計的二值化方法屬于全局方法,由于通過聚類方法計算目標顏色,因此可適用于復(fù)雜場景,應(yīng)用范圍較廣。
進一步地,本發(fā)明在步驟S104中通過基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎對基于滑動窗的二值化方法和基于顏色值統(tǒng)計的二值化方法對待處理圖片進行二值化處理的處理結(jié)果進行評價,分別得到基于滑動窗的二值化方法處理結(jié)果的文字置信度和基于顏色值統(tǒng)計的二值化方法處理結(jié)果的文字置信度。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學習技術(shù)中極具代表的網(wǎng)絡(luò)結(jié)構(gòu)之一,在圖像處理領(lǐng)域取得了很大的成功,在國際標準的ImageNet數(shù)據(jù)集上,許多成功的模型都是基于CNN的,本實施例中使用的深度學習引擎同樣基于卷積神經(jīng)網(wǎng)絡(luò)CNN。CNN相較于傳統(tǒng)的圖像處理算法的優(yōu)點之一在于,避免了對圖像復(fù)雜的前期預(yù)處理過程(提取人工特征等),可以直接輸入原始圖像,并輸出對于單個文字的置信度。
圖像處理中,通常將圖像看成是一個或多個的二維向量,對于灰度化之后的圖片,可以將其看做一個二維向量,像素的灰度值即為所述二維向量中的元素;而對于RGB(RGB色彩模式是工業(yè)界的一種顏色標準)表示的彩色圖片有三個顏色通道,可表示為三張二維向量。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)都是采用全連接的方式,即輸入層到隱藏層的神經(jīng)元都是全部連接的,這樣做將導(dǎo)致參數(shù)量巨大,使得網(wǎng)絡(luò)訓(xùn)練耗時甚至難以訓(xùn)練,而本實施例中使用的卷積神經(jīng)網(wǎng)絡(luò)則通過局部連接、權(quán)值共享等方法避免這一困難,因此,相較于傳統(tǒng)的學習引擎,本實施例中基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎運算過程中的時間復(fù)雜度大大降低,因此具有更優(yōu)異的運算性能。
本實施例中卷積神經(jīng)網(wǎng)絡(luò)CNN中主要有兩種類型的網(wǎng)絡(luò)層,分別是卷積層和池化/采樣層。卷積層的作用是提取圖像的各種特征;池化層的作用是對原始特征信號進行抽象,從而大幅度減少訓(xùn)練參數(shù),另外還可以減輕模型過擬合的程度。
卷積層是卷積核在上一級輸入層上通過逐一滑動窗口計算而得,卷積核中的每一個參數(shù)都相當于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的權(quán)值參數(shù),與對應(yīng)的局部像素相連接,將卷積核的各個參數(shù)與對應(yīng)的局部像素值相乘之和,(通常還要再加上一個偏置參數(shù)),得到卷積層上的結(jié)果。
通過卷積層獲得了圖像的特征之后,為了進一步降低本實施例中基于卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)的深度學習引擎的網(wǎng)絡(luò)訓(xùn)練參數(shù)及模型的過擬合程度,對卷積層進行池化/采樣處理。池化/采樣的方式通常有以下兩種:
Max-Pooling:選擇Pooling窗口中的最大值作為采樣值;
Mean-Pooling:將Pooling窗口中的所有值相加取平均,以平均值作為采樣值。
請參考圖7,其示出了本實施例中卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖,本實施例中使用經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
C1層是一個卷積層,在C1層中得到6個特征圖,每個特征圖中的每個神經(jīng)元與輸入中的5*5鄰域相連,特征圖大小為28*28;每個卷積神經(jīng)元有25個單元參數(shù)和一個基礎(chǔ)參數(shù);有122304個連接。
S2層是一個下采樣層,有6個14*14的特征圖,每個圖中的每個單元與C1特征圖中的一個2*2的鄰域相連接,不重疊,因此,S2中每個特征圖的大小是C1中特征圖大小的1/4;S2層每個單元的4個輸入相加,乘以一個可訓(xùn)練參數(shù)W,在加上可訓(xùn)練偏置b,結(jié)果通過sigmoid函數(shù)計算。S2層的連接數(shù)為5880個。
C3層是一個卷積層,有16個卷積核,得到16張?zhí)卣鲌D,特征圖大小為10*10;每個特征圖中的每個神經(jīng)元與S2中的某幾層的多個5*5鄰域相連。
S4是一個下采樣層,由16個5*5大小的特征圖構(gòu)成,特征圖中的每個單元與C3中的相應(yīng)特征圖的2*2鄰域相連接;連接數(shù)為2000個。
C5層是一個卷積層,包括120個神經(jīng)元,120個特征圖,每張?zhí)卣鲌D的大小為1*1;每個單元與S4層的全部16個單元的5*5鄰域相連,共有48120個連接數(shù)。
F6層有84個單元,與C5層全相連,具有10164個連接數(shù)。
在使用二值化方法對待處理圖片進行處理之后,需要對處理結(jié)果進行分析。通常在對處理結(jié)果進行分析的時候,現(xiàn)有技術(shù)對于低對比度或紋理復(fù)雜的場景下的二值化分析通常難以取得準確度高的結(jié)果。而本實施例提供的基于卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)的深度學習引擎為基于大數(shù)據(jù)的深度學習神經(jīng)網(wǎng)絡(luò),其對于置信度的輸出結(jié)果準確度高并且輸出速度快,彌補了現(xiàn)有技術(shù)的對場景要求高并且準確度差的不足。因此,基于所述引擎對步驟103中的處理結(jié)果進行評價,其魯棒性和準確度均高于傳統(tǒng)的二值化處理結(jié)果評價方法。
依托于所述引擎,本發(fā)明實施例可自適應(yīng)計算基于滑動窗的二值化方法處理結(jié)果的文字置信度和基于顏色值統(tǒng)計的二值化方法處理結(jié)果的文字置信度,并由此在步驟S105中選擇處理結(jié)果。
在本發(fā)明實施例的一個場景中,請參考圖8,其示出了待處理圖片。請參考圖9,其示出了本發(fā)明實施例中基于滑動窗的二值化方法對于圖8中的待處理圖片的處理結(jié)果。請參考圖10,其示出了本發(fā)明實施例中基于顏色值統(tǒng)計的二值化方法對于圖8中的待處理圖片的處理結(jié)果。將圖9和圖10輸入基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎,得到圖9和圖10中每一個文字的置信度,并進而算出圖9和圖10的文字置信度,本實施例中圖9的文字置信度為0.88,圖10的文字置信度0.97,因此,選擇圖10的處理結(jié)果作為對圖8中的待處理圖片的二值化結(jié)果。
在本發(fā)明實施例的另一個場景中,請參考圖11,其示出了待處理圖片。請參考圖12,其示出了本發(fā)明實施例中基于滑動窗的二值化方法對于圖11中的待處理圖片的處理結(jié)果。請參考圖13,其示出了本發(fā)明實施例中基于顏色值統(tǒng)計的二值化方法對于圖11中的待處理圖片的處理結(jié)果。將圖12和圖13輸入基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)實現(xiàn)的深度學習引擎,得到圖12和圖13中每一個文字的置信度,并進而算出圖12和圖13的文字置信度,本實施例中圖12的文字置信度為0.99,圖13的文字置信度0.94,因此,選擇圖13的處理結(jié)果作為對圖11中的待處理圖片的二值化結(jié)果。
本發(fā)明實施例中僅需將待處理圖像通過各種互補性強的二值化方法分別獨立處理,然后通過使用基于光學字符識別的學習引擎得到單個文字的置信度,進而計算文字置信度,即可動態(tài)選擇最優(yōu)的處理結(jié)果。不需要關(guān)心全局信息或局部紋理,即可實現(xiàn)各種二值化方法的處理結(jié)果的無縫切換。
下述為本發(fā)明裝置實施例,可以用于執(zhí)行本發(fā)明方法實施例。對于本發(fā)明裝置實施例中未披露的細節(jié),請參照本發(fā)明方法實施例。
請參考圖14,其示出了一種圖片的二值化裝置的框圖,該裝置具有實現(xiàn)上述方法的功能,所述功能可以由硬件實現(xiàn),也可以由硬件執(zhí)行相應(yīng)的軟件實現(xiàn)。該裝置可以包括:
待處理圖片獲取模塊201,用于獲取待處理圖片。其可以用于執(zhí)行步驟101。
處理結(jié)果得到模塊202,用于分別使用多個預(yù)設(shè)的二值化處理方法對所述待處理圖片進行獨立的二值化處理,每個二值化方法得到一個處理結(jié)果。其可以用于執(zhí)行步驟102。
處理結(jié)果集合得到模塊203,用于根據(jù)所述處理結(jié)果,得到處理結(jié)果集合。其可以用于執(zhí)行步驟103。
文字置信度計算模塊204,用于計算所述處理結(jié)果集合中的每一個處理結(jié)果的文字置信度。其可以用于執(zhí)行步驟104。
二值化結(jié)果得到模塊205,用于選取文字置信度最高的處理結(jié)果作為對所述待處理圖片的二值化結(jié)果。其可以用于執(zhí)行步驟105。
進一步地,所述文字置信度計算模塊204包括:
置信度獲取單元2041,用于獲取處理結(jié)果中每一個文字的置信度。其可以用于執(zhí)行步驟1041。
文字置信度計算單元2042,用于根據(jù)預(yù)設(shè)的文字置信度算法和每一個文字的置信度計算所述處理結(jié)果的文字置信度。其可以用于執(zhí)行步驟1042。
請參考圖15,其示出了文字置信度計算單元的框圖,所述文字置信度計算單元2042可以包括:
權(quán)值設(shè)定模塊20421,用于設(shè)定每一個文字對應(yīng)的權(quán)值。其可以用于執(zhí)行步驟S1。
平均置信度計算模塊20422,用于計算所述處理結(jié)果的加權(quán)平均置信度。其可以用于執(zhí)行步驟S2和S3。
文字置信度得到模塊20423,用于將所述加權(quán)平均置信度作為文字置信度。其可以用于執(zhí)行步驟S4。
請參考圖16,其示出了處理結(jié)果得到模塊的框圖,所述處理結(jié)果得到模塊202包括:
滑動窗二值化單元2021,用于基于滑動窗的二值化方法對待處理圖片進行二值化處理。
顏色值統(tǒng)計二值化單元2022,用于基于顏色值統(tǒng)計的二值化方法對待處理圖片進行二值化處理。
具體地,請參考圖17,其示出了滑動窗二值化單元的框圖,所述滑動窗二值化單元2021包括:
窗口設(shè)定模塊20211,用于將窗口設(shè)置于所述待處理圖片的預(yù)設(shè)位置。其可以用于執(zhí)行步驟T1。
第一判斷模塊20212,用于判斷所述窗口內(nèi)的像素與相關(guān)像素是否屬于連續(xù)的圖案;所述相關(guān)像素為窗口外與所述窗口相鄰的像素。其可以用于執(zhí)行步驟T2。
局部二值化模塊20213,用于對所述窗口內(nèi)的像素進行局部二值化。其可以用于執(zhí)行步驟T3。
第二判斷模塊20214,用于判斷滑動所述窗口是否到達所述預(yù)設(shè)軌跡的終點。其可以用于執(zhí)行步驟T4。
移動模塊20215,用于按照預(yù)設(shè)軌跡移動所述窗口。其可以用于執(zhí)行步驟T5。
具體地,請參考圖18,其示出了顏色值統(tǒng)計二值化單元的框圖,所述顏色值統(tǒng)計二值化單元2022包括:
統(tǒng)計結(jié)果得到模塊20221,用于得到所述待處理圖片的像素的顏色分布統(tǒng)計結(jié)果。其可以用于執(zhí)行步驟P1。
目標顏色得到模塊20222,用于基于所述顏色分布統(tǒng)計結(jié)果,使用預(yù)設(shè)的顏色聚類算法得到兩個目標顏色。其可以用于執(zhí)行步驟P2。
設(shè)定模塊20223,用于根據(jù)所述兩個目標顏色設(shè)定前景顏色和背景顏色。其可以用于執(zhí)行步驟P3。
判定模塊20224,用于依次計算所述待處理圖片的像素的第一距離和第二距離,并根據(jù)計算結(jié)果判定所述像素的歸屬;所述第一距離為所述像素的顏色與所述前景顏色之間的歐幾里得距離,所述第二距離為所述像素顏色與所述背景顏色之間的歐幾里得距離。其可以用于執(zhí)行步驟P4。
二值化模塊20225,用于根據(jù)所述判定結(jié)果對所述待處理圖片中的像素進行二值化。其可以用于執(zhí)行步驟P5。
需要說明的是,上述實施例提供的裝置,在實現(xiàn)其功能時,僅以上述各功能模塊的劃分進行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的裝置與方法實施例屬于同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
請參考圖19,其示出了本發(fā)明一個實施例提供的終端的結(jié)構(gòu)示意圖。該終端用于實施上述實施例中提供的一種圖片的二值化方法。
所述終端可以包括RF(Radio Frequency,射頻)電路110、包括有一個或一個以上計算機可讀存儲介質(zhì)的存儲器120、輸入單元130、顯示單元140、傳感器150、音頻電路160、WiFi(wireless fidelity,無線保真)模塊170、包括有一個或者一個以上處理核心的處理器180、以及電源190等部件。本領(lǐng)域技術(shù)人員可以理解,圖19中示出的終端結(jié)構(gòu)并不構(gòu)成對終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
RF電路110可用于收發(fā)信息或通話過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器180處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路110包括但不限于天線、至少一個放大器、調(diào)諧器、一個或多個振蕩器、用戶身份模塊(SIM)卡、收發(fā)信機、耦合器、LNA(Low Noise Amplifier,低噪聲放大器)、雙工器等。此外,RF電路110還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。所述無線通信可以使用任一通信標準或協(xié)議,包括但不限于GSM(Global System ofMobile communication,全球移動通訊系統(tǒng))、GPRS(General Packet Radio Service,通用分組無線服務(wù))、CDMA(Code Division Multiple Access,碼分多址)、WCDMA(Wideband Code Division Multiple Access,寬帶碼分多址)、LTE(Long Term Evolution,長期演進)、電子郵件、SMS(Short Messaging Service,短消息服務(wù))等。
存儲器120可用于存儲軟件程序以及模塊,處理器180通過運行存儲在存儲器120的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器120可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、功能所需的應(yīng)用程序等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)所述終端的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲器120可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應(yīng)地,存儲器120還可以包括存儲器控制器,以提供處理器180和輸入單元130對存儲器120的訪問。
輸入單元130可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標、操作桿、光學或者軌跡球信號輸入。具體地,輸入單元130可包括觸敏表面131以及其他輸入設(shè)備132。觸敏表面131,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面131上或在觸敏表面131附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動相應(yīng)的連接裝置??蛇x的,觸敏表面131可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點坐標,再送給處理器180,并能接收處理器180發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸敏表面131。除了觸敏表面131,輸入單元130還可以包括其他輸入設(shè)備132。具體地,其他輸入設(shè)備132可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。
顯示單元140可用于顯示由用戶輸入的信息或提供給用戶的信息以及所述終端的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標、視頻和其任意組合來構(gòu)成。顯示單元140可包括顯示面板141,可選的,可以采用LCD(Liquid Crystal Display,液晶顯示器)、OLED(Organic Light-Emitting Diode,有機發(fā)光二極管)等形式來配置顯示面板141。進一步的,觸敏表面131可覆蓋顯示面板141,當觸敏表面131檢測到在其上或附近的觸摸操作后,傳送給處理器180以確定觸摸事件的類型,隨后處理器180根據(jù)觸摸事件的類型在顯示面板141上提供相應(yīng)的視覺輸出。雖然在圖19中,觸敏表面131與顯示面板141是作為兩個獨立的部件來實現(xiàn)輸入和輸入功能,但是在某些實施例中,可以將觸敏表面131與顯示面板141集成而實現(xiàn)輸入和輸出功能。
所述終端還可包括至少一種傳感器150,比如光傳感器、運動傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示面板141的亮度,接近傳感器可在所述終端移動到耳邊時,關(guān)閉顯示面板141和/或背光。作為運動傳感器的一種,重力加速度傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別終端姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計姿態(tài)校準)、振動識別相關(guān)功能(比如計步器、敲擊)等;至于所述終端還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器,在此不再贅述。
音頻電路160、揚聲器161,傳聲器162可提供用戶與所述終端之間的音頻接口。音頻電路160可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號,傳輸?shù)綋P聲器161,由揚聲器161轉(zhuǎn)換為聲音信號輸出;另一方面,傳聲器162將收集的聲音信號轉(zhuǎn)換為電信號,由音頻電路160接收后轉(zhuǎn)換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出處理器180處理后,經(jīng)RF電路110以發(fā)送給比如另一終端,或者將音頻數(shù)據(jù)輸出至存儲器120以便進一步處理。音頻電路160還可能包括耳塞插孔,以提供外設(shè)耳機與所述終端的通信。
WiFi屬于短距離無線傳輸技術(shù),所述終端通過WiFi模塊170可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖19示出了WiFi模塊170,但是可以理解的是,其并不屬于所述終端的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。
處理器180是所述終端的控制中心,利用各種接口和線路連接整個終端的各個部分,通過運行或執(zhí)行存儲在存儲器120內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器120內(nèi)的數(shù)據(jù),執(zhí)行所述終端的各種功能和處理數(shù)據(jù),從而對終端進行整體監(jiān)控??蛇x的,處理器180可包括一個或多個處理核心;優(yōu)選的,處理器180可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器180中。
所述終端還包括給各個部件供電的電源190(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器180邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源190還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。
盡管未示出,所述終端還可以包括攝像頭、藍牙模塊等,在此不再贅述。具體在本實施例中,終端的顯示單元是觸摸屏顯示器,終端還包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行述一個或者一個以上程序包含用于執(zhí)行上述一種圖片的二值化方法的指令。
在示例性實施例中,還提供了一種包括指令的非臨時性計算機可讀存儲介質(zhì),例如包括指令的存儲器,上述指令可由終端的處理器執(zhí)行以完成上述方法實施例中的各個步驟。例如,所述非臨時性計算機可讀存儲介質(zhì)可以是ROM、隨機存取存儲器(RAM)、CD-ROM、磁帶、軟盤和光數(shù)據(jù)存儲設(shè)備等。
應(yīng)當理解的是,在本文中提及的“多個”是指兩個或兩個以上?!昂?或”,描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。字符“/”一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。