一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法
【專利摘要】本發(fā)明的各實(shí)施方式提供了一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法包括如下步驟:步驟S1:將所有訓(xùn)練圖片進(jìn)行不同尺度的網(wǎng)格劃分,并將每幅圖片表示為基于這些網(wǎng)格劃分的無向圖;步驟S2:在每個(gè)所述不同尺度的網(wǎng)格劃分下,得到所有訓(xùn)練圖片兩兩之間的一個(gè)相似度矩陣,將所述相似度矩陣作為支持向量機(jī)SVM的核矩陣;步驟S3:進(jìn)行多核融合,將融合后的核作為所述支持向量機(jī)SVM的最終核;步驟S4:獲得所述測(cè)試圖片與所有訓(xùn)練圖片之間的相似度核矩陣;以及步驟S5:將每個(gè)所述不同尺度下分別得到的相似度核矩陣進(jìn)行多核融合,將融合后的核作為所述SVM分類器的輸入,用所述SVM分類器得到最終的識(shí)別結(jié)果。
【專利說明】—種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及模式識(shí)別與機(jī)器視覺領(lǐng)域中的自然場(chǎng)景中場(chǎng)景字符識(shí)別領(lǐng)域,具體的涉及一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法。
【背景技術(shù)】
[0002]文字是人們進(jìn)行交流的主要媒介,真正智能的計(jì)算機(jī),需要有識(shí)別和理解我們?nèi)祟愓Z言和文字的能力,光學(xué)字符識(shí)別(OCR)的概念在計(jì)算機(jī)時(shí)代之前就已經(jīng)產(chǎn)生了,經(jīng)過約半個(gè)世紀(jì)的發(fā)展,現(xiàn)階段掃描文檔的識(shí)別已經(jīng)成功地應(yīng)用于各行各業(yè),為文檔的保存及快速檢索提供了便利。近年來,智能手機(jī)迅速覆蓋市場(chǎng),智能手機(jī)一般都裝配攝像頭,讓手機(jī)自動(dòng)理解用戶拍攝的圖片及視頻的高層語義信息無疑具有巨大的應(yīng)用需求,因此,這也成為近年來的計(jì)算機(jī)視覺及模式識(shí)別領(lǐng)域的研究熱點(diǎn)。圖片和視頻等多媒體文檔中大都含有文本信息,與顏色、紋理、邊緣、亮度、形狀等底層信息相比,圖片和視頻中的文字直接承載了語義信息,因而文字成為理解圖片內(nèi)容的重要線索?;谧R(shí)別出的文字信息,可以促成諸如自動(dòng)翻譯、交通監(jiān)控、安全監(jiān)察等多種多樣的應(yīng)用。然而,由于真實(shí)場(chǎng)景中字符本身的光照、分辨率、形變等各種退化,以及字符背景的不可預(yù)見性,即使直接利用傳統(tǒng)的OCR識(shí)別效果較差,因此真實(shí)場(chǎng)景中文字識(shí)別方法具有很強(qiáng)的研究必要。
[0003]現(xiàn)有的文本塊識(shí)別方法大致分為兩類:傳統(tǒng)的基于二值化、分割再識(shí)別的方法,以及基于目標(biāo)識(shí)別的方法。傳統(tǒng)的方法基于成熟的OCR識(shí)別引擎,由于OCR識(shí)別引擎需要二值輸入,因此需要對(duì)場(chǎng)景中文本塊二值化。然而,由于場(chǎng)景文字的顏色、分辨率、光照的多變性,以及場(chǎng)景中各種背景的干擾,傳統(tǒng)的二值化方法很多都會(huì)失效。如果二值化效果不好,后續(xù)的分割及識(shí)別效果將很差,而且由二值化帶來的識(shí)別錯(cuò)誤是不能通過后續(xù)處理糾正的。
[0004]基于目標(biāo)識(shí)別的方法無需二值化,但此類方法假設(shè)文字是一種類內(nèi)差距較大的目標(biāo),采用目標(biāo)識(shí)別的方法來對(duì)其進(jìn)行識(shí)別,大部分方法直接在原始圖片上提取相應(yīng)的特征,用各種分類器來進(jìn)行識(shí)別。
【發(fā)明內(nèi)容】
[0005]鑒于以上現(xiàn)狀,本發(fā)明的一個(gè)目的在于克服上述已有文本塊識(shí)別方法中的至少一個(gè)缺陷。本申請(qǐng)的發(fā)明人意識(shí)到文字是由人類設(shè)計(jì)的,每個(gè)文字均有其特有的結(jié)構(gòu),因此在識(shí)別時(shí)應(yīng)該盡量用到文字的結(jié)構(gòu)信息,在識(shí)別框架中利用文字的結(jié)構(gòu)不變性的約束,從而提高識(shí)別效果。由此,本發(fā)明的基本構(gòu)思是將文字表示為基于不同尺度劃分的無向圖,通過圖匹配得到兩幅圖片之間的相似度,以此相似度作為SVM的核來對(duì)其進(jìn)行分類識(shí)別。
[0006]因此,根據(jù)本發(fā)明的又一個(gè)目的在于提供了一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法,其特征在于,包括訓(xùn)練步驟和測(cè)試步驟,其中所述訓(xùn)練步驟包括:
步驟S1:將所有訓(xùn)練圖片進(jìn)行不同尺度的網(wǎng)格劃分,并將每幅圖片表示為基于這些網(wǎng)格劃分的無向圖,其中網(wǎng)格中的每一塊表示為圖的節(jié)點(diǎn),相鄰的節(jié)點(diǎn)之間通過邊相連;步驟S2:在每個(gè)所述不同尺度的網(wǎng)格劃分下,對(duì)所有的訓(xùn)練圖片進(jìn)行兩兩之間的圖匹配,用所述圖匹配的能量值作為衡量?jī)煞鶊D片的相似度值,得到所有訓(xùn)練圖片兩兩之間的一個(gè)相似度矩陣,將所述相似度矩陣作為支持向量機(jī)SVM的核矩陣;以及
步驟S3:將所述不同尺度下分別得到的核矩陣進(jìn)行多核融合,將融合后的核作為所述支持向量機(jī)SVM的最終核,用所述最終核來訓(xùn)練SVM分類器;
所述測(cè)試步驟包括:
步驟S4:將待識(shí)別圖片按照步驟SI所述的方法表示為基于所述不同尺度下網(wǎng)格劃分的無向圖;在每個(gè)所述不同尺度的網(wǎng)格劃分下,將所述測(cè)試圖片的無向圖與所有訓(xùn)練圖片的無向圖進(jìn)行圖匹配,進(jìn)而得到所述測(cè)試圖片與所有訓(xùn)練圖片之間的相似度核矩陣;以及步驟S5:將所述不同尺度下分別得到的相似度核矩陣進(jìn)行多核融合,將融合后的核作為所述SVM分類器的輸入,用所述SVM分類器得到最終的識(shí)別結(jié)果。
[0007]根據(jù)本發(fā)明進(jìn)一步的實(shí)施例,其中,所述不同尺度的網(wǎng)格劃分包括將圖片均勻劃分為4Λ3、1(Τ8、5Λ4或8'6的網(wǎng)格。
[0008]根據(jù)本發(fā)明進(jìn)一步的實(shí)施例,其中,所述圖匹配指代任意兩幅圖片中的一個(gè)無向圖G匹配另一個(gè)無向圖G’的同時(shí),保持圖的鄰域的空間一致性約束。
[0009]根據(jù)本發(fā)明進(jìn)一步的實(shí)施例,其中,進(jìn)行所述圖匹配包括最大化所述圖匹配的能量函數(shù),具體如下:
假定圖G中的某個(gè)節(jié)點(diǎn)η,在圖G’中找到其匹配節(jié)點(diǎn)η’,
其中將節(jié)點(diǎn)η的匹配節(jié)點(diǎn)η’的位置記為,則找到節(jié)點(diǎn)η的最好匹配節(jié)點(diǎn)等同于最大化(Max)如下的能量函數(shù):
【權(quán)利要求】
1.一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法,其特征在于,包括訓(xùn)練步驟和測(cè)試步驟,其中所述訓(xùn)練步驟包括: 步驟S1:將所有訓(xùn)練圖片進(jìn)行不同尺度的網(wǎng)格劃分,并將每幅圖片表示為基于這些網(wǎng)格劃分的無向圖,其中網(wǎng)格中的每一塊表示為圖的節(jié)點(diǎn),相鄰的節(jié)點(diǎn)之間通過邊相連; 步驟S2:在每個(gè)所述不同尺度的網(wǎng)格劃分下,對(duì)所有的訓(xùn)練圖片進(jìn)行兩兩之間的圖匹配,用所述圖匹配的能量值作為衡量?jī)煞鶊D片的相似度值,得到所有訓(xùn)練圖片兩兩之間的一個(gè)相似度矩陣,將所述相似度矩陣作為支持向量機(jī)SVM的核矩陣;以及 步驟S3:將每個(gè)所述不同尺度下分別得到的核矩陣進(jìn)行多核融合,將融合后的核作為所述支持向量機(jī)SVM的最終核,用所述最終核來訓(xùn)練SVM分類器; 所述測(cè)試步驟包括: 步驟S4:將待識(shí)別圖片按照步驟SI所述的方法表示為基于所述不同尺度下網(wǎng)格劃分的無向圖;在每個(gè)所述不同尺度的網(wǎng)格劃分下,將所述測(cè)試圖片的無向圖與所有訓(xùn)練圖片的無向圖進(jìn)行圖匹配,進(jìn)而得到所述測(cè)試圖片與所有訓(xùn)練圖片之間的相似度核矩陣;以及 步驟S5:將每個(gè)所述不同尺度下分別得到的相似度核矩陣進(jìn)行多核融合,將融合后的核作為所述SVM分類器的輸入,用所述SVM分類器得到最終的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的場(chǎng)景字符識(shí)別方法,其中,所述不同尺度的網(wǎng)格劃分包括將圖片均勻劃分為f 3、1(Τ8、54或K6的網(wǎng)格。
3.根據(jù)權(quán)利要求1所述的場(chǎng)景字符識(shí)別方法,其中,所述圖匹配表示任意兩幅圖片中的一個(gè)無向圖G匹配另一個(gè)無向圖G’的同時(shí),保持圖的鄰域的空間一致性約束。
4.根據(jù)權(quán)利要求3所述的場(chǎng)景字符識(shí)別方法,其中,進(jìn)行所述圖匹配包括最大化所述圖匹配的能量函數(shù),具體如下: 假定圖G中的某個(gè)節(jié)點(diǎn)η,在圖G’中找到其匹配節(jié)點(diǎn)η’, 其中將節(jié)點(diǎn)η的匹配節(jié)點(diǎn)η’的位置記為,則找到節(jié)點(diǎn)η的最好匹配節(jié)點(diǎn)等同于最大化(Max)如下的能量函數(shù):
5.根據(jù)權(quán)利要求4所述的場(chǎng)景字符識(shí)別方法,進(jìn)一步包括,分別計(jì)算出從G匹配到G’的最大化能量,以及從圖G’匹配到G的最大化能量,通過以下公式來定義這兩個(gè)圖片之間的相似度值:
6.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法,其中,步驟S3中的所述多核融合采用平均核的方法;其中,所述平均核的方法包括,給定每個(gè)尺度下的核矩陣,最終的核矩陣表示為各個(gè)尺度下核矩陣的對(duì)應(yīng)元素求平均值,具體定義如下:
7.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法,其中,訓(xùn)練所述SVM分類器包括用SVM工具包LibSVM進(jìn)行訓(xùn)練。
8.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法,步驟S4還包括將所述測(cè)試圖片的無向圖與所有訓(xùn)練圖片的無向圖兩兩之間進(jìn)行圖匹配,將所述圖匹配的能量值作為兩幅圖片之間的相似度,進(jìn)而得到所述測(cè)試圖片和所有訓(xùn)練圖片之間的相似度核矩陣。
9.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法,其中,步驟S5中的所述多核融合包括采用平均核的方法進(jìn)行融合。
【文檔編號(hào)】G06K9/68GK103544504SQ201310576213
【公開日】2014年1月29日 申請(qǐng)日期:2013年11月18日 優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】不公告發(fā)明人 申請(qǐng)人:康江科技(北京)有限責(zé)任公司