一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法

文檔序號(hào)：6519314閱讀：373來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法
【專利摘要】本發(fā)明的各實(shí)施方式提供了一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法包括如下步驟：步驟S1：將所有訓(xùn)練圖片進(jìn)行不同尺度的網(wǎng)格劃分,并將每幅圖片表示為基于這些網(wǎng)格劃分的無向圖；步驟S2：在每個(gè)所述不同尺度的網(wǎng)格劃分下，得到所有訓(xùn)練圖片兩兩之間的一個(gè)相似度矩陣,將所述相似度矩陣作為支持向量機(jī)SVM的核矩陣；步驟S3：進(jìn)行多核融合,將融合后的核作為所述支持向量機(jī)SVM的最終核；步驟S4：獲得所述測(cè)試圖片與所有訓(xùn)練圖片之間的相似度核矩陣；以及步驟S5：將每個(gè)所述不同尺度下分別得到的相似度核矩陣進(jìn)行多核融合，將融合后的核作為所述SVM分類器的輸入，用所述SVM分類器得到最終的識(shí)別結(jié)果。
【專利說明】—種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及模式識(shí)別與機(jī)器視覺領(lǐng)域中的自然場(chǎng)景中場(chǎng)景字符識(shí)別領(lǐng)域，具體的涉及一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法。
【背景技術(shù)】
[0002]文字是人們進(jìn)行交流的主要媒介，真正智能的計(jì)算機(jī)，需要有識(shí)別和理解我們?nèi)祟愓Z言和文字的能力，光學(xué)字符識(shí)別(OCR)的概念在計(jì)算機(jī)時(shí)代之前就已經(jīng)產(chǎn)生了，經(jīng)過約半個(gè)世紀(jì)的發(fā)展，現(xiàn)階段掃描文檔的識(shí)別已經(jīng)成功地應(yīng)用于各行各業(yè)，為文檔的保存及快速檢索提供了便利。近年來，智能手機(jī)迅速覆蓋市場(chǎng)，智能手機(jī)一般都裝配攝像頭，讓手機(jī)自動(dòng)理解用戶拍攝的圖片及視頻的高層語義信息無疑具有巨大的應(yīng)用需求，因此，這也成為近年來的計(jì)算機(jī)視覺及模式識(shí)別領(lǐng)域的研究熱點(diǎn)。圖片和視頻等多媒體文檔中大都含有文本信息，與顏色、紋理、邊緣、亮度、形狀等底層信息相比，圖片和視頻中的文字直接承載了語義信息，因而文字成為理解圖片內(nèi)容的重要線索?；谧R(shí)別出的文字信息，可以促成諸如自動(dòng)翻譯、交通監(jiān)控、安全監(jiān)察等多種多樣的應(yīng)用。然而，由于真實(shí)場(chǎng)景中字符本身的光照、分辨率、形變等各種退化，以及字符背景的不可預(yù)見性，即使直接利用傳統(tǒng)的OCR識(shí)別效果較差，因此真實(shí)場(chǎng)景中文字識(shí)別方法具有很強(qiáng)的研究必要。
[0003]現(xiàn)有的文本塊識(shí)別方法大致分為兩類:傳統(tǒng)的基于二值化、分割再識(shí)別的方法，以及基于目標(biāo)識(shí)別的方法。傳統(tǒng)的方法基于成熟的OCR識(shí)別引擎，由于OCR識(shí)別引擎需要二值輸入，因此需要對(duì)場(chǎng)景中文本塊二值化。然而，由于場(chǎng)景文字的顏色、分辨率、光照的多變性，以及場(chǎng)景中各種背景的干擾，傳統(tǒng)的二值化方法很多都會(huì)失效。如果二值化效果不好，后續(xù)的分割及識(shí)別效果將很差，而且由二值化帶來的識(shí)別錯(cuò)誤是不能通過后續(xù)處理糾正的。
[0004]基于目標(biāo)識(shí)別的方法無需二值化，但此類方法假設(shè)文字是一種類內(nèi)差距較大的目標(biāo)，采用目標(biāo)識(shí)別的方法來對(duì)其進(jìn)行識(shí)別，大部分方法直接在原始圖片上提取相應(yīng)的特征，用各種分類器來進(jìn)行識(shí)別。

【發(fā)明內(nèi)容】

[0005]鑒于以上現(xiàn)狀，本發(fā)明的一個(gè)目的在于克服上述已有文本塊識(shí)別方法中的至少一個(gè)缺陷。本申請(qǐng)的發(fā)明人意識(shí)到文字是由人類設(shè)計(jì)的，每個(gè)文字均有其特有的結(jié)構(gòu)，因此在識(shí)別時(shí)應(yīng)該盡量用到文字的結(jié)構(gòu)信息，在識(shí)別框架中利用文字的結(jié)構(gòu)不變性的約束，從而提高識(shí)別效果。由此，本發(fā)明的基本構(gòu)思是將文字表示為基于不同尺度劃分的無向圖，通過圖匹配得到兩幅圖片之間的相似度，以此相似度作為SVM的核來對(duì)其進(jìn)行分類識(shí)別。
[0006]因此，根據(jù)本發(fā)明的又一個(gè)目的在于提供了一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法，其特征在于，包括訓(xùn)練步驟和測(cè)試步驟，其中所述訓(xùn)練步驟包括:
步驟S1:將所有訓(xùn)練圖片進(jìn)行不同尺度的網(wǎng)格劃分，并將每幅圖片表示為基于這些網(wǎng)格劃分的無向圖，其中網(wǎng)格中的每一塊表示為圖的節(jié)點(diǎn)，相鄰的節(jié)點(diǎn)之間通過邊相連；步驟S2:在每個(gè)所述不同尺度的網(wǎng)格劃分下，對(duì)所有的訓(xùn)練圖片進(jìn)行兩兩之間的圖匹配，用所述圖匹配的能量值作為衡量?jī)煞鶊D片的相似度值，得到所有訓(xùn)練圖片兩兩之間的一個(gè)相似度矩陣，將所述相似度矩陣作為支持向量機(jī)SVM的核矩陣；以及
步驟S3:將所述不同尺度下分別得到的核矩陣進(jìn)行多核融合，將融合后的核作為所述支持向量機(jī)SVM的最終核，用所述最終核來訓(xùn)練SVM分類器；
所述測(cè)試步驟包括:
步驟S4:將待識(shí)別圖片按照步驟SI所述的方法表示為基于所述不同尺度下網(wǎng)格劃分的無向圖；在每個(gè)所述不同尺度的網(wǎng)格劃分下，將所述測(cè)試圖片的無向圖與所有訓(xùn)練圖片的無向圖進(jìn)行圖匹配，進(jìn)而得到所述測(cè)試圖片與所有訓(xùn)練圖片之間的相似度核矩陣；以及步驟S5:將所述不同尺度下分別得到的相似度核矩陣進(jìn)行多核融合，將融合后的核作為所述SVM分類器的輸入，用所述SVM分類器得到最終的識(shí)別結(jié)果。
[0007]根據(jù)本發(fā)明進(jìn)一步的實(shí)施例，其中，所述不同尺度的網(wǎng)格劃分包括將圖片均勻劃分為4Λ3、1(Τ8、5Λ4或8'6的網(wǎng)格。
[0008]根據(jù)本發(fā)明進(jìn)一步的實(shí)施例，其中，所述圖匹配指代任意兩幅圖片中的一個(gè)無向圖G匹配另一個(gè)無向圖G’的同時(shí)，保持圖的鄰域的空間一致性約束。
[0009]根據(jù)本發(fā)明進(jìn)一步的實(shí)施例，其中，進(jìn)行所述圖匹配包括最大化所述圖匹配的能量函數(shù)，具體如下:
假定圖G中的某個(gè)節(jié)點(diǎn)η，在圖G’中找到其匹配節(jié)點(diǎn)η’，
其中將節(jié)點(diǎn)η的匹配節(jié)點(diǎn)η’的位置記為,則找到節(jié)點(diǎn)η的最好匹配節(jié)點(diǎn)等同于最大化(Max)如下的能量函數(shù):
【權(quán)利要求】
1.一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法，其特征在于，包括訓(xùn)練步驟和測(cè)試步驟，其中所述訓(xùn)練步驟包括: 步驟S1:將所有訓(xùn)練圖片進(jìn)行不同尺度的網(wǎng)格劃分，并將每幅圖片表示為基于這些網(wǎng)格劃分的無向圖，其中網(wǎng)格中的每一塊表示為圖的節(jié)點(diǎn)，相鄰的節(jié)點(diǎn)之間通過邊相連；步驟S2:在每個(gè)所述不同尺度的網(wǎng)格劃分下，對(duì)所有的訓(xùn)練圖片進(jìn)行兩兩之間的圖匹配，用所述圖匹配的能量值作為衡量?jī)煞鶊D片的相似度值，得到所有訓(xùn)練圖片兩兩之間的一個(gè)相似度矩陣，將所述相似度矩陣作為支持向量機(jī)SVM的核矩陣；以及步驟S3:將每個(gè)所述不同尺度下分別得到的核矩陣進(jìn)行多核融合，將融合后的核作為所述支持向量機(jī)SVM的最終核，用所述最終核來訓(xùn)練SVM分類器；所述測(cè)試步驟包括: 步驟S4:將待識(shí)別圖片按照步驟SI所述的方法表示為基于所述不同尺度下網(wǎng)格劃分的無向圖；在每個(gè)所述不同尺度的網(wǎng)格劃分下，將所述測(cè)試圖片的無向圖與所有訓(xùn)練圖片的無向圖進(jìn)行圖匹配，進(jìn)而得到所述測(cè)試圖片與所有訓(xùn)練圖片之間的相似度核矩陣；以及步驟S5:將每個(gè)所述不同尺度下分別得到的相似度核矩陣進(jìn)行多核融合，將融合后的核作為所述SVM分類器的輸入，用所述SVM分類器得到最終的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的場(chǎng)景字符識(shí)別方法，其中，所述不同尺度的網(wǎng)格劃分包括將圖片均勻劃分為f 3、1(Τ8、54或K6的網(wǎng)格。
3.根據(jù)權(quán)利要求1所述的場(chǎng)景字符識(shí)別方法，其中，所述圖匹配表示任意兩幅圖片中的一個(gè)無向圖G匹配另一個(gè)無向圖G’的同時(shí)，保持圖的鄰域的空間一致性約束。
4.根據(jù)權(quán)利要求3所述的場(chǎng)景字符識(shí)別方法，其中，進(jìn)行所述圖匹配包括最大化所述圖匹配的能量函數(shù)，具體如下: 假定圖G中的某個(gè)節(jié)點(diǎn)η，在圖G’中找到其匹配節(jié)點(diǎn)η’，其中將節(jié)點(diǎn)η的匹配節(jié)點(diǎn)η’的位置記為,則找到節(jié)點(diǎn)η的最好匹配節(jié)點(diǎn)等同于最大化(Max)如下的能量函數(shù):
5.根據(jù)權(quán)利要求4所述的場(chǎng)景字符識(shí)別方法，進(jìn)一步包括，分別計(jì)算出從G匹配到G’的最大化能量，以及從圖G’匹配到G的最大化能量，通過以下公式來定義這兩個(gè)圖片之間的相似度值:
6.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法，其中，步驟S3中的所述多核融合采用平均核的方法；其中，所述平均核的方法包括，給定每個(gè)尺度下的核矩陣，最終的核矩陣表示為各個(gè)尺度下核矩陣的對(duì)應(yīng)元素求平均值，具體定義如下:
7.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法，其中，訓(xùn)練所述SVM分類器包括用SVM工具包LibSVM進(jìn)行訓(xùn)練。
8.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法，步驟S4還包括將所述測(cè)試圖片的無向圖與所有訓(xùn)練圖片的無向圖兩兩之間進(jìn)行圖匹配，將所述圖匹配的能量值作為兩幅圖片之間的相似度，進(jìn)而得到所述測(cè)試圖片和所有訓(xùn)練圖片之間的相似度核矩陣。
9.根據(jù)權(quán)利要求1所述的所述的場(chǎng)景字符識(shí)別方法，其中，步驟S5中的所述多核融合包括采用平均核的方法進(jìn)行融合。
【文檔編號(hào)】G06K9/68GK103544504SQ201310576213
【公開日】2014年1月29日申請(qǐng)日期:2013年11月18日優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】不公告發(fā)明人申請(qǐng)人:康江科技(北京)有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：不公告發(fā)明人
技術(shù)所有人：康江科技(北京)有限責(zé)任公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多尺度圖匹配核的場(chǎng)景字符識(shí)別方法