基于ocr的國(guó)際音標(biāo)切分方法

文檔序號(hào)：6519200閱讀：1127來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于ocr的國(guó)際音標(biāo)切分方法
【專利摘要】本發(fā)明基于OCR的國(guó)際音標(biāo)切分方法，涉及圖像切分【技術(shù)領(lǐng)域】。本發(fā)明首先對(duì)每一副圖像進(jìn)行二值化處理，目標(biāo)為0，背景為1，然后用垂直投影算法進(jìn)行第一次粗切分，得到N個(gè)圖像區(qū)域。計(jì)算每個(gè)圖像區(qū)域的寬度W，設(shè)定閾值T，對(duì)于W>T的圖像區(qū)域進(jìn)行進(jìn)一步處理，接著對(duì)圖像區(qū)域進(jìn)行列求和，計(jì)算出最大值的所有位置，然后分別和待處理圖像區(qū)域的中心位置進(jìn)行比較，距離最小的即為二次切分的位置，最后進(jìn)行再次切分，即可正確切分。利用本發(fā)明，能正確切分國(guó)際音標(biāo)圖像，簡(jiǎn)單而高效，該方法為國(guó)際音標(biāo)OCR的研究奠定了基礎(chǔ)。
【專利說(shuō)明】基于OCR的國(guó)際音標(biāo)切分方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像切分【技術(shù)領(lǐng)域】，具體指一種基于OCR的國(guó)際音標(biāo)切分方法。
【背景技術(shù)】
[0002]隨著國(guó)際化的發(fā)展，各個(gè)國(guó)家之間的交流越來(lái)越密切，為了更好的溝通，需要一種統(tǒng)一的語(yǔ)音系統(tǒng)，國(guó)際音標(biāo)就是記錄所有語(yǔ)音的統(tǒng)一音標(biāo)。國(guó)際音標(biāo)的產(chǎn)生是世界優(yōu)秀文化的結(jié)晶，閃爍著世界人民智慧的光芒。
[0003]然而，如何把文獻(xiàn)中國(guó)際音標(biāo)進(jìn)行數(shù)字化存儲(chǔ)是一個(gè)非常龐大的工程，基本上不可能實(shí)現(xiàn)。對(duì)這些文獻(xiàn)進(jìn)行數(shù)字化最常見(jiàn)的手段是先對(duì)文獻(xiàn)進(jìn)行掃描，再使用OCR技術(shù)對(duì)所得到的數(shù)字圖片進(jìn)行OCR識(shí)別以得到相應(yīng)的電子文檔。目前，不管是英語(yǔ)還是漢語(yǔ)的OCR識(shí)別軟件，其技術(shù)已經(jīng)相當(dāng)成熟，識(shí)別率能達(dá)到97%以上，市場(chǎng)上也有許多商用軟件，而國(guó)際音標(biāo)只在特定專業(yè)上才有應(yīng)用，它的OCR商用價(jià)值有限，因此在方面的研究一直處于空白。但國(guó)際音標(biāo)OCR的學(xué)術(shù)價(jià)值卻遠(yuǎn)高于其商業(yè)價(jià)值，幾乎所有語(yǔ)言學(xué)文獻(xiàn)都使用國(guó)際音際進(jìn)行語(yǔ)音轉(zhuǎn)寫。只有國(guó)際音標(biāo)的OCR技術(shù)實(shí)現(xiàn)突破，海量語(yǔ)言學(xué)專業(yè)文獻(xiàn)資源的數(shù)字化工作才成為可能。由于國(guó)際音標(biāo)字體的特殊性，跟英語(yǔ)字符有一定差異，往往出現(xiàn)字符間的粘連，而且國(guó)際音標(biāo)中含有大量的音節(jié)，這是英語(yǔ)字符沒(méi)有的，這使得英語(yǔ)OCR識(shí)別系統(tǒng)對(duì)國(guó)際音標(biāo)無(wú)法正確切分和識(shí)別。
[0004]現(xiàn)有技術(shù)方案中，大多數(shù)采用紋理特征以及排版特點(diǎn)進(jìn)行特征分析。通過(guò)紋理提取的特征，其過(guò)程復(fù)雜，需要對(duì)整塊文字區(qū)域進(jìn)行處理，并且移除文字間空白區(qū)域作為特征提取的預(yù)處理操作，進(jìn)而使用Gabor濾波器、小波變換或其他技術(shù)進(jìn)行特征提取，過(guò)程較繁瑣。通過(guò)排版特點(diǎn)提取的特征，雖然可以代表字體的特性，但是對(duì)抗噪聲性能不高，并需要在非常高的掃描分辨率下獲取字體圖像，因此可移植性差，不能很好的應(yīng)用在國(guó)際音標(biāo)字體識(shí)別中。近年來(lái)，也有一些其他的字體特征提取的方法，但是沒(méi)有針對(duì)國(guó)際音標(biāo)字體識(shí)別的具體方法，識(shí)別過(guò)程耗時(shí)長(zhǎng)，提取的特征很復(fù)雜，識(shí)別率低，而且只是針對(duì)個(gè)別語(yǔ)種進(jìn)行識(shí)別，通用性不高。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的主要目的是解決現(xiàn)有技術(shù)存在的缺失和不足，提出一種基于OCR的國(guó)際音標(biāo)切分方法，本方法包括:
[0006]1.首先對(duì)國(guó)際音標(biāo)圖像進(jìn)行預(yù)處理，對(duì)每一副國(guó)際音標(biāo)圖像，用最大類間方差法進(jìn)行二值化處理，其中目標(biāo)為0，背景為I。
[0007]2.國(guó)際音標(biāo)圖像進(jìn)行粗切分，對(duì)國(guó)際音標(biāo)圖像進(jìn)行列操作求和，記錄切分的空白邊界位置。
[0008]3.對(duì)粗切分后的圖像區(qū)域進(jìn)行判斷是否含有不止一個(gè)字符，根據(jù)計(jì)算出的圖像區(qū)域和國(guó)際音標(biāo)的平均寬度最大寬度作比較，判斷是否含有不止一個(gè)字符。
[0009]4.對(duì)含有多個(gè)字符的圖像區(qū)域進(jìn)行切分，找出需要進(jìn)一步出的圖像區(qū)域，再次進(jìn)行列操作，找出最佳切分位置，進(jìn)行再次切分。
[0010]本發(fā)明專利申請(qǐng)，采用基于OCR的國(guó)際音標(biāo)切分方法，簡(jiǎn)單而高效，能正確切分國(guó)際音標(biāo)圖像，對(duì)國(guó)際音標(biāo)OCR的研究起到了重要的作用。
【專利附圖】

【附圖說(shuō)明】
[0011]圖1基于OCR的國(guó)際音標(biāo)切分方法流程框圖；
[0012]圖2本發(fā)明實(shí)施例中通過(guò)閾值化區(qū)分的國(guó)際音標(biāo)圖像；
[0013]圖3本發(fā)明實(shí)施實(shí)施例中粗切分后得到的圖像；
[0014]圖4本發(fā)明實(shí)施實(shí)施例中未能正確切分的圖像區(qū)域；
[0015]圖5本發(fā)明實(shí)例中對(duì)進(jìn)一步處理切分后的圖像。
【具體實(shí)施方式】
[0016]以下結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步描述
[0017]本發(fā)明的實(shí)驗(yàn)測(cè)試是在CPU為Intel (R) Core (TM) 3.40GHz的電腦上完成，Matlab的版本為 MatlabR2011b。
[0018]下面按附圖1的流程框圖詳細(xì)給出本發(fā)明技術(shù)方案中所涉及的各個(gè)步驟的細(xì)節(jié)作出說(shuō)明:
[0019]步驟1:國(guó)際音標(biāo)圖像進(jìn)行預(yù)處理的步驟包括:
[0020]2.1對(duì)于國(guó)際音標(biāo)圖像，用最大類間方差法(大津法)求出最佳閾值，設(shè)該閾值為U，
[0021]如式:
[0022]u = graythresh (I)(1)
[0023]其中，graythresh函數(shù)自動(dòng)獲得一個(gè)合適的閾值。
[0024]2.2把小于u的像素點(diǎn)的像素值賦為1，大于u的像素值賦為0，得到二值化圖像，其中目標(biāo)為0，背景為1，
[0025]如式:
[0026]if (I > u), I = 0; else, I = 1.(2)
[0027]步驟2:國(guó)際音標(biāo)圖像的粗切分的步驟包括:
[0028]2.1對(duì)國(guó)際音標(biāo)圖像進(jìn)行列操作求和，
[0029]如式:
[0030](y, x) = size (I)(3)
[0031]
【權(quán)利要求】
1.一種基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，包括以下步驟:A.對(duì)國(guó)際音標(biāo)圖像進(jìn)行預(yù)處理；B.對(duì)國(guó)際音標(biāo)圖像進(jìn)行粗切分；C.對(duì)粗切分后的圖像區(qū)域進(jìn)行判斷；D.對(duì)含有不止一個(gè)字符的圖像區(qū)域進(jìn)行切分。
2.如權(quán)利要求1所述的基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，所述A.對(duì)國(guó)際音標(biāo)圖像進(jìn)行預(yù)處理，包括步驟: A.1對(duì)每個(gè)國(guó)際音標(biāo)圖像，用最大類間方差法計(jì)算出該圖像的閾值u ; A.2把小于u的像素點(diǎn)的像素值賦為1，大于u的像素值賦為0，得到二值化圖像，其中目標(biāo)為0，背景為I。
3.如權(quán)利要求1所述的基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，所述B.對(duì)國(guó)際音標(biāo)圖像進(jìn)行粗切分，包括步驟: B.1對(duì)國(guó)際音標(biāo)圖像進(jìn)行列操作求和； B.2找出空白邊界進(jìn)行粗切分； B.3保存切分后的所有圖像區(qū)域，包含記錄切分的空白邊界位置。
4.如權(quán)利要求1所述的基于OCR的國(guó)際音標(biāo)切分算法，其特征在于，所述C.對(duì)粗切分后的圖像區(qū)域進(jìn)行判斷，包括步驟: C.1通過(guò)至少20次測(cè)試數(shù)據(jù)統(tǒng)計(jì)出國(guó)際音標(biāo)圖像的平均寬度和最大寬度； C.2通過(guò)步驟B，找出粗切分后所有圖像區(qū)域，計(jì)算出每個(gè)圖像區(qū)域的寬度； C.3用計(jì)算出的圖像區(qū)域和國(guó)際音標(biāo)圖像的平均寬度，與最大寬度作比較，根據(jù)比較結(jié)果判斷該圖像區(qū)域是否含有不止一個(gè)字符，如果沒(méi)有的話，則被正確的切分開(kāi)； C.4如果含有不止一個(gè)字符，則對(duì)該圖像區(qū)域進(jìn)一步處理。
5.如權(quán)利要求1所述的基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，所述D.對(duì)含有不止一個(gè)字符的圖像區(qū)域進(jìn)行切分，包括步驟: D.1找出步驟C.4中需要進(jìn)一步處理圖像區(qū)域； D.2對(duì)每個(gè)圖像區(qū)域進(jìn)行列操作求和，找出其中的最大值以及該最大值的所有位置； D.3把最大值的所有位置分別和圖像區(qū)域的中心位置進(jìn)行比較，距離最小的即為二次切分的位置； D.4進(jìn)行再次切分。
6.如權(quán)利要求1、2所述的基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，所述A.對(duì)國(guó)際音標(biāo)圖像進(jìn)行預(yù)處理的步驟還包括: A.1.1對(duì)每個(gè)國(guó)際音標(biāo)圖像，用最大類間方差法計(jì)算出該圖像的閾值U，如式: u = graythresh (I)(I) 其中，graythresh函數(shù)自動(dòng)獲得一個(gè)確定的閾值； A.1.2把小于u的像素點(diǎn)的像素值賦為1，大于u的像素值賦為0，得到二值化圖像，其中目標(biāo)為0，背景為1，如式:
if (I > u)，I = 0; else, I = 1.(2)
7.如權(quán)利要求1、3所述的基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，所述B.國(guó)際音標(biāo)圖像進(jìn)行粗切分步驟的步驟還包括:B.1.1對(duì)國(guó)際音標(biāo)圖像進(jìn)行列操作求和，如式:
8.如權(quán)利要求1、4所述的基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，所述C.對(duì)粗切分后的圖像區(qū)域進(jìn)行判斷的步驟還包括: C.1.1通過(guò)至少20次測(cè)試國(guó)際音標(biāo)圖像，找出平均國(guó)際音標(biāo)圖像寬度和最大寬度，如式:
9.如權(quán)利要求1、5所述的基于OCR的國(guó)際音標(biāo)切分方法，其特征在于，所述D.對(duì)含有不止一個(gè)字符的圖像區(qū)域進(jìn)行切分的步驟還包括: D.1.1對(duì)進(jìn)一步切分的圖像區(qū)域進(jìn)行列操作求和； D.1.2計(jì)算出列操作后的最大值以及最大值的所有位置，如式: value_max = max(GX(I, vxl:vx2))(9) [windex-max] = find (GX == value_max) (10) 其中:vxl和vx2為圖像區(qū)域的兩個(gè)端點(diǎn)的切分位置，index_max為列操作求和后最大值的所有位置，value_max為列求和后最大值，find函數(shù)用于返回所需要元素的所在位置； D.1.3計(jì)算出圖像區(qū)域的中心位置，如式: index_med = round ((vx2+cxl)/2) (11) 其中，indexjned為圖像區(qū)域的中心位置，round函數(shù)對(duì)元素值進(jìn)行四舍五入處理； D.1.4把最大值的所有位置分別和圖像區(qū)域的中心位置進(jìn)行比較，距離最小的即為二次切分的位置，然后進(jìn)行切分，如式:f= abs (index—med-1ndex—max)(12)[a, index_cut] = min(f) (13)其中，index—cut為距離圖像區(qū)域中心處最近位置，abs函數(shù):取絕對(duì)值。
【文檔編號(hào)】G06K9/34GK103593665SQ201310574019
【公開(kāi)日】2014年2月19日申請(qǐng)日期:2013年11月15日優(yōu)先權(quán)日:2013年11月15日
【發(fā)明者】黃繼風(fēng), 邱立松, 陳潔, 潘曉聲申請(qǐng)人:上海師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃繼風(fēng);邱立松;陳潔;潘曉聲
技術(shù)所有人：上海師范大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

國(guó)際音標(biāo)相關(guān)技術(shù)

國(guó)際音標(biāo)發(fā)音表相關(guān)技術(shù)

英語(yǔ)國(guó)際音標(biāo)相關(guān)技術(shù)

國(guó)際音標(biāo)表相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于ocr的國(guó)際音標(biāo)切分方法