專利名稱:自由手寫數(shù)字串分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種自由手寫數(shù)字分割的方法,具體是一種分割試巻巻面中自由手寫數(shù) 字的方法。
背景技術(shù):
字符識(shí)別技術(shù)的應(yīng)用十分的廣泛,當(dāng)前研究的熱點(diǎn)涉及退化嚴(yán)重的文字、多字體文字和 手寫體的識(shí)別以及進(jìn)一步提高識(shí)別率的新方法研究。手寫體數(shù)字識(shí)別是手寫體識(shí)別的重要領(lǐng) 域,對(duì)其研究的主要表現(xiàn)為提高抗干擾性,即提高粘連數(shù)字的識(shí)別率。
目前,對(duì)粘連數(shù)字識(shí)別不準(zhǔn)確是產(chǎn)生識(shí)別錯(cuò)誤的主要原因之一,分割粘連數(shù)字稱為提高 識(shí)別率的關(guān)鍵技術(shù)。為了解決這個(gè)問題,國(guó)內(nèi)外已經(jīng)開展了多年的研究,提出了很多實(shí)現(xiàn)方 法。但是,這些方法對(duì)具體的應(yīng)用缺乏針對(duì)性,同時(shí)由于對(duì)粘連數(shù)字個(gè)數(shù)和粘連類型都沒有 進(jìn)行判斷,造成了分割的盲目性,且容易受到噪聲的干擾,在實(shí)際應(yīng)用中的分割效果缺乏保 證。
針對(duì)試巻巻面手寫數(shù)字識(shí)別的具體要求,為了很好的解決手寫數(shù)字串分割的問題,提高 識(shí)別率。本發(fā)明提出了新穎的模型來(lái)實(shí)現(xiàn)數(shù)字的分割,該方法通過(guò)總結(jié)手寫數(shù)字串中字符之 間的連接的特征,對(duì)不同粘連類型的數(shù)字進(jìn)行有針對(duì)性的分割。這個(gè)方法與實(shí)際應(yīng)用情況密 切結(jié)合,且易于實(shí)現(xiàn),能夠?qū)ψ杂墒謱憯?shù)字串進(jìn)行準(zhǔn)確、高效的分割,并能滿足實(shí)際運(yùn)用的 要求。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種易于實(shí)現(xiàn),準(zhǔn)確高效的自由手寫數(shù)字 串分割方法。
為了達(dá)到上述目的,本發(fā)明的構(gòu)思是
實(shí)際情況應(yīng)用應(yīng)用中,出現(xiàn)粘連的區(qū)域和粘連區(qū)域的數(shù)字個(gè)數(shù)均是未知的,因此,首先 提取出粘連的區(qū)域,然后估計(jì)出粘連區(qū)域數(shù)字的個(gè)數(shù),同時(shí)檢測(cè)出粘連數(shù)字間的粘連點(diǎn),根 據(jù)這些粘連點(diǎn)確定數(shù)字之間的粘連類型,最后根據(jù)不同的粘連類型進(jìn)行分割。 根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明是采用以下技術(shù)方案來(lái)實(shí)現(xiàn)的
一種自由手寫數(shù)字串分割方法,其特鉦在于通過(guò)攝像頭獲取實(shí)時(shí)試巻巻面圖像,經(jīng)過(guò)預(yù)處 理后,提取出試巻巻面中手寫數(shù)字圖像。對(duì)提取出的手寫體數(shù)字圖像,利用投影法快速的提 取出了數(shù)字串中的粘連區(qū)域,然后利用句法結(jié)構(gòu)來(lái)估計(jì)出粘連區(qū)域中的粘連數(shù)字個(gè)數(shù),同時(shí) 檢測(cè)出粘連點(diǎn),根據(jù)粘連點(diǎn)之間的關(guān)系來(lái)確定粘連數(shù)字的粘連類型,最后根據(jù)不同的粘連類
3型實(shí)現(xiàn)數(shù)字的分割;其具體操作步驟如下
(1) 粘連區(qū)域提取
① 輸入樣本將試巻巻面圖象由攝像頭和圖象釆集卡經(jīng)模數(shù)轉(zhuǎn)換后輸入計(jì)算機(jī)。
② 預(yù)處理計(jì)算機(jī)對(duì)得到的實(shí)時(shí)試巻圖象進(jìn)行灰度化、二值化、平滑去噪、傾斜校正、 骨架細(xì)化,數(shù)字區(qū)域提取等處理。
③ 垂直投影對(duì)提取出的手寫數(shù)字進(jìn)行垂直投影。
④ 粘連區(qū)域提取對(duì)投影的結(jié)果進(jìn)行在水平方向上進(jìn)行分析,得到粘連區(qū)域,從而分割
出粘連區(qū)域。
(2) 粘連數(shù)字個(gè)數(shù)估計(jì)
① 數(shù)字邊緣輪廓提取提取出粘連區(qū)域數(shù)字的上邊緣和下邊緣的輪廓波形;
② 數(shù)字個(gè)數(shù)估計(jì)對(duì)數(shù)字邊緣輪廓波形的下邊緣波形利用句法結(jié)構(gòu)方法進(jìn)行分析,估
計(jì)出數(shù)字的個(gè)數(shù),同時(shí)記錄粘連數(shù)字的粘連點(diǎn)。
(3) 粘連類型的判斷
① 確定粘連點(diǎn)的位置關(guān)系根據(jù)記錄的粘連點(diǎn)的坐標(biāo)來(lái)確定粘連數(shù)字的位置關(guān)系。
② 粘連數(shù)字的粘連類型根據(jù)得到的粘連點(diǎn)之間的位置關(guān)系來(lái)確定粘連數(shù)字之間的粘
連類型。
(4) 數(shù)字分割
根據(jù)粘連點(diǎn)的位置以及粘連類型,找出適當(dāng)?shù)姆指盥窂?,?shí)現(xiàn)數(shù)字的分割。 以下對(duì)本發(fā)明的方法作進(jìn)一步的說(shuō)明-所述的試巻巻面圖象,是利用攝像頭實(shí)時(shí)采集的,因此圖象受到噪聲和外界因素的影響, 在進(jìn)行數(shù)字分割前, 一般來(lái)說(shuō)要對(duì)圖象進(jìn)行預(yù)處理。對(duì)試巻巻面圖象的預(yù)處理包括以下過(guò)程 灰度化、二值化、平滑去噪、傾斜校正、骨架細(xì)化,數(shù)字區(qū)域提取。由于本方法要對(duì)數(shù)字進(jìn) 行垂直投影,因此傾斜校正是很必要的,在本方法中采用Hoiigh變換法對(duì)圖像進(jìn)行了傾斜校 正。這樣保證了投影的準(zhǔn)確性,為粘連區(qū)域的提取打下了良好的基礎(chǔ)。
所述的數(shù)字邊緣輪廓提取,是對(duì)粘連數(shù)字邊緣進(jìn)行分析,得到數(shù)字邊緣的波形,同時(shí)對(duì)得到 的數(shù)字邊緣輪廓,記錄上邊緣輪廓的最低點(diǎn)和下邊緣輪廓的最高點(diǎn)。由于粘連的數(shù)字具有連 通性,通過(guò)統(tǒng)計(jì)數(shù)字邊緣波形的凸凹變化就行估計(jì)出粘連區(qū)域數(shù)字的個(gè)數(shù)。所述的句法結(jié)構(gòu)方法,對(duì)數(shù)字邊緣輪廓的凸凹變化,運(yùn)用句法結(jié)構(gòu)識(shí)別算法來(lái)分析數(shù)字 下邊緣輪廓波形,從而得到粘連數(shù)字的個(gè)數(shù)。本發(fā)明中用來(lái)描述波形變化的語(yǔ)法定義為
假設(shè)w為波形的鏈表達(dá),其中w= [wi,w2,w3,……,wn], Wie {r,d,0},l^i^n。 r表示上升段, d表示下降段,0表示平滑段。為了識(shí)別波峰,我們建立狀態(tài)機(jī)
G=[Vn, Vt,S, P, S]
其中Vn和Vt是互不相交的字符集,Vn中的元素稱為非終結(jié)符,Vn=[S,l,-l], S表示初始
狀態(tài),l表示凸點(diǎn),一1表示凹點(diǎn)。Vt中的元素為終結(jié)符,Vt=[r,d,0]。 S為語(yǔ)法公理,即初始 符號(hào)。集合P是一個(gè)非空的有限集合,PevW,元素P稱為替代規(guī)則。V、所有由終結(jié)符 和非終結(jié)符組成的詞語(yǔ)構(gòu)成的集合,包括空語(yǔ)句。
按照句法結(jié)構(gòu)對(duì)波形進(jìn)行分析是按照下述映射關(guān)系
S(S,r)=l,S(S,d)=-l,S(S,0)=s S(r,r)=l,S(r,d)=l,5(r,0)=l 5(d,r)= 1, S(d,d)=-1, S(d,O"-l 利用狀態(tài)機(jī)G可以很容易的將波形的波峰、波谷識(shí)別出來(lái),當(dāng)1->-1是波峰,-1->1是波谷。
所述的粘連類型,通過(guò)對(duì)數(shù)字輪廓波形的分析,估計(jì)出粘連數(shù)字個(gè)數(shù)的同時(shí),還能夠得 到粘連數(shù)字的粘連點(diǎn)。由于對(duì)粘連數(shù)字的粘連類型不確定,很難構(gòu)造出最優(yōu)的分割路徑,因 此對(duì)粘連點(diǎn)類型的判別勢(shì)在必行。相鄰粘連點(diǎn)之間不同的位置關(guān)系組成了不同的粘連類型,
那么把粘連類型定義為
(1) 單點(diǎn)粘連
如果數(shù)字串有兩個(gè)有相同縱坐標(biāo)的粘連點(diǎn),那么可能是單點(diǎn)粘連。但是實(shí)際書寫過(guò)程中, 兩個(gè)粘連點(diǎn)的縱坐標(biāo)或多或少都有些偏差,可以用下式計(jì)算
X,(Xr-X,)/L................................ (1)
Ox=L/(X_-Xmin)--------------------------------(2)
L是兩個(gè)粘連點(diǎn)的之間的距離,Xr和^分別是相鄰兩個(gè)粘連點(diǎn)的橫坐標(biāo),X一X,。 Xmax 和Xmin分別為粘連點(diǎn)連線橫坐標(biāo)的最大值和最小值。
單點(diǎn)粘連滿足如下條件(l)0.5<Xrl5l ; (2)0.2<Ox<0.7;
(2) 單線段粘連
如果兩個(gè)粘連點(diǎn)具有相同的X坐標(biāo),那么可能是單線段粘連。用下式定義
5ky^)/l.........................................(3)
^\,= |>(0邵)................................(4)
其中l(wèi)為兩粘連點(diǎn)之間的距離,yr和y,分別為相鄰兩個(gè)粘連點(diǎn)的縱坐標(biāo);
^(0 二"[10^((^,255 , f(i)為粘連點(diǎn)之間的灰度值。
單線段粘連滿足如下條件(1)0.65<Y"1; (2) Frf>4;
(3)多重粘連
多重粘連有多重不同的形式,很難進(jìn)行準(zhǔn)確的描述,如果粘連點(diǎn)之間的關(guān)系不滿足上述 兩種類型就可能是多重粘連類型。
f"2%.........................................(5)
其中l(wèi)為兩粘連點(diǎn)之間的距離,h是兩粘連點(diǎn)之間的高度差。 本發(fā)明與現(xiàn)有的技術(shù)相比較,具有如下顯而易見的突出實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)
(1) 針對(duì)試巻中手寫數(shù)字的特點(diǎn),對(duì)手寫數(shù)字串的特征進(jìn)行了有針對(duì)性的分析,應(yīng)用具 有更具針對(duì)性,效率更高。
(2) 對(duì)粘連區(qū)域的提取和對(duì)粘連區(qū)域數(shù)字的估計(jì),大大增強(qiáng)了實(shí)用性,同時(shí)減少了分割 時(shí)的盲目性。
(3) 根據(jù)不同的粘連類型進(jìn)行分割,使得切分路徑更合理。
圖1為本發(fā)明方法的操作程序框圖。
圖2為輸入試巻巻面圖像樣本圖。
圖3為粘連區(qū)域的提取圖。
圖4為數(shù)字輪廓圖。
圖5為粘連數(shù)字個(gè)數(shù)估計(jì)圖。
圖6為粘連點(diǎn)圖。
圖7為粘連類型圖。
圖8為分割效果圖。
具體實(shí)踐方式 實(shí)施例
為了更好的理解本發(fā)明的技術(shù)方案,結(jié)合附圖中的圖表就具體實(shí)施進(jìn)行進(jìn)一步詳細(xì)描述如下
參見圖l,本自由手寫數(shù)字串分割方法的具體操作步驟如下
(1) 粘連區(qū)域提取
① 輸入樣本通過(guò)攝像頭獲得試巻巻面實(shí)時(shí)圖象,如圖2所示。
② 預(yù)處理在預(yù)處理階段,對(duì)輸入的樣本圖象進(jìn)行灰度化、二值化、平滑去噪、傾斜
校正、骨架細(xì)化,最后提取出圖像中的手寫數(shù)字。提取出的數(shù)字可能是多為數(shù)不存在粘連(如 圖3 (a)所示),也可能存在粘連(如圖3 (f)所示),為了達(dá)到識(shí)別的目的,都要進(jìn)行分割。
③ 垂直投影對(duì)手寫數(shù)字串在垂直方向上投影,得到的結(jié)果如圖3 (b) (g)所示。但是
由于在書寫的過(guò)程中由于書寫筆跡過(guò)粗,使得投影出現(xiàn)重疊,在提取粘連區(qū)域的時(shí)候出現(xiàn)偏 差,因此,本發(fā)明的方法對(duì)數(shù)字圖像細(xì)化(如圖3 (d) (i)所示),對(duì)細(xì)化后的數(shù)字串進(jìn)行投
影,如圖3 (c) (h)所示。
④ 粘連區(qū)域提取
對(duì)垂直投影圖沿水平方向進(jìn)行分析,當(dāng)在水平方向上一定寬度內(nèi)沒有黑像素點(diǎn),那么認(rèn)為
該區(qū)域即為數(shù)字之間的空隙,取該空隙的空間點(diǎn),便可提取出粘連區(qū)域,如圖3 (e) (j)所示。
(2) 粘連數(shù)字個(gè)數(shù)估計(jì)
數(shù)字邊緣輪廓提取本發(fā)明中,運(yùn)用輪廓分析的方法得到數(shù)字的上邊緣和下邊緣
輪廓,得到上邊緣輪廓的最低點(diǎn)P,和下邊緣輪廓的最高點(diǎn)Ph,如圖4所示。
②數(shù)字個(gè)數(shù)估計(jì)由于粘連數(shù)字具有連通性,運(yùn)用這個(gè)特征對(duì)數(shù)字輪廓進(jìn)行分析,
可以得到粘連數(shù)字的個(gè)數(shù),如圖5所示。同時(shí)可以檢測(cè)出粘連點(diǎn)的準(zhǔn)確位置,如圖5所示。
(3) 粘連類型的判斷
① 確定粘連點(diǎn)的位置關(guān)系對(duì)得到的粘連點(diǎn)的位置坐標(biāo),確定粘連點(diǎn)的位置關(guān)系。
② 粘連數(shù)字的粘連類型根據(jù)上述位置關(guān)系,運(yùn)用上述粘連類型的定義,可以得到
粘連類型,如單點(diǎn)粘連(如圖7 (a)所示)、單線段粘連(如圖7 (b)所示)和多重粘連 (如圖7 (c) (d)所示)。
(4) 數(shù)字分割的步驟根據(jù)上述得到的粘連類型和粘連點(diǎn)的位置,找出最佳的分割路
徑,對(duì)手寫數(shù)字串進(jìn)行分割,分割的效果如圖8所示a
權(quán)利要求
1. 自由手寫數(shù)字串分割方法,其特征在于通過(guò)攝像頭獲取實(shí)時(shí)試卷卷面圖像,經(jīng)過(guò)預(yù)處理后,提取出試卷卷面中手寫數(shù)字圖像;對(duì)提取出的手寫體數(shù)字圖像,利用投影法快速的提取出了數(shù)字串中的粘連區(qū)域,然后利用句法結(jié)構(gòu)來(lái)估計(jì)出粘連區(qū)域中的粘連數(shù)字個(gè)數(shù),同時(shí)檢測(cè)出粘連點(diǎn),根據(jù)粘連點(diǎn)之間的關(guān)系來(lái)確定粘連數(shù)字的粘連類型,最后根據(jù)不同的粘連類型實(shí)現(xiàn)數(shù)字的分割;其具體操作步驟如下(1)粘連區(qū)域提?、佥斎霕颖緦⒃嚲砭砻鎴D象由攝像頭和圖象采集卡經(jīng)模數(shù)轉(zhuǎn)換后輸入計(jì)算機(jī);②預(yù)處理計(jì)算機(jī)對(duì)得到的實(shí)時(shí)試卷圖象進(jìn)行灰度化、二值化、平滑去噪、傾斜校正、骨架細(xì)化、數(shù)字區(qū)域提??;③垂直投影對(duì)提取出的手寫數(shù)字進(jìn)行垂直投影;④粘連區(qū)域提取對(duì)投影的結(jié)果進(jìn)行在水平方向上進(jìn)行分析,得到粘連區(qū)域,從而分割出粘連區(qū)域;(2)粘連數(shù)字個(gè)數(shù)估計(jì)①數(shù)字邊緣輪廓提取提取出粘連區(qū)域數(shù)字的上邊緣和下邊緣的輪廓波形;②數(shù)字個(gè)數(shù)估計(jì)對(duì)數(shù)字邊緣輪廓波形的下邊緣波形利用句法結(jié)構(gòu)方法進(jìn)行分析,估計(jì)出數(shù)字的個(gè)數(shù),同時(shí)記錄粘連數(shù)字的粘連點(diǎn);(3)粘連類型的判斷①確定粘連點(diǎn)的位置關(guān)系根據(jù)記錄的粘連點(diǎn)的坐標(biāo)來(lái)確定粘連數(shù)字的位置關(guān)系;②粘連數(shù)字的粘連類型根據(jù)得到的粘連點(diǎn)之間的位置關(guān)系來(lái)確定粘連數(shù)字之間的粘連類型;(4)數(shù)字分割根據(jù)粘連點(diǎn)的位置以及粘連類型,找出最佳的分割路徑,實(shí)現(xiàn)數(shù)字的分割。
全文摘要
本發(fā)明涉及一種自由手寫數(shù)字串分割方法。本方法的操作步驟包括(1)粘連數(shù)字區(qū)域的提取,(2)粘連區(qū)域數(shù)字個(gè)數(shù)估計(jì),(3)粘連類型判斷,(4)數(shù)字分割。所述的方法通過(guò)總結(jié)手寫數(shù)字串?dāng)?shù)字間的連接關(guān)系,首先提取出了粘連區(qū)域,并對(duì)粘連區(qū)域的數(shù)字個(gè)數(shù)進(jìn)行了估計(jì),判斷出粘連類型,然后再進(jìn)行分割,這樣大大減少了分割的盲目性。與現(xiàn)有的方法相比,本發(fā)明的方法與實(shí)際應(yīng)用情況密切結(jié)合,且易于實(shí)現(xiàn),能夠?qū)ψ杂墒謱憯?shù)字串進(jìn)行準(zhǔn)確、高效的分割,并能滿足實(shí)際運(yùn)用的要求。
文檔編號(hào)G06K9/00GK101458768SQ20091004483
公開日2009年6月17日 申請(qǐng)日期2009年1月4日 優(yōu)先權(quán)日2009年1月4日
發(fā)明者馮運(yùn)亮, 孫峰杰, 羅珍茜, 雷 薛 申請(qǐng)人:上海大學(xué)