專利名稱:一種印刷體漢字識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式識(shí)別技術(shù)領(lǐng)域,具體涉及ー種采用人工智能領(lǐng)域的新算法的印刷體漢字識(shí)別系統(tǒng)。
背景技術(shù):
自動(dòng)文摘的研究是自然語(yǔ)言處理的ー個(gè)重要領(lǐng)域。但是目前所有的自動(dòng)文摘模型均以文字的機(jī)內(nèi)表示為系統(tǒng)輸入,與實(shí)用化的目標(biāo)顯然還有相當(dāng)大的差距,因?yàn)榇罅康奈墨I(xiàn)資料仍是以傳統(tǒng)的紙面印刷形式存在的。為此,本文提出了ー個(gè)印刷體漢字識(shí)別的并行神經(jīng)網(wǎng)絡(luò)方法,并進(jìn)行了實(shí)驗(yàn)?zāi)M。在對(duì)2500個(gè)漢字的測(cè)試中,識(shí)別率97%,誤識(shí)率1%,拒識(shí)率2%。應(yīng)該指出,雖然我們的系統(tǒng)是就印刷體漢字而設(shè)計(jì)的,其基本實(shí)現(xiàn)原理和方法同樣適用于印刷體英文,以及手寫體數(shù)字、英文和漢字等符號(hào)的識(shí)別。 本系統(tǒng)進(jìn)行印刷體漢字識(shí)別的主要步驟是掃描儀輸入一模糊增強(qiáng)與聚類分割一圖象數(shù)據(jù)ニ值化一通過并行神經(jīng)網(wǎng)絡(luò)進(jìn)行漢字匹配。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種對(duì)輸入射頻數(shù)字信號(hào)輸出ー個(gè)至多個(gè)的精確中心頻點(diǎn)、帶寬控制,帶外信號(hào)抑制和信號(hào)増益功能的可調(diào)帶通濾波器系統(tǒng)。實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是ー種印刷體漢字識(shí)別系統(tǒng),采用人工智能領(lǐng)域的新算法,有效地提高了漢字識(shí)別的質(zhì)量,該系統(tǒng)包括掃描輸入,將印刷在紙面上的漢字經(jīng)光電轉(zhuǎn)換設(shè)備轉(zhuǎn)換成電信號(hào),形成多灰度級(jí)的數(shù)字信號(hào),輸入給計(jì)算機(jī)處理;模糊增強(qiáng)與聚類分割模塊,包括模糊增強(qiáng)與平滑、多灰度級(jí)最佳分割;圖象數(shù)據(jù)ニ值化模塊,圖象的平滑和增強(qiáng),以及多灰度級(jí)的聚類分割之后,這里采用整體閾值選擇法進(jìn)行ニ值化,先統(tǒng)計(jì)出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當(dāng)被分成的兩組間方差為最大時(shí),確定閾值;漢字識(shí)別模塊,本系統(tǒng)采用并行神經(jīng)網(wǎng)絡(luò)方法,通過控制網(wǎng)絡(luò)CN對(duì)樣本進(jìn)行粗分類,用識(shí)別網(wǎng)絡(luò)RN對(duì)各粗類進(jìn)行細(xì)分類,從而識(shí)別漢字。作為本發(fā)明的進(jìn)ー步改進(jìn),所述模糊增強(qiáng)與平滑模塊采用S.K.Pal等提出的模型,自輸入到輸出,兩次應(yīng)用模糊對(duì)比增強(qiáng)算子作模糊增強(qiáng)處理、其間一次平滑操作,為下一次增強(qiáng)作好準(zhǔn)備。作為本發(fā)明的進(jìn)ー步改進(jìn),所述聚類分割執(zhí)行下列步驟(I)規(guī)定樣本間距,取K,C,R(K〈S) 3值,取K個(gè)樣本為凝集點(diǎn);(2)計(jì)算這K個(gè)凝集點(diǎn)之兩兩間距,若最小距離〈C,則將相應(yīng)兩點(diǎn)合井,并將兩點(diǎn)的算木均值作為新的凝集點(diǎn);重復(fù)此步,直至全部間距> C為止;(3)在考察另(S-K)個(gè)樣本,每考察一個(gè),便算出它與所有凝集點(diǎn)之間距,若最小距離〉R,則該樣本又作為新凝集點(diǎn);若最小距離〈R便歸它于最近凝集點(diǎn)的類,接著重新計(jì)算這ー類之重心,并將此重心作為新凝集點(diǎn),若凝集點(diǎn)之間距〉C,便考察下一祥本;反之進(jìn)行步2,在凝集點(diǎn)合并之后,再考察下一祥本,直至歸類完畢;(4)再將全體樣本逐個(gè)考察一遍,按步3聚類,如果最終分類結(jié)果與原來(lái)相同,便不再計(jì)算重心;反之重新計(jì)算重心,若再考察一遍后,分類結(jié)果與原先相同,則聚類完畢;反之重復(fù)步4,直至與前分類結(jié)果完全相同;(5)以上聚類過程以分類數(shù)為3的狀態(tài)告終,從而可以產(chǎn)生分類數(shù)分別為Hi1,m2,...,me(me=3)的最好分割,再依公式(I)可分別求出相應(yīng)的目標(biāo)泛函
權(quán)利要求
1.一種印刷體漢字識(shí)別系統(tǒng),該系統(tǒng)包括 掃描輸入,將印刷在紙面上的漢字經(jīng)光電轉(zhuǎn)換設(shè)備轉(zhuǎn)換成電信號(hào),形成多灰度級(jí)的數(shù)字信號(hào),輸入給計(jì)算機(jī)處理; 模糊增強(qiáng)與聚類分割模塊,包括模糊增強(qiáng)與平滑、多灰度級(jí)最佳分割; 圖象數(shù)據(jù)二值化模塊,圖象的平滑和增強(qiáng)及多灰度級(jí)的聚類分割之后,采用整體閾值選擇法進(jìn)行二值化,先統(tǒng)計(jì)出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當(dāng)被分成的兩組間方差為最大時(shí),確定閾值; 漢字識(shí)別模塊,本系統(tǒng)采用并行神經(jīng)網(wǎng)絡(luò)方法,通過控制網(wǎng)絡(luò)CN對(duì)樣本進(jìn)行粗分類,用識(shí)別網(wǎng)絡(luò)RN對(duì)各粗類進(jìn)行細(xì)分類,從而識(shí)別漢字。
2.根據(jù)權(quán)利要求I所述的一種印刷體漢字識(shí)別系統(tǒng),其特征是,所述模糊增強(qiáng)與平滑模塊采用S. K. Pal等提出的模型,自輸入到輸出,兩次應(yīng)用模糊對(duì)比增強(qiáng)算子作模糊增強(qiáng)處理、其間一次平滑操作,為下一次增強(qiáng)作好準(zhǔn)備。
3.根據(jù)權(quán)利要求I所述的一種印刷體漢字識(shí)別系統(tǒng),其特征是,一幅圖象增強(qiáng)后的直方圖擁有S個(gè)亮度級(jí)Γι,r2,…,rs,其相應(yīng)的概率密度為P1, P2,…,Ps,本系統(tǒng)將目標(biāo)函數(shù)改與為
4.根據(jù)權(quán)利要求I或3所述的一種印刷體漢字識(shí)別系統(tǒng),其特征是,所述對(duì)S個(gè)亮度聚類分割執(zhí)行下列步驟 (1)規(guī)定樣本間距,取K,C,R(K〈S) 3值,取K個(gè)樣本為凝集點(diǎn); (2)計(jì)算這K個(gè)凝集點(diǎn)之兩兩間距,若最小距離〈C,則將相應(yīng)兩點(diǎn)合并,并將兩點(diǎn)的算術(shù)均值作為新的凝集點(diǎn);重復(fù)此步,直至全部間距> C為止; (3)在考察另(S-K)個(gè)樣本,每考察一個(gè),便算出它與所有凝集點(diǎn)之間距,若最小距離>R,則該樣本又作為新凝集點(diǎn);若最小距離〈R便歸它于最近凝集點(diǎn)的類,接著重新計(jì)算這一類之重心,并將此重心作為新凝集點(diǎn),若凝集點(diǎn)之間距>C,便考察下一樣本;反之進(jìn)行步.2,在凝集點(diǎn)合并之后,再考察下一樣本,直至歸類完畢; (4)再將全體樣本逐個(gè)考察一遍,按步3聚類,如果最終分類結(jié)果與原來(lái)相同,便不再計(jì)算重心;反之重新計(jì)算重心,若再考察一遍后,分類結(jié)果與原先相同,則聚類完畢;反之重復(fù)步4,直至與前分類結(jié)果完全相同; (5)以上聚類過程以分類數(shù)為3的狀態(tài)告終,從而可以產(chǎn)生分類數(shù)分別為Hl1,m2,…,me(me=3)的最好分割,再依公式(I)可分別求出相應(yīng)的目標(biāo)泛函
5.根據(jù)權(quán)利要求I所述的一種印刷體漢字識(shí)別系統(tǒng),其特征是,圖象數(shù)據(jù)二值化采用最大方差閾值設(shè)定法,首先統(tǒng)計(jì)出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當(dāng)被分成的兩組間方差為最大時(shí),確定閾值,執(zhí)行下列步驟 (1)統(tǒng)計(jì)圖象中總象素?cái)?shù)
6.根據(jù)權(quán)利要求I所述的一種印刷體漢字識(shí)別系統(tǒng),其特征是,漢字識(shí)別采用并行神經(jīng)網(wǎng)絡(luò)方法通過控制網(wǎng)絡(luò)CN對(duì)樣本進(jìn)行粗分類,用識(shí)別網(wǎng)絡(luò)RN對(duì)各粗類進(jìn)行細(xì)分類,從而識(shí)別漢字,CN和RN采用Hopfield網(wǎng)。
7.根據(jù)權(quán)利要求I或6所述的一種印刷體漢字識(shí)別系統(tǒng),其特征是,采用一種新的追加學(xué)習(xí)算法,通過模擬人類的識(shí)字過程,即先學(xué)習(xí)部分漢字,然后逐漸學(xué)習(xí)其余漢字,最終實(shí)現(xiàn)對(duì)所有漢字的學(xué)習(xí)。
8.根據(jù)權(quán)利要求I或7所述的一種印刷體漢字識(shí)別系統(tǒng),所述追加學(xué)習(xí)算法執(zhí)行下列步驟 (1)讓原有PNN識(shí)別V中的所有樣本,設(shè)正確識(shí)別的樣本集為V0; (2)對(duì)集合V-VO中的樣本進(jìn)行如下劃分VT為V-Vtl中在PNN已學(xué)漢字中的樣本子集;VF為V-Vtl中不在PNN已學(xué)漢字中的樣本子集; (3)對(duì)Vt中的各個(gè)樣本,如果其相應(yīng)的識(shí)別網(wǎng)絡(luò)PNi能對(duì)之進(jìn)行正確識(shí)別,則無(wú)須再對(duì)RNi進(jìn)行訓(xùn)練,否則將這些樣本增加到RNi原有樣本集中,重新訓(xùn)練RNi ; (4)對(duì)Vf中的所有樣本,訓(xùn)練新的識(shí)別網(wǎng)絡(luò)RN’,RN’,…,RN’,設(shè)其所劃分的漢字子集相應(yīng)為 U1’,U2’,…,Uq’ ; (5)用UU V樣本集重新訓(xùn)練控制網(wǎng)絡(luò)CN。
全文摘要
本發(fā)明涉及一種印刷體漢字識(shí)別系統(tǒng),本系統(tǒng)采用人工智能領(lǐng)域的新算法,有效地提高了漢字識(shí)別的質(zhì)量,該系統(tǒng)包括掃描輸入,將印刷在紙面上的漢字經(jīng)光電轉(zhuǎn)換設(shè)備轉(zhuǎn)換成電信號(hào),形成多灰度級(jí)的數(shù)字信號(hào),輸入給計(jì)算機(jī)處理;模糊增強(qiáng)與聚類分割模塊,包括模糊增強(qiáng)與平滑、多灰度級(jí)最佳分割;圖象數(shù)據(jù)二值化,圖象的平滑和增強(qiáng)及多灰度級(jí)的聚類分割之后,采用整體閾值選擇法進(jìn)行二值化,先統(tǒng)計(jì)出圖象的灰度直方圖,然后把直方圖在某一閾值處分割成兩組,當(dāng)被分成的兩組間方差為最大時(shí),確定閾值;漢字識(shí)別,本系統(tǒng)采用并行神經(jīng)網(wǎng)絡(luò)方法,通過控制網(wǎng)絡(luò)CN對(duì)樣本進(jìn)行粗分類,用識(shí)別網(wǎng)絡(luò)RN對(duì)各粗類進(jìn)行細(xì)分類,從而識(shí)別漢字。
文檔編號(hào)G06K9/62GK102855479SQ201210257459
公開日2013年1月2日 申請(qǐng)日期2012年7月24日 優(yōu)先權(quán)日2012年7月24日
發(fā)明者陶軍 申請(qǐng)人:蘇州工業(yè)園區(qū)七星電子有限公司