脫機手寫漢字識別系統(tǒng)及其識別方法

文檔序號：6405972閱讀：639來源：國知局

專利名稱：脫機手寫漢字識別系統(tǒng)及其識別方法
技術領域：
本發(fā)明屬于模式識別和人工智能領域。
脫機手寫漢字識別是識別已經寫在稿紙上、白紙上或表格中的手寫漢字。按書寫限制的程序，一般可分為三種，即限制性手寫體(指規(guī)定某些限制，如規(guī)定拓樸特性不變或要求橫平豎直等)，手寫印刷體(指手寫工整的漢字)和書寫限制較少的手寫漢字。限制越少，識別難度越大。目前國內外已研制出若干種能識別手寫印刷體漢字的識別系統(tǒng)，例如，本申請人于89年3月23日申請的中國發(fā)明專利《光照輸入手寫印刷體漢字識別系統(tǒng)》(CN10458859)就是其中的一種識別系統(tǒng)。該系統(tǒng)由掃描器和微機組成，配有手寫印刷體漢字識別卡及接口板。該系統(tǒng)采用漢字四邊形狀特征進行粗分類，用快速合并法抽取筆段，用相關屬性關系圖啟發(fā)式匹配法進行細分的手寫印刷體漢字識別方法。該系統(tǒng)的識別字數(shù)為2000常用漢字，識別率達90%。其不足之處是對書寫字有較多的限制及較嚴的要求，即書寫漢字不丟失、不添加筆劃;筆劃寫直，字的四邊框筆劃要寫清楚;筆劃成型，轉折處盡量尖銳;用黑色墨水、優(yōu)質鋼筆、寫在稿紙上等等要求。這些要求對使用者帶來諸多不便，限制了該系統(tǒng)使用范圍。
本發(fā)明的目的是構成一種識別書寫限制較少漢字的識別系統(tǒng)，克服上述漢字識別系統(tǒng)的不足之處，將使用者按自己習慣寫在紙上的字，高速輸入計算機，經過計算機識別，并輸出正式文件來，為達此目的，本發(fā)明提出一種新的手寫漢字識別方法。
本發(fā)明提出一種交互式自學習脫機手寫漢字識別系統(tǒng)，由掃描、識別、編輯等部分，其中，掃描部分包括驅動光電掃描儀完成對文稿的掃描錄入以及文字切分、規(guī)格化予處理等步驟，識別部分包括對掃描得到的文字圖象進行模式識別，得到漢字機內碼表示的文本文件等步驟，編輯部分包括對識別后的文本文件進行編輯修改及輸出正式文件等步驟，其特征在于所說的識別部分采用漢字統(tǒng)計和結構兩類特征相結合的統(tǒng)計識別方法，即抽取漢字適當部位的橫、豎、左斜、右斜四個掃描方向的筆道計數(shù)做為統(tǒng)計特征(HVLR)，以及漢字四邊形狀的穩(wěn)定部分，經過模糊處理后作為結構特征的抽取方法。以及動態(tài)分類方法，即將所述統(tǒng)計和結構特征作為粗分類特征，對各類特征取候選集，然后作與、或集合運算，得到最后的分類侯選集，再作進一步的匹配、細分，得到識別結果。該系統(tǒng)還包括用以識別書寫工整、字跡清楚的手寫漢字的通用特征庫以及為適應不同用戶的書寫習慣，計算機采用自學習方式為用戶建立的專用特征庫，建立專用特征庫可采用兩種方法，一種是用戶按照自己的書寫習慣寫出一個常用字表，該系統(tǒng)全自動地學習該用戶的字型特征;另一種是邊輸入學習，在文稿交互輸入過程中，計算機逐個學習漢字的字型特征。
本發(fā)明提供的上述交互式自學習脫機手寫漢字識別系統(tǒng)，對輸入的手寫漢字文稿限制少，能適用連筆、斷筆現(xiàn)象，具有自動識別，人一機交互式識別、邊輸入邊學習全自動學習等功能。
附圖簡要說明

圖1 為本發(fā)明實施例的系統(tǒng)程序框2 漢字切割原理3 漢字圖象切割流程4 為“的”字的HVLR特征圖5 為四邊框形狀特征碼本發(fā)明提供的一種最佳實施例由掃描儀、微型計算機主機、顯示器、打印機以及裝在主機內的掃描儀與主機的接口板和漢字識別卡等組成。掃描儀可采用HP、RICON和DATACOPY等各種掃描儀，如HP9190，HP9195，is 30，is11等。計算機主機可采用IBM-PC/XT兼容機、各種286，386機和長城機，如8088，80286或80386 CPU具有內存640K以上20M以上硬盤的計算機。本實施例系統(tǒng)工作流程框圖如圖1所示，由掃描、識別、編輯、機器學習等部分組成。結合附圖對其工作原理詳細描述如下漢字和標點符號寫在20×20稿紙上，用300dpi圖文掃描器(如CS-220，IS-30等)掃描頁面，按所選的灰度閾值，得到二值化(黑、白)點陣，經接口板送入計算機，得到一幅漢字圖象，按圖2所示的漢字切割原理圖，將圖象中的所有黑色象點橫向相加，得到離散波形，則可確定行起始和行數(shù)。每行的縱向里象點相加，可確定字首和字數(shù)，經圖3所示的漢字圖象切割流程圖，得到每個漢字，為96×96點陣，并顯示該手寫體字形，以便挑選和學習用。每個漢字經特征抽取及規(guī)格化后，得到被識漢字的粗分類特征和細分特征，并對特征進行處理，突出其字間差別。經動態(tài)分類判別，得到分類的候選集，然后對候選集作細分判別，并對候選集按相似度排序。在自動識別狀態(tài)，則以最相似的字為識別結果。識別結果在屏幕上顯示并存入磁盤。有分類特征庫和細分特征庫各一個，其特征是由計算機全自動學習(字表教授)或交互學習(人機對話教授)，然后對特征空間的劃分進行修改，進而改變分類特征庫和細分特征庫。為了盡量減少對書寫人的限制，可以允許連筆和行書。除通用特征庫外，對于行書、草書的用戶可建立專人特征庫。
本系統(tǒng)具有如下特點1.系統(tǒng)的予處理與一般常用的方法不同，對于書寫大小不同的漢字所用的規(guī)格化方法，不是對96×96漢字點陣進行規(guī)格化，而是在特征抽取過程中對HVLR的原型特征進行規(guī)格化，是96×4數(shù)量的規(guī)格化，大大提高了速度。系統(tǒng)沒有“細化”的過程就直接作特征抽取。避免了“細化”速度慢、畸變大的弱點。
2.識別方法主要包括特征的選擇、抽取和分類判別兩部分。其中特征的選擇、抽取是根據限制較少手寫漢字的多變、連筆、斷筆、不穩(wěn)定等特點，采用統(tǒng)計特征與結構特征相結合的識別特征。統(tǒng)計特征為適當部位的手寫漢字橫、豎、左斜、右斜(HVLR)特性，即適當部位的橫、豎、左斜、右斜四個掃描方向的筆道計數(shù)，它們是反映漢字內部結構的筆道計數(shù)。結構特征是取漢字的四邊形狀特征的穩(wěn)定部分，經模糊處理后得到的特征有序串。具體實現(xiàn)方法及步驟如下本發(fā)明人分析了漢字的結構特點，認為手寫漢字最重要，也是相對穩(wěn)定的特征是漢字的間架結構，能表達漢手寫漢字的字形結構形狀特征是HVLR特征，對于不同人寫的相同的字，例如圖4所示，使其HVLR特征比較穩(wěn)定，關鍵在于在適當?shù)牟课蝗?shù)所穿越的筆道數(shù)。
對于計算機而言，要確知在適當?shù)牟课蝗ァ皵?shù)”所穿越的筆劃數(shù)是困難的，本發(fā)明提出一種方法，可以比較精確、快速地抽取出HVLR特征。
HVLR特征的抽取方法包括兩大步驟①HVLR特征的原形特征的抽取;
②對原形特征規(guī)格化，得到HVLR特征。
原形特征指手寫體漢字在水平(H)、垂直(V)、+45°(L)、-45(R)方向筆劃數(shù)目的投影。
原形特征的抽取方法如下一頁手寫體漢字文稿經過掃描輸入、切割，得到一幅M×N的二值漢字點陣，G＝(Gij)，其中i＝1，2……M，j＝1，2……N。對于黑色象素(Gij)＝1，對于白色象素Gij＝0。
1.掃描G，若G中的點已掃描完，則結束。
2.判斷當前掃描點的鄰接區(qū)m×n的狀態(tài)2.1若m×n中的點非全白全黑，則轉12.2若m×n中的點全白，則判斷2.2.1若垂直方向置全黑標志，則當前位置的水平方向筆道數(shù)加1，并置此標志為全白。
2.2.2若水平方向置全黑標志，則當前位置的垂直方向筆道數(shù)加1，并置此標志為全白。
2.2.3若-45°方向置全黑標志，則當前位置的+45°方向筆道數(shù)加1，并置標志為全白。
2.2.4若+45°方向置全黑標志，則當前位置的-45°，方向筆道數(shù)加1，并置此標志并全白。
2.3若m×n中的點全黑，則置所有四個方向的標志并全黑。
3.轉1本特征提取方法的特點是①在水平、垂直、+45°、-45°四個方向對漢字點陣G各穿越了M-m、N-n、M+N-(m+n+1)、M+N-(m+n+1)條線，由于在穿線計數(shù)時考慮了每一點的m×n大小的鄰域狀態(tài)，因而所得原形特征比較真實地反映了手寫體漢字在上述四個方向上筆道數(shù)目的投影數(shù)。
②由于只需遍歷G一遍，就得到四個方向上的特征，因而速度極快。
③具有一定的抗干擾能力。只要G中的污點大小不能完全包含m×n，則此污點并不影響原形特征的抽取，m×n有多種，很靈活。最簡明、直觀的取法是2×2即∷，也可取
等。
對原形特征規(guī)格化是將各方向的原形特征(水平方向為 Ha[i]，i＝1，2……M-m;
垂直方向為 Va[i]，i＝1，2……M-N;
+45°方向為 La[i]，i＝1，2……M+N-(m+n);
-45°方向為 Ra[i]，i＝1，……M+N-(m+n))均勻映射到Hb[i]，Vb[i]，Lb[i]，Rb[i]，其中i＝1，……J。
J＝k· (min(N，N))/([R/25.4]) 式中[R/25.4]為掃描器每毫米的分辨率我們取K＝3/2，R＝300，則J＝12。
這里均勻映射包括按相似比例的放大或縮小，是離散值的放大或縮小。
由于這種規(guī)格化方法是近似了在“適當?shù)牟课弧比ァ皵?shù)”所穿越的筆道數(shù)。因此所得到的是HVLR特征的近似值。該方法比較精確地將二維漢字字形轉化并多維向量。實驗結果表明，這一特征較好的表達了漢字字形的本質特點。
結構特征是取漢字的四邊形特征的穩(wěn)定部分。漢字的四邊形狀特征包含的信息量大，相對地比較穩(wěn)定。但也不是都穩(wěn)定，尤其是在有連筆時，四邊形狀并不都穩(wěn)定，因此僅取其經模糊處理后的穩(wěn)定部分。例如“舞”字，由上往下看可以看到“丿一”，“不”字由上往下看的“一”。我們選擇七種筆劃形狀作為基本特征元，如圖5所示。即將“一”“丨”“丿”“丶”“┐”“┖”“┴”的編碼規(guī)定為1，2，3，4，5，6，7。在獲得漢字圖象的近似多角形之后得到四框形狀線段，對這些線段由左向右分析它們的性質，以及它與鄰近線段所構成的幾何形狀，可以從中得到形狀的特征編碼有序串。例如，對于頂部的具體步驟如下1.將頂部線段從左到右排序2.取出一線段，判斷它們的屬性(一，丨，丿，丶等)3.根據屬性，取出鄰近邊分析兩端點與鄰近邊所構成的形狀從而得到特征碼。
4.若線段取完則結束，否則轉2。
例如“舞”字取“/一”其編碼有序串為31。
本實施例的分類判別部分采用動態(tài)分類法。
對于文字特征的分類判別是文字識別過程的主要環(huán)節(jié)，要根據特征的特點尋找恰當分類判別方法。
對于手寫體漢字的特征本發(fā)明人曾進行過廣泛的探討和選擇?？梢哉f，沒有絕對穩(wěn)定的特征，只有相對比較穩(wěn)定的特征，如前述的特征。對于這些不是很穩(wěn)定的特征應如何使用呢？本發(fā)明人采用與傳統(tǒng)分類方法不同的動態(tài)分類法。將上述的統(tǒng)計HVLR特征的四個分量Hb[i]，Vb[i]，Lb[i]，Rb[i](i＝1，……J)的平方和∑Lb2[i]，∑Rb2[i]，∑Hb2[i]，∑Vb2[i]及四邊框特征作為粗分類特征，并設定各分量的△區(qū)間，使其都有一定的上下限，上下限的具體值由樣本集進行訓練得到。動態(tài)分類法，即對各類特征取候選集，然后求并集和交集。這種分類方法對同一字的不同寫法得到的候選集是不同的，但總要包含被識字。它和樹分類法相比，當特征不很穩(wěn)定時，該方法可減少分類錯誤。它比動態(tài)兼容線性分類法更靈活，可更廣泛地應用，因它不要求對特征進行排序，便于對各種特征求候選集，然后作與、或集合運算，得到最后的分類候選集。雖然動態(tài)分類法對待識字求候選集要在全分類庫內尋找，但只要特征簡單，也還是很快的，這樣可在特征不很穩(wěn)定的情況下，找到不太大的候選集。
3.本系統(tǒng)通過計算機全自動學習(指由字表教授)或交互學習(指人機對話教授)兩種方式得到分類特征庫和細分特征庫。
計算機自動學習的過程是事先準備好需要學習的掃描樣張和與掃描樣張次序相對應的字表文件。用圖文掃描器掃描樣張，經漢字切分后得到每個漢字的96×96點陣，和識別過程相同，也要經特征抽取和規(guī)格化后，得到要學習的漢字的分類特征和細分特征。在字表文件的指導下，漢字的分類特征經特征空間的劃分操作后得到初始的分類特征庫，細分特征則直接組成初始的細分特征庫，粗分類庫中的每個漢字有指針指向細分特征庫中的相應漢字，以便于識別時調用。在已有初始特征庫后，要繼續(xù)學習樣張，是將另外的多種樣張掃描送入計算機，抽取分類特征和細分特征，用新的分類特征與分類特征庫比較，若發(fā)現(xiàn)不合用，則修改特征空間的劃分，用細分特征與細分特征庫比較，若發(fā)現(xiàn)相距太遠，則修改細分特征庫的參數(shù)。
人機交互式學習過程是在輸入稿件時邊輸入邊學習。
本系統(tǒng)的軟件采用模塊式結構，主要用匯編語言編程，在CCDOS 4.0操作系統(tǒng)下工作。
本實施例具有對限制少手寫漢字的自動識別、人-機交互式識別、邊輸入邊學習，機器全自動學習等功能，識別字數(shù)為國標一級漢字3755個，識別率80～95%(前十位候選識別率)，識別速度為2～3字/秒。
權利要求
1.一種交互式自學習脫機手寫漢字識別系統(tǒng)，由掃描、識別、編輯等部分，其中，掃描部分包括驅動光電掃描儀完成對文稿的掃描錄入以及文字切分、規(guī)格化予處理等步驟，識別部分包括對掃描得到的文字圖象進行模式識別，得到漢字機內碼表示的文本文件等步驟，編輯部分包括對識別后的文本文件進行編輯修改及輸出正式文件等步驟，其特征在于所說的識別部分采用漢字統(tǒng)計和結構兩類特征相結合的統(tǒng)計識別方法，即抽取漢字適當部位的橫、豎、左斜、右斜四個掃描方向的筆道計數(shù)做為統(tǒng)計特征(HVLR)，以及漢字四邊形狀的穩(wěn)定部分，經過模糊處理后作為結構特征的抽取方法，以及動態(tài)分類方法，即將所述統(tǒng)計和結構特征作為粗分類特征，對各類特征取侯選集，然后作與、或集合運算，得到最后的分類侯選集，再作進一步的匹配、細分，得到識別結果，該系統(tǒng)還包括通用特征庫以及專用特征庫。
2.如權利要求1所述的手寫漢字識別系統(tǒng)，其特征在于所述的規(guī)格化予處理是在特征抽取過程中對所說的HVLR的原型特征進行的方法;所說的識別方法中的HVLR特征選擇、抽取部分，包括HVLR特征的原形特征的抽取及對原形特征規(guī)格化、得到HVLR特征兩大步驟的方法;所說的動態(tài)分類方法是將所說的HVLR特征的四個分量Hb[i]，Vb[i]，Lb[i]，Rb[i](i＝1，……J)進行平方和突出差別后，做為HVLR特征，并將該特征與所說的四邊框特征作為粗分類特征，再對所述的各類特征取候選集，然后作與、或集合運算，得到最后的分類候選集。
全文摘要
一種脫機手寫漢字識別系統(tǒng)及其識別方法，屬于模式識別人工智能領域。本發(fā)明提供的漢字識別系統(tǒng)具有采用漢字統(tǒng)計和結構兩類特征相結合以及動態(tài)分類的統(tǒng)計識別方法。具有手寫漢字的自動識別、人一機交互式識別、邊輸入邊學習、機器全自動學習等功能，識別字數(shù)為國標一級漢字3755個，識別率80～95％(前十位候選識別率)，識別速度為2～3字/秒。該系統(tǒng)對書寫者的限制較少，可以識別行書。
文檔編號G06K9/72GK1052203SQ90110009
公開日1991年6月12日申請日期1990年12月29日優(yōu)先權日1990年12月29日
發(fā)明者夏瑩, 吳智彪, 曾棋榮, 王世琴, 胡靜芬, 孫承纜, 張大華申請人:清華大學

完整全部詳細技術資料下載