專利名稱:一種聯機手寫藏文字丁的識別方法和識別系統的制作方法
技術領域:
本發(fā)明涉及中文信息處理的聯機手寫字符識別領域;特別涉及一種聯機手寫藏文字丁識別的方法和識別系統。
背景技術:
聯機手寫輸入作為一種自然的輸入方式,由于筆輸入設備的改善,使得它的應用日益廣泛。我國聯機手寫漢字識別的研究始于上個世紀80年代,經過眾多研究者的不懈努力,聯機手寫漢字識別技術已經有了很大發(fā)展,市場上實用的產品也不斷出現。少數民族語言文字的信息化以及相關研究相對滯后,截止目前,涉及聯機手寫藏文識別的方法未見相關報道。然而,研究聯機手寫藏文識別的方法和實現聯機手寫藏文識別系統,在計算機科學應用中具有很重要的理論和實際意義。
本發(fā)明以構成音節(jié)的藏文字丁作為識別單位,充分利用字丁的筆劃信息和空間結構特征信息,以及統計識別方法具有速度快、性能好的優(yōu)點,通過對手寫藏文字丁筆跡的預處理、特征提取和特征變換、分類器設計和音節(jié)聯想等過程,實現了較高性能的聯機手寫藏文識別系統。截止目前,還未見到聯機手寫識別方面與此相關的其他文獻報道。
發(fā)明內容
本發(fā)明的目的是解決長期以來沒有聯機手寫藏文識別輸入的問題,提供一種聯機手寫藏文識別方法和識別系統。
本識別方法以聯機手寫藏文字丁作為處理對象,識別方法和識別系統包括對手寫字丁模式進行預處理;對筆跡點的方向特征和字丁所占空間特征進行提取,用線性判別分析方法將高維特征進行降維變換,從而得到藏文字丁的識別特征;對標準二次分類器加以速度改進,得到快速二次分類器,用快速二次分類器進行藏文字丁的識別;對識別后的字丁再進行聯想音節(jié),最后輸入文本的是規(guī)范的藏文音節(jié)。
本發(fā)明通過藏文字丁的預處理、特征的提取、特征變換、分類器設計和音節(jié)聯想,完成了一個完整的聯機手寫藏文識別系統。具體方法如下 1.預處理 一個聯機手寫藏文字丁的手寫筆跡可以表示為 P(x1,y1),P(x2,y2),...,P(xi,yi),T,P(xi+1,yi+1),...,P(xn,yn);其中T標記兩個自然筆劃間抬筆和落筆的中斷,P(xi,yi)i=1,2,...,n是采樣得到的一系列從時間上依次排列的坐標點;預處理按以下步驟 (1)孤立點噪聲的消除從筆跡點序列中去除只由一兩個點組成的那些筆劃; (2)平滑處理對采樣點序列相鄰點的坐標值進行加權平均,利用式1求得新的點序列
i=1,2,..,n;式1 (3)筆速均勻化對于書寫的軌跡用一個固定長度間隔重新采樣;利用式2求得均勻化的點序列;式2 其中,L為固定的采樣間隔,本發(fā)明中取值為2;
為式1得到的N個坐標點,且i滿足1≤i≤N和Si≤jL<Si+1; 兩點之間的長度累計長度為并設定S0=0;重新采樣得到的新坐標點為
假設 (4)歸一化處理將所有書寫字丁放入統一大小的框內,利用式3求得歸一化的坐標序列
i=1,2,...,k;式3 其中,
是第(3)步的坐標點;W、H分別為處理后的字丁的寬度和長度;根據藏文字丁的特點,本發(fā)明中W和H分別設為48和96。
2.特征提取 預處理之后進行特征提??;通過研究聯機手寫藏文字丁的空間結構,提取兩種特征,分別為筆跡的方向特征和字丁所占空間的特征; 2.1 筆跡方向特征的提取 筆跡方向特征分相鄰點方向特征和相鄰拐點方向特征; 2.1.1 相鄰點方向特征的提取 2.1.1.1 每個筆跡點方向的計算 在筆跡點坐標序列中,任取一點Pi,把從Pi指向Pj的有向線段的方向定為Pi點的方向值θi,其值域范圍為0°到360°,圖2a所示為點Pi到相鄰點Pi+1的方向,圖2b所示為拐點Pi到相鄰拐點Pj的方向; 設(xi,yi)為點Pi的坐標,(xj,yj)為點Pj的坐標,Pi點的方向值θi為 因為 2.1.1.2 每個筆跡點的方向屬性系數的計算 筆跡點的方向屬性系數,是指以該點的方向值為自變量,6種方向如圖3a至圖3f所示。計算得到該點的6種函數值分別是 從左到右方向屬性系數,如圖3a,
從上到下方向屬性系數,如圖3b,
從右上到左下方向屬性系數,如圖3c,
從左上到右下方向屬性系數,如圖3d,
左上方提方向屬性系數,如圖3e,
右上方提方向屬性系數,如圖3f,
其中的參數α1~α9是角度閾值,它們的作用是確定方向屬性系數函數的形狀,在本發(fā)明中分別設為α1=-10°,α2=260°,α3=280°,α4=250°,α5=300°,α6=330°,α7=60°,α8=120°,;α1~α9可以浮動±5°; 2.1.1.3 字丁的空間劃分與特征計算 得到點的方向屬性系數后,把一個字丁的坐標空間均勻劃分成R1×R1個長方形子塊;分別計算每個子塊中所有筆跡點的6種方向屬性系數之和,共得到(R1×R1)×6的特征矩陣;以第(k,1)個子塊為例,這里1≤k≤R1,1≤l≤R1,統計得到的六維特征分別是 這里θ為點p(x,y)的方向特征。
2.1.2 相鄰拐點方向特征的提取 拐點是書寫時筆劃點的方向前后變化劇烈的點,為了方便,把筆劃端點也設定為拐點;拐點依據二次搜索的方法最終確定。
2.1.2.1 第一次搜索 圖4a表示拐點一次搜索先計算筆劃中每個點與相鄰點間張角θ,若θ<θmax則該點即為候選拐點。張角θ的余弦值可用三角余弦定理計算。設a,b,c分別為當前筆跡點與前后相鄰筆跡點構成的三角形的三邊。張角θ為邊a,b的夾角,c為張角θ的對邊,先根據三角形頂點的坐標分別計算三邊的長度,由余弦定理可求得θmax=2π/3。
2.1.2.2 第二次搜索 圖4b表示拐點的二次搜索對候選拐點pi,如果在其鄰域內存在點
使得則將點pi從候選折點中刪除,其中的鄰域關系由距離約束定義,在本發(fā)明中dmax=4;該過程一直持續(xù)到沒有任何候選拐點可以刪除為止。這樣,剩余的候選點就作為筆劃軌跡的真實拐點。
2.1.2.3 方向特征的計算 重新計算每個筆跡點相鄰拐點的方向屬性系數,并統計每個空間劃分子塊中的六個方向屬性系數之和,得到另外(R1×R1)×6特征矩陣;方向特征是相鄰點方向特征和相鄰拐點方向特征的合并,是(R1×R1)×12的特征矩陣。
2.2 空間特征的提取 方向特征反映了藏文字丁的筆劃軌跡的變化,空間特征則反映出藏文字丁四周的結構信息。
將歸一化后的字丁所占空間分為左右部分、上面的四分之一部分及下面二分之一部分,分別提取四個部分的特征。以左半部分為例,如圖5a所示將左半部分等距分為R2個橫向子區(qū)域;然后把各個子區(qū)域內所有筆跡點按其坐標y值降序排列,當y值相等時按x值升序;計算每個子區(qū)域前兩個點的六個方向屬性,分別記為
和
如果任意子區(qū)域內筆跡點數小于等于1,則兩個點的方向系數均為0,如筆跡點數為2,則計算第一個筆跡點的方向屬性,第二個點的方向屬性系數為0,如筆跡點數大于2,則計算前兩個點的方向屬性系數;直到各個子區(qū)域都計算結束為止;R2個子區(qū)域共得到R2×12的特征矩陣。
其余三個空間如圖5b、圖5c、圖5d劃分區(qū)域的方式,重復類似計算,共得到(R2×4)×12的特征矩陣。
這樣,一個聯機手寫藏文字丁的特征就是方向特征和空間結構特征的合并得到的特征矩陣是V。
3.特征的降維變換 本領域的技術人員清楚通常,樣本數不是很充分的,前面的方法提取得到的原始特征矩陣會造成計算復雜度增加并降低分類器性能,解決辦法是把高維原始特征矩陣變換壓縮到低維特征矩陣。本發(fā)明采用線性鑒別分析技術LDA進行特征變換。設為原始特征矩陣集合,式中
表示屬于第j個類別的第i個樣本提取的原始特征矩陣,Nj表示第j個類別的樣本個數,C表示類別數目,即562個藏文字丁。
用式計算每個類別的均值,用式計算所有類別的均值。
然后計算類內散度矩陣Sw和類間散度矩陣Sb 求取線性變換矩陣A,使得
值達到最大。設n為原始特征矩陣的行數,變換后的特征矩陣行數為m,變換矩陣A為n×m矩陣。
變換矩陣的計算方法如下對矩陣
進行特征值和特征向量分解,得到特征值序列并按大小降序排列{γi,i=1,2,...,n},所對應的特征向量ξi,i=1,2,...,n。用前m個特征向量組成矩陣A=[ξ1,ξ2,...,ξm],在本發(fā)明中,m取12。則A就是一個線性變換壓縮矩陣;上述特征變換流程如圖6所示。于是由首次提取特征所得到的矩陣V經壓縮變換后得到選擇特征YY=AT·V。
4.訓練分類器 標準二次分類器的判決函數為 上式中,Y是輸入的特征向量,m為特征維數,μj代表第j個類別的均值向量,ζ(j)是第j個類別的協方差陣的第i個特征向量,
是第j個類別的協方差陣的第i個特征值。對輸入的Y,如果把Y歸為第i個類別,式中C為類別數目。
在實際應用中,針對特征矩陣的運算,在標準二次分類器基礎上使用快速的二次分類器。其判別函數如下 j=1.2......,C。式中,λ為經驗參數,由試驗確定。對輸入的Y,如果則Y歸為第i個類別。式中C為類別數目,即562個藏文字丁。
5.音節(jié)聯想 藏文音節(jié)是以基字為中心的左右拼寫、上下疊加并按照組合規(guī)則而形成的語言單位,音節(jié)結構形式如圖7、圖8所示。1、2、3、4、5、6、7的位置分別為基字、上加字、下加字、前加字、后加字、又后加字和元音。與圖7、圖8結構完全一致的藏文音節(jié)分別如
和
音節(jié)的基字、上加字、下加字、前加字、后加字、又后加字和元音七個成分中,除基字外,其它的成分少一個至六個,仍然是音節(jié)。音節(jié)中的每個縱向單位就是字丁?;炙诘目v向單位是基字部分,基字部分至少有基字。一個音節(jié)至少有基字部分,最多有4個縱向單位,分別形成單字、雙字、三字和四字音節(jié)。如
分別是藏文的單字、雙字、三字和四字音節(jié)。在藏文中音節(jié)具有字的意義。
為了加快聯機手寫識別的速度和輸入規(guī)范音節(jié)從而提高輸入的效率,我們的系統具有字丁識別后的音節(jié)聯想功能。單字音節(jié)就是字丁,所以聯想的只有雙字、三字和四字音節(jié)。即前加字聯想所有“前加字+基字字丁”、“前加字+基字字丁+后加字”、“前加字+基字字丁+后加字+又后加字”三種類型,或者基字字丁聯想所有“基字字丁+后加字”、“基字字丁+后加字+又后加字”兩種類型。由前加字聯想和基字字丁聯想的形式分別如圖9、圖10所示。
音節(jié)聯想的算法步驟如下 (1)將藏文音節(jié)頻率表中的字丁轉換成字丁表中的索引號表示; (2)遍歷處理后的藏文音節(jié)頻率表,把首字丁的索引號作為所屬類別,將藏文音節(jié)劃歸到562個字符類中; (3)統計每個字丁類中的藏文音節(jié)數,并對每個字丁類中的音節(jié)按頻率由大到小排序; (4)生成字丁聯想庫文件; (5)在啟動藏文聯機手寫識別程序時加載字丁聯想庫文件; (6)對識別出的前10選字丁,根據字丁在藏文字丁表中的索引號,分別導出以該字丁為首字丁的所有藏文音節(jié)供用戶選擇。
本發(fā)明用于計算機、手機等藏文聯機手寫識別輸入,具有較高的識別率,輸入速度快,性能穩(wěn)定等優(yōu)點。
圖1是聯機手寫藏文識別分類器訓練與識別系統的構成; 圖2a為相鄰點方向計算示意圖; 圖2b為相鄰拐點方向計算示意圖; 圖3a為筆跡點從左到右的方向示意圖; 圖3b為筆跡點從上到下方向示意圖; 圖3c為筆跡點從右上到左下方向示意圖; 圖3d為筆跡點從左上到右下方向示意圖; 圖3e為左上方提方向示意圖; 圖3f為右上方提方向示意圖; 圖4a為筆跡中拐點的檢測方法第一次搜索示意圖; 圖4b為筆跡中拐點的檢測方法第二次搜索示意圖; 圖5為藏文字丁空間特征左半部分提取示意圖; 圖6為從原始特征到識別特征的特征變換流程圖; 圖7為帶下元音的音節(jié)結構示意圖; 圖8為帶上元音的音節(jié)結構示意圖; 圖9為前加字聯想音節(jié)示意圖; 圖10為基字字丁聯想音節(jié)示意圖。
具體實施例方式 通過以下幾個步驟實施藏文字丁識別方案,其系統構成如圖1所示,分別有訓練階段和識別階段。最后是對所識別字丁的音節(jié)聯想。
訓練階段的步驟 步驟1.樣本采集 現代藏文有562個藏文字丁,利用手寫版和我們的采樣軟件,由近300個藏族學生書寫樣本。
步驟2.對樣本進行預處理 步驟3.提取結構特征矩陣 分別提取筆跡的方向特征和字丁所占空間的特征,得到的矩陣
1≤i≤Nj},1≤j≤C}為原始特征矩陣集合,式中
表示屬于第j個類別的第i個樣本提取的原始特征矩陣,Nj表示第j個類別的樣本個數,C表示類別數目,即562個藏文字丁。
步驟4.變換矩陣的獲取 用式計算每個類別的均值,用式計算所有類別的均值。
然后計算類內散度矩陣Sw和類間散度矩陣Sb 變換矩陣A是n×m,其計算方法如下對矩陣
進行特征值和特征向量分解,得到特征值序列并按大小降序排列{γi,i=1,2,...,n},包括他們對應的特征向量ξi,i=1,2,...,n也做相應的調整。用前m個特征向量組成矩陣A=[ξ1,ξ2,...,ξm],在本發(fā)明中,m取12。則A就是一個線性變換壓縮矩陣。
步驟5.識別庫文件的生成 (1)加載變換矩陣A,計算識別特征YY=AT·V。
(2)根據得到識別特征Y,對每個類別用式統計其均值,用式統計協方差陣 其中,
表示第j個類別的第i個訓練樣本提取的特征向量,Nj是第j個類別的訓練樣本數目,μj表示第j個類別的均值矩陣,∑j表示第j個類別的協方差矩陣。
對每個類別的協方差陣進行特征向量分解,得到特征值特征值按值的大小降序排列和特征向量是∑j的第i個特征值,
是∑j的第i個特征向量。
用式計算分類器中的參數λ,即小特征的替代值。最后把每一類的
j=1,2,…,C,
j=1,2,…,C,i=1,2,…,m、μj,j=1,2,…,C,λ等參數存儲到文件中,即為識別庫文件,供識別過程使用。
識別過程的步驟 步驟1.對待識別字符進行預處理。
步驟2.提取結構特征矩陣,與訓練階段的步驟3的相同。
步驟3.加載變換矩陣A,進行LDA特征變換,得到識別特征向量Y=AT·V。
步驟4.加載識別庫文件,其包含分類器判決函數所需的參數。分類器的判決函數是 j=1.2......,C。
計算每個類別的函數值gj(Y),然后將函數值按大小升序排列。將前十個類別作為待識別字符的后選字符,發(fā)送給界面供用戶選擇。
音節(jié)聯想的步驟 首先,通過以下幾個步驟生成字丁聯想庫文件 (1)將藏文音節(jié)頻率表中的字丁轉換成字丁表中的索引號表示; (2)遍歷處理后的藏文音節(jié)頻率表,把首字丁的索引號作為所屬類別,將藏文音節(jié)劃歸到562個字符類中; (3)統計每個字丁類中的藏文音節(jié)數,并對每個字丁類中的音節(jié)按頻率由大到小排序; (4)生成字丁聯想庫文件。
其次,通過前面的字丁識別,對10個后選字丁的音節(jié)聯想 (1)在啟動藏文聯機手寫識別程序時加載聯想庫文件; (2)對識別出的前10選字丁,根據這些字丁在藏文字丁表中的索引號,分別導出以該字丁為首字丁的所有藏文音節(jié)供用戶選擇; (3)對用戶選擇后的音節(jié),送入文本區(qū)。
音節(jié)聯想功能的效果,可以用表1說明。表中第一列和第五列是含有不同個數音節(jié)和字符數的藏文詞,第二列和第六列詞所含音節(jié)數,第三列和第七列是詞所含字符數,第四列和第八列是用單字丁識別輸入該詞與單字識別后音節(jié)聯想方法輸入該詞的時間差。
表1.單字丁識別輸入與音節(jié)聯想的時間差比較
比如,輸入藏文詞
該詞含有兩個音節(jié),一個字丁一個字丁的識別輸入,且之間輸入一個音節(jié)點,所花的時間比識別后的字丁
和
聯想音節(jié)
和
要多15秒鐘。由此可見,使用聯想的高頻音節(jié)的輸入更加快捷。
在本發(fā)明中,識別字符集為562個現代藏文常用字丁,共采集樣本300套,可用樣本260套,其中200套作為訓練樣本,60套作為測試樣本。本發(fā)明已經實現了聯機手寫藏文識別系統,應用效果表明,該系統達到了一個比較理想的識別性能,字丁平均識別率為93.72%,在Pentium IV-3.0GHz的計算機上達到每秒46.13字的識別速度;字丁識別后的音節(jié)聯想使高頻音節(jié)的輸入更加快捷,滿足了實用的要求,而且系統穩(wěn)定、可靠性強,具有廣泛的應用前景。
權利要求
1、一種聯機手寫藏文識別方法和識別系統,其特征在于對手寫字丁模式進行預處理;對筆跡點的方向特征和字丁所占空間特征進行提取,用線性判別分析方法將高維特征進行降維變換,得到藏文字丁的識別特征;對標準二次分類器加以速度改進,得到快速二次分類器,用快速二次分類器進行藏文字丁的識別;對識別后的字丁再進行音節(jié)聯想,最后輸入文本的是規(guī)范的藏文音節(jié);
a.預處理
一個聯機手寫藏文字丁的手寫筆跡可以表示為
P(x1,y1),P(x2,y2),...,P(xi,yi),T,P(xi+1,yi+1),...,P(xn,yn);其中T標記兩個自然筆劃間抬筆和落筆的中斷,P(xi,yi)i=1,2,...,n是采樣得到的一系列從時間上依次排列的坐標點;預處理按以下步驟
a.1孤立點噪聲的消除從筆跡點序列中去除只由一兩個點組成的那些筆劃;
a.2平滑處理對采樣點序列相鄰點的坐標值進行加權平均,利用式1求得新的點序列
i=1,2,...,n;式1
a.3筆速均勻化對于書寫的軌跡用一個固定長度間隔重新采樣;利用式2求得均勻化的點序列;式2
其中,L為固定的采樣間隔;
為式1得到的N個坐標點,且i滿足1≤i≤N和Si≤jL<Si+1;
兩點之間的長度累計長度為并設定S0=0;重新采樣得到的新坐標點為
假設
a.4歸一化處理將所有書寫字丁放入統一大小的框內,利用式3求得歸一化的坐標序列
i=1,2,...,k;式3
其中,
是第a.3步的坐標點;W、H分別為處理后的字丁的寬度和長度;
b.特征提取
b.1 筆跡方向特征的提取
b.1.1 相鄰點方向特征的提取
b.1.1.1 每個筆跡點方向的計算
在筆跡點坐標序列中,任取一點Pi,把從Pi指向Pj的有向線段的方向定為Pi點的方向值θi,其值域范圍為0°到360°;設(xi,yi)為點Pi的坐標,(xj,yj)為點Pj的坐標,Pi點的方向值θi為
因為
b.1.1.2 每個筆跡點的方向屬性系數的計算
筆跡點的方向屬性系數,是指以該點的方向值為自變量,6種函數值分別是
從左到右方向屬性系數,
從上到下方向屬性系數,
從右上到左下方向屬性系數
從左上到右下方向屬性系數
左上方提方向屬性系數,
右上方提方向屬性系數,
其中的參數α1~α9是角度閾值,它們的作用是確定方向屬性系數函數的形狀;
b.1.1.3 字丁的空間劃分與特征計算
把一個字丁的坐標空間均勻劃分成R1×R1個長方形子塊;分別計算每個子塊中所有筆跡點的6種方向屬性系數之和,共得到(R1×R1)×6的特征矩陣;以第(k,1)個子塊為例,這里1≤k≤R1,1≤l≤R1,統計得到的六維特征分別是
這里θ為點p(x,y)的方向特征;
b.1.2 相鄰拐點方向特征的提取
把書寫時筆劃點的方向前后變化劇烈的點和筆劃端點設定為拐點;拐點依據二次搜索的方法最終確定;
b.1.2.1 第一次搜索
先計算筆劃中每個點與相鄰點間張角θ,若θ<θmax則該點即為候選拐點;張角θ的余弦值可用三角余弦定理計算;設a,b,c分別為當前筆跡點與前后相鄰筆跡點構成的三角形的三邊;張角θ為邊a,b的夾角,c為張角θ的對邊,先根據三角形頂點的坐標分別計算三邊的長度,由余弦定理可求得θmax=2π/3;
b.1.2.2 第二次搜索
對候選拐點pi,如果在其鄰域內存在點
使得則將點pi從候選折點中刪除,其中的鄰域關系由距離約束定義;該過程一直持續(xù)到沒有任何候選拐點可以刪除為止;這樣,剩余的候選點就作為筆劃軌跡的真實拐點;
b.1.2.3 方向特征的計算
重新計算每個筆跡點相鄰拐點的方向屬性系數,并統計每個空間劃分子塊中的六個方向屬性系數之和,得到另外(R1×R1)×6特征矩陣;方向特征是相鄰點方向特征和相鄰拐點方向特征的合并,是(R1×R1)×12的特征矩陣;
b.2 空間特征的提取
將歸一化后的字丁所占空間分為左右部分、上面的四分之一部分及下面二分之一部分,分別提取四個部分的特征;如果提取左半部分將左半部分等距分為R2個橫向子區(qū)域;然后把各個子區(qū)域內所有筆跡點按其坐標y值降序排列,當y值相等時按x值升序;計算每個子區(qū)域前兩個點的六個方向屬性,分別記為
和
如果任意子區(qū)域內筆跡點數小于或等于1,則兩個點的方向系數均為0;如筆跡點數為2,則計算第一個筆跡點的方向屬性,第二個點的方向屬性系數為0;如筆跡點數大于2,則計算前兩個點的方向屬性系數;直到各個子區(qū)域都計算結束為止;R2個子區(qū)域共得到R2×12的特征矩陣;
按提取左半部分空間特征的方法,分別提取右半部分、上面的四分之一部分及下面二分之一部分,共得到(R2×4)×12的特征矩陣;
一個聯機手寫藏文字丁的特征就是方向特征和空間結構特征的合并得到的特征矩陣是V;
c.特征的降維變換
采用線性鑒別分析技術LDA進行特征變換,設為原始特征矩陣集合,式中Vi(j)表示屬于第j個類別的第i個樣本提取的原始特征矩陣,Nj表示第j個類別的樣本個數,C表示類別數目,即562個藏文字丁。
用式計算每個類別的均值,用式計算所有類別的均值;
然后計算類內散度矩陣Sw和類間散度矩陣Sb
求取線性變換矩陣A,使得
值達到最大;設n為原始特征矩陣的行數,變換后的特征矩陣行數為m,變換矩陣A為n×m矩陣;
變換矩陣的計算方法如下對矩陣
進行特征值和特征向量分解,得到特征值序列并按大小降序排列{γi,i=1,2,...,n},所對應的特征向量ξi,i=1,2,...,n;用前m個特征向量組成矩陣A=[ξ1,ξ2,...,ξm],則A就是一個線性變換壓縮矩陣;于是由首次提取特征所得到的矩陣V經壓縮變換后得到選擇特征YY=AT·V;
d.訓練分類器
標準二次分類器的判決函數為
上式中,Y是輸入的特征向量,m為特征維數,μj代表第j個類別的均值向量,ζ(j)是第j個類別的協方差陣的第i個特征向量,λi(j)是第j個類別的協方差陣的第i個特征值;對輸入的Y,如果把Y歸為第i個類別,式中C為類別數目;
標準二次分類器基礎上使用快速的二次分類器,其判別函數如下
j=1.2......,C式中,λ為經驗參數,由試驗確定;對輸入的Y,如果則Y歸為第i個類別;式中C為562個藏文字?。?br>
e.音節(jié)聯想
為了加快聯機手寫識別的速度和輸入規(guī)范音節(jié)從而提高輸入的效率,我們的系統具有字丁識別后的音節(jié)聯想功能;單字音節(jié)就是字丁,聯想的有雙字、三字和四字音節(jié);即前加字聯想所有“前加字+基字字丁”、“前加字+基字字丁+后加字”、“前加字+基字字丁+后加字+又后加字”三種類型,或者基字字丁聯想所有“基字字丁+后加字”、“基字字丁+后加字+又后加字”兩種類型;
音節(jié)聯想的算法步驟如下
e.1 將藏文音節(jié)頻率表中的字丁轉換成字丁表中的索引號表示;
e.2 遍歷處理后的藏文音節(jié)頻率表,把首字丁的索引號作為所屬類別,將藏文音節(jié)劃歸到562個字符類中;
e.3 統計每個字丁類中的藏文音節(jié)數,并對每個字丁類中的音節(jié)按頻率由大到小排序;
e.4 生成字丁聯想庫文件;
e.5 在啟動藏文聯機手寫識別程序時加載字丁聯想庫文件;
e.6 對識別出的前10個候選字丁,根據字丁在藏文字丁表中的索引號,分別導出以該字丁為首字丁的所有藏文音節(jié)供用戶選擇。
2、如權利要求1所述的聯機一種手寫藏文識別方法和識別系統,其特征在于
步驟a.3筆速均勻化式2中所述的固定的采樣間隔L為2;
步驟a.4歸一化處理式3中的所述的字丁的寬度W和高度H分別設為48和96;
步驟b.1.1.2每個筆跡點的方向屬性系數的計算,其中的角度閾值參數α1~α9分別是α1=-10°,α2=260°,α3=280°,α4=250°,α5=300°,α6=330°,α7=60°,α8=120°,α1~α9浮動范圍是±5°;
步驟b.1.2.2 第二次搜索中,其dmax=4;
步驟c.特征的降維變換中,特征向量m取值為12。
全文摘要
本發(fā)明公開了一種聯機手寫藏文識別方法和識別系統,包括對手寫字丁模式進行預處理;對筆跡點的方向特征和字丁所占空間特征進行提取,用線性判別分析方法將高維特征進行降維變換,從而得到藏文字丁的識別特征;對標準二次分類器加以速度改進,得到快速二次分類器,用快速二次分類器進行藏文字丁的識別;對識別后的字丁再進行聯想音節(jié),最后輸入文本的是規(guī)范的藏文音節(jié)。本發(fā)明通過藏文字丁的預處理、特征的提取、特征變換、分類器設計和音節(jié)聯想,完成了一個完整的聯機手寫藏文識別系統。本發(fā)明用于計算機、手機等藏文聯機手寫識別輸入,具有較高的識別率,輸入速度快,性能穩(wěn)定等優(yōu)點。
文檔編號G06K9/72GK101510259SQ20091012859
公開日2009年8月19日 申請日期2009年3月18日 優(yōu)先權日2009年3月18日
發(fā)明者王維蘭 申請人:西北民族大學