專利名稱:利用部分特征空間上投影特征向量的模式識別裝置和方法
技術領域:
本發(fā)明涉及識別字符等的模式的技術,通過有效地減少指示模式的特征向量的維數來選擇特征。
最近,文檔識別技術,即采用電子技術手段匯存文檔,有效地執(zhí)行辦公室的工作流,并且當需要時對數據編碼,這樣的一種技術正被認真地提出需求。具體來說,字符識別技術,即文檔識別技術的一個方面,對于編碼字符串信息來說是十分重要的。在這種技術中,要求采用按所需的識別精度快速估計字符類型的方法,使這種字符識別技術能在各領域中投入實際應用。利用統(tǒng)計技術減少輸入字符的字符向量的維數來選擇特征的方法對于減少用校對識別字典進行校對的計算量是很有效的。因此,當生產實用的文檔識別裝置時,使用特征選擇法的字符識別技術將發(fā)揮重要的作用。對于生產用于識別非字符的各種模式的設備來說,這也是一種十分重要的技術。
下面首先介紹字符識別的一般概念,以字符做為模式的例子。
首先,當某個字符模式被輸入時,其尺寸將被規(guī)范化。
接著,將規(guī)范化得到的矩形字符區(qū)域劃分為形成該矩形字符區(qū)域的多個塊。例如,一個矩形字符區(qū)域可相等地劃分為3行3列的9塊或者6行6列的36個塊。
接著,存在于每塊中的指示字符輪廓的象素(輪廓象素)被提取。對于每個象素,確定包含象素的輪廓的方向。輪廓象素為直接對應某個字符區(qū)域的象素,或者也可以通過處理細線處理中的字符區(qū)域得到。上述方向可以是8個方向(上、下、左、右和4個對角線)中的一個,或者是進一步細化的36個方向中的一個。接著,對每個塊中的每個方向得到輪廓象素的數目。結果,對每個塊可得到某個部分特征向量,其維數等于方向的數目,其元素的值對應在該元素的方向上的輪廓象素的數目。對于每個輸入字符模式,可以得到包括對應被包含在對應的矩形字符區(qū)域中的每個塊的每個部分特征向量的所有元素的特征向量。
如果對于每個這樣得到的字符模式的特征向量被分類為目標字符的類型,則對每種字符類型形成一個群集(聚類),即對在所具有的維數對應該特征向量的元素數目的多維空間中相同類字符類型的字符模式的特征向量進行分組?;谶@樣的特征,對學習字符模式的特征向量進行分類,并且從被包含在該群集中的特征向量中計算出表示對應每個結果群集的字符類型的平均特征向量。平均特征向量是通過計算特征向量的每個元素的平均值得到的。每個字符類型的平均特征向量被存在字典中。
當實際識別某個字符時,輸入字符模式的特向向量被計算出來,然后再計算特征向量和進入字典的每個平均特征向量之間的距離。這樣,對應指示最短距離的平均特征向量的字符類型被估計為該輸入字符的類型。距離可以是歐幾里德距離或市街區(qū)距離。
當對整個特征空間計算距離時,需要對應該特征空間維數的時間長度。高速執(zhí)行這樣一種計算任務的一種眾所周知的方法是在減少特征空間的維數(例如,從384維減少到64維)后再計算距離。在特征空間中減少維數的方法被稱為特征選擇。用于特征選擇的一種具體方法可以是典型確認分析或主要部分分析。經實驗已確認,通過特征選擇,僅對原始維數的1/8,識別率幾乎沒有什么降低。反之,在特征選擇中,通過減少不需要的噪聲特征向量,也能夠提高識別率。
下面首先結合
圖1所示的配置介紹通過典型確認分析進行特征選擇的識別字符的常規(guī)技術。
如上所述,特征提取裝置101從被包含在9個類型的每個字符類型之(1≤i≤g)中的ni個字符模式的示例中提取由下面等式(1)所代表的ni組學習特征向量xj(i)(1≤j≤ni)。上標T表示矩陣(或向量)的轉置。
xj(i)=(xjk(i))=(xj1(i),…,xjN(i))T.....(1)下標K表示特征向量在范圍1≤K≤N內的元素數目。
在下面的描述中,帶下劃線的符號表示向量的數量,具有元素個數而沒有如上所述的下劃線的符號則表示向量的一個元素的值。
學習裝置102計算由下面等式(2)表示的平均特征向量m(i),對應和字符類型之相應的上述特征向量Xj(i)(1≤j≤ni)中的g個類型中的每個字行類型i(1≤i≤g)。
m(i)=(mk(i))=(m1(i),…,mN(i))T.....(2)學習裝置102從每個字符類型i的ni個示例和上述的平均特征向量m(i)中為所有的字符類型計算由下式(3)表示的平均特征向量(整體平均特征向量)m。
m=(mk)=(m1,…,mN)T……(3)接著,學習裝置102計算字符類型之間的方差矩陣Sb以及字符類型內部的方差矩陣SW,根據每個字符類型i的特征向量Xj(i),示例的個數ni,上述的平均特征向量m(i),以及整體的平均特征向量m,如下式(4)至(7)所示。下標P和q表示在范圍1≤p,q≤N中的特征向量的元素個數。
Sb=(bpq)……(4)bpq=Σi=1gni(mp(i)-mp)(mq(i)-mq)---(5)]]>SW=(Wpq)……(6)Wpq=Σi=1gΣj=1ni(Xjp(i)-mp(i))(Xjp(i)-mq(i))---(7)]]>而且,學習裝置102利用上述的字符類型之間的方差矩陣Sb和字符類型內部的方差矩陣SW來滿足下面的等式(8),并計算N組特征向量φk(維數為N且其長度為1)和一組特征根λk(1≤K≤N)。
SbφK=λKSWφK(1≤K≤N)λ1≥λ2≥…≥λN……(8)接著,學習裝置102從對應被計算的N個特征向量φK的特征根λK中選取較大的M(M<N)個特征向量φh(1≤h≤M),并將其存放在特征向量存儲裝置103中。
學習裝置102通過計算上述M個特征向量φh(1≤h≤M)與每個字符類型i的N維平均特征向量m(i)的內積,為每個字符類型之計算M維的平均選擇特征向量m(i),由下式(9)所示。接著,將其存放在識別字典裝置104中。
m(i)’=(mh(i)’)=(φ1Tm(i),φ2Tm(i),…,φMTm(i))……(9)這里的下標h表示在范圍1≤h≤M中選擇特征向量的元素個數。這樣,通過對被存放在字典中的每個字符類型的平均特征向量,將N維減少為M維,執(zhí)行特征選擇處理。這種特征選擇處理等同于將一個N維的平均特征向量投射在用M個特征向量φh定義的M個座標軸上的處理過程,因此,字符類型之間的方差可以被擴大,而字符類型內部的方差可以被減少,即,使得不同類型的字符可以被區(qū)分,而相同類型的字符在經過由M個特征向量φh所規(guī)定的特征選擇之后,能被收集在一個空間中。即,在典型確認分析中,對應所有目標字符類型的原始特征空間中的所有群集都被轉換為新的空間。
當實際識別某個字符時,特征提取裝置101從其字符類型未知的輸入字符模式中提取由下式(10)所表示的N維特征向量X。
X=(XK)=(X1,…,XN)T……(10)這里的下標K指示在特征選擇前在1≤K≤N的范圍內特征向量的元素個數。
特征選擇裝置105計算M維選擇特征向量Y,通過計算M個特征向量φh(1≤h≤M)以及存放在特征向量存儲裝置103中的N維特征向量X的內積,由下式(11)表示。
y=(yh)=(φ1TX,φ2TX,…φMTX) ……(11)這樣,通過對輸入的特征向量將N維減少為M維來執(zhí)行特征選擇處理。
最后,校對裝置106為每個字型類型i計算出M維選擇特征向量Y和存放在識別字典104中的每個平均選擇特征向量m(i)之間的每個歐幾里德距離d(i),利用下面的等式(12)。d(i)={Σh=1M(yh-mh(i)')2}1/2---(12)]]>接著,校對裝置106輸出對應具有最短距離d(i)的平均選擇特征向量m(i)的字符類型i做為被估計的字符類型。
根據上述的利用典型確認分析做為特征選擇的常規(guī)技術,用來計算距離的元素個數被從N項減少為M項。因此,通過近似地將M設置為N的1/8,就能大大地提高識別速度。
然而,根據利用典型確認分析做為特征選擇的常規(guī)技術,不能保證M個特征向量φh(1≤h≤M)互相正交。因此,如果新的特征空間被定義在這些特征向量φh的基礎上,目標字符的特征向量X被投影在對應上述M個特征向量φh的M個座標軸上,并且如果在投影結果,即選擇特征向量Y和每個字符類型i的平均選擇特征向量m(i)之間的歐幾里德距離被計算時,則該距離可能會和在原始的N維特征空間中的距離大不一樣。
為了容易理解,假定特征選擇前的維數為3,而特征選擇后的維數為2,如圖2所示。
在特征選擇前3維特征空間中特征向量X2和特征向量X1之間的歐幾里德距離dorg由下式(13)得到。
dorg=||x2-x1||{(a1Tx2-a1Tx1)2+(a2Tx2-a2Tx1)2+(a3Tx2-a3Tx1)2}1/2……(13)而特征選擇后在2維特征空間中的特征向量X2和特征向量X1之間的近似的歐幾里德距離dnew由下式(14)得到。
dnew={(φ1Tx2-φ1Tx1)2+(φ2Tx2-φ2Tx1)2}1/2……(14)在上面的等式(14)中,右手邊上每一項中的物理量由圖2所示。如圖2所示,等式(14)并不基于勾股定理。在特征選擇后的2維特征空間中的歐幾里德距離dnew完全不同于特征選擇前3維特征空間中的歐幾里德距離dorg。
根據使用典型確認分析做為特征選擇的常規(guī)技術,特征向量X的投影和由典型確認分析法得到的M個特征向量φh(1≤h≤M)的組合并不能看作原始特征空間的部分特征空間上的特征向量X的投影,因此在識別字符中將導致精度的降低。所以,實現(xiàn)具有實用識別精度的字符識別裝置是很困難的。
利用主要部分分析法,即特征選擇的另一種方法,需要對每種字符類型計算出一組能使每個字符類型互相區(qū)分的主要部分向量(每種字符類型對應一組主要部分向量)。使用這種分析方法,不是為了確定多類字符而對字符分類,而是當特征空間相鄰區(qū)域中存在類似的字符類型時,通過將某個目標字符的特征向量投影到對應每種字符類型的主要部分向量以獲得正確的識別結果。即,在主要部分分析法中,為每個字符類型生成指定某個主要部分向量做為座標軸的新的獨立空間。因為在目標字符的特征向量被投影在每個字符類型的主要部分向量上之后才計算目標字符和每個字符類型之間的距離,因此,當涉及大量的字符類型時,就需要大量的計算。所以,該分析方法主要用于,例如,確定諸如數字字符、少量類型的字型等這樣的字符。
特征向量距離的定義涉及Mahalanobis距離和貝葉斯(Bayes)距離。當某種識別裝置利用這些距離設計時,在做了這樣的限制后再計算距離,即,用來計算距離的座標軸應互相正交。因此,典型確認分析法中的問題不會出現(xiàn)在該方法中,但存在的問題是計算被復雜化且需要進行大量的計算。
上述的問題不僅涉及字符識別裝置,而且對于通過特征向量識別其它的各種模式(例如圖像模式、聲音模式等)的技術也同樣存在。
本發(fā)明是基于上述的背景而被開發(fā)的,目的是利用某種特征選擇方法減少特征向量的維數,實現(xiàn)能在高速執(zhí)行識別過程的同時保持識別精度的一種模式識別裝置,以便識別各種模式。
本發(fā)明的第一方面是基于一種模式識別裝置,該裝置利用代表例如某個輸入字符模式等一類的輸入模式的特征的輸入特征向量來識別某個輸入模式。
首先,本發(fā)明包括輸入特征向量提取裝置,用于提取代表輸入模式的特征的輸入特征向量。
還包括規(guī)范正交基存儲裝置,用于保存原始特征空間的部分特征空間的規(guī)范正交基。
還包括識別字典裝置,存放對應一個或多個目標模式在部分特征空間中被規(guī)定的每個字典選擇特征向量。
進一步包括特征選擇裝置,利用被存放在規(guī)范正交基存儲裝置中的規(guī)范正交基,計算被投影在由輸入特征向量提取裝置所提取的輸入特征向量的部分特征空間上的輸入選擇特征問量。
還包括校對裝置,通過校對由字符選擇裝置計算出來的輸入選擇特征向量和存放在識別字典裝置中的每個字典選擇特征向量,識別對應該輸入選擇特征向量的輸入模式的類型。這種校對是通過例如計算輸入選擇特征向量和每個字典選擇特征向量之間的距離并互相比較所得到的距離的值來實現(xiàn)的。距離可以是,例如,基于歐幾里德距離,市街區(qū)距離或棋盤距離等的距離。
本發(fā)明的第二方面是基于模式學習裝置,用于計算規(guī)范正交基和由根據本發(fā)明第一方面的模式識別裝置得到的每個字典選擇特征向量。
首先,本發(fā)明包括學習特征向量提取裝置,用于提取代表學習模式的特征的每個學習特征向量。
還包括規(guī)范正交基計算裝置,根據由學習特征向量提取裝置所提取的學習特征向量計算部分特征空間的規(guī)范正交基。
還包括字典特征向量計算裝置,用于計算在對應基于由學習特征向量提取裝置所提取的學習特征向量的每個目標模式的原始特征空間中指定的每個字典特征向量。
進一步包括字典選擇特征向量計算裝置,利用規(guī)范正交基計算裝置所計算的規(guī)范正交基計算被投影在由字典特征向量計算裝置所計算出來的每個字典特征向量的部分特征空間上的每個字典選擇特征向量。
根據本發(fā)明第一或第二方面的配置,可以計算正交基,例如,在學習模式的學習特征向量上執(zhí)行典型確認分析之后,從具有最大特征根的一個開始,順序計算少于原始特征空間的維數的預定數目的特征向量,并且,從具有最大特征根的一個開始,順序地規(guī)范正交化預定數目的特征向量。
根據本發(fā)明的第一或第二方面的配置,將輸入特征向量或字典特征向量投影在部分特征空間上得到的輸入選擇特征向量或字典選擇特征向量可以被配置得似乎是將輸入特征向量或字典特征一投射在正交基向量上得到的一樣。此外,做為投影結果得到的輸入選擇特征向量或每個字典選擇特征向量可以被配置得似乎是做為計算輸入特征向量或字典特征向量與每個正交基向量的內積后所得到的結果。
根據上述的本發(fā)明第一或第二方面,字典選擇特征向量可以被配置得似乎基于做為每類目標模式的特征向量的平均向量得到的平均特征向量。
本發(fā)明可以被配置到具有根據上述的本發(fā)明第一或第二方面的功能。
本發(fā)明也可以被配置成為計算機可讀的存儲介值,被用來指導計算機執(zhí)行根據上述的本發(fā)明第一或第二方面的功能。
正如上述配置所指出的那樣,本發(fā)明通過減少在常規(guī)技術中那樣的距離計算中的元素個數來實現(xiàn)高速識別。而且,本發(fā)明的唯一特征是通過將特征向量投影在原始特征空間的部分特征空間上來存儲距離的,由此實現(xiàn)具有實用識別精度的字符識別裝置。
在這種情況下,在用常規(guī)的典型確認分析法等方法計算特征向量之后,利用規(guī)范正交化的一個簡單遞歸方程計算正交基向量,就能用簡單的處理計算得到正交基。
可以預料在字符類型內部方差可以被最小化而字符類型之間的方差可以被最大化的典型確認分析法中,通過規(guī)范正交化上述的特征向量,其特征可能會在某種程度上受到損失。然而,從實驗中知道,通過提高由正交化距離計算的規(guī)范化得到的識別率,就足以補償識別率的這種損失,由此確切地顯示出本發(fā)明的意義。
對于一般熟悉本技術的人來說,結合附圖和本發(fā)明的最佳實施例說明,就能很容易地理解本發(fā)明的其他目的和特征。
圖1表示常規(guī)技術的配置;圖2表示常規(guī)技術的問題;圖3表示根據該最佳實施例的配置;圖4表示本發(fā)明的最佳實施例的原理;圖5是一個流程圖,表示在本發(fā)明最佳實施例中學習過程的操作;圖6是一個流程圖,表示計算字符類型之間方差矩陣Sb的過程;圖7是一個流程圖,表示計算字符類型內部方差矩陣Sw的過程;圖8是一個流程圖,表示計算正交基向量的過程;以及圖9表示計算ψh的過程。
圖10表示實施最佳實施例的系統(tǒng)結構。
結合附圖順序地介紹本發(fā)明的最佳實施例。
根據本發(fā)明的最佳實施例,在根據典型確認分析法從具有最大特征值的一個開始順序計算M個特征向量φh(1≤h≤M)之后,再利用施密特(schmidt)規(guī)范正交化方法規(guī)范正交化特征向量φh計算M個規(guī)范正交基向量ψh(1≤h≤M)。接著,通過將N維特征向量投射在上述的M個規(guī)范正交基向量ψh上來計算選擇特征向量。利用選擇特征向量執(zhí)行識別處理,并通過特征選擇方法減少特征一的維數。因此,根據本發(fā)明,既能高速執(zhí)行識別處理,又能保持高識別精度。
為了便于理解,假定在特征選擇前的維數為3,而特征選擇后的維數為2,如圖4所示。
首先,在根據典型確認分析法從具有最大特征值的一個開始順序計算兩個特征向量φ1和φ2之后,再利用施密特規(guī)范正交化方法規(guī)范正交化特征向量來計算兩個規(guī)范正交基向量ψ1(=φ1)和ψ2。
在特征選擇之前,在3維特征空間中從特征向量X2到特征向量X1的歐幾里德距離dorg由上述的等式(13)得到。
特征選擇后,在2維特征空間中從特征向量X2到特征向量X1的近似歐幾里德距離dnew由下式(15)得到。
dnew={(φ1Tx2-φ1Tx1)2+(φ2Tx2-φ2Tx1)2}.....(15)在上述的等式(15)中,右手邊每一項的物理量如圖4所示。正如圖4中所清楚表示的那樣,等式(15)基于勾股定理,而且特征選擇后的在2維特征空間中的歐幾里德距離dnew近似于特征選擇前在3維特征空間中的歐幾里德距離dorg。
上述的原理適用于維數很大的情況。在下面實際介紹的最佳實施例中,在正交基向量ψh上特征向量X的每個投影的組合等于在原始特征空間的部分特征空間上特征向量X的投影。結果,即使在特征選擇之后,也能保證足夠的字符識別精度。
圖3表示根據上述原理的最佳實施例的配置。
首先,在學習過程中,特征提取裝置301和學習裝置302執(zhí)行圖5中的流程圖所表示的學習過程。
特征提取裝置301在步503中從被包含在每個字符類型之中的ni個字符模式的示例中提取由上述等式(1)指示的ni組學習特征向量Xj(i)(1≤j≤ni)。在示例數目字在步502被置為1之后,由步504對示例數目字增1,重復執(zhí)行步503中的處理直到在步505中判定示例數字已經超出了字符類型i的示例數ni。因此,字符類型i的nj組學習特征向量Xj(i)被提取。
接著,學習裝置302利用上述步502至505中得到的對應字符類型i的ni組學習特征向量Xj(i),通過對向量的每個元素的位置計算向量元素的平均值,對一個字符類型i計算由對應字符類型i的等式(2)所代表的平均特征向量m(i)。
在將字符類型數i在步501置為1之后,由步507對字符類型數i增1,執(zhí)行步502至步506中的處理,直到在步508中判定字符類型數i已經超過了字符類型的總數g。因此,對字符類型i的g次變化(1≤i≤g),在ni組學習特征向量Xj(i)和一個平均特征向量m(i)上順序執(zhí)行計算處理。
接著,在步509中,學習裝置302從每個字型類型i的ni個示例中計算出由上述等式(3)所示的所有字型類型的平均特征向量(總體平均特征向量)m的每個元素mk,上述平均特征向量m(i)的每個元素mk(i)由下式(16)所示mk=(Σi=1gmk(i).ni)/Σi=1gni---(16)]]>在步510中,學習裝置302根據每個字符類型i的特征向量Xj(i)、示例的個數ni、平均特征向量m(i)以及總體平均特征向量m計算字符類型之間的方差矩陣Sh。圖6的流程圖表示這一過程的細節(jié)。
在第一元素個數P在步601被設置為1之后,在步610中增1直到在步611中確定元素個數P已經超出個數N。在第二元素數q在步602被置為1之后,在步608中被增1,直到在步609中被確定該元素數q已經超出個數N。在步603至步607中對由這些控制循環(huán)確定的每組第一元素數P和第二元素數q。通過上述的等式(5)執(zhí)行計算。
即,在步604中,被包含在由第一元素數P和第二元素數q確定的字符類型之間方差矩陣Sb中的元素值bpq被清零,并且在字符類型數i在步603中被置為1后,在步606中增1直到在步607中確定字符類型數i已經超過了字符類型的總數g。接著,在步605中,利用下式(17)重復執(zhí)行計算得到元素值bpq。
bpq=bpq+ni(mp(i)-mp)(mq(i)-mq).....(17)被包含在字符類型之間的方差矩陣Sb中的所有元素值bpq都是由第一元素數P和第二元素數q的組合確定的,利用步601、602和608至611中的控制循環(huán),在步603至607中重復執(zhí)行這些處理過程。
接著,在步612中,字符類型之間的方差矩陣Sb被輸出,做為由上述等式(4)所計算的一組所有的元素值bpq。
在步510中,學習裝置302得到字符類型之間的方差矩陣Sb,如圖5所示,并且在步511中,根據特征向量Xj(i)、示例的個數ni以及平均特征向量m(i)計算字符類型內部的方差矩陣Sw。圖7為這些處理過程細節(jié)的流程圖。
在步701中,第一元素數P被置為1,接著在步713中增1直到在步714中確定第一元素數P已經超出了個數N。第二元素數q在步702中被置為1并在步711中增1直到在步712中被判定第二元素數q已經超過個數N。在步703至710中,對由控制循環(huán)確定的每組第一元素數P和第二元素數q,由上述的等式(7)執(zhí)行計算過程。
即,在步705中,被包含在由第一元素數P和第二元素數q確定的字符類型內部的方差矩陣Sw中的元素值Wpa被清零,并且在字符類型數i在步703被置為1之后,在步709中對字符類型數i增1,直到在步710中確認字符類型數i已經超過字符類型的總數g。接著,重復執(zhí)行步706至708中的循環(huán)。而且在該循環(huán)中,示例數字在步704中被置為1,并且在步707中增1直到在步708中被確認示例數字已經超出示例的總數ni。接著,在步706中,由下式(18)重復執(zhí)行計算過程得到元素值Wpq。
Wpq=Wpq+(xjp(i)-mp(i))(xjq(i)-mq(i)) .....(18)
所有被包含在字符類型內部的方差矩陣Sw中的元素值Wpq都是由第一元素數P和第二元素數q的組合確定的,利用步701、702以及711至714中的控制循環(huán),在步703至710中重復執(zhí)行這些處理。
接著,在步715中,字符類型內部的方差矩陣Sw被輸出做為由上述等式(6)計算出來的一組所有的元素值Wpq。
學習裝置302利用圖5所示的步510中計算的字符類型之間的方差矩陣Sb,以及在步511中計算的字符類型內部的方差矩陣Sw,在步512中滿足上述的等式(8),然后對N組特征向量φk和特征值λk(1≤k≤N)執(zhí)行計算過程。由于該計算過程是眾所周知的,因此在這里忽略了詳細的解釋。學習裝置302在步512中從N個字符向量φk中選擇具有較大的特征值λk的M(M<N)個特征向量φh(1≤h≤M)。
在步513中,學習裝置302通過規(guī)范正交化上述的特征向量φh(1≤h≤M)計算出M個規(guī)范正交基向量ψh(1≤h≤M)。所用的規(guī)范正交方法可以是施密特規(guī)范正交化方法。在這種規(guī)范正交化中,從具有較大的特征值λh的特征向量φh開始順序地計算M個規(guī)范正交基向量ψh(1≤h≤M),通過執(zhí)行由下面的等式(19)和(20)所代表的遞歸方程以及由式(21)表示的規(guī)范化方程實現(xiàn)。
φ1=φ1.....(19)th=φh-Σi=1h-1(φiTφi)φi--(2≤h≤M)---(20)]]>φh=th/‖th‖ .....(21)這里,如圖9和等式(20)所示的那樣,向量th和基于具有大于當前被處理的特征向量φh特征值的特征向量φi(1≤i≤h-1)得到的所有規(guī)范正交基向量ψi(1≤i≤h-1)正交,并且順序地對應從具有較大的特征值的特征向量開始的特征向量φh。接著,利用式(21)將向量th的長度規(guī)范化為1,計算對應特征向量φh的規(guī)范正交基向量ψh。
圖8為圖5中所示的步513中的詳細處理過程的流程圖。
首先,學習裝置302在步801中利用方程(19)執(zhí)行計算過程。
學習裝置302在步802中置維數h為2,接著重復執(zhí)行步803中對應等式(20)的計算過程和步804中對應等式(21)的計算過程,維數h增1直到在步806中判定維數h已經超過維數M。
在根據本實施例如上所述利用常規(guī)的典型確認分析法計算特征向量φh之后,利用簡單的遞推方程就能計算規(guī)范正交基向量ψh。
在圖5所示的步513中,學習裝置302將上述計算得到的M個規(guī)范正交基向量ψh(1≤h≤M)存儲在部分本征空間的規(guī)范正交基存儲裝置303中。
接著,在圖5所示的步514中,學習裝置302計算每個字符類型i的M維平均選擇特征向量m(i),通過對每個字符類型i用下面的等式(22)計算上述的M個規(guī)范正交基向量ψh(1≤h≤M)和在步506中得到的N維平均特征向量m(i)的內積。接著,將結果存在識別字典裝置304中。
m(i)′=(mh(i)′)=(ψ1Tm(i),ψ2(i)m(i),…,ψMTm(i)).....(22)這里的下標h表示在1≤h≤M的范圍內選擇特征向量的元素個數。因此,特征選擇處理過程,即,將形成字典一部分的每個字符類型的平均特征向量的維數從N維減少為M維的處理過程被執(zhí)行。根據本實施例的特征選擇處理過程相當于將N維平均特征向量投射在由M個規(guī)范正交基向量ψh指定的M個座標軸上,因此字符類型之間的方差可以被增加,而字符類型內部的方差則可以被減少,正如在常規(guī)的技術中一樣。由于M個規(guī)范正交基向量ψh互相正交,因此,上述的投影過程等價于將N維平均特征向量投射在原始空間的部分特征空間上。結果,在原始特征空間中的向量之間的距離對應在由M個規(guī)范正交基向量ψh指定的部分特征空間中的向量之間的距離,如圖4所示。
如上所述,學習裝置302執(zhí)行根據圖5所示流程圖的學習過程。
當實際識別某個字符時,特征提取裝置301從具有未知字符類型的輸入字符模式中提取由上述等式(10)所指示的N維特征向量X。
接著,特征選擇裝置305通過獲取存放在部分特征空間中的規(guī)范正交基存儲裝置303中的M個規(guī)范正交基向量ψh(1≤h≤M)和N維特征向量X的內積來計算M維選擇特征向量Z,如下式(23)所示。
z=(zh)=(ψ1Tx,ψ2Tx,…,ψMTx)T.....(23)接著,輸入特征向量被投射(特征選擇)在M維部分特征空間上。
最后,校對裝置306對每個字符類型之用下式(24)計算(例如)M維選擇特征向量Z和存放在識別字典裝置304中的平均選擇特征向量m(i)之間的歐幾里德距離。d(i)={Σh=1M(zh-mh(i)')2}1/2---(24)]]>校對裝置306輸出對應具有最短距離d(i)的平均選擇特征向量m(i)’的字符類型i,做為對應輸入字符模式的估算字符類型。
根據上述的最佳實施例,識別過程可以被大大加速,因為距離計算中元素的個數從N項被減少到M項,正如在常規(guī)的技術中一樣。而且,本發(fā)明通過將特征向量投射到原始特征空間的部分特征空間上來存儲距離的值,由此實現(xiàn)具有實用識別精度的字符識別裝置。
可以預料在字符類型內部的方差被最小化而字符類型之間的方差被最大化的典型確認分析法中,其特征將稍微受到損失。從實驗結果看,識別率的這種降低可通過正交化的距離計算規(guī)范化提高識別率來得到更多的補償。因此,本發(fā)明的有效性已被實踐證明。
根據上述的最佳實施例,歐幾里德距離被用作向量之間的距離。然而,本發(fā)明并不局限于這種應用,基于歐幾里德距離的其他距離,市于區(qū)距離、棋盤距離等,也可以被使用。向量X1和向量X2之間的市街區(qū)距離d是由下面的等式定義的。然而,X1h和X2h分別為向量X1和X2的元素。距離的計算是沿著座標軸的垂直或水平的向進行的。d=Σh=1M|x1h-x2h|---(25)]]>
而向量X1和X2之間的棋盤距離d是由下式定義的。沿著座標軸的垂直、水平或對角線方向中的一種方向計算出最短的距離。
d=max|x1h-x2h| .....(26)h本發(fā)明并不局限于在上述最佳實施例中所介紹的字符識別裝置,也可以被應用到各種模式識別裝置中。
此外,本發(fā)明也包括例如軟盤、CD-ROM(只讀光盤),光盤和可裝卸式硬盤等一類的存儲介質,存放計算機程序以實現(xiàn)上述的模式識別功能。
圖10表示實現(xiàn)上述最佳實施例的系統(tǒng)結構。
掃描儀裝置1001、中央處理器(CPU)1003、隨機訪問存儲器(RAM)1004、硬盤驅動器1005以及CD-ROM驅動器1006被連接到公共總線1001上。
CD-ROM介質存放計算機程序以實現(xiàn)上述的模式識別功能。該程序通過CD-ROM驅動器1006和公共總線1001被裝入到硬盤驅動器1005上。
CPU1003將程序從硬盤驅動器1005中裝入隨機存取存儲器1004并執(zhí)行這些程序。結果,對通過掃描儀裝置1002讀入的字符模式執(zhí)行上述的模式識別過程。
權利要求
1.利用代表輸入模式特征的特征向量識別某個輸入模式的模式識別裝置,包括輸入特征向量提取裝置,用于提取代表該輸入模式的特征的輸入特征向量;規(guī)范正交基存儲裝置,用于存放原始特征空間的某個部分特征空間的規(guī)范正交基;識別字典裝置,存放對應將被識別的一個或多個目標模式的部分特征空間中所規(guī)定的每個字典選擇特征向量;特征選擇裝置,利用存放在所述規(guī)范正交基存儲裝置中的規(guī)范正交基,將由所述輸入特征向量提取裝置所提取的輸入特征向量投影在部分特征空間上,由此計算出輸入選擇特征向量;以及校對裝置,通過用存放在所述識別字典裝置中的每個字典選擇特征向量校對由所述特征選擇裝置計算出來的輸入選擇特征向量來識別對應輸入選擇特征向量的輸入模式的類型。
2.用在權利要求1的模式識別裝置中的一種模式學習裝置,用于計算規(guī)范正交基和每個字典選擇特征向量,包括學習特征向量提取裝置,用于提取代表學習模式的特征的學習特征向量;規(guī)范正交基計算裝置,根據由所述學習特征向量提取裝置所提取的多個學習特征向量計算部分特征空間的規(guī)范正交基;字典特征向量計算裝置,根據所述學習特征向量提取裝置所提取的多個學習特征向量,計算對應將被識別的每個目標模式的原始特征空間中所規(guī)定的每個字典特征向量;以及字典選擇特征向量計算裝置,利用由所述規(guī)范正交基計算裝置計算出來的規(guī)范正交基,通過將由所述字典特征向量計算裝置計算出的每個字典特征向量投射到該部分特征空間上、計算出每個字典選擇特征向量。
3.根據權利要求1的模式識別裝置,其中,所述的規(guī)范正交基是這樣計算出來的通過對多個學習特征向量執(zhí)行典型確認分析,從具有最大特征值的一個開始,順序計算出比原始特征空間的維數少的預定數目的特征向量;并且通過從具有最大的特征值的一個開始順序地規(guī)范正交化預定的特征向量計算出預定數目的規(guī)范正交基向量。
4.根據權利要求1的模式識別裝置,其中,將輸入特征向量或每個字典特征向量投射在部分特征空間上得到的所述輸入選擇特征向量或每個所述字典選擇特征向量是通過將輸入特征向量或每個字典特征向量投射在規(guī)范正交基向量上得到的。
5.根據權利要求4的模式識別裝置,其中,將輸入特征向量或每個字典特征向量投射在規(guī)范正交基向量上得到的所述輸入選擇特征向量或每個所述字典選擇特征向量,是做為計算輸入特征向量或每個字典特征向量和規(guī)范正交基向量的內積的結果。
6.根據權利要求1的模式識別裝置,其中,所述字典選擇特征向量基于表示每類將被識別的目標模式的特征向量的平均值的平均特征向量。
7.根據權利要求1的模式識別裝置,其中通過計算輸入選擇特征向量和每個字典選擇特征向量之間的距離并相互比較得到的距離值,用每個字典選擇特征向量校對所述輸入選擇特征向量。
8.根據權利要求7的模式識別裝置,其中,所述距離基于某個歐幾里德距離。
9.根據權利要求7的模式識別裝置,其中所述距離基于市街區(qū)距離。
10.根據權利要求7的模式識別裝置,其中所述距離基于棋盤距離。
11.根據權利要求1的模式識別裝置,其中所述模式為字符模式。
12.利用代表輸入模式的特征的輸入特征向量識別輸入模式的模式識別方法,包括步驟提取代表輸入模式的特征的輸入特征向量;存儲原始特征空間的部分特征空間的規(guī)范正交基;存儲對應將被識別的一個或多個目標模式的部分特征空間中規(guī)定的每個字典選擇特征向量;利用規(guī)范正交基將對應輸入模式的被提取的輸入特征向量投射到部分特征空間計算出輸入選擇特征向量;并且通過用每個字典選擇特征向量校對輸入選擇特征向量,識別對應輸入選擇特征向量的輸入模式的類型。
13.用在權利要求12的模式識別方法中的模式學習方法,用于計算規(guī)范正交基和每個字典選擇特征向量,包括步驟提取代表某個學習模式的特征的學習特征向量;根據多個被提取的學習特征向量計算部分特征空間的規(guī)范正交基;利用多個學習特征向量,計算對應每個將被識別的目標模式在原始特征空間中指定的每個字典特征向量;并且利用規(guī)范正交基,通過將每個字典特征向量投射在部分特征空間上,計算每個字典選擇特征向量。
14.利用代表輸入模式的特征的輸入特征向量識別輸入模式的模式識別裝置,包括特征向量提取裝置,用于提取代表輸入模式特征的輸入特征向量或代表學習模式特征的學習特征向量;規(guī)范正交基存儲裝置,存儲原始特征空間的部分特征空間的規(guī)范正交基;識別字典裝置,存放對應將被識別的一個或多個目標模式在部分特征空間中規(guī)定的每個字典選擇特征向量;規(guī)范正交基計算裝置,根據由所述特征向量提取裝置所提取的多個學習特征向量計算部分特征空間的規(guī)范正交基,并且將計算結果存放在所述規(guī)范正交基存儲裝置中;字典特征向量計算裝置,根據由所述特征向量提取裝置所提取的多個學習特征向量,計算對應將被識別的每個目標模式在原始特征空間中規(guī)定的每個字典特征向量;字典選擇特征向量計算裝置,利用由所述規(guī)范正交基計算裝置計算出來的規(guī)范正交基,通過將由所述字典特征向量計算裝置計算出來的每個字典特征向量投射到部分特征空間上來計算每個字典選擇特征向量,并且將計算結果存放在所述識別字典裝置中;特征選擇裝置,利用存放在所述規(guī)范正交基存儲裝置中規(guī)范正交基,將由所述特征向量提取裝置提取的輸入模式的輸入特征向量投射在部分特征空間上,計算出輸入選擇特征向量;校對裝置,通過用由所述識別字典裝置存儲的每個字典選擇特征向量校對由所述特征選擇裝置計算出來的輸入選擇特征向量,識別對應輸入選擇特征向量的輸入模式的類型。
15.用于指導計算機執(zhí)行如下功能的計算機可讀介質提取代表輸入模式的特征的輸入特征向量;存放原始特征空間的部分特征空間的規(guī)范正交基;對應將被識別的一個或多個目標模式,存放在部分特征空間中規(guī)定的每個字典選擇特征向量;利用規(guī)范正交基,通過將對應該輸入模式所提取的輸入特征向量投射到部分特征空間上,計算出輸入選擇特征向量;并且通過用每個字典選擇特征向量校對該輸入選擇特征向量,識別對應輸入選擇特征向量的輸入模式的類型。
16.用來指導計算機執(zhí)行以下功能的計算可機讀介質提取代表學習模式特征的學習特征向量;根據多個被提取的學習特征向量計算出部分特征空間的規(guī)范正交基;根據多個學習特征向量,計算出對應每個將被識別的目標模式在原始特征空間中規(guī)定的每個字典特征向量;并且通過將每個字典特征向量投射在部分特征空間上來計算出每個字典選擇特征向量。
全文摘要
特征提取裝置從輸入字符模式中提取輸入特征向量。學習裝置計算并存儲原始特征空間的部分本征空間的規(guī)范正交基。學習裝置計算并存儲對應每個目標字符模式在部分本征空間中規(guī)定的每個字典選擇特征向量。特征選擇裝置利用上述的規(guī)范正交基,通過將由特征提取裝置所提取的輸入選擇特征向量投射在部分本征空間上來計算輸入選擇特征向量。校對裝置校對上述的輸入選擇特征向量,估算該輸入字符模式的類型。
文檔編號G06K9/62GK1167949SQ97103439
公開日1997年12月17日 申請日期1997年3月10日 優(yōu)先權日1996年6月6日
發(fā)明者藤本克仁, 鐮田洋 申請人:富士通株式會社