專利名稱:統(tǒng)計學在線字符識別的制作方法
技術領域:
本發(fā)明涉及在線字符識別(OLCR)。
背景技術:
當今的許多電子設備和計算應用包括手寫輸入(或者筆輸入)作為其功能的一部 分。基于筆的輸入例如,在缺少全鍵盤的裝置中可以是特別有用的。一個可能的應用包括 用手寫即時信息(IM)。這為某些用戶提供了一種更加舒適的人初接口。為了將手寫字符準 確翻譯成數(shù)字字符,經(jīng)常使用某種形式的手寫識別。手寫識別是個難題,尤其對于那些包含 了巨大字符集的語言,例如一些東方語言。手寫識別方法典型地可以細分為兩類。離線字符識別包括將手寫的靜態(tài)表示轉換 為數(shù)字數(shù)據(jù)。在線字符識別(OLCR)包括在被寫時感應手寫字符,并將其轉化為數(shù)字字符。 在OLCR中,可得到有關手寫筆劃方向的信息以用在識別方法中,而在離線字符識別中,系 統(tǒng)一般只接收手寫的靜態(tài)圖像,不包括這些方向信息。由于在OLCR中比離線字符識別有著 更多的可用信息,因此OLCR提供了更多的可能性去準確識別和將手寫字符轉換為數(shù)字字 符。因此,雖然每類都可以使用筆輸入裝置,OLCR在這樣的背景下通常被給予更多關注。OLCR的一種形式利用了結構識別,包括基于這些字符的結構描述或表示進行分 析。更具體的,結構識別包括檢查該手寫中多個符號的結構,例如,將該手寫作為復合二維 結構的空間布置進行檢查。因此結構分析可以包括檢查例如字母和數(shù)字這樣的基本符號, 以及綁定、分隔和操作符號、它們的分組標準、在表達式中符號間顯型或隱性的關系、基于 上下文符號的不同含義等。結構分析方法可以采用邊界框方法來檢查該邊界框中的符號信 息和子表達式,來計算符號間的距離和方向。統(tǒng)計學結構模型也受到了不斷的關注。統(tǒng)計學結構模型的大部分步驟與結構識別 相同,但是這些結構元的關系被概率性地測量。具體來說,隱性馬可夫模型(HMM)被廣泛地 應用于統(tǒng)計學結構識別中。由于結構方法和統(tǒng)計學結構識別方法都是基于目標語言的特定 字符集的復合分析,所以這些方法不是很適用。例如,韓語字符的結構或統(tǒng)計學結構識別方 法不能輕易地被適用于日語字符。因此,需要改進0LCR。
發(fā)明內(nèi)容
統(tǒng)計學OLCR方法利用統(tǒng)計學識別,也就是說,字符被統(tǒng)計地表示。不同于將分類 與特征表示法綁定的結構識別方法,統(tǒng)計學識別可以使用標準統(tǒng)計學技術生成特征模式。 也就是說,統(tǒng)計學識別方法可以嘗試新的分類技術(例如,對于一個新字符集,比如對一種 新語言)而不需要全部重新設計。一些統(tǒng)計學識別技術將字符映射為2D圖像,然后利用圖 片模式識別技術。額外地,當今一些離線識別方法可以適用于在線識別(例如,使用字符點 的方向特征)。統(tǒng)計學識別方法相對于結構識別方法帶來了更大靈活度,具有優(yōu)秀的識別準 確度,而不需要字符集的結構化分析。
5
本發(fā)明的實施例涉及統(tǒng)計學手寫識別系統(tǒng)和方法。一個實施例涉及產(chǎn)生用于在線 字符識別中的模式的方法。也就是說,基于預先識別的字符樣本集,統(tǒng)計學算法可以訓練自 身來找到或者產(chǎn)生存在字符樣本的每類字符的模式。這些模式因而在以后可被用于實際的 字符識別。因此,另一個實施例涉及利用預定模式來識別手寫字符的方法。根據(jù)不同的實 施例,每種方法可以由執(zhí)行存儲在存儲介質(zhì)上的程序指令的處理器來實現(xiàn)。一種產(chǎn)生用于在線字符識別的模式的方法可以包括對第一字符樣本執(zhí)行各種操 作??梢詫Φ谝蛔址麡颖緢?zhí)行一個或多個預處理操作。例如,可以從該第一字符樣本中去 除噪聲點。對該第一字符樣本執(zhí)行線性尺寸規(guī)范化。可以對該第一字符樣本執(zhí)行非線性形 態(tài)規(guī)范化。也可在該第一字符樣本中加入虛構筆劃和/或虛構點。該第一字符樣本可以被 重新采樣。該第一字符樣本可以被平滑。根據(jù)不同的實施例,可以對該第一字符樣本執(zhí)行 這些操作中的任何一個或全部或其他操作,并且每個操作能以多種方式實現(xiàn)。對該第一字符樣本也可以執(zhí)行一個或多個特征提取操作。例如,可以基于該第一 字符樣本中每個點的方向提取方向特征??梢曰谠摲较蛱卣鞫煞较蚰J綀D像。該方 向模式圖像可以采用Gabor濾波器進行濾波。特征向量可以基于該濾波后的方向模式圖像 來形成。該特征向量可以包括多個方向向量。在某些實施例中,這樣的方向向量中的至少兩 個可以不同地被加權;例如,具有第一方向的第一方向向量可以不同于具有第二方向的第 二方向向量而被加權。根據(jù)不同的實施例,可以對該第一在線手寫字符執(zhí)行這些特征提取 操作中的一些或全部,或者其他特征提取操作,并且每個特征提取操作能以多種方式實現(xiàn)??梢曰谠摰谝蛔址麡颖镜奶卣飨蛄繄?zhí)行統(tǒng)計學訓練以生成模式。在某些實施例 中,該統(tǒng)計學訓練可以基于多個字符樣本的特征向量。例如,可以在某些情況下要求有效的 統(tǒng)計學字符樣本集以生成將有效地分類在線手寫字符的模式。因此,以上描述的執(zhí)行一個 或多個預處理操作和一個或多個特征提取操作的步驟在某些實施例中可以對多個字符樣 本執(zhí)行,并且該統(tǒng)計學訓練因而可以基于多個特征向量,例如,包括從該第一字符樣本生成 的特征向量。統(tǒng)計學訓練可以包括采用聚類算法,比如k-means聚類算法。所生成的模式可被存儲在存儲器中,例如在任何種類的存儲介質(zhì)上。這些模式可 以存儲為簡單的或復雜的數(shù)據(jù)結構;例如,在一個實施例中,所生成的模式可以存儲在模式 數(shù)據(jù)庫中。一種采用預定模式識別手寫字符的方法可以包括,首先生成預定模式,例如前述 中依據(jù)不同的實施例的用于生成用于在線手寫識別的模式的方法。因此,可以存在模式集, 例如模式數(shù)據(jù)庫,用來識別手寫字符。第一在線手寫字符可以,例如直接通過筆輸入裝置,或者間接地通過耦合到筆輸 入裝置的裝置來獲取。獲取在線手寫字符可以包括接收從在筆輸入裝置中輸入的至少一個 筆劃(例如一個手寫筆劃)收集的輸入數(shù)據(jù)。在線手寫字符因而可以包括一個或者多個筆 劃,和/或包括輸入到該筆輸入裝置的在線手寫字符的點被輸入的順序的信息。然后可以 對該第一在線手寫字符執(zhí)行各種操作??梢詫υ摰谝辉诰€手寫字符執(zhí)行一個或多個預處理操作。例如,從該第一在線手 寫字符中去除噪聲點。對該第一手寫字符執(zhí)行線性尺寸規(guī)范化。可以對該第一在線手寫字 符執(zhí)行非線性形態(tài)規(guī)范化。也可在該第一在線手寫字符中加入虛構筆劃和/或虛構點。該 第一在線手寫字符可以被重新采樣。該第一在線手寫字符可以被平滑。根據(jù)不同的實施
6例,可以對該第一在線手寫字符執(zhí)行這些預處理操作中的一些或全部,或其他預處理操作, 并且每個預處理操作能以多種方式實現(xiàn)。對該第一在線手寫字符執(zhí)行的這些預處理操作可以與對任何用于生成預定模式 的字符樣本執(zhí)行的預處理操作相同;因此,任何從該在線手寫字符中生成的模式可以以與 這些預定模式相同的方式被處理。因此,從該在線手寫字符中生成的任何模式與該預定模 式間的比較可以在線手寫字符的分類方面更有效。也可以對該第一在線手寫字符執(zhí)行一個或多個特征提取操作。例如,可以基于該 第一在線手寫字符的每個點的方向提取方向特征。方向模式圖像可以基于該方向特征而生 成。可以使用Gabor濾波對該方向模式圖像進行濾波。可以基于濾波后的方向模式圖像形 成特征向量。該特征向量可以包括多個方向向量。在某些實施例中,方向向量中的至少兩 個可以不同地被加權;例如,具有第一方向的第一方向向量可以不同于具有第二方向的第 二方向向量被加權。根據(jù)不同的實施例,可以對該第一在線手寫字符執(zhí)行這些特征提取操 作中的一些或全部,或者其他特征提取操作,并且每個特征提取操作能以多種方式實現(xiàn)。對該第一在線手寫字符執(zhí)行的特征提取操作可以與對任何用于生成預定模式的 字符樣本執(zhí)行的特征提取操作相同;因此,任何從該在線手寫字符中生成的模式可以基于 與該預定模式所基于的特征向量相同的方式產(chǎn)生的特征向量。與可能的要求類似,用于生 成預定模式和要識別的在線手寫字符的字符樣本的預處理步驟是相同的,為了準確分類在 線手寫字符,用于字符樣本和在線手寫字符的特征提取步驟也可需要是相同的。在線手寫字符的一個或多個模式可以利用統(tǒng)計學算法生成。例如,比如k-means 聚類算法的聚類算法可以用于生成在線手寫字符的模式。用于生成在線手寫字符的模式的 統(tǒng)計學算法可以與用于生成預定模式的統(tǒng)計學算法相同??梢曰跒樵诰€手寫字符生成的模式和預定模式對在線手寫字符進行分類。例 如,基于對在線手寫字符的模式和預定模式的統(tǒng)計學比較,可以利用統(tǒng)計學分類器來確定 該在線手寫字符屬于哪一類,預定模式例如在模式數(shù)據(jù)庫中可包括給定字符集(例如一種 語言的字符集)中的每個字符類的模式。因此,在線手寫字符的分類可以包括確定對應該 在線手寫字符的字符。確定為對應于在線手寫字符的該字符(或該字符的數(shù)字圖像)隨后 可替換該在線手寫字符,例如,在獲取該在線手寫字符的筆輸入裝置的顯示屏上。
結合以下附圖,閱讀以下的實施例詳述,將獲得對本發(fā)明的更好理解,其中圖IA和IB描述了示例裝置,其可操作以接收基于筆的輸入,并且可包含根據(jù)本發(fā) 明一個實施例的手寫識別實現(xiàn)方式。圖2是一個裝置的結構圖,該裝置可操作以接收基于筆的輸入,并且包括根據(jù)本 發(fā)明一個實施例的手寫識別實現(xiàn)方式。圖3是一個流程圖,描述了一種方法,用于開發(fā)識別在線手寫字符時所使用的統(tǒng) 計學識別模式。圖4是一個流程圖,描述了根據(jù)本發(fā)明的一個實施例對字符樣本進行預處理。圖5是一個流程圖,描述了根據(jù)本發(fā)明的一個實施例提取字符樣本的特征。圖6是一個流程圖,描述了根據(jù)本發(fā)明的一個實施例統(tǒng)計地訓練字符識別方法。
7
圖7是一個流程圖,描述了一種用來識別在線手寫字符的方法。圖8A-8F描述了根據(jù)一個實施例,在一系列連續(xù)的預處理步驟中的每個步驟之后 的在線手寫字符示例。由于本發(fā)明容許各種修改和替換形式,其中的特定實施例通過附圖中的例子表 示,在此詳細描述。然而可以理解的是,這里的附圖和詳細描述并不是為了將本發(fā)明限制在 這些特定形式中,而是相反,意圖涵蓋所有落入通過所附權利要求所定義的本發(fā)明的精神 和范圍內(nèi)的修改、等價物和替代物。
具體實施例方式以下是在此使用的術語表“在線手寫字符”可以包括通過電子筆、指示筆、鼠標或其他這樣的裝置輸入的圖 像中的點或像素。在線手寫字符可以進一步包括關于記錄下的點被輸入的順序的數(shù)據(jù),以 及某些情況下,例如取決于輸入設備,包括其他的信息,比如書寫速度和/或壓力?!白址麡颖尽笨梢园◤墓P輸入裝置收集的在線手寫字符的數(shù)據(jù)。字符樣本也可以 包括對應于在線手寫字符的相關聯(lián)的數(shù)字字符。這些信息(在線手寫字符和相關聯(lián)的(期 望的)字符的數(shù)字表示)的組合可以允許訓練統(tǒng)計學算法?!按鎯橘|(zhì)”可以包括任意種類的內(nèi)存裝置或存儲裝置。術語“存儲介質(zhì)”旨在 包括安裝介質(zhì),例如CD-ROM、軟盤、或磁帶裝置;計算機系統(tǒng)存儲器或隨機存取存儲器,比 如 DRAM, DDR RAM, SRAM, EDO RAM, Rambus RAM 等;或者非易失存儲器,比如 PROM、EPR0M, EEPR0M、閃存,或磁性介質(zhì),例如硬盤,或光存儲器。這些存儲介質(zhì)也可以包括其他種類的存 儲器,或這些的組合。除此以外,存儲介質(zhì)可以位于執(zhí)行程序的第一計算機上,和/或可以 位于第二不同的計算機上,其通過網(wǎng)絡,比如因特網(wǎng),連接至該第一計算機。在后者的情況 下,該第二計算機可以提供程序指令供第一臺計算機執(zhí)行。術語“存儲介質(zhì)”可以包括兩種 或多種存儲介質(zhì),其分布在不同的位置,例如在經(jīng)由網(wǎng)絡連接到不同的計算機上?!坝嬎銠C系統(tǒng)”可以包括任何各種類的計算或處理系統(tǒng),包括個人計算機系統(tǒng) (PC)、大型計算機系統(tǒng)、工作站、網(wǎng)絡裝置、因特網(wǎng)裝置、個人數(shù)字助理(PDA)、電視系統(tǒng)、網(wǎng) 格計算系統(tǒng)、或其他設備,或設備的組合。一般地,術語“計算機系統(tǒng)”能被廣泛地定義為包 括任何具有至少一個處理器的裝置(或裝置的組合),該處理器執(zhí)行來自存儲介質(zhì)的指令。圖IA和IB-示例性的筆輸入裝置圖IA和IB示出了可操作以從用戶處接收手寫輸入的示例性裝置?!肮P輸入裝置” 可以是任何可操作以從用戶處接收基于筆的輸入的裝置。一些實例可以包括個人數(shù)字助理 (PDA)、移動或蜂窩電話、智能手機、手提計算系統(tǒng)(例如,“平板電腦”或“掌上型電腦”),以 及其他通信裝置。其他筆輸入裝置可以是任何包括顯示器并允許用戶使用電子筆或指示筆 輸入信息,并能處理所述輸入的裝置或系統(tǒng)。一個能處理通過電子筆或指示筆輸入信息的 裝置,即使該裝置不能直接地接收筆輸入,雖然不是嚴格意義上的筆輸入裝置,也能夠執(zhí)行 在比描述的某些或所有的方法。圖2-執(zhí),行手寫識別的裝置的結構2是依據(jù)一個實施例,執(zhí)行手寫識別的裝置的系統(tǒng)圖。該裝置可以包括屏幕或 監(jiān)視器,例如屏幕200,其被配置為接收筆輸入250,例如,在線手寫字符。通過位于屏幕200
8上的筆輸入250接收的在線手寫字符可以被輸入到手寫識別程序204,根據(jù)圖7中描述的用 于識別在線手寫字符的方法的一個實施例,該手寫識別程序204可以對該在線手寫字符執(zhí) 行0LCR。該手寫識別程序204可以在處理器206上運行例如來自存儲在存儲介質(zhì)208上的 程序指令。該寫識別程序204也可以利用模式數(shù)據(jù)庫210,比如可以使用圖3中描述的用 于開發(fā)統(tǒng)計學識別模式的方法的一個實施例而開發(fā)的模式數(shù)據(jù)庫。該手寫識別程序204可 以為在線手寫字符返回結果212,比如對應于該在線手寫字符的數(shù)字字符。該結果212 (例 如,該數(shù)字字符)隨后可以顯示在屏幕200上;例如,產(chǎn)生的數(shù)字字符的圖像可以代替該數(shù) 字字符所基于的在線手寫字符的圖像。雖然圖2表示出執(zhí)行手寫識別的裝置的一個示例性實施例,應該注意到,許多其 它的實施例也是可行的。例如,執(zhí)行手寫識別的裝置(例如,包含手寫識別程序)可以是與 接收筆輸入的裝置不同的裝置。因此,第一裝置可以接收在線手寫字符,并提供該在線手寫 字符給第二裝置,該第二裝置執(zhí)行OLCR并返回結果,該第二裝置然后可將該結果返回第一 裝置。上述兩個設備可以通過網(wǎng)絡或其他各種方式通信。因此,在此描述的方法的實施方 式可以部分或全部地由不同的裝置實現(xiàn)。B 3-十對R另磁細去圖3依據(jù)一個實施例,描述了用于開發(fā)在識別在線手寫字符時使用的統(tǒng)計學識別 模式的方法的流程圖。在302中,對字符樣本執(zhí)行一個或多個預處理步驟。一般地,預處理字符樣本可以 減少或去除可能發(fā)生在同類的字符樣本之間的某些變化。減少這些變化可以在識別準確度 上提供改進。根據(jù)不同的實施例,預處理步驟可以包括以下中的一個或多個去除噪聲點、 規(guī)范化字符樣本至特定的尺度、在字符樣本上執(zhí)行非線性形態(tài)規(guī)范化、對字符樣本加入虛 構筆劃和/或虛構點、對該字符樣本重新采樣、和/或?qū)υ撟址麡颖緢?zhí)行平滑。參照這些預 處理步驟中每個步驟,以下結合圖4,呈現(xiàn)更多細節(jié)。302的預處理之后,在304中,對該字符樣本執(zhí)行一個或多個特征提取操作。從字 符樣本中提取特征可允許模式得以生成。被提取的特征的質(zhì)量可顯著影響生成的模式,因 此影響使用該模式的在線手寫字符識別方法的準確度。根據(jù)不同的實施例,特征提取操作 可以包括以下中的一個或多個確定每個字符樣本點的方向、基于所確定的方向提取方向 特征、生成方向模式圖像、在方向模式圖像上應用Gabor濾波,和/或產(chǎn)生特征向量。結合 圖5,以下對這些特征提取步驟中每個步驟的更多細節(jié)進行描述。在306中,可以基于特征向量執(zhí)行統(tǒng)計學訓練以產(chǎn)生模式。產(chǎn)生的模式可以是可 用于執(zhí)行在線手寫識別的。根據(jù)不同的實施例,統(tǒng)計學訓練可以包括確定訓練的一些類,生 成用于聚類(clustering)的種子,和利用聚類技術訓練統(tǒng)計學識別模型。訓練之后可以生 成模式數(shù)據(jù)庫用于識別。結合附圖6,以下對這些統(tǒng)計學訓練步驟中每個步驟的更多細節(jié)進 行描述。圖4-預處理依據(jù)某些實施例,可以對字符樣本或在線手寫字符(術語“字符”在本節(jié)中用來指 代字符樣本或在線手寫字符)執(zhí)行一個或多個預處理步驟。圖4所示和以下的描述的步驟 依所示的順序執(zhí)行,但另外的順序也是可以的。在402中,從原始字符中去除噪聲點。噪聲點可包括具有一個、兩個或少量點的筆
9劃,例如,那些點可能不旨在成為用戶輸入的一部分。移除噪聲筆劃和噪聲點可以減少來自 用戶的疏忽或意外輸入的干擾。在404中,字符可以被規(guī)范化到特定的尺度。這種規(guī)范化可以利用保留縱橫比的 線性映射。也就是說,字符的尺寸可以被重新調(diào)整為標準的圖片尺寸,而不改變原始的縱橫 比。字符映射到的特定尺度可以例如是64X64的位圖。別的尺度也是可以的。在406中,可以對字符執(zhí)行非線性形態(tài)規(guī)范化(NSN)。NSN可進一步減少例如由于 字符的手寫特性引起的字符變形。NSN用來處理線性規(guī)范化預處理所不負責的字符形態(tài); 例如,一個非常長的筆劃,或具有非常大的寬/高比的字符。NSN可被劃分為兩類,點密度和 線密度。點密度NSN根據(jù)字符的點密度,用X/Y軸調(diào)整點的位置。線密度NSN利用線密度, 在兩個方向上確定新點的位置。在一個優(yōu)選實施例中,采用的NSN方法可以是點密度NSN。 而在某些可選實施例中,線密度NSN可以用來替代或補充點密度NSN。在408中,虛構筆劃和虛構點可以加入到字符中。虛構筆劃是當處于抬筆狀態(tài)時, 例如,當筆沒有接觸筆輸入感應平面的時的任意筆移動軌跡。虛構筆劃可以加入到字符中, 作為落筆筆劃的終點和接下來落筆筆劃的起點之間的方向線。虛構筆劃的其他形式(例如 曲線)在某些實施例中可以用來代替或補充方向線。虛構點可以減少筆劃數(shù)量變化的影 響,這種影響會由于例如不同用戶的書寫習慣而發(fā)生。例如,非常流暢或草寫的風格會減少 字符的筆劃數(shù)。在某些字符中添加虛構點以達到多個字符之間更統(tǒng)一的筆劃可以提高字符 識別的準確度。在410中,字符可以被重新采樣。重新采樣可以平衡任意兩個給定的在線點之間 的距離變化,以便減少筆劃中點數(shù)量的差異和點密度變化的影響,這可能由于例如不同的 樣本收集裝置而發(fā)生。換句話說,不同的筆輸入裝置會產(chǎn)生具有不同點密度的字符圖像。重 新采樣也可以減少字符中的總點數(shù),從而減少計算開銷。重新采樣可以包括如果點密度很 高則以特定的間隔去除點,和/或在兩個相鄰點之間的距離大于特定閾值的情況下加入附 加點。重新采樣可以對原始和虛構筆劃二者執(zhí)行。在412,可以對字符執(zhí)行平滑。平滑可以在位圖中小的局部區(qū)域內(nèi)減少筆劃形態(tài) 變化。它可以包括對所有原始和虛構的筆劃,根據(jù)兩個方向上的相鄰點調(diào)整原始點的坐標。 尤其是,樣條(spline)方法在為了 OLCR目的的平滑時會特別有效,它潛在地提供更多準確 的字符識別。插值的樣條函數(shù)通常會根據(jù)任何插值約束被確定為最小化粗糙度的某些合適 的測量(例如曲率平方積分)。然后,平滑樣條可以被視為插值樣條的一般化,樣條函數(shù)會 以觀察數(shù)據(jù)的均方近似誤差和該粗糙度測量的加權組合被最小化的方式被確定。圖5-特征提取根據(jù)某些實施例,特征可以從字符樣本或在線手寫字符(術語“字符”在本節(jié)中可 用于指代字符樣本或在線手寫字符)中提取。字符可以是例如使用圖4中涉及的以上描述 的方法的實施例,或者以其他方式進行過預處理的。特征提取步驟可以包括幾個步驟;圖5 描述了依據(jù)一個實施例的特征提取過程的示例性步驟組。圖5所示和以下描述的步驟會以 所示順序執(zhí)行,但另外的順序也是可以的。在502中,會確定每個字符點的方向。字符中每個點的方向信息可基于收集給定 字符的筆輸入裝置所收集的輸入來確定。例如,如果該筆輸入裝置記錄了給定筆劃的點輸 入的順序,則通過構建指示從在先輸入的點到隨后輸入的點的向量,可以確定字符中給定
10點的方向。確定方向的其他方式也是可以的;例如,不同于構建從在先輸入的點到給定點之 后輸入的點的向量,還可以構建在先輸入的點和給定點本身之間的向量。也可以對給定筆 劃的第一和最后點使用其它替代方法。在504中,基于字符中每個點的所確定的方向獲取方向特征。方向特征可以是給 定方向空間中的向量,該向量具有該方向空間的一個或多個方向的分量。該方向空間可以 是8方向的。也就是說,對于該方向特征向量可以有8種可能的方向分量。例如,該8個方 向可以對應于指南針的方向北,東北,東,東南,南,西南,西,和西北。因此,一個點的方向 特征可以是包括例如西北和北的分量的兩個方向。其他方向空間也是可以的,例如,4方向 空間,利用,繼續(xù)比喻成指南針的指向,北,東,南和西。其它的方向空間也是可以的。在506中,生成已提取的特征的方向模式圖像。在該步驟,每個點可基于它的方向 特征被分配給一個或多個方向模式圖像。例如,方向特征為西北和北的點被分配給西北模 式圖像和西模式圖像。一般地,如果使用η方向空間,則可以生成η方向模式圖像;因此,如 果使用8方向空間,可以生成8方向模式圖像。每個方向模式圖像可以包括基于點的方向 特征被分配給它的點。也就是說,西北模式圖像可以包括所有包含西北方向特征的點,而南 模式圖像可以包括所有包含南方向特征的點。應注意,每個點可以包含于兩個方向模式圖 像中,例如,每介方向模式圖像對應于給定點的方向特征。在508中,將Gabor濾波應用于該方向模式圖像。Gabor濾波是線性濾波,該濾波 的脈沖響應由諧波函數(shù)乘以高斯函數(shù)確定。每個圖像(例如,每個在線手寫字符或字符樣 本)可以被劃分成網(wǎng)格,例如8X8像素網(wǎng)格。通過對每個網(wǎng)格應用Gabor濾波,可以產(chǎn)生 更統(tǒng)一的特征,因此縮小向量空間。Gabor濾波相比于例如高斯濾波可以提供更多的控制參 數(shù)。這可以加強所調(diào)整的模型的容量,潛在地產(chǎn)生改進的總體方法。在510中,可生成一個特征向量。該特征向量可以基于以上描述的步驟。例如, 基于原始的8方向64X64像素圖像,可以產(chǎn)生8方向模式圖像,接著圖像可被劃分成為 64(8X8)個8X8像素網(wǎng)格,每個都用Gabor濾波器進行濾波。因而,可以產(chǎn)生8X8X8 = 512尺寸的特征向量。換句話說,64X64的像素中的64(8X8)個網(wǎng)格中的每個可以具有8 方向的模式圖像。在一個實施例中,這些方向模式圖像可以表示為浮點數(shù),因而每個網(wǎng)格可 以具有一個或多個浮點,并且因此特征向量可以由這些浮點組成,從而這可利用分類(例 如統(tǒng)計學分類)方法處理。在某些實施例中,非線性處理,例如演化,可以與特征向量一起 使用以放大較小的特征和縮小較大的特征。應注意的是,其他類型的特征向量(例如,具有 其他尺度)也是可以的。圖6-統(tǒng)計學訓練圖6是根據(jù)一個實施例,為了生成用于在線手寫識別的模式而執(zhí)行統(tǒng)計學訓練的 方法的流程圖。該統(tǒng)計學訓練可以基于給定字符類中的字符樣本的特征向量(例如,根據(jù) 以上關于圖5描述的方法的參照實施例所提取的)。也就是說,統(tǒng)計學方法可以用于為給定 字符集(例如,給定語言)中的每個類型的字符生成代表模式。這些生成的模式接著會被 用來劃分在線手寫字符,例如以識別在線手寫字符本來是什么字符。圖6所示和以下描述 的步驟會以所示順序執(zhí)行,但另外的順序也是可以的。在602中,可以生成一個或多個種子以用于聚類算法。在一個實施例中,可以使用 譜聚類確定這些種子。在譜聚類中,可以利用相似性的某些度量構建相似性矩陣;相似性矩
11陣隨后可用于生成種子以使用比如k-means聚類算法的聚類算法進行聚類。在604中,聚類算法可以用于確定一個或多個模式。在一個實施例中,可以使用 k-means聚類算法。K-means聚類包括將特征向量中的每個點分配給k個聚類中最近的一個 (即,按照某些距離量度,例如歐氏距離)。最初,k個聚類中的每個可以以步驟602中生成 的種子之一為中心。在所有的點都被分配至聚類后,可確定新的聚類中心,并且重新分配一 個或多個點,例如,如果一個點到它的聚類中心的距離大于該點到另一個聚類中心的距離。 重復這個處理直到滿足一個或多個收斂標準。因此,產(chǎn)生k個聚類(或模式)。K-means聚 類可以是簡單和快速的,并且可以尤其適合手寫數(shù)據(jù),特別是當它與譜聚類結合使用產(chǎn)生 初始種子時。對于許多語言來說,對于每個字符類,3或4個模式(例如k是3或4)對于手 寫識別可以是足夠的。然而,需要注意的是,其他數(shù)量的模式(例如,k值)也是可以的,并 且在某些情況下適用。在某些實施例中,出于聚類目的,特征向量中的點之間的距離被加權。例如,每個 不同的方向模式圖像可對字符識別具有不同的影響;例如,西北方向可以是相對重要的。因 此,特征向量中的兩個或更多個不同方向向量可被給予不同的權重,例如,基于那些向量的 方向。如果方向加權用于生成模式,為獲取最好的效果,也可以需要相同的方向加權用于分 類(例如,識別)在線手寫字符。圖7-用于識別在線手寫字符的方法圖7依據(jù)一個實施例,描述了用于識別在線手寫字符的方法。在702中,獲取一個在線手寫字符??梢詮谋热鐖D1中裝置的筆輸入裝置中的電 子筆或指示筆的輸入獲取該在線手寫字符。作為替代地,可以從其他裝置獲取在線手寫字 符,例如,通過網(wǎng)絡或因特網(wǎng),并且可以在不同裝置中輸入。一旦獲取,該在線手寫字符可被 存儲(例如存儲在存儲器介質(zhì)上)以用于處理和/或識別,或立刻被處理和/或識別。在704中,預處理該在線手寫字符。這個處理可以與圖4及上文中描述的處理相 似或相同。重要的是,(例如,為了獲得高準確率)在704中采用的預處理步驟和生成用于 識別字符的模式所采用的預處理步驟(例如,在步驟708和710)是相同的。在706中,從在線手寫字符中提取特征。這個處理與在圖5及上文中描述的處理 相似或相同。再次,重要的是,例如,為了獲得高準確率)在706中采用的特征提取步驟和 生成用于識別字符的模式所采用的特征提取步驟(例如,在步驟708和710)是相同的。在708中,提取的特征被匹配至模式。模式可以是例如通過圖3和上文中描述的 方法事先生成的。模式可以在執(zhí)行在線手寫字符識別的裝置上生成,或可選地,可在其他裝 置上生成。在這種情況下,模式可以引入到執(zhí)行在線手寫字符的裝置上,或可選地,可以通 過執(zhí)行在線手寫字符識別的裝置在其他裝置上存取。例如,模式可以存儲在一個或多個模 式數(shù)據(jù)庫中、本地和/或遠程地到存儲到執(zhí)行在線手寫字符識別的裝置。在710中,對應于在線手寫字符的字符基于提取的特征到模式的匹配而確定。被 確定的字符可以從字符集中選取,例如對應于比如漢語、日語、韓語等的語言的字符集。作 為替代地,該字符集可以包含多種語言的字符集,或來自一種或多種語言的部分字符集。所 確定的字符可以被選為由提取的特征到模式的匹配所確定的“最適合”的字符,例如在模式 數(shù)據(jù)庫中,其中“最適合”可以通過許多方式被確定,例如采用任何類型的統(tǒng)計學分類算法。在712中,在線手寫字符識別可以用被確定為對應于在線手寫字符的數(shù)字字符來
12在獲取后被存儲。一旦對應于在線手寫字符的數(shù)字 字符被確定,就不再需要存儲在線手寫字符本身了。因此,在某些實施例中,在線手寫字符 可以在存儲器中由所確定的對應的數(shù)字字符來取代,或簡單地丟棄。作為替代地,在線手寫 字符可以繼續(xù)被存儲,例如,作為字符樣本與所確定的對應的數(shù)字字符一起存儲。在線手寫字符被輸入的時候,筆輸入裝置能夠顯示在線手寫字符的圖像。在對應 于在線手寫字符的數(shù)字字符被確定后,在某些實施例中,筆輸入裝置可以用該對應的數(shù)字 字符的圖像替換該在線手寫字符的圖像。作為替代地,該筆輸入裝置可以當在線手寫字符 被輸入時不顯示它的圖像,但是會在對應的數(shù)字字符被確定后顯示對應的數(shù)字字符的圖 像。圖8A-8F-預處理圖8A-8F示出了比如關于圖4所述的連續(xù)的預處理步驟序列中每個步驟后的在線 手寫字符示例。手寫字符既可以是字符樣本(例如,對應于已知字符類別的在線手寫字符) 也可以是簡單的在線手寫字符(例如,作為字符的特定類別沒有進行分類的)。因此,在線 手寫字符在圖8A中示出為初始輸入。在圖8B中,在線手寫字符作為規(guī)范化后的示出。圖 8C示出在執(zhí)行了非線性規(guī)范化的連續(xù)步驟后的在線手寫字符。加入虛構筆劃和點的連續(xù)步 驟之后,在線手寫字符隨后在圖8D中示出;在圖8E中,示出了在附加的重新采樣操作后的 圖8D的在線手寫字符。最后,圖8F示出了 8E中經(jīng)過最后平滑操作的在線手寫字符(即, 經(jīng)過每個在前的預處理操作)。在各個預處理步驟后,在線手寫字符可以最佳地適應以后 的步驟,例如,特征提取和模式生成或字符識別。需要注意的是,圖8A-8F所示的預處理步 驟只是示例性的;在某些實施例中,一個或多個所示的步驟可被省略、重復或以不同順序執(zhí) 行,和/或可以額外執(zhí)行一個或多個其他步驟(未示出)。雖然以上實施例進行了相當詳細的描述,一旦以上公開被充分理解,許多變化和 修改對本領域技術人員而言是顯而易見的。其后的權利要求應被解釋為包含了所有這樣的 變化和修改。在本發(fā)明的一方面,公開了包含用于生成用于在線字符識別的模式的程序指令的 存儲介質(zhì),其中,該程序指令可執(zhí)行為對字符樣本執(zhí)行一個或多個預處理操作;對該字符 樣本執(zhí)行一個或多個特征提取操作,其中該一個或多個特征提取操作為字符樣本產(chǎn)生特征 向量,其中所述執(zhí)行一個或多個特征提取操作利用Gabor濾波;基于字符樣本的特征向量 執(zhí)行統(tǒng)計學訓練以生成模式;在存儲器中存儲該模式,其中該模式被配置為用于識別手寫 字符。優(yōu)選地,在執(zhí)行一個或多個特征提取操作時,該程序指令可執(zhí)行為利用Gabor濾 波對方向模式圖像進行濾波,其中濾波后的方向模式圖像用于形成特征向量。優(yōu)選地,在執(zhí)行一個或多個特征提取操作時,該程序指令可執(zhí)行為基于字符樣本 點的方向提取方向特征;基于方向特征生成方向模式圖像;利用Gabor濾波對方向模式圖 像進行濾波;和基于濾波后的方向模式圖像形成特征向量。優(yōu)選地,該一個或多個預處理操作包括加入虛構筆劃和加入虛構點。優(yōu)選地,該一個或多個預處理操作包括以下中的三個或更多個噪聲點去除,線性 尺寸規(guī)范化,非線性形態(tài)規(guī)范化,加入虛構筆劃,和加入虛構點。本發(fā)明的另一方面公開了一種產(chǎn)生用于在線字符識別的模式的系統(tǒng),該系統(tǒng)包
13括用于對字符樣本執(zhí)行一個或多個預處理操作的裝置;用于對該字符樣本執(zhí)行一個或多 個特征提取操作的裝置,其中該一個或多個特征提取操作為該字符樣本產(chǎn)生特征向量,其 中所述執(zhí)行一個或多個特征提取操作利用Gabor濾波;用于基于所述字符樣本的特征向量 執(zhí)行統(tǒng)計學訓練以生成模式的裝置;用于在存儲器中存儲所述模式的裝置,其中所述模式 被配置成用于識別手寫字符。優(yōu)選地,用于執(zhí)行一個或多個特征提取操作的裝置包括用于使用Gabor濾波對方 向模式圖像進行濾波的裝置,其中濾波后的方向模式圖像用于形成所述特征向量。優(yōu)選地,用于執(zhí)行一個或多個特征提取操作的裝置包括用于基于字符樣本點的 方向提取方向特征的裝置;用于基于所述方向特征生成方向模式圖像的裝置;用于使用 Gabor濾波對所述方向模式圖像進行濾波的裝置;以及用于基于濾波后的方向模式圖像形 成所述特征向量的裝置。優(yōu)選地,用于執(zhí)行一個或多個預處理操作的裝置包括用于加入虛構筆劃的裝置和 用于加入虛構點的裝置。優(yōu)選地,用于執(zhí)行一個或多個預處理操作的裝置包括以下中的三個或更多個用 于執(zhí)行噪聲點去除的裝置,用于執(zhí)行線性尺寸規(guī)范化的裝置,用于執(zhí)行非線性形態(tài)規(guī)范化 的裝置,用于加入虛構筆劃的裝置,和用于加入虛構點的裝置。在本發(fā)明的另一方面中,公開了一種使用預定模式識別手寫字符的系統(tǒng),包括用 于生成多個預定模式的裝置,其中通過使用Gabor濾波對字符樣本執(zhí)行一個或多個特征提 取操作來生成所述多個預定模式,其中在存儲器中存儲所述多個預定模式;用于獲取在線 手寫字符的裝置;用于預處理該在線手寫字符的裝置;用于提取該在線手寫字符的特征, 從而確定特征向量的裝置;用于使用統(tǒng)計學算法,基于該特征向量為該在線手寫字符生成 一個或多個模式的裝置;用于分類該在線手寫字符的裝置,包括用于基于所生成的一個或 多個模式和所述多個預定模式確定對應于該在線手寫字符的字符的裝置。優(yōu)選地,多個預定模式是基于統(tǒng)計學字符識別方法而生成的。優(yōu)選地,用于生成該多個預定模式的裝置包括用于對字符樣本執(zhí)行一個或多個 預處理操作的裝置;用于對該字符樣本執(zhí)行一個或多個特征提取操作的裝置,其中該一個 或多個特征提取操作為該字符樣本產(chǎn)生特征向量,其中所述執(zhí)行一個或多個特征提取操作 利用Gabor濾波;用于基于該字符樣本的特征向量執(zhí)行統(tǒng)計學訓練以生成模式的裝置;用 于在存儲器中存儲所述多個預定模式的裝置,其中所述多個預定模式波配置成用于識別手 寫字符。優(yōu)選地,用于獲取在線手寫字符的裝置包括用于接收從在筆輸入裝置中輸入的至 少一個輸入筆劃收集的輸入數(shù)據(jù)的裝置。優(yōu)選地,該在線手寫字符包括一個或多個筆劃。優(yōu)選地,該在線手寫字符包括關于所述在線手寫字符的點被輸入的順序的信息。
1權利要求
一種產(chǎn)生用于在線字符識別的模式的方法,該方法包括對字符樣本執(zhí)行一個或多個預處理操作;對該字符樣本執(zhí)行一個或多個特征提取操作,其中該一個或多個特征提取操作為該字符樣本產(chǎn)生特征向量,其中所述執(zhí)行一個或多個特征提取操作利用Gabor濾波;基于所述字符樣本的特征向量執(zhí)行統(tǒng)計學訓練以生成模式;在存儲器中存儲所述模式,其中所述模式被配置成用于識別手寫字符。
2.如權利要求1所述的方法,其中所述一個或多個特征提取操作包括使用Gabor濾波 對方向模式圖像進行濾波,其中被濾波后的方向模式圖像用來形成該特征向量。
3.如權利要求1所述的方法,其中所述一個或多個特征提取操作包括 基于字符樣本點的方向提取方向特征;基于所述方向特征生成方向模式圖像;使用Gabor濾波對所述方向模式圖像進行濾波;以及基于濾波后的方向模式圖像形成所述特征向量。
4.如權利要求1所述的方法,其中所述一個或多個預處理操作包括加入虛構筆劃和加 入虛構點。
5.如權利要求1所述的方法,其中所述一個或多個預處理操作包括以下中的三個或更 多個噪聲點去除,線性尺寸規(guī)范化,非線性形態(tài)規(guī)范化,加入虛構筆劃,和加入虛構點。
6.如權利要求1所述的方法,其中所述一個或多個預處理操作包括噪聲點去除,線性 尺寸規(guī)范化,非線性形態(tài)規(guī)范化,加入虛構筆劃,加入虛構點,重新采樣,和平滑。
7.如權利要求1所述的方法,其中所述統(tǒng)計學訓練包括k-means聚類算法。
8.如權利要求1所述的方法,其中所述統(tǒng)計學訓練包括聚類算法。
9.如權利要求8所述的方法,其中所述特征向量包括多個方向向量,其中所述方向向 量中的至少兩個被不同地加權。
10.一種產(chǎn)生用于在線字符識別的模式的系統(tǒng),該系統(tǒng)包括 用于對字符樣本執(zhí)行一個或多個預處理操作的裝置;用于對該字符樣本執(zhí)行一個或多個特征提取操作的裝置,其中該一個或多個特征提 取操作為該字符樣本產(chǎn)生特征向量,其中所述執(zhí)行一個或多個特征提取操作利用Gabor濾 波;用于基于所述字符樣本的特征向量執(zhí)行統(tǒng)計學訓練以生成模式的裝置; 用于在存儲器中存儲所述模式的裝置,其中所述模式被配置成用于識別手寫字符。
11.如權利要求10所述的系統(tǒng),其中所述用于執(zhí)行一個或多個特征提取操作的裝置包 括用于使用Gabor濾波對方向模式圖像進行濾波的裝置,其中濾波后的方向模式圖像用于 形成所述特征向量。
12.如權利要求10所述的系統(tǒng),其中所述用于執(zhí)行一個或多個特征提取操作的裝置包括用于基于字符樣本點的方向提取方向特征的裝置; 用于基于所述方向特征生成方向模式圖像的裝置; 用于使用Gabor濾波對所述方向模式圖像進行濾波的裝置;以及 用于基于濾波后的方向模式圖像形成所述特征向量的裝置。
13.如權利要求10所述的系統(tǒng),其中所述用于執(zhí)行一個或多個預處理操作的裝置包括 用于加入虛構筆劃的裝置和用于加入虛構點的裝置。
14.如權利要求10所述的系統(tǒng),其中所述用于執(zhí)行一個或多個預處理操作的裝置包括 以下中的三個或更多個用于執(zhí)行噪聲點去除的裝置,用于執(zhí)行線性尺寸規(guī)范化的裝置,用 于執(zhí)行非線性形態(tài)規(guī)范化的裝置,用于加入虛構筆劃的裝置,和用于加入虛構點的裝置。
15.一種使用預定模式識別手寫字符的方法,包括生成多個預定模式,其中通過使用Gabor濾波對字符樣本執(zhí)行一個或多個特征提取操 作來生成所述多個預定模式,其中在存儲器中存儲所述多個預定模式; 獲取在線手寫字符; 預處理該在線手寫字符;提取該在線手寫字符的特征,從而確定特征向量;使用統(tǒng)計學算法,基于該特征向量為該在線手寫字符生成一個或多個模式; 分類該在線手寫字符,包括基于所生成的一個或多個模式和所述多個預定模式確定對 應于該在線手寫字符的字符。
16.如權利要求15所述的方法,其中所述多個預定模式是基于統(tǒng)計學字符識別方法而 生成的。
17.如權利要求15所述的方法,其中所述生成該多個預定模式包括 對字符樣本執(zhí)行一個或多個預處理操作;對該字符樣本執(zhí)行一個或多個特征提取操作,其中該一個或多個特征提取操作為該字 符樣本產(chǎn)生特征向量,其中所述執(zhí)行一個或多個特征提取操作利用Gabor濾波; 基于該字符樣本的特征向量執(zhí)行統(tǒng)計學訓練以生成模式;在存儲器中存儲所述多個預定模式,其中所述多個預定模式被配置成用于識別手寫字符。
18.如權利要求15所述的方法,其中所述獲取在線手寫字符包括接收從在筆輸入裝置 中輸入的至少一個輸入筆劃收集的輸入數(shù)據(jù)。
19.如權利要求15所述的方法,其中所述在線手寫字符包括一個或多個筆劃。
20.如權利要求15所述的方法,其中所述在線手寫字符包括關于所述在線手寫字符的 點被輸入的順序的信息。
21.用于生成多個預定模式的裝置,其中通過使用Gabor濾波對字符樣本執(zhí)行一個或多個 特征提取操作來生成所述多個預定模式,其中在存儲器中存儲所述多個預定模式; 用于獲取在線手寫字符的裝置; 用于預處理該在線手寫字符的裝置; 用于提取該在線手寫字符的特征,從而確定特征向量的裝置; 用于使用統(tǒng)計學算法,基于該特征向量為該在線手寫字符生成一個或多個模式的裝置;用于分類該在線手寫字符的裝置,包括用于基于所生成的一個或多個模式和所述多個 預定模式確定對應于該在線手寫字符的字符的裝置。
22.如權利要求21所述的系統(tǒng),其中所述多個預定模式是基于統(tǒng)計學字符識別方法而生成的。
23.如權利要求21所述的系統(tǒng),其中所述用于生成該多個預定模式的裝置包括 用于對字符樣本執(zhí)行一個或多個預處理操作的裝置;用于對該字符樣本執(zhí)行一個或多個特征提取操作的裝置,其中該一個或多個特征提 取操作為該字符樣本產(chǎn)生特征向量,其中所述執(zhí)行一個或多個特征提取操作利用Gabor濾 波;用于基于該字符樣本的特征向量執(zhí)行統(tǒng)計學訓練以生成模式的裝置; 用于在存儲器中存儲所述多個預定模式的裝置,其中所述多個預定模式被配置成用于 識別手寫字符。
24.如權利要求21所述的系統(tǒng),其中所述用于獲取在線手寫字符的裝置包括用于接收 從在筆輸入裝置中輸入的至少一個輸入筆劃收集的輸入數(shù)據(jù)的裝置。
25.如權利要求21所述的系統(tǒng),其中所述在線手寫字符包括一個或多個筆劃。
26.如權利要求21所述的系統(tǒng),其中所述在線手寫字符包括關于所述在線手寫字符的 點被輸入的順序的信息。
全文摘要
一種用于生成模式以及基于那些模式執(zhí)行在線手寫識別的統(tǒng)計學系統(tǒng)和方法。通過使用Gabor濾波對一個或多個字符樣本執(zhí)行特征提取操作,生成多個預定模式。獲取在線手寫字符。預處理該在線手寫字符。可以使用Gabor濾波對在線手寫字符執(zhí)行一個或多個特征提取操作以產(chǎn)生特征向量?;谠撎卣飨蛄?,使用統(tǒng)計學算法為該在線手寫字符生成一個或多個模式?;跒樵撛诰€手寫字符生成的一個或多個模式和該多個預定模式之間的比較,可以統(tǒng)計地分類該在線手寫字符。
文檔編號G06K9/00GK101968847SQ20101025663
公開日2011年2月9日 申請日期2010年6月30日 優(yōu)先權日2009年6月30日
發(fā)明者馮·德雷克·朱 申請人:甲骨文美國公司