欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

構(gòu)建級聯(lián)分類器的方法、識別對象的方法及裝置的制作方法

文檔序號:6579537閱讀:244來源:國知局
專利名稱:構(gòu)建級聯(lián)分類器的方法、識別對象的方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明總體上涉及模式識別領(lǐng)域,更具體地涉及級聯(lián)分類器。
背景技術(shù)
隨著計算機技術(shù)的發(fā)展,圖像處理技術(shù)也取得了很大的進步。目前,人們已經(jīng)能夠 采用光學(xué)字符識別(OCR)技術(shù)將一個文檔圖像中的文字識別出來,避免了繁重的人工鍵盤 錄入的勞動。眾所周知,字符語言類型識別技術(shù)有助于提高OCR的性能。現(xiàn)有的大部分字符語 言類型識別技術(shù)的文本單位是整篇文檔圖像、文本行或詞,這要求在文本單位內(nèi)存在語言 同一性的假設(shè),因此在使用上具有一定的局限性。然而,實際中存在多語言混排文檔,其中包括兩種或兩種以上的語言文字,各語言 文字間混合排列,例如票據(jù)。如果采用上述字符語言類型識別技術(shù)對該混合文檔進行識別, 則可能產(chǎn)生不理想的識別結(jié)果。為此,在 Yefeng Zheng、Changsong Liu 禾口 Xiaoqing Ding 所著的"Single character type identification,,(SPIE Document Recognition andRetrieval IX 論文 集,4670卷,第49-56頁,2002年)一文中公開了一種采用Fisher分類器和支持向量機 (SVM)分類器來識別英文和中文字符的方法,其中,首先使用Fisher分類器計算Fisher分 類置信度,然后再使用SVM分類器進一步提高識別準確度。上述現(xiàn)有技術(shù)中的分類器運算復(fù)雜度高,構(gòu)建代價較高,運算速度較慢。

發(fā)明內(nèi)容
有必要提供一種構(gòu)建方法較簡單,分類速度較快的分類器來識別單字符語言類 型。本發(fā)明提出了構(gòu)建一種級聯(lián)分類器,該級聯(lián)分類器可以用來識別單字符語言類 型。根據(jù)本發(fā)明的一方面,提供了一種構(gòu)建級聯(lián)分類器的方法,該級聯(lián)分類器包括一 個或多個級,每一級包括一個節(jié)點分類器,該方法包括基于第一級樣本集來構(gòu)建第一級節(jié) 點分類器作為臨時級聯(lián)分類器,循環(huán)執(zhí)行以下步驟基于下級樣本集來構(gòu)建下級節(jié)點分類 器,該下級樣本集是上級樣本集中針對上級節(jié)點分類器的上級識別分數(shù)小于與上級節(jié)點分 類器相對應(yīng)的上級識別分數(shù)閾值與識別分數(shù)閾值偏量之和的樣本的集合,識別分數(shù)閾值偏 量是大于或等于0的數(shù),將構(gòu)建的下級節(jié)點分類器與臨時級聯(lián)分類器級聯(lián)以構(gòu)建新的臨時 級聯(lián)分類器,比較增加該下級節(jié)點分類器前后的臨時級聯(lián)分類器的識別精度;以及如果增 加下級節(jié)點分類器后識別精度不變或降低,則將刪除下級節(jié)點分類器后的臨時級聯(lián)分類器 確定為最終的級聯(lián)分類器并終止循環(huán),否則繼續(xù)構(gòu)建下一個下級節(jié)點分類器。根據(jù)本發(fā)明的另一方面,提供了一種利用前述方法構(gòu)建的級聯(lián)分類器來識別對象 的方法,包括對于級聯(lián)分類器的從第一級節(jié)點分類器到最后一級節(jié)點分類器的每一級節(jié)點分類器,循環(huán)執(zhí)行以下步驟獲取對象的與節(jié)點分類器相對應(yīng)的特征;將對象的與節(jié)點 分類器相對應(yīng)的特征輸入到節(jié)點分類器進行識別;如果對象在節(jié)點分類器的識別分數(shù)小于 與節(jié)點分類器所對應(yīng)的識別分數(shù)閾值并且節(jié)點分類器不是最后一級節(jié)點分類器,則將對象 輸入到下一級節(jié)點分類器,否則將節(jié)點分類器的識別結(jié)果確定為最終的識別結(jié)果。根據(jù)本發(fā)明的又一方面,提供了一種用于識別對象的裝置,包括特征獲取單元, 用于獲取對象的特征;以及由上述構(gòu)建級聯(lián)分類器的方法所構(gòu)建的級聯(lián)分類器,與特征獲 取單元相耦合。本發(fā)明的構(gòu)建級聯(lián)分類器的方法較簡單,所構(gòu)建的分類器分類速度較快,精度也 比較高。


本發(fā)明可以通過參考下文中結(jié)合附圖所給出的詳細描述而得到更好的理解。所述 附圖連同下面的詳細說明一起包含在本說明書中并形成說明書的一部分,用來進一步舉例 說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中圖1所示為根據(jù)本發(fā)明的第一實施例的構(gòu)建級聯(lián)分類器的方法流程圖;圖2所示為根據(jù)本發(fā)明的第四實施例的構(gòu)建下級節(jié)點分類器的一個實施例的示 意圖;圖3所示為根據(jù)本發(fā)明一個實施例的識別對象的方法流程圖;以及圖4所示為根據(jù)本發(fā)明一個實施例的用于識別對象的裝置。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中 省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。目前,GBK Level 1收錄的中文字符集包括3755個字符。而英文字符集包括62個 字符,包括26個大寫英文字、26個小寫英文字和10個數(shù)字。大部分中文字符(例如表1 所示的)與英文字符有較大差別。然而,有些中文字符(例如表2所示的)在結(jié)構(gòu)上與英 文字符相似。表1
_ 囹回[2_[35]囡@··表 2 這些結(jié)構(gòu)相似的字符在特征空間上可能重疊,造成識別困難和識別精度的下降。在本發(fā)明的實施例中,提供一種構(gòu)建級聯(lián)分類器的方法。該級聯(lián)分類器包括一個 或多個級,每一級包括一個節(jié)點分類器。下面以識別中、英文兩類字符為例,對該方法進行 描述。圖1所示為根據(jù)本發(fā)明的第一實施例的構(gòu)建級聯(lián)分類器的方法流程圖。在步驟102中,基于一個訓(xùn)練樣本集來構(gòu)建第一級節(jié)點分類器作為臨時級聯(lián)分類器。該訓(xùn)練樣本集被稱為第一樣本集。在本實施例中,可以將第一級節(jié)點分類器訓(xùn)練為最 近鄰分類器,更具體地,可以是標準最近鄰分類器或k近鄰分類器。最近鄰分類器是本領(lǐng)域 技術(shù)人員公知的,這里不再詳細描述。在步驟104中,構(gòu)建下級節(jié)點分類器。這里下級節(jié)點分類器是針對上級節(jié)點分類 器而言的。例如第二級節(jié)點分類器是第一級節(jié)點分類器的下級節(jié)點分類器,而第一級節(jié)點 分類器是第二級節(jié)點分類器的上級節(jié)點分類器,首先,選擇上級節(jié)點分類器中所使用的樣本集的一個子集作為該下級節(jié)點分類器 的訓(xùn)練集(稱為下級樣本集)??梢酝ㄟ^以下方式來得到下級樣本集。例如,在上級節(jié)點 分類器為最近鄰分類器的情況下,該最近鄰分類器可以獲得中、英文兩字符類的類中心。以 dl和d2分別表示樣本到中、英兩字符類中心的距離。一般地,如果dl > d2,則將字符識別 為英文,如果dl < d2,則將字符識別為中文。然而,如果一個樣本的dl和d2很接近,識別 結(jié)果可能有錯誤。于是可以將這樣的樣本的集合作為下級節(jié)點分類器的訓(xùn)練樣本集。具體 地,可以定義識別分數(shù)(或者,具體地這里可以稱為置信度)Conf為Conf = 100 * |dl_d2|/(dl+d2)。按照上述定義的Conf的范圍是0 100,如果針對上級節(jié)點分類器的樣本識別分 數(shù)Conf小于對應(yīng)于上級節(jié)點分類器的識別分數(shù)閾值,則確定該樣本為下級節(jié)點分類器的 訓(xùn)練樣本。在本實施例中,識別分數(shù)閾值可以是預(yù)先設(shè)定的值,例如可以是25。對于每級節(jié) 點分類器,識別分數(shù)閾值可以相同,也可以不同。在得到下級樣本集后,基于該下級樣本集來進行分類器訓(xùn)練,以構(gòu)建下級節(jié)點分 類器。下級節(jié)點分類器也可以訓(xùn)練為標準最近鄰分類器或k近鄰分類器。在步驟106中,將構(gòu)建的下級節(jié)點分類器與臨時級聯(lián)分類器級聯(lián)以構(gòu)建新的臨時 級聯(lián)分類器。在步驟108中,比較步驟104中訓(xùn)練得到的下級節(jié)點分類器增加前后的臨時級聯(lián) 分類器的識別精度??梢酝ㄟ^利用一個測試樣本集對臨時級聯(lián)分類器進行測試來確定臨時 級聯(lián)分類器的識別精度。例如,首先將測試樣本輸入臨時級聯(lián)分類器的第一級節(jié)點分類器 進行識別。如果識別分數(shù)大于第一級節(jié)點分類器的識別分數(shù)閾值,則輸出識別結(jié)果并結(jié)束 識別過程。如果識別分數(shù)小于第一級節(jié)點分類器的識別分數(shù)閾值,則將測試樣本傳遞到下 級節(jié)點分類器進行識別。依此類推。注意,如果測試樣本被傳遞到最后一級節(jié)點分類器,則 在該級節(jié)點分類器中不需要進行識別分數(shù)與識別分數(shù)閾值的比較,而是直接將該級節(jié)點分 類器的識別結(jié)果作為最終識別結(jié)果輸出。對測試樣本集中的每個測試樣本的測試結(jié)果進行 綜合評價可以得到臨時級聯(lián)分類器的識別精度。如果在步驟108中的比較結(jié)果表明增加該下級節(jié)點分類器后的臨時級聯(lián)分類器 的識別精度相比增加該下級節(jié)點分類器前的臨時級聯(lián)分類器的識別精度增加,則返回步驟 104繼續(xù)構(gòu)建下一個下級節(jié)點分類器。如果在步驟108中的比較結(jié)果表明增加該下級節(jié)點 分類器后的臨時級聯(lián)分類器的識別精度相比增加該下級節(jié)點分類器前的臨時級聯(lián)分類器 的識別精度不變或降低,則進行到步驟110。在步驟110中,將刪除該下級節(jié)點分類器后的 臨時級聯(lián)分類器確定為最終的級聯(lián)分類器,并結(jié)束該構(gòu)建級聯(lián)分類器的方法。在識別單個字符圖像的語言類型中,可以采用的特征有字符縱橫比、連通域數(shù)目、 筆畫像素密度、筆劃密度直方圖、游程直方圖、水平投影差分累積、垂直投影差分累積、水平筆劃密度差分累積和垂直筆劃密度差分累積等。在本實施例中,可以預(yù)先確定每級節(jié)點分 類器所采用的一個或多個特征。例如,可以預(yù)先確定第一級節(jié)點分類器采用字符縱橫比和 連通域數(shù)目作為特征,第二級節(jié)點分類器采用筆畫像素密度和筆劃密度直方圖作為特征, 等等。不同級的分類器所采用的特征可以有重合。例如第一級節(jié)點分類器采用字符縱橫比 和連通域數(shù)目作為特征,第二級節(jié)點分類器采用字符縱橫比和筆劃密度直方圖作為特征。 上述特征中,字符縱橫比、連通域數(shù)目、筆畫像素密度、筆劃密度直方圖、游程直方圖等是本 領(lǐng)域技術(shù)人員公知的,這里不再詳細描述。下面介紹水平投影差分累積、垂直投影差分累 積、水平筆劃密度差分累積和垂直筆劃密度差分累積等特征。在本實施例的一個示例中,在 預(yù)先確定各級節(jié)點分類器所采用的特征時,可以為第一級節(jié)點分類器優(yōu)先選擇已知的分類 效果較好的特征。例如,已知利用連通域數(shù)目這一特征可以有效地識別80%的中文字符圖 像。因此可以預(yù)先確定第一級節(jié)點分類器采用連通域數(shù)目這一特征。由于各特征之間存在互補性,在各級節(jié)點分類器中采用不完全相同的特征可以有 助于提高識別的精度。水平投影差分累積Cph通過如下公式1計算得到公式
權(quán)利要求
一種構(gòu)建級聯(lián)分類器的方法,所述級聯(lián)分類器包括一個或多個級,每一級包括一個節(jié)點分類器,所述方法包括基于第一級樣本集來構(gòu)建第一級節(jié)點分類器作為臨時級聯(lián)分類器,循環(huán)執(zhí)行以下步驟基于下級樣本集來構(gòu)建下級節(jié)點分類器,所述下級樣本集是上級樣本集中針對上級節(jié)點分類器的上級識別分數(shù)小于與上級節(jié)點分類器相對應(yīng)的上級識別分數(shù)閾值與識別分數(shù)閾值偏量之和的樣本的集合,所述識別分數(shù)閾值偏量是大于或等于0的數(shù),將構(gòu)建的下級節(jié)點分類器與所述臨時級聯(lián)分類器級聯(lián)以構(gòu)建新的臨時級聯(lián)分類器,比較增加該下級節(jié)點分類器前后的臨時級聯(lián)分類器的識別精度;以及如果增加所述下級節(jié)點分類器后識別精度不變或降低,則將刪除所述下級節(jié)點分類器后的所述臨時級聯(lián)分類器確定為最終的級聯(lián)分類器并終止循環(huán),否則繼續(xù)構(gòu)建下一個下級節(jié)點分類器。
2.如權(quán)利要求1所述的方法,其中在構(gòu)建每一級節(jié)點分類器的過程中,在特征集中進 行特征選擇以選擇與所述節(jié)點分類器相對應(yīng)的特征。
3.如權(quán)利要求1所述的方法,其中構(gòu)建下級節(jié)點分類器的步驟包括 針對多個候選上級識別分數(shù)閾值,構(gòu)建多個候選下級節(jié)點分類器;從所述構(gòu)建的多個下級候選節(jié)點分類器中選取識別精度最高的候選節(jié)點分類器作為 所述下級節(jié)點分類器,以及將所述下級節(jié)點分類器所對應(yīng)的候選上級識別分數(shù)閾值作為上級識別分數(shù)閾值。
4.如權(quán)利要求1-3之一所述的方法,其中,所述級聯(lián)分類器用于識別單個字符圖像的 語言類型。
5.如權(quán)利要求4所述的方法,其中所述特征集包括下述特征中的至少一個字符縱橫 比、連通域數(shù)目、筆畫像素密度、筆劃密度直方圖、游程直方圖、水平投影差分累積、垂直投 影差分累積、水平筆劃密度差分累積和垂直筆劃密度差分累積,其中所述水平投影差分累積Cph通過如下公式1計算得到 A一1 公式 ι -.Cph =—M J=I所述垂直投影差分累積Cpv通過如下公式2計算得到公式 2 .Cpv ^ X|pv0+I)-Pv(0I /=1在上述公式1和2中,M和N分別為待識別字符圖像的高度和寬度,i和j為整數(shù),Ph(j+1)和Ph(j)分別表示待識別字符圖像的第j+Ι行和第j行的有效像素數(shù),Pv(i+1)和Pv(i)分別表示待識別字符圖像的第i+Ι列和第i列的有效像素數(shù),所述水平筆劃密度差分累積Csh通過如下公式3計算得到 N-I公式3 Csh = YJPshUPshO)l所述垂直筆劃密度差分累積Csv通過如下公式4計算得到
6.如權(quán)利要求1所述的方法,其中,采用前向序貫選擇方法或后向序貫選擇方法來在 所述特征集中進行特征選擇。
7.如權(quán)利要求1所述的方法,其中所述節(jié)點分類器是最近鄰節(jié)點分類器。
8.一種利用由權(quán)利要求1-7之一所述的方法構(gòu)建級聯(lián)分類器來識別對象的方法,包括對于所述級聯(lián)分類器的從第一級節(jié)點分類器到最后一級節(jié)點分類器的每一級節(jié)點分 類器,循環(huán)執(zhí)行以下步驟獲取所述對象的與所述節(jié)點分類器相對應(yīng)的特征;將所述對象的與所述節(jié)點分類器相對應(yīng)的特征輸入到所述節(jié)點分類器進行識別; 如果所述對象在所述節(jié)點分類器的識別分數(shù)小于與所述節(jié)點分類器所對應(yīng)的識別分 數(shù)閾值并且所述節(jié)點分類器不是最后一級節(jié)點分類器,則將所述對象輸入到下一級節(jié)點分 類器,否則將所述節(jié)點分類器的識別結(jié)果確定為最終的識別結(jié)果。
9.一種用于識別對象的裝置,包括特征獲取單元,用于獲取所述對象的特征;以及由權(quán)利要求1-7之一所述的方法所構(gòu)建的級聯(lián)分類器,與所述特征獲取單元相耦合。
全文摘要
公開了構(gòu)建級聯(lián)分類器的方法、識別對象的方法以及裝置。該方法包括基于第一級樣本集來構(gòu)建第一級節(jié)點分類器作為臨時級聯(lián)分類器,循環(huán)執(zhí)行以下步驟基于下級樣本集來構(gòu)建下級節(jié)點分類器,下級樣本集是上級樣本集中針對上級節(jié)點分類器的上級識別分數(shù)小于與上級節(jié)點分類器相對應(yīng)的上級識別分數(shù)閾值與大于或等于0的識別分數(shù)閾值偏量之和的樣本的集合;將下級節(jié)點分類器與臨時級聯(lián)分類器級聯(lián)以構(gòu)建新的臨時級聯(lián)分類器;比較增加該下級節(jié)點分類器前后的臨時級聯(lián)分類器的識別精度;如果增加下級節(jié)點分類器后識別精度不變或降低,則將刪除下級節(jié)點分類器后的臨時級聯(lián)分類器確定為最終的級聯(lián)分類器并終止循環(huán),否則繼續(xù)構(gòu)建下一個下級節(jié)點分類器。
文檔編號G06K9/00GK101964059SQ20091016123
公開日2011年2月2日 申請日期2009年7月24日 優(yōu)先權(quán)日2009年7月24日
發(fā)明者于浩, 堀田悅伸, 孫俊, 朱遠平, 皆川明洋, 直井聰 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
屏边| 扬中市| 含山县| 镶黄旗| 陵川县| 利川市| 眉山市| 江陵县| 敖汉旗| 石河子市| 云龙县| 丹阳市| 九台市| 龙岩市| 常熟市| 昌吉市| 九台市| 竹北市| 东阿县| 黄山市| 延边| 饶阳县| 封开县| 樟树市| 平度市| 瑞丽市| 江安县| 丁青县| 五河县| 秦皇岛市| 来宾市| 肃宁县| 西城区| 青铜峡市| 麻栗坡县| 栾城县| 清河县| 邛崃市| 乐东| 北流市| 东阿县|