欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法

文檔序號(hào):6482159閱讀:431來(lái)源:國(guó)知局
專利名稱:一種基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法
技術(shù)領(lǐng)域
本發(fā)明屬于利用計(jì)算機(jī)模式識(shí)別對(duì)手寫文字圖像進(jìn)行識(shí)別處理的技術(shù)領(lǐng) 域,特別是涉及一種基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法。
背景技術(shù)
手寫漢字書寫質(zhì)量評(píng)價(jià)是利用計(jì)算機(jī)智能判別用戶手寫漢字的書寫質(zhì)量, 其中書寫質(zhì)量包括書寫是否正確、工整以及熟練三個(gè)方面的內(nèi)容。手寫漢字書 寫質(zhì)量評(píng)價(jià)技術(shù)涉及到模式識(shí)別、圖像處理、人工智能和計(jì)算機(jī)等學(xué)科,也涉 及到語(yǔ)言文字學(xué)、書法、認(rèn)知心理學(xué)等,是一門綜合性很強(qiáng)的技術(shù)。
但是漢字書寫質(zhì)量評(píng)價(jià)有很多難點(diǎn)。首先,漢字字量大,僅國(guó)標(biāo)一級(jí)字庫(kù)中
就有3755個(gè)漢字,而《現(xiàn)代漢語(yǔ)字典》中收集的漢字約11000個(gè),即使智能評(píng) 價(jià)3000個(gè)以上的漢字書寫仍是一個(gè)相當(dāng)大的問(wèn)題;其次,漢字結(jié)構(gòu)復(fù)雜,筆畫 最多的漢字有三十多畫,平均每個(gè)漢字的筆畫數(shù)約為11,所以手寫漢字不可避 免的會(huì)帶來(lái)一些噪聲,如連筆、筆畫畸變等;再次,漢字相似性大,如"人、 入","日、曰","己、已、巳"等,這些相似字有的僅有一點(diǎn)之差,有時(shí)人也 不一定能辨認(rèn)出寫的不規(guī)范的手寫體,這就給智能評(píng)價(jià)帶來(lái)了很大的困難和挑 戰(zhàn);最后,漢字字體眾多,最常見的有楷書,行書,草書,隸書,篆書等,對(duì) 各種字體書寫評(píng)價(jià)的規(guī)則也是不一樣的。所以目前漢字書寫質(zhì)量評(píng)價(jià)依然是個(gè) 具有挑戰(zhàn)性的研究題目。本文對(duì)書寫質(zhì)量評(píng)價(jià)做了初步的探討,提出了一種基 于置信度分析的漢字書寫質(zhì)量評(píng)價(jià)。

發(fā)明內(nèi)容
本發(fā)明的目的在于創(chuàng)新性的提出了一種新的漢字書寫質(zhì)量評(píng)價(jià)方法,即基 于置信度的漢字書寫質(zhì)量評(píng)價(jià)。 本發(fā)明采用的技術(shù)方案為
一種基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其步驟如下
(1) 、利用修正二次判決函數(shù)計(jì)算候選字距離;
(2) 、對(duì)候選字距離進(jìn)行尺度調(diào)整;
(3) 、利用候選字距離計(jì)算置信度;
(4) 、利用置信度進(jìn)行漢字書寫質(zhì)量評(píng)價(jià)
所述步驟(1)是利用修正二次判決函數(shù)(MQDF)分類器對(duì)手寫漢字進(jìn)行 識(shí)別,得到K個(gè)候選字(一般取K40),并計(jì)算每個(gè)候選字與手寫樣本的距離。 MQDF分類器判決函數(shù)描述如下,
其中S,是協(xié)方差矩陣,A是樣本均值。
所述步驟(2)是對(duì)候選字距離進(jìn)行尺度調(diào)整。由于由MQDF計(jì)算得到的 距離《的數(shù)值有時(shí)較大,取負(fù)指數(shù)后變?yōu)?,不利于計(jì)算,因此需要將《做一 個(gè)尺度上的調(diào)整《=《^。,其中D。為尺度因子,要根據(jù)訓(xùn)練樣本的識(shí)別距離大 小估計(jì)。估計(jì)的方法如下,
對(duì)一定數(shù)量的訓(xùn)練樣本(從訓(xùn)練樣本隨機(jī)抽取,如50個(gè)),統(tǒng)計(jì)第一候選
距離最小值^^和最末一個(gè)候選的距離最大值^^ ,應(yīng)有
而由MQDF分類器計(jì)算出的距離《為:^p(最末一個(gè)候選類別lx)aO ip(第一候選類別lx)2 0.5
為了方便計(jì)算和參數(shù)調(diào)整,選取/)。=2、使得下式成立:
/7 / 9 w
exp{"隨/z }^10-10 —2
-2
,.=0
_2
其中,candidateNum為候選類別個(gè)數(shù),即選取的前candidateNum個(gè)候選字, ^^是第一候選距離最小值,rf^是最末一個(gè)候選的距離最大值。
所述步驟(3)是利用已經(jīng)得到的候選字距離計(jì)算置信度。置信度的計(jì)算
方法如下,
exp
_2
》xp
_2
其中《 度因子。
=1,...,《分別為前尺個(gè)候選字的距離,"。為第二步中計(jì)算出的尺
所述步驟(4)是根據(jù)第三步中得到的候選字置信度,對(duì)漢字書寫質(zhì)量進(jìn) 行評(píng)價(jià)。選取適當(dāng)?shù)拈撝祬^(qū)間,可以對(duì)漢字書寫質(zhì)量進(jìn)行等級(jí)評(píng)價(jià)。閾值區(qū)間 的選取跟訓(xùn)練樣本、樣本置信度分布的均值和方差有密切的關(guān)系。對(duì)于不同訓(xùn) 練集合閾值空間的劃分是不一樣的,要根據(jù)置信度分布的均值和方差通過(guò)實(shí)驗(yàn) 求的。
本發(fā)明的原理是根據(jù)漢字識(shí)別的相關(guān)知識(shí),利用漢字識(shí)別分類器計(jì)算得到 的候選字距離,計(jì)算首選候選字的置信度。根據(jù)此置信度來(lái)對(duì)手寫漢字進(jìn)行書
寫質(zhì)量評(píng)價(jià)。本文創(chuàng)新性的提出了利用置信度進(jìn)行書寫質(zhì)量評(píng)價(jià)


圖l是本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖2是中科院CASIA-0LHWDB1數(shù)據(jù)庫(kù)中提取的樣本; 圖3是SCUT-C0UCH2009數(shù)據(jù)庫(kù)中提取的樣本; 圖4是中科院CASIA-0LHWDB1數(shù)據(jù)庫(kù)書寫質(zhì)量等級(jí)劃分結(jié)果; 圖5是SCUT-C0UCH2009數(shù)據(jù)庫(kù)書寫質(zhì)量等級(jí)劃分結(jié)果。
具體實(shí)施例方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的說(shuō)明,實(shí)施本發(fā)明所用的漢字書寫質(zhì)量 評(píng)價(jià)設(shè)備可以采用手寫板書寫漢字,用計(jì)算機(jī)進(jìn)行評(píng)價(jià),用純平型顯示器顯示 用戶圖形界面,可采用C語(yǔ)言編制各類處理程序,便能較好地實(shí)施本發(fā)明。
本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖如附圖l所示,手寫漢字輸入后,首先對(duì)樣本提取 特征,然后送入分類器。利用分類器計(jì)算出候選字的置信度,根據(jù)該置信度對(duì) 漢字進(jìn)行書寫質(zhì)量評(píng)價(jià)。
這種基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其步驟如下
(1) 、利用修正二次判決函數(shù)計(jì)算候選字距離;
(2) 、對(duì)候選字距離進(jìn)行尺度調(diào)整;
(3) 、利用候選字距離計(jì)算置信度;
(4) 、利用置信度進(jìn)行漢字書寫質(zhì)量評(píng)價(jià)
所述步驟(1)是利用修正二次判決函數(shù)計(jì)算候選字距離。MQDF分類器 如下,
<formula>formula see original document page 7</formula>
而由MQDF計(jì)算出的距離《為其中&是協(xié)方差矩陣,A是樣本均值。
所述步驟(2)是對(duì)候選字距離進(jìn)行尺度調(diào)整。由于由MQDF計(jì)算得到的 距離《.的數(shù)值有時(shí)較大,取負(fù)指數(shù)后變?yōu)?,不利于計(jì)算,因此需要將《做一 個(gè)尺度上的調(diào)整《'=《/1)。,其中D。為尺度因子,要根據(jù)訓(xùn)練樣本的識(shí)別距離大 小估計(jì)。估計(jì)的方法如下,
對(duì)一定數(shù)量的訓(xùn)練樣本(從訓(xùn)練樣本隨機(jī)抽取,如50個(gè)),統(tǒng)計(jì)第一候選
距離最小值rf^和最末一個(gè)候選的距離最大值^^ ,應(yīng)有
^[p(最末一個(gè)候選類別I x) * 0 ip(第一候選類別lx)2 0.5
為了方便計(jì)算和參數(shù)調(diào)整,取/)。=2",則
exp{^-}《10—10
-2
exP{-t-}
其中,candidateNum為候選類別個(gè)數(shù),即選取的前candidateNum個(gè)候選字, ^^是第一候選距離最小值,^^是最末一個(gè)候選的距離最大值。
所述步驟(3)是利用已經(jīng)得到的候選字距離計(jì)算置信度。置信度的計(jì)算
方法如下,
<formula>formula see original document page 8</formula>
其中《.,/ = 1,...,《分別為前《個(gè)候選字的距離,D。為第二步中計(jì)算出的尺
度因所述步驟(4)是根據(jù)第三步中得到的候選字置信度,對(duì)漢字書寫質(zhì)量進(jìn) 行評(píng)價(jià)。如附圖2, 3所示,根據(jù)置信度由大到小排列的樣本集合,是樣本從工 整到潦草的過(guò)程。選取適當(dāng)?shù)拈撝祬^(qū)間,可以對(duì)漢字書寫質(zhì)量進(jìn)行等級(jí)評(píng)價(jià)。 閾值區(qū)間的選取跟訓(xùn)練樣本、樣本置信度分布的均值和方差有密切的關(guān)系。對(duì) 于不同訓(xùn)練集合閾值空間的劃分是不一樣的,要根據(jù)置信度分布的均值和方差
通過(guò)實(shí)驗(yàn)求的。評(píng)價(jià)結(jié)果如附圖4, 5所示,從上到下每行依次是優(yōu)、良、中、
差、潦草五個(gè)等級(jí)。
權(quán)利要求
1、一種基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其特征在于包括如下步驟(1)、利用修正二次判決函數(shù)分類器對(duì)手寫漢字進(jìn)行識(shí)別,得到K個(gè)候選字,并計(jì)算每個(gè)候選字與手寫樣本的距離;(2)、對(duì)候選字距離進(jìn)行尺度調(diào)整;(3)、利用候選字距離計(jì)算置信度;(4)、利用置信度進(jìn)行漢字書寫質(zhì)量評(píng)價(jià)。
2、 根據(jù)權(quán)利要求1所述的基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其特征在于所述步驟(1)采用的修正二次判決函數(shù)分類器如下<formula>formula see original document page 2</formula>-冬)[《")]2 +i>g ,《產(chǎn)l 乂y 戶1計(jì)算出的識(shí)別距離《為《=(^-//,.)、-^-/O + i0g|2:,|,其中s,是協(xié)方差矩 陣,A是樣本均值矢量。
3、根據(jù)權(quán)利要求1或2所述的基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其 特征在于所述步驟(2)將《做一個(gè)尺度上的調(diào)整《、《/D。,其中A)為尺度因子,A根據(jù)訓(xùn)練樣本的識(shí)別距離大小進(jìn)行估計(jì),估計(jì)的方法如下對(duì)一定數(shù)量的訓(xùn)練樣本,統(tǒng)計(jì)第一候選距離最小值《n和最末一個(gè)候選的距離最大值^^,根據(jù)下述準(zhǔn)則k(最末一個(gè)候選類別lx)-0 k(第一候選類別l;c)2 0.5選取/)。=2、使得<formula>formula see original document page 3</formula>其中,candidateNum為候選漢字的類別數(shù),《n是第一候選距離最小值,(x 是最末一個(gè)候選的距離最大值。
4、根據(jù)權(quán)利要求3所述的基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其特征在 于所述步驟(3)計(jì)算置信度的方法具體如下其中A, / = 1,...,《分別為前《個(gè)候選字的距離,"。為尺度因子。
5、根據(jù)權(quán)利要求4所述的基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其特征 在于所述步驟(4)對(duì)漢字書寫質(zhì)量進(jìn)行評(píng)價(jià)的具體操作為根據(jù)訓(xùn)練樣本、樣 本置信度分布的均值和方差選取適當(dāng)?shù)拈撝祬^(qū)間,對(duì)漢字書寫質(zhì)量進(jìn)行等級(jí)評(píng) 價(jià)。
全文摘要
本發(fā)明提供一種基于置信度的漢字書寫質(zhì)量評(píng)價(jià)方法,其利用修正二次判決函數(shù)計(jì)算候選字距離的方法,利用候選字距離計(jì)算置信度進(jìn)行漢字書寫質(zhì)量評(píng)價(jià)方法。本發(fā)明創(chuàng)新性的提出了利用置信度進(jìn)行書寫質(zhì)量評(píng)價(jià)的新方法,而且該方法對(duì)漢字書寫質(zhì)量的評(píng)價(jià)與人為評(píng)價(jià)90%以上是一致的,故而該方法是合理有效的,這種漢字書寫質(zhì)量評(píng)價(jià)方法與傳統(tǒng)的漢字書寫質(zhì)量評(píng)價(jià)方法相比,評(píng)價(jià)的標(biāo)準(zhǔn)主要是根據(jù)訓(xùn)練樣本的選取,如果訓(xùn)練樣本書寫工整,則該評(píng)價(jià)系統(tǒng)對(duì)樣本書寫工整性有較好的評(píng)價(jià)能力。
文檔編號(hào)G06K9/00GK101630362SQ200910042118
公開日2010年1月20日 申請(qǐng)日期2009年8月25日 優(yōu)先權(quán)日2009年8月25日
發(fā)明者金連文, 巖 高 申請(qǐng)人:華南理工大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
台湾省| 高青县| 德庆县| 西盟| 博湖县| 杨浦区| 专栏| 莆田市| 商丘市| 电白县| 交口县| 柏乡县| 四川省| 井冈山市| 闽侯县| 富平县| 邻水| 新绛县| 兴业县| 清水县| 北辰区| 霍山县| 望江县| 休宁县| 徐州市| 平和县| 宁城县| 松滋市| 侯马市| 新疆| 贵南县| 革吉县| 桑植县| 淮南市| 安西县| 白玉县| 阳信县| 肥西县| 海宁市| 大埔区| 临邑县|