本發(fā)明涉及一種選項(xiàng)識(shí)別方法,特別涉及一種基于決策樹的選項(xiàng)識(shí)別方法。
背景技術(shù):
隨著科學(xué)技術(shù)的日益發(fā)展,傳統(tǒng)的教育行業(yè)也發(fā)生著巨大的變革,從以前的客觀題需要人工手動(dòng)批改,到后來使用光學(xué)標(biāo)記閱讀機(jī)去識(shí)別選項(xiàng)答案,效率得到了大大的提升。但光學(xué)標(biāo)記閱讀機(jī)雖然速度快,準(zhǔn)確性高,但也存在著一些問題:一是設(shè)備成本高,一臺(tái)普通的光學(xué)標(biāo)記閱讀機(jī)需要好幾萬的成本,其中還不包括維修的費(fèi)用;二是答題卡需要定制,光學(xué)標(biāo)記閱讀機(jī)只能識(shí)別特定的答題卡,但有時(shí)候答題卡需要自定義,這時(shí)光學(xué)標(biāo)記閱讀機(jī)便無能為力;三光學(xué)標(biāo)記閱讀機(jī)不能保存數(shù)字圖像。因此人們一直尋找著一種更加通用、便宜、可靠性好的識(shí)別方法。隨著計(jì)算機(jī)性能的飛速提升和各種圖像處理算法的提出,使到直接使用軟件的方式實(shí)現(xiàn)答題卡客觀題選項(xiàng)的識(shí)別成為可能。這種基于軟件的實(shí)現(xiàn)稱為數(shù)碼閱卷,無需添加任何硬件,能夠很好地節(jié)省成本,并且答題卡的樣式可以根據(jù)需求各個(gè)學(xué)校自己定義,比過去的光學(xué)標(biāo)記閱讀機(jī)具有更好的通用性,還能夠根據(jù)需要保存電子試卷,方便以后查詢修改?;跀?shù)碼閱卷的種種好處,數(shù)碼閱卷得到了飛速的發(fā)展。但現(xiàn)有的選項(xiàng)識(shí)別方法需要設(shè)置一個(gè)固定的閾值去判斷選項(xiàng)是否填涂。當(dāng)填涂規(guī)范,掃描清晰的情況下,這種做法沒有什么問題,并且具有實(shí)現(xiàn)簡單,效率高等優(yōu)點(diǎn)。但實(shí)際情況是,在答題卡在一層層傳遞、抽象的過程中會(huì)受到各種因素的影響,如答題卡的材質(zhì)、填涂的筆跡、掃描的儀器、二值化的方法、糾偏的算法,等等,都會(huì)對選項(xiàng)最后的讀取產(chǎn)生一定的失真。這時(shí)候,固定閾值的方法識(shí)別正確率就會(huì)降低許多。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種提取客觀題選項(xiàng)特征和識(shí)別的方法,經(jīng)測試,能夠兼容各種選項(xiàng)的類型,適應(yīng)各種填涂的形狀,并且能夠很好地處理由于掃描而導(dǎo)致的選項(xiàng)填涂零散的情況,具有很高的正確率。這種識(shí)別的方法還能夠方便地添加到當(dāng)前的答題卡處理系統(tǒng)上。
該方法的步驟為:
1.構(gòu)造訓(xùn)練樣本和測試樣本;
2.設(shè)定劃分個(gè)數(shù)n和離散化閾值t;
3.將訓(xùn)練樣本中的選項(xiàng)圖像分為n個(gè)大小相同的小區(qū)域,逐一計(jì)算每個(gè)區(qū)域黑色像素的占空比;經(jīng)過測試,n=4*4時(shí)有最高的識(shí)別正確率。
4.根據(jù)離散化閾值將每一個(gè)小區(qū)域的占空比離散化,方法為:占空比大于閾值,特征值置為1;否則,特征值置為0;
5.對該選項(xiàng)所有區(qū)域的特征值求和;
6.根據(jù)上面的特征信息構(gòu)造該選項(xiàng)圖像的特征值向量,最后輸出的特征值向量會(huì)是下面這樣的形式:vector=[1,1,1,0,0,1,0,1,…,11,1],其中,11為前面的1的個(gè)數(shù)之和,最后的1是該選項(xiàng)的類別(這里1代表“填涂”,0代表“未填涂”)。
7.將所有的訓(xùn)練樣本的特征向量構(gòu)造成特征矩陣的形式。
8.將特征矩陣數(shù)據(jù)輸入決策樹訓(xùn)練算法中,構(gòu)造用于識(shí)別選項(xiàng)的決策樹模型。
9.提取測試樣本的特征向量,輸入構(gòu)造后的決策樹模型,調(diào)整參數(shù),得到識(shí)別率最高的結(jié)果。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:
1.容易理解和實(shí)現(xiàn),人們能夠直觀地理解決策樹所表達(dá)的意義。
2.對于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的。其他的技術(shù)往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的特征,而在決策樹中,會(huì)自動(dòng)地通過信息度量計(jì)算將冗余的特征去除。
3.在相對短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。
4.識(shí)別速度快,準(zhǔn)確率高,一般能達(dá)到99%以上。
5.適應(yīng)各種填涂的形狀,并且能夠很好地處理由于掃描而導(dǎo)致的選項(xiàng)填涂零散的情況
6.這種識(shí)別的方法與特定的系統(tǒng)無關(guān),不需要額外的參數(shù),能夠方便地添加到答題卡處理系統(tǒng)上。
附圖說明
圖1是算法的流程圖;
圖2是閾值與準(zhǔn)確率關(guān)系圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
構(gòu)造訓(xùn)練樣本和測試樣本具體為:
訓(xùn)練樣本集的構(gòu)造對決策樹的生成非常重要。構(gòu)造的訓(xùn)練樣本集需要包含兩部分,一是正樣本集(填涂的選項(xiàng)圖像集),二是負(fù)樣本集(未填涂的選項(xiàng)圖像集)。在構(gòu)造訓(xùn)練樣本集的時(shí)候,有一點(diǎn)是需要注意的,那就是在正樣本集中,填涂不全的選項(xiàng)需要占較大部分,在本論文構(gòu)造的正樣本集中,填涂不全所占比例為70%,而在負(fù)樣本集中,選項(xiàng)清晰的部分需要占較大的比例,在本論文構(gòu)造的負(fù)樣本集中,填涂清晰所占比例為80%。這樣做的原因是,如果正樣本集都是填涂完整的選項(xiàng)圖像,那么那些填涂不全的選項(xiàng)就會(huì)輸出為未填涂,而如果負(fù)樣本的選項(xiàng)不夠清晰的話,那些清晰的、線條較粗的選項(xiàng)就會(huì)輸出為填涂。因此,我們在構(gòu)造數(shù)據(jù)集的時(shí)候,需要選取那些正樣本的下限,負(fù)樣本的上限,這樣數(shù)據(jù)集才具有良好的兼容性。
設(shè)定劃分個(gè)數(shù)n和離散化閾值t具體為:
將選項(xiàng)區(qū)域分成n×m個(gè)大小相同的小矩形區(qū)域,統(tǒng)計(jì)這些小的矩形區(qū)域的占空比,然后將占空比離散化,離散化的原因是:占空比的值是連續(xù)的,會(huì)使到生成的決策樹臃腫復(fù)雜,容易導(dǎo)致過擬合的問題,將其離散化之后,決策樹會(huì)得到簡化,避免過擬合的問題。離散化的方法也非常簡單,就是設(shè)置一閾值,若占空比高于該閾值則將特征值置為1,否則為0。以往的占空比閾值判斷方法往往會(huì)丟失了選項(xiàng)填涂的空間信息,它只能夠得到選項(xiàng)大致填涂了多少,而不會(huì)知道這些填涂是分散的還是集中的;現(xiàn)在通過將選項(xiàng)分割成一個(gè)個(gè)小的區(qū)域,其特征值代表了區(qū)域的填涂信息,能夠在整體上保留了填涂的空間信息,不過,由于特征值只會(huì)代表單個(gè)區(qū)域信息,我們還需要一個(gè)特征來表征整個(gè)區(qū)域的填涂信息,這個(gè)特征可以通過對所有小區(qū)域的特征求和來得到。經(jīng)過測試,閾值t選擇0.62具有最高的識(shí)別正確率。
構(gòu)造決策樹的方法如下:
1)選擇度量集合有序程度的計(jì)算方法
這里度量方法選擇的是gini不純度:
其中,p(i)為訓(xùn)練樣本集中樣本屬于第i類ci的概率。
2)劃分?jǐn)?shù)據(jù)集
當(dāng)確定了有序度量的方法后,便可以對訓(xùn)練樣本集進(jìn)行劃分,具體做法是,將對每個(gè)特征劃分?jǐn)?shù)據(jù)集的結(jié)果計(jì)算一次gini不純度,然后選擇出分類結(jié)果最好的特征,將其作為根節(jié)點(diǎn),而子節(jié)點(diǎn)則作為分類結(jié)果集。
3)遞歸地構(gòu)造整棵決策樹
在決策樹中,遞歸結(jié)束的條件是:子節(jié)點(diǎn)的數(shù)據(jù)集中只包含單一的類別。當(dāng)決策樹構(gòu)造完成后,添加多一個(gè)“剪枝”的步驟,盡可能地將噪聲去掉。
以上對本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。