本發(fā)明涉及筆跡提取領(lǐng)域,尤其涉及一種筆跡樣本提取系統(tǒng)及方法。
背景技術(shù):
1、當前,人工智能飛速發(fā)展,ocr一直是人工智能的熱點,當前印刷體ocr識別準確度極高,已經(jīng)被廣泛應(yīng)用到各類產(chǎn)品當中,極大的提高了人們的工作效率和應(yīng)用場景,但是對于智慧教育而言,如何準確快速的識別手寫筆跡是十分重要的,在構(gòu)建手寫筆跡識別模型的時候,如何得到大量的樣本數(shù)據(jù)是模型成敗的關(guān)鍵,因為每個人的手寫筆跡不同,如果是單純刻意制作樣本,這樣會導(dǎo)致一些場景或筆跡識別的正確率低,從而如何能夠得到大量的、筆跡種類多的、實際應(yīng)用當中提取到的筆跡樣本是極其重要的;
2、其次,得到手寫樣本后,還需要進一步通過標注,標記對應(yīng)手寫樣本圖片對應(yīng)的正確文字,通常這一步是通過人為標注或者在使用通用ocr后進行人為審核標注,但是這種標注方式效率極低,從而導(dǎo)致樣本量標注收集復(fù)雜,如何讓高效采集手寫筆跡樣本是亟待解決的問題。
技術(shù)實現(xiàn)思路
1、為此,本發(fā)明提供一種筆跡樣本提取系統(tǒng)及方法,用以克服現(xiàn)有技術(shù)中標注方式效率低導(dǎo)致筆跡樣本量標注收集復(fù)雜的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種筆跡樣本提取系統(tǒng),包括:
3、圖像模塊,用以導(dǎo)入目標圖像以及針對目標圖像進行預(yù)處理操作;
4、圖像評估模塊,其與校驗?zāi)K相連,用以根據(jù)目標圖像的字體間隔參數(shù)以及字體復(fù)雜參數(shù)確定目標圖像的特征狀態(tài);
5、圖像處理模塊,其與所述圖像評估模塊相連,用以根據(jù)目標圖像的特征狀態(tài)確定是否針對目標圖像內(nèi)的字符依次進行分割處理以獲取若干字符圖像;
6、校驗?zāi)K,其與所述圖像模塊以及所述圖像處理模塊相連,用以獲取目標圖像對應(yīng)的答案以及根據(jù)目標圖像內(nèi)的字符數(shù)據(jù)確定目標圖像是否為正確樣本目標;
7、處理模塊,其與所述校驗?zāi)K相連,用以將正確樣本目標進行切片處理并自動提取手寫痕跡樣本數(shù)據(jù)做為樣本數(shù)據(jù)集。
8、進一步地,所述目標圖像為試卷圖像、作業(yè)圖像以及教輔圖像中的至少一種圖像。
9、進一步地,圖像模塊還包括圖像處理子模塊,用以對目標圖像進行倒置矯正、矩形矯正、圖像二值化、圖像定位中的至少一項預(yù)處理操作。
10、進一步地,圖像評估模塊根據(jù)目標圖像的字體間隔參數(shù)以及字體復(fù)雜參數(shù)確定目標圖像的特征狀態(tài);
11、若字體間隔參數(shù)大于預(yù)設(shè)字體間隔參數(shù)或字體復(fù)雜參數(shù)大于預(yù)設(shè)字體復(fù)雜參數(shù),則目標圖像的特征狀態(tài)為第一預(yù)設(shè)特征狀態(tài);
12、若字體間隔參數(shù)小于或等于預(yù)設(shè)字體間隔參數(shù)且字體復(fù)雜參數(shù)小于或等于預(yù)設(shè)字體復(fù)雜參數(shù),則目標圖像的特征狀態(tài)為第二預(yù)設(shè)特征狀態(tài)。
13、進一步地,圖像處理模塊根據(jù)目標圖像的特征狀態(tài)確定是否針對目標圖像內(nèi)的字符依次進行分割處理以獲取若干字符圖像;
14、若目標圖像的特征狀態(tài)為第一預(yù)設(shè)特征狀態(tài),圖像處理模塊判定無需針對目標圖像內(nèi)的字符依次進行分割處理;
15、若目標圖像的特征狀態(tài)為第二預(yù)設(shè)特征狀態(tài),圖像處理模塊判定針對目標圖像內(nèi)的字符依次進行分割處理。
16、進一步地,校驗?zāi)K用以根據(jù)目標圖像內(nèi)的字符數(shù)據(jù)確定目標圖像是否為正確樣本目標;
17、若目標圖像的字符數(shù)據(jù)均等于預(yù)設(shè)閾值,則目標圖像為正確樣本目標;
18、字符數(shù)據(jù)包括字符個數(shù)、漢字個數(shù)、字母個數(shù)、數(shù)字個數(shù)、中文個數(shù)、單詞個數(shù)中的至少一項校驗條件。
19、進一步地,校驗?zāi)K獲取目標圖像對應(yīng)的樣本目標的答案并將答案定位到對應(yīng)試題,從而可從試題庫中獲取到該題答案。
20、進一步地,所述目標圖像對應(yīng)的答案為固定答案。
21、本發(fā)明還提供一種應(yīng)用于所述系統(tǒng)的筆跡樣本提取方法,包括:
22、導(dǎo)入目標圖像以及針對目標圖像進行預(yù)處理操作;
23、根據(jù)目標圖像的字體間隔參數(shù)以及字體復(fù)雜參數(shù)確定目標圖像的特征狀態(tài);
24、根據(jù)目標圖像的特征狀態(tài)確定是否針對目標圖像內(nèi)的字符依次進行分割處理以獲取若干字符圖像;
25、獲取目標圖像對應(yīng)的答案以及根據(jù)目標圖像內(nèi)的字符數(shù)據(jù)確定目標圖像是否為正確樣本目標;
26、將正確樣本目標進行切片處理并自動提取手寫痕跡樣本數(shù)據(jù)做為樣本數(shù)據(jù)集。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于,本發(fā)明通過復(fù)用已經(jīng)考完的試卷圖像,有效提取學(xué)生的手寫作答筆跡并將批改正確的作答及對應(yīng)答案進行關(guān)聯(lián)綁定,最終達到獲取手寫樣本的意圖,操作方便,一次性可獲取大量不同手寫習(xí)慣作答的筆跡樣本數(shù)據(jù),提高了樣本提取學(xué)習(xí)效率。
1.一種筆跡樣本提取系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的筆跡樣本提取系統(tǒng),其特征在于,所述目標圖像為試卷圖像、作業(yè)圖像以及教輔圖像中的至少一種圖像。
3.根據(jù)權(quán)利要求2所述的筆跡樣本提取系統(tǒng),其特征在于,圖像模塊還包括圖像處理子模塊,用以對目標圖像進行倒置矯正、矩形矯正、圖像二值化、圖像定位中的至少一項預(yù)處理操作。
4.根據(jù)權(quán)利要求3所述的筆跡樣本提取系統(tǒng),其特征在于,圖像評估模塊根據(jù)目標圖像的字體間隔參數(shù)以及字體復(fù)雜參數(shù)確定目標圖像的特征狀態(tài);
5.根據(jù)權(quán)利要求4所述的筆跡樣本提取系統(tǒng),其特征在于,圖像處理模塊根據(jù)目標圖像的特征狀態(tài)確定是否針對目標圖像內(nèi)的字符依次進行分割處理以獲取若干字符圖像;
6.根據(jù)權(quán)利要求5所述的筆跡樣本提取系統(tǒng),其特征在于,校驗?zāi)K用以根據(jù)目標圖像內(nèi)的字符數(shù)據(jù)確定目標圖像是否為正確樣本目標;
7.根據(jù)權(quán)利要求6所述的筆跡樣本提取系統(tǒng),其特征在于,校驗?zāi)K獲取目標圖像對應(yīng)的樣本目標的答案并將答案定位到對應(yīng)試題,從而可從試題庫中獲取到該題答案。
8.根據(jù)權(quán)利要求7所述的筆跡樣本提取系統(tǒng),其特征在于,所述目標圖像對應(yīng)的答案為固定答案。
9.一種應(yīng)用于權(quán)利要求1-8任一權(quán)利要求所述系統(tǒng)的筆跡樣本提取方法,其特征在于,包括: