字庫(kù)更新方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明提供一種字庫(kù)更新方法和裝置,其中方法包括:獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息;獲取字庫(kù)中各字符的位圖信息;根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字;若字庫(kù)不包括增補(bǔ)字,則確定增補(bǔ)字為有效增補(bǔ)字;將有效增補(bǔ)字添加到字庫(kù)中,用于解決現(xiàn)有技術(shù)中根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在標(biāo)準(zhǔn)中進(jìn)行查找,效率差,準(zhǔn)確度低的問(wèn)題。
【專(zhuān)利說(shuō)明】字庫(kù)更新方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種字庫(kù)更新方法和裝置。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,為了完善我國(guó)正在建設(shè)的人口基礎(chǔ)信息庫(kù)、法人單位基礎(chǔ)信息庫(kù)、自然資源和地理空間基礎(chǔ)信息庫(kù)、宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù)等數(shù)據(jù)庫(kù)的字庫(kù),需要獲取全國(guó)人名、地名等中的增補(bǔ)字,判斷增補(bǔ)字是否有效,若增補(bǔ)字為有效的增補(bǔ)字,則將增補(bǔ)字添加到原有字庫(kù)中。
[0003]現(xiàn)有技術(shù)中,判斷增補(bǔ)字是否有效的方法為:根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在Unicode5.0等標(biāo)準(zhǔn)中進(jìn)行查找,若在標(biāo)準(zhǔn)中查找到該增補(bǔ)字,則該增補(bǔ)字為無(wú)效的增補(bǔ)字,若在標(biāo)準(zhǔn)中未查找到該增補(bǔ)字,則該增補(bǔ)字為有效的增補(bǔ)字。
[0004]然而現(xiàn)有技術(shù)中,由于標(biāo)準(zhǔn)收錄的字符很多,例如最新Unicode標(biāo)準(zhǔn)已收納漢字八萬(wàn)多字,根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在標(biāo)準(zhǔn)中進(jìn)行查找,效率差,準(zhǔn)確度低。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種字庫(kù)更新方法和裝置,用于解決現(xiàn)有技術(shù)中根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在標(biāo)準(zhǔn)中進(jìn)行查找,效率差,準(zhǔn)確度低的問(wèn)題。
[0006]本發(fā)明的第一個(gè)方面是提供一種字庫(kù)更新方法,包括:
[0007]獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息;
[0008]獲取所述字庫(kù)中各字符的位圖信息;
[0009]根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字;
[0010]若所述字庫(kù)不包括所述增補(bǔ)字,則確定所述增補(bǔ)字為有效增補(bǔ)字;
[0011]將所述有效增補(bǔ)字添加到所述字庫(kù)中。
[0012]本發(fā)明的另一個(gè)方面提供一種字庫(kù)更新裝置,包括:
[0013]獲取模塊,用于獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息;
[0014]所述獲取模塊,還用于獲取所述字庫(kù)中各字符的位圖信息;
[0015]判斷模塊,用于根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字;
[0016]確定模塊,用于在所述字庫(kù)不包括所述增補(bǔ)字時(shí),確定所述增補(bǔ)字為有效增補(bǔ)字;
[0017]添加模塊,用于將所述有效增補(bǔ)字添加到所述字庫(kù)中。
[0018]本發(fā)明中,通過(guò)根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字,根據(jù)判斷結(jié)果確定增補(bǔ)字是否為有效增補(bǔ)字,將有效增補(bǔ)字添加到字庫(kù)中,減少了現(xiàn)有技術(shù)中根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在標(biāo)準(zhǔn)中進(jìn)行查找的時(shí)間,提高了判斷增補(bǔ)字是否有效的效率和準(zhǔn)確度,減少了在字庫(kù)中增加重復(fù)字符出現(xiàn)的可能性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0019]圖1為本發(fā)明提供的字庫(kù)更新方法一個(gè)實(shí)施例的流程圖;
[0020]圖2為增補(bǔ)字與字庫(kù)中的某個(gè)字符相同的情形;
[0021]圖3為增補(bǔ)字與字庫(kù)中的某個(gè)字符相似的情形;
[0022]圖4為本發(fā)明提供的字庫(kù)更新方法又一個(gè)實(shí)施例的流程圖;
[0023]圖5為增補(bǔ)字中兩個(gè)字符差一個(gè)筆劃的情形;
[0024]圖6為增補(bǔ)字中兩個(gè)字符相似的情形;
[0025]圖7為本發(fā)明提供的字庫(kù)更新裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0026]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0027]圖1為本發(fā)明提供的字庫(kù)更新方法一個(gè)實(shí)施例的流程圖,如圖1所示,包括:
[0028]101、獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息。
[0029]其中,本發(fā)明提供的字庫(kù)更新方法可以由字庫(kù)更新裝置執(zhí)行,字庫(kù)具體可以為人口基礎(chǔ)信息庫(kù)、法人單位基礎(chǔ)信息庫(kù)、自然資源和地理空間基礎(chǔ)信息庫(kù)、宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù)等的字庫(kù)。增補(bǔ)字具體可以指人名、地名中的未包括在字庫(kù)中的生僻字。增補(bǔ)字的位圖信息指的是增補(bǔ)字的點(diǎn)陣圖像信息或繪制圖像信息,是由稱(chēng)作像素的多個(gè)點(diǎn)組成的。這些點(diǎn)可以進(jìn)行不同的排列和染色以構(gòu)成圖像。
[0030]具體地,字庫(kù)更新裝置可以先獲取待添加到字庫(kù)中的增補(bǔ)字的字符結(jié)構(gòu)信息,對(duì)增補(bǔ)字的字符結(jié)構(gòu)信息進(jìn)行轉(zhuǎn)換,得到待添加到字庫(kù)中的增補(bǔ)字的位圖信息。
[0031]可選的,字庫(kù)更新裝置可以在待添加到字庫(kù)中的增補(bǔ)字的數(shù)量滿(mǎn)足預(yù)設(shè)的數(shù)量閾值時(shí),獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息;或者,字庫(kù)更新裝置也可以獲取一段時(shí)間內(nèi)的待添加到字庫(kù)中的增補(bǔ)字,在時(shí)間段的長(zhǎng)度滿(mǎn)足預(yù)設(shè)的時(shí)間閾值時(shí),獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息。
[0032]102、獲取字庫(kù)中各字符的位圖信息。
[0033]其中,字庫(kù)中的字符具體指的是人口基礎(chǔ)信息庫(kù)、法人單位基礎(chǔ)信息庫(kù)、自然資源和地理空間基礎(chǔ)信息庫(kù)、宏觀經(jīng)濟(jì)數(shù)據(jù)庫(kù)等字庫(kù)中的字。字庫(kù)中的字符具體是以矢量方式進(jìn)行保存的。字符的矢量方式指的是,將每個(gè)字符的筆畫(huà)分解成數(shù)學(xué)模型中定義好的各種直線和曲線,然后記下這些直線和曲線的參數(shù)。字符的位圖信息的定義與增補(bǔ)字的位圖信息的定義類(lèi)似。
[0034]103、根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字。
[0035]具體地,字庫(kù)更新裝置將字庫(kù)中的字符轉(zhuǎn)成位單色位圖,獲取到字庫(kù)中各字符的位圖信息后,字庫(kù)更新裝置分別將增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息進(jìn)行比較;
[0036]若字庫(kù)中不存在位圖信息與增補(bǔ)字的位圖信息的匹配度都滿(mǎn)足預(yù)設(shè)的閾值的字符,則確定字庫(kù)不包括增補(bǔ)字;
[0037]若字庫(kù)中存在位圖信息與增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少一個(gè)字符,則確定字庫(kù)中存在增補(bǔ)字的相似字符或相同字符;
[0038]若字庫(kù)中存在增補(bǔ)字的相同字符,則確定字庫(kù)包括增補(bǔ)字。
[0039]其中,匹配度具體指的是兩個(gè)字符的位圖信息之間的相似度,例如字庫(kù)中某個(gè)字符的位圖信息與增補(bǔ)字的位圖信息的匹配度指的是字庫(kù)中該字符的位圖信息與增補(bǔ)字的位圖信息之間的相似度,相似度具體可以用百分比來(lái)表示。預(yù)設(shè)的閾值具體指的也是百分t匕。字庫(kù)中存在位圖信息與增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少一個(gè)字符,具體指的是,字庫(kù)中存在位圖信息與增補(bǔ)字的位圖信息的相似度滿(mǎn)足預(yù)設(shè)的百分比的至少一個(gè)字符。
[0040]在字庫(kù)中存在位圖信息與增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少一個(gè)字符的情況下,需進(jìn)行人工篩查,判斷增補(bǔ)字與字庫(kù)中的所述至少一個(gè)字符是相似字符還是相同字符,若增補(bǔ)字與字庫(kù)中的所述至少一個(gè)字符是相同字符,則確定字庫(kù)包括所述增補(bǔ)字。例如,在字庫(kù)中存在位圖信息與增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少一個(gè)字符的情況下,如圖2所示,為增補(bǔ)字與字庫(kù)中的某個(gè)字符相同的情形,如圖3所示,為增補(bǔ)字與字庫(kù)中的某個(gè)字符相似的情形。
[0041]其中,預(yù)設(shè)的閾值可以由字庫(kù)更新裝置在對(duì)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息進(jìn)行比較之前進(jìn)行設(shè)置。
[0042]另外,由于增補(bǔ)字的位圖信息與增補(bǔ)字的類(lèi)型有一定的關(guān)系,即與增補(bǔ)字的字面大小和字體風(fēng)格有一定的關(guān)系,字面大小指的是在字號(hào)相同的情況下字符的顯示大小,當(dāng)字符的字號(hào)相同且顯示大小相同時(shí),字面大小相同;字體風(fēng)格指的是增補(bǔ)字的字體以及增補(bǔ)字是否加粗、是否傾斜等特征。也就是說(shuō),針對(duì)同一個(gè)增補(bǔ)字,不同字體風(fēng)格的增補(bǔ)字或不同字面大小的增補(bǔ)字對(duì)應(yīng)的位圖信息是不同的。因此,若待添加到字庫(kù)中的增補(bǔ)字與字庫(kù)中各字符的類(lèi)型相同,則可以進(jìn)一步提高增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息的匹配度,提高判斷增補(bǔ)字是否有效的準(zhǔn)確度。
[0043]104、若字庫(kù)不包括增補(bǔ)字,則確定增補(bǔ)字為有效增補(bǔ)字。
[0044]105、將有效增補(bǔ)字添加到字庫(kù)中。
[0045]其中,字庫(kù)更新裝置可以按照字庫(kù)的編碼規(guī)則對(duì)有效增補(bǔ)字進(jìn)行編碼,將有效增補(bǔ)字及對(duì)應(yīng)的編碼添加到字庫(kù)中,將有效增補(bǔ)字及對(duì)應(yīng)的編碼添加到字庫(kù)中后,字庫(kù)更新裝置還可以對(duì)字庫(kù)進(jìn)行測(cè)試,若測(cè)試通過(guò),可以將字庫(kù)作為產(chǎn)品進(jìn)行發(fā)布。
[0046]另外,本發(fā)明提供的字庫(kù)更新裝置中確定增補(bǔ)字是否有效的方法也可以用于檢查某字庫(kù)是否有重復(fù)字符,例如檢查中華大字庫(kù)的成果字庫(kù)、中華經(jīng)典古籍庫(kù)、商周銅器銘文知識(shí)庫(kù)等數(shù)字庫(kù)是否有重復(fù)字符。
[0047]本實(shí)施例中,通過(guò)根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字,根據(jù)判斷結(jié)果確定增補(bǔ)字是否為有效增補(bǔ)字,將有效增補(bǔ)字添加到字庫(kù)中,減少了現(xiàn)有技術(shù)中根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在標(biāo)準(zhǔn)中進(jìn)行查找的時(shí)間,提高了判斷增補(bǔ)字是否有效的效率和準(zhǔn)確度,減少了在字庫(kù)中增加重復(fù)字符出現(xiàn)的可能性。
[0048]圖4為本發(fā)明提供的字庫(kù)更新方法又一個(gè)實(shí)施例的流程圖,如圖4所示,為了進(jìn)一步提高判斷增補(bǔ)字是否有效的效率,在圖1所示實(shí)施例的基礎(chǔ)上,步驟103之前,還可以包括:
[0049]106、根據(jù)增補(bǔ)字的位圖信息,判斷待添加到字庫(kù)中的增補(bǔ)字中是否存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字。
[0050]具體地,字庫(kù)分析裝置可以根據(jù)每個(gè)增補(bǔ)字的字符結(jié)構(gòu)信息等信息,給每個(gè)增補(bǔ)字編制一個(gè)臨時(shí)碼位,將這些增補(bǔ)字做成一個(gè)小字庫(kù),這些增補(bǔ)字的類(lèi)型可以與字庫(kù)中各字符的類(lèi)型一致,然后依次獲取小字庫(kù)中的每個(gè)增補(bǔ)字,并分別將每個(gè)增補(bǔ)字的位圖信息與小字庫(kù)中的其他增補(bǔ)字的位圖信息進(jìn)行匹配;若某個(gè)增補(bǔ)字的位圖信息與小字庫(kù)中的其他增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值,則小字庫(kù)中存在相似字符或者相同字符,在小字庫(kù)中存在相似字符的情況下,如圖5所示,為增補(bǔ)字中兩個(gè)字符差一個(gè)筆劃的情形;若每個(gè)增補(bǔ)字的位圖信息與小字庫(kù)中的其他增補(bǔ)字的位圖信息的匹配度不滿(mǎn)足預(yù)設(shè)的閾值,則小字庫(kù)中不存在相同字符或相似字符。
[0051]在某個(gè)增補(bǔ)字的位圖信息與小字庫(kù)中的其他增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值時(shí),例如在第一增補(bǔ)字的位圖信息與第二增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的情況下,需進(jìn)行人工篩查,判斷第一增補(bǔ)字與第二增補(bǔ)字是相似字符還是相同字符,若第一增補(bǔ)字與第二增補(bǔ)字為相同字符,則確定第一增補(bǔ)字與第二增補(bǔ)字是重復(fù)字符,若第一增補(bǔ)字與第二增補(bǔ)字為相似字符,則確定第一增補(bǔ)字與第二增補(bǔ)字不是重復(fù)字符。例如,如圖6所示,為增補(bǔ)字中兩個(gè)字符相似的情形。
[0052]107、若待添加到字庫(kù)中的增補(bǔ)字中存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字,則待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字或至少兩個(gè)相似增補(bǔ)字。
[0053]108、若待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字,則刪除至少兩個(gè)相同增補(bǔ)字中的重復(fù)增補(bǔ)字。
[0054]具體地,若小字庫(kù)中存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的增補(bǔ)字,則說(shuō)明小字庫(kù)中存在相似字符或相同字符,若為相同字符,則刪除重復(fù)字符。
[0055]本實(shí)施例中,通過(guò)根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,先根據(jù)增補(bǔ)字的位圖信息判斷增補(bǔ)字之間是否存在重復(fù)字符,若存在重復(fù)字符,刪除重復(fù)字符,然后再判斷字庫(kù)是否包括增補(bǔ)字,根據(jù)判斷結(jié)果確定增補(bǔ)字是否為有效增補(bǔ)字,將有效增補(bǔ)字添加到字庫(kù)中,減少了現(xiàn)有技術(shù)中根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在標(biāo)準(zhǔn)中進(jìn)行查找的時(shí)間,提高了判斷增補(bǔ)字是否有效的效率和準(zhǔn)確度,減少了在字庫(kù)中增加重復(fù)字符出現(xiàn)的可能性。
[0056]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成。前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:R0M、RAM、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0057]圖7為本發(fā)明提供的字庫(kù)更新裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖,如圖7所示,包括:
[0058]獲取模塊71,用于獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息;
[0059]獲取模塊71,還用于獲取字庫(kù)中各字符的位圖信息;
[0060]判斷模塊72,用于根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字;
[0061]確定模塊73,用于在字庫(kù)不包括增補(bǔ)字時(shí),確定增補(bǔ)字為有效增補(bǔ)字;
[0062]添加模塊74,用于將有效增補(bǔ)字添加到字庫(kù)中。
[0063]進(jìn)一步地,判斷模塊72根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字中,判斷模塊72具體用于,
[0064]分別將增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息進(jìn)行比較;
[0065]若字庫(kù)中不存在位圖信息與增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的字符,則確定字庫(kù)不包括增補(bǔ)字;
[0066]若字庫(kù)中存在位圖信息與增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少一個(gè)字符,則確定字庫(kù)中存在增補(bǔ)字的相似字符或相同字符;
[0067]若字庫(kù)中存在增補(bǔ)字的相同字符,則確定字庫(kù)包括增補(bǔ)字。
[0068]更進(jìn)一步地,為了進(jìn)一步提高判斷增補(bǔ)字是否有效的效率,所述字庫(kù)更新裝置還可以包括:刪除模塊;
[0069]判斷模塊72還用于,在判斷模塊72根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字之前,根據(jù)增補(bǔ)字的位圖信息,判斷待添加到字庫(kù)中的增補(bǔ)字中是否存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字;
[0070]若待添加到字庫(kù)中的增補(bǔ)字中存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字,則待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字或至少兩個(gè)相似增補(bǔ)字;
[0071]刪除模塊,用于在待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字時(shí),刪除所述至少兩個(gè)相同增補(bǔ)字中的重復(fù)增補(bǔ)字中。
[0072]再進(jìn)一步地,為了進(jìn)一步提高增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息的匹配度,提高判斷增補(bǔ)字是否有效的準(zhǔn)確度,增補(bǔ)字的類(lèi)型與字庫(kù)中各字符的類(lèi)型保持一致,類(lèi)型包括字面大小和字體風(fēng)格。
[0073]本實(shí)施例中,通過(guò)根據(jù)增補(bǔ)字的位圖信息與字庫(kù)中各字符的位圖信息,判斷字庫(kù)是否包括增補(bǔ)字,根據(jù)判斷結(jié)果確定增補(bǔ)字是否為有效增補(bǔ)字,將有效增補(bǔ)字添加到字庫(kù)中,減少了現(xiàn)有技術(shù)中根據(jù)增補(bǔ)字的字符結(jié)構(gòu)信息人工在標(biāo)準(zhǔn)中進(jìn)行查找的時(shí)間,提高了判斷增補(bǔ)字是否有效的效率和準(zhǔn)確度,減少了在字庫(kù)中增加重復(fù)字符出現(xiàn)的可能性。
[0074]最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
【權(quán)利要求】
1.一種字庫(kù)更新方法,其特征在于,包括: 獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息; 獲取所述字庫(kù)中各字符的位圖信息; 根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字; 若所述字庫(kù)不包括所述增補(bǔ)字,則確定所述增補(bǔ)字為有效增補(bǔ)字; 將所述有效增補(bǔ)字添加到所述字庫(kù)中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字,包括: 分別將所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息進(jìn)行比較; 若所述字庫(kù)中不存在位圖信息與所述增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的所述字符,則確定所述字庫(kù)不包括所述增補(bǔ)字; 若所述字庫(kù)中存在位圖信息與所述增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少一個(gè)所述字符,則確定所述字庫(kù)中存在所述增補(bǔ)字的相似字符或相同字符; 若所述字庫(kù)中存在所述增補(bǔ)字的相同字符,則確定所述字庫(kù)包括所述增補(bǔ)字。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字之前,還包括: 根據(jù)所述增補(bǔ)字的位圖信息,判斷所述待添加到字庫(kù)中的增補(bǔ)字中是否存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字; 若所述待添加到字庫(kù)中的增補(bǔ)字中存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字,則所述待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字或至少兩個(gè)相似增補(bǔ)字; 若所述待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字,則刪除所述至少兩個(gè)相同增補(bǔ)字中的重復(fù)增補(bǔ)字。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述增補(bǔ)字的類(lèi)型與所述字庫(kù)中各字符的類(lèi)型相同,所述類(lèi)型包括字面大小和字體風(fēng)格。
5.一種字庫(kù)更新裝置,其特征在于,包括: 獲取模塊,用于獲取待添加到字庫(kù)中的增補(bǔ)字的位圖信息; 所述獲取模塊,還用于獲取所述字庫(kù)中各字符的位圖信息; 判斷模塊,用于根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字; 確定模塊,用于在所述字庫(kù)不包括所述增補(bǔ)字時(shí),確定所述增補(bǔ)字為有效增補(bǔ)字; 添加模塊,用于將所述有效增補(bǔ)字添加到所述字庫(kù)中。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述判斷模塊根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字中,所述判斷模塊具體用于, 分別將所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息進(jìn)行比較; 若所述字庫(kù)中不存在位圖信息與所述增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的所述字符,則確定所述字庫(kù)不包括所述增補(bǔ)字; 若所述字庫(kù)中存在位圖信息與所述增補(bǔ)字的位圖信息的匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少一個(gè)所述字符,則確定所述字庫(kù)中存在所述增補(bǔ)字的相似字符或相同字符; 若所述字庫(kù)中存在所述增補(bǔ)字的相同字符,則確定所述字庫(kù)包括所述增補(bǔ)字。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:刪除模塊; 所述判斷模塊還用于,在所述判斷模塊根據(jù)所述增補(bǔ)字的位圖信息與所述字庫(kù)中各字符的位圖信息,判斷所述字庫(kù)是否包括所述增補(bǔ)字之前,根據(jù)所述增補(bǔ)字的位圖信息,判斷所述待添加到字庫(kù)中的增補(bǔ)字中是否存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字; 若所述待添加到字庫(kù)中的增補(bǔ)字中存在匹配度滿(mǎn)足預(yù)設(shè)的閾值的至少兩個(gè)增補(bǔ)字,則所述待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字或至少兩個(gè)相似增補(bǔ)字; 所述刪除模塊,用于在所述待添加到字庫(kù)中的增補(bǔ)字中存在至少兩個(gè)相同增補(bǔ)字時(shí),刪除所述至少兩個(gè)相同增補(bǔ)字中的重復(fù)增補(bǔ)字。
8.根據(jù)權(quán)利要求5-7任一項(xiàng)所述的裝置,其特征在于,所述增補(bǔ)字的類(lèi)型與所述字庫(kù)中各字符的類(lèi)型相同,所述類(lèi)型包括字面大小和字體風(fēng)格。
【文檔編號(hào)】G06F17/30GK104516899SQ201310455168
【公開(kāi)日】2015年4月15日 申請(qǐng)日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】王玉欣, 欒瑛 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京北大方正電子有限公司