一種詞典錄入方法及系統(tǒng)與流程

文檔序號：11155025閱讀：363來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及翻譯技術(shù)領(lǐng)域，特別涉及一種詞典錄入方法及系統(tǒng)。

背景技術(shù)：

現(xiàn)有技術(shù)中，對于詞典類數(shù)據(jù)的錄入，一般由一人或兩人進(jìn)行整本詞典的錄入工作，不僅耗時(shí)長，效率低而且還不能保證準(zhǔn)確率。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供了一種詞典錄入方法及系統(tǒng)，旨在解決如何提高詞典錄入結(jié)果的準(zhǔn)確率。為了對披露的實(shí)施例的一些方面有一個(gè)基本的理解，下面給出了簡單的概括。該概括部分不是泛泛評述，也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念，以此作為后面的詳細(xì)說明的序言。

根據(jù)本發(fā)明實(shí)施例的第一方面，提供了一種詞典錄入方法，包括：獲取多個(gè)錄入字符信息，多個(gè)字符信息為對同一詞條圖片進(jìn)行錄入后的信息；當(dāng)多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定語素為最終語素。

根據(jù)本發(fā)明實(shí)施例的第二方面，提供一種詞典錄入系統(tǒng)，包括：錄入模塊，用于獲取多個(gè)錄入字符信息，錄入字符信息為對同一詞條圖片進(jìn)行錄入后的信息，最終語素模塊，當(dāng)錄入模塊獲取的多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定同一語素為最終語素。

本發(fā)明實(shí)施例提供的技術(shù)方案可以包括以下有益效果：

在本發(fā)明中，針對同一詞條圖片，能夠獲得多個(gè)錄入字符信息，通過篩選出多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，能夠確保在多個(gè)錄入字符信息中篩選出準(zhǔn)確性較高的錄入結(jié)果，因此能夠有效提高詞典錄入結(jié)果的準(zhǔn)確性。

應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本發(fā)明。

附圖說明

此處的附圖被并入說明書中并構(gòu)成本說明書的一部分，示出了符合本發(fā)明的實(shí)施例，并與說明書一起用于解釋本發(fā)明的原理。

圖1是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖；

圖2是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖；

圖3是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖；

圖4是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖；

圖5是根據(jù)一示例性實(shí)施例示出的一種詞典錄入系統(tǒng)的框圖；

圖6是根據(jù)一示例性實(shí)施例示出的一種詞典錄入系統(tǒng)的框圖；

圖7是根據(jù)一示例性實(shí)施例示出的一種詞典錄入系統(tǒng)的框圖；

附圖標(biāo)記說明：1、錄入模塊；2、最終語素模塊；3、識別模塊；4、修正模塊；5、獲取模塊。

具體實(shí)施方式

以下描述和附圖充分地示出本發(fā)明的具體實(shí)施方案，以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`它們。實(shí)施例僅代表可能的變化。除非明確要求，否則單獨(dú)的部件和功能是可選的，并且操作的順序可以變化。一些實(shí)施方案的部分和特征可以被包括在或替換其他實(shí)施方案的部分和特征。本發(fā)明的實(shí)施方案的范圍包括權(quán)利要求書的整個(gè)范圍，以及權(quán)利要求書的所有可獲得的等同物。在本文中，各實(shí)施方案可以被單獨(dú)地或總地用術(shù)語“發(fā)明”來表示，這僅僅是為了方便，并且如果事實(shí)上公開了超過一個(gè)的發(fā)明，不是要自動地限制該應(yīng)用的范圍為任何單個(gè)發(fā)明或發(fā)明構(gòu)思。本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用于將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來，而不要求或者暗示這些實(shí)體或操作之間存在任何實(shí)際的關(guān)系或者順序。而且，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素。本文中各個(gè)實(shí)施例采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似部分互相參見即可。對于實(shí)施例公開的結(jié)構(gòu)、產(chǎn)品等而言，由于其與實(shí)施例公開的部分相對應(yīng)，所以描述的比較簡單，相關(guān)之處參見方法部分說明即可。

本發(fā)明實(shí)施例提供一種詞典錄入方法及系統(tǒng)，旨在解決如何提高詞典錄入結(jié)果的準(zhǔn)確率。為了實(shí)現(xiàn)上述目的，如圖1所示，本發(fā)明實(shí)施例包括：

步驟S101：獲取多個(gè)錄入字符信息，多個(gè)錄入字符信息為對同一詞條進(jìn)行錄入后的信息。

步驟S102：當(dāng)多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定該語素為最終語素。

其中，由于多個(gè)錄入字符信息是針對同一詞條圖片進(jìn)行錄入后的結(jié)果，因此多個(gè)錄入字符信息的語句結(jié)構(gòu)應(yīng)當(dāng)一致，因此在多個(gè)錄入字符信息中相同語素位置的語素應(yīng)該相同，通過篩選出多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，能夠確保錄入結(jié)果的準(zhǔn)確性。閾值的具體數(shù)值可以為0.5、0.6、0.7、(0.7，0.9)等，在此不做限定，只要能夠保證篩選出的同一語素更加準(zhǔn)確即可。

在本實(shí)施例中，針對同一詞條圖片，能夠獲得多個(gè)錄入字符信息，通過篩選出多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，能夠確保在多個(gè)錄入字符信息中篩選出準(zhǔn)確性較高的錄入結(jié)果，因此能夠有效提高詞典錄入結(jié)果的準(zhǔn)確性。

在上述實(shí)施例中，確定語素為最終語素有多種實(shí)現(xiàn)方法，作為一種可選的實(shí)施例，當(dāng)對應(yīng)的詞典庫中存在該語素時(shí)，確定語素為最終語素。當(dāng)對應(yīng)的詞典庫中不存在該語素時(shí)，重新獲取多個(gè)錄入字符信息。通過在對應(yīng)的詞典庫中查找該語素，能夠確保最終語素的準(zhǔn)確性。

在上述實(shí)施例中，如果詞典錄入方法的錄入對象的是英漢詞典，那么多個(gè)錄入字符信息中既包括中文漢字語素，也包括英文單詞語素，中文漢字語素對應(yīng)中文詞典，英文單詞語素對應(yīng)英文詞典，當(dāng)多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素為中文漢字語素時(shí)，對應(yīng)的中文詞典中存在該漢字語素，則證明該漢字語素是一個(gè)存在的漢字，確定該漢字語素為最終語素。

在上述任一實(shí)施例中，可選的，如圖3，步驟S101之前還包括：

步驟S001：獲取識別字符信息，識別字符信息為詞條圖片進(jìn)行光學(xué)字符識別后的信息。

進(jìn)一步可選的，在本實(shí)施例中，還包括：

步驟S1021：當(dāng)多個(gè)錄入字符信息和識別字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定語素為最終語素。

在本實(shí)施例中，利用光學(xué)字符識別技術(shù)錄入了一種識別字符信息，能夠增加同一詞條圖片的錄入結(jié)果，同時(shí)篩選出多個(gè)錄入字符信息和識別字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。當(dāng)然，在本實(shí)施例中，步驟S001和步驟S101的前后順序可以改變。

在上述實(shí)施例中，如圖4所示，步驟S001之后還包括：

步驟S002：獲取多個(gè)修正字符信息，多個(gè)修正字符信息為對識別字符信息進(jìn)行修正后的信息。

進(jìn)一步可選的，在本實(shí)施例中，還包括：

步驟1022：當(dāng)多個(gè)錄入字符信息、識別字符信息和多個(gè)修正字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定語素為最終語素。

在本實(shí)施例中，通過對識別字符信息進(jìn)行修正，又增加了一種新的錄入結(jié)果情況，同時(shí)篩選出多個(gè)錄入字符信息、識別字符信息和修正字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。

可選的，在上述任一實(shí)施例中，如圖2至圖4所示，還包括：

步驟S01：獲取詞典的掃描圖片；

步驟S02：獲取掃描圖片按照詞條切割后的詞條圖片。

其中切割后的詞條圖片可以是單個(gè)詞條的詞條圖片，也可以是多個(gè)詞條的詞條圖片，但是詞條圖片必須包含完整的詞條信息。例如對英漢詞典的掃描圖片，切割后的詞條圖片應(yīng)該包含單詞及其釋義或短語及其釋義的完整信息。通過對詞典掃描片進(jìn)行切割，可以將整個(gè)詞典分為多個(gè)部分，通過把詞典的不同部分利用上述任一實(shí)施例中的詞典錄入方法進(jìn)行錄入，能夠有效提高詞典錄入的效率，節(jié)省大量時(shí)間。

本發(fā)明實(shí)施例還公開了一種詞典錄入系統(tǒng)，如圖5所示，包括錄入模塊1，用于獲取多個(gè)錄入字符信息，多個(gè)錄入字符信息為對同一詞條圖片進(jìn)行錄入后的信息，最終語素模塊2，當(dāng)錄入模塊1獲取的多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定該語素為最終語素。

在本實(shí)施例中，針對同一詞條圖片，錄入模塊1會錄入多個(gè)錄入字符信息，因此對于同一詞條圖片，會有多個(gè)錄入結(jié)果，通過篩選多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，能夠確保在多個(gè)錄入字符信息中篩選出準(zhǔn)確性較高的錄入結(jié)果，因此能夠有效提高詞典錄入結(jié)果的準(zhǔn)確性。

在上述實(shí)施例中，最終語素模塊2還用于當(dāng)對應(yīng)的詞典庫中存在該語素時(shí)，確定該語素為最終語素。最終語素模塊2還用于當(dāng)對應(yīng)的詞典庫中不存在該語素時(shí)，觸發(fā)錄入模塊1重新錄入多個(gè)錄入字符信息。通過在對應(yīng)的詞典庫中查找該語素，能夠確保最終語素的準(zhǔn)確性。

在上述實(shí)施例中，如果詞典錄入系統(tǒng)的錄入對象的是英漢詞典，那么多個(gè)錄入字符信息中既包括中文漢字語素，也包括英文單詞語素，中文漢字語素對應(yīng)中文詞典，英文單詞語素對應(yīng)英文詞典，當(dāng)多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素為中文漢字語素時(shí)，對應(yīng)的中文詞典中存在該漢字語素，則證明該漢字語素是一個(gè)存在的漢字，確定該漢字語素為最終語素。

可選的，在上述任一實(shí)施例中，如圖3所示，還包括識別模塊3，用于獲取識別字符信息，識別字符信息為對同一詞條圖片進(jìn)行光學(xué)字符識別后的信息。進(jìn)一步可選的，最終語素模塊2還用于當(dāng)錄入模塊1獲取的多個(gè)錄入字符信息和識別模塊3獲取的識別字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定該語素為最終語素。

在本實(shí)施例中，識別字符3利用光學(xué)字符識別技術(shù)錄入了一種識別字符信息，能夠增加同一詞條圖片的錄入結(jié)果，同時(shí)篩選出多個(gè)錄入字符信息和識別字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。

可選的，在上述實(shí)施例中，還包括：修正模塊4，用于獲取多個(gè)修正字符信息，多個(gè)修正字符信息是對識別字符信息進(jìn)行修正后的信息。進(jìn)一步可選的，最終語素模塊2還用于當(dāng)錄入模塊1獲取的多個(gè)錄入字符信息、識別模塊3獲取的識別字符信息和修正模塊4獲取的多個(gè)修正字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí)，確定該語素為最終語素。

在本實(shí)施例中，通過修正模塊4獲取對識別字符信息進(jìn)行修正的信息，又增加了一種新的錄入結(jié)果情況，同時(shí)篩選出多個(gè)錄入字符信息、識別字符信息和修正字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素，進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。

可選的，在上述詞典錄入系統(tǒng)的任一實(shí)施例中，如圖6和圖7所示，還包括：獲取模塊5，用于獲取詞典的掃描圖片，獲取模塊5還用于獲取掃描圖片按照詞條切割后的詞條圖片。

其中切割后的詞條圖片可以是單個(gè)詞條的詞條圖片，也可以是多個(gè)詞條的詞條圖片，但是詞條圖片必須包含完整的詞條信息。例如對英漢詞典的掃描圖片，切割后的詞條圖片應(yīng)該包含單詞及其釋義或短語及其釋義的完整信息。通過對詞典掃描片進(jìn)行切割，可以將整個(gè)詞典分為多個(gè)部分，通過把詞典的不同部分利用上述任一實(shí)施例中的詞典錄入系統(tǒng)進(jìn)行錄入，能夠有效提高詞典錄入的效率，節(jié)省大量時(shí)間。

應(yīng)當(dāng)理解的是，本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的流程及結(jié)構(gòu)，并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡盼盼;
技術(shù)所有人：語聯(lián)網(wǎng)（武漢）信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

學(xué)前教育信息系統(tǒng)錄入相關(guān)技術(shù)

信息錄入系統(tǒng)相關(guān)技術(shù)

江西教師信息錄入系統(tǒng)相關(guān)技術(shù)

全國教師信息錄入系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種詞典錄入方法及系統(tǒng)與流程