本發(fā)明涉及翻譯技術(shù)領(lǐng)域,特別涉及一種詞典錄入方法及系統(tǒng)。
背景技術(shù):
現(xiàn)有技術(shù)中,對于詞典類數(shù)據(jù)的錄入,一般由一人或兩人進(jìn)行整本詞典的錄入工作,不僅耗時(shí)長,效率低而且還不能保證準(zhǔn)確率。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種詞典錄入方法及系統(tǒng),旨在解決如何提高詞典錄入結(jié)果的準(zhǔn)確率。為了對披露的實(shí)施例的一些方面有一個(gè)基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細(xì)說明的序言。
根據(jù)本發(fā)明實(shí)施例的第一方面,提供了一種詞典錄入方法,包括:獲取多個(gè)錄入字符信息,多個(gè)字符信息為對同一詞條圖片進(jìn)行錄入后的信息;當(dāng)多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定語素為最終語素。
根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種詞典錄入系統(tǒng),包括:錄入模塊,用于獲取多個(gè)錄入字符信息,錄入字符信息為對同一詞條圖片進(jìn)行錄入后的信息,最終語素模塊,當(dāng)錄入模塊獲取的多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定同一語素為最終語素。
本發(fā)明實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
在本發(fā)明中,針對同一詞條圖片,能夠獲得多個(gè)錄入字符信息,通過篩選出多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,能夠確保在多個(gè)錄入字符信息中篩選出準(zhǔn)確性較高的錄入結(jié)果,因此能夠有效提高詞典錄入結(jié)果的準(zhǔn)確性。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖;
圖2是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖;
圖3是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖;
圖4是根據(jù)一示例性實(shí)施例示出的一種詞典錄入方法的流程示意圖;
圖5是根據(jù)一示例性實(shí)施例示出的一種詞典錄入系統(tǒng)的框圖;
圖6是根據(jù)一示例性實(shí)施例示出的一種詞典錄入系統(tǒng)的框圖;
圖7是根據(jù)一示例性實(shí)施例示出的一種詞典錄入系統(tǒng)的框圖;
附圖標(biāo)記說明:1、錄入模塊;2、最終語素模塊;3、識別模塊;4、修正模塊;5、獲取模塊。
具體實(shí)施方式
以下描述和附圖充分地示出本發(fā)明的具體實(shí)施方案,以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`它們。實(shí)施例僅代表可能的變化。除非明確要求,否則單獨(dú)的部件和功能是可選的,并且操作的順序可以變化。一些實(shí)施方案的部分和特征可以被包括在或替換其他實(shí)施方案的部分和特征。本發(fā)明的實(shí)施方案的范圍包括權(quán)利要求書的整個(gè)范圍,以及權(quán)利要求書的所有可獲得的等同物。在本文中,各實(shí)施方案可以被單獨(dú)地或總地用術(shù)語“發(fā)明”來表示,這僅僅是為了方便,并且如果事實(shí)上公開了超過一個(gè)的發(fā)明,不是要自動地限制該應(yīng)用的范圍為任何單個(gè)發(fā)明或發(fā)明構(gòu)思。本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用于將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不要求或者暗示這些實(shí)體或操作之間存在任何實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素。本文中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對于實(shí)施例公開的結(jié)構(gòu)、產(chǎn)品等而言,由于其與實(shí)施例公開的部分相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
本發(fā)明實(shí)施例提供一種詞典錄入方法及系統(tǒng),旨在解決如何提高詞典錄入結(jié)果的準(zhǔn)確率。為了實(shí)現(xiàn)上述目的,如圖1所示,本發(fā)明實(shí)施例包括:
步驟S101:獲取多個(gè)錄入字符信息,多個(gè)錄入字符信息為對同一詞條進(jìn)行錄入后的信息。
步驟S102:當(dāng)多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定該語素為最終語素。
其中,由于多個(gè)錄入字符信息是針對同一詞條圖片進(jìn)行錄入后的結(jié)果,因此多個(gè)錄入字符信息的語句結(jié)構(gòu)應(yīng)當(dāng)一致,因此在多個(gè)錄入字符信息中相同語素位置的語素應(yīng)該相同,通過篩選出多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,能夠確保錄入結(jié)果的準(zhǔn)確性。閾值的具體數(shù)值可以為0.5、0.6、0.7、(0.7,0.9)等,在此不做限定,只要能夠保證篩選出的同一語素更加準(zhǔn)確即可。
在本實(shí)施例中,針對同一詞條圖片,能夠獲得多個(gè)錄入字符信息,通過篩選出多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,能夠確保在多個(gè)錄入字符信息中篩選出準(zhǔn)確性較高的錄入結(jié)果,因此能夠有效提高詞典錄入結(jié)果的準(zhǔn)確性。
在上述實(shí)施例中,確定語素為最終語素有多種實(shí)現(xiàn)方法,作為一種可選的實(shí)施例,當(dāng)對應(yīng)的詞典庫中存在該語素時(shí),確定語素為最終語素。當(dāng)對應(yīng)的詞典庫中不存在該語素時(shí),重新獲取多個(gè)錄入字符信息。通過在對應(yīng)的詞典庫中查找該語素,能夠確保最終語素的準(zhǔn)確性。
在上述實(shí)施例中,如果詞典錄入方法的錄入對象的是英漢詞典,那么多個(gè)錄入字符信息中既包括中文漢字語素,也包括英文單詞語素,中文漢字語素對應(yīng)中文詞典,英文單詞語素對應(yīng)英文詞典,當(dāng)多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素為中文漢字語素時(shí),對應(yīng)的中文詞典中存在該漢字語素,則證明該漢字語素是一個(gè)存在的漢字,確定該漢字語素為最終語素。
在上述任一實(shí)施例中,可選的,如圖3,步驟S101之前還包括:
步驟S001:獲取識別字符信息,識別字符信息為詞條圖片進(jìn)行光學(xué)字符識別后的信息。
進(jìn)一步可選的,在本實(shí)施例中,還包括:
步驟S1021:當(dāng)多個(gè)錄入字符信息和識別字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定語素為最終語素。
在本實(shí)施例中,利用光學(xué)字符識別技術(shù)錄入了一種識別字符信息,能夠增加同一詞條圖片的錄入結(jié)果,同時(shí)篩選出多個(gè)錄入字符信息和識別字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。當(dāng)然,在本實(shí)施例中,步驟S001和步驟S101的前后順序可以改變。
在上述實(shí)施例中,如圖4所示,步驟S001之后還包括:
步驟S002:獲取多個(gè)修正字符信息,多個(gè)修正字符信息為對識別字符信息進(jìn)行修正后的信息。
進(jìn)一步可選的,在本實(shí)施例中,還包括:
步驟1022:當(dāng)多個(gè)錄入字符信息、識別字符信息和多個(gè)修正字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定語素為最終語素。
在本實(shí)施例中,通過對識別字符信息進(jìn)行修正,又增加了一種新的錄入結(jié)果情況,同時(shí)篩選出多個(gè)錄入字符信息、識別字符信息和修正字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。
可選的,在上述任一實(shí)施例中,如圖2至圖4所示,還包括:
步驟S01:獲取詞典的掃描圖片;
步驟S02:獲取掃描圖片按照詞條切割后的詞條圖片。
其中切割后的詞條圖片可以是單個(gè)詞條的詞條圖片,也可以是多個(gè)詞條的詞條圖片,但是詞條圖片必須包含完整的詞條信息。例如對英漢詞典的掃描圖片,切割后的詞條圖片應(yīng)該包含單詞及其釋義或短語及其釋義的完整信息。通過對詞典掃描片進(jìn)行切割,可以將整個(gè)詞典分為多個(gè)部分,通過把詞典的不同部分利用上述任一實(shí)施例中的詞典錄入方法進(jìn)行錄入,能夠有效提高詞典錄入的效率,節(jié)省大量時(shí)間。
本發(fā)明實(shí)施例還公開了一種詞典錄入系統(tǒng),如圖5所示,包括錄入模塊1,用于獲取多個(gè)錄入字符信息,多個(gè)錄入字符信息為對同一詞條圖片進(jìn)行錄入后的信息,最終語素模塊2,當(dāng)錄入模塊1獲取的多個(gè)錄入字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定該語素為最終語素。
其中,由于多個(gè)錄入字符信息是針對同一詞條圖片進(jìn)行錄入后的結(jié)果,因此多個(gè)錄入字符信息的語句結(jié)構(gòu)應(yīng)當(dāng)一致,因此在多個(gè)錄入字符信息中相同語素位置的語素應(yīng)該相同,通過篩選出多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,能夠確保錄入結(jié)果的準(zhǔn)確性。閾值的具體數(shù)值可以為0.5、0.6、0.7、(0.7,0.9)等,在此不做限定,只要能夠保證篩選出的同一語素更加準(zhǔn)確即可。
在本實(shí)施例中,針對同一詞條圖片,錄入模塊1會錄入多個(gè)錄入字符信息,因此對于同一詞條圖片,會有多個(gè)錄入結(jié)果,通過篩選多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,能夠確保在多個(gè)錄入字符信息中篩選出準(zhǔn)確性較高的錄入結(jié)果,因此能夠有效提高詞典錄入結(jié)果的準(zhǔn)確性。
在上述實(shí)施例中,最終語素模塊2還用于當(dāng)對應(yīng)的詞典庫中存在該語素時(shí),確定該語素為最終語素。最終語素模塊2還用于當(dāng)對應(yīng)的詞典庫中不存在該語素時(shí),觸發(fā)錄入模塊1重新錄入多個(gè)錄入字符信息。通過在對應(yīng)的詞典庫中查找該語素,能夠確保最終語素的準(zhǔn)確性。
在上述實(shí)施例中,如果詞典錄入系統(tǒng)的錄入對象的是英漢詞典,那么多個(gè)錄入字符信息中既包括中文漢字語素,也包括英文單詞語素,中文漢字語素對應(yīng)中文詞典,英文單詞語素對應(yīng)英文詞典,當(dāng)多個(gè)錄入字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素為中文漢字語素時(shí),對應(yīng)的中文詞典中存在該漢字語素,則證明該漢字語素是一個(gè)存在的漢字,確定該漢字語素為最終語素。
可選的,在上述任一實(shí)施例中,如圖3所示,還包括識別模塊3,用于獲取識別字符信息,識別字符信息為對同一詞條圖片進(jìn)行光學(xué)字符識別后的信息。進(jìn)一步可選的,最終語素模塊2還用于當(dāng)錄入模塊1獲取的多個(gè)錄入字符信息和識別模塊3獲取的識別字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定該語素為最終語素。
在本實(shí)施例中,識別字符3利用光學(xué)字符識別技術(shù)錄入了一種識別字符信息,能夠增加同一詞條圖片的錄入結(jié)果,同時(shí)篩選出多個(gè)錄入字符信息和識別字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。
可選的,在上述實(shí)施例中,還包括:修正模塊4,用于獲取多個(gè)修正字符信息,多個(gè)修正字符信息是對識別字符信息進(jìn)行修正后的信息。進(jìn)一步可選的,最終語素模塊2還用于當(dāng)錄入模塊1獲取的多個(gè)錄入字符信息、識別模塊3獲取的識別字符信息和修正模塊4獲取的多個(gè)修正字符信息中相同語素位置同一語素出現(xiàn)的概率大于閾值時(shí),確定該語素為最終語素。
在本實(shí)施例中,通過修正模塊4獲取對識別字符信息進(jìn)行修正的信息,又增加了一種新的錄入結(jié)果情況,同時(shí)篩選出多個(gè)錄入字符信息、識別字符信息和修正字符信息中相同語素位置出現(xiàn)概率大于閾值的同一語素,進(jìn)一步提高錄入結(jié)果的準(zhǔn)確性。
可選的,在上述詞典錄入系統(tǒng)的任一實(shí)施例中,如圖6和圖7所示,還包括:獲取模塊5,用于獲取詞典的掃描圖片,獲取模塊5還用于獲取掃描圖片按照詞條切割后的詞條圖片。
其中切割后的詞條圖片可以是單個(gè)詞條的詞條圖片,也可以是多個(gè)詞條的詞條圖片,但是詞條圖片必須包含完整的詞條信息。例如對英漢詞典的掃描圖片,切割后的詞條圖片應(yīng)該包含單詞及其釋義或短語及其釋義的完整信息。通過對詞典掃描片進(jìn)行切割,可以將整個(gè)詞典分為多個(gè)部分,通過把詞典的不同部分利用上述任一實(shí)施例中的詞典錄入系統(tǒng)進(jìn)行錄入,能夠有效提高詞典錄入的效率,節(jié)省大量時(shí)間。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的流程及結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。