本發(fā)明涉及翻譯
技術(shù)領(lǐng)域:
,特別涉及原譯文匹配的方法及裝置。
背景技術(shù):
:當(dāng)前計(jì)算機(jī)輔助翻譯是提高翻譯一致性和效率的重要手段,它能夠幫助翻譯者優(yōu)質(zhì)、高效、輕松地完成翻譯,使得繁重的手工翻譯流程自動化,并大幅度提高了翻譯效率和翻譯質(zhì)量。而借助輔助翻譯進(jìn)行批量翻譯后,會形成較多的原文和譯文,需將原文和譯文進(jìn)行一一對應(yīng)。目前,可通過文件名,將原文和譯文進(jìn)行一一對應(yīng)。但是,批量化翻譯后,會形成大量的稿件時(shí),通過文件名,將原文與譯文進(jìn)行匹配的過程比較繁瑣,有時(shí)候無法進(jìn)行匹配,需要人工把疑似匹配的原文和譯文打開查看,進(jìn)行手工的文件匹配??梢?,這種原譯文匹配的過程中需要大量的人工查看,效率比較低下。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種原譯文匹配的方法及裝置。為了對披露的實(shí)施例的一些方面有一個(gè)基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細(xì)說明的序言。根據(jù)本發(fā)明實(shí)施例的第一方面,提供了一種原譯文匹配的方法,包括:將待匹配文件兩兩配對,獲得成對待匹配文件的第一列表;從所述第一列表中,提取每對待匹配文件的非譯元素,并根據(jù)每個(gè)非譯元素,確定每對待匹配文件的匹配率,其中,所述非譯元素是在原文和譯文中表達(dá)方式一致的文本元素;將所述第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文。本發(fā)明一實(shí)施例中,所述將待匹配文件兩兩配對,獲得成對待匹配文件的第一列表包括:獲取兩兩配對的當(dāng)前對待匹配文件中第一待匹配文件的第一語種信息,以及第二待匹配文件的第二語種信息;當(dāng)所述第一語種信息與第二語種信息不相同時(shí),將所述當(dāng)前對待匹配文件列入所述第一列表中。本發(fā)明一實(shí)施例中,所述根據(jù)每個(gè)非譯元素,確定每對待匹配文件對應(yīng)的匹配率包括:獲取當(dāng)前對待匹配文件對應(yīng)的每個(gè)非譯元素對應(yīng)的權(quán)重系數(shù);將所述當(dāng)前對待匹配文件中第一待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得所述第一待匹配文件的第一權(quán)重總值;將所述當(dāng)前對待匹配文件中第二待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得所述第二待匹配文件的第二權(quán)重總值;將所述第一待匹配文件和所述第二待匹配文件中相同的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得所述當(dāng)前對待匹配文件的第三權(quán)重總值;根據(jù)所述第一權(quán)重總值,所述第二權(quán)重總值,以及所述第三權(quán)重總值,確定所述當(dāng)前對待匹配文件的匹配率。本發(fā)明一實(shí)施例中,所述將所述第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文之前,還包括:若當(dāng)前對待匹配文件的當(dāng)前匹配率小于第一設(shè)定設(shè)定值時(shí),將所述當(dāng)前對待匹配文件從所述第一列表中剔除。本發(fā)明一實(shí)施例中,所述將所述第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文包括:將匹配率最高的一對待匹配文件確定為當(dāng)前對待匹配文件;若所述當(dāng)前匹配率大于第二設(shè)定值時(shí),將所述當(dāng)前對待匹配文件確定為匹配的原文和譯文。根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種原譯文匹配的裝置,包括:配對單元,用于將待匹配文件兩兩配對,獲得成對待匹配文件的第一列表;提取確定單元,用于從所述第一列表中,提取每對待匹配文件的非譯元素,并根據(jù)每個(gè)非譯元素,確定每對待匹配文件的匹配率,其中,所述非譯元素是在原文和譯文中表達(dá)方式一致的文本元素;匹配確定單元,用于將所述第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文。本發(fā)明一實(shí)施例中,所述配對單元,還用于獲取兩兩配對的當(dāng)前對待匹配文件中第一待匹配文件的第一語種信息,以及第二待匹配文件的第二語種信息;當(dāng)所述第一語種信息與第二語種信息不相同時(shí),將所述當(dāng)前對待匹配文件列入所述第一列表中。本發(fā)明一實(shí)施例中,所述提取確定單元,還用于獲取當(dāng)前對待匹配文件對應(yīng)的每個(gè)非譯元素對應(yīng)的權(quán)重系數(shù);將所述當(dāng)前對待匹配文件中第一待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得所述第一待匹配文件的第一權(quán)重總值;將所述當(dāng)前對待匹配文件中第二待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得所述第二待匹配文件的第二權(quán)重總值;將所述第一待匹配文件和所述第二待匹配文件中相同的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得所述當(dāng)前對待匹配文件的第三權(quán)重總值;根據(jù)所述第一權(quán)重總值,所述第二權(quán)重總值,以及所述第三權(quán)重總值,確定所述當(dāng)前對待匹配文件的匹配率。本發(fā)明一實(shí)施例中,還包括:剔除單元,用于若當(dāng)前對待匹配文件的當(dāng)前匹配率小于第一設(shè)定設(shè)定值時(shí),將所述當(dāng)前對待匹配文件從所述第一列表中。本發(fā)明一實(shí)施例中,所述匹配確定單元,還用于將匹配率最高的一對待匹配文件確定為當(dāng)前對待匹配文件;若所述當(dāng)前匹配率大于第二設(shè)定值時(shí),將所述當(dāng)前對待匹配文件確定為匹配的原文和譯文。本發(fā)明實(shí)施例提供的技術(shù)方案可以包括以下有益效果:本發(fā)明實(shí)施例中,可根據(jù)在原文和譯文中表達(dá)方式一致的非譯元素,來進(jìn)行原文和譯文的匹配,實(shí)現(xiàn)了原文和譯文的自動化匹配,提高了原文和譯文匹配的效率。應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。附圖說明此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說明書一起用于解釋本發(fā)明的原理。圖1是根據(jù)一示例性實(shí)施例示出的一種原譯文匹配方法的流程示意圖;圖2是根據(jù)一示例性實(shí)施例示出的一種原譯文匹配方法的流程示意圖;圖3是根據(jù)一示例性實(shí)施例示出的一種原譯文匹配裝置的框圖;圖4是根據(jù)一示例性實(shí)施例示出的一種原譯文匹配裝置的框圖。具體實(shí)施方式以下描述和附圖充分地示出本發(fā)明的具體實(shí)施方案,以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`它們。實(shí)施例僅代表可能的變化。除非明確要求,否則單獨(dú)的部件和功能是可選的,并且操作的順序可以變化。一些實(shí)施方案的部分和特征可以被包括在或替換其他實(shí)施方案的部分和特征。本發(fā)明的實(shí)施方案的范圍包括權(quán)利要求書的整個(gè)范圍,以及權(quán)利要求書的所有可獲得的等同物。在本文中,各實(shí)施方案可以被單獨(dú)地或總地用術(shù)語“發(fā)明”來表示,這僅僅是為了方便,并且如果事實(shí)上公開了超過一個(gè)的發(fā)明,不是要自動地限制該應(yīng)用的范圍為任何單個(gè)發(fā)明或發(fā)明構(gòu)思。本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用于將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不要求或者暗示這些實(shí)體或操作之間存在任何實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素。本文中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對于實(shí)施例公開的結(jié)構(gòu)、產(chǎn)品等而言,由于其與實(shí)施例公開的部分相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。計(jì)算機(jī)輔助翻譯是一種越來越普遍使用的軟件應(yīng)用,通過該應(yīng)用不僅可以幫助翻譯者優(yōu)質(zhì)、高效、輕松地完成翻譯,還可以批量完成多份稿件的自動翻譯。這樣,多份稿件批量翻譯后,就會有多份原文和譯文,需要一一匹配。本發(fā)明實(shí)施例中,可根據(jù)待匹配文件中的網(wǎng)址類、郵箱類、電話類、日期類、ip地址類、數(shù)字類等的非譯元素,來進(jìn)行原文和譯文的自動化匹配,提高了原文和譯文匹配的效率。圖1是根據(jù)一示例性實(shí)施例示出的一種原譯文匹配方法的流程圖。如圖1所示,如圖1所示,原譯文匹配的過程包括:步驟101:將待匹配文件兩兩配對,獲得成對待匹配文件的第一列表。通過翻譯應(yīng)用,生成了多個(gè)原文文件和譯文文件,需將原文和譯文一一匹配起來。因此,翻譯應(yīng)用后的文件為待匹配文件,有的待匹配文件是原文,而有的待匹配文件是譯文。這里,可將待匹配文件兩兩匹配,形成成對待匹配文件的第一列表。因?yàn)槭窃呐c譯文之間匹配,因此,可進(jìn)行初步刷選,待匹配文件兩兩配對后,若一對對待匹配文件中的兩個(gè)文件都是同一語種,顯示這兩個(gè)文件不是匹配的原文和譯文,可首先剔除。只有包括不是同一語種的兩個(gè)文件的成對待匹配文件才可加入第一列表中。即將待匹配文件兩兩配對后,遍歷每對待匹配文件,將不是同一語種的成對待匹配文件加入第一列表中,具體可包括:獲取兩兩配對的當(dāng)前對待匹配文件中第一待匹配文件的第一語種信息,以及第二待匹配文件的第二語種信息;當(dāng)?shù)谝徽Z種信息與第二語種信息不相同時(shí),將當(dāng)前對待匹配文件列入第一列表中。步驟102:從第一列表中,提取每對待匹配文件的非譯元素,并根據(jù)每個(gè)非譯元素,確定每對待匹配文件的匹配率。本發(fā)明實(shí)施例中,非譯元素是指文件中不受語種限制的文本元素,即無論什么語種,其對應(yīng)的表達(dá)方式都是一致的。這樣,非譯元素是在原文和譯文中表達(dá)方式一致的文本元素。例如:對于網(wǎng)址類的非譯元素:http://xxx.xxx.xxx。無論是中文原文,還是英文譯文,其對應(yīng)的表達(dá)方式都是http://xxx.xxx.xxx?;蛘撸瑢τ陔娫掝惖姆亲g元素:400-xxx-xxx,同樣,無論是中文原文,還是德文譯文,其對應(yīng)的表達(dá)方式都是400-xxx-xxx。同樣,對于郵箱類、日期類、ip地址類、數(shù)字類的非譯元素,無論是原文,還會譯文,其對應(yīng)的表達(dá)方式都相同,從而,可提取每對待匹配文件的非譯元素,然后,根據(jù)每個(gè)非譯元素,確定每對待匹配文件的匹配率,其中,非譯元素的類型包括:網(wǎng)址類、郵箱類、電話類、日期類、ip地址類、數(shù)字類中的至少一類。本發(fā)明實(shí)施例中,有包括一對、兩對或多對待匹配文件的第一列表,因此,需確定每對待匹配文件的匹配率。而每對待匹配文件的匹配率的確定過程是一致,可以其中一對待匹配文件為當(dāng)前對待匹配文件為例進(jìn)行描述。匹配率確定過程包括:首先要提取當(dāng)前對待匹配文件中每個(gè)文件對應(yīng)的非譯元素。然后,在根據(jù)提取的非譯元素,確定當(dāng)前對待匹配文件的匹配率。其中,對于當(dāng)前對待匹配文件中的第一待匹配文件,可通過正則表達(dá)式進(jìn)行檢索,提取出第一待匹配文件中的非譯元素,可能有一個(gè)、兩個(gè)、多個(gè)非譯元素。同樣,可通過正則表達(dá)式進(jìn)行檢索,提取出第二待匹配文件中的非譯元素,可能有一個(gè)、兩個(gè)、多個(gè)非譯元素。根據(jù)提取的非譯元素,確定當(dāng)前對待匹配文件的匹配率的方式有多種,例如:直接獲取第一待匹配文件對應(yīng)的非譯元素的第一總個(gè)數(shù),以及第二待匹配文件對應(yīng)的非譯元素的第二總個(gè)數(shù),然后,獲取第一待匹配文件與第二待匹配文件相同的非譯元素的第三總個(gè)數(shù),最后,根據(jù)第一總個(gè)數(shù),第二總個(gè)數(shù),以及第三總個(gè)數(shù),得到當(dāng)前對待匹配文件的匹配率。例如:第一待匹配文件對應(yīng)的非譯元素的第一總個(gè)數(shù)5,而第二待匹配文件對應(yīng)的非譯元素的第二總個(gè)數(shù)為8,而第一待匹配文件與第二待匹配文件相同的非譯元素的第三總個(gè)數(shù)為4,則當(dāng)前對待匹配文件的匹配率=4/(5+8)=30.8%。由于非譯元素的類型有多種,包括:網(wǎng)址類、郵箱類、電話類、日期類、ip地址類、以及數(shù)字類。不同類型的非譯元素在匹配的過程中的權(quán)重不一樣。例如:低位數(shù)的數(shù)字,可能僅僅是偶爾因素,使得第一待匹配文件與第二待匹配文件中都有,因此,對應(yīng)的權(quán)重系數(shù)較小。而網(wǎng)址類,郵箱類的非譯元素,這些具有明顯標(biāo)識,因此,應(yīng)的權(quán)重系數(shù)較大??深A(yù)先配置每種類型的非譯元素的權(quán)重系數(shù),這樣,提取出當(dāng)前對待匹配文件的每個(gè)非譯元素后,可獲取當(dāng)前對待匹配文件對應(yīng)的每個(gè)非譯元素對應(yīng)的權(quán)重系數(shù);然后,將當(dāng)前對待匹配文件中第一待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得第一待匹配文件的第一權(quán)重總值;將當(dāng)前對待匹配文件中第二待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得第二待匹配文件的第二權(quán)重總值;以及,將第一待匹配文件和第二待匹配文件中相同的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得當(dāng)前對待匹配文件的第三權(quán)重總值;最后,根據(jù)第一權(quán)重總值,第二權(quán)重總值,以及第三權(quán)重總值,確定當(dāng)前對待匹配文件的匹配率。例如:預(yù)先配置的非譯元素的類型與權(quán)重系數(shù)的關(guān)系如表1所示。非譯元素的類型權(quán)重系數(shù)網(wǎng)址類32郵箱類32電話類16日期類16連續(xù)8位以上的數(shù)字類16連續(xù)4-8的數(shù)字類8連續(xù)2-3的數(shù)字類4。。。。。。。。表1若當(dāng)前對待匹配文件中第一待匹配文件對應(yīng)的非譯元素有4個(gè),分別是兩個(gè)電話類,一個(gè)日期類,以及一個(gè)連續(xù)2-3的數(shù)字類,那么對應(yīng)的權(quán)重系數(shù)分別為32、32、16、以及4。若第二待匹配文件對應(yīng)的非譯元素有6個(gè),分別為一個(gè)網(wǎng)址類,一個(gè)電話類、兩個(gè)日期類,一個(gè)連續(xù)8位以上的數(shù)字類、以及一個(gè)連續(xù)2-3的數(shù)字類,那么對應(yīng)的權(quán)重系數(shù)分別為32、16、16、16、16以及4。從而,第一權(quán)重總值=84,而第二權(quán)重總值=100。第一待匹配文件與第二待匹配文件中相同的非譯元素有3個(gè),分別是一個(gè)電話類、一個(gè)日期類,一個(gè)連續(xù)2-3的數(shù)字類,分別對應(yīng)的權(quán)重系數(shù)分別為16、16、4,從而,第三權(quán)重總值=36,這樣,當(dāng)前對待匹配文件的匹配率=36*2/(84+100)=39.1%??梢姡鶕?jù)每個(gè)非譯元素,確定每對待匹配文件對應(yīng)的匹配率的方式有多種,就不一一累述了。步驟103:將第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文。在上述步驟中,已經(jīng)確定了第一列表中每對待匹配文件的匹配率,從而可遍歷第一列表,將匹配率最高的一對待匹配文件,確定為匹配的原文和譯文??梢姡筛鶕?jù)待匹配文件中的網(wǎng)址類、郵箱類、電話類、日期類、ip地址類、和/或數(shù)字類等這些在原文和譯文中表達(dá)方式一致的非譯元素,來進(jìn)行原文和譯文的匹配,這樣,實(shí)現(xiàn)了原文和譯文的自動化匹配,提高了原文和譯文匹配的效率。本發(fā)明實(shí)施例為進(jìn)一步提高匹配的精確度,可預(yù)設(shè)一個(gè)第一設(shè)定設(shè)定值,若當(dāng)前對待匹配文件的當(dāng)前匹配率小于第一設(shè)定設(shè)定值時(shí),將當(dāng)前對待匹配文件從第一列表中剔除。即匹配率小于第一設(shè)定設(shè)定值時(shí),明顯可表明對應(yīng)的當(dāng)前對待匹配文件不是匹配的原文和譯文,需從第一列表中剔除。這樣,可減少第一列表中遍歷查詢匹配率的時(shí)間,進(jìn)一步提高了匹配的效率。或者,本發(fā)明另一實(shí)施例中,可預(yù)設(shè)第二設(shè)定值,這樣,將匹配率最高的一對待匹配文件確定為當(dāng)前對待匹配文件;若當(dāng)前匹配率大于第二設(shè)定值時(shí),將當(dāng)前對待匹配文件確定為匹配的原文和譯文。即匹配率最高的一對待匹配文件并不一定為匹配的原文和譯文。需匹配率大于第二設(shè)定值時(shí),才可將其確定為匹配的原文和譯文。例如:第一列表中,最高的匹配率為30%,小于第二設(shè)定值45%,從而,本次匹配不成功,沒有匹配的原文和譯文。這樣,可進(jìn)一步提高匹配的精度。一般,第二設(shè)定值大于或等于第一設(shè)定值。下面將操作流程集合到具體實(shí)施例中,舉例說明本公開實(shí)施例提供的方法。本實(shí)施例中,預(yù)設(shè)的非譯元素的類型與權(quán)重系數(shù)的關(guān)系如表1所示。并預(yù)設(shè)了第一設(shè)定值。圖2是根據(jù)一示例性實(shí)施例示出的一種原譯文匹配方法的流程示意圖。如圖2,原譯文匹配過程包括:步驟201:將待匹配文件兩兩配對。若待匹配文件包括:文件1、文件2、文件3、文件4、文件5,則兩兩配對后,為(文件1、文件2)、(文件1、文件3)、(文件1、文件4)、(文件1、文件5)、(文件2、文件3)、(文件2、文件4)、(文件2、文件5)、(文件3、文件4)、(文件3、文件5)、(文件4、文件5)。步驟202:根據(jù)兩兩配對的成對待匹配文件,獲得不包括同一語種的成對待匹配文件的第一列表。待匹配文件兩兩配對后,可遍歷每對待匹配文件,其中,將不包括同一語種的成對待匹配文件列入第一列表中。例如:文件2與文件3是同一語種,以及文件4與文件5)是同一語種,則第一列表為(文件1、文件2)、(文件1、文件3)、(文件1、文件4)、(文件1、文件5)、(文件2、文件4)、(文件2、文件5)、(文件3、文件4)、(文件3、文件5)。步驟203:從第一列表中,確定未遍歷的一對待匹配文件為當(dāng)前對待匹配文件。步驟204:提取當(dāng)前對待匹配文件中第一待匹配文件的每個(gè)非譯元素,以及當(dāng)前對待匹配文件中第二待匹配文件的每個(gè)非譯元素。非譯元素是在原文和譯文中表達(dá)方式一致的文本元素,其對應(yīng)的種類比較多,包括:網(wǎng)址類、郵箱類、電話類、日期類、ip地址類、以及數(shù)字類等等。這里,可以采用正則表達(dá)式進(jìn)行非譯元素的提取。步驟205:確定提取出的每個(gè)非譯元素對應(yīng)的權(quán)重系數(shù)。這里,可根據(jù)表1,確定提取出的每個(gè)非譯元素對應(yīng)的權(quán)重系數(shù)。步驟206:確定第一待匹配文件的第一權(quán)重總值,第二待匹配文件的第二權(quán)重總值,以及當(dāng)前對待匹配文件的第三權(quán)重總值。其中,可將當(dāng)前對待匹配文件中第一待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得第一待匹配文件的第一權(quán)重總值;將當(dāng)前對待匹配文件中第二待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得第二待匹配文件的第二權(quán)重總值;將第一待匹配文件和第二待匹配文件中相同的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得當(dāng)前對待匹配文件的第三權(quán)重總值。步驟207:根據(jù)第一權(quán)重總值,第二權(quán)重總值,以及第三權(quán)重總值,確定當(dāng)前對待匹配文件的匹配率。例如:當(dāng)前對待匹配文件的匹配率=第三權(quán)重總值*n/(第一權(quán)重總值+第二權(quán)重總值),其中,n=1或2。步驟208:判斷當(dāng)前對待匹配文件的匹配率是否大于第一設(shè)定值?若是執(zhí)行步驟210,否則,執(zhí)行步驟209。例如:第一設(shè)定值為25%,若當(dāng)前對待匹配文件的匹配率大于25%執(zhí)行步驟210,否則,執(zhí)行步驟209。步驟209:從第一列表中,剔除當(dāng)前對待匹配文件,轉(zhuǎn)入步驟210。步驟210:判斷第一列表中是否遍歷完每對待匹配文件?若是,執(zhí)行步驟211,否則,返回步驟203。步驟211:將第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文??梢姡筛鶕?jù)原文和譯文中表達(dá)方式一致的非譯元素,來進(jìn)行原文和譯文的匹配,這樣,實(shí)現(xiàn)了原文和譯文的自動化匹配,提高了原文和譯文匹配的效率。并且,匹配率小于第一設(shè)定設(shè)定值時(shí),明顯可表明對應(yīng)的當(dāng)前對待匹配文件不是匹配的原文和譯文,可將當(dāng)前對待匹配文件從第一列表中剔除。這樣,可減少第一列表中遍歷查詢匹配率的時(shí)間,進(jìn)一步提高了匹配的效率。下述為本公開裝置實(shí)施例,可以用于執(zhí)行本公開方法實(shí)施例。根據(jù)上述數(shù)據(jù)庫術(shù)語檢索的過程,可構(gòu)建一種數(shù)據(jù)庫術(shù)語檢索的裝置。圖3是根據(jù)一示例性實(shí)施例示出的一種原譯文匹配裝置的框圖。如圖3所示,該裝置包括:配對單元310、提取確定單元320、以及匹配確定單元330,其中,配對單元310,用于將待匹配文件兩兩配對,獲得成對待匹配文件的第一列表。提取確定單元320,用于從第一列表中,提取每對待匹配文件的非譯元素,并根據(jù)每個(gè)非譯元素,確定每對待匹配文件的匹配率,其中,非譯元素是在原文和譯文中表達(dá)方式一致的文本元素。匹配確定單元330,用于將第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文。本發(fā)明一實(shí)施例中,配對單元310,還用于獲取兩兩配對的當(dāng)前對待匹配文件中第一待匹配文件的第一語種信息,以及第二待匹配文件的第二語種信息;當(dāng)?shù)谝徽Z種信息與第二語種信息不相同時(shí),將當(dāng)前對待匹配文件列入第一列表中。本發(fā)明一實(shí)施例中,提取確定單元320,還用于獲取當(dāng)前對待匹配文件對應(yīng)的每個(gè)非譯元素對應(yīng)的權(quán)重系數(shù);將當(dāng)前對待匹配文件中第一待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得第一待匹配文件的第一權(quán)重總值;將當(dāng)前對待匹配文件中第二待匹配文件的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得第二待匹配文件的第二權(quán)重總值;將第一待匹配文件和第二待匹配文件中相同的每個(gè)非譯元素的權(quán)重系數(shù)相加,獲得當(dāng)前對待匹配文件的第三權(quán)重總值;根據(jù)第一權(quán)重總值,第二權(quán)重總值,以及第三權(quán)重總值,確定當(dāng)前對待匹配文件的匹配率。本發(fā)明一實(shí)施例中,還包括:剔除單元,用于若當(dāng)前對待匹配文件的當(dāng)前匹配率小于第一設(shè)定設(shè)定值時(shí),將當(dāng)前對待匹配文件從第一列表中。本發(fā)明一實(shí)施例中,匹配確定單元330,還用于將匹配率最高的一對待匹配文件確定為當(dāng)前對待匹配文件;若當(dāng)前匹配率大于第二設(shè)定值時(shí),將當(dāng)前對待匹配文件確定為匹配的原文和譯文。下面舉例說明本公開實(shí)施例提供的裝置。圖4是根據(jù)一示例性實(shí)施例示出的一種原譯文裝置的框圖。如圖4所示,該裝置包括:配對單元310、提取確定單元320和匹配確定單元330。還包括剔除單元340。其中,配對單元310可將待匹配文件兩兩配對,獲得不包括同一語種的成對待匹配文件的第一列表。而提取確定單元320可遍歷第一列表中的每對待匹配文件,提取每對待匹配文件的非譯元素,然后根據(jù)提取出的非譯元素,確定每對待匹配文件的匹配率。其中,在針對其中每一對待匹配文件,提取確定單元320可提取當(dāng)前對待匹配文件中第一待匹配文件的每個(gè)非譯元素,以及當(dāng)前對待匹配文件中第二待匹配文件的每個(gè)非譯元素,確定提取出的每個(gè)非譯元素對應(yīng)的權(quán)重系數(shù),并確定第一待匹配文件的第一權(quán)重總值,第二待匹配文件的第二權(quán)重總值,以及當(dāng)前對待匹配文件的第三權(quán)重總值,最后,根據(jù)第一權(quán)重總值,第二權(quán)重總值,以及第三權(quán)重總值,確定當(dāng)前對待匹配文件的匹配率。本實(shí)施例中,提取確定單元320確定當(dāng)前對待匹配文件的匹配率后。剔除單元340將當(dāng)前對待匹配文件的匹配率與第一設(shè)定值進(jìn)行比較,當(dāng)當(dāng)前對待匹配文件的匹配率小于第一設(shè)定值時(shí),剔除單元340可從第一列表中,剔除當(dāng)前對待匹配文件。提取確定單元320確定了每對待匹配文件的匹配率后,并且剔除單元340也確保了第一列表中,每對待匹配文件的匹配率大于或等于第一設(shè)定值。從而,匹配確定單元330可將第一列表中,匹配率最高的一對待匹配文件,確定為匹配的原文和譯文??梢姡緦?shí)施例中,可根據(jù)原文和譯文中表達(dá)方式一致的非譯元素,來進(jìn)行原文和譯文的匹配,這樣,實(shí)現(xiàn)了原文和譯文的自動化匹配,提高了原文和譯文匹配的效率。并且,匹配率小于第一設(shè)定設(shè)定值時(shí),明顯可表明對應(yīng)的當(dāng)前對待匹配文件不是匹配的原文和譯文,可將當(dāng)前對待匹配文件從第一列表中剔除。這樣,可減少第一列表中遍歷查詢匹配率的時(shí)間,進(jìn)一步提高了匹配的效率。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的流程及結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。當(dāng)前第1頁12