計算機(jī)翻譯數(shù)據(jù)處理方法、系統(tǒng)及終端的制作方法
【專利摘要】本申請?zhí)峁┝艘环N計算機(jī)翻譯數(shù)據(jù)處理方法,包括以下步驟:獲取至少兩個翻譯模塊輸出的翻譯結(jié)果;確定所述翻譯模塊的加權(quán)權(quán)重值;計算所述翻譯結(jié)果的基礎(chǔ)分值;基于所述翻譯結(jié)果的基礎(chǔ)分值和對應(yīng)的翻譯模塊的加權(quán)權(quán)重值計算所述翻譯結(jié)果的最終分值;根據(jù)所述翻譯結(jié)果的最終分值選取部分或全部的翻譯結(jié)果輸出。本申請還提供了一種實現(xiàn)前述方法的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)以及具有該系統(tǒng)的終端。本申請的計算機(jī)翻譯數(shù)據(jù)處理方法、系統(tǒng)及終端,能夠提高翻譯查詢效率以及系統(tǒng)響應(yīng)速度。
【專利說明】計算機(jī)翻譯數(shù)據(jù)處理方法、系統(tǒng)及終端
【技術(shù)領(lǐng)域】
[0001]本申請涉及計算機(jī)輔助翻譯【技術(shù)領(lǐng)域】,特別是涉及一種計算機(jī)翻譯數(shù)據(jù)處理方法、系統(tǒng)及終端。
【背景技術(shù)】
[0002]隨著科學(xué)技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,計算機(jī)和網(wǎng)絡(luò)技術(shù)己經(jīng)深入我們工作、生活的方方面面。在翻譯領(lǐng)域,也出現(xiàn)了計算機(jī)輔助翻譯技術(shù),例如常見的google翻譯、百度翻譯或有道翻譯等等。
[0003]計算機(jī)輔助翻譯常見的方法有根據(jù)語料庫實現(xiàn)記憶翻譯,即將待翻譯的句子分解為幾個詞語,然后借助于已經(jīng)存儲的實例翻譯,對分解出來的詞語進(jìn)行翻譯,最后再將翻譯后的結(jié)果組合起來。例如,需要翻譯的句子為“他買了一本書”,則可以分解為“他、買了、一本書”,然后在系統(tǒng)中進(jìn)行查找對應(yīng)的翻譯實例,例如,查找到“她正在看一本書:she isreading a book”以及“他買了一臺電腦:he bought a computer”,那么就可以對分解出來的詞或短語進(jìn)行翻譯得到“he、bought、a book”,最后組合得到翻譯結(jié)果“he bought abook”。
[0004]此種方式可以將句子細(xì)分到很小的顆粒,從而可以提高翻譯質(zhì)量。但是因為需要精確的匹配操作,為了保證匹配率,需要在系統(tǒng)中或數(shù)據(jù)庫中維護(hù)大量的實例語句數(shù)據(jù),這就會占用大量的數(shù)據(jù)存儲空間。同時,在大量的實例語句數(shù)據(jù)中查詢匹配完全相同的詞語也需要花費(fèi)較多的查詢時間,從而導(dǎo)致系統(tǒng)的響應(yīng)速度較慢。當(dāng)待翻譯句子的并發(fā)量較大時,還可能會導(dǎo)致系統(tǒng)崩潰。另外,因為較為單一的翻譯方式還可能影響翻譯結(jié)果的準(zhǔn)確性,,此時往往需要人為的修改待翻譯的句子反復(fù)查詢,直到得到用戶期望的結(jié)果,這無疑會增加系統(tǒng)的負(fù)載。
【發(fā)明內(nèi)容】
[0005]本申請?zhí)峁┮环N計算機(jī)翻譯數(shù)據(jù)處理方法、系統(tǒng)及終端,能夠解決翻譯查詢效率低,系統(tǒng)響應(yīng)慢的問題。
[0006]為了解決上述問題,本申請公開了一種計算機(jī)翻譯數(shù)據(jù)處理方法,包括以下步驟:
[0007]獲取至少兩個翻譯模塊輸出的翻譯結(jié)果;
[0008]確定所述翻譯模塊的加權(quán)權(quán)重值;
[0009]計算所述翻譯結(jié)果的基礎(chǔ)分值;
[0010]基于所述翻譯結(jié)果的基礎(chǔ)分值和對應(yīng)的翻譯模塊的加權(quán)權(quán)重值計算所述翻譯結(jié)果的最終分值;
[0011]根據(jù)所述翻譯結(jié)果的最終分值選取部分或全部的翻譯結(jié)果輸出。
[0012]進(jìn)一步地,所述至少兩個翻譯模塊具有不同的翻譯規(guī)則,所述翻譯結(jié)果為所述至少兩個翻譯模塊用各自的翻譯規(guī)則對同一待翻譯的源語句進(jìn)行翻譯后得到的翻譯結(jié)果。[0013]進(jìn)一步地,所述確定所述翻譯模塊的加權(quán)權(quán)重值包括:
[0014]將訓(xùn)練樣本輸入各翻譯模塊得到輸出結(jié)果;
[0015]對輸出結(jié)果進(jìn)行評分,得到輸出結(jié)果的分值;
[0016]基于各翻譯模塊對應(yīng)的輸出結(jié)果的分值確定所述翻譯模塊的錯誤率;
[0017]根據(jù)錯誤率確定各翻譯模塊的加權(quán)權(quán)重值。
[0018]進(jìn)一步地,所述翻譯模塊的錯誤率為輸出結(jié)果的分值小于標(biāo)準(zhǔn)值的訓(xùn)練樣本的初始權(quán)重之和;
[0019]所述根據(jù)錯誤率確定所述翻譯模塊的加權(quán)權(quán)重值采用如下公式計算:
[0020]log (I/ (錯誤率 / (1-錯誤率)))。
[0021]進(jìn)一步地,所述計算所述翻譯結(jié)果的基礎(chǔ)分值包括:
[0022]根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重;
[0023]確定與翻譯結(jié)果對應(yīng)的待翻譯的源語句與每個訓(xùn)練樣本的相似度;
[0024]根據(jù)每個訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重和與該待翻譯的源語句的相似度計算經(jīng)過該翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值。
[0025]進(jìn)一步地,所述根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重包括:
[0026]若某個訓(xùn)練樣本通過該翻譯模塊翻譯后的輸出結(jié)果的分值小于標(biāo)準(zhǔn)值,則該訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重為:初始權(quán)重X錯誤率/ (1-錯誤率);若輸出結(jié)果的分值大于標(biāo)準(zhǔn)值,則該訓(xùn)練樣本的最終權(quán)重為初始權(quán)重。
[0027]進(jìn)一步地,在獲取至少兩個翻譯模塊輸出的翻譯結(jié)果之前還包括以下步驟:
[0028]接收待翻譯的源語句,掃描獲取所述源語句中的常量和非常量;
[0029]用預(yù)定變量替換所述源語句的非常量,得到標(biāo)準(zhǔn)語句,并記錄所述預(yù)定變量與非常量的對應(yīng)關(guān)系;
[0030]在模板庫中查找與所述標(biāo)準(zhǔn)語句匹配的目標(biāo)模板,若能查找到,則根據(jù)目標(biāo)模板對標(biāo)準(zhǔn)語句進(jìn)行翻譯得到初始翻譯結(jié)果;
[0031]根據(jù)預(yù)定變量與非常量的對應(yīng)關(guān)系,用非常量替換初始翻譯結(jié)果中與之對應(yīng)的預(yù)定變量;
[0032]對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯,得到翻譯結(jié)果。
[0033]進(jìn)一步地,所述掃描獲取所述源語句中的常量和非常量包括:
[0034]掃描源語句中包含的字符串;
[0035]將常量數(shù)據(jù)庫中包含的常量與所述字符串匹配,若能匹配上,則將所述字符串作為常量,若不能匹配,則將所述字符串作為非常量。
[0036]進(jìn)一步地,所述對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯包括:
[0037]采用預(yù)定的翻譯模塊對所述非常量進(jìn)行翻譯;或
[0038]查詢特殊翻譯數(shù)據(jù)庫,判斷所述非常量是否為特殊命名實體,若是,則基于所述特殊翻譯數(shù)據(jù)庫對所述為特殊命名實體的非常量進(jìn)行翻譯,若否,則采用預(yù)定的翻譯模塊對所述非特殊命名實體的非常量進(jìn)行翻譯。
[0039]本申請還公開了一種計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng),包括:
[0040]翻譯結(jié)果獲取模塊,用于獲取至少兩個翻譯模塊輸出的翻譯結(jié)果;
[0041]翻譯模塊加權(quán)分值確定模塊,用于確定每個翻譯模塊的加權(quán)權(quán)重值;[0042]翻譯結(jié)果基礎(chǔ)分值確定模塊,用于計算所述翻譯結(jié)果的基礎(chǔ)分值;
[0043]最終分值計算模塊,用于基于所述翻譯結(jié)果的基礎(chǔ)分值和對應(yīng)的翻譯模塊的加權(quán)權(quán)重值計算所述每個翻譯結(jié)果的最終分值;
[0044]結(jié)果輸出模塊,用于根據(jù)每個翻譯結(jié)果的最終分值選取部分或全部的翻譯結(jié)果輸出。
[0045]進(jìn)一步地,所述翻譯模塊加權(quán)分值確定模塊包括:
[0046]訓(xùn)練單元,用于將訓(xùn)練樣本輸入各翻譯模塊得到輸出結(jié)果;
[0047]分值評定單元,用于對輸出結(jié)果進(jìn)行評分,得到輸出結(jié)果的分值;
[0048]錯誤率計算模塊,用于基于各翻譯模塊對應(yīng)的輸出結(jié)果的分值確定每個翻譯模塊的錯誤率;
[0049]加權(quán)值計算單元,用于根據(jù)錯誤率確定每個翻譯模塊的加權(quán)權(quán)重值。
[0050]進(jìn)一步地,所述翻譯結(jié)果基礎(chǔ)分值確定模塊包括:
[0051]最終權(quán)重計算單元,用于根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重;
[0052]相似度計算單元,用于確定與翻譯結(jié)果對應(yīng)的待翻譯的源語句與每個訓(xùn)練樣本的相似度;
[0053]基礎(chǔ)分值計算單元,用于根據(jù)每個訓(xùn)練樣本在該翻譯模塊中的權(quán)重和與該待翻譯的源語句的相似度計算經(jīng)過該翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值。
[0054]進(jìn)一步地,所述系統(tǒng)還包括:
[0055]數(shù)據(jù)接收模塊,用于接收待翻譯的源語句,掃描獲取所述源語句中的常量和非常量;
[0056]標(biāo)準(zhǔn)語句確定模塊,用于用預(yù)定變量替換所述源語句的非常量,得到標(biāo)準(zhǔn)語句,并記錄所述預(yù)定變量與非常量的對應(yīng)關(guān)系;
[0057]模板翻譯模塊,用于在模板庫中查找與所述標(biāo)準(zhǔn)語句匹配的目標(biāo)模板,若能查找至IJ,則根據(jù)目標(biāo)模板對標(biāo)準(zhǔn)語句進(jìn)行翻譯得到初始翻譯結(jié)果;
[0058]替換模塊,用于根據(jù)預(yù)定變量與非常量的對應(yīng)關(guān)系,用非常量替換初始翻譯結(jié)果中與之對應(yīng)的預(yù)定變量;
[0059]翻譯模塊,用于對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯,得到翻譯結(jié)果。
[0060]進(jìn)一步地,所述數(shù)據(jù)接收模塊包括:
[0061]字符串掃描單元,用于掃描源語句中包含的字符串;
[0062]字符串匹配單元,用于將常量數(shù)據(jù)庫中包含的常量與所述字符串匹配,若能匹配上,則將所述字符串作為常量,若不能匹配,則將所述字符串作為非常量。
[0063]進(jìn)一步地,所述系統(tǒng)還包括:
[0064]特殊翻譯數(shù)據(jù)庫,用于判斷所述非常量是否為特殊命名實體,若是,則基于所述特殊翻譯數(shù)據(jù)庫對所述為特殊命名實體的非常量進(jìn)行翻譯,若否,則觸發(fā)翻譯模塊對所述非特殊命名實體的非常量進(jìn)行翻譯。
[0065]本申請還公開了一種終端,包括如前所述的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)。
[0066]進(jìn)一步地,所述終端為分布式結(jié)構(gòu),包括前端服務(wù)器和至少一臺后臺服務(wù)器,所述計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)置于所述至少一臺后臺服務(wù)器中;所述前端服務(wù)器接收包含有待翻譯的源語句的翻譯請求,并分發(fā)給所述至少一臺后臺服務(wù)器中的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)。
[0067]進(jìn)一步地,所述后臺服務(wù)器數(shù)量大于1,所述終端還包括:
[0068]負(fù)載均衡模塊,用于對前端服務(wù)器接收的翻譯請求進(jìn)行分發(fā)管理,并通過前端服務(wù)器分發(fā)到對應(yīng)的后臺服務(wù)器,使各后臺服務(wù)器負(fù)載均衡。
[0069]與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點(diǎn):
[0070]本申請的計算機(jī)翻譯數(shù)據(jù)處理方法、系統(tǒng)及終端采用多個(至少兩個)翻譯模塊組合的方式來對源語句進(jìn)行翻譯,可以提高翻譯查詢的效率以及系統(tǒng)的響應(yīng)速度,避免占用大量的系統(tǒng)空間,同時可以保證翻譯結(jié)果的準(zhǔn)確性。特別地,對多個翻譯模塊進(jìn)行預(yù)先訓(xùn)練確定其加權(quán)權(quán)重值的方式,可以對多個翻譯結(jié)果進(jìn)行評分排序,得到較為準(zhǔn)確的翻譯結(jié)果。
[0071]其次,通過采用將源語句變換為標(biāo)準(zhǔn)語句的形式來與模板庫中的模板相匹配的方式,按照模板中的格式對標(biāo)準(zhǔn)語句中的常量進(jìn)行翻譯,并確定最終的翻譯句式,即進(jìn)行靜態(tài)翻譯,真正需要動態(tài)翻譯的部分只有非常量,因此實際翻譯的處理工作量較小,可以提高翻譯速度和系統(tǒng)響應(yīng)速度,減少對系統(tǒng)資源的占用。同時,因為模板可以保證翻譯結(jié)果的句式準(zhǔn)確,從而可以提高翻譯質(zhì)量,避免因為翻譯結(jié)果不準(zhǔn)確,用戶重復(fù)查詢翻譯導(dǎo)致的系統(tǒng)負(fù)擔(dān)增加。
[0072]另外,對于特殊領(lǐng)域,設(shè)定特殊翻譯數(shù)據(jù)庫,可以對特殊的或者非標(biāo)準(zhǔn)表述的非常量進(jìn)行對應(yīng)翻譯,可以減少后續(xù)動態(tài)翻譯的工作量,提高系統(tǒng)響應(yīng)速度,同時也可以保證翻譯質(zhì)量的準(zhǔn)確。
[0073]進(jìn)一步地,對于計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)及終端在具體實現(xiàn)時,可以采用分布式結(jié)構(gòu),即將計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)置于多個后臺服務(wù)器中,前端服務(wù)器在接收翻譯請求后分發(fā)到各后臺服務(wù)器中,保證各后臺服務(wù)器的負(fù)載均衡,同時因為后臺服務(wù)器數(shù)量的增力口,從而可以提聞系統(tǒng)的承載能力,并加快系統(tǒng)響應(yīng)速度,提聞處理效率。
[0074]當(dāng)然,實施本申請的任一產(chǎn)品不一定需要同時達(dá)到以上所述的所有優(yōu)點(diǎn)。
【專利附圖】
【附圖說明】
[0075]圖1是本申請的計算機(jī)翻譯數(shù)據(jù)處理方法實施例一的流程圖;
[0076]圖2是本申請的計算機(jī)翻譯數(shù)據(jù)處理方法實施例二的流程圖;
[0077]圖3是本申請的計算機(jī)翻譯數(shù)據(jù)處理方法實施例三的流程圖;
[0078]圖4是本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例一的結(jié)構(gòu)示意圖;
[0079]圖5是本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例二的結(jié)構(gòu)示意圖;
[0080]圖6是本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例三的結(jié)構(gòu)示意圖;
[0081]圖7是本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例四的結(jié)構(gòu)示意圖;
[0082]圖8是本申請的具有計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)的終端的系統(tǒng)架構(gòu)實例圖。
【具體實施方式】
[0083]為使本申請的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本申請作進(jìn)一步詳細(xì)的說明。
[0084]參照圖1,示出本申請的計算機(jī)翻譯數(shù)據(jù)處理方法實施例一,本申請采用至少兩個翻譯模塊進(jìn)行翻譯,并分別得到翻譯結(jié)果,對翻譯結(jié)果進(jìn)行相應(yīng)的處理,包括以下步驟:
[0085]步驟101,獲取至少兩個翻譯模塊輸出的翻譯結(jié)果。
[0086]可以理解,其中的至少兩個可以是兩個、三個或其他任意大于等于2的數(shù)量。
[0087]本申請中的翻譯模塊是指能夠?qū)υ凑Z句進(jìn)行翻譯的裝置或者功能模塊,每個翻譯模塊都具有自己的翻譯規(guī)則和方式,即前述的至少兩個翻譯模塊中的每個翻譯模塊的翻譯規(guī)則不相同,因此這些翻譯模塊對于同一待翻譯的源語句的翻譯可能得到不同的翻譯結(jié)果。前述的翻譯結(jié)果為該至少兩個翻譯模塊用各自的翻譯規(guī)則對同一待翻譯的源語句進(jìn)行翻譯后得到的翻譯結(jié)果。例如,對于待翻譯的源語句,采用5個翻譯模塊,那么可以得到5個翻譯結(jié)果。
[0088]另外,如果單個翻譯模塊對待翻譯的源語句是通過分拆后再翻譯的方式進(jìn)行翻譯,那么可能會因為分拆方式不同,而出現(xiàn)不同的翻譯結(jié)果。例如,對于待翻譯的源語句,采用5個翻譯模塊,每個翻譯模塊都采用了三種方式分拆該源語句,那么每個翻譯模塊則可以得到3個翻譯結(jié)果,5個翻譯模塊則可以得到15個翻譯結(jié)果。
[0089]步驟102,確定翻譯模塊的加權(quán)權(quán)重值。
[0090]步驟103,計算翻譯結(jié)果的基礎(chǔ)分值。
[0091]可以理解,對于步驟102中的加權(quán)權(quán)重值和步驟103中的翻譯結(jié)果的基礎(chǔ)分值可以采用預(yù)先訓(xùn)練好的翻譯模塊組合來實現(xiàn)。翻譯模塊組合即是由本申請前述描述的多個翻譯模塊組合在一起。訓(xùn)練好的翻譯模塊組合中設(shè)定了各翻譯模塊所得到的翻譯結(jié)果的基礎(chǔ)分值的計算規(guī)則以及每個翻譯模塊的加權(quán)權(quán)重值,當(dāng)?shù)玫椒g結(jié)果后,根據(jù)計算規(guī)則計算每個翻譯結(jié)果的基礎(chǔ)分值,并根據(jù)對應(yīng)的加權(quán)權(quán)重值計算每個翻譯結(jié)果的最終分值。
[0092]翻譯模塊組合的訓(xùn)練可以采用如下方式:
[0093]假設(shè)訓(xùn)練數(shù)據(jù)為規(guī)模為N的平行語料對,每對平行語料是一個訓(xùn)練樣本,訓(xùn)練過程如下:
[0094]將訓(xùn)練樣本輸入各翻譯模塊得到輸出結(jié)果;
[0095]對輸出結(jié)果進(jìn)行評分,得到輸出結(jié)果的分值;
[0096]基于各翻譯模塊對應(yīng)的輸出結(jié)果的分值確定每個翻譯模塊的錯誤率;
[0097]根據(jù)錯誤率確定每個翻譯模塊的加權(quán)權(quán)重值。
[0098]具體的計算公式為:
[0099]每個訓(xùn)練樣本具有初始權(quán)重,每個翻譯模塊的錯誤率Et為:輸出結(jié)果的分值小于標(biāo)準(zhǔn)值的訓(xùn)練樣本的初始權(quán)重之和;
[0100]每個翻譯模塊的加權(quán)權(quán)重值為:log (I/ (Et/ (1-Et)))。
[0101]優(yōu)選地,每個訓(xùn)練樣本具有相同的初始權(quán)重,例如假設(shè)一共有N個訓(xùn)練樣本,則每個訓(xùn)練樣本的初始權(quán)重都為I/N。
[0102]對于翻譯結(jié)果的基礎(chǔ)分值可以根據(jù)每個訓(xùn)練樣本對應(yīng)的輸出結(jié)果來判斷各翻譯模塊對于不同結(jié)構(gòu)的語句的翻譯效果,然后為每個翻譯模塊所翻譯的不同結(jié)構(gòu)的語句設(shè)定一個固定分值。例如,對于結(jié)構(gòu)為A的語句,a翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值為40分,b翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值為80分。這樣,根據(jù)每個翻譯結(jié)果所對應(yīng)的源語句的結(jié)構(gòu)進(jìn)行分析,判斷其所屬的結(jié)構(gòu)類型,即可以得到每個翻譯結(jié)果的基礎(chǔ)分值。
[0103]優(yōu)選地,為了使基礎(chǔ)分值的計算更為客觀,提高其準(zhǔn)確性,還可以結(jié)合前述的翻譯模塊組合的訓(xùn)練時所采用的訓(xùn)練樣本以及每個翻譯模塊的錯誤率來計算基礎(chǔ)分值。具體過程如下:
[0104]根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重;
[0105]確定與翻譯結(jié)果對應(yīng)的待翻譯的源語句與每個訓(xùn)練樣本的相似度;
[0106]根據(jù)每個訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重和與該待翻譯的源語句的相似度計算經(jīng)過該翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值。
[0107]其中,根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重的具體計算公式為:
[0108]對于單個的翻譯模塊來說,若某個訓(xùn)練樣本通過該翻譯模塊翻譯后的輸出結(jié)果的分值小于標(biāo)準(zhǔn)值,則將該訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重更改為:(1/N) X Et/(1-Et);若輸出結(jié)果的分值大于標(biāo)準(zhǔn)值,則將該訓(xùn)練樣本的最終權(quán)重仍然為初始權(quán)重1/N。最后,對各訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重進(jìn)行調(diào)整,使之總和為1,具體的調(diào)整過程可以由人為確定也可以通過模型訓(xùn)練得到,本申請對此并不限制。
[0109]待翻譯的源語句與每個訓(xùn)練樣本的相似度,如果每個翻譯模塊對待翻譯的源語句采用多種方式分拆,那么就可能出現(xiàn)同一源語句在同一個翻譯模塊中因為分拆方式不同而與同一訓(xùn)練樣本的相似度不同,從而改變翻譯結(jié)果的基礎(chǔ)分值。正是因為如此,同一個翻譯模塊也可以得到多種結(jié)果,從而增加翻譯結(jié)果的準(zhǔn)確性。
[0110]因為每個翻譯模塊所擅長翻譯的語句結(jié)構(gòu)不同,因此,根據(jù)預(yù)先訓(xùn)練的方式確定每個翻譯模塊所擅長翻譯的語句結(jié)構(gòu)(每個訓(xùn)練樣本對應(yīng)不同的語句結(jié)構(gòu),最終權(quán)重值較大的訓(xùn)練樣本的語句結(jié)構(gòu)可以認(rèn)為是該翻譯模塊擅長翻譯的語句結(jié)構(gòu)),并將待翻譯的源語句與每個訓(xùn)練樣本進(jìn)行比較,從結(jié)構(gòu)相似度的角度與權(quán)重結(jié)合的方式進(jìn)行計算,從而可以較為準(zhǔn)確的確定出經(jīng)過該翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值。
[0111]步驟104,基于所述翻譯結(jié)果的基礎(chǔ)分值和對應(yīng)的翻譯模塊的加權(quán)權(quán)重值計算所述每個翻譯結(jié)果的最終分值。
[0112]最終分值可以直接采用基礎(chǔ)分值與加權(quán)權(quán)重值相乘的方式計算得到。例如,對于待翻譯的源語句X,一共有a,b,c三個翻譯模塊進(jìn)行翻譯分別得到Xa、Xb和Xe三個翻譯結(jié)果,基礎(chǔ)分值分別為70、80、90,三個翻譯模塊的加權(quán)權(quán)重值分別為0.3、0.5、0.9,那么三個翻譯結(jié)果的最終分值則分別為21、40和81。當(dāng)然,也可以采用其他方式來進(jìn)行計算,本申請對此并不限制。
[0113]步驟105,根據(jù)每個翻譯結(jié)果的最終分值選取部分或全部的翻譯結(jié)果輸出。
[0114]在計算出每個翻譯結(jié)果的最終分值后,可以根據(jù)所述每個翻譯結(jié)果的最終分值對其進(jìn)行排序后輸出部分或全部的翻譯結(jié)果,例如選取最終分值排在前面三位的翻譯結(jié)果,又或者直接選取分值最大的翻譯結(jié)果輸出。
[0115]本實施例中,采用多個翻譯模塊組合的方式來對源語句進(jìn)行翻譯,并為每個翻譯模塊的翻譯結(jié)果按照預(yù)定權(quán)重進(jìn)行評分,既可以保證翻譯速度,提高系統(tǒng)處理的效率,又使翻譯結(jié)果盡可能的準(zhǔn)確,避免因為翻譯結(jié)果不準(zhǔn)確時用戶反復(fù)輸入而增加系統(tǒng)的負(fù)擔(dān)。
[0116]參照圖2,示出本申請的一種計算機(jī)翻譯數(shù)據(jù)處理方法實施例二,在進(jìn)行實施例一的步驟101之前,還可以包括對待翻譯的源語句進(jìn)行翻譯的過程,包括以下步驟:
[0117]步驟201,接收待翻譯的源語句,掃描獲取所述源語句中的常量和非常量。[0118]可以理解,可以對源語句進(jìn)行切分得到詞語,然后將詞語與預(yù)先存儲的常量數(shù)據(jù)庫中的常量進(jìn)行匹配的方式來確定常量和非常量。當(dāng)然,也可以采用其他方式進(jìn)行。
[0119]優(yōu)選地,掃描獲取源語句中的常量和非常量可以通過如下方式實現(xiàn):
[0120]掃描源語句中包含的字符串;
[0121]將常量數(shù)據(jù)庫中包含的常量與所述字符串匹配,若能匹配上,則將所述字符串作為常量,若不能匹配,則將所述字符串作為非常量。
[0122]例如,假設(shè)源語句為“一種保護(hù)視力的設(shè)備”,將常量數(shù)據(jù)庫中包含的常量與該源語句的各字符串進(jìn)行匹配時,可以得到“一種”和“的”為常量,而“保護(hù)視力”和“設(shè)備”為
非常量。
[0123]步驟202,用預(yù)定變量替換所述源語句的非常量,得到標(biāo)準(zhǔn)語句,并記錄所述預(yù)定變量與非常量的對應(yīng)關(guān)系。
[0124]預(yù)定變量采用標(biāo)準(zhǔn)格式,例如,按照源語句中非常量出現(xiàn)的順序,分別用XI,X2,X3,…,Xn表示,以此類推。以前述源語句為例,可以用Xl替換“保護(hù)視力”,用X2替換“設(shè)備”,那么就得到標(biāo)準(zhǔn)語句“一種Xl的X2”。同時,附加記錄預(yù)定變量與非常量的對應(yīng)關(guān)系“XI=保護(hù)視力,X2=設(shè)備”。
[0125]步驟203,在模板庫中查找與所述標(biāo)準(zhǔn)語句匹配的目標(biāo)模板,若能查找到,則根據(jù)目標(biāo)模板對標(biāo)準(zhǔn)語句進(jìn)行翻譯得到初始翻譯結(jié)果。
[0126]此時,若標(biāo)準(zhǔn)語句“一種Xl的X2”在模板庫中能夠匹配到目標(biāo)模板,則可以根據(jù)目標(biāo)模板對應(yīng)的翻譯得到初始翻譯結(jié)果為“a kind of X2for XI”。
[0127]步驟204,根據(jù)預(yù)定變量與非常量的對應(yīng)關(guān)系,用非常量替換初始翻譯結(jié)果中對應(yīng)的預(yù)定變量。
[0128]例如,預(yù)定變量與非常量的對應(yīng)關(guān)系為:X1=保護(hù)視力,X2=設(shè)備,那么替換后的初始翻譯結(jié)果為“a kind of設(shè)備for保護(hù)視力”。
[0129]步驟205,對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯,得到翻譯結(jié)果。
[0130]此時,可以采用翻譯模塊對非常量進(jìn)行翻譯,并加入到對應(yīng)位置中,從而得到翻譯結(jié)果。例如,對“設(shè)備”翻譯得到“equipment”,對“保護(hù)視力”翻譯得到“protectingeyesight”,加入到初始翻譯結(jié)果對應(yīng)的位置即得到翻譯結(jié)果,為“a kind of equipmentfor protecting eyesight,,。
[0131]可以理解,在前述實施例中,源語句中的常量和非常量通過常量數(shù)據(jù)庫中的常量進(jìn)行匹配的方式來確定,那么就可能出現(xiàn)同一源語句的字符串拆分位置不同而與常量數(shù)據(jù)庫中的不同常量相匹配,從而使最終的非常量也會隨之改變。即有可能出現(xiàn),同一源語句經(jīng)過替換后得到一種標(biāo)準(zhǔn)語句,也可能出現(xiàn)同一源語句經(jīng)過替換后得到多種標(biāo)準(zhǔn)語句。
[0132]對于得到多種標(biāo)準(zhǔn)語句的源語句,可以按照前述方法得到多個翻譯結(jié)果,可以將多個翻譯結(jié)果同時輸出,供用戶參考選擇,也可以對多個翻譯結(jié)果進(jìn)行評分排序等,選取一個較為準(zhǔn)確的翻譯結(jié)果輸出。
[0133]可以理解,對于非常量的翻譯,除了利用預(yù)定的翻譯模塊進(jìn)行翻譯之外,系統(tǒng)中還可以設(shè)置特殊翻譯數(shù)據(jù)庫,用于存儲 某些特殊領(lǐng)域所特有的翻譯數(shù)據(jù)。例如,對于電子商務(wù)領(lǐng)域,可以將如產(chǎn)品詞、品牌詞、產(chǎn)品型號、公司名之類的命名實體存儲在特殊翻譯數(shù)據(jù)庫中,另外,還可以將時間等規(guī)則化的命名實體存儲在特殊翻譯數(shù)據(jù)庫中。[0134]參照圖3,示出本申請的計算機(jī)翻譯數(shù)據(jù)處理方法實施例三,在實施例二的步驟205中的對源語句中的非常量進(jìn)行翻譯還可以包括以下步驟:
[0135]步驟301,查詢特殊翻譯數(shù)據(jù)庫,判斷所述非常量是否為特殊命名實體,若是,則基于所述特殊翻譯數(shù)據(jù)庫對所述為特殊命名實體的非常量進(jìn)行翻譯,若否,則采用預(yù)定的翻譯模塊對所述非特殊命名實體的非常量進(jìn)行翻譯。
[0136]當(dāng)非常量為產(chǎn)品詞、品牌詞、型號等等命名實體,則可以直接根據(jù)特殊翻譯數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行翻譯;若非常量為規(guī)則化的命名實體,例如時間等,則對所述非常量中除數(shù)字以外的部分按照特殊數(shù)據(jù)庫中的時間對應(yīng)的翻譯規(guī)則進(jìn)行翻譯,最后再補(bǔ)入非常量中的數(shù)字。此時,對于數(shù)字可以翻譯,也可以不作處理。
[0137]可以理解,對于前述實施例二和三中所描述的方法,可以單獨(dú)應(yīng)用,也可以與目前常見的翻譯方法相結(jié)合,例如記憶翻譯方法。具體可以是,在接收待翻譯的源語句后,采用記憶翻譯方法翻譯,若記憶翻譯方法無法實現(xiàn)時,則可以繼續(xù)使用本申請前述實施例中的方法來進(jìn)行處理。因為有本申請前述實施例的方法,記憶翻譯時無需存儲大量的實例數(shù)據(jù),可以減少對系統(tǒng)存儲空間的占用,同時可以保證快速的對翻譯請求進(jìn)行響應(yīng),提高系統(tǒng)處理速度,并保證翻譯結(jié)果的準(zhǔn)確性。
[0138]本申請的計算機(jī)翻譯數(shù)據(jù)處理方法采用多個(至少兩個)翻譯模塊組合的方式來對源語句進(jìn)行翻譯,可以提高系統(tǒng)的響應(yīng)速度,同時可以保證翻譯結(jié)果的準(zhǔn)確性。特別地,對多個翻譯模塊進(jìn)行預(yù)先訓(xùn)練確定其加權(quán)權(quán)重值的方式,可以對多個翻譯結(jié)果進(jìn)行評分排序,得到較為準(zhǔn)確的翻譯結(jié)果。
[0139]其次,通過采用將源語句變換為標(biāo)準(zhǔn)語句的形式來與模板庫中的模板相匹配的方式,按照模板中的格式對標(biāo)準(zhǔn)語句中的常量進(jìn)行翻譯,并確定最終的翻譯句式,即進(jìn)行靜態(tài)翻譯,真正需要動態(tài)翻譯的部分只有非常量,因此實際翻譯的處理工作量較小,可以提高翻譯速度和系統(tǒng)響應(yīng)速度,減少對系統(tǒng)資源的占用。同時,因為模板可以保證翻譯結(jié)果的句式準(zhǔn)確,從而可以提高翻譯質(zhì)量,避免因為翻譯結(jié)果不準(zhǔn)確,用戶重復(fù)查詢翻譯導(dǎo)致的系統(tǒng)負(fù)擔(dān)增加。
[0140]另外,對于特殊領(lǐng)域,設(shè)定特殊翻譯數(shù)據(jù)庫,可以對特殊的或者非標(biāo)準(zhǔn)表述的非常量進(jìn)行對應(yīng)翻譯,可以減少后續(xù)動態(tài)翻譯的工作量,提高系統(tǒng)響應(yīng)速度,同時也可以保證翻譯質(zhì)量的準(zhǔn)確。
[0141]參照圖4,示出本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例一,包括翻譯結(jié)果獲取模塊60、翻譯模塊加權(quán)分值確定模塊62、翻譯結(jié)果基礎(chǔ)分值確定模塊61、最終分值計算模塊63和結(jié)果輸出模塊65。
[0142]翻譯結(jié)果獲取模塊60,用于獲取至少兩個翻譯模塊輸出的翻譯結(jié)果。
[0143]翻譯模塊加權(quán)分值確定模塊62,用于確定翻譯模塊的加權(quán)權(quán)重值。
[0144]翻譯結(jié)果基礎(chǔ)分值確定模塊61,用于計算所述翻譯結(jié)果的基礎(chǔ)分值。
[0145]最終分值計算模塊63,用于基于所述翻譯結(jié)果的基礎(chǔ)分值和對應(yīng)的翻譯模塊的加權(quán)權(quán)重值計算所述每個翻譯結(jié)果的最終分值。
[0146]結(jié)果輸出模塊65,用于根據(jù)每個翻譯結(jié)果的最終分值選取部分或全部的翻譯結(jié)果輸出。
[0147]優(yōu)選地,該翻譯模塊加權(quán)分值確定模塊62包括:訓(xùn)練單元、分值評定單元、錯誤率計算模塊和加權(quán)值計算單元。訓(xùn)練單元,用于將訓(xùn)練樣本輸入各翻譯模塊得到輸出結(jié)果;分值評定單元,用于對輸出結(jié)果進(jìn)行評分,得到輸出結(jié)果的分值;錯誤率計算模塊,用于基于各翻譯模塊對應(yīng)的輸出結(jié)果的分值確定每個翻譯模塊的錯誤率;加權(quán)值計算單元,用于根據(jù)錯誤率確定每個翻譯模塊的加權(quán)權(quán)重值。
[0148]優(yōu)選地,該翻譯結(jié)果基礎(chǔ)分值確定模塊61包括最終權(quán)重計算單元、相似度計算單元和基礎(chǔ)分值計算單元。最終權(quán)重計算單元,用于根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重;相似度計算單元,用于確定與翻譯結(jié)果對應(yīng)的待翻譯的源語句與每個訓(xùn)練樣本的相似度;基礎(chǔ)分值計算單元,用于根據(jù)每個訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重和與該待翻譯的源語句的相似度計算經(jīng)過該翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值。
[0149]可以理解,前述的實施例一中的這些模塊可以集合在預(yù)定的模型中,通過預(yù)先訓(xùn)練的方式得到每個模塊計算所需要的權(quán)重或公式,在實際使用時,則可以直接使用。
[0150]參照圖5,示出本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例二,在實施例一的基礎(chǔ)上該系統(tǒng)還包括數(shù)據(jù)接收模塊10、標(biāo)準(zhǔn)語句確定模塊20、模板翻譯模塊30、替換模塊40和翻譯模塊50。
[0151]數(shù)據(jù)接收模塊10,用于接收待翻譯的源語句,掃描獲取所述源語句中的常量和非常量。優(yōu)選地,數(shù)據(jù)接收模塊包括字符串掃描單元和字符串匹配單元。字符串掃描單元,用于掃描源語句中包含的字符串。字符串匹配單元,用于將常量數(shù)據(jù)庫中包含的常量與所述字符串匹配,若能匹配上,則將所述字符串作為常量,若不能匹配,則將所述字符串作為非常量。
[0152]標(biāo)準(zhǔn)語句確定模塊20,用于用預(yù)定變量替換所述源語句的非常量,得到標(biāo)準(zhǔn)語句,并記錄所述預(yù)定變量與非常量的對應(yīng)關(guān)系。
[0153]模板翻譯模塊30,用于在模板庫中查找與所述標(biāo)準(zhǔn)語句匹配的目標(biāo)模板,若能查找到,則根據(jù)目標(biāo)模板對標(biāo)準(zhǔn)語句進(jìn)行翻譯得到初始翻譯結(jié)果。
[0154]替換模塊40,用于根據(jù)預(yù)定變量與非常量的對應(yīng)關(guān)系,用非常量替換初始翻譯結(jié)果中與之對應(yīng)的預(yù)定變量。
[0155]翻譯模塊50,用于對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯,得到翻譯結(jié)果。其中,翻譯模塊50至少為兩個,可以是兩個、三個或者多個。其中,翻譯結(jié)果獲取模塊60則是從翻譯模塊50獲取對應(yīng)的翻譯結(jié)果。
[0156]參照圖6,示出本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例三,該系統(tǒng)還包括特殊翻譯數(shù)據(jù)庫67,用于判斷所述非常量是否為特殊命名實體,若是,則基于所述特殊翻譯數(shù)據(jù)庫67對所述為特殊命名實體的非常量進(jìn)行翻譯,若否,則觸發(fā)翻譯模塊50對所述非特殊命名實體的非常量進(jìn)行翻譯。
[0157]優(yōu)選地,參照圖7,示出本申請的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)實施例四,該系統(tǒng)還可以在前述各模塊的基礎(chǔ)上增加記憶翻譯模塊70,記憶翻譯模塊70可以對常見的語句進(jìn)行記憶翻譯,對于記憶翻譯模塊無法翻譯的,再通過后續(xù)模塊進(jìn)行處理翻譯。此種結(jié)合方式,可以減少記憶模塊中的實例數(shù)據(jù)的存儲量,但是同樣可以實現(xiàn)對源語句的準(zhǔn)確翻譯,因此可以減少對系統(tǒng)存儲空間的占用,并保證翻譯結(jié)果的準(zhǔn)確性。
[0158]優(yōu)選地,本申請還涉及一種終端,包括如前述實施例一、二或三中的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)。終端可以是客戶端、服務(wù)器端。若終端為服務(wù)器端,可以采用獨(dú)立的結(jié)構(gòu),即計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)置于服務(wù)器中,該服務(wù)器同時也接收翻譯請求。可以理解,此時可以將計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)直接置于服務(wù)器中,各個模塊從物理部署上作為一個整體。優(yōu)選地,也可以將計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)的各個模塊分別布置在服務(wù)器中,即各個模塊從物理部署上為分布式結(jié)構(gòu)。具體的,計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)在服務(wù)器中可以分為三層物理結(jié)構(gòu):第一層為數(shù)據(jù)接收層,用于接收客戶端發(fā)送的翻譯請求,實現(xiàn)數(shù)據(jù)的拆分、合并以及分發(fā)等功能;第二層為翻譯邏輯層,第三層為數(shù)據(jù)庫(前述的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)的各模塊則分別對應(yīng)置于第二層和第三層),二者共同實現(xiàn)對數(shù)據(jù)接收層分發(fā)的數(shù)據(jù)進(jìn)行翻譯。其中,翻譯邏輯層可以設(shè)置多個相互獨(dú)立的翻譯節(jié)點(diǎn),數(shù)據(jù)分發(fā)層可以直接將數(shù)據(jù)分發(fā)到具體的翻譯節(jié)點(diǎn)。當(dāng)數(shù)量較少時,第二層和第三層在物理部署上可以合并為一體,當(dāng)數(shù)據(jù)量較多時,二者在物理部署上相互獨(dú)立。該三層物理結(jié)構(gòu)在服務(wù)器中可以部署為行列結(jié)構(gòu),相互之間通過發(fā)送請求來實現(xiàn)數(shù)據(jù)交互。在前述同一服務(wù)器中實現(xiàn)分布式結(jié)構(gòu)時,還可以在服務(wù)器中內(nèi)置負(fù)載均衡模塊,用于實現(xiàn)數(shù)據(jù)的均衡分發(fā)到第二層的各個翻譯節(jié)點(diǎn)中。通過此種物理結(jié)構(gòu)上分別布置的方式,將翻譯任務(wù)轉(zhuǎn)移到多個翻譯節(jié)點(diǎn),從而提高效率,并且可以根據(jù)需要動態(tài)調(diào)整計算資源,滿足大數(shù)據(jù)量、實時的翻譯任務(wù)要求,具有高可擴(kuò)展性和伸縮性;同時分布式技術(shù)可以避免由于單個節(jié)點(diǎn)失效而使整個系統(tǒng)崩潰的危險,具有較好的容錯性。
[0159]另外,可以理解,除了在一臺服務(wù)器中實現(xiàn)分布式結(jié)構(gòu)外,還可以使用多臺服務(wù)器的分布式結(jié)構(gòu),即終端可以包括前端服務(wù)器和至少一臺后臺服務(wù)器,計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)置于所述至少一臺后臺服務(wù)器中;所述前端服務(wù)器接收包含有待翻譯的源語句的翻譯請求,并分發(fā)給所述至少一臺后臺服務(wù)器中的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)。其中,后臺服務(wù)器的數(shù)量可以根據(jù)實際需要來設(shè)置。
[0160]參照圖8,示出終端實施例一,包括前端服務(wù)器、多臺后臺服務(wù)器以及負(fù)載均衡模塊。
[0161]負(fù)載均衡模塊可以置于前端服務(wù)器中,也可以獨(dú)立設(shè)置。負(fù)載均衡模塊對前端服務(wù)器接收到的包含有待翻譯的源語句的翻譯請求根據(jù)各后臺服務(wù)器的實時狀態(tài)進(jìn)行分發(fā),并通過前端服務(wù)器傳送給對應(yīng)的后臺服務(wù)器。
[0162]優(yōu)選地,還可以對后臺服務(wù)器進(jìn)行分類,例如,分別負(fù)責(zé)不同語種之間的翻譯,負(fù)載均衡模塊則可以根據(jù)各后臺服務(wù)器對應(yīng)的語種進(jìn)行分發(fā)。例如,后臺服務(wù)器I負(fù)責(zé)英語-漢語翻譯,后臺服務(wù)器2負(fù)責(zé)德語-漢語翻譯,以此類推。負(fù)載均衡模塊則可以根據(jù)翻譯請求中對應(yīng)的翻譯要求來進(jìn)行分發(fā)。
[0163]通過分布式結(jié)構(gòu),可以保證各后臺服務(wù)器的負(fù)載均衡,同時因為可以增加后臺服務(wù)器的數(shù)量,從而可以提高系統(tǒng)的承載能力,并加快系統(tǒng)響應(yīng)速度,提高處理效率。
[0164]本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重點(diǎn)說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
[0165]本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0166]這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0167]這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0168]以上對本申請所提供的計算機(jī)翻譯數(shù)據(jù)處理方法、系統(tǒng)及終端進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
【權(quán)利要求】
1.一種計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,包括以下步驟: 獲取至少兩個翻譯模塊輸出的翻譯結(jié)果; 確定所述翻譯模塊的加權(quán)權(quán)重值; 計算所述翻譯結(jié)果的基礎(chǔ)分值; 基于所述翻譯結(jié)果的基礎(chǔ)分值和對應(yīng)的翻譯模塊的加權(quán)權(quán)重值計算所述翻譯結(jié)果的最終分值; 根據(jù)所述翻譯結(jié)果的最終分值選取部分或全部的翻譯結(jié)果輸出。
2.如權(quán)利要求1所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,所述至少兩個翻譯模塊具有不同的翻譯規(guī)則,所述翻譯結(jié)果為所述至少兩個翻譯模塊用各自的翻譯規(guī)則對同一待翻譯的源語句進(jìn)行翻譯后得到的翻譯結(jié)果。
3.如權(quán)利要求1所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,所述確定所述翻譯模塊的加權(quán)權(quán)重值包括: 將訓(xùn)練樣本輸入各翻譯模塊得到輸出結(jié)果; 對輸出結(jié)果進(jìn)行評分,得到輸出結(jié)果的分值; 基于各翻譯模塊對應(yīng)的輸出結(jié)果的分值確定所述翻譯模塊的錯誤率; 根據(jù)錯誤率確定各翻譯模塊的加權(quán)權(quán)重值。
4.如權(quán)利要求3所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,所述翻譯模塊的錯誤率為輸出結(jié)果的分值小于標(biāo)準(zhǔn)值的訓(xùn)練樣本的初始權(quán)重之和; 所述根據(jù)錯誤率確定所述翻譯模塊的加權(quán)權(quán)重值采用如下公式計算: log (I/ (錯誤率/ (1-錯誤率)))。
5.如權(quán)利要求3所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,所述計算所述翻譯結(jié)果的基礎(chǔ)分值包括: 根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重; 確定與翻譯結(jié)果對應(yīng)的待翻譯的源語句與每個訓(xùn)練樣本的相似度; 根據(jù)每個訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重和與該待翻譯的源語句的相似度計算經(jīng)過該翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值。
6.如權(quán)利要求5所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,所述根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重包括: 若某個訓(xùn)練樣本通過該翻譯模塊翻譯后的輸出結(jié)果的分值小于標(biāo)準(zhǔn)值,則該訓(xùn)練樣本在該翻譯模塊中的最終權(quán)重為:初始權(quán)重X錯誤率/ (1-錯誤率);若輸出結(jié)果的分值大于標(biāo)準(zhǔn)值,則該訓(xùn)練樣本的最終權(quán)重為初始權(quán)重。
7.如權(quán)利要求1至6任一項所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,在獲取至少兩個翻譯模塊輸出的翻譯結(jié)果之前還包括以下步驟: 接收待翻譯的源語句,掃描獲取所述源語句中的常量和非常量; 用預(yù)定變量替換所述源語句的非常量,得到標(biāo)準(zhǔn)語句,并記錄所述預(yù)定變量與非常量的對應(yīng)關(guān)系; 在模板庫中查找與所述標(biāo)準(zhǔn)語句匹配的目標(biāo)模板,若能查找到,則根據(jù)目標(biāo)模板對標(biāo)準(zhǔn)語句進(jìn)行翻譯得到初始翻譯結(jié)果; 根據(jù)預(yù)定變量與非常量的對應(yīng)關(guān)系,用非常量替換初始翻譯結(jié)果中與之對應(yīng)的預(yù)定變量; 對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯,得到翻譯結(jié)果。
8.如權(quán)利要求7所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,所述掃描獲取所述源語句中的常量和非常量包括: 掃描源語句中包含的字符串; 將常量數(shù)據(jù)庫中包含的常量與所述字符串匹配,若能匹配上,則將所述字符串作為常量,若不能匹配,則將所述字符串作為非常量。
9.如權(quán)利要求7所述的計算機(jī)翻譯數(shù)據(jù)處理方法,其特征在于,所述對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯包括: 采用預(yù)定的翻譯模塊對所述非常量進(jìn)行翻譯;或 查詢特殊翻譯數(shù)據(jù)庫,判斷所述非常量是否為特殊命名實體,若是,則基于所述特殊翻譯數(shù)據(jù)庫對所述為特殊命名實體的非常量進(jìn)行翻譯,若否,則采用預(yù)定的翻譯模塊對所述非特殊命名實體的非常量進(jìn)行翻譯。
10.一種計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng),其特征在于,包括: 翻譯結(jié)果獲取模塊,用于獲取至少兩個翻譯模塊輸出的翻譯結(jié)果; 翻譯模塊加權(quán)分值確定模塊,用于確定翻譯模塊的加權(quán)權(quán)重值; 翻譯結(jié)果基礎(chǔ)分值確定模塊,用于計算所述翻譯結(jié)果的基礎(chǔ)分值; 最終分值計算模塊,用于基于所述翻譯結(jié)果的基礎(chǔ)分值和對應(yīng)的翻譯模塊的加權(quán)權(quán)重值計算所述每個翻譯結(jié)果的最終分值; 結(jié)果輸出模塊,用于根據(jù)每個翻譯結(jié)果的最終分值選取部分或全部的翻譯結(jié)果輸出。
11.如權(quán)利要求10所述的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng),其特征在于,所述翻譯模塊加權(quán)分值確定模塊包括: 訓(xùn)練單元,用于將訓(xùn)練樣本輸入各翻譯模塊得到輸出結(jié)果; 分值評定單元,用于對輸出結(jié)果進(jìn)行評分,得到輸出結(jié)果的分值; 錯誤率計算模塊,用于基于各翻譯模塊對應(yīng)的輸出結(jié)果的分值確定每個翻譯模塊的錯誤率; 加權(quán)值計算單元,用于根據(jù)錯誤率確定每個翻譯模塊的加權(quán)權(quán)重值。
12.如權(quán)利要求11所述的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng),其特征在于,所述翻譯結(jié)果基礎(chǔ)分值確定模塊包括: 最終權(quán)重計算單元,用于根據(jù)錯誤率確定每個訓(xùn)練樣本在各翻譯模塊中的最終權(quán)重; 相似度計算單元,用于確定與翻譯結(jié)果對應(yīng)的待翻譯的源語句與每個訓(xùn)練樣本的相似度; 基礎(chǔ)分值計算單元,用于根據(jù)每個訓(xùn)練樣本在該翻譯模塊中的權(quán)重和與該待翻譯的源語句的相似度計算經(jīng)過 該翻譯模塊翻譯得到的翻譯結(jié)果的基礎(chǔ)分值。
13.如權(quán)利要求10至12任一項所述的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng),其特征在于,所述系統(tǒng)還包括: 數(shù)據(jù)接收模塊,用于接收待翻譯的源語句,掃描獲取所述源語句中的常量和非常量;標(biāo)準(zhǔn)語句確定模塊,用于用預(yù)定變量替換所述源語句的非常量,得到標(biāo)準(zhǔn)語句,并記錄所述預(yù)定變量與非常量的對應(yīng)關(guān)系;模板翻譯模塊,用于在模板庫中查找與所述標(biāo)準(zhǔn)語句匹配的目標(biāo)模板,若能查找到,則根據(jù)目標(biāo)模板對標(biāo)準(zhǔn)語句進(jìn)行翻譯得到初始翻譯結(jié)果; 替換模塊,用于根據(jù)預(yù)定變量與非常量的對應(yīng)關(guān)系,用非常量替換初始翻譯結(jié)果中與之對應(yīng)的預(yù)定變量; 翻譯模塊,用于對替換后的初始翻譯結(jié)果中的非常量進(jìn)行翻譯,得到翻譯結(jié)果。
14.如權(quán)利要求13所述的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng),其特征在于,所述數(shù)據(jù)接收模塊包括: 字符串掃描單元,用于掃描源語句中包含的字符串; 字符串匹配單元,用于將常量數(shù)據(jù)庫中包含的常量與所述字符串匹配,若能匹配上,則將所述字符串作為常量,若不能匹配,則將所述字符串作為非常量。
15.如權(quán)利要求13所述的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng),其特征在于,所述系統(tǒng)還包括: 特殊翻譯數(shù)據(jù)庫,用于判斷所述非常量是否為特殊命名實體,若是,則基于所述特殊翻譯數(shù)據(jù)庫對所述為特殊命名實體的非常量進(jìn)行翻譯,若否,則觸發(fā)翻譯模塊對所述非特殊命名實體的非常量進(jìn)行翻譯。
16.一種終端,其特征在于,包括如權(quán)利要求10至15任一項的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)。
17.如權(quán)利要求16所述的終端,其特征在于,所述終端為分布式結(jié)構(gòu),包括前端服務(wù)器和至少一臺后臺服務(wù)器,所述計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)置于所述至少一臺后臺服務(wù)器中;所述前端服務(wù)器接收包含有待翻譯的源語句的翻譯請求,并分發(fā)給所述至少一臺后臺服務(wù)器中的計算機(jī)翻譯數(shù)據(jù)處理系統(tǒng)。
18.如權(quán)利要求17所述的終端,其特征在于,所述后臺服務(wù)器數(shù)量大于1,所述終端還包括: 負(fù)載均衡模塊,用于對前端服務(wù)器接收的翻譯請求進(jìn)行分發(fā)管理,并通過前端服務(wù)器分發(fā)到對應(yīng)的后臺服務(wù)器,使各后臺服務(wù)器負(fù)載均衡。
【文檔編號】G06F17/30GK103810159SQ201210459144
【公開日】2014年5月21日 申請日期:2012年11月14日 優(yōu)先權(quán)日:2012年11月14日
【發(fā)明者】廖劍, 盧小康, 吳克文, 張永剛, 鄭文彬, 林鋒 申請人:阿里巴巴集團(tuán)控股有限公司