專利名稱::計算機(jī)輔助自然語言翻譯的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及自然語言翻譯,尤其涉及用在將源自然語言的源語料翻譯成目標(biāo)自然語言的自然語言翻譯中的計算機(jī)實現(xiàn)的方法和裝置。
背景技術(shù):
:為了在當(dāng)前機(jī)器輔助翻譯項目中利用具有高翻譯質(zhì)量的先前已翻譯的文本,翻譯記憶庫在自然語言翻譯行業(yè)中已經(jīng)使用了幾十年。通常,翻譯記憶庫在句子級或段落(paragraph)級對現(xiàn)有翻譯施加影響(leverage)。由于在翻譯記憶庫中句子或段落的粒度(granularity)較大,所以整個句子或段落與源文本匹配的機(jī)率是比較低的,因此可重用的量是有限的。改善對先前翻譯的影響的一種方法是通過使用根據(jù)一時間段內(nèi)的先前翻譯而建立的術(shù)語庫或多語詞典。這種術(shù)語庫的開發(fā)和維護(hù)需要很多努力并且通常需要熟練的術(shù)語員來輸入。提取
技術(shù)領(lǐng)域:
中近期的進(jìn)展可以減少從現(xiàn)有單語資源或雙語資源中自動提取術(shù)語候選時所需的人工輸入量。但是,創(chuàng)建和維護(hù)這樣的術(shù)語庫所需的人力仍然是相當(dāng)大的。多種源代碼文本編輯器包括以下特征在用戶完全不必實際鍵入單詞或短語的情況下預(yù)測用戶想要鍵入的單詞或短語。例如,一些諸如MicrosoftWord的文字處理軟件使用內(nèi)部啟發(fā)來建議潛在完成以單自然語言已鍵入的前綴。美國專利申請No.2006/0256139描述了一種帶有用于單詞和短語自動完成的簡化計算機(jī)鍵盤的預(yù)測文本個人計算機(jī)。該個人計算機(jī)還提供機(jī)器翻譯能力,但不能重用先前已翻譯的文本。因此,有必要提高在機(jī)器輔助翻譯項目中先前已翻譯文本的重用量,同時減少所需的人工輸入量。
發(fā)明內(nèi)容根據(jù)本發(fā)明的第一方面,提供了一種用于將源自然語言的源語料翻譯成目標(biāo)自然語言的計算機(jī)實現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟接收步驟,其接收所述目標(biāo)自然語言的第一數(shù)據(jù)輸入,所述第一數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的翻譯的子段(sub-segment)的第一部分;識別步驟,其識別所述目標(biāo)自然語言的與所述接收的第一數(shù)據(jù)輸入相關(guān)聯(lián)的至少一個可選擇的目標(biāo)文本子段,所述至少一個可選擇的目標(biāo)文本子段已經(jīng)從先前已翻譯的文本段對(textsegmentpairs)的語料庫中被提取出來,各文本段對包括所述源自然語言的源文本段和所述目標(biāo)自然語言的對應(yīng)的已翻譯的文本段;以及輸出步驟,其輸出所述至少一個可選擇的目標(biāo)文本子段。優(yōu)選地以適于供翻譯系統(tǒng)操作者審閱的形式來輸出所述識別出的目標(biāo)文本子段,由此可以選擇所述至少一個識別出的目標(biāo)子段用于將所述源語料翻譯成所述目標(biāo)自然語言。因此,可以向翻譯者建議目標(biāo)語言的許多子段用在源語料的已翻譯的版本中。本發(fā)明允許以比諸如句子和段落之類的文本段更低的粒度級來重用高質(zhì)量的先前已翻譯的文本。單詞和/或短語的其大小比提取這些單詞和/或短語的句子和/或段落的那些段更小的先前已翻譯的子段更可能匹配源語料的文本。這意味著重用的機(jī)率大大增加,這進(jìn)而使得翻譯系統(tǒng)操作者一方更省力。在本發(fā)明的一個設(shè)置中,該方法進(jìn)一步包括以下步驟;接收第二數(shù)據(jù)輸入,所述第二數(shù)據(jù)輸入包括從所述至少一個輸出的目標(biāo)子段中選擇的用于將所述源語料翻譯成所述目標(biāo)自然語言的一個目標(biāo)文本子段。結(jié)果,翻譯系統(tǒng)操作者通過經(jīng)由用戶接口從輸出的目標(biāo)子段中選擇一個目標(biāo)子段而能夠省時和省力,該目標(biāo)子段是源語料的當(dāng)前正在翻譯的部分的最接近或最合適的翻譯,并且該選擇可以被插入該源語料的翻譯中。在本發(fā)明的一個實施方式中,從所述語料庫中提取目標(biāo)文本子段包括計算在所述先前已翻譯的文本段對中的所述源文本段中的單詞與所述對應(yīng)的已翻譯的文本段中的單詞之間的同現(xiàn)測度。因此,可以基于一個或更多個算法來分析諸如翻譯記憶庫之類的現(xiàn)有雙語語料庫以提取用于向翻譯者建議的目標(biāo)子段。通過對同現(xiàn)進(jìn)行計算,可以做出關(guān)于所建議的子段的關(guān)聯(lián)性的假定,從而有助于減少向翻譯者建議的貌似不相關(guān)的或“干擾”子段的量。在本發(fā)明的設(shè)置中,輸出多個可選擇的目標(biāo)文本子段。在本發(fā)明的其他設(shè)置中,以適于由翻譯系統(tǒng)操作者審閱的形式輸出的識別出的目標(biāo)文本子段的數(shù)量由預(yù)定閾值限定。因此,翻譯系統(tǒng)操作者不必花費很多時間來瀏覽相當(dāng)多數(shù)量的識別出的子段來選擇目標(biāo)語言的合適子段。該預(yù)定閾值可以是默認(rèn)值,也可以是用戶可配置的,使得用戶可以指定在不會受到不當(dāng)妨礙的情況下可輕松地瀏覽的待輸出目標(biāo)子段的數(shù)量。在本發(fā)明的設(shè)置中,該方法包括在輸出中對給定目標(biāo)文本子段進(jìn)行強(qiáng)調(diào)(或以某種方式高亮顯示)的步驟,該給定目標(biāo)文本子段具有與從所述多個可選擇的目標(biāo)文本子段中選擇的第一數(shù)據(jù)輸入相對應(yīng)的最多的文本字符,作為最佳初始選擇。因此,翻譯者的注意力能夠立即集中于就翻譯者正在鍵入的內(nèi)容而言往往是最合適的子段,而不需要瀏覽所輸出的子段的整個列表來尋找最合適的目標(biāo)子段。在本發(fā)明的一個實施方式中,第一數(shù)據(jù)輸入包括許多文本字符,并且該識別步驟包括以下步驟識別具有與第一數(shù)據(jù)輸入中的文本字符相對應(yīng)的文本字符的目標(biāo)文本子段。因此,本發(fā)明識別并且輸出與翻譯系統(tǒng)操作者正在經(jīng)由用戶接口鍵入的內(nèi)容更接近地對齊的目標(biāo)子段,即,更接近地對應(yīng)于翻譯系統(tǒng)操作者所設(shè)想的源語料的當(dāng)前部分應(yīng)當(dāng)被翻譯成的內(nèi)容,從而增加了重用的可能性和翻譯系統(tǒng)操作者的潛在生產(chǎn)力。在本發(fā)明的實施方式中,響應(yīng)于第一數(shù)據(jù)輸入包括單個文本字符而輸出至少一個識別出的目標(biāo)子段以供翻譯系統(tǒng)操作者審閱。在本發(fā)明的其他實施方式中,響應(yīng)于所述第一數(shù)據(jù)輸入達(dá)到預(yù)定數(shù)量文本字符而輸出至少一個識別出的目標(biāo)子段以供翻譯系統(tǒng)操作者審閱。如果翻譯者一開始鍵入(例如翻譯者一錄入單個文本字符)就識別并輸出目標(biāo)子段,那么可以識別并輸出具有少量文本字符的大量目標(biāo)子段(例如,一個或兩個字母的單詞)。這可能會使翻譯者難以對無關(guān)且干擾的目標(biāo)子段與潛在有用的目標(biāo)子段進(jìn)行區(qū)分。通過避免輸出目標(biāo)子段直到翻譯者已經(jīng)輸入了某一最少量的文本字符為止,將會以比目前更少的干擾項而識別并輸出含有更多數(shù)量匹配文本字符的更少數(shù)量目標(biāo)子段。該預(yù)定閾值可以是默認(rèn)設(shè)置或者可以是用戶可配置的,使得翻譯系統(tǒng)操作者能夠在第一數(shù)據(jù)輸入中規(guī)定最少數(shù)量的文本字符,該最少數(shù)量被認(rèn)為足以提供合理數(shù)量的所輸出的目標(biāo)文本子段。在本發(fā)明的一個設(shè)置中,該識別步驟包括以下步驟識別所述目標(biāo)自然語言的與所述接收的第一數(shù)據(jù)輸入相關(guān)聯(lián)的多個目標(biāo)文本子段,所述多個目標(biāo)文本子段已經(jīng)從所述語料庫中被提取出來,所述方法包括以下步驟接收以所述目標(biāo)自然語言的第三數(shù)據(jù)輸入,所述第三數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的翻譯的第二部分;從與所述接收的第一數(shù)據(jù)輸入和第三數(shù)據(jù)輸入相關(guān)聯(lián)的所述多個識別出的目標(biāo)文本子段中生成可選擇的目標(biāo)文本子段的子集,其中,所述輸出步驟包括以下步驟輸出所述生成的可選擇的目標(biāo)文本子段的子集以供所述翻譯系統(tǒng)操作者審閱。這樣,隨著翻譯系統(tǒng)操作者繼續(xù)錄入新的文本字符,輸出的目標(biāo)子段被更新。因此,隨著翻譯者錄入更多的文本字符,輸出的目標(biāo)子段的數(shù)量將可能減少,而保留在輸出中的那些目標(biāo)子段將會更接近地類似于翻譯者所期望的翻譯。這樣,翻譯者需要花費更少的時間來瀏覽剩余的輸出的目標(biāo)子段以尋找合適的子段插入到源語料的翻譯中。在本發(fā)明的一個設(shè)置中,根據(jù)前述任一方面所述的方法,其中,如果在所述識別步驟中識別出多個目標(biāo)文本子段,則所述方法包括以下步驟根據(jù)所述源自然語言的源語料量和/或由所述目標(biāo)自然語言的各個所述識別出的目標(biāo)文本子段所代表的所述目標(biāo)自然語言的目標(biāo)語料量,對所述識別出的目標(biāo)文本子段進(jìn)行排序,其中,在所述輸出步驟中,以排序的順序輸出所述識別出的目標(biāo)子段。如果采用根據(jù)所代表的源語料量進(jìn)行的排序并且翻譯者從輸出的子段中選擇了排序最高的子段,則翻譯將覆蓋大多數(shù)的源語料。這意味著每當(dāng)翻譯者選擇了一個子段,隨著源語料的更大部分被翻譯,將可能會更快地翻譯源語料。另外地或另選地,可以采用根據(jù)所代表的目標(biāo)語料量進(jìn)行的排序,這還可以提高翻譯效率。在本發(fā)明的實施方式中,目標(biāo)文本子段包括目標(biāo)自然語言的單詞或短語。在本發(fā)明的其他實施方式中,文本段對包括源自然語言的句子或段落以及目標(biāo)自然語言的對應(yīng)的已翻譯的句子或段落。因此,可以在更低粒度級(即,在與句子級或段落級相對的單詞級或短語級)實現(xiàn)先前已翻譯的文本的重用。在本發(fā)明的一個實施方式中,該方法包括以下步驟在所述源語料中識別一個或更多個非翻譯元素(placeableelement),非翻譯元素是源語料中的如下元素,該元素?zé)o需由翻譯系統(tǒng)操作者翻譯成所述目標(biāo)自然語言并且能夠使用一個或更多個預(yù)定規(guī)則從所述源自然語言轉(zhuǎn)換成所述目標(biāo)自然語言;使用所述一個或更多個預(yù)定規(guī)則將所述一個或更多個識別出的非翻譯元素轉(zhuǎn)換成所述目標(biāo)自然語言,并將所述一個或更多個轉(zhuǎn)換后的非翻譯元素插入所述全文翻譯中而無需所述翻譯系統(tǒng)操作者進(jìn)行審閱或翻譯。這樣,由于不需要人工輸入的源語料的元素能夠被自動地轉(zhuǎn)換并插入到源語料的翻譯中而不會占用翻譯系統(tǒng)操作者一方的任何時間,因此能夠提高翻譯系統(tǒng)操作者的生產(chǎn)力。在本發(fā)明的設(shè)置中,識別出的非翻譯元素包括以下的一種或更多種時間、日期、數(shù)值表達(dá)式、度量表達(dá)式、縮略語、標(biāo)簽、格式化的項和名稱。因此,本發(fā)明能夠在不需要人工干預(yù)的情況下自動處理源語料中的各種不同的非翻譯元素。在本發(fā)明的一個實施方式中,該語料庫包括以下的一種或更多種翻譯記憶庫、術(shù)語數(shù)據(jù)庫中的一個或更多個查找結(jié)果、對齊的雙語文本以及文本子段的用戶可定義列表。因此,在目標(biāo)子段的提取和識別期間可以查詢和/或組合各種資源。結(jié)果,可以提高輸出的目標(biāo)子段的質(zhì)量和準(zhǔn)確度。該用戶可定義列表可以包括“自動文本”項的列表或數(shù)據(jù)庫,其中,利用指向通常使用的文本片段的快捷方式來觸發(fā)全篇所希望文本的插入以節(jié)省使用者一方的時間。根據(jù)本發(fā)明的第二方面,提供了一種用于將源自然語言的源語料翻譯成目標(biāo)自然語言的計算機(jī)實現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟存儲用于將所述源語料翻譯成所述目標(biāo)自然語言的目標(biāo)文本子段的集合;提供用戶接口,所述用戶接口包括用于顯示該源自然語言的所述源語料的一個段的顯示部以及用于輸入該目標(biāo)自然語言的文本字符的文本錄入部;經(jīng)由所述文本錄入部接收所述目標(biāo)自然語言的第一數(shù)據(jù)輸入,所述第一數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的所述段的一部分的翻譯的第一部分;基于所述接收的第一數(shù)據(jù)輸入而從所述目標(biāo)文本子段的集合中識別至少一個可選擇的目標(biāo)文本子段;以及輸出用于將源語料的所述段的一部分翻譯成該目標(biāo)自然語言的所述至少一個可選擇的目標(biāo)文本子段。在本發(fā)明的這個方面中,不是參考源自然語言的文本來識別用在源語料的已翻譯的版本中的向翻譯系統(tǒng)操作者建議的文本。而是,向翻譯者建議的文本可以包括根據(jù)單語詞典識別出的單詞或短語或僅以目標(biāo)語言的諸如此類單詞或短語。而且,能夠?qū)崿F(xiàn)本發(fā)明的這個和其他方面,包括便于翻譯系統(tǒng)操作者對源語料進(jìn)行翻譯的集成圖形用戶接口。根據(jù)本發(fā)明的第三方面,提供了一種用于將源自然語言的源語料翻譯成目標(biāo)自然語言的自然語言翻譯裝置,該裝置包括接口單元,其用于接收所述目標(biāo)自然語言的第一數(shù)據(jù)輸入,所述第一數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的翻譯的子段的第一部分;識別單元,其用于識別所述目標(biāo)自然語言的與所述接收的第一數(shù)據(jù)輸入相關(guān)聯(lián)的至少一個可選擇的目標(biāo)文本子段,所述至少一個可選擇的目標(biāo)文本子段已經(jīng)從先前已翻譯的文本段對的語料庫中被提取出來,各文本段對包括所述源自然語言的源文本段和所述目標(biāo)自然語言的對應(yīng)的已翻譯的文本段;以及輸出單元,其用于輸出所述至少一個可選擇的目標(biāo)子段。根據(jù)本發(fā)明的第四方面,提供了一種計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品包括其上記錄有計算機(jī)可讀指令的計算機(jī)可讀介質(zhì),當(dāng)該計算機(jī)可讀指令由計算機(jī)化裝置來執(zhí)行時可操作用于使得所述計算機(jī)化裝置執(zhí)行根據(jù)本發(fā)明的第一和/或第二方面的方法。圖1是根據(jù)本發(fā)明的實施方式的系統(tǒng)圖;圖2是示出了根據(jù)本發(fā)明的圖1的計算機(jī)系統(tǒng)的示意圖;圖3是示出了根據(jù)本發(fā)明的實施方式的從雙語語料庫中進(jìn)行提取的示意圖;圖4是示出了根據(jù)本發(fā)明的實施方式的輸出的目標(biāo)子段的屏幕截圖5是示出了根據(jù)本發(fā)明的實施方式的將目標(biāo)子段插入源語料的全文翻譯中的屏幕截圖;圖6是示出了根據(jù)本發(fā)明的實施方式的將輸出的目標(biāo)子段高亮顯示(highlighting)的屏幕截圖;圖7是示出了根據(jù)本發(fā)明的實施方式的機(jī)器輔助自然語言翻譯的流程圖;圖8是示出了根據(jù)本發(fā)明的實施方式的機(jī)器輔助自然語言翻譯的流程圖;圖9是示出了根據(jù)本發(fā)明的實施方式的可配置設(shè)置的屏幕截圖;以及圖10是根據(jù)本發(fā)明的實施方式的測試文件的說明性示例。具體實施例方式在附圖中,在多于一個附圖中示出了各種部分;為了清楚起見,最初指派給一個部分、項或步驟的附圖標(biāo)記用于指代后續(xù)附圖中相同的部分、項或步驟。在下述說明中,術(shù)語“先前已翻譯的文本段對”是指源自然語言的源文本段和目標(biāo)自然語言的其對應(yīng)的已翻譯的段。先前已翻譯的文本段對可以形成諸如位于電子數(shù)據(jù)庫或記憶庫中的翻譯記憶之類的雙語語料庫的部分。術(shù)語“目標(biāo)段”被理解為包括目標(biāo)自然語言的一定量文本,例如一個句子或一個段落。術(shù)語“目標(biāo)子段”被理解為包括目標(biāo)自然語言的一個段的更少摘錄(excerp),例如與整個句子或段落而言相對的單詞、句子片段或短語。圖1是根據(jù)本發(fā)明的實施方式的用于將源自然語言的源語料翻譯成目標(biāo)自然語言的系統(tǒng)100。系統(tǒng)100包括計算機(jī)系統(tǒng)102和遠(yuǎn)程服務(wù)器132。在本發(fā)明的這個特定實施方式中,更詳細(xì)地示出了計算機(jī)系統(tǒng)102,其包括多個功能組件。這些功能組件可以被合并到一個裝置或分布在多個裝置中。系統(tǒng)100包括處理器106,該處理器106進(jìn)而包括目標(biāo)子段提取模塊108和目標(biāo)子段識別模塊110,模塊108和110是與處理器106所執(zhí)行的功能任務(wù)相對應(yīng)的概念模塊。為此,計算機(jī)系統(tǒng)102包括機(jī)器可讀介質(zhì)112,例如主存儲器、硬盤驅(qū)動器等,在機(jī)器可讀介質(zhì)112上攜帶有用于以例如計算機(jī)程序的形式來指示計算機(jī)系統(tǒng)102或處理器106操作的指令集。處理器106可以包括一個或更多個微處理器、控制器或任何其他合適的計算機(jī)裝置、資源、硬件、軟件或嵌入式邏輯。而且,軟件可以呈包含有web瀏覽器的代碼形式。計算機(jī)系統(tǒng)102還包括用于與通信網(wǎng)絡(luò)134進(jìn)行電子通信的通信接口122。此外,還提供了遠(yuǎn)程服務(wù)器系統(tǒng)132,其包括通信接口130,該通信接口130可操作以通過通信網(wǎng)絡(luò)134與計算機(jī)系統(tǒng)102的通信接口122進(jìn)行通信。在圖1中,計算機(jī)系統(tǒng)102作為客戶機(jī)工作并且能夠通過通信網(wǎng)絡(luò)134與遠(yuǎn)程服務(wù)器132進(jìn)行通信。各個通信接口122、130可以呈網(wǎng)卡、調(diào)制解調(diào)器等的形式。此外,計算機(jī)系統(tǒng)102還包括數(shù)據(jù)庫114或可操作以存儲雙語語料庫116、雙語子段列表118和配置設(shè)置庫120的其他合適的存儲介質(zhì)。例如,雙語語料庫116可以呈翻譯記憶庫的形式,并且可操作來存儲諸如句子和/或段落之類的多個先前已翻譯的文本段對。雙語子段列表118可以呈諸如雙語詞典之類的雙語子段倉庫的形式,該雙語子段倉庫可以用來存儲諸如單詞和/或短語之類的子段列表。子段可以呈源自然語言的源子段的列表以及已翻譯的目標(biāo)子段的對齊(aligned)且對應(yīng)的列表的形式。配置設(shè)置庫120可以包括用于系統(tǒng)100的多個由用戶定義的和/或默認(rèn)的配置設(shè)置,如在被輸出以供審閱之前在目標(biāo)子段中所要求的文本字符的最少數(shù)量,和可以在任何時間輸出以供翻譯系統(tǒng)操作者審閱的目標(biāo)子段的最大數(shù)量。這些配置設(shè)置可操作以在計算機(jī)系統(tǒng)102上實現(xiàn)。服務(wù)器132包括存儲裝置124,在該存儲裝置124中存儲有格式化識別和轉(zhuǎn)換準(zhǔn)則列表126和非翻譯元素識別和轉(zhuǎn)換準(zhǔn)則列表128。例如,存儲裝置124可以是數(shù)據(jù)庫或位于服務(wù)器132內(nèi)或遠(yuǎn)離服務(wù)器132的其他合適的存儲介質(zhì)。計算機(jī)系統(tǒng)102還包括具有顯示器(如,計算機(jī)屏幕)和輸入裝置(如,鼠標(biāo)或鍵盤)的用戶輸入/輸出接口104。用戶接口104可操作用于顯示諸如源段和輸出的目標(biāo)文本子段之類的各種數(shù)據(jù),并且還接收來自翻譯系統(tǒng)操作者的數(shù)據(jù)輸入。在圖2中,在計算機(jī)系統(tǒng)102的圖形表示中可以執(zhí)行使計算機(jī)系統(tǒng)102執(zhí)行這里討論的方法中的任何一個或更多個的指令集。在另選實施方式中,計算機(jī)系統(tǒng)102作為單獨裝置而工作,或者可以(如,網(wǎng)絡(luò)連接)連接至其他計算機(jī)系統(tǒng)或機(jī)器。在連網(wǎng)的部署中,計算機(jī)系統(tǒng)102可以作為服務(wù)器-客戶機(jī)網(wǎng)絡(luò)環(huán)境中的服務(wù)器或客戶機(jī)而工作,或者作為對等(或分布式)網(wǎng)絡(luò)環(huán)境中的對等機(jī)器。計算機(jī)系統(tǒng)102可以包括個人計算機(jī)(PC)、平板計算機(jī)、機(jī)頂盒(STB)、個人數(shù)字助理(PAD)、蜂窩式電話、web設(shè)備、網(wǎng)絡(luò)路由器、交換機(jī)或橋,或者能夠執(zhí)行指定了要由該機(jī)器采取的行動的指令集(序列的或以其他方式)的任意機(jī)器。而且,雖然僅僅示出了單個機(jī)器,但是術(shù)語“計算機(jī)系統(tǒng)”應(yīng)當(dāng)還包括單獨或共同地執(zhí)行一組(或多組)指令以執(zhí)行這里討論的任意一個或更多個方法的任意機(jī)器集合或計算機(jī)集合。計算機(jī)系統(tǒng)102可以包括處理器202(例如,中央處理單元(CPU)、圖形處理單元(GPU)或這兩者)以及通過總線208彼此通信的主存儲器204和靜態(tài)存儲器206。計算機(jī)系統(tǒng)102還可以包括視頻顯示單元210,如液晶顯示器(LCD)或陰極射線管(CRT)。計算機(jī)系統(tǒng)102還可以包括字母數(shù)字輸入裝置212(如,鍵盤)、用戶接口(UI)導(dǎo)航裝置214(如,鼠標(biāo))、盤驅(qū)動單元216、信號生成裝置218(如,揚聲器)和網(wǎng)絡(luò)接口裝置220。盤驅(qū)動單元216可以包括機(jī)器可讀介質(zhì)222,在該機(jī)器可讀介質(zhì)上存儲有通過這里說明的任意一個或更多個方法或功能而體現(xiàn)或使用的一個或更多個指令集和/或數(shù)據(jù)結(jié)構(gòu)(如,軟件224)。軟件224在由計算機(jī)系統(tǒng)102執(zhí)行期間還可以完全地或至少部分地駐留在主存儲器204中和/或處理器202內(nèi),其中主存儲器204和處理器202還可以構(gòu)成機(jī)器可讀媒介。還可以通過使用了多個公知傳輸協(xié)議(如,超文本傳輸協(xié)議(HTTP))中任意一個傳輸協(xié)議的網(wǎng)絡(luò)接口裝置220在網(wǎng)絡(luò)226上發(fā)送或接收軟件224。圖3是示出了根據(jù)本發(fā)明的實施方式的從雙語語料庫中進(jìn)行的提取310的示意圖。在這個實施方式中,雙語語料庫116是以翻譯記憶庫308的形式,翻譯記憶庫308是存儲有先前已翻譯的許多文本段對306的數(shù)據(jù)庫,各個文本段對包括源自然語言的源段302和目標(biāo)自然語言的對應(yīng)的已翻譯的目標(biāo)段304。在提取處理310中,從翻譯記憶庫中的文本段提取文本子段對316,并且在數(shù)據(jù)庫114中的雙語子段列表118中存儲文本子段對316。在雙語子段列表118中存儲的各文本子段對316包括源自然語言的源文本子段312和目標(biāo)自然語言的對應(yīng)的已翻譯的目標(biāo)文本子段314。在這個實施方式中,雙語子段列表118是以從含有句子和/或段落的翻譯記憶庫308中提取的雙語短語/單詞列表的形式,但是也可以采用段和子段之間的其他粒度級。提取處理310涉及計算源文本段中的單詞和/或短語以及翻譯記憶庫308中對應(yīng)的已翻譯的目標(biāo)文本段中的單詞和/或短語之間的同現(xiàn)測度(measureofco-occurrence)。同現(xiàn)測度的計算使用統(tǒng)計方法來識別作為作為彼此的翻譯的目標(biāo)子段314和源子段312。提取處理涉及確定源文本段302中源文本子段312與對齊的目標(biāo)文本段304中的目標(biāo)文本子段314的同現(xiàn)是否一致(即,是否為隨機(jī)的)。如果是不充分地隨機(jī),則假定子段312、314是彼此的翻譯??梢詰?yīng)用附加的過濾器或數(shù)據(jù)源來驗證這些假定。提取處理要求先前已翻譯的雙語語料(如,翻譯記憶庫308)與所得到的目標(biāo)文本子段存儲在雙語子段列表118中。通常,雙語語料需要在段級上對齊(如,在句子級或段落級),這表示明確地標(biāo)記出了源文本段302與其已翻譯的目標(biāo)文本段304之間的對應(yīng)。能夠用于估計雙語子段312、314關(guān)聯(lián)性的似然度的算法是基于卡方的算法,該算法還用于產(chǎn)生子段(優(yōu)選地為單詞)翻譯的初始一對一列表。接著,該初始列表可以被擴(kuò)展成更大子段(如短語)。如將在下面更詳細(xì)地描述的,提取處理310是離線實現(xiàn)的,即,在由翻譯者進(jìn)行源語料的翻譯之前實現(xiàn)提取處理。接著,在運行時期間,即一旦翻譯系統(tǒng)操作者已經(jīng)開始翻譯源語料,對提取處理的結(jié)果進(jìn)行查詢。下面將參照圖4、5和6的屏幕截圖說明本發(fā)明的實施方式。用戶輸入/輸出接口104的圖形用戶接口(⑶I)部的屏幕截圖400提供了正在輸出(即顯示以供翻譯系統(tǒng)操作者審閱)的已識別的目標(biāo)子段314的示例。在本發(fā)明的這個實施方式中,源自然語言(英語)的源語料404包括將被翻譯成目標(biāo)自然語言(德語)的許多源段414。在這個特定實施方式中,屏幕截圖400示出了源段406,該源段406包括英語段落‘‘Councilregulation(EC)No1182/2007whichlaysdownspecificrulesasregardsthefruitandvegetablesector,providedforawiderangingreformofthatsectortopromoteitscompetitivenessandmarketorientationandtobringitmorecloselyinlinewiththerestofthereformedcommonagriculturalpolicy(CAP),,。源段406的翻譯的第一部分已經(jīng)被輸入(完全地由翻譯系統(tǒng)操作者輸入或者借助于本發(fā)明而輸入),如所示顯示了包括文本“MitderVerordnung(EG)Nr1182/2007desRates[2]mit”的已翻譯的文本的子段408。為了繼續(xù)翻譯源段406的處理,翻譯系統(tǒng)操作者繼續(xù)審閱源段406,并且例如通過經(jīng)由輸入/輸出接口104的合適的鍵盤或鼠標(biāo)選擇而為系統(tǒng)提供呈目標(biāo)自然語言的第一數(shù)據(jù)輸入410形式的數(shù)據(jù)輸入。第一數(shù)據(jù)輸入410是源段406中的元素的由操作者逐個字符地創(chuàng)建并輸入的翻譯的第一部分,在這種情況下,該第一部分是文本字符“sp”,該文本字符“sp”是英語單詞“specific”被翻譯成德語的前兩個文本字符。接著,從雙語子段列表118中存儲的目標(biāo)文本子段中識別與該第一數(shù)據(jù)輸入相關(guān)聯(lián)的一個或更多個目標(biāo)子段412并且將其輸出以供翻譯系統(tǒng)操作者審閱。已被識別并且輸出的目標(biāo)子段與第一數(shù)據(jù)輸入相關(guān)聯(lián),因為它們具有共同的文本字符“sp”。在圖4中所示的實施方式中,已識別并輸出了八個目標(biāo)文本子段,第一個含有德語文本“spezifischenHaushaltslinie”,而最后一個含有德語文本“spezifische”。接著,翻譯系統(tǒng)操作者能夠選擇這八個輸出的目標(biāo)子段412中與正在翻譯的源語料部分的期望翻譯相對應(yīng)的一個目標(biāo)子段,并插入到源語料的全文翻譯中?;蛘?,翻譯系統(tǒng)操作者可以繼續(xù)逐個字符地輸入文本。在本發(fā)明的實施方式中,可以基于各目標(biāo)子段中的元素(例如,字符和/或單詞)量對輸出以供翻譯系統(tǒng)操作者審閱的目標(biāo)子段進(jìn)行排序。接著,可以基于該排序來輸出子段以供翻譯系統(tǒng)操作者審閱。在圖4中所示的實施方式中,已經(jīng)基于各目標(biāo)子段中的字符量對被輸出供審閱的八個目標(biāo)文本子段412中的每一個進(jìn)行了排序。在這種情況下,這八個輸出的目標(biāo)子段如下排序1."spezifischenHaushaltslinie,,2."spezifischenVorschriften"3."spezifischenpflanzlichen,,4."spezifischenVorschriften"5."spezifischenRegelugen,,6."spezifischenSektor,,7."spezifischen"8."spezifische"因此,輸出的目標(biāo)子段“spezifischenHaushaltslinie”被排序在最高,因為它是最長的識別出的已翻譯的子段。類似地,輸出的目標(biāo)子段“spezifische”被排序在最低,因為它是最短的識別出的已翻譯的子段。在作為基于各目標(biāo)子段中的元素(如,字符和/或單詞)量進(jìn)行排序的另選方式中,可以基于與目標(biāo)子段分別對應(yīng)的各源子段中的元素(如,字符和/或單詞)量對輸出以供翻譯系統(tǒng)操作者審閱的目標(biāo)子段進(jìn)行排序。作為根據(jù)本發(fā)明的實施方式的這種類型的排序的一般示例,可以提供兩個雙語子段短語,這兩個雙語子段短語包括源自然語言的下述子段單詞A、B、C、D,以及目標(biāo)自然語言的下述子段單詞X、Y、Z。第一子段短語對包含有包括單詞A、B、C的源短語以及包括單詞X、Y的對應(yīng)目標(biāo)短語。第二子段短語對包含有包括單詞A、B的源短語以及包括單詞X、Y、Z的目標(biāo)短語。當(dāng)提供了含有單詞ABCD的源段并且來自翻譯系統(tǒng)操作者的第一數(shù)據(jù)輸入是X時,第一子段短語對的目標(biāo)子段被認(rèn)為是就源語料的翻譯而言更好的匹配并且排序較高,這是因為源短語ABC覆蓋了源語言的更長部分(源自然語言的三個單詞子段),而第二子段短語對則相反(覆蓋了源自然語言的兩個單詞子段)。根據(jù)目標(biāo)文本和/或與之對應(yīng)的源文本的量對輸出的目標(biāo)子段進(jìn)行的排序有助于提高翻譯效率,因為如果翻譯系統(tǒng)操作者選擇了排序最高(首先輸出)的目標(biāo)文本子段,他就覆蓋了目標(biāo)語料和/或源語料的最大部分。如果在源語料的翻譯中每次都由翻譯者選擇排序最高的目標(biāo)文本子段,那么在翻譯源語料時花費的總時間將會減少。除了排序以外,可以將一個或更多個識別出的和顯示出的目標(biāo)子段識別為初始最佳建議,并且在向使用者輸出的建議列表中將其高亮顯示或以其他方式強(qiáng)調(diào)。在圖4的屏幕截圖中示出了同樣以這種方式對目標(biāo)文本子段的高亮顯示;在這種情況下,高亮顯示的目標(biāo)文本子段是“spezifischenHaushaltslinie”。在圖4中所示的示例中,到此為止已經(jīng)輸入了不足的字符來識別唯一的最佳匹配一在這種情況下,可以使用其他因素來識別要高12亮顯示的初始建議??梢允褂酶鞣N方法來執(zhí)行將多個輸出的目標(biāo)文本子段608中的一個目標(biāo)文本子段識別為最佳匹配。在這個示例中,具有與操作者輸入的文本相匹配的初始字符的最長目標(biāo)子段被選擇為初始建議。如果由操作者錄入的字符數(shù)量足以唯一識別出目標(biāo)文本的單個子段,那么可以選擇具有最大數(shù)量的與第一數(shù)據(jù)輸入共同的文本字符的目標(biāo)文本子段。還可以考慮其他因素,如使用頻率和/或基于上下文分析的匹配分?jǐn)?shù)。從而,可以通過高亮顯示功能引導(dǎo)翻譯系統(tǒng)操作者至他們想要的翻譯的最佳匹配,并且選擇高亮顯示的目標(biāo)文本子段來插入源語料的翻譯中,這與必須人工地瀏覽各個輸出的目標(biāo)文本子段來找到最佳匹配相比更省力。顯然,對于翻譯系統(tǒng)操作者而言對高亮顯示的目標(biāo)子段的選擇是可選的,而翻譯系統(tǒng)操作者可以決定將其他未高亮顯示的目標(biāo)子段中的一個插入到源語料的翻譯中。用戶輸入/輸出接口104的圖形用戶接口(⑶I)部的屏幕截圖500示出了一旦翻譯系統(tǒng)操作者已經(jīng)選擇了被插入到源段406的翻譯506中的特定目標(biāo)文本子段時的情形。在圖5所示的實施方式中,所選擇的目標(biāo)子段504是短語“spezifischenRegelungen”,示出了該短語被插入到已翻譯的文本506中作為英語短語“specificrules”的翻譯。該選擇是以例如通過經(jīng)由用戶輸入/輸出接口104的合適的鍵盤或鼠標(biāo)選擇而來自翻譯系統(tǒng)操作者的第二數(shù)據(jù)輸入的形式來實現(xiàn)。接著,翻譯處理以類似方式繼續(xù)翻譯源段406的剩余部分,然后翻譯后續(xù)源段414。圖6示出了本發(fā)明的示例性實施方式,其中,用戶輸入/輸出接口104的圖形用戶接口(GUI)部的屏幕截圖600提供了正在顯示以供翻譯系統(tǒng)操作者審閱的許多識別出的目標(biāo)子段610的示例。在圖6示出的實施方式中,第一數(shù)據(jù)輸入606是源子段406的由操作者逐個字符地創(chuàng)建并輸入的翻譯的第一部分,在這種情況下,該第一部分是文本字符"spezifischenR”,該文本字符是英語單詞“specificrules”被翻譯成德語的許多文本字符。響應(yīng)于第一數(shù)據(jù)輸入,識別并且輸出八個目標(biāo)文本子段以供翻譯者審閱,第一個目標(biāo)文本子段含有德語文本“spezifischenHaushaltslinie”,而最后一個目標(biāo)文本子段含有德語文本“spezifische”。在這個實施方式中,作為輸出的目標(biāo)文本子段608中的一個的被識別出的最佳匹配被高亮顯示(或以其他方式強(qiáng)調(diào))以使翻譯系統(tǒng)操作者的注意力特別地集中在被識別為初始最佳建議的目標(biāo)文本子段608上。在這個示例中,選擇了具有最大數(shù)量的與第一數(shù)據(jù)輸入共同的文本字符的目標(biāo)文本子段。在這種情況下,第一數(shù)據(jù)輸入是文本字符“spezifischenR”,因此,高亮顯示了目標(biāo)文本子段“spezifischenRegelungen”,如圖6所示。因此,高亮顯示的目標(biāo)文本子段608被認(rèn)為是已經(jīng)被識別并且輸出的目標(biāo)文本子段中對翻譯系統(tǒng)操作者當(dāng)前正在輸入的源語料的翻譯部分的最佳匹配。在本發(fā)明的其他實施方式中,接收到第一數(shù)據(jù)輸入,因此從雙語子段列表中識別出具有多個目標(biāo)文本子段的集合,并將其輸出以供翻譯系統(tǒng)操作者來審閱。如果翻譯系統(tǒng)操作者發(fā)現(xiàn)基于第一數(shù)據(jù)輸入而輸出的目標(biāo)子段的數(shù)量太大以至于無法合理處理,那么人工審閱員可以通過提供附加文本字符作為源語料的人工翻譯的另一部分而添加到第一數(shù)據(jù)輸入。該附加文本字符形成了翻譯者經(jīng)由用戶輸入/輸出接口104而輸入的第三數(shù)據(jù)輸入。響應(yīng)于第三數(shù)據(jù)輸入,生成初始輸出的目標(biāo)文本子段的子集并將其輸出以供翻譯系統(tǒng)操作者審閱。該子集具有的目標(biāo)文本子段數(shù)量比初始輸出供審閱的目標(biāo)文本子段的集合要少。這可以提高翻譯效率,因為翻譯者在選擇一個合適的目標(biāo)文本子段以插入源語料的翻譯中之前只需瀏覽更少量的建議目標(biāo)文本子段。在圖4中所示的實施方式中,在翻譯系統(tǒng)操作者已經(jīng)輸入第一數(shù)據(jù)輸入410之后,輸出的目標(biāo)子段的列表中的高亮顯示強(qiáng)調(diào)了具有文本“spezifischenHaushaltslinie”的第一輸出目標(biāo)文本子段。在圖6中所示的實施方式中,在翻譯系統(tǒng)操作者已經(jīng)輸入第三數(shù)據(jù)輸入606之后,從先前高亮顯示的目標(biāo)文本子段中對輸出的目標(biāo)子段610的列表中的高亮顯示進(jìn)行更新以強(qiáng)調(diào)具有文本“spezifischenRegelungen"的第五輸出目標(biāo)文本子段610。第五輸出目標(biāo)文本子段610更接近地對應(yīng)于第一和第三數(shù)據(jù)輸入的組合,并且最終更接近地匹配翻譯者當(dāng)前正在翻譯的源段406的期望翻譯。這樣,翻譯系統(tǒng)操作者的注意力可以立即集中在就翻譯系統(tǒng)操作者當(dāng)前正在錄入的文本字符而言往往是最合適的目標(biāo)子段上,而不需要瀏覽所輸出的目標(biāo)文本子段的整個列表。下面將參照圖7和圖8的流程圖進(jìn)一步描述本發(fā)明的實施方式,圖7和圖8分別示出了根據(jù)本發(fā)明的實施方式在翻譯源語料時涉及的步驟。圖7和圖8中的流程圖分別示出了方法700和800。圖7和圖8示出了在計算機(jī)系統(tǒng)102的用戶輸入/輸出接口104的任何一側(cè)執(zhí)行的方法。朝向圖左邊而提供的功能方面由翻譯系統(tǒng)操作者來執(zhí)行,朝向圖右邊而提供的功能方面由計算機(jī)系統(tǒng)102來執(zhí)行。在圖任意一側(cè)示出的步驟分別由人工和機(jī)器彼此分離地執(zhí)行,但是將其示出在單個圖中以例示其交互。圖各側(cè)之間的箭頭并不表示方法的分支或分解,而僅僅是表示在翻譯系統(tǒng)操作者與計算機(jī)系統(tǒng)102之間的信息流動。如參照上述圖3更詳細(xì)地說明的,當(dāng)在方框702提取(310)出至少一個目標(biāo)子段314時,在圖7中示出的本發(fā)明的實施方式的翻譯處理開始。優(yōu)選地在翻譯系統(tǒng)操作者開始翻譯源語料之前離線地實現(xiàn)提取處理310。當(dāng)翻譯系統(tǒng)操作者開始翻譯源語料時,他在方框704處輸入形成了源語料的人工翻譯的第一部分的一個或更多個文本字符,并隨后在方框706由計算機(jī)系統(tǒng)102接收第一數(shù)據(jù)輸入。接著,在方框708處使用第一數(shù)據(jù)輸入來識別一個或更多個目標(biāo)文本子段314(來自于在方框702處提取的目標(biāo)文本子段),在該一個或更多個目標(biāo)文本子段314中第一文本字符對應(yīng)于第一數(shù)據(jù)輸入。接著,在方框710處將識別出的目標(biāo)文本子段輸出以供翻譯系統(tǒng)操作者審閱。按照如與圖4和圖6相關(guān)的上述方式高亮顯示具有與第一數(shù)據(jù)輸入匹配的最多文本字符的目標(biāo)文本子段。在這個示例性實施方式中,翻譯系統(tǒng)操作者在方框714處選擇高亮顯示的子段,隨后在方框716處接收與翻譯系統(tǒng)操作者的目標(biāo)文本子段選擇相對應(yīng)的第二數(shù)據(jù)輸入,并且按照與圖5相關(guān)的上述方式將所選擇的子段插入到源語料的翻譯中。如參照上述圖3更詳細(xì)地說明的,當(dāng)在方框802處提取(310)出至少一個目標(biāo)子段314時,在圖8中示出的本發(fā)明的實施方式的翻譯處理開始。優(yōu)選地在翻譯系統(tǒng)操作者開始翻譯源語料之前離線地實現(xiàn)提取處理310。當(dāng)翻譯系統(tǒng)操作者開始翻譯源語料時,他在方框804處輸入形成了源語料的人工翻譯的第一部分的一個或更多個文本字符,隨后在方框806處由計算機(jī)系統(tǒng)102接收第一數(shù)據(jù)輸入。接著,在方框808處使用第一數(shù)據(jù)輸入來識別一個或更多個目標(biāo)文本子段314(這些目標(biāo)文本子段314來自于在方框802處提取的目標(biāo)文本子段),在該一個或更多個目標(biāo)文本子段314中第一文本字符對應(yīng)于第一數(shù)據(jù)輸入。接著,在方框810處輸出所識別出的目標(biāo)文本子段以供翻譯系統(tǒng)操作者審閱。在這個實施方式中,翻譯系統(tǒng)操作者不選擇任何輸出的目標(biāo)文本子段(812),而是在方框814處輸入呈一個或更多個其他文本字符形式的人工翻譯的第二部分,該一個或更多個其他文本字符形成了源語料的人工翻譯的第二部分,并隨后在方框816處由計算機(jī)系統(tǒng)102接收第三數(shù)據(jù)輸入。接著,基于第一和第三數(shù)據(jù)輸入的組合而在方框818處生成先前輸出的目標(biāo)文本子段314的子集。應(yīng)當(dāng)理解的是,第三數(shù)據(jù)輸入可以是第一數(shù)據(jù)輸入的更新后的版本或修改后的版本。翻譯系統(tǒng)操作者在方框820處選擇輸出的目標(biāo)子段314以插入源語料的翻譯中,并隨后在方框822處由計算機(jī)系統(tǒng)102接收第二數(shù)據(jù)輸入。在方框824處將已選擇的目標(biāo)子段插入到已翻譯的源語料中,并且對翻譯系統(tǒng)操作者進(jìn)行顯示。在本發(fā)明的其他實施方式中,翻譯系統(tǒng)操作者可以在步驟820中不選擇輸出的目標(biāo)文本段,而是選擇輸入其他的文本字符。在這種情況下,可以生成先前識別出的目標(biāo)文本子段的子集的進(jìn)一步的子集,并將其輸出以供翻譯系統(tǒng)操作者審閱??梢灾貜?fù)該處理直到翻譯者決定選擇輸出的目標(biāo)文本子段中的一個來插入到源語料的翻譯中為止。在本發(fā)明的實施方式的下述說明中,術(shù)語“源非翻譯元素”應(yīng)被理解為包括日期或時間表達(dá)式、數(shù)值表達(dá)式或度量表達(dá)式、縮略語或源語料中的在目標(biāo)自然語言中具有標(biāo)準(zhǔn)翻譯的任何其他這樣的元素或與源語言或目標(biāo)語言無關(guān)的任何其他元素。在本發(fā)明的實施方式中,計算機(jī)系統(tǒng)102連接至遠(yuǎn)程服務(wù)器132并且檢索非翻譯元素識別和轉(zhuǎn)換準(zhǔn)則128。接著,使用非翻譯元素識別和轉(zhuǎn)換準(zhǔn)則128來識別源語料中的一個或更多個源非翻譯元素,并且將識別出的源非翻譯元素轉(zhuǎn)換成適于插入目標(biāo)自然語言的源語料的翻譯中的形式。源非翻譯元素不需要翻譯系統(tǒng)操作者進(jìn)行翻譯,但是可以根據(jù)預(yù)定規(guī)則或準(zhǔn)則自動轉(zhuǎn)換并且可以被“原樣”插入源語料的翻譯中。由于翻譯系統(tǒng)操作者完全不需要花費時間來處理或翻譯源非翻譯元素,因此這有助于提高翻譯系統(tǒng)操作者的效率。圖4的屏幕截圖示出了源非翻譯元素的轉(zhuǎn)換示例。這里的源非翻譯元素416是數(shù)字“1182/2007”,該數(shù)字被識別為根據(jù)用于對數(shù)字進(jìn)行轉(zhuǎn)換的一個或更多個預(yù)定規(guī)則而轉(zhuǎn)換的數(shù)字,并且被插入源語料的翻譯中,作為與項418所示的相同的數(shù)字“1182/2007”。源非翻譯元素的轉(zhuǎn)換的另一個示例可能涉及度量單位的轉(zhuǎn)換,如源語料中的法定重量51b。如果目標(biāo)語言是德語,那么根據(jù)lib=0.454kg的規(guī)則將該法定重量轉(zhuǎn)換為公制重量,最終將2.27kg插入到源語料的翻譯中。圖9示出了本發(fā)明的一個示例性實施方式,其中,用戶輸入/輸出接口104的圖形用戶接口(GUI)部的屏幕截圖900顯示了許多配置設(shè)置。各個設(shè)置可以初始地被設(shè)置為默認(rèn)值設(shè)置,并且可以由翻譯系統(tǒng)操作者經(jīng)由用戶輸入/輸出接口104進(jìn)行合適的輸入來配置。⑶I900例示了用于限定最小文本字符數(shù)據(jù)輸入設(shè)置910的一個設(shè)置910,該設(shè)置910與在輸出所識別出的目標(biāo)子段314以供翻譯系統(tǒng)操作者審閱之前計算機(jī)系統(tǒng)102能夠接收的第一和/或第三數(shù)據(jù)輸入中的最小文本字符量有關(guān)。該設(shè)置能夠避免翻譯系統(tǒng)操作者不得不瀏覽具有少量文本字符(如一個或兩個字母單詞)的輸出的目標(biāo)文本子段。在這種特定情況下,該設(shè)置被設(shè)定為7個字符,使得只有那些具有至少7個文本字符的單詞或短語將被輸出以供翻譯系統(tǒng)操作者審閱。GUI900例示了用于限定被輸出以供翻譯系統(tǒng)操作者審閱的目標(biāo)文本子段的最大數(shù)量的另一個設(shè)置912。這意味著直到響應(yīng)于來自翻譯系統(tǒng)操作者的第一和/或第三數(shù)據(jù)輸入已經(jīng)生成了目標(biāo)子段的足夠小的集合時,才輸出目標(biāo)文本子段以供審閱。該設(shè)置能夠避免翻譯者不得不瀏覽大量的目標(biāo)文本子段來尋找用于插入源語料翻譯中的合適的目標(biāo)文本子段。在這種特定情況下,該設(shè)置被設(shè)定為六個目標(biāo)子段,使得僅輸出最多六個建議的目標(biāo)文本子段來供翻譯系統(tǒng)操作者審閱,即,僅當(dāng)潛在匹配子段的數(shù)量降低到六個或更少時,才輸出這些建議以供審閱。⑶I900例示了僅用于輸出尚未在目標(biāo)語料908中出現(xiàn)的建議目標(biāo)子段314的進(jìn)一步的設(shè)置。如果啟用了該設(shè)置,將不會再次輸出翻譯系統(tǒng)操作者在前一時刻已經(jīng)選擇的目標(biāo)子段314來供翻譯系統(tǒng)操作者審閱。本發(fā)明的這個特征有助于減少建議數(shù)量,從而避免使用者不得不重新閱讀已經(jīng)安置過的建議。GUI900例示了翻譯系統(tǒng)操作者能夠選擇在提取目標(biāo)子段314時要參考的數(shù)據(jù)的情況下的進(jìn)一步的設(shè)置,在這種特定情況下要參考的數(shù)據(jù)是翻譯記憶庫906或自動文本數(shù)據(jù)庫902。圖10示出了本發(fā)明的一個示例性實施方式,其中,由計算機(jī)系統(tǒng)102生成在展示提取處理的結(jié)果和評估翻譯準(zhǔn)確度時使用的測試文本文件1000。在本發(fā)明的這個實施方式中,將文本測試文件1000寫入報告文件位置1002中。顯示了第一自然語言1004(GB英語)和第二目標(biāo)自然語言1006(DE德語)。此外,顯示了源段1008和許多候選目標(biāo)文本子段1010。上述實施方式將被理解為本發(fā)明的說明性示例。可以想到本發(fā)明的其他實施方式。例如,當(dāng)翻譯系統(tǒng)操作者輸入了第一數(shù)據(jù)輸入然后輸入了第三數(shù)據(jù)輸入時,還可以顛倒用于生成目標(biāo)文本子段的子集的上述處理。如果翻譯系統(tǒng)操作者最初輸入了第一數(shù)據(jù)輸入并且識別和顯示了目標(biāo)文本子段的第一集合,然后刪除一個或更多個文本字符,則可以生成目標(biāo)文本子段的超集(super-set)(S卩,比最初顯示的更多數(shù)量的目標(biāo)文本子段),并且將其輸出以供翻譯系統(tǒng)操作者審閱。如果翻譯系統(tǒng)操作者在翻譯時其初始數(shù)據(jù)輸入出錯,或者在關(guān)于如何最佳地顯示部分源語料方面改變了主意,這可能是有用的。涉及上述生成目標(biāo)文本子段的子集或超集的本發(fā)明的實施方式可以與涉及對目標(biāo)文本子段進(jìn)行排序的本發(fā)明的實施方式相結(jié)合,還可以或者另選地與涉及使目標(biāo)文本子段高亮顯示的本發(fā)明的實施方式相結(jié)合。在這樣的實施方式中,當(dāng)生成子集或超集時,目標(biāo)文本子段的排序和/或目標(biāo)文本子段的高亮顯示可以在輸出目標(biāo)文本子段以供翻譯系統(tǒng)操作者審閱時被更新。本發(fā)明的其他實施方式可以涉及在翻譯系統(tǒng)操作者開始翻譯源語料之前由合適的軟件進(jìn)程對要翻譯的源語料進(jìn)行計算機(jī)分析。該軟件進(jìn)程可以包括對與先前已翻譯的語料的語料庫有關(guān)的待翻譯源語料進(jìn)行解析,并搜尋源語料與先前已翻譯的語料之間的相關(guān)性或其他這種關(guān)系或?qū)?yīng)性。作為計算機(jī)分析的結(jié)果,可以通過軟件創(chuàng)建目標(biāo)文本子段的列表,該列表的內(nèi)容潛在地與待翻譯的特定源語料的翻譯有關(guān)。當(dāng)翻譯系統(tǒng)操作者通過錄入一個或更多個文本字符而開始翻譯源語料時,可以從潛在目標(biāo)文本子段的列表中識別出目標(biāo)文本子段,并將其輸出以供翻譯系統(tǒng)操作者審閱。通過考慮待翻譯的特定源語料,識別出的目標(biāo)文本子段可以更相關(guān)并且含有更少的干擾項(noiseterm),從而提高了翻譯處理的效率。本發(fā)明的其他實施方式還可以涉及待翻譯的源語料的計算機(jī)分析,但是該計算機(jī)分析不是在翻譯系統(tǒng)操作者開始翻譯源語料之前執(zhí)行,而是在翻譯系統(tǒng)操作者翻譯源語料期間執(zhí)行計算機(jī)分析。在這種實施方式中,當(dāng)翻譯系統(tǒng)操作者錄入了一個或更多個文本字符時,可以采用軟件進(jìn)程根據(jù)需要(on-the-fly)而參照來自翻譯系統(tǒng)操作者的輸入和待翻譯的源語料二者來識別用于向翻譯系統(tǒng)操作者建議的目標(biāo)文本子段。通過考慮待翻譯的特定源語料以及來自翻譯系統(tǒng)操作者的輸入,識別出的目標(biāo)文本子段可以更相關(guān),尤其是與翻譯系統(tǒng)操作者所希望的翻譯更相關(guān)。在另選實施方式中,計算機(jī)系統(tǒng)102可以作為單獨裝置工作,而無需與服務(wù)器132進(jìn)行通信。就該另選實施方式而言,格式化識別和轉(zhuǎn)換準(zhǔn)則以及非翻譯元素識別和轉(zhuǎn)換準(zhǔn)則將被存儲在計算機(jī)系統(tǒng)本地。而在其他實施方式中,本發(fā)明的主要處理功能可以由服務(wù)器132來實現(xiàn),而計算機(jī)系統(tǒng)102作為相對“(dumb)”客戶端計算機(jī)系統(tǒng)。本發(fā)明的功能組件可以被合并到單個裝置或分布在多個裝置上。在上述說明和附圖中,可以從源自然語言和目標(biāo)自然語言的先前已翻譯的目標(biāo)段對的雙語語料庫中提取用于向翻譯系統(tǒng)操作者建議的候選目標(biāo)文本子段。在本發(fā)明的其他設(shè)置中,可以使用含有除了源自然語言和目標(biāo)自然語言之外的其他語言的對應(yīng)的已翻譯的文本的多語語料庫。雖然在一個示例性實施方式中機(jī)器可讀介質(zhì)被示為單一介質(zhì),但術(shù)語“機(jī)器可讀介質(zhì)”應(yīng)當(dāng)被理解為包括存儲有一個或更多個指令集的單一介質(zhì)或多介質(zhì)(例如,集中式或分布式數(shù)據(jù)庫,和/或關(guān)聯(lián)的高速緩存和服務(wù)器)。術(shù)語“機(jī)器可讀介質(zhì)”還應(yīng)當(dāng)被理解為包括這樣的介質(zhì),這種介質(zhì)能夠存儲、編碼或攜帶由機(jī)器執(zhí)行的指令集,使機(jī)器執(zhí)行示例性實施方式的任何一個或更多個方法,或者能夠存儲、編碼或攜帶這種指令集使用的或與這種指令集關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。因此,術(shù)語“機(jī)器可讀介質(zhì)”應(yīng)當(dāng)包括,但并不限于,固態(tài)存儲器、光媒體和磁媒體以及載波信號。應(yīng)當(dāng)理解的是,就任何一種實施方式而說明的任何特征可以單獨使用,或者與其他所描述的特征相結(jié)合地使用,并且還可以與任何其他實施方式中、或者任何其他實施方式的任意組合中的一個或更多個特征相結(jié)合地使用。而且,在不偏離所附權(quán)利要求書中限定的本發(fā)明的范圍的情況下,還可以使用上面沒有說明的等同方式和修改。權(quán)利要求一種用于將源自然語言的源語料翻譯成目標(biāo)自然語言的由計算機(jī)實現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟接收步驟,其接收所述目標(biāo)自然語言的第一數(shù)據(jù)輸入,所述第一數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的翻譯的子段的第一部分;識別步驟,其識別所述目標(biāo)自然語言的與所述接收的第一數(shù)據(jù)輸入相關(guān)聯(lián)的至少一個可選擇的目標(biāo)文本子段,所述至少一個可選擇的目標(biāo)文本子段已經(jīng)從先前已翻譯的文本段對的語料庫中被提取出來,各文本段對包括所述源自然語言的源文本段和所述目標(biāo)自然語言的對應(yīng)的已翻譯的文本段;以及輸出步驟,其輸出所述至少一個可選擇的目標(biāo)文本子段。2.根據(jù)權(quán)利要求1所述的方法,其中,以適于供翻譯系統(tǒng)操作者審閱的形式來輸出所述識別出的目標(biāo)文本子段,由此可以選擇所述至少一個識別出的目標(biāo)子段用于將所述源語料翻譯成所述目標(biāo)自然語言。3.根據(jù)權(quán)利要求1所述的方法,該方法包括以下步驟接收第二數(shù)據(jù)輸入,所述第二數(shù)據(jù)輸入包括從所述至少一個輸出的目標(biāo)子段中選擇的用于將所述源語料翻譯成所述目標(biāo)自然語言的一個目標(biāo)文本子段。4.根據(jù)權(quán)利要求1所述的方法,該方法包括以下步驟從先前已翻譯的文本段對的語料庫中提取目標(biāo)文本子段,其中,從所述語料庫中提取目標(biāo)文本子段包括計算在所述先前已翻譯的文本段對中的所述源文本段中的單詞與所述對應(yīng)的已翻譯的文本段中的單詞之間的同現(xiàn)測度。5.根據(jù)權(quán)利要求1所述的方法,其中,輸出多個可選擇的目標(biāo)文本子段。6.根據(jù)權(quán)利要求5所述的方法,其中,輸出的可選擇的目標(biāo)文本子段的數(shù)量由預(yù)定的用戶可配置的閾值來限定。7.根據(jù)權(quán)利要求5所述的方法,該方法包括以下步驟在所述輸出中對給定目標(biāo)文本子段進(jìn)行強(qiáng)調(diào),該給定目標(biāo)文本子段是從所述多個可選擇的目標(biāo)文本子段中選擇出來作為最佳初始選擇。8.根據(jù)權(quán)利要求1所述的方法,其中,所述第一數(shù)據(jù)輸入包括許多文本字符,并且所述識別步驟包括以下步驟識別具有與所述第一數(shù)據(jù)輸入中的文本字符相對應(yīng)的文本字符的目標(biāo)文本子段。9.根據(jù)權(quán)利要求8所述的方法,其中,響應(yīng)于所述第一數(shù)據(jù)輸入達(dá)到預(yù)定數(shù)量文本字符而輸出所述至少一個可選擇的目標(biāo)子段以供翻譯系統(tǒng)操作者審閱。10.根據(jù)權(quán)利要求9所述的方法,其中,所述預(yù)定數(shù)量的文本字符是用戶可配置的。11.根據(jù)權(quán)利要求1所述的方法,其中,所述識別步驟包括以下步驟識別所述目標(biāo)自然語言的與所述接收的第一數(shù)據(jù)輸入相關(guān)聯(lián)的多個目標(biāo)文本子段,所述多個目標(biāo)文本子段已經(jīng)從所述雙語語料庫中被提取出來,所述方法包括以下步驟接收所述目標(biāo)自然語言的第三數(shù)據(jù)輸入,所述第三數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的翻譯的第二部分;從與所述接收的第一數(shù)據(jù)輸入和第三數(shù)據(jù)輸入相關(guān)聯(lián)的所述多個識別出的目標(biāo)文本子段中生成可選擇的目標(biāo)文本子段的子集,其中,所述輸出步驟包括以下步驟輸出所述生成的可選擇的目標(biāo)文本子段的子集以供所述翻譯系統(tǒng)操作者審閱。12.根據(jù)權(quán)利要求1所述的方法,其中,如果在所述識別步驟中識別出多個目標(biāo)文本子段,則所述方法包括以下步驟根據(jù)所述源自然語言的源語料量和/或由所述目標(biāo)自然語言的各個所述識別出的目標(biāo)文本子段所代表的所述目標(biāo)自然語言的目標(biāo)語料量,對所述識別出的目標(biāo)文本子段進(jìn)行排序,其中,在所述輸出步驟中,以排序的順序輸出所述識別出的目標(biāo)子段。13.根據(jù)權(quán)利要求1所述的方法,其中,目標(biāo)文本子段包括所述目標(biāo)自然語言的單詞或短語。14.根據(jù)權(quán)利要求1所述的方法,其中,文本段對包括所述源自然語言的句子或段落以及所述目標(biāo)自然語言的對應(yīng)的已翻譯的句子或段落。15.根據(jù)權(quán)利要求1所述的方法,該方法包括以下步驟在所述源語料中識別一個或更多個非翻譯元素,非翻譯元素是源語料中的如下元素,該元素?zé)o需由翻譯系統(tǒng)操作者翻譯成所述目標(biāo)自然語言并且能夠使用一個或更多個預(yù)定規(guī)則從所述源自然語言轉(zhuǎn)換成所述目標(biāo)自然語言;使用所述一個或更多個預(yù)定規(guī)則將所述一個或更多個識別出的非翻譯元素轉(zhuǎn)換成所述目標(biāo)自然語言,并將所述一個或更多個轉(zhuǎn)換后的非翻譯元素插入所述全文翻譯中而無需所述翻譯系統(tǒng)操作者進(jìn)行審閱或翻譯。16.根據(jù)權(quán)利要求15所述的方法,其中,識別出的非翻譯元素包括以下的一種或更多種時間,日期,數(shù)值表達(dá)式,度量表達(dá)式,縮略語,標(biāo)簽,格式化的項,以及名稱。17.根據(jù)權(quán)利要求1所述的方法,其中,所述語料庫包括以下的一種或更多種翻譯記憶庫,術(shù)語數(shù)據(jù)庫中的一個或更多個查找結(jié)果,對齊的雙語文本,以及目標(biāo)子段的用戶可定義列表。18.一種用于將源自然語言的源語料翻譯成目標(biāo)自然語言的由計算機(jī)實現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟存儲用于將所述源語料翻譯成所述目標(biāo)自然語言的目標(biāo)文本子段的集合;提供用戶接口,所述用戶接口包括用于顯示該源自然語言的所述源語料的一個段的顯示部以及用于輸入該目標(biāo)自然語言的文本字符的文本錄入部;經(jīng)由所述文本錄入部接收所述目標(biāo)自然語言的第一數(shù)據(jù)輸入,所述第一數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的所述段的一部分的翻譯的第一部分;基于所述接收的第一數(shù)據(jù)輸入而從所述目標(biāo)文本子段的集合中識別至少一個可選擇的目標(biāo)文本子段;以及輸出用于將源語料的所述段的一部分翻譯成該目標(biāo)自然語言的所述至少一個可選擇的目標(biāo)文本子段。19.一種用于將源自然語言的源語料翻譯成目標(biāo)自然語言的自然語言翻譯裝置,所述裝置包括接口單元,其用于接收所述目標(biāo)自然語言的第一數(shù)據(jù)輸入,所述第一數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的翻譯的子段的第一部分;識別單元,其用于識別所述目標(biāo)自然語言的與所述接收的第一數(shù)據(jù)輸入相關(guān)聯(lián)的至少一個可選擇的目標(biāo)文本子段,所述至少一個可選擇的目標(biāo)文本子段已經(jīng)從先前已翻譯的文本段對的語料庫中被提取出來,各文本段對包括所述源自然語言的源文本段和所述目標(biāo)自然語言的對應(yīng)的已翻譯的文本段;以及輸出單元,其用于輸出所述至少一個可選擇的目標(biāo)子段。20.一種計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品包括其上記錄有計算機(jī)可讀指令的計算機(jī)可讀介質(zhì),當(dāng)該計算機(jī)可讀指令由計算機(jī)化裝置來執(zhí)行時可操作用于使得所述計算機(jī)化裝置執(zhí)行根據(jù)權(quán)利要求1的方法。全文摘要本發(fā)明涉及計算機(jī)輔助自然語言翻譯。公開了一種用于將源自然語言的源語料翻譯成目標(biāo)自然語言的計算機(jī)實現(xiàn)的方法和裝置,該方法包括在軟件進(jìn)程中執(zhí)行以下步驟接收步驟,其接收所述目標(biāo)自然語言的第一數(shù)據(jù)輸入,所述第一數(shù)據(jù)輸入包括從所述源自然語言翻譯成所述目標(biāo)自然語言的所述源語料的翻譯的子段的第一部分;識別步驟,其識別所述目標(biāo)自然語言的與所述接收的第一數(shù)據(jù)輸入相關(guān)聯(lián)的至少一個可選擇的目標(biāo)文本子段,所述至少一個可選擇的目標(biāo)文本子段已經(jīng)從先前已翻譯的文本段對的語料庫中被提取出來,各文本段對包括所述源自然語言的源文本段和所述目標(biāo)自然語言的對應(yīng)的已翻譯的文本段;以及輸出步驟,其輸出所述至少一個可選擇的目標(biāo)文本子段。文檔編號G06F17/28GK101826072SQ20091025319公開日2010年9月8日申請日期2009年12月14日優(yōu)先權(quán)日2009年3月2日發(fā)明者劉興曾,埃里克·德弗里澤,基思·米爾斯,奧利弗·克里斯特申請人:Sdl有限公司