欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

機(jī)器翻譯評價方法和設(shè)備及機(jī)器翻譯方法和設(shè)備與流程

文檔序號:12464688閱讀:347來源:國知局
機(jī)器翻譯評價方法和設(shè)備及機(jī)器翻譯方法和設(shè)備與流程

本公開總體涉及機(jī)器翻譯,具體涉及用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法和設(shè)備以及機(jī)器翻譯方法和設(shè)備。



背景技術(shù):

跨語言問答系統(tǒng)(Cross-language question answering system)是跨語言信息檢索技術(shù)在自動問答系統(tǒng)中運用的產(chǎn)物,比起單語種的自動問答系統(tǒng),跨語言問答系統(tǒng)需要涉及更為復(fù)雜的跨語言、信息檢索等處理技術(shù)。其要求系統(tǒng)接收用戶以源語言表述的問題作為輸入、系統(tǒng)自動在另一語種的語料庫中找到關(guān)于這個問題的最佳答案、并將此答案以源語言的形式返回給用戶。由于系統(tǒng)接收的問題的語種與語料庫的語種不一致,因此為了進(jìn)行跨語種檢索,需要通過機(jī)器翻譯進(jìn)行語種的轉(zhuǎn)換。針對這一語種的轉(zhuǎn)換,可以采用兩種不同的思路,一種是將源語言的問題轉(zhuǎn)化(翻譯)為與語料庫相同的語言,然后使用針對語料庫的語種設(shè)計的問答系統(tǒng)來獲取答案,另一種是通過機(jī)器翻譯將整個語料庫轉(zhuǎn)化為與源語言相同的語言,然后在轉(zhuǎn)化后的語料庫中獲取答案。可以看出,無論采用哪種思路,機(jī)器翻譯的好壞對問答系統(tǒng)的性能都有著非常重要的影響。

由于上述第二種思路中需要將整個語料庫轉(zhuǎn)化為與源語言相同的語言,工作負(fù)荷很重,因此,目前本領(lǐng)域中的研究更多地集中在第一種思路上。具體的,當(dāng)前針對將源語言的問題轉(zhuǎn)化為與語料庫相同的語言的機(jī)器翻譯已經(jīng)提出了許多具體的方法。相應(yīng)的,為了確定翻譯的質(zhì)量,研究人員進(jìn)行了很多研究以期對翻譯結(jié)果進(jìn)行評價,從而選擇翻譯質(zhì)量較高的翻譯。然而,現(xiàn)有的各種翻譯評價方法在可靠性和通用性上不能令人滿意。例如,美國專利申請US2012330990公開了一種跨語言查詢建議的評價方法,其確定各個候選翻譯在目標(biāo)語言查詢?nèi)罩局械某霈F(xiàn)頻率,并選擇出現(xiàn)頻率最高的候選翻譯作為翻譯質(zhì)量最高的翻譯。然而按照方法,在候選翻譯漏譯了源語言中的某些詞時,會導(dǎo)致其在目標(biāo)語言查詢?nèi)罩局械某霈F(xiàn)頻率較高,另外,有時在某 些特定詞翻譯錯誤時也會導(dǎo)致較高的出現(xiàn)頻率,從而導(dǎo)致錯誤的翻譯評價。再比如,日本專利申請WO2013014877A1公開了一種根據(jù)源語言和目標(biāo)語言的翻譯的反向翻譯結(jié)果之間的距離來評估翻譯可靠性的方法。然而,該方法需要從源語言翻譯成目標(biāo)語言、以及從目標(biāo)語言反向翻譯成源語言的兩種翻譯模型,而且從目標(biāo)語言反向翻譯成源語言的性能也會影響評價的可靠性。



技術(shù)實現(xiàn)要素:

至少針對以上問題提出本公開。

根據(jù)本公開的一個實施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法,包括:對于源語言查詢語句和通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句分別進(jìn)行語義角色標(biāo)注;計算源語言查詢語句中每個被標(biāo)注的論元與目標(biāo)語言查詢語句中每個被標(biāo)注的論元的對齊概率;和基于所計算的各個對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。

根據(jù)本公開的另一實施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯方法,包括:接收要翻譯的第一語言的內(nèi)容,并判斷該第一語言的內(nèi)容的類型;基于所確定的類型選擇適合于該類型的多個翻譯引擎;利用所述多個翻譯引擎分別對所述第一語言的內(nèi)容進(jìn)行翻譯,得到多個第二語言的候選翻譯;對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分,并選擇得分最高的候選翻譯作為所述第一語言的內(nèi)容的翻譯。

根據(jù)本公開的另一實施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備,包括:標(biāo)注部件,配置為對于源語言查詢語句和通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句分別進(jìn)行語義角色標(biāo)注;對齊部件,配置為計算源語言查詢語句中每個被標(biāo)注的論元與目標(biāo)語言查詢語句中每個被標(biāo)注的論元的對齊概率;和評價部件,配置為基于所計算的各個對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。

根據(jù)本公開的又一實施例,提供了一種用于跨語言問答系統(tǒng)的機(jī)器翻譯設(shè)備,包括:判斷部件,配置為接收要翻譯的第一語言的內(nèi)容,并判斷該第一語言的內(nèi)容的類型;選擇部件,配置為基于所確定的類型選擇適合于該類型的多個翻譯引擎;翻譯部件,配置為利用所述多個翻譯引擎分別對所述第一語言的內(nèi)容進(jìn)行翻譯,得到多個第二語言的候選翻譯;確定部件,配置為對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分,并選擇得分最高的候選翻 譯作為所述第一語言的內(nèi)容的翻譯。

根據(jù)本公開實施例的機(jī)器翻譯評價技術(shù)提出了一種利用語義角色標(biāo)注、基于論元對齊概率的新穎的機(jī)器翻譯評價方案,通過該方法能夠提供較為準(zhǔn)確的機(jī)器翻譯評價,進(jìn)而提高跨語言問答系統(tǒng)的性能。根據(jù)本公開實施例的機(jī)器翻譯技術(shù)對于不同類型的待翻譯內(nèi)容選用適合于該類型的不同翻譯引擎,并且對于每種類型的翻譯內(nèi)容采用多個翻譯引擎進(jìn)行翻譯,從而對于各種類型的待翻譯內(nèi)容都能提供較好的翻譯結(jié)果。

附圖說明

通過結(jié)合附圖對本公開實施例進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本公開實施例的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本公開實施例一起用于解釋本公開,并不構(gòu)成對本公開的限制。在附圖中,相同的參考標(biāo)號通常代表相同部件或步驟。

圖1示意性地示出了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法的流程圖。

圖2例示了根據(jù)本公開實施例的可用于跨語言問答系統(tǒng)的機(jī)器翻譯方法的流程圖。

圖3示出了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備的功能配置框圖。

圖4示出了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯設(shè)備的功能配置框圖。

圖5示出了可用于實現(xiàn)本公開實施例的、用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備和機(jī)器翻譯設(shè)備的計算設(shè)備的示意性框圖。

具體實施方式

為了使得本公開的目的、技術(shù)方案和優(yōu)點更為明顯,下面將參照附圖詳細(xì)描述根據(jù)本公開的示例實施例。顯然,所描述的實施例僅僅是本公開的一部分實施例,而不是本公開的全部實施例,應(yīng)理解,本公開不受這里描述的示例實施例的限制?;诒竟_中描述的實施例,本領(lǐng)域技術(shù)人員在沒有付出創(chuàng)造性勞動的情況下所得到的所有其它實施例都應(yīng)落入本公開的保護(hù)范圍 之內(nèi)。

首先對根據(jù)本公開實施例的機(jī)器翻譯評價技術(shù)的基本思想進(jìn)行簡單介紹。

本發(fā)明人認(rèn)識到,對于不同類型的待翻譯內(nèi)容,翻譯質(zhì)量的評價標(biāo)準(zhǔn)是不盡相同的。以跨語言問答系統(tǒng)中的源語言查詢語句的翻譯為例,本發(fā)明人通過大量的研究發(fā)現(xiàn),不同于通常的翻譯質(zhì)量評價標(biāo)準(zhǔn),源語言查詢語句的翻譯結(jié)果中各元素的位置對于跨語言問答系統(tǒng)的性能影響不大,因而不應(yīng)作為評價翻譯質(zhì)量好壞的標(biāo)準(zhǔn)。例如假設(shè)源語言是英文,目標(biāo)語言是中文(如無另外說明,下文中均采用這一假設(shè)),對于英文查詢“Is it cold at the night of early December,HK?”,中文翻譯“是不是很冷,在十二月初,香港”中的各元素位置雖然不符合通常的語序,但是其準(zhǔn)確地表達(dá)了英文查詢的原意,因此不應(yīng)認(rèn)定其翻譯質(zhì)量不好。另外,翻譯結(jié)果的流暢度對于跨語言問答系統(tǒng)的性能影響也不大,因而也不應(yīng)作為評價翻譯質(zhì)量好壞的標(biāo)準(zhǔn)。例如,對于英文查詢“What would be the highlights and the best things to see in Shanghai Expo 2010?”,有兩種可能的翻譯“什么是亮點,并看到在上海2010年世博會最好的東西”以及“在上海世博會上看到的2010個亮點和最好的東西是什么”,其中的第二種雖然比較流暢但是不符合英文查詢的原意,而第一種雖然不夠流暢,但是大致符合原意,因而不應(yīng)當(dāng)認(rèn)定其翻譯質(zhì)量不好。事實上,本發(fā)明人認(rèn)識到語義角色在一定程度上能夠表達(dá)語義,因此應(yīng)當(dāng)是評價翻譯質(zhì)量的一個重要指標(biāo),并由此提出了下面將詳細(xì)描述的利用語義角色標(biāo)注、基于論元對齊概率的新穎的機(jī)器翻譯評價方案。

語義角色標(biāo)注是一種淺層語義分析技術(shù),它以句子為單位,不對句子所包含的語義信息進(jìn)行深入分析,而只是分析句子的謂詞-論元結(jié)構(gòu)。具體來講,語義角色標(biāo)注的任務(wù)就是以句子的謂詞為中心,研究句子中各論元與謂詞之間的關(guān)系,并且通過語義角色標(biāo)注來描述論元與謂詞之間的關(guān)系。例如,下面示出了語義角色標(biāo)注的幾個示例:

示例1:

示例2:

語義角色分為核心語義角色和附加語義角色。核心語義角色用ARG+數(shù)字表示,通常認(rèn)為包含5類,其中ARG0表示動作的施事者,ARG1表示動作的受事者,ARG2表示動作的工具、手段等,ARG3表示起始點,ARG4表示結(jié)束點。附加語義角色用AGRM-表示,用于表示動作的時間、地點等等,例如上面的示例1中的“in 1989”。

如前面提到的,本發(fā)明人認(rèn)識到語義角色在一定程度上能夠表達(dá)語義,而雙語平行句對是互為翻譯的,因此它們在語義上應(yīng)該是等價的,這種情況反映在語義角色標(biāo)注上,兩個對應(yīng)的句子應(yīng)該有一致的謂詞-論元結(jié)構(gòu)。例如,如下的示例示出了一對雙語平行句之間的論元對齊關(guān)系,可以看出這兩個句子具有一致的謂詞-論元結(jié)構(gòu)。

基于以上認(rèn)識,在本公開的實施例中將基于雙語平行句之間的謂詞-論元一致性,或者說論元的對齊關(guān)系來確定翻譯質(zhì)量的好壞。更明確的說,如果通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句與源語言的查詢語句的謂詞-論元一致性高,或者說如果這兩個語句之間的論元對齊程度高,則認(rèn)為目標(biāo)語言查詢語句的翻譯質(zhì)量高。

下面將參考圖1對根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法進(jìn)行詳細(xì)的描述。圖1示意性地示出了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法的流程圖。

如圖1所示,在步驟S110,對于源語言查詢語句和通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句分別進(jìn)行語義角色標(biāo)注。

目前在自然語言處理領(lǐng)域中對語義角色標(biāo)注已經(jīng)進(jìn)行了大量的研究,有許多可用的語義角色標(biāo)注方法,并且語義角色標(biāo)注的規(guī)則也已經(jīng)相當(dāng)完善。在該步驟中,可以采用任何已知的語義角色標(biāo)注方法對于源語言的查詢語句 進(jìn)行語義角色標(biāo)注,并對通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句(即待評價翻譯質(zhì)量的候選翻譯)進(jìn)行語義角色標(biāo)注,此處不再詳細(xì)描述。

在步驟S120,計算源語言查詢語句中每個被標(biāo)注的論元與目標(biāo)語言查詢語句中每個被標(biāo)注的論元的對齊概率。

在該步驟中,將基于步驟S110的語義角色標(biāo)注結(jié)果來計算源語言查詢語句中各個論元與目標(biāo)語言查詢語句中各個論元的對齊概率。更明確的說,在該步驟中,對于源語言查詢語句中的每個論元,計算其與目標(biāo)語言查詢語句中的每個論元的對齊概率,以期由此獲知這兩個語句之間的論元對齊關(guān)系,進(jìn)而評價目標(biāo)語言查詢語句的翻譯質(zhì)量。

每個論元都是由若干個詞構(gòu)成的,如果源語言的一個論元所包含的詞與目標(biāo)語言的論元所包含的詞大部分是對齊的,那么這兩個論元也很有可能是對齊的。因此,作為一種可選的方式,在計算源語言查詢語句中的一個論元和目標(biāo)語言查詢語句中的一個論元的論元對齊概率時,可以對這兩個論元進(jìn)行詞對齊,并根據(jù)詞對齊結(jié)果確定這兩個論元的對齊概率。

所謂詞對齊是指在雙語平行句的互譯關(guān)系的詞之間建立對應(yīng)關(guān)系。詞對齊是自然語言處理中的常用技術(shù)手段,按照分類方法的不同,詞對齊可以分為無監(jiān)督和有監(jiān)督的詞對齊、啟發(fā)式和統(tǒng)計式詞對齊等等。在該步驟中,可以采用任何適當(dāng)?shù)脑~對齊方法,對源語言查詢語句中的一個論元和目標(biāo)語言查詢語句中的一個論元進(jìn)行詞對齊處理,進(jìn)而根據(jù)詞對齊結(jié)果確定這兩個論元的對齊概率。具體的,兩個論元之間對齊的詞越多,則這兩個論元的對齊概率越大。

作為另一種可選的方式,可以根據(jù)中心詞對齊結(jié)果以及論元之間的距離確定論元的對齊概率。所謂中心詞是偏正短語中被修飾語所修飾、限制的中心成分。能夠理解,一個論元的中心詞往往比該論元中的其他詞更具有代表性。因此,如果兩個論元的中心詞是對齊的,那么即使其他詞對齊得不是很多,這兩個論元也很可能是對齊的。另一方面,大量的統(tǒng)計表明,兩個對齊的論元的語義角色標(biāo)簽往往是相同的,或者即使不相同,這兩個論元之間的距離也應(yīng)該較為接近。以中文句子中的論元ARG0為例,統(tǒng)計表明,大多數(shù)情況下,該中文句子中的ARG0和英文句子中的ARG0對齊,此時兩個論元之間的距離為0;該中文句子中的ARG0和英文句子中的ARG1對齊的的情形大大減少,此時兩個論元之間的距離為1;而該中文句子中的ARG0和英 文句子中的ARG2對齊的情形則幾乎沒有,此時兩個論元之間的距離為2。也就是說,兩個論元之間的距離越近,這兩個論元對齊的概率越高,而兩個論元之間的距離越遠(yuǎn),則它們之間的對齊概率越低。

因此,如上所述,可選的,對于源語言查詢語句中的一個論元和目標(biāo)語言查詢語句中的一個論元,可以基于這兩個論元的中心詞的詞對齊結(jié)果(即是否對齊)以及這兩個論元之間的距離,確定這兩個論元的對齊概率。例如,可以根據(jù)具體情況為中心詞對齊結(jié)果和論元之間的距離分別設(shè)定適當(dāng)?shù)臋?quán)重,并計算兩者的加權(quán)和以確定兩個論元的對齊概率。

以上例示了計算源語言查詢語句中的一個論元與目標(biāo)語言查詢語句中的一個論元的論元對齊概率的方法,應(yīng)當(dāng)理解,這僅僅是示例性的說明而并非是對本公開的限制,也可以根據(jù)具體情況采用其他方式來計算兩個論元之間的對齊概率。例如可以同時考慮兩個論元之間的詞對齊結(jié)果、中心詞對齊結(jié)果、以及論元之間的距離來確定論元的對齊概率。

回到圖1,在步驟S130,基于所計算的各個對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。

在該步驟中,可以以各種方式利用在步驟S120中計算出的各個論元對齊概率,以確定目標(biāo)語言查詢語句的翻譯質(zhì)量。

統(tǒng)計顯示,各個對齊概率中的最大對齊概率是影響翻譯質(zhì)量的一個很重要的因素,因此可選的,可以基于所計算的各個對齊概率中的最大對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。其中,最大對齊概率越大,則目標(biāo)語言查詢語句的翻譯質(zhì)量越好。

另外,統(tǒng)計顯示,各個對齊概率的平均對齊概率也對翻譯質(zhì)量有較大的影響,因此可以基于所計算的各個對齊概率的平均對齊概率及最大對齊概率來確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。此外,除了平均對齊概率及最大對齊概率之外,還可以進(jìn)一步結(jié)合源語言查詢語句的長度、目標(biāo)語言查詢語句的長度、目標(biāo)語言查詢語句中謂詞的數(shù)目等其他相關(guān)的影響因素來確定目標(biāo)語言查詢語句的翻譯質(zhì)量。作為一個具體示例,可以為上述各個影響因素分別設(shè)定適當(dāng)?shù)臋?quán)重,并通過計算各個影響因素的加權(quán)和來確定目標(biāo)語言查詢語句的翻譯質(zhì)量。

可選的,可以采用上述各個影響因素、通過建立數(shù)學(xué)模型來確定目標(biāo)語言查詢語句的翻譯質(zhì)量。例如,可以如表達(dá)式(1)所示,利用預(yù)先訓(xùn)練好的 多項式邏輯回歸模型,對目標(biāo)語言查詢語句的翻譯質(zhì)量打分,以對翻譯質(zhì)量做出評價:

其中,P(Y=k|x)表示模型的各輸出值(即各翻譯質(zhì)量打分)的邏輯可能性,x表示模型的特征值,Wk表示各特征值的權(quán)重,其具體值是在模型的訓(xùn)練過程中訓(xùn)練得到的,K表示特征值的數(shù)目,k*表示具有最大邏輯可能性的輸出值,即最可能的翻譯質(zhì)量打分。如前所述,各個對齊概率中的最大對齊概率是一個很重要的因素,因此該模型的特征值可以是最大對齊概率??蛇x的,該模型的特征值還可以包括其他相關(guān)因素,例如,平均對齊概率、源語言查詢語句的長度、目標(biāo)語言查詢語句的長度、目標(biāo)語言查詢語句中謂詞的數(shù)目等。

該多項式邏輯回歸模型是在進(jìn)行翻譯質(zhì)量評價之前通過諸如SAS、SPSS等訓(xùn)練方法預(yù)先訓(xùn)練得到。模型訓(xùn)練是數(shù)理統(tǒng)計中的常用技術(shù)手段,此處不再詳細(xì)描述。值得說明的是,在采用訓(xùn)練集中的各個目標(biāo)語言查詢語句對模型進(jìn)行訓(xùn)練時,可以基于各種規(guī)則對該各個目標(biāo)語言查詢語句手動進(jìn)行打分。例如,可以根據(jù)采用訓(xùn)練集中的各個目標(biāo)語言查詢語句在跨語言問答系統(tǒng)中查詢到的回答的正確性,手動對該各個目標(biāo)語言查詢語句打分。表1示出了一種示例性的打分規(guī)則。

表1

上述多項式邏輯回歸模型僅僅是一個可選的示例,而并非是對本公開的限制,也可以采用諸如SVC(支持向量機(jī))、非線性模型、神經(jīng)網(wǎng)絡(luò)等其他適當(dāng)?shù)哪P蛠韺δ繕?biāo)語言查詢語句的翻譯質(zhì)量進(jìn)行打分。

以上詳細(xì)描述了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價方法。本發(fā)明人已經(jīng)采用測試集對其進(jìn)行了驗證,驗證結(jié)果表明,應(yīng)用該機(jī)器翻譯評價方法對源語言查詢語句的翻譯質(zhì)量進(jìn)行評價的正確率能夠達(dá)到90%左右??梢姼鶕?jù)本發(fā)明實施例的機(jī)器翻譯評價方法能夠提供較為準(zhǔn)確的機(jī)器翻譯評價,進(jìn)而提高跨語言問答系統(tǒng)的性能。下面將對可以應(yīng)用前述的機(jī)器翻譯評價方法的、根據(jù)本公開實施例的可用于跨語言問答系統(tǒng)的機(jī)器翻譯方法進(jìn)行描述。圖2例示了根據(jù)本公開實施例的可用于跨語言問答系統(tǒng)的機(jī)器翻譯方法的流程圖。

如圖2所示,在步驟S210,接收要翻譯的第一語言的內(nèi)容,并判斷該第一語言的內(nèi)容的類型。

在跨語言問答系統(tǒng)中,待翻譯的內(nèi)容至少包括以下幾種類型:由用戶輸入的源語言的查詢語句、由問答系統(tǒng)搜索到的不同于源語言的另一語種(以下簡稱目標(biāo)語言)的查詢結(jié)果、待翻譯成源語言的目標(biāo)語言的語料庫。

如前所示,本發(fā)明人認(rèn)識到,對于不同類型的待翻譯內(nèi)容,翻譯質(zhì)量的評價標(biāo)準(zhǔn)應(yīng)當(dāng)是不盡相同的。因此,在該步驟中,判斷要翻譯的第一語言的內(nèi)容的類型,以便在后續(xù)的處理中可以選擇適合于該類型的評價標(biāo)準(zhǔn)和翻譯工具。

在步驟S220,基于所確定的類型選擇適合于該類型的多個翻譯引擎。

統(tǒng)計發(fā)現(xiàn),沒有一種翻譯引擎是明顯優(yōu)于其他翻譯引擎的,也沒有一種翻譯方法是明顯優(yōu)于其他翻譯方法的。因此,在該步驟中,針對所確定的第一語言的內(nèi)容的類型,選擇適合于該類型的多個翻譯引擎。其中,所述適合于該類型的多個翻譯引擎是預(yù)先確定好的。更明確的說,預(yù)先利用諸如google、bing、baidu等各種翻譯引擎對大量該類型的第一語言的內(nèi)容進(jìn)行翻譯,并通過現(xiàn)有的各種評價模型或人工評價等方式對各翻譯引擎的翻譯結(jié)果進(jìn)行評價(離線評價),從而確定具有較好的翻譯質(zhì)量的若干引擎為適合于該類型的翻譯引擎。

在步驟S230,利用所述多個翻譯引擎分別對所述第一語言的內(nèi)容進(jìn)行翻譯,得到多個第二語言的候選翻譯。

在步驟S240,對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分,并選擇得分最高的候選翻譯作為所述第一語言的內(nèi)容的翻譯。

在該步驟中可以采用任何適當(dāng)?shù)姆g質(zhì)量評價方法對在步驟S230中得到的每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分(在線評價),本實施例中對此并沒有限制。

可選的,當(dāng)所述第一語言的內(nèi)容的類型是查詢語句時,可以采用上文中結(jié)合圖1描述的根據(jù)本公開實施例的機(jī)器翻譯評價方法對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分。具體的,對于一個待評價的第二語言的候選翻譯,可以對第一語言的內(nèi)容和該第二語言的候選翻譯分別進(jìn)行語義角色標(biāo)注;然后計算第一語言的內(nèi)容中每個被標(biāo)注的論元與該第二語言的候選翻譯中每個被標(biāo)注的論元的對齊概率;最后基于所計算的各個對齊概率,對該第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分。上述處理的具體操作與上文中結(jié)合圖1描述的各步驟的操作相同,此處不再贅述。

以上詳細(xì)描述了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯方法。根據(jù)該實施例,對于不同類型的待翻譯內(nèi)容選用通過離線評價預(yù)先確定的適合于該類型的翻譯引擎,并且對于每種類型的翻譯內(nèi)容采用多個翻譯引擎進(jìn)行翻譯,并通過在線評價選擇打分最高的候選翻譯作為最終翻譯,從而保證了對于各種類型的待翻譯內(nèi)容都能提供較好的翻譯結(jié)果。

下面,將參照圖3來描述根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備。圖3示出了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備的功能配置框圖。如圖3所示,機(jī)器翻譯評價設(shè)備300可以包括:標(biāo)注部件310,對齊部件320和評價部件330。所述各部件的具體功能和操作與上文中針對圖1描述的基本相同,因此為了避免重復(fù),在下文中僅對所述設(shè)備進(jìn)行簡要的描述,而省略對相同細(xì)節(jié)的詳細(xì)描述。

標(biāo)注部件310配置為對于源語言查詢語句和通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句分別進(jìn)行語義角色標(biāo)注。具體的,標(biāo)注部件310可以采用任何已知的語義角色標(biāo)注方法對于源語言的查詢語句進(jìn)行語義角色標(biāo)注,并對通過機(jī)器翻譯得到的對應(yīng)的目標(biāo)語言查詢語句(即待評價翻譯質(zhì)量的候選翻譯)進(jìn)行語義角色標(biāo)注,此處不再詳細(xì)描述。

對齊部件320配置為計算源語言查詢語句中每個被標(biāo)注的論元與目標(biāo)語言查詢語句中每個被標(biāo)注的論元的對齊概率。具體的,對齊部件320對于源 語言查詢語句中的每個論元,計算其與目標(biāo)語言查詢語句中的每個論元的對齊概率,以期由此獲知這兩個語句之間的論元對齊關(guān)系,進(jìn)而評價目標(biāo)語言查詢語句的翻譯質(zhì)量。

對齊部件320可以采用各種適當(dāng)?shù)姆绞絹碛嬎闼稣撛獙R概率。作為一種可選的方式,在計算源語言查詢語句中的一個論元和目標(biāo)語言查詢語句中的一個論元的論元對齊概率時,可以對這兩個論元進(jìn)行詞對齊,并根據(jù)詞對齊結(jié)果確定這兩個論元的對齊概率。其中,兩個論元之間對齊的詞越多,則這兩個論元的對齊概率越大。作為另一種可選的方式,對于源語言查詢語句中的一個論元和目標(biāo)語言查詢語句中的一個論元,可以基于這兩個論元的中心詞的詞對齊結(jié)果以及這兩個論元之間的距離,確定這兩個論元的對齊概率。具體的,可以根據(jù)具體情況為中心詞對齊結(jié)果和論元之間的距離分別設(shè)定適當(dāng)?shù)臋?quán)重,并計算兩者的加權(quán)和以確定兩個論元的對齊概率。

評價部件330配置為基于所計算的各個對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。評價部件330可以以各種方式利用由對齊部件320計算出的各個論元對齊概率,從而確定目標(biāo)語言查詢語句的翻譯質(zhì)量。

可選的,評價部件330可以基于所計算的各個對齊概率中的最大對齊概率,確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。其中,最大對齊概率越大,則目標(biāo)語言查詢語句的翻譯質(zhì)量越好。

可選的,評價部件330可以基于所計算的各個對齊概率的平均對齊概率及最大對齊概率來確定所述目標(biāo)語言查詢語句的翻譯質(zhì)量。此外,評價部件330還可以進(jìn)一步結(jié)合源語言查詢語句的長度、目標(biāo)語言查詢語句的長度、目標(biāo)語言查詢語句中謂詞的數(shù)目等其他相關(guān)的影響因素來確定目標(biāo)語言查詢語句的翻譯質(zhì)量。作為一個具體示例,評價部件330可以為上述各個影響因素分別設(shè)定適當(dāng)?shù)臋?quán)重,并通過計算各個影響因素的加權(quán)和來確定目標(biāo)語言查詢語句的翻譯質(zhì)量。

可選的,評價部件330也可以采用至少包括最大對齊概率在內(nèi)的上述各個影響因素、通過建立數(shù)學(xué)模型來確定目標(biāo)語言查詢語句的翻譯質(zhì)量。例如,可以采用前文中提到的表達(dá)式(1),利用預(yù)先訓(xùn)練好的多項式邏輯回歸模型,對目標(biāo)語言查詢語句的翻譯質(zhì)量打分,以對翻譯質(zhì)量做出評價。

該多項式邏輯回歸模型是在進(jìn)行翻譯質(zhì)量的評價之前通過諸如SAS、SPSS等訓(xùn)練方法預(yù)先訓(xùn)練得到。其中,在采用訓(xùn)練集中的各個目標(biāo)語言查詢 語句對模型進(jìn)行訓(xùn)練時,可以基于各種規(guī)則對該各個目標(biāo)語言查詢語句手動進(jìn)行打分。例如,可以根據(jù)采用訓(xùn)練集中的各個目標(biāo)語言查詢語句在跨語言問答系統(tǒng)中查詢到的回答的正確性,手動對該各個目標(biāo)語言查詢語句打分。

上述多項式邏輯回歸模型僅僅是一個可選的示例,而并非是對本公開的限制,也可以采用諸如SVC(支持向量機(jī))、非線性模型、神經(jīng)網(wǎng)絡(luò)等其他適當(dāng)?shù)哪P蛠韺δ繕?biāo)語言查詢語句的翻譯質(zhì)量進(jìn)行打分。

以上詳細(xì)描述了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備,該設(shè)備能夠提供較為準(zhǔn)確的機(jī)器翻譯評價,進(jìn)而提高跨語言問答系統(tǒng)的性能。

下面,參照圖4來描述根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯設(shè)備。圖4示出了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯設(shè)備的功能配置框圖。如圖4所示,機(jī)器翻譯評價設(shè)備400可以包括:判斷部件410,選擇部件420,翻譯部件430和確定部件440。所述各部件的具體功能和操作與上文中針對圖2和圖3描述的基本相同,因此為了避免重復(fù),在下文中僅對所述設(shè)備進(jìn)行簡要的描述,而省略對相同細(xì)節(jié)的詳細(xì)描述。

判斷部件410配置為接收要翻譯的第一語言的內(nèi)容,并判斷該第一語言的內(nèi)容的類型。如前所述,在跨語言問答系統(tǒng)中,待翻譯的內(nèi)容至少包括以下幾種類型:由用戶輸入的源語言的查詢語句、由問答系統(tǒng)搜索到的不同于源語言的另一語種(以下簡稱目標(biāo)語言)的查詢結(jié)果、待翻譯成源語言的目標(biāo)語言的語料庫。對于不同類型的待翻譯內(nèi)容,翻譯質(zhì)量的評價標(biāo)準(zhǔn)應(yīng)當(dāng)是不盡相同的。因此判斷部件410判斷要翻譯的第一語言的內(nèi)容的類型,以便在后續(xù)的處理中可以選擇適合于該類型的評價標(biāo)準(zhǔn)和翻譯工具。

選擇部件420配置為基于所確定的類型選擇適合于該類型的多個翻譯引擎。統(tǒng)計發(fā)現(xiàn),沒有一種翻譯引擎是明顯優(yōu)于其他翻譯引擎的,也沒有一種翻譯方法是明顯優(yōu)于其他翻譯方法的。因此,選擇部件420針對所確定的第一語言的內(nèi)容的類型,選擇適合于該類型的多個翻譯引擎。其中,所述適合于該類型的多個翻譯引擎是預(yù)先確定好的。更明確的說,預(yù)先利用各種翻譯引擎對大量該類型的第一語言的內(nèi)容進(jìn)行翻譯,并通過現(xiàn)有的各種評價模型或人工評價等方式對各翻譯引擎的翻譯結(jié)果進(jìn)行評價(離線評價),從而確定具有較好的翻譯質(zhì)量的若干引擎為適合于該類型的翻譯引擎。

翻譯部件430配置為利用所述多個翻譯引擎分別對所述第一語言的內(nèi)容 進(jìn)行翻譯,得到多個第二語言的候選翻譯。

確定部件440配置為對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分,并選擇得分最高的候選翻譯作為所述第一語言的內(nèi)容的翻譯。確定部件440可以采用任何適當(dāng)?shù)姆g質(zhì)量評價方法對通過翻譯部件430得到的每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分(在線評價),本實施例中對此并沒有限制。

可選的,當(dāng)所述第一語言的內(nèi)容的類型是查詢語句時,確定部件440可以采用上文中結(jié)合圖3描述的機(jī)器翻譯評價設(shè)備,以對每個第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分。具體的,確定部件440可以包括標(biāo)注單元,用于對第一語言的內(nèi)容和一個第二語言的候選翻譯分別進(jìn)行語義角色標(biāo)注;對齊單元,用于計算第一語言的內(nèi)容中每個被標(biāo)注的論元與該第二語言的候選翻譯中每個被標(biāo)注的論元的對齊概率;評價單元,基于所計算的各個對齊概率,對該第二語言的候選翻譯的翻譯質(zhì)量進(jìn)行打分。該確定部件440中各單元的功能和具體操作與上文中結(jié)合圖3描述的機(jī)器翻譯評價設(shè)備相同,此處不再贅述。

以上詳細(xì)描述了根據(jù)本公開實施例的用于跨語言問答系統(tǒng)的機(jī)器翻譯設(shè)備。根據(jù)該實施例,對于不同類型的待翻譯內(nèi)容選用通過離線評價預(yù)先確定的適合于該類型的翻譯引擎,并且對于每種類型的翻譯內(nèi)容采用多個翻譯引擎進(jìn)行翻譯,并通過在線評價選擇打分最高的候選翻譯作為最終翻譯,從而保證了對于各種類型的待翻譯內(nèi)容都能提供較好的翻譯結(jié)果。

下面,參照圖5來描述可用于實現(xiàn)本公開實施例的、用于跨語言問答系統(tǒng)的機(jī)器翻譯評價設(shè)備和機(jī)器翻譯設(shè)備的計算設(shè)備的示意性框圖。

如圖5所示,計算設(shè)備500包括一個或多個處理器502、存儲裝置504、輸入裝置506和輸出裝置508,這些組件通過總線系統(tǒng)510和/或其它形式的連接機(jī)構(gòu)(未示出)互連。應(yīng)當(dāng)注意,圖5所示的計算設(shè)備500的組件和結(jié)構(gòu)只是示例性的,而非限制性的,根據(jù)需要,計算設(shè)備500也可以具有其他組件和結(jié)構(gòu)。

處理器502可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制計算設(shè)備500中的其它組件以執(zhí)行期望的功能。

存儲裝置504可以包括一個或多個計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn) 品可以包括各種形式的計算機(jī)可讀存儲介質(zhì),例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機(jī)存取存儲器(RAM)和/或高速緩沖存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(ROM)、硬盤、閃存等。在所述計算機(jī)可讀存儲介質(zhì)上可以存儲一個或多個計算機(jī)程序指令,處理器502可以運行所述程序指令,以實現(xiàn)上文所述的本公開的實施例的功能以及/或者其它期望的功能。在所述計算機(jī)可讀存儲介質(zhì)中還可以存儲各種應(yīng)用程序和各種數(shù)據(jù),例如上文中提到的源語言查詢語句、翻譯得到的目標(biāo)語言查詢語句、各論元的語義角色、兩個論元中的詞對齊結(jié)果、各論元的對齊概率、目標(biāo)語言查詢語句的打分等等。

輸入裝置506用于接收來自用戶的輸入信息,例如源語言查詢、要翻譯的第一語言的內(nèi)容等,其可以包括諸如有線/無線網(wǎng)卡、鍵盤、鼠標(biāo)、觸摸屏、麥克風(fēng)等各種輸入設(shè)備。

輸出裝置508可以向外部輸出各種信息,例如目標(biāo)語言查詢語句的翻譯質(zhì)量、第一語言的內(nèi)容的第二語言的翻譯,并且可以包括諸如有線/無線網(wǎng)卡、顯示器、投影儀、電視等各種顯示設(shè)備。

以上結(jié)合具體實施例描述了本公開的基本原理,但是,需要指出的是,在本公開中提及的優(yōu)點、優(yōu)勢、效果等僅是示例而非限制,不能認(rèn)為這些優(yōu)點、優(yōu)勢、效果等是本公開的各個實施例必須具備的。另外,上述公開的具體細(xì)節(jié)僅是為了示例的作用和便于理解的作用,而非限制,上述細(xì)節(jié)并不限制本公開為必須采用上述具體的細(xì)節(jié)來實現(xiàn)。

本公開中涉及的器件、裝置、設(shè)備、系統(tǒng)的方框圖僅作為例示性的例子并且不意圖要求或暗示必須按照方框圖示出的方式進(jìn)行連接、布置、配置。如本領(lǐng)域技術(shù)人員將認(rèn)識到的,可以按任意方式連接、布置、配置這些器件、裝置、設(shè)備、系統(tǒng)。諸如“包括”、“包含”、“具有”等等的詞語是開放性詞匯,指“包括但不限于”,且可與其互換使用。這里所使用的詞匯“或”和“和”指詞匯“和/或”,且可與其互換使用,除非上下文明確指示不是如此。這里所使用的詞匯“諸如”指詞組“諸如但不限于”,且可與其互換使用。

另外,如在此使用的,在以“至少一個”開始的項的列舉中使用的“或”指示分離的列舉,以便例如“A、B或C的至少一個”的列舉意味著A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辭“示例的”不意味著描述的例子是優(yōu)選的或者比其他例子更好。

還需要指出的是,在本公開的系統(tǒng)和方法中,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)視為本公開的等效方案。

可以不脫離由所附權(quán)利要求定義的教導(dǎo)的技術(shù)而進(jìn)行對在此所述的技術(shù)的各種改變、替換和更改。此外,本公開的權(quán)利要求的范圍不限于以上所述的處理、機(jī)器、制造、事件的組成、手段、方法和動作的具體方面。可以利用與在此所述的相應(yīng)方面進(jìn)行基本相同的功能或者實現(xiàn)基本相同的結(jié)果的當(dāng)前存在的或者稍后要開發(fā)的處理、機(jī)器、制造、事件的組成、手段、方法或動作。因而,所附權(quán)利要求包括在其范圍內(nèi)的這樣的處理、機(jī)器、制造、事件的組成、手段、方法或動作。

提供所公開的方面的以上描述以使本領(lǐng)域的任何技術(shù)人員能夠做出或者使用本公開。對這些方面的各種修改對于本領(lǐng)域技術(shù)人員而言是非常顯而易見的,并且在此定義的一般原理可以應(yīng)用于其他方面而不脫離本公開的范圍。因此,本公開不意圖被限制到在此示出的方面,而是按照與在此公開的原理和新穎的特征一致的最寬范圍。

為了例示和描述的目的已經(jīng)給出了以上描述。此外,此描述不意圖將本公開的實施例限制到在此公開的形式。盡管以上已經(jīng)討論了多個示例方面和實施例,但是本領(lǐng)域技術(shù)人員將認(rèn)識到其某些變型、修改、改變、添加和子組合。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
沅陵县| 新沂市| 奉新县| 思南县| 彰化市| 安阳市| 弋阳县| 什邡市| 普格县| 岳池县| 呼和浩特市| 凤台县| 洞头县| 额敏县| 莒南县| 贵德县| 崇文区| 海门市| 洪洞县| 大安市| 彰化县| 富阳市| 松溪县| 乌什县| 抚松县| 南京市| 黔江区| 铁岭市| 兴山县| 马鞍山市| 潜江市| 麻城市| 沂源县| 潢川县| 四平市| 呼图壁县| 阿荣旗| 天水市| 万源市| 马尔康县| 如东县|