欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

機(jī)器翻譯設(shè)備、方法和系統(tǒng)的制作方法

文檔序號(hào):6466590閱讀:167來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):機(jī)器翻譯設(shè)備、方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種設(shè)備、方法和系統(tǒng),其從客戶(hù)端終端接收翻譯請(qǐng)求, 在服務(wù)器端進(jìn)行從作為輸入語(yǔ)句語(yǔ)言的第一語(yǔ)言到作為輸出語(yǔ)句語(yǔ)言的第 二語(yǔ)言的翻譯處理,并向作為請(qǐng)求源的客戶(hù)端發(fā)送翻譯結(jié)果。
背景技術(shù)
公知的機(jī)器翻譯系統(tǒng)包括多個(gè)供請(qǐng)求翻譯的用戶(hù)使用的客戶(hù)端、以及 提供機(jī)器翻譯功能的機(jī)器翻譯服務(wù)器。這些機(jī)器翻譯系統(tǒng)利用雙語(yǔ)詞條信 息或文檔領(lǐng)域信息進(jìn)行翻譯,其中雙語(yǔ)詞條信息是翻譯期間用戶(hù)指定的源 語(yǔ)言形式的單詞和單詞翻譯的組合。這種機(jī)器翻譯系統(tǒng)通過(guò)利用用戶(hù)在雙 語(yǔ)詞條信息中表示的翻譯或利用根據(jù)指定的文檔領(lǐng)域信息確定的翻譯辭 典,可以提供高質(zhì)量的機(jī)器翻譯。
例如,JP-A 2003-223442(特開(kāi))提出了一種針對(duì)每個(gè)領(lǐng)域?qū)W習(xí)用戶(hù)指 定的雙語(yǔ)詞條信息并在翻譯期間利用所學(xué)雙語(yǔ)詞條信息的技術(shù)。JP-A 2003-296327 (特開(kāi))提出了一種利用用戶(hù)提供的領(lǐng)域信息確定要使用的辭 典的技術(shù)。
JP-A 2003-223442或2003-296327 (特開(kāi))中描述的技術(shù)在待翻譯的文 檔處于一個(gè)領(lǐng)域中的情況下是有效的。當(dāng)一個(gè)文檔包括與多個(gè)領(lǐng)域相關(guān)的 語(yǔ)句(例如新聞稿)時(shí),翻譯質(zhì)量可能會(huì)下降。
在這些技術(shù)中,在翻譯期間必需要明確給出領(lǐng)域。翻譯質(zhì)量隨著領(lǐng)域 的顆粒度而變化。例如,當(dāng)設(shè)置了 "體育"領(lǐng)域時(shí),單詞的翻譯可能會(huì)隨 著運(yùn)動(dòng)類(lèi)型(例如"棒球"和"足球")而變化。在這種情況下,在選擇譯 文時(shí)會(huì)產(chǎn)生歧義(ambiguity)。
在根據(jù)運(yùn)動(dòng)類(lèi)型(例如"棒球"或"足球")設(shè)置細(xì)分的領(lǐng)域時(shí),幾乎 不會(huì)產(chǎn)生歧義。然而,當(dāng)有多種運(yùn)動(dòng)中通用的翻譯時(shí),因?yàn)樗付ǖ念I(lǐng)域 太細(xì)而不能參考通用翻譯,這可能會(huì)使翻譯質(zhì)量下降。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面, 一種機(jī)器翻譯設(shè)備包括辭典存儲(chǔ)單元,其 用于存儲(chǔ)雙語(yǔ)詞條信息和標(biāo)識(shí)信息,在所述雙語(yǔ)詞條信息中使第一語(yǔ)言形 式的第一單詞和第二語(yǔ)言形式的第二單詞彼此相關(guān)聯(lián),所述標(biāo)識(shí)信息標(biāo)識(shí) 所述雙語(yǔ)詞條信息;源語(yǔ)句存儲(chǔ)單元,其用于存儲(chǔ)彼此相關(guān)聯(lián)的所述第一 語(yǔ)言形式的源語(yǔ)句和用于翻譯所述源語(yǔ)句的所述雙語(yǔ)詞條信息的標(biāo)識(shí)信 息;接收單元,其用于接收包括所述第一語(yǔ)言形式的輸入語(yǔ)句的翻譯請(qǐng)求; 源語(yǔ)句獲得單元,其用于計(jì)算所述輸入語(yǔ)句和所述源語(yǔ)句之間的相似度, 并從所述源語(yǔ)句存儲(chǔ)單元獲得所述相似度高于預(yù)定閾值的所述源語(yǔ)句;雙 語(yǔ)詞條信息獲得單元,其用于從所述辭典存儲(chǔ)單元獲得所述標(biāo)識(shí)信息對(duì)應(yīng) 于由所述源語(yǔ)句獲得單元獲得的所述源語(yǔ)句的所述雙語(yǔ)詞條信息;以及翻 譯單元,其用于判斷由所述雙語(yǔ)詞條信息獲得單元獲得的所述雙語(yǔ)詞條信
息中的所述第一單詞是否包括在所述輸入語(yǔ)句中,并且在所述第一單詞包 括在所述輸入語(yǔ)句中時(shí),將在所述輸入語(yǔ)句中包括的所述第一單詞翻譯成 所述雙語(yǔ)詞條信息中的所述第二單詞。
根據(jù)本發(fā)明的另一個(gè)方面,機(jī)器翻譯方法包括接收包括第一語(yǔ)言形式 的輸入語(yǔ)句的翻譯請(qǐng)求;計(jì)算所述輸入語(yǔ)句和所述第一語(yǔ)言形式的源語(yǔ)句 之間的相似度;從源語(yǔ)句存儲(chǔ)單元獲得所述相似度高于預(yù)定閾值的所述源 語(yǔ)句,并使所述第一語(yǔ)言形式的第一單詞與第二語(yǔ)言形式的第二單詞彼此 相關(guān)聯(lián),其中所述源語(yǔ)句存儲(chǔ)單元用于存儲(chǔ)所述源語(yǔ)句和雙語(yǔ)詞條信息的 標(biāo)識(shí)信息,所述雙語(yǔ)詞條信息用于翻譯所述源語(yǔ)句;從用于存儲(chǔ)所述雙語(yǔ) 詞條信息和所述標(biāo)識(shí)信息的辭典存儲(chǔ)單元獲得所述標(biāo)識(shí)信息對(duì)應(yīng)于所獲得 的源語(yǔ)句的所述雙語(yǔ)詞條信息;判斷所獲得的雙語(yǔ)詞條信息中的所述第一 單詞是否包括在所述輸入語(yǔ)句中;以及當(dāng)所述第一單詞包括在所述輸入語(yǔ) 句中時(shí),將在所述輸入語(yǔ)句中包括的所述第一單詞翻譯成所述雙語(yǔ)詞條信 息中的所述第二單詞。
根據(jù)本發(fā)明的又一方面, 一種機(jī)器翻譯系統(tǒng)包括終端設(shè)備,其用于 請(qǐng)求進(jìn)行翻譯;以及機(jī)器翻譯設(shè)備,其用于經(jīng)由網(wǎng)絡(luò)連接到所述終端設(shè)備。
所述終端設(shè)備包括請(qǐng)求發(fā)送單元,其用于發(fā)送包括第一語(yǔ)言形式的
輸入語(yǔ)句的翻譯請(qǐng)求;以及結(jié)果接收單元,其用于接收翻譯結(jié)果。
所述機(jī)器翻譯設(shè)備包括辭典存儲(chǔ)單元,其用于存儲(chǔ)雙語(yǔ)詞條信息和 標(biāo)識(shí)信息,在所述雙語(yǔ)詞條信息中使所述第一語(yǔ)言形式的第一單詞和第二 語(yǔ)言形式的第二單詞彼此相關(guān)聯(lián),所述標(biāo)識(shí)信息標(biāo)識(shí)所述雙語(yǔ)詞條信息; 源語(yǔ)句存儲(chǔ)單元,其用于存儲(chǔ)彼此相關(guān)聯(lián)的所述第一語(yǔ)言形式的源語(yǔ)句和 用于翻譯所述源語(yǔ)句的所述雙語(yǔ)詞條信息的標(biāo)識(shí)信息;接收單元,其用于 接收所述翻譯請(qǐng)求,所述翻譯請(qǐng)求包括所述第一語(yǔ)言形式的輸入語(yǔ)句;源 語(yǔ)句獲得單元,其用于計(jì)算所述輸入語(yǔ)句和所述源語(yǔ)句之間的相似度,并 從所述源語(yǔ)句存儲(chǔ)單元獲得所述相似度高于預(yù)定閾值的所述源語(yǔ)句;雙語(yǔ) 詞條信息獲得單元,其用于從所述辭典存儲(chǔ)單元獲得所述標(biāo)識(shí)信息對(duì)應(yīng)于 由所述源語(yǔ)句獲得單元獲得的所述源語(yǔ)句的所述雙語(yǔ)詞條信息;翻譯單元,
其用于判斷由所述雙語(yǔ)詞條信息獲得單元獲得的所述雙語(yǔ)詞條信息中的所 述第一單詞是否包括在所述輸入語(yǔ)句中,并且在所述第一單詞包括在所述
輸入語(yǔ)句中時(shí),將在所述輸入語(yǔ)句中包括的所述第一單詞翻譯成所述雙語(yǔ)
詞條信息中的所述第二單詞;以及輸出單元,其用于向所述終端設(shè)備輸出
由所述翻譯單元翻譯的所述翻譯結(jié)果。


圖l是根據(jù)本發(fā)明第一實(shí)施例的機(jī)器翻譯系統(tǒng)的配置的方框圖; 圖2為示出了根據(jù)第一實(shí)施例的源語(yǔ)句存儲(chǔ)單元中存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)范 例的圖示;
圖3為示出了根據(jù)第一實(shí)施例的辭典存儲(chǔ)單元中存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)范例 的圖示;
圖4是根據(jù)第一實(shí)施例的機(jī)器翻譯處理的總體流程的流程圖5為示出了根據(jù)第一實(shí)施例的源語(yǔ)句存儲(chǔ)單元中存儲(chǔ)的數(shù)據(jù)的另一
種結(jié)構(gòu)范例的圖示;
圖6為示出了根據(jù)第一實(shí)施例的辭典存儲(chǔ)單元中存儲(chǔ)的數(shù)據(jù)的另一結(jié)
構(gòu)范例的圖示;
圖7是根據(jù)本發(fā)明第二實(shí)施例的機(jī)器翻譯系統(tǒng)的配置的方框圖8為示出了根據(jù)第二實(shí)施例的在源語(yǔ)句存儲(chǔ)單元中存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)
范例的圖示;
圖9是根據(jù)第二實(shí)施例的機(jī)器翻譯處理的總體流程的流程圖; 圖10為示出了根據(jù)第二實(shí)施例的在辭典存儲(chǔ)單元中存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)范 例的圖示;以及
圖11為示出了根據(jù)第一和第二實(shí)施例的機(jī)器翻譯設(shè)備的硬件配置的示意圖。
具體實(shí)施例方式
以下將參考附圖詳細(xì)描述根據(jù)本發(fā)明的設(shè)備、方法和系統(tǒng)的示范性實(shí) 施例。
根據(jù)本發(fā)明第一實(shí)施例的機(jī)器翻譯系統(tǒng)從作為終端裝置的客戶(hù)端接收 翻譯請(qǐng)求,在作為機(jī)器翻譯設(shè)備的機(jī)器翻譯服務(wù)器中執(zhí)行從作為輸入語(yǔ)句 語(yǔ)言的第一語(yǔ)言到作為輸出語(yǔ)句語(yǔ)言的第二語(yǔ)言的翻譯處理,并將翻譯結(jié) 果發(fā)送到請(qǐng)求源。此時(shí),用戶(hù)可以將第一語(yǔ)言形式的單詞和第二語(yǔ)言形式 的單詞(前述單詞的翻譯)的集合指定為雙語(yǔ)詞條信息。機(jī)器翻譯服務(wù)器在 翻譯期間使用指定的雙語(yǔ)詞條信息來(lái)獲得翻譯。
根據(jù)第一實(shí)施例的機(jī)器翻譯系統(tǒng)存儲(chǔ)由多個(gè)用戶(hù)指定的雙語(yǔ)詞條信息 和輸入語(yǔ)句(二者彼此相關(guān))。在存儲(chǔ)有與被請(qǐng)求翻譯的輸入語(yǔ)句類(lèi)似的語(yǔ) 句時(shí),機(jī)器翻譯系統(tǒng)還引用涉及到所存儲(chǔ)語(yǔ)句的雙語(yǔ)詞條信息,以高精度 翻譯輸入語(yǔ)句。
在下文中以英語(yǔ)和日語(yǔ)之間的機(jī)器翻譯為例加以描述。翻譯所使用的 語(yǔ)言不限于此??梢詫⒈景l(fā)明應(yīng)用于任何語(yǔ)言之間的機(jī)器翻譯。
如圖1所示,機(jī)器翻譯系統(tǒng)10具有這樣的配置其中,機(jī)器翻譯服務(wù)
器100和多個(gè)客戶(hù)端200a到200c通過(guò)諸如因特網(wǎng)和局域網(wǎng)(LAN)之類(lèi)的網(wǎng) 絡(luò)300連接。
客戶(hù)端200a到200c向機(jī)器翻譯服務(wù)器100發(fā)送翻譯請(qǐng)求,該翻譯請(qǐng) 求包括要翻譯的輸入語(yǔ)句和翻譯輸入語(yǔ)句期間使用的雙語(yǔ)詞條信息,并且 客戶(hù)端200a到200c從機(jī)器翻譯服務(wù)器100接收翻譯結(jié)果,由此翻譯期望 的輸入語(yǔ)句。客戶(hù)端200a到200c具有相同的配置,因此也統(tǒng)稱(chēng)為客戶(hù)端 200??蛻?hù)端200的數(shù)量不限于三個(gè)。機(jī)器翻譯服務(wù)器100響應(yīng)于來(lái)自客戶(hù)端200a到200c的翻譯請(qǐng)求進(jìn)行 機(jī)器翻譯,并將翻譯結(jié)果返回到請(qǐng)求翻譯的客戶(hù)端200a到200c之一。稍 后詳細(xì)介紹機(jī)器翻譯服務(wù)器100的功能。
下文詳細(xì)介紹客戶(hù)端200的功能。如圖1所示,客戶(hù)端200包括請(qǐng)求 發(fā)送器201和結(jié)果接收器202。
請(qǐng)求發(fā)送器201向機(jī)器翻譯服務(wù)器100發(fā)送翻譯請(qǐng)求。如上所述,翻 譯請(qǐng)求包括要翻譯的輸入語(yǔ)句和翻譯期間使用的雙語(yǔ)詞條信息。翻譯請(qǐng)求 還包括能夠標(biāo)識(shí)用戶(hù)的標(biāo)識(shí)信息,例如請(qǐng)求翻譯的用戶(hù)名稱(chēng)。使用標(biāo)識(shí)信 息來(lái)標(biāo)識(shí)發(fā)送翻譯請(qǐng)求的用戶(hù)。用戶(hù)可以不指定雙語(yǔ)詞條信息而請(qǐng)求翻譯。 在這種情況下,在翻譯請(qǐng)求中設(shè)置雙語(yǔ)詞條信息之外的信息。
結(jié)果接收器202接收機(jī)器翻譯服務(wù)器100獲得的翻譯結(jié)果,機(jī)器翻譯 服務(wù)器100響應(yīng)于翻譯請(qǐng)求來(lái)翻譯輸入語(yǔ)句。
客戶(hù)端200可以根據(jù)一種應(yīng)用(未示出)來(lái)執(zhí)行翻譯請(qǐng)求的發(fā)送和翻譯 結(jié)果的接收,該應(yīng)用具有指定要翻譯的輸入語(yǔ)句或要使用的雙語(yǔ)詞條信息 的功能以及顯示翻譯結(jié)果的功能。
下面詳細(xì)介紹機(jī)器翻譯服務(wù)器100的功能。如圖1所示,機(jī)器翻譯服 務(wù)器100包括源語(yǔ)句存儲(chǔ)單元121、辭典存儲(chǔ)單元122、接收單元IOI、源 語(yǔ)句獲得單元102、雙語(yǔ)詞條信息獲得單元103、翻譯單元104、存儲(chǔ)單元 105和輸出單元106。
源語(yǔ)句存儲(chǔ)單元121存儲(chǔ)先前發(fā)出過(guò)翻譯請(qǐng)求的輸入語(yǔ)句,從而可以 參考先前翻譯輸入語(yǔ)句時(shí)使用的雙語(yǔ)詞條信息。也將源語(yǔ)句存儲(chǔ)單元121 中存儲(chǔ)的先前輸入語(yǔ)句稱(chēng)為源語(yǔ)句信息。
如圖2所示,源語(yǔ)句存儲(chǔ)單元121存儲(chǔ)彼此相關(guān)聯(lián)的組成(component) 單詞索引、源語(yǔ)句信息和雙語(yǔ)詞條信息ID數(shù)據(jù)。組成單詞索引用于有效地 檢索源語(yǔ)句信息。
根據(jù)第一實(shí)施例,采用這樣的組成單詞索引,其列出了對(duì)源語(yǔ)句信息 進(jìn)行語(yǔ)形學(xué)分析而獲得的單詞。當(dāng)要檢索類(lèi)似于輸入語(yǔ)句的源語(yǔ)句信息時(shí), 僅把利用組成單詞索引檢索的源語(yǔ)句信息作為目標(biāo),這樣就不需要以所有 源語(yǔ)句信息為目標(biāo),提高了檢索處理的效率。
雙語(yǔ)詞條信息ID是用于標(biāo)識(shí)請(qǐng)求翻譯源語(yǔ)句信息時(shí)指定的雙語(yǔ)詞條信
息的標(biāo)識(shí)信息。
返回到圖l,辭典存儲(chǔ)單元122存儲(chǔ)雙語(yǔ)詞條信息,雙語(yǔ)詞條信息是第 一語(yǔ)言形式的單詞和該單詞的第二語(yǔ)言形式的翻譯的集合,是在指定請(qǐng)求 翻譯的輸入語(yǔ)句的同時(shí)指定的。
如圖3所示,辭典存儲(chǔ)單元122存儲(chǔ)彼此相關(guān)聯(lián)的用戶(hù)名、雙語(yǔ)詞條 信息和雙語(yǔ)詞條信息ID數(shù)據(jù)。用戶(hù)名是請(qǐng)求翻譯的用戶(hù)的名稱(chēng)。將雙語(yǔ)詞 條信息是"第一語(yǔ)言單詞二第二語(yǔ)言翻譯"的形式的組。在指定多組第一語(yǔ) 言形式的單詞和第二語(yǔ)言形式的翻譯時(shí),在雙語(yǔ)詞條信息中設(shè)置該多個(gè)組。 在圖3中,將兩個(gè)集合"Ew4=Jw4"和"Ew5=Jw5"指定為用戶(hù)名UserA的 雙語(yǔ)詞條信息。
使用雙語(yǔ)詞條信息ID來(lái)標(biāo)識(shí)如上所述的雙語(yǔ)詞條信息。使用雙語(yǔ)詞條 信息ID來(lái)關(guān)聯(lián)源語(yǔ)句存儲(chǔ)單元121中存儲(chǔ)的源語(yǔ)句信息和辭典存儲(chǔ)單元 122中存儲(chǔ)的雙語(yǔ)詞條信息。亦即,在利用與源語(yǔ)句存儲(chǔ)單元121中的某源 語(yǔ)句信息相對(duì)應(yīng)的雙語(yǔ)詞條信息ID在辭典存儲(chǔ)單元122中搜索時(shí),能夠獲 得發(fā)出源語(yǔ)句信息翻譯請(qǐng)求時(shí)指定的雙語(yǔ)詞條信息。
可以利用任何通用存儲(chǔ)介質(zhì),例如硬盤(pán)驅(qū)動(dòng)器(HDD)、光盤(pán)、存儲(chǔ)卡和 隨機(jī)存取存儲(chǔ)器(RAM)來(lái)構(gòu)造源語(yǔ)句存儲(chǔ)單元121和辭典存儲(chǔ)單元122。
源語(yǔ)句信息和雙語(yǔ)詞條信息的存儲(chǔ)方法不限于上文提到的那些??梢?采用任何能夠標(biāo)識(shí)在請(qǐng)求翻譯任何源語(yǔ)句時(shí)指定的雙語(yǔ)詞條信息的存儲(chǔ)方 法。 '
返回到圖1,接收單元101接收從客戶(hù)端200發(fā)送的翻譯請(qǐng)求。
源語(yǔ)句獲得單元102計(jì)算輸入語(yǔ)句和源語(yǔ)句存儲(chǔ)單元121中存儲(chǔ)的源 語(yǔ)句信息之間的相似度,以獲得相似度高于預(yù)定閾值的源語(yǔ)句信息。具體 而言,源語(yǔ)句獲得單元102執(zhí)行語(yǔ)形學(xué)分析以將輸入語(yǔ)句分成單詞。源語(yǔ) 句獲得單元102從源語(yǔ)句存儲(chǔ)單元121獲得包括組成單詞索引中的所劃分 的每個(gè)單詞的源語(yǔ)句信息。
源語(yǔ)句獲得單元102計(jì)算所獲得的每條源語(yǔ)句信息和輸入語(yǔ)句之間的 相似度。源語(yǔ)句獲得單元102基于源語(yǔ)句信息和輸入語(yǔ)句之間的編輯距離 計(jì)算相似度。亦即,源語(yǔ)句獲得單元102為與輸入語(yǔ)句之間的編輯距離更 小的源語(yǔ)句信息指定比與輸入語(yǔ)句的編輯距離更大的源語(yǔ)句信息更高的相
似度。相似度計(jì)算方法不限于此??梢圆捎萌魏文軌蛴?jì)算語(yǔ)句間相似程度 的方法。
雙語(yǔ)詞條信息獲得單元103利用對(duì)應(yīng)于源語(yǔ)句獲得單元102獲得的源 語(yǔ)句信息的雙語(yǔ)詞條信息ID作為搜索關(guān)鍵字從辭典存儲(chǔ)單元122中獲得雙 語(yǔ)詞條信息。
源語(yǔ)句獲得單元102和雙語(yǔ)詞條信息獲得單元103使得能夠獲得類(lèi)似 于輸入語(yǔ)句的源語(yǔ)句信息以及在翻譯源語(yǔ)句期間使用的雙語(yǔ)詞條信息。
翻譯單元104翻譯請(qǐng)求翻譯的輸入語(yǔ)句。翻譯單元104使用的翻譯方 法可以是變換(tmnsfer)法或中間語(yǔ)言法,變換法是在諸如分析、轉(zhuǎn)移和 生成的處理步驟配置的。亦即,可以使用任何通用的翻譯方法,只要該方 法利用雙語(yǔ)詞條信息指定的翻譯進(jìn)行翻譯即可。
翻譯單元104通過(guò)參考各種翻譯辭典(例如用戶(hù)定制辭典、術(shù)語(yǔ)辭典和 翻譯規(guī)則辭典(未示出))來(lái)翻譯輸入語(yǔ)句。翻譯單元104具有向/從/在用戶(hù) 定制辭典中寄存/刪除/修訂其他信息的功能,所述其他信息例如為源單詞、 翻譯以及用戶(hù)指定的條件。
翻譯單元104通過(guò)使用用戶(hù)在翻譯請(qǐng)求中指定的雙語(yǔ)詞條信息來(lái)翻譯 輸入語(yǔ)句。亦即,相對(duì)于從翻譯辭典獲得的翻譯,翻譯單元104優(yōu)先使用 雙語(yǔ)詞條信息中指定的翻譯來(lái)翻譯輸入語(yǔ)句。翻譯單元104判斷雙語(yǔ)詞條 信息獲得單元103是否獲得了雙語(yǔ)詞條信息。在獲得了雙語(yǔ)詞條信息時(shí), 翻譯單元104利用所獲得的雙語(yǔ)詞條信息以及用戶(hù)在翻譯請(qǐng)求中指定的雙 語(yǔ)詞條信息翻譯輸入語(yǔ)句。當(dāng)未在翻譯請(qǐng)求中指定雙語(yǔ)詞條信息時(shí),翻譯 單元104僅利用雙語(yǔ)詞條信息獲得單元103獲得的雙語(yǔ)詞條信息翻譯輸入 語(yǔ)句。當(dāng)在翻譯請(qǐng)求中沒(méi)有指定雙語(yǔ)詞條信息且雙語(yǔ)詞條信息獲得單元103 沒(méi)有獲得雙語(yǔ)詞條信息時(shí),翻譯單元104僅參考如上所述的翻譯辭典而不 利用雙語(yǔ)詞條信息來(lái)翻譯輸入語(yǔ)句。
存儲(chǔ)單元105為翻譯請(qǐng)求中包括的雙語(yǔ)詞條信息分配新的雙語(yǔ)詞條信 息ID并存儲(chǔ)在辭典存儲(chǔ)單元122中。存儲(chǔ)單元105使所存儲(chǔ)的雙語(yǔ)詞條信 息的雙語(yǔ)詞條信息ID與要存儲(chǔ)在源語(yǔ)句存儲(chǔ)單元121中的請(qǐng)求翻譯的輸入 語(yǔ)句相關(guān)聯(lián)。
輸出單元106向客戶(hù)端200輸出翻譯單元104獲得的輸入語(yǔ)句的翻譯 結(jié)果。
參考圖4介紹根據(jù)第一實(shí)施例的機(jī)器翻譯服務(wù)器100進(jìn)行的機(jī)器翻譯 處理。
接收單元101從客戶(hù)端200接收包括輸入語(yǔ)句和雙語(yǔ)詞條信息的翻譯 請(qǐng)求(步驟S401)。源語(yǔ)句獲得單元102計(jì)算輸入語(yǔ)句和源語(yǔ)句存儲(chǔ)單元121 中存儲(chǔ)的源語(yǔ)句信息之間的相似度(步驟S402)。
具體而言,源語(yǔ)句獲得單元102從源語(yǔ)句存儲(chǔ)單元121獲得源語(yǔ)句信 息,該源語(yǔ)句信息具有的組成單詞索引包括對(duì)輸入語(yǔ)句進(jìn)行語(yǔ)形學(xué)分析獲 得的每個(gè)單詞。源語(yǔ)句獲得單元102計(jì)算源語(yǔ)句信息和輸入語(yǔ)句之間的相 似度,使得所獲得的源語(yǔ)句信息和輸入語(yǔ)句之間的編輯距離較小時(shí),相似 度較高。
源語(yǔ)句獲得單元102比較相似度和預(yù)定閾值,獲得相似度高于閾值的 源語(yǔ)句信息(步驟S403)。源語(yǔ)句獲得單元102可以用于在相似度高于閾值 的源語(yǔ)句信息中獲得預(yù)定條數(shù)的具有較高相似度的源語(yǔ)句信息。源語(yǔ)句獲 得單元102可以用于僅獲得相似度高于閾值以及具有最高相似度的源語(yǔ)句
雙語(yǔ)詞條信息獲得單元103判斷是否獲得了源語(yǔ)句信息(步驟S404)。 在獲得源語(yǔ)句信息時(shí)(步驟S404處的"是"),雙語(yǔ)詞條信息獲得單元103 從源語(yǔ)句存儲(chǔ)單元121獲得對(duì)應(yīng)于源語(yǔ)句信息的雙語(yǔ)詞條信息ID(步驟 S405)。雙語(yǔ)詞條信息獲得單元103從辭典存儲(chǔ)單元122獲得具有對(duì)應(yīng)的雙 語(yǔ)詞條信息ID的雙語(yǔ)詞條信息(步驟S406)。
翻譯單元104判斷雙語(yǔ)詞條信息獲得單元103是否獲得了雙語(yǔ)詞條信 息(步驟S407)。在獲得了雙語(yǔ)詞條信息時(shí)(步驟S407處的"是"),翻譯單 元104利用所獲得的雙語(yǔ)詞條信息以及用戶(hù)在翻譯請(qǐng)求中指定的雙語(yǔ)詞條 信息來(lái)翻譯輸入語(yǔ)句(步驟S408)。
根據(jù)該處理,對(duì)于用戶(hù)未指定雙語(yǔ)詞條信息的單詞,利用先前翻譯類(lèi) 似語(yǔ)句時(shí)使用的雙語(yǔ)詞條信息可以獲得更恰當(dāng)?shù)姆g結(jié)果。
在未獲得雙語(yǔ)詞條信息時(shí)(步驟S407處的"否"),翻譯單元104利用 用戶(hù)在翻譯請(qǐng)求中指定的雙語(yǔ)詞條信息翻譯輸入語(yǔ)句(步驟S409)。
存儲(chǔ)單元105分別在源語(yǔ)句存儲(chǔ)單元121和辭典存儲(chǔ)單元122中存儲(chǔ)
輸入語(yǔ)句和雙語(yǔ)詞條信息(步驟S410)。具體而言,存儲(chǔ)單元105為翻譯請(qǐng) 求中包括的雙語(yǔ)詞條信息分配新的雙語(yǔ)詞條信息ID,并存儲(chǔ)在辭典存儲(chǔ)單 元122中。在步驟S402存儲(chǔ)單元105根據(jù)源語(yǔ)句獲得單元102獲得的單詞 生成組成單詞索引,并在源語(yǔ)句存儲(chǔ)單元121中存儲(chǔ)彼此相關(guān)聯(lián)的所生成 的組成單詞索引、輸入語(yǔ)句和所分配的雙語(yǔ)詞條信息ID數(shù)據(jù)。
輸出單元106向發(fā)送翻譯請(qǐng)求的客戶(hù)端200輸出翻譯單元104獲得的 輸入語(yǔ)句的翻譯結(jié)果(步驟S411),并終止機(jī)器翻譯處理。
未必一定要按照上述次序執(zhí)行這些步驟。例如,在翻譯單元104執(zhí)行 的處理中,可以與獲得相關(guān)雙語(yǔ)詞條信息的處理(步驟S402到S407)并行地 進(jìn)行除了利用雙語(yǔ)詞條信息選擇單詞翻譯的處理之外的處理??梢越粨Q在 對(duì)應(yīng)存儲(chǔ)單元中存儲(chǔ)信息(步驟S410)的處理和向客戶(hù)端200輸出翻譯結(jié)果 的處理(歩驟S411)的次序,或者可以并行執(zhí)行這些處理。
下面介紹根據(jù)第一實(shí)施例的機(jī)器翻譯處理的具體范例。在假定以下情 況下進(jìn)行介紹用戶(hù)名為User A(在下文中簡(jiǎn)稱(chēng)為User A)的用戶(hù)通過(guò)客戶(hù) 端200請(qǐng)求翻譯。User A向機(jī)器翻譯服務(wù)器100發(fā)送翻譯請(qǐng)求,該翻譯請(qǐng) 求包括要翻譯的輸入語(yǔ)句和翻譯輸入語(yǔ)句期間要采用的雙語(yǔ)詞條信息。
在此假設(shè)User A指定包括三個(gè)單詞Ewl、 Ew2和Ew3的輸入語(yǔ)句 "-----------Ew2-----Ew3——"以及雙語(yǔ)詞條信息"Ew2=Jw2"以確
定英語(yǔ)單詞Ew2的日語(yǔ)翻譯為Jw2。
符號(hào)"-"表示的部分代表在相似度確定中不重要的那些部分。要采用 的確定相似度的一些方法使用輸入語(yǔ)句中所有的字符序列,而一些方法僅 使用其中包括的部分單詞。要使用的字符序列取決于所采用的相似度確定 方法。因此,符號(hào)"-"表示的部分是什么并不重要。
機(jī)器翻譯服務(wù)器100從客戶(hù)端200接收包括輸入語(yǔ)句和雙語(yǔ)詞條信息 的翻譯請(qǐng)求(步驟S401)。在執(zhí)行通常為輸入語(yǔ)句執(zhí)行的機(jī)器翻譯處理時(shí), 源語(yǔ)句獲得單元102在源語(yǔ)句存儲(chǔ)單元121內(nèi)存儲(chǔ)的源語(yǔ)句信息中檢索與 輸入語(yǔ)句的相似度最高的源語(yǔ)句信息(步驟S403)。在這種情況下,從如圖 2所示存儲(chǔ)數(shù)據(jù)的源語(yǔ)句存儲(chǔ)單元121中檢索出包括四個(gè)單詞Ewl、 Ew2、 Ew3和Ew4的源語(yǔ)句信息"——Ewl——Ew2——Ew3——Ew4--"作為相似度 最高的源語(yǔ)句。
雙語(yǔ)詞條信息獲得單元103獲得與該源語(yǔ)句信息相關(guān)的雙語(yǔ)詞條信息 ID(步驟S405)。在圖2所示的情況下,雙語(yǔ)詞條信息獲得單元103獲得1 作為雙語(yǔ)詞條信息ID。
雙語(yǔ)詞條信息獲得單元103從如圖3所示的辭典存儲(chǔ)單元122中檢索 雙語(yǔ)詞條信息ID=1的雙語(yǔ)詞條信息(步驟S406)。在該處理中獲得了四條登 記的雙語(yǔ)詞條信息"Ewl=Jwl, "、 "Ew2=Jw2, "、 "Ew3=Jw3,"和 "Ew4=Jw4, ,,0
輸入語(yǔ)句僅包括單詞Ewl、 Ew2和Ew3, User A僅指定了與Ew2相關(guān)的 雙語(yǔ)詞條信息。因此,對(duì)于其余單詞Ewl和Ew3,翻譯單元104使用上述處 理中獲得的雙語(yǔ)詞條信息"Ewl二Jwl,"和"Ew34w3,"來(lái)翻譯輸入語(yǔ)句(步 驟S408)。
如果User A未指定雙語(yǔ)詞條信息,翻譯單元104利用三條雙語(yǔ)詞條信 息"Ewl二Jwl, "、 "Ew2二Jw2,"和"Ew3=Jw3,"來(lái)翻譯輸入語(yǔ)句。
在獲得了多條源語(yǔ)句信息時(shí),可以合并對(duì)應(yīng)的雙語(yǔ)詞條信息?;蛘?, 可以使用對(duì)應(yīng)于相似度更高的源語(yǔ)句信息的雙語(yǔ)詞條信息。
在翻譯之后,存儲(chǔ)單元105在源語(yǔ)句存儲(chǔ)單元121中存儲(chǔ)輸入語(yǔ)句的 信息,并在辭典存儲(chǔ)單元122中存儲(chǔ)用戶(hù)指定的雙語(yǔ)詞條信息(步驟S410)。 圖5示出了當(dāng)在源語(yǔ)句存儲(chǔ)單元121中登記了輸入語(yǔ)句的信息之后,圖2 的源語(yǔ)句存儲(chǔ)單元121的狀態(tài)。如圖5所示,增加了包括三個(gè)單詞(Ewl、 Ew2和Ew3)的輸入語(yǔ)句作為新的源語(yǔ)句信息。
圖6示出了當(dāng)在圖3的辭典存儲(chǔ)單元122中登記了該翻譯中指定的雙 語(yǔ)詞條信息之后圖3的辭典存儲(chǔ)單元122的狀態(tài)。如圖6所示,新增加了 雙語(yǔ)詞條信息ID=3的雙語(yǔ)詞條信息。
當(dāng)在其后請(qǐng)求進(jìn)行另一翻譯時(shí),利用更新后的源語(yǔ)句信息和雙語(yǔ)詞條 信息重復(fù)翻譯處理、存儲(chǔ)源語(yǔ)句信息的處理和存儲(chǔ)雙語(yǔ)詞條信息的處理。 亦即,客戶(hù)端200每次請(qǐng)求翻譯的時(shí)候,都升級(jí)源語(yǔ)句存儲(chǔ)單元121和辭 典存儲(chǔ)單元122的信息并積累翻譯知識(shí)。
在與第一實(shí)施例一樣的可以由很多用戶(hù)使用的機(jī)器翻譯系統(tǒng)10中,用 戶(hù)請(qǐng)求翻譯的語(yǔ)句或類(lèi)似于其的語(yǔ)句可能己經(jīng)根據(jù)另一用戶(hù)的翻譯請(qǐng)求被 翻譯過(guò)。
在這種情況下,因?yàn)楦鶕?jù)第一實(shí)施例的機(jī)器翻譯設(shè)備可以積累先前的 翻譯知識(shí),所以它可以參考翻譯知識(shí)以獲得高質(zhì)量的翻譯,具體而言,可 以利用翻譯類(lèi)似于輸入語(yǔ)句的語(yǔ)句時(shí)參考的雙語(yǔ)詞條信息來(lái)翻譯未給出翻 譯的單詞。于是,和僅僅檢索辭典源單詞來(lái)輸出翻譯的情況相比,可以獲
得更高質(zhì)量的翻譯。
即使在一個(gè)文檔包括多個(gè)領(lǐng)域的語(yǔ)句時(shí),因?yàn)橄嗨贫却_定是以句子為 單位執(zhí)行的,也能夠?yàn)槊總€(gè)句子選擇適當(dāng)?shù)姆g。因此,即使在一個(gè)文檔 包括與多領(lǐng)域相關(guān)的語(yǔ)句時(shí),翻譯質(zhì)量也不會(huì)下降。每當(dāng)用戶(hù)請(qǐng)求翻譯附 屬有雙語(yǔ)詞條信息的源語(yǔ)句時(shí),都相應(yīng)地升級(jí)雙語(yǔ)詞條信息。因此,當(dāng)大 量用戶(hù)請(qǐng)求翻譯時(shí),可以實(shí)現(xiàn)更高質(zhì)量的翻譯。
根據(jù)本發(fā)明第二實(shí)施例的機(jī)器翻譯設(shè)備將輸入語(yǔ)句轉(zhuǎn)換成能夠與其他 語(yǔ)句比較相似度的形式,并與先前翻譯過(guò)并進(jìn)行過(guò)類(lèi)似轉(zhuǎn)換的其他語(yǔ)句比 較相似度,以便獲得相關(guān)的雙語(yǔ)詞條信息。
如圖7所示,機(jī)器翻譯系統(tǒng)70包括通過(guò)網(wǎng)絡(luò)300連接的機(jī)器翻譯服務(wù) 器700和多個(gè)客戶(hù)端200a到200c。
根據(jù)第二實(shí)施例,機(jī)器翻譯服務(wù)器700的配置與第一實(shí)施例中的不同。 其他組件和功能與圖1所示的相同,圖1是根據(jù)第一實(shí)施例的機(jī)器翻譯系 統(tǒng)10的配置方框圖。因此,用類(lèi)似的附圖標(biāo)記表示這些組件并將省略其介 紹。
機(jī)器翻譯服務(wù)器700包括源語(yǔ)句存儲(chǔ)單元721、辭典存儲(chǔ)單元122、接 收單元101、源語(yǔ)句獲得單元702、雙語(yǔ)詞條信息獲得單元103、翻譯單元 104、存儲(chǔ)單元105、輸出單元106和轉(zhuǎn)換單元707。
第二實(shí)施例與第一實(shí)施例的不同之處在于源語(yǔ)句存儲(chǔ)單元721中存儲(chǔ) 的數(shù)據(jù)結(jié)構(gòu)、源語(yǔ)句獲得單元702的功能以及增加了轉(zhuǎn)換單元707。其他組 件和功能與圖1所示的相同,圖1是根據(jù)第一實(shí)施例的機(jī)器翻譯系統(tǒng)10的 方框圖。因此,用類(lèi)似的附圖標(biāo)記表示這些組件并將省略其介紹。
源語(yǔ)句存儲(chǔ)單元721與根據(jù)第一實(shí)施例的源語(yǔ)句存儲(chǔ)單元121的不同 之處在于源語(yǔ)句存儲(chǔ)單元721存儲(chǔ)被轉(zhuǎn)換成能夠與其他語(yǔ)句比較相似度的 形式的源語(yǔ)句信息。根據(jù)相似度計(jì)算方法定義能夠比較相似度的形式。在 第二實(shí)施例中,通過(guò)將輸入語(yǔ)句中包括的單詞的頻率轉(zhuǎn)換成矢量將輸入語(yǔ)
句轉(zhuǎn)換成矢量形式,并采用余弦相似度作為相似度。
相似度計(jì)算方法和轉(zhuǎn)化方法不限于此。可以采用任何相似度計(jì)算方法 和轉(zhuǎn)化方法,只要轉(zhuǎn)換輸入語(yǔ)句以與其他語(yǔ)句比較相似度即可。例如,可 以在對(duì)劃分后的單詞進(jìn)行規(guī)范化之后計(jì)算相似度。規(guī)范化表示對(duì)含義相同
而記法(notation)不同的單詞進(jìn)行標(biāo)準(zhǔn)化,例如將"- >匕'-一夕一"和 "- >匕'- 一夕"標(biāo)準(zhǔn)化為典型記法??梢允褂脜⒖颊Z(yǔ)句的句法結(jié)構(gòu)來(lái)計(jì)
算句法相似度的方法,或考慮語(yǔ)言措辭的依存結(jié)構(gòu)中的相似度來(lái)獲得語(yǔ)言 措辭相似度的方法。
如圖8所示,源語(yǔ)句存儲(chǔ)單元721存儲(chǔ)相互關(guān)聯(lián)的以矢量形式表達(dá)的 源語(yǔ)句信息以及雙語(yǔ)詞條信息ID數(shù)據(jù)。為了解釋?zhuān)瑘D8示出了矢量的范例, 其從左邊開(kāi)始分別表示單詞Ewl、 Ew2、 Ew3、 Ew4和Ew5的出現(xiàn)頻率。符號(hào) 表示省略了其他單詞。
圖8示出了將根據(jù)第一實(shí)施例示出源語(yǔ)句存儲(chǔ)單元121的圖2的源語(yǔ) 句信息轉(zhuǎn)換成矢量形式的情形。亦即,因?yàn)閳D2第一行中的源語(yǔ)句信息包 括單詞Ewl、 Ew2、 Ew3和Ew4,因此圖8中對(duì)應(yīng)的矢量為(...,1, 1, 1, 1, 0,...)。因?yàn)閳D2內(nèi)第二行中的源語(yǔ)句信息包括單詞Ew4和Ew5,圖8中 對(duì)應(yīng)的矢量為(...,0, 0, 0, 1, 1,...)。
轉(zhuǎn)換單元707將輸入語(yǔ)句轉(zhuǎn)換成能夠與其他語(yǔ)句比較相似度的預(yù)定形 式。具體而言,轉(zhuǎn)換單元707對(duì)輸入語(yǔ)句進(jìn)行語(yǔ)形學(xué)分析以劃分成單詞。 轉(zhuǎn)換單元707將劃分后的每個(gè)單詞的頻率轉(zhuǎn)換成矢量,以將輸入語(yǔ)句轉(zhuǎn)換 成矢量形式。
源語(yǔ)句獲得單元702計(jì)算己由轉(zhuǎn)換單元707轉(zhuǎn)換形式的輸入語(yǔ)句和源 語(yǔ)句存儲(chǔ)單元721中存儲(chǔ)的源語(yǔ)句信息之間的余弦相似度,并獲得余弦相 似度高于預(yù)定閾值的源語(yǔ)句信息。
下面參考圖9介紹根據(jù)第二實(shí)施例的機(jī)器翻譯服務(wù)器700進(jìn)行的機(jī)器 翻譯處理。
步驟S901處的翻譯請(qǐng)求接收處理與根據(jù)第一實(shí)施例的機(jī)器翻譯服務(wù)器 100中的步驟S401處的處理相同,因此將省略其介紹。
轉(zhuǎn)換單元707將輸入語(yǔ)句轉(zhuǎn)換成能夠比較相似度的形式,即矢量形式 (步驟S902)。源語(yǔ)句獲得單元702計(jì)算輸入語(yǔ)句和源語(yǔ)句存儲(chǔ)單元721中
存儲(chǔ)的源語(yǔ)句信息之間的余弦相似度(步驟S903)。
源語(yǔ)句獲得單元702比較計(jì)算得到的余弦相似度和預(yù)定閾值,并獲得 余弦相似度高于閾值的源語(yǔ)句信息(步驟S904)。
從步驟S905到S910的雙語(yǔ)詞條信息獲得處理和翻譯處理與根據(jù)第一 實(shí)施例的機(jī)器翻譯服務(wù)器100中的步驟S404到S409的處理相同,因此將 省略其介紹。
在翻譯單元104翻譯輸入語(yǔ)句之后,存儲(chǔ)單元105分別在源語(yǔ)句存儲(chǔ) 單元721和辭典存儲(chǔ)單元122中存儲(chǔ)轉(zhuǎn)換后的輸入語(yǔ)句和雙語(yǔ)詞條信息(步 驟S911)。
步驟S912處的翻譯結(jié)果輸出處理與根據(jù)第一實(shí)施例的機(jī)器翻譯服務(wù)器 100中的步驟S411處的處理相同,因此將省略其介紹。
根據(jù)第二實(shí)施例的機(jī)器翻譯設(shè)備將輸入語(yǔ)句轉(zhuǎn)換成能夠與其他語(yǔ)句比 較相似度的形式,并與先前翻譯過(guò)且進(jìn)行過(guò)類(lèi)似轉(zhuǎn)換的語(yǔ)句比較相似度, 以獲得相關(guān)的雙語(yǔ)詞條信息。
在上述實(shí)施例中,在獲得了多條源語(yǔ)句信息時(shí),使用所有的雙語(yǔ)詞條 信息,或者使用對(duì)應(yīng)于相似度較高的源語(yǔ)句信息的雙語(yǔ)詞條信息??梢允?相關(guān)信息與源語(yǔ)句信息或雙語(yǔ)詞條信息相關(guān)聯(lián),以基于相關(guān)信息獲得雙語(yǔ) 詞條信息的優(yōu)先級(jí)并使用具有較高優(yōu)先級(jí)的雙語(yǔ)詞條信息。
如圖10所示,根據(jù)該修改的范例,除了用戶(hù)名、雙語(yǔ)詞條信息以及雙 語(yǔ)詞條信息ID之外,辭典存儲(chǔ)單元122還存儲(chǔ)在辭典存儲(chǔ)單元122中登記 雙語(yǔ)詞條信息的日期和時(shí)間以及應(yīng)用雙語(yǔ)詞條信息的領(lǐng)域的數(shù)據(jù),它們作 為相關(guān)信息而關(guān)聯(lián)。
雙語(yǔ)詞條信息獲得單元103用于在獲得多條雙語(yǔ)詞條信息時(shí)優(yōu)先獲得 例如登記日期和時(shí)間更近的雙語(yǔ)詞條信息。通過(guò)在翻譯請(qǐng)求中包括領(lǐng)域指 定,雙語(yǔ)詞條信息獲得單元103可以用于優(yōu)先獲得與所指定領(lǐng)域相關(guān)的雙 語(yǔ)詞條信息。
可以根據(jù)用戶(hù)的權(quán)限確定雙語(yǔ)詞條信息的優(yōu)先權(quán)。例如,對(duì)應(yīng)于用戶(hù) 名的用戶(hù)的權(quán)限是使用用戶(hù)管理數(shù)據(jù)庫(kù)(未示出)等獲得的。當(dāng)用戶(hù)具有管 理員權(quán)限時(shí),用戶(hù)可以?xún)?yōu)先于具有其他權(quán)限的用戶(hù)選擇雙語(yǔ)詞條信息。通 過(guò)確定辭典存儲(chǔ)單元122中的用戶(hù)名,可以?xún)?yōu)先于其他用戶(hù)的雙語(yǔ)詞條信
息使用該用戶(hù)自己先前請(qǐng)求翻譯時(shí)使用的雙語(yǔ)詞條信息。當(dāng)以包括多個(gè)用 戶(hù)的組為單位管理用戶(hù)時(shí),可以?xún)?yōu)先于其他組中用戶(hù)的雙語(yǔ)詞條信息使用 該用戶(hù)所屬組先前請(qǐng)求翻譯時(shí)使用的雙語(yǔ)詞條信息。在這種情況下,登記
標(biāo)識(shí)組的組名(或者還有辭典存儲(chǔ)單元122中的用戶(hù)名)而不是辭典存儲(chǔ)單 元122中的用戶(hù)名。
參考圖11解釋根據(jù)第一和第二實(shí)施例的機(jī)器翻譯設(shè)備的硬件配置。 根據(jù)第一或第二實(shí)施例的機(jī)器翻譯設(shè)備包括諸如中央處理單元 (CPU) 51之類(lèi)的控制器、諸如只讀存儲(chǔ)器(R0M)52和RAM 53之類(lèi)的存儲(chǔ)裝 置、連接到網(wǎng)絡(luò)以建立通信的通信接口(I/F)54、諸如HDD和光盤(pán)(CD)驅(qū)動(dòng) 器之類(lèi)的外存儲(chǔ)裝置、諸如顯示單元之類(lèi)的顯示裝置、諸如鍵盤(pán)和鼠標(biāo)之 類(lèi)的輸入裝置以及連接這些組件的總線61。該機(jī)器翻譯設(shè)備具有利用通用 計(jì)算機(jī)的硬件配置。
提供了一種由根據(jù)第一或第二實(shí)施例的機(jī)器翻譯設(shè)備執(zhí)行的機(jī)器翻譯 程序,其以可安裝或可執(zhí)行格式文檔的形式記錄在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上 中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如為光盤(pán)只讀存儲(chǔ)器(CD-ROM)、軟盤(pán)(FD)、可 記錄光盤(pán)(CD-R)和數(shù)字多用盤(pán)(DVD)。
可以將根據(jù)第一或第二實(shí)施例的由機(jī)器翻譯設(shè)備執(zhí)行的機(jī)器翻譯程序 存儲(chǔ)在與諸如因特網(wǎng)之類(lèi)的網(wǎng)絡(luò)相連接的計(jì)算機(jī)中,并通過(guò)網(wǎng)絡(luò)下載???以通過(guò)諸如因特網(wǎng)之類(lèi)的網(wǎng)絡(luò)提供或分發(fā)根據(jù)第一或第二實(shí)施例的由機(jī)器 翻譯設(shè)備執(zhí)行的機(jī)器翻譯程序。
可以提前在ROM等中安裝根據(jù)第一或第二實(shí)施例的機(jī)器翻譯程序。 根據(jù)第一或第二實(shí)施例的由機(jī)器翻譯設(shè)備執(zhí)行的機(jī)器翻譯程序具有模 塊配置,該配置包括如上所述的組件(接收單元、源語(yǔ)句獲得單元、雙語(yǔ)詞 條信息獲得單元、翻譯單元、存儲(chǔ)單元和輸出單元)。作為實(shí)際硬件,CPU 51 (處理器)從存儲(chǔ)介質(zhì)讀取機(jī)器翻譯程序并加以執(zhí)行,從而在主存儲(chǔ)器中 加載上述組件并在主存儲(chǔ)器上產(chǎn)生上述組件。
權(quán)利要求
1、一種機(jī)器翻譯設(shè)備,其包括辭典存儲(chǔ)單元,其用于存儲(chǔ)雙語(yǔ)詞條信息和標(biāo)識(shí)信息,在所述雙語(yǔ)詞條信息中使第一語(yǔ)言形式的第一單詞和第二語(yǔ)言形式的第二單詞彼此相關(guān)聯(lián),所述標(biāo)識(shí)信息標(biāo)識(shí)所述雙語(yǔ)詞條信息;源語(yǔ)句存儲(chǔ)單元,其用于存儲(chǔ)彼此相關(guān)聯(lián)的所述第一語(yǔ)言形式的源語(yǔ)句和用于翻譯所述源語(yǔ)句的所述雙語(yǔ)詞條信息的標(biāo)識(shí)信息;接收單元,其用于接收包括所述第一語(yǔ)言形式的輸入語(yǔ)句的翻譯請(qǐng)求;源語(yǔ)句獲得單元,其用于計(jì)算所述輸入語(yǔ)句和所述源語(yǔ)句之間的相似度,并從所述源語(yǔ)句存儲(chǔ)單元獲得所述相似度高于預(yù)定閾值的所述源語(yǔ)句;雙語(yǔ)詞條信息獲得單元,其用于從所述辭典存儲(chǔ)單元獲得所述標(biāo)識(shí)信息對(duì)應(yīng)于由所述源語(yǔ)句獲得單元獲得的所述源語(yǔ)句的所述雙語(yǔ)詞條信息;以及翻譯單元,其用于判斷由所述雙語(yǔ)詞條信息獲得單元獲得的所述雙語(yǔ)詞條信息中的所述第一單詞是否包括在所述輸入語(yǔ)句中,并且在所述第一單詞包括在所述輸入語(yǔ)句中時(shí),將在所述輸入語(yǔ)句中包括的所述第一單詞翻譯成所述雙語(yǔ)詞條信息中的所述第二單詞。
2、 根據(jù)權(quán)利要求l所述的設(shè)備,其中所述接收單元接收所述翻譯請(qǐng)求,所述翻譯請(qǐng)求包括所述輸入語(yǔ)句和 在翻譯所述輸入語(yǔ)句期間要使用的輸入雙語(yǔ)詞條信息,以及所述翻譯單元還判斷所獲得的雙語(yǔ)詞條信息中的所述第一單詞與所述 輸入雙語(yǔ)詞條信息中的所述第一單詞是否相同,并且在所獲得的雙語(yǔ)詞條 信息中的所述第一單詞與所述輸入雙語(yǔ)詞條信息中的所述第一單詞相同且 所述相同的第一單詞包括在所述輸入語(yǔ)句中時(shí),將所述輸入語(yǔ)句中包括的 所述第一單詞翻譯成所述輸入雙語(yǔ)詞條信息中的所述第二單詞。
3、 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述源語(yǔ)句獲得單元計(jì)算所述 輸入語(yǔ)句和所述源語(yǔ)句之間的編輯距離,并為編輯距離較小的所述源語(yǔ)句 分配比編輯距離較大的所述源語(yǔ)句更高的相似度。
4、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述源語(yǔ)句存儲(chǔ)單元存儲(chǔ)包括所述源語(yǔ)句中的單詞的索引、所述源語(yǔ) 句和所述標(biāo)識(shí)信息,其中包括所述源語(yǔ)句中的單詞的索引、所述源語(yǔ)句和 所述標(biāo)識(shí)信息彼此相關(guān)聯(lián),以及所述源語(yǔ)句獲得單元從所述源語(yǔ)句存儲(chǔ)單元獲得與包括所述輸入語(yǔ)句 中的單詞的所述索引相關(guān)聯(lián)的所述源語(yǔ)句,并計(jì)算所獲得的源語(yǔ)句和所述 輸入語(yǔ)句之間的所述相似度。
5、 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述源語(yǔ)句獲得單元從所述源 語(yǔ)句存儲(chǔ)單元在所述相似度高于所述閾值的所述源語(yǔ)句中獲得預(yù)定數(shù)量的 按所述相似度以降序排序的所述源語(yǔ)句。
6、 根據(jù)權(quán)利要求1所述的設(shè)備,還包括轉(zhuǎn)換單元,其用于將所述lr入語(yǔ)句轉(zhuǎn)換成能夠與其他語(yǔ)句比較相似度的預(yù)定形式,其中所述源語(yǔ)句存儲(chǔ)單元存儲(chǔ)彼此相關(guān)聯(lián)的所述標(biāo)識(shí)信息和被轉(zhuǎn)換成所述 預(yù)定形式的所述源語(yǔ)句,以及所述源語(yǔ)句獲得單元計(jì)算所述轉(zhuǎn)換的輸入語(yǔ)句和所述源語(yǔ)句之間的所 述相似度,并從所述源語(yǔ)句存儲(chǔ)單元獲得所述相似度高于所述閾值的所述源語(yǔ)句。
7、 根據(jù)權(quán)利要求6所述的設(shè)備,其中所述預(yù)定形式為矢量形式,所述矢量形式是通過(guò)將對(duì)所述輸入語(yǔ)句進(jìn) 行語(yǔ)形學(xué)分析獲得的語(yǔ)素轉(zhuǎn)換成矢量而獲得的,以及所述源語(yǔ)句獲得單元將所述矢量形式的輸入語(yǔ)句和所述矢量形式的源 語(yǔ)句之間的所述相似度作為余弦相似度加以計(jì)算,并從所述源語(yǔ)句存儲(chǔ)單 元獲得所述余弦相似度高于所述閾值的所述源語(yǔ)句。
8、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述辭典存儲(chǔ)單元存儲(chǔ)彼此相關(guān)聯(lián)的所述雙語(yǔ)詞條信息、所述標(biāo)識(shí)信 息和存儲(chǔ)所述雙語(yǔ)詞條信息的日期和時(shí)間,以及所述雙語(yǔ)詞條信息獲得單元從所述辭典存儲(chǔ)單元在所述標(biāo)識(shí)信息對(duì)應(yīng) 于所獲得的源語(yǔ)句的所述雙語(yǔ)詞條信息中,優(yōu)先于獲得相關(guān)日期和時(shí)間較 早的所述雙語(yǔ)詞條信息,而獲得相關(guān)日期和時(shí)間較近的所述雙語(yǔ)詞條信息。
9、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述辭典存儲(chǔ)單元存儲(chǔ)彼此相關(guān)聯(lián)的所述雙語(yǔ)詞條信息、所述標(biāo)識(shí)信息和應(yīng)用所述雙語(yǔ)詞條信息的領(lǐng)域,所述接收單元接收還包括所述領(lǐng)域的所述翻譯請(qǐng)求,以及 所述雙語(yǔ)詞條信息獲得單元從所述辭典存儲(chǔ)單元在所述標(biāo)識(shí)信息對(duì)應(yīng)于所獲得的源語(yǔ)句的所述雙語(yǔ)詞條信息中,優(yōu)先于獲得相關(guān)領(lǐng)域與所述翻譯請(qǐng)求中包括的領(lǐng)域不匹配的所述雙語(yǔ)詞條信息,而獲得相關(guān)領(lǐng)域與所述翻譯請(qǐng)求中包括的領(lǐng)域匹配的所述雙語(yǔ)詞條信息。
10、 根據(jù)權(quán)利要求1所述的設(shè)備,其中所述接收單元接收所述翻譯請(qǐng)求,所述翻譯請(qǐng)求包括所述輸入語(yǔ)句和 輸入雙語(yǔ)詞條信息,所述輸入雙語(yǔ)詞條信息用于翻譯所述輸入語(yǔ)句的所述 雙語(yǔ)詞條信息,以及所述設(shè)備還包括存儲(chǔ)單元,其用于在所述辭典存儲(chǔ)單元中存儲(chǔ)所輸入 的雙語(yǔ)詞條信息,并存儲(chǔ)彼此相關(guān)聯(lián)的所存儲(chǔ)的輸入雙語(yǔ)詞條信息的標(biāo)識(shí) 信息和所述輸入語(yǔ)句。
11、 一種機(jī)器翻譯方法,其包括 接收包括第一語(yǔ)言形式的輸入語(yǔ)句的翻譯請(qǐng)求; 計(jì)算所述輸入語(yǔ)句和所述第一語(yǔ)言形式的源語(yǔ)句之間的相似度; 從源語(yǔ)句存儲(chǔ)單元獲得所述相似度高于預(yù)定閾值的所述源語(yǔ)句,并使所述第一語(yǔ)言形式的第一單詞與第二語(yǔ)言形式的第二單詞彼此相關(guān)聯(lián),其 中所述源語(yǔ)句存儲(chǔ)單元存儲(chǔ)所述源語(yǔ)句和用于翻譯所述源語(yǔ)句的雙語(yǔ)詞條 信息的標(biāo)識(shí)信息;從用于存儲(chǔ)所述雙語(yǔ)詞條信息和所述標(biāo)識(shí)信息的辭典存儲(chǔ)單元獲得所 述標(biāo)識(shí)信息對(duì)應(yīng)于所獲得的源語(yǔ)句的所述雙語(yǔ)詞條信息;判斷所獲得的雙語(yǔ)詞條信息中的所述第一單詞是否包括在所述輸入語(yǔ) 句中;以及當(dāng)所述第一單詞包括在所述輸入語(yǔ)句中時(shí),將在所述輸入語(yǔ)句中包括 的所述第一單詞翻譯成所述雙語(yǔ)詞條信息中的所述第二單詞。
12、 一種機(jī)器翻譯系統(tǒng),其包括 終端設(shè)備,其用于請(qǐng)求進(jìn)行翻譯;以及機(jī)器翻譯設(shè)備,其用于經(jīng)由網(wǎng)絡(luò)連接到所述終端設(shè)備,其中 所述終端設(shè)備包括請(qǐng)求發(fā)送單元,其用于發(fā)送包括第一語(yǔ)言形式的輸入語(yǔ)句的翻譯請(qǐng)求;以及結(jié)果接收單元,其用于接收翻譯結(jié)果,以及 所述機(jī)器翻譯設(shè)備包括辭典存儲(chǔ)單元,其用于存儲(chǔ)雙語(yǔ)詞條信息和標(biāo)識(shí)信息,在所述雙語(yǔ)詞 條信息中使所述第一語(yǔ)言形式的第一單詞和第二語(yǔ)言形式的第二單詞彼此 相關(guān)聯(lián),所述標(biāo)識(shí)信息標(biāo)識(shí)所述雙語(yǔ)詞條信息;源語(yǔ)句存儲(chǔ)單元,其用于存儲(chǔ)彼此相關(guān)聯(lián)的所述第一語(yǔ)言形式的源語(yǔ) 句和用于翻譯所述源語(yǔ)句的所述雙語(yǔ)詞條信息的標(biāo)識(shí)信息;接收單元,其用于接收所述翻譯請(qǐng)求,所述翻譯請(qǐng)求包括所述第一語(yǔ) 言形式的輸入語(yǔ)句;源語(yǔ)句獲得單元,其用于計(jì)算所述輸入語(yǔ)句和所述源語(yǔ)句之間的相似 度,并從所述源語(yǔ)句存儲(chǔ)單元獲得所述相似度高于預(yù)定閾值的所述源語(yǔ)句;雙語(yǔ)詞條信息獲得單元,其用于從所述辭典存儲(chǔ)單元獲得所述標(biāo)識(shí)信 息對(duì)應(yīng)于由所述源語(yǔ)句獲得單元獲得的所述源語(yǔ)句的所述雙語(yǔ)詞條信息;翻譯單元,其用于判斷由所述雙語(yǔ)詞條信息獲得單元獲得的所述雙語(yǔ) 詞條信息中的所述第一單詞是否包括在所述輸入語(yǔ)句中,并且在所述第一 單詞包括在所述輸入語(yǔ)句中時(shí),將在所述輸入語(yǔ)句中包括的所述第一單詞 翻譯成所述雙語(yǔ)詞條信息中的所述第二單詞;以及輸出單元,其用于向所述終端設(shè)備輸出由所述翻譯單元翻譯的所述翻 譯結(jié)果。
全文摘要
接收單元接收包括輸入語(yǔ)句和雙語(yǔ)詞條信息的翻譯請(qǐng)求。源語(yǔ)句獲得單元計(jì)算輸入語(yǔ)句和源語(yǔ)句之間的相似度,并從源語(yǔ)句存儲(chǔ)單元獲得相似度高于閾值的源語(yǔ)句。雙語(yǔ)詞條信息獲得單元從辭典存儲(chǔ)單元獲得雙語(yǔ)詞條信息ID對(duì)應(yīng)于所獲得的源語(yǔ)句的雙語(yǔ)詞條信息。當(dāng)所獲得的雙語(yǔ)詞條信息中的第一單詞包括在輸入語(yǔ)句中時(shí),翻譯單元將輸入語(yǔ)句中包括的第一單詞翻譯成所獲得的雙語(yǔ)詞條信息中的對(duì)應(yīng)第二單詞。存儲(chǔ)單元在辭典存儲(chǔ)單元中存儲(chǔ)翻譯請(qǐng)求中包括的雙語(yǔ)詞條信息,并在源語(yǔ)句存儲(chǔ)單元中存儲(chǔ)彼此相關(guān)聯(lián)的所存儲(chǔ)的雙語(yǔ)詞條信息的雙語(yǔ)詞條信息ID和輸入語(yǔ)句。
文檔編號(hào)G06F17/28GK101393547SQ20081014920
公開(kāi)日2009年3月25日 申請(qǐng)日期2008年9月17日 優(yōu)先權(quán)日2007年9月20日
發(fā)明者木下聰, 鈴木博和 申請(qǐng)人:株式會(huì)社東芝
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
衡阳市| 塔城市| 丰都县| 临泉县| 六安市| 晋江市| 绍兴市| 双牌县| 镇江市| 九台市| 敦化市| 许昌县| 乌拉特后旗| 新津县| 墨竹工卡县| 淮北市| 屯门区| 古田县| 清原| 西乌珠穆沁旗| 镇平县| 百色市| 丘北县| 泾源县| 洞头县| 白城市| 睢宁县| 秦皇岛市| 和龙市| 南皮县| 团风县| 永济市| 佛冈县| 鄂伦春自治旗| 抚松县| 光泽县| 凤阳县| 青河县| 从化市| 宝应县| 台前县|