欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

機(jī)器翻譯方法和裝置制造方法

文檔序號(hào):6634053閱讀:159來源:國(guó)知局
機(jī)器翻譯方法和裝置制造方法
【專利摘要】本發(fā)明提出一種機(jī)器翻譯方法和裝置,該機(jī)器翻譯方法包括獲取待翻譯的文本;獲取預(yù)先建立的機(jī)器翻譯模型,其中,所述機(jī)器翻譯模型是根據(jù)外部世界場(chǎng)景信息建立的;采用所述機(jī)器翻譯模型,對(duì)所述待翻譯的文本進(jìn)行翻譯,得到翻譯結(jié)果。該方法能夠提高翻譯結(jié)果的準(zhǔn)確度。
【專利說明】機(jī)器翻譯方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,尤其涉及一種機(jī)器翻譯方法和裝置。

【背景技術(shù)】
[0002] 當(dāng)需要進(jìn)行翻譯時(shí),翻譯設(shè)備可以采用機(jī)器翻譯模型,對(duì)詞匯進(jìn)行翻譯,得到翻譯 結(jié)果。傳統(tǒng)的機(jī)器翻譯模型,從人工構(gòu)建的雙語訓(xùn)練數(shù)據(jù)出發(fā),使用統(tǒng)計(jì)的方法來計(jì)算出翻 譯概率和目標(biāo)語言的語言模型概率。
[0003] 但是,采用傳統(tǒng)的機(jī)器翻譯模型難以確定準(zhǔn)確的翻譯結(jié)果,例如,對(duì)于英文句子 "give me a shot",存在多種合理的翻譯結(jié)果,例如,"給我照相","給我打一槍","向我擊球 進(jìn)攻"等。而單獨(dú)看這個(gè)輸入的句子"give me a shot",采用目前的傳統(tǒng)的機(jī)器翻譯模型 是無法確定哪個(gè)翻譯結(jié)果是最優(yōu)的。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005] 為此,本發(fā)明的一個(gè)目的在于提出一種機(jī)器翻譯方法,該方法可以提高翻譯結(jié)果 的準(zhǔn)確度。
[0006] 本發(fā)明的另一個(gè)目的在于提出一種機(jī)器翻譯裝置。
[0007] 為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的機(jī)器翻譯方法,包括:獲取待翻譯 的文本;獲取預(yù)先建立的機(jī)器翻譯模型,其中,所述機(jī)器翻譯模型是根據(jù)外部世界場(chǎng)景信息 建立的;采用所述機(jī)器翻譯模型,對(duì)所述待翻譯的文本進(jìn)行翻譯,得到翻譯結(jié)果。
[0008] 本發(fā)明第一方面實(shí)施例提出的機(jī)器翻譯方法,通過采用基于外部世界場(chǎng)景信息確 定的機(jī)器翻譯模型進(jìn)行翻譯,可以在翻譯時(shí)考慮外部世界場(chǎng)景信息因素,得到更符合外部 世界場(chǎng)景的翻譯結(jié)合,提高翻譯結(jié)果的準(zhǔn)確度。
[0009] 為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的機(jī)器翻譯裝置,包括:第一獲取模 塊,用于獲取待翻譯的文本;第二獲取模塊,用于獲取預(yù)先建立的機(jī)器翻譯模型,其中,所述 機(jī)器翻譯模型是根據(jù)外部世界場(chǎng)景信息建立的;翻譯模塊,用于采用所述機(jī)器翻譯模型,對(duì) 所述待翻譯的文本進(jìn)行翻譯,得到翻譯結(jié)果。
[0010] 本發(fā)明第二方面實(shí)施例提出的機(jī)器翻譯裝置,通過采用基于外部世界場(chǎng)景信息確 定的機(jī)器翻譯模型進(jìn)行翻譯,可以在翻譯時(shí)考慮外部世界場(chǎng)景信息因素,得到更符合外部 世界場(chǎng)景的翻譯結(jié)合,提高翻譯結(jié)果的準(zhǔn)確度。
[0011] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實(shí)踐了解到。

【專利附圖】

【附圖說明】
[0012] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變 得明顯和容易理解,其中:
[0013] 圖1是本發(fā)明一實(shí)施例提出的機(jī)器翻譯方法的流程示意圖;
[0014] 圖2是本發(fā)明實(shí)施例中建立機(jī)器翻譯模型的流程示意圖;
[0015] 圖3是本發(fā)明實(shí)施例中翻譯結(jié)果的示意圖;
[0016] 圖4是本發(fā)明另一實(shí)施例提出的機(jī)器翻譯方法的流程示意圖;
[0017] 圖5是本發(fā)明實(shí)施例中采用一種用戶設(shè)備時(shí)的機(jī)器翻譯方法的流程示意圖; [0018] 圖6是本發(fā)明實(shí)施例中采用另一種用戶設(shè)備時(shí)的機(jī)器翻譯方法的流程示意圖; [0019] 圖7是本發(fā)明實(shí)施例中一種應(yīng)用場(chǎng)景示意圖;
[0020] 圖8是本發(fā)明另一實(shí)施例提出的機(jī)器翻譯方法的流程示意圖;
[0021] 圖9是本發(fā)明另一實(shí)施例提出的機(jī)器翻譯裝置的結(jié)構(gòu)示意圖;
[0022] 圖10是本發(fā)明另一實(shí)施例提出的機(jī)器翻譯裝置的結(jié)構(gòu)示意圖;
[0023] 圖11是本發(fā)明另一實(shí)施例提出的機(jī)器翻譯裝置的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0024] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考 附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反, 本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同 物。
[0025] 圖1是本發(fā)明一實(shí)施例提出的機(jī)器翻譯方法的流程示意圖,該方法包括:
[0026] Sll :獲取待翻譯的文本。
[0027] 可選的,所述獲取待翻譯的文本,包括:
[0028] 接收文本信息,將所述文本確定為待翻譯的文本;或者,
[0029] 接收語音信息,對(duì)所述語音信息進(jìn)行語音識(shí)別,將語音識(shí)別結(jié)果確定為待翻譯的 文本;或者,
[0030] 接收?qǐng)D片信息,對(duì)該圖片信息進(jìn)行光學(xué)字符識(shí)別(Optical Character Recognition,OCR)識(shí)別,將OCR識(shí)別結(jié)果確定為待翻譯的文本。
[0031] 待翻譯的文本可以包括至少一個(gè)字符,例如,待翻譯的文本是字,詞或者句子。
[0032] S12:獲取預(yù)先建立的機(jī)器翻譯模型,其中,所述機(jī)器翻譯模型是根據(jù)外部世界場(chǎng) 景信息建立的。
[0033] 可選的,Sll之前還可以包括:建立機(jī)器翻譯模型。
[0034] 參見圖2,所述建立機(jī)器翻譯模型可以包括:
[0035] S21 :獲取外部世界場(chǎng)景信息。
[0036] 其中,可以采用用戶使用的設(shè)備,對(duì)所述用戶所在外部世界場(chǎng)景進(jìn)行識(shí)別,得到所 述外部世界場(chǎng)景信息,所述用戶使用的設(shè)備包括:可穿戴設(shè)備,或者,移動(dòng)設(shè)備。移動(dòng)設(shè)備例 如智能手機(jī),平板電腦等。
[0037] 例如,采用用戶使用的設(shè)備上的攝像頭,對(duì)外部世界場(chǎng)景進(jìn)行拍攝,得到圖片,之 后對(duì)圖片進(jìn)行識(shí)別,可以得到外部世界場(chǎng)景信息,外部世界場(chǎng)景信息例如為外部世界場(chǎng)景 中包含的事物的分類信息,例如,外部世界場(chǎng)景中包括人臉,相機(jī)等信息時(shí),可以確定分類 信息是攝影;或者,外部世界場(chǎng)景中包括槍械,軍服等信息時(shí),可以確定分類信息是軍事; 或者,外部世界場(chǎng)景中包括球拍,球棒等信息時(shí),可以確定分類信息是體育運(yùn)動(dòng)。
[0038] S22 :建立語言模型以及建立短語翻譯模型,其中,所述語言模型和/或所述短語 翻譯模型是根據(jù)所述外部世界場(chǎng)景信息建立的。
[0039] 其中,語音模型可以是對(duì)傳統(tǒng)的n元(n-gram)語言模型進(jìn)行處理后得到的。為了 更好的理解本發(fā)明,首先對(duì)現(xiàn)有技術(shù)中的傳統(tǒng)n元語言模型進(jìn)行說明。
[0040] n-gram語言模型(n元語言模型)中當(dāng)前詞出現(xiàn)的概率僅和其左邊的n-1個(gè)詞有 關(guān)系。當(dāng)n取1、2、3時(shí),n-gram模型分別稱為unigram( -元語言模型)、bigram(二元語 言模型)和trigram語言模型(三元語言模型)。n越大,語言模型越準(zhǔn)確,計(jì)算也越復(fù)雜, 計(jì)算量也越大。最常用的是bigram,其次是unigram和trigram,n取大于等于4的情況較 少。當(dāng)n-gram語言模型用到中文網(wǎng)頁的時(shí)候,得到漢語n元語言模型;當(dāng)n-gram語言模型 用到英文網(wǎng)頁的時(shí)候,得到英語n元語言模型。例如當(dāng)n取值為2的時(shí)候,當(dāng)前詞的出現(xiàn)的 概率僅和其前一個(gè)詞有關(guān)系。例如對(duì)于句子:
[0041] S =張三董事長(zhǎng)發(fā)表了四個(gè)優(yōu)先重要指示的講話。
[0042] 在2元語言模型下,該句子的概率(衡量該句子的正確性的度量)為:
[0043] P⑶=P(張三|〈s>)P(董事長(zhǎng)I張三)P(發(fā)表I董事長(zhǎng))P(了 I發(fā)表)P(四個(gè) 了)P(優(yōu)先I四個(gè))P(重要I優(yōu)先)P(指示I重要)P(的I指示)P(講話I的)P(。I講 話)P(〈/s>|。)
[0044] 這里<s>和</s>,是兩個(gè)人工構(gòu)造的詞,分別代表了句子的開始和結(jié)尾。其目的是 判斷"張三"作為句子開頭詞的概率,和"。"句號(hào)作為句子接尾詞的概率。
[0045] 如果是在3元語言模型下,該句子的概率是:
[0046] P (S) = P (張三I <s>) P (董事長(zhǎng)I <s>,張三)P (發(fā)表I張三,董事長(zhǎng))P (了 I董 事長(zhǎng),發(fā)表)P(四個(gè)I發(fā)表,了)P(優(yōu)先I 了,三個(gè))P(重要I四個(gè),優(yōu)先)P(指示I優(yōu) 先,重要)P(的I重要,指示)P(講話I指示,的)P(。I的,講話)P(〈/s>|講話。)
[0047] 這里,2元模型中一個(gè)概率的計(jì)算方法為:
[0048] P (董事長(zhǎng)I張三)=count (張三董事長(zhǎng))/count (張三)
[0049] 分子是,"張三董事長(zhǎng)"在訓(xùn)練語料(例如大規(guī)模網(wǎng)絡(luò)語料)中出現(xiàn)的頻次;分母 是"張三"在訓(xùn)練語料中出現(xiàn)的頻次。
[0050] 相應(yīng)地,3元模型中一個(gè)概率的計(jì)算公式為:
[0051] P (發(fā)表I張三,董事長(zhǎng))=count (張三董事長(zhǎng)發(fā)表)/count (張三董事長(zhǎng))
[0052] 這里的分子是"張三董事長(zhǎng)發(fā)表"在訓(xùn)練語料中出現(xiàn)的頻次,而分母是"張三董事 長(zhǎng)"在訓(xùn)練語料中出現(xiàn)的頻次。
[0053] 上面是對(duì)傳統(tǒng)的n元語言模型的描述。
[0054] 本實(shí)施例中,可以采用外部世界場(chǎng)景信息確定語言模型,可以稱為基于外部世界 場(chǎng)景信息的n元語言模型,本實(shí)施例的機(jī)器翻譯模型中最終采用的語言模型可以是用基于 外部世界場(chǎng)景信息的n元語言模型替代傳統(tǒng)的n元語言模型,或者,可以根據(jù)基于外部世界 場(chǎng)景信息的n元語言模型和傳統(tǒng)的n元語言模型得到處理后的語言模型,將該處理后的語 言模型確定為機(jī)器翻譯模型中最終采用的語言模型。
[0055] 本實(shí)施例中,基于外部世界場(chǎng)景信息的n元語言模型的數(shù)學(xué)建模公式可以是:

【權(quán)利要求】
1. 一種機(jī)器翻譯方法,其特征在于,包括: 獲取待翻譯的文本; 獲取預(yù)先建立的機(jī)器翻譯模型,其中,所述機(jī)器翻譯模型是根據(jù)外部世界場(chǎng)景信息建 立的; 采用所述機(jī)器翻譯模型,對(duì)所述待翻譯的文本進(jìn)行翻譯,得到翻譯結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:建立所述機(jī)器翻譯模型,所述建 立所述機(jī)器翻譯模型,包括: 獲取外部世界場(chǎng)景信息; 建立語言模型以及建立短語翻譯模型,其中,所述語言模型和/或所述短語翻譯模型 是根據(jù)所述外部世界場(chǎng)景信息建立的; 根據(jù)所述語言模型和所述短語翻譯模型,建立所述機(jī)器翻譯模型。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)所述語言模型是根據(jù)所述外部世界場(chǎng) 景信息建立時(shí),所述建立語言模型,包括: 根據(jù)所述外部世界場(chǎng)景信息建立基于外部世界場(chǎng)景信息的語言模型,并將所述基于外 部世界場(chǎng)景信息的語言模型確定為用于建立機(jī)器翻譯模型的語言模型;或者, 根據(jù)所述外部世界場(chǎng)景信息建立基于外部世界場(chǎng)景信息的語言模型,以及,獲取傳統(tǒng) 的語言模型,根據(jù)所述基于外部世界場(chǎng)景信息的語言模型和所述傳統(tǒng)的語言模型,確定用 于建立機(jī)器翻譯模型的語言模型。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述基于外部世界場(chǎng)景信息的 語言模型和所述傳統(tǒng)的語言模型,確定用于建立機(jī)器翻譯模型的語言模型,包括: 對(duì)所述基于外部世界場(chǎng)景信息的語言模型和所述傳統(tǒng)的語言模型進(jìn)行線性對(duì)數(shù)處理, 將線性對(duì)數(shù)處理后的模型確定為用于建立機(jī)器翻譯模型的語言模型。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取外部世界場(chǎng)景信息,包括: 采用所述用戶使用的設(shè)備,對(duì)所述用戶所在外部世界場(chǎng)景進(jìn)行識(shí)別,得到所述外部世 界場(chǎng)景信息,所述用戶使用的設(shè)備包括:可穿戴設(shè)備,或者,移動(dòng)設(shè)備。
6. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述獲取待翻譯的文本,包括:接收文本信息,將所述文本確定為待翻譯的文本;或者, 接收語音信息,對(duì)所述語音信息進(jìn)行語音識(shí)別,將語音識(shí)別結(jié)果確定為待翻譯的文本; 或者, 接收?qǐng)D片信息,對(duì)所述圖片信息進(jìn)行OCR識(shí)別,將OCR識(shí)別結(jié)果確定為待翻譯的文本。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述待翻譯的文本是非用戶語言,翻譯結(jié) 果是用戶語言,所述方法還包括: 獲取用戶輸入的用戶語言的輸入語音,所述輸入語音包括:當(dāng)前輸入的輸入語音,和/ 或,歷史輸入的輸入語音; 對(duì)所述用戶語言的輸入語音進(jìn)行語音識(shí)別,得到語音識(shí)別結(jié)果; 根據(jù)所述語音識(shí)別結(jié)果和所述翻譯結(jié)果,對(duì)所述機(jī)器翻譯模型進(jìn)行修正。
8. -種機(jī)器翻譯裝置,其特征在于,包括: 第一獲取模塊,用于獲取待翻譯的文本; 第二獲取模塊,用于獲取預(yù)先建立的機(jī)器翻譯模型,其中,所述機(jī)器翻譯模型是根據(jù)外 部世界場(chǎng)景信息建立的; 翻譯模塊,用于采用所述機(jī)器翻譯模型,對(duì)所述待翻譯的文本進(jìn)行翻譯,得到翻譯結(jié) 果。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括:用于建立所述機(jī)器翻譯模型的建 立模塊,所述建立模塊包括: 第一單元,用于獲取外部世界場(chǎng)景信息; 第二單元,用于建立語言模型以及建立短語翻譯模型,其中,所述語言模型和/或所述 短語翻譯模型是根據(jù)所述外部世界場(chǎng)景信息建立的; 第三單元,用于根據(jù)所述語言模型和所述短語翻譯模型,建立所述機(jī)器翻譯模型。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,當(dāng)所述語言模型是根據(jù)所述外部世界場(chǎng) 景信息建立時(shí),所述第二單元具體用于: 根據(jù)所述外部世界場(chǎng)景信息建立基于外部世界場(chǎng)景信息的語言模型,并將所述基于外 部世界場(chǎng)景信息的語言模型確定為用于建立機(jī)器翻譯模型的語言模型;或者, 根據(jù)所述外部世界場(chǎng)景信息建立基于外部世界場(chǎng)景信息的語言模型,以及,獲取傳統(tǒng) 的語言模型,根據(jù)所述基于外部世界場(chǎng)景信息的語言模型和所述傳統(tǒng)的語言模型,確定用 于建立機(jī)器翻譯模型的語言模型。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第二單元進(jìn)一步具體用于: 對(duì)所述基于外部世界場(chǎng)景信息的語言模型和所述傳統(tǒng)的語言模型進(jìn)行線性對(duì)數(shù)處理, 將線性對(duì)數(shù)處理后的模型確定為用于建立機(jī)器翻譯模型的語言模型。
12. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一單元具體用于: 采用所述用戶使用的設(shè)備,對(duì)所述用戶所在外部世界場(chǎng)景進(jìn)行識(shí)別,得到所述外部世 界場(chǎng)景信息,所述用戶使用的設(shè)備包括:可穿戴設(shè)備,或者,移動(dòng)設(shè)備。
13. 根據(jù)權(quán)利要求8-12任一項(xiàng)所述的裝置,其特征在于,所述第一獲取模塊具體用于: 接收文本信息,將所述文本確定為待翻譯的文本;或者, 接收語音信息,對(duì)所述語音信息進(jìn)行語音識(shí)別,將語音識(shí)別結(jié)果確定為待翻譯的文本; 或者, 接收?qǐng)D片信息,對(duì)所述圖片信息進(jìn)行OCR識(shí)別,將OCR識(shí)別結(jié)果確定為待翻譯的文本。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述待翻譯的文本是非用戶語言,翻譯 結(jié)果是用戶語言,所述裝置還包括: 修正模塊,用于獲取用戶輸入的用戶語言的輸入語音,所述輸入語音包括:當(dāng)前輸入的 輸入語音,和/或,歷史輸入的輸入語音;對(duì)所述用戶語言的輸入語音進(jìn)行語音識(shí)別,得到 語音識(shí)別結(jié)果;根據(jù)所述語音識(shí)別結(jié)果和所述翻譯結(jié)果,對(duì)所述機(jī)器翻譯模型進(jìn)行修正。
【文檔編號(hào)】G06F17/28GK104391839SQ201410641792
【公開日】2015年3月4日 申請(qǐng)日期:2014年11月13日 優(yōu)先權(quán)日:2014年11月13日
【發(fā)明者】吳先超 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乐亭县| 如皋市| 夹江县| 镇平县| 璧山县| 东丽区| 鄂伦春自治旗| 临泽县| 泽普县| 灌阳县| 通辽市| 革吉县| 上饶县| 凤阳县| 碌曲县| 新源县| 云梦县| 莱州市| 台南市| 习水县| 玉溪市| 海南省| 龙山县| 桐庐县| 景东| 彭阳县| 涪陵区| 全椒县| 安图县| 景泰县| 嘉鱼县| 育儿| 永安市| 南雄市| 新源县| 抚顺县| 百色市| 林周县| 松溪县| 六盘水市| 洛阳市|