專利名稱:一種用于機器翻譯的調序模型的生成方法和裝置的制作方法
技術領域:
本發(fā)明涉及機器翻譯領域,特別涉及一種用于機器翻譯的調序模型的生成方法和直O(jiān)
背景技術:
近年來,基于短語的統(tǒng)計機器翻譯(phrase-based statistical machine translation)相比于IBM公司當初提出的基于單詞的統(tǒng)計機器翻譯(word-based statistical machine translation)在譯文質量上有了很大的進步,因而受到人們的廣泛 關注。簡單地說,基于短語的統(tǒng)計機器翻譯在訓練時,首先將雙語語料庫中的雙語例句進行 雙語詞對齊,隨后雙語詞對齊的基礎上抽取出帶概率的雙語短語表。在翻譯時,首先是將要 翻譯的源語言句子與短語表中的源語言短語進行匹配,得到與源語言短語對應的目標語言 短語,然后對目標語言短語進行調序,進而得到目標語言句子。在基于短語的統(tǒng)計機器翻譯系統(tǒng)中,存在三個比較重要的模型翻譯模型、調序模 型以及語言模型。其中,調序模型是為了解決翻譯中存在的調序問題?,F有的調序模型主 要是基于相鄰的短語。例如,在翻譯“人們將來的發(fā)展與他們幼年時的發(fā)展息息相關”時, 調序模型考慮的是“與他們幼年時的發(fā)展”與“息息相關”之間的調序問題?;诙陶Z的調 序模型存在以下兩個缺陷一是不能對非連續(xù)性的短語進行調序,例如不能對“與...息息 相關”和“他們幼年時的發(fā)展”進行調序;二是調序模型依賴于整個短語,使得估計參數時存 在數據稀疏問題,導致估計不準。為了提高調序模型的調序能力,部分研究者采用功能詞(function word)或者邊 界詞(boundary word)等方式來解決數據稀疏問題,但上述解決方案的效果仍不理想,無法 滿足機器翻譯需求。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種用于機器翻譯的調序模型的生成方法和 裝置,以通過詞與詞之間的搭配信息來提高調序模型的調序能力。本發(fā)明為解決技術問題而采用的技術方案是提供一種用于機器翻譯的調序模型 的生成方法,包括a.獲取雙語語料庫,所述雙語語料庫包括多個雙語例句對,每一所述雙 語例句對包括源語言例句以及與所述源語言例句對應的目標語言例句;b.對所述源語言 例句進行搭配抽取,以獲取源語言搭配詞對,每一所述源語言搭配詞對包括兩個具有搭配 關系的源語言搭配詞;c.對所述源語言例句以及所述目標語言例句進行雙語詞對齊,并根 據雙語詞對齊結果確定所述源語言搭配詞的對應譯文;d.根據所述源語言搭配詞在所述 源語言例句中的順序以及所述對應譯文在所述目標語言例句的順序確定所述源語言搭配 詞對的調序方向;e.對所述調序方向進行統(tǒng)計,獲取每一所述調序方向的調序概率,以形 成調序模型。根據本發(fā)明之一優(yōu)選實施例,所述步驟b進一步包括bl.對所述源語言例句進行復制,以形成包括兩個所述源語言例句的源語言例句對;b2.對所述源語言例句對進行單 語詞對齊,并根據單語詞對齊結果獲得一組源語言對齊詞對,每一所述源語言對齊詞對包 括兩個具有對齊關系的源語言對齊詞;b3.從所述源語言對齊詞對中選擇所述源語言搭配 詞對。根據本發(fā)明之一優(yōu)選實施例,在所述步驟1^2中,利用單語詞對齊模型對所述源語 言例句對進行單語詞對齊。根據本發(fā)明之一優(yōu)選實施例,在所述步驟b3中,過濾掉對齊頻率小于第一閾值的 所述源語言對齊詞對。根據本發(fā)明之一優(yōu)選實施例,在所述步驟b3中,基于所述源語言對齊詞對的對齊 頻率計算所述源語言對齊詞對的對齊概率,根據所述對齊概率計算所述源語言對齊詞對的 搭配概率,并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞 對。根據本發(fā)明之一優(yōu)選實施例,在所述步驟C中,利用雙語詞對齊模型對所述源語 言例句以及所述目標語言例句進行雙語詞對齊。根據本發(fā)明之一優(yōu)選實施例,所述調序方向包括所述源語言搭配詞在所述源語言 例句中的順序與所述對應譯文在所述目標語言例句中的順序相同以及所述源語言搭配詞 在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相反。本發(fā)明為解決技術問題而采用的技術方案是提供一種用于機器翻譯的調序模型 的生成裝置,包括雙語語料獲取單元,用于獲取雙語語料庫,所述雙語語料庫包括多個雙 語例句對,每一所述雙語例句對包括源語言例句以及與所述源語言例句對應的目標語言例 句;搭配抽取單元,用于對所述源語言例句進行搭配抽取,以獲取源語言搭配詞對,每一所 述源語言搭配詞對包括兩個具有搭配關系的源語言搭配詞;雙語詞對齊單元,用于對所述 源語言例句以及所述目標語言例句進行雙語詞對齊,并根據雙語詞對齊結果確定所述源語 言搭配詞的對應譯文;調序方向確定單元,用于根據所述源語言搭配詞在所述源語言例句 中的順序以及所述對應譯文在所述目標語言例句的順序確定所述源語言搭配詞對的調序 方向;調序模型生成單元,用于對所述調序方向進行統(tǒng)計,獲取每一所述調序方向的調序概 率,以形成調序模型。根據本發(fā)明之一優(yōu)選實施例,所述搭配抽取單元進一步包括源語言例句對形成 單元,用于對所述源語言例句進行復制,以形成包括兩個所述源語言例句的源語言例句對; 單語詞對齊單元,用于對所述源語言例句對進行單語詞對齊,并根據單語詞對齊結果獲得 一組源語言對齊詞對,每一所述源語言對齊詞對包括兩個具有對齊關系的源語言對齊詞; 源語言搭配詞對選擇單元,從所述源語言對齊詞對中選擇所述源語言搭配詞對。根據本發(fā)明之一優(yōu)選實施例,所述單語詞對齊單元利用單語詞對齊模型對所述源 語言例句對進行單語詞對齊。根據本發(fā)明之一優(yōu)選實施例,所述源語言搭配詞對選擇單元過濾掉對齊頻率小于 第一閾值的所述源語言對齊詞對。根據本發(fā)明之一優(yōu)選實施例,所述源語言搭配詞對選擇單元基于所述源語言對齊 詞對的對齊頻率計算所述源語言對齊詞對的對齊概率,根據所述對齊概率計算所述源語言 對齊詞對的搭配概率,并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞對。根據本發(fā)明之一優(yōu)選實施例,所述雙語詞對齊單元利用雙語詞對齊模型對所述源 語言例句以及所述目標語言例句進行雙語詞對齊。根據本發(fā)明之一優(yōu)選實施例,所述調序方向包括所述源語言搭配詞在所述源語言 例句中的順序與所述對應譯文在所述目標語言例句中的順序相同以及所述源語言搭配詞 在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相反。由以上技術方案可以看出,本發(fā)明提供的調序模型的生成方法及裝置基于源語言 的詞與詞之間的搭配信息來建立調序模型,進而提高了調序模型的調序能力。
圖1是本發(fā)明實施例中的調序模型生成方法的流程示意圖;圖2是本發(fā)明實施例中的搭配抽取結果的示意圖;圖3是本發(fā)明實施例中的雙語詞對齊結果的示意圖;圖4是本發(fā)明實施例中的搭配抽取方法的流程示意圖;圖5是本發(fā)明實施例中的調序模型生成裝置的示意框圖;圖6是本發(fā)明實施例中的搭配抽取單元的示意框圖。
具體實施例方式下面結合附圖和實施例對本發(fā)明進行詳細說明。本發(fā)明利用源語言句子中的詞與詞之間的搭配信息來提高調序模型的調序能力, 例如在以上例句中,如果能夠發(fā)現“與”和“息息相關”是一個搭配詞對,那么在調序過程中, 考慮采用這樣的調序模型來約束二者的調序方向ρ (o I wi Wj) ο ^ (straight,inverted)在上述調序模型中,Wi和%表示在源語言句子中具有搭配關系的兩個源語言搭配 詞,二者構成一源語言搭配詞對,ο表示調序方向,其中,“straight”表示源語言搭配詞Wi 和 在源語言句子中的順序與源語言搭配詞Wi和 的對應譯文在目標語言句子中的順序 相同,“inverted”表示源語言搭配詞Wi和Wj在源語言句子中的順序與Wi和Wj的對應譯文 在目標語言句子中的順序相反。請參閱圖1,圖1是本發(fā)明實施例中的調序模型生成方法的流程示意圖。在本實施 例中,通過訓練的方式來生成上述模型,該調序模型生成方法主要包括以下幾個步驟在步驟SlOl中,獲取雙語語料庫。該雙語語料庫包括多個雙語例句對,每一雙語 例句對包括源語言例句以及與源語言例句對應的目標語言例句。雙語語料庫在機器翻譯領 域中被普遍使用,并可通過各種方式獲得,在此不再贅述。在步驟S102中,對源語言例句進行搭配抽取,以獲取源語言搭配詞對。如圖2所 示,在本步驟中,可通過單語詞對齊的方式來獲取源語言搭配詞對。例如,在圖2中,“人們” 與“發(fā)展”、“將來”與“發(fā)展”以及“與”與“息息相關”均為兩個具有搭配關系的源語言搭配 詞,進而分別構成一源語言搭配詞對。下文將詳細描述通過單語詞對齊方式來獲取源語言 搭配詞對的搭配抽取方法。在步驟S103中,對雙語例句對中的源語言例句以及目標語言例句進行雙語詞對齊,并根據雙語詞對齊結果確定源語言搭配詞的對應譯文。如圖3所示,源語言搭配 詞“人們”的對應譯文為“People”、“將來”的對應譯文為“future”、“發(fā)展”的對應譯文 為“development”、“與”的對應譯文為“to”以及“息息相關”的對應譯文為“is closely related”。在本步驟中,雙語詞對齊可通過訓練好的雙語詞對齊模型來實現。雙語詞對齊 模型及其訓練方法為本領域公知常識,在此不再贅述。在步驟S104中,根據源語言搭配詞在源語言例句中的順序以及源語言搭配詞的 對應譯文在目標語言例句的順序確定源語言搭配詞對的調序方向。具體來說,如圖2-3所 示,在源語言例句中,源語言搭配詞“人們”位于“發(fā)展”的前面,同時在目標語言例句中,“人 們”的對應譯文“People”同樣位于“發(fā)展”的對應譯文“development”的前面。此時,認 為源語言搭配詞對“人們”與“發(fā)展”的調序方向為“straight”,即源語言搭配詞在源語言 例句中的順序與對應譯文在目標語言例句中的順序相同。同理,“將來”與“發(fā)展”的調序 方向也是“straight”。進一步,在源語言例句中,源語言搭配詞“與”位于“息息相關”的前 面,而在目標語言例句中,“與”的對應譯文“to”位于“息息相關”的對應譯文“is closely related”的后面,則認為源語言搭配詞對“與”與“息息相關”的調序方向是“inverted”, 即源語言搭配詞在源語言例句中的順序與對應譯文在目標語言例句中的順序相反。在步驟S105中,對上述調序方向進行統(tǒng)計,獲取每一調序方向的調序概率,以形 成調序模型。具體來說,每一源語言搭配詞對Wi和%的調序方向的調序概率為
權利要求
1.一種用于機器翻譯的調序模型的生成方法,其特征在于,所述生成方法包括以下步驟a.獲取雙語語料庫,所述雙語語料庫包括多個雙語例句對,每一所述雙語例句對包括 源語言例句以及與所述源語言例句對應的目標語言例句;b.對所述源語言例句進行搭配抽取,以獲取源語言搭配詞對,每一所述源語言搭配詞 對包括兩個具有搭配關系的源語言搭配詞;c.對所述源語言例句以及所述目標語言例句進行雙語詞對齊,并根據雙語詞對齊結果 確定所述源語言搭配詞的對應譯文;d.根據所述源語言搭配詞在所述源語言例句中的順序以及所述對應譯文在所述目標 語言例句的順序確定所述源語言搭配詞對的調序方向;e.對所述調序方向進行統(tǒng)計,獲取每一所述調序方向的調序概率,以形成調序模型。
2.如權利要求1所述的調序模型的生成方法,其特征在于,所述步驟b進一步包括 bl.對所述源語言例句進行復制,以形成包括兩個所述源語言例句的源語言例句對; b2.對所述源語言例句對進行單語詞對齊,并根據單語詞對齊結果獲得一組源語言對齊詞對,每一所述源語言對齊詞對包括兩個具有對齊關系的源語言對齊詞; b3.從所述源語言對齊詞對中選擇所述源語言搭配詞對。
3.如權利要求2所述的調序模型的生成方法,其特征在于,在所述步驟1^2中,利用單語 詞對齊模型對所述源語言例句對進行單語詞對齊。
4.如權利要求2所述的調序模型的生成方法,其特征在于,在所述步驟b3中,過濾掉對 齊頻率小于第一閾值的所述源語言對齊詞對。
5.如權利要求2所述的調序模型的生成方法,其特征在于,在所述步驟b3中,基于所述 源語言對齊詞對的對齊頻率計算所述源語言對齊詞對的對齊概率,根據所述對齊概率計算 所述源語言對齊詞對的搭配概率,并選擇搭配概率大于第二閾值的所述源語言對齊詞對作 為所述源語言搭配詞對。
6.如權利要求1所述的調序模型的生成方法,其特征在于,在所述步驟c中,利用雙語 詞對齊模型對所述源語言例句以及所述目標語言例句進行雙語詞對齊。
7.如權利要求1所述的調序模型的生成方法,其特征在于,所述調序方向包括所述源 語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相 同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例 句中的順序相反。
8.一種用于機器翻譯的調序模型的生成裝置,其特征在于,所述生成裝置包括 雙語語料獲取單元,用于獲取雙語語料庫,所述雙語語料庫包括多個雙語例句對,每一所述雙語例句對包括源語言例句以及與所述源語言例句對應的目標語言例句;搭配抽取單元,用于對所述源語言例句進行搭配抽取,以獲取源語言搭配詞對,每一所 述源語言搭配詞對包括兩個具有搭配關系的源語言搭配詞;雙語詞對齊單元,用于對所述源語言例句以及所述目標語言例句進行雙語詞對齊,并 根據雙語詞對齊結果確定所述源語言搭配詞的對應譯文;調序方向確定單元,用于根據所述源語言搭配詞在所述源語言例句中的順序以及所述 對應譯文在所述目標語言例句的順序確定所述源語言搭配詞對的調序方向;調序模型生成單元,用于對所述調序方向進行統(tǒng)計,獲取每一所述調序方向的調序概 率,以形成調序模型。
9.如權利要求8所述的調序模型的生成裝置,其特征在于,所述搭配抽取單元進一步 包括源語言例句對形成單元,用于對所述源語言例句進行復制,以形成包括兩個所述源語 言例句的源語言例句對;單語詞對齊單元,用于對所述源語言例句對進行單語詞對齊,并根據單語詞對齊結果 獲得一組源語言對齊詞對,每一所述源語言對齊詞對包括兩個具有對齊關系的源語言對齊 詞;源語言搭配詞對選擇單元,從所述源語言對齊詞對中選擇所述源語言搭配詞對。
10.如權利要求9所述的調序模型的生成裝置,其特征在于,所述單語詞對齊單元利用 單語詞對齊模型對所述源語言例句對進行單語詞對齊。
11.如權利要求9所述的調序模型的生成裝置,其特征在于,所述源語言搭配詞對選擇 單元過濾掉對齊頻率小于第一閾值的所述源語言對齊詞對。
12.如權利要求9所述的調序模型的生成裝置,其特征在于,所述源語言搭配詞對選擇 單元基于所述源語言對齊詞對的對齊頻率計算所述源語言對齊詞對的對齊概率,根據所述 對齊概率計算所述源語言對齊詞對的搭配概率,并選擇搭配概率大于第二閾值的所述源語 言對齊詞對作為所述源語言搭配詞對。
13.如權利要求8所述的調序模型的生成裝置,其特征在于,所述雙語詞對齊單元利用 雙語詞對齊模型對所述源語言例句以及所述目標語言例句進行雙語詞對齊。
14.如權利要求8所述的調序模型的生成裝置,其特征在于,所述調序方向包括所述源 語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相 同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例 句中的順序相反。
全文摘要
本發(fā)明提供了一種用于機器翻譯的調序模型的生成方法,包括獲取雙語語料庫;對雙語語料庫中的源語言例句進行搭配抽取,以獲取源語言搭配詞對;對源語言例句以及目標語言例句進行雙語詞對齊,并根據雙語詞對齊結果確定源語言搭配詞的對應譯文;根據源語言搭配詞在源語言例句中的順序以及對應譯文在目標語言例句的順序確定源語言搭配詞對的調序方向;對調序方向進行統(tǒng)計,獲取每一調序方向的調序概率,以形成調序模型。通過上述方式,基于源語言的詞與詞之間的搭配信息建立調序模型,進而提高調序模型的調序能力。
文檔編號G06F17/28GK102053959SQ20101060003
公開日2011年5月11日 申請日期2010年12月13日 優(yōu)先權日2010年12月13日
發(fā)明者吳華, 王海峰, 胡曉光 申請人:百度在線網絡技術(北京)有限公司