一種用于機器翻譯的調序模型的生成方法和裝置的制作方法

文檔序號：6339429閱讀：345來源：國知局

專利名稱：一種用于機器翻譯的調序模型的生成方法和裝置的制作方法
技術領域：
本發(fā)明涉及機器翻譯領域，特別涉及一種用于機器翻譯的調序模型的生成方法和直O(jiān)
背景技術：
近年來，基于短語的統(tǒng)計機器翻譯(phrase-based statistical machine translation)相比于IBM公司當初提出的基于單詞的統(tǒng)計機器翻譯(word-based statistical machine translation)在譯文質量上有了很大的進步，因而受到人們的廣泛關注。簡單地說，基于短語的統(tǒng)計機器翻譯在訓練時，首先將雙語語料庫中的雙語例句進行雙語詞對齊，隨后雙語詞對齊的基礎上抽取出帶概率的雙語短語表。在翻譯時，首先是將要翻譯的源語言句子與短語表中的源語言短語進行匹配，得到與源語言短語對應的目標語言短語，然后對目標語言短語進行調序，進而得到目標語言句子。在基于短語的統(tǒng)計機器翻譯系統(tǒng)中，存在三個比較重要的模型翻譯模型、調序模型以及語言模型。其中，調序模型是為了解決翻譯中存在的調序問題?，F有的調序模型主要是基于相鄰的短語。例如，在翻譯“人們將來的發(fā)展與他們幼年時的發(fā)展息息相關”時，調序模型考慮的是“與他們幼年時的發(fā)展”與“息息相關”之間的調序問題?；诙陶Z的調序模型存在以下兩個缺陷一是不能對非連續(xù)性的短語進行調序，例如不能對“與...息息相關”和“他們幼年時的發(fā)展”進行調序；二是調序模型依賴于整個短語，使得估計參數時存在數據稀疏問題，導致估計不準。為了提高調序模型的調序能力，部分研究者采用功能詞(function word)或者邊界詞(boundary word)等方式來解決數據稀疏問題，但上述解決方案的效果仍不理想，無法滿足機器翻譯需求。

發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種用于機器翻譯的調序模型的生成方法和裝置，以通過詞與詞之間的搭配信息來提高調序模型的調序能力。本發(fā)明為解決技術問題而采用的技術方案是提供一種用于機器翻譯的調序模型的生成方法，包括a.獲取雙語語料庫，所述雙語語料庫包括多個雙語例句對，每一所述雙語例句對包括源語言例句以及與所述源語言例句對應的目標語言例句；b.對所述源語言例句進行搭配抽取，以獲取源語言搭配詞對，每一所述源語言搭配詞對包括兩個具有搭配關系的源語言搭配詞；c.對所述源語言例句以及所述目標語言例句進行雙語詞對齊，并根據雙語詞對齊結果確定所述源語言搭配詞的對應譯文；d.根據所述源語言搭配詞在所述源語言例句中的順序以及所述對應譯文在所述目標語言例句的順序確定所述源語言搭配詞對的調序方向；e.對所述調序方向進行統(tǒng)計，獲取每一所述調序方向的調序概率，以形成調序模型。根據本發(fā)明之一優(yōu)選實施例，所述步驟b進一步包括bl.對所述源語言例句進行復制，以形成包括兩個所述源語言例句的源語言例句對；b2.對所述源語言例句對進行單語詞對齊，并根據單語詞對齊結果獲得一組源語言對齊詞對，每一所述源語言對齊詞對包括兩個具有對齊關系的源語言對齊詞；b3.從所述源語言對齊詞對中選擇所述源語言搭配詞對。根據本發(fā)明之一優(yōu)選實施例，在所述步驟1^2中，利用單語詞對齊模型對所述源語言例句對進行單語詞對齊。根據本發(fā)明之一優(yōu)選實施例，在所述步驟b3中，過濾掉對齊頻率小于第一閾值的所述源語言對齊詞對。根據本發(fā)明之一優(yōu)選實施例，在所述步驟b3中，基于所述源語言對齊詞對的對齊頻率計算所述源語言對齊詞對的對齊概率，根據所述對齊概率計算所述源語言對齊詞對的搭配概率，并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞對。根據本發(fā)明之一優(yōu)選實施例，在所述步驟C中，利用雙語詞對齊模型對所述源語言例句以及所述目標語言例句進行雙語詞對齊。根據本發(fā)明之一優(yōu)選實施例，所述調序方向包括所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相反。本發(fā)明為解決技術問題而采用的技術方案是提供一種用于機器翻譯的調序模型的生成裝置，包括雙語語料獲取單元，用于獲取雙語語料庫，所述雙語語料庫包括多個雙語例句對，每一所述雙語例句對包括源語言例句以及與所述源語言例句對應的目標語言例句；搭配抽取單元，用于對所述源語言例句進行搭配抽取，以獲取源語言搭配詞對，每一所述源語言搭配詞對包括兩個具有搭配關系的源語言搭配詞；雙語詞對齊單元，用于對所述源語言例句以及所述目標語言例句進行雙語詞對齊，并根據雙語詞對齊結果確定所述源語言搭配詞的對應譯文；調序方向確定單元，用于根據所述源語言搭配詞在所述源語言例句中的順序以及所述對應譯文在所述目標語言例句的順序確定所述源語言搭配詞對的調序方向；調序模型生成單元，用于對所述調序方向進行統(tǒng)計，獲取每一所述調序方向的調序概率，以形成調序模型。根據本發(fā)明之一優(yōu)選實施例，所述搭配抽取單元進一步包括源語言例句對形成單元，用于對所述源語言例句進行復制，以形成包括兩個所述源語言例句的源語言例句對；單語詞對齊單元，用于對所述源語言例句對進行單語詞對齊，并根據單語詞對齊結果獲得一組源語言對齊詞對，每一所述源語言對齊詞對包括兩個具有對齊關系的源語言對齊詞；源語言搭配詞對選擇單元，從所述源語言對齊詞對中選擇所述源語言搭配詞對。根據本發(fā)明之一優(yōu)選實施例，所述單語詞對齊單元利用單語詞對齊模型對所述源語言例句對進行單語詞對齊。根據本發(fā)明之一優(yōu)選實施例，所述源語言搭配詞對選擇單元過濾掉對齊頻率小于第一閾值的所述源語言對齊詞對。根據本發(fā)明之一優(yōu)選實施例，所述源語言搭配詞對選擇單元基于所述源語言對齊詞對的對齊頻率計算所述源語言對齊詞對的對齊概率，根據所述對齊概率計算所述源語言對齊詞對的搭配概率，并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞對。根據本發(fā)明之一優(yōu)選實施例，所述雙語詞對齊單元利用雙語詞對齊模型對所述源語言例句以及所述目標語言例句進行雙語詞對齊。根據本發(fā)明之一優(yōu)選實施例，所述調序方向包括所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相反。由以上技術方案可以看出，本發(fā)明提供的調序模型的生成方法及裝置基于源語言的詞與詞之間的搭配信息來建立調序模型，進而提高了調序模型的調序能力。

圖1是本發(fā)明實施例中的調序模型生成方法的流程示意圖；圖2是本發(fā)明實施例中的搭配抽取結果的示意圖；圖3是本發(fā)明實施例中的雙語詞對齊結果的示意圖；圖4是本發(fā)明實施例中的搭配抽取方法的流程示意圖；圖5是本發(fā)明實施例中的調序模型生成裝置的示意框圖；圖6是本發(fā)明實施例中的搭配抽取單元的示意框圖。
具體實施例方式下面結合附圖和實施例對本發(fā)明進行詳細說明。本發(fā)明利用源語言句子中的詞與詞之間的搭配信息來提高調序模型的調序能力，例如在以上例句中，如果能夠發(fā)現“與”和“息息相關”是一個搭配詞對，那么在調序過程中，考慮采用這樣的調序模型來約束二者的調序方向ρ (o I wi Wj) ο ^ (straight，inverted)在上述調序模型中，Wi和％表示在源語言句子中具有搭配關系的兩個源語言搭配詞，二者構成一源語言搭配詞對，ο表示調序方向，其中，“straight”表示源語言搭配詞Wi 和在源語言句子中的順序與源語言搭配詞Wi和的對應譯文在目標語言句子中的順序相同，“inverted”表示源語言搭配詞Wi和Wj在源語言句子中的順序與Wi和Wj的對應譯文在目標語言句子中的順序相反。請參閱圖1，圖1是本發(fā)明實施例中的調序模型生成方法的流程示意圖。在本實施例中，通過訓練的方式來生成上述模型，該調序模型生成方法主要包括以下幾個步驟在步驟SlOl中，獲取雙語語料庫。該雙語語料庫包括多個雙語例句對，每一雙語例句對包括源語言例句以及與源語言例句對應的目標語言例句。雙語語料庫在機器翻譯領域中被普遍使用，并可通過各種方式獲得，在此不再贅述。在步驟S102中，對源語言例句進行搭配抽取，以獲取源語言搭配詞對。如圖2所示，在本步驟中，可通過單語詞對齊的方式來獲取源語言搭配詞對。例如，在圖2中，“人們” 與“發(fā)展”、“將來”與“發(fā)展”以及“與”與“息息相關”均為兩個具有搭配關系的源語言搭配詞，進而分別構成一源語言搭配詞對。下文將詳細描述通過單語詞對齊方式來獲取源語言搭配詞對的搭配抽取方法。在步驟S103中，對雙語例句對中的源語言例句以及目標語言例句進行雙語詞對齊，并根據雙語詞對齊結果確定源語言搭配詞的對應譯文。如圖3所示，源語言搭配詞“人們”的對應譯文為“People”、“將來”的對應譯文為“future”、“發(fā)展”的對應譯文為“development”、“與”的對應譯文為“to”以及“息息相關”的對應譯文為“is closely related”。在本步驟中，雙語詞對齊可通過訓練好的雙語詞對齊模型來實現。雙語詞對齊模型及其訓練方法為本領域公知常識，在此不再贅述。在步驟S104中，根據源語言搭配詞在源語言例句中的順序以及源語言搭配詞的對應譯文在目標語言例句的順序確定源語言搭配詞對的調序方向。具體來說，如圖2-3所示，在源語言例句中，源語言搭配詞“人們”位于“發(fā)展”的前面，同時在目標語言例句中，“人們”的對應譯文“People”同樣位于“發(fā)展”的對應譯文“development”的前面。此時，認為源語言搭配詞對“人們”與“發(fā)展”的調序方向為“straight”，即源語言搭配詞在源語言例句中的順序與對應譯文在目標語言例句中的順序相同。同理，“將來”與“發(fā)展”的調序方向也是“straight”。進一步，在源語言例句中，源語言搭配詞“與”位于“息息相關”的前面，而在目標語言例句中，“與”的對應譯文“to”位于“息息相關”的對應譯文“is closely related”的后面，則認為源語言搭配詞對“與”與“息息相關”的調序方向是“inverted”，即源語言搭配詞在源語言例句中的順序與對應譯文在目標語言例句中的順序相反。在步驟S105中，對上述調序方向進行統(tǒng)計，獲取每一調序方向的調序概率，以形成調序模型。具體來說，每一源語言搭配詞對Wi和％的調序方向的調序概率為
權利要求
1.一種用于機器翻譯的調序模型的生成方法，其特征在于，所述生成方法包括以下步驟a.獲取雙語語料庫，所述雙語語料庫包括多個雙語例句對，每一所述雙語例句對包括源語言例句以及與所述源語言例句對應的目標語言例句；b.對所述源語言例句進行搭配抽取，以獲取源語言搭配詞對，每一所述源語言搭配詞對包括兩個具有搭配關系的源語言搭配詞；c.對所述源語言例句以及所述目標語言例句進行雙語詞對齊，并根據雙語詞對齊結果確定所述源語言搭配詞的對應譯文；d.根據所述源語言搭配詞在所述源語言例句中的順序以及所述對應譯文在所述目標語言例句的順序確定所述源語言搭配詞對的調序方向；e.對所述調序方向進行統(tǒng)計，獲取每一所述調序方向的調序概率，以形成調序模型。
2.如權利要求1所述的調序模型的生成方法，其特征在于，所述步驟b進一步包括 bl.對所述源語言例句進行復制，以形成包括兩個所述源語言例句的源語言例句對； b2.對所述源語言例句對進行單語詞對齊，并根據單語詞對齊結果獲得一組源語言對齊詞對，每一所述源語言對齊詞對包括兩個具有對齊關系的源語言對齊詞； b3.從所述源語言對齊詞對中選擇所述源語言搭配詞對。
3.如權利要求2所述的調序模型的生成方法，其特征在于，在所述步驟1^2中，利用單語詞對齊模型對所述源語言例句對進行單語詞對齊。
4.如權利要求2所述的調序模型的生成方法，其特征在于，在所述步驟b3中，過濾掉對齊頻率小于第一閾值的所述源語言對齊詞對。
5.如權利要求2所述的調序模型的生成方法，其特征在于，在所述步驟b3中，基于所述源語言對齊詞對的對齊頻率計算所述源語言對齊詞對的對齊概率，根據所述對齊概率計算所述源語言對齊詞對的搭配概率，并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞對。
6.如權利要求1所述的調序模型的生成方法，其特征在于，在所述步驟c中，利用雙語詞對齊模型對所述源語言例句以及所述目標語言例句進行雙語詞對齊。
7.如權利要求1所述的調序模型的生成方法，其特征在于，所述調序方向包括所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相反。
8.一種用于機器翻譯的調序模型的生成裝置，其特征在于，所述生成裝置包括雙語語料獲取單元，用于獲取雙語語料庫，所述雙語語料庫包括多個雙語例句對，每一所述雙語例句對包括源語言例句以及與所述源語言例句對應的目標語言例句；搭配抽取單元，用于對所述源語言例句進行搭配抽取，以獲取源語言搭配詞對，每一所述源語言搭配詞對包括兩個具有搭配關系的源語言搭配詞；雙語詞對齊單元，用于對所述源語言例句以及所述目標語言例句進行雙語詞對齊，并根據雙語詞對齊結果確定所述源語言搭配詞的對應譯文；調序方向確定單元，用于根據所述源語言搭配詞在所述源語言例句中的順序以及所述對應譯文在所述目標語言例句的順序確定所述源語言搭配詞對的調序方向；調序模型生成單元，用于對所述調序方向進行統(tǒng)計，獲取每一所述調序方向的調序概率，以形成調序模型。
9.如權利要求8所述的調序模型的生成裝置，其特征在于，所述搭配抽取單元進一步包括源語言例句對形成單元，用于對所述源語言例句進行復制，以形成包括兩個所述源語言例句的源語言例句對；單語詞對齊單元，用于對所述源語言例句對進行單語詞對齊，并根據單語詞對齊結果獲得一組源語言對齊詞對，每一所述源語言對齊詞對包括兩個具有對齊關系的源語言對齊詞；源語言搭配詞對選擇單元，從所述源語言對齊詞對中選擇所述源語言搭配詞對。
10.如權利要求9所述的調序模型的生成裝置，其特征在于，所述單語詞對齊單元利用單語詞對齊模型對所述源語言例句對進行單語詞對齊。
11.如權利要求9所述的調序模型的生成裝置，其特征在于，所述源語言搭配詞對選擇單元過濾掉對齊頻率小于第一閾值的所述源語言對齊詞對。
12.如權利要求9所述的調序模型的生成裝置，其特征在于，所述源語言搭配詞對選擇單元基于所述源語言對齊詞對的對齊頻率計算所述源語言對齊詞對的對齊概率，根據所述對齊概率計算所述源語言對齊詞對的搭配概率，并選擇搭配概率大于第二閾值的所述源語言對齊詞對作為所述源語言搭配詞對。
13.如權利要求8所述的調序模型的生成裝置，其特征在于，所述雙語詞對齊單元利用雙語詞對齊模型對所述源語言例句以及所述目標語言例句進行雙語詞對齊。
14.如權利要求8所述的調序模型的生成裝置，其特征在于，所述調序方向包括所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相同以及所述源語言搭配詞在所述源語言例句中的順序與所述對應譯文在所述目標語言例句中的順序相反。
全文摘要
本發(fā)明提供了一種用于機器翻譯的調序模型的生成方法，包括獲取雙語語料庫；對雙語語料庫中的源語言例句進行搭配抽取，以獲取源語言搭配詞對；對源語言例句以及目標語言例句進行雙語詞對齊，并根據雙語詞對齊結果確定源語言搭配詞的對應譯文；根據源語言搭配詞在源語言例句中的順序以及對應譯文在目標語言例句的順序確定源語言搭配詞對的調序方向；對調序方向進行統(tǒng)計，獲取每一調序方向的調序概率，以形成調序模型。通過上述方式，基于源語言的詞與詞之間的搭配信息建立調序模型，進而提高調序模型的調序能力。
文檔編號G06F17/28GK102053959SQ20101060003
公開日2011年5月11日申請日期2010年12月13日優(yōu)先權日2010年12月13日
發(fā)明者吳華, 王海峰, 胡曉光申請人:百度在線網絡技術(北京)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：吳華;胡曉光;王海峰
技術所有人：百度在線網絡技術（北京）有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于機器翻譯的調序模型的生成方法和裝置的制作方法