欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

機器翻譯方法及系統(tǒng)的制作方法

文檔序號:6626663閱讀:246來源:國知局
機器翻譯方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種機器翻譯方法及系統(tǒng),屬于自然語言處理研究領(lǐng)域。所述方法包括:訓(xùn)練過程和翻譯過程,通過抽取源語言句子的謂詞論元結(jié)構(gòu),結(jié)合目標(biāo)語言的詞法分析結(jié)果的詞串,形成樹到串雙語對齊語料,再利用謂詞論元結(jié)構(gòu)信息指導(dǎo)樹到串機器翻譯規(guī)則的抽取和解碼過程,從而直接將謂詞論元結(jié)構(gòu)建模到樹到串機器翻譯中。本發(fā)明通過將謂詞論元結(jié)構(gòu)建模到樹到串機器翻譯中,解決了現(xiàn)有技術(shù)中被抽取的統(tǒng)計翻譯規(guī)則的冗余規(guī)則數(shù)量非常大的問題,達到了降低冗余規(guī)則數(shù)量,改善語義結(jié)構(gòu)和語義相關(guān)性,提高長距離調(diào)序性能,提高翻譯質(zhì)量的效果。
【專利說明】機器翻譯方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理研究領(lǐng)域,特別涉及一種機器翻譯方法及系統(tǒng)。

【背景技術(shù)】
[0002] 當(dāng)前,機器翻譯的主流方法大致可以分為基于規(guī)則和基于語料庫兩種方法,基于 語料庫的方法又可以細分為基于實例的方法和基于統(tǒng)計的方法?;诮y(tǒng)計的機器翻譯方法 能夠以雙語平行語料庫為學(xué)習(xí)數(shù)據(jù),通過訓(xùn)練自動獲取翻譯規(guī)則,同時,結(jié)合語言模型對測 試語句進行翻譯。隨著統(tǒng)計機器翻譯模型的不斷改良,先后出現(xiàn)了基于詞的、基于短語和基 于句法結(jié)構(gòu)的統(tǒng)計模型,譯文質(zhì)量得到不斷改善。
[0003] 但是,傳統(tǒng)的統(tǒng)計機器翻譯模型,更多地利用句子的層次結(jié)構(gòu)片段和屬性進行建 模,要提高統(tǒng)計機器翻譯系統(tǒng)的性能,則要求在建模的過程中增加更多的句法結(jié)構(gòu)和語義 信息。
[0004] 既有的統(tǒng)計機器翻譯模型,在源語言和目標(biāo)語言之間的句法結(jié)構(gòu)存在較大的差異 性時,調(diào)序顯得極其重要卻又相當(dāng)困難。既有統(tǒng)計模型在建模時,充分考慮了解決局部調(diào) 序的對策。但是,這些傳統(tǒng)技術(shù),在解決諸如日語句法的主賓謂(SOV,Subject-Object-verb) 結(jié)構(gòu)和漢語的主謂賓 (SVO, Subject-Verb-Object) 結(jié)構(gòu)之間的差異性問題時,遭 遇困難。很多研究人員,采用前處理和后處理的方式,對句法機構(gòu)進行調(diào)整,以降低語言結(jié) 構(gòu)上的差異性。此類方法并沒有從統(tǒng)計建模的角度,對句法結(jié)構(gòu)的全局調(diào)序給予合理的解 決方案。因此,融合更多的句法結(jié)構(gòu)和語義信息,對統(tǒng)計建模進行改良是一種良好的解決方 案。該方案可以有效地推動統(tǒng)計機器翻譯理論的發(fā)展,實現(xiàn)真正意義上的統(tǒng)計和規(guī)則相融 合的機器翻譯方法,達到降低獲取的冗余規(guī)則數(shù)量,改善語義結(jié)構(gòu)和語義相關(guān)性,提高長距 尚調(diào)序性能,提商翻譯質(zhì)量。
[0005] 謂詞論元結(jié)構(gòu)(PAS,Predicate Argument Structure)是一種淺層語義結(jié)構(gòu),用來 表示謂詞和句子成分的論元之間的謂詞邏輯關(guān)系,通過使用施事、受事及謂詞等表現(xiàn)句子 成分的淺層語義關(guān)系,它從某種程度上就表示出句子的主體框架結(jié)構(gòu)及其語義屬性。另一 方面,句法結(jié)構(gòu)包含主謂賓等成分。謂詞論元結(jié)構(gòu)和句法結(jié)構(gòu),可以結(jié)合句子的中心謂詞的 句型特點進行融合,在句法結(jié)構(gòu)的詞位和語義結(jié)構(gòu)的義位基本一致的前提下,可以把施事 和受事作為主語或賓語等句法結(jié)構(gòu)成份的特征屬性,來實現(xiàn)句法結(jié)構(gòu)和語義結(jié)構(gòu)的融合。 如使用格語法中的格框架和依存結(jié)構(gòu)分析樹,是一個很好地融合句法結(jié)構(gòu)和語義結(jié)構(gòu)的方 案。
[0006] 謂詞論元結(jié)構(gòu)是構(gòu)式語法理論的基礎(chǔ),構(gòu)式語法理論是對轉(zhuǎn)換生成語法理論的批 判、繼承和發(fā)展的結(jié)果。構(gòu)式語法(Construction Grammar),也稱為"構(gòu)件語法"、"框架語 法"、"構(gòu)塊式語法"、"架構(gòu)語法"等。
[0007] 構(gòu)式語法繼承了費爾默提出的框架語義學(xué)的理論??蚣苷Z義學(xué)注重研究如何有效 解決話語整體的語義理解和描寫問題,通過詞匯意義與語法模式之間的聯(lián)系,實現(xiàn)對概念 結(jié)構(gòu)和語義-句法映射關(guān)系的描寫。因此,框架語義學(xué)是格語法理論的系統(tǒng)化、具體化,是 格語法發(fā)展的第三個階段。
[0008] 通常,框架語義學(xué)以謂詞為中心,通過使用謂詞的框架及其框架元素(即在謂 詞-論元結(jié)構(gòu)中的論元)之間的語義關(guān)系實現(xiàn)框架語義描述。在其描述過程中,動詞與具 體的框架角色相聯(lián),通過構(gòu)式實現(xiàn)各個論元的角色功能(例如施事、受事、目標(biāo)),各個論元 則具有相應(yīng)的語法功能項,如主語(Sub),直接賓語(Ob j)或者間接賓語(Ob j2)等。
[0009] 因此,利用謂詞論元結(jié)構(gòu)和句法結(jié)構(gòu)信息作為全局調(diào)序的關(guān)鍵有效特征進行統(tǒng)計 機器翻譯建模,可有助于實現(xiàn)真正意義上的基于語義的統(tǒng)計機器翻譯模型,推動統(tǒng)計機器 翻譯理論的發(fā)展,提高翻譯質(zhì)量。
[0010] 一種基于謂詞論元結(jié)構(gòu)的層次機器翻譯方法:將句子中所有的謂詞論元結(jié)構(gòu)有機 的組織成圖狀結(jié)構(gòu),再將此結(jié)構(gòu)作為改進層次短語機器翻譯的頂層語義骨架結(jié)構(gòu),從而直 接將謂詞論元結(jié)構(gòu)建模到層次短語機器翻譯中。直接在謂詞語義結(jié)構(gòu)上對翻譯過程進行建 模,將語義獨立的片段單獨翻譯并依據(jù)它們之間的結(jié)構(gòu)組合成最終譯文,由此得到的譯文 可以有效地解決長距離調(diào)序問題,提高機器翻譯的譯文質(zhì)量。
[0011] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:在進行層次機 器翻譯方法的建模過程中,并行抽取層次短語翻譯規(guī)則和謂詞語義結(jié)構(gòu)規(guī)則,由于沒有有 效地使用句法結(jié)構(gòu)或謂詞語義結(jié)構(gòu)規(guī)則指導(dǎo)層次短語翻譯規(guī)則的抽取,使得被抽取的層次 短語翻譯規(guī)則的冗余規(guī)則數(shù)量非常大,從而致使機器翻譯性能非常差。


【發(fā)明內(nèi)容】

[0012] 為了解決現(xiàn)有技術(shù)中被抽取的層次短語翻譯規(guī)則的冗余規(guī)則數(shù)量非常大,從而致 使機器翻譯性能非常差的問題,本發(fā)明實施例提供了一種機器翻譯方法及系統(tǒng)。所述技術(shù) 方案如下:
[0013] 第一方面,提供了一種機器翻譯方法,所述方法包括翻譯步驟,
[0014] 所述翻譯步驟包括:
[0015] 獲取輸入的源語言測試句子;
[0016] 對所述源語言測試句子進行詞法分析,得到所述源語言測試句子的詞法分析結(jié) 果;
[0017] 對所述源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所述源語言測試 句子的句法分析結(jié)果;
[0018] 利用所述源語言測試句子的句法分析結(jié)果,抽取所述源語言測試句子的謂詞論元 結(jié)構(gòu);
[0019] 利用所述謂語論元結(jié)構(gòu)以及翻譯規(guī)則庫中預(yù)先訓(xùn)練得到的翻譯規(guī)則,對所述源語 言測試句子進行翻譯解碼處理,輸出語言為所述目標(biāo)語言的翻譯結(jié)果。
[0020] 可選的,所述方法還包括訓(xùn)練步驟,
[0021] 所述訓(xùn)練步驟包括:
[0022] 獲取輸入的雙語平行語料的源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練句子;
[0023] 分別對所述源語言訓(xùn)練句子和所述目標(biāo)語言訓(xùn)練句子進行詞法分析,得到所述源 語言訓(xùn)練句子的詞法分析結(jié)果和所述目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果;
[0024] 利用所述源語言訓(xùn)練句子的詞法分析結(jié)果,對所述源語言訓(xùn)練句子進行句法結(jié)構(gòu) 分析,得到所述源語言訓(xùn)練句子的句法分析結(jié)果;
[0025] 利用所述源語言訓(xùn)練句子的詞法分析結(jié)果和所述目標(biāo)語言訓(xùn)練句子的詞法分析 結(jié)果進行詞對齊處理,得到詞對齊處理結(jié)果;
[0026] 利用所述源語言訓(xùn)練句子的句法分析結(jié)果和所述詞對齊處理結(jié)果,進行樹到串對 齊處理,生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫;
[0027] 利用所述源語言訓(xùn)練句子的句法分析結(jié)果,抽取所述源語言訓(xùn)練句子的謂詞論元 結(jié)構(gòu);
[0028] 利用所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)以及所述樹到串對齊雙語語料庫,抽取 翻譯規(guī)則,將所述翻譯規(guī)則放入所述翻譯規(guī)則庫中。
[0029] 可選的,所述對所述源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所 述源語言測試句子的句法分析結(jié)果,包括:
[0030] 采用依存結(jié)構(gòu)分析或短語結(jié)構(gòu)分析的方法,對所述源語言測試句子的詞法分析結(jié) 果進行句法結(jié)構(gòu)分析,得到所述句法分析結(jié)果;
[0031] 或,
[0032] 采用依存結(jié)構(gòu)樹和短語結(jié)構(gòu)樹相互轉(zhuǎn)化的方法,對所述源語言測試句子的詞法分 析結(jié)果進行句法結(jié)構(gòu)分析,得到所述句法分析結(jié)果。
[0033] 可選的,所述利用所述源語言訓(xùn)練句子的句法分析結(jié)果和所述詞對齊處理結(jié)果, 進行樹到串對齊處理,生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫,包括:
[0034] 根據(jù)依存樹到串或短語結(jié)構(gòu)樹到串對齊的方法,對所述源語言句法分析結(jié)果和所 述詞對齊處理結(jié)果進行樹到串對齊處理,生成樹到串對齊雙語語料,得到所述樹到串對齊 雙語語料庫。
[0035] 可選的,在所述抽取所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)之后,還包括:
[0036] 對所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)中的構(gòu)成元素分別進行泛化擴展;
[0037] 在所述抽取翻譯規(guī)則之后,還包括:
[0038] 對抽取的所述翻譯規(guī)則進行泛化擴展,利用泛化擴展后的所述翻譯規(guī)則生成所述 翻譯規(guī)則庫。
[0039] 可選的,所述利用所述源語言測試句子的句法分析結(jié)果,抽取所述源語言測試句 子的謂詞論元結(jié)構(gòu),包括:
[0040] 采用謂詞格框架,從所述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn) 練句子的謂詞論元結(jié)構(gòu);
[0041] 或,
[0042] 采用格語法或依存文法,從所述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源 語言訓(xùn)練句子的謂詞論元結(jié)構(gòu);
[0043] 或,
[0044] 采用所述源語言訓(xùn)練句子的依存樹或短語結(jié)構(gòu)樹,從所述句法分析結(jié)果中抽取謂 詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)。
[0045] 第二方面,提供了一種機器翻譯系統(tǒng),所述系統(tǒng)包括翻譯子系統(tǒng),
[0046] 所述翻譯子系統(tǒng)包括:
[0047] 第一獲取模塊,用于獲取輸入的源語言測試句子;
[0048] 第一詞法分析模塊,用于對所述第一獲取模塊獲取到的所述源語言測試句子進行 詞法分析,得到所述源語言測試句子的詞法分析結(jié)果;
[0049] 第一句法分析模塊,用于對所述第一詞法分析模塊分析得到的所述源語言測試句 子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所述源語言測試句子的句法分析結(jié)果;
[0050] 第一抽取模塊,用于利用所述第一句法分析模塊分析得到的所述源語言測試句子 的句法分析結(jié)果,抽取所述源語言測試句子的謂詞論元結(jié)構(gòu);
[0051] 翻譯模塊,用于利用所述第一抽取模塊抽取的所述謂語論元結(jié)構(gòu)以及翻譯規(guī)則庫 中預(yù)先訓(xùn)練得到的翻譯規(guī)則,對所述源語言測試句子進行翻譯解碼處理,輸出語言為所述 目標(biāo)語言的翻譯結(jié)果。
[0052] 可選的,所述系統(tǒng)還包括訓(xùn)練子系統(tǒng),
[0053] 所述訓(xùn)練子系統(tǒng)包括:
[0054] 第二獲取模塊,用于獲取輸入的雙語平行語料的源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練 句子;
[0055] 第二詞法分析模塊,用于分別對所述第二獲取模塊獲取到的所述源語言訓(xùn)練句子 和所述目標(biāo)語言訓(xùn)練句子進行詞法分析,得到所述源語言訓(xùn)練句子的詞法分析結(jié)果和所述 目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果;
[0056] 第二句法分析模塊,用于利用所述第二詞法分析模塊分析得到的所述源語言訓(xùn)練 句子的詞法分析結(jié)果,對所述源語言訓(xùn)練句子進行句法結(jié)構(gòu)分析,得到所述源語言訓(xùn)練句 子的句法分析結(jié)果;
[0057] 第一對齊模塊,用于利用所述第二句法分析模塊分析得到的所述源語言訓(xùn)練句子 的詞法分析結(jié)果和所述目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果進行詞對齊處理,得到詞對齊處 理結(jié)果;
[0058] 第二對齊模塊,用于利用所述第二句法分析模塊分析得到的所述源語言訓(xùn)練句子 的句法分析結(jié)果和所述第一對齊模塊對齊得到的所述詞對齊處理結(jié)果,進行樹到串對齊處 理,生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫;
[0059] 第二抽取模塊,用于利用所述第二句法分析模塊分析得到的所述源語言訓(xùn)練句子 的句法分析結(jié)果,抽取所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu);
[0060] 第三抽取模塊,用于利用所述第二抽取模塊抽取得到的所述源語言訓(xùn)練句子的謂 詞論元結(jié)構(gòu)以及所述第二對齊模塊對齊得到的所述樹到串對齊雙語語料庫,抽取翻譯規(guī) 貝1J,將所述翻譯規(guī)則放入所述翻譯規(guī)則庫中。
[0061] 可選的,所述第一句法分析模塊,包括:
[0062] 第一句法分析單元,用于采用依存結(jié)構(gòu)分析或短語結(jié)構(gòu)分析的方法,對所述第一 詞法分析模塊分析得到的所述源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所 述句法分析結(jié)果;
[0063] 或,
[0064] 第二句法分析單元,用于采用依存結(jié)構(gòu)樹和短語結(jié)構(gòu)樹相互轉(zhuǎn)化的方法,對對所 述第一詞法分析模塊分析得到的所述源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析, 得到所述句法分析結(jié)果。
[0065] 可選的,所述第二對齊模塊,還用于:
[0066] 根據(jù)依存樹到串或短語結(jié)構(gòu)樹到串對齊的方法,對所述源語言句法分析結(jié)果和所 述詞對齊處理結(jié)果進行樹到串對齊處理,生成樹到串對齊雙語語料,得到所述樹到串對齊 雙語語料庫。
[0067] 可選的,所述訓(xùn)練子系統(tǒng)還包括:
[0068] 第一泛化擴展模塊,用于對所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)中的構(gòu)成元素分 別進行泛化擴展;
[0069] 第二泛化擴展模塊,用于對所述第三抽取模塊抽取的所述翻譯規(guī)則進行泛化擴 展,利用泛化擴展后的所述翻譯規(guī)則生成所述翻譯規(guī)則庫。
[0070] 可選的,所述第一抽取模塊,包括:
[0071] 第一抽取單元,用于采用謂詞格框架,從所述第一句法分析模塊分析得到的所述 句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu);
[0072] 或,
[0073] 第二抽取單元,用于采用格語法或依存文法,從所述第一句法分析模塊分析得到 的所述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu);
[0074] 或,
[0075] 第三抽取單元,用于采用所述源語言訓(xùn)練句子的依存樹或短語結(jié)構(gòu)樹,從所述第 一句法分析模塊分析得到的所述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練 句子的謂詞論元結(jié)構(gòu)。
[0076] 本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0077] 通過利用源語言端的句法結(jié)構(gòu)信息及其謂詞論元結(jié)構(gòu)中所攜帶的語義信息、以及 目標(biāo)語言端句子的分詞層面的詞串信息,實現(xiàn)對句子在框架層面的全局調(diào)序進行建模;解 決了現(xiàn)有技術(shù)中被抽取的-統(tǒng)計機器翻譯規(guī)則的冗余規(guī)則數(shù)量非常大,從而致使機器翻譯 性能非常差的問題,達到了提高統(tǒng)計機器翻譯系統(tǒng)的性能的效果。

【專利附圖】

【附圖說明】
[0078] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0079] 圖1是本發(fā)明一個實施例中提供的機器翻譯方法的方法流程圖;
[0080] 圖2是本發(fā)明另一個實施例中提供的機器翻譯方法的方法流程圖;
[0081] 圖3是本發(fā)明一個實施例中提供的日語依存句法分析結(jié)果的示意圖;
[0082] 圖4是本發(fā)明另一個實施例中提供的日語依存句法分析結(jié)果的示意圖;
[0083] 圖5是本發(fā)明一個實施例中提供的日漢樹到串對齊實例的示意圖;
[0084] 圖6是本發(fā)明一個實施例中提供的日英樹到串對齊實例的示意圖;
[0085] 圖7是本發(fā)明一個實施例中提供的日語動詞格框架抽取結(jié)果的示意圖;
[0086] 圖8是本發(fā)明另一個實施例中提供的日語動詞格框架抽取結(jié)果的示意圖;
[0087] 圖9是本發(fā)明一個實施例中提供的抽取LTR規(guī)則的示意圖;
[0088] 圖10是本發(fā)明另一個實施例中提供的抽取LTR規(guī)則的示意圖;
[0089] 圖11是本發(fā)明一個實施例中提供的解碼處理的示意圖;
[0090] 圖12是本發(fā)明一個實施例中提供的機器翻譯系統(tǒng)的結(jié)構(gòu)示意圖;
[0091] 圖13是本發(fā)明另一個實施例中提供的機器翻譯系統(tǒng)的結(jié)構(gòu)示意圖;

【具體實施方式】
[0092] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進一步地詳細描述。
[0093] 圖1是本發(fā)明一個實施例中提供的機器翻譯方法的方法流程圖,該機器翻譯系統(tǒng) 可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為用于計算機的部分或者全部。該機器翻譯方 法包括翻譯步驟,該翻譯步驟包括:
[0094] 步驟101 :獲取輸入的源語言測試句子;
[0095] 步驟102 :對源語言測試句子進行詞法分析,得到源語言測試句子的詞法分析結(jié) 果;
[0096] 步驟103 :對源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到源語言測 試句子的句法分析結(jié)果;
[0097] 步驟104 :利用源語言測試句子的句法分析結(jié)果,抽取源語言測試句子的謂詞論 元結(jié)構(gòu);
[0098] 步驟105 :利用謂語論元結(jié)構(gòu)以及翻譯規(guī)則庫中預(yù)先訓(xùn)練得到的翻譯規(guī)則,對源 語言測試句子進行翻譯解碼處理,輸出語言為目標(biāo)語言的翻譯結(jié)果。
[0099] 綜上所述,本發(fā)明實施例中提供的機器翻譯方法,通過有效利用句子結(jié)構(gòu)信息和 謂詞論元結(jié)構(gòu)的語義信息,僅使用源語言端的句法分析結(jié)果,實現(xiàn)基于謂詞論元結(jié)構(gòu)的樹 到串統(tǒng)計翻譯模型,通過使用謂詞論元結(jié)構(gòu)抽取調(diào)序規(guī)則,有效改善句子結(jié)構(gòu)的全局調(diào)序 問題,本發(fā)明綜合利用句子結(jié)構(gòu)信息和謂詞論元結(jié)構(gòu)信息進行統(tǒng)計機器翻譯的建模和解 碼,對發(fā)展和實現(xiàn)基于語義的統(tǒng)計機器翻譯理論起到較大的促進作用。
[0100] 圖2是本發(fā)明另一個實施例中提供的機器翻譯方法的方法流程圖,該機器翻譯系 統(tǒng)可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為用于計算機的部分或者全部。該機器翻譯 方法可以包括訓(xùn)練步驟和翻譯步驟。
[0101] 該訓(xùn)練步驟可以包括:
[0102] 步驟201 :獲取輸入的雙語平行語料的源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練句子;
[0103] 步驟202 :分別對源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練句子進行詞法分析,得到源語 言訓(xùn)練句子的詞法分析結(jié)果和目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果;
[0104] 步驟203 :利用源語言訓(xùn)練句子的詞法分析結(jié)果,對源語言訓(xùn)練句子進行句法結(jié) 構(gòu)分析,得到源語言訓(xùn)練句子的句法分析結(jié)果;
[0105] 步驟204 :利用源語言訓(xùn)練句子的詞法分析結(jié)果和目標(biāo)語言訓(xùn)練句子的詞法分析 結(jié)果進行詞對齊處理,得到詞對齊處理結(jié)果;
[0106] 步驟205 :利用源語言訓(xùn)練句子的句法分析結(jié)果和詞對齊處理結(jié)果,進行樹到串 對齊處理,生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫;
[0107] 步驟206 :利用源語言訓(xùn)練句子的句法分析結(jié)果,抽取源語言訓(xùn)練句子的謂詞論 元結(jié)構(gòu);
[0108] 步驟207 :利用源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)以及樹到串對齊雙語語料庫,抽 取翻譯規(guī)則,將翻譯規(guī)則放入翻譯規(guī)則庫中;
[0109] 該翻譯步驟可以包括:
[0110] 步驟208 :獲取輸入的源語言測試句子;
[0111] 步驟209 :對源語言測試句子進行詞法分析,得到源語言測試句子的詞法分析結(jié) 果;
[0112] 步驟210 :對源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到源語言測 試句子的句法分析結(jié)果;
[0113] 步驟211 :利用源語言測試句子的句法分析結(jié)果,抽取源語言測試句子的謂詞論 元結(jié)構(gòu);
[0114] 步驟212 :利用謂語論元結(jié)構(gòu)以及翻譯規(guī)則庫中預(yù)先訓(xùn)練得到的翻譯規(guī)則,對源 語言測試句子進行翻譯解碼處理,輸出語言為目標(biāo)語言的翻譯結(jié)果。
[0115] 需要說明的是,上述步驟中步驟201至步驟207可以單獨實施成為機器翻譯方法 中的訓(xùn)練過程的實施例,上述步驟中步驟208至步驟212可以單獨實施成為機器翻譯方法 中的翻譯過程的實施例。
[0116] 為了便于對圖2所示實施例的理解,以下對圖2所示實施例涉及的訓(xùn)練步驟和翻 譯步驟進行詳細說明,具體如下:
[0117] 在步驟201中,獲取輸入的雙語平行語料的源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練句 子。
[0118] 這里可以以文件的形式、鍵盤輸入的形式或其他形式對雙語平行語料進行輸入, 并存儲在計算機的存儲介質(zhì)中,該計算機為用于實現(xiàn)訓(xùn)練翻譯模型的設(shè)備。本實施例對雙 語平行語料的輸入方式不作具體限定。
[0119] 雙語平行語料中的源語言句子是指需要被翻譯的句子,雙語平行語料中的目標(biāo)語 言句子是指根據(jù)源語言句子翻譯后得到的句子。首先,雙語平行語料中源語言句子和目標(biāo) 語言句子通常是一一對應(yīng)的,比如數(shù)量對應(yīng)、語義語法對應(yīng)等;其次,對應(yīng)于源語言句子的 目標(biāo)語言句子可以是針對源語言句子人為翻譯得到的樣本。
[0120] 為了將訓(xùn)練過程與翻譯過程區(qū)分開,步驟201以及后續(xù)步驟中將訓(xùn)練過程中所用 的源語言句子稱為源語言訓(xùn)練句子,將訓(xùn)練過程中目標(biāo)語言句子稱為目標(biāo)語言訓(xùn)練句子, 類似的,在翻譯過程中,將需要被翻譯的源語言句子稱為源語言測試句子。
[0121] 在步驟202中,分別對源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練句子進行詞法分析,得到 源語言訓(xùn)練句子的詞法分析結(jié)果和目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果。
[0122] 根據(jù)源語言的類型對源語言訓(xùn)練句子進行詞法分析,根據(jù)目標(biāo)語言的類型對目標(biāo) 語言訓(xùn)練句子進行詞法分析。
[0123] 以源語言為日語、目標(biāo)語言為漢語為例,日語的詞法分析可以使用日語分分詞器 Mecab、Chasen或者JUMAN等進行分詞處理;漢語句子的詞法分析工具可使用ICTCLAS或者 斯坦福大學(xué)的分詞器等。
[0124] 以源語言為日語、目標(biāo)語言為英語為例,日語的詞法分析可以使用Mecab、Chasen、 或者JUMAN等日語形態(tài)素解析工具進行分詞處理;英語句子可不作詞法分析,也可以根據(jù) 具體情況適用斯坦福大學(xué)的分詞器對英語句子進行形態(tài)分析。
[0125] 很顯然,還可以通過其他日語分分詞器對日語句子進行詞法分析,也可以通過其 他詞法分析工具對漢語句子或英語句子進行詞法分析,針對其他不同語言的源語言句子或 目標(biāo)語言句子,還可以通過其他詞法分析工具對源語言訓(xùn)練句子或目標(biāo)語言訓(xùn)練句子進行 分析,本實施例對詞法分析工具不作具體限定。
[0126] 在步驟203中,利用源語言訓(xùn)練句子的詞法分析結(jié)果,對源語言訓(xùn)練句子進行句 法結(jié)構(gòu)分析,得到源語言訓(xùn)練句子的句法分析結(jié)果。
[0127] 源語言訓(xùn)練句子的句法分析結(jié)果可以通過句法分析樹來表示。
[0128] 在得到源語言訓(xùn)練句子的源語言訓(xùn)練句子的詞法分析結(jié)果之后,需要對源語言訓(xùn) 練句子進行句法分析。在本實施例中,當(dāng)源語言為日語時,可使用句法分析器KNP(由京都 大學(xué)開發(fā)的日語句法分析系統(tǒng))或者句法分析器Cabocha進行句法分析。
[0129] 圖3是本發(fā)明一個實施例中提供的日語依存句法分析結(jié)果的示意圖,圖3中顯示 的日語句子為:" A々t Q杉母? b 7卜7 > ?'美味0料理f食乂 3 (你的母親在 餐館吃美味的便當(dāng))"的依存句法分析結(jié)果的依存結(jié)構(gòu)樹。也即,圖3中所示的是對上述源 語言訓(xùn)練句子" A々t Q杉母? b 7卜7 > ?'美味0料理f食乂 3,,進行句法結(jié)構(gòu) 分析后得到的句法分析結(jié)果,該句法分析結(jié)果是通過句法分析樹來表示的。
[0130] 圖4是本發(fā)明另一個實施例中提供的日語依存句法分析結(jié)果的示意圖,圖4中顯 示的日語句子為:"CPU # c C T設(shè)定処理&行々)(CPU在這種情況進行設(shè)定處理)"的依 存句法分析結(jié)果的依存結(jié)構(gòu)樹。
[0131] 很顯然,當(dāng)源語言為日語時,還可以通過其他句法分析器對源語言為日語的源語 言訓(xùn)練句子進行句法分析;而當(dāng)源語言為其他語言時,也可以通過其他句法分析器對源語 言訓(xùn)練句子進行句法分析,本實施例對句法分析器的類型不作具體限定。
[0132] 可選的,對源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到源語言測試 句子的句法分析結(jié)果時,可以包括如下兩種方式:
[0133] 第一種方式,采用依存結(jié)構(gòu)分析或短語結(jié)構(gòu)分析的方法,對源語言測試句子的詞 法分析結(jié)果進行句法結(jié)構(gòu)分析,得到句法分析結(jié)果;
[0134] 第二種方式,采用依存結(jié)構(gòu)樹和短語結(jié)構(gòu)樹相互轉(zhuǎn)化的方法,對源語言測試句子 的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到句法分析結(jié)果。
[0135] 在步驟204中,利用源語言訓(xùn)練句子的詞法分析結(jié)果和目標(biāo)語言訓(xùn)練句子的詞法 分析結(jié)果進行詞對齊處理,得到詞對齊處理結(jié)果。
[0136] 在得到源語言訓(xùn)練句子的詞法分析結(jié)果和目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果之 后,需要對源語言訓(xùn)練句子的詞法分析結(jié)果和目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果進行雙語 的詞對齊處理。
[0137] 在本實施例中,仍舊以源語言為日語、目標(biāo)語言為漢語為例,可使用GIZA++工具 進行日-漢句子對自動詞對齊處理,得到日-漢對齊處理結(jié)果。
[0138] 很顯然,針對源語言和目標(biāo)語言的語言類型,還可以通過其他對應(yīng)于源語言和目 標(biāo)語言的語言類型的對齊處理工具進行雙語的詞對齊處理,本實施例對詞對齊處理時所使 用的對齊處理工具不作具體限定。
[0139] 在步驟205中,利用源語言訓(xùn)練句子的句法分析結(jié)果和詞對齊處理結(jié)果,進行樹 到串對齊處理,生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫。
[0140] 在利用源語言訓(xùn)練句子的句法分析結(jié)果和詞對齊處理結(jié)果,進行樹到串對齊處 理,生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫時,可以根據(jù)依存樹到串或短語 結(jié)構(gòu)樹到串對齊的方法,對源語言句法分析結(jié)果和詞對齊處理結(jié)果進行樹到串對齊處理, 生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫。
[0141] 圖5是本發(fā)明一個實施例中提供的日漢樹到串對齊實例的示意圖。如圖5所示, 在得到源語言訓(xùn)練句子的句法分析結(jié)果(可用句法分析樹進行表示)和詞對齊處理結(jié)果 (即樹到串對齊雙語語料庫)之后,需要進行源語言樹到目標(biāo)語言的詞串的對齊處理,生成 樹到串雙語平行語料庫。在樹到串對齊處理中,對源語言的句法分析樹的分割方式可多種 多樣,比如,以謂詞及其與謂詞具有依存關(guān)系的子節(jié)點之間構(gòu)成的語塊,或者與某一個子節(jié) 點具有依存關(guān)系的節(jié)點間構(gòu)成的語塊,或者通過各種形式的定義、通過諸如基于CYK模式 的算法,遍歷源語言訓(xùn)練句子的句法分析結(jié)果所對應(yīng)的句法分析樹以抽取其中的子樹等形 成語塊等。然后計算語塊的各個構(gòu)成要素及雙語詞對齊的概率,得到樹到串對齊雙語語料, 將各個對齊雙語語料添加至雙語平行語料庫中。
[0142] 圖6是本發(fā)明一個實施例中提供的日英樹到串對齊實例的示意圖。圖6中所示的 實現(xiàn)方法可與上述日漢樹到串對齊處理方法相同。對應(yīng)的,根據(jù)日英樹到串對齊雙語語料 得到樹到串日英雙語平行語料庫。
[0143] 在步驟206中,利用源語言訓(xùn)練句子的句法分析結(jié)果,抽取源語言訓(xùn)練句子的謂 詞論元結(jié)構(gòu)。
[0144] 在得到源語言端的源語言訓(xùn)練句子的句法分析結(jié)果之后,需要對源語言訓(xùn)練句子 進行謂詞論元結(jié)構(gòu)抽取處理,獲取輸入源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)。
[0145] 謂詞論元結(jié)構(gòu)的自動抽取,需要對源語言訓(xùn)練句子的句法結(jié)構(gòu)和謂詞論元結(jié)構(gòu)進 行適當(dāng)?shù)亩x,以整合句法結(jié)構(gòu)和語義結(jié)構(gòu)信息。
[0146] 可選的,在利用源語言測試句子的句法分析結(jié)果,抽取源語言測試句子的謂詞論 元結(jié)構(gòu)時,可以包括如下兩種方式:
[0147] 第一種方式,采用謂詞格框架,從句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到源語言 訓(xùn)練句子的謂詞論元結(jié)構(gòu)。
[0148] 第二種方式,采用格語法或依存文法,從句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到 源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)。
[0149] 第三種方式,采用源語言訓(xùn)練句子的依存樹或短語結(jié)構(gòu)樹,從句法分析結(jié)果中抽 取謂詞論元結(jié)構(gòu),得到源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)。
[0150] 可選的,在抽取謂詞論元結(jié)構(gòu)之后,還可以對抽取的謂詞論元結(jié)構(gòu)進行泛化擴展。 請參見圖7所示。
[0151] 圖7是本發(fā)明一個實施例中提供的日語動詞格框架抽取結(jié)果的示意圖。在圖7中, 句子中心詞為動詞"食X 3 ",其表層格框架由動詞以及三個名詞短語組成,施事格母? 心#,,,場所格" > 7卜5 Τ "以及對象格"便當(dāng)&,,。其深層格框架如圖4所示的格助詞 附加每個格所屬的語義信息形成語義約束關(guān)系,如格助詞"〃(力')"附帶的詞母? & (母親),,的語義信息可以是"人,,," f ( r ),,附帶的詞" > 7卜7 > (餐館),,的語義信 息可以是"場所","&( 7 )"作為對象格的附帶詞"便當(dāng)(料理)"的語義信息可以是"食 物",則以動詞"食X 3 "為中心詞,"人"、"場所"和"食物"形成日語動詞"食X 3 "的具有 語義約束關(guān)系的深層語義格框架。
[0152] 類似的,請參見圖8所示,圖8是本發(fā)明另一個實施例中提供的日語動詞格框架抽 取結(jié)果的示意圖。
[0153] 需要說明的是,格語法是一種著重探討句法結(jié)構(gòu)與語義之間關(guān)系的語法理論和語 義學(xué)理論。格語法包括基本規(guī)則、詞匯和轉(zhuǎn)換等三個組成部分,格框架文法認為命題中需用 的格包括:施事格、工具格、受事格、使成格、方位格、客體格等6種,在語言分析時又加了受 益格、源點格、終點格及伴隨格等。格語法理論強調(diào)句子結(jié)構(gòu)由一個核心動詞以及許多名詞 短語組成,每個短語與核心動詞均存在某種特定的格關(guān)系。即格框架文法中的格框架描述 了自然語言句子的深層結(jié)構(gòu)和語義信息,在自然語言處理中起到十分重要的作用。
[0154] 在本實施例中,以日語為源語言,采用日語格語法的謂詞格框架實現(xiàn)日語的句法 結(jié)構(gòu)和語義結(jié)構(gòu)的整合。日語屬于黏著語系,屬于典型的格語法語言,其謂詞格框架具有典 型的謂詞論元結(jié)構(gòu)特征。日語的謂詞論元結(jié)構(gòu)的中的每個論元的語法及語義功能可以作為 日語格框架中的每個格的語義屬性加以標(biāo)注進行整合??梢允褂们笆龇衷~工具JUMAN和句 法分析器KNP得到包含謂詞論元結(jié)構(gòu)信息的日語依存句法分析結(jié)果。本實施例中,日語的 謂詞論元結(jié)構(gòu)和日語的句法結(jié)構(gòu),可通過分析日語句子中謂詞的日語格框架來實施。
[0155] 本實施例中,為了說明日語格框架的抽取過程,對日語格框架的形式化描述如 下:
[0156] 使用三元組< V,C,R >定義日語格框架文法。
[0157] 其中:V表示日語謂詞原型的集合,以區(qū)別于謂詞的活用形;C表示日語謂詞的活 用形集合,活用形描述謂詞在句子中的時態(tài)、意愿、假設(shè)、祈使、能動、被動等變化形式;R表 示日語格助詞集合,日語格助詞中的表層格包括:力'格、^格、=格、力5格、?格、卜格、 3 U格、7于''格、于''格等,其代表性的格助詞分別包括:H (二、力、6Dττ 日等。除此以外,日語副助詞ii"和"Ui"等也具有格助詞的特性。
[0158] 對于任意一個日語句子的中心謂詞,包括動詞、形容詞或形容動詞,其格框架(CF) 可由三元組< 么?, p >定義。其中:
[0159] h e V為句子的中心謂詞的原型或詞干。
[0160] t e C為句子的中心謂詞在句中的活用形。
[0161] P e #表示句子的中心謂詞的格框架的各個格助詞,每一個格助詞的順序按照其 在句子中的先后順序進行排序并進行標(biāo)號,其中R*表示集合R中所有元素形成的閉包集 合,即R中的所有元素的排列組合形成的字符串集合。
[0162] 自動獲取日語格框架的方法如下:
[0163] 對于一個完成了日語依存句法分析的句子,其中心謂詞可從依存句法分析樹(即 表示第一源語言句法分析結(jié)果所對應(yīng)的句法分析樹)的根節(jié)點的語塊中獲取。該中心謂詞 的格框架,可以由以下兩種方法得到:
[0164] 第一種方法,從第一源語言句法分析結(jié)果所對應(yīng)的句法分析樹中自動抽取謂詞格 框架。
[0165] 具體的,可以通過分析與句子中心謂詞所在節(jié)點有直接依存關(guān)系的日語格助詞與 集合R中的元素進行模式匹配,得到該中心謂詞的格框架。
[0166] 如圖3所示的日語依存樹,與動詞詞干"食X 有依存關(guān)系的格助詞分別為 " ii "和" f '',對應(yīng)的表層格關(guān)系為"力格" r格"以及" 7格"。
[0167] 第二種方法,利用格框架庫,與第一源語言句法分析結(jié)果所對應(yīng)的句法分析樹進 行模式匹配,獲取格框架。
[0168] 當(dāng)格框架庫為日語格框架庫時,該方法的優(yōu)點可有效彌補日語句子當(dāng)中被省略的 日語格助詞,使獲取的日語格框架成份具有完整性。該方法中使用的日語格框架庫為已有 的格框架庫。
[0169] 格框架庫中,動詞"食X 的部分詞匯化格框架,與句子中的中心詞和與之有依 存關(guān)系的格助詞、及格助詞所依存的詞干進行模式匹配,可以獲取動詞"食X 3 "的格框架。
[0170] 當(dāng)使用第二種方法抽取特定中心謂詞的格框架時,存在復(fù)數(shù)格框架選擇的可能 性。在此情況下,可結(jié)合第一種方法獲取的格框架,計算格框架的相似度,選取與第一種方 法相似度最高的候選結(jié)果作為該中心謂詞的格框架。
[0171] 依據(jù)上述格框架的定義< >,圖3所表述的句子中,動詞"食"的格框架 表述形式為:h:食乂 t :基本形弘xl:力格x2: r格x3: ^格
[0172] 其格框架表現(xiàn)形式為:<食乂 3,基本形,:xl:力格x2: r格x3: ?格>
[0173] 依據(jù)此方法,可以獲得日語輸入句子的謂詞的整體或者局部的句法結(jié)構(gòu)和謂詞論 元結(jié)構(gòu),通過日語格框架整合了日語的句法結(jié)構(gòu)和語義結(jié)構(gòu)信息。
[0174] 在步驟207中,利用源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)以及樹到串對齊雙語語料 庫,抽取翻譯規(guī)則,將翻譯規(guī)則放入翻譯規(guī)則庫中。
[0175] 在得到源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)之后,還需要結(jié)合雙語樹到串對齊處理生 成的樹到串對齊雙語語料庫,進行翻譯規(guī)則抽取處理,抽取得到翻譯規(guī)則形成翻譯規(guī)則庫。
[0176] 可選的,在抽取出翻譯規(guī)則后,還可以對這些翻譯規(guī)則進行泛化擴展;在形成翻譯 規(guī)則庫時,則可以利用泛化擴展后的翻譯規(guī)則形成翻譯規(guī)則庫。
[0177] 本實施例以基于語塊的依存樹到串模型加以說明本實施例公開的日漢機器翻譯 方法。
[0178] 首先,定義三元組< T,S,A >來描述日漢雙語句對,其中,T為源端依存句法分析 樹,每個節(jié)點由一個組塊構(gòu)成,S為目標(biāo)端字符串序列,A為雙語詞對齊關(guān)系。圖5為該三元 組的一個實例。
[0179] 定義的依存樹到串模型中,翻譯規(guī)則包含兩部分:
[0180] (1)詞匯化翻譯規(guī)則(LTR規(guī)則)。LTR規(guī)則的作用在于,將源端語塊或短語,轉(zhuǎn)化 為目標(biāo)端對應(yīng)的翻譯結(jié)果。
[0181] (2)格框架調(diào)序規(guī)則(CFR規(guī)則)。通過使用CFR規(guī)則,將源端依存樹結(jié)構(gòu)轉(zhuǎn)化為 目標(biāo)端序列。
[0182] 翻譯模型中,CFR規(guī)則的形式化定義為< A,t,外《 > ,是對格框架 =< >的延伸。其中,ω e R#記錄該框架在目標(biāo)端句子中的對應(yīng)順序。
[0183] 翻譯模型的規(guī)則抽取包含如下三個步驟:1)依存句法分析樹標(biāo)記;2) CFR規(guī)則抽 取子樹判定;3)規(guī)則抽取。
[0184] 其中,針對依存句法分析樹標(biāo)記,定義依存樹T中的每個節(jié)點均包含兩個屬性:1) 對齊跨度,2)子樹對齊跨度。
[0185] 定義1 :任意依存樹T中的節(jié)點n,該節(jié)點的對齊跨度hsp (η)為目標(biāo)端中與節(jié)點η 存在詞對關(guān)系的目標(biāo)端詞集合。
[0186] 如圖5所示,由于目標(biāo)端詞"在"與"餐館"與節(jié)點" b 7卜7 中的詞存在對 應(yīng)關(guān)系,因此 hsp( b 7 卜 7 ) = {2,3}。
[0187] 定義2 :任意依存樹T中的節(jié)點η,若hsp (η)滿足如下條件,貝U認為hsp (η)是獨立 的。
[0188]

【權(quán)利要求】
1. 一種機器翻譯方法,其特征在于,所述方法包括翻譯步驟, 所述翻譯步驟包括: 獲取輸入的源語言測試句子; 對所述源語言測試句子進行詞法分析,得到所述源語言測試句子的詞法分析結(jié)果; 對所述源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所述源語言測試句子 的句法分析結(jié)果; 利用所述源語言測試句子的句法分析結(jié)果,抽取所述源語言測試句子的謂詞論元結(jié) 構(gòu); 利用所述謂語論元結(jié)構(gòu)以及翻譯規(guī)則庫中預(yù)先訓(xùn)練得到的翻譯規(guī)則,對所述源語言測 試句子進行翻譯解碼處理,輸出語言為所述目標(biāo)語言的翻譯結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括訓(xùn)練步驟, 所述訓(xùn)練步驟包括: 獲取輸入的雙語平行語料的源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練句子; 分別對所述源語言訓(xùn)練句子和所述目標(biāo)語言訓(xùn)練句子進行詞法分析,得到所述源語言 訓(xùn)練句子的詞法分析結(jié)果和所述目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果; 利用所述源語言訓(xùn)練句子的詞法分析結(jié)果,對所述源語言訓(xùn)練句子進行句法結(jié)構(gòu)分 析,得到所述源語言訓(xùn)練句子的句法分析結(jié)果; 利用所述源語言訓(xùn)練句子的詞法分析結(jié)果和所述目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果 進行詞對齊處理,得到詞對齊處理結(jié)果; 利用所述源語言訓(xùn)練句子的句法分析結(jié)果和所述詞對齊處理結(jié)果,進行樹到串對齊處 理,生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫; 利用所述源語言訓(xùn)練句子的句法分析結(jié)果,抽取所述源語言訓(xùn)練句子的謂詞論元結(jié) 構(gòu); 利用所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)以及所述樹到串對齊雙語語料庫,抽取翻譯 規(guī)則,將所述翻譯規(guī)則放入所述翻譯規(guī)則庫中。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述源語言測試句子的詞法分析 結(jié)果進行句法結(jié)構(gòu)分析,得到所述源語言測試句子的句法分析結(jié)果,包括: 采用依存結(jié)構(gòu)分析或短語結(jié)構(gòu)分析的方法,對所述源語言測試句子的詞法分析結(jié)果進 行句法結(jié)構(gòu)分析,得到所述句法分析結(jié)果; 或, 采用依存結(jié)構(gòu)樹和短語結(jié)構(gòu)樹相互轉(zhuǎn)化的方法,對所述源語言測試句子的詞法分析結(jié) 果進行句法結(jié)構(gòu)分析,得到所述句法分析結(jié)果。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用所述源語言訓(xùn)練句子的句法分 析結(jié)果和所述詞對齊處理結(jié)果,進行樹到串對齊處理,生成樹到串對齊雙語語料,得到樹到 串對齊雙語語料庫,包括: 根據(jù)依存樹到串或短語結(jié)構(gòu)樹到串對齊的方法,對所述源語言句法分析結(jié)果和所述詞 對齊處理結(jié)果進行樹到串對齊處理,生成樹到串對齊雙語語料,得到所述樹到串對齊雙語 語料庫。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述抽取所述源語言訓(xùn)練句子的謂詞 論元結(jié)構(gòu)之后,還包括: 對所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)中的構(gòu)成元素分別進行泛化擴展; 在所述抽取翻譯規(guī)則之后,還包括: 對抽取的所述翻譯規(guī)則進行泛化擴展,利用泛化擴展后的所述翻譯規(guī)則生成所述翻譯 規(guī)則庫。
6. 根據(jù)權(quán)利要求1至5中任一所述的方法,其特征在于,所述利用所述源語言測試句子 的句法分析結(jié)果,抽取所述源語言測試句子的謂詞論元結(jié)構(gòu),包括: 采用謂詞格框架,從所述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練句 子的謂詞論元結(jié)構(gòu); 或, 采用格語法或依存文法,從所述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言 訓(xùn)練句子的謂詞論元結(jié)構(gòu); 或, 采用所述源語言訓(xùn)練句子的依存樹或短語結(jié)構(gòu)樹,從所述句法分析結(jié)果中抽取謂詞論 元結(jié)構(gòu),得到所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu)。
7. -種機器翻譯系統(tǒng),其特征在于,所述系統(tǒng)包括翻譯子系統(tǒng), 所述翻譯子系統(tǒng)包括: 第一獲取模塊,用于獲取輸入的源語言測試句子; 第一詞法分析模塊,用于對所述第一獲取模塊獲取到的所述源語言測試句子進行詞法 分析,得到所述源語言測試句子的詞法分析結(jié)果; 第一句法分析模塊,用于對所述第一詞法分析模塊分析得到的所述源語言測試句子的 詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所述源語言測試句子的句法分析結(jié)果; 第一抽取模塊,用于利用所述第一句法分析模塊分析得到的所述源語言測試句子的句 法分析結(jié)果,抽取所述源語言測試句子的謂詞論元結(jié)構(gòu); 翻譯模塊,用于利用所述第一抽取模塊抽取的所述謂語論元結(jié)構(gòu)以及翻譯規(guī)則庫中預(yù) 先訓(xùn)練得到的翻譯規(guī)則,對所述源語言測試句子進行翻譯解碼處理,輸出語言為所述目標(biāo) 語言的翻譯結(jié)果。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括訓(xùn)練子系統(tǒng), 所述訓(xùn)練子系統(tǒng)包括: 第二獲取模塊,用于獲取輸入的雙語平行語料的源語言訓(xùn)練句子和目標(biāo)語言訓(xùn)練句 子; 第二詞法分析模塊,用于分別對所述第二獲取模塊獲取到的所述源語言訓(xùn)練句子和所 述目標(biāo)語言訓(xùn)練句子進行詞法分析,得到所述源語言訓(xùn)練句子的詞法分析結(jié)果和所述目標(biāo) 語言訓(xùn)練句子的詞法分析結(jié)果; 第二句法分析模塊,用于利用所述第二詞法分析模塊分析得到的所述源語言訓(xùn)練句子 的詞法分析結(jié)果,對所述源語言訓(xùn)練句子進行句法結(jié)構(gòu)分析,得到所述源語言訓(xùn)練句子的 句法分析結(jié)果; 第一對齊模塊,用于利用所述第二句法分析模塊分析得到的所述源語言訓(xùn)練句子的詞 法分析結(jié)果和所述目標(biāo)語言訓(xùn)練句子的詞法分析結(jié)果進行詞對齊處理,得到詞對齊處理結(jié) 果; 第二對齊模塊,用于利用所述第二句法分析模塊分析得到的所述源語言訓(xùn)練句子的句 法分析結(jié)果和所述第一對齊模塊對齊得到的所述詞對齊處理結(jié)果,進行樹到串對齊處理, 生成樹到串對齊雙語語料,得到樹到串對齊雙語語料庫; 第二抽取模塊,用于利用所述第二句法分析模塊分析得到的所述源語言訓(xùn)練句子的句 法分析結(jié)果,抽取所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu); 第三抽取模塊,用于利用所述第二抽取模塊抽取得到的所述源語言訓(xùn)練句子的謂詞論 元結(jié)構(gòu)以及所述第二對齊模塊對齊得到的所述樹到串對齊雙語語料庫,抽取翻譯規(guī)則,將 所述翻譯規(guī)則放入所述翻譯規(guī)則庫中。
9. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述第一句法分析模塊,包括: 第一句法分析單元,用于采用依存結(jié)構(gòu)分析或短語結(jié)構(gòu)分析的方法,對所述第一詞法 分析模塊分析得到的所述源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所述句 法分析結(jié)果; 或, 第二句法分析單元,用于采用依存結(jié)構(gòu)樹和短語結(jié)構(gòu)樹相互轉(zhuǎn)化的方法,對所述第一 詞法分析模塊分析得到的所述源語言測試句子的詞法分析結(jié)果進行句法結(jié)構(gòu)分析,得到所 述句法分析結(jié)果。
10. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述第二對齊模塊,還用于: 根據(jù)依存樹到串或短語結(jié)構(gòu)樹到串對齊的方法,對所述源語言句法分析結(jié)果和所述詞 對齊處理結(jié)果進行樹到串對齊處理,生成樹到串對齊雙語語料,得到所述樹到串對齊雙語 語料庫。
11. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述訓(xùn)練子系統(tǒng)還包括: 第一泛化擴展模塊,用于對所述第二抽取模塊抽取得到的所述源語言訓(xùn)練句子的謂詞 論元結(jié)構(gòu)中的構(gòu)成元素分別進行泛化擴展; 第二泛化擴展模塊,用于對所述第三抽取模塊抽取的所述翻譯規(guī)則進行泛化擴展,利 用泛化擴展后的所述翻譯規(guī)則生成所述翻譯規(guī)則庫。
12. 根據(jù)權(quán)利要求7至11中任一所述的系統(tǒng),其特征在于,所述第一抽取模塊,包括: 第一抽取單元,用于采用謂詞格框架,從所述第一句法分析模塊分析得到的所述句法 分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu); 或, 第二抽取單元,用于采用格語法或依存文法,從所述第一句法分析模塊分析得到的所 述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練句子的謂詞論元結(jié)構(gòu); 或, 第三抽取單元,用于采用所述源語言訓(xùn)練句子的依存樹或短語結(jié)構(gòu)樹,從所述第一句 法分析模塊分析得到的所述句法分析結(jié)果中抽取謂詞論元結(jié)構(gòu),得到所述源語言訓(xùn)練句子 的謂詞論元結(jié)構(gòu)。
【文檔編號】G06F17/27GK104268133SQ201410461334
【公開日】2015年1月7日 申請日期:2014年9月11日 優(yōu)先權(quán)日:2014年9月11日
【發(fā)明者】徐金安, 吳培昊 申請人:北京交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
札达县| 九台市| 宜良县| 九江市| 沅陵县| 安庆市| 正蓝旗| 交口县| 彰化市| 双峰县| 平江县| 方山县| 彭水| 桃园县| 临夏市| 普陀区| 涪陵区| 金寨县| 南岸区| 晋州市| 长春市| 通榆县| 裕民县| 崇信县| 榆树市| 弋阳县| 泰兴市| 噶尔县| 洱源县| 封开县| 通许县| 宁国市| 涪陵区| 上蔡县| 沭阳县| 兴化市| 门源| 鲁山县| 沙湾县| 扎鲁特旗| 岳普湖县|