專利名稱:基于sc文法的轉(zhuǎn)換生成技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種機器翻譯中的轉(zhuǎn)換生成技術(shù),屬于機器翻譯技術(shù)領(lǐng)域。
機器翻譯中,基于規(guī)則的分析技術(shù),其分析與轉(zhuǎn)換的界限往往是通過形成的內(nèi)部結(jié)構(gòu)樹來傳遞信息的,轉(zhuǎn)換(即譯文生成)部分需要反復對樹中的結(jié)點進行測試,找出相應的生成碼,才能生成譯文。這種方法不僅嚴重浪費時間,而且由于生成碼的內(nèi)容和數(shù)量均不容易確定,因而人為地丟失許多信息,造成譯文可讀性較差。
本發(fā)明的目的旨在提供一種基于SC文法的轉(zhuǎn)換生成技術(shù),該技術(shù)可簡化分析和轉(zhuǎn)換機制的操作過程,并提高譯文的準確性。
上述SC文法是指以語義文法和格文法(Semantic And Case Grammar)為基礎(chǔ)的子類文法(Sub Category Grammar)。
本發(fā)明是通過如下方法實現(xiàn)的一種使用計算機進行的基于SC文法的轉(zhuǎn)換生成技術(shù),其步驟為(一)建立字典庫和規(guī)則庫在建立字典庫和規(guī)則庫時,為每個單詞和規(guī)則建立相應的轉(zhuǎn)換體,它們是嵌入詞條和規(guī)則內(nèi)部的,其中字典庫中每個單詞的形式為入口單詞 特征信息集合1 上下文相關(guān)函數(shù)11 轉(zhuǎn)換體11特征信息集合1 上下文相關(guān)函數(shù)12 轉(zhuǎn)換體12特征信息集合2 上下文相關(guān)函數(shù)21 轉(zhuǎn)換體22規(guī)則庫中每條規(guī)則的形式為規(guī)則左部成分->上下文相關(guān)函數(shù),將規(guī)則左部歸約后的特征集合,轉(zhuǎn)換體其中,轉(zhuǎn)換體中的各成分均為規(guī)則左部成分。
(二)在接收一個原文句子之后,用翻譯處理算法對句子進行分析,分析成功后,生成一歸約結(jié)構(gòu)樹,然后執(zhí)行如下步驟(1)自頂向下搜索該結(jié)構(gòu)樹,設(shè)當前搜索結(jié)點P為樹的根結(jié)點;(2)生成當前搜索結(jié)點P的譯文;若P的下一層結(jié)點為非原文單詞形態(tài)的非葉子結(jié)點,則首先查找原文分析過程中記錄下的生成P的規(guī)則,根據(jù)規(guī)則中規(guī)定的轉(zhuǎn)換體生成P的轉(zhuǎn)換體,然后遞歸執(zhí)行步驟(2)求出各結(jié)點轉(zhuǎn)換體,并在P的轉(zhuǎn)換體中替換掉各結(jié)點;
若P的下一層結(jié)點是原文單詞形態(tài)的葉子結(jié)點,則查找字典中生成P的詞條,根據(jù)該詞條中規(guī)定的轉(zhuǎn)換體生成P的譯文;(3)在選擇具體詞義時,若遇到同一單詞具有相同特征集合但不同詞義的詞條,則順序執(zhí)行各詞條中的上下文相關(guān)測試函數(shù),當某一詞條的上下文相關(guān)測試條件成立時,則選定該詞條的詞義為單詞的譯文;(4)根結(jié)點的譯文即為整個句子對應的譯文。
本發(fā)明的特征是1.在字典和規(guī)則中直接嵌入轉(zhuǎn)換體。2.轉(zhuǎn)換與原文分析集成為一體。3.不依賴于具體語種,可適用于多語種機器翻譯。
本發(fā)明通過采用分析與轉(zhuǎn)換規(guī)則共用同一頭部和同一組上下文相關(guān)函數(shù)的方法,實現(xiàn)分析與轉(zhuǎn)換的集成化。這樣,不但可以把問題局部化,而且可以根據(jù)轉(zhuǎn)換體的要求,直接生成目標結(jié)構(gòu),既簡化了分析和轉(zhuǎn)換機制的操作過程,也提高了譯文的準確性。
以下結(jié)合附圖和發(fā)明實例對本發(fā)明作詳細描述。
圖1和圖2為本發(fā)明的算法流程圖。
本發(fā)明是使用普通計算機實現(xiàn)的,其步驟為一、轉(zhuǎn)換數(shù)據(jù)的建立在建立字典庫和規(guī)則庫時,為每個單詞和規(guī)則建立相應的轉(zhuǎn)換體,它們是嵌入詞條和規(guī)則內(nèi)部的。
1、在字典庫中建立轉(zhuǎn)換體字典中每個單詞的形式為word X1 F11 T11X1 F1n T1nX2 F21 T21其中,word為入口單詞,X1、X2為特征集合,F(xiàn)11、F1n、F21為上下文相關(guān)函數(shù),T11、T1n、T21為譯文,即轉(zhuǎn)換體部分。單詞可具有不同的特征集,如X1,X2;在具有相同特征集但不同的上下文情況下可能有不同的譯文,如X1特征在F11、...、F1n上下文條件下具有T11、...、T1n等不同的譯文。
2、在規(guī)則庫中建立轉(zhuǎn)換體每條規(guī)則的形式為X1 X2...Xn -> F,X,Xi1...Xim.
其中,X1、X2、...、Xn為特征集合,構(gòu)成規(guī)則左部成分;F為上下文相關(guān)函數(shù);X為將規(guī)則左部歸約后的特征集合形式,Xi1...Xim為轉(zhuǎn)換體部分,該轉(zhuǎn)換體定義了當前歸約操作所對應的譯文,Xi1...Xim均為規(guī)則左部的成分。
二、在接收一個原文句子之后,翻譯處理算法對句子進行分析,分析成功后,生成一歸約結(jié)構(gòu)樹,然后執(zhí)行如下算法步驟(參見圖1)(1)自頂向下搜索該結(jié)構(gòu)樹,設(shè)樹的根結(jié)點為當前搜索結(jié)點P;(2)求當前搜索結(jié)點P的轉(zhuǎn)換體;首先查找原文分析過程中記錄下的生成P的規(guī)則,根據(jù)規(guī)則中規(guī)定的轉(zhuǎn)換體生成P的轉(zhuǎn)換體。若P的下一層結(jié)點為非原文單詞形態(tài)的非葉子結(jié)點,則對各子結(jié)點分別遞歸執(zhí)行步驟(2)求出各結(jié)點轉(zhuǎn)換體,并在P的轉(zhuǎn)換體中替換掉各結(jié)點;若P的下一層結(jié)點是原文單詞形態(tài)的葉子結(jié)點,則查找字典中生成P的詞條,根據(jù)該詞條中規(guī)定的轉(zhuǎn)換體生成P的譯文;(3)在選擇具體詞義時,執(zhí)行單詞多義選擇算法。若遇到同一單詞具有相同特征集合但不同詞義的詞條,則順序執(zhí)行各詞條中的上下文相關(guān)函數(shù),當某一詞條的上下文相關(guān)條件成立時,則選定該詞條的詞義為單詞的譯文;否則選第一條詞條的譯文為單詞譯文(參見圖2);(4)根結(jié)點的譯文即為整個句子對應的譯文。
在上述算法步驟中由于結(jié)構(gòu)樹根結(jié)點的譯文即為整個句子的譯文,所以只需求出根結(jié)點的譯文。
結(jié)構(gòu)樹中記錄了生成各結(jié)點的規(guī)則,根據(jù)規(guī)則中規(guī)定的轉(zhuǎn)換體即可求出各結(jié)點譯文。
根據(jù)規(guī)則,每個結(jié)點的轉(zhuǎn)換體來自下層結(jié)點,因此,若求一個結(jié)點的譯文,必須求出其下一層結(jié)點的譯文。但由于只有葉結(jié)點(即單詞)才有譯文,所以求任一結(jié)點譯文都必須求出其直至葉結(jié)點的全部子結(jié)點的譯文。
因此,在自頂向下搜索該結(jié)構(gòu)樹求根結(jié)點的譯文的過程中,轉(zhuǎn)換體中各部分若非葉子結(jié)點(即非單詞),則遞歸調(diào)用本算法求各轉(zhuǎn)換體部分譯文即可。
下面舉例說明本發(fā)明算法的執(zhí)行過程。
將句子“This is a car.″翻譯成中文。
這一過程使用到的詞條有詞條1this NP “這”詞條2isVP “是”詞條3a Q “一”詞條4car NP SEARCH(L,(1,1),Q)“輛小汽車”詞條5car NP “小汽車”規(guī)則有規(guī)則1Q NP ->,NP,Q NP.
規(guī)則2NP VP NP ->,S,NP VP NP.
其中,NP表示名詞短語,VP表示動詞短語,Q表示量詞,S表示句子。1、分析過程(1)對句子進行第一次歸約使用詞條1將this歸約為NP。使用詞條2將is歸約為VP。使用詞條3將a歸約為Q。使用詞條5將car歸約為NP。第一次歸約結(jié)果為NP VP Q NP.(2)對句子進行第二次歸約使用規(guī)則1將Q NP歸約為NP。第二次歸約結(jié)果為NP VP NP.(3)對句子進行第三次歸約使用規(guī)則2將NP VP NP歸約為S。第三次歸約結(jié)果為S.分析過程生成的結(jié)構(gòu)樹如下
2、轉(zhuǎn)換過程(1)求S結(jié)點(根結(jié)點)對應譯文。根據(jù)生成S的規(guī)則2,S的轉(zhuǎn)換體為NP VP NP。在結(jié)構(gòu)樹中,第一個NP對應結(jié)點NP(1),第二個NP對應結(jié)點NP(2)。
(2)由于S結(jié)點的下一層結(jié)點為非葉子結(jié)點,所以還需求NP(1)、VP、NP(2)的譯文。
(3)求NP(1)結(jié)點對應譯文。根據(jù)詞條1,NP(1)的譯文為“這”。
(4)求VP結(jié)點對應譯文。根據(jù)詞條2,VP的譯文為“是”。
(5)求NP(2)結(jié)點對應譯文。根據(jù)規(guī)則1,它的轉(zhuǎn)換體為Q NP。其中,NP對應結(jié)構(gòu)樹中的NP(3)結(jié)點。由于Q、NP(3)為非葉子結(jié)點,還需求它們對應的譯文。
(6)求Q結(jié)點對應譯文。根據(jù)詞條3,Q的譯文為“一”。
(7)求NP(3)結(jié)點對應譯文。根據(jù)詞條4,NP(3)的譯文為“輛小汽車”。
(8)由(5)(6)(7)求得NP(2)的譯文為“一輛小汽車”。
(9)由(1)至(8)得出S對應譯文為“這是一輛小汽車”。
權(quán)利要求
1.一種使用計算機進行的基于SC文法的轉(zhuǎn)換生成技術(shù),其步驟為(一)建立字典庫和規(guī)則庫在建立字典庫和規(guī)則庫時,為每個單詞和規(guī)則建立相應的轉(zhuǎn)換體,它們是嵌入詞條和規(guī)則內(nèi)部的,其中字典庫中每個單詞的形式為入口單詞 特征信息集合1 上下文相關(guān)函數(shù)11 轉(zhuǎn)換體11特征信息集合1 上下文相關(guān)函數(shù)12 轉(zhuǎn)換體12特征信息集合2 上下文相關(guān)函數(shù)21 轉(zhuǎn)換體22規(guī)則庫中每條規(guī)則的形式為規(guī)則左部成分->上下文相關(guān)函數(shù),將規(guī)則左部歸約后的特征集合,轉(zhuǎn)換體(二)在接收一個原文句子之后,用翻譯處理算法和句子進行分析,分析成功后,生成一歸約結(jié)構(gòu)樹,然后執(zhí)行如下步驟(1)自頂向下搜索該結(jié)構(gòu)樹,設(shè)當前搜索結(jié)點P為樹的根結(jié)點;(2)生成當前搜索結(jié)點P的譯文;若P的下一層結(jié)點為非原文單詞形態(tài)的非葉子結(jié)點,則首先查找原文分析過程中記錄下的生成P的規(guī)則,根據(jù)規(guī)則中規(guī)定的轉(zhuǎn)換體生成P的轉(zhuǎn)換體,然后遞歸執(zhí)行步驟(2)求出各結(jié)點轉(zhuǎn)換體,并在P的轉(zhuǎn)換體中替換掉各結(jié)點;若P的下一層結(jié)點是原文單詞形態(tài)的葉子結(jié)點,則查找字典中生成P的詞條,根據(jù)該詞條中規(guī)定的轉(zhuǎn)換體生成P的譯文;(3)在選擇具體詞義時,若遇到同一單詞具有相同特征集合但不同詞義的詞條,則順序執(zhí)行各詞條中的上下文相關(guān)測試函數(shù),當某一詞條的上下文相關(guān)測試條件成立時,則選定該詞條的詞義為單詞的譯文;(4)根結(jié)點的譯文即為整個句子對應的譯文。
全文摘要
基于SC文法的轉(zhuǎn)換生成技術(shù)的步驟為:1.在建立字典庫和規(guī)則庫時,為每個單詞和規(guī)則建立相應的轉(zhuǎn)換體,它們是嵌入詞條和規(guī)則內(nèi)部的。2.對原文句子進行分析,生成一歸約結(jié)構(gòu)樹,然后執(zhí)行如下步驟:自頂向下搜索該結(jié)構(gòu)樹,設(shè)當前搜索結(jié)點為樹的根結(jié)點;生成當前搜索結(jié)點的譯文;根結(jié)點的譯文即為整個句子對應的譯文。本發(fā)明的特征是:1.在字典和規(guī)則中直接嵌入轉(zhuǎn)換體。2.轉(zhuǎn)換與原文分析集成為一體。3.不依賴于具體語種,可適用于多語種機器翻譯。本發(fā)明簡化了分析和轉(zhuǎn)換機制的操作過程,提高了譯文的準確性。
文檔編號G06F17/28GK1173674SQ9711194
公開日1998年2月18日 申請日期1997年7月2日 優(yōu)先權(quán)日1997年7月2日
發(fā)明者陳肇雄 申請人:陳肇雄