專利名稱:基于語言知識庫的機器翻譯方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機器翻譯領(lǐng)域,特別是基于語言知識庫的機器翻譯方法與裝置。
背景技術(shù):
利用計算機來實現(xiàn)不同語種之間的自動翻譯技術(shù),早已為人所熟知。但由于自然語言的復(fù)雜性,利用計算機實現(xiàn)人類不同語言之間的互譯問題至今還沒有實用化的解決方案。
現(xiàn)有的機器翻譯方法大多采用基于語法分析規(guī)則的方法,如“基于語義的機器翻譯系統(tǒng)及方法”(申請?zhí)?1131689),該方法根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式;根據(jù)語義單元表示庫,將該句義表達式用目的語種的語義單元表示進行展開;將展開后的句子作為譯文輸出。其實質(zhì)是尋找一種“規(guī)則描述語言”,用于描述自然語言,使其能被計算機處理。由于自然語言具有靈活性、復(fù)雜性和開放性等特點,規(guī)則的建立和完善難度很大。
現(xiàn)有翻譯方法所采用的另一種主要方法是基于語料庫統(tǒng)計的方法,如“英漢翻譯機器”(申請?zhí)?0109235),采用任意常項和任意變項的模板匹配替換通用算法。這種方法首先要標注雙語對齊的語料庫,然后利用概率方法建立統(tǒng)計模型,再通過相似度計算來進行源語言語目標語言的轉(zhuǎn)換。但是,由于語料庫中的實例難以涵蓋真實環(huán)境中豐富的語言現(xiàn)象,因此,該方法在實際應(yīng)用中效果也不理想。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于語言知識庫的機器翻譯方法,該方法根據(jù)計算機大容量存儲、高速度運算的特性,對不同語種的語料進行句型標注,建立雙語動態(tài)句型庫,然后以句型庫為核心建立雙語轉(zhuǎn)換機制,實現(xiàn)機器自動翻譯。該方法既能提供比規(guī)則方法更優(yōu)質(zhì)的譯文,又具有比統(tǒng)計方法更廣泛的適應(yīng)性。
本發(fā)明的另一目的是提供一種基于語言知識庫的英漢機器翻譯裝置,該裝置利用所述基于語言知識庫的英漢機器翻譯方法實現(xiàn)自動翻譯過程。
本發(fā)明的基于語言知識庫的機器翻譯方法,包括以下步驟1、建立不同語種語言之間的詞典庫,語法規(guī)則庫和句型庫;其中詞典庫存儲不同語種語言相對應(yīng)的單詞、短語;語法規(guī)則庫存儲不同語種語言相對應(yīng)的語法規(guī)則;句型庫存儲不同語種語言相對應(yīng)的句式;2、通過輸入裝置輸入待翻譯的源文;3、對上述源文進行斷句,將源文分解為一個個單句;4、讀取詞典庫信息,對上述各單句進行切分,將該單句分解為源語言的單詞或短語;5、讀取語法庫信息,對切分后的單句進行消兼和語法分析,形成源語言單句的語法樹;6、讀取句型庫信息,根據(jù)源語言語法分析結(jié)果,與句型庫中的得到匹配度最高的目標語言句式;7、根據(jù)上述目標語言的句式,按照翻譯規(guī)則翻譯生成目標語言。
上述句型庫存儲以句式為單位的從源語言到目標語言的翻譯模板,所述句式包括常量,即具體的單詞、短語或子句,和變量,即可替換部分。
所述句型庫分三類構(gòu)建,其中第一類句式為只有主、謂語,或只有主、謂、賓語的句型;第二類句式為除了主、謂、賓語,還帶有其他句子成分的簡單句型,所述其他成分為狀語、補語、或虛詞;第三類句式為上述兩類句型以外的復(fù)雜句型。
所述句式匹配過程按照從第三類句型到第二類句型,再到第一類句型的順序進行。
所述消兼和語法分析步驟還識別并記錄詞典庫中所沒有或不可能收集全的名詞或動詞短語。
本發(fā)明的基于語言知識庫的英漢機器翻譯裝置,包括多語種語言的詞典庫、語法規(guī)則庫和句型庫存儲裝置,其中詞典庫存儲不同語種語言相對應(yīng)的單詞、短語,語法規(guī)則庫存儲不同語種語言相對應(yīng)的語法規(guī)則,句型庫存儲不同語種語言相對應(yīng)的句式;源文的錄入裝置;源文存儲裝置;翻譯引擎,和中央處理器,以控制翻譯引擎完成翻譯過程,其中翻譯引擎包括句子劃分模塊,讀取源文并將源文斷句;切分和預(yù)處理模塊,將劃分后的單句進行切分;消兼和語法分析模塊,對切分后的單句進行消兼和語法分析;句型匹配模塊,根據(jù)語法分析模塊結(jié)果,找出目標語言句式;譯文生成模塊,根據(jù)句型匹配模塊結(jié)果,翻譯生成相應(yīng)的目標語言譯文;總控模塊,控制各模塊操作。
上述基于語言知識庫的機器翻譯裝置還包括譯文存儲器,用于存儲譯文;譯文輸出裝置,用于輸出譯文。
消兼和語法分析模塊還識別并存儲詞典庫為登錄的名詞或動詞短語,上述句型庫存儲以句式為單位的從源語言到目標語言的翻譯模板,所述句式包括常量,即具體的單詞、短語或子句,和變量,即可替換部分。
所述句型庫分三類構(gòu)建,其中第一類句式為只有主、謂語,或只有主、謂、賓語的句型;第二類句式為除了主、謂、賓語,還帶有其他句子成分的簡單句型所述其他成分為狀語,補語,或虛詞;第三類句式為上述兩類句型以外的復(fù)雜句型。
所述句型匹配模塊按照從三類句型到二類句型,再到一類句型的順序進行句型匹配。
以下參照附圖詳細說明本發(fā)明的最佳實施例。
圖1為本發(fā)明的英漢機器翻譯裝置體系結(jié)構(gòu)示意圖;圖2為本發(fā)明的英漢機器翻譯裝置中的翻譯引擎示意圖;圖3為本發(fā)明的英漢機器翻譯裝置中的語言知識庫結(jié)構(gòu)示意圖;圖4為本發(fā)明的英漢機器翻譯裝置中的句型示意圖;圖5為本發(fā)明的英漢機器翻譯裝置中的句型庫結(jié)構(gòu)示意圖;圖6為本發(fā)明的英漢機器翻譯裝置中的句型匹配模塊示意圖;圖7為本發(fā)明的英漢機器翻譯方法的流程示意圖;圖8為本發(fā)明的英漢機器翻譯方法中的切分步驟示意圖;圖9為本發(fā)明的英漢機器翻譯方法中的語法分析步驟示意圖;圖10為本發(fā)明的英漢機器翻譯方法中的句型匹配步驟示意圖。
具體實施例方式如圖1所示,實施例為一本發(fā)明的英漢機器翻譯裝置,包括一個語言知識庫存儲器2,用于儲存包括詞典庫、語法規(guī)則庫和句型庫在內(nèi)的語言知識庫1;一個文本輸入及顯示裝置3,用于輸入并顯示待翻譯文本;一個中央處理器4,用于利用翻譯引擎6完成翻譯過程;以及一個翻譯結(jié)果輸出及顯示裝置5,用于輸出并顯示譯文。
如圖2所示,一個翻譯引擎最佳實施例包括,總控模塊7,用于管理和控制翻譯引擎各模塊的工作;句子劃分模塊8,用于將待翻譯英語句子分斷成字符串;切分和預(yù)處理模塊9,用于將一句英文句子切分成以短語為單位的字符串序列;消兼與語法分析模塊10,用于通過消除兼類和相對簡單的語法分析,使切分后的英文句子形成語法樹,進而進行句型匹配;句型匹配模塊11,用于將源語言與句型庫中的句型進行匹配,從而實現(xiàn)機器翻譯;以及譯文生成模塊12,用于在句型匹配的基礎(chǔ)上生成譯文。
如圖3A所示,一個語言知識庫1的最佳實施例包括,一個詞典庫13,用于儲存英漢雙語詞典;一個語法庫14,用于儲存語法規(guī)則,供切分、消兼和語法分析時使用;以及一個句型庫15,用于儲存句型,供句型匹配時使用。如圖3B所示,詞典庫13中保存的詞條按翻譯系統(tǒng)的要求進行了標注,注明了相關(guān)的語義屬性。如圖3C所示,語法庫14中保存的語法規(guī)則按照翻譯系統(tǒng)的要求規(guī)定了詞語或詞組的翻譯規(guī)則。如圖3D所示,句型庫15中保存的句型按照翻譯系統(tǒng)句型標注的要求對英語句子及其標準譯文進行了標注。
如圖4所示,句型的最佳實施例是以句子為單位的從英語源語言到漢語目標語言的翻譯模板,它由常量(詞、詞組或子句)和可替換部分即變量組成的序列。制作句型時首先定義句型符號,比如定義{MAN1}表示人,{N[I]}表示時間詞等。句型符號和英文單詞組成了句型。
比如that is why{SV}-->這就是%1的原因{MAN1}{blame}{MAN2}for{Y}-->%1%2[把]%4歸咎于%3在句型中,{}中的部分是可替換部分即變量,{}以外的部分是常量。{}中保留動詞原形時,如{blame},表示其變量為該動詞的各種時態(tài)(現(xiàn)在時、過去時、將來時)、語態(tài)(被動態(tài)、進行態(tài)、完成態(tài))和語氣(虛擬語氣)形式。
有時句型可以完全由常量組成,如Speaking by telephone-->在電話交談中。
如圖5所示,一個句型庫15的最佳實施例分三類構(gòu)建,其中一類句型庫16保存只有主、謂語,或只有主、謂、賓語的句型;二類句型庫17保存除了主、謂、賓語,還帶有其他句子成分(如狀語、定語、虛詞)的簡單句型;三類句型庫18保存上述兩類句型以外的復(fù)雜句型。
如圖6所示,一個翻譯引擎句型匹配模塊的最佳實施例,其句型匹配過程按照從三類句型到二類句型,再到一類句型的順序進行。
如圖7所示,本發(fā)明的英漢翻譯方法的一個最佳實施例包括,以句子為單位將源語言文本斷句,再基于英漢雙語詞典庫將斷句后的句子進行切分;對切分處理后的句子進行消兼和語法分析;然后根據(jù)句型庫對消兼和語法分析后形成的語法樹進行句型匹配,根據(jù)匹配上的句型的譯法將句子翻譯并輸出。
如圖8所示,本發(fā)明的英漢翻譯方法的切分步驟的最佳實施例采用最大匹配法,即先對輸入的字符串進行掃描,該技術(shù)采用的是正向掃描,即從左到右掃描,取出第一個單詞,然后在切分詞典中查找該詞,若能找到該詞或者能找到以該詞為起始詞的短語,就再取第二個單詞,與第一個單詞組合在一起去查詞典,如此循環(huán),直到在切分詞典中不能找到該詞,并且也不能找到以該詞為起始詞的短語,這時,就開始回朔,先去掉該詞的最后一個單詞,然后在切分詞典中查找該詞,如果能找到該詞,則第一個短語就切出來了,否則,就再去掉該詞的最后一個單詞,再查詞典。切出第一個短語后,重復(fù)以上的過程,直到把一個句子切成一個一個的單詞。以The United States is very big.為例,分詞程序先讀入The字,查詞典,能找到,也就是說單獨的The字是一個詞,但由于是最大匹配法,所以不能認為The在這句里就是一個詞再讀入United字,組成The United,查詞典,不能找到,但詞典中存在以The United開頭的短語,再讀入States,組成The United States查詞典,能找到,再讀入is,組成The United States is,查詞典,找不到,并且以The United States is開頭的詞也沒有,這樣向前匹配就到頭了,然后需要回朔,去掉最后一個is,再查,如此反復(fù),找出真正的詞,最后分詞結(jié)果為The United States/is/very/big/.
如圖9所示,本發(fā)明的英漢翻譯方法的語法分析步驟的最佳實施例目的是通過相對簡單的語法分析,使切分后的英文句子形成語法樹,進而進行句型匹配。其作用還在于通過簡單的詞法分析識別詞典中所沒有或不可能收集全的名詞或動詞短語。比如有這么一個結(jié)構(gòu)the U.S.-led war in Iraq,首先,這個結(jié)構(gòu)可以放在許多句子中,它都相當于一個名詞成分,如果詞典中收錄了這個詞,切分程序會正確地把它切分出來,并且會翻譯出準確地譯文美國領(lǐng)導(dǎo)的伊拉克戰(zhàn)爭。但是,如果詞典中沒收錄這個結(jié)構(gòu),而只收錄了war in Iraq/伊拉克戰(zhàn)爭,在這種情況下,一種方法就是加上這個詞the U.S.-led war in Iraq,還有一種方法就是詞法分析,采用的是規(guī)則匹配的方法比如有這么一條規(guī)則定冠詞+形容詞+名詞==名詞短語,而the U.S.-led war in Iraq,正好能匹配上這條規(guī)則,所以,這個名詞短語就識別出來了。
如圖10所示,本發(fā)明的英漢翻譯方法的句型匹配步驟的最佳實施例按照從三類句型到二類句型,再到一類句型的順序進行。對于例句“We cannot rest onour success so far.SARS may return and we should be ready for it,”said Shigeru Omi,the WHO’s regional director for the Western Pacific.
經(jīng)過斷句、預(yù)處理與切分、消兼與語法分析步驟,形成下面的形式″Wecannot〔rest on〕our success〔so far〕.SARSmay returnand weshould〔be ready for〕it,″said〔Shigeru Omi 〕,〖the WHO’sregional director〗for〔the western pacific〕然后用全句搜索句型庫,匹配上第三類句型″{X}″said {MAN1‖N[!I]},{N[A]&&S_SEM[B|D]}-->%3%2稱,“%1”∥weight=-52其中,{X}對應(yīng)于Wecannot〔rest on〕our success〔so far〕.SARSmay return and weshould〔be ready for〕it;said對應(yīng)于said;{MAN1‖N[!I]}對應(yīng)于〔Shigeru Omi〕,{N[A]&&S_SEM[B|D]}對應(yīng)于〖the WHO’s regionaldirector〗for〔the westernpacific〕。
然后以分句繼續(xù)在句型庫中搜索,前面第一個分句Wecannot〔rest on〕our success〔so far〕.SARSmay returnand weshould〔be ready for〕it.
匹配上第三類句型{MAN1‖N[!I]}{V}{N[!I]}so far{X}-->迄今為止,%TRAN[%1,%2,%3,%4]∥weight=-38各項的對應(yīng)關(guān)系如下{MAN1‖N[!I}對應(yīng)于We;{V}對應(yīng)于cannot〔rest on〕;{N[!I]}對應(yīng)于our success; so far對應(yīng)于〔so far〕;{X}對應(yīng)于SARSmay returnand weshould〔be ready for〕it。
繼續(xù)搜索子句Wecannot〔rest on〕our success.SARSmay returnand weshould〔be ready for〕it.
匹配上第三類句型{X}.{X}-->%1。%2∥weight=-9各項的對應(yīng)關(guān)系如下{X}對應(yīng)于Wecannot〔rest on〕our success ;{X}對應(yīng)于SARSmayreturnand weshould〔be ready for〕it。
繼續(xù)搜索子句Wecannot〔rest on〕our success匹配上句型{MAN1‖N[!I]}{VOI[A]&&E_VAL[1]}{MAN2‖N[!I]}-->%1%VOF[%2,%3]∥weight=-15各項的對應(yīng)關(guān)系如下{MAN1‖N[!I]}對應(yīng)于We;{VOI[A]&&E_VAL[1]}對應(yīng)于cannot〔rest on〕;{MAN2‖N[!I]}對應(yīng)于our success。
繼續(xù)搜索子句SARSmay return
and weshould〔be ready for〕it匹配上句型{MAN1‖N[!I]}{VO}{and}{MAN1}{VO}.-->%TRAN[%1,%2],并且%TRAN[%4,%5]?!蝫eight=-27各項的對應(yīng)關(guān)系如下{MAN1‖N[!I}對應(yīng)于SARS;{VO}對應(yīng)于may return;{and}對應(yīng)于and;{MAN1}對應(yīng)于we;{VO}對應(yīng)于should〔be ready for〕it。
繼續(xù)搜索子句SARSmay return weshould〔be ready for〕it匹配上句型{MAN1‖N[!I]}{be ready for}{MAN2‖N[!I]}-->%1%2[為]%3做好準備∥weight=-25各項的對應(yīng)關(guān)系如下{MAN1‖N[!I]}對應(yīng)于we;{be ready for}對應(yīng)于should〔be ready for 〕;{MAN2‖N[!I]}對應(yīng)于it。
根據(jù)每個句型的相關(guān)翻譯規(guī)則,將句型匹配的結(jié)果翻譯成目標語言的譯文,最后上述的源語言的翻譯結(jié)果是負責西太平洋地區(qū)的世界衛(wèi)生組織區(qū)域性負責人尾身茂稱,“迄今為止,我們不能停留在我們的成功上。“非典”可能返回,并且我們應(yīng)該為它做好準備?!币陨贤ㄟ^本發(fā)明的具體實施例對本發(fā)明的原理和特征進行了描述。應(yīng)當理解本發(fā)明不僅僅限于上述的具體實施例,還可以有多種變化,并且具體實施步驟也可以有區(qū)別。本發(fā)明的保護范圍僅由所附的權(quán)利要求限定。
權(quán)利要求
1.一種基于語言知識庫的機器翻譯方法,包括以下步驟1)建立不同語種語言之間的詞典庫,語法規(guī)則庫和句型庫;其中詞典庫存儲不同語種語言相對應(yīng)的單詞、短語;語法規(guī)則庫存儲不同語種語言相對應(yīng)的語法規(guī)則;句型庫存儲不同語種語言相對應(yīng)的句式;2)通過輸入裝置輸入待翻譯的源文;3)對上述源文進行斷句,將源文分解為一個個單句;4)讀取詞典庫信息,對上述各單句進行切分,將該單句分解為源語言的單詞或短語;5)讀取語法庫信息,對切分后的單句進行消兼和語法分析;6)讀取句型庫信息,根據(jù)源語言語法分析結(jié)果,于句型庫中得到匹配度最高的目標語言句式;7)根據(jù)上述目標語言的句式,按照翻譯規(guī)則翻譯生成目標語言。
2.如權(quán)利要求1所述的基于語言知識庫的機器翻譯方法,其特征在于所述句型庫存儲以句式為單位的從源語言到目標語言的翻譯模板,所述句式包括常量,即具體的單詞、短語或子句,和變量,即可替換部分。
3.如權(quán)利要求1或2所述的基于語言知識庫的機器翻譯方法,其特征在于所述句型庫分三類構(gòu)建,其中第一類句式為只有主、謂語,或只有主、謂、賓語的句型;第二類句式為除了主、謂、賓語,還帶有其他句子成分的簡單句型,所述其他成分為狀語、補語、或虛詞;第三類句式為上述兩類句型以外的復(fù)雜句型。
4.如權(quán)利要求3所述的基于語言知識庫的機器翻譯方法,其特征在于所述句式匹配過程按照從第三類句型到第二類句型,再到第一類句型的順序進行。
5.如權(quán)利要求1所述的基于語言知識庫的機器翻譯方法,其特征在于所述消兼和語法分析步驟還識別并記錄詞典庫中所沒有或不可能收集全的名詞或動詞短語。
6.一種基于語言知識庫的機器翻譯裝置,包括多語種語言的詞典庫、語法規(guī)則庫和句型庫存儲裝置,其中詞典庫存儲不同語種語言相對應(yīng)的單詞、短語,語法規(guī)則庫存儲不同語種語言相對應(yīng)的語法規(guī)則,句型庫存儲不同語種語言相對應(yīng)的句式;源文的錄入裝置;源文存儲裝置;翻譯引擎,和中央處理器,以控制翻譯引擎完成翻譯過程,其中翻譯引擎包括句子劃分模塊,讀取源文并將源文斷句;切分和預(yù)處理模塊,將劃分后的單句進行切分;消兼和語法分析模塊,對切分后的單句進行消兼和語法分析;句型匹配模塊,根據(jù)語法分析模塊結(jié)果,找出目標語言句式;譯文生成模塊,根據(jù)句型匹配模塊結(jié)果,翻譯生成相應(yīng)的目標語言譯文;總控模塊,控制各模塊操作。
7.如權(quán)利要求6所述的基于語言知識庫的機器翻譯裝置,其特征在于所述句型庫存儲以句式為單位的從源語言到目標語言的翻譯模板,所述句式包括常量,即具體的單詞、短語或子句,和變量,即可替換部分。
8.如權(quán)利要求6或7所述的基于語言知識庫的機器翻譯裝置,其特征在于所述句型庫分三類構(gòu)建,其中第一類句式為只有主、謂語,或只有主、謂、賓語的句型;第二類句式為除了主、謂、賓語,還帶有其他句子成分的簡單句型所述其他成分為狀語,補語,或虛詞;第三類句式為上述兩類句型以外的復(fù)雜句型。
9.如權(quán)利要求8所述的基于語言知識庫的機器翻譯裝置,其特征在于所述句型匹配模塊按照從三類句型到二類句型,再到一類句型的順序進行句型匹配。
10.如權(quán)利要求6所述的基于語言知識庫的機器翻譯裝置,其特征在于所述消兼和語法分析模塊還識別并記錄詞典庫未收集的名詞或動詞短語。
全文摘要
一種基于語言知識庫的英漢機器翻譯方法,該方法根據(jù)計算機大容量存儲、高速度運算的特性,通過對英漢雙語語料進行句型標注,建立雙語動態(tài)句型庫,然后以句型庫為核心建立雙語轉(zhuǎn)換機制,實現(xiàn)機器自動翻譯。以及一種利用所述方法完成翻譯過程的英漢機器翻譯裝置。
文檔編號G06F17/28GK1652106SQ20041000118
公開日2005年8月10日 申請日期2004年2月4日 優(yōu)先權(quán)日2004年2月4日
發(fā)明者宋金平 申請人:北京賽迪翻譯技術(shù)有限公司