專利名稱:一種基于智能匹配的機器翻譯裝置及其方法
技術領域:
本發(fā)明涉及機器翻譯技術領域,尤其涉及一種基于智能匹配的機器翻譯裝置及其方法。
背景技術:
隨著技術、經(jīng)濟全球化趨勢,克服語言障礙以利國際交流日趨迫切。具體說,一方面令用戶直接閱讀和理解非母語資料;另ー方面,輔助翻譯人員更準確、省力和高效地完成筆頭翻譯工作。機器翻譯技術被寄予厚望,其主要包括語料庫(句庫/詞庫)建設和句子翻譯兩個部分。顯然,人工建語料庫成本高而效率低。目前,機器建句庫時,平行語料比對區(qū)域的劃分比較機械和繁瑣,例如需反復劃分比對區(qū)域,此外因兩種語言句子不一一對應而出現(xiàn)遺漏匹配句并造成語料資源浪費、效率和準確度較低的問題;機器建詞庫時,對ー詞多譯情況(即同義詞問題)不能很好處理;機器翻譯主要分規(guī)則機器翻譯和統(tǒng)計機器翻譯,前者繁瑣且耗時費力,后者因統(tǒng)計建模過程中完全依賴于對平行語料的概率統(tǒng)計,翻譯效果欠佳;模板機器翻譯的模板構造是以具體詞作基礎,使用的靈便性和通配性不夠好,且只能解決ー些常用固定句型;此外,動詞固定搭配這一翻譯難點,目前機器翻譯尚未很好解決。通過對機器翻譯裝置及其方法的現(xiàn)有技術的檢索,發(fā)現(xiàn)在中國發(fā)明專利公開號為CN 101271452A中公開了ー種生成譯文和機器翻譯的方法及其裝置,該專利文獻(下文中稱為Dl)具有以下特征①對待翻譯句進行片段分割在例句庫中查找與所述每個片段對應的ー個或多個譯文片段;③根據(jù)多個特征函數(shù)計算片段組合綜合得分得出最優(yōu)片段組合;(多個特征函數(shù)指基于雙語例句的機器翻譯系統(tǒng)的譯文生成模型中包含的多種翻譯知識(在模型中翻譯知識被稱為特征函數(shù),例如待翻譯句和例句之間的相似度,例句可信度,譯文流利度)。然而該專利文獻(Dl)存在以下缺點(I)根據(jù)特征函數(shù)在句庫中尋找最優(yōu)片段組合,而所述特征函數(shù)指基于雙語例句的機器翻譯系統(tǒng)的譯文生成模型中包含的多種翻譯知識,例如待翻譯句和例句之間的相似度,例句可信度,譯文流利度。所述“翻譯知識”多是基于統(tǒng)計和概率得出,而非從語言特點(尤其是中文)出發(fā),因此準確性不夠;(2)D1的譯文生成是基于句庫中與待翻譯句相對應的片段最優(yōu)組合,所述“片段最優(yōu)組合”是基于特征函數(shù)(翻譯知識),而特征函數(shù)多是基于統(tǒng)計和概率得出,有較大不確定性,并因此導致ー些片段翻譯的不確定,造成詞匯翻譯前后不一致。同時在另ー篇中國發(fā)明專利公開號為CN 10174137A中公開了ー種評價、選擇例句對,構建通用句庫,機器翻譯的方法及裝置,該專利文獻(下文中稱為D2)具有以下特點①根據(jù)給定例句對的第一語種例句在雙語語料庫中的覆蓋率和/或給定例句對的第一語種和第二語種例句之間的一致性,計算所述給定例句對的得分來構建通用例句庫,即例句對的篩選;②機器翻譯方法,從所構建的通用例句庫中查找第一語種與待翻譯句子相似的例句,為兩者第一語種區(qū)分部分準備相應譯文,然后結合兩者相似部分和區(qū)別部分的譯文組合生成參考譯文。然而該專利文獻(D2)存在以下缺點D2從所構建的通用例句庫中查找第一語種與待翻譯句子相似的例句,為兩者第一語種區(qū)分部分準備相應譯文,然后結合兩者相似部分和區(qū)別部分的譯文組合生成參考譯文。所述句子第一語種相似部分和區(qū)別部分限于文字本身意思的層面,而對語言特點(如構成句子的關鍵要素)較為忽略,準確性不夠。
發(fā)明內(nèi)容
為克服現(xiàn)有技術的上述缺陷,本發(fā)明設計了ー種基于智能匹配的機器翻譯裝置及其方法。該技術主要是基于句子構架匹配和智能組句的漢英機器翻譯技木。相對于D1、D2而言,本發(fā)明具有以下優(yōu)點首先,本申請從語言特點出發(fā),根據(jù)短語節(jié)點組成的短語框架及其構成規(guī)則以及中文核心動詞識別規(guī)則(預先制定),在句子構架模板庫尋找與待翻譯句子構架(核心動詞十短語框架)匹配的句子進行套譯,若未找到匹配句,則按規(guī)則(預先制定)進行翻譯;充分考慮了構成句子的關鍵要素即核心動詞和短語,準確性較高。其次,本申請的譯文生成基于句子構架模板庫與待翻譯句子構架(核心動詞+短語框架)的匹配,或按基于句子構架的規(guī)則(預先制定)進行翻譯,詞語按預先建成的詞庫翻譯,前后一致,準確性好。最后,本申請則通過計算例句對的第一語種與第二語種的匹配率構建句庫,并在此基礎上根據(jù)中文短語節(jié)點和短語框架構成規(guī)則(預先制定)以及英文核心動詞特征生成句子 構架模板庫,不僅質量較高、容量合理,而且更加科學和智能。根據(jù)本發(fā)明的ー個方面,提出了ー種智能匹配的機器翻譯方法,該方法包括以下步驟:A步驟進行語料預處理步驟,對分領域語料進行詞頻統(tǒng)計并標注;B步驟進行句庫建設步驟,利用分領域英譯漢語料建設句庫;C步驟進行詞庫建設步驟,根據(jù)所述語料預處理步驟和句庫建設步驟,建設詞庫;D步驟進行機器翻譯步驟,首先根據(jù)所述句庫建設步驟和詞庫建設步驟,人工制定中文短語節(jié)點構成的短語框架及其翻譯規(guī)則,以及識別中文句子支點的規(guī)則;利用所述句庫、語法標識和短語框架自動生成句子構架模板庫;尋找構架匹配句;其中,如果待譯中文句與某一構架模板相匹配,則套用構架模板進行翻譯;如果未匹配,則對未匹配待譯中文句,進行智能組句機器翻譯。根據(jù)本發(fā)明的另一方面,提出了ー種智能匹配的機器翻譯裝置,其包括語料預處理模塊,該模塊對分領域語料進行詞頻統(tǒng)計并標注;句庫建設模塊,該模塊利用分領域英譯漢語料建設句庫;詞庫建設模塊,該模塊根據(jù)所述語料預處理步驟和句庫建設步驟,建設詞庫;機器翻譯模塊,該模塊首先根據(jù)所述句庫建設步驟和詞庫建設步驟,人工制定中文短語節(jié)點構成的短語框架及其翻譯規(guī)則,以及識別中文句子支點的規(guī)則;利用所述句庫、語法標識和短語框架自動生成句子構架模板庫;尋找構架匹配句;其中,該機器翻譯模塊如果確定待譯中文句與某一構架模板相匹配,則套用構架模板進行翻譯;如果未匹配,則對未匹配待譯中文句,按進行智能組句機器翻譯通過該技術本發(fā)明可以取得以下有益效果(I)采用段落對齊和“動態(tài)比對域”句對齊方法,在各段落同時進行英文逐句與“動態(tài)比對域”內(nèi)的若干中文句比對,句庫生成效率高,比對精準性好,方法簡單,解決了現(xiàn)有句庫生成方法繁復、精確性低、語料浪費及效率和效果之間的矛盾。(2)通過詞語語法標識(主要是動詞標識)、中文句核心動詞識別規(guī)則以及短語節(jié)點構成的短語框架及其翻譯規(guī)則,自動生成句子構架模板庫,改基于詞語概率的句子匹配為基于核心動詞和短語框架的構架匹配,未匹配的待譯句按一定規(guī)則(預先制定)智能組句,提高了句子匹配率及非匹配句翻譯效果。
圖I是根據(jù)本發(fā)明實施例的基于句子構架匹配和智能組句的機器翻譯方法的實現(xiàn)流程圖;圖2A是根據(jù)本發(fā)明實施例的機器翻譯方法中的語料預處理具體流程圖;圖2B是根據(jù)本發(fā)明實施例的機器翻譯方法中的句庫建設具體流程圖;圖2C是根據(jù)本發(fā)明實施例的機器翻譯方法中的詞庫建設具體流程圖;圖2D是根據(jù)本發(fā)明實施例的機器翻譯方法中的機器翻譯具體流程圖;
圖3是根據(jù)本發(fā)明實施例的句對齊步驟的中文“動態(tài)可調比對域”示意圖;圖4是根據(jù)本發(fā)明實施例的機器翻譯裝置的內(nèi)部結構示意圖。如圖所示,為了能明確實現(xiàn)本發(fā)明的實施例的結構,在圖中標注了特定的結構和器件,但這僅為示意需要,并非意圖將本發(fā)明限定在該特定結構、器件和環(huán)境中,根據(jù)具體需要,本領域的普通技術人員可以將這些器件和環(huán)境進行調整或者修改,所進行的調整或者修改仍然包括在后附的權利要求的范圍中。
具體實施例方式下面結合附圖和具體實施例對本發(fā)明提供的ー種智能匹配的機器翻譯裝置及其方法進行詳細描述。同時在這里做以說明的是,為了使實施例更加詳盡,下面的實施例為最佳、優(yōu)選實施例,對于ー些公知技術本領域技術人員也可采用其他替代方式而進行實施;而且附圖部分僅是為了更具體的描述實施例,而并不g在對本發(fā)明進行具體的限定。如圖I所示,圖I提供了一種句子構架匹配和智能組句的漢英機器翻譯方法總體技術方案實現(xiàn)流程圖,該方法包括以下步驟首先進程行進至A步驟,在A步驟中進行語料預處理,對分領域語料進行詞頻統(tǒng)計并標注,針對具有細分類的語料(如專利文獻)根據(jù)詞頻與分類的關系,對在某分類具有突出高頻率的詞匯加注相應分類標識。接著進程行進至B步驟,在B步驟進行句庫建設,利用分領域(細分類)英譯漢語料建設句庫。接著進程行進至C步驟,在C步驟中進行詞庫建設,根據(jù)所述語料預處理步驟和句庫建設步驟,利用英文詞典中詞性(動詞)標注和英文謂語動詞的特征,建立含同義詞,動詞、主語等語法標識和分類標識的詞庫。接著進程行進至D步驟進行機器翻譯,在D步驟中主要包括以下步驟首先根據(jù)所述句庫建設步驟和詞庫建設步驟,人工制定中文短語節(jié)點構成的短語框架及其翻譯規(guī)則,以及識別中文句子支點(核心動詞)的規(guī)則;利用所述句庫、語法標識和短語框架自動生成由核心動詞(虛擬)和短語節(jié)點組成的句子構架模板庫;尋找構架匹配句。如果待譯中文句與某一構架模板相匹配,即中文核心動詞(虛擬)和短語節(jié)點完全匹配,則套用構架模板進行翻譯;如果未匹配,則對未匹配待譯中文句進行智能組句機器翻譯,即,按〈主語+核心動詞+短語 > 格式及所述短語框架翻譯規(guī)則進行翻譯。接下來,通過參照圖2A-圖2D,來更加詳細的描述本發(fā)明的漢英機器翻譯方法的具體步驟的流程圖。對需要翻譯的文本首先進行語料預處理,具體流程圖如圖2A所示。在步驟AOl中,選取英譯中分領域語料,本實施例選取專利領域語料。在步驟A02中,首先進行分領域的語料預處理(A0201),用詞頻統(tǒng)計單元對英文語料進行詞頻統(tǒng)計并做出詞頻標注(A0202),針對具有細分類的語料(如專利文獻),對在某分類具有突出高頻率的英文詞后加注分類號作分類標識(A0203)。在這里需要說明的是詞頻統(tǒng)計單元為本領域的現(xiàn)有技術,既可以通過軟件來實現(xiàn),也可以采用專用的硬件來實現(xiàn)。本實施例語料具有國際分類,如電通信技術分類號為H04,根據(jù)所述對英文語料進行的詞頻統(tǒng)計,英文詞delay在H04分類中比其它分類具有突出高的頻率,故在delay后加注分類標識H04 ;句庫建設步驟的具體流程圖如圖2B所示。 在步驟BOl中執(zhí)行分句步驟,根據(jù)分句符分別將中、英文語料劃分為多個語句,中、英文句號、逗號、分號和冒號(引號忽略)都作為各自語料的分句符,另外,中、英文中表示時間分隔的冒號和數(shù)字分隔的逗號,英文中的縮寫和小數(shù)點不作為分句符處理;在步驟B02中執(zhí)行分詞步驟,將分好的每個語句根據(jù)詞典劃分為多個詞段組合,對于中文語句,將會影響對齊效果的介詞或助詞,如“之,乎,者,也”等,從語句中隱去,對于英文語句,將會影響對齊效果的介詞,如“to, of, for, from”等從語句中隱去;在步驟B03中執(zhí)行段落與語句的對齊步驟,首先通過段落比對單元進行段落對齊,若中英文語料對應段落的首句和尾句相互匹配,執(zhí)行段落對齊操作,否則放棄。再通過語句比對單元進行句對齊,找出相互匹配的中、英文句子,執(zhí)行句對齊操作,具體地,以英文句為基準(一句英文句比對一句或多句中文句),利用詞典逐句與中文語料的ー個區(qū)域的句子進行比對,該比對區(qū)域的句字數(shù)可在設定范圍內(nèi)動態(tài)調節(jié)(如I 一 10句),且新的比對區(qū)域總以前比對區(qū)域中最下方的比對成功的中文語句為中心(參見圖3)。在這里需要說明的是段落比對單元、語句比對單元可以構成為同一単元,同時,該段落比對単元、語句比對單元對于本領域技術人員而言可以通過現(xiàn)有的技術手段來實現(xiàn),既可以采用同一軟件來執(zhí)行,也可以采用同一專用的硬件來實現(xiàn)。其中,所述兩種語句的相互匹配是通過計算匹配率來確定,在該優(yōu)選實施例中,通過查詞典將英文語句逐詞翻譯成中文(含同義詞),再將英文語句的詞與中文語句的詞逐一比對,匹配成功的詞語數(shù)乘以2后,除以兩個語句的詞語總個數(shù),即為這兩個語句的匹配率,當匹配率大于設定值時,這兩個語句相互匹配并存入匹配鏈表,該匹配鏈表存儲在機器翻譯裝置內(nèi)部的存儲器中。然而,需要說明的是,上述匹配率的計算僅用于說明的目的,而并不在于將本發(fā)明限定于此,對于本領域技術人員也可以采用其它的計算方式來確定匹配率。在對齊結束后形成的句庫中,對齊的語句存儲方式是,一條記錄分為三個字段,分別為中文語句、英文語句和兩語句的匹配率。最后將形成的句庫存儲在機器翻譯裝置內(nèi)部的存儲器中,該存儲器可以為讀/寫存儲器(ROM)或隨機存取存儲器(RAM),對于本領域技術人員也可以理解,該存儲器也可以獨立于該機器翻譯裝置而存在。詞庫建設步驟的具體流程圖如圖2C所示。如果句對齊,則在詞庫建設步驟中,進程先行進至步驟C01,在步驟COl中進行單詞串抽取步驟,包括對在句對齊步驟中收集的對齊的中英文句對,利用自動對齊軟件獲取中英文句對中單詞之間的對齊關系,再用短語抽取工具從單詞級對齊好的語料中抽取短語并形成短語表,所述短語不是語言學上的短語,是連續(xù)的單詞串; 在步驟C02中進行語法標識步驟,包括基于所述步驟B03和步驟COl,利用英文詞典的詞性(僅指動詞)標注、英文謂語動詞特征〈如動詞形式是詞尾s或es,be +過去分詞 > 以及動詞搭配特征〈如動詞+距該動詞最近介詞 > 將英文句的相關動詞加注“動詞或核心動詞標識”以及“動詞搭配標識” < 動詞標識+介詞 > ;此外,對謂語動詞前長度受限(如6個以下單詞)的詞語(串)加注“主語標識”,再將所述標識映射到與之相匹配的中文詞語(串);在步驟C03中進行匹配詞處理步驟,包括在所述分句、分詞、句對齊和語法標識步驟基礎上,將相互匹配的中、英文詞語對中的中文詞語用詞典翻譯成英文(一般有若干個英文同義詞),所述同義詞作為機器輔助翻譯時的備選詞,將這些同義詞根據(jù)步驟AOl所述英文語料詞頻統(tǒng)計按照相應的詞匯頻率從高到低進行排序,同一中文詞具有不同英文匹配詞時,合并為ー組中、英文詞語對,詞庫中英文詞的排列順序為英文匹配詞一詞頻一同義詞 —詞頻;如果句未對齊,則在詞庫建設步驟中,進程先行進至步驟C04,在步驟C04中進行非匹配詞處理步驟,包括根據(jù)所述分句、分詞和句對齊步驟,對未匹配成功的中文詞用詞典翻譯成英文,一般為若干英文同義詞,這些同義詞根據(jù)步驟AOl所述英文語料詞頻統(tǒng)計按照相應的詞匯頻率從高到低進行排序,這些同義詞與所述非匹配中文詞形成中、英文詞語對,最前英文詞為首詞,其余為備選詞;在步驟C05中進行詞庫形成步驟,主要包括根據(jù)所述句對齊步驟、有關標識步驟以及匹配詞、非匹配詞處理步驟,將包含中文匹配詞、英文匹配詞和相關英文同義詞的詞語組合,以及包含非匹配中文詞及其英文同義詞的詞語組合,連同所述詞語的相關標識形成詞庫。機器翻譯步驟的具體流程圖如圖2D所示在步驟DOl中,進行中文短語框架制作步驟,包括根據(jù)分領域中文語料,人工制作由節(jié)點(中文字或詞)構成該領域通用中文短語框架;例1. <用于導管的 > 操縱機構具有〈限定水流量的 > 管狀部件。2.每個泡囊〈由一層封閉物氣密地封閉>。其中,〈用干…的>/く動詞…的>/く由…動詞 > 即為所述短語框架,節(jié)點“用干”和“由”等為具體型節(jié)點,“動詞”為通配型節(jié)點;在步驟D02中,制定所述短語框架在待譯中文句中的結成方法及翻譯規(guī)則步驟,包括制定中文句中短語框架的結成方法及翻譯規(guī)則;例如按短語節(jié)點順次結成短語框架,兩節(jié)點較近者優(yōu)先結成,框架中包含其它框架(內(nèi)框架)的為外框架,翻譯時外框架優(yōu)先;例I: ー種防護針裝置,包括①〈具有②《從其前端伸出的》穿刺尖端的 > 針套管。(外框架①/內(nèi)框架②,翻譯順序① > ②);A shield&bie needle device includes a needle cannula Cl) having apuncture tip ② extending from a forward end thereof.
例2:這可①〈通過②《在注射器運動吋》③《隨其一起運動的》脫離元件的相互作用來實現(xiàn)〉。(外框架①,內(nèi)框架②/③,翻譯順序為①> ②/③)mis may be achieved⑴by interaction between a moving component and adecoupling component that ② moves with the syringe ③ as it is advanced.在步驟D03中,進行句子構架模板庫生成步驟,根據(jù)步驟C02所述核心動詞標識以及D01/D02所述短語框架及其結成方法,并利用步驟B03所述句庫生成核心動詞(虛擬)和短語框架組成的中英文句子構架模板庫;在步驟D04中待譯中文句核心動詞識別步驟,根據(jù)步驟C02所述動詞或核心動詞標識、主語標識,步驟DOl所述的中文短語框架,以及中文句子語法特性識別中文標準句(以句號劃分)核心動詞非開頭動詞一非短語中動詞一非主語中動詞一之前和之后均無 “的”一最先出現(xiàn)的帶動詞標識的詞,所述“主語”包括帶主語標識的詞語(串)、之前帯“該”、“本”、“一種”等特征詞、之后帯“裝置”、“設備”、“器”等特征詞以及末尾無“的”的詞;例I :ー種防護針裝置,包括套筒和針套管。其中,“ー種防護針裝置”帶主語“特征詞”,即之前帯“ー種”、之后帯“裝置”,除此,最先出現(xiàn)的動詞“包括”為核心動詞;例2 :形成材料層的線狀體的纏繞在頂端部是緊密的。其中,動詞(帶動詞標識)“形成”位于句子開頭、動詞“纏繞”之前帯“的”,除此,最先出現(xiàn)的動詞“是”為該句的核心動詞。在步驟D07中尋找與待譯中文句相匹配的句子構架模板。在步驟D05中構架匹配的句子翻譯步驟,包括根據(jù)所述中文核心動詞識別步驟和短語框架結成方法,在句子構架模板庫中找出與待譯中文句構架完全匹配的中文句,即兩中文句構架的支點(核心動詞語法位置)及各短語框架完全匹配,則套用句子模板翻譯;選詞順序針對具有細分類文獻的機器或機助翻譯,選詞順序是匹配詞一分類標識一詞頻標識一同義詞一分類標識一詞頻標識;在步驟D06中智能組句翻譯步驟,包括根據(jù)步驟D05所述構架匹配句翻譯步驟以及步驟D02所述短語框架的結成和翻譯規(guī)則,對在句子構架模板庫中未找到構架匹配句的待譯中文句,按〈主語+核心動詞+短語〉格式翻譯,非核心動詞均用非謂語形式,其中有被動特征(如被十動詞)的用過去分詞,其它用現(xiàn)在分詞;選詞順序針對具有細分類文獻的機器或機助翻譯,選詞順序是匹配詞一分類標識一詞頻標識一同義詞一分類標識一詞頻標識。根據(jù)本發(fā)明實施例的機器翻譯裝置的內(nèi)部結構示意圖如圖4所示,其中該機器翻譯裝置包括語料預處理模塊,該模塊對分領域語料進行詞頻統(tǒng)計并標注;句庫建設模塊,該模塊利用分領域英譯漢語料建設句庫;詞庫建設模塊,該模塊根據(jù)所述語料預處理步驟和句庫建設步驟,建設詞庫;機器翻譯模塊,該模塊首先根據(jù)所述句庫建設步驟和詞庫建設步驟,人工制定中文短語節(jié)點構成的短語框架及其翻譯規(guī)則,以及識別中文句子支點的規(guī)則;利用所述句庫、語法標識和短語框架自動生成句子構架模板庫;尋找構架匹配句;其中,該機器翻譯模塊如果確定待譯中文句與某一構架模板相匹配,則套用構架模板進行翻譯;如果未匹配,則對未匹配待譯中文句,按進行智能組句機器翻譯。該機器翻譯裝置中的上述模塊,也分別根據(jù)它們的相應功能來執(zhí)行上述方法中如圖2A-圖2D中的具體步驟,在這里不在贊述。此外,該機器翻譯裝置還包括存儲器,該存儲器用于存儲上述方法中獲得的最終句庫;同時該機器翻譯裝置還包括所述段落比對單元以及所述語句比對單元。同時,對于本領域技術人員應當理解當段落比對單元、語句比對單元采用同一軟件來執(zhí)行時,也可以存儲在存儲器中。本發(fā)明涵蓋任何在本發(fā)明的精髄和范圍上做的替代、修改、等效方法以及方案。為了使公眾對本發(fā)明有徹底的了解,在以下本發(fā)明優(yōu)選實施例中詳細說明了具體的細節(jié),而對本領域技術人員來說沒有這些細節(jié)的描述也可以完全理解本發(fā)明。另外,為了避免對本發(fā)明的實質造成不必要的混淆,并沒有詳細說明眾所周知的方法、過程、流程、元件和電路
坐寸ο
最后應說明的是,以上實施例僅用以描述本發(fā)明的技術方案而不是對本技術方法進行限制,本發(fā)明在應用上可以延伸為其他的修改、變化、應用和實施例,并且因此認為所有這樣的修改、變化、應用、實施例都在本發(fā)明的精神和教導范圍內(nèi)。
權利要求
1.一種基于智能匹配的機器翻譯方法,該方法包括以下步驟A步驟進行語料預處理,對分領域語料進行詞頻統(tǒng)計并標注;B步驟進行句庫建設,利用分領域英譯漢語料建設句庫;C步驟進行詞庫建設,根據(jù)所述語料預處理和句庫建設,建設詞庫;D步驟進行機器翻譯,首先根據(jù)所述句庫建設和詞庫建設,制定中文短語節(jié)點構成的短語框架及其翻譯規(guī)則,以及識別中文句子支點的規(guī)則;利用所述句庫、語法標識和短語框架自動生成句子構架模板庫;尋找構架匹配句;其中,如果待譯中文句與某一構架模板相匹配,則套用構架模板進行翻譯;如果未匹配,則對未匹配待譯中文句,進行智能組句機器翻譯。
2.根據(jù)權利要求I所述的方法,其中在所述A步驟的進行語料預處理步驟中,具體包括AOl步驟選取英譯中分領域語料;A02步驟首先進行分領域的語料預處理(A0201),用詞頻統(tǒng)計單元對英文語料進行詞頻統(tǒng)計并做出詞頻標注(A0202),針對具有細分類的語料,對在某分類具有突出高頻率的英文詞后加注分類號作分類標識(A0203)。
3.根據(jù)權利要求2所述的方法,其中在所述B步驟的進行句庫建設步驟中,具體包括以下步驟BOl步驟執(zhí)行分句步驟;B02步驟執(zhí)行分詞步驟;B03步驟執(zhí)行段落與語句的對齊步驟。
4.根據(jù)權利要求3所述的方法,其中在所述B03步驟的執(zhí)行段落與語句的對齊步驟中,具體包括以下步驟首先通過段落比對單元進行段落對齊,若中英文語料對應段落的首句和尾句相互匹配,執(zhí)行段落對齊操作,否則放棄;再通過語句比對單元進行句對齊,找出相互匹配的中、英文句子,執(zhí)行句對齊操作。
5.根據(jù)權利要求4所述的方法,其中所述段落比對單元、所述語句比對單元可以構成為同一単元。
6.根據(jù)權利要求4所述的方法,其中對齊結束后形成的句庫中,對齊的語句存儲方式是,一條記錄分為三個字段,分別為中文語句、英文語句和兩語句的匹配率;最后將形成的句庫存儲在機器翻譯裝置內(nèi)部的存儲器中。
7.根據(jù)權利要求3所述的方法,其中在所述C步驟的進行詞庫建設步驟中,具體包括以下步驟如果句對齊,則在詞庫建設步驟中,進程先行進至步驟C01,在步驟COl中進行單詞串抽取步驟;在步驟C02中進行語法標識步驟;在步驟C03中進行匹配詞處理步驟;如果句未對齊,則在詞庫建設步驟中,進程先行進至步驟C04,在步驟C04中進行非匹配詞處理步驟;在步驟C05中進行詞庫形成步驟。
8.根據(jù)權利要求7所述的方法,其中在所述D步驟的進行機器翻譯步驟中,具體包括以下步驟在步驟DOl中,進行中文短語框架制作步驟;在步驟D02中,制定所述短語框架在待譯中文句中的結成方法及翻譯規(guī)則步驟;在步驟D03中,進行句子構架模板庫生成步驟;在步驟D04中,進行待譯中文句核心動詞識別步驟;在步驟D07中,尋找與待譯中文句相匹配的句子構架模板;在步驟D05中,構架匹配的句子翻譯步驟;在步驟D06中,進行智能組句翻譯步驟。
9.一種基于智能匹配的機器翻譯裝置,其包括語料預處理模塊,該模塊對分領域語料進行詞頻統(tǒng)計并標注;句庫建設模塊,該模塊利用分領域英譯漢語料建設句庫;詞庫建設模塊,該模塊根據(jù)所述語料預處理步驟和句庫建設步驟,建設詞庫;機器翻譯模塊,該模塊首先根據(jù)所述句庫建設步驟和詞庫建設步驟,人工制定中文短語節(jié)點構成的短語框架及其翻譯規(guī)則,以及識別中文句子支點的規(guī)則;利用所述句庫、語法標識和短語框架自動生成句子構架模板庫;尋找構架匹配句;其中,該機器翻譯模塊如果確定待譯中文句與某一構架模板相匹配,則套用構架模板進行翻譯;如果未匹配,則對未匹配待譯中文句,進行智能組句機器翻譯。
10.根據(jù)權利要求9所述的機器翻譯裝置,其特征在于該機器翻譯裝置還包括存儲器,該存儲器用于存儲句庫;同時該機器翻譯裝置還包括所述段落比對單元以及所述語句比對單元。
全文摘要
本發(fā)明設計了一種智能匹配的機器翻譯裝置及其方法,該方法包括以下步驟A步驟進行語料預處理步驟,對分領域語料進行詞頻統(tǒng)計并標注;B步驟進行句庫建設步驟,利用分領域英譯漢語料建設句庫;C步驟進行詞庫建設步驟,根據(jù)所述語料預處理步驟和句庫建設步驟,建設詞庫;D步驟進行機器翻譯步驟,首先根據(jù)所述句庫建設步驟和詞庫建設步驟,人工制定中文短語節(jié)點構成的短語框架及其翻譯規(guī)則,以及識別中文句子支點的規(guī)則;利用所述句庫、語法標識和短語框架自動生成句子構架模板庫;尋找構架匹配句。
文檔編號G06F17/28GK102831109SQ201210281280
公開日2012年12月19日 申請日期2012年8月8日 優(yōu)先權日2012年8月8日
發(fā)明者俞蓮 申請人:中國專利信息中心