專利名稱:多語言工卡生成系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)管理技術(shù)領(lǐng)域,尤其涉及一種多語言工卡生成系統(tǒng)及方法。
背景技術(shù):
航空業(yè)是一個競爭激烈的行業(yè)。為了提供有競爭力的全球航空服務(wù),智能化情境感知數(shù)據(jù)管理服務(wù) 是不可或缺的。如何為航空工作人員構(gòu)建一個更高效、及時、自適應(yīng)、輔助性的、用來處理日常功能和服務(wù)的工作環(huán)境提上了議程。根據(jù)統(tǒng)計,每年航空工業(yè)在維修上花費驚人,僅次于燃油費用。2007年,全球維護、維修、大修(Maintenance Repair &Overhaul, MR0)服務(wù)花費450億美元,2017年預(yù)計將擴大為610億美元。航空公司預(yù)計從2010到2017年十年間,航空業(yè)的客流將會增加近50%,刺激了航空飛機MRO服務(wù)的快速增長。在全球經(jīng)濟衰退的情況下,MRO面臨著航空業(yè)的疲軟。MRO從業(yè)者面臨提供工作效率和減少工作成本的巨大壓力。在航空領(lǐng)域,工卡是記錄著所有在維修飛機時需要信息的文檔,其提供給所有飛機維修的技術(shù)人員。生成雙語工卡是一個很耗時的工作,例如,要生成一個600頁的雙語工卡需耗時近一個月。Enigma公司提供了一種工卡生成器系統(tǒng),該系統(tǒng)提高了飛機維修工卡制作工作的效率。但該生成系統(tǒng)不支持生成雙語工卡。
發(fā)明內(nèi)容
(一 )要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是提供一種能夠高效生成多語言工卡的多語言工卡生成系統(tǒng)及方法。( 二 )技術(shù)方案為解決上述問題,本發(fā)明提供了一種多語言工卡生成系統(tǒng),該系統(tǒng)包括工卡匹配模塊,用于根據(jù)輸入條件,將對應(yīng)的多語言工卡信息發(fā)送至工卡輸出模塊,或?qū)?yīng)的單一語種工卡信息發(fā)送至工卡生成模塊;工卡生成模塊,用于對所述單一語種工卡信息進行解析,在語料庫中查找所述單一語種工卡信息對應(yīng)的一種或多種語言譯文,并將所述譯文插入到所述單一語種工卡信息中,發(fā)送至工卡輸出模塊;工卡輸出模塊,用于將所述多語言工卡信息或插入了譯文的單一語種工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的多語言工卡并輸出,并根據(jù)所述插入了譯文的單一語種工卡信息更新所述語料庫;所述語料庫為記憶翻譯庫,用于存儲多語言工卡信息,同一條工卡信息對應(yīng)的多種語言譯文作為一個翻譯單元存儲。優(yōu)選地,該系統(tǒng)還包括工卡庫,與所述工卡匹配模塊以及所述工卡輸出模塊相連,用于存儲工卡;所述工卡輸出模塊進一步包括輸出單元,用于將所述多語言工卡信息或插入了譯文的單一語種工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的多語言工卡并輸出;語料庫更新單元,用于根據(jù)所述插入了譯文的單一語種工卡信息更新所述語料庫;工卡庫更新單元,用于將所述多語言工卡同步到所述工卡庫。
優(yōu)選地,所述工卡生成模塊進一步包括譯文查找單元,用于對所述單一語種工卡信息進行解析,在語料庫中查找所述單一語種工卡信息對應(yīng)的一種或多種語言譯文;譯文插入單元,用于將所述譯文插入到所述單一語種工卡信息中,發(fā)送至工卡輸出模塊。優(yōu)選地,該系統(tǒng)還包括語料庫抽取存儲模塊,與所述工卡庫相連,用于對工卡進行解析,將每條工卡信息對應(yīng)的多語言譯文作為一個翻譯單元抽取出,并對每個翻譯單元建立索引,存儲到所述語料庫中。
優(yōu)選地,所述語料庫抽取存儲模塊進一步包括抽取單元,與所述工卡庫相連,用于對工卡進行解析,將每條工卡信息對應(yīng)的多語言譯文作為一個翻譯單元抽取出;存儲單元,用于對每個所述翻譯單元建立索引,并存儲到所述語料庫中。本發(fā)明還提供了一種多語言工卡生成方法,該方法包括步驟SI.根據(jù)輸入條件,在工卡庫中進行工卡匹配,若存在與所述輸入條件對應(yīng)的多語言工卡信息,則執(zhí)行步驟S3,否則,執(zhí)行步驟S2 ;S2.對所述輸入條件對應(yīng)的單一語種工卡信息進行解析,在語料庫中查找所述單一語種工卡信息對應(yīng)的一種或多種語言譯文,并將所述譯文插入到所述單一語種工卡信息中;S3.將所述多語言工卡信息或插入了譯文的單一語種工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的多語言工卡并輸出,并根據(jù)所述插入了譯文的單一語種工卡信息更新所述語料庫,將所述多語言工卡同步到工卡庫;所述語料庫為記憶翻譯庫,用于存儲多語言工卡信息,同一條工卡信息對應(yīng)的多種語言譯文作為一個翻譯單元存儲;所述工卡庫用于存儲工卡。優(yōu)選地,步驟S2進一步包括步驟S2. I對所述輸入條件對應(yīng)的單一語種工卡信息進行解析,在語料庫中查找每條工卡信息對應(yīng)的一種或多種語言譯文;S2. 2若所述語料庫中存在對應(yīng)的譯文,則將所述對應(yīng)的譯文插入到所述單一語種工卡信息中,否則,執(zhí)行步驟S2. 3 ;S2. 3根據(jù)編輯距離進行匹配,查找與對應(yīng)的譯文相似度最高的譯文,并將所述相似度最高的譯文插入到所述單一語種工卡信息中。優(yōu)選地,在步驟S2. 3中,所述相似度最高的譯文以突出標記的形式插入到所述單一語種工卡信息中,且后綴其相似度分值。優(yōu)選地,該方法還包括步驟S0. I對工卡進行解析,將每條工卡信息對應(yīng)的多語言譯文作為一個翻譯單元抽取出;S0. 2對每個所述翻譯單元建立索引,并存儲到所述語料庫中。優(yōu)選地,所述翻譯單元及其索引以TMX文件格式存儲在所述語料庫中。(三)有益效果本發(fā)明的系統(tǒng)及方法通過將記憶翻譯技術(shù)融合到多語言工卡生成中,不僅實現(xiàn)了多語言工卡的生成,且生成效率高、成本低。
圖I為依照本發(fā)明一種實施方式的多語言工卡生成系統(tǒng)的結(jié)構(gòu)圖;圖2為WORD格式的雙語工卡示意圖;圖3為依照本發(fā)明一種實施方式的多語言工卡生成方法的流程圖。
具體實施例方式本發(fā)明提出的多語言工卡生成系統(tǒng)及方法,結(jié)合附圖及實施例詳細說明如下。 記憶翻譯使用現(xiàn)存已經(jīng)翻譯好的句子來翻譯新句子,將英文和中文譯文以一個翻譯單元的形式進行存儲,是近年來提出的一種語言翻譯技術(shù),目前有10種標準(TMX、TBX、UTX、SRX、GMX、OLIF、XLIFF, TransffS, XML: TM、PO),TMX 的標準被業(yè)屆公認為是最佳選擇。采用記憶翻譯技術(shù)能有效的提高翻譯工作的工作效率。本發(fā)明即將記憶翻譯技術(shù)融合到多語目工卡生成中。根據(jù)用戶條件自動查找工卡庫中現(xiàn)存的工卡,利用現(xiàn)存的工卡資源,構(gòu)建自己的語料庫。根據(jù)該語料庫能對單一語種工卡進行多語言譯文生成。多語言生成工作直接在非結(jié)構(gòu)化工卡上進行修改。插入的譯文將標注相似度信息,以便于用戶進行審閱及修改。經(jīng)過人工審閱后的多語言工卡,可以用來對現(xiàn)存語料庫進行完善,從而不斷提高語料庫的完備性及準確性。本實施方式以針對中英文雙語工卡的工卡生成系統(tǒng)為例進行說明,但不限于此,本發(fā)明的系統(tǒng)也適用于其它任意兩種或多種語言開卡的生成。依照本發(fā)明一種實施方式的雙語工卡生成系統(tǒng)有助于提高MRO中英文工卡雙語生成效率,并降低成本。如圖I所示,該系統(tǒng)包括工卡匹配模塊、工卡生成模塊、工卡輸出模塊、以及語料庫抽取存儲模塊。在本實施方式的系統(tǒng)中,用戶在需要生成工卡時,首先需要輸入與維修信息相關(guān)的條件,例如,查詢對某型號飛機發(fā)動機的相關(guān)維修信息,輸入飛機型號以及發(fā)動機對應(yīng)的英文。工卡匹配模塊用于從工卡庫中查詢與用戶輸入條件最為接近的工卡,如果存在與用戶輸入條件最相近的中英文雙語工卡,則將其直接發(fā)送至工卡輸出模塊,由用戶確定該現(xiàn)有的工卡信息是否需要進一步修改,或直接轉(zhuǎn)換為結(jié)構(gòu)化的雙語工卡輸出。如果與用戶輸入條件最相近的工卡是單一語種(中文或英文,本實施方式為英文)的工卡,則將該查詢到的該單一語種工卡發(fā)送至工卡生成模塊進一步處理。工卡生成模塊進一步包括譯文查找單元以及譯文插入單元,譯文查找單元根據(jù)工卡匹配模塊發(fā)送的對單一語種的工卡信息進行解析,提取每條信息的英文原文,并在語料庫中根據(jù)記憶翻譯的匹配策略進行對應(yīng)中文譯文的查找,從而獲取相應(yīng)的中文譯文,并由譯文插入單元將其插入到該英文工卡信息中。當語料庫中不存在相應(yīng)的中文譯文時,譯文查找單元則利用編輯距離進行匹配,獲取相關(guān)譯文的相似度信息,將由譯文插入單元將相似度最高的譯文插入到該英文工卡信息中。優(yōu)選地,該譯文插入單元突出標記出該插入的譯文(例如以紅色字體顯示)并后綴其相似度分值以提示用戶,通過交互界面由用戶根據(jù)需要(經(jīng)驗或相關(guān)知識等)進行修改或確認,并將修改或確認后的非結(jié)構(gòu)化文檔信息發(fā)送至工卡輸出模塊。工卡輸出模塊根據(jù)工卡生成模塊進一步包括輸出單元、語料庫更新單元、以及工卡庫更新單元。輸出單元用于將帶有譯文的工卡信息轉(zhuǎn)換成結(jié)構(gòu)化文本的雙語工卡后輸出(如圖2所示為一個雙語工卡Word格式示例)。工卡庫更新單元將該工卡信同步到工卡庫,更新工卡庫。語料庫更新單元將工卡生成模塊發(fā)送的帶有譯文的工卡信息同步到語料庫,對語料庫進行更新。如果語料庫存在相應(yīng)的翻譯單元,則跳過該翻譯單元的處理。語料庫為記憶翻譯庫,其中存有工卡的維修信息,同一條工卡信息對應(yīng)的中英文譯文作為一個翻譯單元,每個翻譯單元對應(yīng)一個索引,所有翻譯單元及索引以TMX文件標準進行存儲(TMX標準是記憶翻譯領(lǐng)域的一種翻譯規(guī)范)。語料庫抽取存儲模塊用于生成并維護該語料庫,為工卡的生成做準備。該模塊包括抽取單元以及存儲單元,抽取單元通過對工卡庫內(nèi)現(xiàn)存的雙語工卡進行解析,按照工卡文檔中的工作流程項目分解,將每個條目對應(yīng)的中文及其英文譯文作為一個翻譯單元抽取出;存儲單元對抽取單元抽取的翻譯單元進行索引,并以TMX文件標準進行存儲,從而形成該語料庫。語料庫基于記憶翻譯技術(shù)來不斷更新,在建立初期,工卡庫中沒有工卡時,可以根據(jù)常識以及技術(shù)經(jīng)驗等初步建立該語料庫。如圖3所示,依照本發(fā)明一種實施方式的基于上述系統(tǒng)的多語言工卡生成方法包括步驟SI.工卡匹配模塊根據(jù)用戶的輸入條件,在工卡庫中進行工卡匹配,若存在與輸入條件對應(yīng)的雙語工卡信息,則執(zhí)行步驟S3,否則,執(zhí)行步驟S2 ;S2.工卡生成模塊對該輸入條件對應(yīng)的英文工卡信息進行解析,在語料庫中查找該英文工卡信息對應(yīng)的中文譯文,并將查找到的中文譯文插入到該英文工卡信息中;S3.工卡輸出模塊將雙語信息或插入了中文譯文的英文工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的雙語工卡并輸出,根據(jù)插入了中文譯文的英文工卡信息更新語料庫,將該雙語工卡同步到工卡庫。在本實施方式的方法中,步驟S2進一步包括步驟S2. I譯文查找單元對該輸入條件對應(yīng)的英文語種工卡信息進行解析,在語料庫中查找每條工卡信息對應(yīng)的中文譯文;S2. 2若語料庫中存在對應(yīng)的中文譯文,則譯文插入單元將該對應(yīng)的中文譯文插入到英文工卡信息中,否則,執(zhí)行步驟S2. 3 ;S2. 3根據(jù)編輯距離進行匹配,查找與對應(yīng)的譯文相似度最高的譯文,譯文插入單元以突出標記的形式插入到該英文工卡信息中,且后綴其相似度分值,供用戶參考,用戶對其進行修改或確認后輸出。
該方法還包括步驟S0. I語料庫抽取存儲模塊的抽取單元對工卡進行解析,將每條英文工卡信息對應(yīng)的中文譯文作為一個翻譯單元抽取出;S0. 2存儲單元對每個翻譯單元建立索引,并存儲到語料庫中。以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應(yīng)由權(quán)利要求限定。
權(quán)利要求
1.一種多語言工卡生成系統(tǒng),其特征在于,該系統(tǒng)包括 工卡匹配模塊,用于根據(jù)輸入條件,將對應(yīng)的多語言工卡信息發(fā)送至工卡輸出模塊,或?qū)?yīng)的單一語種工卡信息發(fā)送至工卡生成模塊; 工卡生成模塊,用于對所述單一語種工卡信息進行解析,在語料庫中查找所述單一語種工卡信息對應(yīng)的一種或多種語言譯文,并將所述譯文插入到所述單一語種工卡信息中,發(fā)送至工卡輸出模塊; 工卡輸出模塊,用于將所述多語言工卡信息或插入了譯文的單一語種工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的多語言工卡并輸出,并根據(jù)所述插入了譯文的單一語種工卡信息更新所述語料庫; 所述語料庫為記憶翻譯庫,用于存儲多語言工卡信息,同一條工卡信息對應(yīng)的多種語言譯文作為一個翻譯單元存儲。
2.如權(quán)利要求I所述的系統(tǒng),其特征在于,該系統(tǒng)還包括 工卡庫,與所述工卡匹配模塊以及所述工卡輸出模塊相連,用于存儲工卡; 所述工卡輸出模塊進一步包括 輸出單元,用于將所述多語言工卡信息或插入了譯文的單一語種工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的多語言工卡并輸出; 語料庫更新單元,用于根據(jù)所述插入了譯文的單一語種工卡信息更新所述語料庫; 工卡庫更新單元,用于將所述多語言工卡同步到所述工卡庫。
3.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述工卡生成模塊進一步包括 譯文查找單元,用于對所述單一語種工卡信息進行解析,在語料庫中查找所述單一語種工卡信息對應(yīng)的一種或多種語言譯文; 譯文插入單元,用于將所述譯文插入到所述單一語種工卡信息中,發(fā)送至工卡輸出模塊。
4.如權(quán)利要求2所述的系統(tǒng),其特征在于,該系統(tǒng)還包括 語料庫抽取存儲模塊,與所述工卡庫相連,用于對工卡進行解析,將每條工卡信息對應(yīng)的多語言譯文作為一個翻譯單元抽取出,并對每個翻譯單元建立索引,存儲到所述語料庫中。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述語料庫抽取存儲模塊進一步包括 抽取單元,與所述工卡庫相連,用于對工卡進行解析,將每條工卡信息對應(yīng)的多語言譯文作為一個翻譯單元抽取出; 存儲單元,用于對每個所述翻譯單元建立索引,并存儲到所述語料庫中。
6.一種多語言工卡生成方法,其特征在于,該方法包括步驟 S1.根據(jù)輸入條件,在工卡庫中進行工卡匹配,若存在與所述輸入條件對應(yīng)的多語言工卡信息,則執(zhí)行步驟S3,否則,執(zhí)行步驟S2 ; S2.對所述輸入條件對應(yīng)的單一語種工卡信息進行解析,在語料庫中查找所述單一語種工卡信息對應(yīng)的一種或多種語言譯文,并將所述譯文插入到所述單一語種工卡信息中; SS3.將所述多語言工卡信息或插入了譯文的單一語種工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的多語言工卡并輸出,并根據(jù)所述插入了譯文的單一語種工卡信息更新所述語料庫,將所述多語言工卡同步到工卡庫;所述語料庫為記憶翻譯庫,用于存儲多語言工卡信息,同一條工卡信息對應(yīng)的多種語言譯文作為一個翻譯單元存儲; 所述工卡庫用于存儲工卡。
7.如權(quán)利要求6所述的方法,其特征在于,步驟S2進一步包括步驟 S2.I對所述輸入條件對應(yīng)的單一語種工卡信息進行解析,在語料庫中查找每條工卡信息對應(yīng)的一種或多種語言譯文; S2.2若所述語料庫中存在對應(yīng)的譯文,則將所述對應(yīng)的譯文插入到所述單一語種工卡信息中,否則,執(zhí)行步驟S2. 3; S2.3根據(jù)編輯距離進行匹配,查找與對應(yīng)的譯文相似度最高的譯文,并將所述相似度最高的譯文插入到所述單一語種工卡信息中。
8.如權(quán)利要求7所述的方法,其特征在于,在步驟S2.3中,所述相似度最高的譯文以突出標記的形式插入到所述單一語種工卡信息中,且后綴其相似度分值。
9.如權(quán)利要求6所述的方法,其特征在于,該方法還包括步驟 SO. I對工卡進行解析,將每條工卡信息對應(yīng)的多語言譯文作為一個翻譯單元抽取出; S0. 2對每個所述翻譯單元建立索引,并存儲到所述語料庫中。
10.如權(quán)利要求9所述的方法,其特征在于,所述翻譯單元及其索引以TMX文件格式存儲在所述語料庫中。
全文摘要
本發(fā)明公開了一種多語言工卡生成系統(tǒng)及方法,涉及數(shù)據(jù)管理技術(shù)領(lǐng)域。該系統(tǒng)包括工卡匹配模塊,將對應(yīng)的多語言工卡信息發(fā)送至工卡輸出模塊,或?qū)?yīng)的單一語種工卡信息發(fā)送至工卡生成模塊;工卡生成模塊,對單一語種工卡信息進行解析,在語料庫中查找對應(yīng)的一種或多種語言譯文,并將譯文插入到工卡信息中;工卡輸出模塊,將多語言工卡信息或插入了譯文的單一語種工卡信息轉(zhuǎn)換成結(jié)構(gòu)化的多語言工卡并輸出,并根據(jù)插入了譯文的單一語種工卡信息更新所述語料庫;語料庫為記憶翻譯庫,存儲多語言工卡信息。本發(fā)明的系統(tǒng)及方法通過將記憶翻譯技術(shù)融合到多語言工卡生成中,不僅實現(xiàn)了多語言工卡的生成,且生成效率高、成本低。
文檔編號G06F17/30GK102629244SQ20121004787
公開日2012年8月8日 申請日期2012年2月27日 優(yōu)先權(quán)日2012年2月27日
發(fā)明者馮鈴, 劉青偉, 王昊 申請人:清華大學