專利名稱:翻譯隱藏式字幕的領域自適應便攜機器翻譯設備及其方法
技術領域:
本發(fā)明涉及一種使用動態(tài)翻譯資源用于隱藏式字幕(closed caption)的 領域自適應便攜機器翻譯設備及其方法。更具體地,本發(fā)明涉及一種機器翻 譯設備及其方法,其可以通過動態(tài)地構建適合于自動識別的字幕語句的風格 和領域的特定的翻譯模塊和知識,以及利用優(yōu)化的翻譯資源自動地翻譯對應 的語句,來改進在各個專門領域的翻譯性能。
背景技術:
雖然已經(jīng)成功地將日語-韓語/韓語-日語機器翻譯系統(tǒng)商業(yè)化,但是用于 在諸如韓語-英語/英語-韓語以及韓語-漢語/漢語-韓語翻譯等的完全不同的樣 式(heterogeneous pattern)的語言之間的翻譯的大多數(shù)機器翻譯系統(tǒng)只取得 了很小的商業(yè)成功。其原因在于雖然翻譯性能依賴于要翻譯的目標語言和 段落而變化,但當在完全不同的樣式的語言之間翻譯時,機器通常呈現(xiàn)出較 差的性能。譯系統(tǒng),而做出嘗試以增強輸出質量。作為這樣的努力的結果,已經(jīng)以不同 程度的成功對用于諸如技術手冊領域、專利領域、圣經(jīng)翻譯領域等的部分專 門的領域的翻譯系統(tǒng)實現(xiàn)了商業(yè)化。具體地,通過衛(wèi)星TV的廣泛傳播的推動,存在對于用于隱藏式字幕的 機器翻譯系統(tǒng)的不斷增長的需求,其可通過自動翻譯從廣播信號中提取的字 幕信號而為觀眾提供選擇他/她們的語言的字幕。這里,隱藏式字幕指從廣播站輸出的包含字幕信號的圖像信號。近來,' 許多廣播公司為聽力受損提供這樣的隱藏式字幕。1990年,美國要求13英 尺或更大的電視機必須具有隱藏式字幕功能,本地電視廣播站和CATV公司 也正在擴展隱藏式字幕節(jié)目。同樣,預計繼續(xù)擴展由CNN、 NHK、 AFKN提 供的外語的隱藏式字幕的節(jié)目。然而,在TV上的隱藏式字幕中,口語風格和書面風格在各種類型中混 合,例如,戲劇、文化和時事、娛樂等等、以及新聞。特別地,在新聞中, 幾乎使用來自所有領域的各種技術術語和表述,因此開發(fā)可提供商業(yè)規(guī)模的 高質量輸出的用于隱藏式字幕的機器翻譯系統(tǒng)存在技術上的困難。為了克服此技術困難,韓國專利公開第1997-56985號(
公開日1997 年7月31日)公開了具有用于翻譯隱藏式字幕的功能的TV。該TV將韓語 和外語翻譯部分分開,從而以觀眾選擇的語言顯示字幕數(shù)據(jù),因此便利地滿 足觀眾的需要。然而,具有隱藏式字幕功能的TV執(zhí)行以下處理從輸入廣播信號提取 字幕數(shù)據(jù),將該字幕數(shù)據(jù)翻譯為所選擇的語言,接著在TV屏幕上顯示翻譯 的結果。因此,其缺點在于必須單獨購買支持隱藏式字幕的TV,而且當廣 播信號是從另一媒體設備(例如,衛(wèi)星機頂盒、視頻播放器、DMB終端等) 輸入時,無法提供字幕功能。此外,具有隱藏式字幕功能的TV只對字幕數(shù)據(jù)執(zhí)行翻譯,因此對于口 語風格、書面風格的語句、以及在有字幕的節(jié)目中處理的各種技術領域中使 用的語句,其不能提供高輸出質量。例如,在新聞中,通常將"die"用作意思為"停止生命"的動詞,但在 科學領域中,最經(jīng)常地將"die"用作意思為"模具"的名詞。因此,如果在 科學領域字幕中將"die"誤翻譯為意思為"停止生命"的動詞,這是因為翻 譯是在沒有考慮應用領域的情況下執(zhí)行的。也就是說,因為具有翻譯隱藏式字幕的功能的TV將相同的翻譯模塊和 知識作為一個整體應用于所有的領域,因此當輸入各種風格和技術的語句時, 顯然翻譯質量將會降級。因此,進行了許多考慮技術領域而改進翻譯質量的嘗試。代表性的方法 是用戶自適應機器翻譯方法,其中校正翻譯的結果中的錯誤,將校正的結果 存儲為補充的翻譯知識,并在下次自動應用該翻譯知識,借此改進相似輸入 語句的翻譯質量。作為上述的用戶自適應機器翻譯方法,通常使用基于翻譯存儲器的自適 應翻譯方法,其中用戶添加他/她自己的翻譯詞典,或手動注冊基于樣式的翻譯集(corpus),并接著將結果應用于語句翻譯。韓國專利公開第2004-0111188號(
公開日2004年12月31日)公開了 一種相關的、傳統(tǒng)的自適應機器翻譯方法。在韓國專利爿〉開第2004-0111188 號中公開的自適應機器翻譯方法通過防止重復錯誤而改進翻譯質量。這通過 機器翻譯系統(tǒng)的用戶直接校正錯誤、將校正的結果轉換為系統(tǒng)的輸入知識格 式、并接著將轉換的結果再次應用于翻譯系統(tǒng)來完成。然而在上面的方法中,用戶必須持續(xù)地校對,校正大量的機器翻譯的文 檔。小規(guī)模的校對對于改進各種領域的文檔的機器翻譯性能是無效的。同樣,自適應機器翻譯方法使用數(shù)據(jù)驅動的機器翻譯引擎,以避免翻譯 數(shù)據(jù)或規(guī)則的沖突。在此情況下,由于存在對于添加逐詞翻譯校正知識以改 進翻譯性能的限制,需要從大量翻譯知識建立的單獨的統(tǒng)計數(shù)據(jù)庫。因此,為了使用于隱藏式字幕的便攜機器翻譯系統(tǒng)商業(yè)化,需要通過自 動識別目標領域和風格以及構建專門的翻譯環(huán)境來改進翻譯性能,并且使得 能夠與各種類型的媒體設備鏈接。發(fā)明內(nèi)容本發(fā)明針對提供一種用于隱藏式字幕的領域自適應便攜機器翻譯設備及 其方法,其能夠通過自動識別字幕的風格和領域,動態(tài)地構建專用翻譯模塊 和知識,并且利用優(yōu)化的翻譯資源自動翻譯相應的語句,來相對于各種專門 領域改進翻譯性能。本發(fā)明還針對提供一種用于隱藏式字幕的領域自適應便攜機器翻譯設備 及其方法,其可以獨立于其它媒體設備(諸如連接到因特網(wǎng)的PC、衛(wèi)星TV 的機頂盒、有線TV、視頻播放器、USB盤等等)工作,也可以通過輸入/輸 出端子不受限制地與這樣的媒體設備鏈接。本發(fā)明的 一 方面提供了 一種用于隱藏式字幕的領域自適應便攜機器翻譯 設備,包括關鍵詞提取部件,提取用于識別輸入廣播信號中的字幕語句的 風格和領域的關鍵詞;風格和領域識別部件,基于提取的關鍵詞、預構建的 謂語結束/風格統(tǒng)計詞典和預構建的詞匯/領域統(tǒng)計詞典識別字幕語句的風格 和領域;動態(tài)翻譯知識構建部件,基于識別的風格和領域動態(tài)地構建翻譯知 識,隨后將結果載入到主存儲器的動態(tài)翻譯DB中;動態(tài)翻譯模塊構建部件, 基于識別的風格和領域動態(tài)地構建翻譯模塊;語素(morpheme)分析部件, 在動態(tài)翻譯模塊構建部件的控制下分析字幕語句的語素;語句樣式應用部件, 通過在動態(tài)翻譯模塊構建部件的控制下將語句樣式應用到字幕語句,來執(zhí)行 逐句翻譯;語法分析部件,在動態(tài)翻譯模塊構建部件的控制下分析字幕語句 的語法;以及基于樣式的翻譯生成部件,基于語法分析結果產(chǎn)生基于樣式的 字幕語句的翻譯。本發(fā)明的另一方面提供了一種用于隱藏式字幕的領域自適應便攜機器翻 譯設備的翻譯方法,包括以下步驟(a)提取用于分析輸入廣播信號中的字 幕語句的風格和領域的關鍵詞;(b)基于提取的關鍵詞、預構建的謂語結束/ 風格統(tǒng)計詞典和預構建的詞匯/領域統(tǒng)計詞典識別字幕語句的風格和領域; (c )基于識別的風格和領域動態(tài)地構建翻譯知識,并將該知識載入到主存儲 器的動態(tài)翻譯DB中;(d)基于識別的風格和領域動態(tài)地構建翻譯模塊;(e) 基于識別的風格和領域分析字幕語句的語素;(f)通過基于識別的風格和領 域將語句樣式應用到字幕語句,來執(zhí)行逐句翻譯;(g)基于識別的風格和領 域分析字幕語句的語法;以及(h)基于語法分析結果產(chǎn)生基于樣式的字幕語 句的翻i奪。
通過參照附圖詳細描述本發(fā)明的示例實施例,本發(fā)明的上面的和其他的 目標、特性和優(yōu)點對于本領域普通技術人員將變得更加顯而易見。附圖中圖1是根據(jù)本發(fā)明的用于隱藏式字幕的領域自適應便攜機器翻譯設備的 結構的框圖;以及圖2是圖示根據(jù)本發(fā)明的用于隱藏式字幕的領域自適應便攜機器翻譯設 備的翻譯方法的流程圖。
具體實施方式
從下面的、如在附圖中所示的本發(fā)明的示例實施例的更具體的描述,本 發(fā)明的前述和其它目標、特性和優(yōu)點將顯而易見。圖1是根據(jù)本發(fā)明的用于隱藏式字幕的領域自適應便攜機器翻譯設備的 結構的框圖。如圖1所示,用于隱藏式字幕的領域自適應便攜機器翻譯設備包括輸
入端子IN,用于輸入廣播信號;語句提取部件101,從通過輸入端子IN的輸 入廣播信號提取字幕語句;關鍵詞提取部件102,從由語句提取部件101提 取的字幕語句中提取關鍵詞;風格和領域識別部件103,基于提取的關鍵詞、 預構建的謂語結束/風才各統(tǒng)計詞典301和預構建的詞匯/領域統(tǒng)計詞典302,識 別字幕語句的風格和領域;動態(tài)翻譯知識構建部件104,利用識別的風格和 領域動態(tài)地構建翻譯知識,并將構建的結果載入主存儲器的動態(tài)翻譯DB 206;動態(tài)翻譯模塊構建部件105,利用識別的風格和領域動態(tài)地重構翻譯模 塊;語素分析部件106,分析字幕語句的語素;語句樣式應用部件107,將語 句樣式應用到字幕語句,從而執(zhí)行逐句翻譯;語法分析部件108,當語句樣 式應用失敗時分析字幕語句的語法;基于樣式的翻譯生成部件109,產(chǎn)生字 幕語句的基于樣式的翻譯;翻譯合并部件110,合并輸入廣播信號和翻譯; 以及輸出端子OUT,輸出在翻譯合并部件110中合并的廣播信號。
輸入端子IN可提供用于輸入廣播信號的USB端口/視頻端子/音頻端子/ 同軸電纜端子,輸出端子OUT可包含用于輸出廣播信號的USB端口/視頻端 子/音頻端子/同軸電纜端子。
語句提取部件101從通過輸入端子IN的輸入廣播信號提取字幕語句,并 將提取的結果作為翻譯目標語句輸出。
同樣,當將USB盤連接到USB端口以更新翻譯知識并傳送控制信號時, 翻譯提取部件101通過分離USB盤中的控制文件和翻譯知識文件,從翻譯目 標文件中提取要翻譯的語句。
這里,控制文件包含稍后動態(tài)地構建翻譯模塊和翻譯知識所需的所有信 息,例如用戶數(shù)據(jù)、領域數(shù)據(jù)等等,其中可由控制文件手動地設置用戶和領 域數(shù)據(jù)。
而且,在翻譯知識文件中,將翻譯知識以"補充的詞匯牆W奪的補充詞匯 /處理類型(添加/刪除Af奮改)/用戶ID"的形式寫入,借此可將新的詞條(entry ) 添力口到用戶詞典。
關鍵詞提取部件102參考在主存儲器中存儲的公用語素分析詞典201, 分析從語句提取部件101中接收的字幕語句的語素,并從語素分析結果中提 取對應于名詞或格變化(declinable)的詞語的關鍵詞。
風格和領域識別部件103基于從關鍵詞提取部件102中提取的關;鍵詞、 預構建的謂語結束/風格統(tǒng)計詞典301和詞匯/領域統(tǒng)計詞典302,識別字幕語
句的風^^和領域。下面將更詳細地描述識別風#"和領域的方法。
首先,識別風格的方法如下。風格和領域識別部件103通過根據(jù)謂語結 束/風格統(tǒng)計詞典301、將字幕語句的最后一個詞語在書面風格中出現(xiàn)的頻率 與該字幕語句的最后 一個詞語在口語風格中出現(xiàn)的頻率進行比較,來確定字 幕語句符合書面風格還是口語風格。
也就是說,謂語結束/風格統(tǒng)計詞典301從口語集和書面集的語素分析結
果提取謂語結束和語氣的頻率統(tǒng)計數(shù)據(jù),并通過將它們分為{最后一個詞語/ 口語風格頻率/書面風格頻率},來存儲提取的結果。因此,通過將對應的最 后 一個詞語在口語風才各中出現(xiàn)的頻率與該對應的最后 一個詞語在書面風才各中 出現(xiàn)的頻率進行比較,可確定字幕語句的最后一個詞語是書面風格還是口語 風格。
在本發(fā)明的示例實施例中,風格是口語風格和書面風格之一。口語風格
分為5個領域戲劇、脫口秀、娛樂、訪談、以及其它,而書面風格分為3 個領域新聞、教育、以及其它。而且,新聞領域再分為IO個子領域政治、 經(jīng)濟、社會、生活和文化、國際、科學、娛樂、體育、天氣、以及其它。
其次,識別領域的方法如下。風格和領域識別部件103通過基于預構建 的詞匯/領域統(tǒng)計詞典302,比較提取的關鍵詞在特定領域中的頻率,來確定 字幕語句的領域。如下地實現(xiàn)用于確定領域的詞匯/領域統(tǒng)計詞典302。
首先,收集對應于各自領域的培訓集,并從其中提取諸如名詞和格變化 的詞語之類的語素詞匯。將關于每個術語的領域的提取的數(shù)據(jù)構建為{對應術 語/領域l、頻率l/領域2、頻率2/…/領域n,頻率n)的形式的數(shù)據(jù)并存儲在 詞匯/領域統(tǒng)計詞典302中。
也就是說,由于將一個術語用于許多領域,可通過提取每個術語在每個 領域中使用的頻率并將其與字幕語句中包含的關鍵詞在特定領域中出現(xiàn)的頻 率進行比較,來簡單地確定字幕語句的領域。
當確定字幕語句的風格和領域時,動態(tài)翻譯知識構建部件104在將語句 以口語風格寫入時將口語語素分析詞典303載入主存儲器的動態(tài)翻譯DB
的動態(tài)翻i奪DB206。
而且,在動態(tài)翻譯知識構建部件104中,將特定用戶詞典306與在控制 信號中包含的用戶數(shù)據(jù)一起載入動態(tài)翻譯DB 206。將預分析的特定領域語境
詞典305、特定領域技術術語翻譯詞典307和特定領域詞匯/意思同現(xiàn)詞典308 與識別的領域數(shù)據(jù)一起載入動態(tài)翻i奪DB 206。
也就是說,識別輸入字幕語句的風格和領域,接著動態(tài)地構建合適的翻 譯知識,并將其載入動態(tài)翻譯DB 206中,其與使用公用翻譯知識的傳統(tǒng)系統(tǒng) 相比較造成改進的翻譯質量。
接著,動態(tài)翻譯模塊構造部件105從風格和領域識別部件103接收字幕 語句的風格和領域數(shù)據(jù),并借此控制語素分析部件106、語句樣式應用部件 107、語法分析部件108以及基于樣式的翻譯生成部件109以適合于所述風^f各 和領域。這就是動態(tài)構造翻譯模塊的意思,如下面將更詳細描述的。
語素分析部件106用于通過基于專用于每個風格和領域的啟發(fā)式 (heuristic )規(guī)則執(zhí)行自適應語素分析,以語素為單位標記(tokenize )輸入 字幕語句。該啟發(fā)式規(guī)則由動態(tài)翻譯模塊構建部件105形成,可包括關于刪 節(jié)的形式、謂語結束等的處理的規(guī)則,其適合每個風格和領域。
這里,語素分析部件106基于主要載入到主存儲器的公用語素分析詞典 201和預分析的語素統(tǒng)計詞典204、以及載入到主存儲器的動態(tài)翻譯DB 206 的口語語素分析詞典303、書面語素分析詞典304、預分析的特定領域語境詞 典305、用戶詞典306、特定領域才支術術語翻i,詞典307和特定領域詞匯/意 思同現(xiàn)詞典308,執(zhí)行語素分析。
下面將討論語素分析部件106中使用的預分析的語素統(tǒng)計詞典204和預 分析的特定領域語境詞典305的知識格式和例子。預分析的語素統(tǒng)計詞典
知識格式(對應詞語頻率預分析l概率l頻率l預分析2概率2頻 率2...預分析n概率n頻率11<領域1>...頻率預分析l概率l頻率1預 分析2概率2頻率2...預分析n概率n頻率rK領域2〉...頻率預分析1 概率1頻率1預分析2概率2頻率2 ...預分析n々既率n頻率n <領域n>}
示例l) {,1 176 g/N+7lVJ0.64 g。l/N 0.28 ^。1/A0.08 <書面風 格/普通>320 g/N+7]VJ 0.12 ^。"I/N 0.85 ^叫/A 0.03<書面風格-新 聞-體育> 123 ^/N+7]VJ 0.08 S。l/N 0.91 ^。1/A 0.01<口語風格-戲 劇>} ( {長度176長/N+為/ J 0.64長度/N 0.28長度/A 0.08 <書面風格/ 普通> 320長/N+為/J 0.12長度/N 0.85長度/A 0.03 <書面風格-新聞-體育> 123長/N+為/J 0.08長度/N 0.91長度/A 0.01<口語風格-戲劇〉})
預分析的特定領域語境詞典
知識;格式{對應詞語—左語素詞匯1—左語素詞匯2—*—右語素詞匯預分 析的頻率}
示例2{^。1_^晉_^」_望^1 ^/N+7]VJ3} ({長度_新_就—*—希望打開 /N+為/J 3})
示例3{3叫—Afl晉—*—*《^o]/N2} ( {長度_新—就—*_測定長度 /N2})
如上所述,基于適合輸入字幕語句的風格和領域的預分析的語素統(tǒng)計詞 典204和預分析的特定領域語境詞典305執(zhí)行自適應語素分析。結果,改進 了翻譯性能。
接著,如果以語素為單位通過語素分析部件106標記字幕語句,語句樣 式應用部件107基于語句樣式詞典203執(zhí)行逐句翻譯,所述語句樣式詞典203 基于標記序列(token s叫uence)以語素為單位被載入主存儲器。
203中,因此可執(zhí)行技術手冊、專利文獻、廣播新聞、以及口語風格的語句 中頻繁出現(xiàn)的公用表述的高質量翻譯。語句樣式詞典203的示例如下語句樣式詞典
示例4) NP1 i叫NP2d剖凝合quf >從Nl報告的通信者N2。
示例5)哥^ d兮^早是",叫q^旦針各g刊旦旦叫衛(wèi)效只] ^早司4斗NP1 i乂1智外針各干晉叫《e許衛(wèi)^合^uf.
>現(xiàn)在,全國大多數(shù)地區(qū)晴,但大量的云正逐漸從我國的NP1前來。 示例6) NPli * ^巧^7p
〉你什么時候回到NP1
下面,如果在語句樣式詞典203中不存在可以以語素為單位應用到標記 序列的語句樣式,語法分析部件108基于格變化的詞語分析字幕語句的語法 并產(chǎn)生分析樹。
這里,當產(chǎn)生字幕語句的語法分析樹時,語法分析部件108基于用于結 構分析的特定領域詞語同現(xiàn)詞典310確定每個語素節(jié)點和語法之間的依賴。 用于結構分析的特定領域詞語同現(xiàn)詞典310的示例如下 ^用于結構分析的特定領域詞語同現(xiàn)詞典
知識格式{前面的部分講話(POS) 1—后面的POS2—最后一個詞語1 前面的部分_最后一個詞語2后面的部分頻率1 <領域1>頻率2 <領域2> ... 頻率n〈領域n"
示例7〉(如果pvgj)vg—LUf3—L 5 <書面風格-普通> 4 <書面風格-新聞-經(jīng)濟〉2 <口語風格-戲劇〉} ( {如果pvgj)vg—那么j尤5 <書面風格-普通>4<書面風格-新聞-經(jīng)濟>2 <口語風格-戲劇>})
示例8> {如果pvg_pvg_L 43_衛(wèi)1 <書面風格-普通> 2 <書面風格-新聞-社會>3 <口語風格-戲劇>}((如果pvgjvg—那么—將1 <書面風格-普 通> 2 <書面風格-新聞-社會> 3 < 口語風格-戲劇>})
示例9> p]么,—署—7]]皆許20.5<書面風格-普通>40<書面風格-新 聞-體育> 32 <口語風格-戲劇>} ( {將—系統(tǒng)—開發(fā)20.5 <書面風格-普通> 40 <書面風格-新聞-體育> 32 <口語風格-戲劇>}
基于樣式的翻譯生成部件109基于特定領域的謂語短語翻譯樣式詞典 309和詞匯/意思語境詞典205,使用謂語短語的翻譯樣式,產(chǎn)生字幕語句的 基于樣式的翻譯。特定領域的謂語短語翻譯樣式詞典309和詞匯/意思語境詞 典205的示例々口下
特定領域謂語短語翻譯樣式詞典
示例10) {咅7"|勇氣a^"《72使用_一種—工具a〕旻17 <書面風格-普通〉使用_一種_工具八二旲74勇氣八^"《0 <書面風格-科學>} ( {勇氣 勇氣a感情72使用—一種—工具a碗17 <書面風格-普通〉使用—一種—工具八 碗74勇氣八感情0 <書面風格-科學>})
詞匯/意思語境詞典
示例11) {咅71-曼-《勇氣A^《3} ({鼓-起-勇氣勇氣八感情3})
示例12){吾71-畺-^2|許使用—一種—工具a二旻2)( {將-容器-冷卻使 用—一種_工具八碗2})
接著,當在基于樣式的翻譯生成部件109中產(chǎn)生字幕語句的翻譯時,翻 譯合并部件110合并輸入廣播信號和翻i奪并通過輸入端子IN輸出。
這里,對于隱藏式字幕,合并視頻/音頻/字幕文本/翻譯的字幕文本,將 通過USB端口輸入的文本文檔與翻i,的文本文檔一起lt出。
接著,將從翻譯合并部件110輸出的廣播信號輸出到通過輸出端子OUT 連接的外部媒體設備。
如上所述,將本發(fā)明中的用于隱藏式字幕的領域自適應便攜機器翻譯設 備構建為能夠獨立連接到任何媒體設備,并通過自動識別字幕語句的風格和 領域以及構建專門用于風格和領域的翻譯知識和模塊,來提供最佳的翻譯環(huán) 境。因此,根據(jù)這些動態(tài)翻譯資源的應用,對于諸如技術手冊、專利文獻、 隱藏式字幕、 一般文本等等的所有風格和領域,可以執(zhí)行高質量的專門翻譯。
現(xiàn)在將參照附圖詳細描述用于隱藏式字幕的領域自適應便攜機器翻譯設
備的翻"i奪方法。
圖2是圖示根據(jù)本發(fā)明的用于隱藏式字幕的領域自適應便攜機器翻譯設
備的翻譯方法的流程圖。
為求方便,將假定將用于隱藏式字幕的便攜機器翻譯設備連接到另 一媒
體設備(例如,通過輸入/輸出連接端子,將PC連接到因特網(wǎng)、衛(wèi)星TV的 機頂盒、有線TV、視頻播放器、USB盤等等),來描述本方法。
首先,當通過另一媒體設備將廣播信號輸入(S210)時,從輸入廣播信 號中提取字幕語句(S220)。
分析提取的字幕語句的語素,并從其中提取對應于名詞或格變化的詞語 的關鍵詞(S230)。
接著,基于提取的關鍵詞、預構建的謂語結束/風格統(tǒng)計詞典301和預構 建的詞匯/領域統(tǒng)計詞典302識別字幕語句的風格和領域(步驟S240 )。上面 參照圖1充分描述了識別語句的風格和領域的方法,因此下面將簡要描述。
通過根據(jù)謂語結束/風格統(tǒng)計詞典301,將字幕語句的最后一個詞語在口 語風格出現(xiàn)的頻率與該字幕語句的最后一個詞語在書面風格出現(xiàn)的頻率進行 比較,確定字幕語句是以口語風格還是書面風格寫的。接著,通過基于預構 建的詞匯/領域統(tǒng)計詞典302、比較每個領域的關鍵詞的頻率,確定字幕語句 的領域。
在本發(fā)明的示例實施例中,風格是口語或書面之一。將口語風格分為5 個領域(戲劇、脫口秀、娛樂、訪談、以及其它),將書面風格分為3個領域 (新聞、教育、以及其它)。將新聞領域再分為IO個子領域(政治、經(jīng)濟、 社會、生活/文化、國際、科學、娛樂、體育、天氣、以及其它)。
同時,如果識別了字幕語句的風格和領域,則基于識別的風格和領域數(shù) 據(jù)動態(tài)地構建翻譯知識,并將構建的知識載入動態(tài)翻譯DB 206 ( S250—)。下 面將詳細描述翻i奪知識的動態(tài)構造。
如果以口語風格寫入字幕語句,則將口語風格語素分析詞典303載入主存儲器的動態(tài)翻譯DB 206。但是,如果以書面風格寫入字幕語句,則將書面 風格語素分析詞典304載入動態(tài)翻譯DB 206。使用識別的領域數(shù)據(jù),將預分析的特定領域語境詞典305載入動態(tài)翻譯 DB 206。使用用戶數(shù)據(jù),將特定用戶詞典306載入動態(tài)翻譯DB 206。 因此,將翻譯知識動態(tài)地構建為適合于字幕語句的風格和領域,然后載 入動態(tài)翻i奪DB 206。結果,與使用公用翻譯知識的傳統(tǒng)機器翻譯系統(tǒng)相比較,增強了翻譯質量。接著,基于識別的風格和領域數(shù)據(jù)動態(tài)地構建翻譯模塊,然后進行翻譯 (S260 ),下面將更詳細地描述這點。首先,基于專門用于識別的風格和領域的啟發(fā)式規(guī)則執(zhí)行自適應語素分 析,借此以語素為單位標記輸入字幕語句(S261)。這里,在語素分析中,可基于主要載入到主存儲器的公用語素分析詞典 201和預分析的語素統(tǒng)計詞典204、以及載入到主存儲器的動態(tài)翻譯DB 206 的書面風格語素分析詞典304、預分析的特定領域語境詞典305、用戶詞典 306、特定領域技術術語翻i奪詞典307和特定領域詞匯/意思同現(xiàn)詞典308,進 行分析。啟發(fā)性規(guī)則可包括適合每個風格和領域的規(guī)則,諸如刪節(jié)的形式的 處理、謂語結束處理等等。當以語素為單位標記字幕語句時,基于載入主存儲器的語句樣式詞典 203、通過相對于以語素為單位的標記序列應用語句樣式,執(zhí)行逐句翻譯 (S263 )。這里,將在每個風格和領域中頻繁出現(xiàn)的公用的翻譯樣式存儲于語句樣 式詞典203中,借此可執(zhí)行在技術手冊、專利文獻、廣播新聞以及口語語句 中頻繁出現(xiàn)的公用表述的高質量翻譯。如果在語句樣式詞典203中不存在適用于以語素為單位的標記序列的語 句樣式,則基于格變化詞語分析字幕語句的語法,并產(chǎn)生分析樹(S265 )。這里,在產(chǎn)生字幕語句的語法分析樹時,可基于用于結構分析的特定領 域詞語同現(xiàn)詞典310確定語法和每個語素節(jié)點之間的依賴。 '在產(chǎn)生了謂語短語的分析樹之后,基于特定領域的謂語短語翻譯樣式詞
典309和詞匯/意思語境詞典205、使用謂語短語的翻譯樣式,將字幕語句翻 譯為目標語言(S267 )。在產(chǎn)生了字幕語句的翻譯之后,將翻譯和輸入廣播信號合并,隨后輸出 到連接的外部媒體設備(S270)。這里,對于隱藏式字幕,合并視頻/音頻/字幕文本/翻譯的字幕文本,將 通過USB端口輸入的文本文檔和翻i奪的文本文檔一起專命出。如此,根據(jù)用于隱藏式字幕的領域自適應便攜機器翻譯設備的翻譯方法, 自動識別隱藏式字幕的風格和領域,動態(tài)地構建合適的專用翻譯模塊和知識, 借此使用適合于對應的語句的最佳翻譯資源來執(zhí)行自動翻譯。因此,可執(zhí)行 各種專門領域中的高質量翻譯。同時,可將上述示例實施例寫成存儲在計算機可讀介質上的、由標準計 算機執(zhí)行的計算機程序。如上所述,自動識別隱藏式字幕的風格和領域,動態(tài)地構建合適的專用 翻譯模塊和知識,借此利用適合于對應的語句的最佳翻譯資源來執(zhí)行自動翻 譯。因此,可執(zhí)行各種專門領域中的高質量翻譯。同樣,根據(jù)本發(fā)明,可獨立于連接到因特網(wǎng)、衛(wèi)星TV的機頂盒、有線 TV、視頻播放機、USB盤等等的PC運行該用于隱藏式字幕的領域自適應便 攜機器翻譯設備,也可以將其通過輸入/輸出端子自由地鏈接到這樣的媒體設 備。此外,根據(jù)本發(fā)明,將適合字幕語句的風格和領域的翻譯詞典載入主存 儲器以翻譯字幕語句。因此,減少了翻譯詞典存取時間,因此與傳統(tǒng)機器翻 if系統(tǒng)相比較,可執(zhí)行高速翻譯。雖然已經(jīng)參照本發(fā)明的特定示例實施例示出和描述了本發(fā)明,本領域技 術人員將理解在不偏離由附加的權利要求所限定的本發(fā)明的精神和范圍的 情況下,可在其中做出形式上和細節(jié)上的各種變化。
權利要求
1.一種用于隱藏式字幕的領域自適應便攜機器翻譯設備,包括關鍵詞提取部件,提取用于識別輸入廣播信號中的字幕語句的風格和領域的關鍵詞;風格和領域識別部件,基于所述提取的關鍵詞、預構建的謂語結束/風格統(tǒng)計詞典和預構建的詞匯/領域統(tǒng)計詞典識別所述字幕語句的風格和領域;動態(tài)翻譯知識構建部件,基于所述識別的風格和領域動態(tài)地構建翻譯知識,隨后將結果載入到主存儲器的動態(tài)翻譯DB;動態(tài)翻譯模塊構建部件,基于所述識別的風格和領域動態(tài)地構建翻譯模塊;語素分析部件,在所述動態(tài)翻譯模塊構建部件的控制下分析所述字幕語句的語素;語句樣式應用部件,通過在所述動態(tài)翻譯模塊構建部件的控制下將語句樣式應用到字幕語句,來執(zhí)行逐句翻譯;語法分析部件,在所述動態(tài)翻譯模塊構建部件的控制下分析所述字幕語句的語法;以及基于樣式的翻譯生成部件,基于所述語法分析結果產(chǎn)生基于樣式的所述字幕語句的翻譯。
2. 根據(jù)權利要求1所述的機器翻譯設備,還包括 輸入端子,用于輸入所述廣播信號;以及 輸出端子,用于輸出合并的廣播信號。
3. 根據(jù)權利要求1所述的機器翻譯設備,還包括語句提取部件,從所述輸入廣播信號提取字幕語句;以及翻譯合并部件,將輸入廣播信號和通過基于樣式的翻譯生成部件產(chǎn)生的 翻i爭合并。
4. 根據(jù)權利要求1所述的機器翻譯設備,其中所述風格和領域識別部件 通過基于所述謂語結束/風格統(tǒng)計詞典,將字幕語句的最后一個詞語在所述口 語風格中出現(xiàn)的頻率與該字幕語句的最后一個詞語在所述書面風格中出現(xiàn)的 頻率進行比較,來確定所述字幕語句符合書面風格還是口語風格。
5. 根據(jù)權利要求4所述的機器翻譯設備,其中所述謂語結束/風格統(tǒng)計詞 典的知識格式為{最后一個詞語/口語風格的頻率/書面風格的頻率}。
6. 根據(jù)權利要求1所述的機器翻譯設備,其中所述風格和領域識別部件 通過基于所述詞匯/領域統(tǒng)計詞典比較提取的關鍵詞在不同領域中的頻率,來 確定所述字幕語句的領域。
7. 根據(jù)權利要求6所述的機器翻譯設備,其中所述詞匯/領域統(tǒng)計詞典的知識才各式為{對應術語/領域1,頻率1/領域2,頻率2/.. ./領域n,頻率n}。
8. 根據(jù)權利要求1所述的機器翻譯設備,其中所述動態(tài)翻譯知識構建部 件基于所識別的風格數(shù)據(jù),將口語語素分析詞典或者書面語素分析詞典載入 所述動態(tài)翻i奪DB,將用戶詞典載入所述動態(tài)翻譯DB,以及基于所識別的領域數(shù)據(jù),將預分析的特定領域語境詞典、特定領域技術 術語翻譯詞典和特定領域詞匯/意思同現(xiàn)詞典載入所述動態(tài)翻譯DB。
9. 根據(jù)權利要求1所述的機器翻譯設備,其中所述語素分析部件通過基 于從適合專門用于所識別的風格和領域的啟發(fā)式規(guī)則、公用語素分析詞典、 和預分析的語素統(tǒng)計詞典、以及通過所述動態(tài)翻譯知識構建部件載入所述動 態(tài)翻譯DB的口語語素分析詞典、書面語素分析詞典、和預分析的特定領域 語境詞典構成的組中選擇的至少一個執(zhí)行語素分析,以語素為單位標記所述 字幕語句。
10. 根據(jù)權利要求9所述的機器翻譯設備,其中所述預分析的語素統(tǒng)計 詞典的知識格式為{對應詞語頻率預分析1概率1頻率1預分析2概率2 頻率2 ...預分析n纟既率n頻率rK領域l〉頻率預分析1概率1頻率1預 分析2概率2頻率2 ...預分析n概率n頻率n <領域2> ...頻率預分析1 概率l頻率l預分析2概率2頻率2…預分析n概率n頻率iK領域n"。
11. 根據(jù)權利要求9所述的機器翻譯設備,其中所述預分析的特定領域 語境詞典的知識一各式為{對應詞語—左語素詞匯1—左語素詞匯2_*—右語素詞 匯預分析頻率}。
12. 根據(jù)權利要求1所述的機器翻譯設備,其中當不存在適用于所述字 幕語句的語句樣式時,所述語法分析部件通過基于用于結構分析的特定領域 詞語同現(xiàn)詞典分析所述字幕語句的語法,產(chǎn)生語法分析樹。
13. 根據(jù)權利要求12所述的機器翻譯設備,其中用于結構分析的所述特 定領域詞語同現(xiàn)詞典的知識;格式為(前面的部分講話(POS) 1—后面的POS2— 最后一個詞語1前面的部分_最后一個詞語2后面的部分頻率1 <領域1>頻率2 <領域2> . .頻率n <領域n>}。
14. 根據(jù)權利要求1所述的機器翻譯設備,其中所述基于樣式的翻譯生 成部件基于所述語法分析結果、特定領域的謂語短語翻譯樣式詞典、以及詞 匯/意思語境詞典產(chǎn)生基于樣式的所述字幕語句的翻譯。
15. —種用于隱藏式字幕的領域自適應便攜機器翻譯設備的翻譯方法, 包括以下步驟(a) 提取用于識別輸入廣播信號中的字幕語句的風格和領域的關鍵詞;(b) 基于提取的關鍵詞、預構建的謂語結束/風格統(tǒng)計詞典和預構建的 詞匯/領域統(tǒng)計詞典識別字幕語句的風格和領域;(c )基于所述識別的風格和領域動態(tài)地構建翻譯知識,并將所述知識載 入到主存儲器的動態(tài)翻譯DB中;(d)基于所識別的風格和領域動態(tài)地構建翻譯模塊; (e )基于所識別的風格和領域分析所述字幕語句的語素;(f) 通過基于所識別的風格和領域將語句樣式應用到所述字幕語句,來 執(zhí)行逐句翻譯;(g) 基于所識別的風格和領域分析所述字幕語句的語法;以及(h) 基于所述語法分析結果產(chǎn)生基于樣式的所述字幕語句的翻譯。
16. 根據(jù)權利要求15所述的翻譯方法,還包括以下步驟 從輸入廣播信號提取所述字幕語句,以及 合并所述輸入廣播信號和通過步驟(h)產(chǎn)生的翻譯。
17. 根據(jù)權利要求15所述的翻譯方法,其中步驟(b)包括以下步驟 通過基于所述謂語結束/風格統(tǒng)計詞典,將字幕語句的最后 一 個詞語在口語風格中出現(xiàn)的頻率與該字幕語句的最后一個詞語在書面風格中出現(xiàn)的頻率 進行比較,確定字幕語句是以所述書面風格還是所述口語風格寫入;以及通過基于所述詞匯/領域統(tǒng)計詞典,比較所述提取的關鍵詞在不同領域中 的頻率,確定所述字幕語句的領域。
18. 根據(jù)權利要求15所述的翻譯方法,其中步驟(c)包括以下步驟 基于所識別的風格數(shù)據(jù),將口語語素分析詞典或者書面語素分析詞典載入所述動態(tài)翻譯DB;將用戶詞典載入所述動態(tài)翻譯DB;以及基于所述識別的領域數(shù)據(jù),將預分析的特定領域語境詞典、特定領域技術術語翻"^詞典和特定領域詞匯/意思同現(xiàn)詞典載入動態(tài)翻i爭DB。
19. 根據(jù)權利要求15所述的翻譯方法,其中步驟(e)包括以下步驟 基于從專門用于所識別的風格和領域的啟發(fā)式規(guī)則、公用語素分析詞典、和預分析的語素統(tǒng)計詞典、以及載入所述動態(tài)翻譯DB的所述口語語素分析 詞典、所述書面語素分析詞典、和所述預分析的特定領域語境詞典構成的組 中的至少一個,通過執(zhí)行語素分析,以語素為單位標記所述字幕語句。
20. 根據(jù)權利要求15所述的翻譯方法,其中步驟(g)包括以下步驟 當不存在適用于所述字幕語句的語句樣式時,基于用于結構分析的特定領域詞語同現(xiàn)詞典,分析所述字幕語句的語法;以及產(chǎn)生語法分析樹。
21. 根據(jù)權利要求15所述的翻譯方法,其中步驟(h)包括以下步驟 基于所述語法分析結果、特定領域謂語短語翻:^奪樣式詞典和詞匯/意思語境詞典,產(chǎn)生基于樣式的所述字幕語句的翻譯。
全文摘要
提供了一種使用動態(tài)翻譯資源的用于隱藏式字幕的領域自適應便攜機器翻譯設備及其方法。該設備和方法通過自動地識別字幕語句的風格和領域、自動地構建專用翻譯模塊和知識、并且利用適合于對應的語句的最佳翻譯資源執(zhí)行自動翻譯,來相對于各種專門領域改進翻譯性能。該用于隱藏式字幕的領域自適應便攜機器翻譯設備不僅對于各種領域的語句表現(xiàn)出改進的翻譯性能,而且其還可以通過輸入/輸出端子自由地與各種媒體設備鏈接。
文檔編號G06F17/27GK101131691SQ200710142439
公開日2008年2月27日 申請日期2007年8月27日 優(yōu)先權日2006年8月25日
發(fā)明者盧玧亨, 崔承權, 徐英愛, 樸相奎, 權五郁, 李起榮, 梁成一, 洪文杓, 金昌顯, 金永吉 申請人:韓國電子通信研究院