專利名稱:從漢語文本到手語機譯方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算語言學領(lǐng)域的應用技術(shù),具體的說涉及到中文信息處理、漢語語 言學、計算語言學、手語語言學、翻譯學等多個領(lǐng)域以及計算機編程技術(shù)實現(xiàn)。
背景技術(shù):
1、靈感來源曾經(jīng)一夜之間紅遍大江南北的舞蹈節(jié)目《千手觀音》震撼了無數(shù)人的心靈,夢幻般 的完美藝術(shù)表現(xiàn)力深深的感染了我,當?shù)弥麄兪且蝗菏數(shù)拿@人時,更加敬佩他們,因此 也開始關(guān)注聾人。后來了解到,由于溝通不暢,很多聾人不愿與聽人進行交流,手語翻譯人 才也奇缺,不能很好的融入社會。造成了聾人就業(yè)率低,犯罪率高等一系列社會問題。我自 感有責任有義務(wù)也應該盡自己的綿薄之力去幫助他們。2、手語簡介手語分為文法手語和自然手語,文法手語是以漢語語序為基礎(chǔ)的一種手語,聽人 容易學習使用,但是漢語基礎(chǔ)差的聾人根本看不懂,漢語基礎(chǔ)好的的聾人也不愿接受;自然 手語是聾人生活中自然習得的一種語言,是他們的母語,但是自然手語中虛詞較少,語序與 漢語也有很大不同,常常省略掉很多句子成分,聽人學習起來較為困難。因此聾人如果想與 聽人交流,就要學好漢語語法知識。作為以漢語為第二語言的人深知漢語的復雜性,根據(jù)以 上情況有必要發(fā)明一種使聾人也能和聽人一樣輕松理解漢語的計算機翻譯方法,也為聾人 學習漢語提供輔助性的手段。3、同類
背景技術(shù):
中科院計算機技術(shù)研究所開發(fā)了一套“中國手語合成系統(tǒng)”,該系統(tǒng)能夠?qū)h語文 本翻譯為文法手語,其手語表現(xiàn)采用虛擬現(xiàn)實技術(shù),用三維模型來演示手語最終實現(xiàn)翻譯 過程。中科院計算機技術(shù)研究多開發(fā)的“中國手語合成系統(tǒng)”,技術(shù)上具有一定的先進 性,但是該系統(tǒng)僅對漢語文本進行了分同處理,之后逐詞對應手語單詞,而沒有進行深入的 漢語解析?!爸袊终Z合成系統(tǒng)”由于沒有深入的對漢語進行解析,所以也未能根據(jù)手語規(guī)則 進行自然手語翻譯,和中央電視臺的手語新聞同樣是文法手語。面部表情是手語不可或缺的有機組成部分,“中國手語合成系統(tǒng)”將翻譯結(jié)果采用 虛擬現(xiàn)實的三維模型來演示,由于三維模型在虛擬現(xiàn)實中的表情處理度較大,未能對三維 模型進行表情處理。中央電視臺新聞節(jié)目所配手語,雖然是人工手語翻譯所打,但也均為文法手語。有 情況表明這種新聞節(jié)目很大一部分聾人看不太明白。事實表明沒有扎實的漢語基礎(chǔ)的聾人 看不懂文法手語,更不愿接受沒有表情的文法手語。為了聾人這個弱勢群體能夠更好的融 入和諧社會,我對計算機手語翻譯技術(shù)進行了研發(fā),期望得到一個完關(guān)的真正的自然手語 翻譯系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明旨在解決聾人與聽人之間的溝通,以及降低聾人接受知識的難度。具體表 現(xiàn)為將漢語文本翻譯為中國自然手語視頻,克服文法手語不能夠被聾人廣泛接受的難題, 避開了三維模型難以表現(xiàn)人物表情這一難點,造福于聾人這一弱勢群體。現(xiàn)對本發(fā)明的基本原理做如下描述計算機作為翻譯的角色,必然需要懂兩種語言的語法,本發(fā)明針對漢語和手語分 別構(gòu)建知識庫,并對漢語進行深入的解析,使得計算機翻譯手語成為可能。1、漢語分詞及分詞消歧先將漢語文本進行分詞處理,具體的方法是首先構(gòu)建一個漢語詞典,然后將漢語 句子逐字到漢語詞典中查詢,得出所有可能構(gòu)成詞的詞。分詞之后,會有大量的歧義存在,那么,我們先根據(jù)靜態(tài)知識庫、漢語詞典、漢語語 法規(guī)則庫、常識、動態(tài)知識庫、上下文信息語法知識庫等多個知識庫中的知識,將不可能搭 配的詞間關(guān)系過濾掉,如果得到的結(jié)果還有歧義存在,那么將分詞歧義保留。2、詞性標注及詞性消歧將分詞后的漢語文本進行再次漢語詞典查詢,獲取每個詞的所有可能的詞性。對 有多個詞性的詞語,進入靜態(tài)知識庫、漢語語法規(guī)則庫、常識、動態(tài)知識庫、上下文信息語法 知識庫等多個知識庫中,逐一查詢,去除不合語法規(guī)則的詞性。如果結(jié)果中還有詞性的歧義 存在,那么將歧義保留。3、句法分析及句法消歧根據(jù)漢語語法知識庫對所有詞和詞性,進行相鄰的詞進行搭配,得到所有的詞間 關(guān)系,逐層進行語法分析,最終得到語法分析樹。分詞和詞性標注兩個步驟都有可能留有歧 義,句法分析步驟也可能會有歧義,因此句法分析之后的結(jié)果可能是多個的,排除結(jié)果中沒 有完全覆蓋所有詞的句樹,得到真正的歧義句樹。這些歧義句樹仍然可能是多個的,錯誤的歧義必須在這個步驟完全消解,那么我 們再次復查搭配結(jié)果,逐一進入靜態(tài)知識庫、漢語詞典、常識、動態(tài)知識庫、上下文信息語法 知識庫等幾個知識庫中,進行對照,消除常識性錯誤、上下文信息對應語法錯誤等。這時如果仍然有歧義存在,那么我們再次查詢漢語詞典,獲取詞匯的使用頻率,再 次查詢漢語語法規(guī)則庫,獲取搭配頻率,最后根據(jù)各個頻率進行一定算法運算評估,評估出 可能性最高的句樹作為最終結(jié)果。4、手語語法規(guī)則計算機畢竟是機器,它無論如何也不能真正讀懂語義。我們已經(jīng)對手語的規(guī)則進 行總結(jié),形成了一個手語語法知識庫,這個知識庫與漢語知識庫一一對應。手語規(guī)則分為三 類,第一類為剪除規(guī)則,在自然手語中幾乎沒有虛詞,所以,在剪除規(guī)則中虛詞占有較大的 比例;第二類為交換位置規(guī)則,在自然手語中,倒置現(xiàn)象較多,符合倒置規(guī)則的相關(guān)短語或 詞匯,相互顛倒位置;第三位為后置規(guī)則,在自然手語中,有一部分句子成分,需要放到句子 末尾,尤其是疑問詞和表示意愿的能愿動詞,通常都是后置的。有了手語的語法和規(guī)則,分析好的句樹轉(zhuǎn)換為手語文本就非常容易了,無非先將 符合交換位置的規(guī)則進行交換,將符合后置的規(guī)則的放置到句尾,得到手語文本。
5、剪枝處理和補充成分自然手語中,通常省略很多句子成分。除手語規(guī)則中的剪除規(guī)則外,還要根據(jù)當前 所處的環(huán)境進行分析,對一部分當前環(huán)境中不言自明的一些句子成分進行省略。對場景中 的事物用方向指代,對場景中的人物的人稱代詞用指向替代,充分顯示手語的間接性。自然手語是聾人手語,我們不能否認自然手語的成熟性不足,事實上手語遠不能 和漢語英語等語言完全對等,因此一些抽象的復雜的事物用手語來表達起來不那么容易。 根據(jù)手語的特點,通常會對手語文本結(jié)果對事物描述不清的句子進行句于成分補充,以便 聾人能夠更好的理解翻譯結(jié)果。6、視頻合成處理首先對手語文本進行對應手語單詞視頻,對每一個單詞的頭位進行識別,根據(jù)對 每個詞識別的結(jié)果,計算出腦袋的中間位置,每一個詞中腦袋位置都對準中間位置。然后 對相鄰的連個詞中前詞的最后一幀和后詞的第一幀中雙手的位置進行識別,得到手位后, 如果位置差別較遠,那么進行補幀處理,以得到手的連貫動作。最后進行視頻的平滑編碼合 成,輸出到播放器。根據(jù)以上對發(fā)明的原理描述可以看出,本翻譯方法克服了計算機對漢語理解的難 點——歧義,并且不過分依賴概率去簡單解決問題,大大增加了總體翻譯結(jié)果的準確性。本 發(fā)明還對翻譯結(jié)果進行視頻表現(xiàn)方面的創(chuàng)新,實現(xiàn)翻譯結(jié)果的人性化。中國有兩千多萬聾人,解決聾人的溝通問題,關(guān)注聾人,讓聾人融入和諧社會,不 是一句空的口號。聾人雖然是非常小的群體,但中國人口基數(shù)較大,聾人總量甚至大于一些 小國家的人口總量。中國對聾人乃至殘疾人的關(guān)注程度遠遠不能與西方發(fā)達國家相比,我 們有義務(wù)有責任幫助他們。本發(fā)明中的翻譯方法,不僅存在著較好的社會價值,也存在一定程度上的經(jīng)濟價 值。覆蓋率按聾人的計算,每套軟件按一百元的價格計算,那么市場價值為兩千萬。除 此之外,公共場所、社會團體、各大電視臺、網(wǎng)絡(luò)視頻媒體、出版廠商、手機廠商等都需要此 類技術(shù)。
圖1翻譯原理圖本發(fā)明的基本原理和示例,表現(xiàn)了漢語文本輸入,經(jīng)過分詞標注和句法分析等步 驟,最終得到合成視頻的整個翻譯的過程。圖2腦袋對位圖本發(fā)明中,翻譯結(jié)果中的每個視頻詞匯的腦袋位置不盡相同,識別位置后進行調(diào) 整,最終得到一個穩(wěn)定的視頻圖像。
具體實施例方式本方法是計算機編程方式實現(xiàn)的,因此在實施方式上有很多種,下邊舉幾個實際 應用示例來說明1、電視翻譯伴侶 掌上電腦或類似微型電腦產(chǎn)品,配以中文語音輸入法,嵌入本翻譯方法,構(gòu)成電視翻譯伴侶,放置在電視旁邊。電視機聲音被語音輸入法識別為漢語文字,本翻譯方法對文本進行翻譯,翻譯后的視頻結(jié)果顯示在小屏幕上,聾人就可以看懂電視了。2、聾人手機對聾人手機中嵌入本翻譯方法,當聾人手機接收到短信息后,自動翻譯為手語視 頻,聾人將輕松看懂短信內(nèi)容。3、閱讀助手軟件掃描設(shè)備可以將書本上的文字掃描到電腦中以文本形式保存,再采用本方法進行 翻譯,聾人也可以看懂中文書籍。
權(quán)利要求
一種從漢語文本到手語機譯方法,該方法是將漢語文本翻譯為手語視頻的過程,其特點是在漢語分詞、詞性標注、句法分析等環(huán)節(jié)分別采用了自主研發(fā)的算法,該算法以靜態(tài)知識庫、詞典、語法知識庫、常識、動態(tài)知識庫、上下文信息和概率等作為主要依據(jù),對各環(huán)節(jié)進行綜合方式消除歧義。
2.根據(jù)權(quán)利要求1所屬的方法其主要特點在于知識庫、詞典、語法信息作為主要消歧 手段,配合以概率為輔助消歧手段的綜合消歧方法。
3.本方法是先基于文本進行翻譯,然后采用視頻詞匯進行合成的,最終得到的是自然 手語的視頻表現(xiàn)。
4.在視頻合成過程中進行了頭位識別、腦袋對位、手位識別、前詞尾到后詞頭手位差補 幀等過程。
全文摘要
“從漢語文本到手語機譯方法”是計算語言學領(lǐng)域的技術(shù)應用。手語分為文法手語和自然手語,文法手語與漢語語序相同,漢語基礎(chǔ)差的聾人看不懂,漢語基礎(chǔ)好的聾人也不愿接受;自然手語是聾人生活中自然習得的一種語言,是他們的母語。本方法首先對漢語文本進行分詞、詞性標注和句法分析,并對這幾步分別消歧,然后用對應手語語法規(guī)則,翻譯為聾人自然手語文本。最后對應事先錄制好的單詞視頻,經(jīng)過頭位識別、腦袋對位、手位識別、手位補差之后合成聾人很容易接受的自然手語視頻,從而使聾人能夠輕松理解第二語言漢語。
文檔編號G09B21/00GK101877189SQ20101018725
公開日2010年11月3日 申請日期2010年5月31日 優(yōu)先權(quán)日2010年5月31日
發(fā)明者張紅光 申請人:張紅光