欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于上下文的譯文自動調(diào)序方法

文檔序號:6604731閱讀:203來源:國知局
專利名稱:基于上下文的譯文自動調(diào)序方法
技術(shù)領域
本發(fā)明涉及模式識別和自然語言處理技術(shù)領域,特別涉及一種基于上下文的譯文 自動調(diào)序方法。
背景技術(shù)
現(xiàn)有的在線電子詞典,如金山詞霸,采用的技術(shù)是存儲已有的紙版詞典,如“簡明 英漢詞典”、“現(xiàn)代英漢綜合大詞典”等。該方法存在的問題是,當實現(xiàn)“即指即譯”功能時, 只是簡單的按照詞典羅列出的英語單詞所對應漢語翻譯詞順序,而無法根據(jù)當前英語單詞 所在的上下文,動態(tài)的調(diào)整翻譯詞的順序。下面以英語名詞bank為例,進行說明Welcome to Bank of America.This walk follows the Thames west from B arnes bridge,keeping tothe north bank of the Thames.很顯然,在一句話中,bank應指“銀行”,而第二句話則為“河岸”。但現(xiàn)有的技術(shù)沒 有實現(xiàn)自動的調(diào)整翻譯詞順序。

發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何實現(xiàn)對多義詞譯文的順序、即時自動調(diào)整。( 二 )技術(shù)方案為了達到上述目的,本發(fā)明提供了一種基于上下文的譯文自動調(diào)序方法,包括以 下步驟Si,獲取由包含多義詞的第一預設語種句子組成的訓練語料庫,在每個句子中標 注了其中多義詞的第二預設語種譯文;S2,提取所述訓練語料庫的每個句子中同一多義詞的相鄰詞作為特征,然后對該 多義詞的所有特征順序編號,根據(jù)這些編號將每個句子轉(zhuǎn)化為向量表示形式;S3,將向量表示形式的句子所形成的文件訓練一個用于分類的數(shù)學模型;S4,利用該數(shù)學模型預測待測句子中多義詞的各個譯文的正確概率,然后將各個 譯文按正確概率從大到小排列輸出。其中,所述用于分類的數(shù)學模型為帶概率輸出的數(shù)學模型。其中,所述帶概率輸出的數(shù)學模型為支持向量機。其中,利用核函數(shù)進行步驟S3的訓練過程,所述核函數(shù)為支持向量機中的線性 核。其中,所述相鄰詞為與多義詞緊挨的前后各三個詞。其中,所述第一預設語種為英文,第二預設語種為中文。(三)有益效果本發(fā)明的技術(shù)方案通過將動態(tài)調(diào)序問題視作分類問題,利用多義詞出現(xiàn)的上下文的單詞為特征對數(shù)學模型進行訓練,實現(xiàn)了對多義詞譯文順序的即時自動調(diào)整。適用于現(xiàn) 有的全文翻譯系統(tǒng),例如在線詞典,可以提高此類系統(tǒng)的性能。


圖1是本發(fā)明實施例的方法流程圖。
具體實施例方式下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式
作進一步詳細描述。以下實施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。本發(fā)明的主要思想是將動態(tài)調(diào)序問題視作分類問題,利用多義詞出現(xiàn)的上下文的 單詞為特征,來實現(xiàn)對翻譯詞順序的自動調(diào)整。本發(fā)明實施例的方法的步驟如圖1所示Si、獲得訓練語料庫。搜集大量的多義詞出現(xiàn)的句子。對多義詞在句子中的每一 次出現(xiàn),由人工標注好正確的翻譯詞。經(jīng)過人工標注的這些句子構(gòu)成訓練語料庫。可以將 針對現(xiàn)代英語,主要選擇新聞文章(比如1999-2009,共計10年的紐約時報;或者英國國家 語料庫、英文網(wǎng)站的文章等),對文章中的每一個多義詞標注正確的中文翻譯。這里涉及的 一個問題是詞典的選擇,第一可以選擇任何一部已有的英漢詞典;第二可以選擇多部英漢 詞典,綜合其中的翻譯詞。S2、特征提取。根據(jù)這些訓練語料庫,提取每個多義詞每次出現(xiàn)的相鄰詞作為特 征。之所以這么做,其語言學原理是“觀其伴,知其意”(You shall know a word by the company it ke印s)(參見文獻[Firth,1957])。其實除了多義詞出現(xiàn)的周圍的詞外,還可 以提取許多特征,比如周圍詞的詞性;若多義詞是動詞,則往往需要判斷在當前句子中是否 有賓語和主語,如果有是哪個詞等等。但本發(fā)明主要適用于在線詞典,它能夠獲得的上下文 很短,且需要很快的響應時間(秒級),而得到動詞的主語和賓語,需要獲得比較長的上下 文,且需要花費額外時間對上下文進行句法分析,因此這里僅選擇相鄰詞作為特征。這也是 我們的一個特色。然后對同一多義詞的所有特征順序編號,根據(jù)這些編號將每個句子轉(zhuǎn)化 為向量表示形式以bank為例,bank出現(xiàn)的一句話,對應下面的一行16:142:1 521 59:1 63167:1
16:124:1 301 42:1 43159:1
21291 146:1148:1 1611202:…其中,每一行行首的數(shù)字表示類別號碼(比如“1”對應“河岸”,“2”對應“銀行”)。 “x:l”表示第X個特征在當前句子中出現(xiàn)。這些向量表示,構(gòu)成多義名詞bank的訓練文件。 可將該文件命名為bank_n_train. txt。S3、訓練模型。針對每個多義詞,利用這些特征,訓練一個用于分類的數(shù)學模型。準 確的說,是訓練這些模型的參數(shù),我們可以對所有的多義詞都使用相同的數(shù)學模型,比如支 持向量機(Support VectorMachines, SVM)。但不同的多義詞,所用特征不同,訓練出的參 數(shù)各不相同。目前可以用于分類的數(shù)學模型非常多,比如貝葉斯、決策表、最大熵、支持向量 機。在此需要一個帶概率輸出的數(shù)學模型,上述幾個模型都帶概率輸出,但實驗表明支持向量機效果最好,所以選擇使用它。SVM的數(shù)學原理可以參考文獻[Vapnik,1995]。目前已經(jīng)有許多開源軟件實現(xiàn)了 SVM。在此采用一種實現(xiàn)版本lib-svm(參見文獻[Chang and Lin 2001])。訓練時,只需輸入步驟S2中的文件bank_n_train. txt,然后調(diào)用lib-svm的命 令svmtrain-tO-bl bank_n_train. txt bank_n. model其中“-t0”表示使用的是SVM中的線性核,“-bl”表示預測時需要概率信息。bank_ η. model是執(zhí)行該命令后,為名詞bank得到的模型文件。使用什么樣的核函數(shù),將對預測結(jié) 果產(chǎn)生很大影響??梢赃x擇的核函數(shù)很多,比如高斯核、多項式核,實驗表明線性核效果最 好。關于核函數(shù)可以參考文獻[Jin et al.,2008]。S4、完成調(diào)序。利用此分類模型,對多義詞在一個句子中的出現(xiàn),預測各個翻譯詞 可能為正確翻譯的概率,并按照概率從大到小順序排列。仍以bank為例,有了模型文件bank_n. model以后,我們就可以對bank的任意一 次出現(xiàn),進行翻譯詞預測了。當鼠標指向bank時,獲取bank出現(xiàn)前后各三個詞,并用向量 表示,不妨表示為1 8:1 12:1 13:1 46:1 53:1 69:1存入 bank_test. txt 然后調(diào)用1 ib-svm的命令svm-predict. exe~bl bank_test.txt bank_n. model bank_n. out則bank_n. out中就會存放bank的翻譯詞1和2對應的概率,如1 0. 32 0. 7我們將根據(jù)這個結(jié)果進行顯示“1.銀行2河岸”而不是詞典中默認的順序“1.河 岸2銀行”。因為判定為類別1的概率(0.3)(譯成“河岸”的概率)小于判定為2的概率 (0.7)(譯成“銀行”的概率)。如果兩個概率相等,都是0.5,可以仍然保持詞典順序不變。以上提到的參考文獻如下[Firth,1957]John R. Firth, A synopsis of linguistic theory 1930-55. In Studies in Linguistic Analysis (Special Volume of the PhilologicalSociety), Oxford. The Philological Society. 1957, pp.1-32.[Vapnik,1995]Vladimir N.Vapnik. The Nature of StatisticalLearning Theory. Springer-Verlag, New York,1995.[Chang and Lin 2001]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.[Jin et al. ,2008]Peng Jin, Fuxin Li, Danqing Zhu, Yufang Wu andShiwen Yu. Exploiting External Knowledge Sources to ImproveKerne1-based Word Sense Disambiguation,Proceedings of IEEEInternational Conference on Natural Language Processing an (!Knowledge Engineering (IEEE NLP-KE). 2008. pp. 222-227.本發(fā)明實施例通過將動態(tài)調(diào)序問題視作分類問題,利用多義詞出現(xiàn)的上下文的單 詞作為特征對數(shù)學模型進行訓練,實現(xiàn)了對多義詞譯文順序的即時自動調(diào)整。適用于現(xiàn)有的全文翻譯系統(tǒng),例如在線詞典,可以提高此類系統(tǒng)的性能。 以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術(shù)領域的普通技術(shù)人 員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾 也應視為本發(fā)明的保護范圍。
權(quán)利要求
一種基于上下文的譯文自動調(diào)序方法,其特征在于,包括以下步驟S1,獲取由包含多義詞的第一預設語種句子組成的訓練語料庫,在每個句子中標注了其中多義詞的第二預設語種譯文;S2,提取所述訓練語料庫的每個句子中同一多義詞的相鄰詞作為特征,然后對該多義詞的所有特征順序編號,根據(jù)這些編號將每個句子轉(zhuǎn)化為向量表示形式;S3,將向量表示形式的句子所形成的文件訓練一個用于分類的數(shù)學模型;S4,利用該數(shù)學模型預測待測句子中多義詞的各個譯文的正確概率,然后將各個譯文按正確概率從大到小排列輸出。
2.如權(quán)利要求1所述的基于上下文的譯文自動調(diào)序方法,其特征在于,所述用于分類 的數(shù)學模型為帶概率輸出的數(shù)學模型。
3.如權(quán)利要求2所述的基于上下文的譯文自動調(diào)序方法,其特征在于,所述帶概率輸 出的數(shù)學模型為支持向量機。
4.如權(quán)利要求3所述的基于上下文的譯文自動調(diào)序方法,其特征在于,利用核函數(shù)進 行步驟S3的訓練過程,所述核函數(shù)為支持向量機中的線性核。
5.如權(quán)利要求1所述的基于上下文的譯文自動調(diào)序方法,其特征在于,所述相鄰詞為 與多義詞緊挨的前后各三個詞。
6.如權(quán)利要求1 5任一項所述的基于上下文的譯文自動調(diào)序方法,其特征在于,所述 第一預設語種為英文,第二預設語種為中文。
全文摘要
本發(fā)明公開了一種基于上下文的譯文自動調(diào)序方法,包括以下步驟獲取由包含多義詞的第一預設語種句子組成的訓練語料庫,在該語料庫的每個句子中標注了其中多義詞的第二預設語種譯文;提取所述訓練語料庫的每個句子中同一多義詞的相鄰詞作為特征,然后對該多義詞的所有特征順序編號,根據(jù)這些編號將每個句子轉(zhuǎn)化為向量表示形式;將向量表示形式的句子所形成的文件,訓練一個用于分類的數(shù)學模型,利用該數(shù)學模型預測待測句子中多義詞的各個譯文的正確概率,然后將各個譯文按正確概率從大到小排列輸出。本發(fā)明實現(xiàn)了對多義詞譯文順序的即時自動調(diào)整。適用于現(xiàn)有的全文翻譯系統(tǒng),例如在線詞典,可以提高此類系統(tǒng)的性能。
文檔編號G06F17/28GK101882158SQ20101021024
公開日2010年11月10日 申請日期2010年6月22日 優(yōu)先權(quán)日2010年6月22日
發(fā)明者宋剛 申請人:河南約克信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
双峰县| 无棣县| 灵璧县| 昔阳县| 油尖旺区| 红桥区| 黎平县| 霍林郭勒市| 沅陵县| 河北省| 启东市| 扎兰屯市| 乌海市| 大安市| 宁晋县| 平阴县| 平谷区| 博白县| 故城县| 汕尾市| 长岭县| 项城市| 麦盖提县| 海伦市| 南昌市| 柳州市| 金湖县| 满城县| 荔浦县| 博爱县| 即墨市| 外汇| 昭通市| 大田县| 容城县| 和龙市| 天峨县| 常熟市| 霞浦县| 交城县| 唐河县|