欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法

文檔序號:6538198閱讀:1891來源:國知局
西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法
【專利摘要】本發(fā)明提供一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,該方法包括以下步驟:首先,將西里爾蒙古文文本進(jìn)行預(yù)處理,并將西里爾蒙古文劃分為集內(nèi)詞和未登陸詞;其次,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;再次,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對于西里爾蒙古文到傳統(tǒng)蒙古文的一對多對應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果;最后完成轉(zhuǎn)換。本發(fā)明可以將任意西里爾蒙古文文本轉(zhuǎn)換成傳統(tǒng)蒙古文文本,并且對未登錄詞和西里爾蒙古文到傳統(tǒng)蒙古文的一對多對應(yīng)單詞可以進(jìn)行高準(zhǔn)確率的轉(zhuǎn)換。
【專利說明】西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言的轉(zhuǎn)換方法,尤其涉及一種從西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法。
【背景技術(shù)】
[0002]蒙古文是一個跨多國、多地區(qū)的語言,在世界上有廣泛影響,使用者分布在中國、蒙古國和俄羅斯聯(lián)邦等國家,尤其是中國和蒙古國使用的蒙古語言文字是“語同文不同”,即語言相同,文字不同。在中國使用的蒙古文叫“傳統(tǒng)蒙古文”,在蒙古國使用的蒙古文叫“西里爾蒙古文”。
[0003]隨著中國和蒙古國兩國之間的文化、教育和經(jīng)濟(jì)的交流與合作不斷深入,兩國之間的文字轉(zhuǎn)換工作也變的極其重要。西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換工作會給兩國蒙古族同胞的交流帶來更多的便利,并且對蒙古族的科學(xué),文化和教育發(fā)展同樣具有重要的意義。
[0004]傳統(tǒng)蒙古文和西里爾蒙古文之間有不可分割的聯(lián)系,但二者之間有一定的區(qū)別:
[0005](I)傳統(tǒng)蒙古文有35個字母,其中包含8個元音字母和27個輔音字母。西里爾蒙古文也有35個字母,其中包含13個元音字母,20個輔音字母,硬化字母和軟化字母各一個。
[0006](2)西里爾蒙古文字母區(qū)分大小寫,而傳統(tǒng)蒙古文字母不區(qū)分大小寫。西里爾蒙古文字母的大寫用法跟英語相似。傳統(tǒng)蒙古文字母不區(qū)分大小寫,并且每個字母在詞中變化有很多,單詞中字母在上、中、下位置不同將導(dǎo)致寫法也不相同。
[0007](3)西里爾蒙古文和傳統(tǒng)蒙古文書寫方向不同。西里爾蒙古文采用的是從左到右的書序,從上到下的行序,而傳統(tǒng)蒙古文采用從上到下的書序,從左到右的行序。
[0008](4)西里爾蒙古文和傳統(tǒng)蒙古文的書面語和口語的差別程度并不相同。西里爾蒙古文中的書面語和口語基本保持一致,口語中怎么發(fā)音就基本上怎么拼寫,而傳統(tǒng)蒙古文的書面語與口語不是一一對應(yīng)的,書面語轉(zhuǎn)口語時會出現(xiàn)元音和輔音的脫落、增加和變換等現(xiàn)象。
[0009]現(xiàn)有的西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換技術(shù)有基于詞典的轉(zhuǎn)換方法和基于規(guī)則的轉(zhuǎn)換方法。現(xiàn)有的基于詞典的轉(zhuǎn)換方法直接采用對照詞典進(jìn)行轉(zhuǎn)換?,F(xiàn)有的基于規(guī)則的轉(zhuǎn)換方法首先對輸入的西里爾蒙古文單詞在詞干對照詞典中進(jìn)行查找,若存在該詞則轉(zhuǎn)換為對應(yīng)的傳統(tǒng)蒙古文單詞,轉(zhuǎn)換完成,若不存在該詞則通過西里爾蒙古文的詞綴切分規(guī)則進(jìn)行詞綴切分,如果切分正確,則把切分后所得到的詞干與詞綴分別通過詞干對照詞典和詞綴對照詞典進(jìn)行查找對應(yīng)的傳統(tǒng)蒙古文詞干和詞綴,然后根據(jù)傳統(tǒng)蒙古文的詞綴合成規(guī)則合成傳統(tǒng)蒙古文單詞,轉(zhuǎn)換完成,如果切分失敗則轉(zhuǎn)換失敗。
[0010]然而,傳統(tǒng)蒙古文是通過詞根綴接多個后綴的方式生成新詞的,按照這種生成方式,可以構(gòu)成大規(guī)模的蒙古文單詞,詞典一般很難全部包含?;谝?guī)則的方法很難歸納出所有的轉(zhuǎn)換規(guī)則,而且相當(dāng)一部分單詞并不遵循轉(zhuǎn)換規(guī)則。并且,西里爾蒙古文中的部分單詞會對應(yīng)多個傳統(tǒng)蒙古文單詞,基于詞典和基于規(guī)則的方法無法解決對這類單詞的轉(zhuǎn)換。所以,基于詞典和基于規(guī)則的方法有較大的局限性,從而不能夠解決西里爾蒙古文到傳統(tǒng)蒙古文工作中存在的一些關(guān)鍵問題,如西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換時的未登錄詞的轉(zhuǎn)換及一對多對應(yīng)單詞的轉(zhuǎn)換等。

【發(fā)明內(nèi)容】

[0011]本發(fā)明實施例的目的在于提供一種將西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,旨在解決西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換時的未登錄詞的轉(zhuǎn)換及一對多對應(yīng)單詞的轉(zhuǎn)換等問題。
[0012]本發(fā)明實施例是這樣實現(xiàn)的,一種將西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,該方法包括以下步驟:
[0013]一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,包括以下步驟:
[0014]步驟一,將西里爾蒙古文進(jìn)行預(yù)處理,并將西里爾蒙古文劃分為集內(nèi)詞和未登陸詞;
[0015]步驟二,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0016]步驟三,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0017]步驟四,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對于西里爾蒙古文到傳統(tǒng)蒙古文一對多對應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果;
[0018]步驟五,完成轉(zhuǎn)換。
[0019]進(jìn)一步地,所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,在步驟一中,所述預(yù)處理包括對西里爾蒙古文文本進(jìn)行分句處理,數(shù)字和特殊符號等非西里爾蒙古文字母的判斷,西里爾蒙古文大寫字母的轉(zhuǎn)換,采用西里爾蒙古文詞干庫和構(gòu)形后綴庫對西里爾蒙古文進(jìn)行切分和判斷,并將西里爾蒙古文劃分成集內(nèi)詞和未登錄詞。
[0020]進(jìn)一步地,所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,在步驟三中,采用基于聯(lián)合序列模型的轉(zhuǎn)換方法,該方法包括以下步驟:
[0021]步驟一,由一個或多個西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)的字母作為一個聯(lián)合多兀,并米用EM (Expectation-Maximization Algorithm)算法對模型進(jìn)行估計;
[0022]步驟二,對模型進(jìn)行平滑和裁剪處理;
[0023]步驟三,采用Viterbi算法進(jìn)行解碼。
[0024]本發(fā)明可以將任意西里爾蒙古文文本轉(zhuǎn)換成傳統(tǒng)蒙古文文本,并且對未登錄詞和西里爾蒙古文到傳統(tǒng)蒙古文的一對多對應(yīng)單詞可以進(jìn)行高準(zhǔn)確率的轉(zhuǎn)換。
【專利附圖】

【附圖說明】
[0025]圖1為本發(fā)明語言轉(zhuǎn)化流程圖;
[0026]圖2為采用西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換當(dāng)中的集內(nèi)詞轉(zhuǎn)換示例圖;
[0027]圖3西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換示例圖。
【具體實施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明中的附圖,對本發(fā)明中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0029]圖1為本發(fā)明語言轉(zhuǎn)化流程圖,如圖1所示,本發(fā)明提供一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,包括以下步驟:
[0030]步驟一,將西里爾蒙古文進(jìn)行預(yù)處理,包括對文本進(jìn)行分句處理,數(shù)字和特殊符號等非西里爾蒙古文字母的判斷,西里爾蒙古文大寫字母的轉(zhuǎn)換,采用西里爾蒙古文詞干庫和構(gòu)形后綴庫對西里爾蒙古文進(jìn)行切分和判斷,并將西里爾蒙古文劃分成集內(nèi)詞和未登錄
ο
[0031]步驟二,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0032]步驟三,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換;
[0033]步驟四,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對于西里爾蒙古文到傳統(tǒng)蒙古文一對多對應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果;
[0034]步驟五,完成轉(zhuǎn)換。
[0035]其中,集內(nèi)詞采用基于規(guī)則的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換,附圖2為西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換當(dāng)中的集內(nèi)詞轉(zhuǎn)換示例圖。該方法包括以下步驟:
[0036]步驟一,結(jié)合西 里爾蒙古文和傳統(tǒng)蒙古文元音和諧規(guī)律、元音生成和脫落規(guī)律等蒙古文構(gòu)詞規(guī)則,設(shè)計西里爾蒙古文和傳統(tǒng)蒙古文詞干和構(gòu)形后綴連接規(guī)則庫;
[0037]步驟二,對西里爾蒙古文集內(nèi)詞進(jìn)行詞干和構(gòu)形后綴的切分;
[0038]步驟三,采用西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)的詞干庫和構(gòu)形后綴庫,將西里爾蒙古文詞干和后綴轉(zhuǎn)換成傳統(tǒng)蒙古文詞干和后綴;
[0039]步驟四,利用規(guī)則庫將傳統(tǒng)蒙古文詞干和后綴進(jìn)行合并,構(gòu)成傳統(tǒng)蒙古文單詞。
[0040]對于采用基于規(guī)則無法轉(zhuǎn)換的詞,我們稱之為未登錄詞。我們采用基于聯(lián)合序列模型的方法轉(zhuǎn)換這些未登錄詞。聯(lián)合序列模型的基本思想是輸入和輸出序列共同可以生成包含輸入和輸出符號的聯(lián)合單位的共同序列。簡單情況下,每個單位帶有零或一個輸入符號和零或一個輸出符號。這相當(dāng)于有限狀態(tài)轉(zhuǎn)換器的傳統(tǒng)定義。這種可以由多個輸入和輸出符號組成的單位稱之為聯(lián)合多元(Joint Multigram)。本發(fā)明將西里爾蒙古文字母和傳統(tǒng)蒙古文字母序列分成相等的段數(shù),這樣的分組稱為聯(lián)合分割。聯(lián)合分割中的對齊項是可以交換使用的。我們將這特殊的對齊類型稱為“m-to-n”對齊。對于一個給定的西里爾蒙古文和傳統(tǒng)蒙古文字母串對,分割聯(lián)合多元的結(jié)果不是唯一的。對于可能有歧義的m-to-n對齊,我們可以對輸入的字母串進(jìn)行自由的組合。本發(fā)明的模型估計采用了 EM算法,用EM算法訓(xùn)練模型時,很可能會出現(xiàn)過擬合現(xiàn)象,并且在預(yù)測未出現(xiàn)的數(shù)據(jù)時效果不佳。同樣,從訓(xùn)練樣本中分析得到的一些單調(diào)初始化的聯(lián)合多元會達(dá)到某個概率聚集,而只有其中的小部分將有助于“正確”的模型估計。這兩個問題分別會通過裁剪和平滑進(jìn)行處理。解碼算法采用了 Viterbi算法。
[0041]基于聯(lián)合序列模型的轉(zhuǎn)換方法包括以下步驟:
[0042]步驟一,建立西里爾蒙古文和傳統(tǒng)蒙古文對照單詞訓(xùn)練庫;
[0043]步驟二,由一個或多個西里爾蒙古文字母和傳統(tǒng)蒙古文字母作為一個聯(lián)合多元,并采用EM算法對模型進(jìn)行估計;[0044]步驟三,對模型進(jìn)行平滑和裁剪處理;
[0045]步驟四,采用Viterbi算法進(jìn)行解碼。
[0046]集內(nèi)詞和未登錄詞轉(zhuǎn)換完后,對轉(zhuǎn)換結(jié)果進(jìn)行合并,并對于西里爾蒙古文對應(yīng)多個傳統(tǒng)蒙古文的單詞將采用語言模型進(jìn)行最優(yōu)轉(zhuǎn)換結(jié)果的選擇。例如,西里爾蒙古文句
子 “ Tanaw a μ a P τΘβπιηηηηy xaMraajrxaap HBcaHIO M.”轉(zhuǎn)換成傳統(tǒng)蒙古文時,西里爾蒙古文單詞“aMap”和“ ΙΟΜ”對應(yīng)多個傳統(tǒng)蒙古文單詞,圖3西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換示例圖,如圖3所示,轉(zhuǎn)換后的傳統(tǒng)蒙古文采用了拉丁方式進(jìn)行了轉(zhuǎn)寫。圖中可看出西里爾蒙古文單詞“ a μ a P”可以轉(zhuǎn)換成4個傳統(tǒng)蒙古文,西里爾蒙古文單詞“ ιοΜ”可以轉(zhuǎn)換成2個傳統(tǒng)蒙古文。粗線路徑表示正確轉(zhuǎn)換結(jié)果,正確結(jié)果為g w6K*“ ” ,對應(yīng)的拉丁轉(zhuǎn)寫為“tan_v amvr tobsin-1
hamagalahv-bar yabvgsan yvm?!?。
[0047]所述采用語言模型選擇最優(yōu)的傳統(tǒng)蒙古文候選結(jié)果采用下式:
【權(quán)利要求】
1.一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,其特征在于,包括以下步驟: 步驟一,將西里爾蒙古文進(jìn)行預(yù)處理,并將西里爾蒙古文劃分為集內(nèi)詞和未登陸詞; 步驟二,將所述集內(nèi)詞采用基于規(guī)則轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換; 步驟三,將所述未登陸詞采用基于聯(lián)合序列模型的轉(zhuǎn)換方法進(jìn)行轉(zhuǎn)換; 步驟四,將集內(nèi)詞和未登錄詞的轉(zhuǎn)換結(jié)果合并在一起,然后對于西里爾蒙古文到傳統(tǒng)蒙古文一對多對應(yīng)的單詞將采用語言模型選擇最后轉(zhuǎn)換結(jié)果; 步驟五,完成轉(zhuǎn)換。
2.如權(quán)利要求1所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,其特征在于,在步驟一中,所述預(yù)處理包括對西里爾蒙古文文本進(jìn)行分句處理,數(shù)字和特殊符號等非西里爾蒙古文字母的判斷,西里爾蒙古文大寫字母的轉(zhuǎn)換,采用西里爾蒙古文詞干庫和構(gòu)形后綴庫對西里爾蒙古文進(jìn)行切分和判斷,并將西里爾蒙古文劃分成集內(nèi)詞和未登錄詞。
3.如權(quán)利要求1所述的一種西里爾蒙古文到傳統(tǒng)蒙古文轉(zhuǎn)換方法,其特征在于,在步驟三中,采用基于聯(lián)合序列模型的轉(zhuǎn)換方法,該方法包括以下步驟: 步驟一,由一個或多個西里爾蒙古文和傳統(tǒng)蒙古文對應(yīng)的字母作為一個聯(lián)合多元,并采用EM算法對模型進(jìn)行估計; 步驟二,對模型進(jìn)行平滑和裁剪處理; 步驟三,采用Viterbi算法進(jìn)行解碼。
【文檔編號】G06F17/28GK103810161SQ201410058055
【公開日】2014年5月21日 申請日期:2014年2月21日 優(yōu)先權(quán)日:2014年2月21日
【發(fā)明者】飛龍, 高光來, 侯宏旭, 王洪偉, 鮑玉來 申請人:飛龍
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
萨迦县| 栾川县| 揭东县| 巍山| 易门县| 龙游县| 育儿| 伊川县| 如皋市| 博野县| 黄山市| 广水市| 丹棱县| 乃东县| 阿拉善右旗| 鄱阳县| 长宁县| 富阳市| 罗山县| 来宾市| 栾川县| 南和县| 镇巴县| 利川市| 平顶山市| 正宁县| 绍兴县| 桂东县| 靖西县| 通海县| 普格县| 黄陵县| 东至县| 吉木乃县| 牙克石市| 雷山县| 青海省| 五寨县| 龙泉市| 舞阳县| 琼海市|