專(zhuān)利名稱(chēng):蒙古文詞的字形生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文字信息處理技術(shù),尤其是涉及一種基于蒙古文的字母變形特征生成蒙古 文的詞的字形的方法。
背景技術(shù):
蒙古文是一種個(gè)性很強(qiáng)的"復(fù)雜文本"文字,蒙古文字母在詞內(nèi)黏著書(shū)寫(xiě),有著復(fù)雜的變 形。國(guó)內(nèi)外對(duì)蒙古文復(fù)雜文本處理技術(shù)方面的研究起步較晚,很多研究都僅僅是探索性的。
目前,有些計(jì)算機(jī)軟件系統(tǒng)開(kāi)始支持蒙古文復(fù)雜文本的處理。這些軟件系統(tǒng)對(duì)蒙古文 復(fù)雜文本的處理能力非常有限,都是依靠已有的復(fù)雜文本處理機(jī)制來(lái)處理蒙古文,因此其 處理能力有限;同時(shí),也不能充分體現(xiàn)蒙古文的文字背景知識(shí)和書(shū)寫(xiě)習(xí)慣,不便于廣泛的 推廣運(yùn)用。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種基于蒙古文的字母變形特征生成蒙古文的詞的字形的方 法,以解決目前對(duì)蒙古文文字處理存在的技術(shù)難題。
為解決本發(fā)明的技術(shù)問(wèn)題,本發(fā)明公開(kāi)一種基于蒙古文的字母變形特征生成蒙古文的 詞的字形的方法,包括下列步驟
輸入蒙古文詞的字符串S(S!、 S2.....Sn},其長(zhǎng)度為n;
將字符串S分解為w個(gè)可見(jiàn)字符對(duì)象數(shù)組K(K4、 K2、 ...、 Kw},其中w^n; 標(biāo)注每一個(gè)可見(jiàn)字符對(duì)象K収2,…,w]的特征信息;
根據(jù)特征信息,從預(yù)先建立的可見(jiàn)字符變形表査詢(xún)獲得每一個(gè)可見(jiàn)字符對(duì)象Kin.,wj 的字形Gin,2,…,w],得到字形數(shù)組G(G!、 G2.....Gw};
基于變形特征信息,依據(jù)Ki和Kw組合對(duì)其字形G,和Giw進(jìn)行處理,得到字形數(shù)組 G,{GV G,2、 ...、 G'w'》并輸出,其中w,Sw。
其中
所述字符串S包括字母、標(biāo)點(diǎn)符號(hào)和字形控制字符。
所述字形控制字符包括元音間隔符、自由變體選擇符、窄寬度無(wú)間斷空格、零寬連接 符和零寬禁連接符。
所述可見(jiàn)字符對(duì)象由可見(jiàn)字符和影響其變形的字形控制字符的信息構(gòu)成。
所述可見(jiàn)字符包括字母、標(biāo)點(diǎn)符號(hào)、元音間隔符和窄寬度無(wú)間斷空格,所述影響字母、 標(biāo)點(diǎn)符號(hào)變形的字形控制字符包括元音間隔符、自由變體選擇符、窄寬度無(wú)間斷空格、零 寬連接符和零寬禁連接符。
所述可見(jiàn)字符對(duì)象的變形特征信息包括為獨(dú)立、詞首、詞中或詞尾的詞內(nèi)位置特征 信息;為元音、輔音以及元音的陽(yáng)性、陰性或中性的特征信息;為節(jié)首、節(jié)干或節(jié)尾的蒙
3古文書(shū)面語(yǔ)音節(jié)構(gòu)成特征信息。
另外,所述可見(jiàn)字符對(duì)象的變形特征信息還包括音節(jié)的詞內(nèi)位置特征信息;其中,所 述音節(jié)的詞內(nèi)位置特征信息根據(jù)音節(jié)構(gòu)成和字母的詞內(nèi)位置信息計(jì)算獲得。
若査詢(xún)可見(jiàn)字符變形表找不到與可見(jiàn)字符對(duì)象的字形控制字符信息匹配的字形Gi,則 忽略其字形控制字符信息。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果-
本發(fā)明是一個(gè)重要的蒙古文信息處理基礎(chǔ)技術(shù),其填補(bǔ)了蒙古文詞的字形生成技術(shù)的 空白。本發(fā)明為蒙古文的輸入輸出、自動(dòng)校對(duì)、自動(dòng)轉(zhuǎn)寫(xiě)、復(fù)雜文本處理等關(guān)鍵系統(tǒng)提供 蒙古文詞的字形生成引擎,能夠促進(jìn)這些系統(tǒng)的研究開(kāi)發(fā)和推廣應(yīng)用。本發(fā)明通過(guò)借助計(jì) 算機(jī)程序,基于蒙古文的字母變形特征對(duì)輸入的蒙古文詞的字符串進(jìn)行統(tǒng)一的字形生成處 理,不僅可以提高蒙古文詞的字形信息處理效率,更可以簡(jiǎn)化文字處理系統(tǒng)結(jié)構(gòu)和處理流 程,有利于各種信息處理系統(tǒng)的對(duì)接和整合,為廣泛推廣使用提供了前提條件。
下面結(jié)合較佳實(shí)施例,對(duì)本發(fā)明進(jìn)行詳細(xì)的說(shuō)明,其中;
圖1為常見(jiàn)蒙古文書(shū)面語(yǔ)音節(jié)的構(gòu)成及其CVT結(jié)構(gòu)的示意圖2為元音字母的所有字形與蒙古文字母字形變形特征之間關(guān)系的示意圖3為輔音字母^的所有字形與蒙古文字母字形變形特征之間關(guān)系的示意圖4為輔音字母+的所有字形與蒙古文字母字形變形特征之間關(guān)系的示意圖5為輔音字母F的所有字形與蒙古文字母字形變形特征之間關(guān)系的示意圖6為本發(fā)明生成蒙古文詞的字形的實(shí)現(xiàn)流程示意圖7為基于實(shí)例的蒙古文詞的字形生成過(guò)程的示意圖。
具體實(shí)施例方式
為了便于理解和描述本發(fā)明的技術(shù)方案,先對(duì)蒙古文的特征作適當(dāng)?shù)年U述。 蒙古文是一種黏著書(shū)寫(xiě)的拼音文字。 一個(gè)蒙古文的詞由一個(gè)或多個(gè)蒙古文字母組成, 而詞的字形由其一個(gè)或多個(gè)蒙古文字母的字形黏著在一起構(gòu)成。蒙古文編碼系統(tǒng)定義了些 字形控制字符,其中、元音間隔符和窄寬度無(wú)間斷空格等不僅有字形控制信息,本身也是 個(gè)可見(jiàn)字符。且在蒙古文編碼系統(tǒng)中,標(biāo)點(diǎn)符號(hào)也有變形。
蒙古文字母有著豐富的字形變化。蒙古文字母在不同詞內(nèi)位置有不同的字形,在不同 詞內(nèi)位置的音節(jié)有不同的字形,在不同的音節(jié)構(gòu)成有不同的字形,不同類(lèi)型的字母組合有 不同的字形,少數(shù)幾個(gè)輔音字母的字形受詞的陰陽(yáng)性影響等。由于蒙古文的傳統(tǒng)寫(xiě)法等原 因?qū)е铝瞬糠肿帜冈谙嗤瑮l件下存在多個(gè)字形,需要進(jìn)一步變形。
這些特點(diǎn)導(dǎo)致蒙古文的輸入、輸出、處理變得非常復(fù)雜,造成了很高的技術(shù)難度。 蒙古文字母的分類(lèi)特征有輔音和元音兩個(gè)特征值,并分別用c、 v表示。元音字母的陰 陽(yáng)特征有陽(yáng)性、陰性、中性三個(gè)特征值,并分別用q、 h、 s表示。蒙古文字母詞內(nèi)位置特征 有獨(dú)立、詞首、詞中和詞尾四個(gè)特征值,并分別用b、 e、 d、 a表示。其中,獨(dú)立是指其前后
均沒(méi)有蒙古文字母或可連接字符;詞首是指只在其后有蒙古文字母或可連接字符;詞中是 指其前后均有蒙古文字母或可連接字符;詞尾是指只在其前有蒙古文字母或可連接字符。蒙古文書(shū)面語(yǔ)音節(jié)都是以元音字母為中心構(gòu)成的,稱(chēng)之為"節(jié)干",在這個(gè)元音字母之 前可以出現(xiàn)一個(gè)輔音字母構(gòu)成"節(jié)首",而元音字母之后可以出現(xiàn)一個(gè)或多個(gè)字母構(gòu)成"節(jié) 尾",這就是蒙古文書(shū)面語(yǔ)音節(jié)結(jié)構(gòu)。蒙古文字母的音節(jié)構(gòu)成特征有節(jié)首、節(jié)干和節(jié)尾三個(gè) 值,并分別用C、 V、 T表示,也簡(jiǎn)稱(chēng)為CVT結(jié)構(gòu)特征。蒙古文書(shū)面語(yǔ)音節(jié)也是個(gè)重要的詞 內(nèi)數(shù)據(jù)對(duì)象,即蒙古文書(shū)面語(yǔ)音節(jié)也有獨(dú)立、詞首、詞中和詞尾四個(gè)特征值,分別用B、 E、 D、 A表示。如果一個(gè)音節(jié)是由一個(gè)字母構(gòu)成,則其詞內(nèi)位置特征與字母的詞內(nèi)位置相同; 如果一個(gè)音節(jié)由多個(gè)字母構(gòu)成,則其詞內(nèi)位置特征取決于第一個(gè)字母和最后一個(gè)字母的詞 內(nèi)位置特征,即,詞首[e]和詞尾[a]構(gòu)成獨(dú)立音節(jié)[B]、詞首[e]和詞中[d]構(gòu)成詞首音節(jié)[E]、 詞中[d]和詞中[d]構(gòu)成詞中音節(jié)[D]、詞中[d]和詞尾[a]構(gòu)成詞尾音節(jié)[A]。
在蒙古文書(shū)面語(yǔ)音節(jié)的CVT結(jié)構(gòu)中,蒙古文字母字形變化主要集中在節(jié)首節(jié)干的組合 上,因此我們把這個(gè)組合簡(jiǎn)稱(chēng)為"CV"。其中,節(jié)首為節(jié)干的前綴字母,而節(jié)干為節(jié)首的后 綴字母。而節(jié)尾中字母的字形變化相對(duì)簡(jiǎn)單,但其字母構(gòu)成相對(duì)復(fù)雜。如圖1所示,例如, 序號(hào)為01的例詞由一個(gè)元音字母^構(gòu)成,其構(gòu)成的音節(jié)結(jié)構(gòu)只能為節(jié)干[V],且該音節(jié)的詞 內(nèi)位置特征可以是獨(dú)立音節(jié)[B]或詞首音節(jié)[E];又如,序號(hào)為02的例詞%#由2個(gè)元音字母構(gòu) 成,第一個(gè)字母為節(jié)干[V],第二個(gè)字母為節(jié)尾[T],且該音節(jié)的詞內(nèi)位置特征可以是獨(dú)立音 節(jié)[B]或詞首音節(jié)[E];再如,序號(hào)為07的例詞^,其由一個(gè)元音字母前出現(xiàn)一個(gè)輔音字母 構(gòu)成,輔音字母為節(jié)首[C],元音字母為節(jié)干[V],且該音節(jié)的詞內(nèi)位置特征可以是獨(dú)立音 節(jié)[B]、詞首音節(jié)[E]、詞中音節(jié)[D]或詞尾音節(jié)[A];以此為例,不再一一描述圖l中列出的各 個(gè)詞的組成特征。
另外,蒙古文在漫長(zhǎng)的發(fā)展演變過(guò)程中形成了自己獨(dú)特的文字學(xué)理論和書(shū)寫(xiě)習(xí)慣,基 于這些理論和習(xí)慣可以歸納出可計(jì)算的蒙古文字母變形特征,而且其結(jié)構(gòu)清晰、形式化程 度高,各個(gè)字母的變形框架一致。各類(lèi)蒙古語(yǔ)文的語(yǔ)法、正字法和編碼相關(guān)圖書(shū)都對(duì)蒙古 文字母基于蒙古文字母變形特征的變形都有詳盡描述。下面,結(jié)合圖2至圖5中給出的部分 蒙古文字母的變形表介紹"可見(jiàn)字符變形表"的結(jié)構(gòu)。
圖2給出了元音字母^/的變形表,即所有字形與蒙古文字母字形變形特征之間的關(guān) 系。其中,"字母"欄位下"位置"表示字母1^的字母詞內(nèi)位置特征;而"音節(jié)"欄位下"位置" 表示字母^/的音節(jié)詞內(nèi)位置特征;而"CVT"表示表示字母1^/的音節(jié)構(gòu)成特征,元音字母 可以構(gòu)成節(jié)干[V]或節(jié)尾[T],但不可以構(gòu)成節(jié)首[C];"編號(hào)"表示字母的字形編號(hào);"前綴" 表示出現(xiàn)在元音字母1^前面的影響其變形的蒙古文字母或類(lèi)型;"前綴"中的"圓頭字"是一 個(gè)蒙古文字母類(lèi)型,包括蒙古文字母:^、 ,、 ^、 &等;"例詞"是對(duì)字形的應(yīng)用舉例描 述。
同樣,圖3給出了蒙古文輔音字母^的變形表,即所有字形與蒙古文字母字形變形特 征之間的關(guān)系;圖4給出了蒙古文輔音字母+的變形表,即所有字形與蒙古文字母字形變形 特征之間的關(guān)系;圖5給出了蒙古文輔音字母r的變形表,即所有字形與蒙古文字母字形與 變形特征之間的關(guān)系。
本發(fā)明根據(jù)蒙古文字母變形特征為每一個(gè)字母和有變形的標(biāo)點(diǎn)符號(hào)的建立可見(jiàn)字符變 形表,該表涵蓋各個(gè)蒙古文字母變形特征值和影響其變形的"前綴"或"后綴"字母或類(lèi)型。
如圖6所示,本發(fā)明是一種涉及計(jì)算機(jī)程序的技術(shù)方案,其利用蒙古文字母變形特征
5生成蒙古文詞的字形的實(shí)現(xiàn)步驟如下
步驟S101:加載蒙古文詞的字形生成程序P。
步驟S102:調(diào)用程序P并輸入蒙古文詞W的字符串S(S,、 S2.....Sn},其長(zhǎng)度為n。
蒙古文詞W的字符串S可以包含蒙古文編碼系統(tǒng)的元音間隔符(MVS)、自由變體選 擇符(FVS)、窄寬度無(wú)間斷空格(NNBSP)、零寬連接符(ZWJ)和零寬禁連接符(ZWNJ) 等蒙古文字母字形控制字符。
步驟S103:由程序P將蒙古文詞W的字符串S分解為w個(gè)可見(jiàn)字符對(duì)象數(shù)組K{Id、 K2、 ...、 Kw},其中w^n。
比如圖7的"實(shí)例二"所示,可見(jiàn)字符對(duì)象由可見(jiàn)字符和影響其變形的字形控制字符信息 構(gòu)成。在蒙古文編碼系統(tǒng)中,字母、標(biāo)點(diǎn)符號(hào)、MVS、 NNBSP等都是可見(jiàn)字符,而蒙古文 字母之后出現(xiàn)的自由變體選擇符是不可見(jiàn)字符。其中,MVS對(duì)其前后兩個(gè)字母有字形控制 作用。在圖7中"+m"代表字母之后有MVS, "m+"代表字母之后有MVS。而NNBSP對(duì)其之后 的所有詞內(nèi)字母有控制字形作用。
步驟S104:程序?標(biāo)注每一個(gè)可見(jiàn)字符對(duì)象&[1,2,..^]的如下變形特征為獨(dú)立、詞首、 詞中或詞尾的詞內(nèi)位置特征;為元音、輔音以及元音的陽(yáng)性、陰性或中性的特征;為節(jié)首、 節(jié)干或節(jié)尾的蒙古文書(shū)面語(yǔ)音節(jié)構(gòu)成特征。
如圖7所示,每一個(gè)可見(jiàn)字符的變形特征屬性值包含詞內(nèi)位置、元音輔音、陰陽(yáng)性、音 節(jié)的CVT構(gòu)成和音節(jié)的詞內(nèi)位置等特征值。其中,可以不包含音節(jié)的詞內(nèi)位置特征值,因 為音節(jié)的詞內(nèi)位置特征值可以利用音節(jié)構(gòu)成和字符的詞內(nèi)位置信息計(jì)算出來(lái)。
步驟S105:程序P依據(jù)蒙古文字母變形特征,從預(yù)先建立的字母變形表查詢(xún)獲得每一個(gè) 可見(jiàn)字符對(duì)象^[1,2,...,]對(duì)應(yīng)的字形01[1,2,...沖得到字形數(shù)組G(G卜G2、 ...、 Gw}。
如圖7的實(shí)例所示,經(jīng)過(guò)步驟D之后,程序P將依據(jù)所標(biāo)注的蒙古文字母變形特征信息 査詢(xún)可見(jiàn)字符變形表(如圖2、圖3、圖4和圖5所示)取得每一個(gè)Kj對(duì)應(yīng)的字形Gi。例如圖 7的"實(shí)例二"中,給出幾個(gè)查表說(shuō)明。在査表過(guò)程中,如果找不到與蒙古文字母變形特征中 的字形控制字符信息匹配的字形則忽略其字形控制字符信息。
步驟S106:程序P基于特征信息依次對(duì)Kj和K w組合的字形Gi和Gw進(jìn)行進(jìn)一步處理, 得到字形數(shù)組G,(GV G'2.....G'w,},其中w,Sw。
如圖7的"實(shí)例三"所示,部分字母的字形依據(jù)其前后字母信息進(jìn)一步變形??梢钥匆?jiàn), 步驟E中的G3在步驟F中變形為G'3,即元音字母A的A06字形"在圓頭字之后加齒黏著書(shū)寫(xiě)"。 在蒙古文編碼系統(tǒng)中的"強(qiáng)制合體字"概念是指兩個(gè)字母共同構(gòu)成一個(gè)字形,如果字體的技術(shù) 處理上采用這個(gè)概念則導(dǎo)致w、w的現(xiàn)象。
步驟S107:程序P將蒙古文詞W的字形串G'(G、、 G'2.....GV)輸出給其他蒙古文處
理f統(tǒng)進(jìn)行應(yīng)用。
綜上,本發(fā)明是一個(gè)重要的蒙古文信息處理基礎(chǔ)技術(shù),其填補(bǔ)了蒙古文詞的字形生成 技術(shù)的空白。本發(fā)明為蒙古文的輸入輸出、自動(dòng)校對(duì)、自動(dòng)轉(zhuǎn)寫(xiě)、復(fù)雜文本處理等關(guān)鍵系 統(tǒng)提供蒙古文詞的字形生成引擎,能夠促進(jìn)這些系統(tǒng)的研究開(kāi)發(fā)和推廣應(yīng)用。
權(quán)利要求
1、一種蒙古文詞的字形生成方法,其特征在于包括下列步驟將蒙古文詞的字符串S{S1、S2、...、Sn}分解為w個(gè)可見(jiàn)字符對(duì)象數(shù)組K{K1、K2、...、Kw},其中w≤n;標(biāo)注每一個(gè)可見(jiàn)字符對(duì)象Ki[1,2,...,w]的變形特征信息;根據(jù)變形特征信息,從預(yù)先建立的可見(jiàn)字符變形表查詢(xún)獲得每一個(gè)可見(jiàn)字符對(duì)象Ki[1,2,...,w]的字形Gi[1,2,...,w],得到字形數(shù)組G{G1、G2、...、Gw};基于變形特征信息,依據(jù)Ki和Ki+1組合對(duì)其字形Gi和Gi+1進(jìn)一步處理,得到字形數(shù)組G’{G’1、G’2、...、G’w’}并輸出,其中w’≤w。
2、 根據(jù)權(quán)利要求l所述蒙古文詞的字形生成方法,其特征在于所述字符串S包括字 母、標(biāo)點(diǎn)符號(hào)和字形控制字符。
3、 根據(jù)權(quán)利要求2所述蒙古文詞的字形生成方法,其特征在于所述字形控制字符包 括元音間隔符、自由變體選擇符、窄寬度無(wú)間斷空格、零寬連接符和零寬禁連接符。
4、 根據(jù)權(quán)利要求1所述蒙古文詞的字形生成方法,其特征在于所述可見(jiàn)字符對(duì)象由 可見(jiàn)字符和影響其變形的字形控制字符的信息構(gòu)成。
5、 根據(jù)權(quán)利要求4所述蒙古文詞的字形生成方法,其特征在于所述可見(jiàn)字符包括字母、標(biāo)點(diǎn)符號(hào)、元音間隔符和窄寬度無(wú)間斷空格,所述影響字母、標(biāo)點(diǎn)符號(hào)變形的字形控 制字符包括元音間隔符、自由變體選擇符、窄寬度無(wú)間斷空格、零寬連接符和零寬禁連接 符。
6、 根據(jù)權(quán)利要求l所述蒙古文詞的字形生成方法,其特征在于所述可見(jiàn)字符對(duì)象的 變形特征信息包括為獨(dú)立、詞首、詞中或詞尾的詞內(nèi)位置特征信息;為元音、輔音以及 元音的陽(yáng)性、陰性或中性的特征信息;為節(jié)首、節(jié)干或節(jié)尾的蒙古文書(shū)面語(yǔ)音節(jié)構(gòu)成特征f曰息。
7、 根據(jù)權(quán)利要求6所述蒙古文詞的字形生成方法,其特征在于所述可見(jiàn)字符對(duì)象的 變形特征信息還包括音節(jié)的詞內(nèi)位置特征信息。
8、 根據(jù)權(quán)利要求7所述蒙古文詞的字形生成方法,其特征在于所述音節(jié)的詞內(nèi)位置 特征信息根據(jù)音節(jié)構(gòu)成和字母的詞內(nèi)位置信息計(jì)算獲得。
9、 根據(jù)權(quán)利要求1所述蒙古文詞的字形生成方法,其特征在于若查詢(xún)可見(jiàn)字符變形 表找不到與可見(jiàn)字符對(duì)的字形控制字符信息匹配的字形Gi,則忽略其字形控制字符信息。
全文摘要
一種蒙古文詞的字形生成方法,其包括步驟輸入蒙古文詞的字符串S{S<sub>1</sub>、S<sub>2</sub>、…、S<sub>n</sub>},其長(zhǎng)度為n;將字符串S分解為w個(gè)可見(jiàn)字符對(duì)象數(shù)組K{K<sub>1</sub>、K<sub>2</sub>、…、K<sub>w</sub>},其中w≤n;標(biāo)注可見(jiàn)字符對(duì)象K<sub>i[1,2,…,w</sub>]的變形特征信息;根據(jù)每一個(gè)數(shù)組元素K<sub>i</sub>的特征信息,從預(yù)先建立的字母變形特征表查詢(xún)獲得每一個(gè)數(shù)組元素K<sub>i</sub>對(duì)應(yīng)的字形G<sub>i</sub>,得到字形數(shù)組G{G<sub>1</sub>、G<sub>2</sub>、…、G<sub>w</sub>};基于蒙古文字母變形特征依次對(duì)K<sub>i</sub>和K<sub>i+1</sub>組合的字形G<sub>i</sub>和G<sub>i+1</sub>依據(jù)其前后字母信息進(jìn)一步變形處理,得到字形數(shù)組G’{G’<sub>1</sub>、G’<sub>2</sub>、…、G’<sub>w’</sub>}并輸出,其中w’≤w。本發(fā)明基于蒙古文的字母變形特征對(duì)輸入的蒙古文詞的字符串進(jìn)行統(tǒng)一的字形生成處理,為相關(guān)蒙古文的信息處理技術(shù)提供支撐,便于廣泛推廣使用。
文檔編號(hào)G06F17/28GK101561800SQ200910107290
公開(kāi)日2009年10月21日 申請(qǐng)日期2009年5月15日 優(yōu)先權(quán)日2009年5月15日
發(fā)明者呼斯勒, 巴圖賽橫, 斯日古愣, 白雙成 申請(qǐng)人:內(nèi)蒙古蒙科立軟件有限責(zé)任公司