一種藏文字自動校對方法及裝置的制造方法
【專利摘要】一種藏文字自動校對方法及裝置本發(fā)明涉及藏文信息處理技術(shù)領(lǐng)域,特別涉及一種藏文字自動校對方法及裝置。公開一種藏文字自動校對的方法及裝置,以實現(xiàn)計算設(shè)備自動拼寫檢查藏文字錯誤的目的,并通過糾錯候選項選擇算法,計算出與該錯誤字相近的糾錯候選字以供用戶選擇。具體包括:(1)藏文字的數(shù)字化表示;(2)藏文構(gòu)件添加原則的數(shù)字化表示;(3)藏文字的拼寫檢查;(4)糾錯候選字選擇。該發(fā)明可應用于藏文文本的自動校對,在藏語語料庫建設(shè)、出版業(yè)等具有重要的應用價值。
【專利說明】
-種藏文字自動校對方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及藏文信息處理技術(shù)領(lǐng)域,特別設(shè)及一種藏文字自動校對方法及裝置。
【背景技術(shù)】
[0002] 從60年代開始,隨著計算機排版印刷業(yè)的興起,陸續(xù)出現(xiàn)西文自動校對軟件,至U 1991年,已有15種西文自動校對的商品化系統(tǒng)問世,廣泛應用于寫作、教育、出版等行業(yè)。 1980年開始,香港、臺灣、新加坡、日本、韓國也陸續(xù)投入了大量人力、物力進行東方語言文 字的自動查錯與糾錯研究。目前,國內(nèi)微軟亞洲研究院、金山公司等單位開展了漢文文本自 動校對理論和技術(shù)的研究,取得了較好的成果,且有部分成果已經(jīng)商品化,為辦公自動化帶 來了便利。西文和中文校對的主要思想是:首先建立校對詞庫,當用戶輸入單詞后與校對詞 庫進行比較,若輸入的單詞不在詞庫中時標記出該詞,并分析錯誤的原因,找出可能正確的 單詞供用戶選擇。
[0003] 藏文是藏語的文字系統(tǒng),自公元7世紀創(chuàng)制W來,經(jīng)過=次較大規(guī)模的厘定,日臻 完善,制定了詳實的文法。近年來在國家的大力支持和學者們的共同努力下藏文信息處理 技術(shù)得到了快速發(fā)展,已向海量信息處理方向發(fā)展。特別是隨著統(tǒng)計技術(shù)和深度學習技術(shù) 的引入,藏文信息處理也跨入了大數(shù)據(jù)時代,信息的準確度尤為重要,因此藏文自動校對技 術(shù)研究具有重要的理論意義和廣泛的應用前景。
[0004] 由于藏文字是由1-7個基本構(gòu)件橫向和縱向拼接而成的一種特殊表音拼音文字, 不但具有橫向拼寫,還存在縱向拼寫,所W W上語言文字自動校對方法不能適用于藏文自 動校對。
[0005] 藏文自動校對包括字校對和詞校對。由于藏文字由前加字、上加字、基字、下加字、 元音、后加字和再后加字等構(gòu)件拼接而成,因而在文本中經(jīng)常出現(xiàn)很多拼寫錯誤。為此,本 發(fā)明提供一種藏文字自動校對的方法及裝置,W實現(xiàn)用計算設(shè)備自動拼寫檢查藏文字的目 的,并通過糾錯候選項選擇算法,計算出與該錯誤字相近的糾錯候選字W供用戶選擇。本發(fā) 明的方法及裝置可應用于藏文文本的自動校對,在藏語語料庫建設(shè)、出版業(yè)等具有重要的 應用價值。
【發(fā)明內(nèi)容】
[0006] 為實現(xiàn)上述發(fā)明目的,基于本發(fā)明實施例,提供一種藏文字自動校對方法,所述方 法包括:
[0007] 1. -種藏文字自動校對方法
[000引該方法給出了藏文字自動校對的模型,包括文本預處理、拼寫檢查和糾錯候選項 選擇方法。
[0009] 2.藏文字的一種數(shù)字化表示方法
[0010] -個藏文字由1-7個構(gòu)件組成,按傳統(tǒng)拼讀順序?qū)⑶凹幼?、上加字、基字、下加字?元音、后加字和再后加字等7個構(gòu)件依次用其序號日1、日2、日3、日4、日日、日6和日7表示,貝臟文字可 表不為(日1,日2 ,日3 ,日4 ,日日,日6 ,日7)的數(shù)字形式。
[0011] 3.藏文構(gòu)件添加原則的一種數(shù)字化表示方法
[0012]通過歸納、分析藏文構(gòu)件添加原則,給出了藏文構(gòu)件添加原則的數(shù)字化表示方法。
[0013] 4. -種藏文字拼寫檢查方法
[0014] 通過方法2將藏文字表示為數(shù)字化形式,然后判斷該數(shù)字化形式是否滿足方法3中 的藏文構(gòu)件添加原則的數(shù)字化表示形式,若滿足則檢查通過,否則未通過檢查。
[0015] 5.糾錯候選項選擇方法
[0016] 對未通過檢查的藏文字用糾錯候選項選擇算法提供與該字相近的糾錯候選字W 供用戶選擇。
[0017] 為實現(xiàn)上述發(fā)明目的,基于本發(fā)明實施例,提供一種藏文字自動校對裝置,所述裝 置包括:
[0018] 藏文字的數(shù)字化形式表示模塊,用于將讀取的藏文字表示為計算設(shè)備易于操作和 運算的數(shù)字化形式。
[0019] 藏文字拼寫檢查模塊,通過判斷待檢查藏文字的數(shù)字化形式與構(gòu)件添加原則的數(shù) 字化形式的一致性,檢查該字是否正確。
[0020] 糾錯候選項選擇模塊,通過糾錯候選項選擇算法,計算出與該錯誤字相近的糾錯 候選字W供用戶選擇。
【附圖說明】
[0021] 圖1是藏文字結(jié)構(gòu)及數(shù)字化表示圖。
[0022] 圖2是藏文字自動校對模型圖。
[0023] 圖3是藏文字的數(shù)字化表示流程圖。
[0024] 圖4是藏文字拼寫檢查流程圖。
[0025] 圖5是藏文字糾錯候選項選擇流程圖。
【具體實施方式】
[0026] 本發(fā)明提供藏文字的數(shù)字化表示方法和藏文構(gòu)件添加原則的數(shù)字化表示方法,對 待檢查的藏文字先表示為數(shù)字化形式,然后驗證待檢查藏文字的數(shù)字化形式與藏文構(gòu)件添 加原則的數(shù)字化形式的一致性,完成藏文字的拼寫檢查,對未通過檢查的錯誤字計算出相 近的糾錯候選項W供用戶選擇。為了更充分理解本發(fā)明的技術(shù)內(nèi)容,下面參照附圖結(jié)合具 體實施例對本發(fā)明的技術(shù)方案做進一步介紹和說明,但不局限于此。
[0027] 參考附圖1,藏文字由30個輔音字母和4個元音字母組成,30個輔音字母可W做基 字,其中的10個可W做后加字,后加字中的5個又可W做前加字,2個可W做再后加字。藏文 字結(jié)構(gòu)上由基字、前加字、上加字、下加字、后加字、再后加字及元音組成,一個藏文字有且 僅有一個基字,其它部分可能存在一個也可能不存在。構(gòu)字時前加字、基字、后加字與再后 加字按一定的約束規(guī)則橫向拼寫,上加字、基字、下加字和元音在基字所在的豎直方向上按 約束規(guī)則縱向拼寫,組成字的各個字母稱作構(gòu)件。
[002引實施例一
[0029]本發(fā)明提出一種藏文字自動校對的方法及裝置。參考附圖2,藏文字自動校對的方 法及裝置包括預處理模塊,拼寫檢查模塊和糾錯候選字選擇模塊。預處理模塊的功能是將 藏文文本進行斷句和識字處理,并將字規(guī)范化為參考附圖I(A)所示的形式。斷句W藏文單 垂符為邊界,字間W音節(jié)分隔符"?"為邊界,藏文字規(guī)范化部分主要采用添加刪除法識 別緊縮詞。拼寫檢查模塊先對規(guī)范藏文字進行構(gòu)件分解,并參考附圖I(B)將藏文字表示為 數(shù)字化形式,然后通過驗證藏文構(gòu)件添加規(guī)則約束表1-7進行拼寫檢查。如果檢查不正確, 則選擇糾錯候選字W供用戶選擇。
[0030]實施例二
[0031 ] 設(shè)A = {(ai ,日2,日3,日4,曰5,日6,日7) I 0《ai《5,0《日2《3,0<日3《30,0《日4《4,0《日已《 4,0《a6《10,0《a7《2}。參考附圖3,本實施例中所述藏文字的數(shù)字化表示方法包括藏文字 構(gòu)件分解,構(gòu)件分量值確定W及藏文字數(shù)字化表示等。具體實施過程為:先分解藏文字的構(gòu) 件,然后根據(jù)每種構(gòu)件類型中該構(gòu)件的序號確定它對應的分量值ai(i = l,2,3,4,5,6,7), 最后根據(jù)所得分量值日1將藏文字表示為數(shù)字化曰=(日1,日2,日3,日4,日日,日6,日7)形式。
[0032] 實施例S
[0033] 由藏文構(gòu)字原則,建立藏文構(gòu)件添加原則的數(shù)字化表示,示例見表1-8。
[0034] 表1再后加字添加規(guī)則約束表
[0035]
[0036] 表1是再后加字的添加約束規(guī)則表,當as取0,3,7,10之一時37只能取0,當as取4,8, 9之一時日7只能取0或1,當日6取1,2,5,6之一時日7只能取0或2。日6 = 0、日7 = 0表示該藏文字無后
加字、無再后加字,£16 = 3或7或10、37 = 0表示該藏文字的后加字為或'"g"或"5?"、無再 后加字,36 = 4或8或9、曰7 = 0表示該藏文字的后加字為"氣"或或'無再后加字,曰6 = 4 或8或9、a7=l表示該藏文字的后加 旱后加字為w^",a6=l或2或5 或6、a7 = 0表示該藏文字的后加字3 |\無再后加字,36= 1或2或5或 6、a7 = 2表示該藏文字的后加字為" 旱后加字為 <"巧"。表2-7的含義 類同。
[0037] 表2 ai = 0時上加字、基字和下加字的添加規(guī)則約束表
[00;3 引
[0039]
[0040]
[0041]
[0042]
[0043]
[0044]
[0045]
[0046]
[004引
[0047] 表7 ai = 5時上加字、基字和下加字的添加規(guī)則約束表
[0049]
[(K)加 ]
[0051 ]表8列出了一些特殊藏文字,其中雙音節(jié)型原本是兩個藏文字,但現(xiàn)在的藏文中將 其看成一個完整的藏文字使用,特殊疊字是一種獨立地應用于特殊語境下的藏文字,音譯 字母是為了書寫音譯字而引入的特殊字母,將其看成一個整體,不能添加前加字、上加字、 下加字和再后加字,但能添加元音和后加字。特殊藏文字不能用實施例二的方法表示為數(shù) 字化形式,為了便于處理運些特殊藏文字,建立特殊藏文字表。
[0化2] 實施例四
[0053] 參考附圖4,本發(fā)明實施例提供一種藏文字拼寫檢查方法,實施例可W對藏文文本 進行篇章拼寫檢查,該方法包括如下步驟:
[0054] 步驟401:讀取文本內(nèi)容到Text中,從Text識別出一個藏文字并規(guī)范化后存入S,將 規(guī)范藏文字S構(gòu)件分解到數(shù)組T,最后通過門尋S表示為數(shù)字化形式曰=(曰1,曰2,曰3,曰4,曰日,曰6, a?)。
[0化5] 步驟402:判斷a是否屬于實施例一所述的集合A,若
則執(zhí)行步驟403,否則執(zhí) 行步驟405。
[0056] 步驟403:如果S是Pl型或P2型或P3與元音、后加字的組合,則S為合法藏文字,轉(zhuǎn)到 步驟401;否則轉(zhuǎn)到404。
[0057] 步驟404:如果曰3< Ior曰3>30,那么a對應的是非藏文字符,不做拼寫檢查,否則將 a中ai(i = 1,2,3,4,5,6,7)做 W下調(diào)整。當ai<0or ai巧時,則ai^l;當a2<0or 日2〉3時,貝lja2 當a4<0or 日4〉3時,則日4^1;當a6<0or a6〉10時,則日6^2;當a7<0or 日7〉2時,則日7^2。轉(zhuǎn) 到實施例五的步驟501。
[0058] 步驟405:若曰6,曰7不滿足再后加字添加規(guī)則約束表1,則轉(zhuǎn)到實施例五的步驟501; 否則,如果滿足下列條件之一,則轉(zhuǎn)到步驟401,如果下列所有條件都不滿足,則轉(zhuǎn)到實施例 五的步驟501。
[0059] 條件:
[0060] (1)當ai = 0時,日2,日3,日4滿足規(guī)則約束表2;
[OOW] (2)當ai = 1時,曰2,曰3,曰4滿足規(guī)則約束表3;
[0062] (3)當ai = 2時,日2,日3,日4滿足規(guī)則約束表4;
[0063] (4)當ai = 3時,日2,日3,日4滿足規(guī)則約束表5;
[0064] (5)當ai = 4時,日2,日3,日4滿足規(guī)則約束表6;
[0065] (6)當ai = 5時,日2,日3,日4滿足規(guī)則約束表7。
[0066] 實施例五
[0067] 參考附圖5,本發(fā)明實施例提供一種藏文字糾錯候選項選擇方法,實施例可W對每 一個aGA的錯誤字選擇與該字相近的正確候選字W供用戶選擇,該方法包括如下步驟:
[0068] 步驟501:若37 = 0,則轉(zhuǎn)到步驟502,否則轉(zhuǎn)到步驟507;
[0069] 步驟502:當曰4 = 0,曰2 = 0,曰6 = 0,曰日=0時,貝11曰1^0,此時糾錯候選字的數(shù)字化形式 為(0,0,日3,0,0,0,0),轉(zhuǎn)到實施例4的步驟401;當日4=0,日2 = 0,日6 = 0,日日聲0或日4=0,日2 = 0, 曰6聲0時,則選擇所有使(ai,0,曰3,0) G T2-7的ai,此時糾錯候選字的數(shù)字化形式為(ai,0,曰3, 0,a日,日6,0),轉(zhuǎn)到實施例4的步驟401;當日4 = 0,日2聲0時,轉(zhuǎn)到步驟503;當日4聲0,日2 = 0時,轉(zhuǎn) 到步驟505;當日4聲0,日2聲0時,轉(zhuǎn)到步驟506;
[0070] 步驟503:若I
則選擇所有使(0,日2,日3,0)£了2-7的日2,轉(zhuǎn)到步驟 504,否則轉(zhuǎn)到步驟504;
[0071 ] 步驟504:若(ai,日2,日3,0) G T2-7,則糾錯候選字為(ai,日2,日3,日4, a日,日6,日7),轉(zhuǎn)到實 施例4的步驟401;否則選擇所有使(曰1,曰2,曰3,曰4)引2-7的曰1,此時糾錯候選字的數(shù)字化形式 為(曰1,0,曰3,0,a日,曰6,0),轉(zhuǎn)到實施例4的步驟401;
[0072] 步驟505 :若(0,0 ,日3 ,日4) G T2-7,選擇所有使(0 ,日2 ,日3 ,日4) GT2-7的日2、日4,轉(zhuǎn)到步驟 504;否則選擇所有使(0,0,日3,日4) G T2-7的日4,轉(zhuǎn)到步驟504;
[0073] 步驟506 :若(0,日2,日3,日4) G T2-7,則轉(zhuǎn)到步驟504,否則選擇所有使(0,日2,日3,日4) G T2-7的曰2、曰4,轉(zhuǎn)到步驟504;
[0074] 步驟507:若a7=lor 37 = 2,則轉(zhuǎn)到步驟508,否則轉(zhuǎn)到步驟509;
[00巧]步驟508:若(曰6,曰7)£18,則轉(zhuǎn)到步驟502,選擇所有使(曰6,曰7)£了8的曰6,轉(zhuǎn)到步驟 502;
[0076] 步驟509:37^2,選擇所有使(朋,日7) G Ts的朋,轉(zhuǎn)到步驟502。
【主權(quán)項】
1. 一種藏文字自動校對方法,其特征在于: 對待檢查的藏文字先表示為數(shù)字化形式,然后驗證待檢查藏文字的數(shù)字化形式與藏文 構(gòu)件添加原則的數(shù)字化形式的一致性,完成藏文字的拼寫檢查,對未通過檢查的錯誤字計 算出相近的糾錯候選項以供用戶選擇。2. -種藏文字的數(shù)字化表示方法,其特征在于: 對藏文字進行構(gòu)件分解,根據(jù)每種構(gòu)件類型中該構(gòu)件的序號確定它對應的分量值&(1= 1,2,3,4,5,6,7),取后根據(jù)所得分莖值ai將減文字表不為數(shù)字化a=(ai,a2,a3,a4,a5,a6,a7) 形式。3. -種藏文構(gòu)件添加原則的數(shù)字化表示方法,其特征在于: 通過歸納、分析藏文構(gòu)件添加原則,給出了藏文構(gòu)件添加原則的數(shù)字化表示方法,該方 法包括再后加字添加規(guī)則約束表,前加字、上加字、基字和下加字的添加規(guī)則約束表。4. 一種藏文字拼寫檢查方法,其特征在于: 對數(shù)字化形式3=(31,32,33,34,35,36,37)而言,若3_4,則進一步判斷是否為特殊藏文 字,如果是特殊藏文字,那么a表示正確藏文字,如果不是特殊藏文字且基字不合法,說明a 表示非藏文字符,不做拼寫檢查,如果不是特殊藏文字而基字合法,那么對其它不合法的構(gòu) 件進行調(diào)整,使a.€:A; 若a$A,如果a6,a7滿足構(gòu)件添加原則約束表之一,說明a表不的字正確,如果a6,a7不滿 足所有構(gòu)件添加原則約束表,那么a表示錯誤字。5. -種藏文字糾錯候選項選擇方法,其特征在于: 對每一個aeA的錯誤字用糾錯候選項選擇算法,計算出與該錯誤字相近的正確候選字 以供用戶選擇。6. 藏文字的數(shù)字化形式表示裝置,其特征在于: 用于將讀取的藏文字表示為計算設(shè)備易于操作和運算的數(shù)字化形式。7. 藏文字拼寫檢查裝置,其特征在于: 通過判斷待檢查藏文字的數(shù)字化形式與構(gòu)件添加原則的數(shù)字化形式的一致性,檢查該 字是否正確。8. 糾錯候選項選擇裝置,其特征在于: 通過糾錯候選項選擇算法,計算出與該錯誤字相近的糾錯候選字以供用戶選擇。
【文檔編號】G06F17/27GK106021236SQ201610389746
【公開日】2016年10月12日
【申請日】2016年6月5日
【發(fā)明人】才智杰, 才讓卓瑪
【申請人】才智杰