欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于通用音節(jié)結構的藏文字符排序裝置和方法

文檔序號:6331248閱讀:167來源:國知局
專利名稱:基于通用音節(jié)結構的藏文字符排序裝置和方法
技術領域
本發(fā)明涉及語言文字信息處理技術,特別涉及藏語言文字信息處理技術,具體是 一種基于通用音節(jié)結構的藏文字符排序裝置和方法。雖然,本發(fā)明使用于廣泛的應用范圍, 它尤其使用于信息處理裝置對基于藏文字符集國際標準的藏文音節(jié)和梵音藏文組合字符 的排序。
背景技術
排序是計算機系統(tǒng)的一個重要函數。一組字符串呈現給用戶時,用戶希望這組字 符串是按照一定規(guī)律排序的,從而能很容易且很可靠地找到其中的某個特定字符串。排序 對數據庫來說也是至關重要的,不僅是為了記錄的排序更是為了在給定域范圍時能夠選擇 符合條件的記錄。藏文字符的計算機排序也是藏文分詞、語料庫建設、拼寫檢查、文本檢索 以及操作系統(tǒng)藏化等問題的基礎,可以說,藏文字符的計算機排序是藏文信息處理的基礎。藏文字符的計算機排序要符合以下幾方面的要求①藏文字符的計算機排序結果要符合傳統(tǒng)字典中音節(jié)的排序規(guī)律。經過1300多 年的發(fā)展,藏文傳統(tǒng)字典中音節(jié)的排序規(guī)律已被廣大藏文使用者完全接受和遵循。因此,傳 統(tǒng)藏文字典中音節(jié)的排序規(guī)律是檢驗藏文字符計算機排序結果是否準確的主要標準。②藏文字符的編碼要符合字符集國際標準。1997年,193個基本藏文字符被收錄 到ISO的基本多文種平面(Basic Multilingual Plane,簡寫為BMP)的OF行,從而使藏文 成為我國第一個擁有國際標準的少數民族文字。2004年后,MS Wind0WS、LinUX等主流操作 系統(tǒng)開始全面支持藏文字符集的國際標準。從此以后,包括字符排序在內的所有藏文信息 處理都應完全基于字符集國際標準,否則,無法得到主流操作系統(tǒng)的支持。③藏文字符的排序技術要符合相關國際標準。Unicode和ISO在充分研究古今 中外各種文字排序特點的基礎上,發(fā)布了 IS0/IEC 14651、IS0/IEC 14652以及Unicode Technical Standard #10等技術標準,這些標準給出了編碼字符計算機排序的通用規(guī)則, 并給出了所有編碼字符的排序元素(Collation elements)。只有完全符合這些標準的藏文 字符排序技術才符合標準化要求,才能得到操作系統(tǒng)、應用軟件的全面支持。④要研究全部藏文的合理排序。從排序的角度出發(fā),藏文字符串可以分為八種類 型本地藏文音節(jié)(例如喝T )、梵音藏文組合字符(例如§或#)、非音節(jié)藏文字母串(特 指不構成本地藏文音節(jié)和梵音藏文組合字符的字母串,例如Τ〒)、藏文數字串(例如例 )、藏文標點符號串(例如_)、其它文字字符串(例如aBc)、藏文圖形符號串以及混合字 符串。藏文字符計算機排序的重點是本地藏文音節(jié)和梵音藏文組合字符的正確排序,但也 要兼顧其余六類字符串的合理排序??傊匚淖址挠嬎銠C排序要從字符集的國際標準出發(fā),排序技術要符合ISO 以及Unicode的相關標準,重點解決本地藏文音節(jié)和梵音藏文組合字符的排序問題,排序 結果要符合傳統(tǒng)藏文字典的排序規(guī)律。

發(fā)明內容
為了解決現有技術中存在的上述問題,本發(fā)明提出一種基于通用音節(jié)結構的藏文 字符排序裝置和方法,具體技術方案如下一種用于對本地藏文音節(jié)和梵音藏文組合字符排序的基于通用音節(jié)結構的藏文 字符排序裝置裝置,包括預處理子裝置,對以<《和嘆為后綴的藏文音節(jié)和不符合藏文音節(jié)通用結構的梵 音藏文組合字符進行適當分解,得到一個音節(jié)序列,使得序列中的每個音節(jié)都符合藏文音 節(jié)通用結構;音節(jié)展開子裝置,將符合藏文音節(jié)通用結構的音節(jié)按照特定順序展成一維字母 串;排序元素調用子裝置,調用一維字母串中每個字母的排序元素,然后,按照一維字 母串中所有字母的第一級權重、第二級權重、第三級權重的順序排列,得到原音節(jié)的排序元 素串;排序元素串壓縮子裝置,對音節(jié)的排序元素串利用游程長度等方法壓縮;所述的藏文音節(jié)通用結構由基本輔音、前加輔音、上加輔音、第一下加輔音、第二 下加輔音、第一元音、第二元音/第一后加輔音和第二后加輔音組成;所述預處理子裝置對以3、《和冬為后綴的藏文音節(jié)的預處理方法是將日、; ]或者這 看作獨立的音節(jié),而將剩余字母的組合看作一個音節(jié);所述預處理子裝置對不符合藏文音節(jié)通用結構的梵音藏文組合字符的預處理方 法是將最上層的輔音看成獨立的音節(jié),考察剩余字母的組合是否符合通用音節(jié)結構,如果 不符合則重復此過程,直到剩余字母的組合符合通用音節(jié)結構為止;將符合通用結構的音節(jié)展成一維字母串的特定順序是,按照優(yōu)先級依次是,基本 輔音、前加輔音、上加輔音、第一下加輔音、第二下加輔音、第一元音、第二元音/第一后加 輔音和第二后加輔音;所述的音節(jié)展開子裝置把符合通用音節(jié)結構的音節(jié)按照所述的特定順序展成 一維字母串時,如果音節(jié)在某個位置上的字母空缺,則展開式的相應位置用排序元素為 [· 2020. 0020. 0002]的特殊字符填補。一種利用上述裝置對本地藏文音節(jié)和梵音藏文組合字符排序的基于通用音節(jié)結 構的藏文字符排序方法,包括步驟1)預處理,指對以日、《或洛為后綴的藏文音節(jié)和不符合藏文音節(jié)通用結構的梵音 藏文組合字符進行適當分解,得到一個音節(jié)序列,使得序列中的每個音節(jié)都符合藏文音節(jié) 通用結構;2)音節(jié)展開,指將符合通用音節(jié)結構的音節(jié)按照特定的順序展成一維字母串;3)排序元素調用,指依次調用一維字母串中每個字母的排序元素,然后,按照所有 字母的第一級權重、第二級權重、第三級權重的形式排列,得到原音節(jié)的排序元素串;4)排序元素串壓縮,指對音節(jié)的排序元素串利用游程長度方式壓縮;所述的藏文音節(jié)通用結構由基本輔音、前加輔音、上加輔音、第一下加輔音、第二 下加輔音、第一元音、第二元音/第一后加輔音和第二后加輔音組成;所述的預處理對以< 楊時為后綴的本地藏文音節(jié)的預處理方法是將<《或者這看作獨立的音節(jié),而將剩余字母的組合看作一個音節(jié);所述的預處理對不符合藏文音節(jié)通用結構的梵音藏文組合字符的預處理方法是 將最上層的輔音看成獨立的音節(jié),考察剩余的字母是否符合通用音節(jié)結構,如果不是則重 復此過程,直到剩余字母的組合符合通用音節(jié)結構為止;將符合通用結構的音節(jié)展成一維字母串的特定順序是,按照優(yōu)先級依次是,基本 輔音、前加輔音、上加輔音、第一下加輔音、第二下加輔音、第一元音、第二元音/第一后加 輔音和第二后加輔音;符合通用音節(jié)結構的音節(jié)按照特定的順序展成字一維母串時,如果音節(jié)在某個位 置上的字母空缺,則展開式的相應位置用排序元素為[.2020.0020.0002]的特殊字符填 補。發(fā)明的優(yōu)點和積極效果1.本發(fā)明實現了全部藏文音節(jié)和梵音藏文組合字符的計算機排序,排序結果符合 傳統(tǒng)藏文字典的排序規(guī)律;提高了排序質量和效率,是計算機對藏文文字進行高效處理的 ■石出。2.本發(fā)明統(tǒng)一用圖1所示的通用結構直接或者間接表示所有藏文音節(jié)和梵音藏 文組合字符,克服了藏文音節(jié)和梵音藏文組合字符無統(tǒng)一結構的弊端。3.本發(fā)明統(tǒng)一了所有藏文音節(jié)和組合字符的展開順序,簡化了藏文字符的排序算 法。4.本發(fā)明引入排序元素為[.2020. 0020. 0002]的特殊字符用以填補音節(jié)展開時
的空缺位置,提高了排序元素串的壓縮比率。


附圖被包括而且作為本申請的一部分揭示了本發(fā)明的實例,并結合描述來解釋本 發(fā)明的原理。在附圖中圖1是本發(fā)明的藏文音節(jié)通用結構示意圖;圖2是本發(fā)明的藏文字符排序裝置示意圖;圖3是本發(fā)明的通用藏文音節(jié)結構中字母的展開順序示意圖;圖4是本發(fā)明所依托的計算機系統(tǒng)硬件環(huán)境示意圖;圖5是本發(fā)明所依托的計算機系統(tǒng)軟件環(huán)境示意圖。
具體實施例方式
下面結合附圖與具體實施方式
對本發(fā)明作進一步說明 圖1是本發(fā)明的藏文音節(jié)通用結構。藏文是一種音節(jié)文字,有30個輔音和5個元 音。30 個輔音為=Y5T^lt5^q'"!c3FkH WT1I y,,5 個元音為沢§^敘砰。這
些字母按照正字規(guī)律相互組合而形成藏文音節(jié),例如—1τ。這樣形成的音節(jié)稱為本地藏文 音節(jié)。本地藏文音節(jié)中,有一個是基本輔音,其他輔音根據它們相對于基本輔音的位置而 分別稱為前加輔音、上加輔音、下加輔音、后加輔音以及又后加輔音。例如音節(jié)中,叩是 基本輔音A是前加輔音…是上加輔音、3是下加輔音、字母°1和9分別是后加輔音和又后加輔 音。此處,一個藏文音節(jié)中基本輔音的確定對本領域的專業(yè)人員而言是顯然的。為了書寫
6美觀,上加輔音和下加輔音可能會變形,例如字母\為上加輔音時變形為τ,而字母^、^和 作下加輔音時分別變形為S、3和%每個本地藏文音節(jié)都有元音,如果元音是< 隊&或《則 分別寫元音符號\《、S或力如果元音是㈤則元音符號省略。藏民族全民信教,在佛教經典的翻譯過程中借用了大量的梵文 詞。為了準確音譯這些梵文詞,創(chuàng)造了與本地藏文在字母系統(tǒng)、拼寫規(guī)則 等方面差異較大的梵音藏文。梵音藏文有34個輔音和16個元音,34個輔 音為T1T^「丨尸^可司 q^iqYsiI uj^iiI Wi^']岡,16 個元音為
^'Il ^llf5^l。梵音藏文對垂直方向上疊加的輔音個數沒有嚴格的限制,
但仍以音節(jié)為單位進行排序。梵音藏文音節(jié)沒有前加輔音、后加輔音和又后加輔音,因此, 一個梵音藏文音節(jié)最多是基本輔音、下加輔音以及元音的垂直組合,稱為梵音藏文組合字 符。但梵音藏文組合字符可能有兩個下加輔音,例如組合字符?有兩個下加輔音為鄉(xiāng)和力也 可能有兩個元音,例如組合字符絮有兩個元音S和?!?。本地藏文音節(jié)有基本輔音、前加輔音、上加輔音、下加輔音、元音、后加輔音以及又 后加輔音,而梵音藏文組合字符可能有兩個元音(依次稱為第一元音和第二元音),還可能 有兩個下加輔音(依次稱為第一下加輔音和第二下加輔音)。因此,藏文音節(jié)的通用結構應 該能夠表示基本輔音、前加輔音、上加輔音、第一下加輔音、第二下加輔音、第一元音、第二 元音、后加輔音和又后加輔音等九個字母。由于第二元音M出現在后加輔音的位置,可以一 般地讓第二元音和后加輔音共用一個位置。因此,藏文音節(jié)的通用結構共有八個元素基本 輔音、前加輔音、上加輔音、第一下加輔音、第二下加輔音、第一元音、第一后加輔音/第二 元音和第二后加輔音(見圖1)。圖2是本發(fā)明的藏文字符排序裝置圖。這個排序裝置由預處理子裝置200、音節(jié)展 開子裝置202、排序元素調用子裝置204以及排序元素串壓縮子裝置206構成。本發(fā)明的第一個子裝置是預處理子裝置200,子裝置200對以< 實和這為后綴的本 地藏文音節(jié)和不符合通用結構的梵音藏文組合字符進行適當分解,得到一個音節(jié)序列,使 得序列中的每個音節(jié)都符合通用結構。由于受語法影響而以< 氣或吸為后綴的本地藏文音節(jié)不符合藏文音節(jié)通用結構, 這類音節(jié)有①受屬格助詞3影響的音節(jié),例如力喊、^^等;②受終結詞 影響的音節(jié),例 如醉、Tf 等;③受構形詞綴3影響的音節(jié),例如韌、η麵等;④同時受構形詞綴這和屬格助 詞每影響的音節(jié),例如|明。對以< €或a為后綴的本地藏文音節(jié)的預處理方式是將< 戈和 這看作獨立的音節(jié),而將剩余字母的組合看作一個音節(jié),從而得到一個每個音節(jié)都符合通用 音節(jié)結構的音節(jié)序列。例如音節(jié)中的后綴s和&看作獨立的音節(jié)后,得到音節(jié)序列敵込曰, 其中的每個音節(jié)即1、&和鐵都符合通用結構。有些梵音藏文組合字符(例如)不符合藏文音節(jié)通用結構,對這類組合字符的 預處理方法是將最上層的輔音看成一個獨立音節(jié),考察剩余字母的組合是否符合藏文音 節(jié)通用結構,如果不符合則重復此過程,直到剩余字母的組合符合藏文音節(jié)通用結構為止。 例如將組合字符f的第一層輔音^看作獨立的音節(jié)后,剩余字母的組合哥符合通用結構,從 而把組合字符f分解成了音節(jié)序列,這個序列中的每個音節(jié)即^和 都符合通用結構。本發(fā)明的第二個子裝置是音節(jié)展開子裝置202,子裝置202的功能是將符合通用
結構的音節(jié)按照圖3所示的順序即按照基本輔音、前加輔音、上加輔音、第一下加輔音、第二下加輔音、第一元音、第二元音/后加輔音和又后加輔音的順序展開;如果音節(jié)中某個位 置上的字母空缺,則展開式的相應位置要用一個特殊字符(此處暫時用符號“□”表示)來 替補,但要求這個特殊字符的排序元素要小于任何一個藏文字母的排序元素,從而得到一 個和原音節(jié)序性等價的藏文字母串。由表1可以看出,藏文音節(jié)和它的一維展開式的序性 是等價的。表1 二維音節(jié)的一維展開式
權利要求
一種基于通用音節(jié)結構的藏文字符排序裝置,其特征是包括預處理子裝置,對以和為后綴的藏文音節(jié)和不符合藏文音節(jié)通用結構的梵音藏文組合字符進行分解,得到一個音節(jié)序列,該音節(jié)序列中的每個音節(jié)都符合藏文音節(jié)通用結構;音節(jié)展開子裝置,將符合藏文音節(jié)通用結構的音節(jié)按照特定順序展成一維字母串;排序元素調用子裝置,調用一維字母串中每個字母包括特殊字符的排序元素,然后,按照一維字母串中所有字母包括特殊字符的第一級權重、第二級權重、第三級權重的順序排列,得到原音節(jié)的排序元素串;排序元素串壓縮子裝置,對音節(jié)的排序元素串進行壓縮。FSA00000252016700011.tif,FSA00000252016700012.tif
2.根據權利要求1所述的基于通用音節(jié)結構的藏文字符排序裝置,其特征是所述預處 理子裝置所述的藏文音節(jié)通用結構由基本輔音、前加輔音、上加輔音、第一下加輔音、第二 下加輔音、第一元音、第二元音/第一后加輔音和第二后加輔音組成。
3.根據權利要求1所述的基于通用音節(jié)結構的藏文字符排序裝置,其特征是所述預處 理子裝置對以< €和冬為后綴的藏文音節(jié)的預處理方法是將<《或者弦看作獨立的音節(jié), 而將剩余字母的組合看作一個音節(jié);所述的預處理子裝置對不符合藏文音節(jié)通用結構的梵音藏文組合字符的預處理方法 是將最上層的輔音看成獨立的音節(jié),考察剩余字母的組合是否符合通用音節(jié)結構,如果不 符合則重復此過程,直到剩余字母的組合符合通用音節(jié)結構為止。
4.根據權利要求2所述的基于通用音節(jié)結構的藏文字符排序裝置,其特征是所述音節(jié) 展開子裝置將符合通用結構的音節(jié)展成一維字母串的特定順序是,按照優(yōu)先級依次是,基 本輔音、前加輔音、上加輔音、第一下加輔音、第二下加輔音、第一元音、第二元音/第一后 加輔音和第二后加輔音。
5.根據權利要求1所述的基于通用音節(jié)結構的藏文字符排序裝置,其特征是所述的音 節(jié)展開子裝置把符合通用音節(jié)結構的音節(jié)按照所述的特定順序展成一維字母串時,如果音 節(jié)在某個位置上的字母空缺,則展開式的相應位置用排序元素為[.2020. 0020. 0002]的特 殊字符填補。
6.一種利用權利要求1所述裝置的基于通用音節(jié)結構的藏文字符排序方法,其特征是 包括步驟1)預處理,指對以<$或3為后綴的藏文音節(jié)和不符合藏文音節(jié)通用結構的梵音藏文 組合字符進行適當分解,得到一個音節(jié)序列,該音節(jié)序列中的每個音節(jié)都符合藏文音節(jié)通 用結構;2)音節(jié)展開,指將符合通用音節(jié)結構的音節(jié)按照特定的順序展成一維字母串;3)排序元素調用,指依次調用一維字母串中每個字母的排序元素,然后,按照所有字母 的第一級權重、第二級權重、第三級權重的形式排列,得到原音節(jié)的排序元素串;4)排序元素串壓縮,指對音節(jié)的排序元素串進行壓縮。
7.根據權利要求6所述的特征是基于通用音節(jié)結構的藏文字符排序方法,其所述的 藏文音節(jié)通用結構由基本輔音、前加輔音、上加輔音、第一下加輔音、第二下加輔音、第一元 音、第二元音/第一后加輔音和第二后加輔音組成。
8.根據權利要求6所述的特征是基于通用音節(jié)結構的藏文字符排序方法,其特征是所述的預處理對以日、《和冬為后綴的本地藏文音節(jié)的預處理方法是將禮$或者$看作獨立 的音節(jié),而將剩余字母的組合看作一個音節(jié);所述的預處理對不符合藏文音節(jié)通用結構的梵音藏文組合字符的預處理方法是將最 上層的輔音看成獨立的音節(jié),考察剩余的字母是否符合通用音節(jié)結構,如果不是則重復此 過程,直到剩余字母的組合符合通用音節(jié)結構為止。
9.根據權利要求6所述的特征是基于通用音節(jié)結構的藏文字符排序方法,其特征是將 符合通用結構的音節(jié)展成一維字母串的特定順序是,按照優(yōu)先級依次是,基本輔音、前加輔 音、上加輔音、第一下加輔音、第二下加輔音、第一元音、第二元音/第一后加輔音和第二后 加輔音。
10.根據權利要求6所述的特征是基于通用音節(jié)結構的藏文字符排序方法,其特征是 將符合通用音節(jié)結構的音節(jié)按照特定的順序展成字一維母串時,如果音節(jié)在某個位置上的 字母空缺,則展開式的相應位置用排序元素為[.2020. 0020. 0002]的特殊字符填補。
全文摘要
一種藏文字符排序的裝置和方法,該裝置由預處理子裝置、音節(jié)展開子裝置、排序元素調用子裝置和排序元素串壓縮子裝置組成。其中,預處理子裝置對不符合通用音節(jié)結構的藏文音節(jié)和梵音藏文組合字符進行適當分解,得到一個音節(jié)序列,使得序列中的每個音節(jié)都符合通用結構;音節(jié)展開子裝置對符合通用音節(jié)結構的音節(jié)按照特定順序展開,得到與原音節(jié)序性等價的字母串;排序元素調用子裝置調用展開式中每個字母的排序元素,得到排序元素串;排序元素串壓縮子裝置對排序元素串進行合理壓縮。本發(fā)明對全部藏文音節(jié)和梵音藏文組合字符的排序結果符合傳統(tǒng)藏文字典的排序規(guī)律。
文檔編號G06F17/22GK101937459SQ20101026908
公開日2011年1月5日 申請日期2010年8月31日 優(yōu)先權日2010年8月31日
發(fā)明者達飛鵬, 黃鶴鳴 申請人:東南大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南昌县| 永清县| 慈溪市| 偏关县| 建德市| 鄂托克前旗| 象山县| 襄樊市| 疏附县| 凤阳县| 义马市| 杭锦后旗| 锡林浩特市| 白城市| 三江| 嘉祥县| 衡南县| 香港 | 兖州市| 长治县| 永兴县| 睢宁县| 收藏| 香河县| 泰来县| 霸州市| 宜兰市| 边坝县| 蓬莱市| 明水县| 迭部县| 磐安县| 禄劝| 佳木斯市| 北碚区| 景洪市| 施甸县| 礼泉县| 丹棱县| 婺源县| 明星|