專利名稱:編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種字編碼方法,特別涉及中文字的拼音表達(dá),特別是用在如移動(dòng)電話的嵌入式系統(tǒng)中。
拼音是用來表達(dá)中文字發(fā)音的一種羅馬語音系統(tǒng);通常,拼音字符串被逐字輸入電子裝置且ASCⅡ字符串被裝置使用來作內(nèi)部處理;需要來表達(dá)一中文字符的一拼音字符串的最大長度是7位組(6個(gè)文字加一個(gè)數(shù)字),使得需要8位組的存儲(chǔ)器空間來表達(dá)在電子裝置內(nèi)部的各字符串;最后音調(diào)數(shù)字允許在相同中文字符的不同發(fā)音間的區(qū)別。
中文語言中有接近7000個(gè)中文字符且有些字符可能有多達(dá)5種不同發(fā)音;因此,拼音數(shù)據(jù)庫很大而字符串比較極慢;這些缺點(diǎn)在用于一般電腦的軟件上影響很小,但在處理速度和儲(chǔ)存被系統(tǒng)的電力和尺寸限制所限的如移動(dòng)電話手機(jī)的嵌入式系統(tǒng)中可能影響很大。
根據(jù)本發(fā)明,提供一種把一拼音字符串編碼的方法,其中字符串被壓縮成單一32位單字;這允許拼音字符串的簡易和快速儲(chǔ)存及處理,特別是在有一32位建構(gòu)的系統(tǒng)中。
較佳地,拼音字符串的各個(gè)文字被五個(gè)位來表示;較佳地,最后數(shù)字也被五個(gè)位來表達(dá),除非拼音字符串含有六個(gè)文字,在該情形中最后音調(diào)數(shù)字由兩位來表示;粗看下,兩位似乎不夠來儲(chǔ)存在范圍一至五的一數(shù)字;然而,在含有最多六個(gè)文字的拼音字符串中,音調(diào)數(shù)字‘5’從未使用;因此,任何有效拼音字符串可以由一32位單字來表達(dá)。
圖1是一移動(dòng)電話手機(jī)的一前視圖;圖2是手機(jī)的內(nèi)部電子組件的一圖;及圖3是在本發(fā)明的一實(shí)施例中的編碼演繹法則的流程圖。
圖1顯示具有包含數(shù)字鍵0至9,星形(*)和散列(#)鍵,及諸如“YES”、“NO”后退(←)、向前(→)、清除(CLR)、和其他功能(f)的功能鍵的一鍵盤K的一移動(dòng)電話手機(jī)H;一顯示器D能夠顯示阿拉伯?dāng)?shù)字、羅馬字及中國字,并可以是有充分解析度來顯示數(shù)字,字體及字符的至少一條線的一LCD;一麥克風(fēng)M和擴(kuò)音器S也提出來允許聲音呼叫。
圖2是手機(jī)H的電子組件的一結(jié)構(gòu)圖;這些組件不需是分離的,且可為集成的;例如,組件可被集成到一微控制器芯片和一RF級(jí)段芯片上;一處理器P經(jīng)由一總線B連接至一易失性存儲(chǔ)器(V)、一非易失性存儲(chǔ)器(NV)、一I/O接口(I/O)及一RF數(shù)據(jù)機(jī)(RF);I/O接口把來自鍵盤K和麥克風(fēng)M的輸入解碼,驅(qū)動(dòng)顯示器D和擴(kuò)音器S,并允許數(shù)據(jù)經(jīng)由紅外線端口(IR)局部地輸入和傳輸;RF數(shù)據(jù)機(jī)連接至一天線A來接收和傳輸RF信號(hào);組件經(jīng)由一變壓器由一電池(未顯示)或一主電氣連接(未顯示)來供應(yīng)電力。
非易失性存儲(chǔ)器(NV)儲(chǔ)存軟件,其被處理器P執(zhí)行以實(shí)施手機(jī)的功能;可取舍地,非易失性存儲(chǔ)器可再規(guī)劃來升級(jí)軟件;描述于下作為本發(fā)明的一實(shí)施例的演繹法則可被安裝作為對(duì)一現(xiàn)有移動(dòng)電話的軟件的升級(jí);升級(jí)可經(jīng)由RF數(shù)據(jù)機(jī)(RF)來接收作為一無線式信息。
手機(jī)H實(shí)施允許本文信息被送出和接收的協(xié)定;例如,手機(jī)可為GSM相容并支持GSM SMS(短信息服務(wù))協(xié)定;如一般已知的,字母數(shù)字在鍵盤K上由按鍵按壓的一預(yù)定序列來輸入;例如,如圖1中顯示的,多于一個(gè)羅馬文字被指派給各數(shù)字鍵且適當(dāng)文字由相同按鍵的多重短時(shí)按壓直到顯示期望字符為止而選出;如標(biāo)點(diǎn)的未顯示在數(shù)字鍵上的字符可由更快速按鍵按壓來選取;替換的字符選擇方法也已知,如其中使用者通常只需要為各文字按壓各鍵一次而在手機(jī)上運(yùn)作的軟件借助對(duì)于被使用者選擇的語言把文字的可能組合與儲(chǔ)存在存儲(chǔ)器中的有效單字作比較來猜測(cè)文字的哪個(gè)組合是想要的預(yù)測(cè)性輸入法。
在本發(fā)明的一實(shí)施例中,使用者可借助選擇一拼音輸入模式來輸入拼音字符串以經(jīng)由手機(jī)H用其來操作的行動(dòng)無線網(wǎng)路來傳輸作為本文信息;使用者使用鍵盤K的按鍵來拼出拼音字符串,使用任一已知技術(shù)來在一數(shù)字鍵盤上輸入羅馬文字和阿拉伯?dāng)?shù)字;拼音文字的輸入并不對(duì)情形敏感;當(dāng)拼音字符串的個(gè)別文字正被輸入時(shí),它們被顯示在顯示器上并儲(chǔ)存在易失性存儲(chǔ)器(V)中;例如,使用者可能輸入拼音字符串‘chuang3’。
在手機(jī)H上運(yùn)作的軟件辨識(shí)何時(shí)一完整的拼音字符串已被輸入;例如,當(dāng)一數(shù)字被輸入時(shí),可以假定這是一拼音字符串的最后字符;替換地,儲(chǔ)存在非易失性存儲(chǔ)器中的可能有所有有效的拼音字符串的一數(shù)據(jù)庫,且該軟件在被使用者輸入的拼音字符串的字符足以獨(dú)特辨識(shí)一字符時(shí)可以顯示相等的中文字符,或在所有可能字符可被顯示時(shí)顯示所有可能中文字符;使用者可被要求按壓另一鍵來確定輸入的字符串是正確的,或如果有多于一種可能性則來選擇想要的中文字符。
軟件把各個(gè)完整的拼音字符串編碼成一32位單字且此經(jīng)編碼形式較佳被用于在傳輸前的中文本文的儲(chǔ)存,并用于在手機(jī)上的拼音字符串的任何數(shù)據(jù)庫的儲(chǔ)存,例如儲(chǔ)存在非易失性存儲(chǔ)器中;如上述的,如此數(shù)據(jù)庫可被使用于預(yù)測(cè)性輸入或輸入的拼音字符串的認(rèn)證。
32位單字的格式被顯示于下在表1中表1
下面的規(guī)則適用于壓縮各拼音字符串1)左側(cè)對(duì)齊第一個(gè)拼音文字在欄C0中、第二個(gè)在C1中及如此類推。
2)任何未使用的欄被設(shè)定于全零位。
3)如果拼音字符串的長度少于或等于六字符(五個(gè)文字和一個(gè)數(shù)字),則文字被編碼在各欄C0至C5中如下列第2表表2
4)如果拼音字符串的長度為七個(gè)字符(六個(gè)文字和一個(gè)數(shù)字),則欄C0至C5被編碼如在上面的規(guī)則3和表2中;然而,欄C6被編碼如顯示于下的表3表3
音調(diào)數(shù)字5無需被編碼,因?yàn)闆]有六字的拼音字符串具有音調(diào)數(shù)字5;因此,在上面給予的壓縮演繹法則中未損失信息。
作為一例,拼音字符串‘chuang3’被編碼為二進(jìn)位32位單字‘01000/01101/11010/00110/10011/01100/10’此處斜線字符區(qū)分欄C0至C6,但不表示任何額外位。
用于各拼音字符串的編碼演繹法則可被表達(dá)為如在圖3中顯示的一流程圖;在步驟S10,欄數(shù)目被設(shè)定于C0;在步驟S20,一字符被輸入;作為此步驟的部分,字符可被檢查來確定它是一個(gè)可接受的拼音字符串字符且此步驟被持續(xù)到一有效字符被輸入為止;在步驟S30,判定輸入的字符是否一數(shù)字;如果否,則根據(jù)上述表2在步驟S40處輸入的字符的碼值被輸入在目前欄中;在步驟S50,目前欄數(shù)目被遞增;在步驟S60,判定目前欄數(shù)目是否超過C6;如果是,則已達(dá)到最大拼音字符串長度而無一數(shù)字被輸入,故在步驟S70處指出該字符串無效;如果否,則流程回到步驟S20。
如果在步驟S30經(jīng)判定輸入的字符是數(shù)字,則然后在步驟S80判字目前欄數(shù)目是否C6;如果否,則根據(jù)上述表2在步驟S90處輸入的數(shù)字的碼值被輸入在目前欄中,且字符串的末尾在步驟S100被指出;如果目前欄是C6,則根據(jù)上述表3輸入的數(shù)字的碼值在步驟S110被輸入在該欄中,且字符串的末尾在步驟S100被指出。
替換地,編碼步驟可只在一完整拼音字符串已被輸入后來實(shí)施;再者,可被有效拼音字符串的一數(shù)據(jù)庫來檢查拼音字符串且如果它沒有效則使用者被提示來編輯該字符串,或最接近匹配可被顯示給使用者供選擇用;較佳地,輸入的拼音字符串被編碼為一32位單字并和也被編碼為32位單字的有效拼音字符串的一數(shù)據(jù)庫作比較;處理器P典型能夠處理32位單字為整數(shù),其可在單一操作中從存儲(chǔ)器取回;并可具有一指令組,其包括單一指令來比較32位整數(shù);因此,輸入的拼音字符串與拼音字符串的一數(shù)據(jù)庫的比較可遠(yuǎn)比在未壓縮字符串間實(shí)施一字符串比較更快地來實(shí)施;經(jīng)編碼拼音字符串可遠(yuǎn)比相等的ASCII字符串更簡易地來儲(chǔ)存;因此壓縮演繹法則特別適合在一簡易、低電力裝置上實(shí)施拼音字符串的搜尋和儲(chǔ)存。
上面描述關(guān)于一移動(dòng)電話但將易于被了解的,壓縮演繹法則也同樣適合只有本文收發(fā)機(jī)或PDA(個(gè)人數(shù)字助理)。
權(quán)利要求
1.一種編碼方法,可把包含多個(gè)羅馬文字和一數(shù)字的拼音字符串編碼來產(chǎn)生一經(jīng)編碼拼音字符串,該方法包括使用一恒定數(shù)目的位把各該羅馬文字編碼,且如果在該拼音字符串中有六個(gè)該等羅馬文字,則把該數(shù)字以兩位來編碼。
2.如權(quán)利要求1的方法,其中如果在該拼音字符串中有少于六個(gè)該等羅馬文字,則使用該恒定數(shù)目的位把該數(shù)字編碼。
3.如權(quán)利要求1或2的方法,其中該恒定數(shù)目為五。
4.如權(quán)利要求1、2或3的方法,其中該經(jīng)編碼拼音字符串具有32位的長度。
5.一種搜尋拼音字符串的數(shù)據(jù)庫的方法,其中該等拼音字符串是分別依據(jù)權(quán)利要求1、2、3或4的方法而編碼,該搜尋方法包括借助依據(jù)權(quán)利要求1、2、3或4的方法,把包括一或更多拼音字符串的一搜尋字符串編碼;把該經(jīng)編碼搜尋字符串與拼音字符串的該數(shù)據(jù)庫中的一些或全部比較;及根據(jù)該比較,指出該經(jīng)編碼搜尋字符串是否與拼音字符串的該數(shù)據(jù)庫中的任一個(gè)匹配。
6.一種儲(chǔ)存多個(gè)拼音字符串的方法,包含有借助依據(jù)權(quán)利要求1、2、3或4的方法,把各該等多個(gè)拼音字符串編碼;及把該等經(jīng)編碼拼音字符串儲(chǔ)存在一存儲(chǔ)器中。
7.一種實(shí)施裝置,被配置來實(shí)施依據(jù)權(quán)利要求1、2、3、4、5或6的方法。
8.一種便攜式電子裝置,包括有依據(jù)權(quán)利要求7的裝置。
9.一種實(shí)施軟件,被配置來實(shí)施依據(jù)權(quán)利要求1、2、3、4、5或6的方法。
10.一種含有一或更多經(jīng)編碼拼音字符串的信號(hào),其中該等經(jīng)編碼拼音字符串是由依據(jù)權(quán)利要求1、2、3、4、5或6的方法來編碼。
11.一種大致如參考附圖的圖3在本文描述的方法。
全文摘要
在把一拼音字符串編碼的方法中,拼音字符串的各個(gè)文字由五個(gè)位表示。除非拼音字符串含有六個(gè)文字,可在范圍1至5中的最后音調(diào)數(shù)字也由五個(gè)位表示。在含有最多六個(gè)文字的拼音字符串中,音調(diào)數(shù)字‘5’從未被使用,使得在此情形中最后音調(diào)數(shù)字只由兩個(gè)位表示。因此,任何有效的拼音字符串可由一個(gè)32位單字來表示,其可被有效儲(chǔ)存并和其他拼音字符串比較。此方法特別適用于小型低電力文本儲(chǔ)存及/或信息傳遞裝置。
文檔編號(hào)G06F3/00GK1310562SQ00135698
公開日2001年8月29日 申請(qǐng)日期2000年12月20日 優(yōu)先權(quán)日2000年2月21日
發(fā)明者王世德 申請(qǐng)人:肯伍德公司