專(zhuān)利名稱(chēng):處理中文文本的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及利用計(jì)算機(jī)處理中文文本的改進(jìn)型系統(tǒng)和方法,尤其涉及利用計(jì)算機(jī)處理語(yǔ)音中文文本和漢字的改進(jìn)型系統(tǒng)和方法。
在計(jì)算機(jī)上錄入(輸入)和處理中文文本是一個(gè)非常困難的問(wèn)題。中文字符的龐大數(shù)量是該困難的一個(gè)實(shí)例。在中文的方塊字(漢字)書(shū)寫(xiě)系統(tǒng)中,存在3000至6000個(gè)常用的中文字符(漢字)。如果包括相對(duì)不常用的字符,存在1萬(wàn)以上的漢字。在該困難之外在中文中還存在文本標(biāo)準(zhǔn)化、多同音異義字以及麻煩定義的詞的邊界等問(wèn)題,從而妨礙了利用計(jì)算機(jī)有效地處理漢字文本。盡管經(jīng)過(guò)幾十年的深入并且已有數(shù)百種不同的方法,漢字的計(jì)算機(jī)輸入及處理是妨礙在中國(guó)使用計(jì)算機(jī)尤其在文本處理上的主要障礙。
目前可以得到的中文文本輸入及處理的計(jì)算機(jī)系統(tǒng)可以分成三類(lèi)。
第一類(lèi)系統(tǒng)基于把方塊字分解成簡(jiǎn)單的圖形成分。鍵盤(pán)上的不同鍵分配為代表漢字的不同的簡(jiǎn)單圖形成分。這樣,通過(guò)幾次擊鍵可以鍵入作為這些簡(jiǎn)單圖形成分的組合的各個(gè)字符。這種方法的例子包括臺(tái)灣的Changji法和中國(guó)大陸的五筆字型法。這種方法的主要缺點(diǎn)是對(duì)漢字成分的鍵位分配是人為的。在Changji法和五筆字型法中,對(duì)代碼的分配必須機(jī)械地記憶。記住代表各成分的各鍵是困難和費(fèi)時(shí)的。此外,在許多情況下把漢字分解成簡(jiǎn)單成分不是唯一的。盡管這些方法由專(zhuān)業(yè)的錄入員所采用,并且得到很好訓(xùn)練的打字員表現(xiàn)出高速度,但計(jì)算機(jī)專(zhuān)家和其它的專(zhuān)業(yè)人員不大使用這些方法,更不用說(shuō)一般的人們了。從而,這些方法趨于限制講中文的一般人員使用計(jì)算機(jī)。
第二類(lèi)和第三類(lèi)系統(tǒng)遇到中文處理中的“同音異義字問(wèn)題”。
第二類(lèi)系統(tǒng)是語(yǔ)音輸入(即中國(guó)大陸的拼音和臺(tái)灣的“語(yǔ)音符號(hào)”或BPMF),這是除專(zhuān)業(yè)打字員外各個(gè)人最常采用的方法。中文的漢字書(shū)寫(xiě)系統(tǒng)是對(duì)該方法概念上的和實(shí)踐上的壁壘。
因?yàn)楹蛶兹f(wàn)個(gè)字符相比只有大約1300個(gè)不同的語(yǔ)音音節(jié),一個(gè)語(yǔ)音音節(jié)可能對(duì)應(yīng)著許多不同的漢字。例如,普遍話(huà)中“yi”的發(fā)音可以對(duì)應(yīng)100多個(gè)漢字。當(dāng)把語(yǔ)音音節(jié)轉(zhuǎn)換為漢字時(shí)這將產(chǎn)生不定性。
為了解決“同音異義問(wèn)題”,大部分語(yǔ)音輸入系統(tǒng)采用多種選擇法。例子請(qǐng)見(jiàn)83年5月5日授權(quán)的J.Heinzl等人的德國(guó)專(zhuān)利3,142,138;91年9月10日授權(quán)的K.C.Hsieh的美國(guó)專(zhuān)利5,047,932以及91年3月8日授權(quán)的Tan Shanguang的中國(guó)專(zhuān)利1,064,957。在鍵入一個(gè)語(yǔ)音音節(jié)之后,計(jì)算機(jī)顯示具有相同發(fā)音的所有可能的漢字。在某些情況下,在屏幕上不可能有顯示具有相同發(fā)音的所有可能字符的足夠空間。這些情況要求上下滾動(dòng)。因此,這些基于各個(gè)音節(jié)的語(yǔ)音方法是很慢的。
現(xiàn)有技術(shù)中已公開(kāi)根據(jù)推演相鄰漢字的概率來(lái)對(duì)多種選擇方法進(jìn)行改進(jìn)。例子見(jiàn)92年4月1日授權(quán)的R.W.Sproat的英國(guó)專(zhuān)利2,248,328。概率方法可以進(jìn)一步和語(yǔ)法限制結(jié)合起來(lái)。例子見(jiàn)Computer Processing of Chinese and OrientalLanguages,Vol.6,Num 1,Page 85,June 1992中K.T.Lua等人的論文。但是,這些方法的變換準(zhǔn)確性(語(yǔ)音到漢字)典型地限于80%左右。
第三類(lèi)系統(tǒng)把語(yǔ)音-字符輸入方法和外加的非語(yǔ)音符號(hào)結(jié)合起來(lái)。把非語(yǔ)音的符號(hào)加到語(yǔ)音符號(hào)上以人為地區(qū)別發(fā)音相同的字符。例子包括帶有字根標(biāo)志的語(yǔ)音拼寫(xiě)(85年11月20日授權(quán)的C.C.Chen的英國(guó)專(zhuān)利2,158,776)和帶有筆劃數(shù)的語(yǔ)音拼寫(xiě)(92年11月25日授權(quán)的G.Xie的中國(guó)專(zhuān)利1,066,518)。這些方法要求記住人為的規(guī)則或者要求計(jì)算筆劃數(shù),后者明顯的降低了輸入速度。
除了“同音異義問(wèn)題之外”,在處理中文時(shí)存在著“詞邊界問(wèn)題”。
盡管現(xiàn)代漢語(yǔ)中多于80%的詞具有多音節(jié)(即兩個(gè)或更多的漢字),但在書(shū)寫(xiě)系統(tǒng)中各詞是不分開(kāi)的(與所有的歐語(yǔ)甚至與朝鮮語(yǔ)相反)。此外,語(yǔ)音中文的輸入通常是在不考慮詞的邊界而一個(gè)音節(jié)接著一個(gè)音節(jié)地執(zhí)行的。
盡管廣泛地承認(rèn)多音節(jié)詞并且缺乏標(biāo)準(zhǔn)的方式在詞的邊界界定詞,在中文中詞的定義甚至詞的實(shí)體是有爭(zhēng)論的。另外,因?yàn)閭鹘y(tǒng)上中文書(shū)寫(xiě)成不帶詞間間隔的連續(xù)漢字串,普通的中國(guó)人不具有一個(gè)“詞”意味著什么的清楚概念。在許多情況中不清楚什么地方應(yīng)該放上詞的邊界或者定界符如空格。爭(zhēng)論可用下述情況舉例說(shuō)明。
1.復(fù)合名詞。在英文中,二個(gè)獨(dú)立的實(shí)詞可以相結(jié)合以形成一個(gè)復(fù)合名詞,例如,blackoard,rattlesnake。在英文中存在著是否應(yīng)該把這些復(fù)合字符串對(duì)待為一個(gè)詞或兩個(gè)詞的爭(zhēng)論。在中國(guó)因?yàn)闆](méi)有廣泛接受的先例,關(guān)于復(fù)合名詞的爭(zhēng)論要?jiǎng)×业枚?。例如,?dāng)在中文拼音詞典中例舉詞“nanguangboyuan”(男廣播員)時(shí),不同的人可能把它考慮成二個(gè)詞(nan guangboyuan)甚至三個(gè)詞(nan guangbo yuan)。
2.詞綴。所有的中文動(dòng)詞可以帶有“詞綴單元”-le(了)、-guo(過(guò))或者-zhe(著),這些詞綴單元使動(dòng)詞成為過(guò)去、完成或進(jìn)行時(shí)態(tài)。所有的形容詞可以附加-de(的)。但是這些句法單元也當(dāng)作稱(chēng)之為助詞的獨(dú)立詞出現(xiàn)。不同的語(yǔ)言學(xué)校對(duì)待這些句法單元是不同的。一些學(xué)校把這些句法單元處理為“專(zhuān)有的”詞綴,即是其所附加的詞中的一部分。另外一些學(xué)校把它們處理為獨(dú)立的助詞,即分開(kāi)的詞。
一個(gè)詞綴是詞的一部分而一個(gè)助詞是一個(gè)獨(dú)立的詞。例如,盡管大部分語(yǔ)言學(xué)家把名詞詞尾-hua、-jia、-yuan、-xing和zhuyi考慮為單個(gè)詞中的詞綴,一些語(yǔ)言學(xué)家認(rèn)為它們是單獨(dú)的助詞(分開(kāi)的詞)。另一方面,諸如-z,-r和-tou的詞尾總是被處理為名詞的詞綴,而不是單獨(dú)的助詞。
3.復(fù)合動(dòng)詞。中文中有一族和德語(yǔ)中的可分割的動(dòng)詞(diezerbrechbar Zeiwort)如aufzichen、heraufziehen等。非常類(lèi)似的動(dòng)詞。這些“可分割的”動(dòng)詞可以采用中綴-zu-和-ge-變成不定式或過(guò)去分詞。
在中文中,類(lèi)似的復(fù)合動(dòng)詞可以具有中綴-de-或者-bu-,以表示“能力”或否定。例子是taiqilai(抬起來(lái)),它具有taideqilai(抬得起來(lái))及taibuqilai(抬不起來(lái))的變體,和上面的德文動(dòng)詞非常相似。另外,詞組“taiqi tou lai”、“taideqi tou lai”和“taibuqi tou lai”是使用復(fù)合動(dòng)詞的類(lèi)似句子結(jié)構(gòu)(如“zie hendein Kapf auf”。從這個(gè)觀點(diǎn)上,“taiqilai”應(yīng)該是一個(gè)詞。但是,許多語(yǔ)言學(xué)家認(rèn)為這些音節(jié)是單獨(dú)的詞(tai、qi、lai)并且分開(kāi)寫(xiě)它們。
如上面舉例說(shuō)明的那樣,在中文中經(jīng)常不清楚詞的邊界應(yīng)該在何處。
雖然存在爭(zhēng)論,許多多音節(jié)詞被普通地承認(rèn)為是最小的語(yǔ)言單元或詞素,例如(1)名詞“gada”、“putao”、“feiji”等;(2)動(dòng)詞“zhuanyou”、“xing wu”等,以及(3)形容詞“heised”“pangdad”等。同時(shí)普遍認(rèn)可由多個(gè)詞組成的許多短語(yǔ)。例如,盡管有時(shí)可以把“dianzigongye”當(dāng)作一個(gè)詞,沒(méi)有人會(huì)把短語(yǔ)“fazhan dianzi gongye”認(rèn)為是一個(gè)單個(gè)的詞。存在著普遍認(rèn)為是一個(gè)詞的通俗4音節(jié)成語(yǔ),盡管在不同的拼音書(shū)寫(xiě)格式中可能要用或者不用連字符。對(duì)于這些種類(lèi)的詞,普遍承認(rèn)唯一的詞的邊界。
如上面所述,由于中文中缺少普遍認(rèn)可的正字法規(guī)則以及缺少詞分隔習(xí)慣,使得開(kāi)發(fā)易于在中文文本的計(jì)算機(jī)輸入和處理中使用的一種標(biāo)準(zhǔn)成為非常困難-各個(gè)語(yǔ)言學(xué)校不會(huì)普遍地遵循。即使遵守狹窄的對(duì)詞的定義(即把許多復(fù)合詞處理為短語(yǔ)并把許多詞綴處理為助詞),仍然存在著某些不定性。通過(guò)對(duì)詞進(jìn)行廣義地定義(即把許多復(fù)合詞對(duì)待為單個(gè)單元并把許多詞綴認(rèn)可為詞的一部分),識(shí)別的準(zhǔn)確性將得到提高,但是需要存儲(chǔ)到計(jì)算機(jī)的存儲(chǔ)器的詞匯量將會(huì)太大,以至于不能包括各個(gè)單元詞以及各個(gè)帶有所有詞綴組合的詞。
為非中國(guó)人提供的中文會(huì)話(huà)教科書(shū)是用一種稱(chēng)為拼音的拼音格式書(shū)寫(xiě)的,其中把多音節(jié)詞看作為基本單元。拼音采用羅馬字母并且具有以多音節(jié)詞為形式列舉的詞匯表。中文拼音詞典是在1964年出版的。其修改版于1989年在中國(guó)北京由語(yǔ)言出版社出版,其含有約60000個(gè)詞條。在1984年頒布了定義詞的邊界的按拼音格式書(shū)寫(xiě)的中文的正字法規(guī)則。
本發(fā)明的一個(gè)目的是提供一種改進(jìn)型的計(jì)算機(jī)系統(tǒng),用于在計(jì)算機(jī)上輸入和處理語(yǔ)音中文和漢字。
本發(fā)明的另一個(gè)目的是提供一種準(zhǔn)確的計(jì)算機(jī)系統(tǒng),其具有相對(duì)少的詞匯量(存儲(chǔ)器)要求,并且提供一種把輸入的中文語(yǔ)音(拼音或BPMF)轉(zhuǎn)換成書(shū)寫(xiě)字符(漢字)的進(jìn)程,該進(jìn)程同時(shí)能適應(yīng)中文中分隔詞的各種不同的語(yǔ)法理論和/或各種不同的個(gè)人習(xí)慣。
本發(fā)明的另一個(gè)目的是對(duì)計(jì)算機(jī)鍵盤(pán)提供方便及有效的設(shè)計(jì)以便利中文文本的輸入和處理。
本發(fā)明的另一個(gè)目的是提供一種擴(kuò)充ASCII代碼的設(shè)計(jì),以在不抵觸GB2312-80格式(中文字符通信的中國(guó)政府標(biāo)準(zhǔn))的英文和方塊字符(漢字)流的前提下方便以中文語(yǔ)音為基礎(chǔ)的信息流的存儲(chǔ)、打印及傳送。
本發(fā)明的另一個(gè)目的提供一種具有自動(dòng)錯(cuò)誤檢測(cè)及修正功能的語(yǔ)音中文的計(jì)算機(jī)處理系統(tǒng)。
本發(fā)明的另一個(gè)目的是提供一種允許對(duì)中文及非中文(如英文)的混合文本進(jìn)行處理的語(yǔ)音中文計(jì)算機(jī)處理系統(tǒng)。
本發(fā)明是一種用于準(zhǔn)確地和有效地把語(yǔ)音中文(拼音和BPMF)輸入到計(jì)算機(jī)系統(tǒng)里的和用于準(zhǔn)確地把語(yǔ)音輸入轉(zhuǎn)換成漢字形式的系統(tǒng)和方法。本系統(tǒng)具有一個(gè)帶著若干發(fā)音符號(hào)(并且與ASCII編碼相應(yīng))鍵的新穎鍵盤(pán),它允許用戶(hù)借助一個(gè)表示音節(jié)聲調(diào)的發(fā)音符號(hào)來(lái)注釋各個(gè)輸入的語(yǔ)音文本音節(jié)。在鍵擊一個(gè)發(fā)音符號(hào)(或定界符)鍵時(shí)系統(tǒng)上所執(zhí)行的一個(gè)進(jìn)程判定已輸入一個(gè)音節(jié)。然后把輸入的語(yǔ)音音節(jié)和一個(gè)可接受的語(yǔ)音音節(jié)及縮語(yǔ)表進(jìn)行比較。如果輸入的音節(jié)在表上,則把正確拼寫(xiě)和正確聲調(diào)的這個(gè)音節(jié)存儲(chǔ)在存儲(chǔ)器里并且顯示在圖形顯示器的語(yǔ)音部分上。該進(jìn)程連續(xù)處理相繼的音節(jié)直到輸入一個(gè)定界符為止。
一旦遇到定界符,詞串(定義為兩個(gè)定界符之間的字符串)得到處理以確定代表詞串中的詞的適當(dāng)?shù)臐h字字符。該詞串(或該詞串中的各個(gè)詞)與語(yǔ)音詞的詞典相比較。如果該詞串具有唯一的漢字轉(zhuǎn)換(譯文),把漢字轉(zhuǎn)換存儲(chǔ)在存儲(chǔ)器里并且顯示在圖形接口的漢字部分上。如果該詞串不和該字典相匹配,則進(jìn)行詞法分析,即從詞串移去任何標(biāo)準(zhǔn)的詞綴(如從詞綴表中進(jìn)行識(shí)別)。剩下的詞串(根)被重新分析。如果詞根仍舊不和該字典相匹配,把詞根(剩下的詞串)分解成組元成分/詞。如果組元成分和詞典唯一性地匹配,則把這些唯一性的組元成分/詞的漢字轉(zhuǎn)換存儲(chǔ)在存儲(chǔ)器里并且顯示在圖形接口的漢字部分上。
如果輸入的詞或者組元成分/詞具有不明確的轉(zhuǎn)換(在詞典中非唯一地匹配),則進(jìn)行句法分析。詞串里的名詞被分類(lèi)為功能詞(功能詞/詞綴表上的并且不帶有聲調(diào)音節(jié)的詞)或表意詞(具有至少一個(gè)聲調(diào)音節(jié)的詞)中的一種(注意對(duì)本發(fā)明來(lái)說(shuō),以相同的方式使用和處理功能詞、助詞和詞綴)。功能詞被清楚地翻譯并且同時(shí)用來(lái)確定輸入的剩余詞串(根)的結(jié)構(gòu)。接著借助已翻譯過(guò)的功能詞在表意詞的基礎(chǔ)上減小或去掉任何表意詞的不明確性。通過(guò)一種統(tǒng)計(jì)模型消除表意詞的任何剩余不明確性。
可以用不同于鍵盤(pán)的設(shè)備如經(jīng)過(guò)網(wǎng)絡(luò)、磁介質(zhì)或聲學(xué)系統(tǒng)把語(yǔ)音文本輸入到系統(tǒng)中。通過(guò)利用專(zhuān)門(mén)的字符如空格來(lái)定界非中文的詞,可以處理包括中文及非中文詞的混合文本。
圖1是本發(fā)明的一種最佳實(shí)施方式的方塊圖。
圖2A表示本發(fā)明中所使用的鍵盤(pán)的一種最佳實(shí)施方式。
圖2B表示帶有聲調(diào)鍵的鍵盤(pán)的一部分的備擇實(shí)施方式。
圖2C和2D表示本系統(tǒng)中所使用的鍵盤(pán)的備擇最佳實(shí)施方式,其中各個(gè)鍵盤(pán)有從空格鍵上分隔出來(lái)的用作為聲調(diào)鍵的部分。
圖3是一種ASCII代碼數(shù)據(jù)結(jié)構(gòu)的最佳實(shí)施方式,它包括在較低7位里的聲調(diào)發(fā)音符號(hào)和包括在較高7位中帶有聲調(diào)發(fā)音符號(hào)的所有可用的元音。
圖4是一個(gè)流程圖,表示用于鍵盤(pán)輸入的最佳處理,其把拼音詞記錄到存儲(chǔ)器里。
圖5是一個(gè)流程圖,表示用于以拼音格式書(shū)寫(xiě)的中文詞的詞法分析及分解的進(jìn)程。
圖6是一個(gè)流程圖,表示處理帶有不明確詞串的拼音輸入的最佳句法方法。
圖7是一個(gè)表,該表帶有對(duì)每個(gè)音節(jié)各具有一個(gè)代碼格式的中文音節(jié)的最佳列表。
圖8是一個(gè)表,其帶有把中文功能詞、助詞和詞綴處理為功能詞的最佳列表。
圖1表示本系統(tǒng)1000的一種最佳實(shí)施方式的方塊圖。系統(tǒng)1000包括能夠顯示中文字符和英文文本的圖形接口1020、CPU1010、主存儲(chǔ)器1100和存儲(chǔ)設(shè)備1200。鍵盤(pán)簡(jiǎn)要表1070存儲(chǔ)在主存儲(chǔ)器1100和/或存儲(chǔ)設(shè)備1200里。系統(tǒng)1000具有一個(gè)如鼠標(biāo)器的指點(diǎn)器1031,該系統(tǒng)可和網(wǎng)絡(luò)1090連接。一臺(tái)IBMRS/6000是CPU1010、存儲(chǔ)器(1100、1200)和圖形接口1020的一種實(shí)施方式。
圖中還顯示了新穎的鍵盤(pán)1030。該鍵盤(pán)包括聲調(diào)發(fā)音符號(hào)鍵1050和標(biāo)準(zhǔn)羅馬字符的音節(jié)輸入鍵1040。備擇的各聲調(diào)鍵1060A、B也是可能的。各聲調(diào)鍵1060A可以放在分隔開(kāi)的空格鍵上。各聲調(diào)鍵1060N可以加在標(biāo)準(zhǔn)的各箭頭鍵上。在對(duì)圖2A-2D的說(shuō)明中將討論這種新穎鍵盤(pán)的備擇最佳實(shí)施方式。
在存儲(chǔ)設(shè)備1200和/或主存儲(chǔ)器1100里包括用于把對(duì)鍵盤(pán)1030的鍵擊轉(zhuǎn)換為編碼后(如ASCII)的字符及發(fā)音符號(hào)的新穎數(shù)據(jù)結(jié)構(gòu),編碼后的字符及發(fā)音符號(hào)存儲(chǔ)在(即記錄在)存儲(chǔ)器(1100、1200)里。在存儲(chǔ)器1200里還存儲(chǔ)著數(shù)據(jù)結(jié)構(gòu)700、800和950。它們包括中文音節(jié)表700、功能詞/詞綴表800和中文詞典或詞匯表950。
在存儲(chǔ)器(1100、1200)里包括新穎的的進(jìn)程400、500和600。進(jìn)程400是一種把語(yǔ)音中文輸入到系統(tǒng)1000里并且有選擇地規(guī)定詞的邊界的方法(請(qǐng)注意在本公開(kāi)中在不丟失廣義性的前提下將把語(yǔ)音中文看作是拼音)。進(jìn)程500是一種方法,用于對(duì)拼音文本/詞群串進(jìn)行詞法分析以確定唯一性的漢字轉(zhuǎn)換。進(jìn)程600是由進(jìn)程500使用的一種句法分析方法,用于解決模棱兩可的串/詞,即那些具有多于一種漢字轉(zhuǎn)換的串/詞。在圖3、7和8中分別說(shuō)明數(shù)據(jù)結(jié)構(gòu)300、700和800。進(jìn)程400、500和600分別在圖4、5主6中說(shuō)明。
典型地,用戶(hù)使用鍵盤(pán)1030把帶有適當(dāng)發(fā)音符號(hào)(見(jiàn)下文)的拼音文本輸入錄入到系統(tǒng)1000里。利用數(shù)據(jù)結(jié)構(gòu)300和進(jìn)程400,系統(tǒng)1000把拼音字符1022(羅馬字母、發(fā)音符號(hào)、標(biāo)點(diǎn)符號(hào)等)顯示在圖形接口1020上分隔開(kāi)的屏幕上的第一部分1021中。利用進(jìn)程500和600,系統(tǒng)1000分析拼音輸入、把拼音轉(zhuǎn)換成漢字并且在圖形接口1020的第二部分1024上顯示漢字字符1025。請(qǐng)注意通過(guò)利用進(jìn)程500和600以及其它的語(yǔ)言翻譯設(shè)備1034,系統(tǒng)1000可以把已錄入的編碼后或帶有發(fā)音符號(hào)的拼音1022翻譯成其它語(yǔ)言,如英文。
系統(tǒng)1000還可以包括不同于鍵盤(pán)1030的其它允許輸入文本的部件,例如可以通過(guò)網(wǎng)絡(luò)1090傳送字符串。其它的輸入設(shè)備包括用于音頻文本輸入的部件1033。這些部件應(yīng)該帶有適當(dāng)?shù)尿?qū)動(dòng)程序以和系統(tǒng)1000連接。請(qǐng)見(jiàn)1995年3月15日Chen等提出的名稱(chēng)為“Statistical Acoustic Processing Method And ApparatusFor Speech Recognition Using A Toned Phoneme System”的美國(guó)專(zhuān)利申請(qǐng)?zhí)?8/404,786,該申請(qǐng)全面地作為本文的參考文獻(xiàn)。還可以用其它熟知的方法,包括磁媒體1032如軟盤(pán),把編碼的拼音串或帶有適當(dāng)發(fā)音符號(hào)的拼音串輸入到系統(tǒng)1000里。
在輸入文本時(shí),發(fā)音符號(hào)用于劃分中文拼音表示中的重讀音節(jié)(及某些實(shí)施方式中的非重讀音節(jié))和聲調(diào)等級(jí)(見(jiàn)進(jìn)程400)。發(fā)音符號(hào)是表示音節(jié)的聲調(diào)的一種符號(hào)。在本發(fā)明中,帶有聲調(diào)的詞的音節(jié)是用一個(gè)指明該音節(jié)具有聲調(diào)的發(fā)音符號(hào)注釋的。并且,該發(fā)音符號(hào)還指示聲調(diào)的類(lèi)型。在普通話(huà)(標(biāo)準(zhǔn)中文)中有四種類(lèi)型的聲調(diào)。它們是陽(yáng)平、上聲、陰平和去聲。一些語(yǔ)言學(xué)家包括稱(chēng)為“無(wú)聲調(diào)”的第五聲(發(fā)音符號(hào))。
在把文本400輸入到系統(tǒng)1000期間,把聲調(diào)發(fā)音符號(hào)加到重讀音節(jié)上。借助這種編碼或劃分,在對(duì)該文本的進(jìn)一步處理(500,600)中表意詞和功能詞、助詞及詞綴之間的差別立即變得清楚了。(帶有重讀音節(jié)的詞是表意詞,而功能詞、助詞及詞綴全都列舉在800中。)在一種備擇的實(shí)施方式中,在每個(gè)不重讀(無(wú)聲調(diào))的中文音節(jié)(包括功能詞、助詞及詞綴)的后面加上一個(gè)“無(wú)聲調(diào)”發(fā)音符號(hào)。在輸入“混合的語(yǔ)言/文本”時(shí),即在輸入的中文文本中包括英文或其他非中文文本時(shí),這種實(shí)施方式是有用的。因?yàn)榉侵形牡奈谋臼遣焕冒l(fā)音符號(hào)編碼(劃分)的,可以把中文詞/音節(jié)(用包括無(wú)聲調(diào)發(fā)音符號(hào)在內(nèi)的發(fā)音符號(hào)標(biāo)志)和未標(biāo)志的非中文文本區(qū)別開(kāi)來(lái)。非中文的文本還用專(zhuān)門(mén)的定界符,例如用詞之間的空格,受到定界。
在進(jìn)一步的語(yǔ)言處理期間,即翻譯、分析和/或打印期間,本發(fā)明利用在音節(jié)串中劃分重讀音節(jié)的以及指示各個(gè)重讀音節(jié)的聲調(diào)類(lèi)型的發(fā)音符號(hào)把中文的語(yǔ)音表達(dá)(拼音)從語(yǔ)法上分析成詞和句子(見(jiàn)進(jìn)程500和600)。通過(guò)在存在著功能詞、助詞和/或詞綴的上劃分開(kāi)中文句子的語(yǔ)音表達(dá),利用各種規(guī)則對(duì)語(yǔ)音表達(dá)進(jìn)行語(yǔ)法分析。因?yàn)樵诟鞣N中文方言中只存在相當(dāng)小數(shù)量(即100之內(nèi))的已知的確定的功能詞(以及助詞/詞綴),系統(tǒng)1000有效地進(jìn)行這項(xiàng)工作。這樣,存儲(chǔ)所有有用的功能詞及助詞/詞綴800所需的計(jì)算機(jī)存儲(chǔ)器量是相對(duì)少的。
系統(tǒng)1000準(zhǔn)確地確定詞義和句子結(jié)構(gòu)(見(jiàn)進(jìn)程500和600)。首先翻譯在意義、用法和聲調(diào)(無(wú)聲調(diào))上具有唯一的和明確的譯文的功能詞(以及助詞/詞綴)。功能詞(以及助詞/詞綴)還用于定義句子結(jié)構(gòu)。利用對(duì)功能詞(以及助詞/詞綴)的翻譯和所確定的句子結(jié)構(gòu),可以確定句中其它(表意)詞的意義。
而且,對(duì)本發(fā)明來(lái)說(shuō),是以相同的方式使用和處理功能詞、助詞和詞綴的。這是因?yàn)樵谥形臅?shū)寫(xiě)中由于不存在明顯的詞邊界通常是不作區(qū)別的。功能詞、助詞和詞綴還具有類(lèi)似的聲調(diào)結(jié)構(gòu)。功能詞、助詞和詞綴的最佳列表存儲(chǔ)在系統(tǒng)的存儲(chǔ)器(1100、1200)里并示于下面的圖8。
本發(fā)明的一個(gè)新穎特點(diǎn)是一種新型的鍵盤(pán),這種鍵盤(pán)是特地為拼音中文輸入和/或?yàn)榛旌衔谋咎幚?拼音中文和非中文語(yǔ)言如英文的混合文本)設(shè)計(jì)的。這種鍵盤(pán)提供一種輸入帶有發(fā)音符號(hào)的拼音音節(jié)的途徑。圖2A-2D是專(zhuān)門(mén)設(shè)計(jì)用于拼音輸入的鍵盤(pán)1030的備擇最佳實(shí)施方式的幾個(gè)例子。這些鍵盤(pán)1030可使方便及快速地把拼音輸入到系統(tǒng)1000里。標(biāo)準(zhǔn)的美國(guó)英文鍵盤(pán)對(duì)拼音輸入是不方便的并且也不提供輸入聲調(diào)/發(fā)音符號(hào)的能力。
圖2A是一種新穎鍵盤(pán)(1030、2000)的圖,這種鍵盤(pán)是對(duì)美國(guó)英文鍵盤(pán)的一種新穎修改。在該特別的最佳實(shí)施方式里,一些鍵用作為聲調(diào)(發(fā)音符號(hào))鍵1050,而其它的鍵1040以傳統(tǒng)的方式用作為輸入拼音字符以及其它語(yǔ)言(英語(yǔ))字符的音節(jié)鍵1040。在一種最佳實(shí)施方式中,一些很少使用的標(biāo)點(diǎn)符號(hào)鍵被分配為聲調(diào)鍵1050。作為一種不受限制的例子“〔,{”鍵分配為陽(yáng)平(發(fā)音符號(hào))鍵2040;“〕,}”鍵分配為上聲(發(fā)音符號(hào))鍵2050;“\,|”鍵分配為陰平(發(fā)音符號(hào))鍵2060;“″,′”鍵分配為去聲(發(fā)音符號(hào))鍵2070。對(duì)處理純粹的拼音文本,這四種發(fā)音符號(hào)鍵(2040-2070)是足夠的,因?yàn)槟苡貌粠Оl(fā)音符號(hào)來(lái)編碼或標(biāo)志無(wú)聲調(diào)的拼音音節(jié)和功能詞(以及助詞和詞綴)。但是,在用來(lái)處理和非中文(英文)文本相結(jié)合的拼音文本的實(shí)施方式(以及其它最佳實(shí)施方式)中,添加了另一個(gè)發(fā)音符號(hào)鍵即無(wú)聲調(diào)(發(fā)音符號(hào))鍵2010。例如,可以把“alt鍵”2010中的一個(gè)用于這種作用。因?yàn)樵谔幚砘旌衔谋?中文和非中文在一起)的過(guò)程中將頻繁地使用無(wú)聲調(diào)鍵,可以在標(biāo)準(zhǔn)英文鍵盤(pán)的第二個(gè)“alt鍵”的位置上增加第二個(gè)無(wú)聲調(diào)鍵,以使可用別的指頭接觸。在該實(shí)施方式中,“alt鍵”應(yīng)該重新分配到雙“控制鍵”2030中的一個(gè)上。可以容易地修改英文鍵盤(pán)以對(duì)鍵進(jìn)行等效的備擇分配來(lái)提供發(fā)音符號(hào)輸入1050。
圖2B是修改后的英文鍵盤(pán)1030的一種備擇最佳實(shí)施方式2100,它具有在拼音文本處理中用于輸入各發(fā)音符號(hào)的各發(fā)音符號(hào)鍵1060B。在該實(shí)施方式2100中,對(duì)英文鍵盤(pán)1050的標(biāo)準(zhǔn)“箭頭鍵”上增加了各發(fā)音符號(hào)鍵1060。同樣,應(yīng)該增加的發(fā)音符號(hào)鍵包括陽(yáng)平(發(fā)音符號(hào))鍵2120、上聲(發(fā)音符號(hào))鍵2130、陰平(發(fā)音符號(hào))鍵2140以及去聲(發(fā)音符號(hào))鍵2150。對(duì)于混合文本(或其它)處理應(yīng)該增加可選的無(wú)聲調(diào)(發(fā)音符號(hào))鍵2110。
圖2C是鍵盤(pán)1030的另一種備擇的最佳實(shí)施方式2200的圖。該實(shí)施方式2200具有分隔開(kāi)的空格杠2270,這樣允許美國(guó)英文鍵盤(pán)布局1040上的所有鍵(或者一、二個(gè)鍵之外的所有鍵)保持完整不變。在一種最佳實(shí)施方式里,空格杠2270分隔成四部分(2230、2240、2250、2260)??崭窀艿淖钭蟛糠?230分配給上聲(發(fā)音符號(hào))2230??恐钭蟛糠?230的大的部分2260用作為空格杠2260。右手側(cè)的兩個(gè)較小部分(2240,2250)分別分配給“下聲”2250和“陰平”2240(發(fā)音部分)。陽(yáng)平(發(fā)音符號(hào))2220分配在“alt鍵”中的一個(gè)上。
這種排列是基于人機(jī)工程學(xué)的。在彈鋼琴時(shí)大姆指是最重要的指頭,但在打字中則用得少得多。該中文鍵盤(pán)的設(shè)計(jì)將在聲調(diào)輸入中更加有效地使用姆指。新的空格杠2260安排在鍵盤(pán)的中央,也就是在“F”和“J”鍵之間。可以用兩個(gè)姆指方便地觸壓它。這樣,空格杠的尺寸上完全不會(huì)在混合文本的處理中影響英文的打字。通過(guò)向掌心彎曲拇指,可以容易地接觸四個(gè)聲調(diào)鍵(2220、2230、2240、2250)。
對(duì)于純粹的拼音輸入,不需要無(wú)聲調(diào)鍵2210。在該實(shí)施方式中,“空格杠”鍵2260用作為僅輸入拼音情況下的“無(wú)聲調(diào)”鍵。在圖2C中,去聲2250和陰平2240的位置相對(duì)于一般的語(yǔ)言次序(第三聲和第四聲)是顛倒的,這是因?yàn)槿ヂ暿褂妙l度大的是陰平的兩倍。這種顛倒將減少疲勞并且提高效率。
對(duì)于混合文本處理(中文和非中文一起)以及某些純中文文本處理的最佳實(shí)施方式,增加了無(wú)聲調(diào)鍵2210。在本最佳實(shí)施方式里,把無(wú)聲調(diào)鍵(發(fā)音符號(hào))2210指定在另一個(gè)“alt鍵”上??刂奇I2280中的一個(gè)指定為“alt鍵”。
圖2D表示鍵盤(pán)1030的另一種最佳實(shí)施方式2300。這種實(shí)施方式采用如鍵盤(pán)2200中那樣布置的帶有上聲2330、去聲2350和陰平2340的分隔開(kāi)的空格杠2370。但是,在這種鍵盤(pán)2300里,空格杠2370的最大的中央部分2310指定為無(wú)聲調(diào)(發(fā)音符號(hào))2310。在一個(gè)“alt鍵”的位置上設(shè)定空格作用2360。當(dāng)鍵盤(pán)2300用于輸入混合文本時(shí),這種鍵盤(pán)是特別有用的。另一個(gè)“alt鍵”分配為陽(yáng)平(發(fā)音符號(hào))2320。同樣“控制鍵”中的一個(gè)分配為一個(gè)“alt鍵”2380。這種實(shí)施方式把無(wú)聲調(diào)鍵2310定位在可由兩個(gè)姆指接觸的非常方便的位置上。當(dāng)系統(tǒng)1000處理混合文本時(shí)由于將頻繁地使用無(wú)聲調(diào)鍵2310,這是很有幫助的。
通過(guò)在幾個(gè)鍵上增添附加的標(biāo)志可以增強(qiáng)鍵盤(pán)2300。例如,在中文中,左引號(hào)標(biāo)記2338和右引號(hào)標(biāo)記2339是不同的并各賦予了一個(gè)鍵。和著重號(hào)2344、撇號(hào)2345和小數(shù)點(diǎn)號(hào)2337一起還增加了左標(biāo)題號(hào)2341和右標(biāo)題號(hào)2342。當(dāng)輸入混合文本時(shí)同樣也使用這些標(biāo)志。在中文中用作為一種定界符的分號(hào)2336也具有一個(gè)鍵位置。
利用熟知的方法進(jìn)行鍵的分配及再分配。例如,鍵盤(pán)1030的簡(jiǎn)要表是系統(tǒng)1000的存儲(chǔ)器(1100,1200)中的一個(gè)定義各鍵作用的文件1070。在RS/6000中它稱(chēng)為“鍵盤(pán)翻譯表1070”。該表1070把一個(gè)字符,典型地以ASCII代碼,或一個(gè)控制指定給鍵盤(pán)1030上的每個(gè)鍵。通過(guò)改變?cè)摫?070里所分配的鍵代碼,可改變鍵盤(pán)1030上各鍵的作用。
用戶(hù)通過(guò)使用鍵盤(pán)1030錄入(輸入)拼音或混合文本。在用戶(hù)輸入一個(gè)中文(拼音)音節(jié)之后,用戶(hù)輸入和該音節(jié)有關(guān)的適當(dāng)發(fā)音符號(hào)。當(dāng)輸入純拼音時(shí),對(duì)于非重讀音節(jié)(以及功能詞)不輸入發(fā)音符號(hào)(或備擇的空格)。當(dāng)輸入混合文本時(shí)(或在用于輸入拼音的備擇最佳實(shí)施方式中),用戶(hù)在每個(gè)非重讀音節(jié)(以及功能詞)之后輸入一個(gè)無(wú)聲調(diào)發(fā)音符號(hào)。在非中文的詞的后面輸入空格(或等效的詞邊界定界符)??崭癜哑匆?中文)詞和普遍接受的詞邊界劃分開(kāi)來(lái)提高了系統(tǒng)1000的準(zhǔn)確性。但是,為使本發(fā)明工作,不必要求對(duì)中文詞進(jìn)行定界。見(jiàn)進(jìn)程400。
拼音(或混合文本)輸入存儲(chǔ)在系統(tǒng)1000的存儲(chǔ)器(1100,1200)里。在一種最佳實(shí)施方式里,輸入以ACCII格式編碼。對(duì)具有英文字符代碼和/或GB2312-80漢字代碼的標(biāo)準(zhǔn)ASCII代碼表進(jìn)行修改以包括發(fā)音符號(hào)。在一種最佳實(shí)施方式中,對(duì)每個(gè)普遍的重讀元音的大寫(xiě)和小寫(xiě)編碼了陽(yáng)平、上聲、陰平和去聲發(fā)音符號(hào),從而在被顯示/被打開(kāi)的拼音音節(jié)里的元音上可以顯示/打開(kāi)適當(dāng)?shù)陌l(fā)音符號(hào)。
圖3是用于拼音或混合輸入的ASCII編碼的數(shù)據(jù)結(jié)構(gòu)300的一種最佳實(shí)施方式。存儲(chǔ)塊300里具有256個(gè)單元。這些單元從0至255計(jì)數(shù)。該數(shù)字也是指定給每個(gè)ASCII代碼的單元的ASCII代碼。
ASCII代碼是由單個(gè)信息字節(jié)、低7位區(qū)(代表單元0-127)和高7位區(qū)(代表單元128-255)構(gòu)成的。每個(gè)字符、標(biāo)點(diǎn)符號(hào)或控制功能分配到一個(gè)存儲(chǔ)單元上。例如,大寫(xiě)羅馬字母“B”分配在位置66,“換碼”功能分配到位置27,而“!”分配到位置33。
盡管羅馬字母、標(biāo)點(diǎn)符號(hào)和數(shù)字的編碼是很好定義的,在ASCII代碼中存在許多可選的空位。在這些可選的空位上各個(gè)國(guó)家可以指定特殊的符號(hào)。
每個(gè)發(fā)音符號(hào)是由一個(gè)聲調(diào)代碼或標(biāo)志表示的。在一種最佳實(shí)施方式里,五個(gè)(或四個(gè))聲調(diào)代碼(標(biāo)志)的每一個(gè)是用數(shù)字(ASCII代碼)分配到所有ASCII代碼數(shù)據(jù)結(jié)構(gòu)300的下半部(從0到127的七位)里的存儲(chǔ)位置上。這些存儲(chǔ)位置是用于通信的。從而,通過(guò)把0到127之間的數(shù)字分配給發(fā)音符號(hào)ASCII代碼,可以在網(wǎng)絡(luò)1090上傳輸各聲調(diào)代碼。在圖3中所示的這種不受限制的例子里,分別把無(wú)聲調(diào)代碼(標(biāo)志)301、陽(yáng)平代碼302、上聲代碼303、陰平代碼304和去聲代碼305分配到帶有ASCII代碼2、3、4、5和6的位置上。在美國(guó)ASCII編碼中這些單元是撲克的位置。
在該最佳實(shí)施方式里,對(duì)每個(gè)元音(大定及小寫(xiě))可以具有的每個(gè)發(fā)音符號(hào)(陽(yáng)平、上聲、陰平和去聲)也分配了一個(gè)單元和一個(gè)ASCII代碼。無(wú)聲調(diào)情況可以使用定位在ASCII代碼的低7位區(qū)的英文元音。另外,略去帶有發(fā)音符號(hào)的大寫(xiě)“I”和大寫(xiě)“U”,因?yàn)檎Z(yǔ)音音節(jié)不從這些元音開(kāi)始。從而存在要分配ASCII代碼的發(fā)音符號(hào)的32個(gè)元音符號(hào)。這些帶有發(fā)音符號(hào)的元音在數(shù)據(jù)結(jié)構(gòu)300的上半?yún)^(qū)印在數(shù)字128-255之間被分配了ASCII代碼(128-159)。
在給定帶有發(fā)音符號(hào)的元音之后,當(dāng)在圖形接口1020上顯示拼音音節(jié)和打印拼音音節(jié)時(shí),唯一性的ASCII代碼是有幫助的。系統(tǒng)1000利用其后面跟著發(fā)音符號(hào)的所輸入拼音音節(jié),借助把發(fā)音符號(hào)適當(dāng)?shù)胤旁谠撘艄?jié)的元音之上來(lái)顯示/打印正確拼寫(xiě)的音節(jié)。從而,通過(guò)使用帶有在數(shù)據(jù)結(jié)構(gòu)300的位置128-159中分配的發(fā)音符號(hào)的元音,系統(tǒng)1000能夠用傳統(tǒng)的方式-發(fā)音符號(hào)在元音的上方-來(lái)打印/顯示拼音音節(jié)。例如,通過(guò)鍵擊Pin’輸入的拼音音節(jié)將顯示/打印為Pi′n 。
把帶有發(fā)音符號(hào)的元音排列在數(shù)據(jù)結(jié)構(gòu)300的上半?yún)^(qū)并具有ASCII代碼128至159的優(yōu)點(diǎn)是中國(guó)國(guó)家標(biāo)準(zhǔn)(GB)代碼只使用從160至255的ASCII代碼數(shù)據(jù)結(jié)構(gòu)300的上半?yún)^(qū)。這樣,帶著發(fā)音符號(hào)的拼音元音可以和GB(國(guó)標(biāo))代碼(以及ASCII代碼的低7位)一起存儲(chǔ)和發(fā)送。
圖4表示一種把拼音音節(jié)輸入到諸如計(jì)算機(jī)存儲(chǔ)器1100,1200(或顯示器1020)的確實(shí)介質(zhì)上的新穎進(jìn)程400。在最佳實(shí)施方式中,進(jìn)程400帶有拼寫(xiě)檢查器和自動(dòng)錯(cuò)誤檢測(cè)及修正進(jìn)程,后者用于檢測(cè)經(jīng)擊鍵(或其它方法)輸入到系統(tǒng)1000里的音節(jié)。進(jìn)程400還允許在最少的工作下輸入、處理及存儲(chǔ)中文和非中文(如英文)的混合文本。由系統(tǒng)1000執(zhí)行的輸入進(jìn)程400是一個(gè)輸入單元。
在步驟401中,用戶(hù)通過(guò)鍵擊鍵盤(pán)1030輸入一個(gè)音節(jié)(中文和非中文)。如果音節(jié)是中文,在該音節(jié)的后面輸入一個(gè)表示音節(jié)音調(diào)的發(fā)音符號(hào)。(這里在文本輸入時(shí)使用無(wú)聲調(diào)發(fā)音符號(hào)。)在非中文如英文的詞的后面不輸入發(fā)音符號(hào)。并且在步驟402可以識(shí)別非中文的詞,因?yàn)樗鼈兪怯商囟ǖ亩ń绶缈崭窠缍ǖ摹?br>
在純中文文本的情況下,在某些實(shí)施方式中不必在無(wú)聲調(diào)音節(jié)或功能詞的后面輸入發(fā)音符號(hào)。盡管在純中文文本輸入中不是必須的,但在周知的常規(guī)區(qū)分詞的地方通過(guò)在中文詞之間輸入表示詞邊界的定界符可改善系統(tǒng)1000的準(zhǔn)確性。這可以通過(guò)在詞邊界輸入像空格或其它代碼(例如雙發(fā)音符號(hào),“esc”)的定界符來(lái)實(shí)現(xiàn)。在這種情況中,在步驟403中可以參考一個(gè)具有良好設(shè)定的詞區(qū)分的中文詞列表,以把這些中文詞和非中文的音節(jié)/詞區(qū)分開(kāi)來(lái)。
當(dāng)?shù)竭_(dá)一個(gè)音節(jié)(或非中文的詞)的結(jié)尾時(shí),系統(tǒng)1000讀一個(gè)發(fā)音符號(hào),例如按下的聲調(diào)鍵1060(或空格)。在某些備擇的實(shí)施方式里在處理純中文文本時(shí),可以略去無(wú)聲調(diào)發(fā)音符號(hào)。在這些情況中,某些無(wú)聲調(diào)(以及無(wú)標(biāo)志)的音節(jié)將附加到另一個(gè)音節(jié)上。為了語(yǔ)法發(fā)析這些字節(jié)404,把該串和音節(jié)字典700進(jìn)行比較。首先把詞典700里的最長(zhǎng)音節(jié)和輸入的串行進(jìn)行比較。如果己輸入串的一部分和最長(zhǎng)串相匹配,該相匹配的串用作為一個(gè)輸入的音節(jié)并且從輸入的串中檢測(cè)出來(lái),對(duì)輸入串的剩余部分重復(fù)這個(gè)進(jìn)程。如果沒(méi)有找到和音節(jié)字典700里的最長(zhǎng)串的匹配,則和音節(jié)字典700里的次長(zhǎng)音節(jié)串進(jìn)行比較。反復(fù)這個(gè)進(jìn)展直至該輸入串的所有音節(jié)都得到匹配。這種進(jìn)程稱(chēng)為“最長(zhǎng)串匹配”算法并且它的例子是周知的。請(qǐng)見(jiàn)1993年10月第44卷第9期的Journal of the American Society for Information Science的第532至542頁(yè)上Z.Wu和G.Tseng的“Chinese text segmentation fortext retrievalachievements and problems”,該文章全文作為本文的參考文獻(xiàn)。
在一些輸入純中文文本的最佳實(shí)施方式里和混合文本的處理里,無(wú)聲調(diào)鍵用于標(biāo)記中文里的非重讀音節(jié)。在這些實(shí)施方式里,對(duì)所有的中文音節(jié)編碼(標(biāo)志)并且由一個(gè)發(fā)音符號(hào)明確地界定。從而,中文音節(jié)的邊界被明確地標(biāo)志。這種實(shí)施方式允許采用中文音節(jié)縮寫(xiě),因?yàn)檫@些縮寫(xiě)也是明確地界定的,并且通過(guò)增添到音節(jié)列表700中得到唯一的標(biāo)識(shí)。采用音節(jié)縮寫(xiě)大大地減少輸入語(yǔ)音中文文本所需的鍵擊次數(shù)。
在混合文本處理中所采用的步驟402里,系統(tǒng)1000確定該音節(jié)是否是一個(gè)中文音節(jié)。如果在音節(jié)之后有一個(gè)發(fā)音符號(hào)(包括無(wú)聲調(diào)發(fā)音符號(hào)),該音節(jié)是中文(步驟404)。如果沒(méi)有發(fā)音符號(hào),該音節(jié)(詞)不是中文,例如是英文(步驟403)。還可以通過(guò)非中文詞的定界符來(lái)標(biāo)識(shí)非中文詞(步驟403)。通過(guò)處理這些語(yǔ)言的已知系統(tǒng),非中文詞可以得到進(jìn)一步的處理,例如拼寫(xiě)檢查。
在按過(guò)一個(gè)聲調(diào)鍵(四個(gè)聲調(diào)鍵中的一個(gè)或“無(wú)聲調(diào)”鍵)之后,計(jì)算機(jī)辨識(shí)出前面的字母代表拼音音節(jié)404并且該音節(jié)是拼寫(xiě)檢查過(guò)的音節(jié)405、檢查出為一種縮寫(xiě)的音節(jié)或者是一種替代的拼寫(xiě)407、或者是經(jīng)過(guò)錯(cuò)誤檢查的音節(jié)408。這些步驟(405、407和408)利用圖7中所示的中文音節(jié)列表數(shù)據(jù)結(jié)構(gòu)700。
圖7中的中文音節(jié)表700是用于普通話(huà)中文的一種最佳音節(jié)表。因?yàn)樵谄胀ㄔ?huà)里總共僅有略超過(guò)1300個(gè)的音節(jié)(包括不同的聲調(diào)),用二字節(jié)代碼空間(65536個(gè)位子)的一小部分對(duì)這些音節(jié)編碼是方便的。向每一個(gè)音節(jié)指定唯一的二字節(jié)代碼或“短整數(shù)”。具體地,在中文音節(jié)表700中向代表各個(gè)音節(jié)的ASCII代碼串指定了一個(gè)二字節(jié)代碼。例如,對(duì)普通話(huà)拼音音節(jié)Pi’n分配了三字節(jié)代碼“814”。每個(gè)音節(jié)對(duì)應(yīng)一種標(biāo)準(zhǔn)的拼音格式,其聲調(diào)發(fā)音符號(hào)包括在適當(dāng)元音的上方。為了將縮寫(xiě)添加到列表700中,該縮寫(xiě)被賦予和其所縮寫(xiě)音節(jié)相同的二字節(jié)代碼。例如,縮寫(xiě)“d”應(yīng)該指定為212,即“d”代表的所縮寫(xiě)的音節(jié)“de”在音節(jié)表700中的代碼。音節(jié)表700在存儲(chǔ)器(1100,1200)的空間中占據(jù)相對(duì)小的空間。
在遇到中文音節(jié)404之后,系統(tǒng)1000搜索中文音節(jié)表700以尋找匹配。如果發(fā)現(xiàn)匹配,利用標(biāo)準(zhǔn)拼寫(xiě)405即中文音節(jié)表700中的拼寫(xiě)錄入該音節(jié)404,并且用中文音節(jié)表700上所匹配詞的二音節(jié)代碼代替所鍵入的字符串。例如,如果輸入中文字節(jié)Pin’,系統(tǒng)1000用ASCII代碼串{80,105,110,6}代表這些擊鍵。見(jiàn)圖3。當(dāng)檢驗(yàn)中文音節(jié)表700尋找匹配404時(shí),該系統(tǒng)發(fā)現(xiàn)該字符串對(duì)應(yīng)于由二字節(jié)代碼814代表的Pi’n。見(jiàn)圖7。從而二位字節(jié)代碼814在存儲(chǔ)器里代替該音節(jié)的ASCII代碼串。這樣,如果檢測(cè)出標(biāo)準(zhǔn)的拼寫(xiě)405,該完整的音節(jié)按1300個(gè)中文音節(jié)中的一個(gè)(通過(guò)一個(gè)二字節(jié)代碼)存儲(chǔ)412在存儲(chǔ)器1010/1020里并且顯示在監(jiān)視器上411,顯示時(shí)聲調(diào)發(fā)音符號(hào)正確地位于元音的上方。該拼音顯示411表示在圖形接口1020顯示拼音的區(qū)域1021上。
以類(lèi)似的方式,如果用戶(hù)輸入中文音節(jié)的縮寫(xiě)或者速記拼寫(xiě),把代表速記拼寫(xiě)的ASCII碼在步驟406和中文音節(jié)表700里的表目進(jìn)行比較。如果存在匹配,在步驟407通過(guò)用對(duì)應(yīng)于適當(dāng)非縮寫(xiě)拼音音節(jié)的二字節(jié)代碼來(lái)代替該速記拼寫(xiě)的所輸入的ASCII代碼,把速記(縮寫(xiě))音節(jié)轉(zhuǎn)換成適當(dāng)?shù)姆强s寫(xiě)拼音音節(jié)。此外,在中文音節(jié)表700中添加了帶有代碼的縮寫(xiě),這樣將打印被縮寫(xiě)的完整音節(jié)。
下面是中文音節(jié)的一些縮寫(xiě)或者速記拼寫(xiě)的例子。例如,在沒(méi)有任何混亂的前提下,“zi”、“si”、“ci”、“ji”、“qi”和“xi”可以拼寫(xiě)為“z”、“s”、“c”、“j”、“q”和“x”。類(lèi)似地,在不造成混亂的前提下,“yi”、“wu”、“yu”可以拼寫(xiě)為“i”、“u”“v”。在不混淆的前提下,可以把“shg”、“xg”、“qag”和“jo”等分識(shí)別為“sheng”、“xing”、“qiang”和“jiao”等。
在帶有音節(jié)分隔標(biāo)記的音節(jié)中,音節(jié)分隔標(biāo)記,例如“xi’an”中的分隔標(biāo)記,在打字中是完全可避免的,盡管在顯示時(shí)它是應(yīng)該出現(xiàn)的。利用本系統(tǒng)1000和進(jìn)程400,上述速記打字的例子是如此方便的以至于無(wú)須學(xué)習(xí)它。在很少的學(xué)習(xí)下速寫(xiě)音節(jié)的數(shù)量可以得到擴(kuò)大(增添到中文音節(jié)表700上)。
如果在步驟408檢測(cè)出錯(cuò)誤的拼寫(xiě),即存在與表700的不匹配,在步驟409顯示最有可能的音節(jié)。這是通過(guò)出現(xiàn)一個(gè)可能選擇的菜單,即從中文音節(jié)表700中選擇的各種最佳匹配1023,來(lái)實(shí)現(xiàn)的。在步驟409用戶(hù)通過(guò)使用選擇設(shè)備如鼠標(biāo)器1031或鍵盤(pán)從該菜單中選擇適當(dāng)?shù)囊艄?jié)。如上面一樣,計(jì)算機(jī)把該所選的音節(jié)編碼成二字節(jié)值并且在步驟412把它存儲(chǔ)到存儲(chǔ)器里。
如果在步驟413沒(méi)有遇到定界符,如空格杠、回車(chē)或標(biāo)點(diǎn)符號(hào)鍵,在步驟415進(jìn)程400對(duì)下一個(gè)音節(jié)進(jìn)行重復(fù)。如果遇到一個(gè)定界符,在步驟414把該完整的串作為一個(gè)詞串存儲(chǔ)起來(lái)。在監(jiān)視器上,在圖形接口1020的拼音部分1021中顯示該詞串的正確拼音拼寫(xiě)。請(qǐng)注意在輸入定界符的情況下定界符之間的詞串414被對(duì)待為單個(gè)詞(按照普遍接受的慣例)并且該詞將具有由這些定界符編碼的或標(biāo)志的唯一詞邊界。但是,如果未曾把定界符放置在各個(gè)組成詞的邊界上,例如不存在劃分組合各詞的普遍接受的詞邊界時(shí),詞串414可以包括二個(gè)或更多的詞(組元)和/或詞綴。
在步驟414,以拼音格式編碼的文本也可以利用具有專(zhuān)門(mén)只讀存儲(chǔ)器ROM1081的打印機(jī)1080打印成拼音音節(jié),該打印機(jī)把表700的二字節(jié)代碼轉(zhuǎn)換成具有聲調(diào)符號(hào)的羅馬字母串,這些聲調(diào)符號(hào)位于所需音節(jié)的適當(dāng)元音上。這樣該文本變成拼音格式下的連續(xù)和可讀的打印結(jié)果,與所有的非中國(guó)人使用的會(huì)話(huà)中文教科書(shū)上的格式一樣。
圖5和圖6對(duì)例如通過(guò)進(jìn)程400輸入到系統(tǒng)1000里的拼音文本的處理方法的流程圖。在一種最佳實(shí)施方式里,拼音文本1022是通過(guò)對(duì)該系統(tǒng)的鍵盤(pán)1030的鍵擊輸入的,并且如上面所討論的那樣拼音文本1022顯示在圖形接口1020的拼音區(qū)1021中。同時(shí),通過(guò)進(jìn)程500把上面步驟414中按詞的形式存儲(chǔ)的拼音輸入轉(zhuǎn)化成漢字形式并且顯示1025在圖形接口1020的漢字部分1024中。這樣,經(jīng)過(guò)鍵盤(pán)1030輸入拼音文本和發(fā)音符號(hào)的用戶(hù)在圖形接口1020的拼音部分1021上看見(jiàn)拼音文本1022(通過(guò)進(jìn)程400該拼音文本帶有置放在適當(dāng)元音上的發(fā)音符號(hào))并且通過(guò)進(jìn)程500看見(jiàn)顯示在圖形接口的漢字部分1024上的輸入拼音的正確漢字譯文1025。在備擇的實(shí)施方式里,可以通過(guò)不同于鍵盤(pán)1030的其它方式如經(jīng)過(guò)網(wǎng)絡(luò)1090、音頻系統(tǒng)1033或象軟盤(pán)的磁媒體1032把帶有發(fā)音符號(hào)的拼音文本輸入到系統(tǒng)1000里。
進(jìn)程500把拼音輸入翻譯成漢字。系統(tǒng)1000可以按其它的方式處理拼音和漢字。例如,拼音文本1022和/或漢字文本1025可以被打印。備擇地,拼音文本1022和/或漢字文本1025可以輸入到已知的語(yǔ)言翻譯器1034中并且翻譯成為象英文的其它語(yǔ)言。
進(jìn)程500和600充分地利用詞邊界以及重讀音節(jié)上的發(fā)音符號(hào)編碼(標(biāo)記)。這兩個(gè)進(jìn)程一起處理各種各樣不同風(fēng)格的拼音書(shū)寫(xiě)理論和習(xí)慣,并且達(dá)到高轉(zhuǎn)換準(zhǔn)確性。例如,如果中文詞是在很好確定的邊界上劃定的,該輸入的詞501將識(shí)別成唯一的詞511。如果該詞不是和/或不能和其它的“詞”區(qū)分開(kāi),則在系統(tǒng)1000上執(zhí)行進(jìn)程500的詞法單元,以在詞法上分析和或分解該詞串。從而本發(fā)明能夠確定該詞串中的組元詞。這是通過(guò)利用詞匯表950和利用上面說(shuō)明過(guò)的“最長(zhǎng)串匹配”算法來(lái)實(shí)現(xiàn)的。
本發(fā)明還能夠從下述兩種習(xí)慣的一種中把拼音準(zhǔn)確地處理成漢字1.詞綴包括在詞的一部分中或者2.詞綴作為與詞分離的助詞。在一種最佳實(shí)施方式中,第二種類(lèi)型的詞綴(助詞)被處理為功能詞。對(duì)于習(xí)慣1,進(jìn)程500執(zhí)行詞法分析,即去掉未識(shí)別詞中包括的標(biāo)準(zhǔn)詞綴(習(xí)慣1)并且對(duì)不帶有該詞綴的剩余詞串(根)進(jìn)行分析。在以后的處理中該去掉的詞綴被對(duì)待為一個(gè)功能詞。
進(jìn)程500利用詞法處理輸入的詞串。詞法是一種語(yǔ)言中對(duì)詞的結(jié)構(gòu)的研究。在這里詞的結(jié)構(gòu)尤其涉及詞綴以及詞的意義是怎樣受到詞綴的影響的。在大多數(shù)的歐洲語(yǔ)言如英文、德文、西班牙文、芬蘭文和匈牙利文的綴字法中,詞意的改變?nèi)Q于詞綴是如何利用的。例如,在英文表達(dá)方式“Calvin and Dorothy’sDepartment Store”中,其中的“s”屬于“Calvin and Dorothy”但是只附在“Dorothy”之后。
進(jìn)程500首先分析輸入的如來(lái)自步驟414的詞或詞串的詞法。在步驟510該算法把輸入的詞(串)501和已知的詞匯表950進(jìn)行比較。詞匯表950是一個(gè)帶有相關(guān)漢字譯文的語(yǔ)音中文詞和/或縮寫(xiě)拼音(拼音和/或BPMF)的表。也可以使用中文詞詞典950。這樣的詞典950是周知的。例如,請(qǐng)見(jiàn)“語(yǔ)文出版社”1989年出版的“漢語(yǔ)拼音詞匯”。通過(guò)和其它已知的詞典相結(jié)合和/或增添來(lái)自其它來(lái)源的帶有相應(yīng)漢字轉(zhuǎn)換的中文詞可以改進(jìn)上述這樣的詞典。
如果輸入的詞501(詞或詞串)和詞匯表510的一個(gè)或多個(gè)詞匹配,在步驟511進(jìn)行唯一性檢驗(yàn)。如果不存在混淆,即只和詞匯表510里的單個(gè)詞匹配,該詞轉(zhuǎn)化成漢字格式并且在步驟550顯示在漢字部分1024中。如果是不明確的(也就是說(shuō),對(duì)應(yīng)于輸入詞的拼音501在詞匯表(510,950)中存在多于一個(gè)的漢字形式),則把不同的詞存儲(chǔ)起來(lái)以做進(jìn)一步的考慮(步驟540)。
如果輸入的詞501不在詞匯表中,對(duì)輸入的詞(串)501進(jìn)行詞法分析。在步驟522,對(duì)輸入詞的一部分與功能詞素或詞綴表進(jìn)行比較。在圖8中提供了最佳詞綴表800。如果找到一個(gè)標(biāo)準(zhǔn)的詞綴,即該詞綴在詞綴表800上,在步驟524去掉所發(fā)現(xiàn)的詞綴并且對(duì)所輸入詞的剩余部分(根)再次與詞典950進(jìn)行比較。如果這個(gè)詞的根在詞匯表中,則執(zhí)行步驟511。如果該根不在詞匯表上(步驟510)但是在根中存在更多的詞綴(步驟522),對(duì)根中所含有的任何其它的標(biāo)準(zhǔn)詞根重復(fù)步驟524。
如果步驟522未識(shí)別出標(biāo)準(zhǔn)詞綴,即輸入詞501中的串都不在詞綴表800上,在步驟530分解詞串/根。在一種最佳實(shí)施方式里,通過(guò)把根和詞匯表950進(jìn)行比較利用上述的“最長(zhǎng)匹配法”對(duì)根進(jìn)行分解。
如果詞串包括多于一個(gè)的組元,對(duì)每個(gè)組元進(jìn)行唯一性搜索(步驟531)。如果一個(gè)組元是唯一的(步驟531),該詞被認(rèn)為是一個(gè)復(fù)合詞,并且在步驟550顯示和記錄對(duì)應(yīng)的漢字串。如果該詞是不明確的(步驟531),例如輸入詞501的一個(gè)或多個(gè)組元具有多于一個(gè)的漢字轉(zhuǎn)換和/或存在著多于一種的分解該詞串的方式,這些不同的選擇被存儲(chǔ)起來(lái)以在步驟540進(jìn)行進(jìn)一步的考慮。
在步驟540,整個(gè)短語(yǔ)(或從句、或句子),即輸入的詞串501,被確定為是由短語(yǔ)定界符如標(biāo)點(diǎn)符號(hào)、回車(chē)或用戶(hù)指定的其它短語(yǔ)定界符分界的字符串。對(duì)整個(gè)短語(yǔ)進(jìn)行分析以確定不明確詞(多個(gè)詞)的意義。見(jiàn)下面圖6中的進(jìn)程600。在步驟540之后,在步驟550顯示漢字形式的整個(gè)句子(從句、短語(yǔ))。如果存在著錯(cuò)誤(步驟560),在步驟561用戶(hù)人工地改正圖形接口1024上所顯示(560)的文本中的短語(yǔ)、句子或從句。
為了幫助對(duì)下面所給出的本發(fā)明所采用的句法分析(進(jìn)程600)的說(shuō)明,現(xiàn)在對(duì)講話(huà)的聲學(xué)(聲調(diào)和重音)、功能詞、助詞、詞綴以及表意詞的語(yǔ)音特性上的發(fā)現(xiàn)作出討論。
在口語(yǔ)中文中存在著經(jīng)常被忽視的重要的語(yǔ)音現(xiàn)象。在中文中,和世界上所有的口語(yǔ)語(yǔ)言一樣,除了由各個(gè)音節(jié)構(gòu)成的串提供信息之外還在存在著由講話(huà)的聲學(xué)所提供的大量信息。在中文中,每個(gè)詞具有一種重讀結(jié)構(gòu),形成該詞的講話(huà)聲學(xué),在理解詞義上它常常是關(guān)鍵性的。音節(jié)如何組合在一起構(gòu)成一個(gè)詞可以影響重讀結(jié)構(gòu)、講話(huà)聲學(xué)以及對(duì)詞的理解。
而且,詞的分隔(音節(jié)組合)和詞的相稱(chēng)的重讀結(jié)構(gòu)(講話(huà)聲學(xué))是口語(yǔ)語(yǔ)言中所傳遞的信息的一部分。對(duì)于中文,作為講話(huà)聲學(xué)中的一部分的聲調(diào)同樣是重要的。在中文中,音節(jié)的聲調(diào)僅在重讀音節(jié)中才是重要的。對(duì)于不具有重音的音節(jié),聲調(diào)或者明顯減弱或者完全喪失。
進(jìn)而請(qǐng)注意大多數(shù)語(yǔ)言包括中文存在功能詞和表意詞。表意詞包括一種語(yǔ)言中的所有名詞、所有助詞、所有形容詞和大部分副詞。例如,“man、run、fast、quickly”是表意詞。功能詞包括冠詞、介詞和一些連接詞。例如,“a、the、to、from、and、but等”是功能詞。表示為單獨(dú)的不定詞的詞綴具有功能詞的特性。
中文中的功能詞是不重讀的詞,它們主要表達(dá)語(yǔ)法關(guān)系和/或其它詞的功能而不表達(dá)詞匯意義。功能詞包括介詞、助動(dòng)詞、連接詞、副詞、感嘆詞、冠詞和一些代詞。在中文中,功能詞(冠詞、前置詞、后置詞等)、以助詞為形式的詞綴以及多音節(jié)詞中的任一詞綴總是不重讀的。功能詞(以及助詞形式里的詞綴和多音節(jié)詞里的詞綴)不具有聲調(diào)或者具有明顯減弱的聲調(diào)。
表意詞是具有完整詞匯意義的詞。在中文中,表意詞包括所有的名詞、所有主要?jiǎng)釉~、所有形容詞以及大部分副詞。表意詞包括中文中所有不是功能詞的詞。表意詞的重讀結(jié)構(gòu)取決于方言。
迄今為止,還沒(méi)有判明一個(gè)正在聽(tīng)一種語(yǔ)言的人為了理解該語(yǔ)言的詞是如何直覺(jué)地辨別表意詞和功能詞的。在中文語(yǔ)言中這一點(diǎn)尤其是正確的。因?yàn)樵谥形闹泄δ茉~及詞綴的聲調(diào)是非常弱的或者完全消失的并且由于在中文語(yǔ)言中存在有限數(shù)量的已知的和確定的功能詞,正在聽(tīng)口語(yǔ)中文的人們直覺(jué)地利用功能詞來(lái)理解正在說(shuō)什么。
為了進(jìn)一步闡述功能詞、表意詞和聲調(diào)在理解中文語(yǔ)言上的重要性,現(xiàn)在確定表意詞的重讀結(jié)構(gòu)和功能詞(詞綴)的使用。
上海方言代表著表意詞的重讀結(jié)構(gòu)以及功能詞使用的最清晰例子。每一個(gè)表意詞是從一個(gè)具有顯著聲調(diào)的重讀音節(jié)開(kāi)始的。該詞中的所有其它音節(jié)完全不具有重音,從而第一個(gè)音節(jié)之后的其它音節(jié)的聲調(diào)是減弱的。例如,在上海話(huà)中,名詞“wenti”(問(wèn)題)和“dianhua”(電話(huà))總是在第一個(gè)音節(jié)上重讀。
上海方言里的功能詞沒(méi)有重音。當(dāng)一個(gè)功能詞跟在一個(gè)表意詞的后面時(shí),有時(shí)可以把這個(gè)功能詞解釋為是這個(gè)表意詞的一個(gè)后綴(即一個(gè)詞綴)而不是一個(gè)助詞。但是,該發(fā)現(xiàn)的一部分在于從人類(lèi)聽(tīng)眾的觀點(diǎn)出發(fā),這兩種解釋(功能詞是一個(gè)助詞或是一個(gè)后綴)在本質(zhì)上是沒(méi)有不同的。
在北京方言和普通話(huà)中重音結(jié)構(gòu)略為不同。
在北京方言的大部分情況中,表意詞的重音在第一個(gè)音節(jié)上。但是,存在著許多重音位于最后的音節(jié)而不是在第一個(gè)音節(jié)上的情況。
普通話(huà)是標(biāo)準(zhǔn)的中國(guó)話(huà)。在普通話(huà)中,一個(gè)詞的重音通常在第一音節(jié)上。在某些帶有多于3個(gè)音節(jié)的詞里,可觀察到“框架式”重音結(jié)構(gòu)。也就是說(shuō),第一個(gè)和最后一個(gè)音節(jié)是重讀的,它們之間的所有其它音節(jié)沒(méi)有重音而且具有很弱的(或者沒(méi)有)聲調(diào)。普通話(huà)中的多音節(jié)表意詞具有至少一個(gè)重音,通常在第一音節(jié)上。例如,在音節(jié)串“taiqilai”(抬起來(lái))中,只有第一個(gè)音節(jié)“tai”(抬)具有重音。對(duì)于剩下的兩個(gè)音節(jié),不僅聲量大大減小而且聲調(diào)明顯地減弱或者完全消失。在短語(yǔ)“taibuqi toulai”中,只有兩個(gè)音節(jié)“tai”和“tou”具有重音。剩下的音節(jié)“bu”、“qi”和“l(fā)ai”是弱的,并且是無(wú)重音的或幾乎無(wú)重音的(無(wú)重音意味著沒(méi)有音調(diào))。請(qǐng)注意“l(fā)ai”是一個(gè)詞綴并沒(méi)有聲調(diào),并且在慣例中它書(shū)寫(xiě)成一個(gè)單獨(dú)的助詞。
在北京方言和普通話(huà)中,作為一種規(guī)律,功能詞不具有重音并且功能詞的聲調(diào)是弱的或消失的(退化)。
該發(fā)現(xiàn)表明中文口語(yǔ)的聽(tīng)眾直覺(jué)地利用表意詞的重音結(jié)構(gòu)(帶有聲調(diào)的音節(jié)和不帶聲調(diào)的音節(jié))以及無(wú)聲調(diào)的功能詞(以及詞綴)來(lái)標(biāo)志詞的邊界、對(duì)詞分類(lèi)并且確定詞的意義。這種自然語(yǔ)音現(xiàn)象是和中文語(yǔ)言學(xué)原理里的不同觀點(diǎn)是無(wú)關(guān)的,和/或一個(gè)人如何用中文書(shū)寫(xiě)詞或短語(yǔ)也是無(wú)關(guān)的。本發(fā)明根據(jù)這種現(xiàn)象推導(dǎo)出規(guī)律并且應(yīng)用這些規(guī)律,并且借助適當(dāng)?shù)奶幚韥?lái)實(shí)現(xiàn)這些規(guī)律以便提高處理(輸入、分析、翻譯及書(shū)寫(xiě))語(yǔ)音中文的準(zhǔn)確性。
在完成迄今為止現(xiàn)有技術(shù)中尚未認(rèn)識(shí)到的對(duì)語(yǔ)音關(guān)系的發(fā)現(xiàn)的上述討論之后,下面的討論將說(shuō)明這些關(guān)系是怎樣用于用由進(jìn)程600完成的句法分析中的。
一種新穎的句法分析方法在圖6中表示為進(jìn)程600。該進(jìn)程利用上面所發(fā)現(xiàn)的和所公開(kāi)的原理分析整個(gè)短語(yǔ)(或從句、或句子)。
詞串(從句或句子)501由象標(biāo)點(diǎn)符號(hào)、回車(chē)或用戶(hù)指定的任何輸入的短語(yǔ)定界符劃分。在一種最佳實(shí)施方式里,這些定界符或短語(yǔ)分界符包括空格(鍵2360)、頓號(hào)(鍵2336)、中文句號(hào)2335、左引號(hào)(鍵2338)、右引號(hào)(鍵2339)、左標(biāo)題號(hào)(鍵2341)、右標(biāo)題號(hào)(鍵2342)、驚嘆號(hào)(鍵2311)、逗號(hào)(鍵2312)、斜道(鍵2313)、左圓括號(hào)(鍵2314)、右圓括號(hào)(右鍵2315上)、冒號(hào)(在鍵2316上)、分號(hào)(鍵2316)、著重號(hào)(鍵2344)以及問(wèn)號(hào)(鍵2317)。對(duì)任何聲調(diào)鍵(2310、2320、2330、2340以及2350)的二次鍵擊也可以是短語(yǔ)定界符(這里括號(hào)中所表示的鍵指明鍵盤(pán)實(shí)施方式2300中輸入該短語(yǔ)定界符的鍵。)。這些短語(yǔ)定界符明確地定義詞邊界,即一個(gè)短語(yǔ)501的結(jié)束和另一個(gè)短語(yǔ)501的開(kāi)始。
如步驟511和531里規(guī)定的具有一個(gè)或多個(gè)模棱兩可詞的短語(yǔ)在步驟601輸入到進(jìn)程600中。句法單元是在系統(tǒng)1000上執(zhí)行的進(jìn)程600。
首先,通過(guò)任何聲調(diào)發(fā)音符號(hào)的存在對(duì)短語(yǔ)601的詞組元進(jìn)行分類(lèi)。帶有至少一個(gè)發(fā)音符號(hào)的詞610是表意詞620。但是,不帶發(fā)音符號(hào)的詞611可能是不經(jīng)心地略去其發(fā)音符號(hào)的表意詞、非中文詞、功能詞、詞綴或書(shū)寫(xiě)成為獨(dú)立助詞的詞綴。在所輸入的混合文本中,非中文詞是通過(guò)空格(或者其它等效的字符如“Esc”)劃分的,從而得以識(shí)別。
為了確定不帶發(fā)音符號(hào)的詞611是否是功能詞,把詞611和功能詞表800進(jìn)行比較。功能詞的數(shù)量是有限的,根據(jù)大多數(shù)語(yǔ)言學(xué)家的觀點(diǎn)在100個(gè)之內(nèi)。如果詞611在功能詞表800上,它是一個(gè)功能詞。各個(gè)功能詞的意義是唯一性地定義的。在圖8中提供了一種最佳功能詞表800。
以類(lèi)似的方式,不帶發(fā)音符號(hào)的詞611與詞綴表(同樣包括在表800中)進(jìn)行比較以確定它們是否是詞綴和/或書(shū)寫(xiě)成為獨(dú)立助詞的詞綴。這些獨(dú)立助詞的意義是唯一定義的,助詞/詞綴的最佳列表同樣是相對(duì)短的,具有20個(gè)之內(nèi)的條目。帶有它們的漢字轉(zhuǎn)換(譯文)的助詞/詞綴包含在圖8的功能詞表上。
列舉功能詞、助詞和詞綴的數(shù)據(jù)結(jié)構(gòu)800占據(jù)計(jì)算機(jī)存儲(chǔ)器(1100,1200)中相對(duì)很少的空間。
一旦識(shí)別了并且從而唯一性地確定了所有的功能詞(和/或助詞及詞綴),在步驟630中分析短語(yǔ)/句子結(jié)構(gòu)。因?yàn)楣δ茉~(助詞/詞綴)的意義和功能是已知的,在任一特定功能詞(詞綴)之前和之后的詞的類(lèi)型是受限制的。這樣,在步驟640通過(guò)利用模棱兩可的表意詞與一個(gè)或多個(gè)功能詞(助詞/詞綴)的關(guān)系,可以進(jìn)一步減少或去掉表意詞的意義不明確性。例如,如果在進(jìn)程500的步驟540中對(duì)一個(gè)模棱兩可的表意詞存在五種可能被識(shí)別的詞,通過(guò)弄清該模棱兩可詞前面或后面的功能詞(詞綴)可能可去掉這些可能的詞中的一部分或者除了一個(gè)之外的全部。
例如,在圖8中列舉了看作是功能詞的介詞810。介詞后面必須跟著名詞或者名詞短語(yǔ)。如果在這些介詞后面的表意詞具有一種非名詞或非名詞短語(yǔ)的譯文,去掉這種模棱兩可的譯文。
時(shí)態(tài)助詞820(le、zhe、guo)通常在動(dòng)詞之后。因此,在其后面帶著這些助詞的任何模棱兩可的表意詞翻譯為動(dòng)詞。如果該表意詞的某些備擇的譯文不是動(dòng)詞,刪除它們。
關(guān)系助詞830(de、zhi)通常跟著名詞或形容詞。因此后面帶著這些助詞的任何模棱兩可的表意詞翻譯為名詞或形容詞。其它備擇的不明確譯文可被刪除。
連接詞(he、ji和gen)840是功能詞并且通常處在名詞之間。從而,這些連接詞兩側(cè)的任何模棱兩可的表意詞翻譯成名詞,去掉其它備擇的不明確譯文。
連接詞850是通常處在短語(yǔ)之間的功能詞。這些連接詞850兩側(cè)的表意詞看作是短語(yǔ)的一部分。
名詞詞尾860通常是名詞一部分的詞綴。在這些詞尾860之前的表意詞翻譯成名詞,去掉其它備擇的不明確譯文。
存在著前面必須加上形容詞或副詞的形容詞及副詞詞870。尾去掉這些詞尾(助詞)之前的其譯文不是形容詞或副詞的任何表意詞。
還存在形容詞及副詞前綴870,包括hen-、zui-、bu-和geng-。這些助詞/詞綴必須跟著形容詞或副詞。如果任何在這些前綴(助詞)后面的表意詞具有不是形容詞或副詞的譯文,去掉這些模棱兩可的譯文。
這些規(guī)律可能產(chǎn)生錯(cuò)誤翻譯從而需要人工修正的例外情況是很少的。
請(qǐng)注意表800不包括功能詞、助詞和詞綴的縮寫(xiě)。在備擇的實(shí)施方式中可包括縮寫(xiě)。
如果在640中仍然存在模棱兩可,即仍存在多于一個(gè)可能的表意詞,在步驟641中應(yīng)用短語(yǔ)中有關(guān)詞出現(xiàn)的統(tǒng)計(jì)表來(lái)預(yù)言剩余的表意候選詞中的最可能的詞。這樣的統(tǒng)計(jì)模型641在語(yǔ)音識(shí)雖技術(shù)上是周知的。例如見(jiàn)1993年出版的Rabiner和Juang所著的Fundamentals of Speech Recognition中的447-450頁(yè),該書(shū)是本文的參考資料。
在一種最佳實(shí)施方式中,在步驟560中結(jié)果顯示在圖形接口1020的漢字部分1024中。如果存在不能明確地判定的詞,在圖形接口1020上向用戶(hù)顯示剩余的候選詞以通過(guò)指點(diǎn)器1031進(jìn)行選擇。此外,在步驟650所顯示的結(jié)果1025受到用戶(hù)的人工修改650。在備擇的實(shí)施方式里,最后的顯示可在打印機(jī)上打印或者在網(wǎng)絡(luò)連接1090上發(fā)送。步驟650中的顯示結(jié)果還可以是其它計(jì)算機(jī)系統(tǒng)的漢字輸入,例如把漢字文本翻譯成其它語(yǔ)言的翻譯機(jī)1034。
通過(guò)運(yùn)用進(jìn)程500和600,即使名詞沒(méi)有按照普遍接收的慣例分開(kāi)或者沒(méi)有在邊界處劃分,系統(tǒng)1000可以確定輸入的詞501中的各組元詞的意義以及對(duì)應(yīng)的漢字譯文。
給出本公開(kāi)之后熟練的技術(shù)人員可以在本發(fā)明的意圖之內(nèi)建立替代的等效實(shí)施方式。例如,象圖2D中的鍵盤(pán)可以設(shè)計(jì)為包括BPMF拼音字母表中的37個(gè)字符。該拼音字母表的各鍵(位置)的分配取決于用戶(hù)/廠家的選擇。37個(gè)字符的ASCII代碼分配可以在圖3的上半7位區(qū)中完成。在鍵盤(pán)上和在ASCII代碼表中也可以提供BPMF的發(fā)音符號(hào)。但是,某些修改可能是必須的。例如,可能要設(shè)置陽(yáng)平聲調(diào)的發(fā)音符號(hào)。用于BPMF的音節(jié)表700和功能詞、助詞和詞綴表800與拼音情況具有一對(duì)一的對(duì)應(yīng)。圖4、5和7中所示的各進(jìn)程仍然適用。
權(quán)利要求
1.一種用于把中文文本輸入到計(jì)算機(jī)系統(tǒng)里的鍵盤(pán),該鍵盤(pán)包括一組音節(jié)輸入鍵,各個(gè)音節(jié)輸入鍵代表一個(gè)或多個(gè)字符;以及一組聲調(diào)鍵,各個(gè)聲調(diào)鍵代表一個(gè)或多個(gè)聲調(diào)。
2.如權(quán)利要求1的鍵盤(pán),其中存在由該組聲調(diào)鍵代表的四種聲調(diào),這四種發(fā)音符號(hào)包括陽(yáng)平聲調(diào)、上聲聲調(diào)、陰平聲調(diào)和去聲聲調(diào)。
3.如權(quán)利要求1的鍵盤(pán),其中存在由該組聲調(diào)鍵代表的五種聲調(diào),這五種發(fā)音符號(hào)包括無(wú)聲調(diào)、陽(yáng)平聲調(diào)、上聲聲調(diào)、陰平聲調(diào)和去聲聲調(diào)。
4.如權(quán)利要求1的鍵盤(pán),其中該鍵盤(pán)是美國(guó)英文鍵盤(pán)并且該組聲調(diào)鍵替代美國(guó)英文鍵盤(pán)上的一個(gè)或多個(gè)標(biāo)點(diǎn)符號(hào)鍵。
5.如權(quán)利要求1的鍵盤(pán),其中該鍵盤(pán)是帶有該組聲調(diào)鍵的美國(guó)英文鍵盤(pán),該組聲調(diào)鍵用該鍵盤(pán)上的“箭頭”鍵組組合。
6.如權(quán)利要求1的鍵盤(pán),其中該鍵盤(pán)的空格杠分隔成二個(gè)或更多的部分并且一個(gè)或更多的部分是代表一個(gè)或多個(gè)聲調(diào)的聲調(diào)鍵。
7.如權(quán)利要求6的鍵盤(pán),其中空格杠的各部分包括一個(gè)或多個(gè)左部分、一個(gè)或多個(gè)右部分以及在左右各部分之間的中間部分。
8.如權(quán)利要求7的鍵盤(pán),其中該中間部分是空格鍵并且一個(gè)或多個(gè)左、右部分是代表一個(gè)或多個(gè)聲調(diào)的聲調(diào)鍵。
9.如權(quán)利要求7的鍵盤(pán),其中該中間部分代表無(wú)聲調(diào)發(fā)音符號(hào)并且一個(gè)或多個(gè)左、右部分代表一個(gè)或多個(gè)聲調(diào)。
10.如權(quán)利要求9的鍵盤(pán),其中左部分中的一個(gè)代表上聲聲調(diào),第一右部分代表去聲音調(diào),而第二右部分代表陰平聲調(diào)。
11.一種用于處理中文文本的計(jì)算機(jī)系統(tǒng),包括一個(gè)計(jì)算機(jī)存儲(chǔ)器;一個(gè)輸入裝置,用于把多個(gè)中文語(yǔ)音音節(jié)輸入到該系統(tǒng)中,各個(gè)音節(jié)具有一個(gè)或多個(gè)字符,該輸入裝置用發(fā)音符號(hào)標(biāo)記一個(gè)或多個(gè)重讀音節(jié),該發(fā)音符號(hào)指示該重讀音節(jié)的聲調(diào);一個(gè)輸入單元,其為該輸入裝置輸入的各個(gè)字符和各個(gè)發(fā)音符號(hào)分別提供字符代碼和聲調(diào)代碼,該輸入單元把音節(jié)識(shí)別成用聲調(diào)代碼標(biāo)志的字符代碼串;一個(gè)音節(jié)表,其具有多個(gè)各與一個(gè)或多個(gè)音節(jié)串代碼關(guān)聯(lián)的音節(jié)串,該輸入單元把由發(fā)音符號(hào)代碼標(biāo)志的字符代碼串和一個(gè)音節(jié)串代碼進(jìn)行匹配,并且把和由該聲調(diào)代碼標(biāo)志的該字符代碼串匹配的該音節(jié)串代碼所關(guān)聯(lián)的用于該音節(jié)串的音節(jié)表示存儲(chǔ)到該計(jì)算機(jī)存儲(chǔ)器里。
12.如權(quán)利要求11的系統(tǒng),其中中文文本是拼音。
13.如權(quán)利要求11的系統(tǒng),其中中文文本是BPMF。
14.如權(quán)利要求11的系統(tǒng),其中該輸入裝置是一個(gè)帶有一個(gè)或多個(gè)用于發(fā)音符號(hào)的鍵的鍵盤(pán)。
15.如權(quán)利要求11的系統(tǒng),其中該輸入裝置是一個(gè)用來(lái)輸入口語(yǔ)中文的聲學(xué)設(shè)備。
16.如權(quán)利要求11的系統(tǒng),其中該系統(tǒng)進(jìn)一步包括一個(gè)打印機(jī),并且存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器里的音節(jié)表示變換成在該打印機(jī)上打印的打印音節(jié)。
17.如權(quán)利要求11的系統(tǒng),其中該系統(tǒng)進(jìn)一步包括一個(gè)圖形用戶(hù)接口,并且音節(jié)表示轉(zhuǎn)換成在該圖形用戶(hù)接口上顯示的音節(jié)文本。
18.如權(quán)利要求11的系統(tǒng),其中一個(gè)或多個(gè)音節(jié)串代碼表示有關(guān)音節(jié)串的縮寫(xiě)。
19.如權(quán)利要求11的系統(tǒng),其中若沒(méi)有和由聲調(diào)代碼標(biāo)志的字符代碼串相匹配的音節(jié)串代碼時(shí)該輸入單元在圖形接口上向用戶(hù)提供一個(gè)最佳匹配表。
20.如權(quán)利要求11的系統(tǒng),其中在字符代碼串未由聲調(diào)代碼標(biāo)志的情況下該輸入單元把字符代碼串識(shí)別成非中文音節(jié)。
21.一種用于處理中文文本的計(jì)算機(jī)系統(tǒng),包括一個(gè)輸入裝置,用于輸入語(yǔ)音中文短語(yǔ),該短語(yǔ)具有一個(gè)或更多的詞,每個(gè)詞具有一個(gè)或更多的音節(jié),每個(gè)音節(jié)具有一個(gè)或更多的字符,該短語(yǔ)是在第一和第二短語(yǔ)定界符之間的一個(gè)字符串;一個(gè)詞綴表,其具有多個(gè)語(yǔ)音中文詞綴條目;一個(gè)中文詞匯表,該詞匯表是一個(gè)帶有漢字譯文的多個(gè)語(yǔ)音中文詞的列表,以及一個(gè)詞法單元,其從短語(yǔ)中去掉一個(gè)或多個(gè)詞綴以建立一個(gè)詞根,所去掉的詞綴是該詞綴列表中的一個(gè)詞綴,該語(yǔ)法單元把詞根和詞匯表中的一個(gè)或多個(gè)詞進(jìn)行比較以尋找匹配,并且把和該詞根匹配的該詞匯表中該詞的漢字譯文存儲(chǔ)到計(jì)算機(jī)存儲(chǔ)器里。
22.如權(quán)利要求21的系統(tǒng),進(jìn)一步包括一個(gè)句法單元,該句法單元把詞根分析為重讀詞和非重讀詞,重讀詞由發(fā)音符號(hào)標(biāo)志而非重讀詞不由發(fā)音符號(hào)標(biāo)志。
23.如權(quán)利要求22的系統(tǒng),其中各表目包括詞綴、功能詞和助詞,各個(gè)表目具有漢字譯文,該句法單元把非重讀詞和一個(gè)或多個(gè)表目相匹配,與非重讀詞匹配的表目是一個(gè)相匹配的表目,并且該句法單元把相匹配的表目的漢字譯文用作為該短語(yǔ)中非重讀詞的漢字譯文。
24.如權(quán)利要求23的系統(tǒng),其中該句法單元進(jìn)一步把一個(gè)或多個(gè)重讀詞解釋為一個(gè)模棱兩可的表意詞,由于在該詞匯表中對(duì)該模棱兩可的表意詞存在多于一種的漢字譯文,該模棱兩可的表意詞具有不明確性,而該句法單元通過(guò)利用該模棱兩可的表意詞與該短語(yǔ)中的一個(gè)或多個(gè)非重讀詞的關(guān)系去掉這種不明確性。
25.如權(quán)利要求22的系統(tǒng),其中第一和第二短語(yǔ)定界符為下述中的任一種回車(chē)、空格、頓號(hào)、中文句號(hào)、左引號(hào)、右引號(hào)、左標(biāo)題號(hào)、右標(biāo)題號(hào)、驚嘆號(hào)、逗號(hào)、斜號(hào)、左括號(hào)、右括號(hào)、冒號(hào)、分號(hào)、著重號(hào)、問(wèn)號(hào)以及對(duì)一個(gè)聲調(diào)鍵的二次或更多次的鍵擊。
26.如權(quán)利要求22的系統(tǒng),其中如果詞不和詞匯表中的一個(gè)詞匹配該詞法單元把該詞分解為組元詞,并且句法單元對(duì)各組元詞進(jìn)行分析。
27.一種把中文文本輸入到計(jì)算機(jī)系統(tǒng)里的裝置,該裝置包括一組音節(jié)輸入鍵裝置,每個(gè)音節(jié)輸入鍵裝置代表一個(gè)或多個(gè)字符;以及一組聲調(diào)鍵裝置,每個(gè)聲調(diào)鍵裝置代表一種或多種聲調(diào)值。
28.一種處理中文文本的計(jì)算機(jī)系統(tǒng),包括一個(gè)計(jì)算機(jī)存儲(chǔ)裝置;一個(gè)輸入裝置,用于把多個(gè)中文拼音音節(jié)輸入到該系統(tǒng)里,每個(gè)音節(jié)具有一個(gè)或多個(gè)字符,該輸入裝置用發(fā)音符號(hào)標(biāo)志一個(gè)或多個(gè)重讀音節(jié),發(fā)音符號(hào)指示該重讀音節(jié)的聲調(diào)類(lèi)型;一個(gè)輸入處理裝置,其向該輸入裝置輸入的各個(gè)字符提供字符代碼及向各個(gè)發(fā)音符號(hào)提供聲調(diào)代碼,該輸入處理裝置把音節(jié)識(shí)別成由聲調(diào)代碼標(biāo)志的字符代碼串;一個(gè)音節(jié)表裝置,其具有多個(gè)各和一個(gè)或多個(gè)音節(jié)串代碼關(guān)聯(lián)的音節(jié)串,該輸入處理裝置把由聲調(diào)代碼標(biāo)志的字符代碼串與一個(gè)音節(jié)串代碼相匹配,并且把與由該聲調(diào)代碼標(biāo)志的該字符代碼串相匹配的該音節(jié)串代碼所關(guān)聯(lián)的用于該音節(jié)串的音節(jié)表示存儲(chǔ)到該計(jì)算機(jī)存儲(chǔ)器裝置里。
29.一種把語(yǔ)音中文的音節(jié)和詞存儲(chǔ)到計(jì)算機(jī)系統(tǒng)的計(jì)算機(jī)存儲(chǔ)器里的方法,其包括步驟a.利用一個(gè)輸入裝置把一個(gè)或多個(gè)字符輸入到該計(jì)算機(jī)系統(tǒng)里,一個(gè)音節(jié)具有一個(gè)或多個(gè)字符,一個(gè)詞具有一個(gè)或多個(gè)音節(jié),而一個(gè)短語(yǔ)具有一個(gè)或多個(gè)詞,短語(yǔ)的各詞位于兩個(gè)短語(yǔ)定界符之間,各音節(jié)是用代表該音節(jié)的聲調(diào)的發(fā)音符號(hào)標(biāo)記的并且各音節(jié)處于兩個(gè)發(fā)音符號(hào)之間,該輸入是對(duì)各個(gè)輸入字符的字符代碼的存儲(chǔ)并且是對(duì)標(biāo)志一個(gè)音節(jié)的各個(gè)發(fā)音符號(hào)的聲調(diào)代碼的存儲(chǔ);b.把一個(gè)或多個(gè)音節(jié)識(shí)別成中文音節(jié),中文音節(jié)是一個(gè)或多個(gè)字符代碼與一個(gè)聲調(diào)代碼的串;c.把中文串和音節(jié)表進(jìn)行匹配,該音節(jié)表具有多個(gè)各和一個(gè)或多個(gè)音節(jié)串代碼關(guān)聯(lián)的音節(jié)串;以及d.把相匹配的音節(jié)串存儲(chǔ)到該計(jì)算機(jī)存儲(chǔ)器里,該相匹配的音節(jié)串是與該串匹配的音節(jié)串代碼關(guān)聯(lián)的音節(jié)串。
30.如權(quán)利要求29的方法,其中重復(fù)步驟a-d直至輸入一個(gè)短語(yǔ)定界符,在該計(jì)算機(jī)存儲(chǔ)器里存儲(chǔ)的一個(gè)或多個(gè)相匹配的音節(jié)串是一個(gè)詞串。
31.一種利用詞法處理對(duì)詞串進(jìn)行處理的方法,其包括步驟從該詞串去掉一個(gè)或多個(gè)詞綴以構(gòu)成一個(gè)詞根,所去掉的詞綴是一個(gè)詞綴表上的詞綴之一;把該詞根和一個(gè)詞匯表上的一個(gè)或多個(gè)詞進(jìn)行比較以尋找匹配,該詞匯表具有多個(gè)詞,每個(gè)詞帶有一個(gè)或多個(gè)漢字譯文,與該詞根匹配的該詞匯表上的該詞為詞根匹配;并且在計(jì)算機(jī)存儲(chǔ)器里存儲(chǔ)該詞根匹配的漢字譯文。
32.如權(quán)利要求31的方法,其中一個(gè)或多個(gè)詞根是不匹配的詞根,該不匹配的詞根不在該詞匯表上具有匹配,并且把該不匹配的詞根分解成組元詞。
33.一種句法上分析中文語(yǔ)音音節(jié)短語(yǔ)的方法,其包括步驟把該中文短語(yǔ)分析成重讀詞和非重讀詞,重讀詞帶有用指示該音節(jié)的聲調(diào)的發(fā)音符號(hào)標(biāo)志的一個(gè)或多個(gè)音節(jié),非重讀詞不帶有用發(fā)音符號(hào)標(biāo)志的音節(jié);把非重讀詞和一個(gè)或多個(gè)條目進(jìn)行匹配,這些條目可以是詞綴表上的零個(gè)或多個(gè)詞綴、功能詞和助詞,每個(gè)條目具有漢字譯文;利用各個(gè)漢字譯文把非重讀詞翻譯成漢字。
34.如權(quán)利要求33的方法,進(jìn)而包括步驟把一個(gè)或多個(gè)重讀詞解釋為表意詞,零個(gè)或多個(gè)表意詞可以是模棱兩可的表意詞,模棱兩可的表意詞在詞匯表上具有多于一個(gè)的漢字譯文。
35.如權(quán)利要求34的方法,其中刪除掉一個(gè)或多個(gè)譯文,因?yàn)樗鶆h除的譯文不和非重讀詞中的一個(gè)有關(guān)系。
36.一種通過(guò)字母數(shù)字鍵盤(pán)輸入語(yǔ)音中文串的方法,其包括步驟把中文的語(yǔ)音表示輸入到一個(gè)計(jì)算機(jī)系統(tǒng)的一個(gè)輸入設(shè)備上,該語(yǔ)音表示具有一個(gè)或多個(gè)各由一個(gè)或多個(gè)語(yǔ)音音節(jié)構(gòu)成的詞,這些音節(jié)中的一個(gè)或多個(gè)是重讀音節(jié)并且這些音節(jié)中的一個(gè)或多個(gè)是非重讀音節(jié);以及用一個(gè)指示該重讀音節(jié)的聲調(diào)類(lèi)型的發(fā)音符號(hào)標(biāo)記重讀音節(jié)。
37.一種計(jì)算機(jī)可讀的程序存儲(chǔ)設(shè)備,其具體包括由該計(jì)算機(jī)執(zhí)行的指令程序以完成把語(yǔ)音中文的音節(jié)和詞存儲(chǔ)到該計(jì)算機(jī)的計(jì)算機(jī)存儲(chǔ)器里的一種方法的各個(gè)步驟,該方法包括步驟a.利用一個(gè)輸入裝置把一個(gè)或多個(gè)字符輸入到該計(jì)算機(jī)系統(tǒng)里,一個(gè)音節(jié)具有一個(gè)或多個(gè)字符,一個(gè)詞具有一個(gè)或多個(gè)音節(jié),而一個(gè)短語(yǔ)具有一個(gè)或多個(gè)詞,短語(yǔ)的多個(gè)詞位于兩個(gè)短語(yǔ)定界符之間,各音節(jié)是用代表該音節(jié)的聲調(diào)的發(fā)音符號(hào)標(biāo)記的并且各音節(jié)處于兩個(gè)發(fā)音符號(hào)之間,該輸入是對(duì)各個(gè)輸入字符的字符代碼的存儲(chǔ)以及對(duì)各個(gè)標(biāo)志一個(gè)音節(jié)的發(fā)音符號(hào)的聲調(diào)代碼的存儲(chǔ)。b.把一個(gè)或多個(gè)音節(jié)識(shí)別成中文音節(jié),中文音節(jié)是一個(gè)或多個(gè)字符代碼與一個(gè)聲調(diào)代碼的串;c.把該中文串和音節(jié)表進(jìn)行匹配,該音節(jié)表具有多個(gè)各和一個(gè)或多個(gè)音節(jié)串代碼關(guān)聯(lián)的音節(jié)串;以及d.把相匹配的音節(jié)串存儲(chǔ)到該計(jì)算機(jī)存儲(chǔ)器里,該相匹配的音節(jié)串是與該串的音節(jié)串代碼關(guān)聯(lián)的音節(jié)串。
全文摘要
將語(yǔ)音中文(拼音和BPMF)輸入到計(jì)算機(jī)系統(tǒng)里并準(zhǔn)確地轉(zhuǎn)換為漢字形式。該系統(tǒng)具有帶著發(fā)音符號(hào)鍵(以及對(duì)應(yīng)的ASCII編碼)的新穎鍵盤(pán),從而允許用戶(hù)利用指示音節(jié)聲調(diào)的發(fā)音符號(hào)注釋各個(gè)所輸入的語(yǔ)音文本音節(jié)。系統(tǒng)上所執(zhí)行的一個(gè)進(jìn)程確定音節(jié)是否在鍵擊一個(gè)發(fā)音符號(hào)(或定界符)時(shí)已經(jīng)輸入。然后把已輸入的語(yǔ)音音節(jié)和可接受的語(yǔ)音音節(jié)及縮寫(xiě)表進(jìn)行比較。所輸入的音節(jié)在該表中存儲(chǔ)和顯示正確拼寫(xiě)及重讀的音節(jié)。
文檔編號(hào)G06F3/00GK1143769SQ9610587
公開(kāi)日1997年2月26日 申請(qǐng)日期1996年5月10日 優(yōu)先權(quán)日1995年8月16日
發(fā)明者辰君·朱利安·陳 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司