專利名稱:漢語文字處理之方法
技術(shù)領(lǐng)域:
漢語文字處理之方法是一種單字及語詞輸出入的方法,屬於電算機(jī)文字處理方法領(lǐng)域。
(三)發(fā)明的理解及現(xiàn)況中文為圖形文字,常用文字在七千字以上(按中國國標(biāo) GB 2312-80共收字符7445個,而臺灣 BIG-5共收字符13053個;本發(fā)明以下的說明及分析以這兩個字庫的字符為基礎(chǔ))可謂數(shù)量龐大,其檔案文書均以圖形文字記載,書寫體式多而差異大,電算機(jī)之發(fā)明使用並非為輸入中文圖形文字(中文與漢語同義,在下文中交替使用)而設(shè)計制造,因此漢語輸入之使用電算機(jī)便有許多障礙。
中文是一種自然語言,含有許多“混淆”,諸如很多中文字具有相同的發(fā)音(音同);很多中文字具有相同的部首、字根或筆形(形同);很多中文字的部首歸類並不一致。由於上述的“混淆”,單以發(fā)音或以一個部首、字根或筆形(為說明之便,以“部首”一詞代替“部首、字根及筆形”,因三者均為字形的要素)用來找一個想要用的字,幾乎不可能一查即得。漢語拼音字母雖對應(yīng)於英文字母,但基本上不同,英文字母為英文文書的表達(dá)文字,漢語拼音字母則不然,因為漢語拼音字尚須轉(zhuǎn)換為中文圖形文字,轉(zhuǎn)換全由人工處理。不管用何種方法輸入,當(dāng)有許多同音字或同形字時,轉(zhuǎn)換為中文圖形文字便很費時費事。
現(xiàn)有不少的方法用來處理文字編輯文書的;一般的說,這些方法是一為漢語拼音法中國在1958年公布,使用abc等25個英文拼音字母(v未被採用),此方法為中文文字輸入方法的主流,在中國大陸使用。二為注音符號法使用ㄅ夂ㄇ等37個注音符號和5個基本聲調(diào)法,此方法在中國的臺灣省及國外少數(shù)地區(qū)使用。三為部首法部首(字根或筆形)是中文文字的共同部分,有很多方法(一般稱為字根法或筆形法)可用來摘取這些共同部分。由於這些部首的圖形代表物不一定相同,歸類不一致之故,因此這個方法有定義上的問題。
使用以上方法作為文字處理時有共同缺點一為當(dāng)使用電子媒體時,寫作者被限於使用標(biāo)準(zhǔn)的101鍵(或更少些)的鍵盤輸入設(shè)備去定義七千以上的中國字。當(dāng)使用電腦終端機(jī)時,使用人平均需要按三、四下鍵才能定義一個中國字(漢語拼音下最長需按六次鍵才能定義字的音韻,而最短只需按一鍵)。這需要熟記按鍵的不同組合,非長期練習(xí)不可,因此電算機(jī)並非人人可用的。二為經(jīng)常太多的合格字供給選用。從很多的合格字中,選取所要的一個字,是相當(dāng)?shù)馁M事,尤其大量的選取更是煩難。三為在現(xiàn)有方法的檢字程序中,均假定使用人已知道所需用字的正確資料(字的聲韻調(diào)或部首字形)。假如有不知道或混淆不清時,常常找不到字,需要一試再試。四為使用鍵盤為輸入設(shè)備用來檢字時,對無聲字(符號及外國字母等非中文發(fā)音)除翻書查碼并鍵入該無聲字之代碼外幾乎無法可施。五為不論中文文字庫的字?jǐn)?shù)多寡在現(xiàn)有方法的檢字程序中,有時也會找不到字。中國是文化古國,有大數(shù)量的古書籍,而且具有一定的參考價值,其中有很多文字是今日所不常用,如要兼顧,中文文字庫的字?jǐn)?shù)當(dāng)在五萬到十萬個之?dāng)?shù)而猶感不足。又當(dāng)中國開放之后,多文種文字輸入愈形重要,缺字、無字或找不到字更形普遍。因此報章雜誌上經(jīng)常看到印刷文物中常有手寫文字參差其間。缺字、無字可用造字機(jī)以為補(bǔ)救;一般地,使用鍵盤為輸入設(shè)備的造字功能極差,操作不易;造字需要編碼或訂其漢語拼音或注音符號,以做為下次輸入之用。這些新碼或漢語拼音或注音符號非常人所能記憶,必須翻閱背忘錄查得編碼始能操作。又因中國地域遼闊,人口眾多,六族融合,南腔北調(diào),音差極大,單以發(fā)音法(漢語拼音或注音符號法),有許多人口無法或困難輸入中文;因此一般電算系統(tǒng)均提供多種輸入法以補(bǔ)發(fā)音法之不足,部首法是其中的一種,但其個數(shù)多(約二百個),記憶困難使用不易,字根法、筆形法因此被採用,但背誦口訣,拆字解碼,需要記憶及訓(xùn)練,欠缺政府教育支持不易推廣,多種輸入法的操作必然繁複,使用電算機(jī)的“技術(shù)恐懼感”因此而生。至今,對單一文字的處理尚沒有一套有效、易學(xué)、易用、免記憶的方法;不消說,複字(詞語)的處理方法更不可得。
吾人知道,中文字是一字一形的,是由聲母、韻母及聲調(diào)構(gòu)成其音調(diào)節(jié),由部首及特殊筆形構(gòu)成其圖形文字,音形并用才能決定一個文字。所以決定一個文字(定字)的方法是定音、定調(diào)、定形三者。目前中文字的處理如不是“定音法”(不定調(diào))或“定音定調(diào)法”,就是“定形法”(如部首法、字根法,筆形法等是);但不論何種方法,仍然無法“定字”,因為在各個方法下,有許多的“同音字”或“同形字”,必須經(jīng)人工的最后決選才能“定字”,“定字”之后才能儲存、使用。有一個事實可以證明有較多中國人會說國語而不會寫字,可知“定字”的過程“定音”比“定形”簡單,亦可見“定形”所費的記憶較多,較難學(xué)習(xí)。目前中文的處理,必需“定形定字”,才能儲存、閱覽、印刷或處理;這種“定形定字”的文字處理,時時行之但不知覺;就漢語拼音輸入來說,用鍵盤輸入拼音后,屏幕就列示該拼音的同音字及其序碼,使用人再鍵入序碼,便完成輸入,鍵入序碼前,使用人須要用視覺判斷同音字中何字是所需要的,這種視覺判斷的過程,就是“定調(diào)”及“定形”的定字程序,這種程序的潛在工作量是大量的,但不知覺。這種觀念有待修正;因為“定形定字”的程序有時候是多馀的,根據(jù)“語詞”前后文的發(fā)音,推斷語意,已可“定字”;如果發(fā)音是“有音有調(diào)”的(即定音而且定調(diào)),當(dāng)然表意明確沒有“定字”問題;即使是“有音無調(diào)”的(即定音但不定調(diào)),也足可“定字”。由於使用人的需要改變,如語音輸出,其要求之文字輸出為語音,顯然“定音”、“定調(diào)”已能滿足需要,“定形”的定字程序成為多馀的、浪費的文字處理工作。如果能以“定音法”(不定調(diào))或用“定音調(diào)法”來定字,一定比用“定音、定調(diào)、定形法”快速而有效率。因此,為快速處理及語音需要而設(shè)的“音節(jié)代表字”(以下簡稱為音代字)應(yīng)該建立,目前尚無發(fā)明。
昔日的中文打字機(jī),進(jìn)行文字處理時,以大鍵盤輸入,一字一鍵,整字輸入,直觀易行,唯一缺點是字盤過大,找字不易。目前輸入鍵盤儘求縮小,如要以一字一鍵“整字輸入”的可能性不復(fù)存在。但科技發(fā)明,日新月異,輸入設(shè)備的多樣化、高解析度圖形卡及高解析度屏幕顯示器的發(fā)明,使整字輸入的理想,成為可能。整字輸入,直觀易行合乎國人習(xí)慣外,以“整字”的碼元儲存較以“拼音字母”節(jié)省儲存體的空間,“整字輸入”的處理應(yīng)值得提倡。
經(jīng)驗告訴我們當(dāng)編輯一篇文章時,其所使用的每一個字,我們并沒有相同的“瞭解”;當(dāng)然有些字的“音形”都很清楚,但是有的僅知其“聲韻調(diào)”而不知其“形”,有的僅知其“形”而不知其“聲韻調(diào)”的,不一而足;當(dāng)然,吾人追求的中文的輸入方法應(yīng)具有“彈性的”(FUZZY)檢字能力,以配合使用人對字的不同瞭解;亦需要兼顧“缺字”的造字能力;進(jìn)一步要有高效率的“語詞”或“音代字”輸入功能。而目前中文文字處理欠缺一種“以使用人的文字瞭解及輸出入需要為基礎(chǔ)的整字輸入的文字處理”方法。
(四)發(fā)明目的綜合上述,本發(fā)明所欲解決的問題是(1)配合使用人對字的不同瞭解採用具有彈性的檢字法,一次搜尋即可檢出所要用字;(2)無聲字或符號等以分類的方法,整字輸入;(3)以造字方法解決缺字、無字、找不到字及多文種文字輸入;(4)“語詞”輸入,以加速處理文字;(5)“音節(jié)代表字”的創(chuàng)建使用,除加速處理大量文字輸出入功能外,并給語音處理提供重要基礎(chǔ)。吾人需要一套有效、易學(xué)、易用、免記憶編碼的文字處理方法,因此本法結(jié)合數(shù)統(tǒng)方法、資料整理、中文文字學(xué)、人體工學(xué)、圖形技術(shù)、電算系統(tǒng)等多種科學(xué)之知識,經(jīng)過實證(本申請案的全部文字及圖形處理是在本發(fā)明的方法下實踐的),肯定的說,本發(fā)明是漢語文字處理整體的解決方案,在一個方法下,完全不需記憶或翻閱文字編碼,使用屏幕顯示字盤,使略知音形者皆能檢字、輸入語詞或造字而迅速編輯多文種文書及資料。由於操作簡易,人人便樂於使用,使文字處理成為賞心悅事,并藉電算機(jī)的普遍使用,大大提高全民的生產(chǎn)力。
發(fā)明內(nèi)容
本發(fā)明是一種單字及語詞輸出入的方法,屬於電算機(jī)領(lǐng)域。本發(fā)明將中文的文字處理范圍分為有字處理及無字處理兩大項。有字處理是指處理電算系統(tǒng)內(nèi)已存在的文字及符號而言,可定義為單字及複字兩類單字處理是指單一文字的處理,包括有聲字的檢字及無聲字的檢字;複字處理是指兩個文字以上的處理,在本發(fā)明稱之為語詞處理,語詞以字?jǐn)?shù)多寡分類,分為二字成語、三字成語、四字成語、多字成語、俗諺、常用詞彙、及文書檔案等。無字處理是指電算系統(tǒng)內(nèi)沒有的文字及符號而言,“沒有”是指不存在或找不到的文字及符號,需要造字才能處理。本發(fā)明之方法可適用於任何電算機(jī)系統(tǒng),其輸入設(shè)備則需要,鍵盤、光學(xué)點輸入設(shè)備(Optical Pointing Device,如滑鼠、光筆、軌跡球、滑鼠筆等的任何一種均可)而語音輸入設(shè)備則為選擇性的(Optional)可有可無。以下說明,為方便計,以滑鼠解說。本發(fā)明使用圖形技術(shù),利用直觀式屏幕鍵盤,使用人以滑鼠點字輸入。有聲單字是以發(fā)音、聲調(diào)、部首及筆劃等多種標(biāo)準(zhǔn),可以不按順序任意組合的交集,檢出合格字,再由合格字點字輸入;無聲字(英文、多文種字母、符號、及新字等)逕由分類的螢?zāi)绘I盤點字輸入。無字或缺字的輸入以線上(On Line)造字,存入字庫,以無聲字(新字)處理方式輸入。輸入語詞是以上述方法檢出語詞的第一字或語詞最前面的幾個字,然后按所要用的語詞長度,點取對應(yīng)的語詞命令(包括二字成語、三字成語、四字成語、辭彙、俗諺及檔案),檢出合格成語詞(第一字相同者),再由屏幕鍵盤點取合用的語詞輸入。本法採直觀式屏幕鍵盤,以視覺操作,使用人不需訓(xùn)練或記憶代碼;只要稍知文字音形之一部分,應(yīng)用交集原理,一次即就可找到所要找的字;此法因具有線上(On Line)造字的能力,即造即用,所以本法之下,無所謂的無字或缺字的問題,多文種輸入的難題亦因此得到解決;本法具有語詞輸入能力,故輸入效率高;音代字的建立及使用,可大量處理輸入,自動替換,輸入效率更高,請參考圖21。上述本發(fā)明之流程,請參考
圖1。為進(jìn)一步的說明,分五節(jié)說明其內(nèi)容(1)有聲字的檢字;(2)無聲字的檢字;(3)缺字的造字;(4)語詞的輸入;(5)音代字的建立應(yīng)用及輸出入;如下
(1)有聲字的檢字音形為漢語有聲字的定字要素,可分為發(fā)音,部首(字根或筆形),聲調(diào),及筆劃四標(biāo)準(zhǔn)(Criteria),參考圖2。使用人在進(jìn)行檢字編輯文書時,讓使用人表達(dá)(輸入)所需文字的已知標(biāo)準(zhǔn)(發(fā)音,部首,聲調(diào),及筆劃),利用這些標(biāo)準(zhǔn)與字庫文字集所有文字的交集(Intersection),這樣便可以排除“混淆”情況,通常一次就可正確檢出所需用字,不需一試再試。根據(jù)研究漢語文字在各標(biāo)準(zhǔn)間的分配情況后,發(fā)現(xiàn)兩個事實可用來解決問題第一、中文文字在部首間的分配並不平均,參考圖24及圖25。第二、極少數(shù)的漢語文字具有同音及同形(部首、字根或筆形)的。利用這些特質(zhì),吾人可以在一個方法下,表達(dá)對各別文字的“已知”發(fā)音、部首、聲調(diào)及筆劃,經(jīng)中文人工智慧搜尋判斷,只有極少數(shù)的合格字在屏幕列示,再由這些“少數(shù)”合格字檢字進(jìn)行編輯。
有聲字的定字輸入法中的四個要素,詳述如下①發(fā)音漢語拼音下有兩種屏幕的列示方法一為聲韻屏幕列示法即按聲母、韻母排列(參見圖3);二為字母音代字法即屏幕僅列字母,當(dāng)字母被選之后,該字母所有音節(jié)(或音代字)由屏幕列示,再由使用人點取輸入;如圖4所示以字母“a”被選為例,屏幕就列示“a”字母所有音節(jié)(或音代字),即“a”“ai”“an”“ang”“ao”或
。當(dāng)發(fā)音不詳時,不詳?shù)钠匆艋蚵暷富蝽嵞妇浴啊睢碧娲?br>
②聲調(diào)聲調(diào)有七個即輕、一、二、三、四聲,及輕一,二三合聲,其符號為“·”“-”
,參見圖5。本法獨創(chuàng)輕一合音其符號為“
”,及二三合音其符號為“
”,以補(bǔ)國人對輕聲、一聲難辨,二聲、三聲難分的缺點。其合音之效果相當(dāng)於分別選擇單獨聲調(diào)再將合格字合併供使用人選用,唯合音之輸入效率較分別輸入為高。
③部首傳統(tǒng)部首、字根、及筆形,三者均為字形的要素,以其中的任一種做為檢字的標(biāo)準(zhǔn)鈞有抑減合格字的作用,由於字根及筆形之法,不勝枚舉,故本發(fā)明以“部首”一詞代替?zhèn)鹘y(tǒng)部首、字根、及筆形三者。由於傳統(tǒng)部首數(shù)太多,使用困難;但利用圖24的數(shù)據(jù),可使用數(shù)個屏幕並按“重要性”列示,其法為“較重要部首列示而其馀部首概括以‘?’列示”,如圖8之屏幕列示。據(jù)統(tǒng)計部首數(shù)為186個,其中重要性最高的23個部首約佔全中文字的54%,而其他的163個部首僅佔全數(shù)46%,本發(fā)明均衡部首之重要性及一般使用人辨字之速度,實驗之結(jié)果發(fā)現(xiàn)以23個部首之效果頗佳,故本發(fā)明部首的第一屏幕以23個部首,配合一“其他部首”(可以“?”或任何圖形表示)來代表全部字之部首,如此可減輕使用人眼力之負(fù)擔(dān),以達(dá)成有效迅速的輸入。而列示之部首數(shù)可按需要酌量調(diào)整,其檢字之有效性依然存在。效率較低的部首可置於第二屏幕以后列示,以備不時之需,或不使用。
④筆劃列示的方法兩種一為系統(tǒng)將所有筆劃分為幾個組,每個組給一個名稱,使用人便以這個名稱來選筆劃,例如1到10劃,稱為“少筆”,11到18劃,稱為“中筆”,18劃以上,稱為“多筆”,使用人可以用“多筆”來檢取18劃以上的字;二為系統(tǒng)列示所有筆劃數(shù),例如1到30劃,使用人可以用兩個筆劃數(shù)來定義所要的筆劃范圍,例如12到16劃,筆劃數(shù)列示表參見圖7。當(dāng)然筆劃數(shù)及分組可隨需要增減。
為兼顧臺灣省及少數(shù)海外地區(qū)使用ㄅ夂ㄇ37個注音符號的人士,其有聲字的檢字方法可調(diào)整為使用人檢字編輯文書時,可不按任何順序任選(可以選用或不選用)本發(fā)明所列示的注音、部首、聲調(diào)及筆劃一個或一個以上;然后本發(fā)明利用交集的原理,選擇合於標(biāo)準(zhǔn)的合格字,然后使用人再進(jìn)行以選用或不選用這些合格字,如被選用,這些字就將加入編輯進(jìn)行中的文書。注音的排列有兩種方式一為聲韻屏幕列法按聲母、韻母排列(參見圖9);二為字母音代字法屏幕列示所有的注音符號,當(dāng)其中的一個注音符號被選之后,該注音符號的所有音節(jié)(或音代字)由屏幕列示,以注音符號“ㄈ”被選為例,參見圖10,“ㄈ”的所有音節(jié)(或音代字)由第二屏幕列示。聲調(diào)計有七個即輕、一、二、三、四聲,及輕一,二三合聲,其符號,參見圖11。部首共有214個,按其所含字?jǐn)?shù)多寡,統(tǒng)計各個部首的重要性,參見圖25。筆劃的列示法兩種一為系統(tǒng)將所有筆劃分為幾個組,每個組給一個名稱,使用人便以這個名稱來選筆劃,例如1到10劃,稱為“少筆”,11到18劃,稱為“中筆”,18劃以上,稱為“多筆”,使用人可以用“多筆”來選取18劃以上的字;二為列示所有筆劃數(shù),例如1到30劃,使用人可以用兩個筆劃數(shù)來定義所要的筆劃范圍,例如12到16劃,筆劃數(shù)列示表參見圖7。由於部首數(shù)太多,但利用圖25的數(shù)據(jù),可使用數(shù)個屏幕並按“重要性”列示,其法為“較重要部首列示而其馀部首概括以‘?’列示”,如圖13之屏幕列示。據(jù)統(tǒng)計部首數(shù)為214個,其中重要性最高的23個部首約佔全中文字的62%,而其他的191個部首僅佔全數(shù)38%,本發(fā)明均衡部首之重要性及一般使用人辨字之速度,實驗之結(jié)果發(fā)現(xiàn)以23個部首之效果頗佳,故本發(fā)明部首的第一屏幕以23個部首,配合一“其他部首”(可以“?”或任何圖形表示)來代表全部字之部首,如此可減輕使用人眼力之負(fù)擔(dān),以達(dá)成有效迅速的輸入。而列示之部首數(shù)可按需要酌量調(diào)整,其檢字之有效性依然存在。效率較低的部首可置於第二屏幕以后列示,以備不時之需,或根本不使用。以上注音、部首、聲調(diào)及筆劃的屏幕的列示方法,可以按需要彈性調(diào)整(各標(biāo)準(zhǔn)的屏幕的列示方法如有多種時,可取一種或多種),參見圖13。
本法以發(fā)音,聲調(diào),部首及筆劃數(shù)的多重標(biāo)準(zhǔn)(Criteria),使用人可以任何順序,及任何組合(個別要素均為可有可無,依使用人對該字之瞭解而異),其組合之效果相當(dāng)有效迅速,非其他輸入法可相提並論的。以注音法為例,企圖以僅有的4百多個發(fā)音由七千多個字中來選取一個字,其合格字往往太多,而造成使用人檢字之困難。但若以部首來約束同音之字,其最后合格之字?jǐn)?shù)將大大減少。類似的情形亦存於部首法,由於部首之分配不均,極大多數(shù)的字集中於少數(shù)的部首,而造成其合格字太多及使用人檢字之困難,此外214個部首以超出一般人能一目了然的數(shù)目,因而加深使用人操作之困難。一般而言,使用人須熟知文字之資料才能順利一次找到所要的字。本法改善了“多次檢字”的現(xiàn)法,放寬使用人對文字的知識的要求,及語音的范圍。本法不須強(qiáng)記,或解碼,單憑直覺及一般人所有的語言常識,即可迅速有效的輸入中文及其他符號。本方法的有效性,以實例說明如下例一以GB 2312-80字集,找“本”字。
1.輸入ben合格字賁奔錛苯本畚夯坌笨2.輸入ben
合格字苯本畚笨3.輸入ben 木 -本發(fā)明之方法合格字本例二以BIG-5 常用字,找“利”字。常用字請參見圖26。
1.輸入ㄌ-合格字力叻立吏利李里例戾俐俚哩娌栗浬貍荔鬲唳梨犁理琍笠粒莉喱痢慄溧蜊裡漓蒞貍厲履犛璃鋰?yán)钑窔v澧罹勵隸癘禮厘鎘離鯉壢瀝麗礪礫醴儷蠣蠡酈欐邐靂籬驪2.輸入ㄌ-
合格字力叻立吏利例戾俐栗荔鬲唳琍笠粒莉痢慄溧蒞厲暦歷勵隸癘鎘壢瀝麗礪礫儷蠣酈欐靂3.輸入ㄌ- 刀 -本發(fā)明之方法合格字利由上看出本發(fā)明之方法產(chǎn)出的合格字極少,檢字容易效率高。
(2)無聲字的檢字不屬於有聲字的檢字,均屬之。無聲字的檢字方法,其特徵為以分類字盤,由使用人點字輸入。其字盤分類按實際需要而設(shè),可分為數(shù)字、英文、日文、俄文、希臘文、漢語拼音、漢語注音、漢語部首、常用符號、其他多文種字、新字等。其中數(shù)字、英文、日文、俄文、希臘文、漢語拼音、漢語注音、漢語部首字盤的無聲字取自系統(tǒng)字庫;新字字盤的無聲字來自造修字機(jī)的造字;其他多文種字盤的無聲字來自文書編輯器所編輯的多文種檔案;常用符號的無聲字來自文書編輯器所編輯的常用符號檔案。字盤以屏幕顯示,其大小按實際需要而設(shè),以視覺能力所能負(fù)荷為合適;以14吋屏幕為例,不超過百字為宜。使用人首筅選用適當(dāng)分類字盤,屏幕顯示該類字盤所有的字符,再由使用人點字輸入。其流程請參見圖1;以使用日文字盤為例,參見圖16,使用人只需點取字盤中的日文字母,該字母就被輸入到編輯中的文書。
(3)無字的造字造修字機(jī)(請參見圖14)是無字、缺字、找不到字時均可使用,可造世界字(多文種文字或任何圖形),其特徵為提供完全中文作業(yè)環(huán)境,使用人造字修字時,不須記憶任何字之代碼或以鍵碼的方式來指定所要參考之字,任何操作均可以點輸入設(shè)備(滑鼠或光筆)完成,以提供使用人最方便及迅速的造字法。使用人可利用現(xiàn)有之字形,其來源包括經(jīng)由多重標(biāo)準(zhǔn)交集檢字法所檢出之系統(tǒng)文字及符號,或由參考字盤中點取使用人已造之新字,利用現(xiàn)有之字形並配合系統(tǒng)提供之中文命令集(Command Icon),包括取點,單線,選區(qū),擦線,清除,劃方,反相,中空,轉(zhuǎn)向,伸縮,對稱,移動,暫存,取消等,將該字修飾為使用人所要之新字(或多文種文字)。使用人之屏幕工作區(qū)可在1∶1的實際字上(參考圖14右下的工作區(qū))或在選區(qū)后放大的工作區(qū)(參考圖14左邊的工作區(qū),其倍數(shù),按實際需要而定)。使用人依本身之需要選擇造字或修字。使用人不須記憶新字之代號,也不須以鍵碼的方式來指定所要修改之字。當(dāng)使用人選取修字命令時,系統(tǒng)要求使用人由參考字盤中點取所要修改之新字,在使用人定義所要修改之字以后的一切操作步驟均與造字相同,當(dāng)使用人點取存檔時,系統(tǒng)將以使用人所創(chuàng)之新字替換使用人定義所要修改之字,系統(tǒng)將修改參考字盤中之新字以反應(yīng)使用人選定的(字有不同的尺寸)新字字庫之實際內(nèi)容。
系統(tǒng)提供的修飾功能包括,取點,單線,選區(qū),擦線,清除,劃方,反相,中空,轉(zhuǎn)向,伸縮,對稱,移動,暫存,取消及還原等,供使用人能迅速有效地造字或修字,各功能之詳細(xì)說明如下
1.取點使用人以滑鼠點取所要的點。
2.單線使用人以滑鼠點取兩點來定義單線。
3.選區(qū);使用人以滑鼠點取一點(在圖14右下的工作區(qū)上)來定義放大工作區(qū)的中心點(在圖14左邊的工作區(qū)上)。
4.擦線使用人以滑鼠點取兩點來擦掉其間所通過的點。
5.清除使用人以滑鼠點取兩點來定義所要清除的范圍。
6.劃方使用人以滑鼠點取兩點來定義方形。
7.反相將全部的黑點改為白點同時將白點改為黑點而使該字黑白顛倒。
8.中空將字之中心清除而留下字的外圍。
9.轉(zhuǎn)向使用人以滑鼠點取一點來決定所要旋轉(zhuǎn)之方向。
10.伸縮用兩點來定義要改變的范圍,再以兩點來定義要放置該圖之范圍。
11.對稱用兩點來定義要復(fù)制的范圍,再以另外一點來定義對稱之軸。
12.移動用兩點來定義要移動的范圍,再以另外一點來定義放置之位置。
13.暫存將現(xiàn)有之字形存於暫存區(qū),以增加工作空間。當(dāng)需要時使用人可再把暫存之字形移回工作區(qū)。
14.取消取消最后一個指令所發(fā)生的效果。
15.檢字利用本發(fā)明的多重標(biāo)準(zhǔn)交集檢字法等,使用人可以檢取欲參考之字符以加速造字或修字。
16.參考字造字時參考字盤所列示之字為作為參考字之用;修字時,使用人必須由參考字盤中選取欲修改之字,使用人在選取欲修改之字后,參考字盤所列示之字恢復(fù)作為參考字之用途。
17.造字使用人要求創(chuàng)造不同尺寸的新字時需定義字的尺寸(參見圖18)。
18.修字使用人要求修改已創(chuàng)之新字時需定義所要修改的字,再按造字程序操作。
19.還原放棄現(xiàn)有之字形,將工作區(qū)回復(fù)到未工作前的狀況。
20.存檔將工作區(qū)中之字形寫進(jìn)使用人自創(chuàng)之新字庫。如果使用人欲造新字,該字形則被加在檔案之末,如果使用人欲修字,該字形則被用來替換使用人所指定之字。
21.出口離開本造修字機(jī)。
造修字機(jī)的屏幕圖示,參閱圖14,其造字尺寸或倍數(shù)可自行設(shè)定,控制流程請參閱圖18。
(4)語詞的輸入凡一字以上習(xí)用的漢字組合稱為“語詞”,“語詞”輸入的效果高於檢字輸入。其特徵為提供完全中文作業(yè)環(huán)境,以字?jǐn)?shù)多寡將語詞分為二、三、四、多字成語、俗諺、常用詞彙、及文書檔案等。輸入“語詞”以上述方法(有聲字的檢字以發(fā)音、聲調(diào)、部首及筆劃等多標(biāo)準(zhǔn)任意組合的交集檢字輸入)檢出第一字或語詞最前面幾個字再以語詞長度檢出合格語詞,整詞一次輸入。二、三、四、多字成語、俗諺來自系統(tǒng)成語資料庫,由各類成語書籍、詞典搜集整理而得。常用詞彙及文書檔案來自文書檔案庫,由使用人自行建立,字?jǐn)?shù)較少的語詞置於常用詞彙檔內(nèi),字?jǐn)?shù)較多的語詞置於文書檔案內(nèi),二者均隨使用人需要可以用文書編輯器編輯。除文書檔案以“中文檔名”列示於屏幕外,其他語詞均以語詞之實際內(nèi)容列示於屏幕,茲以有聲字的檢字法檢出“金”字為例的四字成語屏幕圖示(參閱圖17)。因為電算機(jī)的操作系統(tǒng)為英文,不識中文,文書檔案如以“中文檔名”列示於屏幕其法如次檔案管理及操作之特徵為提供中文的檔案操作命令集(Icon),使用人不須使用鍵盤鍵入檔名便可操作;系統(tǒng)提供檔案控制表,其上載檔案有關(guān)的資料(中英檔名、建立日期、更新日期、尺寸及保護(hù)等)以中文列示,供使用人識別選用;檔案控制表有兩種處理方式一為分散處理式,檔案有關(guān)的資料於建檔時寫入各別的檔案內(nèi),並給特定的檔案識別碼(Extention),以作為操作系統(tǒng)(OS)區(qū)別中文檔案與英文檔案之用,當(dāng)檔案操作影響或改變檔案有關(guān)的資料(中英檔名、建立日期、更新日期、尺寸及保護(hù)等)時,操作系統(tǒng)(OS)就必須重建檔案控制表,重建之法是利用檔案識別碼,開啟(Open)所有識別碼相同的檔案,讀取檔案有關(guān)的資料並寫入檔案控制表中,以備下次取用。二為集中處理式,所有檔案有關(guān)的資料(檔名、建立日期、更新日期、尺寸及保護(hù)等)於建檔時寫入檔案控制表內(nèi)並有中英檔名對照資料及存滅記載,當(dāng)檔案操作影響或改變檔案有關(guān)的資料(中英檔名、建立日期、更新日期、尺寸及保護(hù)等)時,就須根據(jù)存滅記載清除實體檔案,並須更新檔案控制表的內(nèi)容,以備下次取用。以上兩種處理方式均可達(dá)成檔名中文化的目的,現(xiàn)就分散處理式說明施行步驟,如下①假定中文檔案是儲存於TF目錄中(Directory),中文檔案的識別碼(Extention)為chi。
②當(dāng)建立新中文檔案時,假定使用人定義中文檔案名是“中國名人錄”,系統(tǒng)就開一新檔,經(jīng)操作系統(tǒng)(OS)與應(yīng)用軟體介面,建立英文檔案名是c0000001.chi,所有檔案有關(guān)的資料(中文檔名,英文檔名、建立日期、更新日期、尺寸及保護(hù)等)寫入檔案內(nèi)。如有新建立中文檔案時,步驟如前述,唯英文檔名將為c0000002.chi。使用人定義中文檔案名是經(jīng)多重標(biāo)準(zhǔn)交集輸入法取得。此時,檔案控制表尚未存在。
③假定使用人要求操作中文檔案(經(jīng)圖形使用人介面“GUI”的任何命令,須要中文檔案作為命令操作的對象),系統(tǒng)首筅檢查檔案控制表是否存在,如不存在,就重建檔案控制表,重建之法是利用檔案識別碼(chi),開啟所有識別碼相同的檔案,讀取檔案有關(guān)的資料並寫入檔案控制表中,以備取用。此時,檔案控制表已存在。此后,檔案控制表如非檔案操作影響或改變檔案有關(guān)的資料(中文檔名,英文檔名,建立日期、更新日期、尺寸及保護(hù)等),不需重建檔案控制表。因為檔案控制表中有中文檔名及英文檔名的對照,當(dāng)GUI介面陳列檔名時,以中文檔名列示,所以英文檔名可不列示。
④檔案操作命令計有閱覽、印刷、改名、複制、刪除、保護(hù)、配對、輸出等,當(dāng)檔案操作影響或改變檔案有關(guān)的資料(檔名、建立日期、更新日期、尺寸及保護(hù)等)時,系統(tǒng)就必須重建檔案控制表,例如當(dāng)使用人要求操作刪除檔案時,GUI介面陳列檔案控制表時,以中文檔名列示,使用人點取所要檔名后,系統(tǒng)根據(jù)檔案控制表中文檔名及英文檔名的對照,即可找到英文檔名而執(zhí)行刪除,並重建檔案控制表,以備下次取用。
文書檔案以中文檔名列示於屏幕,茲以有聲字的檢字法檢出“?!弊譃槔闹形臋n名屏幕圖示,參閱圖15;使用人選用檔名是將該檔案之全部內(nèi)容輸入而非檔名。檔案之控制流程,參閱圖19。
(5)音代字的建立應(yīng)用及輸出入①音代字的建立漢語有聲字是漢字處理之大宗,為處理“難題”之所在,音代字為此而設(shè)計。漢字定字要素為定音(聲,韻),定調(diào),定形三者;為加速處理文字之需要,輸入以定音(聲,韻)或定音調(diào)(聲,韻,調(diào))輸出入為最迅速。為定音,定調(diào)而設(shè)計之文字稱為音節(jié)代表字,簡稱音代字。中文是單音節(jié)的文字,有聲韻而帶調(diào)的,這些聲韻據(jù)統(tǒng)計(GB2312-80),在漢語拼音下共為441個聲韻的不同組合,本發(fā)明設(shè)計了其文字的構(gòu)造如圖22,本圖所列示為第一聲的全套音代字,可依圖20之原則,複制擴(kuò)充為五個聲調(diào)的音代字,其每個字的組成要件是這樣設(shè)計實施的1.找出全部漢語的發(fā)音(音節(jié),即聲韻的不同組合);
2.由每個音節(jié)所含的文字中選出字形最易被辨認(rèn)且不是破音字者,作為音代字之漢字部份。
3.再為各音節(jié)所選出的字中加聲調(diào)符號‘·’、‘-’、‘
’、‘
’共5種。
4.再將每個音節(jié)所選出的字中加發(fā)音符號,如漢語拼音、注音符號等相等符號。(其式樣參見圖20)。
5.再將完成之音代字編碼,與其馀漢字平行,共存於同一系統(tǒng)中,依使用之需要檢出使用。
②音代字的應(yīng)用及輸出入漢語拼音下,見圖8所示,當(dāng)使用人決定以音代字輸入時,有兩種模式(Mode)可以選擇,一為定音,二為定音並定調(diào)。當(dāng)模式確定后,部首、筆劃或其他無關(guān)的標(biāo)準(zhǔn)(Criteria)成為無效的功能(Disable)。假定使用人選的是定音(定聲韻)而不定調(diào)的模式,使用人利用輸入設(shè)備(如滑鼠、光筆等)點取所要字之第一音,以“安”為例,其拼音為“an”,使用人點取“a”,(請見圖4所示的第一屏幕),系統(tǒng)經(jīng)由人工智慧判斷,將全部可能的發(fā)音列於屏幕為第二屏幕,(請見圖4所示的第二屏幕),其表達(dá)方式則由使用人依個人喜好由兩種音代字中選擇慣用的音代字,使用人點取“an”或“
”時此音代字就被輸入於編輯中之檔案。上述音代字的輸入過程只需兩鍵,較拼音法的1至6鍵為少。假定使用人選的是定音(定聲韻)並定調(diào)的模式,部首和筆劃則成為無效的標(biāo)準(zhǔn)(Criteria),僅發(fā)音及聲調(diào)為有效的標(biāo)準(zhǔn),使用人之操作方法與上述的模式完全相同,其結(jié)果也是完全相同,只是第二種模式所輸入的資料較第一種模式為更精確,系統(tǒng)語詞替換的精確度提高,故能節(jié)省更多的人工校訂程序。
以上是在漢語拼音下說明音代字的使用,在注音符號下之操作與上述完全相同,請參見圖10及圖13,惟此法下輸出之音代字為繁體文字,其形態(tài)請參見圖20。
使用人經(jīng)上述操作便建立了音代字檔案,這類檔案可以直接作為輸出之用,因為音代字本身具有可讀性。
例如漢字輸出我是中國人。
音代字輸出
。
如果使用人想直接檢出漢字(定形處理),請參見圖21下半圖所示。首筅經(jīng)過系統(tǒng)自動語意判斷(Sementics Analysis)程序處理(Process),以適當(dāng)?shù)恼Z詞替換音代字碼元(Code),這程序節(jié)省了大部分定形的輸入工作,未被替換的音代字工作須由人工完成校訂,完成后即可以漢字輸出。如果以音代字作為輸出之用亦無不可,因為音代字本身具有可讀性,輸出的形態(tài)亦有選擇性,如圖20所示或可以漢語拼音的形態(tài)作為輸出。若為語音輸出入時,其輸出的形態(tài)則可為原音輸出或轉(zhuǎn)為標(biāo)準(zhǔn)音輸出。當(dāng)轉(zhuǎn)換為標(biāo)準(zhǔn)音輸出時,系統(tǒng)以標(biāo)準(zhǔn)音之?dāng)?shù)量化資料來替換使用人的發(fā)音資料。
音代字的發(fā)明,主旨在加速及處理文字的輸出入,以上的說明是假定使用人沒有語音輸入設(shè)備的情況。當(dāng)使用人使用語音輸入設(shè)備時,其效果更佳,因為語音輸入時,完全不需按鍵,系統(tǒng)全部自動處理,但實施時有一些條件存在1.系統(tǒng)必須有預(yù)儲標(biāo)準(zhǔn)的音代字發(fā)音的語音資料庫;
2.使用人須有個人預(yù)儲的音代字發(fā)音的語音資料庫;
3.使用人輸入時,應(yīng)儘量與預(yù)儲的發(fā)音相近;
以上語音輸入的全部流程,請參見圖21。
(六)發(fā)明與現(xiàn)有技術(shù)相比所具有的優(yōu)點或積極效果中文的輸入方法很多,但是沒有一個方法不需文字編碼而具有“同時”處理有聲字、無聲字、符號、缺字、無字、找不到字、多文種文字、及語詞輸入的能力;也沒有一個方法具有“音節(jié)代表字”的創(chuàng)建及使用,以加速處理大量文字輸入功能之外,并給語音處理提供重要基礎(chǔ)。編輯文書中,沒有一個方法能一次搜尋即可檢出所要用的字,也沒有一個方法能即時(On Line)造字而解決缺字、無字、找不到字的問題。再以有聲字的檢字而言,聲韻屏幕列示法或字母音代字法其按鍵數(shù)1~3下(以同質(zhì)量的輸出相比較),而音代字的輸入過程只需兩鍵,較拼音法的1至6鍵為少而且沒有拼音的錯誤,這可校正鍵盤拼音輸入常有拼音錯誤的缺點,如以語音輸入則免按鍵,其輸入速度甚快無可比較。本發(fā)明以使用人的文字瞭解及輸出入需要為基礎(chǔ),提供了的整體的漢語文字處理方法,是一套有效、易學(xué)、易用、免記憶編碼、沒有技術(shù)恐懼感(Technical Fear)的文字處理方法;經(jīng)過實證(本申請案的全部文字及圖形處理是在本發(fā)明的方法下實踐的;文字處理包括不少新字的建立,沒有一個手寫文字夾雜在本申請案中;高倍造字機(jī)的功能,完成本案的全部圖形處理,對中文的處理來說,本方法已經(jīng)取得一定的成果),本方法不需記憶或翻閱文字編碼,使用屏幕顯示字盤,使略知音形者皆能檢字、輸入語詞或造字而迅速編輯多文種文書及資料。清鬆自然的操作,人人必然樂於使用,文字處理成為賞心悅事,因而大大提高全民的生產(chǎn)力。
(七)圖面說明圖 1漢語文字處理之方法流程圖。上半圖描述單字處理流程;下半圖描述複字(語詞)處理流程。虛線表示處理與資料之關(guān)係。
圖 2漢語的有聲文字定字法。定音、定調(diào)、及定形是定字的三方法。圖中沒有陰影的部分為漢語拼音(中國大陸地區(qū)使用)下的定字法;而有陰影的部分為注音符號(臺灣地區(qū)使用)下的定字法。
圖 3漢語拼音下的聲母韻母表。表中符號可用來表達(dá)漢語有聲文字的聲韻,是定音的一種方法。
圖 4漢語拼音下的字母、及兩種音代字表??捎脕肀磉_(dá)漢語有聲文字的聲韻,是定音的一種方法。圖中以“a”字母為例,列示其漢語拼音音代字(a,ai,an,ang,ao共5個)或漢語音代字(
5個)於屏幕供選。一經(jīng)檢選,該字之聲韻就此確定。
圖 5漢語拼音下的聲調(diào)表??捎脕頉Q定漢語的有聲文字的聲韻,是一種定音方法。
圖 6漢語拼音下的部首表??捎脕頉Q定漢語有聲文字的主要形狀,是文字定形的一種方法。
圖 7漢語拼音及注音符號下的筆劃表。是漢語的有聲文字形狀的一種特徵,是一種文字定形方法。圖中有兩種表示方式,第一種是系統(tǒng)提供幾類(如圖中的少筆、中筆、多筆),由使用人選用。第二種是系統(tǒng)提供筆劃表(如圖中的1~30),由使用人選用。選用筆劃的方法是用兩個筆劃數(shù)定義筆劃范圍,圖中假定這兩個筆劃數(shù)是12及16。
圖 8漢語拼音下的四個輸入標(biāo)準(zhǔn)發(fā)音,聲調(diào),部首,及筆劃。發(fā)音標(biāo)準(zhǔn)的屏幕列示用圖3或圖4的方法均無不可;本圖列示拼音字母,如有字母被選時,其字母的漢語拼音音代字或漢語音代字就列示於屏幕供選;如以圖3的聲韻母列示,使用人可以任意選用,聲韻不定時,以“☆”代替。聲調(diào)取自圖5漢語拼音聲調(diào)表的符號。部首取自圖6漢語拼音部首表的符號,可按需要分為幾個屏幕列示,按部首重要性排列,本圖列示23個重要性最高的部首(佔第一級漢字及第二級漢字總字?jǐn)?shù)的54%,參考圖24),其馀163部首以“?”代表。筆劃標(biāo)準(zhǔn)取自圖7的筆劃表(表1或表2均可)。漢語文字合於四個標(biāo)準(zhǔn)的任意組合的交集(Intersection),對使用人來說,這就是合格字。
圖 9注音符號下的聲母韻母表。表中符號可用來表達(dá)漢語有聲文字的聲韻,是定音的一種方法。
圖 10注音符號下的注音、及兩種音代字表。可用來表達(dá)漢語有聲文字的聲韻,是定音的一種方法。圖中以注音符號“ㄈ”為例,列示其注音符號音代字(ㄈㄚ ㄈㄛ ㄈㄟ ㄈㄡ ㄈㄢ ㄈㄣ ㄈㄤ ㄈㄥ ㄈㄨ共8個)或漢語音代字(
共8個)於屏幕供選。一經(jīng)檢選,該字之聲韻就此確定。
圖 11注音符號下的聲調(diào)表??梢杂脕頉Q定漢語的有聲文字的聲調(diào),是一種定音方法。
圖 12注音符號下的部首表。可用來決定漢語有聲文字的主要形狀,是文字定形的方法。
圖 13注音符號下的四個輸入標(biāo)準(zhǔn)發(fā)音,聲調(diào),部首,及筆劃。發(fā)音標(biāo)準(zhǔn)的屏幕列示用圖9或圖10的方法均無不可;本圖列示注音符號,如有注音符號被選時,其音代字就列示於屏幕供選;如以圖9的聲韻母列示,使用人可以任意選用,聲韻不定時,以“☆”代替。聲調(diào)取自圖11注音符號聲調(diào)表的符號。部首取自圖12注音符號部首表的符號,可按需要分為幾個屏幕列示,按部首重要性排列,本圖列示23個重要性最高的部首(佔常用字及次常用字總字?jǐn)?shù)的62%,參考圖25),其馀191部首以“?”代表。筆劃標(biāo)準(zhǔn)取自圖7的筆劃表(表1或表2均可)。漢語文字合於四個標(biāo)準(zhǔn)的任意組合的交集(Intersection),對使用人來說,這就是合格字。
圖 14造修字機(jī)的屏幕圖示,可造任合尺寸的文字或圖形。
圖 15檔案控制表的屏幕圖示。圖中以檔名為“專利名稱摘要”的內(nèi)容輸入。
圖 16多文種輸入。圖中以“日文”字盤輸入日文。
圖 17語詞輸入。圖中輸入第一字為“金”的四字語詞。
圖 18造修字控制流程。可造漢字、多文種文字及圖形,其尺寸倍數(shù)使用人自定。圖中處理1造修字控制流程的起點;處理2使用人設(shè)定所欲操作新字大小;處理3顯示造字機(jī)背景,即圖14;處理4檢查使用人所設(shè)定新字庫是否存在,並設(shè)定存字位置為字庫之尾;處理5使用人所設(shè)定新字庫存在時,將使用人所設(shè)定新字庫顯示於自創(chuàng)字區(qū)中,即圖14右上方;處理6使用人輸入操作命令,命令計有造字、修字、修飾功能、參考字、還原、存檔、出口等;處理7如果操作命令是“造字”時,回處理2操作;處理8如果操作命令是“修字”時,進(jìn)行處理9的操作;處理9使用人選取欲修的新字,然后進(jìn)行處理10的操作;處理10設(shè)定使用人所選的新字為存字的位置,然后回處理6操作;處理11如果操作命令是“修飾功能”時,進(jìn)行處理12的操作;處理12照使用人所選的修飾功能修飾字形,然后回處理6操作;處理13如果操作命令是“參考字”時,進(jìn)行處理14的操作;處理14使用人選取欲參考的字,將現(xiàn)有的字形與使用人選取的參考字合併(Or),然后回處理6操作;處理15如果操作命令是“還原”時,進(jìn)行處理16的操作;處理16設(shè)定存字的位置為新字字庫之尾,清除工作區(qū),然后回處理6操作;處理17如果操作命令是“存檔”時,進(jìn)行處理18的操作;處理18將現(xiàn)有的字形存於所設(shè)定存字之位置,設(shè)定存字的位置為新字字庫之尾,清除工作區(qū),然后回處理6操作;處理19如果操作命令是“出口”時,結(jié)束造修字程序;處理20造修字控制流程的終點。
圖 19檔案控制流程,提供使用人選取中文檔案名作為輸入之用。圖中處理 1檔案控制流程起點;處理 2檢查檔案錄是否存在,當(dāng)檔案錄不存在時,進(jìn)行處理3的操作,當(dāng)檔案錄存在時,進(jìn)行處理7的操作;處理 3尋找所有的中文檔案;處理 4檢查中文檔案是否存在;處理 5當(dāng)系統(tǒng)中沒有任何中文檔案時,顯示訊息並終止程序;處理 6當(dāng)系統(tǒng)中有中文檔案時,蒐集中文檔案名並建立檔案錄;處理 7顯示合乎尋找條件的中文檔案於屏幕;處理 8使用人輸入操作命令,計有選取檔名、換頁、尋找、執(zhí)行、出口等;處理 9判斷輸入命令是否為“選取檔名”,當(dāng)輸入命令為“選取檔名”時,進(jìn)行處理10,當(dāng)輸入命令不是“選取檔名”時,進(jìn)行處理11;處理10將使用人所選取的檔名存放於暫存區(qū),並回處理8;處理11判斷輸入命令是否為“換頁”;處理12當(dāng)輸入命令為“換頁”時,顯示使用人所選頁次的內(nèi)容,並回處理8;處理13當(dāng)輸入命令不是“換頁”時,判斷輸入命令是否為“尋找”;處理14當(dāng)輸入命令是“尋找”時,找出所有符合條件的檔名顯示於屏幕,並回處理8;處理15當(dāng)輸入命令不是“尋找”時,判斷輸入命令是否為“執(zhí)行”;處理16當(dāng)輸入命令為“執(zhí)行”時,將暫存區(qū)中的檔名送回呼叫程序,並回處理19;處理17判斷輸入命令是否為“出口”;處理18當(dāng)輸入命令為“出口”時,執(zhí)行終止程序,並回處理19;處理19檔案控制流程終點。
圖 20漢語拼音及注音符號下各種形態(tài)的音代字。圖中的音代字為放大體,字的外框僅表示其框內(nèi)的所有圖形為“單一”的文字,實際的音代字可參照圖22,每個音代字可由兩個8位元編碼(2 bytes)所代表。
圖 21音代字在語音輸入的使用流程。用來加速處理大量文字並可節(jié)省人工定字,本圖以語音輸入為例。
圖 22漢語拼音下第一聲的音代字全表??蓞⒄請D20建立五個聲調(diào)的所有音代字。
圖 23本發(fā)明之硬軟件介面(Interfaces)及資料通道(Data Path)。
圖 24漢語拼音下部首重要性統(tǒng)計表。本表根據(jù)中國國標(biāo) GB 2312-80共收字符7445個所做的統(tǒng)計分析。資料顯示前面的23個部首,佔全部文字的54%;前面的62個部首,佔全部文字的80%,其馀124個部首,佔全部文字的20%,為低效率部首。
圖 25注音符號下部首重要性統(tǒng)計表。本表根據(jù)臺灣 BIG-5共收字符13053個所做的統(tǒng)計分析。資料顯示前面的23個部首,佔全部文字的62%;前面的62個部首,佔全部文字的87%,其馀152個部首,佔全部文字的13%,為低效率部首。
圖 26漢語文字輸出。圖中以“漢語第一級漢字簡繁體對照”輸出。
(八)實施本發(fā)明的最好方式本發(fā)明之方法可適用於任何電算機(jī)系統(tǒng),需結(jié)合電腦主機(jī)、監(jiān)視器、圖形卡、硬碟機(jī)、軟碟機(jī)、印表機(jī)、圖形的使用人介面(GUI),電腦作業(yè)系統(tǒng)(OS),而其輸入設(shè)備則需要,鍵盤、光學(xué)點輸入設(shè)備(Optical Pointing Device,如滑鼠、光筆、軌跡球、滑鼠筆等的任何一種均可),至於語音輸出入設(shè)備及語音卡則為選擇性的(Optional)可有可無。參閱圖23。完全中文作業(yè)環(huán)境下,不需任何中文系統(tǒng),利用圖形技術(shù),其流程參閱圖1。其實施之步驟如下(1)判斷輸入之命令,執(zhí)行有聲字、無聲字、造字、及語詞處理;
(2)判斷有聲字文字輸出入的形態(tài),執(zhí)行音代字或有聲字、無聲字、造字、及語詞的輸出入。
(3)判斷無聲字字盤的分類命令,執(zhí)行數(shù)字、英文、日文、俄文、希臘字母、漢語拼音、漢語注音、漢語部首、常用符號、多文字盤、新字符號之處理;
(5)執(zhí)行造字及圖形之處理,當(dāng)處理完畢,儲存至自創(chuàng)字庫檔或其他檔案中;
(4)判斷語詞之輸入命令,執(zhí)行二字成語、三字成語、四字成語、多字成語、俗諺、常用詞彙、文書檔案處理;
(5)判斷執(zhí)行上述屏幕圖形有關(guān)之處理;
(6)判斷檔案輸出的形態(tài)命令,執(zhí)行語音,印刷,屏幕列示之處理;
本發(fā)明之實施在有聲字的處理,可按圖2所示,分漢語拼音(如圖3~圖7)及注音符號(如圖7,圖9~圖12)為兩個系統(tǒng),分開執(zhí)行而各別按使用需要轉(zhuǎn)換“繁體”或“簡體”中文;亦可將圖3~圖13之漢語拼音注音符號合併處理,為一個繁簡並存中文系統(tǒng),提供使用人有更多的選擇;以上二者均是目前國人迫切需要的電算系統(tǒng)。
權(quán)利要求
1.本發(fā)明漢語文字處理之方法是一種單字及語詞輸出入的方法其特徵是文字處理之方法使用圖形介面(GUI),在編輯程序中,使用人在即時作業(yè)時(OnLine)可以用點輸入設(shè)備(Pointing Device)檢取漢語有聲字、無聲字、造修字、輸入語詞、文書檔案、音代字等處理而迅速編輯漢語及多文種文書、資料及數(shù)據(jù);其實施之步驟如下(1)判斷輸入之命令,執(zhí)行有聲字、無聲字、造字、文書檔案、及語詞處理;(2)判斷有聲字文字輸出入的形態(tài),執(zhí)行音代字或有聲字、無聲字、造字、及語詞的輸出入;(3)判斷無聲字字盤的分類命令,執(zhí)行數(shù)字、英文、日文、俄文、希臘字母、漢語拼音、漢語注音、漢語部首、常用符號、多文字盤、新字符號之處理;(4)執(zhí)行造字及圖形之處理,當(dāng)處理完畢,儲存至不同尺寸的自創(chuàng)字庫檔或其他檔案中;(5)判斷語詞之輸入命令,執(zhí)行二字成語、三字成語、四字成語、多字成語、俗諺、常用詞彙、文書檔案處理;(6)判斷執(zhí)行上述屏幕圖形有關(guān)之處理;(7)判斷檔案輸出的形態(tài)命令,執(zhí)行語音,印刷,屏幕列示之處理。
2.按權(quán)利要求第1所說的漢語有聲字處理,其特徵為漢語有聲字以發(fā)音、聲調(diào)、部首(字根或筆形)及筆劃等多種標(biāo)準(zhǔn)(Criteria),可以不按順序任意組合與字庫文字集所有文字的交集(Intersection),檢出合格字,再由合格字點字輸入。
3.按權(quán)利要求第2所說的發(fā)音標(biāo)準(zhǔn),其特徵是在漢語拼音下,有兩種屏幕的列示方法一為聲韻屏幕列示法即按聲母、韻母排列,即圖3;二為字母音代字法即屏幕僅列字母,當(dāng)字母被選之后,該字母所有音節(jié)(或音代字)由屏幕列示,再由使用人點取輸入,即圖4所示,以字母“a”被選為例,屏幕就列示“a”字母所有音節(jié)(或音代字);而在注音符號下,注音的排列有兩種方式一為聲韻屏幕列示法按聲母、韻母排列,即圖9;二為注音音代字法屏幕列示所有的注音符號,當(dāng)其中的一個注音符號被選之后,該注音符號的所有音節(jié)(或音代字)由屏幕列示,圖10以注音符號“ㄈ”被選,列出其所有的音節(jié)(或音代字),由第二屏幕列示。
4.按權(quán)利要求第2所說的聲調(diào)標(biāo)準(zhǔn),其特徵是在漢語拼音下,聲調(diào)有七個即輕、一、二、三、四聲,及輕一,二三合聲,其符號為“·”“-”“
”;而在注音符號下,聲調(diào)也有七個即輕、一、二、三、四聲,及輕一,二三合聲,其符號為“·”“ ”“
”。
5.按權(quán)利要求第2所說的部首標(biāo)準(zhǔn),其特徵是在漢語拼音下,利用圖24的數(shù)據(jù),可按“部首重要性”排列並分為數(shù)個屏幕列示,其法為“每個屏幕選列一些部首外而其馀未列部首概括以‘?’列示”,如圖8;而在注音符號下,利用圖25的數(shù)據(jù),方法同上,如圖13之屏幕列示;列示之部首數(shù)可按需要酌量調(diào)整;重要性較低的部首可置於第二屏幕以后列示,或根本不使用。
6.按權(quán)利要求第2所說的筆劃標(biāo)準(zhǔn),其特徵是列示的方法兩種一為系統(tǒng)將所有筆劃分為幾個組,每個組給一個名稱,使用人便以這個名稱來選筆劃,例如“少筆”、“中筆”及“多筆”,使用人可以用“多筆”來檢取筆劃較多的字,使用人可更改系統(tǒng)設(shè)定的各組筆劃范圍;二為系統(tǒng)列示筆劃數(shù)表,使用人可以用兩個筆劃數(shù)(上下限)來定義所要的筆劃范圍;筆劃數(shù)及分組可隨需要增減,完全用滑鼠操作,免用鍵盤。
7.按權(quán)利要求第1所說的無聲字處理,其特徵是以分類字盤,由使用人點字輸入;其字盤分類按實際需要而設(shè),可分為數(shù)字、英文、日文、俄文、希臘文、漢語拼音、漢語注音、漢語部首、常用符號、其他多文種字、新字等;其中數(shù)字、英文、日文、俄文、希臘文、漢語拼音、漢語注音、漢語部首字盤的無聲字取自系統(tǒng)字庫;新字字盤的無聲字來自造修字機(jī)的造字;其他多文種字盤的無聲字來自文書編輯器所編輯的多文種檔案;常用符號的無聲字來自文書編輯器所編輯的常用符號檔案,完全用滑鼠操作,免用鍵盤。
8.按權(quán)利要求第1所說的造修字處理,其特徵是造修字機(jī)是無字、缺字、找不到字時使用,可造世界字(多文種文字或任何圖形),使用人造字修字時,不須記憶任何字之代碼或以鍵碼的方式來指定所要參考之字,任何操作均可以點輸入設(shè)備(滑鼠或光筆)完成;使用人可利用現(xiàn)有之字形,其來源包括經(jīng)由多重標(biāo)準(zhǔn)交集檢字法所檢出之系統(tǒng)文字及符號,或由參考字盤中點取使用人已造之新字,利用現(xiàn)有之字形並配合系統(tǒng)提供的修飾功能,將該字修飾為使用人所要之新字(或多文種文字);使用人之屏幕工作區(qū)可在1∶1的實際字上或在選區(qū)后放大的工作區(qū);使用人依本身之需要選擇造字或修字;使用人不須記憶新字之代號,也不須以鍵碼的方式來指定所要修改之字;當(dāng)使用人選取修字命令時,系統(tǒng)要求使用人由參考字盤中點取所要修改之新字,在使用人定義所要修改之字以后的一切操作步驟均與造字相同。
9.按權(quán)利要求第1所說的語詞處理,其特徵為語詞以字?jǐn)?shù)之多寡可分為二、三、四、多字成語、俗諺及常用詞彙等;當(dāng)輸入“語詞”時,以有聲字的檢字法檢出第一字或語詞最前面幾個字(使用人自由決定)再以語詞長度檢出合格語詞,以滑鼠點取,整詞一次輸入;其中二、三、四、多字成語、俗諺來自系統(tǒng)成語資料庫,由各類成語書籍、詞典搜集整理而得;常用詞彙來自文書檔案庫,由使用人自行建立,字?jǐn)?shù)較少的語詞置於常用詞彙檔內(nèi),使用人用文書編輯器編輯。
10.按權(quán)利要求第1所說的檔案輸入處理,其特徵是當(dāng)輸入中文檔案時,可以有聲字的檢字法檢出要輸入中文檔名,再經(jīng)檔案控制表(File Control List)的搜尋列示處理,使用人可點取執(zhí)行或選其他檔案輸入,其中文檔名不需鍵入,只需使用滑鼠點取,或翻頁選檔即可。
11.按權(quán)利要求第10所說的檔案控制表處理,其特徵是檔案控制表控制中文文書編校之檔案,可以用相同之中文檔名、無名檔、或可用任何文字符號,當(dāng)使用人編輯新檔用有聲字的檢字法定義中文檔名時,檔名及建檔日期等有關(guān)資料被寫入檔案頭(File Header)並以特定的檔案的識別碼(Extention)來表示其為中文檔案。當(dāng)使用人校訂舊檔時,中文檔案(C*.CHI)的檔案頭全部讀出便可建立“檔案控制表”(File Control List),存儲該控制表於記憶器,然后設(shè)定第一個被選的為操作檔(Active File),再將操作檔所在頁次的資料用直接接觸列示記憶體的方法(Direct Access Display Memory),列示於屏幕,使用人編校檔案時不需鍵入檔名,只需使用滑鼠點取,或翻頁選檔,當(dāng)“確認(rèn)”的命令被選定時,現(xiàn)有的操作檔(Active)檔名就會被送回呼叫的程序(Calling Process)。
12.按權(quán)利要求第1所說的音代字處理,其特徵是在漢語拼音下共有441個聲韻的不同組合,本發(fā)明設(shè)計了其文字的構(gòu)造如圖22,本圖所列示為第一聲的全套音代字,這適合定音(聲,韻)法使用,可依圖20之原則,複制擴(kuò)充為五個聲調(diào)的音代字,這適合定音調(diào)(聲,韻,調(diào))法使用,其每個字的組成要件是這樣設(shè)計實施並使用在不同的模式(Mode)的(1)找出全部漢語的發(fā)音(音節(jié),即聲韻的不同組合);(2)由每個音節(jié)所含的文字中選出字形最易被辨認(rèn)且不是破音字者,作為音代字之文字部份;(3)再為各音節(jié)所選出的字中加聲調(diào)符號‘·’、‘-’、
’共5種,其目的在易於識別其為音代字;(4)再將每個音節(jié)所選出的字中加發(fā)音符號,如漢語拼音、注音符號等相等符號,其式樣如圖20;(5)再將完成之音代字編碼,與其馀漢字平行,共存於同一系統(tǒng)中,依使用之需要檢出使用。
13.按權(quán)利要求第12所說的不同模式,是指漢語拼音下以音代字輸入時,有兩種模式(Mode)可以選擇,一為定音,二為定音並定調(diào);假定使用人選的是定音模式,部首、筆劃或聲調(diào)的檢字標(biāo)準(zhǔn)成為無效的功能,其輸出為第一聲的音代字;假定使用人選的是定音(定聲韻)並定調(diào)的模式,部首和筆劃則成為無效的標(biāo)準(zhǔn),其輸出為有聲調(diào)的音代字;在注音符號下,情形與上述完全相同,惟此法下輸出之音代字為繁體文字,其形態(tài)如圖20;使用人經(jīng)輸入操作建立了音代字檔案,這類檔案可以直接作為語音、印刷等輸出之用,因為音代字本身具有可讀性。
全文摘要
漢語文字處理之方法屬電算機(jī)領(lǐng)域,是一種單字及語詞輸出入的方法。有聲字以發(fā)音、聲調(diào)、部首(字根或筆形)及筆劃等多標(biāo)準(zhǔn)任意組合的交集檢字輸入;無聲字由分類字盤整字輸入;缺字時立即造字并以無聲字處理;語詞用上法檢字再以語詞長度檢出合格語詞輸入;并以音代字,做為快速輸出入、語音處理的基礎(chǔ)。本法使用圖形技術(shù),以屏幕顯示字盤,使略知音形者皆能檢字、輸入字符、語詞、檔案或造字而迅速編輯漢語及多文文書、資料及數(shù)據(jù)。
文檔編號G06F3/023GK1064359SQ92100888
公開日1992年9月9日 申請日期1992年2月8日 優(yōu)先權(quán)日1992年2月8日
發(fā)明者林采芬, 張廷誥 申請人:林采芬, 張廷誥