專利名稱:華文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種華文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換,更具體地說,涉及一種關(guān)于華文文字用字范圍、字義、字形、字音、語詞、語法的全面完整統(tǒng)一的方案——龔碼(Chinese Gugq Code),華文字的義、音、形冗余信息變通,及華文龔碼、國標(biāo)碼、大五碼等多種內(nèi)碼之間或同種內(nèi)碼之內(nèi)的多碼多向的完整規(guī)范化快速轉(zhuǎn)換。統(tǒng)一方案的簡繁一一對(duì)應(yīng)關(guān)系,也可依照本發(fā)明指引,在龔碼外的同種或多種內(nèi)碼間實(shí)現(xiàn)。
華語和華文是世界上歷史最悠久的語言文字。海內(nèi)外華人現(xiàn)行的規(guī)范語言以北京語為標(biāo)準(zhǔn)音,以北方話為基礎(chǔ)方言,以典型的現(xiàn)代白話文著作為語法規(guī)范。這種語言在簡化字使用區(qū)稱作漢語(以體現(xiàn)多民族平等的觀念),現(xiàn)代漢語的標(biāo)準(zhǔn)語是普通話;繁體字使用區(qū)稱作國語;海外多稱作華語。華語所形成的華文文字在簡繁體字使用區(qū)大多稱作華文和中文。記錄華語的文字在簡化字使用區(qū)稱作漢字,繁體字使用區(qū)稱作中文字、華文字或國字。用“普通話”來稱說漢語,在表達(dá)同宗同源方面不如“華語”那樣強(qiáng)烈。用“國語”來稱說漢語更不合適,因?yàn)樵诤M猓瑵h語通常并不是官方語言。根據(jù)綜合詞頻、詞頻方向平均值和詞義,語詞的對(duì)應(yīng)(“中文”無習(xí)慣上的“中語”對(duì)應(yīng)),同時(shí)也考慮到海內(nèi)外華人的認(rèn)同及便于國際交流時(shí)統(tǒng)一名稱,本發(fā)明用作“華語”、“華文”和“華文字”(簡稱“華字”),語和文合稱為“中華語言文字”,簡稱為“華語文”。在日常生活中,無論是華語所屬的漢藏語系,還是目前國際上通行的英語等所屬的印歐語系,都未把書面的“文”和講話的“語”分那么清楚。
華文字從古到今累計(jì)的字匯量大約為十一萬個(gè)(《異體字字典》收106,152字)。隨著文化、歷史的演變,有些華文字成了不再使用的“無效字”或極少使用的“罕用字”。目前中國大陸、新加坡等地使用華文簡化字(繁體字使用區(qū)稱之為“簡體字”),主要為國標(biāo)碼(即GB2312-1980,以下同),由中國國家標(biāo)準(zhǔn)總局在1981年公布,以作為全國的華文內(nèi)碼標(biāo)準(zhǔn)。國標(biāo)碼有6,763字(包括3,755個(gè)常用字和3,008個(gè)次常用字)及682個(gè)符號(hào)。中國臺(tái)灣、中國香港特區(qū)和海外華人社會(huì)使用華文繁體字(繁體字使用區(qū)稱之為“正體字”),主要為大五碼(即BIG5,以下同),有13,053字(包括5,394個(gè)常用字和7,659個(gè)次常用字)及408個(gè)符號(hào)。大五碼1984年由五大臺(tái)灣電腦公司共同制訂,因而取名“大五碼”?!跋愀墼鲅a(bǔ)字符集”有4,702個(gè)包括了廣州話方言字在內(nèi)的華文字符,配合大五碼的部分字一起使用。繁體字的臺(tái)灣用法和香港用法(即便不計(jì)廣州話方言字)有一定差異,是繁體字用法中的兩個(gè)較大分支。繁體字使用區(qū)通常將國標(biāo)碼和大五碼之外的廣州話特有方言字叫作香港字。
有較完善的文字規(guī)范,能獨(dú)立形成正式公開出版品的文字內(nèi)碼體系為單一內(nèi)碼,如國標(biāo)碼、大五碼和本發(fā)明的龔碼基本字符集。繁體字的香港用法也可視為單一內(nèi)碼。包括兩種以上單一內(nèi)碼的內(nèi)碼體系為綜合內(nèi)碼,如國標(biāo)碼擴(kuò)展字符集GBK(即GB13000-1993,包括21,886個(gè)字符),GB18030-2000(包括27,533個(gè)字符),大五碼擴(kuò)展字符集BIG5+(包括51,585個(gè)字符),國際碼Unicode。以上前三種擴(kuò)展字符集(因與原單一內(nèi)碼的編碼方式不同,且并非只包括擴(kuò)展延伸部分,應(yīng)稱作綜合字符集),都包括簡繁華文字、香港增補(bǔ)字和日、韓文字。以下如無特別注明,均指單一內(nèi)碼。
與本發(fā)明有關(guān)的華文文字的現(xiàn)行規(guī)范為1.文字使用者若選用某種華文文字單一內(nèi)碼,用字不應(yīng)超出這一內(nèi)碼的范圍(少數(shù)使用方言字的特殊情況例外),除非由編碼制訂者向原單一內(nèi)碼中系統(tǒng)性加字。不應(yīng)“缺字”(字與字之間出現(xiàn)非正常的空白)、“借字”(向另一內(nèi)碼“借”)、“多字代一字”(用幾個(gè)字來代替某一個(gè)字)或“自造新字”。
2.按嚴(yán)謹(jǐn)?shù)奈淖忠?guī)范,某種單一文字內(nèi)碼的所有正式公開形成品(如圖書、報(bào)刊、網(wǎng)頁、軟件等)都應(yīng)遵從這一內(nèi)碼的同一用字規(guī)范和習(xí)慣,不可以“多種單一內(nèi)碼混用”。
3.若不能達(dá)到以上標(biāo)準(zhǔn),按寬泛的文字規(guī)范,某種單一文字內(nèi)碼的所有正式公開形成品(如圖書、報(bào)刊、網(wǎng)頁、軟件、多媒體等)都應(yīng)遵從其用字規(guī)范和習(xí)慣的無選擇和無爭議部分。某種單一文字內(nèi)碼的同一正式公開形成品(如同一份報(bào)刊、同一家國際互聯(lián)網(wǎng)的網(wǎng)頁等),應(yīng)遵從自“可選擇和有爭議部分”中選定的標(biāo)準(zhǔn)和習(xí)慣。目前繁體字的使用基本上是按照這一規(guī)則。
如簡化字的“證”對(duì)應(yīng)繁體字的“證、証”,“證”與“証”沒有任何字義上的差別,屬于“可選擇”用字。如果一家繁體華文報(bào)紙選擇用“證”,那么該報(bào)紙中出現(xiàn)的所有這個(gè)字都要用“證”,而不能用“証”。不可以前面一篇文章用“證據(jù)”,后面一則廣告用“証據(jù)”。更不可以出現(xiàn)“事實(shí)證明那位教授既有的求証是錯(cuò)誤的”、“這份週報(bào)每逢周五推出”、“雇主不願(yuàn)再僱他”、“眾裡尋他——就在眼裏”或“在臺(tái)協(xié)會(huì)於臺(tái)北”這樣的字句。
4.一種轉(zhuǎn)換方法,在何種有關(guān)聯(lián)的內(nèi)碼之間、或何種綜合內(nèi)碼之內(nèi)轉(zhuǎn)換,轉(zhuǎn)換結(jié)果用何種有關(guān)聯(lián)的內(nèi)碼顯示、輸出都沒關(guān)系,但一定要與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格對(duì)應(yīng)。
如華文字的轉(zhuǎn)換,既可在國標(biāo)與龔碼、大五與龔碼、國標(biāo)與大五之間,或單一內(nèi)碼與Unicode、GBK或BIG5+之間,也可在以上某一綜合內(nèi)碼之內(nèi)。轉(zhuǎn)換結(jié)果的顯示或輸出可用目的單一內(nèi)碼,也可用以上有關(guān)聯(lián)的綜合內(nèi)碼。但轉(zhuǎn)為國標(biāo)碼簡化字的結(jié)果要與國標(biāo)碼的規(guī)范、習(xí)慣、用字范圍對(duì)應(yīng),轉(zhuǎn)為大五碼繁體字的結(jié)果要與大五碼的規(guī)范、習(xí)慣、用字范圍對(duì)應(yīng)。
以下是現(xiàn)行華文簡化字和繁體字在學(xué)習(xí)、使用、研究、轉(zhuǎn)換和統(tǒng)一諸方面所存在的一些問題1.一種華文內(nèi)碼的一個(gè)字有時(shí)對(duì)應(yīng)另一種華文內(nèi)碼中的多個(gè)字(一對(duì)多)(1)“同一字義”一對(duì)多如簡化字的“機(jī)”所對(duì)應(yīng)的繁體字的“機(jī)、機(jī)”。這種“一義多字、多語詞共用”(如異體字、異形詞等)的現(xiàn)象在華文用字中較為普遍,且現(xiàn)行華文文字工具書和華文文字轉(zhuǎn)換方法并未以系統(tǒng)規(guī)范的方法解決這一“不規(guī)范”的問題。
(2)“不同字義”一對(duì)多如簡化字的“制”所對(duì)應(yīng)的繁體字的“製、制”;繁體字的“參”所對(duì)應(yīng)的簡化字的“參、叁”。繁體字對(duì)于人稱用字字義的劃分較細(xì),如第二人稱用字,若為男性或不知道對(duì)方性別時(shí)用“你”,若為女性用“妳”。第三人稱用字,若為人以外的動(dòng)物用“牠”,非動(dòng)物用“它”。“妳”字在繁體字使用區(qū)內(nèi)的面向女性的雜志中特定字頻相對(duì)較高。作“別的”義解時(shí)簡化字將“其他”與“其它”分開,后者專用于事務(wù)(也可通用)。繁體字則只使用了“其他”。簡化字的三個(gè)常用助詞用字“的、地、得”,部分繁體字工具書只使用了“的、得”?!坝迷谠~或詞組后表明副詞性”時(shí),繁體字大多使用“的”。部分繁體字出版品中,將疑問代詞“哪”用作“那”。
(3)“有爭議字條”一對(duì)多如簡化字的“游”對(duì)應(yīng)繁體字的“游、遊”,“游”與“遊”有字義上的差別?!坝巍钡淖至x①在水里行動(dòng)。②江河的一段。③姓?!斑[”的字義①閑逛,從容地行走。②交友往還。但關(guān)于“不固定的”這一字義,不同的華文字典或詞典就有不同的解釋,在這一義項(xiàng)下屬于有爭議用字。
“同一字義一對(duì)多”與“有爭議字條一對(duì)多”的區(qū)別是,前者不存在字義的歸屬問題,而后者存在。
(4)“復(fù)雜狀況”一對(duì)多一種華文內(nèi)碼的一個(gè)字有時(shí)對(duì)應(yīng)另一種華文內(nèi)碼中或不同地區(qū)的“不同字義”或“同一字義”的多個(gè)字。如簡化字的“臺(tái)”所對(duì)應(yīng)的繁體字的“臺(tái)、臺(tái)、檯、枱、颱”。其中“颱”為單一義項(xiàng),而“臺(tái)、臺(tái)”、“檯、枱”在某些條目下是同一字義。
2.一種華文內(nèi)碼的某些字,有時(shí)在另一種華文內(nèi)碼中并無“字”可以對(duì)應(yīng),也就是說,使用“字轉(zhuǎn)字”的方式并不能作到“全面的、完整的”轉(zhuǎn)換。國標(biāo)碼有二百多個(gè)字不能轉(zhuǎn)為大五碼的“字”;大五碼約有四千多字不能轉(zhuǎn)為國標(biāo)碼的“字”。如以“魚”作部首并與“魚”有關(guān)聯(lián)的字,國標(biāo)碼有七十多字,大五碼有一百六十多字。其中國標(biāo)碼有十幾個(gè)、大五碼則有一百零幾個(gè)“魚”部的字不能轉(zhuǎn)為另一內(nèi)碼的“字”。僅化學(xué)用字一項(xiàng),國標(biāo)碼的二百零幾個(gè)字就有四十多個(gè)字不能轉(zhuǎn)為大五碼(某些化學(xué)用字在大五碼中有不同的用字和讀音)。不能轉(zhuǎn)換的字中并不全是“無效字”和“罕用字”。這就是有時(shí)在某些華文國際互聯(lián)網(wǎng)(國際計(jì)算機(jī)網(wǎng)絡(luò))或報(bào)紙上造成“缺字”的部分原因。
3.華文繁體字的規(guī)范和習(xí)慣較為復(fù)雜,如同為地名,可以用作“臺(tái)南”卻不可以用作“臺(tái)州”;繁體字的使用現(xiàn)狀較為混亂、失控,有的自立標(biāo)準(zhǔn)、自造新字。由于把握不住華文繁體字的規(guī)范和習(xí)慣,有的干脆選筆畫最多的字用。如“皇後街的範(fàn)先生喜歡人雲(yún)亦雲(yún)”,規(guī)范的用法應(yīng)為“皇后街的范先生喜歡人云亦云”。如“衹有他是喫過飯纔來的”,習(xí)慣的用法應(yīng)為“只有他是吃過飯才來的”。再如譯名“尼克鬆、斯裏蘭卡”,繁體字有專用翻譯用字,規(guī)范的用法應(yīng)為“尼克松、斯里蘭卡”。
4.以某種單一內(nèi)碼為基礎(chǔ)形成的華文文字工具書(字典、詞典、辭海等),對(duì)另一內(nèi)碼無解釋或解釋不完備。繁體字的工具書一般對(duì)簡化字不作解釋,將繁體字稱作“正體字”,其他則為“非正體字”。簡化字的工具書通常將繁體字作為“異體字”解釋,收錄了一些繁體字使用區(qū)已沒使用、大五碼也沒收錄的“無效字”;部分正在使用的繁體字卻沒有收錄;對(duì)收錄的某些繁體字的釋義與現(xiàn)行繁體字的規(guī)范和習(xí)慣不符。
5.以某種單一內(nèi)碼為基礎(chǔ)形成的常用華文文字工具書(字典、詞典等),對(duì)該種內(nèi)碼的解釋并不完備或字義的界定不夠嚴(yán)謹(jǐn)、科學(xué)。如大五碼的常用字典、詞典不能查全部大五碼的字,國標(biāo)碼的常用字典、詞典也不能查全部國標(biāo)碼的字。1981年公布的國標(biāo)碼只有六千多字,2002年出版的《新華字典》收錄了超過一萬字,國標(biāo)碼的“舭楱砩搿猓蚵虺嚌弳堀榪坶鼽肜艉葙枵崾”等字卻未被《新華字典》收錄。再如“馀”,簡化字常用工具書解釋為“已簡化為‘余’,用‘余’意義可能混淆時(shí),用‘馀’,如‘馀年無多’?!焙畏N情況下可能混淆,何種情況下不可能混淆?文字使用者很難在每一次用“余”時(shí),斟酌是否該用“馀”,是否會(huì)混淆。
6.綜合、擴(kuò)展字符集推出的目的是為了提供方便,讓使用者不會(huì)為了缺字而煩惱。但由于一種內(nèi)碼使用區(qū)的使用者對(duì)另一內(nèi)碼的文字規(guī)范了解不多,出現(xiàn)了“簡繁混用、多內(nèi)碼混用”的現(xiàn)象,且有逐漸增多的趨勢(shì)。簡化字使用區(qū)制作出版的繁體字報(bào)刊、國際互聯(lián)網(wǎng)頁的用字,有相當(dāng)一部分不符合現(xiàn)行繁體字的規(guī)范和習(xí)慣,繁體字使用區(qū)稱這種用字為“大陸繁體字”。由于沒有嚴(yán)格界定基本字符集與綜合字符集的功能作用差別,面向同一使用區(qū)內(nèi)的出版品出現(xiàn)了向綜合字符集“借字”并同原相關(guān)字混用的現(xiàn)象。如簡化字的出版品,出現(xiàn)“貳弍、揚(yáng)飏”等字混用的情況,按字頻方向值有增多趨勢(shì)。
7.同一個(gè)華文字,有時(shí)在不同地區(qū)的不同出版品中使用不同的字形,如臺(tái)灣許多出版品使用的“村檯床妝峰群略憑韭”,香港則大多用作大五碼并未包括的“邨枱牀粧峯羣畧凴韮”。有些字形的差異甚小,很容易混淆,如臺(tái)灣用的“衛(wèi)既夠”與香港用的“衞旣夠”;國標(biāo)碼與GBK收錄的“麼麵麺拼”與大五碼常用的“麼麵拼”。同一使用區(qū)內(nèi)的出版品,“一義多字、多語詞共用”的現(xiàn)象較普遍,且相應(yīng)的工具書上得不到規(guī)范性的解釋。
8.簡化字使用區(qū)和繁體字使用區(qū)在多種領(lǐng)域、多種行業(yè)的用詞、用語方面有差異,如簡化字用“計(jì)算機(jī)、網(wǎng)絡(luò)、表演、素質(zhì)、拼搏、抵制、嫉妒、訓(xùn)斥、迎合、調(diào)戲、保證書”,繁體字用“電腦、網(wǎng)路、作秀、質(zhì)素、打拼、杯葛、吃味、申誡、呵認(rèn)、吃豆腐、切結(jié)書”。簡化字的“愛人”相當(dāng)于繁體字的“太太、內(nèi)人”,而繁體字的“愛人”則相當(dāng)于簡化字的“熱戀中的情人”。有些專業(yè)用詞、用語的不同也與譯名不同有關(guān)。簡化字使用區(qū)意譯較多,如“激光、維生素、保險(xiǎn)、癌癥、草莓、訪談節(jié)目”;繁體字使用區(qū)音譯較多,如以上語詞譯作“鐳射、維他命、燕梳、砍殺爾、士多啤梨、脫口秀”。另外,漢語語法與國語文法,標(biāo)點(diǎn)符號(hào)用法,親族師友、中外貨幣、度量衡、歷史年表的稱謂等,也都有很大差異。
9.同一個(gè)華字,有時(shí)在國標(biāo)碼簡化字與大五碼繁體字中的讀音不一樣,甚而有復(fù)雜的對(duì)應(yīng)關(guān)系。如簡化字的lājī(垃圾),繁體字讀作lèsè;簡化字的wōniú(蝸牛),繁體字讀作guāniú。再如以下漢語拼音標(biāo)注的繁體字的字音,同簡化字的字音有“一對(duì)多”和“多對(duì)多”的復(fù)雜對(duì)應(yīng)關(guān)系什shé,shí,shén;馮píng,féng;和hàn,hú,huo,huò,hé,hè;瞿jǜ,qǖ,qǘ;艘sāo,sōu;潦lǎo,lào,liáo;沈chén,shěn;啞è,yǎ,y?。慧赾hóu,zùn,zhèn;癌yán,ái;宿xiǔ,sù。由于繁體字使用區(qū)將人地山河名譯成拉丁字母(譯出)時(shí),采用的標(biāo)準(zhǔn)與漢語拼音不同;外文名稱譯成華文(譯進(jìn))時(shí),采用的譯名標(biāo)準(zhǔn)也不同,因而目前簡繁體字使用區(qū)的譯進(jìn)、譯出都有差異。
10.華字有復(fù)雜的一字多音現(xiàn)象。如同一義項(xiàng)下“血”的文言音(用于讀文言文的“讀音”)是xuè,白話音(用于講口語的“語音”)是xiě“場(chǎng)”的“正讀”(原北京音)為chāng,“又讀”(原北京以外音)作chǎng。不同義項(xiàng)下的多音字則稱“破音字”。許多華文工具書將偏旁部首的讀音沿舊例標(biāo)注,導(dǎo)致與現(xiàn)行語音不一致,如將“蟲”標(biāo)為huǐ,“廠”標(biāo)為hàn。
11.簡體與繁體華文有不同的語法、詞法及標(biāo)點(diǎn)符號(hào)規(guī)范。如“阿公、阿妹、阿強(qiáng)”中的“阿”字,“忽然、悄然”中的“然”字,簡化字的詞法中分別劃作前綴、后綴,繁體字劃作助詞?!芭D肉、臘魚”中的“臘”字,簡化字工具書歸為名詞,繁體字歸為形容詞。再如簡化字使用《》作為書名號(hào),繁體字則在書名、篇名、歌曲,名、影劇名等之下標(biāo)波浪線(直排時(shí)標(biāo)在左邊)。繁體字在人名、種族名、國名、地名、機(jī)構(gòu)名等之下標(biāo)橫線(直排時(shí)標(biāo)在左邊)作為專名號(hào)(原稱為私名號(hào)),簡化字則未使用此符號(hào)。
12.對(duì)華文字的統(tǒng)計(jì)、研究、分析、處理所采用的技術(shù),還處于“跟著感覺走”的階段,缺乏現(xiàn)代化的方法,不能利用計(jì)算機(jī)進(jìn)行“定量分析”,趕不上信息時(shí)代科技快速發(fā)展的需要,也同時(shí)導(dǎo)致了對(duì)華文文字統(tǒng)一方面的多種觀點(diǎn)和復(fù)雜的爭議。
由于華文文字不統(tǒng)一,華文用字范圍和文字規(guī)范不科學(xué)甚至失控,不僅母語為非華文的學(xué)習(xí)者、海外華裔青少年覺得華字多、規(guī)范復(fù)雜,就連華文使用區(qū)內(nèi)的母語為華文的學(xué)習(xí)和使用者,也認(rèn)為許多華字(包括國標(biāo)碼的部分字)一輩子也難以用上。海外的許多華人子女本來就認(rèn)為華語難學(xué),家長們?yōu)榱耸购⒆永^承中國文化,出錢讓小孩周末去學(xué)華語,而有的華語學(xué)校卻為采用繁體字的還是簡化字的教材發(fā)生爭執(zhí)。
無論在華語的日常學(xué)習(xí)、使用中,還是在平面、電子出版品中,很容易見到對(duì)華字字義的斟酌、探討甚而爭議,為一個(gè)字思考、斟酌所花的時(shí)間,輕易就會(huì)超過正常使用數(shù)百、數(shù)千個(gè)字的時(shí)間。由于華語中冗余信息較多,一些教華語的教授、教師一輩子都疲于為學(xué)生“正字、正音”。對(duì)華語的研究(還不包括對(duì)華文輸入法等方面的研究——華文輸入法已公開的有數(shù)千種,出現(xiàn)了“萬碼奔騰”的壯觀局面),并不限于相關(guān)學(xué)術(shù)機(jī)構(gòu)和大專院校的眾多專家學(xué)者,并且重復(fù)立項(xiàng)、重復(fù)研究和重復(fù)出版的覆蓋比率相當(dāng)高。姑且不論“數(shù)萬人一輩子研究幾十個(gè)字”的說法是否準(zhǔn)確,與其他國際文字相比,研究華語的超級(jí)團(tuán)隊(duì)的確“形成了一道亮麗的風(fēng)景線”。
目前華文文字的不統(tǒng)一狀況,已導(dǎo)致文字層面以外的問題。簡化字使用者把名字“勁松”寫成繁體字“勁鬆”,按繁體字字義是玩笑話題。把“占小姐”寫成“佔(zhàn)小姐”產(chǎn)生歧義導(dǎo)致對(duì)方生氣,而寫者不知?dú)鈴暮蝸?。一份電腦雜志中有文章寫道,「這軟體不錯(cuò),可惜用的是大陸繁體字。他們的字與我們的字不同。」華文文字的不統(tǒng)一狀況,不僅導(dǎo)致華文字使用方面的混亂和不規(guī)范現(xiàn)象,海峽兩岸交流的不便,造成人力、物力、財(cái)力等方面無形卻昂貴、驚人的浪費(fèi)與揮霍,也嚴(yán)重阻礙了華語走向國際。
本發(fā)明的目的是提供一種科學(xué)的可行性高、易于推廣的方案,在充分尊重現(xiàn)有各種華文單一內(nèi)碼使用規(guī)范和習(xí)慣的基礎(chǔ)上,以現(xiàn)代化的篩選、整合、變通、規(guī)范及創(chuàng)新處理方法,實(shí)現(xiàn)華文文字的內(nèi)碼、用字范圍、字義、字形、字音、語詞、語法、譯名、字音輸入的全面完整統(tǒng)一;及在有必要轉(zhuǎn)換時(shí),實(shí)現(xiàn)華文龔碼、國標(biāo)碼、大五碼等多種內(nèi)碼之間或同種內(nèi)碼之內(nèi)的多碼多向的完整規(guī)范化智能轉(zhuǎn)換。
為了解決以上華文文字全面完整統(tǒng)一和內(nèi)碼規(guī)范轉(zhuǎn)換所遇上的各種問題,便于計(jì)算機(jī)“智能”統(tǒng)計(jì)、研究、分析,高效、快速處理華文字信息,使統(tǒng)一方案和必要的轉(zhuǎn)換得到科學(xué)的完整的規(guī)范化的結(jié)果,本發(fā)明創(chuàng)造了“綜合字頻、詞頻”、“字頻、詞頻方向值”和“合理最簡詞”等概念。以下若無特別說明,“龔碼的選字”指“龔碼基本字符集的選字”。
1.特定字頻、詞頻根據(jù)對(duì)某一單位時(shí)間段的出版品的統(tǒng)計(jì),某一個(gè)字出現(xiàn)的次數(shù)除以總字?jǐn)?shù)后得到的百分比結(jié)果。也可根據(jù)需要對(duì)特定字義或字音條目下的用字,以相關(guān)詞組或短語搭配等方式,統(tǒng)計(jì)出特定條件下某一個(gè)字出現(xiàn)的次數(shù),從而計(jì)算出特定字頻、詞頻。特定字頻、詞頻及綜合字頻、詞頻可比較不同字詞的使用頻度。在計(jì)算機(jī)中用字頻、詞頻軟件來統(tǒng)計(jì)快速、方便、準(zhǔn)確,但所統(tǒng)計(jì)文字的字形、字音一定要與既定時(shí)間的既定出版品嚴(yán)格吻合。比如統(tǒng)計(jì)二十世紀(jì)三十年代的平面出版品,用OCR光學(xué)識(shí)別等方式轉(zhuǎn)為文本文件,原出版品中用“纔”的,就不能用“才”來作統(tǒng)計(jì)。已有的計(jì)算機(jī)文件也要與原出版品對(duì)照校正。網(wǎng)頁等電子出版品除非與原平面出版品嚴(yán)格相符,否則只可作為現(xiàn)時(shí)的統(tǒng)計(jì)結(jié)果。對(duì)不同地區(qū)、不同領(lǐng)域的不同形式的出版品所作的統(tǒng)計(jì),得出的字頻、詞頻結(jié)果會(huì)有不同。
如現(xiàn)時(shí)的華文繁體字字頻分地區(qū)統(tǒng)計(jì)結(jié)果“周”字——香港為0.0289%,臺(tái)灣為0.0190%?!斑L”字——香港0.0057%,臺(tái)灣0.0103%。據(jù)此可知,“周”字在香港的使用頻率高過臺(tái)灣,而“週”字在臺(tái)灣的使用頻率高過香港。再如“敝”字,在海外繁體字字頻統(tǒng)計(jì)中排序?yàn)榈?718,而在大陸簡化字字頻統(tǒng)計(jì)中排序?yàn)榈?253。以下為綜合字頻前20個(gè)字的分地區(qū)特定字頻的排序結(jié)果。
2.綜合字頻、詞頻根據(jù)對(duì)某一單位時(shí)間段的不同地區(qū)、不同領(lǐng)域的不同形式的出版品,綜合統(tǒng)計(jì)得出的較全面的字頻、詞頻百分比結(jié)果,可校正地區(qū)、領(lǐng)域、出版形式等偏差。但特定字頻、詞頻進(jìn)行字頻、詞頻比較時(shí)有特定的用途。例如二十世紀(jì)九十年代的繁體字綜合字頻、詞頻,包括1990年1月1日至1999年12月31日之間,臺(tái)灣、香港和海外的新聞、政治、財(cái)經(jīng)、教育、文化、藝術(shù)、法律、科技、娛樂、旅游等領(lǐng)域的華文繁體字圖書、報(bào)刊、國際互聯(lián)網(wǎng)等出版品綜合統(tǒng)計(jì)結(jié)果。由于古籍書、古字典、古詞典和文字專家學(xué)者的學(xué)術(shù)文章等涉及用字范圍太廣,會(huì)導(dǎo)致綜合字頻、詞頻的統(tǒng)計(jì)結(jié)果出現(xiàn)非正常偏差,故不納入統(tǒng)計(jì)。早期的統(tǒng)計(jì)因電子出版品尚未出現(xiàn),只有平面出版品。
當(dāng)一種內(nèi)碼的字與另一種內(nèi)碼的字并不是一一對(duì)應(yīng),而需要進(jìn)行比較或共同納入特定字頻、詞頻或綜合字頻、詞頻的統(tǒng)計(jì)時(shí),根據(jù)“字義或詞義的分開與合并”計(jì)算頻度。如國標(biāo)碼的“制”對(duì)應(yīng)大五碼的“製、制”,若綜合字頻的統(tǒng)計(jì)中按大五碼的“製、制”兩個(gè)字分開統(tǒng)計(jì),則國標(biāo)碼的“制”按以上兩字的字義分開統(tǒng)計(jì)納入。再如國標(biāo)碼的“扇”對(duì)應(yīng)大五碼的“扇、搧”,若綜合字頻的統(tǒng)計(jì)中按國標(biāo)碼的“扇”統(tǒng)計(jì),則大五碼的“扇、搧”按字義合并統(tǒng)計(jì)納入。
龔碼收錄根據(jù)綜合字頻確認(rèn)的常用字和次常用字。原華文單一內(nèi)碼中,同一字義有多個(gè)字時(shí),如果一個(gè)字的現(xiàn)時(shí)綜合字頻明顯高于其他字,龔碼選擇綜合字頻明顯較高的一個(gè)字。如“吃”的現(xiàn)時(shí)綜合字頻為0.0586%,“喫”為0.0060%,故龔碼選用“吃”而不用“喫”。
當(dāng)內(nèi)碼轉(zhuǎn)換中涉及到不同字義的“一對(duì)多”有爭議條目,或同一字義的“一對(duì)多”時(shí),如果一個(gè)字的現(xiàn)時(shí)綜合字頻明顯高于其他字,第一步“轉(zhuǎn)字”時(shí)選擇轉(zhuǎn)換為其中綜合字頻較高的一個(gè)字。如在“游”字作“不固定的”字義解釋時(shí),轉(zhuǎn)為此義項(xiàng)下綜合字頻為0.0047%的“游”而不用0.0028%的“遊”。
3.簡繁體字綜合排序根據(jù)綜合字頻可將簡繁體字綜合排序,字義全同字形不同的簡繁體字算作一個(gè)字,如“學(xué)”與“學(xué)”。在簡繁綜合序列中,國標(biāo)碼的六千多個(gè)字中約有一千字排序在第8,000以后,如“茇菝瘭礤躔茺搋籪稃戤頏擐蕺跽谫鮚弳捃芤縭藶篥鞔蠛脬螵槧繰檎鋟圊筇绱賧鐋掭蜩芄禊渫糈罨蕷駔痄膣窀”等的幾百字則排序在第10,000以后。
4.字頻、詞頻演變曲線圖以一些連續(xù)時(shí)間段的特定或綜合字頻、詞頻數(shù)據(jù)為縱坐標(biāo),以時(shí)間段為橫坐標(biāo)所繪制出的曲線圖,可直觀地觀察或比較字頻、詞頻的演變狀況。據(jù)字頻演變曲線圖比較可知,在簡化字使用區(qū)推行簡化字后的一定時(shí)間段,繁體字使用區(qū)的用字向“繁”的方向轉(zhuǎn)化,原本字頻較低但在同時(shí)使用的某些筆畫較少的字,如“復(fù)、機(jī)、圣、網(wǎng)、價(jià)、體、懷、驚、柜”等字,后來索性成了“閑字”(閑著不用的字)。
5.字頻、詞頻方向值用某一單位時(shí)間段的特定或綜合字頻、詞頻,除以該字前一單位時(shí)間段的特定或綜合字頻、詞頻,即為該單位時(shí)間段的字頻、詞頻方向值。通過字頻、詞頻方向值,可準(zhǔn)確分析字頻、詞頻發(fā)展的方向和演變速率;也可比較相同時(shí)段不同字的字頻、詞頻方向值,比較字頻、詞頻的演變方向和演變速率。當(dāng)字頻、詞頻方向值大于1時(shí),說明該字詞的使用頻度在增大;數(shù)值越大就說明增大的速率越快。當(dāng)字頻、詞頻方向值小于1時(shí),說明該字詞的使用頻度在減小;數(shù)值越小就說明減小的速率越快。
6.字頻、詞頻方向曲線圖以一些連續(xù)時(shí)間段的特定字頻、詞頻方向值數(shù)據(jù)為縱坐標(biāo),以時(shí)間段為橫坐標(biāo),所繪制出的曲線圖??芍庇^地觀察或比較字頻、詞頻的演變方向和演變速率。
7.字頻、詞頻方向平均值把相鄰幾個(gè)單位時(shí)間段的字頻、詞頻方向值平均,即為字頻、詞頻方向平均值??尚U龝r(shí)間偏差。比較不同的字,所取相鄰的單位時(shí)間段應(yīng)相同,從而比較出字頻、詞頻的發(fā)展方向平均值高低。
以最近四十年每十年為時(shí)間段,據(jù)繁體字的綜合字頻計(jì)算出的字頻方向平均值(后述均按此定義),“證”為1.1069,“証”0.8434;“閒”1.1375,“閑”0.8107。由字頻方向平均值可知,在這四十年中,簡化字“證”所對(duì)應(yīng)的繁體字在向“證”發(fā)展,“閑”在向“閒”發(fā)展,后者的發(fā)展速度快于前者。因而龔碼選用“閑丨閒、證丨證”,龔碼繁形字未選用“証、閑”。
當(dāng)內(nèi)碼轉(zhuǎn)換中涉及到不同字義的“一對(duì)多”有爭議條目,或同一字義的“一對(duì)多”時(shí),如果對(duì)應(yīng)的幾個(gè)字的現(xiàn)時(shí)綜合字頻較為接近,第一步“轉(zhuǎn)字”時(shí)轉(zhuǎn)換為字頻方向平均值較高的一個(gè)字。
8.字頻、詞頻預(yù)測(cè)值用現(xiàn)時(shí)的特定字頻、詞頻或綜合字頻、詞頻的數(shù)據(jù),乘以字頻、詞頻方向平均值,即為對(duì)下一個(gè)時(shí)間段的字頻、詞頻預(yù)測(cè)。如某字的現(xiàn)時(shí)綜合字頻為0.0250%,十年時(shí)間段的字頻方向平均值為1.1500,未來十年的綜合字頻預(yù)測(cè)值即為0.0250%×1.1400=0.0285%。由于影響字頻、詞頻變化的因素較復(fù)雜,此預(yù)測(cè)值只可作為參考。
需要說明的是,本發(fā)明旨在探討科學(xué)的解決方法。以上多項(xiàng)涉及到的數(shù)據(jù),不同的統(tǒng)計(jì)范圍或統(tǒng)計(jì)資料,會(huì)導(dǎo)致不同的統(tǒng)計(jì)結(jié)果。但從理論上說,盡管是不同的統(tǒng)計(jì),其范圍越廣,資料越多,結(jié)果的差距就會(huì)越小。
9.構(gòu)詞率某個(gè)字所構(gòu)成詞條的種類在總詞條種類中所占的比率。同一詞條不管出現(xiàn)多少次都只算作一種。如“人、大、子、不、一、心”等構(gòu)詞率高的字,可構(gòu)成千種左右的詞條;而“輿、礎(chǔ)、犧、圾、萄、璃、嚨”等構(gòu)詞率低的字,在對(duì)辭海之類的工具書以外的實(shí)際應(yīng)用所作的統(tǒng)計(jì),只可構(gòu)成一、兩種詞條。在當(dāng)代華語中,有相當(dāng)一部分字的構(gòu)詞率都很低。
10.合理對(duì)應(yīng)字當(dāng)利用龔碼輸入或從其他內(nèi)碼轉(zhuǎn)換為龔碼時(shí),若龔碼中沒有對(duì)應(yīng)字,輸入或轉(zhuǎn)換為龔碼的“合理對(duì)應(yīng)字”。合理對(duì)應(yīng)字須符合“字義、字音、字形等關(guān)聯(lián)性強(qiáng)、合理、無歧義”的原則。
如龔碼沒有收錄的其他幾種華文單一內(nèi)碼(國標(biāo)碼、大五碼等)的用字,在《當(dāng)代華語詞典》中釋義并給出“合理對(duì)應(yīng)字”的指引。如大五碼的“諆”,龔碼中沒有這個(gè)字,根據(jù)以上原則用作龔碼中的合理對(duì)應(yīng)字“欺”。
在異種內(nèi)碼轉(zhuǎn)換中也按此處理。即當(dāng)來源碼的“字”不能轉(zhuǎn)為目的碼的“字”(不能“字轉(zhuǎn)字”),即目的碼“無字對(duì)應(yīng)”時(shí),或原有的轉(zhuǎn)換中對(duì)應(yīng)不合理時(shí),用目的碼的“合理對(duì)應(yīng)字”與之對(duì)應(yīng)。若還有其他字義,可在第二步的目的碼環(huán)境中用轉(zhuǎn)詞的方法校正。如果來源碼的“詞”對(duì)應(yīng)目的碼的“字”,本發(fā)明用先“字轉(zhuǎn)字”、后“詞轉(zhuǎn)字”的方法解決。如國標(biāo)轉(zhuǎn)大五時(shí),“英寸”對(duì)應(yīng)“吋”,先將來源碼的“英→英、寸→寸”;然后在目的碼的環(huán)境中,將“英寸→吋”。
11.合理最簡詞當(dāng)利用龔碼輸入或從其他內(nèi)碼轉(zhuǎn)換為龔碼時(shí),若龔碼中沒有“合理對(duì)應(yīng)字”時(shí),本發(fā)明用龔碼的“合理最簡詞”與之對(duì)應(yīng)。合理最簡詞應(yīng)符合“科學(xué)簡潔、通俗易懂、嚴(yán)謹(jǐn)合理、無歧義”的原則。對(duì)于龔碼未收錄的名稱用字,按其他習(xí)慣名稱;無其他習(xí)慣名稱者采用“義音形最接近字+特征尾字”(特征尾字識(shí)別變通法)的方法解決,特征尾字可為“花草樹木鳥蟲魚石”等。如“ 櫹”等綜合字頻很低的罕用字,龔碼基體字符集未收錄,用作“尊鳥、蕭樹”。
即當(dāng)來源碼的“字”不能轉(zhuǎn)為目的碼的“合理對(duì)應(yīng)字”時(shí),本發(fā)明用目的碼的“合理最簡詞”與之對(duì)應(yīng)。如大五碼的“這條 約長1呎2吋”,原有的轉(zhuǎn)換方案因某些字“無字可轉(zhuǎn)”,在國標(biāo)碼中會(huì)成為“這條□約長1□2□”(□代表缺字)。按本發(fā)明的“合理最簡詞”解決方案,可轉(zhuǎn)為國標(biāo)碼的“這條針魚約長1英尺2英寸”。按華文的習(xí)慣,“魚”部的一些字可單用,也可與“魚”字搭配使用,二者表達(dá)同一意思,如“鯊、鯊魚,鱷、鱷魚,鱘、鱘魚”。如果前述大五碼例句中為“ 魚”,轉(zhuǎn)成國標(biāo)碼后會(huì)成為“針魚魚”。為了避免這類問題,在“魚”字條第二行下邊增加一個(gè)“魚魚→魚”的轉(zhuǎn)換。
一、華文文字統(tǒng)一方案總體構(gòu)思華文字(包括簡化字和繁體字)是中華民族的寶貴文化遺產(chǎn),是世界上表意最豐富、最精練的文字。但由于種種原因,在國際語言文字的競(jìng)爭中,華文目前處于未被“公平對(duì)待”的地位。據(jù)有關(guān)統(tǒng)計(jì),華文文字在聯(lián)合國原始文件中的使用量還不到1%(英語占80%,法語占15%,西班牙語占4%,俄語、華語和阿拉伯語合計(jì)為1%);而華人的人口約占世界的20%?,F(xiàn)在隨著兩岸相繼加入WTO等因素,某些方面出現(xiàn)了轉(zhuǎn)機(jī)。有外國人說,二十一世紀(jì)將是中國人的世紀(jì)。大中華經(jīng)濟(jì)圈的逐步形成及經(jīng)濟(jì)起飛態(tài)勢(shì),吸引了整個(gè)世界的目光。有鑒于此,華文如果能用現(xiàn)代化的科學(xué)方法重新篩選、整合、變通、規(guī)范及創(chuàng)新處理,在此基礎(chǔ)上早日達(dá)到內(nèi)碼、用字范圍、字義、字形、字音、語詞、語法、譯名、字音輸入法等方面的全面完整統(tǒng)一,則不僅中國人易學(xué)易用,實(shí)現(xiàn)兩岸三地及海外華人古老而又新鮮的“書同文、語同音”的夢(mèng)想,讓我們的子孫后代不再為華文文字的不統(tǒng)一而困擾和不便,使我們古老的華文字更為完美統(tǒng)一地承傳久遠(yuǎn);同時(shí)也有助于加快華語走向國際的步伐,早日與國際語言文字全面接軌,吸引中國的周邊甚至非周邊國家采用華語,并且使華語成為國際上最熱門、最流行的語言之一,讓中華文明再現(xiàn)輝煌。
華文文字達(dá)到何種標(biāo)準(zhǔn)才算統(tǒng)一?不同的人可能會(huì)有不同的看法。有人說,簡體字使用區(qū)對(duì)字形的更改,造成與大陸以外華人在文化上的隔閡;當(dāng)初簡化字形有許多簡得不科學(xué)、無準(zhǔn)則,有些不同義字的合并甚至毫無道理,不然也不會(huì)以行政手法頻繁調(diào)整用字范圍、字形、字音和字詞釋義;而現(xiàn)在電腦處理文字的比重日益增加,筆畫的多少已不是問題,大部分簡體字都應(yīng)當(dāng)改回去。有人說,繁體字的罕用字、無效字、同義字太多,字的筆畫多孩子們學(xué)起來難度大;華文字的簡化是趨勢(shì),就連現(xiàn)在筆畫多的簡化字也還需要再簡化;繁體字使用者沒多少人把那1萬3千多個(gè)字的字義搞清楚并且全部用上過;現(xiàn)代人不應(yīng)該為了讀古文而保留繁體字。一萬位華文文字專家學(xué)者和熱心人士,可以提出一萬種統(tǒng)一方案。而多人憑感覺協(xié)商、表決的結(jié)果也不一定就是完善的或行之有效的方案,1913年由各地代表“逐字表決”形成的“標(biāo)準(zhǔn)國音”試行十多年后失敗就是例證。由于以上及其他的多種因素,不管是以現(xiàn)行的簡化字還是繁體字,要求所有的華文使用者采用都會(huì)有相當(dāng)大的難度。
既然華文文字的統(tǒng)一勢(shì)在必行,而大幅度的改動(dòng)又不現(xiàn)實(shí),那么不妨改變一種思維方式。如果簡化字和繁體字的文字使用者在同一用字范圍內(nèi)都使用已習(xí)慣的字形,以科學(xué)、量化、創(chuàng)新的方式使每一個(gè)簡形字與其對(duì)應(yīng)的一個(gè)繁形字在同一義項(xiàng)下都具有相同的字義和字音(包括聲調(diào)),并同屬一個(gè)內(nèi)碼,那么華文字也就統(tǒng)一了(相當(dāng)于內(nèi)碼相同、字體不同)。也就是說,無論是將“一對(duì)多”或“多對(duì)多”精簡為“一對(duì)一”,還是將“一對(duì)多”或“多對(duì)多”整合為多個(gè)“一對(duì)一”,總之要將簡化字和繁體字之間復(fù)雜的“一對(duì)多”全部調(diào)整為“一對(duì)一”。現(xiàn)階段簡繁字形不一致并不是問題,繁體字的字形保留了華文字的藝術(shù)外形,簡化字的字形迎合了現(xiàn)代人的生活節(jié)奏,不如順其自然,讓二者優(yōu)勢(shì)互補(bǔ)。在統(tǒng)一方案的制訂中,讓數(shù)據(jù)而不是讓感覺說話,可以避免很多無謂爭議。因而華文文字統(tǒng)一需要解決的三大問題是1.科學(xué)調(diào)整、界定用字范圍;2.將簡化字與繁體字之間的“一對(duì)多”在必要合理的原則下全部調(diào)整為“一對(duì)一”;3.調(diào)整其他不統(tǒng)一和不合理的方面(字義、字形、字音、語詞及語法等)。
中國的古人云“言為心聲,字為心畫。”把心中要表達(dá)的意思用線條畫(寫)出來,即成為文字。華文的造字大體上有六種方法象形,指事,會(huì)意,形聲,轉(zhuǎn)注,假借,合稱六書。在華文文字學(xué)中,將直接為表示某一字義而造的華文字叫作本字;“一義多字共用”古已有之,義同、音同而形不同的字叫異體字;通俗流行于民間的、多為筆畫較簡的異體字叫俗字(又稱俗體字);從多個(gè)相關(guān)異體字中被官方或相關(guān)群體(不一定限于當(dāng)代)認(rèn)可的其中一個(gè)標(biāo)準(zhǔn)規(guī)范字叫正字(又稱正體或正體字),因而正字往往隨歷史的演進(jìn)產(chǎn)生差異。
縱觀大中華的文字史,無論字義、字形還是字音,都經(jīng)歷了相當(dāng)復(fù)雜的演變。在不同的時(shí)期,不同的工具書對(duì)于華文字的“字義”有不同的解釋。如十二月可稱“涂月”;“璽”原泛指印信而秦朝後專指皇帝印信;古時(shí)蜀人稱母親為“姐”;“臺(tái)”原為星名“三臺(tái)星”的用字;“樣”曾為懸掛蠶箔的柱子;“柜”原為植物名“柜柳”的用字;“郵”原為地名專用字;“兒”為“人”的古文奇字(奇字為王莽時(shí)造字條例之一);遠(yuǎn)古時(shí)“只”為語氣助詞,中古時(shí)方與“衹”通用。閒間、証諫、癢瘍、堊聖、壞坯、體笨、虧于、燈火、舊臼、廠庵、勝腥、人兒、奶嬭妳等字曾分別有過相同義項(xiàng)。一些字隨著時(shí)間推移被簡化,如許多過去的正字現(xiàn)在成了連大五碼也未收錄的無效字。一些字曾由簡轉(zhuǎn)繁,如灑、氣、網(wǎng)、電、棲、眾、個(gè)、雲(yún)、從、巖的本字分別為灑、氣、網(wǎng)、電、西、眾、個(gè)、云、從、巖。有的字曾“多合一”,如現(xiàn)行的部分簡化字。為了區(qū)分字義,有的字曾“一分多”,如蔴、塗、傢、儘、昇、鬍、鬚、硃分別是麻、涂、家、盡、升、胡、須、朱的后起分化字;夸的后起分化字竟有跨、誇、垮、挎、胯、侉六字之多。也有的字形簡后又繁回去,如鴛鴦曾在元代簡為“夗央”,到了清代又用回鴛鴦。再如,“江、河、池、鷄、鴨、義”都是形聲字,江與工、河與可、池與也、鷄與奚、鴨與甲、義與我在古代都曾是同音字。由于本字與假借字、正字與異體字、俗字等劃分方法已不能科學(xué)地界定現(xiàn)代華文字,因而龔碼只將其作為華文字的義音形演變的參考,并不作為選字的標(biāo)準(zhǔn)。
所謂字形的“簡”與“繁”,只是相對(duì)的。除了有一部分字同形外(即部分字形完全相同),個(gè)別大五碼的字形比國標(biāo)碼還要“簡”。如國標(biāo)碼的“捍衛(wèi)、磅礴、姹紫嫣紅”,大五碼可用作“捍衞、磅礴、妊紫嫣紅”,“捍、礴、妊”比“捍、礴、姹”的字形更“簡”。國標(biāo)碼中的“兜、蔸、篼”三個(gè)字的字義,在大五碼中只一個(gè)“兜”字就全包括了。
從歷史上看,文字的發(fā)展總是向著阻力最小的方向。為了充分尊重現(xiàn)行華文簡化字和繁體字使用區(qū)的文字使用者的習(xí)慣,減小文字統(tǒng)一方案的推廣難度,龔碼的每一個(gè)文字內(nèi)碼都有一個(gè)簡形字和一個(gè)繁形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào)),并且都確認(rèn)為正體字(正體簡形字和正體繁形字)。龔碼簡形字相對(duì)于國標(biāo)碼簡化字,繁形字相對(duì)于大五碼繁體字,都盡量作最少的字形變動(dòng)。字義與字音也是在“必要”(如原簡繁單一內(nèi)碼之間不一致)時(shí)才作“合理”的調(diào)整。龔碼用字的準(zhǔn)則,是從綜合字詞頻、字詞頻方向平均值、構(gòu)詞率、字義、姓氏字頻和人名字頻等多個(gè)方面進(jìn)行篩選、整合、變通、規(guī)范及創(chuàng)新處理。
(一)科學(xué)調(diào)整、界定用字范圍1.對(duì)于翻印古籍書或文字專家學(xué)者的學(xué)術(shù)文章,用字范圍可無限大(如考古學(xué)家不斷在發(fā)現(xiàn)新的華文字)。但對(duì)于絕大部分華文文字使用者卻無必要。一種華文內(nèi)碼沒有必要因?yàn)橛幸磺f種物質(zhì)存在,就造一千萬個(gè)華文字出來。十幾億中國人海人造一個(gè)字出來,學(xué)華語的人便十輩子也學(xué)不完。根據(jù)華文文字使用區(qū)內(nèi)各種單一內(nèi)碼的現(xiàn)狀,及現(xiàn)行華文文字規(guī)范和習(xí)慣,龔碼基本集選字的最大范圍為國標(biāo)碼、大五碼,并參考香港增補(bǔ)字符集。
2.若不涉及原簡繁單一內(nèi)碼一對(duì)多問題,根據(jù)綜合字詞頻確認(rèn)的常用字、次常用字全部收錄;罕用字根據(jù)綜合字詞頻、字詞頻方向平均值、構(gòu)詞率、字義、姓氏字頻和人名字頻等因素收錄;無效字不收錄?;瘜W(xué)元素周期表用字全部收錄。
3.特定范圍用字龔碼選擇性收錄了在某些特定范圍中較常使用,而綜合字頻、詞頻不高的字,如兒童讀物用字“喔、咻、咦、咩、哞、喵、呦、啾”等。
4.未收錄字及后續(xù)必要補(bǔ)字的處理對(duì)于目前使用較廣的幾種華文單一內(nèi)碼(如國標(biāo)碼、大五碼、香港增補(bǔ)字符集等)中有,而龔碼未收錄的字,將在《當(dāng)代華語詞典》中釋義并按照“合理對(duì)應(yīng)字、合理最簡詞”的方法給出與龔碼的對(duì)應(yīng)用字指引。對(duì)于龔碼基本字符集功能范圍內(nèi)將來有可能會(huì)遇上的極少數(shù)的必要補(bǔ)字,通過向基本字符集的備用碼位加字解決,而不是向擴(kuò)充字符集“借字”,以免兩種字符集混用。對(duì)于大部分人讀得到而用不到的古文和其他用字,如果有收錄必要,收進(jìn)龔碼擴(kuò)充字符集中。
(二)“一對(duì)多”或“多對(duì)多”全部調(diào)整為“一對(duì)一”本發(fā)明中提及的“字義”,若無特別說明,系按現(xiàn)行簡繁體字使用區(qū)的大部分華文工具書的解釋。
1.一種單一內(nèi)碼的一個(gè)字對(duì)應(yīng)另一單一內(nèi)碼的同一字義(包括同一義項(xiàng)下)的多個(gè)字時(shí),如果另一單一內(nèi)碼中的其中一個(gè)字的現(xiàn)時(shí)綜合字頻明顯高于其他字,選擇這個(gè)綜合字頻較高的字。如果這幾個(gè)字的現(xiàn)時(shí)綜合字頻較為接近,選擇字頻方向平均值較高的一個(gè)字。如龔碼繁形字選擇了“暗鏟吃考裡乃炮確汙閒煙豔耀喑證總”等,未收錄“闇剷喫攷裏逎砲確污閑菸艷燿瘖証縂”等字。盡量利用現(xiàn)有字形作簡繁對(duì)應(yīng),如“雇丨僱、冢丨塚、瘉丨癒、笵丨範(fàn)”。對(duì)于極少數(shù)字頻、詞頻較高的人名、生意行號(hào)用字等,如“斌”字,雖與“彬”同一字義,也酌情收錄。
2.一種單一內(nèi)碼的一個(gè)字對(duì)應(yīng)另一單一內(nèi)碼的不同字義(或不同義項(xiàng)下)的多個(gè)字時(shí),如果另一單一內(nèi)碼中的除了綜合字頻和字頻方向平均值較高的一個(gè)字,其他字雖另有字義,但綜合字頻、字頻方向平均值或構(gòu)詞率明顯較低,只收錄前者。如龔碼繁形字選擇了“板抱杯並才彩草叉嘗出呆蕩抵澱咚夫個(gè)拐櫃果毀飢家鑒巨誇昆侖梁累麻渺你念娘匹撲秋千沈什屍搜他它臺(tái)兔效熏燕揚(yáng)癢岳欲札榨噪癥致朱諮”等,未收錄“闆菢盃并纔綵騲扠嚐齣獃盪牴淀鼕伕箇柺柜菓燬譭饑傢鑑鉅夸崑崙樑纍蔴痳淼妳唸嬢疋撲鞦韆瀋尸俬蒐祂牠臺(tái)菟傚燻鷰颺癢嶽慾劄搾譟癥緻硃咨”等字。對(duì)于未收錄的字,盡量做到有理據(jù)有出處。如“鞦 ”一詞,宋朝張有的《聯(lián)錦字》謂「高無際作《鞦 賦序》云『漢武帝後庭之戲也?!槐驹魄铮壑~也,語譌轉(zhuǎn)為鞦 ?!?.一種單一內(nèi)碼的一個(gè)字對(duì)應(yīng)另一單一內(nèi)碼的不同字義(或不同義項(xiàng)下)的多個(gè)字時(shí),如果另一單一內(nèi)碼中的除了綜合字頻和字頻方向平均值較高的一個(gè)字,還有其他字的綜合字頻、字頻方向平均值及構(gòu)詞率也較高,若選用能有助于使字義的表述更明確,龔碼便選用該字。如大五碼的“參”對(duì)應(yīng)國標(biāo)碼的“叁參”。大五碼中其他華文大寫數(shù)字都有近于專用的字,唯獨(dú)沒有“叁”,因而龔碼在繁形字中收錄了該字。另如“著”與“著”,按簡化字將“助詞、接觸”等字義與“寫文章、寫書、顯明”等字義區(qū)分開更好。這樣也有助于減少多音字。
再如國標(biāo)碼的“制”對(duì)應(yīng)大五碼的“制製”兩個(gè)常用字?!斑@種編制不好”和“這種編製不好”有不同的意思,前者可能指“單位人員配備不合理”,后者可能指“某種檔案、報(bào)表之類的製作不完善”,兩個(gè)字分開使用字義更明確。另如“他背著弟弟”與“他揹著弟弟”也有不同的意思。
為使字義的表述更明確,龔碼繁形字同時(shí)選擇了“參叁、采採、沖衝、斗鬥、發(fā)髮、復(fù)複、干幹乾、后後、劃劃、歴曆、面麵、松鬆、托託、系係繫、游遊、于於、余餘、云雲(yún)、占佔(zhàn)、著著、制製、志誌、只隻、鐘鍾、注註、準(zhǔn)凖”等字及其對(duì)應(yīng)的簡形字。
4.有時(shí)國標(biāo)碼與大五碼之間的多個(gè)字有復(fù)雜的對(duì)應(yīng)關(guān)系,需按“必要合理”的原則進(jìn)行復(fù)雜調(diào)整。如簡化字的“臺(tái)”對(duì)應(yīng)繁體字的“臺(tái)、臺(tái)、檯、枱、颱”。其中“臺(tái)、臺(tái)”在“高平建筑物、器物座、量詞、臺(tái)灣省”幾個(gè)條目下是同一字義;“檯、枱”作“桌子,案子”解釋時(shí)為同一字義,后一字大五碼沒有,是繁體字的香港用法;作“太平洋西部上空暴風(fēng)”解釋時(shí)用“颱”。在以上關(guān)于“臺(tái)、臺(tái)”的幾個(gè)選擇性的義項(xiàng)中,現(xiàn)時(shí)繁體字綜合字頻“臺(tái)”為0.0894%,“臺(tái)”為0.0513%;字頻方向平均值“臺(tái)”為1.6978,“臺(tái)”為0.925。不管是現(xiàn)時(shí)的使用頻度,還是字頻的發(fā)展趨勢(shì),選擇“臺(tái)”字更合現(xiàn)時(shí)繁體字使用者的習(xí)慣?!帮U”為次常用字,但構(gòu)詞率低?!皺叀煛币彩谴纬S米郑螨彺a未收錄“臺(tái)”,這一字義按“字形合理對(duì)應(yīng)”原則選繁體字香港用法的“枱”。至此將原有簡化字與繁體字的“一對(duì)五”,調(diào)整為龔碼簡形與繁形的“臺(tái)、枱”兩個(gè)“一對(duì)一”。
另如國標(biāo)碼的“干、乾”與大五碼的“乾、幹、干”具有復(fù)雜的對(duì)應(yīng)關(guān)系,屬于“多對(duì)多”。大五碼中這三個(gè)字的字頻都比較高,繁體字綜合字頻“乾0.01658%,幹0.01323%,干0.01204%”。繁體字例句「『你幹了沒有?』『現(xiàn)在還不想幹。』『幹不幹無所謂囉!』」與「『你乾了沒有?』『現(xiàn)在還不想乾?!弧呵磺瑹o所謂囉!』」可大致推斷出前者意思為“那活兒(或那件事)你幹了沒有”,后者為「那杯酒(或飲料)你乾了沒有”,意思較為明確。因而龔碼收錄這三個(gè)字,并按繁體字分配字義。
5.特殊情況處理。
在龔碼的制訂過程中,涉及到姓氏用字都會(huì)復(fù)雜一些——按華人的傳統(tǒng)習(xí)慣,通常不愿意別人改動(dòng)自己的姓——因而龔碼不是萬不得已的情況不改動(dòng)姓氏的用字或字形。對(duì)于姓氏專用字(或接近專用字),龔碼根據(jù)“同等情況下姓氏優(yōu)先、不加字優(yōu)先、高頻字優(yōu)先”,及前述綜合字頻和字頻方向平均值的確認(rèn)原則處理。此原則也適用于人地山河名專用字。在不涉及字義的“一對(duì)多”時(shí),龔碼將常用與次常用姓氏用字收入基本集,罕用姓氏用字收入擴(kuò)充集。涉及到“一對(duì)多”時(shí),若所對(duì)應(yīng)的是常用姓(常用與次常用姓氏用字)與常用字(姓氏以外的用字),兩字同時(shí)錄入基本集,如龔碼繁形字的余、餘和范、範(fàn);罕用姓與罕用字,按罕用姓合并錄入擴(kuò)充集;常用姓與罕用字(包括組詞能力有限字),按常用姓合并錄入基本集,如沈、瀋與朱、硃;罕用姓與常用字,按常用字合并錄入基本集,如龔碼繁形字的種、種。即在簡形字中的姓氏“種”,在繁形字中為“種”。再如根據(jù)“同等情況下不加字優(yōu)先”的規(guī)則,簡形字中的山西別稱“并”,在繁形字中為“並”;簡形字中的山名“昆侖”,在繁形字中為“昆侖”。
簡繁體字使用區(qū)有不同的化學(xué)用字。如化學(xué)元素周期表中簡化字的“硅、锝、鐿、镥、砹、鈁、镎、鈽、镅、锫、锎、锿”,繁體字臺(tái)灣用法為“矽、鎝、鐿、鎦、砈、鍅、錼、鈽、鋂、鉳、鉲、鑀”,繁體字香港用法則同簡化字,類推“繁化”為相應(yīng)的繁體字使用。綜合考量,龔碼的化學(xué)元素周期表用字按簡化字。
(三)調(diào)整其他有爭議、矛盾或不一致之處1.字義對(duì)于有爭議、敏感或矛盾的字義條,龔碼詞典采用“客觀對(duì)待、避免爭議、中性語詞釋義”的方法處理,讓簡繁體字的所有使用者都能接受。如華文數(shù)字“弍”,簡化字解釋為“同大寫中文數(shù)字貳”(《新華字典》),繁體字解釋為「同小寫國文數(shù)字二」(《新編中國辭典》)。龔碼并未收此字,在當(dāng)代華語詞典中解釋為“華文數(shù)字。在大寫華文數(shù)字中用作‘貳’,小寫華文數(shù)字中用作‘二”?;瘜W(xué)元素周期表第14號(hào)元素,簡化字用作“硅”,繁體字臺(tái)灣用法為“矽”。但在簡化字中,“硅”為正式名稱,“‘矽’為‘硅’的舊稱”(《現(xiàn)代漢語詞典》);大五碼恰恰相反,“矽”為正式名稱,「『硅』為『矽』的舊譯」(《國語辭典》)。美國的Silicon Valley,簡化字譯作“硅谷”,繁體字臺(tái)灣用法則稱“矽谷”。但對(duì)于職業(yè)病silicosis一詞的翻譯,某些簡化字工具書仍沿用原稱“矽肺”。龔碼將“矽”字收入擴(kuò)充集中。再如“慊”字,既有“滿足、滿意”的義項(xiàng),又有“不滿足、不滿意”的義項(xiàng),此字因?qū)俸庇米铸彺a沒有收錄。此類字收錄時(shí)也只可選用矛盾義項(xiàng)中使用頻度較高者。在異種內(nèi)碼轉(zhuǎn)換中也按此辦法處理。
不同字義(或字義條下)有多個(gè)字時(shí),有些并不需要加字,只需要調(diào)整字義(字義再分配)。如國標(biāo)碼的“于、后、鐘、余、咨、折、旋、糖、徑、伙、借”對(duì)應(yīng)的大五碼字“于於、后後、鍾鐘、余餘、咨諮、折摺、旋鏇、糖醣、徑逕、伙夥、借藉”,前面的八個(gè)字中有六個(gè)都涉及到姓氏用字。上例中的“於、後、鍾、馀、諮、摺、鏇、醣、逕、夥、藉”等字國標(biāo)碼都有,字義按繁體字釋義即可。再如國標(biāo)碼與大五碼都有“姐、姊”二字,但字義分配與讀音都有差異。繁體字的“姐”字只有“對(duì)年輕女子的通稱,含有敬意”這一義項(xiàng),如劉三姐、小姐等,“同胞女子先出生者;女子對(duì)同輩的尊稱”義項(xiàng)則用“姊”(可讀zǐ,但大多讀jiě),如姊姊、二姊、姊夫、表姊、學(xué)姊等。據(jù)綜合字頻和字頻方向平均值,此二字龔碼按簡化字釋義。
2.字形龔碼簡形字盡量照顧簡化字使用區(qū)的字形使用習(xí)慣,龔碼繁形字盡量照顧繁體字使用區(qū)的字形使用習(xí)慣。
(1)有些字的筆畫不多或同相關(guān)字筆畫差異小,龔碼簡形字直接錄入,如“揹併佈採弔複廻姦捲睏裡慄○舖捨塗係兇遊佔(zhàn)週凖”等字。
(2)有些字的筆畫較多或符合簡化規(guī)則,如龔碼繁形字“錶嚐噹噁譁儘釦囉闢鎔託輓 讃誌註”等,按簡化字規(guī)則類推簡化后,龔碼簡形字錄入為“ 侭 啰”。
(3)對(duì)于少數(shù)由于原國標(biāo)碼與大五碼“不同字義”一對(duì)多,而不得不在龔碼中增加或調(diào)整字義的少數(shù)簡形字,若因筆畫多而與其他龔碼簡形字不協(xié)調(diào),龔碼按“兼顧相關(guān)字形,新字的字義、字音易理解,無歧義”的原則將其調(diào)整為“合理字形”。如龔碼繁形字“蔔衝醜澱鬥髮範(fàn)豐乾幹穀後劃彙穫幾薑曆徴麵樸籤鬆 嚮傭 癒雲(yún) 髒徴製隻”等,調(diào)整為合理字形后龔碼簡形字錄入為“夊 3.部分字形調(diào)整(未特別注明者為簡形字)說明及龔碼簡繁形例句對(duì)照(1)表云彩飄動(dòng)之意,取形旁三撇,雲(yún)作 古人云學(xué)海無涯, 程有路。
古人云學(xué)海無涯,雲(yún)程有路。
(2)以兵器防御,用立刀為義旁, 作 由御前帶刀侍衛(wèi)領(lǐng)班在皇宮內(nèi)防 由御前帶刀侍衛(wèi)領(lǐng)班在皇宮內(nèi)防 (3)製作 已見于繁體的手寫。計(jì)劃可行文,劃作 這項(xiàng)計(jì) 從經(jīng)濟(jì)上考量是否劃算還是個(gè)未知數(shù),因而該計(jì) 中產(chǎn)品的 造受到了限制。
這項(xiàng)計(jì)劃從經(jīng)濟(jì)上考量是否劃算還是個(gè)未知數(shù),因而該計(jì)劃中產(chǎn)品的製造受到了限制。
(4)抽簽測(cè)吉兇,用兇字框,以千為音旁,籤作 亦示籤從筒或盒中抽出。
簽約前,他抽了一支 測(cè)運(yùn)氣。
簽約前,他抽了一支籤測(cè)運(yùn)氣。
(5) “髮”生于頭上,以發(fā)為音旁,髮作 取後的右下部,後作夊。借範(fàn)的竹頭,參照相關(guān)字“范”,範(fàn)作笵。
皇后公園的夊面有一家美容 型學(xué)院,我發(fā)現(xiàn)范小姐正在為學(xué)生作示笵。
皇后公園的後面有一家美容髮型學(xué)院,我發(fā)現(xiàn)范小姐正在為學(xué)生作示範(fàn)。
(6)在戰(zhàn)火硝煙中沖鋒,以火為義旁,衝作 上高地,班長沖了一壺龍井茶招待士兵們。
衝上高地,班長沖了一壺龍井茶招待士兵們。
(7)“麵”為食,以其為義旁,以面為音旁,麵作 一碗熱騰騰的紅燒牛肉 端到了他的面前。
一碗熱騰騰的紅燒牛肉麵端到了他的面前。
(8)鐘|鐘,鍾|鍾;表|表, |錶。
他表示,對(duì)祖上留下的這爿鐘 生意情有獨(dú)鍾。
他表示,對(duì)祖上留下的這爿鐘錶生意情有獨(dú)鍾。
(9)盡|盡,侭|儘。
侭管條件有限,他們還是力爭做到人盡其才。
儘管條件有限,他們還是力爭做到人盡其才。
(10)借蘿字的草頭為義旁,以卜bo為音旁,蔔作 卜先生拔蘿 卜先生拔蘿蔔。
(11)干|干;留幹的右邊,幹作 借乾的右邊,以干gān為音旁,乾作 那位老農(nóng)說“我還是早前的話,‘天干地支卜雨只可信一半。天 還得人 !’”那位老農(nóng)說「我還是早前的話,『天干地支卜雨只可信一半。天乾,還得人幹!』」4.符號(hào)對(duì)于簡繁體字使用區(qū)使用頻度較高而差異較大的標(biāo)點(diǎn)及其他符號(hào),在統(tǒng)一方案中采用科學(xué)的統(tǒng)一名稱和可轉(zhuǎn)換輸入提示行顯示形式,并同時(shí)保留不可轉(zhuǎn)換形式。如引號(hào),簡化字的使用順序是先用雙引號(hào)“、”,后用單引號(hào)‘、’;繁體字則先用單引號(hào)「、」,后用雙引號(hào)『、』。二者的名稱與形式很容易混用,部分簡化字出版品轉(zhuǎn)為繁體字時(shí)先使用雙引號(hào)『、』,后使用單引號(hào)「、」。為避免混淆,龔碼使用外引號(hào)和內(nèi)引號(hào)的名稱,即先使用外引號(hào),后使用內(nèi)引號(hào)。龔碼安排了可轉(zhuǎn)換外引號(hào)輸入提示行顯示形式「“、”」和可轉(zhuǎn)換內(nèi)引號(hào)輸入提示行顯示形式『‘、’』只需要輸入可轉(zhuǎn)換形式,即可在龔碼簡形中出現(xiàn)簡化字的習(xí)慣形式,龔碼繁形中出現(xiàn)繁體字的習(xí)慣形式。繁體字的出版品中直排較多,直排時(shí)各種符號(hào)可自動(dòng)轉(zhuǎn)換為直排符號(hào),如 等。
(四)華語冗余信息的變通處理在探討冗余信息的變通之前,我們首先需要解決一個(gè)問題,就是當(dāng)代華人希望從華語的古文化中繼承什么?如果我們希望繼承的是其博大精深、底蘊(yùn)深厚的文化內(nèi)涵,而不是照搬其表現(xiàn)形式,那么科學(xué)地理順華語文中義、音、形等過去沒有理順的關(guān)系,消除語言文字中的“灰色地帶”,把無謂的辯論和爭議減少到最低限度,讓華語比其他語言更科學(xué)、更有效率,對(duì)于各類冗余信息的變通就是必要的。
1.字義冗余信息的變通。
龔碼的每一個(gè)華文字都有獨(dú)特的字義。當(dāng)一個(gè)字具有某種字義,其龔碼中的相關(guān)字(在原國標(biāo)碼或大五碼中相關(guān)的字)即不再具有該義項(xiàng),即“字義不作重復(fù)授權(quán)”。如龔碼收錄了“犟”字,相關(guān)字“強(qiáng)”不再具有“固執(zhí)、不服勸導(dǎo)”的義項(xiàng)。收錄了“幺”字,相關(guān)簡形字“么”不再具有“排行最小的”這一義項(xiàng);其字形、字音相關(guān)字“吆吆”,龔碼根據(jù)合理對(duì)應(yīng)的原則,簡繁形均選擇前者。對(duì)此在《當(dāng)代華語詞典》中嚴(yán)格界定。龔碼統(tǒng)一方案收錄的字與字、詞與詞之間,不存在某字詞或某字詞的某義項(xiàng)“通”另一字詞,或“亦作”另一字詞的現(xiàn)象,即不存在異形詞,這樣也就不會(huì)再出現(xiàn)如「該用『身分』還是『身份』」之類的爭議。對(duì)于龔碼收錄的極少數(shù)字頻、詞頻較高的人地山河名、生意行號(hào)用字,在《當(dāng)代華語詞典》中作出準(zhǔn)確解釋,以免混淆或誤用。如“斌”字字義同“彬”,現(xiàn)為人名用字。當(dāng)代華語詞典不收錄現(xiàn)代使用者接觸不到的義項(xiàng)釋義,字頭下按義項(xiàng)標(biāo)注所屬詞類并附對(duì)應(yīng)英文單詞。為了準(zhǔn)確界定字詞義,并便于查閱、使用和翻譯,《當(dāng)代華語詞典》在部分非抽象名詞的詞條下列出國際通用的外文名稱。
不同的用詞、用語可以豐富語言的表達(dá)方式,但是一方面專業(yè)用詞、用語應(yīng)當(dāng)統(tǒng)一,另一方面用詞、用語應(yīng)當(dāng)不易混淆,盡量讓絕大多數(shù)的文字使用者理解。如“杯葛”(借用愛爾蘭農(nóng)場(chǎng)主boycott被佃戶抵制一事)、“高買”(借購物行竊),若改用作“抵制、偷竊”,所有華文文字使用者都能理解。在華文用詞中,較容易混用的是“同義近音詞”(如雙字詞中同一字,另一字同音),如“什麼、甚麼;指責(zé)、指摘;計(jì)劃、計(jì)畫;報(bào)道、報(bào)導(dǎo);詞典、辭典”。有些用詞則可以豐富表達(dá)方式,不需要調(diào)整,如“奮鬥、打拼;承受力、包容力;走紅、當(dāng)紅;包括、涵蓋”等。龔碼使用“科學(xué)簡潔、嚴(yán)謹(jǐn)合理、不易混淆、通俗易懂”且綜合詞頻和詞頻方向值較高的用詞、用語,及統(tǒng)一的專業(yè)用詞、用語。如綜合詞頻較高的“電腦”與“計(jì)算機(jī)”,盡管CPU的工作原理是通過“計(jì)算”,但Computer的運(yùn)用現(xiàn)在遠(yuǎn)超出“計(jì)算”的范圍,且前者較為形象、簡潔,詞頻方向平均值也高于后者,因而龔碼選用了“電腦|電腦”。再如“指責(zé)”與“指摘”,“指責(zé)”謂責(zé)難,“指摘”謂指明錯(cuò)誤而摘出之,據(jù)詞義龔碼選用了“指責(zé)|指責(zé)”。用詞、用語通過《當(dāng)代華語詞典》作系統(tǒng)性的規(guī)范解釋。
為避免目前存在的語詞運(yùn)用方面的混亂狀況,所有與龔碼相關(guān)的輸入或轉(zhuǎn)換,都依照其文字和語法規(guī)范設(shè)定語詞。如輸入軟件中的用詞按《當(dāng)代華語詞典》設(shè)為“雜 |雜誌、 造|製造、咨詢|諮詢、由仒|由於、聯(lián) |聯(lián)繫、其馀|其餘、輕 |輕鬆、旅遊|旅遊、採訪|採訪、頭 |頭髮、批準(zhǔn)|批準(zhǔn)、佔(zhàn)領(lǐng)|佔(zhàn)領(lǐng)、複雜|複雜”,就不會(huì)再出現(xiàn)目前繁體字出版品中時(shí)??梢姷摹半s志、制造、咨詢、由于、聯(lián)系、其余、輕松、旅游、采訪、頭發(fā)、批凖、占領(lǐng)、復(fù)雜”之類的不規(guī)范用詞。
2.字音冗余信息的變通。
目前簡化字有八百多個(gè)多音字,最多一字五音。繁體字原有四千多個(gè)多音字,有關(guān)方面曾減少到九百多字,但并未推行開,現(xiàn)行繁體字工具書大約錄有兩千個(gè)多音字,最多一字八音。若考慮簡繁字音交叉的因素,目前使用的簡繁體字中大約有三千個(gè)多音字。
這么多的多音字,已經(jīng)超出了學(xué)習(xí)和使用者的記憶力所能承受的范圍,導(dǎo)致教華語的教授、教師,華語電視臺(tái)、廣播電臺(tái)的播音員也難以全部讀準(zhǔn)。因而有人提出了“見字讀半邊,消滅多音字”的主張,也有語言學(xué)家提出“寧多一字,不多一音”的建議。從華語文統(tǒng)一的角度看,多音字主要以下幾種(1)白話與文言多音字。一個(gè)字有兩個(gè)音,字義相同但用處不同。在文言文演變成白話文(又叫語體文)后,一些字的字音在白話文中有了變化。而在讀過去的文言語詞時(shí),仍采用原來的文言音。語言學(xué)中也將白話音稱作語音,將文言音稱作讀音。如血、熟、誰的白話音分別為xi ě、shóu、shéi,文言音為xüè、shú、shuí。由于語音的趨勢(shì)是向口語化發(fā)展,當(dāng)代華語的字音已基本上定型穩(wěn)定,對(duì)于白話音與文言音的變通準(zhǔn)則是全部或部分完成向白話音過渡的字按白話音,未轉(zhuǎn)換成功的字按文言音,有其他義項(xiàng)的字另行考慮。
(2)北京音與京外音。一個(gè)字有兩個(gè)音,其字義相同,如場(chǎng)的北京音(正讀)為cháng,京外音(又讀)為chǎng。這兩個(gè)音中選擇綜合音頻較高的字音,綜合音頻相近時(shí)按北京音。場(chǎng)字取綜合音頻明顯較高的chǎng音。
(3)破音字,即異音異義字。一個(gè)字有兩個(gè)音,這兩個(gè)音的字義不同,實(shí)際上起了兩個(gè)字的作用。①部分字可進(jìn)行“義項(xiàng)合理轉(zhuǎn)移”,如“葉”讀作yè和xié,其中xié的義項(xiàng)“和洽、相合”與“協(xié)”通,可合理轉(zhuǎn)移。另如率shuài、校jiào、哄hōng、奇jī的相關(guān)義項(xiàng)可分別合理轉(zhuǎn)移至“帥、較、轟、畸”。②部分字可“罕義并常義”,如“扁”,piān音屬罕用義項(xiàng),并入常用義項(xiàng)biǎn音。另如拓、度、汗的tà、duó、hán音亦并入常義所屬音。③不能轉(zhuǎn)移或歸并的則保留原多音,如“行、朝、樂、長”等字。
(4)義項(xiàng)可拆分字。某些多音字進(jìn)行“義項(xiàng)拆分”后能使字義的表述更清楚,如“背”的bēi音拆分后用“揹”字,“挨”的āi音、“臟”的zāng音、“扇”的shān音分別用“捱、髒、搧”字。
(5)簡繁交叉多音字。有的字在簡化字和繁體字中都不是多音字,但由于簡繁體字讀音不全相同,在文字統(tǒng)一方案中成了多音字,如“們期識(shí)擊突企播危筑績液攜垃圾堤帆奄”等字,都屬于簡繁交叉多音字。這類字按“關(guān)聯(lián)義項(xiàng)字音”和綜合音頻歸并。如“奄”字,簡化字讀yǎn,繁體字讀yān。在簡繁體字分化前此字原有上述兩音“覆;忽”義讀yǎn,如奄忽、奄有四方;“與閹通;氣息僅續(xù)”義讀yān,如奄人、奄奄一息。當(dāng)代華語大多只用“氣息僅續(xù)”義,因而歸入yān。再如“垃圾”一詞,簡化字讀lājī,繁體字讀lèsè。此詞按綜合音頻歸入前者。
(6)姓氏多音字。這是一種非華裔人士難以理解的“獨(dú)特文化景觀”,一個(gè)字有多個(gè)姓氏讀音,連播音員們也不知道讀哪個(gè)音好,如樂、覃、隗、相、種、翟、勾、鐔、郗等字。無論按其他義項(xiàng)該字的多個(gè)字音是否保留,姓氏字音均只保留綜合音頻較高的一個(gè),如“翟”作姓氏時(shí)統(tǒng)讀Zhái,不讀Dí。
(7)可按音旁歸并字。按音旁歸并,可有助于記憶。如“勁”字,可讀作jìn和jìng,因“巠”部的字通常均為jing音,故歸入此音。再如“廈、蛸、蛤、鈿、蔓”等均按音旁歸入。
通過以上多種方法,將簡繁體字中的大約三千個(gè)多音字減至七十個(gè),由簡化字的最多一字五音、繁體字的最多一字八音減至最多一字三音。
部分多音字(包括簡繁交叉多音字)變通為以下的單音字(以漢語拼音標(biāo)注調(diào)整后的字音)哎āi唉āi挨āi捱ái癌ái噯ài艾ài嗌yì唵ǎn 凹āo熬áo拗áo扒bā吧ba把bǎ鈀bǎ罷bà鲅bà掰bāi唄bài扳bān般bān榜bǎng膀bǎng蚌bàng蒡páng磅bàng堡bǎo趵bào暴bào背bèi奔bēn賁bēn繃bēng吡bǐ裨pí辟bì臂bì扁biǎn緶biàn杓sháo驃piào摽biào別bié癟biě檳bīn并bìng剝bō播bō伯bó孛bèi泊pó薄bó簸bǒ擘bò卜bǔ不bù嚓cā采cǎi傖cāng操cāo側(cè)cè噌cēng叉chā杈chā馇chā碴chā衩chà拆chāi瘥chài摻chān孱chán禪chán鐔tán鏟chǎn顫chàn廠chǎng場(chǎng)chǎng倡chàng焯chāo嘲cháo吵chǎo車chē沉chén諶chén稱chēng鐺dāng乘chéng裎chéng澄chéng秤dhèng匙chí尺chǐ沖chōng幬choú綢choú臭choù褚chǔ揣chuǎi啜chuò嘬zuō創(chuàng)chuàng綽chuò呲cī茈zǐ刺cì樅cōong酢zuò蹴cù撮cuō嗒dā沓tá答dá打dǎ大dà呔tài待dài逮dǎi癉dān疸dǎn撣dǎn澹tán擋dǎng叨dāo燾tāo蹬dēng鐙dèng嘀dí鏑dí氐dī坻dǐ底dǐ弟dì踮diǎn佃diàn鈿tián喋dié揲dié丁dīng酊dīng侗tóng垌tóng峒tóng恫dòng斗dǒu逗dòu讀dú肚dù度dù鐓dūn敦dūn蹲dūn囤tún沌dùn頓dùn哆duō垛duǒ墮duò舵duò蛾é呃e惡è兒ér佴èr發(fā)fā法fǎ蕃fān繁fán氾fán泛fàn坊fāng彷páng菲fēi蜚fēi分fēn玢fēn葑fēng馮féng佛fó否foǔ夫fū芾fú服fú莩fú桴fú脯pú父fù伽jiā嘎gā蓋gài桿gān崗gǎng鋼gāng杠gàng膏gāo鎬gǎo紇hé胳gē擱gē革gé格gé鬲gé葛gě蛤há膈gé個(gè)gè各gè硌gè給gěi艮gèn勾gōu枸gǒu估gū蛄gū轂gū谷gǔ骨gǔ鵠gǔ呱guā觀guān桄guāng廣guǎng龜guī鮭guī柜guì炅guì摑guó嗨hāi胲hǎi搟gǎn汗hàn夯hāng號(hào)hào呵hē合hé和hé核hé荷hé頜hé貉hé闔hé嘿hēi哼h(yuǎn)ēng橫héng哄hǒng紅hóng虹hóng蕻hòng侯hóu糊hú虎hǔ滸hǔ唬hǔ華huá嘩huā化huà劃huá徊huái壞huài郇xún虺huǐ琿hún噦yüē澮kuài檜kuài葷hūn混hùn豁huō緝jī稽jī亟j(luò)í幾jī紀(jì)jì濟(jì)jì偈jì祭jì夾jiá家jiā賈jiǎ價(jià)jià監(jiān)jiān犍jiān囝jiǎn锏jiǎn見jiàn漸jiàn濺jiàn檻jiàn漿jiāng糨jiàng蕉jiāo角jiǎo僥jiǎo矯jiǎo腳jiǎo湫qiū剿jiǎo徼jiǎo繳jiǎo嶠jiào節(jié)jié詰jié結(jié)jié解jiě芥jiè藉jiè矜jīn僅jǐn廑jǐn盡jìn勁jìng禁jìn經(jīng)jīng頸jǐng靚jìng趄jǖ鋦jǘ桔jǘ咀jǚ沮jǘ句jǜ苣jǜ俱jǜ據(jù)jǜ鋸jǜ瞿qǘ卷jüàn雋jüàn倔jüè噱xüé蹶jǖě嚼jiáo菌jǜn筠jǖn麇jǖn俊jǜn浚jǜn咔kā咖kā卡k??琸ǎi看kàn闞kàn扛káng亢kàng閌kàng坷kē軻kē頦ké殼ké可kě克kè嗑kè啃kěn吭kēng倥kōng悝kuī傀kuǐ潰kuì栝guā拉lā啦la喇lǎ剌là臘là蠟là徠lái癩lài郎láng莨liáng閬lǎng嘮láo姥lǎo潦liáo烙lào勒lè肋lè擂lèi嘞lei棱léng厘lí蠡lí哩lī麗lì櫟lì躒lì倆liǎ涼liáng踉liàng量liàng撩li áo燎liáo釕liǎo蓼liǎo撂liào瞭liǎo咧liē裂liè淋lín令lìng溜liū遛liù餾liù鎦liú六liù咯gē瀧lóng籠lóng隆lóng僂lóu嘍lóu摟lǒu露lù蘆lú碌lù率lǜ綠lǜ掠lüè掄l(xiāng)ūn綸lún論lùn捋luō啰luō濼luò絡(luò)luò落luò漯luò麻má螞mǎ嗎ma嘛ma埋mái脈mài謾màn蔓màn貓māo冒mào么me悶mèn氓máng蒙méng謎mí糜mí靡mǐ瞇mī泌mì黽mǐn娩miǎn乜miē繆móu模mó摩mó抹mǒ末mò牟móu姆mǔ哪nǎ那nà娜nà囡nān南nán囊náng馕náng呶náo呢ne嗯en泥ní溺nì碾niǎn鳥niǎo尿niào寧níng擰níng弄nòng努nǔ瘧nüè曖nuǎn喏rě漚òu耙bà排pái派pài胖pàng刨páo炮pào跑pǎo泡pào噴pēn澎péng坯pī鈹pí劈pī埤pì匹pǐ縹piǎo撇piě拼pīn蘋píng屏píng迫pò魄pò掊poú仆pú樸piáo埔pǔ瀑pù曝pù七qī妻qī棲qī期qī蹊xī齊qí圻qí其qí奇qí綮qǐ契qì砌qì薺jì蕁xún淺qiǎn慊qiǎn茜qiàn嵌qiàn嗆qiāng蹌qiāng鏹qiāng強(qiáng)qiáng搶qiǎng悄qiāo譙qiáo誚qiào翹qiào鞘qiào茄qié且qiě親qīn溱qín鯖qīng蝤qiú區(qū)qǖ覷qǜ券qüàn炔qüē闕qiè嚷rǎng嬈ráo任rèn恁rèn葚shèn若ruò塞sāi糝sǎn喪sāng繅sāo臊sào掃sǎo色sè沙shā嗄shà剎shà莎shā煞shà杉shān釤shān苫shān剡yǎn扇shàn上shàng捎shāo梢shāo蛸xiāo勺sháo苕sháo蛇shé舍shě沈shěn甚shèn椹shèn勝shèng澠mǐn省shěng晟chéng什shén石sh2識(shí)shí拾shí食shí蒔shí氏shì適shì熟shóu術(shù)shù腧shù刷shuā衰shuāi誰shéi說shuō思sī伺cì似sì俟sì忪sōng擻sǒu宿sù遂suì挲suō縮suō鉈tā塔tǎ踏tà駘tái臺(tái)tái苔tái覃qín錟tán湯tāng鏜táng倘tǎng儻tǎng趟tǎng掏tāo陶táo淘táo忒tè綈tí提t(yī)í體tǐ裼tì挑tiāo銚iáo帖tiě町dīng梃tǐng鋌tǐng通tōng同tó ng童tóng僮tóng菟tù褪tuì屯tún馱tuó柁tuó砣tuó拓tuò哇wā瓦w ǎ莞wǎn菀wǎn萬wán王wáng圩y唯wéi尾wěi委wěi隗wěi尉wèi紋wún璺wùn撾wō渦wō喔wō烏wū無wú唔wú捂wǔ兀wù郗xī歙xī洗xǐ銑xǐ禧xǐ戲xì系xì呷xiā嚇xià廈xià纖xiān 鮮xiān 閑xián現(xiàn)xiàn巷xiàng削xüē囂xiāo肖xiào校xiào協(xié)xié挾xié寫xiě芯xīn莘xīn戌xǖ砉huò噓xǖ旋xüán血xiě熏xǖn窨yìn壓yā呀y(tǒng)ā疋yǎ啞yǎ雅yǎ咽yān 煙yān湮yān腌yān芫yüán研yán 燕yàn鞅yāng烊yáng幺yāo繇yáo藥yào耶yè葉yè曳yè掖yè一yī衣yī欹yī荑yí眙chì遺yí仡gē屹yì洇yīn蔭yīn殷yīn吟yín齦yín飲yǐn滎yíng喁yǘ涌yǒng柚yòu有yǒu于yú予yǚ於yǘ俞yǘ與yǚ雨yǚ語yǚ吁yǜ育yǜ員yán圜yán媛yán約yüē暈yǖn熨yǜn拶zǎn載zài崽zǎi咱zán攢zǎn髒zāng奘zàng鑿záo擇zé笮zé繒zēng吒zhā咋zhǎ喳zhā楂zhā扎zhā軋yà咤zhà柵zhà炸zhà翟zhái粘zhān輾zhǎn占zhān啁zhoū召zhào蜇zhé這zhè征zhēng怔zhēng錚zhēng正zhèng幀zhēn癥zhèng吱zhī殖zhí只zhǐ峙zhì粥zhōu軸zhóu屬shǔ著zhù爪zhǎo拽zhuài賺zhuàn琢zhuó仔zǐ茲zī粢zī觜zī齜zī訾zī綜zōng卒zú作zuò柞zuò3.字形冗余信息的變通。
華文方塊字冗余義、音、形的比例過高,是影響華語走向世界的因素之一。由于每一個(gè)華文方塊字都需要單獨(dú)記憶,總字?jǐn)?shù)太多,無論多好的記憶法都難以徹底解決問題。有面向海外的華語教材把每一個(gè)華文字的字形都編成一個(gè)故事,一些學(xué)習(xí)者開始還有興趣,但學(xué)到上百字就不愿再學(xué)了。有學(xué)習(xí)者說“一個(gè)字一個(gè)故事,幾千幾萬字就有成千上萬個(gè)故事,我這一輩子還學(xué)不學(xué)其他知識(shí)?做不做其他事?”由于華文字現(xiàn)階段不統(tǒng)一,導(dǎo)致了華文在海外無規(guī)范、冗余語詞失控的現(xiàn)象。海外有華人家長講“不知道讓孩子學(xué)簡體字還是學(xué)繁體字好。華語這么難學(xué),想著國內(nèi)那些孩子學(xué)習(xí)時(shí)的辛苦樣子就害怕;學(xué)了在海外又用不上,孩子能簡單聽說就行了?!比A人尚且如此,更不用提一般外國入學(xué)華語時(shí)所面對(duì)的困難了。有學(xué)華語而堅(jiān)持不下去的外國學(xué)生對(duì)老師說“你們的文化真的很悠久;不過,有時(shí)候,你們的文化也太累了?!庇鴮W(xué)華語的高中生原來要求掌握九百多個(gè)單字,但由於華字結(jié)構(gòu)復(fù)雜令許多學(xué)生卻步,最近改為只要求掌握六百個(gè)華字。有英國中學(xué)生說,說華語可能比說法語還要容易,但書寫華文方塊字卻如寫天書。
文字貴精、貴巧、貴搭配,字必盡其用;“信馬由韁”似的把方塊字越用越多的做法不會(huì)使我們的民族在語言文字方面進(jìn)步。因而對(duì)構(gòu)詞率極低的不涉及姓氏、有效人名的華文冗余字進(jìn)行適當(dāng)變通,合理減少華文用字是必要的。為了簡繁——對(duì)應(yīng)后與簡形字協(xié)調(diào),龔碼字符集減少了極少數(shù)字的筆畫,但并未增加任何一個(gè)新字。如果華文字的增加就此打住,有關(guān)機(jī)構(gòu)“征集新字”的作法也停下來,將可避免產(chǎn)生新的冗余字。同音同義而不同形的異體字和異形詞,在本發(fā)明中已用綜合字詞頻和字詞頻方向平均值的方法解決;對(duì)于龔碼未收錄的名稱用字,按其他習(xí)慣名稱,無其他習(xí)慣名稱者采用“義音形最接近字+特征尾字”的方法解決。以下幾類冗余字(或近似于冗余字)用“字義、字音、字形等關(guān)聯(lián)性強(qiáng)、合理,變通后的組詞無歧義、不與其他同類語詞重復(fù)”的“合理對(duì)應(yīng)字”方法調(diào)整,除省和中央直轄市的名稱及代名稱保留原用外,所有地名和山河湖海島渠泉名等一般不設(shè)“專字、專音”。以下變通字用括號(hào)注于相關(guān)字后。
(1)詞義變通法。根據(jù)詞義,將語詞中的冗余字加以變通,如睥睨(輕視);旖旎(柔麗);須臾(片刻);縈(掛)懷;皸(龜)裂;揠(拔)苗助長;擢(拔)發(fā)難數(shù);斬將搴(拔)旗;暴殄(絕)天物;踟躕(躊躇)不前;趑趄(猶豫)不前;繁文縟(瑣)節(jié);奮翮(羽)高飛;剛愎(倔)自用;踽踽(孤孤)獨(dú)行;光陰荏苒(似箭);髭(胡)須皆白;戶樞不蠹(蛀);怙(持)惡不悛(悔);赍(懷)志而歿(逝);嘁嘁(嘰嘰)喳喳;裒(減)多益寡;殫(竭)思極慮;戎馬倥傯(迫促);厲兵秣(喂)馬;窮兵黷(嗜)武;滿目瘡痍(傷);悒悒(悶悶)不樂;潸(默)然淚下;前倨(傲)后恭;汗流浹(透)背;提綱挈(示)領(lǐng);齜(突)牙咧嘴;言簡意賅(全);為虎作倀(惡);桀驁(兇傲)不馴;飲鴆(毒)止渴;床笫(席)之歡;錙銖(分毫)必較;犖犖(顯顯)大端;各攄(抒)己見;跬(半)步不離;得魚忘筌(簍);蓬門蓽(竹)戶;趨之若鶩(鴨);鷸(鳥)蚌相爭;舳艫(舟連)千里;嗤(譏)之以鼻;越俎(砧)代庖(廚);病入膏肓(心肺);罄(盡)竹難書;捫(摸)心自問;涇渭(經(jīng)緯)分明;以饗(款)讀者;光風(fēng)霽(亮)月;風(fēng)馳電掣(閃);櫛(梳)風(fēng)沐雨;引咎(責(zé))辭職。語詞中的冗余字變通后,既減少了用字,又使所搭配語詞更易理解,字音更易讀。
(2)近音、近形變通法。根據(jù)相近的字音或字形,將語詞中的冗余字加以變通,如基礎(chǔ)(楚);戥(等)子;推諉(委);皈(歸)依;蔥蘢(隆);儐(賓)相;白芨(及);菝葜(拔卡);牛蒡(旁);蓽(畢)撥;菟(兔)絲子;芄(丸)蘭草;苜(目)宿草;珂(科)羅版;鋌(挺)而走險(xiǎn);貽(遺)笑大方;層巒疊嶂(障);泱泱(央央)大國;根深柢(蒂)固;駟(四)馬難追;漭漭(茫茫)大海;嘻(嬉)皮笑臉。
(3)特征尾字識(shí)別變通法。華文里有一些含有冗余信息的的雙字詞和多字詞,利用保留特征尾字便于識(shí)別的方法,將非尾字加以變通,如蝴(胡)蝶;蜻(青)蜓;蚯(丘)蚓;蚱(乍)蜢;鵪(安)鶉;尷(干)尬;輿(吁)論;唿(呼)哨;瀏(流)覽;葒(紅)草;蕨(覺)草;獼(彌)猴。
(4)并列關(guān)系語詞變通法華文里有大量并列關(guān)系語詞,由于可改變順序而產(chǎn)生冗余方式,如單槍匹馬,匹馬單槍;粉身碎骨,碎骨粉身,碎身粉骨,粉骨碎身。按綜合字詞頻和字詞頻方向平均值,《當(dāng)代華語詞典》只錄入單槍匹馬、粉身碎骨。
(5)有機(jī)化學(xué)冗余字變通法除酶、醇、酊、醣、苯、胺等較常用字外,其他有機(jī)化學(xué)專用字全部加以變通,如將“吖嗪”用作“丫秦”。
(6)地名冗余字變通法。如下表
“山河湖海島渠泉”名稱冗余字的變通如渤(勃)海;鄱(波)陽湖;趵(跳)突泉;峴(現(xiàn))山;崆峒(空同)山;邛崍(瓊來山);崦嵫(奄茲)山;洹(安陽)河;潿(圍)洲島;溈(為)水;濰(維)河;灞(霸)河。還有其他相關(guān)用字如“岣崍岍崾岬崤岈崳崮岜峁嶷垌垴硤澉淝洧湟濂淄洙灃洮澶澧淠淥濉滹浯澮涑濼汜湓湞瀧滏灄閿勐筻厙邙鎣邑邕媯婺剡”等也都作相應(yīng)調(diào)整。以上如湖北省浠水縣,如變通作“希水”縣,會(huì)產(chǎn)生“希望有水”、“盼水”的歧義,按“變通后的組詞無歧義”的原則,用作“溪水”縣,可給人“流水潺潺”的印象。
地名、山河湖海島渠泉名變通方案報(bào)政府有關(guān)主管機(jī)構(gòu)批準(zhǔn)后錄入工具書。獲批后的實(shí)施過渡階段可新、舊名并用。當(dāng)有新的文字需要出現(xiàn),原有字的義項(xiàng)不能表述時(shí),以現(xiàn)有的合理對(duì)應(yīng)字增加義項(xiàng),或采用“義音形最適合字+特征尾字”的方法解決,特征尾字可為“花草樹木鳥蟲魚石山河湖島渠泉”等,以避免產(chǎn)生新的冗余字。如一種新的有機(jī)化合物,用現(xiàn)有的合理對(duì)應(yīng)字增加新義項(xiàng)。再如一種魚過去無華文表述,可用“義音形最適合字+魚”組成詞命名。冗余字減少后,我們可對(duì)外宣稱現(xiàn)代華語只有四千字(姓氏和人名因素之外的“華文核心字”其實(shí)只有3,000個(gè)),以減輕那些有志學(xué)華語的外國人的恐懼心理。
事實(shí)上并不局限于字形,每一則冗余信息的出現(xiàn),都會(huì)消耗接觸者的時(shí)間(專業(yè)研究除外),如現(xiàn)行的通用工具書中,在字頭后括號(hào)內(nèi)列出的大批量的“無效”異體字。一個(gè)意思,用幾十種不同的語句方式表達(dá),學(xué)習(xí)者都得花時(shí)間去記。一則“脫穎而出”的詞條,如果引經(jīng)據(jù)典二百字也解釋不清楚,顯然不合現(xiàn)代節(jié)奏;解釋為“才華卓越盡顯”,讀者一目了然。標(biāo)注某字在過去哪幾個(gè)朝代“通”其他某字或讀其他某音,并不是今天的大多數(shù)華語學(xué)習(xí)者所需要了解的信息。為了避免大多數(shù)現(xiàn)代讀者接觸冗余信息,《當(dāng)代華語詞典》不收錄現(xiàn)在不用或罕用的字詞條和義項(xiàng),不注古音古義,除特需外對(duì)詞條原則上不標(biāo)注出處。同時(shí),提倡方塊字的學(xué)習(xí)使用者在日常生活中自覺少用或不用冗余信息,努力為下一代留下簡潔、科學(xué)的文字界面。
龔碼簡繁形對(duì)照文稿 聽 雪 ·龔學(xué)勝·(原載一九九二年二月《人民日?qǐng)?bào)》海外版)簌簌落落/霏霏揚(yáng)揚(yáng)/朵朵漫空蓬勃/擁抱屈原 李清照/擁抱岳飛 鄭成功/擁抱 我五千年的故國//揮不去 掙不脫/如飛似掠的玉瓊/雍容馳騁生萬象/旋浩然 坤//何不善解雪意?/立長城為筆/蘸海峽作彩/譜一曲吟天誦地的和聲/龍騰起浪/虎躍生風(fēng)/傾恢宏的關(guān)愛/維 兩岸/待神定氣爽/報(bào)知響晴 聽 雪 ·龔學(xué)勝·(原載一九九二年二月《人民日?qǐng)?bào)》海外版)簌簌落落/霏霏揚(yáng)揚(yáng)/朵朵漫空蓬勃/擁抱屈原 李清照/擁抱岳飛 鄭成功/擁抱 我五千年的故國//揮不去 掙不脫/如飛似掠的玉瓊/雍容馳騁生萬象/旋浩然乾坤//何不善解雪意?/立長城為筆/蘸海峽作彩/譜一曲吟天誦地的和聲/龍騰起浪/虎躍生風(fēng)/傾恢宏的 愛/維繫兩岸/待神定氣爽/報(bào)知響晴◇寄友人◇·龔學(xué)勝·(原載一九九三年五月《明報(bào)》加?xùn)|版)一串嘆息,隨著一次日昇日落,不捨地失落在太平洋兩岸。
匆匆別離,正如匆匆相逢,多幾分憧憬,少幾許不安。來不及揮手,一段珍藏的歲月,便漸趨遼遠(yuǎn)。
又怎能忘懷?那些個(gè)雞鳴之晨。剪燭夜半,歷史與現(xiàn)實(shí)的輝煌與沉重,不歇地撞擊我們的雙肩。平湖蕩舟,自然靜謐,似無風(fēng)險(xiǎn);可我們是當(dāng)代,我們是水手,天性向往大海,追逐風(fēng)帆。生命的價(jià)值,在令不斷注入新的挑戰(zhàn)。
是的,我們這一代太累,如虔誠的朝山客,幾欲恨恨而卻步,仍需奮力登攀。下一宗賭注,未必能贏得一番彩頭;不必祈求晴朗的機(jī)遇,曾經(jīng)瀟灑過就無須畏懼遺憾。
今夜,月涼風(fēng)輕,我披衣梭巡,覓採靈感。朋友,寄給你們點(diǎn)兒什么呢 China Town生意滔滔的繁華,CN Tower巨無霸的偉岸,Midland丹楓的精微,Niagara Falls的壯觀……不不,這些都還不夠,寄上心與心的呼應(yīng),夢(mèng)與夢(mèng)的渴盼。
莫要說,人移情易,世態(tài)冷淡;莫要說,山水遙隔,阻斷思念。祖國每一縷纖細(xì)的脈動(dòng),依然頻頻撥動(dòng)心弦……◇寄友人◇·龔學(xué)勝·(原載一九九三年五月《明報(bào)》加?xùn)|版)一串嘆息,隨著一次日昇日落,不捨地失落在太平洋兩岸。
匆匆別離,正如匆匆相逢,多幾分憧憬,少幾許不安。來不及揮手,一段珍藏的歲月,便漸趨遼遠(yuǎn)。
又怎能忘懷?那些個(gè)雞鳴之晨,剪燭夜半,歷史與現(xiàn)實(shí)的輝煌與沉重,不歇地撞擊我們的雙肩。平湖蕩舟,自然靜謐,似無風(fēng)險(xiǎn);可我們是當(dāng)代,我們是水手,天性向往大海,追逐風(fēng)帆。生命的價(jià)值,在於不斷注入新的挑戰(zhàn)。
是的,我們這一代太累,如虔誠的朝山客,幾欲恨恨而卻步,仍需奮力登攀。下一宗賭注,未必能贏得一番彩頭;不必祈求晴朗的機(jī)遇,曾經(jīng)瀟灑過就無須畏懼遺憾。
今夜,月涼風(fēng)輕,我披衣梭巡,覓採靈感。朋友,寄給你們黠兒什麼呢?China Town生意滔滔的繁崋,CN Tower巨無霸的偉岸,Midland丹楓的精微,Niagara Falls的壯觀……不不,這些都還不夠,寄上心輿心的呼應(yīng),夢(mèng)輿夢(mèng)的渴盼。
莫要說,人移情易,世態(tài)冷淡;莫要說,山水遙隔,阻斷思念。祖國每—縷纖細(xì)的脈動(dòng),依然頻頻撥動(dòng)心弦……龔碼的每種字體都包括——對(duì)應(yīng)的簡形和繁形。為了區(qū)別于原有的繁體字、簡化字的說法,龔碼中稱之為簡形字、繁形字;龔碼的各種字體稱為龔碼簡楷、龔碼繁楷,或龔碼簡報(bào)宋、龔碼繁報(bào)宋。除華文字的相關(guān)學(xué)術(shù)文章等特殊用途外,龔碼的簡形字和繁形字在各類出版品中不可以混用。如一份使用龔碼的報(bào)紙,可全部選用簡形字體或全部選用繁形字體,即要么出簡形版,要么出繁形版,也可同時(shí)出版發(fā)行簡形版和繁形版。但在簡形版中,應(yīng)全部使用龔碼簡形字體,反之亦然。同理,為避免簡繁混用,按龔碼的標(biāo)準(zhǔn),龔碼的每—種字體要么是簡形,要么是繁形,簡形字與繁形字不會(huì)出現(xiàn)在同一種字體中。另外,為了避免隨意選用擴(kuò)充集的字符,基本集與擴(kuò)充集的字符在輸入提示行顯示不同的顏色;缺省設(shè)置為只有基本集字符;當(dāng)需用擴(kuò)充巢字符時(shí),基本集在前,擴(kuò)充集在后。
龔碼是一個(gè)在內(nèi)碼、用字范圍、字義、字形、字音、語詞、語法、輸入法和譯名等方面的全面完整的華語文系列統(tǒng)一方案。龔碼得以推廣后,原簡化字使用區(qū)仍可使用簡形字,原繁體字使用區(qū)仍可使用繁形字,也可限據(jù)需要自由選擇。經(jīng)過較短的“識(shí)繁寫簡”(認(rèn)識(shí)繁形,手寫成簡形)的過程,不管是原有簡化字使用區(qū)、繁體字使用區(qū),還是母語為非華文的華文字學(xué)習(xí)和使用者,對(duì)于龔碼的簡形和繁形字將普遍都能讀寫和使用,進(jìn)而不轉(zhuǎn)字形也可“簡繁通讀”,并能輕易達(dá)至最嚴(yán)謹(jǐn)?shù)娜A文文字規(guī)范。學(xué)習(xí)使用者以“識(shí)多寫少”(認(rèn)識(shí)其他內(nèi)碼字,手寫龔碼簡形字)的方式保持龔碼基本字符集與其他華文內(nèi)碼之間的銜接。對(duì)于各類平面、多媒體、電子出版品,所有的華文來稿都可統(tǒng)一處理,不再有需要轉(zhuǎn)碼、某些字詞無法轉(zhuǎn)換、轉(zhuǎn)錯(cuò)及華文出現(xiàn)亂碼的問題。對(duì)于國際互聯(lián)網(wǎng),讀者在剛開始使用龔碼時(shí)只需點(diǎn)取“簡顯”或“繁顯”,即可用—種自己熟悉的字形顯示閱讀所有以龔碼形成的網(wǎng)頁,比將國標(biāo)碼的宋體換為國標(biāo)碼的楷體還要簡單。由于龔碼的簡形與繁形字及圖符全部——對(duì)應(yīng),各種圖文混排的平面和電子出版品,只要輕輕點(diǎn)一次指令,多種華文字體便能夠同步轉(zhuǎn)換,如龔碼簡報(bào)宋轉(zhuǎn)龔碼繁報(bào)宋,龔碼簡隸書轉(zhuǎn)龔碼繁隸書,龔碼簡綜藝轉(zhuǎn)龔碼繁綜藝。對(duì)于涉及到華文的各類軟件,只需出版一種華文版本。計(jì)算機(jī)、電子字典等的手寫輸入可寫成簡形,顯示繁形。輸入軟件的提示行只需要顯示簡形或繁形,不再需要將所有的簡化字和繁體字一起顯示出來。
在統(tǒng)一方案的制訂過程中,本發(fā)明既兼顧到華文簡化字和繁體字的現(xiàn)行規(guī)范和習(xí)慣,也兼顧到其文字的發(fā)展方向。既考慮至研究華文文字的專家學(xué)者的學(xué)術(shù)見解,又考慮到一般文字使用者的感受,使其“樂于使用、方便使用”。既考慮到母語為華文的學(xué)習(xí)和使用者,又考慮到母語為非華文的學(xué)習(xí)和使用者。
無論從用字范圍,還是字義、字形、字音的角度界定,龔碼既不是大五碼的精簡,也不是國標(biāo)碼的延伸。學(xué)習(xí)和使用龔碼并達(dá)至嚴(yán)謹(jǐn)華文文字規(guī)范所花費(fèi)的時(shí)間,要遠(yuǎn)遠(yuǎn)少于其他的華文文字單一內(nèi)碼。另一方面,雖然與國標(biāo)碼和大五碼都有區(qū)別,但影響到簡化字和繁體字使用者日常習(xí)慣的字分別都不算多。以新學(xué)習(xí)、適應(yīng)少量字的努力,換取—種永久統(tǒng)一、更加規(guī)范和科學(xué)、簡繁體字優(yōu)勢(shì)互補(bǔ)的華文文字體系,應(yīng)當(dāng)是—件具有歷史價(jià)值的事。
龔碼是一個(gè)承接過去、立足現(xiàn)在、面向未來的華文文字統(tǒng)一方案,以現(xiàn)代化的科學(xué)量化的篩選、整合、變通、規(guī)范及創(chuàng)新處理方法避開各種爭議。按照每—個(gè)字都符合“選之有理有據(jù)”和“高效率地字盡其用”的原則,力爭能經(jīng)得起今后一定時(shí)間段的檢驗(yàn)。龔碼基本字符集(用字范圍、字形)與《當(dāng)代華語詞典》的釋義、拼注音(字詞語義、字音)配合,構(gòu)成一個(gè)統(tǒng)一、完整、科學(xué)、規(guī)范、穩(wěn)定的華文文字體系,讓華文字使用者“想錯(cuò)也不容易”,輕易能達(dá)至嚴(yán)謹(jǐn)?shù)娜A文文字規(guī)范;讓所有的用字者都沒有“累”的感受“呀,原來用華文字可以這么輕松!”進(jìn)而覺得使用華文字是一種享受。若本發(fā)明與華語拼音龔碼統(tǒng)一方案等系列方案能得以推行,從理論上說,以方塊字方式學(xué)習(xí)華語的平均時(shí)間將只需要現(xiàn)在的四分之一。如果海內(nèi)外的華人把這些節(jié)省的時(shí)間拿來學(xué)習(xí)其他知識(shí),或用于工作或研究,將能創(chuàng)造無法衡量的經(jīng)濟(jì)價(jià)值,大中華的綜合國力、國際地位和國際發(fā)言權(quán)也將得到大幅提升。
既然現(xiàn)行簡化字和繁體字存有較大的差異,不管華文文字統(tǒng)一方案規(guī)范與科學(xué)的程度如何,簡繁兩種文字使用區(qū)的文字使用者和文字專家學(xué)者在統(tǒng)一方案的推行中,就必定需要心平氣和的理解與讓步(避免長期無謂爭議);同時(shí),中華語言文字系列統(tǒng)一方案的推行中有可能會(huì)遇到的各種學(xué)術(shù)層面之外的問題,也有待相關(guān)政治家們以遠(yuǎn)見、風(fēng)度和智慧去化解。大中華的復(fù)興與騰飛所亟需的文字基礎(chǔ)的打造,需要包括海外華人在內(nèi)的當(dāng)代所有中國人的共同協(xié)作與努力。
附1“華文文字龔碼統(tǒng)一方案編碼字符集基本集”(示例)說明華文字龔碼基本字符集(Chinese Gugq Code-Basic Set)編碼范圍為A001-J994,分為100個(gè)區(qū)(Section),每個(gè)區(qū)94個(gè)位(Position),總計(jì)9,400個(gè)碼位。收錄華文字及一般符號(hào)、序號(hào)、數(shù)字、注音字母、漢語拼音、國際音標(biāo)、拉丁字母、日文假名、希臘字母、俄文字母,共5,274個(gè)圖形字符。其中華文字以外的圖形字符730個(gè),華文字4,544個(gè)(姓氏和人名因素之外的“華文核心字”只有3,000個(gè)),并留有用戶自定義區(qū)。
龔碼基本字符集的每一個(gè)文字內(nèi)碼都有一個(gè)簡形字和一個(gè)繁形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào))?;咀址春喿蠓庇一蚝喩戏毕聦?duì)照排列,若需要對(duì)照列出單字,橫排時(shí)簡左繁右,中間以單豎線隔開,以“龔|龔、碼|碼”的排列方式(語詞也按此方式)出現(xiàn);直排時(shí)簡上繁下,中間以單橫線隔開。
如果編碼按部首和筆畫排列,龔碼的簡形字和繁形字會(huì)形成兩種不同的排列順序,加之簡繁體字使用區(qū)所使用的拼音方案也不同,因而龔碼基本集及以下所提的擴(kuò)充集的文字部分均按龔碼華語拼音方案(另案提出)的字音和聲調(diào)排列,每一聲調(diào)內(nèi)按綜合字頻排列。多音多調(diào)字排入特定音頻較高的音節(jié)或聲調(diào)內(nèi),如“朝、行、重”三字分別排入特定音頻較高的cháo、xíng、zhòng音節(jié),不排入特定音頻較低的zhāo、háng、chóng音節(jié)。龔碼基本字符集可滿足除古籍書翻印、方言字出版等特殊用途以外的各種華文用字需要。
龔碼擴(kuò)充字符集(Chinese Gugq Code-Supplementary Set)用于古籍書翻印等特殊用途。擴(kuò)充集亦為每一個(gè)文字內(nèi)碼都有一個(gè)簡形字和一個(gè)繁形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào))??紤]到簡化字使用區(qū)的用字習(xí)慣,龔碼擴(kuò)充集收錄的簡形字,必要時(shí)仍按簡化字規(guī)則類推簡化。龔碼擴(kuò)充集收錄華文字使用者讀得到用不到,并有必要收錄(如有特定字詞義或在特定時(shí)期有特定字詞義)的字,包括部分古書用字。如唐朝女皇帝武則天為自己的名字所造之字“曌”,我們不可能稱她為“武照”,當(dāng)代人通常也不可能用此字命名(交流不方便),因而將“曌”收進(jìn)龔碼擴(kuò)充集中。此類有些字是中國歷史文化的一部分。再如一個(gè)“寶”字就有13種寫法與“黑”重義的字就有43個(gè);“鬥”字過去不同時(shí)期用過的曾有“ 閗 闘”等字,但字義并無區(qū)別。 雖在文字學(xué)上為“鬥”的正字,但沒有必要在翻印古書時(shí)一定要將“鬥”排印成 字(考古或文字類學(xué)術(shù)論文等除外)?,F(xiàn)在處于知識(shí)、信息快速更新的年代,華文字使用者可以利用學(xué)這些字的時(shí)間去學(xué)其他知識(shí)。因而龔碼擴(kuò)充集沒有收錄此類字。龔碼擴(kuò)充字符集編碼范圍為K001-P994,分為60個(gè)區(qū)(Section),每個(gè)區(qū)94個(gè)位(Position),總計(jì)5,640個(gè)碼位。擴(kuò)充字符集收錄華文字1,576個(gè)。
作為變通方法,也可在龔碼外的其他同種內(nèi)碼內(nèi)或不同內(nèi)碼間建立簡繁一一對(duì)應(yīng)關(guān)系和相同用字范圍,如在GB18030-2000、Unicode或Big5+之內(nèi),或在國標(biāo)碼與大五碼之間。對(duì)于龔碼特有的幾十個(gè)字,向相關(guān)內(nèi)碼的備用碼位加字。從而實(shí)現(xiàn)沒有龔碼,但與龔碼相同或相近的簡繁之間的用字范圍和簡繁一一對(duì)應(yīng)的統(tǒng)一。
本發(fā)明可有效應(yīng)用于涉及到華文的各種計(jì)算機(jī)軟件(如操作系統(tǒng)、瀏覽器、文字處理、排版、打字及語音或手寫輸入、光學(xué)OCR識(shí)別、翻譯、造字、校對(duì)等軟件),國際互聯(lián)網(wǎng),平面、多媒體、電子出版品,電子字典、手機(jī)等,可支持所有平臺(tái),可用于主機(jī)Server端或客戶Client端,可用于文件、電子郵件、頁面。龔碼可促使同一華文計(jì)算機(jī)軟件的簡化字和繁體字兩個(gè)版本合二為一。
二、華文文字內(nèi)碼完整規(guī)范化快速轉(zhuǎn)換在龔碼推出后,還有可能在某些情況下使用異種內(nèi)碼之間的轉(zhuǎn)換。比如原有以其他華文內(nèi)碼形成的計(jì)算機(jī)文件,沒必要重新輸入為龔碼,只需要轉(zhuǎn)換內(nèi)碼即可。致于同種內(nèi)碼轉(zhuǎn)換,因其作用為統(tǒng)稿、編輯、校對(duì)、修正,使用范圍更廣。
1.異種內(nèi)碼轉(zhuǎn)換詞典示例以下先介紹“基本轉(zhuǎn)換詞典”的制訂原理和使用。先看“基本轉(zhuǎn)換詞典”的“國標(biāo)碼轉(zhuǎn)大五碼”部分示例(隨機(jī)抽取條目,并未按一定規(guī)則排序)◎既→既◎?qū)W→學(xué)◎證→證(不轉(zhuǎn)“証”)◎閑→閒(不轉(zhuǎn)“閑”)◎機(jī)→機(jī)(不轉(zhuǎn)“機(jī)”)◎秋→秋秋千→鞦 ◎千→千◎英→英◎寸→寸英寸→吋◎后→后皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孫後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎臺(tái)→臺(tái)(不轉(zhuǎn)“臺(tái)”)檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風(fēng)1.高平建築物,器物座講臺(tái),窗臺(tái),燈臺(tái),登臺(tái),臺(tái)詞2.量詞一臺(tái)戲,一臺(tái)機(jī)器3.舊時(shí)敬詞臺(tái)端,兄臺(tái)4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴風(fēng)颱風(fēng)6.臺(tái)灣省臺(tái)中,臺(tái)北市,在臺(tái)協(xié)會(huì)7.特定地名天臺(tái)山(浙江省),天臺(tái)縣(浙江省),臺(tái)州(浙江省)8.姓臺(tái)先生◎志→志標(biāo)誌,碑誌,地理誌,方誌,府誌,日誌,省誌,縣誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.記在心里,不忘永誌不忘,誌哀3.記載的文字雜誌,縣誌4.記號(hào)標(biāo)誌5.稱輕重,量長短多少用秤志志以上的實(shí)際“基本轉(zhuǎn)換詞典”,包括了來源碼中全部的字和圖符(如國標(biāo)碼為6,763字,682個(gè)圖符)。每個(gè)單字條目的第一行(緊接◎后),表示“來源碼字→目的碼字”,或“來源碼字→目的碼詞”。有些單字條目下沒有詞組(只有第一行),表示只需要進(jìn)行“一對(duì)一”的轉(zhuǎn)換。單字條目下如有詞組(從第二行開始),表示在目的碼的環(huán)境中“詞→詞”,或“詞→字”。對(duì)于不會(huì)引起誤解的詞,略去了轉(zhuǎn)換前的部分,只列出了轉(zhuǎn)換后的部分,如“皇后、檯布、標(biāo)誌”,其完整形式應(yīng)為“皇後→皇后、臺(tái)布→檯布、標(biāo)志→標(biāo)誌”。對(duì)于需要特別指明的詞,列出了轉(zhuǎn)換的完整形式,如“秋千→鞦 英寸→吋”。
對(duì)于單一的“一對(duì)一”的可轉(zhuǎn)字,直接排入即可,如大→大、學(xué)→學(xué)。
對(duì)于同一字義的“一對(duì)多”可轉(zhuǎn)字,全部轉(zhuǎn)為根據(jù)綜合字頻、詞頻和字頻、詞頻方向平均值挑選的一個(gè)字,并明確指出“不轉(zhuǎn)某字”,如證→證(不轉(zhuǎn)“証”)、閑→閒(不轉(zhuǎn)“閑”)。
對(duì)于不同字義的“一對(duì)多”可轉(zhuǎn)字,全部先轉(zhuǎn)為根據(jù)綜合字頻、詞頻和字頻、詞頻方向平均值挑選的一個(gè)“主被選字”,并明確指出“不轉(zhuǎn)某字”,如臺(tái)→臺(tái)(不轉(zhuǎn)“臺(tái)”)。然后在目的碼中,根據(jù)“基本轉(zhuǎn)換詞典”中提供的“詞”,如本例中的“檯布,櫃檯……颱風(fēng)”等,根據(jù)詞的搭配轉(zhuǎn)為不同字義的“一對(duì)多”其他“次被選字”。如本例,實(shí)際上是在目的碼中將“櫃臺(tái)”轉(zhuǎn)為“櫃檯”,將“臺(tái)風(fēng)”轉(zhuǎn)為“颱風(fēng)”。以此將來源碼中的“一”個(gè)字,正確轉(zhuǎn)換為目的碼中不同字義的“多”個(gè)字——“主被選字”和“次被選字”。
轉(zhuǎn)換詞典里列入的字和詞需盡量不重復(fù),不矛盾,并且只考慮字形不管其發(fā)音。如“鞦 ”在“秋”字條下出現(xiàn),就不在“千”字條下出現(xiàn)。為了方便使用者了解文字規(guī)范,在寫作、打字、編輯、校對(duì)、對(duì)轉(zhuǎn)換詞典自行增加字詞等過程中,準(zhǔn)確分辨、運(yùn)用字義,在“基本轉(zhuǎn)換詞典”的多義字條下有解釋和示例。同一字義的“一對(duì)多”字條按“被選字”解釋。轉(zhuǎn)換詞典設(shè)計(jì)的完美與否,會(huì)直接影響到轉(zhuǎn)換的準(zhǔn)確度和轉(zhuǎn)換效率,因而結(jié)構(gòu)要合理,便于計(jì)算機(jī)高效搜尋轉(zhuǎn)換。
2、同種內(nèi)碼轉(zhuǎn)換詞典示例由于在同種內(nèi)碼轉(zhuǎn)換中,單一的“一對(duì)一”的可轉(zhuǎn)字已經(jīng)轉(zhuǎn)換,因而在第一步轉(zhuǎn)換時(shí)沒必要將字全部轉(zhuǎn)換。以下依照“基本轉(zhuǎn)換詞典”的“國標(biāo)轉(zhuǎn)大五碼”部分示例字條,列出“基本轉(zhuǎn)換詞典”的“大五碼內(nèi)轉(zhuǎn)換”部分示例,以便對(duì)照。
◎証→證◎閑→閒◎機(jī)→機(jī)秋千→鞦 英寸→吋◎后→後皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孫後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎臺(tái)→臺(tái)◎檯→臺(tái)◎颱→臺(tái)檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風(fēng)1.高平建筑物,器物座講臺(tái),窗臺(tái),燈臺(tái),登臺(tái),臺(tái)詞2.量詞一臺(tái)戲,一臺(tái)機(jī)器3.舊時(shí)敬詞臺(tái)端,兄臺(tái)4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴風(fēng)颱風(fēng)6.臺(tái)灣省臺(tái)中,臺(tái)北市,在臺(tái)協(xié)會(huì)7.特定地名天臺(tái)山(浙江省),天臺(tái)縣(浙江省),臺(tái)州(浙江省)
8.姓臺(tái)先生◎誌→志標(biāo)誌,碑誌,地理誌,方誌,府誌,日誌,省誌,縣誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.記在心里,不忘永誌不忘,誌哀3.記載的文字雜誌,縣誌4.記號(hào)標(biāo)誌5.稱輕重,量長短多少用秤志志每個(gè)單字條目的第一行(緊接◎后),表示“目的碼轉(zhuǎn)前字→目的碼轉(zhuǎn)后字”。
對(duì)于單一的“一對(duì)一”的可轉(zhuǎn)字,在目的碼中已經(jīng)無須再轉(zhuǎn)。
對(duì)于同一字義的“一對(duì)多”可轉(zhuǎn)字,將“落選字”轉(zhuǎn)為“被選字”,如証→證、閑→閒。
對(duì)于不同字義的“一對(duì)多”可轉(zhuǎn)字,先全部轉(zhuǎn)為“主被選字”,再根據(jù)詞的搭配轉(zhuǎn)為不同字義的“一對(duì)多”其他“次被選字”。
3、多碼多向轉(zhuǎn)換詞典示例在國際互聯(lián)網(wǎng)(主機(jī)Sever端或客戶Client端的動(dòng)態(tài)、靜態(tài)轉(zhuǎn)換)和各類涉及到華文的軟件中,其頁面、在線、文件、電子郵件等多向內(nèi)碼轉(zhuǎn)換中,為了使用方便,可把多種內(nèi)碼之間、某一內(nèi)碼之內(nèi)的轉(zhuǎn)換詞典合并為一種。如大五碼繁體字和國標(biāo)碼簡化字之間的簡轉(zhuǎn)繁、繁轉(zhuǎn)繁、繁轉(zhuǎn)簡、簡轉(zhuǎn)簡的四種轉(zhuǎn)換詞典,可合并為一種。以下列出“基本轉(zhuǎn)換詞典”的“大五、國標(biāo)雙向”部分示例(字義解釋從略)。
◎j真f真◎j學(xué)f學(xué)◎j證f證◎f証→f證◎j證←f証◎j閑f閒◎f閑→f閒◎j閑←f閑◎j機(jī)f機(jī)◎f機(jī)→f機(jī)◎j秋f秋f秋千→f鞦 ◎j秋←f鞦◎j千f千◎j千←f ◎j英f英◎j寸f寸f英寸→f吋◎j英寸←f吋◎j后f後→f皇后,太后,王后,后妃,天后,后王,后土◎f后←f后◎j臺(tái)f臺(tái)◎f臺(tái)→f臺(tái)◎j臺(tái)←f檯◎j臺(tái)←f颱→f檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子
→f颱風(fēng)◎j針f針f針魚→f ◎j魚f魚j魚←j魚魚◎j針魚←f ◎j干f乾◎f干f乾◎f幹→f乾→f干涉,何干,無干,相干,干擾,干預(yù),干戈,若干,干支,江干→f幹活,公幹,幹部,幹校,幹才,幹練,強(qiáng)幹,才幹,幹嗎,幹什麼◎j乾→f乾◎j干←f干◎j干←f幹◎j干←j乾j乾坤←,乾圖,乾網(wǎng),乾道,乾象,乾宅,乾造,乾曜,乾隆,乾縣基本轉(zhuǎn)換詞典的“大五、國標(biāo)雙向”部分,因具備簡轉(zhuǎn)繁、簡轉(zhuǎn)簡、繁轉(zhuǎn)簡、繁轉(zhuǎn)繁等功能,須包括互轉(zhuǎn)之前兩種內(nèi)碼的全部字和符號(hào)。如簡繁雙向轉(zhuǎn)換,基本轉(zhuǎn)換詞典中既包括了國標(biāo)碼的6,763字和682個(gè)符號(hào),也包括了大五碼的13,053字和408個(gè)符號(hào)。為了不致引起混淆,以“j”代表簡化字詞,以“f”代表繁體字詞。
每個(gè)單字條目的第一行(緊接◎后),表示“來源字”轉(zhuǎn)為“目的字”或“目的詞”。有些單字條目下沒有詞組(只有第一行),表示不需要進(jìn)行該字條下的“來源詞”轉(zhuǎn)換。單字條目下如有詞組(從第二行開始),表示在同一內(nèi)碼環(huán)境中“來源詞”轉(zhuǎn)“目的詞”,或“來源詞”轉(zhuǎn)“目的字”。對(duì)于不會(huì)引起誤解的詞,略去了轉(zhuǎn)換前的部分,只列出了轉(zhuǎn)換后的部分,并且只在第一個(gè)詞的旁邊加了方向箭號(hào),如“→f皇后、→f檯布、→f干涉、j乾坤←”,其完整形式應(yīng)為“f皇後→f皇后、f臺(tái)布→f檯布、f幹涉→f干涉、j乾坤←j干坤”。對(duì)于需要特別指明的詞,列出了轉(zhuǎn)換的完整形式,如“f秋千→f鞦 j魚←j魚魚”。
詞典中涉及到“左向箭號(hào)←”、“右向箭號(hào)→”和“雙向箭號(hào)”?!白笙蚣?hào)←”表示單向轉(zhuǎn)為左側(cè)的簡化字或詞,如“j魚←j魚魚”,表示在繁轉(zhuǎn)簡或簡轉(zhuǎn)簡時(shí)的第二步由簡化字的“魚魚”轉(zhuǎn)為簡化字的“魚”?!坝蚁蚣?hào)→”表示單向轉(zhuǎn)為右側(cè)的繁體字或詞,如“f機(jī)→f機(jī)”,表示在繁轉(zhuǎn)繁時(shí)的第一步,由繁體字的“機(jī)”轉(zhuǎn)為繁體字的“機(jī)”?!半p向箭號(hào)”表示根據(jù)轉(zhuǎn)換需要,既可轉(zhuǎn)為左側(cè)的簡化字或詞,也可轉(zhuǎn)為右側(cè)的繁體字或詞,如“◎j機(jī)f機(jī)”,表示在繁轉(zhuǎn)簡時(shí)的第一步由繁體字的“機(jī)”轉(zhuǎn)為簡化字的“機(jī)”;在簡轉(zhuǎn)繁時(shí)的第一步由簡化字的“機(jī)”轉(zhuǎn)為繁體字的“機(jī)”。
下面結(jié)合附圖
對(duì)本發(fā)明的三個(gè)實(shí)施例進(jìn)行詳細(xì)描述。附圖中圖2為本發(fā)明異種內(nèi)碼轉(zhuǎn)換法之流程圖;圖3為本發(fā)明同種內(nèi)碼轉(zhuǎn)換法之流程圖;圖4為本發(fā)明多碼多向轉(zhuǎn)換法之流程圖。
下面描述本發(fā)明的華文文字內(nèi)碼完整規(guī)范轉(zhuǎn)換的三個(gè)實(shí)施例。
一、異種內(nèi)碼轉(zhuǎn)換法二、同種內(nèi)碼轉(zhuǎn)換法三、多碼多向轉(zhuǎn)換法實(shí)施例一異種內(nèi)碼轉(zhuǎn)換法首先,將來源碼的每一個(gè)“字”和圖符,按照“基本轉(zhuǎn)換詞典”的指引,全部轉(zhuǎn)換為目的碼的字、詞和圖符??赊D(zhuǎn)字的(包括“合理對(duì)應(yīng)字”)轉(zhuǎn)為目的碼的“字”,不能轉(zhuǎn)字的轉(zhuǎn)為目的碼的“詞”。
接著,在目的碼的環(huán)境中,依照“基本轉(zhuǎn)換詞典”進(jìn)行“詞轉(zhuǎn)詞”,進(jìn)行自動(dòng)搜索替換。以此將不同字義的“一對(duì)多”可轉(zhuǎn)字,由來源碼的一個(gè)字,正確轉(zhuǎn)換為目的碼中的多個(gè)字(主被選字和次被選字)。若來源碼的“詞”對(duì)應(yīng)目的碼的“字”,在這一步中“詞轉(zhuǎn)字”。
第三步,選擇合適的“用詞、用語轉(zhuǎn)換詞典”和“譯名轉(zhuǎn)換詞典”,將用詞、用語和譯名轉(zhuǎn)換為文字使用者所需要的形式。之所以“選用合適的”,是因?yàn)椴煌挠脩?,?duì)用詞、用語和譯名有不同的要求。如一份華文繁體字報(bào)紙,不一定采用臺(tái)灣的用詞、用語和譯名;反之亦然。
最后,按照“復(fù)雜修正轉(zhuǎn)換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進(jìn)行最后修正。
為了說明“復(fù)雜修正轉(zhuǎn)換”,請(qǐng)看以下簡化字例句1.三位天后都來了。
2.三天后她們都來了。
轉(zhuǎn)為繁體字應(yīng)為1.三位天后都來了。
2.三天後她們都來了。
“天后”一詞,在海外指特受公眾歡迎的女歌星或女明星,此處借用“帝王之妻”的解釋,以示高貴。
參照“基本轉(zhuǎn)換詞典”示例,在第一步已將簡化字的“后”全部轉(zhuǎn)成了繁體字的“後”——因?yàn)樵诂F(xiàn)時(shí)的繁體字綜合字頻中,“後”為0.2869%,“后”為0.0019%,前者遠(yuǎn)高于后者。第二步,在繁體字的環(huán)境中,將“皇後→皇后、天後→天后、後王→后王……”。第三步,選擇運(yùn)用“用詞、用語轉(zhuǎn)換詞典”和“譯名轉(zhuǎn)換詞典”。
現(xiàn)在“三位天后都來了”符合轉(zhuǎn)換要求,第二個(gè)句子“三天後她們都來了”則因第二步轉(zhuǎn)詞時(shí)“天後→天后”使之成了“三天后她們都來了”,不合要求?,F(xiàn)在用“#”代表數(shù)字,以“#天后→#天後”進(jìn)行“復(fù)雜修正轉(zhuǎn)換”,即可得到正確結(jié)果“三天後她們都來了”。這就是第四步。
再如簡化字例句“他今天老板著臉”,第二步轉(zhuǎn)詞時(shí)“老板→老闆”使之成了“他今天老闆著臉”。用“老闆著臉→老板著臉”進(jìn)行“復(fù)雜修正轉(zhuǎn)換”即可。
把“#天后→#天後”、“老闆著臉→老板著臉”之類的詞、短語或句子按“基本轉(zhuǎn)換詞典”的示例匯總到一起,即構(gòu)成“復(fù)雜修正轉(zhuǎn)換詞典”。搜尋方式可采用“隔特定字詞、加限定字詞”等各種高階方式進(jìn)行搜尋轉(zhuǎn)換,以使轉(zhuǎn)換結(jié)果盡可能趨于完美。
這四步可簡單歸納為第一步全轉(zhuǎn)“來源字轉(zhuǎn)目的字詞”;第二步選轉(zhuǎn)“來源詞轉(zhuǎn)目的字詞”;第三步“轉(zhuǎn)用詞、用語、譯名”、第四步“復(fù)雜修正”。
實(shí)施例二同種內(nèi)碼轉(zhuǎn)換法參照實(shí)施例1,所不同的是從第一步轉(zhuǎn)換開始就是在同種內(nèi)碼中進(jìn)行,根據(jù)“基本轉(zhuǎn)換詞典”將原有的“有必要轉(zhuǎn)換的字”從一個(gè)字轉(zhuǎn)換為另一個(gè)字或一個(gè)詞。后面的轉(zhuǎn)換步驟都與“異種內(nèi)碼轉(zhuǎn)換法”相同。同種內(nèi)碼轉(zhuǎn)換法的用處是將不規(guī)范的來源字詞轉(zhuǎn)為規(guī)范的目的字詞。如報(bào)刊和網(wǎng)絡(luò)等平面、電子出版品,其稿件通常來自各個(gè)方面,E-mail等方式接收的稿件會(huì)涉及到不同內(nèi)碼。為了統(tǒng)一稿件的用字、用詞、用語和譯名,及進(jìn)行編輯校對(duì),不同內(nèi)碼間的轉(zhuǎn)換和同種內(nèi)碼中的轉(zhuǎn)換有時(shí)需要交叉運(yùn)用。
這四步可簡單歸納為第一步選轉(zhuǎn)“來源字轉(zhuǎn)目的字詞”;第二步選轉(zhuǎn);“來源詞轉(zhuǎn)目的字詞”;第三步“轉(zhuǎn)用詞、用語、譯名”;第四步“復(fù)雜修正”。
實(shí)施例三多碼多向轉(zhuǎn)換法多碼多向(多內(nèi)碼多方向)轉(zhuǎn)換包括簡轉(zhuǎn)繁、繁轉(zhuǎn)繁、繁轉(zhuǎn)簡、簡轉(zhuǎn)簡等多種轉(zhuǎn)換。在實(shí)際應(yīng)用中,“轉(zhuǎn)換指令”可以明確標(biāo)示為以上四種或更多方式。下面以大五和國標(biāo)的雙向轉(zhuǎn)換為例。為了方便可按目的碼標(biāo)示為兩種,如標(biāo)示為“規(guī)范繁體”(包括簡轉(zhuǎn)繁和繁轉(zhuǎn)繁)和“規(guī)范簡體”(包括繁轉(zhuǎn)簡和簡轉(zhuǎn)簡),或標(biāo)示為“簡轉(zhuǎn)繁”(實(shí)際包括繁轉(zhuǎn)繁)和“繁轉(zhuǎn)簡”(實(shí)際包括簡轉(zhuǎn)簡)。
英文字符等一般是以一個(gè)字節(jié)來表示的,最常用的編碼方法是ASCII(American Standard Code forInformation Interchange,美國信息交換標(biāo)準(zhǔn)碼)。由于ASCII一個(gè)字節(jié)最多只能區(qū)分256個(gè)字符(實(shí)際上只用了一個(gè)字節(jié)中的低7位,范圍是32-126之間的95個(gè)),而華文字成千上萬,很容易與ASCII重迭,無法分出哪是華文哪是印歐語系文字,于是規(guī)定將華文編碼的高低字節(jié)的最高位均置1(Set the MSB,相當(dāng)于加上128--16進(jìn)制的80H),來使之區(qū)分于ASCII碼。這樣,在計(jì)算機(jī)中使用的華文字編碼(國標(biāo)碼、大五碼等)實(shí)際上是真正的華文字碼的高位置1后的變形碼。因而現(xiàn)在都以雙字節(jié)來表示華文字,為了能夠與英文字符等分開,每個(gè)字節(jié)的最高位一定為1,這樣雙字節(jié)最多可以表示64K格字符。
在簡繁雙向轉(zhuǎn)換中,因簡化字與繁體字的內(nèi)碼具有不同的編碼位置(碼位),首先據(jù)此自動(dòng)識(shí)別出華文字所處的內(nèi)碼狀態(tài)。然后根據(jù)“轉(zhuǎn)換指令”要求確認(rèn)轉(zhuǎn)換方向,選擇雙向轉(zhuǎn)換詞典中的對(duì)應(yīng)部分1.內(nèi)碼為簡化字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡轉(zhuǎn)繁”部分,先轉(zhuǎn)“來源字”,后轉(zhuǎn)“來源詞”。接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜修正,轉(zhuǎn)換完成。
2.內(nèi)碼為簡化字,點(diǎn)取“規(guī)范簡體”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡轉(zhuǎn)簡”部分轉(zhuǎn)換。后續(xù)具體轉(zhuǎn)換步驟與1同。
3.內(nèi)碼為繁體字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)繁”部分轉(zhuǎn)換。后續(xù)具體轉(zhuǎn)換步驟與1同。
4.內(nèi)碼為繁體字,點(diǎn)取“規(guī)范簡體”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)簡”部分轉(zhuǎn)換。后續(xù)具體轉(zhuǎn)換步驟與1同。
例如,簡化字的“干”對(duì)應(yīng)繁體字的“乾、幹、干”,而繁體字的“乾”又對(duì)應(yīng)簡化字的“乾、干”。對(duì)照“簡繁雙向轉(zhuǎn)換詞典示例”“簡轉(zhuǎn)繁”時(shí),第一步“j干→f乾”,第二步“f乾涉→f干涉,f何乾→f何干……f乾嗎→f幹嗎,f乾什麼→f幹什麼”。
“簡轉(zhuǎn)簡”時(shí),第一步“j干←j乾”,第二步“j乾坤←j干坤,j乾圖←j干圖……”。
“繁轉(zhuǎn)繁”時(shí),第一步“f干→f乾,f幹→f乾”,第二步“f乾涉→f干涉,f何乾→f何干……f乾嗎→f幹嗎,f乾什麼→f幹什麼”。
“繁轉(zhuǎn)簡”時(shí),第一步“j干←f乾,j干←f幹,j干←f干”,第二步“j乾坤←j干坤,j乾圖←j干圖……”Unicode碼(等同國際編碼標(biāo)準(zhǔn)ISO 10646),包括了中日韓(CJK)的全部華文字符。以Unicode等綜合內(nèi)碼為中介,可做到華文簡化字和繁體字共存,并且能對(duì)照顯示于計(jì)算機(jī)屏幕上。
多碼多向轉(zhuǎn)換不僅可用于文檔轉(zhuǎn)換,而且可用于國際互聯(lián)網(wǎng)(主機(jī)Sever端或客戶Client端)的動(dòng)態(tài)、靜態(tài)在線和頁面轉(zhuǎn)換,可支持各種瀏覽器和平臺(tái),可多內(nèi)碼同屏顯示。
本發(fā)明中所提及的“基本轉(zhuǎn)換詞典”、“用詞、用語轉(zhuǎn)換詞典”、“譯名轉(zhuǎn)換詞典”、“復(fù)雜修正轉(zhuǎn)換詞典”等,不僅涉及到語法意義上的“字”和“詞”,有時(shí)也涉及到“短語”和“句子”。為了方便和名稱統(tǒng)一,都叫作“詞典”?;巨D(zhuǎn)換詞典、用詞、用語轉(zhuǎn)換詞典、譯名轉(zhuǎn)換詞典、復(fù)雜修正轉(zhuǎn)換詞典都是本發(fā)明重要的一部分。由于華文文字的豐富性和復(fù)雜性(如華文姓名和外文的華文譯名在使用中的不確定性),及繁體字與簡化字使用習(xí)慣的差異(如涉及到本發(fā)明的多種轉(zhuǎn)換詞典之外的字詞)等原因,為了使轉(zhuǎn)換盡量作到完美,本發(fā)明在各種轉(zhuǎn)換詞典的后面都為用戶留有開放式的環(huán)境,方便用戶自行將轉(zhuǎn)換詞典中未包括的詞組或短語加入。用戶還可以根據(jù)需要,將各方面來稿中經(jīng)常會(huì)遇上的特定差錯(cuò),按轉(zhuǎn)換步驟加入以上的各種轉(zhuǎn)換詞典中,使轉(zhuǎn)換過程同時(shí)具有糾正差錯(cuò)和編輯校對(duì)的功能。
以上概略地對(duì)本發(fā)明的華文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換作了描述。本技術(shù)領(lǐng)域內(nèi)的熟練人員可以不經(jīng)創(chuàng)造性勞動(dòng)就能對(duì)本發(fā)明作出各種各樣的修改和改進(jìn)。發(fā)明人認(rèn)為這種修改和改進(jìn)都屬于后面的權(quán)利要求書所定義的范圍之內(nèi)。
本發(fā)明可有效應(yīng)用于涉及到華文的各種計(jì)算機(jī)軟件(如操作系統(tǒng)、瀏覽器、文字處理、排版、打字及語音或手寫輸入、光學(xué)OCR識(shí)別、翻譯、造字、校對(duì)等軟件),國際互聯(lián)網(wǎng),平面、多媒體、電子出版品,電子字典、手機(jī)等,可支持所有平臺(tái),可用于主機(jī)Server端或客戶Client端,可用于文件、電子郵件、頁面。龔碼可促使同一華文計(jì)算機(jī)軟件的簡化字和繁體字兩個(gè)版本合二為一。
華文內(nèi)碼完整規(guī)范轉(zhuǎn)換可有效應(yīng)用于龔碼、國標(biāo)碼、大五碼及其他華文內(nèi)碼之間的簡轉(zhuǎn)繁、簡轉(zhuǎn)簡、繁轉(zhuǎn)簡、繁轉(zhuǎn)繁等異種內(nèi)碼、同種內(nèi)碼、多碼多向等各類快速轉(zhuǎn)換。亦可應(yīng)用于華文字的古文與現(xiàn)代文,華文字與中國方言文字、少數(shù)民族語言文字,及與日文、韓文等其他亞洲語言文字之間的轉(zhuǎn)換。
權(quán)利要求
1.一種華文文字統(tǒng)一方案,其特征在于提供一種科學(xué)的可行性高、易于推廣的方案,在充分尊重現(xiàn)有各種華文單一內(nèi)碼使用規(guī)范和習(xí)慣的基礎(chǔ)上,以現(xiàn)代化的科學(xué)量化的篩選、整合、變通、規(guī)范及創(chuàng)新方法避開各種復(fù)雜爭議,實(shí)現(xiàn)華文文字在用字范圍、字義、字音、語詞、語法等方面的全面完整統(tǒng)一;以現(xiàn)階段在中國大陸、中國臺(tái)灣和中國香港特區(qū)使用最廣泛的國標(biāo)碼、大五碼和香港增補(bǔ)字符集為統(tǒng)一方案基本字符集選字的最大范圍,根據(jù)綜合字詞頻確認(rèn)的不涉及“一對(duì)多”的常用字、次常用字全部收錄;罕用字根據(jù)綜合字詞頻、字詞頻方向平均值、構(gòu)詞率、字義、姓氏字頻和人名字頻等因素收錄,無效字不收錄;化學(xué)元素周期表用字全部收錄;根據(jù)“同等情況下姓氏優(yōu)先、不加字優(yōu)先、高頻字優(yōu)先”原則處理姓氏專用字;作為變通方法,也可在龔碼外的其他同種內(nèi)碼內(nèi)或不同內(nèi)碼間建立簡繁一一對(duì)應(yīng)關(guān)系和相同用字范圍;每一華文字內(nèi)碼都有一個(gè)簡形字和一個(gè)繁形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào));簡形字相對(duì)于國標(biāo)碼簡化字,繁形字相對(duì)于大五碼繁體字,都盡量作最少的字形變動(dòng),字義與字音也是在“必要”(如原簡繁單一內(nèi)碼之間不一致)時(shí)才作“合理”的調(diào)整;每種字體都包括一一對(duì)應(yīng)的簡形和繁形;對(duì)于簡繁體字使用區(qū)使用頻度較高而差異較大的標(biāo)點(diǎn)及其他符號(hào),采用科學(xué)的統(tǒng)一名稱和可轉(zhuǎn)換形式,并同時(shí)保留不可轉(zhuǎn)換形式;統(tǒng)一方案中各種出版品中的多種華文字體(包括圖符)可以一次同步轉(zhuǎn)換;對(duì)于涉及到華文的各類軟件,只需要出版一種華文版本。
2.一種華文文字統(tǒng)一方案,其特征在于一種單一內(nèi)碼的一個(gè)字對(duì)應(yīng)另一單一內(nèi)碼的同一字義(包括同一義項(xiàng)下)的多個(gè)字時(shí),如果另一單一內(nèi)碼中的其中一個(gè)字的現(xiàn)時(shí)綜合字頻明顯高于其他字,選擇這個(gè)綜合字頻較高的字;如果這幾個(gè)字的現(xiàn)時(shí)綜合字頻較為接近,選擇字頻方向平均值較高的一個(gè)字;統(tǒng)一方案繁形字選擇“暗鏟吃考裡乃炮確汙閒煙豔耀喑證總”等,未收錄“闇 喫攷裏迺砲確 閑菸艷燿瘖証縂”等字;盡量利用現(xiàn)有字形作簡繁對(duì)應(yīng);對(duì)于極少數(shù)字頻、詞頻較高的人名、生意行號(hào)用字等,雖與其他字同一字義,也酌情收錄;一種單一內(nèi)碼的一個(gè)字對(duì)應(yīng)另一單一內(nèi)碼的不同字義(或不同義項(xiàng)下)的多個(gè)字時(shí),如果另一單一內(nèi)碼中的除了綜合字頻和字頻方向平均值較高的一個(gè)字,其他字雖另有字義,但綜合字頻、字頻方向平均值或構(gòu)詞率明顯較低,只收錄前者,統(tǒng)一方案繁形字選擇“板抱杯並才彩草叉嘗出呆蕩抵澱咚夫個(gè)拐櫃果毀飢家鑒巨誇昆侖梁累麻渺你念娘匹撲秋千沈什屍搜他它臺(tái)兔效熏燕揚(yáng)癢岳欲札榨噪癥致朱諮”等,未收錄“闆菢盃并纔綵騲扠嚐齣獃盪牴淀鼕伕箇柺柜菓燬譭饑傢鑑鉅夸崑崙樑纍蔴痲淼妳唸嬢疋撲鞦韆瀋尸俬蒐祂牠臺(tái)菟傚燻鷰颺癢嶽慾劄搾譟癥緻硃咨”等字;對(duì)于未收錄的字,盡量做到有理據(jù)有出處;一種單一內(nèi)碼的一個(gè)字對(duì)應(yīng)另一單一內(nèi)碼的不同字義(或不同義項(xiàng)下)的多個(gè)字時(shí),如果另一單一內(nèi)碼中的除了綜合字頻和字頻方向平均值較高的一個(gè)字,還有其他字的綜合字頻、字頻方向平均值及構(gòu)詞率也較高,若選用能有助于使字義的表述更明確,統(tǒng)一方案便選用該字;不同字義(或義項(xiàng)下)有多個(gè)字時(shí),如果除了綜合字頻和字頻方向平均值較高的一個(gè)字,還有其他字的綜合字頻和字頻方向平均值也較高,組詞能力較強(qiáng),若選用能有助于使字義的表述更明確,便選用該字,統(tǒng)一方案繁形字同時(shí)選擇了“參叁、采採、沖衝、斗鬥、發(fā)髮、復(fù)複、干幹乾、后後、劃劃、歴曆、面麵、松鬆、術(shù) 托託、系係繫、游遊、于於、余餘、云雲(yún)、占佔(zhàn)、著著、制製、志誌、只隻、鐘鍾、注註、準(zhǔn)準(zhǔn)”等字及其對(duì)應(yīng)的簡形字如果國標(biāo)碼與大五碼之間的多個(gè)字有復(fù)雜的對(duì)應(yīng)關(guān)系(包括“多對(duì)多”),按“必要合理”的原則進(jìn)行復(fù)雜調(diào)整。
3.一種華文文字統(tǒng)一方案,其特征在于統(tǒng)一方案的簡形字盡量照顧簡化字使用區(qū)的字形使用習(xí)慣,繁形字盡量照顧繁體字使用區(qū)的字形使用習(xí)慣“揹併佈採弔複迴姦捲睏裡慄○舖捨塗係兇遊佔(zhàn)週凖”等字的筆畫不多或同相關(guān)字筆畫差異小,統(tǒng)一方案簡形字直接錄入;“錶嚐噹噁譁儘釦囉闢鎔託輓餵讚誌註”等字的筆畫較多或符合簡化規(guī)則,按簡化字規(guī)則類推簡化后,統(tǒng)一方案簡形字錄入為“ 侭 啰”;對(duì)于少數(shù)由于原國標(biāo)碼與大五碼“不同字義”一對(duì)多,而不得不在龔碼中增加或調(diào)整字義的少數(shù)簡形字,若因筆畫多而與其他簡形字不協(xié)調(diào),統(tǒng)一方案按“兼顧相關(guān)字形,新字的字義、字音易理解,無歧義”的原則將其調(diào)整為“合理字形”,繁形字“蔔衝醜澱鬥髮範(fàn)豐乾幹穀後劃彙穫幾薑曆黴麵樸籤鬆 鹹嚮傭 癒雲(yún) 髒徵製隻”等,調(diào)整為合理字形后錄入為“ 笵夊 ”;統(tǒng)一方案的簡形字和繁形字在各類出版品中不可以混用;統(tǒng)一方案的每一種字體要么是簡形,要么是繁形,簡形字與繁形字不在同一種字體中出現(xiàn);所有與統(tǒng)一方案相關(guān)的輸入或轉(zhuǎn)換,都必須依照其相關(guān)詞典的文字和語法規(guī)范設(shè)定語詞。
4.一種華文文字統(tǒng)一方案,其特征在于對(duì)于有爭議、敏感或矛盾的字義條,統(tǒng)一方案字、詞典采用“客觀對(duì)待、避免爭議、中性語詞釋義”的方法處理,讓簡繁體字的所有使用者都能接受;統(tǒng)一方案的每一個(gè)華文字都有獨(dú)特的字義,當(dāng)一個(gè)字具有某種字義,其統(tǒng)一方案中的相關(guān)字(在原國標(biāo)碼或大五碼中相關(guān))即不再具有該義項(xiàng),即“字義不作重復(fù)授權(quán)”;統(tǒng)一方案收錄的字與字之間,不存在某字詞或某字詞的某義項(xiàng)“通”另一字詞,或“亦作”另一字詞的現(xiàn)象;對(duì)于某些字在簡化字和繁體字中讀音的差異,采用字音使用頻度較高者;在同一義項(xiàng)下,多音多調(diào)字只保留特定音頻和特定音頻方向值較高的語音和聲調(diào);對(duì)于具有不同義項(xiàng)的多音多調(diào)字,若其中一義項(xiàng)的特定音頻較低,且構(gòu)詞能力有限,將此字音對(duì)應(yīng)的義項(xiàng)歸入特定音頻較高的義項(xiàng)內(nèi);所有偏旁部首均按現(xiàn)代語音標(biāo)注;統(tǒng)一方案使用“科學(xué)簡潔、通俗易懂、嚴(yán)謹(jǐn)合理、無歧義”、綜合詞頻和詞頻方向值較高的語詞,語詞通過統(tǒng)一方案相關(guān)詞典作系統(tǒng)性的規(guī)范解釋;對(duì)于目前使用較廣的幾種華文單一內(nèi)碼(如國標(biāo)碼、大五碼、香港增補(bǔ)字符集等)中的字,若統(tǒng)一方案未收錄,在統(tǒng)一方案的相關(guān)字典和詞典中按照“合理對(duì)應(yīng)字、合理最簡詞”的方案給出與統(tǒng)一方案的使用對(duì)應(yīng)指引并釋義;合理對(duì)應(yīng)字須符合“字義、字音、字形等關(guān)聯(lián)性強(qiáng)、合理、無歧義”的原則;當(dāng)統(tǒng)一方案的收錄字中沒有“合理對(duì)應(yīng)字”時(shí),用“合理最簡詞”的辦法處理,合理最簡詞應(yīng)符合“科學(xué)簡潔、通俗易懂、嚴(yán)謹(jǐn)合理、無歧義”的原則;對(duì)于統(tǒng)一方案未收錄的名稱用字,按其他習(xí)慣名稱;無其他習(xí)慣名稱者采用“義音形最接近字+特征尾字”的方法解決,特征尾字可為“花草樹木鳥蟲魚石”等;統(tǒng)一方案字符集(用字范圍、字形)與相關(guān)字典、詞典的拼注音、釋義(字音、字詞語義)配合,構(gòu)成一個(gè)統(tǒng)一、完整、科學(xué)、規(guī)范、穩(wěn)定的華文文字體系,讓華文字使用者能輕易達(dá)至嚴(yán)謹(jǐn)?shù)娜A文文字規(guī)范。
5.一種對(duì)華語文冗余信息進(jìn)行變通處理的方法,其特征在于對(duì)構(gòu)詞率極低的不涉及姓氏、有效人名的華文冗余字進(jìn)行適當(dāng)變通,合理減少華文用字;文字貴精、貴巧、貴搭配,字必盡其用;同音同義而不同形的異體字和異形詞,并列關(guān)系語詞的多種形式,用綜合字詞頻和字詞頻方向平均值的方法解決;對(duì)于統(tǒng)一方案未收錄的名稱用字,按其他習(xí)慣名稱,無其他習(xí)慣名稱者采用“義音形最接近字+特征尾字”的方法解決,特征尾字為“花草樹木鳥蟲魚石山河湖島渠泉”等;冗余字(或近似于冗余字)用“字義、字音、字形等關(guān)聯(lián)性強(qiáng)、合理、無歧義,變通后的組詞不與其他同類語詞重復(fù)”的“合理對(duì)應(yīng)字”方法調(diào)整;詞義變通法根據(jù)詞義,將語詞中的冗余字加以變通;近音、近形變通法根據(jù)相近的字音或字形,將語詞中的冗余字加以變通;特征首、尾字識(shí)別變通法對(duì)于含有冗余信息的的雙字詞和多字詞,利用保留特征首字或尾字便于識(shí)別的方法,將其他字加以變通;并列關(guān)系語詞變通法對(duì)于因可改變順序而產(chǎn)生冗余方式的并列關(guān)系語詞,按綜合字詞頻和字詞頻方向平均值錄入相關(guān)詞典;較常用字以外的有機(jī)化學(xué)專用字全部按近音、近形、無歧義方式加以變通;除省和中央直轄市的名稱及代名稱保留原用外,地名和山河湖海島渠泉名等一般不使用“專字、專音”,變通方案報(bào)相關(guān)機(jī)構(gòu)審批后錄入工具書;當(dāng)有新的文字需要出現(xiàn),原有字的義項(xiàng)不能表述時(shí),以現(xiàn)有的合理對(duì)應(yīng)字增加義項(xiàng),或采用“義音形最適合字+特征尾字”的方法解決,以避免產(chǎn)生新的冗余字;相關(guān)詞典不收錄現(xiàn)在不用或罕用的字詞條和義項(xiàng),不注古音古意,除特需外對(duì)詞條原則上不標(biāo)注出處;對(duì)于白話與文言多音字,全部或部分完成向白話音過渡的字按白話音,未轉(zhuǎn)換成功的字按文言音,有其他義項(xiàng)的字另行解決;對(duì)于北京與京外多音字,兩個(gè)音中選擇綜合音頻較高的字音,綜合音頻相近時(shí)按北京音;對(duì)于多音多義字,部分字進(jìn)行“義項(xiàng)合理轉(zhuǎn)移”,部分字“罕義并常義”,部分字“義項(xiàng)拆分”,不能轉(zhuǎn)移、歸并或拆分的則保留原多音;簡繁交叉多音字按“關(guān)聯(lián)義項(xiàng)字音”和綜合音頻歸并;姓氏多音字只保留綜合音頻較高的一個(gè)姓氏字音;為有助于記憶,盡量按音旁歸并字音;部分多音字(包括簡繁交叉多音字)變通為以下的單音字(以漢語拼音標(biāo)注調(diào)整后的字音)哎āi唉āi挨āi捱ái癌ái噯ài 艾ài嗌yì唵ǎn凹āo熬áo拗ào扒bā吧ba鈀bǎ罷bà鲅bà掰bāi唄bài扳bān般bān榜bǎng膀bǎng蚌bàng蒡páng磅bàng堡bǎo趵bào暴bào背bèi奔bēn賁bēn繃bēng吡bǐ裨pí辟bì臂bì扁biǎn緶biàn杓sháo驃piào摽biào別bié癟biě檳bīn并bìng剝bō播bō伯bó孛bèi泊pó薄bó簸bǒ擘bò卜bǔ不bù嚓cā采cǎi傖cāng操cāo側(cè)cè噌cēng叉chā杈chā馇chā碴chá衩chà拆chāi瘥chài摻chān孱chán禪chán鐔tán鏟chǎn顫chàn廠chǎng場(chǎng)chǎng倡chàng焯chāo嘲cháo吵chǎo車chē沉chén諶chén稱chēng鐺dāng乘chéng裎chéng澄chéng秤chèng匙chí尺chǐ沖chōng幬choú綢choú臭choù褚chǔ揣chuǎi啜chuò嘬zuō創(chuàng)chuàng綽chuò呲cī茈zǐ刺cì樅cōng酢zuò蹴cù撮cuō嗒dā沓tá答dá打dǎ大dà呔tài待dài逮dǎi癉dān疸dǎn撣dǎn澹tán擋dǎng叨dāo燾tāo蹬dēng鐙dèng嘀dí鏑dí氐dī坻dǐ底dǐ弟dì踮diǎn佃diàn鈿tián喋dié揲dié丁dīng酊dīng侗tóng垌tóng峒tóng恫dòng斗dǒu逗dòu讀dú肚dù度dù鐓dūn敦dūn蹲dūn囤tún沌dùn頓dùn哆duō垛duǒ墮duò舵duò蛾é呃e惡è兒ér佴èr發(fā)fā法fǎ番fān蕃fān繁fán氾fán泛fàn坊fāng彷páng菲fēi蜚fēi分fēn玢fēn葑fēng馮féng佛fó否foǔ夫fū芾fú服fú莩fú桴fú脯pú父fù伽jiā嘎gā蓋gài桿gān崗gǎng鋼gāng杠gàng膏gāo鎬gǎo紇hé胳gē擱gē革gé格gé鬲gé葛gě蛤há膈gé個(gè)gè各gè硌gè給gěi艮gèn勾gōu枸gǒu估gū蛄gū轂gū谷gǔ骨gǔ鵠gǔ呱guā觀guān桄guāng廣guǎng龜guī鮭guī柜guì炅guì摑guó嗨hāi胲hǎi搟gǎn汗hàn夯hāng號(hào)hào呵hē合hé和hé核hé荷hé頜hé貉hé闔hé嘿hēi哼h(yuǎn)ēng橫héng哄hǒng紅hóng虹hóng蕻hòng侯hóu糊hú虎hǔ滸hǔ唬hǔ華huá嘩huā化huà劃huá徊huái壞huài郇xún虺huǐ琿hún噦yüē澮kuài檜kuài葷hūn混hùn豁huō緝jī稽jī亟j(luò)í幾jī紀(jì)jì濟(jì)jì偈jì祭jì夾jiá家jiā賈jiǎ價(jià)jià監(jiān)jiān犍jiān囝jiǎn锏jiǎn見jiàn漸jiàn濺jiàn檻jiàn漿jiāng糨jiàng蕉jiāo角jiǎo僥jiǎo矯jiǎo腳jiǎo湫qiū剿jiǎo徼jiǎo繳jiǎo嶠jiào節(jié)jié詰jié結(jié)jié解jiě芥jiè藉jiè矜jīn僅jǐn廑jǐn盡jìn勁jìng禁jìn經(jīng)jīng頸jǐng靚jìng趄jǖ鋦jǘ桔jǘ咀jǚ沮jǘ句jǜ苣jǜ俱jǜ據(jù)jǜ鋸jǜ瞿qǘ卷jüàn雋jüàn倔jüè噱xüé蹶jüě嚼jiáo菌jǜn筠jǖn 麜jǖn俊jǜn浚jǜn咔kā咖kā卡k??琸ǎi看kàn闞kàn扛káng亢kàng閌kàng坷kē軻kē頦ké殼ké咳ké可kě克kè嗑kè啃kěn吭kēng倥kōng悝kuī傀kuǐ潰kuì栝guā拉lā啦la喇lǎ剌là臘là蠟là徠lái癩lài郎láng莨liáng閬lǎng嘮láo姥lǎo潦liáo烙lào勒lè肋lè擂lèi嘞lei棱léng厘lí蠡lí哩lī麗lì櫟lì躒lì倆liǎ涼liáng踉liàng量liàng撩liáo燎liáo釕liǎo蓼liǎo撂liào瞭liǎo咧liē裂liè淋lín令lìng溜liū遛liù餾liù鎦liú六liù咯gē瀧lóng籠lóng隆lóng僂lóu嘍lóu摟lǒu露lù蘆lú碌lù率lǜ綠lǜ掠lüè掄l(xiāng)ūn綸lún論lùn捋luō啰luō濼luò絡(luò)luò落luò漯luò麻má螞mǎ嗎ma嘛ma埋mái脈mài謾màn蔓màn貓māo冒mào么me悶mèn氓máng蒙méng謎mí糜mí靡mǐ瞇mī泌mì黽mǐn娩miǎn乜miē繆móu模mó摩mó抹mǒ末mò牟móu姆mǔ哪nǎ那nà娜nà囡nān南nán囊náng馕náng呶náo呢ne嗯en泥ní溺nì碾niǎn鳥niǎo尿niào寧níng擰níng弄nòng努nǔ瘧nüè暖nuǎn喏rě漚òu耙bà排pái派pài胖pàng刨páo炮pào跑pǎo泡pào噴pēn澎péng坯pī鈹pí劈pī埤pì匹pǐ縹piǎo撇piě拼pīn蘋píng屏píng迫pò魄pò掊poú仆pú樸piáo埔pǔ瀑pù曝pù七qī妻qī棲qī期qī蹊xī齊qí圻qí其qí奇qí綮qǐ契qì砌qì薺jì蕁xún淺qiǎn慊qiǎn茜qiàn嵌qiàn嗆qiāng蹌qiāng鏹qiāng強(qiáng)qiáng搶qiǎng悄qiāo譙qiáo誚qiào翹qiào鞘qiào茄qié且qiě親qīn溱qín鯖qīng蝤qiú區(qū)qǖ覷qǜ券qüàn炔qüē闕qiè嚷rǎng嬈ráo任rèn恁rèn葚shèn若ruò塞sāi糝sǎn喪sāng繅sāo臊sào掃sǎo色sè沙shā嗄shà剎shà莎shā煞shà杉shān釤shān苫shān剡yǎn扇shàn上shàng捎shāo梢shāo蛸xiāo勺sháo苕sháo蛇shé舍shě沈shěn甚shèn椹shèn勝shèng澠mǐn省shěng晟chéng什shén石sh2識(shí)shí拾shí食shí蒔shí氏shì適shì熟shóu術(shù)shù腧shù刷shuā衰shuāi誰shéi說shuō思sī伺cì似sì俟sì忪sōng擻sǒu宿sù遂suì挲suō縮suō鉈tā塔tǎ踏tà駘tái臺(tái)tái苔tái覃qín錟tán湯tāng鏜táng倘tǎng儻tǎng趟tàng掏tāo陶táo淘táo忒tè綈tí提t(yī)í體tǐ裼tì挑tiāo銚iáo帖tiě町dīng梃tǐng鋌tǐng通tōng同tóng童tóng僮tóng菟tù褪tuì屯tún馱tuó柁tuó砣tuó拓tuò哇wā瓦wǎ莞wǎn菀wǎn萬wàn王wáng圩y唯wéi尾wěi委wěi隗wěi尉wèi蔚wèi紋wún璺wùn撾wō渦wō喔wō烏wū無wú唔wú捂wǔ兀wù郗xī歙xī洗xǐ銑xǐ禧xǐ戲xì系xì呷xiā嚇xià廈xià纖xiān鮮xiān閑xián現(xiàn)xiàn巷xiàng削xüē囂xiāo肖xiào校xiào協(xié)xié挾xié寫xiě芯xīn莘xīn戌xǖ砉huò噓xǖ旋xüán血xiě熏xǖn窨yìn壓yā呀y(tǒng)ā疋yǎ啞yǎ雅yǎ咽yān煙yān湮yān腌yān芫yüán研yán燕yàn鞅yāng烊yáng幺yāo繇yáo藥yào耶yē葉yè曳yè掖yè一yī衣yī欹yī荑yí眙chì遺yí仡gē屹yì洇yīn蔭yìn 殷yīn吟yín齦yín飲yǐn滎yíng喁yǘ涌yǒng柚yòu有yǒu于yǘ予yǚ於yǘ俞yǘ與yǚ雨yǚ語yǚ吁yǜ育yǜ員yán圜yán媛yán約yüē暈yǖn熨yǜn拶zǎn載zài載zài崽zǎi咱zǎn攢zǎn髒zāng奘zàng鑿záo擇zé笮zé繒zēng吒zhā咋zhā喳zhā楂zhā扎zhā軋yà咤zhà柵zhà炸zhà翟zhái粘zhān輾zhǎn占zhān啁zhoū召zhào蜇zhé這zhè征zhēng怔zhēng錚zhēng正zhèng幀zhēn癥zhèng吱zhī殖zhí只zhǐ峙zhì粥zhōu軸zhóu屬shǔ著zhù爪zhǎo拽zhuài賺zhuàn琢zhuó仔zǐ茲zī粢zī觜zī齜zī訾zī綜zōng卒zú作zuò柞zuò
6.一種華文文字內(nèi)碼完整規(guī)范化智能轉(zhuǎn)換方法,其特征在于當(dāng)進(jìn)行不同華文內(nèi)碼間的文字轉(zhuǎn)換時(shí),如來源碼的一個(gè)字對(duì)應(yīng)目的碼中“同一字義”的多個(gè)字時(shí),轉(zhuǎn)換為現(xiàn)時(shí)綜合字頻較高的一個(gè)“被選字”,其他字為“落選字”;如來源碼的一個(gè)字對(duì)應(yīng)目的碼中“不同字義”的多個(gè)字時(shí),首先將其轉(zhuǎn)換為根據(jù)現(xiàn)時(shí)字頻挑選的一個(gè)“主被選字”,然后在目的碼的環(huán)境中,利用詞的搭配轉(zhuǎn)換為“不同字義”的其他“次被選字”;當(dāng)來源碼的字在目的碼中無“字”可以對(duì)應(yīng)時(shí),轉(zhuǎn)為“合理對(duì)應(yīng)字”或“合理最簡詞”;如果來源碼的“詞”對(duì)應(yīng)目的碼的“字”,用先“字轉(zhuǎn)字”、后“詞轉(zhuǎn)字”的方法解決;在進(jìn)行異種內(nèi)碼轉(zhuǎn)換時(shí),第一步,將來源碼的每一個(gè)“字”和圖符,按照“基本轉(zhuǎn)換詞典”的指引,全部轉(zhuǎn)換為目的碼的字、詞和圖符,可轉(zhuǎn)字的(包括“合理對(duì)應(yīng)字”)轉(zhuǎn)為目的碼的“字”,不能轉(zhuǎn)字的轉(zhuǎn)為目的碼的“詞”;第二步,在目的碼的環(huán)境中,依照“基本轉(zhuǎn)換詞典”進(jìn)行“詞轉(zhuǎn)詞”的自動(dòng)搜索替換,以此將不同字義的“一對(duì)多”可轉(zhuǎn)字,由來源碼的一個(gè)字,正確轉(zhuǎn)換為目的碼中的多個(gè)字;若來源碼的“詞”對(duì)應(yīng)目的碼的“字”,在這一步中“詞轉(zhuǎn)字”;第三步,選擇合適的“用詞、用語轉(zhuǎn)換詞典”和“譯名轉(zhuǎn)換詞典”,將用詞、用語和譯名轉(zhuǎn)換為文字使用者所需要的形式;第四步,按照“復(fù)雜修正轉(zhuǎn)換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進(jìn)行最后修正;由以上方法和步驟得到的轉(zhuǎn)換結(jié)果與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格對(duì)應(yīng);
7.一種華文文字內(nèi)碼完整規(guī)范化智能轉(zhuǎn)換方法,其特征在于當(dāng)進(jìn)行同種華文內(nèi)碼間的文字轉(zhuǎn)換時(shí),對(duì)于同一字義的“一對(duì)多”可轉(zhuǎn)字,將“落選字”轉(zhuǎn)為“被選字”;對(duì)于不同字義的“一對(duì)多”可轉(zhuǎn)字,先全部轉(zhuǎn)為“主被選字”,再根據(jù)詞的搭配轉(zhuǎn)為不同字義的“一對(duì)多”其他“次被選字”;在進(jìn)行同種內(nèi)碼轉(zhuǎn)換時(shí),第一步,根據(jù)“基本轉(zhuǎn)換詞典”的指引,在同種內(nèi)碼環(huán)境中,將來源文本中的“有必要轉(zhuǎn)換的字”從一個(gè)字轉(zhuǎn)換為另一個(gè)字或一個(gè)詞;第二步,依照“基本轉(zhuǎn)換詞典”進(jìn)行“詞轉(zhuǎn)詞”的自動(dòng)搜索替換;若來源碼的“詞”對(duì)應(yīng)目的碼的“字”,在這一步中“詞轉(zhuǎn)字”;第三步,將用詞、用語和譯名轉(zhuǎn)換為文字使用者所需要的形式;第四步,按照“復(fù)雜修正轉(zhuǎn)換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進(jìn)行最后修正;轉(zhuǎn)換結(jié)果與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格對(duì)應(yīng)。
8.一種華文文字內(nèi)碼完整規(guī)范化智能轉(zhuǎn)換方法,其特征在于當(dāng)進(jìn)行多碼多向的異種內(nèi)碼和同種內(nèi)碼間的文字轉(zhuǎn)換時(shí),包括簡轉(zhuǎn)繁、繁轉(zhuǎn)繁、繁轉(zhuǎn)簡、簡轉(zhuǎn)簡等多種形式的轉(zhuǎn)換;在實(shí)際應(yīng)用中,為了方便可將“簡繁轉(zhuǎn)換指令”標(biāo)示為兩種,如標(biāo)示為“規(guī)范繁體”(包括簡轉(zhuǎn)繁和繁轉(zhuǎn)繁)和“規(guī)范簡體”(包括繁轉(zhuǎn)簡和簡轉(zhuǎn)簡),或標(biāo)示為“簡轉(zhuǎn)繁”(實(shí)際包括繁轉(zhuǎn)繁)和“繁轉(zhuǎn)簡”(實(shí)際包括簡轉(zhuǎn)簡);以Unicode碼為中介,可做到華文簡化字和繁體字共存,并且能對(duì)照顯示于計(jì)算機(jī)屏幕上;在進(jìn)行簡繁雙向轉(zhuǎn)換時(shí),首先根據(jù)簡化字與繁體字所不同的編碼位置(碼位)自動(dòng)識(shí)別出華文字所處的內(nèi)碼狀態(tài);然后根據(jù)“轉(zhuǎn)換指令”要求確認(rèn)轉(zhuǎn)換方向,選擇雙向轉(zhuǎn)換詞典中的對(duì)應(yīng)選項(xiàng)(1)內(nèi)碼為簡化字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡轉(zhuǎn)繁”選項(xiàng),先轉(zhuǎn)“來源字”,后轉(zhuǎn)“來源詞”;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜搜尋修正;(2)內(nèi)碼為簡化字,點(diǎn)取“規(guī)范簡化”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡轉(zhuǎn)簡”選項(xiàng)轉(zhuǎn)換;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜搜尋修正;(3)內(nèi)碼為繁體字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)繁”選項(xiàng)進(jìn)行轉(zhuǎn)換;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜搜尋修正;(4)內(nèi)碼為繁體字,點(diǎn)取“規(guī)范簡化”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)簡”選項(xiàng)進(jìn)行轉(zhuǎn)換;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜搜尋修正,轉(zhuǎn)換完畢;轉(zhuǎn)換結(jié)果與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格對(duì)應(yīng)。
全文摘要
本發(fā)明為一種華文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換。用現(xiàn)代化的科學(xué)量化的方法從綜合字詞頻、字詞頻方向平均值等方面進(jìn)行篩選、整合、變通、規(guī)范及創(chuàng)新處理,內(nèi)碼同時(shí)兼顧簡繁字形,實(shí)現(xiàn)華文文字在內(nèi)碼、用字范圍、字義、字形、字音、語詞、語法等方面的全面完整統(tǒng)一。通過合理最簡字詞等方法及來源字詞轉(zhuǎn)目的字詞、轉(zhuǎn)用語譯名、復(fù)雜修正等步驟得到完整規(guī)范化的多碼多向快速轉(zhuǎn)換結(jié)果。本發(fā)明可有效應(yīng)用于各種涉及到華文的計(jì)算機(jī)軟件與平面、電子、多媒體出版品,可支援所有平臺(tái),可促使華文軟件簡繁版本合一。
文檔編號(hào)G06F3/023GK1490711SQ0310130
公開日2004年4月21日 申請(qǐng)日期2003年1月1日 優(yōu)先權(quán)日2002年1月26日
發(fā)明者龔學(xué)勝 申請(qǐng)人:龔學(xué)勝