欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換的制作方法

文檔序號(hào):6480396閱讀:1328來源:國知局
專利名稱:中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換,更具體地說,涉及一種關(guān)于中文文字字形、字義、字音、用字范圍的全面完整統(tǒng)一的方案——龔碼(Chinese GONG Code),及中文龔碼、國標(biāo)碼、大五碼等多種內(nèi)碼之間或同種內(nèi)碼之內(nèi)的單、多向的完整規(guī)范化快速轉(zhuǎn)換。
現(xiàn)行中文文字形成的語言以北京語言為標(biāo)準(zhǔn)音,以北方話為基礎(chǔ)方言,以典型的現(xiàn)代白話文著作為語法規(guī)范。中文文字在簡(jiǎn)化字使用區(qū)稱作漢字(以體現(xiàn)多民族平等的觀念),繁體字使用區(qū)稱作中文字。由此形成的語言在簡(jiǎn)化字使用區(qū)稱作漢語,現(xiàn)代漢語的標(biāo)準(zhǔn)語是普通話;繁體字使用區(qū)稱作國語;海外多稱作華語。在日常生活中,無論是華語所屬的漢藏語系,還是目前國際上通行的英語所屬的印歐語系,都未把“文”和“語”分那么清楚。
中文文字從古到今累計(jì)的字匯量大約為六萬多個(gè)。隨著文化、歷史的演變,有些中文字成了不再使用的“無效字”或極少使用的“罕用字”。目前中國大陸、新加坡等地使用中文簡(jiǎn)化字(繁體字使用區(qū)稱之為“簡(jiǎn)體字”),主要為國標(biāo)碼(即GB2312-80,以下同),由中國國家標(biāo)準(zhǔn)總局在1981年公布,以作為全國的中文內(nèi)碼標(biāo)準(zhǔn)。國標(biāo)碼有6763字(包括3755個(gè)常用字和3008個(gè)次常用字)和682個(gè)符號(hào)。中國臺(tái)灣、香港和海外華人社會(huì)使用中文繁體字,主要為大五碼(即BIG5,以下同),有13053字(包括5394個(gè)常用字和7659個(gè)次常用字)和408個(gè)符號(hào)。大五碼1984年由五大臺(tái)灣電腦公司共同制定,因而取名“大五碼”?!跋愀墼鲅a(bǔ)字符集”包括4,702個(gè)包括了廣州話方言字在內(nèi)的中文字符,配合大五碼的部分字一起使用。繁體字的臺(tái)灣用法和香港用法(即便不計(jì)廣州話方言字)有一定差異,是繁體字用法中的兩個(gè)較大分支。繁體字使用區(qū)通常將國標(biāo)碼和大五碼之外的廣州話特有方言字叫作香港字。
有較完善的文字規(guī)范,能獨(dú)立形成正式公開出版品的較為完善的文字內(nèi)碼體系為單一內(nèi)碼,如國標(biāo)碼、大五碼和本發(fā)明的龔碼基本字符集。繁體字的香港用法也可視為單一內(nèi)碼。包括兩種以上單一內(nèi)碼的為綜合內(nèi)碼,如國際碼Unicode,國標(biāo)碼擴(kuò)展字符集GBK(包括21886個(gè)字符),大五碼擴(kuò)展字符集BIG5+(包括51585個(gè)字符)。以上GBK和BIG5+兩種擴(kuò)展字符集(因與原單一內(nèi)碼的編碼方式不同,且并非只包括擴(kuò)展延伸部分,應(yīng)稱作綜合字符集),都包括簡(jiǎn)繁中文字、香港增補(bǔ)字和日、韓文字。以下如無特別注明,均指單一內(nèi)碼。
與本發(fā)明有關(guān)的中文文字的現(xiàn)行規(guī)范為1.文字使用者若選用某種中文文字單一內(nèi)碼,用字不應(yīng)超出這一內(nèi)碼的范圍(少數(shù)使用方言字的特殊情況除外),除非由編碼制定者向原單一內(nèi)碼中系統(tǒng)性加字。不應(yīng)“缺字”(字與字之間出現(xiàn)非正常的空白)、“借字”(向另一內(nèi)碼“借”)、“多字代一字”(用幾個(gè)字來代替某一個(gè)字)或“自造新字”。
2.按嚴(yán)謹(jǐn)?shù)奈淖忠?guī)范,某種單一文字內(nèi)碼的所有正式公開形成品(如圖書、報(bào)刊、網(wǎng)頁、軟件等)都應(yīng)遵從這一內(nèi)碼的同一用字規(guī)范和習(xí)慣,不可以“多種單一內(nèi)碼混用”。
3.若不能達(dá)到以上標(biāo)準(zhǔn),按寬泛的文字規(guī)范,某種單一文字內(nèi)碼的所有正式公開形成品(如圖書、報(bào)刊、網(wǎng)頁、軟件、多媒體等)都應(yīng)遵從其用字規(guī)范和習(xí)慣的無選擇和無爭(zhēng)議部分。某種單一文字內(nèi)碼的同一正式公開形成品(如同一份報(bào)刊、同一家國際互聯(lián)網(wǎng)的網(wǎng)頁等)應(yīng)遵從自“可選擇和有爭(zhēng)議部分”中選定的標(biāo)準(zhǔn)和習(xí)慣。目前繁體字的使用基本上是按照這一標(biāo)準(zhǔn)。
如簡(jiǎn)化字的“證”對(duì)應(yīng)繁體字的“證、証”,“證”與“証”沒有任何字義上的差別,屬于“可選擇”用字。如果一家繁體中文報(bào)紙選擇用“證”,那麼該報(bào)紙中出現(xiàn)的所有這個(gè)字都要用“證”,而不能用“証”。不可以前面一篇文章用“證據(jù)”,后面一則廣告用“証據(jù)”。更不可以出現(xiàn)“事實(shí)証明他原來的求證是錯(cuò)誤的”或“在臺(tái)協(xié)會(huì)於臺(tái)北”這樣的字句。
4.一種轉(zhuǎn)換方法,在何種有關(guān)聯(lián)的內(nèi)碼之間、或何種綜合內(nèi)碼之內(nèi)轉(zhuǎn)換,轉(zhuǎn)換結(jié)果用何種有關(guān)聯(lián)的內(nèi)碼顯示、輸出都沒關(guān)系,但一定要與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格映射。
如中文字的轉(zhuǎn)換,既可在國標(biāo)與龔碼、大五與龔碼、國標(biāo)與大五之間,或單一內(nèi)碼與Unicode、GBK或BIG5+之間,也可在以上某一綜合內(nèi)碼之內(nèi)。轉(zhuǎn)換結(jié)果的顯示或輸出可用目的單一內(nèi)碼,也可用以上有關(guān)聯(lián)的綜合內(nèi)碼。但轉(zhuǎn)為大五碼繁體字的結(jié)果要與大五碼的規(guī)范、習(xí)慣、用字范圍映射,轉(zhuǎn)為國標(biāo)碼簡(jiǎn)化字的結(jié)果要與國標(biāo)碼的規(guī)范、習(xí)慣、用字范圍映射。
以下是中文簡(jiǎn)化字和繁體字統(tǒng)一或轉(zhuǎn)換方面所存在的一些問題1.一種中文內(nèi)碼的一個(gè)字有時(shí)對(duì)應(yīng)另一種中文內(nèi)碼中的多個(gè)字(一對(duì)多)(1)“同一字義”一對(duì)多如簡(jiǎn)化字的“機(jī)”所對(duì)應(yīng)的繁體字的“機(jī)、機(jī)”。這種“一義多字共用”的現(xiàn)象在繁體字中較為普遍,且現(xiàn)行中文文字工具書和中文文字轉(zhuǎn)換方法并未以系統(tǒng)規(guī)范的方法解決這一“不規(guī)范”的問題。
(2)“不同字義”一對(duì)多如簡(jiǎn)化字的“制”所對(duì)應(yīng)的繁體字的“製、制”;繁體字的“乾”所對(duì)應(yīng)的簡(jiǎn)化字的“乾、干”。繁體字對(duì)于人稱用字字義的劃分較細(xì),如第二人稱用字,若為男性或不知道對(duì)方性別時(shí)用“你”,若為女性用“妳”。第三人稱用字,若為人以外的動(dòng)物用“牠”,非動(dòng)物用“它”?!皧叀弊衷诜斌w字使用區(qū)內(nèi)的面向女性的雜志中特定字頻相對(duì)較高。作“別的”義解時(shí)簡(jiǎn)化字將“其他”與“其它”分開,后者專用于事務(wù)(也可通用)。繁體字則只使用了“其他”。簡(jiǎn)化字的三個(gè)常用助詞用字“的、地、得”,部分繁體字工具書只使用了“的、得”。“用在詞或詞組后表明副詞性”時(shí),繁體字大多使用“的”。
(3)“有爭(zhēng)議字條”一對(duì)多如簡(jiǎn)化字的“游”對(duì)應(yīng)繁體字的“遊、游”,“遊”與“游”有字義上的差別?!坝巍钡淖至x①在水里行動(dòng)。②江河的一段。③姓?!斑[”的字義①閑逛,從容地行走。②交友往還。但關(guān)于“不固定的”這一字義,不同的中文字典或詞典就有不同的解釋,在這一義項(xiàng)下屬于有爭(zhēng)議用字。
“同一字義一對(duì)多”與“有爭(zhēng)議字條一對(duì)多”的區(qū)別是,前者不存在字義的歸屬問題,而后者存在。
(4)“復(fù)雜狀況”一對(duì)多一種中文內(nèi)碼的一個(gè)字有時(shí)對(duì)應(yīng)另一種中文內(nèi)碼中或不同地區(qū)的“不同字義”或“同一字義”的多個(gè)字。如簡(jiǎn)化字的“臺(tái)”所對(duì)應(yīng)的繁體字的“臺(tái)、臺(tái)、檯、枱、颱”。其中“颱”為單一義項(xiàng),而“臺(tái)、臺(tái)”、“檯、枱”在某些條目下是同一字義。
2.一種中文內(nèi)碼的某些字,有時(shí)在另一種中文內(nèi)碼中并無“字”可以對(duì)應(yīng),也就是說,使用“字轉(zhuǎn)字”的方式并不能作到“全面的、完整的”轉(zhuǎn)換。國標(biāo)碼有二百多個(gè)字不能轉(zhuǎn)為大五碼的“字”;大五碼約有四千多字不能轉(zhuǎn)為國標(biāo)碼的“字”。如以“魚”作部首并與“魚”有關(guān)聯(lián)的字,國標(biāo)碼有七十多字,大五碼有一百六十多字。其中國標(biāo)碼有十幾個(gè)、大五碼則有一百零幾個(gè)“魚”部的字不能轉(zhuǎn)為另一內(nèi)碼的“字”。僅化學(xué)用字一項(xiàng),國標(biāo)碼的二百零幾個(gè)字就有四十多個(gè)字不能轉(zhuǎn)為大五碼(某些化學(xué)用字大五碼有不同的用字和讀音)。不能轉(zhuǎn)換的字中并不全是“無效字”和“罕用字”。這就是有時(shí)在某些中文國際互聯(lián)網(wǎng)(國際計(jì)算機(jī)網(wǎng)絡(luò))或報(bào)紙上造成“缺字”的部分原因。
3.中文繁體字的規(guī)范和習(xí)慣較為復(fù)雜,如同為地名,可以用作“臺(tái)南”卻不可以用作“臺(tái)州”;繁體字的使用現(xiàn)狀較為混亂、失控,有的自立標(biāo)準(zhǔn)、自造新字。由于把握不住中文繁體字的規(guī)范和習(xí)慣,有的干脆選筆畫最多的字用。如“皇後街的範(fàn)先生喜歡人雲(yún)亦雲(yún)”,規(guī)范的用法應(yīng)為“皇后街的范先生喜歡人云亦云”。如“祗有他是喫過飯纔來的”,習(xí)慣的用法應(yīng)為“只有他是吃過飯才來的”。再如譯名“尼克鬆、斯裹蘭卡”,繁體字有專用翻譯用字,規(guī)范的用法應(yīng)為“尼克松、斯里蘭卡”。
4.以某種單一內(nèi)碼為基礎(chǔ)形成的中文文字工具書(字典、詞典、辭海等),對(duì)另一內(nèi)碼無解釋或解釋不完備。繁體字的工具書一般對(duì)簡(jiǎn)化字不作解釋,將繁體字稱作“正體字”,其他則為“非正體字”。簡(jiǎn)化字的工具書將繁體字作為“異體字”解釋,收錄了一些繁體字使用區(qū)已沒使用、大五碼也沒收錄的“無效字”;收錄了部分正在使用的繁體字,但某些解釋與現(xiàn)行繁體字的規(guī)范和習(xí)慣不符。
5.以某種單一內(nèi)碼為基礎(chǔ)形成的常用中文文字工具書(字典、詞典等),對(duì)該種內(nèi)碼的解釋并不完備或字義界定不夠嚴(yán)謹(jǐn)。如大五碼的常用字典不能查全部大五碼的字,國標(biāo)碼的常用字典也不能查全部國標(biāo)碼的字。1981年公布的國標(biāo)碼只有六千多字,2001年出版的《新華字典》收錄了超過一萬字,國標(biāo)碼的“舭楱砩搿猓蚵虺嚌弳堀榪坶鼽肜艉葙枵崾”等字卻未被《新華字典》收錄。再如“馀”,簡(jiǎn)化字常用工具書解釋為已簡(jiǎn)化為“余”,用“余”意義可能混淆時(shí),用“馀”,如“馀年無多”。何種情況下可能混淆,何種情況下不可能混淆?文字使用者很難在每一次用“余”時(shí),斟酌是否該用“馀”,是否會(huì)混淆。
6.綜合、擴(kuò)展字符集推出的目的是為了提供方便,讓使用者不會(huì)為了缺字而煩惱。但由于一種內(nèi)碼使用區(qū)的使用者對(duì)另一內(nèi)碼的文字規(guī)范了解不多,出現(xiàn)了“簡(jiǎn)繁混用、多內(nèi)碼混用”的現(xiàn)象,且有逐漸增多的趨勢(shì)。簡(jiǎn)化字使用區(qū)制作出版的繁體字報(bào)刊、國際互聯(lián)網(wǎng)頁的用字有相當(dāng)一部分不符合現(xiàn)行繁體字的規(guī)范和習(xí)慣,繁體字使用區(qū)稱這種用字為“大陸繁體字”。由于沒有嚴(yán)格界定基本字符集與綜合字符集的功能作用差別,面向同一使用區(qū)內(nèi)的出版品出現(xiàn)了向綜合字符集“借字”并同原相關(guān)字混用的現(xiàn)象。如簡(jiǎn)化字的出版品,出現(xiàn)“貳、弍”等字混用的情況,按字頻方向值有增多趨勢(shì)。
7.同一個(gè)繁體中文字,有時(shí)在臺(tái)灣用法與香港用法中使用不同的字形,如臺(tái)灣許多出版品使用的“村檯床妝夠衛(wèi)峰群略繡既憑韭”,香港則大多用作大五碼并未包括的“邨枱牀粧夠衞峯羣畧綉旣凴韮”。
8.簡(jiǎn)化字使用區(qū)和繁體字使用區(qū)在多種領(lǐng)域、多種行業(yè)的用詞、用語方面有差異,如簡(jiǎn)化字用“計(jì)算機(jī)、網(wǎng)絡(luò)、圖像、素質(zhì)、奮斗、抵制、訓(xùn)斥”,繁體字用“電腦、網(wǎng)路、影像、質(zhì)素、打拼、杯葛、申誡”。有些專業(yè)用詞、用語的不同也與譯名不同有關(guān)。簡(jiǎn)化字使用區(qū)意譯較多,如“激光、維生素、保險(xiǎn)、草莓”;繁體字使用區(qū)音譯較多,如“鐳射、維他命、燕梳、士多啤梨”。另外,漢語語法與國語文法,標(biāo)點(diǎn)符號(hào)用法,親族師友、中外貨幣、度量衡、歷史年表的稱謂等,也都有很大差異。
9.同一個(gè)中文字,有時(shí)在國標(biāo)碼簡(jiǎn)化字與大五碼繁體字中的讀音不一樣,甚而有復(fù)雜的對(duì)應(yīng)關(guān)系。例如以漢語拼音標(biāo)注的繁體字的字音什shé,shí,shén;馮píng,féng;和hàn,hú,huo,huò,hé,hè;瞿jǜ,qǖ,qǘ;艘sāo,sōu;潦lǎo,lào,liáo;沈chén,shěn;啞è,yǎ,yā;圳chóu,zùn,zhèn;癌yán,ái;宿xiǔ,sù。由于繁體字使用區(qū)將人地山河名譯成拉丁字母(譯出)時(shí),采用的標(biāo)準(zhǔn)與漢語拼音不同;外文名稱譯成中文(譯進(jìn))時(shí)簡(jiǎn)繁使用區(qū)的譯名法也不同,因而目前簡(jiǎn)繁使用區(qū)的譯進(jìn)、譯出都有差異。
10.對(duì)中文字的統(tǒng)計(jì)、研究、分析、處理所采用的技術(shù),還處于“跟著感覺走”的階段,缺乏現(xiàn)代化的方法,不能利用計(jì)算機(jī)進(jìn)行“定量分析”,趕不上信息時(shí)代科技快速發(fā)展的需要,也同時(shí)導(dǎo)致了對(duì)中文文字統(tǒng)一方面的多種觀點(diǎn)和復(fù)雜的爭(zhēng)議。
由于中文文字不統(tǒng)一,中文用字范圍和文字規(guī)范不科學(xué)甚至失控,不僅母語為非中文的學(xué)習(xí)者、海外華裔青少年覺得中文字多、規(guī)范復(fù)雜難學(xué),就連中文使用區(qū)內(nèi)的母語為中文的學(xué)習(xí)和使用者,也認(rèn)為許多中文字一輩子也用不上。海外的許多華人子女本來就認(rèn)為中文難學(xué),家長(zhǎng)們?yōu)榱耸购⒆永^承中國文化,出錢讓小孩周末去學(xué)中文,而有的中文學(xué)校卻為采用簡(jiǎn)化字的教材還是繁體字的教材發(fā)生爭(zhēng)執(zhí)。
目前中文文字的不統(tǒng)一狀況,已導(dǎo)致文字層面以外的問題。簡(jiǎn)化字使用者把名字“勁松”寫成繁體字“勁鬆”,按繁體字字義是玩笑話題。把“占小姐”寫成“佔(zhàn)小姐”產(chǎn)生歧義導(dǎo)致對(duì)方生氣,而寫者不知?dú)鈴暮蝸怼R环蓦娔X雜志中有文章寫道“這軟體不錯(cuò),可惜用的是大陸繁體字。他們的字與我們的字不同?!敝形奈淖值牟唤y(tǒng)一狀況,不僅導(dǎo)致中文文字使用方面的混亂和不規(guī)范現(xiàn)象,海峽兩岸交流的不便,造成許多人力、物力、財(cái)力的浪費(fèi),也嚴(yán)重阻礙了中文走向國際。
本發(fā)明的目的是提供一種科學(xué)的可行性高、易于推廣的方案,在充分尊重現(xiàn)有各種中文單一內(nèi)碼使用規(guī)范和習(xí)慣的基礎(chǔ)上,以現(xiàn)代化的篩選、整合、變通、規(guī)范及創(chuàng)新處理方法,實(shí)現(xiàn)中文文字的字形、字義、字音、用字范圍的全面完整統(tǒng)一;及在有必要轉(zhuǎn)換時(shí),實(shí)現(xiàn)中文龔碼、國標(biāo)碼、大五碼等多種內(nèi)碼之間或同種內(nèi)碼之內(nèi)的單、多向的完整規(guī)范化快速轉(zhuǎn)換。
為了解決以上中文文字全面完整統(tǒng)一和內(nèi)碼規(guī)范轉(zhuǎn)換所遇上的各種問題,便于計(jì)算機(jī)“智能”統(tǒng)計(jì)、研究、分析,高效、快速處理中文字信息,使統(tǒng)一方案和必要的轉(zhuǎn)換得到科學(xué)的完整的規(guī)范化的結(jié)果,本發(fā)明創(chuàng)造了“綜合字頻、詞頻”、“字頻、詞頻方向值”和“合理最簡(jiǎn)詞”等概念。以下若無特別說明,“龔碼的選字”指“龔碼基本字符集的選字”。
1.特定字頻、詞頻根據(jù)對(duì)某一單位時(shí)間段的出版品的統(tǒng)計(jì),某一個(gè)字出現(xiàn)的次數(shù)除以總字?jǐn)?shù)后得到的百分比結(jié)果。也可根據(jù)需要對(duì)特定字義或字音條目下的用字,以相關(guān)詞組或短語搭配等方式,統(tǒng)計(jì)出特定條件下某一個(gè)字出現(xiàn)的次數(shù),從而計(jì)算出特定字頻、詞頻。特定字頻、詞頻及綜合字頻、詞頻可比較不同字詞的使用頻度。在計(jì)算機(jī)中用字頻、詞頻軟件來統(tǒng)計(jì)快速、方便、準(zhǔn)確,但所統(tǒng)計(jì)文字的字形、字音一定要與既定時(shí)間的既定出版品嚴(yán)格吻合。比如統(tǒng)計(jì)二十世紀(jì)三十年代的平面出版品,用OCR光學(xué)識(shí)別等方式轉(zhuǎn)為文本文件,原出版品中用“纔”的,就不能用“才”來作統(tǒng)計(jì)。已有的計(jì)算機(jī)檔案也要與原出版品比對(duì)校正。網(wǎng)頁等電子出版品除非與原平面出版品嚴(yán)格相符,否則只可作為現(xiàn)時(shí)的統(tǒng)計(jì)結(jié)果。對(duì)不同地區(qū)、不同領(lǐng)域的不同形式的出版品所作的統(tǒng)計(jì),得出的字頻、詞頻結(jié)果會(huì)有不同。
如現(xiàn)時(shí)的中文繁體字字頻分地區(qū)統(tǒng)計(jì)結(jié)果“周”字——香港為0.0289%,臺(tái)灣為0.0190%?!斑L”字——香港0.0057%,臺(tái)灣0.0103%。據(jù)此可知,“周”字在香港的使用頻率高過臺(tái)灣,而“週”字在臺(tái)灣的使用頻率高過香港。
2.綜合字頻、詞頻根據(jù)對(duì)某一單位時(shí)間段的不同地區(qū)、不同領(lǐng)域的不同形式的出版品,綜合統(tǒng)計(jì)得出的較全面的字頻、詞頻百分比結(jié)果,可校正地區(qū)、領(lǐng)域、出版形式等偏差。但特定字頻、詞頻進(jìn)行字頻、詞頻比較時(shí)有特定的用途。例如二十世紀(jì)九十年代的繁體字綜合字頻、詞頻,包括1990年1月1日至1999年12月31日之間,香港、臺(tái)灣和海外的新聞、政治、財(cái)經(jīng)、教育、文化、藝術(shù)、法律、科技、娛樂、旅游等領(lǐng)域的中文繁體字圖書、報(bào)刊、國際互聯(lián)網(wǎng)等出版品綜合統(tǒng)計(jì)結(jié)果。由于古籍書、古字典、古詞典和文字專家學(xué)者的學(xué)術(shù)文章等涉及用字范圍太廣,會(huì)導(dǎo)致綜合字頻、詞頻的統(tǒng)計(jì)結(jié)果出現(xiàn)非正常偏差,故不納入統(tǒng)計(jì)。早期的統(tǒng)計(jì)因電子出版品尚未出現(xiàn),只有平面出版品。
當(dāng)一種內(nèi)碼的字與另一種內(nèi)碼的字并不是一一對(duì)應(yīng),而需要進(jìn)行比較或共同納入特定字頻、詞頻或綜合字頻、詞頻時(shí),根據(jù)“字義或詞義的分開與合并”計(jì)算頻度。如國標(biāo)碼的“制”對(duì)應(yīng)大五碼的“製、制”,若綜合字頻的統(tǒng)計(jì)中按大五碼的“製、制”兩個(gè)字分開統(tǒng)計(jì),則國標(biāo)碼的“制”按以上兩字的字義分開統(tǒng)計(jì)納入。
龔碼收錄根據(jù)綜合字頻確認(rèn)的常用字和次常用字。原中文單一內(nèi)碼中,同一字義有多個(gè)字時(shí),如果一個(gè)字的現(xiàn)時(shí)綜合字頻明顯高于其他字,龔碼選擇綜合字頻明顯較高的一個(gè)字。如“吃”的現(xiàn)時(shí)綜合字頻為0.0586%,“喫”為0.0060%,故龔碼選用“吃”而不用“喫”。
當(dāng)內(nèi)碼轉(zhuǎn)換中涉及到不同字義的“一對(duì)多”有爭(zhēng)議條目,或同一字義的“一對(duì)多”時(shí),如果一個(gè)字的現(xiàn)時(shí)綜合字頻明顯高于其他字,第一步“轉(zhuǎn)字”時(shí)選擇轉(zhuǎn)換為其中綜合字頻較高的一個(gè)字。如在“游”字作“不固定的”字義解釋時(shí),轉(zhuǎn)為此義項(xiàng)下綜合字頻為0.0047%的“游”而不用0.0028%的“遊”。
3.字頻、詞頻演變曲線圖以一些連續(xù)時(shí)間段的特定或綜合字頻、詞頻數(shù)據(jù)為縱座標(biāo),以時(shí)間段為橫座標(biāo),所繪制出的曲線圖(可用Excel等軟件),可直觀地觀察或比較字頻、詞頻的演變狀況。據(jù)字頻演變曲線圖比較可知,在簡(jiǎn)化字使用區(qū)推行簡(jiǎn)化字后的一定時(shí)間段,繁體字使用區(qū)的用字向“繁”的方向轉(zhuǎn)化,原本字頻較低但在同時(shí)使用的某些筆畫較少的字,如“復(fù)、機(jī)、圣、網(wǎng)”等字,后來索性成了“閑字”(閑著不用的字)。
4.字頻、詞頻方向值用某一單位時(shí)間段的特定或綜合字頻、詞頻,除以該字前一單位時(shí)間段的特定或綜合字頻、詞頻,即為該單位時(shí)間段的字頻、詞頻方向值。通過字頻、詞頻方向值,可準(zhǔn)確分析字頻、詞頻發(fā)展的方向和演變速率;也可比較相同時(shí)段不同字的字頻、詞頻方向值,比較字頻、詞頻的演變方向和演變速率。當(dāng)字頻、詞頻方向值大于1時(shí),說明該字詞的使用頻度在增大;數(shù)值越大就說明增大的速率越快。當(dāng)字頻、詞頻方向值小于1時(shí),說明該字詞的使用頻度在減??;數(shù)值越小就說明減小的速率越快。
5.字頻、詞頻方向曲線圖以一些連續(xù)時(shí)間段的特定字頻、詞頻方向值數(shù)據(jù)為縱座標(biāo),以時(shí)間段為橫座標(biāo),所繪制出的曲線圖??芍庇^地觀察或比較字頻、詞頻的演變方向和演變速率。
6.字頻、詞頻方向平均值把相鄰幾個(gè)單位時(shí)間段的字頻、詞頻方向值平均,即為字頻、詞頻方向平均值??尚U龝r(shí)間偏差。比較不同的字,所取相鄰的單位時(shí)間段應(yīng)相同,從而比較出字頻、詞頻的發(fā)展方向平均值高低。
以最近四十年每十年為時(shí)間段,據(jù)繁體字的綜合字頻算出的字頻方向平均值(后述均按此定義),“證”為1.1069,“証”0.8434;“閒”1.1375,“閑”0.8107。由字頻方向平均值可知,在這四十年中,簡(jiǎn)化字“證”所對(duì)應(yīng)的繁體字在向“證”發(fā)展,“閑”在向“閒”發(fā)展,后者的發(fā)展速度快于前者。因而龔碼選用“閑·閒、證·證”,龔碼繁形字未選用“閑、証”。
當(dāng)內(nèi)碼轉(zhuǎn)換中涉及到不同字義的“一對(duì)多”有爭(zhēng)議條目,或同一字義的“一對(duì)多”時(shí),如果對(duì)應(yīng)的幾個(gè)字的現(xiàn)時(shí)綜合字頻較為接近,第一步“轉(zhuǎn)字”時(shí)轉(zhuǎn)換為字頻方向平均值較高的一個(gè)字。
7.字頻、詞頻預(yù)測(cè)值用現(xiàn)時(shí)的特定字頻、詞頻或綜合字頻、詞頻的數(shù)據(jù),乘以字頻、詞頻方向平均值,即為對(duì)下一個(gè)時(shí)間段的字頻、詞頻預(yù)測(cè)。如某字的現(xiàn)時(shí)綜合字頻為0.0250%,十年時(shí)間段的字頻方向平均值為1.1500,未來十年的綜合字頻預(yù)測(cè)值即為0.0250%×1.1400=0.0285%。由于影響字頻、詞頻變化的因素較復(fù)雜,此預(yù)測(cè)值只可作為參考。
需要說明的是,本發(fā)明旨在探討科學(xué)的解決方法。以上多項(xiàng)涉及到的數(shù)據(jù),不同的統(tǒng)計(jì)范圍或統(tǒng)計(jì)資料,會(huì)導(dǎo)致不同的統(tǒng)計(jì)結(jié)果。但從理論上說,盡管是不同的統(tǒng)計(jì),其范圍越廣,資料越多,結(jié)果的差距就會(huì)越小。
8.合理對(duì)應(yīng)字當(dāng)利用龔碼輸入或從其他內(nèi)碼轉(zhuǎn)換為龔碼時(shí),若龔碼中沒有對(duì)應(yīng)字,輸入或轉(zhuǎn)換為龔碼的“合理對(duì)應(yīng)字”。合理對(duì)應(yīng)字須符合“字義、字音、字形等關(guān)聯(lián)性最強(qiáng)、最合理、無歧義”的原則。
如龔碼沒有收錄的其他幾種中文單一內(nèi)碼(國標(biāo)碼、大五碼等)的用字,在《龔碼字典》中釋義并給出“合理對(duì)應(yīng)字”的指引。如大五碼的“諆”,龔碼中沒有這個(gè)字,根據(jù)以上原則用作龔碼中的合理對(duì)應(yīng)字“欺”。
在異種內(nèi)碼轉(zhuǎn)換中也按此處理。即當(dāng)來源碼的“字”不能轉(zhuǎn)為目的碼的“字”(不能“字轉(zhuǎn)字”),即目的碼“無字對(duì)應(yīng)”時(shí),或原有的轉(zhuǎn)換中對(duì)應(yīng)不合理時(shí),用目的碼的“合理對(duì)應(yīng)字”與之對(duì)應(yīng)。若還有其他字義,可在第二步的目的碼環(huán)境中用轉(zhuǎn)詞的方法校正。如果來源碼的“詞”對(duì)應(yīng)目的碼的“字”,本發(fā)明用先“字轉(zhuǎn)字”、后“詞轉(zhuǎn)字”的方法解決。如國標(biāo)轉(zhuǎn)大五時(shí),“英寸”對(duì)應(yīng)“時(shí)”,先將來源碼的“英→英、寸→寸”;然后在目的碼的環(huán)境中,將“英寸→時(shí)”。
9.合理最簡(jiǎn)詞當(dāng)利用龔碼輸入或從其他內(nèi)碼轉(zhuǎn)換為龔碼時(shí),若龔碼中沒有“合理對(duì)應(yīng)字”時(shí),本發(fā)明用龔碼的“合理最簡(jiǎn)詞”與之對(duì)應(yīng)。合理最簡(jiǎn)詞應(yīng)符合“最少用字、通俗易懂、嚴(yán)謹(jǐn)合理、無歧義”的原則。對(duì)于龔碼未收錄的名稱用字,按其他習(xí)慣名稱;無其他習(xí)慣名稱者采用“義音形最接近字+特征尾字”的方法解決,特征尾字可為“花草樹木鳥蟲魚石”等。如“鷷、櫹”等綜合字頻很低的罕用字,龔碼未收錄,用作“尊鳥、蕭樹”。
即當(dāng)來源碼的“字”不能轉(zhuǎn)為目的碼的“合理對(duì)應(yīng)字”時(shí),本發(fā)明用目的碼的“合理最簡(jiǎn)詞”與之對(duì)應(yīng)。如大五碼的“這條鱵約長(zhǎng)1呎2吋”,原有的轉(zhuǎn)換方案因某些字“無字可轉(zhuǎn)”,在國標(biāo)碼中會(huì)成為“這條□約長(zhǎng)1□2□”(□代表缺字)。按本發(fā)明的“合理最簡(jiǎn)詞”解決方案,可轉(zhuǎn)為國標(biāo)碼的“這條針魚約長(zhǎng)1英尺2英寸”。按中文的習(xí)慣,“魚”部的一些字可單用,也可與“魚”字搭配使用,二者表達(dá)同一意思,如“鯊、鯊魚,鱷、鱷魚,鱘、鱘魚”。如果前述大五碼例句中為“鱵魚”,轉(zhuǎn)成國標(biāo)碼后會(huì)成為“針魚魚”。為了避免這類問題,在“魚”字條第二行下邊增加一個(gè)“魚魚→魚”的轉(zhuǎn)換。
一、中文文字統(tǒng)一方案——龔碼(Chinese GONG Code)總體構(gòu)思中文字(包括簡(jiǎn)化字和繁體字)是中華民族的寶貴文化遺產(chǎn)。但由于種種原因,在國際語言文字的競(jìng)爭(zhēng)中,中文目前處于未被“公平對(duì)待”的地位。據(jù)有關(guān)統(tǒng)計(jì),中文文字在聯(lián)合國原始文件中的使用量還不到1%(英語占80%,法語占15%,西班牙語占4%,俄語、中文和阿拉伯語合計(jì)為1%);而華人的人口約占世界的20%?,F(xiàn)在隨著兩岸相繼加入WTO等因素,某些方面出現(xiàn)了轉(zhuǎn)機(jī)。有外國人說,二十一世紀(jì)將是中國人的世紀(jì)。大中華經(jīng)濟(jì)圈的逐步形成及經(jīng)濟(jì)起飛態(tài)勢(shì),吸引了整個(gè)世界的目光。有鑒于此,中文如果能用現(xiàn)代化的科學(xué)方法重新篩選、整合、變通、規(guī)范及創(chuàng)新處理,在此基礎(chǔ)上早日達(dá)到用字范圍、字形、字義、字音等方面的全面完整統(tǒng)一,則不僅中國人易學(xué)易用,實(shí)現(xiàn)兩岸三地及海外華人古老而又新鮮的“書同文、語同音”的夢(mèng)想,讓我們的子孫后代不再為中文文字的不統(tǒng)一而困擾和不便,使我們古老的中文字更為完美統(tǒng)一地承傳久遠(yuǎn);同時(shí)也有助于加快中文走向國際的步伐,早日與國際語言文字全面接軌。
中文文字達(dá)到何種標(biāo)準(zhǔn)才算統(tǒng)一?不同的人可能會(huì)有不同的看法。有人說,簡(jiǎn)化字使用區(qū)當(dāng)初簡(jiǎn)化字形、字義合并有許多改得不科學(xué)、不合理,不然也不會(huì)頻繁調(diào)整用字范圍、字形和字詞釋義;而現(xiàn)在電腦處理文字的比重日益增加,筆畫的多少已不是問題,大部分簡(jiǎn)化字都應(yīng)當(dāng)改回去。有人說,繁體字的罕用字、無效字、同義字太多,字的筆畫多孩子們學(xué)起來難度大;中文字的簡(jiǎn)化是趨勢(shì),就連現(xiàn)在筆畫多的簡(jiǎn)化字也還需要再簡(jiǎn)化;繁體字使用者沒多少人把那1萬3千多個(gè)字的字義搞清楚并且全部用上過。一萬位中文文字專家學(xué)者和熱心人士,可以提出一萬種統(tǒng)一方案。由于以上及其他的種種原因,不管是以現(xiàn)行的簡(jiǎn)化字還是繁體字,要求所有中文使用者采用都會(huì)有相當(dāng)大的難度。
既然中文文字的統(tǒng)一勢(shì)在必行,而大幅度的改動(dòng)又不現(xiàn)實(shí),那么不妨改變一種思維方式。如果簡(jiǎn)化字和繁體字的文字使用者都使用已習(xí)慣的用字范圍,以科學(xué)、量化、創(chuàng)新的方式使每一個(gè)簡(jiǎn)形字與其對(duì)應(yīng)的一個(gè)繁形字在同一義項(xiàng)下都具有相同的字義和字音(包括聲調(diào)),并同屬一個(gè)內(nèi)碼,那么中文字也就統(tǒng)一了(相當(dāng)于內(nèi)碼相同、字體不同)。也就是說,無論是將“一對(duì)多”精簡(jiǎn)為“一對(duì)一”,還是將“一對(duì)多”整合為多個(gè)“一對(duì)一”,總之要將簡(jiǎn)化字和繁體字之間復(fù)雜的“一對(duì)多”全部調(diào)整為“一對(duì)一”?,F(xiàn)階段簡(jiǎn)繁字形不一致并不是問題,繁體字的字形保留了中文字的藝術(shù)外形,簡(jiǎn)化字的字形迎合了現(xiàn)代人的生活節(jié)奏,不如順其自然,讓二者優(yōu)勢(shì)互補(bǔ)。因而中文文字統(tǒng)一需要解決的三大問題是1.科學(xué)調(diào)整、界定用字范圍;2.將簡(jiǎn)化字與繁體字之間的“一對(duì)多”在必要合理的原則下全部調(diào)整為“一對(duì)一”;3.調(diào)整其他不統(tǒng)一和不合理的方面(字形、字義、字音及用詞、用語等)。
從歷史上看,文字的發(fā)展總是向著阻力最小的方向。為了充分尊重現(xiàn)行中文簡(jiǎn)化字和繁體字使用區(qū)的文字使用者的習(xí)慣,減小文字統(tǒng)一方案的推廣難度,龔碼的每一個(gè)文字內(nèi)碼都有一個(gè)簡(jiǎn)形字和一個(gè)繁形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào))。龔碼簡(jiǎn)形字相對(duì)于國標(biāo)碼簡(jiǎn)化字,繁形字相對(duì)于大五碼繁體字,都盡量作最少的字形變動(dòng)。字義與字音也是在“必要”(如原簡(jiǎn)繁單一內(nèi)碼之間不一致)時(shí)才作“合理”的調(diào)整。龔碼用字的準(zhǔn)則,是從綜合字詞頻、字詞頻方向平均值、組詞能力、字義、姓氏和人地山河名因素等五個(gè)方面進(jìn)行篩選、整合、變通、規(guī)范及創(chuàng)新處理。
(一)科學(xué)調(diào)整、界定用字范圍1.對(duì)于翻印古籍書或文字專家學(xué)者的學(xué)術(shù)文章,用字范圍可無限大(如考古學(xué)家不斷在發(fā)現(xiàn)新的中文字)。但對(duì)于絕大部分中文文字使用者卻無必要。一種中文內(nèi)碼沒有必要因?yàn)橛幸磺f種物質(zhì)存在,就造一千萬個(gè)中文字出來。十幾億中國人每人造一個(gè)字出來,學(xué)中文的人便一輩子也學(xué)不完。根據(jù)中文文字使用區(qū)內(nèi)各種單一內(nèi)碼的現(xiàn)狀,及現(xiàn)行中文文字規(guī)范和習(xí)慣,龔碼基本集選字的最大范圍為國標(biāo)碼、大五碼,并參考香港增補(bǔ)字符集。
2.若不涉及原簡(jiǎn)繁單一內(nèi)碼一對(duì)多問題,根據(jù)綜合字詞頻確認(rèn)的常用字、次常用字全部收錄;罕用字根據(jù)綜合字詞頻、字詞頻方向平均值、組詞能力、字義、姓氏和人地山河名因素等選擇性收錄;無效字不收錄。現(xiàn)時(shí)尚在使用的姓氏用字、縣以上地名用字、中醫(yī)藥用字、科技專用字(如化學(xué)元素周期表和有機(jī)化學(xué)用字)盡量全部收錄;酌情收錄影響較大、使用較廣的特殊古文(如較出名的文言文、古典小說、詩詞曲)用字和成語用字;酌情收錄較常用而有特定字義的香港字。
3.特定范圍用字龔碼選擇性收錄了在某些特定范圍中較常使用,而綜合字頻、詞頻不高的字,如兒童讀物用字“咻、咦、咩、哞、喵、呦、啾”等。
4.未收錄字及后續(xù)必要補(bǔ)字的處理對(duì)于目前使用較廣的幾種中文單一內(nèi)碼(如國標(biāo)碼、大五碼、香港增補(bǔ)字符集等)中有,而龔碼未收錄的字,將在《龔碼字典》中釋義并按照“合理對(duì)應(yīng)字、合理最簡(jiǎn)詞”的方案給出與龔碼的對(duì)應(yīng)用字指引。對(duì)于龔碼基本字符集功能范圍內(nèi)將來有可能會(huì)遇上的極少數(shù)的必要補(bǔ)字,通過向基本字符集的備用碼位加字解決,而不是向擴(kuò)充字符集“借字”,以免兩種字符集混用。對(duì)于大部分人讀得到而用不到的古文和其他用字,如果有收錄必要,將收進(jìn)龔碼擴(kuò)充字符集中。
(二)“一對(duì)多”全部調(diào)整為“一對(duì)一”由于中文文字過于復(fù)雜,在不同的時(shí)期,不同的工具書對(duì)于中文字的“字義”有不同的解釋(如十二月可稱“涂月”,“閒”曾與“間”通用,“璽”原泛指印信而秦朝后專指皇帝印信等),本發(fā)明中提及的“字義”,若無特別說明,系按現(xiàn)行簡(jiǎn)繁體字使用區(qū)的大部分中文工具書的解釋。
1.同一字義(包括同一義項(xiàng)下)有多個(gè)字時(shí),如果一個(gè)字的現(xiàn)時(shí)綜合字頻、詞頻明顯高于其他字,選擇這個(gè)綜合字頻、詞頻較高的字。如果這幾個(gè)字的現(xiàn)時(shí)綜合字頻、詞頻較為接近,選擇字頻、詞頻方向平均值較高的一個(gè)字。如龔碼繁形字選擇了“暗才鏟吃僱機(jī)鑑考臘裡炮確聖閒網(wǎng)繡藥證”,未收錄“闇纔剷喫雇機(jī)鑒攷臘裹砲確圣閑網(wǎng)綉葯証”。對(duì)于極少數(shù)字頻、詞頻較高的人地山河名、生意行號(hào)用字,如“毓塭邨”等字,雖與“育塘村”同一字義,也酌情收錄。
2.不同字義(或義項(xiàng)下)有多個(gè)字時(shí),如果除了綜合字頻、詞頻和字頻、詞頻方向平均值較高的一個(gè)字,其他字雖另有字義,但綜合字頻、詞頻和字頻、詞頻方向平均值明顯較低,且組詞能力有限,只收錄前者。如龔碼繁形字選擇了“抱並草叉冬拐昆侖秋千纖兔”,未收錄“菢并騲扠鼕柺崑崙鞦韆縴菟”。對(duì)于未收錄的字,盡量做到有理據(jù)或出處。如“鞦韆”一詞,宋朝張有的《聯(lián)錦字》謂“高無際作《鞦韆賦序》云‘漢武帝後庭之戲也?!驹魄?,祝壽之詞也,語譌轉(zhuǎn)為鞦韆。”3.不同字義(或義項(xiàng)下)有多個(gè)字時(shí),如果除了綜合字頻、詞頻和字頻、詞頻方向平均值較高的一個(gè)字,還有其他字的綜合字頻、詞頻和字頻、詞頻方向平均值也較高,組詞能力較強(qiáng),若選用能有助于使字義的表述更明確,龔碼便選用該字。如大五碼的“參”對(duì)應(yīng)國標(biāo)碼的“叁參”。大五碼中其他中文大寫數(shù)字都有近于專用的字,唯獨(dú)沒有“叁”,因而龔碼在繁形字中收錄了該字。另如“著”與“著”按簡(jiǎn)化字將字義分開更好。
再如國標(biāo)碼的“制”對(duì)應(yīng)大五碼的“制製”兩個(gè)常用字?!斑@種編制不好”和“這種編製不好”有不同的意思,前者可能指“單位人員配備不合理”,后者可能指“某種文件、報(bào)表之類的制作不完善”,兩個(gè)字分開使用字義更明確。另如“他背著弟弟”與“他揹著弟弟”也有不同意思。
為使字義的表述更明確,龔碼繁形字同時(shí)選擇了“采採、沖衝、斗鬥、發(fā)髮、復(fù)複、徑逕、面麵、松鬆、占佔(zhàn)”等字。
4.有時(shí)國標(biāo)碼與大五碼之間的多個(gè)字有復(fù)雜的對(duì)應(yīng)關(guān)系,需按“必要合理”的原則進(jìn)行復(fù)雜調(diào)整。如簡(jiǎn)化字的“臺(tái)”對(duì)應(yīng)繁體字的“臺(tái)、臺(tái)、檯、枱、颱”。其中“臺(tái)、臺(tái)”在“高平建筑物、器物座、量詞、臺(tái)灣省”幾個(gè)條目下是同一字義;“檯、枱”作“桌子,案子”解釋時(shí)為同一字義,后一字大五碼沒有,是繁體字的香港用法;作“太平洋西部上空暴風(fēng)”解釋時(shí)用“颱”。在以上關(guān)于“臺(tái)、臺(tái)”的幾個(gè)選擇性的義項(xiàng)中,現(xiàn)時(shí)繁體字綜合字頻“臺(tái)”為0.0894%,“臺(tái)”為0.0513%;字頻方向平均值“臺(tái)”為1.6978,“臺(tái)”為0.925。不管是現(xiàn)時(shí)的使用頻度,還是字頻的發(fā)展趨勢(shì),選擇“臺(tái)”字更合現(xiàn)時(shí)繁體字使用者的習(xí)慣?!帮U”為次常用字,龔碼簡(jiǎn)形字用作“颱”?!皺叀煛币彩谴纬S米?,因龔碼未收錄“臺(tái)”,這一字義按“字形合理對(duì)應(yīng)”原則選繁體字香港用法的“枱”。至此將原來簡(jiǎn)化字與繁體字的“一對(duì)五”,調(diào)整為龔碼簡(jiǎn)形與繁形的三個(gè)“一對(duì)一”。
再如國標(biāo)碼的“干、乾”與大五碼的“幹、乾、干”具有復(fù)雜的對(duì)應(yīng)關(guān)系。大五碼中這三個(gè)字的字頻都比較高,繁體字綜合字頻“乾0.01658%,幹0.01323%,干0.01204%”。大五碼例句“‘你幹了沒有 ’‘現(xiàn)在還不想幹?!畮植粠譄o所謂囉!’”與“‘你乾了沒有 ’‘現(xiàn)在還不想乾?!磺瑹o所謂囉!”’可大致推斷出前者意思為“那活兒(或那件事)你幹了沒有”,后者為“那杯酒(或飲料)你乾了沒有”,意思較為明確。因而龔碼收錄這三個(gè)字,并按大五碼分配字義。
5.特殊情況處理。
香港的出版品中使用了一些香港字(廣州話方言字)。這些字一部分是國標(biāo)碼和大五碼中已有的,如“冇乜唔諗佢靚咭畀咩嗲係孖咪嘥嘜”等字,在廣州話中部分字音或字義有了變化。一部分是國標(biāo)碼和大五碼中沒有的,如“咗嗰啲哋嚟嘢喺 冚冧 瞓凼劏 咁嘅噃啝埗摼曱甴 ”等字。雖然在廣州話方言的口語中涉及到的香港字較多,但扣除“一義多字共用”的因素,見諸于出版品的國標(biāo)碼和大五碼之外的香港字只有一百多字(其中幾十個(gè)字較常用),且部分字有用近義、近音、近形字替代的趨勢(shì),如“喺?qǐng)丁庇谩皞S埠”替代。因香港字中以“口”作偏旁較多,使用較多的替代方式就是直接去掉口字旁。龔碼收錄了見諸于出版品的較常用香港字;對(duì)于未收錄的香港字,《龔碼字典》將給出根據(jù)香港出版品的通行作法制訂的替代用字指引。
簡(jiǎn)繁體字使用區(qū)有不同的化學(xué)用字。如化學(xué)元素周期表中簡(jiǎn)化字的“硅、锝、鐿、镥、砹、鈁、镎、鈽、镅、锫、锎、锿”,繁體字臺(tái)灣用法為“矽、鎝、鐿、鎦、砈、鍅、錼、鈽、鋂、鉳、鉲、鑀”,繁體字香港用法則同簡(jiǎn)化字,類推“繁化”為相應(yīng)的繁體字使用。綜合考量,龔碼對(duì)于化學(xué)元素周期表用字按簡(jiǎn)化字。
(三)調(diào)整其他有爭(zhēng)議、矛盾或不一致之處1.字義對(duì)于有爭(zhēng)議或矛盾的字義條,龔碼采用“客觀對(duì)待、避免爭(zhēng)議”的方法處理。如中文數(shù)字“式”,簡(jiǎn)化字解釋為“同大寫中文數(shù)字貳”(《新華字典》),繁體字解釋為“同小寫中文數(shù)字二”(《新編中國辭典》)。龔碼并未收此字,在龔碼字典中解釋為“中文數(shù)字。在龔碼大寫中文數(shù)字中用作‘貳’,小寫中文數(shù)字中用作‘二’”?;瘜W(xué)元素周期表第14號(hào)元素,簡(jiǎn)化字用作“硅”,繁體字臺(tái)灣用法為“矽”,國標(biāo)碼和大五碼都收有這兩個(gè)字。但在簡(jiǎn)化字中,“硅”為正式名稱,“‘矽’為‘硅’的舊稱”(《現(xiàn)代漢語詞典》);大五碼恰恰相反,“矽”為正式名稱,“‘硅’為‘矽’的舊譯”(《國語辭典》)。美國的Silicon Valley,簡(jiǎn)化字譯作“硅谷”,繁體字臺(tái)灣用法則稱“矽谷”。但對(duì)于職業(yè)病silicosis一詞的翻譯,簡(jiǎn)化字仍沿用舊稱“矽肺”。龔碼將“矽”字同時(shí)收錄。再如“慊”字,既有“滿足、滿意”的義項(xiàng),又有“不滿足、不滿意”的義項(xiàng),此字因?qū)俸庇米铸彺a沒有收錄。此類字收錄時(shí)也只可選用矛盾義項(xiàng)中使用頻度較高者。在異種內(nèi)碼轉(zhuǎn)換中也按此辦法處理。
不同字義(或字義條下)有多個(gè)字時(shí),有些并不需要加字,只需要調(diào)整字義(字義再分配)。如國標(biāo)碼的“于、后、鐘、余、咨、折、旋、糖、徑、伙、借”對(duì)應(yīng)的大五碼字“于於、后後、鍾鐘、余餘、咨諮、折摺、旋鏇、糖醣、徑逕、伙夥、借藉”,前面的八個(gè)字中有六個(gè)都涉及到姓氏用字。在龔碼的制訂過程中,涉及到姓氏用字都會(huì)復(fù)雜一些——按中國人的傳統(tǒng)習(xí)慣,通常不愿意別人改動(dòng)自己的姓——因而龔碼不是萬不得已的情況不改動(dòng)姓氏的用字或字形。上例中“於、後、鍾、馀、諮、摺、鏇、醣、逕、夥、藉”等字國標(biāo)碼都有。上例中的字義按繁體字釋義即可解決。
龔碼的每一個(gè)中文字都有獨(dú)特的字義。當(dāng)一個(gè)字具有某種字義,其龔碼中的相關(guān)字(在原國標(biāo)碼或大五碼中相關(guān)的字)即不再具有該義項(xiàng),即“字義不作重復(fù)授權(quán)”。如龔碼收錄了“犟”字,相關(guān)字“強(qiáng)”不再具有“固執(zhí)、不服勸導(dǎo)”的義項(xiàng)。收錄了“幺”字,相關(guān)簡(jiǎn)形字“么”不再具有“排行最小的”這一義項(xiàng)。對(duì)此將在《龔碼字典》和《龔碼詞典》中嚴(yán)格界定。龔碼統(tǒng)一方案收錄的字與字、詞與詞之間,不存在某字詞或某字詞的某義項(xiàng)“通”另一字詞,或“亦作”另一字詞的現(xiàn)象,這樣也就不會(huì)再出現(xiàn)如“該用‘身分’還是‘身份’”之類的爭(zhēng)議。對(duì)于龔碼收錄的極少數(shù)字頻、詞頻較高的人地山河名、生意行號(hào)用字,在《龔碼字典》中作出準(zhǔn)確解釋,以免混淆或誤用。如“”字字義同“育”,現(xiàn)為人名用字?!斑棥弊肿至x同“村”,現(xiàn)為香港的地名和生意行號(hào)用字?!啊弊肿至x同“塘”,臺(tái)灣西南沿海稱魚塘為“魚”、“仔”。
2.字形龔碼簡(jiǎn)形字盡量照顧簡(jiǎn)化字使用區(qū)的字形使用習(xí)慣,龔碼繁形字盡量照顧繁體字使用區(qū)的字形使用習(xí)慣。
(1)有些字的筆畫不多,龔碼簡(jiǎn)形字直接錄入,如“盃揹併佈採弔氾複傢姦侷捲剋睏裡慄唸慓舖捨甦塗蓆係兇遊佔(zhàn)週凖”等字。
②有些字的筆畫較多,如龔碼繁形字“ 錶綵嚐噹盪鵰範(fàn)颳譭釦誇囉瀰闢鎔囌糰託輓颺願(yuàn)讃誌註”等字,按簡(jiǎn)化字規(guī)則類推簡(jiǎn)化后,龔碼簡(jiǎn)形字錄入為“ 綵颳譭侭釦誇啰 闢镕 讬輓飏願(yuàn)讚誌註”。
③對(duì)于少數(shù)由于原國標(biāo)碼與大五碼“不同字義”一對(duì)多,而不得不在龔碼中增加或調(diào)整字義的少數(shù)簡(jiǎn)形字,若因筆畫多而與其他龔碼簡(jiǎn)形字不協(xié)調(diào),龔碼按“兼顧相關(guān)字形,新字的字音、字義易理解,無歧義”的原則將其調(diào)整為“合理字形”。如龔碼繁形字“蔔衝 鬥髮 乾幹榖後劃彙穫幾薑曆麵籤鬆 鹹嚮傭鬱籲禦雲(yún)紮髒徵製隻”,調(diào)整為合理字形后龔碼簡(jiǎn)形字錄入為“ 部分字形調(diào)整(未特別注明者為簡(jiǎn)形字)說明及龔碼簡(jiǎn)繁形例句對(duì)照(1)表云彩飄動(dòng)之意,取形旁三撇,雲(yún)作 古人云學(xué)海無涯, 程有路。
古人雲(yún)學(xué)海無涯,雲(yún)程有路。
(2)以兵器防御,用立刀,禦作 由御前帶刀侍衛(wèi)領(lǐng)班在皇宮內(nèi)防 由御前帶刀侍衛(wèi)領(lǐng)班在皇宮內(nèi)防禦。
(3)製作 ,已見于繁體的手寫。計(jì)劃可行文,劃作 這項(xiàng)計(jì)劃從經(jīng)濟(jì)上考量是否劃算還是個(gè)未知數(shù),因而該計(jì) 中產(chǎn)品的 造受到了限制。
這項(xiàng)計(jì)劃從經(jīng)濟(jì)上考量是否劃算還是個(gè)未知數(shù),因而該計(jì)劃中產(chǎn)品的製造受到了限制。
(4)抽簽測(cè)吉兇,用兇字框,以千為音,籤作 ;亦示籤從筒或盒中抽出。
簽約前,他抽了一支 測(cè)運(yùn)氣。
簽約前,他抽了一支籤測(cè)運(yùn)氣。
(5)“髮”生于頭上,以發(fā)為音,髮作 。借後的雙人旁,以后為音,後作 範(fàn)類推簡(jiǎn)為 皇后公園的 面有一家美容 型學(xué)院,我發(fā)現(xiàn)范小姐正在為學(xué)生作示 皇后公園的後面有一家美容髮型學(xué)院,我發(fā)現(xiàn)范小姐正在為學(xué)生作示範(fàn)。
(6)在戰(zhàn)火硝煙中沖鋒,衝作 上高地,班長(zhǎng)沖了一壺龍井茶招待士兵們。
衝上高地,班長(zhǎng)沖了一壺龍井茶招待士兵們。
(7)“麵”為食,以其為偏旁,以面為音,麵作 一碗熱騰騰的紅燒牛肉 端到了他的面前。
—碗熱騰騰的紅燒牛肉麵端到了他的面前。
(8)鐘·鐘,鍾·鐘;表·表, ·錶。
他表示,對(duì)祖上留下的這爿鐘 生意情有獨(dú)鍾。
他表示,對(duì)祖上留下的這爿鐘錶生意情有獨(dú)鍾。
(9)盡·盡,侭·儘。
侭管條件有限,他們還是力爭(zhēng)做到人盡其才。
儘管條件有限,他們還是力爭(zhēng)做到人盡其才。
(10)借蘿字的草頭,以卜bo為音,蔔作 。向上借億字的單人旁,以萬wàn為音,萬作 。中藥白術(shù)、蒼術(shù)為多年生草本植物,以術(shù)zhú為音,術(shù)zhú簡(jiǎn)繁形同作 卜先生拔蘿 ;萬俟先生得了一 元獎(jiǎng)金;蒼 的種植技術(shù)有突破。
卜先生拔蘿蔔;萬俟先生得了一萬元奬金蒼 的種植技術(shù)有突破。
(11)干·干;留幹的右邊,幹作 ;借乾的左邊,乾作 那位老農(nóng)說“我還是早前的話,‘天干地支卜雨只可信一半。天 ,還得人 !’”那位老農(nóng)説「我還是早前的話,『天干地支卜雨只可信一半。天乾,還得人斡!』」3.字音對(duì)于某些字在簡(jiǎn)化字和繁體字中讀音的差異,龔碼采用字音使用頻度較高者。如“和”字,作“連詞、表示聯(lián)合,跟,與”字義時(shí),簡(jiǎn)化字讀作hé;繁體字可讀作ㄏㄢ、hàn,也可讀ㄏㄜhé。龔碼取hé的字音。再如“骰”字,簡(jiǎn)化字工具書歸入tóu;繁體字工具書歸入ㄕㄞˇshǎi。龔碼取shǎi的字音。
4.用詞、用語不同的用詞、用語可以豐富語言的表達(dá)方式,但是一方面專業(yè)用詞、用語應(yīng)當(dāng)統(tǒng)一,另一方面用詞、用語應(yīng)當(dāng)盡量讓絕大多數(shù)的文字使用者理解,龔碼使用綜合詞頻和詞頻方向值較高且易于理解的用詞、用語及統(tǒng)一的專業(yè)用詞、用語。例如“什麼、指責(zé)”的綜合詞頻和詞頻方向值高于“甚麼、指摘”。再如“杯葛、高賣”,若改用作“抵制、偷竊”,所有中文文字使用者都能理解。用詞、用語將通過《龔碼詞典》作系統(tǒng)性的規(guī)范解釋。
5.符號(hào)對(duì)于簡(jiǎn)繁體字使用區(qū)使用頻度較高而差異較大的標(biāo)點(diǎn)及其他符號(hào),在統(tǒng)一方案中采用可轉(zhuǎn)換輸入提示行顯示形式,并同時(shí)保留不可轉(zhuǎn)換形式。如引號(hào),簡(jiǎn)化字用作“、”、‘、’,繁體字大多用作「、」、『、』。龔碼安排了可轉(zhuǎn)換外引號(hào)輸入提示行顯示形式嚴(yán)「“、”」和可轉(zhuǎn)換內(nèi)引號(hào)輸入提示行顯示形式『‘、’』,只需要輸入可轉(zhuǎn)換形式,即可在龔碼簡(jiǎn)形中出現(xiàn)簡(jiǎn)化字的習(xí)慣形式,龔碼繁形中出現(xiàn)繁體字的習(xí)慣形式。繁體字的出版品中直排較多,直排時(shí)各種符號(hào)可自動(dòng)轉(zhuǎn)換為直排符號(hào),如“﹁﹂﹃﹄︽︾︿﹀︵︶︷︸︹︺︻︼”等。
6.譯進(jìn)、譯出中文字音的拼注方式和譯名標(biāo)準(zhǔn),擬通過另一方案提出。
龔碼簡(jiǎn)繁形對(duì)照文稿 聽 雪 ·龔學(xué)勝·(原載一九九二年二月《人民日?qǐng)?bào)》海外版)簌簌落落/霏霏飏飏/朵朵漫空蓬勃/擁抱屈原 李清照/擁抱岳飛 鄭成功/擁抱 我五千年的故國//揮不去 掙不脫/如飛似掠的玉瓊/雍容馳騁生萬象/旋浩然 坤//何不善解雪意?/立長(zhǎng)城為筆/蘸海峽作彩/譜一曲吟天誦地的和聲/龍騰起浪/虎躍生風(fēng)/傾恢宏的關(guān)愛/維 兩岸/待神定氣爽/報(bào)知響晴 聽 雪 ·龔學(xué)勝·(原載一九九二年二月《人民日?qǐng)?bào)》海外版)簌簌落落/霏霏颺颺/朵朵漫空蓬勃/擁抱屈原 李清照/擁抱岳飛 鄭成功/擁抱 我五千年的故國//揮不去 掙不脫/如飛似掠的玉瓊/雍容馳騁生萬象/旋浩然乾坤//何不善解雪意 /立長(zhǎng)城為筆/蘸海峽作彩/譜一曲吟天誦地的和聲/龍騰起浪/虎躍生風(fēng)/傾恢宏的關(guān)愛/維 兩岸/待神定氣爽/報(bào)知響晴◇寄友人◇·龔學(xué)勝·(原載一九九三年五月《明報(bào)》加?xùn)|版)一串嘆息,隨著一次日升日落,不拾地失落在太平洋兩岸。
匆匆別離,正如匆匆相逢,多幾分憧憬,少幾許不安。來不及揮手,一段珍藏的歲月,便漸趨遼遠(yuǎn)。
又怎能忘懷 那些個(gè)雞鳴之晨,剪燭夜半,歷史與現(xiàn)實(shí)的輝煌與沉重,不歇地撞擊我們的雙肩。平湖 舟,自然靜謐,似無風(fēng)險(xiǎn);可我們是當(dāng)代,我們是水手,天性 往大海,追逐風(fēng)帆。生命的價(jià)值,在 不斷注入新的挑戰(zhàn)。
是的,我們這一代太累,如虔誠的朝山客,幾欲恨恨而卻步,仍需奮力登攀。下一宗賭注,未必能贏得一番彩頭;不必祈求晴朗的機(jī)遇,曾經(jīng)瀟灑過就無須畏懼遺憾。
今夜,月涼風(fēng)輕,我披衣梭巡,追覓靈感。朋友,寄給你們點(diǎn)兒什么呢 China Town生意滔滔的繁華,CN Tower巨無霸的偉岸,Midland丹楓的幽眇,Niagara Falls的壯觀……不不,這些都還不夠,寄上心與心的呼應(yīng),夢(mèng)與夢(mèng)的渴盼。
莫要說,人移情易,世態(tài)冷淡;莫要說,山水遙隔,阻斷思念。祖國每一縷細(xì)微的脈動(dòng),依然頻頻撥動(dòng)心弦……◇寄友人◇·龔學(xué)勝·(原載一九九三年五月《明報(bào)》加?xùn)|版)一串嘆息,隨著一次日升日落,不捨地失落在太平洋兩岸。
匆匆別離,正如匆匆相逢,多幾分憧憬,少幾許不安。來不及揮手,一段珍藏的歲月,便漸趨遼遠(yuǎn)。
又怎能忘懷 那些個(gè)雞鳴之晨,剪燭夜半,歷史輿現(xiàn)實(shí)的輝煌與沉重,不歇地撞擎我們的雙肩。平湖盪舟,自然靜謐,似無風(fēng)險(xiǎn);可我們是當(dāng)代,我們是水手,天性嚮往大海,追逐風(fēng)帆。生命的價(jià)值,在於不斷注入新的挑戰(zhàn)。
是的,我們這一代太累,如虔誠的朝山客,幾欲恨恨而卻步,仍需奮力登攀。下一宗賭注,未必能贏得一番彩頭不必祈求晴朗的機(jī)遇,曾經(jīng)瀟灑過就無須畏懼遺憾。
今夜月涼風(fēng)輕,我披衣梭巡,追覓靈感。朋友,寄給你們點(diǎn)兒什麼呢 China Town生意滔滔的繁華,CN Tower巨無霸的偉岸,Midland丹楓的幽眇,Niagara Falls的壯觀……不不,這些都還不夠,寄上心與心的呼應(yīng),蘿與蘿的渴盼。
莫要說,人移情易,世態(tài)冷淡;莫要說,山水遙隔,阻斷思念。祖國每一縷細(xì)微的脈動(dòng),依然頻頻撥動(dòng)心弦……龔碼的每種字體都包括一一對(duì)應(yīng)的簡(jiǎn)形和繁形。為了區(qū)別于原來的簡(jiǎn)化字、繁體字的說法,龔碼的各種字體稱為龔碼簡(jiǎn)楷、龔碼繁楷,或龔碼簡(jiǎn)報(bào)宋、龔碼繁報(bào)宋。除中文字的相關(guān)學(xué)術(shù)文章等特殊用途外,龔碼的簡(jiǎn)形字和繁形字在各類出版品中不可以混用。
龔碼是一個(gè)在內(nèi)碼、用字范圍、字形、字義、字音、用詞、用語等方面的全面完整的中文文字統(tǒng)一方案。龔碼得以推廣后,原簡(jiǎn)化字使用區(qū)仍可使用簡(jiǎn)形字,原繁體字使用區(qū)仍可使用繁形字。經(jīng)過較短的“識(shí)繁寫簡(jiǎn)”(認(rèn)識(shí)繁形,寫成簡(jiǎn)形)的過程,不管是原來簡(jiǎn)化字使用區(qū)、繁體字使用區(qū),還是母語為非中文的中文字學(xué)習(xí)和使用者,對(duì)于龔碼的簡(jiǎn)形和繁形字將普遍都能讀寫和使用,進(jìn)而不轉(zhuǎn)字形也可“簡(jiǎn)繁通讀”,并能輕易達(dá)至最嚴(yán)謹(jǐn)?shù)闹形奈淖忠?guī)范。對(duì)于各類平面、多媒體、電子出版品,所有的中文來稿都可統(tǒng)一處理,不再有需要轉(zhuǎn)碼、某些字詞無法轉(zhuǎn)換及中文出現(xiàn)亂碼的問題。對(duì)于國際互聯(lián)網(wǎng),讀者在剛開始使用龔碼時(shí)只需點(diǎn)取“簡(jiǎn)顯”或“繁顯”,即可用一種自己熟悉的字形顯示閱讀所有以龔碼形成的網(wǎng)頁,比將國標(biāo)碼的宋體換為國標(biāo)碼的楷體還要簡(jiǎn)單。由于龔碼的簡(jiǎn)形與繁形字及圖符全部一一對(duì)應(yīng),各種圖文混排的平面和電子出版品,只要輕輕點(diǎn)一次指令,多種中文字體便能夠同步轉(zhuǎn)換,如龔碼簡(jiǎn)報(bào)宋轉(zhuǎn)龔碼繁報(bào)宋,龔碼簡(jiǎn)隸書轉(zhuǎn)龔碼繁隸書,龔碼簡(jiǎn)綜藝轉(zhuǎn)龔碼繁綜藝。對(duì)于涉及到中文的各類軟件,只需出版一種中文版本。輸入軟件的提示行只需要顯示簡(jiǎn)形或繁形,不再需要將所有的簡(jiǎn)化字和繁體字一起顯示出來。即便將來時(shí)機(jī)成熟,只需要一種中文字形(簡(jiǎn)繁字形合一),也只需要水到渠成地改變中文字體中的某些字形,一次系統(tǒng)性改完或多次分批改變都已不再是問題,因?yàn)椴⒉淮嬖趦?nèi)碼、用字范圍、字義、字音、用詞、用語等方面的轉(zhuǎn)換調(diào)整。
在統(tǒng)一方案的制定過程中,本發(fā)明既兼顧到中文簡(jiǎn)化字和繁體字的現(xiàn)行規(guī)范和習(xí)慣,也兼顧到其文字的發(fā)展方向。既考慮到研究中文文字的專家學(xué)者的學(xué)術(shù)見解,又考慮到一般文字使用者的感受,使其“樂于使用、方便使用”。既考慮到母語為中文的學(xué)習(xí)和使用者,又考慮到母語為非中文的學(xué)習(xí)和使用者。
龔碼的用字范圍雖然與國標(biāo)碼和大五碼都有區(qū)別,但影響到簡(jiǎn)化字和繁體字使用者日常習(xí)慣的分別都不算多。以新學(xué)習(xí)、適應(yīng)少量字的努力,換取一種永久統(tǒng)一、更加規(guī)范和科學(xué)、簡(jiǎn)繁體字優(yōu)勢(shì)互補(bǔ)的中文文字體系,應(yīng)當(dāng)是一件具有歷史價(jià)值的事。
龔碼是一個(gè)承接過去、立足現(xiàn)在、面向未來的中文文字統(tǒng)一方案,以現(xiàn)代化的科學(xué)量化的篩選、整合、變通、規(guī)范及創(chuàng)新處理方法避開各種爭(zhēng)議。按照每一個(gè)字都符合“選之有理有據(jù)”和“高效率地字盡其用”的原則,力爭(zhēng)能經(jīng)得起今后一定時(shí)間段的檢驗(yàn)。龔碼基本字符集(用字范圍、字形)與《龔碼字典》、《龔碼詞典》的拼注音、釋義(字音、字詞語義)配合,構(gòu)成一個(gè)統(tǒng)一、完整、科學(xué)、規(guī)范、穩(wěn)定的中文文字體系,讓中文字使用者“想錯(cuò)也不容易”,輕易能達(dá)至嚴(yán)謹(jǐn)?shù)闹形奈淖忠?guī)范;讓所有的用字者都沒有“累”的感受“呀,原來用中文字可以這么輕松!”進(jìn)而覺得使用中文字是一種享受。
既然現(xiàn)行簡(jiǎn)化字和繁體字存有較大的差異,不管中文文字統(tǒng)一方案規(guī)范與科學(xué)的程度如何,簡(jiǎn)繁兩種文字使用區(qū)的文字使用者和文字專家學(xué)者在統(tǒng)一方案的推行中,就必定需要心平氣和的理解與讓步(避免長(zhǎng)期無謂爭(zhēng)議);同時(shí),中文文字統(tǒng)一方案的推行中有可能會(huì)遇到的各種學(xué)術(shù)層面之外的問題,也有待相關(guān)政治家們以遠(yuǎn)見、風(fēng)度和智慧去化解。大中華的復(fù)興與騰飛所亟需的文字基礎(chǔ)的打造,需要包括海外華人在內(nèi)的當(dāng)代所有中國人的共同協(xié)作努力。
附1“中文文字龔碼統(tǒng)一方案編碼字符集基本集”(示例)說明中文龔碼基本字符集(Chinese GONG Code-Basic Set)編碼范圍為A001-K994,分為110個(gè)區(qū)(Section),每個(gè)區(qū)94個(gè)位(Position),總計(jì)10340個(gè)碼位。收錄中文字及一般符號(hào)、序號(hào)、數(shù)字、漢語拼音、注音字母、國際音標(biāo)、拉丁字母、日文假名、希臘字母、俄文字母,共7874個(gè)圖形字符。其中中文字以外的圖形字符730個(gè),中文字7144個(gè),并留有用戶自定義區(qū)。
龔碼基本字符集的每一個(gè)文字內(nèi)碼都有一個(gè)簡(jiǎn)形字和一個(gè)繁形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào))。基本字符集分簡(jiǎn)繁對(duì)照排列,簡(jiǎn)在左,繁在右。需要對(duì)照列出單字時(shí),以“龔·龔、碼·碼”的排列方式出現(xiàn)。
龔碼基本字符集的文字部分按字音排列,每一字音內(nèi)不分聲調(diào)按綜合字頻排列。多音字排入字頻、詞頻較高的音節(jié)內(nèi)。龔碼基本字符集可滿足除古籍書翻印等特殊用途以外的各種中文用字(包括香港出版品用字)需要。
龔碼擴(kuò)充字符集(Chinese GONG Code-Supplementary Set)用于古籍書翻印等特殊用途。其編碼排列方式同基本字符集,即按字音排列,每一字音內(nèi)不分聲調(diào)按綜合字頻排列。多音字排入字頻、詞頻較高的音節(jié)內(nèi)。擴(kuò)充集亦為每一個(gè)文字內(nèi)碼都有一個(gè)簡(jiǎn)形字和一個(gè)繁形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào))。考慮到簡(jiǎn)化字使用區(qū)的用字習(xí)慣,龔碼擴(kuò)充集收錄的簡(jiǎn)形字,必要時(shí)仍按簡(jiǎn)化字規(guī)則類推簡(jiǎn)化。龔碼擴(kuò)充集收錄中文字使用者讀得到用不到,并有必要收錄(如有特定字詞義或在特定時(shí)期有特定字詞義)的字,包括部分古書用字。如唐朝女皇帝武則天為自己名字造的字“曌”,我們不可能稱她為“武照”,現(xiàn)在的人通常也不可能用此字命名(交流不方便),因而將“曌”收進(jìn)龔碼擴(kuò)充集中。此類有些字是中國歷史文化的一部分。再如“鬥”字,過去不同時(shí)期用過的曾有“鬦閗鬪闘鬭鬭鬭鬭”等字,但字義并無區(qū)別。沒有必要在翻印古書時(shí)一定要將“鬥”排印成“鬭”等字(考古或文字類學(xué)術(shù)論文等除外)?,F(xiàn)在處于知識(shí)、信息快速更新的年代,中文字使用者可以利用學(xué)這些字的時(shí)間去學(xué)其他知識(shí)。因而龔碼擴(kuò)充集沒有收錄此類字。
龔碼擴(kuò)充字符集編碼范圍為L(zhǎng)001-Q994,分為60個(gè)區(qū)(Section),每個(gè)區(qū)94個(gè)位(Position),總計(jì)5640個(gè)碼位。擴(kuò)充字符集收錄中文字5076個(gè)。
二、中文文字內(nèi)碼完整規(guī)范化自動(dòng)轉(zhuǎn)換在龔碼推出后,還有可能在某些情況下使用異種內(nèi)碼之間的轉(zhuǎn)換。比如原來以其他中文內(nèi)碼形成的計(jì)算機(jī)文件,沒必要重新輸入為龔碼,只需要轉(zhuǎn)換內(nèi)碼即可。致于同種內(nèi)碼轉(zhuǎn)換,因其作用為統(tǒng)稿、編輯、校對(duì)、修正,使用范圍更廣。
1.異種內(nèi)碼轉(zhuǎn)換詞典示例以下先介紹“基本轉(zhuǎn)換詞典”的制定原理和使用。先看“基本轉(zhuǎn)換詞典”的“國標(biāo)碼轉(zhuǎn)大五碼”部分示例(隨機(jī)抽取條目,并未按一定規(guī)則排序)◎既→既◎?qū)W→學(xué)◎證→證(不轉(zhuǎn)“証”)◎閑→閒(不轉(zhuǎn)“閑”)◎機(jī)→機(jī)(不轉(zhuǎn)“機(jī)”)◎秋→秋秋千→鞦韆◎千→千◎英→英◎寸→寸英寸→吋◎后→后皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孫後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎臺(tái)→臺(tái)(不轉(zhuǎn)“臺(tái)”)檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風(fēng)1.高平建筑物,器物座講臺(tái),窗臺(tái),燈臺(tái),登臺(tái),臺(tái)詞2.量詞一臺(tái)戲,一臺(tái)機(jī)器3.舊時(shí)敬詞臺(tái)端,兄臺(tái)4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴風(fēng)颱風(fēng)6.臺(tái)灣省臺(tái)中,臺(tái)北市,在臺(tái)協(xié)會(huì)7.特定地名天臺(tái)山(浙江省),天臺(tái)縣(浙江省),臺(tái)州(浙江省)8.姓臺(tái)先生◎志→志標(biāo)誌,碑誌,地理誌,方誌,府誌,日誌,省誌,縣誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.記在心里,不忘永誌不忘,誌哀3.記載的文字雜誌,縣誌4.記號(hào)標(biāo)誌5.稱輕重,量長(zhǎng)短多少用秤志志以上的實(shí)際“基本轉(zhuǎn)換詞典”,包括了來源碼中全部的字和圖符(如國標(biāo)碼為6763字,682個(gè)圖符)。每個(gè)單字條目的第一行(緊接◎后),表示“來源碼字→目的碼字”,或“來源碼字→目的碼詞”。有些單字條目下沒有詞組(只有第一行),表示只需要進(jìn)行“一對(duì)一”的轉(zhuǎn)換。單字條目下如有詞組(從第二行開始),表示在目的碼的環(huán)境中“詞→詞”,或“詞→字”。對(duì)于不會(huì)引起誤解的詞,略去了轉(zhuǎn)換前的部分,只列出了轉(zhuǎn)換后的部分,如“皇后、檯布、標(biāo)誌”,其完整形式應(yīng)為“皇後→皇后、臺(tái)布→檯布、標(biāo)志→標(biāo)誌”。對(duì)于需要特別指明的詞,列出了轉(zhuǎn)換的完整形式,如“秋千→鞦韆、英寸→時(shí)”。
對(duì)于單一的“一對(duì)一”的可轉(zhuǎn)字,直接排入即可,如大→大、學(xué)→學(xué)。
對(duì)于同一字義的“一對(duì)多”可轉(zhuǎn)字,全部轉(zhuǎn)為根據(jù)綜合字頻、詞頻和字頻、詞頻方向值挑選的一個(gè)字,并明確指出“不轉(zhuǎn)某字”,如證→證(不轉(zhuǎn)“証”)、閑→閒(不轉(zhuǎn)“閑”)。
對(duì)于不同字義的“一對(duì)多”可轉(zhuǎn)字,全部先轉(zhuǎn)為根據(jù)綜合字頻、詞頻和字頻、詞頻方向值挑選的一個(gè)“主被選字”,并明確指出“不轉(zhuǎn)某字”,如臺(tái)→臺(tái)(不轉(zhuǎn)“臺(tái)”)。然后在目的碼中,根據(jù)“基本轉(zhuǎn)換詞典”中提供的“詞”,如本例中的“檯布,櫃檯……颱風(fēng)”等,根據(jù)詞的搭配轉(zhuǎn)為不同字義的“一對(duì)多”其他“次被選字”。如本例,實(shí)際上是在目的碼中將“櫃臺(tái)”轉(zhuǎn)為“櫃檯”,將“臺(tái)風(fēng)”轉(zhuǎn)為“颱風(fēng)”。以此將來源碼中的“一”個(gè)字,正確轉(zhuǎn)換為目的碼中不同字義的“多”個(gè)字——“主被選字”和“次被選字”。
轉(zhuǎn)換詞典里列入的字和詞需盡量不重復(fù),不矛盾,并且只考慮字形不管其發(fā)音。如“鞦韆”在“秋”字條下出現(xiàn),就不在“千”字條下出現(xiàn)。為了方便使用者了解文字規(guī)范,在寫作、打字、編輯、校對(duì)、對(duì)轉(zhuǎn)換詞典自行增加字詞等過程中,準(zhǔn)確分辨、運(yùn)用字義,在“基本轉(zhuǎn)換詞典”的多義字條下作了解釋和示例。同一字義的“一對(duì)多”字條按“被選字”解釋。轉(zhuǎn)換詞典設(shè)計(jì)的完美與否,會(huì)直接影響到轉(zhuǎn)換的準(zhǔn)確度和轉(zhuǎn)換效率,因而結(jié)構(gòu)要合理,便于計(jì)算機(jī)高效搜尋轉(zhuǎn)換。
2、同種內(nèi)碼轉(zhuǎn)換詞典示例由于在同種內(nèi)碼轉(zhuǎn)換中,單一的“一對(duì)一”的可轉(zhuǎn)字已經(jīng)轉(zhuǎn)換,因而在第一步轉(zhuǎn)換時(shí)沒必要將字全部轉(zhuǎn)換。以下依照“基本轉(zhuǎn)換詞典”的“國標(biāo)轉(zhuǎn)大五碼”部分示例字條,列出“基本轉(zhuǎn)換詞典”的“大五碼內(nèi)轉(zhuǎn)換”部分示例,以便對(duì)照比較?!蛟^→證◎閑→閒◎機(jī)→機(jī)秋千→鞦韆英寸→吋◎后→後皇后,太后,王后,后妃,天后,后王,后土1.跟“前”相反後門,日後,後排2.后代,子孫後輩,後生3.帝王之妻王后,皇太后4.上古指君王后王◎臺(tái)→臺(tái)◎檯→臺(tái)◎颱→臺(tái)檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯颱風(fēng)1.高平建筑物,器物座講臺(tái),窗臺(tái),燈臺(tái),登臺(tái),臺(tái)詞2.量詞一臺(tái)戲,一臺(tái)機(jī)器3.舊時(shí)敬詞臺(tái)端,兄臺(tái)4.桌子,案子寫字檯,櫃檯5.太平洋西部海上暴風(fēng)颱風(fēng)6.臺(tái)灣省臺(tái)中,臺(tái)北市,在臺(tái)協(xié)會(huì)7.特定地名天臺(tái)山(浙江省),天臺(tái)縣(浙江省),臺(tái)州(浙江省)8.姓臺(tái)先生◎誌→志檁誌,碑誌,地理誌,方誌,府誌,日誌,省誌,縣誌,誌哀,誌禧,心誌1.意向,志向立志,有志者,意志2.記在心里,不忘永誌不忘,誌哀3.記載的文字雜誌,縣誌4.記號(hào)標(biāo)誌5.稱輕重,量長(zhǎng)短多少用秤志志每個(gè)單字條目的第一行(緊接◎后),表示“目的碼轉(zhuǎn)前字→目的碼轉(zhuǎn)后字”。
對(duì)于單一的“一對(duì)一”的可轉(zhuǎn)字,在目的碼中已經(jīng)無須再轉(zhuǎn)。
對(duì)于同一字義的“一對(duì)多”可轉(zhuǎn)字,將“落選字”轉(zhuǎn)為“被選字”,如証→證、閑→閒。
對(duì)于不同字義的“一對(duì)多”可轉(zhuǎn)字,先全部轉(zhuǎn)為“主被選字”,再根據(jù)詞的搭配轉(zhuǎn)為不同字義的“一對(duì)多”其他“次被選字”。
3、多向內(nèi)碼轉(zhuǎn)換詞典示例在國際互聯(lián)網(wǎng)(主機(jī)Sever端或客戶Client端的動(dòng)態(tài)、靜態(tài)轉(zhuǎn)換)和各類涉及到中文的軟件中,其頁面、線上、文件、電子郵件等多向內(nèi)碼轉(zhuǎn)換轉(zhuǎn)換中,為了使用方便,可把多種內(nèi)碼之間、某一內(nèi)碼之內(nèi)的轉(zhuǎn)換詞典合并為一種。如國標(biāo)碼簡(jiǎn)化字和大五碼繁體字之間的簡(jiǎn)轉(zhuǎn)繁、繁轉(zhuǎn)繁、繁轉(zhuǎn)簡(jiǎn)、簡(jiǎn)轉(zhuǎn)簡(jiǎn)的四種轉(zhuǎn)換詞典,可合并為一種。以下列出“基本轉(zhuǎn)換詞典”的“國標(biāo)、大五雙向”部分示例(字義解釋從略)。◎j真f真◎j學(xué)f學(xué)◎j證f證◎f証→f證◎j證f証◎j閑f閒◎f閑→f閒◎j閑←f閑◎j機(jī)f機(jī)◎f機(jī)→f機(jī)◎j秋f秋f秋千→f鞦韆◎j秋←f鞦◎j千f千◎j千←f韆◎j英f英◎j寸f寸f英寸→f時(shí)◎j英寸←f吋◎j后f後→f皇后,太后,王后,后妃,天后,后王,后土◎f后←f后◎j臺(tái)f臺(tái)◎f臺(tái)→f臺(tái)◎j臺(tái)←f檯◎j臺(tái)←f颱→f檯布,櫃檯,企檯,寫字檯,梳妝檯,梳洗檯,檯球,鏡檯,檯子,灶檯→f颱風(fēng)◎j針f針f針魚→f鱵◎j魚f魚j魚←j魚魚◎j針魚←f鱵◎j干f幹◎f干→f幹◎f乾→f幹→f干涉,何干,無干,相干,干擾,干預(yù),干戈,若干,干支,河干,江干→f乾旱,餅乾,乾杯,乾枯,外強(qiáng)中乾,乾爹,乾媽,乾等,乾急,乾洗◎j乾→f乾◎j干←f干◎j干←f乾◎j干←j乾j乾坤←,乾圖,乾網(wǎng),乾道,乾象,乾宅,乾造,乾曜,乾元,乾隆,乾縣基本轉(zhuǎn)換詞典的“國標(biāo)、大五雙向”部分,因具備簡(jiǎn)轉(zhuǎn)繁、簡(jiǎn)轉(zhuǎn)簡(jiǎn)、繁轉(zhuǎn)簡(jiǎn)、繁轉(zhuǎn)繁等功能,須包括互轉(zhuǎn)之前兩種內(nèi)碼的全部字和符號(hào)。如簡(jiǎn)繁雙向轉(zhuǎn)換,基本轉(zhuǎn)換詞典中既包括了國標(biāo)碼的6763字和682個(gè)符號(hào),也包括了大五碼的13053字和408個(gè)符號(hào)。為了不致引起混淆,以“j”代表簡(jiǎn)化字詞,以“f”代表繁體字詞。
每個(gè)單字條目的第一行(緊接◎后),表示“來源字”轉(zhuǎn)為“目的字”或“目的詞”。有些單字條目下沒有詞組(只有第一行),表示不需要進(jìn)行該字條下的“來源詞”轉(zhuǎn)換。單字條目下如有詞組(從第二行開始),表示在同一內(nèi)碼環(huán)境中“來源詞”轉(zhuǎn)“目的詞”,或“來源詞”轉(zhuǎn)“目的字”。對(duì)于不會(huì)引起誤解的詞,略去了轉(zhuǎn)換前的部分,只列出了轉(zhuǎn)換后的部分,并且只在第一個(gè)詞的旁邊加了方向箭號(hào),如“→f皇后、→f檯布、→f干涉、j乾坤←”,其完整形式應(yīng)為“f皇後→f皇后、f臺(tái)布→f檯布、f幹涉→f干涉、j乾坤←j干坤”。對(duì)于需要特別指明的詞,列出了轉(zhuǎn)換的完整形式,如“f秋千→f鞦韆、j魚←j魚魚”。
詞典中涉及到“左向箭號(hào)←”、“右向箭號(hào)→”和“雙向箭號(hào)”?!白笙蚣?hào)←”表示單向轉(zhuǎn)為左側(cè)的簡(jiǎn)化字或詞,如“j魚←j魚魚”,表示在繁轉(zhuǎn)簡(jiǎn)或簡(jiǎn)轉(zhuǎn)簡(jiǎn)時(shí)的第二步由簡(jiǎn)化字的“魚魚”轉(zhuǎn)為簡(jiǎn)化字的“魚”?!坝蚁蚣?hào)→”表示單向轉(zhuǎn)為右側(cè)的繁體字或詞,如“f機(jī)→f機(jī)”,表示在繁轉(zhuǎn)繁時(shí)的第一步,由繁體字的“機(jī)”轉(zhuǎn)為繁體字的“機(jī)”?!半p向箭號(hào)”表示根據(jù)轉(zhuǎn)換需要,既可轉(zhuǎn)為左側(cè)的簡(jiǎn)化字或詞,也可轉(zhuǎn)為右側(cè)的繁體字或詞,如“◎j機(jī)f機(jī)”,表示在繁轉(zhuǎn)簡(jiǎn)時(shí)的第一步由繁體字的“機(jī)”轉(zhuǎn)為簡(jiǎn)化字的“機(jī)”;在簡(jiǎn)轉(zhuǎn)繁時(shí)的第一步由簡(jiǎn)化字的“機(jī)”轉(zhuǎn)為繁體字的“機(jī)”。
下面結(jié)合附圖
對(duì)本發(fā)明的三個(gè)實(shí)施例進(jìn)行詳細(xì)描述。附圖中圖2為本發(fā)明異種內(nèi)碼轉(zhuǎn)換法之流程圖;圖3為本發(fā)明同種內(nèi)碼轉(zhuǎn)換法之流程圖;圖4為本發(fā)明簡(jiǎn)繁雙向轉(zhuǎn)換法之流程圖。
下面描述本發(fā)明的中文文字內(nèi)碼規(guī)范化智能轉(zhuǎn)換方法的三個(gè)實(shí)施例。一、異種內(nèi)碼轉(zhuǎn)換法二、同種內(nèi)碼轉(zhuǎn)換法三、簡(jiǎn)繁雙向轉(zhuǎn)換法實(shí)施例一異種內(nèi)碼轉(zhuǎn)換法首先,將來源碼的每一個(gè)“字”和圖符,按照“基本轉(zhuǎn)換詞典”的指引,全部轉(zhuǎn)換為目的碼的字、詞和圖符。可轉(zhuǎn)字的(包括“合理對(duì)應(yīng)字”)轉(zhuǎn)為目的碼的“字”,不能轉(zhuǎn)字的轉(zhuǎn)為目的碼的“詞”。
接著,在目的碼的環(huán)境中,依照“基本轉(zhuǎn)換詞典”進(jìn)行“詞轉(zhuǎn)詞”,進(jìn)行自動(dòng)搜索替換。以此將不同字義的“一對(duì)多”可轉(zhuǎn)字,由來源碼的一個(gè)字,正確轉(zhuǎn)換為目的碼中的多個(gè)字(主被選字和次被選字)。若來源碼的“詞”對(duì)應(yīng)目的碼的“字”,在這一步中“詞轉(zhuǎn)字”。
第三步,選擇合適的“用詞、用語轉(zhuǎn)換詞典”和“譯名轉(zhuǎn)換詞典”,將用詞、用語和譯名轉(zhuǎn)換為文字使用者所需要的形式。之所以“選用合適的”,是因?yàn)椴煌挠脩簦瑢?duì)用詞、用語和譯名有不同的要求。如一份中文繁體字報(bào)紙,不一定采用臺(tái)灣的用詞、用語和譯名;反之亦然。
最后,按照“復(fù)雜修正轉(zhuǎn)換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進(jìn)行最后修正。
為了說明“復(fù)雜修正轉(zhuǎn)換”,請(qǐng)看以下簡(jiǎn)化字例句1.三位天后都來了。
2.三天后她們都來了。
轉(zhuǎn)為繁體字應(yīng)為
1.三位天后都來了。
2.三天後她們都來了。
“天后”一詞,在海外指特受公眾歡迎的女歌星或女明星,此處借用“帝王之妻”的解釋,以示高貴。
參照“基本轉(zhuǎn)換詞典”示例,在第一步將簡(jiǎn)化字的“后”全部轉(zhuǎn)成了繁體字的“後”——因?yàn)樵诂F(xiàn)時(shí)的繁體字綜合字頻、詞頻中,“後”為0.2869%,“后”為0.0019%,前者遠(yuǎn)高于后者。第二步,在繁體字的環(huán)境中,將“皇後→皇后、天後→天后、後王→后王……”。第三步,選擇運(yùn)用“用詞、用語轉(zhuǎn)換詞典”和“譯名轉(zhuǎn)換詞典”。
現(xiàn)在“三位天后都來了”符合轉(zhuǎn)換要求,第二個(gè)句子“三天後她們都來了”則因第二步轉(zhuǎn)詞時(shí)“天後→天后”使之成了“三天后她們都來了”,不合要求。現(xiàn)在用“#”代表數(shù)字,以“#天后→#天後”進(jìn)行“復(fù)雜修正轉(zhuǎn)換”,即可得到正確結(jié)果“三天後她們都來了”。這就是第四步。
再如簡(jiǎn)化字例句“他今天老板著臉”,第二步轉(zhuǎn)詞時(shí)“老板→老闆”使之成了“他今天老闆著臉”。用“老闆著臉→老板著臉”進(jìn)行“復(fù)雜修正轉(zhuǎn)換”即可。
把“#天后→#天後”、“老闆著臉→老板著臉”之類的詞、短語或句子按“基本轉(zhuǎn)換詞典”的示例匯總到一起,即構(gòu)成“復(fù)雜修正轉(zhuǎn)換詞典”。搜尋方式可采用“隔特定字詞、加限定字詞”等各種高階方式進(jìn)行搜尋轉(zhuǎn)換,以使轉(zhuǎn)換結(jié)果盡可能趨于完美。
這四步可簡(jiǎn)單歸納為第一步全轉(zhuǎn)“來源字轉(zhuǎn)目的字詞”;第二步選轉(zhuǎn)“來源詞轉(zhuǎn)目的字詞”;第三步“轉(zhuǎn)用詞、用語、譯名”;第四步“復(fù)雜修正”。
實(shí)施例二同種內(nèi)碼轉(zhuǎn)換法參照實(shí)施例1,所不同的是從第一步轉(zhuǎn)換開始就是在同種內(nèi)碼中進(jìn)行,根據(jù)“基本轉(zhuǎn)換詞典”將原來的“有必要轉(zhuǎn)換的字”從一個(gè)字轉(zhuǎn)換為另一個(gè)字或一個(gè)詞。后面的轉(zhuǎn)換步驟都與“異種內(nèi)碼轉(zhuǎn)換法”相同。同種內(nèi)碼轉(zhuǎn)換法的用處是將不規(guī)范的來源字詞轉(zhuǎn)為規(guī)范的目的字詞。如報(bào)刊和網(wǎng)絡(luò)等平面、電子出版品,其稿件通常來自各個(gè)方面,E-mail等方式接收的稿件會(huì)涉及到不同內(nèi)碼,為了統(tǒng)一稿件的用字、用詞、用語和譯名,及進(jìn)行編輯校對(duì),不同內(nèi)碼間的轉(zhuǎn)換和同種內(nèi)碼中的轉(zhuǎn)換有時(shí)需要交叉運(yùn)用。
這四步可簡(jiǎn)單歸納為第一步選轉(zhuǎn)“來源字轉(zhuǎn)目的字詞”;第二步選轉(zhuǎn)“來源詞轉(zhuǎn)目的字詞”;第三步“轉(zhuǎn)用詞、用語、譯名”;第四步“復(fù)雜修正”。
實(shí)施例三簡(jiǎn)繁雙向轉(zhuǎn)換法簡(jiǎn)繁雙向轉(zhuǎn)換包括簡(jiǎn)轉(zhuǎn)繁、繁轉(zhuǎn)繁、繁轉(zhuǎn)簡(jiǎn)、簡(jiǎn)轉(zhuǎn)簡(jiǎn)等四種轉(zhuǎn)換。在實(shí)際應(yīng)用中,“轉(zhuǎn)換指令”可以明確標(biāo)示為這四種方式。也可為了方便按目的碼標(biāo)示為兩種,如標(biāo)示為“規(guī)范繁體”(包括簡(jiǎn)轉(zhuǎn)繁和繁轉(zhuǎn)繁)和“規(guī)范簡(jiǎn)體”(包括繁轉(zhuǎn)簡(jiǎn)和簡(jiǎn)轉(zhuǎn)簡(jiǎn)),或標(biāo)示為“簡(jiǎn)轉(zhuǎn)繁”(實(shí)際包括繁轉(zhuǎn)繁)和“繁轉(zhuǎn)簡(jiǎn)”(實(shí)際包括簡(jiǎn)轉(zhuǎn)簡(jiǎn))。
英文字符等一般是以一個(gè)字節(jié)來表示的,最常用的編碼方法是ASCII(AmericanStandard Code for Information Interchange,美國信息交換標(biāo)準(zhǔn)碼)。由于ASCII一個(gè)字節(jié)最多只能區(qū)分256個(gè)字符(實(shí)際上只用了一個(gè)字節(jié)中的低7位,范圍是32-126之間的95個(gè)),而中文字成千上萬,很容易與ASCII重疊,無法分出哪是中文哪是印歐語系文字,于是規(guī)定將中文編碼的高低字節(jié)的最高位均置1(Set the MSB,相當(dāng)于加上128-16進(jìn)制的80H),來使之區(qū)分于ASCII碼。這樣,在計(jì)算機(jī)中使用的中文字編碼(國標(biāo)碼、大五碼等)實(shí)際上是真正的中文字碼的高位置1后的變形碼。因而現(xiàn)在都以雙字節(jié)來表示中文字,為了能夠與英文字符等分開,每個(gè)字節(jié)的最高位一定為1,這樣雙字節(jié)最多可以表示64K格字符。
在簡(jiǎn)繁雙向轉(zhuǎn)換中,因簡(jiǎn)化字與繁體字的內(nèi)碼具有不同的編碼位置(碼位),首先據(jù)此自動(dòng)識(shí)別出中文字所處的內(nèi)碼狀態(tài)。然后根據(jù)“轉(zhuǎn)換指令”要求確認(rèn)轉(zhuǎn)換方向,選擇雙向轉(zhuǎn)換詞典中的對(duì)應(yīng)部分1.內(nèi)碼為簡(jiǎn)化字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡(jiǎn)轉(zhuǎn)繁”部分,先轉(zhuǎn)“來源字”,后轉(zhuǎn)“來源詞”。接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜修正,轉(zhuǎn)換完畢。
2.內(nèi)碼為簡(jiǎn)化字,點(diǎn)取“規(guī)范簡(jiǎn)體”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡(jiǎn)轉(zhuǎn)簡(jiǎn)”部分轉(zhuǎn)換。后續(xù)具體轉(zhuǎn)換步驟與1同。
3.內(nèi)碼為繁體字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)繁”部分轉(zhuǎn)換。后續(xù)具體轉(zhuǎn)換步驟與1同。
4.內(nèi)碼為繁體字,點(diǎn)取“規(guī)范簡(jiǎn)體”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)簡(jiǎn)”部分轉(zhuǎn)換。后續(xù)具體轉(zhuǎn)換步驟與1同。
例如,簡(jiǎn)化字的“干”對(duì)應(yīng)繁體字的“幹、乾、干”,而繁體字的“乾”又對(duì)應(yīng)簡(jiǎn)化字的“干、乾”。對(duì)照“簡(jiǎn)繁雙向轉(zhuǎn)換詞典示例”“簡(jiǎn)轉(zhuǎn)繁”時(shí),第一步“j干→f幹”,第二步“f幹涉→f干涉,f何幹→f何干……f幹旱→f乾旱,f餅幹→f餅乾”。
“簡(jiǎn)轉(zhuǎn)簡(jiǎn)”時(shí),第一步“j干←j乾”,第二步“j乾坤←j干坤,j乾圖←j干圖……”。
“繁轉(zhuǎn)繁”時(shí),第一步“f干→f幹,f乾→f幹”,第二步“f幹涉→f干涉,f何幹→f何干……f幹旱→f乾旱,f餅幹→f餅乾”。
“繁轉(zhuǎn)簡(jiǎn)”時(shí),第一步“j干←f幹,j干←f乾,j干←f干”,第二步“j乾坤←j干坤,j乾圖←j干圖……”Unicode碼(國際碼,等同國際編碼標(biāo)準(zhǔn)ISO 10646),包括了中日韓(CJK)的全部中文字符。以Unicode碼為中介,可做到中文簡(jiǎn)化字和繁體字共存,并且能對(duì)照顯示于計(jì)算機(jī)屏幕上。
簡(jiǎn)繁雙向轉(zhuǎn)換不僅可用于文件轉(zhuǎn)換,而且可用于國際互聯(lián)網(wǎng)(主機(jī)Sever端或客戶Client端)的動(dòng)態(tài)、靜態(tài)線上和頁面轉(zhuǎn)換,可支援各種瀏覽器和平臺(tái),可簡(jiǎn)繁同屏顯示。
本發(fā)明中所提及的“基本轉(zhuǎn)換詞典”、“用詞、用語轉(zhuǎn)換詞典”、“譯名轉(zhuǎn)換詞典”、“復(fù)雜修正轉(zhuǎn)換詞典”等,不僅涉及到語法意義上的“字”和“詞”,有時(shí)也涉及到“短語”和“句子”。為了方便和名稱統(tǒng)一,都叫作“詞典”。基本轉(zhuǎn)換詞典、用詞、用語轉(zhuǎn)換詞典、譯名轉(zhuǎn)換詞典、復(fù)雜修正轉(zhuǎn)換詞典都是本發(fā)明重要的一部分。由于中文文字的豐富性和復(fù)雜性(如中文姓名和外文的中文譯名在使用中的不確定性),及簡(jiǎn)化字與繁體字使用習(xí)慣的差異(如涉及到本發(fā)明的多種轉(zhuǎn)換詞典之外的字詞)等原因,為了使轉(zhuǎn)換盡量作到完美,本發(fā)明在各種轉(zhuǎn)換詞典的后面都為用戶留有開放式的環(huán)境,方便用戶自行將轉(zhuǎn)換詞典中未包括的詞組或短語加入。用戶還可以根據(jù)需要,將各方面來稿中經(jīng)常會(huì)遇上的特定差錯(cuò),按轉(zhuǎn)換步驟加入以上的各種轉(zhuǎn)換詞典中,使轉(zhuǎn)換過程同時(shí)具有糾正差錯(cuò)和編輯校對(duì)的功能。
以上概略地對(duì)本發(fā)明的中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換作了描述。本技術(shù)領(lǐng)域內(nèi)的熟練人員可以不經(jīng)創(chuàng)造性勞動(dòng)就能對(duì)本發(fā)明作出各種各樣的修改和改進(jìn)。發(fā)明人認(rèn)為這種修改和改進(jìn)都屬于后面的權(quán)利要求書所定義的范圍之內(nèi)。
本發(fā)明可有效應(yīng)用于涉及到中文的各種計(jì)算機(jī)軟件(如操作系統(tǒng)、瀏覽器、文字處理、排版、打字及語音或手寫輸入、光學(xué)OCR識(shí)別、翻譯、造字、校對(duì)等軟件),國際互聯(lián)網(wǎng),平面、多媒體、電子出版品,電子字典等,可支持所有平臺(tái),可用于主機(jī)Sever端或客戶Client端,可用于文件、電子郵件、頁面。龔碼可促使同一中文計(jì)算機(jī)軟件的簡(jiǎn)化字和繁體字兩個(gè)版本合二為一。
中文內(nèi)碼完整規(guī)范轉(zhuǎn)換可有效應(yīng)用于龔碼、國標(biāo)碼、大五碼及其他中文內(nèi)碼之間的簡(jiǎn)轉(zhuǎn)繁、簡(jiǎn)轉(zhuǎn)簡(jiǎn)、繁轉(zhuǎn)簡(jiǎn)、繁轉(zhuǎn)繁等異種內(nèi)碼、同種內(nèi)碼、簡(jiǎn)繁雙向等各類快速轉(zhuǎn)換。亦可應(yīng)用于中文字與中國方言文字、少數(shù)民族語言文字,及與日文、韓文等其他亞洲語言文字之間的轉(zhuǎn)換。
本發(fā)明將向政府、教育、慈善等非商業(yè)性用途的平面(圖書報(bào)刊等)和電子(國際互聯(lián)網(wǎng)等)出版開放。
權(quán)利要求
1.一種中文文字統(tǒng)一方案,其特征在于提供一種科學(xué)的可行性高、易于推廣的方案,在充分尊重現(xiàn)有各種中文單一內(nèi)碼使用規(guī)范和習(xí)慣的基礎(chǔ)上,以現(xiàn)代化的科學(xué)量化的篩選、整合、變通、規(guī)范及創(chuàng)新方法避開各種復(fù)雜爭(zhēng)議,實(shí)現(xiàn)中文文字的字形、字義、字音、用字范圍的全面完整統(tǒng)一;以現(xiàn)階段在中國大陸、香港特區(qū)和中國臺(tái)灣使用最廣泛的國標(biāo)碼、大五碼和香港增補(bǔ)字符集為統(tǒng)一方案基本字符集選字的最大范圍,根據(jù)綜合字詞頻確認(rèn)的不涉及“一對(duì)多”的常用字、次常用字全部收錄;罕用字根據(jù)綜合字詞頻、字詞頻方向平均值、組詞能力、字義、姓氏和人地山河名因素等選擇性收錄;無效字不收錄;現(xiàn)時(shí)尚在使用的姓氏用字、縣以上地名用字、中醫(yī)藥用字、科技專用字(如化學(xué)元素周期表和有機(jī)化學(xué)用字)盡量全部收錄;酌情收錄影響較大、使用較廣的特殊古文(如較出名的文言文、古典小說、詩詞曲)用字和成語用字;酌情收錄見諸于出版品的較常用而有特定字義的香港字;選擇性收錄兒童讀物用字之類在某些特定范圍中較常使用,而綜合字頻、詞頻不高的字;對(duì)于目前使用較廣的幾種中文單一內(nèi)碼(如國標(biāo)碼、大五碼、香港增補(bǔ)字符集等)中的字,若統(tǒng)一方案未收錄,在統(tǒng)一方案的相關(guān)字典和詞典中按照“合理對(duì)應(yīng)字、合理最簡(jiǎn)詞”的方案給出與統(tǒng)一方案的使用對(duì)應(yīng)指引。
2.一種中文文字統(tǒng)一方案,其特征在于每一個(gè)中文字內(nèi)碼都有一個(gè)繁形字和一個(gè)簡(jiǎn)形字(部分字同形),這兩個(gè)字在同一義項(xiàng)下有完全相同的字義和字音(包括聲調(diào));簡(jiǎn)形字相對(duì)于國標(biāo)碼簡(jiǎn)化字,繁形字相對(duì)于大五碼繁體字,都盡量作最少的字形變動(dòng),字義與字音也是在“必要”(如原簡(jiǎn)繁單一內(nèi)碼之間不一致)時(shí)才作“合理”的調(diào)整;每種字體都包括一一對(duì)應(yīng)的簡(jiǎn)形和繁形;對(duì)于簡(jiǎn)繁體字使用區(qū)使用頻度較高而差異較大的標(biāo)點(diǎn)及其他符號(hào),在統(tǒng)一方案中采用可轉(zhuǎn)換形式,并同時(shí)保留不可轉(zhuǎn)換形式;統(tǒng)一方案中各種出版品中的多種中文字體(包括圖符)可以一次同步轉(zhuǎn)換;對(duì)于涉及到中文的各類軟件,只需要出版一種中文版本;將來時(shí)機(jī)成熟簡(jiǎn)繁字形合一時(shí),只需要輕而易舉地轉(zhuǎn)換中文字體的部分不同形的字形,而不存在轉(zhuǎn)換內(nèi)碼、用字范圍、字形、字義、字音、用詞、用語等方面的問題;統(tǒng)一方案基本字符集功能范圍內(nèi)的極少數(shù)的必要補(bǔ)字,通過向基本字符集的備用碼位加字解決,擴(kuò)充字符集功能范圍內(nèi)的則向擴(kuò)充集備用碼位加字。
3.一種中文文字統(tǒng)一方案,其特征在于同一字義(包括同一義項(xiàng)下)有多個(gè)字時(shí),如果一個(gè)字的現(xiàn)時(shí)綜合字頻明顯高于其他字,選擇這個(gè)綜合字頻較高的字;如果這幾個(gè)字的現(xiàn)時(shí)綜合字頻較為接近,選擇字頻方向平均值較高的一個(gè)字;不同字義(或義項(xiàng)下)有多個(gè)字時(shí),如果除了綜合字頻和字頻方向平均值較高的一個(gè)字,其他字雖另有字義,但綜合字頻和字頻方向平均值明顯較低,且組詞能力有限,只收錄前者;不同字義(或義項(xiàng)下)有多個(gè)字時(shí),如果除了綜合字頻和字頻方向平均值較高的一個(gè)字,還有其他字的綜合字頻和字頻方向平均值也較高,組詞能力較強(qiáng),若選用能有助于使字義的表述更明確,便選用該字;如果國標(biāo)碼與大五碼之間的多個(gè)字有復(fù)雜的對(duì)應(yīng)關(guān)系,按“必要合理”的原則進(jìn)行復(fù)雜調(diào)整。
4.一種中文文字統(tǒng)一方案,其特征在于統(tǒng)一方案的繁形字盡量照顧繁體字使用區(qū)的字形使用習(xí)慣,簡(jiǎn)形字盡量照顧簡(jiǎn)化字使用區(qū)的字形使用習(xí)慣;對(duì)于筆劃不多的簡(jiǎn)形字直接錄入;對(duì)于筆劃較多的字,按簡(jiǎn)化字規(guī)則類推簡(jiǎn)化后錄入為簡(jiǎn)形字;對(duì)于少數(shù)由于原國標(biāo)碼與大五碼“不同字義”一對(duì)多,而不得不增加或調(diào)整字義的少數(shù)簡(jiǎn)形字,若因筆劃多而與其他簡(jiǎn)形字不協(xié)調(diào),按“兼顧相關(guān)字形,新字的字音、字義易理解,無歧義”的原則將其調(diào)整為“合理字形”。
5.一種中文文字統(tǒng)一方案,其特征在于對(duì)于有爭(zhēng)議或矛盾的字義條,采用“客觀對(duì)待、避免爭(zhēng)議”的方法處理;統(tǒng)一方案的每一個(gè)中文字都有獨(dú)特的字義,當(dāng)一個(gè)字具有某種字義,其統(tǒng)一方案中的相關(guān)字(在原國標(biāo)碼或大五碼中相關(guān))即不再具有該義項(xiàng),即“字義不作重復(fù)授權(quán)”;統(tǒng)一方案收錄的字與字之間,不存在某字詞或某字詞的某義項(xiàng)“通”另一字詞,或“亦作”另一字詞的現(xiàn)象;對(duì)于某些字在簡(jiǎn)化字和繁體字中讀音的差異,采用字音使用頻度較高者;統(tǒng)一方案使用綜合詞頻和詞頻方向值較高且讓絕大多數(shù)的中文文字使用者能夠理解的用詞、用語,用詞、用語將通過統(tǒng)一方案相關(guān)詞典作系統(tǒng)性的規(guī)范解釋。
6.一種中文文字統(tǒng)一方案,其特征在于對(duì)于統(tǒng)一方案沒有收錄的其他幾種中文單一內(nèi)碼(國標(biāo)碼、大五碼等)的用字,在統(tǒng)一方案字典中給出“合理對(duì)應(yīng)字”的指引并釋義,合理對(duì)應(yīng)字須符合“字義、字音、字形等關(guān)聯(lián)性最強(qiáng)、最合理、無歧義”的原則;當(dāng)統(tǒng)一方案的收錄字中沒有“合理對(duì)應(yīng)字”時(shí),用“合理最簡(jiǎn)詞”的辦法處理,合理最簡(jiǎn)詞應(yīng)符合“最少用字、通俗易懂、嚴(yán)謹(jǐn)合理、無歧義”的原則;對(duì)于統(tǒng)一方案未收錄的名稱用字,按其他習(xí)慣名稱;無其他習(xí)慣名稱者采用“義音形最接近字+特征尾字”的方法解決,特征尾字可為“花草樹木鳥蟲魚石”等;統(tǒng)一方案基本字符集(用字范圍、字形)與相關(guān)字典、詞典的拼注音、釋義(字音、字詞語義)配合,構(gòu)成一個(gè)統(tǒng)一、完整、科學(xué)、規(guī)范、穩(wěn)定的中文文字體系,讓中文字使用者能輕易達(dá)至嚴(yán)謹(jǐn)?shù)闹形奈淖忠?guī)范。
7.一種中文文字內(nèi)碼完整規(guī)范化智能轉(zhuǎn)換方法,其特征在于當(dāng)進(jìn)行不同中文內(nèi)碼間的文字轉(zhuǎn)換時(shí),如來源碼的一個(gè)字對(duì)應(yīng)目的碼中“同一字義”的多個(gè)字時(shí),轉(zhuǎn)換為現(xiàn)時(shí)綜合字頻較高的一個(gè)“被選字”,其他字為“落選字”;如來源碼的一個(gè)字對(duì)應(yīng)目的碼中“不同字義”的多個(gè)字時(shí),首先將其轉(zhuǎn)換為根據(jù)現(xiàn)時(shí)字頻挑選的一個(gè)“主被選字”,然后在目的碼的環(huán)境中,利用詞的搭配轉(zhuǎn)換為“不同字義”的其他“次被選字”;當(dāng)來源碼的字在目的碼中無“字”可以對(duì)應(yīng)時(shí),轉(zhuǎn)為“合理對(duì)應(yīng)字”或“合理最簡(jiǎn)詞”;如果來源碼的“詞”對(duì)應(yīng)目的碼的“字”,用先“字轉(zhuǎn)字”、后“詞轉(zhuǎn)字”的方法解決;在進(jìn)行異種內(nèi)碼轉(zhuǎn)換時(shí),第一步,將來源碼的每一個(gè)“字”和圖符,按照“基本轉(zhuǎn)換詞典”的指引,全部轉(zhuǎn)換為目的碼的字、詞和圖符,可轉(zhuǎn)字的(包括“合理對(duì)應(yīng)字”)轉(zhuǎn)為目的碼的“字”,不能轉(zhuǎn)字的轉(zhuǎn)為目的碼的“詞”;第二步,在目的碼的環(huán)境中,依照“基本轉(zhuǎn)換詞典”進(jìn)行“詞轉(zhuǎn)詞”的自動(dòng)搜索替換,以此將不同字義的“一對(duì)多”可轉(zhuǎn)字,由來源碼的一個(gè)字,正確轉(zhuǎn)換為目的碼中的多個(gè)字;若來源碼的“詞”對(duì)應(yīng)目的碼的“字”,在這一步中“詞轉(zhuǎn)字”;第三步,選擇合適的“用詞、用語轉(zhuǎn)換詞典”和“譯名轉(zhuǎn)換詞典”,將用詞、用語和譯名轉(zhuǎn)換為文字使用者所需要的形式;第四步,按照“復(fù)雜修正轉(zhuǎn)換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進(jìn)行最后修正;由以上方法和步驟得到的轉(zhuǎn)換結(jié)果與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格映射。
8.一種中文文字內(nèi)碼完整規(guī)范化智能轉(zhuǎn)換方法,其特征在于當(dāng)進(jìn)行同種中文內(nèi)碼間的文字轉(zhuǎn)換時(shí),對(duì)于同一字義的“一對(duì)多”可轉(zhuǎn)字,將“落選字”轉(zhuǎn)為“被選字”;對(duì)于不同字義的“一對(duì)多”可轉(zhuǎn)字,先全部轉(zhuǎn)為“主被選字”,再根據(jù)詞的搭配轉(zhuǎn)為不同字義的“一對(duì)多”其他“次被選字”;在進(jìn)行同種內(nèi)碼轉(zhuǎn)換時(shí),第一步,根據(jù)“基本轉(zhuǎn)換詞典”的指引,在同種內(nèi)碼環(huán)境中,將來源文本中的“有必要轉(zhuǎn)換的字”從一個(gè)字轉(zhuǎn)換為另一個(gè)字或一個(gè)詞;第二步,依照“基本轉(zhuǎn)換詞典”進(jìn)行“詞轉(zhuǎn)詞”的自動(dòng)搜索替換;若來源碼的“詞”對(duì)應(yīng)目的碼的“字”,在這一步中“詞轉(zhuǎn)字”;第三步,將用詞、用語和譯名轉(zhuǎn)換為文字使用者所需要的形式;第四步,按照“復(fù)雜修正轉(zhuǎn)換詞典”的指引,將前幾步?jīng)]解決的極少數(shù)問題進(jìn)行最后修正;轉(zhuǎn)換結(jié)果與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格映射。
9.一種中文文字內(nèi)碼完整規(guī)范化智能轉(zhuǎn)換方法,其特征在于當(dāng)進(jìn)行簡(jiǎn)繁雙向異種內(nèi)碼和同種內(nèi)碼間的文字轉(zhuǎn)換時(shí),包括簡(jiǎn)轉(zhuǎn)繁、繁轉(zhuǎn)繁、繁轉(zhuǎn)簡(jiǎn)、簡(jiǎn)轉(zhuǎn)簡(jiǎn)等四種形勢(shì)的轉(zhuǎn)換;在實(shí)際應(yīng)用中,為了方便可將“轉(zhuǎn)換指令”標(biāo)示為兩種,如標(biāo)示為“規(guī)范繁體”(包括簡(jiǎn)轉(zhuǎn)繁和繁轉(zhuǎn)繁)和“規(guī)范簡(jiǎn)體”(包括繁轉(zhuǎn)簡(jiǎn)和簡(jiǎn)轉(zhuǎn)簡(jiǎn)),或標(biāo)示為“簡(jiǎn)轉(zhuǎn)繁”(實(shí)際包括繁轉(zhuǎn)繁)和“繁轉(zhuǎn)簡(jiǎn)”(實(shí)際包括簡(jiǎn)轉(zhuǎn)簡(jiǎn));以Unicode碼為中介,可做到中文簡(jiǎn)化字和繁體字共存,并且能對(duì)照顯示于計(jì)算機(jī)屏幕上;在進(jìn)行簡(jiǎn)繁雙向轉(zhuǎn)換時(shí),首先根據(jù)簡(jiǎn)化字與繁體字所不同的編碼位置(碼位)自動(dòng)識(shí)別出中文字所處的內(nèi)碼狀態(tài);然后根據(jù)“轉(zhuǎn)換指令”要求確認(rèn)轉(zhuǎn)換方向,選擇雙向轉(zhuǎn)換詞典中的對(duì)應(yīng)部分(1)內(nèi)碼為簡(jiǎn)化字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡(jiǎn)轉(zhuǎn)繁”部分,先轉(zhuǎn)“來源字”,后轉(zhuǎn)“來源詞”;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜搜尋校正,轉(zhuǎn)換完畢;(2)內(nèi)碼為簡(jiǎn)化字,點(diǎn)取“規(guī)范簡(jiǎn)體”指令,選取雙向基本轉(zhuǎn)換詞典中的“簡(jiǎn)轉(zhuǎn)簡(jiǎn)”部分轉(zhuǎn)換;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜修正;(3)內(nèi)碼為繁體字,點(diǎn)取“規(guī)范繁體”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)繁”部分轉(zhuǎn)換;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜搜尋校正;(4)內(nèi)碼為繁體字,點(diǎn)取“規(guī)范簡(jiǎn)體”指令,選取雙向基本轉(zhuǎn)換詞典中的“繁轉(zhuǎn)簡(jiǎn)”部分轉(zhuǎn)換;接著轉(zhuǎn)用詞、用語、譯名,最后復(fù)雜搜尋校正;轉(zhuǎn)換結(jié)果與目的單一內(nèi)碼的文字規(guī)范、文字使用習(xí)慣和用字范圍嚴(yán)格映射。
10.如申請(qǐng)專利范圍第7、8或9項(xiàng)所述的中文文字內(nèi)碼完整規(guī)范化智能轉(zhuǎn)換方法,其中對(duì)應(yīng)多種中文內(nèi)碼環(huán)境、多種轉(zhuǎn)換方式的基本轉(zhuǎn)換詞典、用詞用語轉(zhuǎn)換詞典、譯名轉(zhuǎn)換詞典和復(fù)雜修正轉(zhuǎn)換詞典中,預(yù)設(shè)有不同內(nèi)碼間相對(duì)應(yīng)的字的對(duì)照及詞、短語和句子的對(duì)照;其中基本轉(zhuǎn)換詞典中每個(gè)單字條目的第一行(緊接◎后),表示“來源字”轉(zhuǎn)為“目的字”或“目的詞”;有些單字條目下沒有詞組(只有第一行),表示不需要進(jìn)行該字條下的“來源詞”轉(zhuǎn)換;單字條目下如有詞組(從第二行開始),表示在同一內(nèi)碼環(huán)境中“來源詞”轉(zhuǎn)“目的詞”,或“來源詞”轉(zhuǎn)“目的字”;其中多種轉(zhuǎn)換詞典中的字的對(duì)照及詞、短語和句子的對(duì)照可以隨時(shí)增刪。
全文摘要
本發(fā)明為一種中文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換。用現(xiàn)代化的科學(xué)量化的方法從綜合字詞頻、字詞頻方向平均值等方面進(jìn)行篩選、整合、規(guī)范,內(nèi)碼同時(shí)兼顧簡(jiǎn)繁字形,實(shí)現(xiàn)用字范圍、字形、字義、字音等方面的全面完整統(tǒng)一。通過合理最簡(jiǎn)字詞等方法及來源字詞轉(zhuǎn)目的字詞、轉(zhuǎn)用語譯名、復(fù)雜修正等步驟得到完整規(guī)范化的單多向轉(zhuǎn)換結(jié)果。本發(fā)明可有效應(yīng)用于各種涉及到中文的計(jì)算機(jī)軟件與平面、電子、多媒體出版品,可支援所有平臺(tái),可促使中文軟件簡(jiǎn)繁版本合一。
文檔編號(hào)G06F3/023GK1363876SQ0210290
公開日2002年8月14日 申請(qǐng)日期2002年1月26日 優(yōu)先權(quán)日2002年1月26日
發(fā)明者龔學(xué)勝 申請(qǐng)人:龔學(xué)勝
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
开原市| 张掖市| 论坛| 额敏县| 晋州市| 海淀区| 马尔康县| 延津县| 三穗县| 台中市| 梁山县| 青州市| 桓仁| 云霄县| 兰坪| 莒南县| 丹寨县| 丹江口市| 团风县| 饶河县| 阿拉善盟| 游戏| 曲周县| 福建省| 通渭县| 通河县| 通海县| 七台河市| 大关县| 贵阳市| 黔西| 聂拉木县| 盖州市| 高邮市| 梧州市| 彭州市| 渑池县| 通河县| 正镶白旗| 文山县| 葵青区|