專利名稱:智能漢語文化辭典系統(tǒng)的制作方法
技術領域:
本發(fā)明屬于信息處理領域。系統(tǒng)建立了網(wǎng)狀學習架構,重新組合文化辭典,對知識型熟語料交叉檢索,提取信息資料,將漢字的輸入和學習融為一體,本發(fā)明可應用于微機、PDA、筆記本、平板電腦、網(wǎng)絡通訊等領域,并以單機產(chǎn)品、網(wǎng)絡產(chǎn)品、數(shù)字圖書館、教育網(wǎng)觀、印刷制品、音像制品等形式出現(xiàn)。
二.
背景技術:
計算機技術的發(fā)展,對漢語文化的傳播產(chǎn)生了深遠影響。傳統(tǒng)詞典的電子解決方案發(fā)揮了計算機存貯和檢索上的優(yōu)勢,如光盤版《現(xiàn)代漢語大詞典》、OEM版《金山詞霸》和各種各樣的PDA電子辭典,但依舊為書的電子表現(xiàn)形式。以上辭典在學習功能上的共通之處是通過輸入文本查詢或列表分項的選擇來對應相關內(nèi)容,包括詞語的釋義注解。屬于一種單向的知識傳輸過程。
數(shù)字圖書館將各式各樣的圖書通過網(wǎng)絡呈現(xiàn)在人們面前,e-book電子圖書成為人們下載閱讀的時尚方式。齊全方便迅捷是其優(yōu)勢,海量搜索和下載容量過大制約著人們的使用,內(nèi)容的多樣浩瀚使得加強學習者的橫向知識聯(lián)系尤為重要。
網(wǎng)絡教育和多媒體課件是以課堂教育為核心,通過現(xiàn)代技術手段,如校園網(wǎng),整合利用多種信息資源,是同步的知識傳授行為。
三.
發(fā)明內(nèi)容
1.解決問題打破“書”的觀念,對文化典籍工具書進行方案重整,使信息達到全方位貫通。通過知識點的聯(lián)系,變被動式學習為引導式學習,以博學旁引作為網(wǎng)狀的“目”,以知識架構作為網(wǎng)狀的“綱”,綱舉目張。本發(fā)明非局限于一次性知識學習,意在把整合資源。屏幕所有文本均可作為熱點,在系統(tǒng)的結構網(wǎng)系下,進行相關知識鏈接。如通過點字可進一步了解該字的拼音古韻、繁異簡體、筆畫書寫、文字起源、釋義組詞、同反近義詞林、關聯(lián)短語、成語典故、名句諺語、對聯(lián)字迷、歇后語等內(nèi)容。通過多種查詢組合模式,如編碼方案、文本輸入,分類篩選,來搜尋定位所需資料。等級、頻度的設定使字詞句篇的學習程度因人因需而異,共享數(shù)據(jù)資源,壓縮存貯空間。
本發(fā)明以傳播傳統(tǒng)文化知識和普及教育為主,可涉及文學辭典,經(jīng)史子集,蒙學讀物,戲曲字畫、園林建筑、醫(yī)藥烹飪、武術民俗等文化資源,以及各種名句短語詞匯詞典、多功能字典等,提供分類搭配、分級排序和義項選擇等多向手段,實現(xiàn)交叉閱讀。知識鏈條環(huán)環(huán)相扣,由此及彼。多重分類分級機制使得漢語網(wǎng)絡的傳統(tǒng)文化主題內(nèi)容實現(xiàn)定期自動更替。
素質教育體現(xiàn)以人為本的宗旨。本發(fā)明給老師和學生提供了平等的輔助工具,具有分級多序、詞匯搭配機制,自主的等級設定和屏蔽設定,為不同地區(qū)、不同層次的使用者掌握語匯提供與之相應的語境,針對教學實踐,可增添刪減篇章語匯數(shù)據(jù),是自主的交流學習途徑。
2.技術方案智能漢語文化辭典系統(tǒng)把多重信息特征的單一漢字作為數(shù)據(jù)基核,在此基礎上搭建層層以“位”為壓縮單位的自組開放式結構數(shù)據(jù)庫,并附以編碼技術、排版技術、壓縮技術、圖形圖像技術和系統(tǒng)集成技術,以系統(tǒng)開發(fā)的觀念進行的應用軟件模型設計。
本系統(tǒng)采用了開放式數(shù)據(jù)結構,分級詞語庫的劃分提高了二字詞、三字詞、多字詞的壓縮比,索引表和算法的結合使海量語句的定位迅速,強大的多向標注使得標點符號、切詞注釋、活頁排版等方面準確實用。在此技術的支持下,語音識別和語音合成技術也大有用武之地。通過系統(tǒng)的不斷完善,推動數(shù)據(jù)結構的標準化,為實現(xiàn)傳統(tǒng)文化的數(shù)據(jù)資源共享而奠定基礎。
系統(tǒng)的所有文字存貯都是建立在抽象層漢字音義庫和詞語壓縮切分庫基礎上,而非文檔結構式的漢字內(nèi)碼。從存貯結構設計上講,可實現(xiàn)漢字的無限擴容。系統(tǒng)移植和升級擴容時,數(shù)據(jù)庫無須修改,凸顯數(shù)據(jù)壓縮共享優(yōu)勢。
辭典系統(tǒng)派生的學習碼輸入法由字詞輸入庫、漢字信息庫、詞語注釋庫、分類詞句庫和輔助資源庫五部分模塊組成,有別與其他輸入法僅有字詞輸入庫的單一體系。
字詞輸入庫實現(xiàn)基本的漢字輸入,以拼音為主完成思維聯(lián)貫的文字輸入,同時兼有單字字形規(guī)范筆畫方式和誤識漢字的辯別候選方式,為難認和錯認漢字提供方便輸入。漢字信息庫提供漢字部首筆畫、讀音字形、詞語搭配信息。詞語注釋庫除語文性義項條目外,還納入常用的百科條目。分類詞句庫以景、物、人、事、理、情為主干,細化詞語分類內(nèi)容。輔助資源庫可根據(jù)需要選擇掛接,為上網(wǎng)族提供豐富在線語匯符號資源。
四.
系統(tǒng)的操作流程圖參考說明書附圖一;現(xiàn)代漢語詞典的操作流程圖參考說明書附圖二;系統(tǒng)的技術結構框架參考說明書附圖三。
五.
具體實施例方式
目前系統(tǒng)開發(fā)平臺基于Windows操作系統(tǒng)下的Visual C++,可推而廣之各種操作系統(tǒng),如Linux、WinCE和各種局域網(wǎng)中,漢字內(nèi)碼采用GBK字符集和Unicode碼兩套方案,也可應用于各種漢字碼系。
1.存貯示例在基本的音義字庫之上有壓縮詞庫和切分詞庫,變原有漢字的雙字節(jié)或四字節(jié)內(nèi)碼模式存貯,為單字雙字節(jié)、雙字雙字節(jié)、三字雙字節(jié)、多字雙字節(jié)、單字四字節(jié)等多種形式抽象音義碼和壓縮詞碼模式存貯,在結構上使?jié)h字的壓縮存貯和中外文字的擴容共融一體。壓縮數(shù)據(jù)文件格式,與基本音義字庫、壓縮切分詞庫的嵌入結合,使得文本的存貯帶有關聯(lián)、注釋、查詢、繁簡、排版、書寫、壓縮等全方位信息。
唐代詩人張籍的七絕《秋思》對應的句式單位壓縮格式如下
字詞存貯和對應碼為(洛陽) (城里) 見 (秋風)26155 30704 58 26611(欲作) (家書) 意 (萬重)41196 26053 162 40744復 恐 (匆匆) 說 (不盡)176 263 28231 2880 30706(行人) 臨 發(fā) 又 (開封)26172 259 332 298 30707標點位和標點符號為4*16+3,4*16+5,5*16+3,5*16+5,即第一句漢字字詞存貯占四字節(jié),標點符號為“,”,第二句漢字字詞存貯占四字節(jié),標點符號為“?!?,以此類推。
其組詞屏蔽為個數(shù)為2個,屏蔽類別為全屏蔽,切分詞庫屏蔽碼為32265和30707,對應的詞組為“作家”和“開封”。
詞語解釋部分詞語解釋數(shù)1個,定位為第二句第三壓縮字詞,長度為2壓縮字詞,即“意(萬重)”,注釋長度為12字節(jié)。標點位和標點符號為2*16+0(含“的”字),2*16+5,0*16+0,0*16+0,注釋字詞存貯和對應碼為要(表達)(意思)(很多)112 27343 29672 33210整個詩句字詞存貯占18*2字節(jié),標點標注占4字節(jié),組詞屏蔽占1+2*2字節(jié),詞語解釋占1+2+12字節(jié),共計60字節(jié)。
2.編碼查詢示例通過音、韻、形、義和通配符及各類條件的編碼組合,完成詞句的任意搜索,實現(xiàn)所需的信息定位,同時具有自主限定范圍的統(tǒng)計功能。
上下句定位查詢路漫漫其修遠兮可按縮拼lmmqxyx或全拼方式lumanmanqixiuyuanxi;詞組查詢檢測所有含“春風”的詩句*chunfeng*音韻查詢檢測首漢字為陰平chun或陰平qiu的二級以下詩句chunl|qiul*2檢測韻母為ou的二級詩句*(ou)20檢測中華新韻韻腳為陽平“痕”韻或陽平“庚”韻的詩句*(215|217)檢測“平仄平仄仄仄平”的詩句(!@!@@@!)
檢測十三轍韻腳為陰平“懷來”韻一二字為“明月”的詩句mingyue*(226)檢測佩文詩韻韻腳為上平“寒”的詩句*<114>
檢測詞林正韻韻腳為上聲三部的詞句*[303]檢測中州曲韻韻腳為平聲“桓歡”的曲句*{109}字形限定語句查詢檢測3,4字含草字頭的詩句??609609*檢測漢字為左右結構的五言詩句+00+00+00+00+00檢測末三個漢字一二筆為橫豎筆畫的七言詩句*121212=7檢測首漢字五筆畫為“橫豎撇捺捺”筆畫數(shù)為八畫的詩句,如“林”、“楓”12344&08*音形限定詞匯查詢檢測第一字部首為“扌”縮拼為yh的二字詞yh/syh/ss子集限定語句查詢檢測歐陽修的詞牌為蝶戀花的古詞dlh\poyx檢測唐詩七絕*\s04檢測李白友情詩*\p606n20檢測女性作者詩*\p000前后交叉查詢檢測唐宋八大家人物(別稱態(tài))tsbdj檢測白居易的別稱(別稱態(tài))-bjy檢測歇后語前半段“小蔥拌豆腐”
xcbdf檢測歇后語后半段“一清二白”-yqeb3.學習碼輸入法示例除普通拼音式輸入,學習碼輸入法還有信息態(tài)、注釋態(tài)、分類態(tài)。
①信息態(tài)為“I”模式,加單字對應編碼,提供漢字的部首、筆畫、讀音、義項、詞語搭配、造句事例信息。
“阿”的信息態(tài)編碼為iaa,檢測結果如下阿〖左阝部,七筆〗a1<吳語>前綴?!蛴迷谂判小⑿∶蛐盏那懊?,有親呢的意味?!⒋髚阿寶◎用在某些親屬名稱的前面?!⑵舼阿哥◎用在動詞或形容詞前面,作疑問語氣助詞?!⑷??|阿認得?a嘆詞。同“啊”a,今一般寫作啊。◇參IABE。
②注釋態(tài)為“U”模式,加字音編碼,既可針對單字多音,又可針對多字詞語,前者對應“I”模式編碼,后者除語文性義項條目外,還納入常用的百科條目,并提供對應分類態(tài)“V”模式編碼。
音節(jié)為a的檢測結果如下ua阿◇參IAA啊◇參IAB呵◇參IAC吖◇參IAD錒◇參IAE腌◇參IAF嗄◇參IAG音節(jié)為abl的檢測結果如下uabl阿波羅A1-Bo1-Luo2◎希臘神話中的太陽神。主神宙斯之子。與阿耳忒彌斯為孿生兄妹。主管光明、青春、醫(yī)藥、畜牧、音樂、詩歌。并代表宙斯宣告神旨?!髤DIAF“UI”模式,加單字筆序。橫1、豎2、撇3、捺4,折5。
“姑”檢測結果如下ui53112251姑◇參IGUA③分類態(tài)為“V”模式,加分類編碼,類別為A宇宙地球、B生字物、C人體、D人類社會、E吃食住行、F情感行為、G農(nóng)業(yè)、H工業(yè)科技醫(yī)藥、J交通運輸、K經(jīng)貿(mào)商職、L政治法律、M軍事、N歷史地理、O文化藝術、P哲學教育、Q宗教信仰傳說、R物質物體、S事情狀況、T計量、U其他,每一大項擁有不同數(shù)目的子項,子項列有關聯(lián)詞語或名句。
愛情分類檢測結果如下VDF◆愛情/初戀◆A初戀|愛慕|動情|懷春|思春|相好|求偶|求愛|示愛|相思|單相思|青梅竹馬|兩小無猜|情竇初開|一相情愿◆愛情/幽會◆B幽會|幽期|約會靜女其姝,俟我于城隅;愛而不見,搔首躑躕。《詩經(jīng)⊙靜女》旦為朝云,暮為行雨,朝朝暮暮,陽臺之下。戰(zhàn)國⊙宋玉《高唐賦序》……◆愛情/親熱◆C擁抱|依偎|依戀|接吻|親吻|親嘴|投懷入抱|卿卿我我嬌癡不怕人猜,和衣睡倒人懷。宋⊙朱淑珍《清平樂》◆愛情/情人◆D情人|戀人|情侶|愛人|對象|朋友|情郎|意中人情人眼里出西施|王八瞅綠豆——對上眼了。
◆愛情/愛戀◆E戀愛|愛戀|熱戀|心愛|真愛|恩愛|鐘情|多情|癡情|纏綿|繾綣|綢繆情不自禁|情投意合|情意綿綿|一往情深|情真意切|情深義篤|脈脈含情|溫情脈脈|眉目傳情|暗送秋波|眉成心許|目挑心招|形影不離|如影隨形|柔情蜜意|蜜里調油|纏綿悱惻|卿卿我我|如膠似漆|似漆投膠|郎才女貌|才子佳人……窈窕淑女,君子好逑?!对娊?jīng)⊙關雎》得成比目何辭死,愿作鴛鴦不羨仙。唐⊙盧照鄰《長安古意》東邊日出西邊雨,道是無情卻有情。唐⊙劉禹錫《竹枝詞二首》在天愿作比翼鳥,在地愿為連理枝。唐⊙自居易《長狠歌》身無彩鳳雙飛翼,心有靈犀一點通。唐⊙李商隱《無題》……◆愛情/離別◆F依依不舍|依依惜別|戀戀不舍|難舍難分|生離死別死生契闊,與子成說,執(zhí)子之手,與子偕老?!对娊?jīng)⊙擊鼓》行行重行行,與君生別離。漢⊙無名氏《古詩十九首⊙行行重行行》相見時難別亦難,東風無力百花殘。唐⊙李商隱《無題》多情自古傷離別,更那堪、冷落清秋節(jié)。宋⊙柳永《雨霖鈴》柔情似水,佳期如夢,忍顧鵲橋歸路。宋⊙秦觀《鵲橋仙》……◆愛情/相思◆G相思|思念|牽掛|相思病朝思暮想|輾轉思念|望穿秋水|望眼欲穿|度日如年|一日三秋|夜不能寐|牽腸掛肚|觸景傷情|睹物思人|紅豆相思悠哉悠哉,輾轉反側?!对娊?jīng)⊙關雎》未見君子,惄如調饑?!对娊?jīng)⊙汝墳》所謂伊人,在水一方。《詩經(jīng)⊙蒹葭》思君如滿月,夜夜減清輝。唐⊙張九齡《賦得自君之出矣》相思無日夜,浩蕩若流波。唐⊙李白《寄遠十二首》其六相恨不如潮有信,相思始覺海非深。唐⊙白居易《浪淘沙》……◆愛情/薄情◆H薄情|薄幸|無情|負心|薄情郎|負心漢喜新厭舊|見異思遷|移情別戀|薄情寡義|戀新忘舊|憐新棄舊|嫌貧愛富|蕭郎陌路|一刀兩斷總而言之,智能漢語文化辭典系統(tǒng)的優(yōu)點是為學習者鋪“路”搭“橋”,變客觀被動式學習為主觀引導式學習。本發(fā)明可推廣應用于世界上各種圖形文字語系或拼音文字語系的文化辭典整合。
權利要求
1.一種文化典籍的引導式學習解決方案,其特征是字、詞、句、篇的多元知識點網(wǎng)狀輻射體系,各種文化典籍的交叉鏈接,具有獨特編碼手段的多樣組合查詢,因人因需而異的學習等級設定、屏幕全文本熱點的實現(xiàn)機制,系統(tǒng)使用開放的數(shù)據(jù)結構,形成全方位的知識關聯(lián),構成智能漢語文化辭典系統(tǒng)的要素是基本音義字庫、壓縮切分詞庫、壓縮數(shù)據(jù)文件格式和編碼查詢方式。
2.一種從智能漢語文化辭典系統(tǒng)編碼查詢方式派生的漢字輸入法的解決方案,其特征是由字詞輸入庫、漢字信息庫、詞語注釋庫和分類詞句庫四部分模塊組成中華學習碼系統(tǒng),區(qū)別于其他輸入法只有單一的字詞輸入庫模塊,字詞輸入庫實現(xiàn)基本的漢字輸入,以拼音為主完成文字輸入,兼有單字字形規(guī)范筆畫方式,誤識漢字的辯別候選方式,對難認和錯認漢字可借用漢字輸入;漢字信息庫提供漢字部首筆畫、讀音字音、詞語搭配信息;詞語注釋庫除語文性義項條目外,納入常用的百科條目;分類詞句庫以景、物、人、事、理、情為主干,細化詞語分類內(nèi)容。
3.根據(jù)權利要求1所述的文化典籍引導式學習解決方案,其特征是在標準的機內(nèi)國標碼、BIG5碼、GBK碼和UNICODE碼基礎之上抽象一層基本的音義字庫,含有漢字的繁異簡、音韻形義信息,對封閉語料做到確定漢字形音義特征的唯一性,區(qū)別于通常對開放語料確定漢字所使用的基于自然語言理解的統(tǒng)計概率最大似然性方法,雙字節(jié)容納65536個編碼,音義字庫的漢字抽象碼序采用雙字節(jié)碼位1-26000,為單字信息,其中25900為換行信息,25901-25999為單字節(jié)字母信息,26000為超字信息,即當漢字抽象碼為26000時,隨后兩字節(jié)為追加中外圖形文字信息,大于26000為多字詞信息,音義字庫是以“bit位”為計量單位的標準記錄數(shù)據(jù)結構,其中JJNM整數(shù)型 為簡體機內(nèi)碼;FJNM整數(shù)型 為繁異體機內(nèi)碼;PY1單字節(jié) PY1\PY2\PY3共同決定注音1注音2的狀態(tài)特征,含音節(jié)音調、常讀、PY2單字節(jié) 又讀、舊讀、舊又讀、方言等信息,當某一漢字讀音超過兩個以上或PY3單字節(jié) 異形漢字超過兩個以上時,追加一記錄存其信息,并在BZW加權;V1單字節(jié)為對應注音1的發(fā)音文件序號;V2單字節(jié)為對應注音2的發(fā)音文件序號;HZJG單字節(jié) 為簡繁異體的漢字結構信息,如獨體字、左右、上下、合體字等;JBH單字節(jié) 為簡體字的筆畫數(shù);FBH單字節(jié) 為繁異體字的筆畫數(shù);JHZDZ四字節(jié) 為簡體字的筆順寫字地址;FHZDZ四字節(jié) 為繁異體字的筆順寫字地址;JWBH單字節(jié) 為簡體字的五筆畫碼序,橫1豎2撇3捺4折5;FWBH單字節(jié) 為繁異體字的五筆畫碼序,橫1豎2撇3捺4折5;JPP1單字節(jié) 為簡體字偏旁1索引序號;JPP2單字節(jié) 為簡體字偏旁2索引序號;JPP3單字節(jié) 為簡體字偏旁1對應音序索引號;JPP4單字節(jié) 為簡體字偏旁2對應音序索引號;FPP1單字節(jié) 為繁異體字偏旁1索引序號;FPP2單字節(jié) 為繁異體字偏旁2索引序號;FPP3單字節(jié) 為繁異體字偏旁1對應音序索引號;FPP4單字節(jié) 為繁異體字偏旁2對應音序索引號;ZY1單字節(jié) 為漢字音韻信息,即單字對應的韻母;ZY2雙字節(jié) 為對應的中華新韻信息;ZY3雙字節(jié) 為對應的十三轍信息;ZY4雙字節(jié) 為對應的佩文詩韻信息;ZY5雙字節(jié) 為對應的詞林正韻信息;ZY6雙字節(jié) 為對應的中洲曲韻信息;ZY7雙字節(jié) 為對應的古韻信息;BZW單字節(jié) 為漢字標志位,有下一漢字為本記錄的追加漢字標志,有字源標志,字跡標志,組詞標志,搭配標志等;ZYDZ四字節(jié) 對應漢字起源模塊地址;ZJDZ四字節(jié) 對應漢字字帖模塊地址;ZCDZ四字節(jié) 對應漢字組詞模塊地址;DPDZ四字節(jié) 對應漢字搭配模塊地址;以上結構長度為56字節(jié),每一記錄對應一漢字信息,針對文化典籍熟語料特性,通過排版壓縮技術實現(xiàn)屏幕全文本熱點,作為延伸知識點的前提條件,系統(tǒng)的所有文字存貯都是建立在抽象層漢字音義庫和詞語壓縮庫基礎上,而非文檔結構式的漢字內(nèi)碼,系統(tǒng)移植時,根據(jù)音義字庫對照表,即機內(nèi)碼的對應關系,更替原始音義字庫,其他的數(shù)據(jù)文件無須修改,數(shù)據(jù)文件的壓縮共享直接服務于系統(tǒng)版本的升級和擴容。
4.根據(jù)權利要求1或權利要求3所述的文化典籍引導式學習解決方案,其特征是在基本的音義字庫之上有壓縮詞庫和切分詞庫,漢字變原有的雙字節(jié)或四字節(jié)內(nèi)碼模式存貯,為單字雙字節(jié)、雙字雙字節(jié)、三字雙字節(jié)、多字雙字節(jié)、單字四字節(jié)等多種形式抽象音義碼和壓縮詞碼模式存貯,在結構上使?jié)h字的壓縮存貯和中外文字的擴容共融一體,壓縮詞庫的尋址空間是26001-65536,其中26001-42000為二字詞壓縮,42001-52000為三字詞壓縮,52001-60000為四字詞壓縮,60001-65536為多字詞壓縮,二字詞壓縮庫,每一詞占用6字節(jié),分別為第一字的音義字碼、音節(jié)聲調,第二字的音義字碼、音節(jié)聲調,26001-36000為常用二字詞索引,36001-42000為古漢語和科技用語二字詞共用尋址空間,可根據(jù)壓縮數(shù)據(jù)文件中詞語義項標志來區(qū)分二者,三字詞壓縮庫,每一詞占用9字節(jié),分別為第一字的音義字碼、音節(jié)聲調,第二字的音義字碼、音節(jié)聲調,第三字的音義字碼、音節(jié)聲調,42001-48000為常用三字詞索引,48001-52000為古漢語和科技用語三字詞共用尋址空間,四字詞壓縮庫,每一詞占用12字節(jié),分別為第一字的音義字碼、音節(jié)聲調,第二字的音義字碼、音節(jié)聲調,第三字的音義字碼、音節(jié)聲調,第四字的音義字碼、音節(jié)聲調,52001-57000為常用四字詞索引,57001-60000為古漢語和科技用語四字詞共用尋址空間,多字詞壓縮庫,每一詞占用字節(jié)根據(jù)庫前綴地址位的差值確定,每一多字詞對應的前綴地址長度為三字節(jié),在庫前綴地址表后為多字詞信息,分別為第一字的音義字碼、音節(jié)聲調,第二字的音義字碼、音節(jié)聲調,第三字的音義字碼、音節(jié)聲調,......最末字的音義字碼、音節(jié)聲調,60001-63000為常用多字詞索引,63001-65536為古漢語和科技用語多字詞共用尋址空間,基本的音義字庫和壓縮詞庫結合,組成了65536個尋址空間,構成智能漢語文化辭典的基本壓縮存貯方式;切分詞庫是點字切詞的基礎,其中二、三、四、多字詞的尋址空間為三字節(jié),高三位為切分詞庫類別,后面為1-2097152個尋址序號,每一切分詞對應的詞語解釋地址為四字節(jié),切分詞庫也是詞典模式的尋址基礎,包括成語、典故、語文、百科、專業(yè)、分類等多種形式詞典,擁有共同的詞匯序號編碼。
5.根據(jù)權利要求1或權利要求3或權利要求4所述的文化典籍引導式學習解決方案,其特征是壓縮數(shù)據(jù)文件格式作為構成智能漢語文化辭典系統(tǒng)的要素之一,與基本音義字庫、壓縮切分詞庫的嵌入結合,使得文本的存貯帶有關聯(lián)、注釋、查詢、繁簡、排版、書寫、壓縮等全方位信息,壓縮數(shù)據(jù)文件格式分為詞匯式義項格式、句式單位壓縮格式、搭配組合格式、單字書寫格式等種類,詞匯式義項格式主要通過三字節(jié)尋址空間確定詞匯注釋地址,詞匯的不同義項與該詞的學習等級和使用頻度掛鉤,等級、頻度分設8級,對應不同的義項內(nèi)容,學習等級針對學生理解程度設定,使用頻度針對外國友人掌握漢語難易程度設定,釋義分為辭海釋義、百科釋義、專業(yè)釋義、語文釋義和漢外釋義,在中文釋義上對詞句內(nèi)容標點符號按壓縮切詞存貯,在漢外釋義上對外文如英、法、德、西、俄文以哈夫曼壓縮格式存貯,詞匯排序上,根據(jù)索引表同步切換于音序、逆序、形序、類序等形式,音序按詞匯的全部音節(jié)構詞排序,逆序按詞匯的反向音節(jié)構詞排序,形序按詞匯的偏旁筆畫構詞排序,類序按詞匯的分類屬性構詞排序,對于專有名詞提供相關的在線網(wǎng)址,實現(xiàn)內(nèi)容網(wǎng)上互聯(lián);句式單位壓縮格式分為標點符號標記、句中字詞存貯、組詞屏蔽和詞語解釋四部分,每一記錄含文句最多四句,最少為一句,標點符號標記占4字節(jié),為每句標點位和符號代碼,符號代碼為0無或現(xiàn)代漢語中“的”1、2;3,4? 5。6!78“9?!?0?”11!”12“......,13......。”14‘15。’,組詞屏蔽所列詞組要求停止該字切分詞庫的相關組詞,避免產(chǎn)生歧義,詞語解釋定位句中詞語的白話文注釋,句式單位壓縮格式既可以針對單句、排比句式體裁如俗語、民諺、對聯(lián)、字謎等,又可以針對篇幅式文章體裁,如詩詞曲文,后者須增加篇目索引文庫的管理,篇目索引文庫內(nèi)容為題目地址3字節(jié),作者地址2字節(jié),賞析注解地址4字節(jié),白話譯文地址4字節(jié),英譯文地址4字節(jié),句式壓縮記錄起始位和句式壓縮記錄長度4字節(jié),文章體裁1字節(jié),關于詩文包括樂府、古體、律詩、絕句、五言、七言等,文章內(nèi)容界定1字節(jié),關于詩文包括詠史詩、邊塞詩、閨怨詩、詠物詩、紀游詩等,文章子目和等級標志2字節(jié),歷史朝代標志1字節(jié)等,句式單位壓縮格式及其篇目索引文庫的細分項目與目錄、編碼查詢方式的組合,完成篇章和文句的多態(tài)組合查找;搭配組合格式對應字詞的點擊切入,通過點擊單字和切分詞語進入語匯的搭配狀態(tài),根據(jù)字詞釋義的不同義項,對應不同的搭配形式,內(nèi)容增減可變,主要為該字詞相關的同義詞、近義詞、反義詞、相近詞語的辨析、同類詞匯、關聯(lián)語匯、構詞、短語應用、組句示例、成語、典故、名句、俗語民諺、對聯(lián)、歇后語、格言、謎語等項,搭配格式的壓縮存貯與句式單位壓縮格式相近,除顯示搭配組合外,亦可點擊進入相關字詞句篇的分類狀態(tài),各項搭配具有自主的等級設定和屏蔽設定,為不同地區(qū)、不同層次的使用者掌握語匯提供與之相應的語境,針對教學實踐,可增添各類搭配語匯數(shù)據(jù);單字書寫格式對應漢字書寫,采用曲線擬合算法確定筆畫的書寫方向,并與矢量字庫字模進行“與”運算,完成漢字的逐筆書寫,使二萬多漢字一一對應動畫筆順,壓縮了數(shù)據(jù)存貯空間,書寫字體含宋體、楷體、黑體、隸書,書寫格式參數(shù)指標涉及普通、橫線、豎線、三段連線的標志設定,起筆、子筆的區(qū)分,線段的起始、終止坐標,線段寬度,筆鋒狀態(tài)等。
6.根據(jù)權利要求1或權利要求3或權利要求4或權利要求5所述的文化典籍引導式學習解決方案,其特征是編碼查詢方式通過音、韻、形、義和通配符及各類條件的編碼組合,完成詞句的任意搜索,實現(xiàn)所需的信息定位,同時具有自主限定范圍的統(tǒng)計功能,體現(xiàn)系統(tǒng)的“智能”特色;按文化典籍內(nèi)容諸如詩、詞、曲、文、對聯(lián)、諺語、俗語、成語、詞匯等形式分類以句詞音序存貯編碼,編碼庫前綴為音序索引表,以句內(nèi)前雙字音節(jié)的首音序即AB、AC、AD……方式,通過差值,定位快速尋址范圍,在音序索引表后為排句存貯結構,最大句內(nèi)漢字編碼容量為十五字,超出截斷,每一記錄長度為28字節(jié),十五個漢字音節(jié)序號占用15字節(jié),又讀音及句內(nèi)位以三字計占用5字節(jié),每句的屬性,包括等級、情態(tài)、對應句式單位壓縮格式的位置等特征占用2字節(jié),句式單位壓縮庫地址占用3字節(jié),篇目索引文庫地址占用3字節(jié);通過句式單位壓縮庫地址,及內(nèi)嵌的音義字庫和壓縮詞庫,針對快速音序尋址或全范圍尋址,可即時生成十五字信息臨時文件,內(nèi)含音、韻、形特征信息,根據(jù)編碼搭配,完成全方位查詢,其中音、韻、形的編碼搭配以字為單位,多樣組合,不受限制;各種音、韻、形特征信息除音義字庫內(nèi)的對應存貯序號,還有各自的排列碼表庫,服務于句詞編碼查詢方式;編碼查詢方案為26個英文字母鍵,10個數(shù)字鍵,小、中、大括號鍵、?、*、-、+、/、\、^、!、@、#、&、|、、’等符號鍵;通配符?定位于單字,*定位于任意位;26個英文字母鍵組合為句內(nèi)漢字拼音音節(jié),全拼、縮拼均可,針對zh、ch、sh縮拼亦可采用z、c、s形式,“’”號作為音節(jié)間隔符號,針對臺灣地區(qū)和不會使用拼音的人群,提供碼表,有注音字母和拼音音節(jié)的對照關系,可按所示的注音字母熱點輸入;可在音節(jié)后加入聲調信息,為“^”外加0至5數(shù)字鍵,0為輕聲,1為陰平、2為陽平、3為上聲、4為去聲,操作中亦可省略“^”;有關句中韻的檢索操作,分為普通使用者的韻母檢索,新詩的中華新韻、十三轍檢索,古詩的佩文詩韻檢索,古詞的詞林正韻檢索,元曲的中州曲韻檢索,韻母檢索格式為通配符+“(”+韻母+聲調+……+韻母+聲調+……+“)”+通配符,聲調可省略,韻母之間可使用“|”或操作符,中華新韻檢索格式為通配符+“(”+平仄符號或韻部+……+平仄符號或聲調韻部+……+“)”+通配符,平仄符號規(guī)定為“!”為平,“@”為仄,“#”為可仄可平,聲調韻部由三位組成,第一位為聲調,1為陰平,2為陽平,3為上聲,4為去聲,0為輕聲,6為入陰,7為入陽,8為入上,9為入去,5為入輕,韻部按字音分為十八種,01麻,02波,03歌,04皆,05支,06兒,07齊,08微,09開,10姑,11魚,12侯,13豪,14寒,15痕,16唐,17庚,18東,平仄符號或韻部之間可使用“|”或操作符,十三轍檢索格式為通配符+“(”+平仄符號或韻部+……+平仄符號或聲調韻部+……+“)”+通配符,平仄符號及聲調規(guī)定同上,韻部按字音分為十三種,21發(fā)花,22梭波,23乜斜,24衣期,25姑蘇,26懷來,27灰堆,28遙條,29油求,30言前,31人辰,32江陽,33中東,平仄符號或韻部之間可使用“|”或操作符,佩文詩韻檢索格式為通配符+“<”+平仄符號或韻部+……+平仄符號或聲調韻部+……+“>”+通配符,平仄符號規(guī)定同上,聲調1為上平,2為下平,3為上聲,4為去聲,5為入聲,韻部按平仄四聲分為一百零陸韻,上平韻部為01東,02冬,03江,04支,05微,06魚,07虞,08齊,09佳,10灰,11真,12文,13元,14寒,15刪,下平韻部為01先,02蕭,03肴,04毫,05歌,06麻,07陽,08庚,09青,10蒸,11尤,12侵,13覃,14鹽,15咸,上聲韻部為01董,02腫,03講,04紙,05尾,06語,07麌,08薺,09蟹,10賄,11軫,12吻,13阮,14旱,15潸,16銑,17篠,18巧,19皓,20哿,21馬,22養(yǎng),23梗,24迥,25有,26寢,27感,28琰,29豏,去聲韻部為01送,02宋,03絳,04寘,05未,06御,07遇,08霽,09泰,10卦,11隊,12震,13問,14愿,15翰,16諫,17霰,18嘯,19效,20號,21箇,22祃,23漾,24敬,25徑,26宥,27沁,28勘,29艷,30陷,入聲韻部為01屋,02沃,03覺,04質,05物,06月,07曷,08黠,09屑,10藥,11陌,12錫,13職,14緝,15合,16葉,17洽,平仄符號或韻部之間可使用“|”或操作符,詞林正韻檢索格式為通配符+“[”+平仄符號或韻部+……+平仄符號或聲調韻部+……+“]”+通配符,平仄符號規(guī)定同上,聲調1為平聲,3為上聲,4為去聲,5為入聲,6入作平聲,8入作上聲,9入作去聲,韻部為平聲、上聲、去聲時分14部,對應01-14編號,韻部為入聲時分為5部,對應15-19編號,平仄符號或韻部之間可使用“|”或操作符,中州曲韻檢索格式為通配符+“{”+平仄符號或韻部+……+平仄符號或聲調韻部+……+“}”+通配符,平仄符號規(guī)定同上,聲調1為平聲,3為上聲,4為去聲,6入作平聲,8入作上聲,9入作去聲,a上作平聲,b去作平聲,韻部按字音分為十九種,01東鐘,02江陽,03支思,04齊微,05魚模,06皆來,07真文,08寒山,09桓歡,10先天,11蕭豪,12歌戈,13家麻,14車遮,15庚青,16尤侯,17尋侵,18監(jiān)咸,19廉纖,平仄符號或韻部之間可使用“|”或操作符句詞中字的形態(tài)檢索方式之一為部首檢索,按漢字部首首筆序對應于橫起筆6,豎起筆7,撇起筆8,捺起筆9,折起筆0,根據(jù)《辭?!凡渴灼鸸P和畫數(shù)索引表組成部首三位序碼,橫起筆601一,602十,603廠,604ナ,605匚,606干,607工,608土、士,609艸、廾,610大,611兀,612尢,613扌,614寸,615弋,616,617天,618韋,619老,620廿、 621木,622支,623不,624犬,625歹,626車、車,627戈,628比,629旡630牙,631瓦,632 633玉,634示,635去,636甘,637石,638戊,639龍、龍,640耒,641 642耳,643亞、亞,644臣,645 西,646 647而,648頁、頁,649至,650麥、麥,651镸、長,652走,653赤,654束,655豆,656酉,657辰,658豕,659青,660 661雨,662革,663面,664 665髟,666鬲,667黃,668鼓,豎起筆701|,702卜,703刂,704冂,705,706口,707口,708巾,709山,710止,711支,712日,713日,714 715中,716貝、貝,717見、見,718業(yè),719 720目,721申,722田,723由,724罒,725皿,726虍,727光,728蟲,729肉,730鹵、鹵,731里,732足、,733黽、黽,734非,735齒、齒,736虎,737韭,738是,739骨,740黹,741鼎,742黑,撇起筆801丿,802,803亻,804 805八,806人、入,807乂,808,809勹,810匕,811兒,812幾,813彳,814彡,815犭,816夕,817夊,818丸,8l9饣、 食,820牛、牜,821手,822毛,823氣,824天,825攵,826片,827斤,828爪、爫,829父,830月,831氏,832欠,833風、風,834殳,835钅、金,836生,837矢,838禾,839白,840瓜,841鳥、烏,842缶,843舌,844竹、,845臼,846自,847,848血,849舟,850色,851身,852采,853谷,854豸,855龜、 856角,857卵,858隹,859魚、魚,860香,861鬼,862黍,863鼠,864鼻,865龠,捺起筆901丶,902亠,903冫,904丷,905冖,906讠、言,907丬、爿,908廣,909亡,910門、門,911氵,912忄,913宀,914辶,915文,916方,917火,918斗,919灬,920戶,921礻,922心,923疒,924立,925玄,926亦、 927齊、薺,928衣,929羊、 930 931米,932辛,933 934音,935首,936高,937 938麻,939鹿,折起筆001左折,002右折,003凵,004卩,005左阝,006右阝,007刀,008力,009 010厶,011又,012廴,013彐、 014尸,015己、巳,016弓,017屮,018女,019小,020子、孑,021馬、馬,022纟、糸,023巛,024肀、 聿,025尺,026爿,027 母,028水,029民,030疋,031皮,032癶,033矛,034艮,035羽,036隸句詞中字的形態(tài)檢索方式之二為五筆畫,按首筆序對應于1橫,2豎,3撇,4捺,5折,0補碼,單字取一、二、三、四、末筆碼,多字每字取前兩碼;句詞中字的形態(tài)檢索方式之三為音形組合,按字的聲韻第一字母加首末筆畫碼構成;句詞中字的形態(tài)檢索方式之四為筆畫數(shù),按字的全部筆畫數(shù)二位數(shù)碼輸入,連字之間以“‘”分割;句詞中字的形態(tài)檢索方式之五為字結構,以“+”號為標志,00獨體字結構,10左右結構,11左右兩部件結構,12左中右三部件結構,20上下結構,21上下兩部件結構,22上中下三部件結構,30包裹結構,31左上包裹結構,32右上包裹結構,33左下包裹結構,34右下包裹結構,35上包裹結構,36下包裹結構,37右包裹結構,38內(nèi)包裹結構;句詞中字的形態(tài)檢索方式之六為補碼狀態(tài),在句詞音碼后,以“/”號為標志,按序加部首聲韻母縮位字母,對應漢字部首字母個數(shù)可少至一個;句詞中字之間無論音碼或形碼可使用“與&”操作符、“或|”操作符;句詞檢索同時帶有學習等級設置,以“”號為標志,分1-8級,后加“0”為只檢測本級,無“0”為檢測本級以下;句詞檢索可進行字數(shù)限定,以“=”號為標志,加字個數(shù);句子檢索有子集設置,以“\”號為標志,分“t”朝代、“p”作者、“s”詩文體裁、“c”詞牌、“q”曲牌、“z”雜劇、“n”內(nèi)容、“f”情態(tài)等類別,后接數(shù)字組合碼表對應查詢。
7.根據(jù)權利要求1或權利要求3或權利要求4或權利要求5所述的文化典籍引導式學習解決方案,其特征是圖形圖象的實時壓縮處理,即建立基本的單位圖形圖象基元機制,按人物、動物、精靈、植物、食品、用品、設備、建筑、交通、軍事、自然、宇宙、社會、文化、抽象、其他等類別存貯,提供靜態(tài)矢量組合插圖和動態(tài)矢量組合配圖形式,實現(xiàn)參與性和非重復性的在線美術編輯。
8.根據(jù)權利要求2所述的中華學習碼輸入法解決方案,其特征是將字典、詞典功能融入輸入法中,輸入態(tài)為普通拼音式輸入,具有縮拼功能;信息態(tài)為“I”模式,加單字主音編碼,提供漢字的部首、筆畫、讀音、義項、詞語搭配、造句事例信息;注釋態(tài)為“U”模式,加字音編碼,既可針對單字多音,又可針對多字詞語,前者對應“I”模式編碼,后者除語文性義項條目外,還納入常用的百科條目,并提供對應分類態(tài)“V”模式編碼;分類態(tài)為“V”模式,加分類編碼,類別為A宇宙地球、B生物、C人體、D人類社會、E吃食住行、F情感行為、G農(nóng)業(yè)、H工業(yè)科技醫(yī)藥、J交通運輸、K經(jīng)貿(mào)商職、L政治法律、M軍事、N歷史地理、O文化藝術、P哲學教育、Q宗教信仰傳說、R物質物體、S事情狀況、T計量、U其他,每一大項擁有不同數(shù)目的子項;漢字存貯對應抽象層漢字音義庫,可繁簡同步切換。
9.根據(jù)權利要求1或權利要求2所述的所述的文化典籍引導式學習解決方案、中華學習碼輸入法解決方案,其特征是文化典籍和詞典范圍的包容性,在基本音義字庫、壓縮切分詞庫、壓縮數(shù)據(jù)文件格式和編碼查詢方式的統(tǒng)一標準下,依據(jù)分類、等級、子集的劃定,全方位的先驗知識關聯(lián),具體內(nèi)容涉及文學辭典,經(jīng)史子集,蒙學讀物,戲曲字畫、園林建筑、醫(yī)藥烹飪、武術民俗等文化資源。
10.根據(jù)權利要求1或權利要求2所述的所述的文化典籍引導式學習解決方案、中華學習碼輸入法解決方案,其特征在于本發(fā)明可應用于微機、PDA、筆記本、平板電腦、網(wǎng)絡通訊等領域,并以單機產(chǎn)品、網(wǎng)絡產(chǎn)品、數(shù)字圖書館、教育網(wǎng)觀、印刷制品、音像制品等形式出現(xiàn)。
全文摘要
本發(fā)明屬于信息處理領域。通過建立網(wǎng)狀知識輻射體系,以字詞句篇為多元知識點,融匯各類中華文化典籍。在編碼壓縮、排版圖形和系統(tǒng)集成的技術支持下,實現(xiàn)屏幕全文本熱點,橫豎版面、繁異簡體的同步切換。熱點字詞可了解拼音古韻、筆畫書寫、字源釋義、多義詞林、關聯(lián)短語、成語典故、名句諺語、對聯(lián)字謎、歇后語等內(nèi)容。在辭典構成上涉及經(jīng)史子集、文化檔案、各種名句短語詞匯詞典,提供多樣查詢組合模式,編碼搭配、文本檢索、分類篩選,對知識型數(shù)據(jù)庫按需提取信息資料,等級、頻度的設定使學習理解難易程度因人因需而異。系統(tǒng)的最大特點是變客觀被動式學習為主觀引導式學習。
文檔編號G06F17/30GK1523518SQ03104050
公開日2004年8月25日 申請日期2003年2月17日 優(yōu)先權日2003年2月17日
發(fā)明者郭慧民 申請人:郭慧民