專利名稱:漢字全息活字庫及其操作的實現(xiàn)方法
技術領域:
本發(fā)明涉及中文信息處理領域,具體而言,涉及一種漢字全息活字庫及其操作的實現(xiàn)方法。
背景技術:
漢字是中華文化的基因,漢字教育是國人基礎教育中最重要的部分,漢字是中國走向世界,世界了解中國的橋梁和媒介。然而目前的漢字教育整體水平,比起解放初期的識字運動,并沒有質(zhì)的飛躍。究其根本原因,乃是技術上沒有突破,尤其是在利用現(xiàn)代化的信息技術上,幾乎沒有什么大的作為和突破。對于國內(nèi)的小學生或是國外的學習者,漢字難認、難記、難寫、難查的老大難問題依然沒有得到有效解決。字庫是外文字體、中文字體以及相關字符的電子文字字體集合庫,被廣泛用于計 算機、網(wǎng)絡及相關電子產(chǎn)品上。目前國內(nèi)外廣泛使用的字庫主要有兩種格式。一種是由美國Apple和Microsoft公司聯(lián)合提出的True Type格式,另一種是由Microsoft和Adobe公司提出的Open Type格式。這兩種格式均采用數(shù)字化的矢量輪廓來描述字形。從表面上看,中文字庫與英文字庫沒有什么區(qū)別,實際上二者差別很大。首先,英文(以及所有拼音文字)字庫里放的是字母,而中文字庫里放的是漢字。字母只有26個,而漢字卻有成千上萬。更大的差別是字母是拼音文字的最小構形單位,而漢字卻不是。在文本處理上,英文字庫可以與以下功能實現(xiàn)無縫對接復制任何一個或多個字符,并可以粘貼;著色任何一個或多個字符;粗體、斜體、下劃線任何一個或多個字符;搜尋任何一個或多個字符并顯示搜尋結果;對給定的任何一組字符排序;對字符組合的合理性和規(guī)范性進行檢查。中文字庫可以在漢字層面上實現(xiàn)以上功能,問題是中文字符除了漢字,還有部件和筆畫。筆畫構成了部件,部件構成了漢字,這些構成關系反映了漢字最本質(zhì)的特點,但是在中文字庫中保存的卻是整字的矢量輪廓,無法分解成部件和筆畫,也沒有包含任何漢字構造信息。可見,由于現(xiàn)有漢字庫技術不能對漢字進行拆解,無法為漢字的拆分和組合提供有效技術手段,無法滿足國內(nèi)外漢字學習者的普遍需求。
發(fā)明內(nèi)容
本發(fā)明提供一種漢字全息活字庫及其操作的實現(xiàn)方法,用以實現(xiàn)漢字在筆畫、部件和整字各個層面與英文等價的文本處理功能。為達到上述目的,本發(fā)明提供了一種漢字全息活字庫及其操作的實現(xiàn)方法,其特征在于,包括以下步驟
按照“從整字到部件再到筆畫”的漢字拆分原則,將漢字拆分成一組筆畫結構數(shù)據(jù);將筆畫結構數(shù)據(jù)存入漢字結構庫;從該漢字的矢量圖形數(shù)據(jù)中提取該漢字的整字矢量輪廓數(shù)據(jù);將整字矢量輪廓分解成各自獨立的筆畫矢量輪廓;將筆畫矢量輪廓數(shù)據(jù)存入漢字形體庫;重復上述步驟,將包含一定數(shù)量漢字的漢字結構庫和漢字形體庫組合成漢字全息活字庫。
較佳的,上述筆畫結構數(shù)據(jù)包括筆順、筆畫類型,以及筆畫所屬各層部件和/或部首在內(nèi)的漢字結構和層次信息。較佳的,將筆畫結構數(shù)據(jù)存入漢字結構庫步驟包括以漢字為單位,對筆畫結構數(shù)據(jù)進行格式化處理,將格式化后的筆畫結構數(shù)據(jù)存入漢字結構庫。較佳的,將整字矢量輪廓分解成各自獨立的筆畫矢量輪廓步驟包括將整字矢量輪廓分解成各自獨立的筆畫矢量輪廓;對漢字的筆畫矢量輪廓進行編輯加工處理。較佳的,將筆畫矢量輪廓數(shù)據(jù)存入形體庫步驟包括以漢字為單位,對筆畫矢量輪廓數(shù)據(jù)進行格式化處理,將格式化后的筆畫矢量輪廓數(shù)據(jù)存入對應字體的漢字形體庫。較佳的,上述漢字全息活字庫及其操作的實現(xiàn)方法還包括以下步驟將漢字全息活字庫中的全部或部分漢字組成活字文本;對活字文本進行筆畫或部件或整字層面的文本操作;根據(jù)用戶設定的筆畫和/或部件和/或部首和/或整字結構特征,以及筆畫和/或部件在漢字中出現(xiàn)的數(shù)量和/或位置,對活字文本進行檢索;以及將檢索的結果進行標注或輸出。較佳的,對活字文本進行筆畫或部件或整字層面的文本操作步驟包括顯示漢字文本中的全部或部分漢字的筆畫或部件或部首或整字;或著色和/或加粗和/或透明活字文本中的全部或部分漢字的筆畫或部件或部首或整字;或復制和/或剪貼和/或移動活字文本中的全部或部分漢字的筆畫或部件或部首或整字;或隱藏活字文本中的全部或部分漢字的筆畫或部件或部首或整字。較佳的,上述漢字全息活字庫的操作方法還包括以下步驟根據(jù)用戶對一個漢字按其書寫順序進行逐筆顯示的請求,從漢字形體庫中獲取漢字的筆順數(shù)據(jù);根據(jù)筆順數(shù)據(jù)將漢字按書寫順序逐筆顯示。較佳的,上述漢字形體庫的數(shù)目為一個或多個,分別用于存儲一種字體的漢字。在上述實施例中,中文字庫的漢字字形通過筆畫矢量輪廓數(shù)據(jù)進行構造,并且將漢字“從筆畫到部件再到整字”的三級結構信息嵌入到字庫中,從而形成漢字字形的全息影像。使?jié)h字能夠在筆畫、部件和整字各個層面實現(xiàn)與英文等價的文本處理功能,為漢字教學、應用和科研提供嶄新的利器。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹。顯而易見,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為根據(jù)本發(fā)明一個實施例的漢字全息活字庫實現(xiàn)方法流程圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有付出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明是要在技術上有所突破,為解決漢字難學的問題提供有效的技術手段,促進漢字教學和習用工具的進步與發(fā)展,從而滿足國內(nèi)外中文學習者的普遍需求。圖I為根據(jù)本發(fā)明一個實施例的漢字全息活字庫及其操作的實現(xiàn)方法流程圖。如 圖I所示,該方法包括以下步驟S102,按照“從整字到部件再到筆畫”的漢字拆分原則,將漢字拆分成一組筆畫結構數(shù)據(jù);S104,將上述筆畫結構數(shù)據(jù)存入漢字結構庫;S106,從該漢字的矢量圖形數(shù)據(jù)中提取漢字整字矢量輪廓數(shù)據(jù);S108,將上述整字矢量輪廓分解成各自獨立的筆畫矢量輪廓;S110,將上述筆畫矢量輪廓數(shù)據(jù)存入漢字形體庫;S112,重復上述步驟,將包含一定數(shù)量漢字的漢字結構庫和漢字形體庫組合成漢字全息活字庫。在本實施例中,中文字庫的漢字字形通過筆畫矢量輪廓數(shù)據(jù)進行構造,并且將漢字“從筆畫到部件再到整字”的三級結構信息嵌入到字庫中,從而形成漢字字形的全息影像。使?jié)h字能夠在筆畫、部件和整字各個層面實現(xiàn)與英文等價的文本處理功能,為漢字教學、應用和科研提供嶄新的利器。本發(fā)明之所以稱為“漢字全息活字庫”,其一是因為本發(fā)明字庫中包含了“從筆畫到部件再到整字”的所有字形構造信息,故謂之“全息”;其二本發(fā)明字庫中的漢字字形,是用筆畫矢量輪廓構建而成的,而非不可拆分的整字矢量輪廓,因此體現(xiàn)了 “從筆畫到部件再到整字”的造字過程,以及“從整字到部件再到筆畫”的拆字過程,故謂之“活”。在本發(fā)明的一個實施例中,漢字全息活字庫采用UTF-8編碼。漢字全息活字庫基本格式的BNF范式描述如下 <漢字全息活字庫 >::=〈漢字結構庫> {漢字形體庫}<漢字結構庫>::={漢字結構信息}<漢字結構信息>=<結構符X漢字 > [“(”描述信息“)” ]{筆畫結構信息}<筆畫結構信息 >::=〈筆畫全息數(shù)字編碼><漢字形體庫>' .=〈字體信息>{筆畫矢量數(shù)據(jù)區(qū)}<字體信息>=<字體名稱 > [“(”描述信息“)”]〈分隔符><筆畫矢量輪廓數(shù)據(jù)區(qū)>=<筆畫矢量輪廓數(shù)據(jù)X分隔符>例如,本實施例中的漢字結構信息包括漢字結構類型、筆順、筆畫類型,以及筆畫所屬的各層部件和/或部首信息。例如,在上述實施例中,將整字矢量輪廓分解成各自獨立的筆畫矢量輪廓步驟包括將整字矢量輪廓分解成各自獨立的筆畫矢量輪廓;對所述漢字的筆畫矢量輪廓進行編輯加工處理,即對漢字的每個筆畫的形狀進行調(diào)整和修飾。調(diào)整和修飾后的字形與通用字庫在字形上保持一致,為的是規(guī)范和統(tǒng)例如,在上述實施例中,將存放漢字筆畫結構信息的漢字結構庫和存放漢字筆畫矢量輪廓數(shù)據(jù)的漢字形體庫組合成漢字全息活字庫,漢字全息活字庫以字符或二進制文件的方式保存、傳送和讀取。例如,上述實施例中還包括以下步驟對由漢字全息活字庫中的活字組成的漢字文本進行筆畫或部件或整字層面的文本操作,這些操作包括對漢字的筆畫或部件或部首或整字進行顯示、著色、隱藏、移動;以及將整字分解成部件或筆畫后并列顯示。例如,對“活”字的部件進行著色,用不同的顏色區(qū)分不同的部件,結合不同的透明度表示部件的拆分層次。所謂部件拆分層次是指將整字拆分為基礎部件(亦即不可拆分部件)的步驟。例如,“活”字先拆分成“? ”和“舌”,第一層拆分出來的部件用不同的顏色加以區(qū)別;再將“舌”拆分成“千”和“口”,第二層拆分用相同顏色不同透明度加以區(qū)分。無論是漢字的部件還是部件的拆分層次,都包含在漢字全息活字庫里,無需從外部增加,這不僅保證了漢字構造信息的統(tǒng)一和規(guī)范,而且給使用者帶來了很大的便利。用不同的顏色和透明度標識漢字的組成部件,以及部件的拆分層次,這對掌握漢字的字形特征,強化對漢字字形的記憶特別有用。例如,上述實施例中還包括以下步驟由漢字全息活字庫中的全部或部分漢字組成活字文本;根據(jù)用戶設定的筆畫和/或部件和/或部首和/或整字結構特征,以及筆畫和/或部件在漢字中出現(xiàn)的數(shù)量和/或位置,對該活字文本進行檢索并顯示檢索的結果。又例如,上述實施例中包括以下步驟根據(jù)用戶對一個漢字按其書寫順序進行逐筆顯示的請求,從漢字形體庫中獲取漢字的筆順數(shù)據(jù);根據(jù)筆順數(shù)據(jù)將漢字按書寫順序逐筆顯示。例如,上述實施例中還包括以下步驟隱去活字文本中部分漢字的部分筆畫和/或部件和/或部首。利用本實施例可以實現(xiàn)漢字內(nèi)部的筆畫和部件填空練習,或者設計出有趣的識字游戲。又例如,上述漢字全息活字庫及其操作的實現(xiàn)方法的實施例中還包括以下步驟將漢字的筆畫打散并隨機排列;按照漢字的筆順,點中正確的筆畫;被點中的筆畫回到原位。通過逐一點擊正確的筆畫,使?jié)h字恢復原樣。這是基于本發(fā)明的一種新的游戲化識字過程,充分體現(xiàn)了漢字全息活字庫的“活性”?;谏鲜鰧嵤├?,本發(fā)明的作用主要包括以下幾個方面I、識字教學。識字的一個主要任務是識別和記憶漢字字形,大多數(shù)的識字法都與字形的拆分組合有關。本發(fā)明從字庫層面實現(xiàn)了對漢字的拆分與組合,從而提供了規(guī)范和自由拆分組合漢字的基本技術手段。這不僅能為廣大教師和學生提供便捷的現(xiàn)代化工具,而且還有利于促進各種新識字法的誕生,為解決識字難的問題開辟了新的途徑和思路。2、習字教學。寫字是漢字教學的另一大難點,至今為止一直沿用傳統(tǒng)而古老的方法,也即描紅、臨帖,加上耗時費力的反復書寫訓練。電子字帖是本發(fā)明的一大應用。電子 字帖可以精確定位每個筆畫形狀、大小和位置,提示或拒識不合格的書寫筆跡,從而達到制約和規(guī)范人們書寫的目的。這樣可以大大減少書寫的隨意性,提高習字的有效性,在習字便利性和效果上,優(yōu)于傳統(tǒng)的字帖和描紅方法。3、漢字檢索。人們最常用的《新華字典》只有兩種檢字方式一種是按拼音檢字,另一種是部首檢字。《新華字典》已經(jīng)再版了 N多次,然而檢字方式卻始終沒變。因為沒有比這更好的檢字方法。利用本發(fā)明,可以設計出各種新的檢字方法,使檢字變成了象搜索引擎那樣,可以接受各種關鍵字,以及多個關鍵字組合。這些關鍵字可以是筆畫、部件、部首和結構,再加上數(shù)量和位置上的附加條件,使查字變成了自由隨意的搜字過程。4、漢字研究。以往研究漢字的字形特征,統(tǒng)計分析漢字文本,調(diào)查漢字用字的特點和變化趨勢,都需用到各自不同的專業(yè)程序。本發(fā)明為此類研究統(tǒng)計工作提供了新的統(tǒng)一技術平臺,大大方便了人們對漢字文本進行分析統(tǒng)計和比較研究。本領域普通技術人員可以理解附圖只是一個實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。本領域普通技術人員可以理解實施例中的裝置中的模塊可以按照實施例描述分布于實施例的裝置中,也可以進行相應變化位于不同于本實施例的一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。 本領域普通技術人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。最后應說明的是以上實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解其依然可以對前述實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質(zhì)脫離本發(fā)明實施例技術方案的精神和范圍。
權利要求
1.一種漢字全息活字庫及其操作的實現(xiàn)方法,其特征在于,包括以下步驟 按照“從整字到部件再到筆畫”的漢字拆分原則,將漢字拆分成ー組筆畫結構數(shù)據(jù); 將所述筆畫結構數(shù)據(jù)存入漢字結構庫; 從該漢字的矢量圖形數(shù)據(jù)中提取該漢字的整字矢量輪廓數(shù)據(jù); 將所述整字矢量輪廓分解成各自獨立的筆畫矢量輪廓; 將筆畫矢量輪廓數(shù)據(jù)存入漢字形體庫; 重復上述步驟,將包含一定數(shù)量漢字的漢字結構庫和漢字形體庫組合成漢字全息活字庫。
2.根據(jù)權利要求I所述的漢字全息活字庫及其操作的實現(xiàn)方法,其特征在于,所述筆畫結構數(shù)據(jù)包括筆順、筆畫類型,以及筆畫所屬各層部件和/或部首在內(nèi)的漢字結構和層次信息。
3.根據(jù)權利要求I所述的漢字全息活字庫及其操作的實現(xiàn)方法,其特征在干,將所述筆畫結構數(shù)據(jù)存入漢字結構庫步驟包括 以漢字為單位,對筆畫結構數(shù)據(jù)進行格式化處理,將格式化后的筆畫結構數(shù)據(jù)存入漢字結構庫。
4.根據(jù)權利要求I所述的漢字全息活字庫及其操作的實現(xiàn)方法,其特征在干,將所述整字矢量輪廓分解成各自獨立的筆畫矢量輪廓步驟包括 將所述整字矢量輪廓分解成各自獨立的筆畫矢量輪廓; 對所述漢字的筆畫矢量輪廓進行編輯加工處理。
5.根據(jù)權利要求I所述的漢字全息活字庫及其操作的實現(xiàn)方法,其特征在于,將筆畫矢量輪廓數(shù)據(jù)存入形體庫步驟包括 以漢字為單位,對筆畫矢量輪廓數(shù)據(jù)進行格式化處理,將格式化后的筆畫矢量輪廓數(shù)據(jù)存入對應字體的漢字形體庫。
6.根據(jù)權利要求I所述的漢字全息活字庫及其操作的實現(xiàn)方法,其特征在于,還包括以下步驟 將所述漢字全息活字庫中的全部或部分漢字組成活字文本; 對所述活字文本進行筆畫或部件或整字層面的文本操作; 根據(jù)用戶設定的筆畫和/或部件和/或部首和/或整字結構特征,以及筆畫和/或部件在漢字中出現(xiàn)的數(shù)量和/或位置,對所述漢字文本進行檢索;以及將檢索的結果進行標注或輸出。
7.根據(jù)權利要求6所述的對漢字全息活字庫的操作方法,其特征在干,對所述活字文本進行筆畫或部件或整字層面的文本操作步驟包括 顯示所述活字文本中的全部或部分漢字的筆畫或部件或部首或整字;或著色和/或加粗和/或透明所述活字文本中的全部或部分漢字的筆畫或部件或部首或整字;或 復制和/或剪貼和/或移動所述活字文本中的全部或部分漢字的筆畫或部件或部首或整字;或 隱藏所述活字文本中的全部或部分漢字的筆畫或部件或部首或整字。
8.根據(jù)權利要求I所述的漢字全息活字庫的操作方法,其特征在于,還包括以下步驟根據(jù)用戶對ー個漢字按其書寫順序進行逐筆顯示的請求,從所述漢字形體庫中獲取所述漢字的筆順數(shù)據(jù); 根據(jù)所述筆順數(shù)據(jù)將所述漢字按書寫順序逐筆顯示。
9.根據(jù)權利要求1-8中任一項所述的漢字全息活字庫實現(xiàn)方法,其特征在于,所述漢字形體庫的數(shù)目為ー個或多個,分別用于存儲ー種字體的漢字。
全文摘要
本發(fā)明公開了一種漢字全息活字庫及其操作的實現(xiàn)方法,其包括以下步驟按照“從整字到部件再到筆畫”的漢字拆分原則,將漢字拆分成一組筆畫結構數(shù)據(jù);將漢字的所有筆畫結構數(shù)據(jù)存入漢字結構庫;從漢字的矢量圖形數(shù)據(jù)中提取漢字整字矢量輪廓數(shù)據(jù);將整字矢量輪廓分解成各自獨立的筆畫矢量輪廓;將筆畫矢量輪廓數(shù)據(jù)存入漢字形體庫;將包含一定數(shù)量漢字的漢字結構庫和漢字形體庫組合成漢字全息活字庫。
文檔編號G06F17/30GK102682022SQ20111006186
公開日2012年9月19日 申請日期2011年3月15日 優(yōu)先權日2011年3月15日
發(fā)明者董為群 申請人:董為群, 高靜敏