一種諺文數據庫、構建方法及諺文數據庫檢索系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種諺文數據庫、構建方法及諺文數據庫檢索系統(tǒng),諺文數據庫的建立方法包括步驟:S1、按照諺文類別構建數據表,具體包括書庫數據表、卷次庫數據表、句子庫數據表、被釋詞庫數據表、左音音庫數據表、右音音庫數據表、字庫數據表、單字庫數據表;S2、根據各類別諺文的屬性在相應數據表中設置諺文屬性字段,并選取字段為數據表之間建立索引;S3、將諺文源文檔轉換為諺文電子數據;S4、將諺文電子數據按照類別分別導入相應的數據表中,由此生成諺文數據庫。實施本發(fā)明可檢索到諺文電子數據中句子、漢字、諺文注音、諺文注釋、音韻地位、聲調標點等詳細信息,進而利用這些成果對近代漢語或韓語的語音系統(tǒng)進行歷時和共時的分析和討論。
【專利說明】一種諺文數據庫、構建方法及諺文數據庫檢索系統(tǒng)
【技術領域】
[0001]本發(fā)明屬于漢語及韓語資訊處理【技術領域】,更具體地,涉及一種謗文數據庫、構建 方法及謗文數據庫檢索系統(tǒng)。
【背景技術】
[0002]韓字是由朝鮮王朝第四代君主世宗大王于1443年通過《訓民正音》創(chuàng)制而成,用 韓字寫成的文章稱為“謗文”。在此之前,韓語只以口語形式存在,朝廷、文武兩班等統(tǒng)治階 級書寫使用漢字。為了方便本國人學習漢語,在朝鮮產生了用韓字對漢字注音和翻譯的各 種對音韻書、辭書及漢語教科書,如:《東國正韻》、《四聲通解》、《譯語類解》、《老乞大》、《樸 通事》等。這些對音文獻為研究同時代漢語語言系統(tǒng)及韓語語言系統(tǒng)提供了非常重要的資 料。
[0003]目前,對音韻書、辭書及漢語教科書的研究主要是通過對紙本進行統(tǒng)計查閱。由 于上述書目前后跨越近三百年,其中的句子、漢字、謗文注音、聲調標點及謗文注釋均隨當 時漢語的變化而發(fā)生變化,很難進行全面系統(tǒng)的比較研究。因此開發(fā)一套能夠涵蓋句子、 漢字、謗文注音、聲調標點、謗文注釋的謗文數據庫及使用該數據庫進行謗文檢索的檢索系 統(tǒng),可為綜合研究16世紀-18世紀近代漢語的語音、聲調、詞匯、語法乃至同時代韓語的發(fā) 展變化提供一種方便、快捷、有效的工具。
【發(fā)明內容】
[0004]針對現有技術的以上缺陷或改進需求,本發(fā)明提供了一種謗文數據庫、構建方法 及謗文數據庫檢索系統(tǒng),其目的在于將謗文源文檔轉化為可進行文本查找的謗文電子數 據,使得用戶可以檢索到謗文電子數據中句子、漢字、謗文注音、謗文注釋、音韻地位、聲調 標點等詳細信息,利用這些成果對近代漢語或韓語的語音系統(tǒng)進行歷時和共時的分析和討 論,由此解決目前難以對謗文音韻書、辭書及漢語教科書進行全面系統(tǒng)研究的技術問題。
[0005]本發(fā)明解決其技術問題所采用的技術方案是,提供一種建立謗文數據庫的方法, 所述方法包括以下步驟:
[0006]S1、按照謗文類別構建數據表,具體包括書庫數據表、卷次庫數據表、句子庫數據 表、被釋詞庫數據表、左音音庫數據表、右音音庫數據表、字庫數據表、單字庫數據表;
[0007]S2、根據各類別謗文的屬性在相應數據表中設置謗文屬性字段,并選取字段為數 據表之間建立索引;
[0008]S3、將謗文源文檔轉換為謗文電子數據;
[0009]S4、將所述謗文電子數據按照類別分別導入相應的數據表中,由此生成謗文數據庫。
[0010]在本發(fā)明所述的建立謗文數據庫的方法中,所述數據庫數據表包含所述謗文電子 數據的書名號、書名、作者、成書年代、所據底本、收錄源字段信息,所述卷次庫數據表包含 所述謗文電子數據的卷號、書名號、卷次字段信息,所述句子庫數據表包含所述謗文電子數據的句號、卷號、頁碼、正文帶頁碼及顏色標記、正文、中文句子、謗文注釋、句子備注字段信 息,所述被釋詞庫數據表包含所述謗文電子數據的被釋詞號、句號、漢字號、
[0011]被釋詞號、漢字備注、謗文左音、謗文左音備注、謗文左點、謗文左點備注、謗文左 音標號、謗文右音、謗文右音備注、謗文右點、謗文右點備注、謗文右音標號、漢字左點、漢字 左點備注、漢字右點、漢字右點備注字段信息,所述左音音庫數據表包含所述謗文電子數據 的左首標號、謗文左首、謗文左首轉與、左首聲母、左首韻母、左首尾首字段彳目息,所述右首 音庫數據表包含所述謗文電子數據的右音標號、謗文右音、謗文右音轉寫、右音聲母、右音 韻母、右音尾音字段信息,所述字庫數據表包含所述謗文電子數據的漢字號、字Unicode、被 釋漢字字段信息,所述單字庫數據表包含所述謗文電子數據的單字號、字Unicode、字字段 信息,所述音韻地位庫數據表包含所述謗文電子數據的字Unicode、字音號、字、音書、反切 上字、反切下字、攝、韻、呼、等、調、紐字段信息。
[0012]在本發(fā)明所述的建立謗文數據庫的方法中,所述書庫數據表與所述卷次庫數據表 之間通過“書名號”建立索引;所述卷次庫數據表與所述句子庫數據表之間通過“卷號”建 立索引;所述句子庫數據表與所述被釋詞庫數據表之間通過“句號”建立索引;所述被釋詞 庫數據表與所述左音音庫數據表之間通過“謗文左音標號”建立索引;所述被釋詞庫數據表 與所述右音音庫數據表之間通過“謗文右音標號”建立索引;所述被釋詞庫數據表與所述字 庫數據表之間通過“漢字號”建立索引;所述字庫數據表與所述單字庫數據表之間通過“字 Unicode”建立索引;所述單字庫數據表與所述音韻地位庫數據表之間通過“字Unicode”建 立索引。
[0013]相應地,本發(fā)明還提供一種由所述建立謗文數據庫的方法構建的謗文數據庫。
[0014]相應地,本發(fā)明還提供一種謗文數據庫檢索系統(tǒng),所述系統(tǒng)包括:
[0015]輸入模塊,用于輸入檢索命令;
[0016]與所述輸入模塊相連的檢索模塊,用于接受所述檢索命令并根據所述檢索命令進 行檢索以獲取謗文數據庫中的謗文電子數據信息,并控制輸出模塊輸出查詢檢索結果;
[0017]與所述檢索模塊相連的,用于存儲謗文電子數據的謗文數據庫,所述謗文數據庫 由按照謗文類別構建的數據表生成,具體包括書庫數據表、卷次庫數據表、句子庫數據表、 被釋詞庫數據表、左音音庫數據表、右音音庫數據表、字庫數據表、單字庫數據表,根據各類 別謗文的屬性在相應數據表中設置謗文屬性字段,并選取字段為數據表之間建立索引;
[0018]與所述檢索模塊相連的,用于輸出檢索結果的輸出模塊。
[0019]在本發(fā)明所述的謗文數據庫檢索系統(tǒng)中,所述系統(tǒng)還包括與所述謗文數據庫相連 的用于將謗文源文檔轉換為所述謗文電子數據的數據轉換模塊,與所述數據轉換模塊相連 的用于在所述謗文源文檔發(fā)生變化時更新所述謗文數據庫中的謗文電子數據的數據更新 模塊。
[0020]在本發(fā)明所述的謗文數據庫檢索系統(tǒng)中,所述書庫數據表包含所述謗文電子數據 的書名號、書名、作者、成書年代、所據底本、收錄源字段信息,所述卷次庫數據表包含所述 謗文電子數據的卷號、書名號、卷次字段信息,所述句子庫數據表包含所述謗文電子數據的 句號、卷號、頁碼、正文帶頁碼及顏色標記、正文、中文句子、謗文注釋、句子備注字段信息, 所述被釋詞庫數據表包含所述謗文電子數據的被釋詞號、句號、漢字號、被釋詞號、漢字備 注、謗文左音、謗文左音備注、謗文左點、謗文左點備注、謗文左音標號、謗文右音、謗文右音備注、謗文右點、謗文右點備注、謗文右音標號、漢字左點、漢字左點備注、漢字右點、漢字右 點備注字段信息,所述左音音庫數據表包含所述謗文電子數據的左音標號、謗文左音、謗文 左音轉寫、左音聲母、左音韻母、左音尾音字段信息,所述右音音庫數據表包含所述謗文電 子數據的右音標號、謗文右音、謗文右音轉寫、右音聲母、右音韻母、右音尾音字段信息,所 述字庫數據表包含所述謗文電子數據的漢字號、字Unicode、被釋漢字字段信息,所述單字 庫數據表包含所述謗文電子數據的單字號、字Unicode、字字段信息,所述音韻地位庫數據 表包含所述謗文電子數據的字Unicode、字音號、字、音書、反切上字、反切下字、攝、韻、呼、 等、調、紐字段信息。
[0021]在本發(fā)明所述的謗文數據庫檢索系統(tǒng)中,所述書庫數據表與所述卷次庫數據表之 間通過“書名號”建立索引;所述卷次庫數據表與所述句子庫數據表之間通過“卷號”建立 索引;所述句子庫數據表與所述被釋詞庫數據表之間通過“句號”建立索引;所述被釋詞庫 數據表與所述左音音庫數據表之間通過“謗文左音標號”建立索引;所述被釋詞庫數據表與 所述右音音庫數據表之間通過“謗文右音標號”建立索引;所述被釋詞庫數據表與所述字 庫數據表之間通過“漢字號”建立索引;所述字庫數據表與所述單字庫數據表之間通過“字 Unicode”建立索引;所述單字庫數據表與所述音韻地位庫數據表之間通過“字Unicode”建 立索引。
[0022]因此,本發(fā)明可以獲得以下的有益效果:將謗文源文檔進行數字化處理轉換為謗 文電子數據,方便進行輸入、查找和更新;將謗文源文檔中的聲母、韻母、尾音按照國際音標 轉寫表轉寫,方便了謗文數據庫的建立以及謗文電子數據的查詢;將謗文電子數據按照類 別分別導入到書庫數據表、卷次庫數據表、句子庫數據表、被釋詞庫數據表、左音音庫數據 表、右音音庫數據表、字庫數據表、單字庫數據表中,便于分類查詢;為每一個數據表建立多 個用于描述該數據表的字段,通過查詢檢索命令可檢索到謗文電子數據中的句子、詞語、漢 字、漢字謗文注首左首、漢字謗文注首右首、左首國際首標、右首國際首標、漢字首韻地位等 詳細信息。
【專利附圖】
【附圖說明】
[0023]下面將結合附圖及實施例對本發(fā)明作進一步說明,附圖中:
[0024]圖1是本發(fā)明一個實施例的建立謗文數據庫的方法流程圖;
[0025]圖2是本發(fā)明圖1所述實施例的數據庫結構框圖;
[0026]圖3是本發(fā)明圖1所述實施例的數據庫可視關系圖;
[0027]圖4是本發(fā)明一個實施例的謗文數據庫檢索系統(tǒng)的結構框圖。
【具體實施方式】
[0028]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術特征只要 彼此之間未構成沖突就可以相互組合。
[0029]圖1是本發(fā)明一個實施例的建立謗文數據庫的方法流程圖。如圖1所示,本發(fā)明 建立謗文數據的方法包括以下步驟:[0030]S1、按照謗文類別構建數據表,具體包括書庫數據表、卷次庫數據表、句子庫數據 表、被釋詞庫數據表、左音音庫數據表、右音音庫數據表、字庫數據表、單字庫數據表;
[0031]S2、根據各類別謗文的屬性在相應數據表中設置謗文屬性字段,并選取字段為數 據表之間建立索引;
[0032]S3、將謗文源文檔轉換為謗文電子數據;
[0033]S4、將謗文電子數據按照類別分別導入相應的數據表中,由此生成謗文數據庫。
[0034]在本實施例中,以《翻譯老乞大》、《翻譯樸通事》、《老乞大謗解》、《樸通事謗解》、《老 乞大新釋謗解》、《樸通事新釋謗解》及《重刊老乞大謗解》七本書(以下簡稱謗譯《老樸》)作 為本實施例中進行數據庫構建的源文檔。
[0035]圖2是圖1所述實施例的數據庫結構框圖。如圖2所示,數據庫包括書庫數據表、 卷次庫數據表、句子庫數據表、被釋詞庫數據表、左音音庫數據表、右音音庫數據表、字庫數 據表、單字庫數據表。步驟SI中,數據表的建立依據語言學結構,按照謗文類別進行構建, 便于進行分類查詢。
[0036]步驟S2中,根據各類別謗文的屬性在相應數據表中設置謗文屬性字段,其中,書 庫數據表包含上述七本書的基本信息,具體為包含謗文電子數據的書名號、書名、作者、成 書年代、所據底本、收錄源字段信息;
[0037]卷次庫數據表包含七本書的所有卷次信息,具體為包含謗文電子數據的卷號、書 名號、卷次字段信息;
[0038]句子庫數據表包含七本書的所有句子信息,具體為包含謗文電子數據的句號、卷 號、頁碼、正文帶頁碼及顏色標記、正文、中文句子、謗文注釋、句子備注字段信息;
[0039]被釋詞庫數據表包含句子庫里每句話中所含每個漢字的信息(重復漢字需反復記 錄),具體為包含謗文電子數據的被釋詞號、句號、漢字號、被釋詞號、漢字備注、謗文左音、 謗文左音備注、謗文左點、謗文左點備注、謗文左音標號、謗文右音、謗文右音備注、謗文右 點、謗文右點備注、謗文右音標號、漢字左點、漢字左點備注、漢字右點、漢字右點備注字段 信息;
[0040]左音音庫數據表包含七本書的所有漢字左音謗文注音信息,具體為包含謗文電子 數據的左音標號、謗文左音、謗文左音轉寫、左音聲母、左音韻母、左音尾音字段信息;
[0041]右音音庫數據表包含七本書的所有漢字右音謗文注音信息,具體為包含謗文電子 數據的右音標號、謗文右音、謗文右音轉寫、右音聲母、右音韻母、右音尾音字段信息;
[0042]字庫數據表包含七本書中所有漢字的信息(重復漢字只記錄一次,但同字異書、難 寫字分別記錄),具體為包含謗文電子數據的漢字號、字Unicode、被釋漢字字段信息;
[0043]單字庫數據表包含七本書中所有漢字的信息(重復漢字只記錄一次),具體為包含 謗文電子數據的單字號、字Unicode、字字段信息;
[0044]音韻地位庫數據表包含單字庫里所有漢字的音韻地位信息,具體為包含謗文電子 數據的字Unicode、字音號、字、音書、反切上字、反切下字、攝、韻、呼、等、調、紐字段信息。
[0045]圖3是圖1所述實施例的數據庫可視關系圖。本實施所述方法的步驟S2中,選擇 字段名稱為數據表之間建立索引。如圖3所示,書庫數據表與卷次庫數據表之間通過“書 名號”建立索引;卷次庫數據表與句子庫數據表之間通過“卷號”建立索引;句子庫數據表 與被釋詞庫數據表之間通過“句號”建立索引;被釋詞庫數據表與左音音庫數據表之間通過“謗文左音標號”建立索引;被釋詞庫數據表與右音音庫數據表之間通過“謗文右音標號”建立索引;被釋詞庫數據表與字庫數據表之間通過“漢字號”建立索引;字庫數據表與單字庫數據表之間通過“字Unicode”建立索引;單字庫數據表與音韻地位庫數據表之間通過“字 Unicode”建立索引。
[0046]本實施所述方法的步驟S3中,將上述謗譯《老樸》源文檔共計75萬5千余字完整數字化即全部轉換為可進行文本查找的謗文電子數據。在源文檔數字化的過程中,對謗譯 《老樸》的聲母、韻母及韻尾國際音標轉寫采用如下方式:
[0047]I)送氣音的轉寫標志,根據最新版的國際音標,本實施例中使用“h”表示送氣音。
[0048]2)由于謗譯《老樸》的了組和T組字母區(qū)分不嚴謹,即不分左右腿長短,為了能夠比較客觀地地反映7組和歹組字母注音的原始信息,本實施例中把左右腿不分長短的 “入六人XXAA’,注成“t§ tsh S dw”以作區(qū)別?!叭胩烊?,,與腭介音的二等、三等、四等結合時,注成“te tehe”。
[0049]3)謗文字母不同而韻尾相同的國際音標后面,采用阿拉伯數字加以區(qū)別,這樣的做法是為了方便數據庫各種關系的建立,能夠通過一種國際音標轉寫迅速找到對應的謗文。比如:暫uai]和uaq2,這兩個字是同字異書,區(qū)別在于尾音,一個尾音是‘O”,另一
個尾音是“ o ”,兩個尾音的國際音標都是“q”,為了方便將來查找,把“ o ”的國際音標用
^表示以作區(qū)別。
[0050]4) “一、”用“~],,標注,“[”用“~V,標注。
[0051]本實施例中將謗文源文檔(謗譯《老樸》)中的聲母、韻母、尾音的謗文讀音按照相應的轉寫表轉寫為謗文數據庫中的聲母、韻母、尾音的國際音標讀音,所述轉寫表如下:
[0052]`
【權利要求】
1.一種建立謗文數據庫的方法,其特征在于,所述方法包括以下步驟:51、按照謗文類別構建數據表,具體包括書庫數據表、卷次庫數據表、句子庫數據表、被釋詞庫數據表、左音音庫數據表、右音音庫數據表、字庫數據表、單字庫數據表;52、根據各類別謗文的屬性在相應數據表中設置謗文屬性字段,并選取字段為數據表之間建立索引;53、將謗文源文檔轉換為謗文電子數據;54、將所述謗文電子數據按照類別分別導入相應的數據表中,由此生成謗文數據庫。
2.如權利要求1所述的建立謗文數據庫的方法,其特征在于,所述書庫數據表包含所述謗文電子數據的書名號、書名、作者、成書年代、所據底本、收錄源字段信息,所述卷次庫數據表包含所述謗文電子數據的卷號、書名號、卷次字段信息,所述句子庫數據表包含所述謗文電子數據的句號、卷號、頁碼、正文帶頁碼及顏色標記、正文、中文句子、謗文注釋、句子備注字段信息,所述被釋詞庫數據表包含所述謗文電子數據的被釋詞號、句號、漢字號、被釋詞號、漢字備注、謗文左音、謗文左音備注、謗文左點、謗文左點備注、謗文左音標號、謗文右音、謗文右音備注、謗文右點、謗文右點備注、謗文右音標號、漢字左點、漢字左點備注、漢字右點、漢字右點備注字段信息,所述左音音庫數據表包含所述謗文電子數據的左音標號、 謗文左音、謗文左音轉寫、左音聲母、左音韻母、左音尾音字段信息,所述右音音庫數據表包含所述謗文電子數據的右音標號、謗文右音、謗文右音轉寫、右音聲母、右音韻母、右音尾音字段信息,所述字庫數據表包含所述謗文電子數據的漢字號、字Unicode、被釋漢字字段信息,所述單字庫數據表包含所述謗文電子數據的單字號、字Unicode、字字段信息,所述音韻地位庫數據表包含所述謗文電子數據的字Unicode、字音號、字、音書、上字、反切下字、攝、 韻、呼、等、調、紐字段息。
3.如權利要求2所述的建立謗文數據庫的方法,其特征在于,所述書庫數據表與所述卷次庫數據表之間通過“書名號”建立索引;所述卷次庫數據表與所述句子庫數據表之間通過“卷號”建立索引;所述句子庫數據表與所述被釋詞庫數據表之間通過“句號”建立索引; 所述被釋詞庫數據表與所述左音音庫數據表之間通過“謗文左音標號”建立索引;所述被釋詞庫數據表與所述右音音庫數據表之間通過“謗文右音標號”建立索引;所述被釋詞庫數據表與所述字庫數據表之間通過“漢字號”建立索引;所述字庫數據表與所述單字庫數據表之間通過“字Unicode”建立索引;所述單字庫數據表與所述音韻地位庫數據表之間通過“字 Unicode”建立索引。
4.一種由如權利要求1-3任一項所述的方法構建的謗文數據庫。
5.一種謗文數據庫檢索系統(tǒng),其特征在于,所述系統(tǒng)包括:輸入模塊,用于輸入檢索命令;與所述輸入模塊相連的檢索模塊,用于接受所述檢索命令并根據所述檢索命令進行檢索以獲取謗文數據庫中的謗文電子數據信息,并控制輸出模塊輸出查詢檢索結果;與所述檢索模塊相連的,用于存儲謗文電子數據的謗文數據庫,所述謗文數據庫包括書庫數據表、卷次庫數據表、句子庫數據表、被釋詞庫數據表、左音音庫數據表、右音音庫數據表、字庫數據表、單字庫數據表,所述數據表中包括根據各類別謗文的屬性設置的謗文屬性字段,所述數據表之間通過字段建立索引;與所述檢索模塊相連的,用于輸出檢索結果的輸出模塊。
6.如權利要求5所述的謗文數據庫檢索系統(tǒng),其特征在于,所述系統(tǒng)還包括與所述謗文數據庫相連的用于將謗文源文檔轉換為所述謗文電子數據的數據轉換模塊,與所述數據轉換模塊相連的用于在所述謗文源文檔發(fā)生變化時更新所述謗文數據庫中的謗文電子數據的數據更新模塊。
7.如權利要求5所述的謗文數據庫檢索系統(tǒng),其特征在于,所述書庫數據表包含所述謗文電子數據的書名號、書名、作者、成書年代、所據底本、收錄源字段信息,所述卷次庫數據表包含所述謗文電子數據的卷號、書名號、卷次字段信息,所述句子庫數據表包含所述謗文電子數據的句號、卷號、頁碼、正文帶頁碼及顏色標記、正文、中文句子、謗文注釋、句子備注字段信息,所述被釋詞庫數據表包含所述謗文電子數據的被釋詞號、句號、漢字號、被釋詞號、漢字備注、謗文左音、謗文左音備注、謗文左點、謗文左點備注、謗文左音標號、謗文右音、謗文右音備注、謗文右點、謗文右點備注、謗文右音標號、漢字左點、漢字左點備注、漢字右點、漢字右點備注字段信息,所述左音音庫數據表包含所述謗文電子數據的左音標號、謗文左音、謗文左音轉寫、左音聲母、左音韻母、左音尾音字段信息,所述右音音庫數據表包含所述謗文電子數據的右音標號、謗文右音、謗文右音轉寫、右音聲母、右音韻母、右音尾音字段信息,所述字庫數據表包含所述謗文電子數據的漢字號、字Unicode、被釋漢字字段信息, 所述單字庫數據表包含所述謗文電子數據的單字號、字Unicode、字字段信息,所述音韻地位庫數據表包含所述謗文電子數據的字Unicode、字音號、字、音書、反切上字、反切下字、 攝、韻、呼、等、調、紐字段息。
8.如權利要求7所述的謗文數據庫檢索系統(tǒng),其特征在于,所述書庫數據表與所述卷次庫數據表之間通過“書名號”建立索引;所述卷次庫數據表與所述句子庫數據表之間通過 “卷號”建立索引;所述句子庫數據表與所述被釋詞庫數據表之間通過“句號”建立索引;所述被釋詞庫數據表與所述左音音庫數據表之間通過“謗文左音標號”建立索引;所述被釋詞庫數據表與所述右音音庫數據表之間通過“謗文右音標號”建立索引;所述被釋詞庫數據表與所述字庫數據表之間通過“漢字號”建立索引;所述字庫數據表與所述單字庫數據表之間通過“字Unicode”建立索引;所述單字庫數據表與所述音韻地位庫數據表之間通過“字 Unicode”建立索引。
【文檔編號】G06F17/30GK103605755SQ201310597535
【公開日】2014年2月26日 申請日期:2013年11月23日 優(yōu)先權日:2013年11月23日
【發(fā)明者】朱煒, 尉遲治平, 高天俊, 尉遲明 申請人:華中科技大學