文檔結(jié)構(gòu)化方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文檔結(jié)構(gòu)化方法和裝置。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,在印刷排版行業(yè)中,出版社收到大量來稿時(shí),由于來稿的格式不統(tǒng)一,出版社需要采用規(guī)則對(duì)來稿進(jìn)行結(jié)構(gòu)化,然后對(duì)來稿中不能采用規(guī)則進(jìn)行結(jié)構(gòu)化的無規(guī)則內(nèi)容,例如中英文標(biāo)題、中英文作者及作者單位的格式進(jìn)行整理,得到結(jié)構(gòu)化文檔,然后根據(jù)結(jié)構(gòu)化文檔來制作圖書或者期刊。
[0003]然而現(xiàn)有技術(shù)中,出版社通過投入大量的人力來人工整理無規(guī)則內(nèi)容的格式,導(dǎo)致文檔結(jié)構(gòu)化的效率低,出錯(cuò)率高。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供一種文檔結(jié)構(gòu)化方法和裝置,用于解決現(xiàn)有技術(shù)中文檔結(jié)構(gòu)化的效率低,出錯(cuò)率高的問題。
[0005]本發(fā)明的第一個(gè)方面是提供一種文檔結(jié)構(gòu)化方法,包括:
[0006]創(chuàng)建Schema文件和結(jié)構(gòu)化規(guī)則文件;
[0007]根據(jù)所述結(jié)構(gòu)化規(guī)則文件和所述Schema文件對(duì)文檔進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化后的文檔,所述結(jié)構(gòu)化后的文檔中包括已結(jié)構(gòu)化的內(nèi)容和未結(jié)構(gòu)化的無規(guī)則內(nèi)容;
[0008]獲取所述結(jié)構(gòu)化后的文檔中預(yù)設(shè)的標(biāo)志性標(biāo)簽的位置;
[0009]根據(jù)所述標(biāo)志性標(biāo)簽的位置獲取所述結(jié)構(gòu)化后的文檔中的無規(guī)則內(nèi)容;
[0010]根據(jù)預(yù)設(shè)的特殊樣式或者段落位置優(yōu)勢(shì)對(duì)所述無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化文檔。
[0011]本發(fā)明的另一個(gè)方面提供一種文檔結(jié)構(gòu)化裝置,包括:
[0012]創(chuàng)建模塊,用于創(chuàng)建Schema文件和結(jié)構(gòu)化規(guī)則文件;
[0013]結(jié)構(gòu)化模塊,用于根據(jù)所述結(jié)構(gòu)化規(guī)則文件和所述Schema文件對(duì)文檔進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化后的文檔,所述結(jié)構(gòu)化后的文檔中包括已結(jié)構(gòu)化的內(nèi)容和未結(jié)構(gòu)化的無規(guī)貝IJ內(nèi)容;
[0014]獲取模塊,用于獲取所述結(jié)構(gòu)化后的文檔中預(yù)設(shè)的標(biāo)志性標(biāo)簽的位置;
[0015]所述獲取模塊,還用于根據(jù)所述標(biāo)志性標(biāo)簽的位置獲取所述結(jié)構(gòu)化后的文檔中的無規(guī)則內(nèi)容;
[0016]所述結(jié)構(gòu)化模塊,還用于根據(jù)預(yù)設(shè)的特殊樣式或者段落位置優(yōu)勢(shì)對(duì)所述無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化文檔。
[0017]本發(fā)明中,通過根據(jù)結(jié)構(gòu)化規(guī)則文件和Schema文件對(duì)文檔進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化后的文檔,結(jié)構(gòu)化后的文檔中包括已結(jié)構(gòu)化的內(nèi)容和未結(jié)構(gòu)化的無規(guī)則內(nèi)容,獲取結(jié)構(gòu)化后的文檔中預(yù)設(shè)的標(biāo)志性標(biāo)簽的位置,根據(jù)標(biāo)志性標(biāo)簽的位置獲取結(jié)構(gòu)化后的文檔中的無規(guī)則內(nèi)容,根據(jù)預(yù)設(shè)的特殊樣式或者段落位置優(yōu)勢(shì)對(duì)無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化文檔,而不需要人工整理無規(guī)則內(nèi)容的格式,從而提高了文檔結(jié)構(gòu)化的效率,降低了文檔結(jié)構(gòu)化的出錯(cuò)率。
【附圖說明】
[0018]圖1為本發(fā)明提供的文檔結(jié)構(gòu)化方法一個(gè)實(shí)施例的流程圖;
[0019]圖2為本發(fā)明提供的文檔結(jié)構(gòu)化方法又一個(gè)實(shí)施例的流程圖;
[0020]圖3為本發(fā)明提供的文檔結(jié)構(gòu)化方法另一個(gè)實(shí)施例的流程圖;
[0021]圖4為本發(fā)明提供的文檔結(jié)構(gòu)化裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0023]圖1為本發(fā)明提供的文檔結(jié)構(gòu)化方法一個(gè)實(shí)施例的流程圖,如圖1所示,包括:
[0024]101、創(chuàng)建Schema文件和結(jié)構(gòu)化規(guī)則文件。
[0025]本發(fā)明提供的文檔結(jié)構(gòu)化方法的執(zhí)行主體可以為文檔結(jié)構(gòu)化裝置,文檔結(jié)構(gòu)化裝置具體可以為保存于計(jì)算機(jī)中用于對(duì)文檔進(jìn)行結(jié)構(gòu)化的軟件或系統(tǒng)。
[0026]規(guī)則(Schema)是一組為了描述某一類XML文檔而定義好的一套規(guī)則,用于對(duì)一類XML文檔進(jìn)行約束并確定其結(jié)構(gòu),Schema文件中可以包括文檔結(jié)構(gòu)和基本元素類型,Schema文件中的文檔結(jié)構(gòu)和基本元素類型為文檔結(jié)構(gòu)化裝置根據(jù)對(duì)大量的圖書或期刊文檔樣張進(jìn)行分析得到的規(guī)范進(jìn)行創(chuàng)建的。Schema文件采用w3c標(biāo)準(zhǔn),后綴名為XSD。文檔結(jié)構(gòu)可以包括多個(gè)結(jié)構(gòu)單位,例如文檔中的標(biāo)題、篇、章、節(jié)等,文檔結(jié)構(gòu)中還可以包括標(biāo)題、篇、章、節(jié)等之間的位置關(guān)系或順序關(guān)系。基本元素類型可以包括:普通框架元素,樣式框架元素,標(biāo)題框架元素,復(fù)用框架元素和混合元素中的一種或多種。上述各種元素中可以包括字體、字形、字號(hào)、是否加粗、字間距、段落對(duì)齊方式、行間距等參數(shù)。
[0027]結(jié)構(gòu)化規(guī)則文件具體可以為可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)文件,結(jié)構(gòu)化規(guī)則文件中可以包括至少一個(gè)結(jié)構(gòu)化規(guī)則,結(jié)構(gòu)化規(guī)則文件中的結(jié)構(gòu)化規(guī)則具體可以為格式匹配規(guī)則,樣式匹配規(guī)則,大綱級(jí)別匹配規(guī)則和自定義通配符匹配規(guī)則中的一種或多種。其中,格式匹配規(guī)則,用于規(guī)定文字格式來匹配文檔結(jié)構(gòu);樣式匹配規(guī)貝U,用于規(guī)定段落樣式來匹配文檔結(jié)構(gòu);大綱級(jí)別匹配規(guī)則,用于規(guī)定大綱級(jí)別來匹配文檔結(jié)構(gòu);自定義通配符匹配規(guī)則,用于規(guī)定通配符來自定義匹配文檔結(jié)構(gòu)。另外,文檔結(jié)構(gòu)與匹配規(guī)則之間的對(duì)應(yīng)關(guān)系可以為一對(duì)多配置,以解決一個(gè)結(jié)構(gòu)單位在不同文檔中不同的顯示方式,例如,格式匹配規(guī)則可以為:【內(nèi)容摘要】or[\[【]摘要[】\]]or摘[]{1,}要or摘要[::]or[\[【]摘[]{1,}要[】\]]。
[0028]102、根據(jù)結(jié)構(gòu)化規(guī)則文件和Schema文件對(duì)文檔進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化后的文檔,結(jié)構(gòu)化后的文檔中包括已結(jié)構(gòu)化的內(nèi)容和未結(jié)構(gòu)化的無規(guī)則內(nèi)容。
[0029]其中,當(dāng)文檔結(jié)構(gòu)包括多個(gè)結(jié)構(gòu)單位,且結(jié)構(gòu)單位與基本元素類型對(duì)應(yīng)時(shí),步驟102具體可以包括:根據(jù)結(jié)構(gòu)化規(guī)則對(duì)文檔結(jié)構(gòu)進(jìn)行匹配,將匹配成功的結(jié)構(gòu)單位、結(jié)構(gòu)單位對(duì)應(yīng)的基本元素類型與結(jié)構(gòu)化規(guī)則組成實(shí)例化規(guī)則;根據(jù)實(shí)例化規(guī)則對(duì)文檔進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化后的文檔。
[0030]103、獲取結(jié)構(gòu)化后的文檔中預(yù)設(shè)的標(biāo)志性標(biāo)簽的位置。
[0031 ] 104、根據(jù)標(biāo)志性標(biāo)簽的位置獲取結(jié)構(gòu)化后的文檔中的無規(guī)則內(nèi)容。
[0032]105、根據(jù)預(yù)設(shè)的特殊樣式或者段落位置優(yōu)勢(shì)對(duì)無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化文檔。
[0033]文檔結(jié)構(gòu)化裝置根據(jù)預(yù)設(shè)的特殊樣式或者段落位置優(yōu)勢(shì)對(duì)無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化文檔之后,文檔結(jié)構(gòu)化裝置還可以對(duì)無規(guī)則內(nèi)容結(jié)構(gòu)化后得到的內(nèi)容進(jìn)行驗(yàn)證。
[0034]本實(shí)施例中,通過根據(jù)結(jié)構(gòu)化規(guī)則文件和Schema文件對(duì)文檔進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化后的文檔,結(jié)構(gòu)化后的文檔中包括已結(jié)構(gòu)化的內(nèi)容和未結(jié)構(gòu)化的無規(guī)則內(nèi)容,獲取結(jié)構(gòu)化后的文檔中預(yù)設(shè)的標(biāo)志性標(biāo)簽的位置,根據(jù)標(biāo)志性標(biāo)簽的位置獲取結(jié)構(gòu)化后的文檔中的無規(guī)則內(nèi)容,根據(jù)預(yù)設(shè)的特殊樣式或者段落位置優(yōu)勢(shì)對(duì)無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化文檔,而不需要人工整理無規(guī)則內(nèi)容的格式,從而提高了文檔結(jié)構(gòu)化的效率,降低了文檔結(jié)構(gòu)化的出錯(cuò)率。
[0035]圖2為本發(fā)明提供的文檔結(jié)構(gòu)化方法又一個(gè)實(shí)施例的流程圖,如圖2所示,在圖1所示實(shí)施例的基礎(chǔ)上,標(biāo)志性標(biāo)簽可以包括中文摘要標(biāo)簽和英文摘要標(biāo)簽。
[0036]對(duì)應(yīng)的,步驟104具體可以包括:
[0037]141、從中文摘要標(biāo)簽的位置向前找到結(jié)構(gòu)化后的文檔中的開始位置,得到第一塊無規(guī)則內(nèi)容。
[0038]1042、從英文摘要標(biāo)簽的位置向前找到第一段中文段落的末尾,得到第二塊無規(guī)貝IJ內(nèi)容。
[0039]其中,中文摘要標(biāo)簽和英文摘要標(biāo)簽為文檔結(jié)構(gòu)化裝置通過對(duì)大量文檔進(jìn)行分析得到的文檔中有規(guī)則文本內(nèi)容與無規(guī)則文本內(nèi)容的分割節(jié)點(diǎn)。
[0040]對(duì)應(yīng)的,在第一種實(shí)施場(chǎng)景下,步驟105具體可以包括:
[0041]1051、遍歷第一塊無規(guī)則內(nèi)容,查找最大字號(hào)中文段落。
[0042]1052、若查找到最大字號(hào)中文段落,將最大字號(hào)中文段落的格式設(shè)置為中文標(biāo)題格式。
[0043]文檔結(jié)構(gòu)化裝置將最大字號(hào)中文段落的格式設(shè)置為中文標(biāo)題格式后,可以將中文標(biāo)題與中文摘要之間的中間段落中的第一段設(shè)置為中文作者格式,將中間段落中的其他段落設(shè)置為中文作者單位格式。
[0044]1053、若未查找到最大字號(hào)中文段落,根據(jù)段落位置優(yōu)勢(shì)對(duì)第一塊無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化。
[0045]具體地,若未查找到最大字號(hào)中文段落,文檔結(jié)構(gòu)化裝置可以直接將第一塊無規(guī)則內(nèi)容中的第一段設(shè)置為中文標(biāo)題格式,將中文標(biāo)題與中文摘要之間的中間段落中的第一段設(shè)置為中文作者格式,將中間段落中的其他段落設(shè)置為中文作者單位格式。
[0046]1054、遍歷第二塊無規(guī)則內(nèi)容,查找最大字號(hào)英文段落。
[0047]1055、若查找到最大字號(hào)英文段落,將最大字號(hào)英文段落的格式設(shè)置為英文標(biāo)題格式。
[0048]文檔結(jié)構(gòu)化裝置將最大字號(hào)英文段落的格式設(shè)置為英文標(biāo)題格式后,可以將英文標(biāo)題與英文摘要之間的中間段落中的第一段設(shè)置為英文作者格式,將中間段落中的其他段落設(shè)置為英文作者單位格式。
[0049]1056、若未查找到最大字號(hào)英文段落,根據(jù)段落位置優(yōu)勢(shì)對(duì)第二塊無規(guī)則內(nèi)容進(jìn)行結(jié)構(gòu)化。
[0050]具體地,若未查找到最大字號(hào)英文段落,文檔結(jié)構(gòu)化裝置可以直接將第二塊無規(guī)則內(nèi)容中的第一段設(shè)置為英文標(biāo)題格式,將英文標(biāo)題與英文摘要之間的中間段落中的第一段設(shè)置為英文作者格式,將中間段落中的其他段落設(shè)置為英文作者單位格式。
[0051]對(duì)應(yīng)的,在第二種實(shí)施場(chǎng)景下,如圖3所示,步驟105具體可以包括:
[0052]1057、將第一塊無規(guī)則內(nèi)容中的第一段設(shè)置為中文標(biāo)題格式。
[0053]具體地,文檔結(jié)構(gòu)化裝置還可以將中文標(biāo)題與中文摘要之間的中間段落中的第一段設(shè)置為中文作者格式,將中間段落中的其他段落設(shè)置為中文作者單位格式。
[0054]1058、將第二塊無規(guī)則內(nèi)容中的第一段設(shè)置為英文標(biāo)題格式。
[0055]具體地,文檔結(jié)構(gòu)化裝置還可以將英文標(biāo)題與英文摘要之間的中間段落中的第一段設(shè)置為英文作者格式,將中間段落中的其他段落設(shè)置為英文作者單位格式。
[0056]本實(shí)施例中,通過根據(jù)結(jié)構(gòu)化規(guī)則文件和Schema文件對(duì)文檔進(jìn)行結(jié)構(gòu)化,得到結(jié)構(gòu)化后的文檔,結(jié)構(gòu)化后的文檔中包括已