欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于提取文檔結(jié)構(gòu)的方法和裝置的制作方法

文檔序號:6432344閱讀:219來源:國知局
專利名稱:用于提取文檔結(jié)構(gòu)的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字出版領(lǐng)域,具體而言,涉及用于提取文檔結(jié)構(gòu)的方法和裝置。
背景技術(shù)
在傳統(tǒng)出版領(lǐng)域,書籍、報刊的文檔格式只是為了滿足傳統(tǒng)印刷的需求,對于內(nèi)容的描述局限于文字、圖形、圖像的輪廓、顏色、位置等視覺要素,沒有構(gòu)建文檔的邏輯內(nèi)容和內(nèi)在關(guān)系。在數(shù)字出版領(lǐng)域,對文檔的邏輯內(nèi)容、關(guān)聯(lián)關(guān)系、內(nèi)容的顆粒度更為關(guān)注,對文檔進(jìn)行結(jié)構(gòu)化加工是進(jìn)行數(shù)字內(nèi)容再利用的前提條件。一篇標(biāo)準(zhǔn)完整的文檔的內(nèi)容通??梢詣澐譃槎鄠€級別的顆粒,例如第一級為篇、第二級為章、第三級為節(jié)、第四級為段、第五級為句等。通過預(yù)先以篇章節(jié)段句為內(nèi)容樣式設(shè)置匹配規(guī)則,對文檔進(jìn)行匹配,可以識別出對應(yīng)于篇章節(jié)段句的內(nèi)容,并以結(jié)構(gòu)標(biāo)簽予以標(biāo)注。發(fā)明人發(fā)現(xiàn),篇章節(jié)段句這些都是一個比較抽象和空泛的概念。對于不同的文檔類型,它們的內(nèi)容樣式可能各不相同,比如試卷這樣的文檔,它的內(nèi)容可以劃分的顆粒度可能為大題、題干、選項或者答案等。因此相關(guān)技術(shù)為了對不同類型的文檔提取文檔結(jié)構(gòu),必須分別規(guī)定對應(yīng)于不同內(nèi)容樣式的匹配規(guī)則,以生成不同的結(jié)構(gòu)標(biāo)簽。這導(dǎo)致操作比較繁瑣,容易出錯。

發(fā)明內(nèi)容
本發(fā)明旨在提供用于提取文檔結(jié)構(gòu)的方法和裝置,以解決相關(guān)技術(shù)操作比較繁瑣的問題。在本發(fā)明的實施例中,提供了一種用于提取文檔結(jié)構(gòu)的方法,包括以預(yù)設(shè)的內(nèi)容樣式規(guī)則識別文檔的內(nèi)容的顆粒;以條目標(biāo)簽標(biāo)注顆粒;從預(yù)設(shè)的映射規(guī)則組中選擇與文檔的類型相對應(yīng)的映射規(guī)則;使用選擇的映射規(guī)則將條目標(biāo)簽映射到結(jié)構(gòu)標(biāo)簽;使用結(jié)構(gòu)標(biāo)簽標(biāo)注顆粒。在本發(fā)明的實施例中,一種用于提取文檔結(jié)構(gòu)的裝置,包括識別模塊,用于以預(yù)設(shè)的內(nèi)容樣式規(guī)則識別文檔的內(nèi)容的顆粒;條目標(biāo)注模塊,用于以條目標(biāo)簽標(biāo)注顆粒;映射選擇模塊,用于從預(yù)設(shè)的映射規(guī)則組中選擇與文檔的類型相對應(yīng)的映射規(guī)則;映射模塊,用于使用選擇的映射規(guī)則將條目標(biāo)簽映射到結(jié)構(gòu)標(biāo)簽;結(jié)構(gòu)標(biāo)注模塊,用于使用結(jié)構(gòu)標(biāo)簽標(biāo)注顆粒。本發(fā)明上述實施例的用于提取文檔結(jié)構(gòu)的方法和裝置,因為采用條目標(biāo)簽隔離結(jié)構(gòu)標(biāo)簽與內(nèi)容樣式,所以克服了相關(guān)技術(shù)操作繁瑣的問題,達(dá)到了提高提取文檔結(jié)構(gòu)效率的效果。


此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的方法的流程圖;圖2示出了根據(jù)本發(fā)明優(yōu)選實施例的MVC模型;圖3示出了根據(jù)本發(fā)明優(yōu)選實施例的用于提取文檔結(jié)構(gòu)的方法的流程圖;圖4示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的裝置的示意圖。
具體實施例方式下面將參考附圖并結(jié)合實施例,來詳細(xì)說明本發(fā)明。圖I示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的方法的流程圖,包括以預(yù)設(shè)的內(nèi)容樣式規(guī)則識別文檔的內(nèi)容的顆粒;以條目標(biāo)簽標(biāo)注顆粒;從預(yù)設(shè)的映射規(guī)則組中選擇與文檔的類型相對應(yīng)的映射規(guī)則;使用選擇的映射規(guī)則將條目標(biāo)簽映射到結(jié)構(gòu)標(biāo)簽;使用結(jié)構(gòu)標(biāo)簽標(biāo)注顆粒。相關(guān)技術(shù)對不同類型的文檔提取文檔結(jié)構(gòu),必須分別規(guī)定對應(yīng)于不同內(nèi)容樣式的匹配規(guī)則,以生成不同的結(jié)構(gòu)標(biāo)簽。這導(dǎo)致操作比較繁瑣,容易出錯。發(fā)明人對此進(jìn)行了深入研究,發(fā)現(xiàn)上述相關(guān)技術(shù)固定地設(shè)置各種結(jié)構(gòu)標(biāo)簽的內(nèi)容樣式,即結(jié)構(gòu)標(biāo)簽與內(nèi)容樣式之間的耦合度較大,無法靈活地適應(yīng)各種不同的文檔類型,不利于后期維護(hù)和功能擴展。本發(fā)明上述實施例的方法中,創(chuàng)建了條目標(biāo)簽,條目標(biāo)簽僅僅標(biāo)注文檔內(nèi)容的顆粒層級,而不關(guān)注顆粒的其他任何屬性。不管是試卷、論文還是其他類型的文檔,在這一點上都是相同的,即都需要將文檔內(nèi)容劃分層級,建立樹狀結(jié)構(gòu)。至于和文檔類型相關(guān)的其他結(jié)構(gòu)屬性,本實施例通過標(biāo)簽映射規(guī)則來處理,從而使得結(jié)構(gòu)標(biāo)簽與內(nèi)容樣式規(guī)則相互獨立,中間隔離了條目標(biāo)簽。因此,通過打破結(jié)構(gòu)標(biāo)簽與內(nèi)容樣式之間的耦合,從而可以靈活地適應(yīng)各種不同的文檔類型。優(yōu)選地,條目標(biāo)簽包括顆粒的段落標(biāo)題、段落內(nèi)容、位置和層級,文檔的類型包括以下至少之一新聞、小說、課文、論文、辭書、試卷。本優(yōu)選實施例列舉了一些主要的類型,根據(jù)這些類型可以預(yù)先定義映射規(guī)則,例如針對試卷類型,可以選用試卷類型的映射規(guī)則,將條目標(biāo)簽標(biāo)注的一級顆粒映射為結(jié)構(gòu)標(biāo)簽的“科目”屬性,將條目標(biāo)簽標(biāo)注的二級顆粒映射為結(jié)構(gòu)標(biāo)簽的“題干”屬性。以上描述用于舉例說明本發(fā)明,本發(fā)明并不限定于此。顯然規(guī)定其他文檔類型及其對應(yīng)的映射規(guī)則,也屬于本發(fā)明的精神范圍。優(yōu)選地,結(jié)構(gòu)標(biāo)簽包括條目標(biāo)簽的內(nèi)容,還包括名稱,用于指示顆粒的結(jié)構(gòu)類型;范圍,用于指示當(dāng)前顆粒的起始位置到下一顆粒的起始位置的內(nèi)容。例如,步驟SlO在一份試卷文檔中識別到一個顆粒,以條目標(biāo)簽標(biāo)注該顆粒段落標(biāo)題是“語文期末考試”,段落內(nèi)容是“語文期末考試”,位置為文檔開始位置,層級為一級。根據(jù)該文檔為試卷文檔,應(yīng)當(dāng)選擇試卷類的映射規(guī)則,將該條目標(biāo)簽映射為試卷類的結(jié)構(gòu)標(biāo)簽,該結(jié)構(gòu)標(biāo)簽除了包括上述條目標(biāo)簽的內(nèi)容,還可以包括名稱“科目”,范圍為當(dāng)前的一級顆粒的起始位置到下一個顆粒的起始位置。顯然,本發(fā)明并不限定于此,用戶還可以根據(jù)需求對結(jié)構(gòu)標(biāo)簽規(guī)定其他屬性,例如規(guī)定試卷類的結(jié)構(gòu)標(biāo)簽還包括難度屬性、學(xué)期屬性等。優(yōu)選地,本方法還包括從顯示規(guī)則組選擇與文檔的類型相對應(yīng)的顯示規(guī)則;使用選擇的顯示規(guī)則,根據(jù)結(jié)構(gòu)標(biāo)簽的標(biāo)注顯示文檔的內(nèi)容。在本優(yōu)選實施例中,進(jìn)一步將顯示處理也與內(nèi)容樣式的規(guī)定隔離,從而進(jìn)一步提高了提取文檔結(jié)構(gòu)的效率。優(yōu)選地,采用XML格式定義顯示規(guī)則。XML是標(biāo)準(zhǔn)的結(jié)構(gòu)化語言,用于定義顯示規(guī)則比較容易實現(xiàn)。根據(jù)本發(fā)明的上述優(yōu)選實施例,形成了一種MVC模型,如圖2所示。即將內(nèi)容樣式規(guī)則封裝為數(shù)據(jù)模型模塊,用于劃分文檔內(nèi)容為顆粒,構(gòu)建樹狀模型,此為MVC模型中的Model ;然后將具體映射方法封裝為標(biāo)簽映射結(jié)構(gòu)化控制模塊,即為MVC中ContiOl ;最后將顯示規(guī)則封裝為映射結(jié)果顯示模塊,用于將結(jié)構(gòu)標(biāo)簽組合為最終的顯示樣式,即為MVC中的Viewer。數(shù)據(jù)模型模塊M、標(biāo)簽映射結(jié)構(gòu)化控制模塊C、映射結(jié)果顯示模塊V,三個模塊之間是解耦合的關(guān)系,各自負(fù)責(zé)各自的功能,同時M模塊通過控制模塊C與顯示模塊V發(fā)生關(guān)系,這樣可以實現(xiàn)內(nèi)容與形式的分離,為整個系統(tǒng)的靈活性處理打下了基礎(chǔ)。優(yōu)選地,在上述的方法中還包括提供界面,接受用戶自定義新的映射規(guī)則或者修改已有的映射規(guī)則。因為軟件提供者初始定義的各種映射規(guī)則不一定能滿足用戶的需求,即不一定能產(chǎn)生用戶期望的結(jié)構(gòu)標(biāo)簽,所以通過提供一個交互界面,用戶可以更靈活地補充修改已有的映射規(guī)則,從而得到期望的結(jié)構(gòu)標(biāo)簽。通過該界面用戶可以按照實際情況維護(hù)個性化的標(biāo)簽類型,比如添加,修改或者刪除標(biāo)簽類型。比如試卷,用戶可以添加題干,選項,答案等個性化標(biāo)簽類型。這些信息最終以XML文件的形式存儲。優(yōu)選地,在上述的方法中,采用XML格式定義內(nèi)容樣式匹配規(guī)則和映射規(guī)則。XML是標(biāo)準(zhǔn)的結(jié)構(gòu)化語言,用于定義匹配規(guī)則和映射規(guī)則比較容易實現(xiàn)。圖3示出了根據(jù)本發(fā)明優(yōu)選實施例的用于提取文檔結(jié)構(gòu)的方法的流程圖,包括以下步驟步驟S0,獲取文檔的內(nèi)容,按照內(nèi)容樣式規(guī)則劃分文檔內(nèi)容的顆粒,用條目標(biāo)簽予以標(biāo)注。步驟SI,收集所有條目標(biāo)簽,按照樹形結(jié)構(gòu)存儲條目標(biāo)簽并顯示,作為整個系統(tǒng)的數(shù)據(jù)模型;步驟S2,使用標(biāo)簽類型定制接口進(jìn)行個性化標(biāo)簽類型定義;更進(jìn)一步,本系統(tǒng)采用窗口接受用戶個性化標(biāo)簽類型的定義,定義標(biāo)簽類型的屬性包括名稱、級別、顯示顏色。用戶可以通過該窗口增加個性化標(biāo)簽類型,也可以對已有的標(biāo)簽類型進(jìn)行修改,或者將已有的標(biāo)簽類型刪除。此外,用戶也可在此對特定標(biāo)簽類型的屬性進(jìn)行擴展或維護(hù),即可以為標(biāo)簽類型增加個性化的屬性,比如字體,字號等。步驟S3,將個性化定制的結(jié)構(gòu)化標(biāo)簽類型結(jié)果按照XML文件形式存儲;更進(jìn)一步,在將自定義標(biāo)簽類型生成XML文件的方式上也可以個性化自定義,即用戶可以自行布局這些個性化標(biāo)簽類型,而不用去關(guān)心具體的條目標(biāo)簽是什么。最后顯示時只需要把條目標(biāo)簽映射到結(jié)構(gòu)化個性標(biāo)簽類型上,那么結(jié)果就自然按照標(biāo)簽類型輸出XML文件定義樣式顯示。步驟S4,使用條目結(jié)構(gòu)化映射算法將條目標(biāo)簽映射為結(jié)構(gòu)標(biāo)簽,然后按照標(biāo)簽類型輸出XML文件中定義的顯示樣式,將映射結(jié)果組裝成一個完整的結(jié)構(gòu)化文檔輸出;更進(jìn)一步,可以根據(jù)標(biāo)題內(nèi)容、章節(jié)級別、標(biāo)簽樹層級、映射標(biāo)簽類型進(jìn)行快速查找需要映射的條目;通過某一屬性對收集到的條目進(jìn)行排序;使用一個或多個屬性、兄弟層次關(guān)系對條目進(jìn)行篩選查找或?qū)l目層級結(jié)構(gòu)進(jìn)行預(yù)覽等;具體步驟包括首先解析文檔,收集對應(yīng)的條目資源,并獲取各個條目的屬性信息,包括章節(jié)級別、標(biāo)簽樹層級,條目標(biāo)簽的標(biāo)題內(nèi)容,對應(yīng)的結(jié)構(gòu)類型;然后根據(jù)條目屬性篩選需要映射的條目;最后批量地對已映射的條目增加對應(yīng)的個性化結(jié)構(gòu)標(biāo)簽類型。步驟S5,將映射結(jié)果組合成完整結(jié)構(gòu)化文檔輸出。圖4示出了根據(jù)本發(fā)明實施例的用于提取文檔結(jié)構(gòu)的裝置的示意圖,包括識別模塊10,用于以預(yù)設(shè)的內(nèi)容樣式規(guī)則識別文檔的內(nèi)容的顆粒;條目標(biāo)注模塊20,用于以條目標(biāo)簽標(biāo)注顆粒;映射選擇模塊30,用于從預(yù)設(shè)的映射規(guī)則組中選擇與文檔的類型相對應(yīng)的映射規(guī)則;映射模塊40,用于使用選擇的映射規(guī)則將條目標(biāo)簽映射到結(jié)構(gòu)標(biāo)簽;結(jié)構(gòu)標(biāo)注模塊50,用于使用結(jié)構(gòu)標(biāo)簽標(biāo)注顆粒。本裝置提高了提取文檔結(jié)構(gòu)的效率。優(yōu)選地,條目標(biāo)簽包括顆粒的段落標(biāo)題、段落內(nèi)容、位置和層級,結(jié)構(gòu)標(biāo)簽包括條目標(biāo)簽的內(nèi)容,還包括名稱,用于指示顆粒的結(jié)構(gòu)類型;范圍,用于指示當(dāng)前顆粒的起始位置到下一顆粒的起始位置的內(nèi)容。優(yōu)選地,本裝置還包括顯示選擇模塊,用于從顯示規(guī)則組選擇與文檔的類型相對應(yīng)的顯示規(guī)則;顯示模塊,用于使用選擇的顯示規(guī)則,根據(jù)結(jié)構(gòu)標(biāo)簽的標(biāo)注顯示文檔的內(nèi)容。從以上的描述中可以看出,本發(fā)明上述的實施例主要應(yīng)用于將文檔條目標(biāo)簽批量地映射為結(jié)構(gòu)標(biāo)簽,以實現(xiàn)對篇章、條目的結(jié)構(gòu)化,從而輸出XML文件到資源數(shù)據(jù)庫。本發(fā)明達(dá)到了快速結(jié)構(gòu)化的目標(biāo)。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種用于提取文檔結(jié)構(gòu)的方法,其特征在于,包括 以預(yù)設(shè)的內(nèi)容樣式規(guī)則識別文檔的內(nèi)容的顆粒; 以條目標(biāo)簽標(biāo)注所述顆粒; 從預(yù)設(shè)的映射規(guī)則組中選擇與所述文檔的類型相對應(yīng)的映射規(guī)則; 使用所述選擇的映射規(guī)則將所述條目標(biāo)簽映射到結(jié)構(gòu)標(biāo)簽; 使用所述結(jié)構(gòu)標(biāo)簽標(biāo)注所述顆粒。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述條目標(biāo)簽包括所述顆粒的段落標(biāo)題、段落內(nèi)容、位置和層級;所述文檔的類型包括以下至少之一新聞、小說、課文、論文、辭書、試卷。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述結(jié)構(gòu)標(biāo)簽包括所述條目標(biāo)簽的內(nèi)容,還包括名稱,用于指示所述顆粒所述的結(jié)構(gòu)類型;范圍,用于指示當(dāng)前所述顆粒的起始位置到下一所述顆粒的起始位置的內(nèi)容。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,還包括 從顯示規(guī)則組選擇與所述文檔的類型相對應(yīng)的顯示規(guī)則; 使用所述選擇的顯示規(guī)則,根據(jù)所述結(jié)構(gòu)標(biāo)簽的標(biāo)注顯示所述文檔的內(nèi)容。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,采用XML格式定義所述顯示規(guī)則。
6.根據(jù)權(quán)利要求I至4任一項所述的方法,其特征在于,還包括 提供界面,接受用戶自定義新的映射規(guī)則或者修改已有的所述映射規(guī)則。
7.根據(jù)權(quán)利要求I至4任一項所述的方法,其特征在于,采用XML格式定義所述內(nèi)容樣式匹配規(guī)則和所述映射規(guī)則。
8.一種用于提取文檔結(jié)構(gòu)的裝置,其特征在于,包括 識別模塊,用于以預(yù)設(shè)的內(nèi)容樣式規(guī)則識別文檔的內(nèi)容的顆粒; 條目標(biāo)注模塊,用于以條目標(biāo)簽標(biāo)注所述顆粒; 映射選擇模塊,用于從預(yù)設(shè)的映射規(guī)則組中選擇與所述文檔的類型相對應(yīng)的映射規(guī)則; 映射模塊,用于使用所述選擇的映射規(guī)則將所述條目標(biāo)簽映射到結(jié)構(gòu)標(biāo)簽; 結(jié)構(gòu)標(biāo)注模塊,用于使用所述結(jié)構(gòu)標(biāo)簽標(biāo)注所述顆粒。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,條目標(biāo)簽包括顆粒的段落標(biāo)題、段落內(nèi)容、位置和層級;所述結(jié)構(gòu)標(biāo)簽包括所述條目標(biāo)簽的內(nèi)容,還包括名稱,用于指示所述顆粒所述的結(jié)構(gòu)類型;范圍,用于指示當(dāng)前所述顆粒的起始位置到下一所述顆粒的起始位置的內(nèi)容。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括 顯示選擇模塊,用于從顯示規(guī)則組選擇與所述文檔的類型相對應(yīng)的顯示規(guī)則; 顯示模塊,用于使用所述選擇的顯示規(guī)則,根據(jù)所述結(jié)構(gòu)標(biāo)簽的標(biāo)注顯示所述文檔的內(nèi)容。
全文摘要
本發(fā)明提供了一種用于提取文檔結(jié)構(gòu)的方法,包括以預(yù)設(shè)的內(nèi)容樣式規(guī)則識別文檔的內(nèi)容的顆粒;以條目標(biāo)簽標(biāo)注顆粒;從預(yù)設(shè)的映射規(guī)則組中選擇與文檔的類型相對應(yīng)的映射規(guī)則;使用選擇的映射規(guī)則將條目標(biāo)簽映射到結(jié)構(gòu)標(biāo)簽;使用結(jié)構(gòu)標(biāo)簽標(biāo)注顆粒。本發(fā)明還提供了一種用于提取文檔結(jié)構(gòu)的裝置。本發(fā)明達(dá)到了提高提取文檔結(jié)構(gòu)效率的效果。
文檔編號G06F17/30GK102982028SQ20111025917
公開日2013年3月20日 申請日期2011年9月2日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者曾建英 申請人:北大方正集團有限公司, 北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
霍林郭勒市| 德惠市| 保靖县| 桂阳县| 融水| 楚雄市| 普安县| 新闻| 廊坊市| 陈巴尔虎旗| 江达县| 广安市| 双鸭山市| 年辖:市辖区| 怀宁县| 厦门市| 乌兰县| 南昌市| 仪陇县| 黔西县| 项城市| 洞口县| 峨眉山市| 林周县| 大姚县| 璧山县| 资源县| 昌江| 曲阜市| 克山县| 青河县| 潼南县| 抚宁县| 安陆市| 碌曲县| 高邑县| 治多县| 台东县| 隆德县| 隆回县| 加查县|