專利名稱::支持基于規(guī)則的文檔內(nèi)容挖掘的系統(tǒng)與方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及數(shù)據(jù)管理。更具體地,本發(fā)明涉及一種從結(jié)構(gòu)化或非結(jié)構(gòu)化文檔中提取內(nèi)容的系統(tǒng)和方法。
背景技術(shù):
:作為標(biāo)準(zhǔn)通用標(biāo)記語言(SGML)子集的可擴展標(biāo)記語言(XML),是被萬維網(wǎng)聯(lián)盟(W3C)定義的一系列規(guī)范,用以支持信息的組織與交換。包含在良好結(jié)構(gòu)化的XML文件中的信息可保證因特網(wǎng)間不同應(yīng)用的可靠性與互通性。因此,通過允許與不同格式的數(shù)據(jù)進行交換,XML可以顯著地降低與數(shù)據(jù)管理和交換相關(guān)聯(lián)的成本。XML也可用于定義特定工業(yè)的內(nèi)容模型。一旦確定了內(nèi)容模型,則不同的應(yīng)用可以使用此內(nèi)容模型來標(biāo)記信息,以便可以簡便、有效地共享信息。例如,XML廣泛應(yīng)用于如下領(lǐng)域,如電子商務(wù)、信息密集服務(wù)業(yè)及通信領(lǐng)域。遺憾的是,對于因特網(wǎng)尤其是Web上的大多數(shù)可用信息,它們或者是非結(jié)構(gòu)化格式、或者是以非通用方式的結(jié)構(gòu)化格式。結(jié)果是,許多公共可訪問的文檔不易于分享、管理和存儲。這種問題隨著便攜設(shè)備的增多而進一步加劇,其中所述便攜設(shè)備通常沒有統(tǒng)一的顯示機制。因此,需要一種可以從文檔中提取內(nèi)容并在便攜設(shè)備上顯示該內(nèi)容的系統(tǒng)與方法。
發(fā)明內(nèi)容本發(fā)明的一個實施方式提供了一種用于支持從結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中提取內(nèi)容的基于規(guī)則的內(nèi)容挖掘的系統(tǒng)。在此操作中,系統(tǒng)接收包含結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)、或者兩者混合的文件。系統(tǒng)接著基于所收文件來生成易處理的可擴展標(biāo)記語言(pXML)文件。系統(tǒng)然后基于一種或多種規(guī)則從pXML文件提取內(nèi)容,并且生成特定格式的語義XML文件。在本發(fā)明的變型中,從pXML文件中提取內(nèi)容包括對pXML文件應(yīng)用規(guī)則引擎。在另一變型中,規(guī)則引擎包含一種或多種從pXML文件分析并提取內(nèi)容的映射對象。在另一變型中,映射對象有映射對象名稱、即插即用的開關(guān)、激活開關(guān)與啟動次序。在另一變型中,映射對象包含一種或多種輸入規(guī)則、一種或多種輸出規(guī)則、以及一種或多種子映射對象和/或子規(guī)則。在另一變型中,輸入規(guī)則可以是基于文本的輸入規(guī)則或者基于元素的輸入規(guī)則。在另一變型中,基于文本的輸入規(guī)則可以是文本解析規(guī)則或標(biāo)記語法規(guī)則。文本解析規(guī)則可以包含如下一種或多種規(guī)則行規(guī)則、固定長度規(guī)則、正則表達式規(guī)則、超文本標(biāo)簽規(guī)則、文本匹配規(guī)則。標(biāo)記語法規(guī)則包含如下一種或多種規(guī)則順序規(guī)則、塊"或"規(guī)則、重復(fù)規(guī)則、模板對象規(guī)則、符號標(biāo)簽規(guī)則、數(shù)字標(biāo)簽規(guī)則、字符串規(guī)則、存在規(guī)則、不存在規(guī)則、詞規(guī)則、詞大寫規(guī)則、空規(guī)則。在另一變型中,基于元素的輸入規(guī)則可以是基于初級或高級元素的輸入規(guī)則?;诔跫壴氐妮斎胍?guī)則包含如下一種或多種^L則組合規(guī)則、對比規(guī)則、速記規(guī)則、混合規(guī)則、擁有規(guī)則、執(zhí)行規(guī)則、XML路徑語言評價規(guī)則、其他規(guī)則。基于高級元素的輸入身見則可以包含以下一種或多種規(guī)則語法序列規(guī)則、首尾序列規(guī)則、子映射對象規(guī)則。在另一變型中,輸出規(guī)則可以是如下一種或多種規(guī)則"無指定"規(guī)則、"完整輸入文本"規(guī)則、"輸入"規(guī)則、"常值"規(guī)則、"子結(jié)果"規(guī)則、"最大子結(jié)果"規(guī)則、"平均子結(jié)果"規(guī)則、以及"表映射"規(guī)則。在本發(fā)明的變型中,生成基于特定格式的語法XML文件包含,應(yīng)用XLST文件或外部程序以及生成應(yīng)用特定的XML文件。圖1示出了根據(jù)本發(fā)明的一個實施方式的基于規(guī)則的文檔內(nèi)容挖掘系統(tǒng)的操作;圖2示出了根據(jù)本發(fā)明的一個實施方式的基于規(guī)則的文檔內(nèi)容挖掘系統(tǒng)的示例性框圖3呈現(xiàn)了流程圖,其中示出了根據(jù)本發(fā)明的一個實施方式的支持基于規(guī)則的內(nèi)容挖掘系統(tǒng)的示例性操作處理;以及圖4示出了根據(jù)本發(fā)明的一個實施方式的支持基于規(guī)則的內(nèi)容挖掘的示例性計算機系統(tǒng)。表1示出了根據(jù)本發(fā)明的一個實施方式的映射對象的示例;表2示出了根據(jù)本發(fā)明的一個實施方式的示例的映射模板,該模板將HTML文檔轉(zhuǎn)換成DocbookXML文檔。具體實施例方式呈現(xiàn)如下描述旨在使本領(lǐng)域技術(shù)人員能夠制造和使用本發(fā)明,并且在特定應(yīng)用及其需求的環(huán)境中提供了如下描述。所公開的實施方式的各種修改對于本領(lǐng)域技術(shù)人員來說是易見的,在不脫離本發(fā)明范圍的情況發(fā)明并不局限于所示出的實施方式,而是與權(quán)利要求書的最寬泛的范圍相一致。通常,在此詳述的數(shù)據(jù)結(jié)構(gòu)和代碼存儲在計算機可讀存儲介質(zhì)上,所述計算機可讀存儲介質(zhì)可以是能夠存儲用于由計算機系統(tǒng)所使用的代碼和/或數(shù)據(jù)的任何終端或介質(zhì)。這包括但不僅限于,易失性存儲器、非易失性存儲器、如盤驅(qū)動、磁帶、CD(壓縮盤)、DVD(數(shù)字通用盤或者數(shù)字視頻盤)等的磁性和光學(xué)存儲設(shè)備,或者能夠用于存儲的其他現(xiàn)有的或未來開發(fā)的計算機可讀存儲介質(zhì)。概要目前,非結(jié)構(gòu)化文檔包含網(wǎng)絡(luò)上的大多數(shù)信息。即,大多數(shù)信息并未組織成允許從其內(nèi)容識別和分離信息的上下文。在沒有明顯的人為干預(yù)下,文檔和內(nèi)容管理系統(tǒng)不能對非結(jié)構(gòu)化信息進行分類處理。結(jié)果是,在自動處理或智能信息管理中,不能經(jīng)濟地使用大多數(shù)信息。為了針對描述結(jié)構(gòu)化數(shù)據(jù)提供標(biāo)準(zhǔn),萬維網(wǎng)聯(lián)盟(W3C)已經(jīng)開發(fā)了可擴展標(biāo)記語言(XML)標(biāo)準(zhǔn)。XML支持標(biāo)準(zhǔn)化地描述結(jié)構(gòu)化數(shù)才居,并且允許軟件開發(fā)者和內(nèi)容作者來更容易地組織因特網(wǎng)上的數(shù)據(jù)。期望的是,XML標(biāo)準(zhǔn)不但可以滿足因特網(wǎng)上的日益增長的需求,而且保證較高的數(shù)據(jù)可靠性和互通性。使用XML來定義文件類型可以支持更方便的表達以及更為結(jié)構(gòu)化的信息組織。現(xiàn)在用戶可以使用統(tǒng)一格式來組織和轉(zhuǎn)換數(shù)據(jù),這可以顯著降低數(shù)據(jù)交換和管理的成本。本發(fā)明的實施方式提供了一種支持基于規(guī)則的文檔內(nèi)容挖掘的系統(tǒng)。該系統(tǒng)用一組規(guī)則來在結(jié)構(gòu)化或非結(jié)構(gòu)化的文檔中解析信息,并將文檔內(nèi)容轉(zhuǎn)換成語義XML文件。通過使用基于規(guī)則的內(nèi)容挖掘工具,該系統(tǒng)可以接受任何類型的文本內(nèi)容(無論結(jié)構(gòu)化的或非結(jié)構(gòu)化的),并將內(nèi)容轉(zhuǎn)換成語義的、結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)易于由不同的應(yīng)用或設(shè)備來處理、管理或顯示。這種內(nèi)容挖掘系統(tǒng)允許有組織地并且無縫地交換不同類型和格式的數(shù)據(jù),并且提高了文本內(nèi)容的重用性。圖1示出了根據(jù)本發(fā)明的一個實施方式的基于規(guī)則的文檔內(nèi)容挖掘系統(tǒng)的操作。用戶使用支持因特網(wǎng)的便攜設(shè)備112(例如,智能電話)來向包含文檔的網(wǎng)頁發(fā)送HTTP請求。無線塔110從便攜設(shè)備112接收無線信號,并且通過服務(wù)提供者的網(wǎng)絡(luò)104轉(zhuǎn)達此請求。網(wǎng)絡(luò)104可以是有線或無線的、可以是公用或私有的。HTTP請求接著被轉(zhuǎn)發(fā)至因特網(wǎng)102。在接收HTTP請求后,Web服務(wù)器106利用所請求的文檔進行響應(yīng)。值得注意的是,通常文檔可以包括任何類型的文本或非文本內(nèi)容。例如,返回的文檔可以包含PDF文件,WORDML文件、RTF文件、EXCEL文件、POWERPOINT文件、WORD文件、LATEX文件,或FRAMEMAKER文件。在傳統(tǒng)網(wǎng)絡(luò)中,將返回的文檔直接傳送至便攜設(shè)備112。因此,因為便攜設(shè)備112的屏幕尺寸不適用于顯示文檔,而可能在便攜設(shè)備112上遭遇亂碼呈現(xiàn)文檔的問題。值得注意的是,本發(fā)明的實施方式的應(yīng)用不僅限于便攜設(shè)備U2,其他類型的計算機設(shè)備,例如移動設(shè)備114,也可從本發(fā)明受益。本發(fā)明的一個實施方式提供了一種內(nèi)容挖掘系統(tǒng),該系統(tǒng)從不同類型的結(jié)構(gòu)化或非結(jié)構(gòu)化文檔中提取信息,并產(chǎn)生可以被各種設(shè)備正確顯示或被不同的應(yīng)用處理的語義XML文檔。在一個實施方式中,服務(wù)沖是供商的網(wǎng)絡(luò)104將返回的文檔傳送至內(nèi)容挖掘與轉(zhuǎn)換集中器108。內(nèi)容挖掘與轉(zhuǎn)換集中器108分析所接收的文檔內(nèi)的文本內(nèi)容并將所述內(nèi)容轉(zhuǎn)換成結(jié)構(gòu)化的語義文檔。內(nèi)容挖掘和轉(zhuǎn)換集中器108可進一步使用XSL轉(zhuǎn)換語言(XSLT)或其他外部程序以生成其他類型的文件,例如無線標(biāo)記語言(WML)文件、XHTML移動簡介(XHTML-MP)文件或壓縮HTML(cHTML)文件,并將該文件發(fā)送至便攜設(shè)備112。該文件可以包含文本和圖形信息?;谝?guī)則的內(nèi)容挖掘圖2示出了根據(jù)本發(fā)明的一個實施方式的基于規(guī)則的文檔內(nèi)容挖掘系統(tǒng)的示例性框圖。在一個實施方式中,內(nèi)容挖掘系統(tǒng)包括預(yù)處理器204、規(guī)則引擎206以及后處理器208。預(yù)處理器將輸入文檔202轉(zhuǎn)換成基于一組預(yù)處理規(guī)則的易處理XML(pXML)文件。規(guī)則引擎206接著在pXML文件中執(zhí)行文本挖掘和內(nèi)容提取。隨后,后處理器208將所提取的內(nèi)容轉(zhuǎn)換成基于給定格式的輸出文件210。值得注意的是,系統(tǒng)可以選擇使用基于應(yīng)用實際需求的三種功能塊(預(yù)處理器204、規(guī)則引擎206、后處理器208)。如果使用該系統(tǒng)將輸入文檔重新格式化成適合的顯示格式,則該系統(tǒng)只能用預(yù)處理器204和后處理器208產(chǎn)生特定格式的文件。如果使用該系統(tǒng)從輸入文檔提取內(nèi)容并與另一種應(yīng)用交換該內(nèi)容,則該系統(tǒng)只能用預(yù)處理器204和規(guī)則引擎206。如果使用該系統(tǒng)從輸入文檔提取內(nèi)容并將該文檔重新格式化成適合的顯示格式,則該系統(tǒng)可以用所有的三種塊。預(yù)處理在一個實施方式中,預(yù)處理器204可以適應(yīng)任何文本內(nèi)容的文件作為其輸入。例如,輸入可以是超文本文件、PDF文件、MICROSOFTOFFICE文件、一l殳源代碼、純文本文件、ADOBEMaker交換格式(MIF)文件、LATEX文件、或者XML文件。值得注意的是,預(yù)處理器204可以用任何文件分析驅(qū)動器。該文件分析驅(qū)動器可以基于開放標(biāo)準(zhǔn)或?qū)S形募袷?。在一個實施方式中,系統(tǒng)用特殊格式的驅(qū)動器分析輸入文件。這些特殊格式的驅(qū)動器可以針對非結(jié)構(gòu)化文件,例如Web文件、PDF文件、WORDMLW文件、RTF文件、EXCEL文件、POWERPOINT文件、WORD文件、LATEX文件和FRAMEMAKER文件。當(dāng)預(yù)處理結(jié)構(gòu)4匕的文件時,驅(qū)動器可以將文檔內(nèi)容轉(zhuǎn)換成標(biāo)準(zhǔn)的語義文件。針對結(jié)構(gòu)化文庫系統(tǒng)的驅(qū)動程序。通常,預(yù)處理器204生成一個pXML文件。該pXML文件4各式定義如下。首先,pXML格式包含大量元素XMLSTREAM、HEAD、DMETATAGS、DMETA、EMETATAGS、EMETA、DSTYLES、DSTYLE、DSTRUCTURE、BODY、SECTION、PAGE、PARAGRAPH、SPECIALTEXT、TEXT、IMAGE、LINK、FOOTNOTE、ENDNOTE、HEADER、FOOTER、ANCHOR、TAB、HR、MARKER、TABLE、TGROUP、TBODY、THEAD、TFOOT、ROW、CELL、COLUMN、COLU畫-DEF、LIST、LI、LABEL、BLOCKQUOTE、PRE、BREAK、FRAME、SVG、FIELD和INDEXITEM。這些元素定義也4皮定義了^下屬'1"生style、css-style、number、font、font-size、font-fixed、origfont、emphasis-bold、emphasis-italic、emphasis-underline、emphasis-superscript、emphasis-subscript、x、y、height、width、top、left、align、valign、leftindent、rightindent、spacebefore、spaceafter、textindent、border-left、border隱right、border誦top、border畫bottom、top-padding、left-padding、right-padding、bottom-padding、rowspan、colspan、wi她-type和height-type。具體地,這些元素定義如下(1)元素XMLSTREAM是根元素,元素XMLSTREAM具有元素HEAD和BODY作為其子元素,并且元素XMLSTREAM沒有定義屬性;(2)元素HEAD描述文件的頭信息,元素XMLSTREAM可作為元素HEAD的父元素,元素DMETATAGS、EMETATAGS和DSTRUCTURE可作為元素HEAD的子元素,并且元素HEAD沒有定義屬性;(3)元素DMETATAGS描述文件的屬性和meta標(biāo)簽,元素HEAD可作為元素DMETATAGS的父元素,元素META可以作為元素DMETATAGS的子元素;(4)元素META描述文件的個體屬性,元素DMETATAGS可以作為元素META的父元素、元素META不具有子元素,并且具有META名稱和值;(5)元素EMETATAGS描述在生成易處理的可擴展標(biāo)記語言文件期間的環(huán)境屬性集合,元素HEAD可以作為元素EMETATAGS的父元素,元素EMETA為元素EMETATAGS的子元素;(6)元素EMETA描述在生成易處理的可擴展標(biāo)記語言文件期間的個體環(huán)境參數(shù),元素EMETATAGS可以作為元素EMETA的父元素,元素EMETA不具有子元素,并且具有EMETA名稱和值;(7)元素DSTYLES描述文件的樣式屬性,元素HEAD可以作為元素DSTYLES的父元素,元素STYLE為元素DSTYLES的子元素;(8)元素STYLE描述文件的布局才各式,元素DSTYLES為元素STYLE的父元素,以及元素STYLE可以具有如下屬性name、font、font畫size、font-fixed、align、valign、leftindent、rightindent、linespacing、spacebefore、spaceafter、emphasis、emphasis-bold、emphasis-italic、emphasis-underline、emphasis-superscript、emphasis-subscript;(9)元素DESTRUCTURE描述PDF文件中的書簽,元素HEAD可以作為元素DESTRUCTURE的父元素,元素OUTLINE可以作為元素DESTRUCTURE的其子元素;(10)元素BODY描述文件主體,元素SMLSTREAM可以作為元素BODY的父元素,任何塊元素可以作為元素BODY的子元素,包括元素SECTION、PAGE和BLOCK;(11)元素SECTION描述MicrosoftWORD⑧文件的分區(qū),BODY可以作為元素SECTION的父元素,任意塊元素可以作為元素SECTION的子元素,并且元素SECTION具有如下屬性number、orientation、height、width、margin-left、margin-top、margin國right、margin-bottom、section-type、columns;(12)元素PAGE描述多頁文件中的信號頁,元素BODY可以作為元素PAGE的父元素,并且任意塊元素(包括,元素PARAGRAPH、IMAGE、TABLE、LIST、BLOCKQUOTE、PRE、ANCHOR、BREAK和FRAME)可以作為元素PAGE的子元素;其中元素PAGE還具有如下屬性number、height、width、margin-left、margin-top、margin-right和margin-bottom;(13)元素PARAGRAPH描述文件中的文本,元素BODY、CELL、LI、BLOCKQUOTE、SECTION和PAGE可以作為元素PARAGRAPH的父元素,#PCDATA、SPECIALTEXT、LINK、ANCHOR、IMAGE、TEXT和FLELD可以作為元素PARAGRAPH的子元素;并且元素PARAGRAPH具有如下屬性front-related、paragraph-related、emphasis畫related、number、style、x、y、height和width;(14)元素SPECIALTEXT描述元素PARAGRAPH中的一種文本,所述文本的格式樣式不同于元素PARAGRAPH的常規(guī)格式樣式,元素PARAGRAPH父元素,元素弁PCDATA、SPECIALTEXT、LINK、ANCHOR、IMAGE、TEXT和FIELD可以作為元素SPECIALTEXT的子元素,元素SPECIALTEXT具有如下屬性font-related、emphasis國related、number、style、x、y、height和width;(15)元素TEXT描述元素PARAGRAPH中的與元素PARAGRAPH具有相同格式樣式的文本,元素PARAGRAPH可以作為元素TEXT的父元素,元素弁PCDATA、SPECIALTEXT、UNK、ANCHOR、IMAGE、TEXT和FIELD可以作為元素TEXT的子元素,元素TEXT具有如下屬性font-related、emphasis-related、number、style、x、y、height和width;(16)元素IMAGE描述文件中的圖像,元素BODY、PAGE、CELL、LI、BLOCKQUOTE、PRE和PARAGRAPH可以作為元素IMAGE的父元素,并且元素IMAGE具有如下屬性herf:指示圖像的相對路徑名的圖像文件名稱;format:指示圖像格式;width和height:分別指示圖像的寬度和高度;x和y:指示圖像相對于頁面的位置;alt:指示描述超文本中圖像的文本;(17)元素LINK描述鏈接,包含文本描述,元素PARAGRAPH和SPECIALTEXT可以作為元素LINK的父元素,#PCDATA和SPECIALTEXT可以作為元素LINK的子元素,元素LINK具有屬性href和alt;(18)元素FOOTNOTE和ENDNOTE描述文件的腳注和尾注,其可置于元素PARAGRAPH中或文件末尾,元素BODY和PARAGRAPH可以作為元素FOOTNOTE和ENDNOTE的父元素,塊元素可以作為元素FOOTNOTE和ENDNOTE的子元素,且元素FOOTNOTE和ENDNOTE具有如下屬性ref、reftype和label;(19)元素HEADER和FOOTER描述文件的頁眉和頁腳,其可置于元素PARAGRAPH中或文件末尾,元素BODY可以作為元素HEADER和FOOTER的父元素,塊元素可以作為元素HEADER和FOOTER的子元素,且元素HEADER和FOOTER具有如下屬性number:指示HEADER或FOOTER元素所在的分區(qū)的編號;headerType:指示頁眉處于首頁、尾頁、奇數(shù)頁或偶數(shù)頁;以及footerType:指示頁腳處于首頁,尾頁,奇數(shù)頁或偶數(shù)頁;(20)元素ANCHOR描述統(tǒng)一資源描述符(URI),其可置于PARAGRAPH元素內(nèi)部或外部,元素BODY、PAGE、CELL、LI、BLOCKQUOTE,PRE、PARAGRAPH和SPECIALTEXT可以作為元素ANCHOR的父元素,元素ANCHOR具有name和number屬性,其中屬性number指示ANCHOR元素在文件中的相對定位;(21)元素TAB描述文件中的標(biāo)簽符;(22)元素HR描述超文本文件;(23)元素MARKER描述文件中的終止符,元素PARAGRAPH可以作為元素MARKER的父元素,元素MARKER具有指示元素MARKER定位的屬性id和number;(24)元素TABLE描述文件中的表,元素BODY、PAGE、SECTIONCELL、LI、BLOCKQUOTE和PRE可以作為元素TABLE的父元素,元素TGROUP、COLUMN、和ROW可以作為元素TABLE的子元素,并且元素TABLE具有用于指示元素MARKER定位的屬性number;(25)元素TGROUP、TBODY、THEAD和TFOOT描述文件中的表,并且具有屬性cols用于指示元素TGROUP的^f亍數(shù);(26)元素ROW是元素TABLE的子元素,描述表中的行,元素CELL可以作為元素ROW的子元素,且元素ROW具有如下屬性:.rowtype:其中"header"的值指示該行是頭行,"data"的值指示該行為普通行;style:指示行的格式樣式;number:指示該4于相對于文件的位置;(27)元素CELL是元素ROW的子元素,描述表中的單元,元素PARAGRAPH,LIST、TABLE、BLOCKQUOTE、PRE、IMAGE和ANCHOR可以作為元素CELL的子元素,且元素CELL具有如下屬性celltype:指示單元的類型,其中如果celltype的值是"header",則該單元為頭單元,以及其中如果celltype的值是"data",則該單元為普通單元;style:描述單元的格式樣式;以及number:指示單元相對于文件的定位;(28)元素COLUNM是元素TABLE的子元素,描述表中的單一分欄,元素TABLE和TGRPOUP可以作為元素COLUNM的父元素,元素COLUNM不具有任何子元素,并且元素COLUNM具有如下屬性column-id:指示表中欄的索引編號;width:指示分欄的寬度。(29)元素COLUMN-DEF定義表格中的分欄,元素TABLE可以作為元素COLUMN-DEF的父元素,元素COLUMN可以作為元素COLUMN-DEF的子元素,并且元素COLUMN-DEF具有指示分欄數(shù)量的屬'性cols;(30)元素LIST描述文件中的列表,元素LI可以作為元素LIST的子元素,以及元素LIST具有如下屬性type:指示列表的類型,以及該列表類型可以是"OL"、"UL"或"DL"的值,其中"OL"表示有序列表,"UL"表示無序、浮動列表,而"DL"表示無序、非浮動的列表;number:指示列表在文件中的定位;以及style:指示列表的格式樣式;(31)元素LI是元素LIST的子元素,其描述列表項,元素PARAGRAPH、LIST、TABLE、LI、BLOCKQUOTE、PRE、IMAGE和ANCHOR可以作為元素LI的子元素,并且元素LI具有如下屬性level:指示列表的內(nèi)嵌層級;number:指示列表項在文件中的定位;style:指示列表項的格式樣式;type:通常為空,或者當(dāng)列表項所屬于的列表類型是"DL"時為DT或DL;表示該列表項分別為頭項或數(shù)據(jù)項;(32)元素LABEL是LI項的子項,描述了MicrosoftWORD文檔,元素PARAGRAPH和LI可以作為元素LABEL的父元素,元素弁PCDATA可以作為元素LABEL的子元素;(33)元素BLOCKQUOTE描述一個內(nèi)嵌文本,塊容器可以作為元素BLOCKQUOTE的父元素,塊級元素可以作為元素BLOCKQUOTE的子元素,并且元素BLOCKQUOTE可以具有屬性number用于描述內(nèi)嵌文本相對于文件的位置;(34)表示具有原始布局與格式的包裝文本,塊容器可以作為元素PRE的父元素,塊級元素可以作為元素PRE的子元素,并且元素PRE具有屬性number用于描述在文件中包裝的文本的定位;(35)元素BREAK描述文件中的分隔符,任何元素可以作為元素BREAK的父元素,元素BREAK不具有子元素且具有如下屬性type:指示分隔符的類型,如頁分隔、分欄分隔、或者行分隔;以及number:指示文件中分隔符的定位;(36)元素FRAME描述文件中的文本框架,元素BODY、SECTION、和PAGE可以作為元素FRAME的父元素,任何塊元素可以作為元素FRAME的子元素,并且元素FRAME具有屬性x、y、top、left、height、width和number;(37)元素SVG描述PDF文件中的外部可縮放矢量圖形(SVG)文件,元素PAGE可以作為元素SVG的父元素,元素SVG不具有子元素,并且元素SVG具有屬性src,用于指示SVG文件的相對或絕對文件名;(38)元素FIELD描述嵌套在文件中的一個域,在MicrosoftWORD⑧文件中通常存在這種情況,元素PARAGRAPH、TEXT、SPECIALTEXT可以作為元素FIELD的父元素,元素弁PCDATA可以作為元素FIELD的子元素,并且元素FIELD具有描述域碼的屬性code;(39)元素INDEXITEM描述AdobeFRAMEMAKER⑧制造商交換格式(MIF)文件中的索引項,元素PARAGRAPH,TEXT、SPECIALTEXT可以作為元素INDEXITEM的父元素,元素INLINE可以作為元素INDEXITEM的子元素,并且元素INDEXITEM具有如下屬性primary:指示主索引項;secondary:指示次索引項;以及tertiary:指示第三索引項。屬性定義如下(1)屬性style指示PARAGRAPH或SPECIALTEXT元素的格式風(fēng)格;(2)屬性ess-style描述超文本文件,其中如果超文本文件包括具有"style"屬性的"paragraph"元素,其中所述"style"屬性進一步包括層疊樣式表(CSS)屬性,則ess-style屬性逐字地包括超文本文件的CSS屬性;(3)屬性number指示文件中元素的定位,并且包含不小于1的值;(4)屬性font、font畫size、font-fixed和origfont描述與字體相關(guān)的屬性,其中font屬性指定字體名稱,font-size屬性指定MicrosoftWORD⑧文件或PDF文件中的絕對字體尺寸、或者超文本文件中的相對字體尺寸,font-fixed屬性是布爾變量,其中"true"值指示文件中的固定寬度的字體,以及其中origfont屬性指示文件中的原始字體;(5)屬性emphasis、emphasis-bold、emphasis-italic、emphasis-underline、emphasis-superscript、emphasis-subscript包含布爾變量,指示字體的格式樣式,其中emphasis-bold指示字體是一且體;emphasis-italic指示字體是斜體;emphasis-underline指示字體是具有下劃線的字體;emphasis-superscript指示字體是上標(biāo);emphasis-subscript指示字體是下標(biāo);(6)屬性x、y、height、width、top和left描述文件的特定格式樣式,其中x和y指示頁面中的坐標(biāo),該坐標(biāo)可以是絕對或相對值;height和width指示文本或圖形對象的高度和寬度;top和left指示文本或圖形距離頁邊的距離;(7)屬性align、valign、leftindent、rightindent、spacebefore、spaceafter和textindent描述革殳落的才各式樣式,其中align指示水平對齊方式,以及其值為"left"、"center"、"right"、"justify"或者"blank",分別指示左端對齊、居中對齊、右端對齊、兩端對齊或者空白;valign指示豎直對齊方式,以及其值為"top"、"middle","bottom"或者"blank",分別表示頂端對齊、居中對齊、底端對齊或者空白;leftident指示段落的左縮進量;rightindent指示段落的右縮進量;linespacing指示兩行的間距,并且具有表示單倍行距的默認值spacebefore指示段前空間量;spaceafter指示#爻后空間量;textindent指示段落的首行縮進量;(8)屬性border-left、border-right、border-top、border-botton>包括數(shù)值或布爾值,分別描述文本塊或表格單元格有左、右、頂或者底邊界,其中每個屬性可以進一步指定對應(yīng)邊界的顏色;(9)屬'l"生top-padding、left-padding、right隱padding、bottom-padding包括整數(shù)值,并且分別指示在頂、左、右或者底邊界和單元格內(nèi)容之間i真充的顏色;(10)屬性rowspan和colspan包括數(shù)字值,分別指示表格的行跨度和列跨度;(11)屬性width-type和height-type描述MicrosoftWORD⑧文件中的表格,并且具有如下值"auto":指示文本對象的寬度或者高度是自動調(diào)整的;"percent":指示文本對象的寬度或者高度值是百分比值;"points":指示文本對象的寬度或者高度值是以"點"來測量的值;"fixed":指示文本對象的寬度或者高度是固定的。值得注意的是,上述定義僅僅是本發(fā)明的一個實施方式。其他pXML定義的變型也是可能的。在此操作中,文件分析驅(qū)動器識別輸入文檔中的組件,諸如段落、表格、圖像、鏈接、頁面和框架,并將這些組件轉(zhuǎn)換成相應(yīng)的pXML元素,諸如PARAGRAPH,TABLE、IMAGE、LINK、PAGE和FRAME的。規(guī)則引擎在系統(tǒng)使用文件分析驅(qū)動器對所輸入文檔執(zhí)行預(yù)處理并生成pXML文件后,該系統(tǒng)應(yīng)用規(guī)則引擎從此pXML文件提取內(nèi)容。在一個實施方式中,規(guī)則引擎包括映射模板,該映射模板對應(yīng)于輸入文檔或生成的pXML文件。系統(tǒng)使用映射模板中的映射規(guī)則來分析pXML文件的內(nèi)容并生成符合給定標(biāo)準(zhǔn)的語義文檔。每個映射規(guī)則包含至少一個映射對象。規(guī)則引擎使用映射對象來分析文檔、提取內(nèi)容,并且以XML呈現(xiàn)提取的內(nèi)容。也就是說,映射對象通常會將文檔轉(zhuǎn)化成基于XML的語義的、清晰定義的規(guī)則。映射模板可以具有一種或多種映射對象?;谳敵龅腦ML文件格式的標(biāo)簽來定義每種映射對象。在一個實施方式中,映射對象可以包含輸入^見則、輸出MJ!'J以及子映射對象。使用映射對象的輸入規(guī)則以便在輸入文件中搜索特定的內(nèi)容,其可以是pXML文件。這種過程可被看作輸入選擇的過程,與文字處理程序中搜索特定內(nèi)容的過程相似?;谳斎胍?guī)則,規(guī)則引擎從文件中標(biāo)識特定的文本,并標(biāo)記該已被標(biāo)識文本。在一個實施方式中,輸入規(guī)則可以是多種標(biāo)準(zhǔn)的布爾結(jié)合。規(guī)則引擎可以使用模式識別技術(shù)判斷何種文本與該身見則相匹配。使用輸出規(guī)則創(chuàng)建XML元素作為映射對象的輸出。由輸出規(guī)則創(chuàng)建的結(jié)果包括XML元素的標(biāo)簽名稱、屬性、內(nèi)容。子映射對象與子規(guī)則通常用于以分層方式中處理所選中的輸入內(nèi)容。在一個實施方式中,映射對象具有如下屬性和功能。每種映射對象都有由規(guī)則引擎用于追蹤與調(diào)用映射對象的名稱。每種映射對象的名稱在映射模板中是唯一的。.映射對象有即插即用的開關(guān)。通常,映射對象不能自動啟動。當(dāng)相應(yīng)的映射模板開啟或當(dāng)映射對象被其他的映射對象調(diào)用時,該映射對象被啟動。因此,即插即用開關(guān)的默認狀態(tài)為"關(guān)",表示當(dāng)相應(yīng)的映射模板被啟動或當(dāng)映射對象被其他映射對象調(diào)用時,映射對象才被啟用。映射對象有激活開關(guān)。當(dāng)規(guī)則引擎激活所有映射對象時,只有已打開其激活開關(guān)的映射對象才被激活。激活開關(guān)默認狀態(tài)為"關(guān)"。每種映射對象都被指定激活次序。當(dāng)規(guī)則51擎激活所有映射對象時,映射對象基于其激活次序被調(diào)用,直到每個映射對象的輸入規(guī)則應(yīng)用成功。輸入失見則輸入規(guī)則對映射對象十分重要,因為輸入規(guī)則確定映射對象如何分析輸入文本或數(shù)據(jù)。如果輸入內(nèi)容是文本流或文本文檔,則輸入規(guī)則的應(yīng)用可視為文本選擇處理。如果輸入內(nèi)容是XML文件或數(shù)據(jù)流,則輸入規(guī)則的應(yīng)用可視為元素選擇處理。因此,基于輸入格式,輸入規(guī)則可以分為兩種類型。第一種類型包括針對文本內(nèi)容的基于文本的輸入規(guī)則,如XML文件中的文本文檔和弁PCDATA。基于文本的輸入規(guī)則可以位于文本文件中的特定的文本內(nèi)容或者一段具體的文本內(nèi)容中。第二種類型包括針對結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容的基于元素的輸入規(guī)則,如源于WORD、PDF、FRAMEMAKER或HTML文件生成的pXML文件。在一個實施方式中,規(guī)則引擎首先使用基于元素的輸入規(guī)則標(biāo)識相匹配的元素,然后使用基于文本的輸入規(guī)則分析所定位的元素?;谖谋镜妮斎胍?guī)則用于分析來自文本文檔或元素的文本?;谖谋镜妮斎胍?guī)則可以包括文本遍歷、文本解析、和/或標(biāo)記語法規(guī)則?;谋窘馕鲆?guī)則還包括行規(guī)則、固定長度規(guī)則、正則表達式規(guī)則、超文本標(biāo)簽規(guī)則和文本匹配規(guī)則等。這些規(guī)則定義如下行規(guī)則用于選擇輸入文本內(nèi)容中指定行的內(nèi)容。固定長度規(guī)則用于選擇輸入文本內(nèi)容中指定的、固定長度的內(nèi)容。超文本標(biāo)簽MJ'j用于4是取在輸入文本內(nèi)容中由匹配超文本標(biāo)簽標(biāo)記的內(nèi)容。,文本匹配規(guī)則用于基于起始字符串和終止字符串來提取特定的內(nèi)容。標(biāo)記語法規(guī)則也可稱為詞語法規(guī)則,并且使用語法分析來分析輸入文本內(nèi)容。在一個實施方式中,標(biāo)記語法規(guī)則可以包括順序規(guī)則、塊"或"規(guī)則、重復(fù)規(guī)則、模板對象規(guī)則、符號標(biāo)簽規(guī)則、數(shù)字標(biāo)簽規(guī)則、字符串規(guī)則、存在規(guī)則、不存在規(guī)則、詞規(guī)則、詞大寫規(guī)則以及空規(guī)則。這些身見則定義如下。順序規(guī)則是標(biāo)記語法規(guī)則中的默認規(guī)則。系統(tǒng)使用順序規(guī)則來選擇當(dāng)前文本位置鄰近的標(biāo)記。有效的順序^L則通常包含可在輸入文本內(nèi)容的指定行內(nèi)找到匹配的子規(guī)則。順序規(guī)則可包含映射對象或其他標(biāo)記語法規(guī)則作為子規(guī)則。順序規(guī)則也可以是子規(guī)則。塊"或"規(guī)則是交換規(guī)則。塊"或"規(guī)則的子規(guī)則也可以是其他規(guī)則的子規(guī)則。當(dāng)子規(guī)則具有一個或多個成功匹配時,重復(fù)規(guī)則返回"真"。重復(fù)規(guī)則僅可具有一個子規(guī)則,并且可以是其他規(guī)則的子規(guī)則。模板對象規(guī)則是針對提取輸入文本內(nèi)容的用于封裝其他映射對象的子規(guī)則。在標(biāo)識了特定符號后,符號標(biāo)簽規(guī)則返回"真"。當(dāng)調(diào)用該規(guī)則時,規(guī)則引擎將特定字符指定作為該規(guī)則的參數(shù)。符號標(biāo)簽規(guī)則沒有子規(guī)則,但可以是其他規(guī)則的子規(guī)則。在標(biāo)識了數(shù)字標(biāo)記后,數(shù)字標(biāo)簽規(guī)則返回"真"。數(shù)字標(biāo)記通常為數(shù)字,并且可以是正、負、十進制、二進制、十六進制、八進制、有限或無限。默認為無限。通常,數(shù)字標(biāo)簽規(guī)則不具有子規(guī)則,但可作為其他映射對象的子規(guī)則。當(dāng)標(biāo)識了指定的字符串后,字符串規(guī)則返回"真,,。其參數(shù)為指定字符串。字符串規(guī)則不具有子規(guī)則,但可以是其他規(guī)則的子規(guī)則。當(dāng)匹配了指定標(biāo)簽列中的一個時,存在規(guī)則返回"真"。注意,當(dāng)只有一個標(biāo)簽匹配時,規(guī)則引擎使用符號標(biāo)簽規(guī)則。存在規(guī)則不具有子規(guī)則,但可以是其他規(guī)則的子規(guī)則。當(dāng)輸入文本內(nèi)容中不具有標(biāo)簽匹配于指定的任一標(biāo)簽字符串時,不存在規(guī)則返回"真,,。不存在規(guī)則不具有子規(guī)則,但可以是其他規(guī)則的子規(guī)則。詞規(guī)則和詞大寫規(guī)則用于提取詞。通常,系統(tǒng)沒有指定將要提取的詞。詞規(guī)則和詞大寫規(guī)則間的區(qū)別在于,詞大寫規(guī)則是大小寫敏感的。詞規(guī)則和詞大寫規(guī)則不具有子規(guī)則,但可以是其他規(guī)則的子規(guī)則。空規(guī)則用于提取任何元素。所有情況下都返回真?;谠氐妮斎胍?guī)則可以按照其功能進一步分類為基于初級元素的輸入規(guī)則和基于高級元素的輸入規(guī)則?;诔跫壴氐妮斎胍?guī)則用于確定針對當(dāng)前選擇的XML元素是否存在匹配。基于高級元素的輸入規(guī)則不僅用于確定針對當(dāng)前元素是否存在匹配,而且用于標(biāo)識針對系列元素的匹配,包括當(dāng)前元素的孩子元素、子元素、或文本節(jié)點的孩子節(jié)點?;诔跫壴氐妮斎胍?guī)則包含以下規(guī)則(1)組合類規(guī)則。組合類規(guī)則使用布爾邏輯來組合其子規(guī)則。組合類規(guī)則可包含諸如"與"、"或"和"非"的布爾算子。(2)對比類規(guī)則。對比類規(guī)則用于確定對象是否滿足指定的條件,如"包含"、"字符串相等"、"數(shù)字相等"、"小于"、"大于"、"大于或等于"、"小于或等于"、"真"、"假"、"大寫"、"小寫"、"開始于"等。(3)速記規(guī)則。速記類規(guī)則用于匹配輸入元素的特定屬性或名稱。速記規(guī)則的條件包括"格式包含"、"格式等于"、"名稱等于"等。(4)混合規(guī)則。混合類規(guī)則包括諸如"任意"、"存在"、"越界"等條件。在"任意"條件下,規(guī)則可以由任意元素返回"真"。"存在"條件示出當(dāng)前元素是否包含由規(guī)則定義的對象。"越界"條件用于確定對象的插入點是否處于指定元素的范圍之內(nèi)。(5)擁有規(guī)則。擁有類規(guī)則包括諸如"包含文本"、"包含子元素"的條件。在當(dāng)前元素包含指定文本時,"包含文本"條件返回"真"。當(dāng)當(dāng)前元素包含任何子元素時,"包含子元素"條件返回"真"。(6)執(zhí)行規(guī)則。執(zhí)行類規(guī)則用于調(diào)用其他映射對象的規(guī)則,包括"執(zhí)行規(guī)則"和"后代執(zhí)行規(guī)則"。(7)XML路徑語言評價規(guī)則。XML路徑語言評價規(guī)則用于確定XPATH值。規(guī)則引擎激活該規(guī)則以在當(dāng)前元素中評價XPATH表達式,并返回XPATH表達式的值。(8)混雜規(guī)則?;祀s類規(guī)則包括節(jié)點類型規(guī)則、首個兄弟節(jié)點規(guī)則和最后兄弟節(jié)點規(guī)則。節(jié)點類型規(guī)則確定節(jié)點是否是文本、XML元素或CDATA區(qū)等。首個兄弟節(jié)點規(guī)則和最后兄弟節(jié)點規(guī)則確定當(dāng)前元素或節(jié)點在兄弟節(jié)點集合中是否是第一個或最后一個節(jié)點或元素?;诟呒壴氐妮斎胍?guī)則包括如下規(guī)則(1)語法順序規(guī)則。語法順序規(guī)則用于順序地執(zhí)行一系列XML輸入元素。一組元素形成序列,/人而依次在語法上形成層級關(guān)系。這些元素可以是當(dāng)前元素的孩子元素、孩子節(jié)點或兄弟節(jié)點。(2)首尾序列規(guī)則。首尾序列規(guī)則用于執(zhí)行一系列的相鄰元素。該規(guī)則與語法序列規(guī)則的區(qū)別在于,該規(guī)則僅關(guān)心開始和結(jié)束元素的執(zhí)行順序,不關(guān)心中間元素的執(zhí)行順序,而語法序列規(guī)則根據(jù)指定順序執(zhí)行所有元素。(3)子映射對象規(guī)則。子映射對象規(guī)則指定一種或多種映射對象作為當(dāng)前對象的子映射對象,并按照指定的順序執(zhí)行這些子映射對象。輸出規(guī)則在基于映射對象處理了文本內(nèi)容后,系統(tǒng)按照特定的格式對輸出文本內(nèi)容使用輸出規(guī)則。映射對象包括系統(tǒng)產(chǎn)生的XML元素的輸出標(biāo)簽名、輸出值和輸出屬性。輸出標(biāo)簽名定義了系統(tǒng)產(chǎn)生的基于輸出規(guī)則的XML元素的標(biāo)簽名稱。標(biāo)簽名可以是常量或者是原始元素的標(biāo)簽名。輸出值定義了輸出XML元素的內(nèi)容,這是文本分析的結(jié)果。輸出屬性指定了XML元素的屬性。每個屬性可具有一種或多種相關(guān)聯(lián)的規(guī)則。也就是說,產(chǎn)生的XML元素的屬性可以是常量、指定文本或XML元素。映射對象的輸出規(guī)則具有如下規(guī)則(1)"無指定"規(guī)則表示輸出元素沒有輸出值,即輸出元素沒有任何文本內(nèi)容。(2)"完整輸入文本"規(guī)則表示輸出元素的值是基于輸入規(guī)則提取的輸入內(nèi)容。如果輸入內(nèi)容是文本,則該文本將,皮拷貝至輸出元素;如果輸入內(nèi)容是XML元素,則該元素的文本內(nèi)容將被拷貝至輸出元素。(3)"輸入"規(guī)則允許系統(tǒng)基于按照特定方法從輸入內(nèi)容提取的內(nèi)容的來設(shè)置輸出元素的內(nèi)容。例如,輸出元素的內(nèi)容可以是一段輸入文本、輸入文本的相應(yīng)屬性、或纟丸行XPATH表達式的結(jié)果。(4)"常值"規(guī)則表示輸出元素的值是固定的文本字符串。(5)"子結(jié)果"規(guī)則表示輸出元素的值是當(dāng)前映射對象的子映射對象。(6)"最大子結(jié)果"規(guī)則表示當(dāng)前映射對象的輸出結(jié)果是當(dāng)前映射對象的所有子映射對象的輸出XML元素的最大值。(7)"平均子結(jié)構(gòu)"規(guī)則表示當(dāng)前映射對象的輸出結(jié)果是當(dāng)前映射對象的所有子映射對象的輸出XML元素的平均值。(8)"表映射"規(guī)則允許系統(tǒng)在輸出元素與輸入內(nèi)容之間建立對應(yīng)的表。例如,在"男"和"女"的輸入元素的值以及為"M,,和"F"的輸出元素值之間建立對應(yīng)關(guān)系。系統(tǒng)運4亍圖3呈現(xiàn)了流程圖,其中示出了根據(jù)本發(fā)明的一個實施方式的支持基于規(guī)則的內(nèi)容挖掘系統(tǒng)的操作的示例性處理。在此操作中,系統(tǒng)可接收非結(jié)構(gòu)化文件302和結(jié)構(gòu)化的文件304。非結(jié)構(gòu)化的文件302由非結(jié)構(gòu)化文件驅(qū)動器306處理。相應(yīng)地,結(jié)構(gòu)化的文件304由結(jié)構(gòu)化文件驅(qū)動器308處理。例如,非結(jié)構(gòu)化文件302可以是PDF、WORD、RTF、POWERPOINT、HTML或MIF文件。在一個實施方式中,非結(jié)構(gòu)化文件驅(qū)動器306和結(jié)構(gòu)化文件驅(qū)動器308產(chǎn)生pXML文件作為文件分析的結(jié)果。pXML數(shù)據(jù)310接著被傳遞至規(guī)則引擎312。例如,pXML數(shù)據(jù)310可以包含與輸入文件相對應(yīng)的元素,例如元素SECTION、PAGE、PARAGRAPH、SPECIALTEXT、TEXT、IMAGE和LINK。規(guī)則引擎312包括大量映射對象。映射對象的輸入規(guī)則用于對pXML元素內(nèi)容執(zhí)行文本匹配,并提取由映射規(guī)則指定的文本內(nèi)容。規(guī)則引擎312進一步使用輸出規(guī)則來確定基于pXML數(shù)據(jù)310的輸出文本內(nèi)容的格式。由規(guī)則引擎312產(chǎn)生的提取的XML數(shù)據(jù)314接著被發(fā)送至后處理器316,該后處理器316基于指定的XSLT文件320生成應(yīng)用特定的XML數(shù)據(jù)318。值得注意的是,在一個實施方式中,規(guī)則引擎312和后處理器316兩者都使用映射模板。在一個實施方式中,規(guī)則引擎312使用模式識別技術(shù)標(biāo)識輸入文檔中的特定內(nèi)容,例如章、節(jié)、段落或關(guān)鍵詞。標(biāo)識這些內(nèi)容后,規(guī)則引擎312創(chuàng)建相應(yīng)的輸出XML元素。后處理器316接著產(chǎn)生基于映射模板的輸出文件或數(shù)據(jù)流。映射對象的輸出可以包括元素和相應(yīng)的父元素、祖先元素、孩子元素和兄弟元素。映射對象是映射模板的基本組件,用于將一個自由格式的、非結(jié)構(gòu)化或半結(jié)構(gòu)化的文檔轉(zhuǎn)換成XML文件。映射對象從非結(jié)構(gòu)化的文本內(nèi)容提取有意義的內(nèi)容,并生成有語義的XML文件。通常,映射對象依賴于源文件內(nèi)容的轉(zhuǎn)換,并基于映射對象中指定定義來確定輸出XML元素的名稱。例如,映射對象可以用于定位文本中的日期。由映射對象生成的輸出元素可由〈Date〉〈/Date〉來命名。表1<table>tableseeoriginaldocumentpage27</column></row><table>子映射對象定義如下<Childrenxmlchildrenpasstype-"currentelement〃childsettype-"alternate"><OBJE!CTref="PARA—BODY"minOccurs-〃0"maxOccurs="unbounded"/>映射模板可視為映射對象的集合。每個映射對象產(chǎn)生至少一個輸出元素。因此,在輸出XML文件中,輸出元素由映射對象生成,其中XML文件具有一個根元素。因而,輸出XML文件有類似如下的格式<PressRelease;><titles</title><subtitle></subtitle><bookname><:/boo3aiajne><p:rdate></prelate>《paxa>SiKuQuanShu-12/17/02-<Bookurl>wwwbooks,com,cn/s3cqs,html</Bookurl>amxouncedtodaythat.,,<para>,,,</body></PressRelease>映射對象中的輸入規(guī)則用于從輸入文檔中搜索特定的內(nèi)容。這種內(nèi)容搜索被稱為輸入選擇。輸入選擇類似于使用詞處理器從文檔中選擇特定內(nèi)容的過程。該過程包括打開文檔、搜索特定語句、選擇這些語句的內(nèi)容等。在一個實施方式中,可選擇整個語句的內(nèi)容。系統(tǒng)也可以定義映射規(guī)則并采用模式識別技術(shù)和布爾組合來選擇語句中的部分內(nèi)容或關(guān)鍵詞。映射對象的輸出規(guī)則確定映射對象如何創(chuàng)建輸出XML元素。例如,輸出XML元素可以如下<Releasetype-"news"dat'e="5/12/05">....sometext...somechildelements...</Release>映射對象的輸出規(guī)則確定如何構(gòu)建輸出XML元素,包括輸出標(biāo)簽名、元素屬性、輸出文本和CDATA節(jié)點。映射對象還包括子映射對象和子規(guī)則在輸入選擇以進一步處理從輸入選擇過程獲取內(nèi)容后,映射對象可調(diào)用子映射對象。例如,當(dāng)PARAGRAPH被映射對象選擇后,子映射對象和子規(guī)則可以被調(diào)用以處理PARAGRAPH元素、文本節(jié)點和其他內(nèi)部內(nèi)嵌元素中的內(nèi)容。當(dāng)處理的文檔轉(zhuǎn)換成pXML文件、映射對象被配置為"可以執(zhí)行孩子XML元素或拷貝所有的文本節(jié)點"時,映射對象遍歷所選擇元素的子節(jié)點,包括元素和文本節(jié)點。每個子節(jié)點被映射對象遍歷以找到輸入規(guī)則的首次匹配。文本節(jié)點通常來自源文本并直接放置到輸出文檔中。表2<MapTemplateannotat:icm-rtThistemplatetakesinanHTMLfileasinputandturnsitintododbooJc."Xmlxis-xsi'https//www.w3,ai:g/200;L/XMIiSchema-instance"xsinoNamespaceSchemaLocatioii=".,/gx汰咖a:r,xsd"><Taraiisformationltules><Pz*eP2rocessingR\iledriversWHtmlDriverO""extensions-wlitml,htm"OutputExtension-"xml"OutputPaa:抓etersTaKLesaFalse|Lists-True1Graphsics-True|FormattedText豕True|B工an3cPar汰s-True|PageBareaJcs-False|<MainBlementrefB"BookEaragraplisw><OutputOpt;io:asencodting-"UTF-15windentirxg-"Fa:Lse"standalone-"True"version-"1,0w/></M汰inB1ement><PostProcessixigRuledriver-"MAPDriver"exten曰ions-"OutputExt;eiision鵬"xml"OutputParametei:s""Pac:)cagecc3octookJTetnplateedocboofc,PostGf柳mer"DebugMo3es"False"/^</TransformationRu1es>cMAPOBOTBCTname"BookParagraphs"sotircetype="XML"><InputRulespassthrue"True"/;><OutjmtRules/><MAPChlldr8n柳lchildrenpasstype-"childelements"chiIdsettypetffalternatetf><MAPOBJECTref-"MetaTitle"miiiOcciars-"0"聰xOccurs坦":L"onlypassif=s"HBAD"/:>《MAPOBJECTrefss"Body&Eo:叫rapli曰"TninOedurs-'T'tnaxOccur曰鵬"1"onlypassif-"BODVw/></MAPChildi:en>《/MAK>BJECT>《MAK)BJECTnaTne-"MetaTitle"sourc;etYpe-"Mt^"C工nputRu工esrulesettype-"XML"><Ruleruletype-"XML"xmlinatchtype-"XPATH"select"TITLE"/>《/InputRules><OutputRulespassthrus"Trueflcopychildren。"Trueffcopyattaribates=wTruew/></MAPOBCrECT>《MAPOBJECTname-"caption^pa2r玩gr邵h"soizr*cetype。"XMIi">《工nputRulesru2esettype-ffXML"><table>tableseeoriginaldocumentpage30</column></row><table>表2示出了根據(jù)本發(fā)明的一個實施方式的映射模板的示例性實例,該模板將HTML文檔轉(zhuǎn)換成DocbookXML文檔。映射模板中的元素〈TransformationRules〉包含如下(1)預(yù)處理器中的HTML驅(qū)動器,HtmlDriverJ。(2)文件后綴名。具體地,輸入后綴擴展名是".html,.htm",以及輸出后綴擴展名是"xml"。(3)處理內(nèi)容的規(guī)則包括<OutputParameters="Tables=False|Lists-TruejGraphics-TrueIF。rmattedText=True|Blan3cPa:ras=True|PageBreaks=FalseIIjinks-True|Copy工mages-True',DebugMode-"False"/>(4)文件編碼規(guī)則,其指定為UTF-16編碼。(5)輸出格式,包括<PostProceissingrRuledriver-"MAPDriver"esctensiorise""OutputExtension-"xml"OutputParameters-"Package-docbookjTemplate-docboolc,PostGra,a3:"ebugMcde-"False"/>圖4示出了根據(jù)本發(fā)明的一個實施方式的支持基于規(guī)則內(nèi)容挖掘的示例性計算機系統(tǒng)。計算機系統(tǒng)402包括處理器404、內(nèi)存406、存儲設(shè)備408。另外,鍵盤410、指示設(shè)備412、顯示器414與計算機系統(tǒng)402耦合。存儲設(shè)備408存儲文檔內(nèi)容挖掘程序416、以及應(yīng)用程序420和422。在一個實施方式中,文檔內(nèi)容挖掘程序416還包括規(guī)則引擎418。在此操作中,計算機系統(tǒng)402從存儲設(shè)備408載入文檔內(nèi)容挖掘程序416到內(nèi)存406。處理器404執(zhí)行來自內(nèi)存406的指示,并在輸入文檔中執(zhí)行基于規(guī)則的內(nèi)容挖掘。僅僅出于示意和說明的目的而呈現(xiàn)了本發(fā)明的實施方式的上述說明。并非旨在窮盡或者將本發(fā)明限制為所公開的形式。相應(yīng)地,許多調(diào)整或變型對本領(lǐng)域技術(shù)人員是明顯的。另外,上述公開無意限制本發(fā)明。由所附權(quán)利要求書來限定本發(fā)明的范圍。權(quán)利要求1.一種用于支持從結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)提取內(nèi)容的基于規(guī)則的內(nèi)容挖掘的方法,所述方法包括接收包含結(jié)構(gòu)化數(shù)據(jù)、或非結(jié)構(gòu)化數(shù)據(jù)、或者兩者混合數(shù)據(jù)的文件;基于所述接收的文件來生成易處理的可擴展標(biāo)記語言(pXML)文件;基于一種或多種規(guī)則來從所述pXML文件提取內(nèi)容;以及基于指定格式來生成語義XML文件。2.根據(jù)權(quán)利要求1所述的方法,其中從所述pXML文件提取內(nèi)容包括針對該pXML文件應(yīng)用規(guī)則引擎。3.根據(jù)權(quán)利要求2所述的方法,其中所述規(guī)則引擎包括一個或多個映射對象,用以從所述pXML文件分析和提耳又內(nèi)容。4.根據(jù)權(quán)利要求3所述的方法,其中所述映射對象具有映射對象名稱;即插即用開關(guān);激活開關(guān);以及激活順序。5.根據(jù)權(quán)利要求3所述的方法,其中所述映射對象包括一個或多個輸入規(guī)則;一個或多個輸出規(guī)則;以及一個或多個子映射對象和/或子規(guī)則。6.根據(jù)權(quán)利要求5所述的方法,其中所述輸入規(guī)則可以是基于文本的輸入規(guī)則或是基于元素的輸入規(guī)則。7.根據(jù)權(quán)利要求6所述的方法,其中所述基于文本的輸入規(guī)則可以是文本分析規(guī)則或標(biāo)簽語法規(guī)則;其中所述文本分析規(guī)則可以包括以下一個或多個行規(guī)則、固定長度規(guī)則、正則表達式規(guī)則、超文本標(biāo)簽規(guī)則、文本匹配力見則;以及其中所述標(biāo)簽語法規(guī)則可以包括以下一個或多個順序規(guī)則、塊"或"規(guī)則、重復(fù)規(guī)則、模板對象規(guī)則、符號標(biāo)簽規(guī)則、數(shù)字標(biāo)簽規(guī)則、字符串規(guī)則、存在規(guī)則,不存在規(guī)貝'j、詞規(guī)則、詞大寫規(guī)則和空規(guī)則。8.根據(jù)權(quán)利要求6所述的方法,其中所述基于元素的輸入規(guī)則可以是基于初級元素的輸入^見則或基于高級元素的輸入規(guī)則;其中基于初級元素的輸入規(guī)則可以包括以下一個或多個組合規(guī)則、對比規(guī)則、速記規(guī)則、混合規(guī)則、屬于規(guī)則、執(zhí)行規(guī)則、XML路徑語言評價規(guī)則以及混雜類型規(guī)則;以及其中基于高級元素的輸入規(guī)則可以包括以下一個或多個語法序列規(guī)則、首尾序列規(guī)則以及子映射對象規(guī)則。9.根據(jù)權(quán)利要求5所述的方法,其中所述輸出規(guī)則可以是以下一個或多個"無指定"規(guī)則、"完整輸入文本"規(guī)則、"輸入"規(guī)則、"常值"規(guī)則、"子結(jié)果"規(guī)則、"最大子結(jié)果"規(guī)則、"平均子結(jié)果"規(guī)則以及"表映射"規(guī)則。10.根據(jù)權(quán)利要求1所述的方法,其中基于指定格式生成語義的XML文件包括應(yīng)用XLST文件或外部程序文件并生成應(yīng)用特定的XML文件。11.一種計算機系統(tǒng),用于支持從結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)提取內(nèi)容的基于規(guī)則的內(nèi)容挖掘,該計算機系統(tǒng)包括處理器;存儲器;接收機構(gòu),配置以接收包含結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)、或者兩者混合的文件;預(yù)處理器,配置以基于所述接收的文件生成易處理的可擴展標(biāo)記語言(pXML)文件;規(guī)則引擎,配置以基于一種或多種規(guī)則來從所述pXML文件中提取內(nèi)容;以及后處理器,配置以基于指定格式生成語義XML文件。12.根據(jù)權(quán)利要求11所述的計算機系統(tǒng),其中所述規(guī)則引擎包括一個或多個映射對象,用以從pXML文件分析和拔:耳又內(nèi)容。13.根據(jù)權(quán)利要求12所述的計算機系統(tǒng),其中所述映射對象具有映射對象名稱;即插即用開關(guān);激活開關(guān);以及激活順序。14.根據(jù)權(quán)利要求12所述的計算機系統(tǒng),其中所述映射對象包括一種或多種輸入少見則;一種或多種輸出規(guī)則;以及一種或多種子映射對象和/或子規(guī)則。15.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中所述輸入規(guī)則可以是基于文本的輸入規(guī)則或基于元素的輸入規(guī)則。16.根據(jù)權(quán)利要求15所述的計算機系統(tǒng),其中所述基于文本的輸入規(guī)則可以是文本分析規(guī)則或標(biāo)簽語法規(guī)則;其中文本分析規(guī)則包括以下一個或多個行規(guī)則、固定長度規(guī)則、正則表達式規(guī)則、超文本標(biāo)簽規(guī)則以及文本匹配^見則;以及其中標(biāo)簽語法規(guī)則可以包括以下一個或多個順序規(guī)則、塊"或"規(guī)則、重復(fù)規(guī)則、模板對象規(guī)則、符號標(biāo)簽規(guī)則、數(shù)字標(biāo)簽規(guī)則、字符串規(guī)則、存在規(guī)則,不存在規(guī)則、詞^見則、詞大寫規(guī)則以及空^L則。17.根據(jù)權(quán)利要求15所述的計算機系統(tǒng),其中所述基于元素的輸入規(guī)則可以是基于初級元素的輸入規(guī)則或基于高級元素的輸入規(guī)則;其中基于初級元素輸入規(guī)則可以包括以下一個或多個組合規(guī)則、對比規(guī)則、速記規(guī)則、混合規(guī)則、屬于規(guī)則、執(zhí)行規(guī)則、XML路徑語言評價規(guī)則和其他類型規(guī)則;以及其中基于高級元素的輸入規(guī)則可以包括以下一個或多個語法序列規(guī)則、首尾序列規(guī)則以及子映射對象規(guī)則。18.根據(jù)權(quán)利要求14所述的計算機系統(tǒng),其中所述輸出規(guī)則可以是以下一個或多個"無指定"規(guī)則、"完整輸入"文本規(guī)則、"輸入"規(guī)則、"常值"規(guī)則、"子結(jié)果"規(guī)則、"最大子結(jié)果"規(guī)則、"平均子結(jié)果"規(guī)則以及"表映射"規(guī)則。19.根據(jù)權(quán)利要求11所述的計算機系統(tǒng),其中當(dāng)基于所述指定格式生成語義XML文件時,所述后處理器配置以應(yīng)用XLST文件或外部程序文件來生成應(yīng)用特定的XML文件。20.—種用于支持從結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)提取內(nèi)容的基于規(guī)則的內(nèi)容挖掘的裝置,所述裝置包括接收機構(gòu),配置以接收包括結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)或兩者混合的文件;第一文件生成機構(gòu),配置以基于所述接收的文件來生成易處理的可擴展標(biāo)記語言(pXML)文件;基于規(guī)則的內(nèi)容挖掘機構(gòu),配置以基于一種或多種規(guī)則從所述pXML文件中提取內(nèi)容;以及第二文件生成機構(gòu),配置以基于指定格式來生成語義XML文件的文件。全文摘要一種用于支持從結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)提取內(nèi)容的基于規(guī)則的內(nèi)容挖掘的系統(tǒng),該系統(tǒng)接收包含結(jié)構(gòu)化數(shù)據(jù)、或非結(jié)構(gòu)化數(shù)據(jù)、或者兩者混合數(shù)據(jù)的文件。然后,系統(tǒng)基于所述接收的文件來生成易處理的可擴展標(biāo)記語言(pXML)文件。系統(tǒng)進一步基于一種或多種規(guī)則來從所述pXML文件提取內(nèi)容,以及基于指定格式來生成語義XML文件。文檔編號G06F17/27GK101361063SQ200780001495公開日2009年2月4日申請日期2007年4月10日優(yōu)先權(quán)日2006年4月12日發(fā)明者何余良,翌陳申請人:龍搜(北京)科技有限公司