一種電子文檔的元信息提取方法
【專利摘要】本發(fā)明公開了一種電子文檔的元信息提取方法,屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】。本方法采用模塊化的理念將文檔信息提取的過程分為三個(gè)部分:文檔格式解析模塊、文檔信息優(yōu)化模塊和文檔信息解析模塊,然后使用一種統(tǒng)一的文檔信息格式將三個(gè)模塊聯(lián)系起來。通過這樣的設(shè)計(jì)使得添加一種格式支持以及增加信息提取類型變得簡單方便,只需關(guān)注自身的實(shí)現(xiàn)卻可以享受到已有其他模塊帶來的便利。與此同時(shí)不同的提取方法和格式支持可以快速自由地配置,這對于個(gè)性化系統(tǒng)定制和升級維護(hù)都有很大的幫助。
【專利說明】一種電子文檔的元信息提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種電子文檔的元信息提取方法,屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,大量的圖書、雜志、報(bào)刊、報(bào)告,手冊等文檔都越來越多地用電子格式進(jìn)行存儲和傳播,因而對于這些電子文檔的管理成為了一個(gè)重要工作。為了方便檢索和閱讀,人們一般都將這些文檔中的一些重要信息提取出來作為索引存儲,這些信息一般都描述了該文檔的領(lǐng)域、主題等高度概括性的信息,一般稱之為元信息。然而,當(dāng)前電子文檔的格式多種多樣(常用的如D0C、roF、HTML),即使同一種格式的標(biāo)準(zhǔn)也并不統(tǒng)一,比如HTML文檔雖有W3C標(biāo)準(zhǔn),但是不同的瀏覽器兼容的格式是有差異的。與此同時(shí),不同的應(yīng)用和領(lǐng)域?qū)ξ臋n信息提取的要求也是不同的,假如現(xiàn)在有M種文檔格式和N種提取要求,那么就需要實(shí)現(xiàn)M*N種文檔信息提取器來滿足所有的需求,這將會進(jìn)行大量的重復(fù)性勞動。正因如此,設(shè)計(jì)一種能夠避免這樣重復(fù)勞動的模式顯得十分的重要。
[0003]當(dāng)前常見的文檔格式都有許多解析器的實(shí)現(xiàn),比如解析TOF的iText、pdfBox,解析 HTML+CSS 的 WebkitJridentJ^Zi1 Office 文檔系列的 MS0fficeAP1、P0I 等等。這些成熟的實(shí)現(xiàn)都可以復(fù)用到系統(tǒng)中來。
[0004]當(dāng)前抽取文檔信息的方法同樣有很多,有基于統(tǒng)計(jì)的方法,也有基于規(guī)則的,還有基于視覺布局的,這些方法同樣可以應(yīng)用到系統(tǒng)中來。
[0005]現(xiàn)有的解決系統(tǒng)復(fù)雜度的方法是將所有格式的文檔轉(zhuǎn)換成純文本,然后再進(jìn)行下一步的處理。但是這樣的處理將丟失大量有利于后期處理分析的文檔結(jié)構(gòu)化信息,使得接下來的處理的復(fù)雜度大大增加。
【發(fā)明內(nèi)容】
`
[0006]本發(fā)明的目的是簡化和改善多格式文檔中元信息的提取。盡可能地復(fù)用已有的提取方法,避免為新添一種文檔格式而花費(fèi)大量的時(shí)間來做重復(fù)的工作,同時(shí)可以快速自由地配置不同的提取方法。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0008]采用模塊化的理念將文檔信息提取的過程分為三個(gè)部分:文檔格式解析模塊、文檔信息優(yōu)化模塊和文檔信息解析模塊,然后使用一種統(tǒng)一的文檔信息格式將三個(gè)模塊聯(lián)系起來。
[0009]一個(gè)統(tǒng)一文檔由O個(gè)或I個(gè)或多個(gè)信息聚合組成。信息聚合指:一個(gè)信息聚合塊是由I個(gè)或多個(gè)信息塊組成;或同一個(gè)信息聚合內(nèi)的信息塊視覺位置相鄰;或不同信息聚合內(nèi)的信息塊視覺位置不相鄰。本技術(shù)方案中,信息塊由I個(gè)或多個(gè)字符組成;每個(gè)信息塊是一個(gè)四元組:
[0010]Block = {content, bound, font, next}
[0011]其中,content是/[目息塊的字符串;bound是該/[目息塊的邊界范圍;font是該/[目息塊的字體信息,包括字體族、類型、字號、顏色;next是與該信息塊相鄰的下一個(gè)信息塊,不存在時(shí)為空。不同行的內(nèi)容處于不同的信息塊中;同一行相鄰的信息塊的font屬性不同;同一行相鄰的信息塊視覺位置也相鄰;信息塊的邊界區(qū)域只包含文本內(nèi)容。
[0012]一種電子文檔的元信息提取方法實(shí)現(xiàn)步驟:
[0013]步驟一、進(jìn)行文檔格式解析:利用文檔格式解析器將不同格式的文檔解析成統(tǒng)一的文檔信息格式,得到的統(tǒng)一文檔中的每一信息聚合有且只有一個(gè)信息塊;對于不同的文檔格式可以有不同的實(shí)現(xiàn),對于同一種文檔格式也可以有不同的實(shí)現(xiàn);
[0014]步驟二、進(jìn)行文檔信息優(yōu)化:
[0015]步驟一得到的統(tǒng)一文檔信息經(jīng)過多個(gè)串聯(lián)的信息優(yōu)化器進(jìn)行優(yōu)化,每個(gè)優(yōu)化器的輸入和輸出都米用統(tǒng)一文檔信息格式;把輸入的統(tǒng)一文檔中的信息聚合經(jīng)過模板匹配、粗粒度聚合等合適的方法合并或者消除得到新的統(tǒng)一文檔;
[0016]步驟三、文檔信息提取:
[0017]根據(jù)提取需要采用聚合順序和位置信息判斷等合適的方法識別出統(tǒng)一文檔中需要的信息聚合,然后將其內(nèi)容的部分或全部提取出來;對于提取不同的信息可以有不同的實(shí)現(xiàn),對于提取相同的信息也可以有不同的實(shí)現(xiàn)。
[0018]有益效果
[0019]利用該模型構(gòu)建的文檔信息提取系統(tǒng)具有良好的可擴(kuò)展性和可配置性。為系統(tǒng)增加一種支持的文檔格式通常只需要實(shí)現(xiàn)一個(gè)該格式的文檔格式解析器即可,之后便可享受到已有的優(yōu)化方法和信息提取方法提取特定的信息。反過來,為系統(tǒng)增加一種提取信息的類型只要實(shí)現(xiàn)一個(gè)提取該信息的提取器即可,之后便可以對所以系統(tǒng)支持的文檔格式進(jìn)行優(yōu)化并提取相應(yīng)的信息。同樣的,增加文檔信息優(yōu)化器也不會影響到文檔格式和信息提取的類型的支持。同時(shí),對于文檔格式解析器、信息優(yōu)化器和信息提取器的選擇和組合可以自由的進(jìn)行,這對于個(gè)性化系統(tǒng)定制和升級維護(hù)都有很大的幫助。
【專利附圖】
【附圖說明】
[0020]圖1為系統(tǒng)框架圖
[0021]圖2為文檔的轉(zhuǎn)換流程
[0022]圖3為優(yōu)化器組織
[0023]圖4為文檔格式解析結(jié)果
[0024]圖5為文檔信息優(yōu)化結(jié)果
【具體實(shí)施方式】
[0025]下面結(jié)合實(shí)施例對本發(fā)明做進(jìn)一步說明。
[0026]假定需要處理的文檔是AnenhancedACOalgorithmtoselectfeaturesfortext categorizationanditsparalIelization, ExpertSystemswithAppIicat ions39 (2012) 5861 - 5871.文檔格式為H)F,需要提取的信息為作者和標(biāo)題。提取流程如圖1所示;
[0027]根據(jù)步驟一進(jìn)行文檔格式解析;文檔轉(zhuǎn)化流程如圖2所示,得到的統(tǒng)一文檔如下,參照圖4。信息塊如下:[0028]Blockl:
[0029]> Content:ExpertSystemswithApplications39 (2012)5861 - 5871
[0030]> Bound:449,95,363,23
[0031]> Font: Times,Normal,8px,black
[0032]> Next: Block2
[0033]Block2:
[0034]> Content:C ontentslistsavaiIableatSciVerseScienceDirect
[0035]> Bound:438, 151,394,21
[0036]> Font:Arial, Normal, Ilpxj black
[0037]> Next:Block3
[0038]Block3:
[0039]Content:ExpertSystemswithApplications
[0040]> Bound:391,199,483,38
[0041]> Font: Times,Normal,19px, black
[0042]> Next:Block4
[0043]Block4:
[0044]> Content:journalhomepage:www.elsevier.com/locate/eswa
[0045]> Bound: 379,263,506,23
[0046]> FontiCalibrijNormalj Ilpxj black
[0047]> Next: Block5
[0048]Block5:
[0049]^ Content:AnenhancedACOalgorithmtoselectfeaturesfortextcategorization
[0050]、Bound:81,366,915,34
[0051]、Font:Calibrij Normal, 17px, black
[0052]> Next:Block6
[0053]Block6:
[0054]> Content:anditsparallelization
[0055]> Bound:81,404,292,34
[0056]、Font:Calibrij Normal, 17px, black
[0057]> Next: Block7
[0058]Block7:
[0059]、Content:M.JanakiMeenaj K.R.Chandranj A.Karthikj A.VijaySamuel
[0060]> Bound:81,452,686,30[0061]> Font:Helvetica, Normal, 15px, black
[0062]> Next:Block8
[0063]Block8:
[0064]> Content:DepartmentofCSEjPSGCoIIegeofTechnology, Coimbatore, TamilNadu641004,India
[0065]> Bound:87,494,535,19
[0066]> Font:Times,Italic,8px,black
[0067]> Next: Block9
[0068]Block9:
[0069]> Content:DepartmentofITjPSGColIegeofTechnologyj Coimbatore, TamilNadu641004,India
[0070]> Bound:87, 511,524,19
[0071]> Font:Times,Italic, 8px, black
[0072]>Next:無
[0073]Document:
[0074]Clusterl {Blockl}
[0075]Cluster2 {Block2}
[0076]Cluster3 {Block3}
[0077]Cluster4 {Block4}
[0078]Cluster5 {Block5}
[0079]Cluster6 {Block6}
[0080]Cluster7 {Block7}
[0081 ]Cluster8 {Block8}
[0082]Cluster9 {Block9}
[0083]根據(jù)步驟二進(jìn)行文檔信息優(yōu)化,優(yōu)化器如圖3所示,得到優(yōu)化后的文檔信息如下,參照圖5。
[0084]Document:
[0085]Clusterl {Blockl}
[0086]Cluster2 {Block2}
[0087]Cluster3 {Block3}
[0088]Cluster4 {Block4}
[0089]Cluster5 {Block5,Block6}
[0090]Cluster6 {Block7}
[0091]Cluster7 {Block8,Block9}
[0092]根據(jù)步驟三提取文檔信息,識別標(biāo)題所在聚合為Cluster5,作者在Cluster6,最終信息提取如下:
[0093]標(biāo)題:AnenhancedACOalgorithmtoseIectfeaturesfortextcategorizationanditsparallelization
[0094]作者:Μ.JanakiMeenaj K.R.Chandranj A.Karthikj A.Vi jaySamuel。
【權(quán)利要求】
1.一種電子文檔的元信息提取方法,其特征在于: 步驟一、進(jìn)行文檔格式解析:利用文檔格式解析器將不同格式的文檔解析成統(tǒng)一的文檔信息格式,得到的統(tǒng)一文檔中的每一信息聚合有且只有一個(gè)信息塊;對于不同的文檔格式可以有不同的實(shí)現(xiàn),對于同一種文檔格式也可以有不同的實(shí)現(xiàn); 步驟二、進(jìn)行文檔信息優(yōu)化:步驟一得到的統(tǒng)一文檔信息經(jīng)過多個(gè)串聯(lián)的信息優(yōu)化器進(jìn)行優(yōu)化,每個(gè)優(yōu)化器的輸入和輸出都采用統(tǒng)一文檔信息格式;把輸入的統(tǒng)一文檔中的信息聚合經(jīng)過模板匹配、粗粒度聚合等合適的方法合并或者消除得到新的統(tǒng)一文檔; 步驟三、文檔信息提取:根據(jù)提取需要采用聚合順序和位置信息判斷等合適的方法識別出統(tǒng)一文檔中需要的信息聚合,然后將其內(nèi)容的部分或全部提取出來;對于提取不同的信息可以有不同的實(shí)現(xiàn),對于提取相同的信息也可以有不同的實(shí)現(xiàn)。
【文檔編號】G06F17/30GK103744983SQ201410017927
【公開日】2014年4月23日 申請日期:2014年1月15日 優(yōu)先權(quán)日:2014年1月15日
【發(fā)明者】馮沖, 李侃, 黃河燕, 史樹敏, 陳嘉駿 申請人:北京理工大學(xué)