欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

生成與維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法和設(shè)備的制作方法

文檔序號(hào):6584086閱讀:112來(lái)源:國(guó)知局

專利名稱::生成與維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域
:本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,尤其涉及一種生成網(wǎng)頁(yè)內(nèi)容抽取模板的方法和設(shè)備以及維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法和設(shè)備。
背景技術(shù)
:隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)上的信息量每天都以驚人的速度增長(zhǎng)。具有標(biāo)記語(yǔ)言格式,例如超文本標(biāo)記語(yǔ)言HTML格式的Web網(wǎng)頁(yè)是主要的信息載體。目前的Web網(wǎng)頁(yè)多為由數(shù)據(jù)庫(kù)和模板生成的動(dòng)態(tài)網(wǎng)頁(yè)。通常一個(gè)網(wǎng)頁(yè)中,除了包括主要的正文內(nèi)容外,還包含廣告、導(dǎo)航信息、版權(quán)信息等與正文無(wú)關(guān)的信息。在信息搜索、信息過(guò)濾、文本分類、文本聚類、文摘等應(yīng)用中,去除掉網(wǎng)頁(yè)中的噪聲信息并提取網(wǎng)頁(yè)內(nèi)容是非常重要的一步。比如在信息搜索中,在去除掉噪聲信息的網(wǎng)頁(yè)內(nèi)容基礎(chǔ)上建立索引可以有效地提高搜索的準(zhǔn)確率;而在信息過(guò)濾、文本分類、文本聚類和文摘等應(yīng)用中,準(zhǔn)確的網(wǎng)頁(yè)內(nèi)容抽取對(duì)系統(tǒng)的性能有很大的提升作用。可以利用網(wǎng)頁(yè)內(nèi)容抽取模板對(duì)相似的網(wǎng)頁(yè)集合進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取。這種技術(shù)包括基于HTML特征來(lái)自動(dòng)地或半自動(dòng)地生成網(wǎng)頁(yè)內(nèi)容抽取模板,并利用生成的網(wǎng)頁(yè)內(nèi)容抽取模板來(lái)抽取網(wǎng)頁(yè)內(nèi)容。例如在CRESCENZI.V等人的“^TowardsAutomaticDataExtractionformLargeWebSites",InProceedingsofthe26thInternationalConferenceonVeryLargeDatabaseSystems,Rome,Italy,2001,ppl09-118)中公開了一種全自動(dòng)的方法,其中在網(wǎng)頁(yè)集合中完成對(duì)抽取規(guī)則的自動(dòng)推導(dǎo)。此外,在使用網(wǎng)頁(yè)內(nèi)容抽取模板進(jìn)行網(wǎng)頁(yè)內(nèi)容抽取的實(shí)際過(guò)程中,往往會(huì)遇到“模板維護(hù)”的問(wèn)題,即由于網(wǎng)頁(yè)發(fā)生變化而導(dǎo)致抽取模板失效或者準(zhǔn)確度下降。
發(fā)明內(nèi)容在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。本發(fā)明的一個(gè)目的在于提供一種生成網(wǎng)頁(yè)內(nèi)容抽取模板的方法及設(shè)備。該方法及設(shè)備可以高效地自動(dòng)生成網(wǎng)頁(yè)內(nèi)容抽取模板。本發(fā)明的另一個(gè)目的在于提供一種維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法及設(shè)備,以便可以快速地自動(dòng)判斷當(dāng)前網(wǎng)頁(yè)內(nèi)容抽取模板是否適應(yīng)輸入的網(wǎng)頁(yè)。并在判定不適應(yīng)的情況下,從計(jì)算的發(fā)生變化的時(shí)刻起重新計(jì)算網(wǎng)頁(yè)內(nèi)容抽取模板。本發(fā)明的另一個(gè)目的是提供在被計(jì)算設(shè)備執(zhí)行時(shí)使計(jì)算設(shè)備能夠執(zhí)行上述方法的處理過(guò)程的計(jì)算機(jī)程序代碼,以及其上存儲(chǔ)有該計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可以提高生成網(wǎng)頁(yè)內(nèi)容抽取模板的效率。此外,在被處理網(wǎng)頁(yè)發(fā)生變化的情況下,本發(fā)明可以快速地自動(dòng)重新生成網(wǎng)頁(yè)內(nèi)容抽取模板,這樣實(shí)現(xiàn)了在不需要人工干預(yù)的情況下保持較高的準(zhǔn)確率。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種生成網(wǎng)頁(yè)內(nèi)容抽取模板的裝置,包括輸入單元,被配置成根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)相似的多個(gè)輸入網(wǎng)頁(yè)中的每個(gè)輸入網(wǎng)頁(yè),建立文檔對(duì)象模型樹,以作為輸入樹;權(quán)重計(jì)算單元,被配置成計(jì)算各個(gè)輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重;最大對(duì)齊關(guān)系計(jì)算單元,被配置成使用任何一個(gè)輸入樹作為初始聯(lián)合樹,利用計(jì)算出的權(quán)重來(lái)計(jì)算每個(gè)所述輸入樹和所述聯(lián)合樹之間的最大對(duì)齊關(guān)系;合并單元,被配置成利用計(jì)算出的所述最大對(duì)齊關(guān)系將所述輸入樹合并到所述聯(lián)合樹上;確定單元,被配置成確定所述聯(lián)合樹中最可能具有期望文本內(nèi)容的節(jié)點(diǎn);和選擇單元,被配置成選擇所述聯(lián)合樹中包含所確定的節(jié)點(diǎn)的子樹作為所述網(wǎng)頁(yè)內(nèi)容抽取模板。根據(jù)本發(fā)明的又一個(gè)方面,提供一種維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的裝置,包括相似度計(jì)算單元,被配置成計(jì)算所述網(wǎng)頁(yè)內(nèi)容抽取模板與依次輸入的網(wǎng)頁(yè)的文檔對(duì)象模型樹之間的相似度,以構(gòu)成相似度序列;統(tǒng)計(jì)量計(jì)算單元,被配置成利用預(yù)定大小的窗口遍歷所述相似度序列,計(jì)算所述相似度序列在窗口中的統(tǒng)計(jì)量;統(tǒng)計(jì)量判斷單元,被配置成根據(jù)計(jì)算的統(tǒng)計(jì)量來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè);和重新計(jì)算單元,被配置成在統(tǒng)計(jì)量判斷單元判定所述網(wǎng)頁(yè)內(nèi)容抽取模板已不適應(yīng)輸入網(wǎng)頁(yè)的情況下,用上述裝置來(lái)重新計(jì)算網(wǎng)頁(yè)內(nèi)容抽取模板。根據(jù)本發(fā)明的另一個(gè)方面,提供一種生成網(wǎng)頁(yè)內(nèi)容抽取模板的方法,包括根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)相似的多個(gè)輸入網(wǎng)頁(yè)中的每個(gè)輸入網(wǎng)頁(yè),建立文檔對(duì)象模型樹,以作為輸入樹;計(jì)算各個(gè)輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重;使用任何一個(gè)輸入樹作為初始聯(lián)合樹,利用計(jì)算出的權(quán)重來(lái)計(jì)算每個(gè)所述輸入樹和聯(lián)合樹之間的最大對(duì)齊關(guān)系;利用計(jì)算出的所述最大對(duì)齊關(guān)系將所述輸入樹合并到所述聯(lián)合樹上;確定所述聯(lián)合樹中最可能具有期望文本內(nèi)容的節(jié)點(diǎn);和選擇所述聯(lián)合樹中包含所確定的節(jié)點(diǎn)的子樹作為所述網(wǎng)頁(yè)內(nèi)容抽取模板。根據(jù)本發(fā)明的再一個(gè)方面,提供一種維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法計(jì)算所述網(wǎng)頁(yè)內(nèi)容抽取模板與依次輸入的網(wǎng)頁(yè)的文檔對(duì)象模型樹之間的相似度,以構(gòu)成相似度序列;利用預(yù)定大小的窗口遍歷所述相似度序列,計(jì)算相似度序列在所述窗口中的統(tǒng)計(jì)量;根據(jù)計(jì)算的統(tǒng)計(jì)量來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè);和在判定所述網(wǎng)頁(yè)內(nèi)容抽取模板已不適應(yīng)輸入網(wǎng)頁(yè)的情況下,用上述方法來(lái)重新計(jì)算網(wǎng)頁(yè)內(nèi)容抽取模板。根據(jù)本發(fā)明的其它方面,還提供了相應(yīng)的計(jì)算機(jī)程序代碼、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。圖1的框圖示出根據(jù)本發(fā)明第一實(shí)施例的生成網(wǎng)頁(yè)內(nèi)容抽取模板的設(shè)備100的示例性結(jié)構(gòu)。圖2是示出HTML代碼和相應(yīng)文檔對(duì)象模型樹的一個(gè)例子的示意圖。圖3是示出根據(jù)本發(fā)明第一實(shí)施例的生成網(wǎng)頁(yè)內(nèi)容抽取模板的方法的流程圖。圖4是示出權(quán)重計(jì)算單元的具體結(jié)構(gòu)的示意圖。圖5是示出計(jì)算輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重的流程圖。圖6是示出根據(jù)本發(fā)明第二實(shí)施例的維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的裝置600的示意圖。圖7是示出根據(jù)本發(fā)明第二實(shí)施例的維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法的流程圖。圖到圖8c是示出兩個(gè)輸入樹的匹配過(guò)程的示意圖。圖9是示出相似度序列隨時(shí)間變化的示意圖。圖IOa到圖IOj是示出一個(gè)示例性合并算法的示意圖。圖11是示出尋找重復(fù)模式的示例性情形的示意圖。圖12是示出了在其中可以實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的方法和/或裝置的通用個(gè)人計(jì)算機(jī)的示例性結(jié)構(gòu)的方框圖。具體實(shí)施例方式下面參照附圖來(lái)說(shuō)明本發(fā)明的實(shí)施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。圖1的框圖示出根據(jù)本發(fā)明第一實(shí)施例的生成網(wǎng)頁(yè)內(nèi)容抽取模板的設(shè)備100的示例性結(jié)構(gòu)。以下結(jié)合圖1來(lái)描述根據(jù)本發(fā)明第一實(shí)施例的生成網(wǎng)頁(yè)內(nèi)容抽取模板的設(shè)備100。如圖1所示,設(shè)備100包括輸入單元101、權(quán)重計(jì)算單元102、最大對(duì)齊關(guān)系計(jì)算單元103、合并單元104、確定單元105和選擇單元106。輸入單元101針對(duì)網(wǎng)頁(yè)結(jié)構(gòu)相似的多個(gè)輸入網(wǎng)頁(yè)集合中的每個(gè)輸入網(wǎng)頁(yè),建立文檔對(duì)象模型樹,以作為輸入樹。對(duì)于一個(gè)網(wǎng)頁(yè),可以對(duì)其進(jìn)行分析以得到其文檔對(duì)象模型樹。文檔對(duì)象模型樹是一個(gè)樹結(jié)構(gòu),具有便于操作訪問(wèn)以及重新恢復(fù)原始網(wǎng)頁(yè)的優(yōu)點(diǎn)。通過(guò)依次讀入網(wǎng)頁(yè)的內(nèi)容,識(shí)別每一個(gè)標(biāo)簽的名稱、類別、參數(shù)和內(nèi)容,通過(guò)父子關(guān)系來(lái)反映嵌套關(guān)系,可以得到這種文檔對(duì)象模型樹。圖2是示出HTML代碼和相應(yīng)文檔對(duì)象模型樹的一個(gè)例子的示意圖。圖加示出了示例性的HTML代碼,其中通過(guò)縮進(jìn)來(lái)表示嵌套關(guān)系。圖2b示出了根據(jù)圖加示出的HTML代碼獲得的文檔對(duì)象模型樹,其中用圓圈表示節(jié)點(diǎn),節(jié)點(diǎn)旁邊的文字表示節(jié)點(diǎn)所對(duì)應(yīng)的HTML元素,節(jié)點(diǎn)間的連線表示節(jié)點(diǎn)間的父子關(guān)系(即相應(yīng)標(biāo)簽間的嵌套關(guān)系)。目前大部分的網(wǎng)頁(yè)(新聞、BBS(電子布告欄系統(tǒng))、Blog(博客))是基于數(shù)據(jù)庫(kù)和網(wǎng)頁(yè)生成程序(例如腳本)生成的動(dòng)態(tài)網(wǎng)頁(yè)。由于存在這個(gè)特點(diǎn),相同或類似網(wǎng)頁(yè)生成程序所生成的網(wǎng)頁(yè)會(huì)表現(xiàn)出結(jié)構(gòu)方面的相似性。例如搜狐的論壇(http://club.sohu.com/)和新浪的論壇(http:/Abs.sina.com.cn/)?;蛘哌M(jìn)一步細(xì)分,比如搜狐的母嬰論壇(http://club.baby.sohu.com/)禾口搜狐的汽車社區(qū)(http://bbs.auto.sohu.com/)、新浪的親子論壇(http://bbs.baby.sina.com.cn/)禾口汽車論壇(http://bbs.auto.sina.com.cn/)等。另外,同一類的網(wǎng)頁(yè)在結(jié)構(gòu)上是相似的。例如對(duì)于BBS帖子而言,帖子的格式(原帖的格式和回帖的格式)是統(tǒng)一的,變化的是帖子的內(nèi)容和其它噪聲信息(廣告、其它鏈接);對(duì)于新聞網(wǎng)頁(yè)而言,正文的格式往往是統(tǒng)一的,變化的是除正文以外的如廣告和相關(guān)鏈接的信息。一般說(shuō)來(lái),網(wǎng)頁(yè)的布局也相對(duì)穩(wěn)定,對(duì)于同一版面下面同一時(shí)期的網(wǎng)頁(yè)尤其如此。這些格式相對(duì)穩(wěn)定和一致的正文或帖子的內(nèi)容正是我們要抽取的內(nèi)容。為了達(dá)到這個(gè)6目的,可以根據(jù)一定數(shù)量的網(wǎng)頁(yè)結(jié)構(gòu)相似的網(wǎng)頁(yè)來(lái)統(tǒng)計(jì)其規(guī)律,最終得到一個(gè)準(zhǔn)確的抽取模板??梢杂懈鞣N方法來(lái)準(zhǔn)備網(wǎng)頁(yè)結(jié)構(gòu)相似的多個(gè)輸入網(wǎng)頁(yè)。例如,可以確定特定URL,并且根據(jù)URL目錄層次關(guān)系獲取相似網(wǎng)頁(yè)的集合。例如當(dāng)?shù)玫剿押摹败囆刑煜隆闭搲械哪硞€(gè)網(wǎng)頁(yè)時(shí),可以找到其索引頁(yè)面,通過(guò)索引頁(yè)面下載在這個(gè)論壇中的其它的網(wǎng)頁(yè)。將這些網(wǎng)頁(yè)作為輸入網(wǎng)頁(yè)。再例如,在URL信息不是很明確或者在某個(gè)子目錄下面網(wǎng)頁(yè)太少的情況下,可以從已獲得的網(wǎng)頁(yè)集合中,通過(guò)計(jì)算與輸入樹中任意指定的初始聯(lián)合樹所基于的網(wǎng)頁(yè)結(jié)構(gòu)的相似度或差異度的辦法,來(lái)獲得輸入網(wǎng)頁(yè)。如果一個(gè)網(wǎng)頁(yè)與初始聯(lián)合樹所基于的網(wǎng)頁(yè)結(jié)構(gòu)的相似度大于給定閾值(或差異度小于給定閾值),可以將該網(wǎng)頁(yè)作為輸入網(wǎng)頁(yè)。當(dāng)然,也可以預(yù)先人為指定輸入網(wǎng)頁(yè)。文檔對(duì)象模型樹中的節(jié)點(diǎn)對(duì)應(yīng)于HTML文檔中的元素,而HTML文檔中的元素在重要性上是有區(qū)別的。例如,在語(yǔ)法上,HTML文檔中的元素可以分為塊元素(blocklevelelements)和內(nèi)聯(lián)元素(inlineelements)兩種類型。塊元素和內(nèi)聯(lián)元素的區(qū)別主要體現(xiàn)在兩個(gè)方面。在內(nèi)容模型方面,塊元素可以包含其它塊元素或者內(nèi)聯(lián)元素,而內(nèi)聯(lián)元素通常只能夠包含內(nèi)聯(lián)元素或者數(shù)據(jù)。塊元素通常表示了比內(nèi)聯(lián)元素更大的結(jié)構(gòu)。在展現(xiàn)格式方面,塊元素通常在新的一行上開始顯示,而內(nèi)聯(lián)元素并不是這樣的。因此,塊元素的重要性顯然應(yīng)大于內(nèi)聯(lián)元素。主要的塊元素如下address、blockquote、center、dir、div、dl、fieldset、form、hi、h2、h3、h4、h5、h6、hr、isindex、menu、noframes>noscript、ol、p、pre、table、ul。主要的內(nèi)聯(lián)元素如下abbr、acronym、b、bdo、big、br、cite、code、dfn、em、font、i、img、input、kbd、label、q、s、samp、select、small、span、strike、strong、sub、sup、textarea、tt、U、var。因此,在網(wǎng)頁(yè)內(nèi)容抽取模板的生成過(guò)程中,需要對(duì)不同的類型的HTML元素給予不同的權(quán)重以便體現(xiàn)HTML標(biāo)簽的區(qū)別,從而使生成的網(wǎng)頁(yè)內(nèi)容抽取模板更具實(shí)際意義。因此,根據(jù)本發(fā)明的第一實(shí)施例中,利用權(quán)重計(jì)算單元102來(lái)精確地自動(dòng)計(jì)算多個(gè)輸入網(wǎng)頁(yè)的輸入樹中出現(xiàn)的各種類型的節(jié)點(diǎn)的權(quán)重。如上所述,給不同類型的節(jié)點(diǎn)設(shè)置權(quán)重可以體現(xiàn)出節(jié)點(diǎn)的實(shí)際重要性,但另一方面,權(quán)重設(shè)置會(huì)影響在隨后的查找最大對(duì)齊關(guān)系的步驟中找到的最大對(duì)齊關(guān)系。不同的權(quán)重設(shè)置對(duì)應(yīng)于不同的最大對(duì)齊關(guān)系。因?yàn)榫C合權(quán)重(一般來(lái)說(shuō)是權(quán)重之和)最大的對(duì)齊關(guān)系對(duì)應(yīng)于涵蓋信息量最大的對(duì)齊關(guān)系,所以最優(yōu)的權(quán)重設(shè)置應(yīng)該是對(duì)應(yīng)于綜合權(quán)重最大的對(duì)齊關(guān)系的權(quán)重設(shè)置。圖5是示出計(jì)算輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重的流程圖。在具體計(jì)算中,首先計(jì)算出輸入網(wǎng)頁(yè)集合的整體相似度,接著,計(jì)算可以使得該整體相似度最大的權(quán)重值。如圖5所示,處理在步驟S3021開始。接著,在步驟S3022,將多個(gè)輸入網(wǎng)頁(yè)的多個(gè)輸入樹中的兩個(gè)輸入樹對(duì)齊。可以考慮節(jié)點(diǎn)的層次順序以及以下因素中的至少一個(gè)來(lái)實(shí)現(xiàn)對(duì)齊不同節(jié)點(diǎn)類型的優(yōu)先級(jí)關(guān)系、預(yù)定的對(duì)齊層數(shù)、對(duì)齊節(jié)點(diǎn)的數(shù)量等等。接著,在步驟S3023,根據(jù)權(quán)重來(lái)計(jì)算這兩個(gè)輸入樹的輸入樹相似度。接著,在步驟S30M判斷是否還有未計(jì)算的輸入樹。如果還有未計(jì)算的輸入樹,則返回到步驟步驟S3022。如果已經(jīng)完成多個(gè)輸入樹中兩兩之間的輸入樹相似度的計(jì)算,則處理進(jìn)行到步驟S3025,其中將多個(gè)輸入樹中兩兩之間的輸入樹相似度之和作為多個(gè)輸入網(wǎng)頁(yè)集合的整體相似度,并計(jì)算出可以使該整體相似度最大的權(quán)重值作為權(quán)重值。可以利用許多方法進(jìn)行計(jì)算。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,采用線性回歸的方法進(jìn)行計(jì)算。最后,處理在步驟S3(^6結(jié)束。以下詳細(xì)描述計(jì)算權(quán)重的具體處理過(guò)程。首先,在步驟S3022,將兩顆輸入樹對(duì)齊。圖8示出了兩個(gè)輸入樹的匹配過(guò)程。在圖8中,示出了兩顆輸入樹圖2所示的以節(jié)點(diǎn)201為根的輸入樹(以下稱為樹1),以及以節(jié)點(diǎn)301為根的輸入樹(以下稱為樹2)。在開始匹配的時(shí)候,對(duì)于樹1中的節(jié)點(diǎn)201(<div>),樹2中有節(jié)點(diǎn)302、307、311div可以與之匹配。對(duì)樹1中的節(jié)點(diǎn)202(<form>),樹2中有節(jié)點(diǎn)303、308、312form可以與之匹配。當(dāng)匹配到樹1的節(jié)點(diǎn)203()的時(shí)候,樹2中只有節(jié)點(diǎn)309和313()和其匹配。在繼續(xù)匹配的時(shí)候,對(duì)于樹1中的節(jié)點(diǎn)204(〈input〉),樹2中只有節(jié)點(diǎn)314input可以與之匹配。節(jié)點(diǎn)310input雖然與其標(biāo)簽相同,但由于節(jié)點(diǎn)310和節(jié)點(diǎn)309ρ是兄弟關(guān)系,而在樹1中,節(jié)點(diǎn)204input和節(jié)點(diǎn)203ρ是父子關(guān)系,所以節(jié)點(diǎn)310無(wú)法匹配上。匹配到目前狀態(tài)下,活動(dòng)路徑上有4個(gè)標(biāo)簽(<diV>,<f0rm>,,〈input,各個(gè)標(biāo)簽在樹1中的序號(hào)依次為(1,2,3,4),在樹2中的序號(hào)依次為(11,12,13,14)0序號(hào)滿足順序關(guān)系。圖8a示出了該狀態(tài)下的匹配關(guān)系,其中虛線表示匹配關(guān)系。在繼續(xù)匹配的時(shí)候,對(duì)樹1中的節(jié)點(diǎn)205(<table>),在樹2中可以找到節(jié)點(diǎn)304table與之匹配。但由于在樹1中,節(jié)點(diǎn)205(〈table〉)的下標(biāo)比前一個(gè)節(jié)點(diǎn)204(標(biāo)簽〈input的序號(hào)大,而在樹2中節(jié)點(diǎn)304(<table>)的序號(hào)就要比前一個(gè)節(jié)點(diǎn)310input的序號(hào)小,因而不滿足序號(hào)的順序關(guān)系,故而進(jìn)行回溯,并將序列(<div>,<form>,<table>)加到一個(gè)新建的路徑上。圖8b示出了該狀態(tài)下的匹配關(guān)系,其中虛線表示匹配關(guān)系。按照這樣的操作繼續(xù)匹配下去,還可以得到匹配路徑(<div>,<form>,〈table〉,<tr>,<td>)。圖8c示出了該狀態(tài)下的匹配關(guān)系,其中虛線表示匹配關(guān)系。以上是通過(guò)層次關(guān)系和順序關(guān)系得到的匹配關(guān)系,在得到這些匹配關(guān)系后,需要進(jìn)一步考慮其它因素從中選出對(duì)齊關(guān)系??梢杂泻芏喾N考慮的因素,例如節(jié)點(diǎn)的優(yōu)先級(jí)、對(duì)齊的層數(shù)、對(duì)齊節(jié)點(diǎn)的數(shù)量等等。在本發(fā)明的一個(gè)實(shí)施例中,可以考慮對(duì)齊節(jié)點(diǎn)的數(shù)量選出對(duì)齊關(guān)系。即將對(duì)齊節(jié)點(diǎn)的數(shù)量最多的匹配關(guān)系視為對(duì)齊關(guān)系。在這種情況下,樹1和樹2的對(duì)齊關(guān)系是圖8c所示的匹配關(guān)系(<div>,<form>,<table>,<tr>,<td>)。在本發(fā)明的另一個(gè)實(shí)施例中,可以考慮匹配節(jié)點(diǎn)的優(yōu)先級(jí)關(guān)系來(lái)選出對(duì)齊關(guān)系。例如,如上所述,塊元素的優(yōu)先級(jí)應(yīng)大于內(nèi)聯(lián)元素,因此,可以選出塊元素?cái)?shù)目最多的匹配關(guān)系作為對(duì)齊關(guān)系。在塊元素?cái)?shù)目相同的情況下,才進(jìn)一步比較內(nèi)聯(lián)元素的數(shù)目。例如,在圖8示出的節(jié)點(diǎn)中,div、form,ρ是具有較高優(yōu)先級(jí)的塊元素,在三種匹配關(guān)系即圖8a所示的匹配關(guān)系(<div>,<form>,,〈input、圖8b所示的匹配關(guān)系(<div>,<form>,〈table、圖8c所示的匹配關(guān)系(<div>,<form>,<table>,<tr>,<td>)中,圖8a所示的匹8配關(guān)系(<div>,<form>,,〈input中包含的具有較高優(yōu)先級(jí)的塊元素的數(shù)目最多。因此,樹1和樹2的對(duì)齊關(guān)系則是圖8a所示的匹配關(guān)系(<div>,<form>,,〈input。還可以有很多其它方法來(lái)選擇對(duì)齊關(guān)系。例如,還可以通過(guò)對(duì)齊的層數(shù)來(lái)選擇匹配關(guān)系作為對(duì)齊關(guān)系。當(dāng)兩棵樹中出現(xiàn)某一層的節(jié)點(diǎn)完全對(duì)應(yīng)一致的情況時(shí),稱為兩顆樹中的某一層對(duì)齊。因此,可以選擇包含最多數(shù)目的對(duì)齊層的匹配關(guān)系(即選擇對(duì)齊層數(shù)最多的匹配關(guān)系)作為對(duì)齊關(guān)系。盡管在上文中只是描述了根據(jù)多個(gè)因素(例如節(jié)點(diǎn)的優(yōu)先級(jí)、對(duì)齊的層數(shù)、對(duì)齊節(jié)點(diǎn)的數(shù)量等)中的一個(gè)因素來(lái)從匹配關(guān)系中選擇對(duì)齊關(guān)系,但顯然,也可以利用上述因素中的任意兩個(gè)或更多個(gè)的組合來(lái)從匹配關(guān)系中選擇對(duì)齊關(guān)系。接著,在步驟S3023,根據(jù)權(quán)重來(lái)計(jì)算兩個(gè)輸入樹的輸入樹相似度。在計(jì)算中,用Wi來(lái)表示某種類型節(jié)點(diǎn)的權(quán)重。對(duì)于兩個(gè)輸入樹Tm和Tn,用Dmn來(lái)表示二者的相似度。此處,相似度Dnm被定義為兩顆對(duì)象樹Tm和Tn在對(duì)齊關(guān)系上的對(duì)齊節(jié)點(diǎn)的權(quán)重和。因此,Dnm可以被表示為權(quán)利要求1.一種生成網(wǎng)頁(yè)內(nèi)容抽取模板的裝置,包括輸入單元,被配置成根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)相似的多個(gè)輸入網(wǎng)頁(yè)中的每個(gè)輸入網(wǎng)頁(yè),建立文檔對(duì)象模型樹,以作為輸入樹;權(quán)重計(jì)算單元,被配置成計(jì)算各個(gè)輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重;最大對(duì)齊關(guān)系計(jì)算單元,被配置成使用任何一個(gè)輸入樹作為初始聯(lián)合樹,利用計(jì)算出的權(quán)重來(lái)計(jì)算每個(gè)所述輸入樹和所述聯(lián)合樹之間的最大對(duì)齊關(guān)系;合并單元,被配置成利用計(jì)算出的所述最大對(duì)齊關(guān)系將所述輸入樹合并到所述聯(lián)合樹上;確定單元,被配置成確定所述聯(lián)合樹中最可能具有期望文本內(nèi)容的節(jié)點(diǎn);和選擇單元,被配置成選擇所述聯(lián)合樹中包含所確定的節(jié)點(diǎn)的子樹作為所述網(wǎng)頁(yè)內(nèi)容抽取模板。2.如權(quán)利要求1所述的裝置,其中所述權(quán)重計(jì)算單元進(jìn)一步包括輸入樹相似度計(jì)算單元,被配置成計(jì)算多個(gè)輸入樹兩兩之間的相似度;第一計(jì)算單元,被配置成計(jì)算每種類型的節(jié)點(diǎn)的權(quán)重,使得所述多個(gè)輸入樹的基于兩兩之間的相似度的整體相似度最大。3.如權(quán)利要求2所述的裝置,其中所述輸入樹相似度計(jì)算單元進(jìn)一步包括對(duì)齊單元,被配置成將兩個(gè)輸入樹對(duì)齊;第二計(jì)算單元,被配置成根據(jù)所述兩個(gè)輸入樹的對(duì)齊節(jié)點(diǎn)的權(quán)重來(lái)計(jì)算所述兩個(gè)輸入樹之間的相似度。4.一種維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的裝置,包括相似度計(jì)算單元,被配置成計(jì)算所述網(wǎng)頁(yè)內(nèi)容抽取模板與依次輸入的網(wǎng)頁(yè)的文檔對(duì)象模型樹之間的相似度,以構(gòu)成相似度序列;統(tǒng)計(jì)量計(jì)算單元,被配置成利用預(yù)定大小的窗口遍歷所述相似度序列,計(jì)算所述相似度序列在窗口中的統(tǒng)計(jì)量;統(tǒng)計(jì)量判斷單元,被配置成根據(jù)計(jì)算的統(tǒng)計(jì)量來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè);和重新計(jì)算單元,被配置成在統(tǒng)計(jì)量判斷單元判定所述網(wǎng)頁(yè)內(nèi)容抽取模板已不適應(yīng)輸入網(wǎng)頁(yè)的情況下,用權(quán)利要求1-3中任意一項(xiàng)權(quán)利要求的裝置來(lái)重新計(jì)算網(wǎng)頁(yè)內(nèi)容抽取模板。5.如權(quán)利要求4所述的裝置,所述重新計(jì)算單元進(jìn)一步被配置成從當(dāng)前時(shí)刻減去基于所述窗口所確定的時(shí)長(zhǎng)作為所述網(wǎng)頁(yè)內(nèi)容抽取模板變?yōu)椴贿m應(yīng)輸入網(wǎng)頁(yè)的時(shí)刻,并從該時(shí)刻起重新計(jì)算網(wǎng)頁(yè)內(nèi)容抽取模板。6.如權(quán)利要求4所述的裝置,其中所述統(tǒng)計(jì)量判斷單元被配置成通過(guò)將當(dāng)前窗口的統(tǒng)計(jì)量相對(duì)于之前部分或全部樣本的統(tǒng)計(jì)量的變化與預(yù)定的閾值進(jìn)行比較或者通過(guò)判斷計(jì)算的統(tǒng)計(jì)量是否滿足預(yù)定的分布,來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè)。7.—種生成網(wǎng)頁(yè)內(nèi)容抽取模板的方法,包括根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)相似的多個(gè)輸入網(wǎng)頁(yè)中的每個(gè)輸入網(wǎng)頁(yè),建立文檔對(duì)象模型樹,以作為輸入樹;計(jì)算各個(gè)輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重;使用任何一個(gè)輸入樹作為初始聯(lián)合樹,利用計(jì)算出的權(quán)重來(lái)計(jì)算每個(gè)所述輸入樹和聯(lián)合樹之間的最大對(duì)齊關(guān)系;利用計(jì)算出的所述最大對(duì)齊關(guān)系將所述輸入樹合并到所述聯(lián)合樹上;確定所述聯(lián)合樹中最可能具有期望文本內(nèi)容的節(jié)點(diǎn);和選擇所述聯(lián)合樹中包含所確定的節(jié)點(diǎn)的子樹作為所述網(wǎng)頁(yè)內(nèi)容抽取模板。8.如權(quán)利要求7所述的方法,其中計(jì)算各個(gè)輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重的步驟進(jìn)一步包括計(jì)算多個(gè)輸入樹兩兩之間的相似度;計(jì)算每種類型的節(jié)點(diǎn)的權(quán)重,使得所述多個(gè)輸入樹的基于所述兩兩之間的相似度的整體相似度最大。9.一種維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法,包括計(jì)算所述網(wǎng)頁(yè)內(nèi)容抽取模板與依次輸入的網(wǎng)頁(yè)的文檔對(duì)象模型樹之間的相似度,以構(gòu)成相似度序列;利用預(yù)定大小的窗口遍歷所述相似度序列,計(jì)算相似度序列在所述窗口中的統(tǒng)計(jì)量;根據(jù)計(jì)算的統(tǒng)計(jì)量來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè);和在判定所述網(wǎng)頁(yè)內(nèi)容抽取模板已不適應(yīng)輸入網(wǎng)頁(yè)的情況下,用權(quán)利要求7-8中任意一項(xiàng)權(quán)利要求的方法來(lái)重新計(jì)算網(wǎng)頁(yè)內(nèi)容抽取模板。10.如權(quán)利要求9所述的方法,其中根據(jù)計(jì)算的統(tǒng)計(jì)量來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè)的步驟包括通過(guò)將當(dāng)前窗口的統(tǒng)計(jì)量相對(duì)于之前部分或全部樣本的統(tǒng)計(jì)量的變化與預(yù)定的閾值進(jìn)行比較或者通過(guò)判斷計(jì)算的統(tǒng)計(jì)量是否滿足預(yù)定的分布,來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè)。全文摘要本發(fā)明提供了生成與維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的方法和設(shè)備。所述生成網(wǎng)頁(yè)內(nèi)容抽取模板的裝置包括輸入單元;權(quán)重計(jì)算單元,被配置成計(jì)算各個(gè)輸入樹中的每種類型的節(jié)點(diǎn)的權(quán)重;最大對(duì)齊關(guān)系計(jì)算單元;合并單元;確定單元;和選擇單元。所述維護(hù)網(wǎng)頁(yè)內(nèi)容抽取模板的裝置包括相似度計(jì)算單元,計(jì)算出相似度序列;統(tǒng)計(jì)量計(jì)算單元,利用預(yù)定大小的窗口遍歷所述相似度序列并計(jì)算窗口中的統(tǒng)計(jì)量;統(tǒng)計(jì)量判斷單元,根據(jù)計(jì)算的統(tǒng)計(jì)量來(lái)判斷網(wǎng)頁(yè)內(nèi)容抽取模板是否已不適應(yīng)輸入網(wǎng)頁(yè);和重新計(jì)算單元。本發(fā)明可以高效地自動(dòng)生成網(wǎng)頁(yè)內(nèi)容抽取模板,并在由于網(wǎng)頁(yè)發(fā)生變化而導(dǎo)致抽取模板失效或者準(zhǔn)確度下降時(shí),可以快速地自動(dòng)重新生成網(wǎng)頁(yè)內(nèi)容抽取模板。文檔編號(hào)G06F17/30GK102073654SQ200910226108公開日2011年5月25日申請(qǐng)日期2009年11月20日優(yōu)先權(quán)日2009年11月20日發(fā)明者于浩,吳科,夏迎炬,張姝申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
九龙城区| 台东县| 和林格尔县| 安丘市| 南投市| 松潘县| 昔阳县| 临泽县| 阜南县| 高邮市| 融水| 成都市| 南木林县| 闸北区| 宁安市| 苏州市| 旬邑县| 潼南县| 鹤山市| 浦城县| 桦川县| 安陆市| 景谷| 洛阳市| 察哈| 韶山市| 九江市| 余干县| 鄂托克前旗| 德保县| 东乡| 托里县| 正定县| 靖宇县| 无锡市| 金昌市| 大田县| 永清县| 石渠县| 濮阳市| 澄迈县|