專利名稱:基于動(dòng)態(tài)學(xué)習(xí)框架的全自動(dòng)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于動(dòng)態(tài)學(xué)習(xí)框架的全自動(dòng)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取方法,屬于計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域。
背景技術(shù):
近年來,隨著互聯(lián)網(wǎng)規(guī)模呈現(xiàn)爆炸性的增長,網(wǎng)絡(luò)上的信息量也以指數(shù)級(jí)的速度在增長。在這數(shù)量驚人的網(wǎng)頁中有一類網(wǎng)頁是用來向用戶呈現(xiàn)ー個(gè)實(shí)體,一個(gè)網(wǎng)頁中包括該實(shí)體的屬性和屬性值,這些屬性和屬性值也被稱為結(jié)構(gòu)化的數(shù)據(jù)。該類網(wǎng)頁在互聯(lián)網(wǎng)中是非常常見,尤其近十年來,電子商務(wù)飛速發(fā)展,已經(jīng)深刻影響了世界的商業(yè)模式以及人們的消費(fèi)模式。網(wǎng)絡(luò)上出現(xiàn)了成千上萬的在線商店,這些在線商店以網(wǎng)頁的形式呈現(xiàn)出各種各樣的商品供消費(fèi)者選擇,消費(fèi)者不再需要花費(fèi)大量的時(shí)間和精力去實(shí)體商店選擇自己需 要的商品,只需要坐在家里點(diǎn)擊鼠標(biāo)、瀏覽網(wǎng)頁就可以方便地選擇和購買自己所需要的商品。這些商品網(wǎng)頁中呈現(xiàn)的正是ー個(gè)實(shí)體,該實(shí)體往往會(huì)包含若干屬性和屬性值,例如,對(duì)于ー個(gè)銷售圖書的網(wǎng)站的網(wǎng)頁,該網(wǎng)頁中往往就會(huì)包含一本書的標(biāo)題、作者、出版商以及ISBN號(hào)碼等屬性以及其對(duì)應(yīng)的屬性值等信息。網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)存儲(chǔ)在網(wǎng)站后臺(tái)結(jié)構(gòu)化數(shù)據(jù)庫中,體現(xiàn)在網(wǎng)頁中具有結(jié)構(gòu)化特征的數(shù)據(jù),如商品網(wǎng)頁中描述商品的各種屬性及屬性值。雖然網(wǎng)絡(luò)大大方便了人們進(jìn)行商品購買,但是,面對(duì)網(wǎng)絡(luò)上如此巨大的網(wǎng)頁數(shù)量,要人工對(duì)這些信息進(jìn)行檢索、分析和比較仍然是ー個(gè)不可能完成的任務(wù)。當(dāng)然,目前的捜索引擎可以滿足人們一定程度的需求。例如,利用搜索引擎,人們可以根據(jù)關(guān)鍵字來查找某ー種商品,并可以得到若干個(gè)滿意的結(jié)果。但是,搜索引擎呈現(xiàn)出的結(jié)果也仍然是網(wǎng)頁,它還需要人工地對(duì)返回的結(jié)果進(jìn)行分析和比較,計(jì)算機(jī)則不能利用網(wǎng)頁中包含的商品屬性信息;另外,更重要的是,搜索引擎返回的結(jié)果是以關(guān)鍵字為基礎(chǔ)的,關(guān)鍵字以外的與該商品相關(guān)的信息則在查找時(shí)候就會(huì)被忽略,因此,以關(guān)鍵字為基礎(chǔ)的普通搜索引擎的搜索靈活性就大為降低。為了能夠讓計(jì)算機(jī)自動(dòng)地對(duì)網(wǎng)頁中的結(jié)構(gòu)化數(shù)據(jù)能夠進(jìn)行有效的檢索和比較,首先就要能夠從網(wǎng)頁中自動(dòng)地抽取出結(jié)構(gòu)化數(shù)據(jù)。近些年來,關(guān)于網(wǎng)頁中結(jié)構(gòu)化數(shù)據(jù)的抽取已經(jīng)有了大量的相關(guān)研究,也取得了相當(dāng)有意義的進(jìn)展。如早期人工為ー個(gè)網(wǎng)站中的網(wǎng)頁編寫包裝器的方法、將機(jī)器學(xué)習(xí)中監(jiān)瞀學(xué)習(xí)算法用于包裝器學(xué)習(xí)的方法、基于概率的產(chǎn)生模型分析和標(biāo)注網(wǎng)頁中信息的方法等。但這些方法都需要大量的人工標(biāo)注工作。在2011 年的 SIGIR 會(huì)議上,Qiang Hao 等人在文獻(xiàn)《From One Tree to aForest: a Unified Solution for Structured Web Data ExtractionKHao Q, Cai R, PangY, et al. From One Tree to a Forest: a Unified Solution for Structured Web DataExtraction Categories and Subject Descriptors [J] · SIGIR, 2011:775-784.)提出一個(gè)統(tǒng)ー的網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取方法。該方法主要有兩個(gè)目標(biāo)1、能夠足夠靈活的處理任何ー個(gè)垂直域(vertical)的網(wǎng)頁(如圖書為ー個(gè)典型的垂直域),而不需要人工進(jìn)行調(diào)整;2、對(duì)于ー個(gè)垂直域的網(wǎng)頁,只需要人工標(biāo)注ー個(gè)網(wǎng)站的若干網(wǎng)頁就可以適應(yīng)屬于該類別的所有網(wǎng)站的網(wǎng)頁信息抽取。該方法通過兩種約束不強(qiáng)但普遍適應(yīng)的特性來描述垂直域知識(shí)(vertical knowledge),包括屬性語義(attribute-specific semantics)和屬性間布局關(guān)系(inter-attribute layout relationships)。這些特性可以適用于任何垂直域的網(wǎng)頁,并且因?yàn)檩^弱的約束而不會(huì)產(chǎn)生過度擬合的情況。另外,該方法同時(shí)借鑒了之前網(wǎng)頁信息抽取的兩種思路1、網(wǎng)頁中有效信息本身的內(nèi)容和網(wǎng)頁的布局信息;2、相似網(wǎng)頁之間共享相同的模板。因此稱該方法為ー個(gè)統(tǒng)ー的(unified)方法。但該方法存在以下缺點(diǎn)I.面對(duì)實(shí)際的網(wǎng)絡(luò)中眾多的垂直域,若要使這些方法對(duì)之全部適用,就需要人工標(biāo)注數(shù)量同樣多的網(wǎng)站。2.對(duì)于ー個(gè)垂直域,只能抽取人工標(biāo)注過的屬性及其屬性值,不能有效抽取在標(biāo)注網(wǎng)頁中未出現(xiàn)的屬性。
3.該方法訓(xùn)練得到的模型是固定的,不能隨著網(wǎng)頁數(shù)量的増加和動(dòng)態(tài)變化而改變,不適用于目前網(wǎng)頁快速更新?lián)Q代的現(xiàn)狀。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決已有結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù)存在的不足,提出ー種基于動(dòng)態(tài)學(xué)習(xí)框架的全自動(dòng)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取方法。本發(fā)明的目的是通過下述技術(shù)方案實(shí)現(xiàn)的。一種基于動(dòng)態(tài)學(xué)習(xí)框架的全自動(dòng)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取方法,包括(A)可信屬性集學(xué)習(xí)過程和(B)屬性単元的發(fā)現(xiàn)和抽取過程。所述(A)可信屬性集學(xué)習(xí)過程包括步驟一至步驟三,具體為步驟一、提取潛在屬性単元。網(wǎng)頁中包含的結(jié)構(gòu)化數(shù)據(jù)用于描述當(dāng)前網(wǎng)頁所呈現(xiàn)事物的屬性和屬性值,將ー個(gè)屬性及其對(duì)應(yīng)的屬性值稱為ー個(gè)屬性単元。提取潛在屬性単元的具體過程為第I. I步解析待處理的HTML網(wǎng)頁,生成DOM (Document Object Model,文檔對(duì)象模型)樹。第I. 2步構(gòu)造DOM樹結(jié)構(gòu)模型,其類型有三種第①種一個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)大于或等于2,并且該節(jié)點(diǎn)有且僅有2個(gè)子節(jié)點(diǎn)包含文本節(jié)點(diǎn)(Text Node)。該模型用來找出DOM樹中對(duì)應(yīng)于ー個(gè)屬性單元的節(jié)點(diǎn),并且該屬性単元中只有ー個(gè)屬性和屬性值。第②種一個(gè)節(jié)點(diǎn)中包含2個(gè)或2個(gè)以上子節(jié)點(diǎn),但有且僅有2個(gè)子節(jié)點(diǎn)包含文本節(jié)點(diǎn)。2個(gè)包含文本節(jié)點(diǎn)的子節(jié)點(diǎn)中,有且僅有I個(gè)子節(jié)點(diǎn)只包含ー個(gè)文本節(jié)點(diǎn),而另ー個(gè)子節(jié)點(diǎn)是包含2個(gè)或2個(gè)以上文本節(jié)點(diǎn)。該模型用來找出DOM樹中對(duì)應(yīng)于ー個(gè)屬性單元的節(jié)點(diǎn),并且該屬性単元中包含2個(gè)或2個(gè)以上屬性值。第③種一個(gè)節(jié)點(diǎn)包含2個(gè)或2個(gè)以上子節(jié)點(diǎn),但有且僅有偶數(shù)個(gè)子節(jié)點(diǎn)中包含且僅包含ー個(gè)文本節(jié)點(diǎn),且該偶數(shù)個(gè)子節(jié)點(diǎn)連續(xù)排列。此外,該偶數(shù)個(gè)子節(jié)點(diǎn)中,按照其前后順序?qū)⒚績蓚€(gè)子節(jié)點(diǎn)分為ー組,每組子節(jié)點(diǎn)對(duì)應(yīng)于ー個(gè)屬性単元,每組中的第一個(gè)子節(jié)點(diǎn)對(duì)應(yīng)屬性,第二個(gè)子節(jié)點(diǎn)對(duì)應(yīng)屬性值。因此,該模型用來找出DOM樹中對(duì)應(yīng)于I個(gè)或I個(gè)以上屬性単元的節(jié)點(diǎn),并且每個(gè)屬性単元中只可以包含ー個(gè)屬性值。第I. 3步根據(jù)第I. 2步構(gòu)造的3種DOM樹結(jié)構(gòu)模型,從第I. I步得到的DOM樹中抽取出符合3種DOM樹結(jié)構(gòu)模型之ー的節(jié)點(diǎn)。第I. 4步根據(jù)第I. 3步得到的節(jié)點(diǎn)的DOM樹結(jié)構(gòu)模型類型,找出該節(jié)點(diǎn)對(duì)應(yīng)的屬性単元(該節(jié)點(diǎn)的屬性及其對(duì)應(yīng)的屬性值),放入到潛在屬性単元集合中。經(jīng)過上述步驟的操作,即可得到潛在屬性単元集合,潛在屬性単元集合的元素為潛在屬性単元。步驟ニ、獲得候選屬性集合。從步驟一得到的潛在屬性単元集合中,挑選出候選屬性,并將其加入候選屬性集合。候選屬性是指出現(xiàn)頻率大于某一閾值的潛在屬性。所述某ー潛在屬性的出現(xiàn)頻率可通過公式(I)計(jì)算得到。
權(quán)利要求
1.一種基于動(dòng)態(tài)學(xué)習(xí)框架的全自動(dòng)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取方法,其特征在于包括(A)可信屬性集學(xué)習(xí)過程和(B)屬性單元的發(fā)現(xiàn)和抽取過程; 所述(A)可信屬性集學(xué)習(xí)過程包括步驟一至步驟三,具體為 步驟一、提取潛在屬性單元; 網(wǎng)頁中包含的結(jié)構(gòu)化數(shù)據(jù)用于描述當(dāng)前網(wǎng)頁所呈現(xiàn)事物的屬性和屬性值,將一個(gè)屬性及其對(duì)應(yīng)的屬性值稱為一個(gè)屬性單元;提取潛在屬性單元的具體過程為 第I. I步解析待處理的HTML網(wǎng)頁,生成DOM樹; 第I. 2步構(gòu)造DOM樹結(jié)構(gòu)模型,其類型有三種 第①種一個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)大于或等于2,并且該節(jié)點(diǎn)有且僅有2個(gè)子節(jié)點(diǎn)包含文本節(jié)點(diǎn);該模型用來找出DOM樹中對(duì)應(yīng)于一個(gè)屬性單元的節(jié)點(diǎn),并且該屬性單元中只有一個(gè)屬性和屬性值; 第②種一個(gè)節(jié)點(diǎn)中包含2個(gè)或2個(gè)以上子節(jié)點(diǎn),但有且僅有2個(gè)子節(jié)點(diǎn)包含文本節(jié)點(diǎn);2個(gè)包含文本節(jié)點(diǎn)的子節(jié)點(diǎn)中,有且僅有I個(gè)子節(jié)點(diǎn)只包含一個(gè)文本節(jié)點(diǎn),而另一個(gè)子節(jié)點(diǎn)是包含2個(gè)或2個(gè)以上文本節(jié)點(diǎn);該模型用來找出DOM樹中對(duì)應(yīng)于一個(gè)屬性單元的節(jié)點(diǎn),并且該屬性單元中包含2個(gè)或2個(gè)以上屬性值; 第③種一個(gè)節(jié)點(diǎn)包含2個(gè)或2個(gè)以上子節(jié)點(diǎn),但有且僅有偶數(shù)個(gè)子節(jié)點(diǎn)中包含且僅包含一個(gè)文本節(jié)點(diǎn),且該偶數(shù)個(gè)子節(jié)點(diǎn)連續(xù)排列;此外,該偶數(shù)個(gè)子節(jié)點(diǎn)中,按照其前后順序?qū)⒚績蓚€(gè)子節(jié)點(diǎn)分為一組,每組子節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)屬性單元,每組中的第一個(gè)子節(jié)點(diǎn)對(duì)應(yīng)屬性,第二個(gè)子節(jié)點(diǎn)對(duì)應(yīng)屬性值;因此,該模型用來找出DOM樹中對(duì)應(yīng)于I個(gè)或I個(gè)以上屬性單元的節(jié)點(diǎn),并且每個(gè)屬性單元中只可以包含一個(gè)屬性值; 第I. 3步根據(jù)第I. 2步構(gòu)造的3種DOM樹結(jié)構(gòu)模型,從第I. I步得到的DOM樹中抽取出符合3種DOM樹結(jié)構(gòu)模型之一的節(jié)點(diǎn); 第I. 4步根據(jù)第I. 3步得到的節(jié)點(diǎn)的DOM樹結(jié)構(gòu)模型類型,找出該節(jié)點(diǎn)對(duì)應(yīng)的屬性單元,放入到潛在屬性單元集合中; 經(jīng)過上述步驟的操作,即可得到潛在屬性單元集合,潛在屬性單元集合的元素為潛在屬性單元; 步驟二、獲得候選屬性集合; 從步驟一得到的潛在屬性單元集合中,挑選出候選屬性,并將其加入候選屬性集合;候選屬性是指出現(xiàn)頻率大于某一閾值的潛在屬性; 所述某一潛在屬性的出現(xiàn)頻率可通過公式(I)計(jì)算得到;P(c)=jB⑴ 其中,P(C)表示某一潛在屬性c的出現(xiàn)頻率;S。表示提取出該潛在屬性的待處理HTML網(wǎng)頁所在的網(wǎng)站;N(c)表示某一潛在屬性c在網(wǎng)站S。中出現(xiàn)的次數(shù);某一潛在屬性c在一個(gè)網(wǎng)頁中出現(xiàn)一次以上,都只記為出現(xiàn)一次;I ScJ表示網(wǎng)站S。中當(dāng)前已處理的網(wǎng)頁個(gè)數(shù);步驟三、產(chǎn)生可信屬性集合; 在步驟二的基礎(chǔ)上,產(chǎn)生可信屬性集合;具體為 第3. I步使用公式(2)依次計(jì)算步驟二得到的候選屬性集合中候選屬性的屬性熵;
全文摘要
本發(fā)明涉及一種基于動(dòng)態(tài)學(xué)習(xí)框架的全自動(dòng)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取方法,包括(A)可信屬性集學(xué)習(xí)過程和(B)屬性單元的發(fā)現(xiàn)和抽取過程。所述(A)可信屬性集學(xué)習(xí)過程包括①提取潛在屬性單元;②獲得候選屬性集合;③產(chǎn)生可信屬性集合。所述(B)屬性單元的發(fā)現(xiàn)和抽取過程包括④獲取屬性單元發(fā)現(xiàn)域;⑤獲取網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明提出的方法與已有方法相比較,具有以下優(yōu)點(diǎn)①無需人工干預(yù),可以大規(guī)模地用于現(xiàn)實(shí)網(wǎng)絡(luò)中各種類別的網(wǎng)頁屬性信息的抽取。②能夠適應(yīng)多種不同的垂直域。③基于動(dòng)態(tài)學(xué)習(xí)的框架,能夠適應(yīng)目標(biāo)網(wǎng)頁的變化,具有較高的靈活性。④抽取出的信息還可以為其它方面的研究提供數(shù)據(jù),如知識(shí)庫建立、本體研究、趨勢預(yù)測等。
文檔編號(hào)G06F17/30GK102831251SQ20121035261
公開日2012年12月19日 申請(qǐng)日期2012年9月20日 優(yōu)先權(quán)日2012年9月20日
發(fā)明者宋丹丹, 吳云鵬, 廖樂健, 李龍, 孫飛 申請(qǐng)人:北京理工大學(xué)