一種知識依賴的網(wǎng)頁信息抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提供一種網(wǎng)頁信息抽取方法,具體涉及一種知識依賴的網(wǎng)頁信息抽取方 法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)信息的爆炸式增長,如何合理地組織信息,以便于人們有效、快捷及準(zhǔn) 確地檢索所需要的信息,是一個亟待解決的問題。通過瀏覽網(wǎng)頁或關(guān)鍵詞搜索來檢索信息 等信息查詢方式均存在一定的局限性,因此我們需要更為高效的信息查詢方式。信息抽取 能夠幫助人們方便地找到所需要的信息,而且信息的內(nèi)容經(jīng)過合理的分析和組織后,人們 可以有效地獲取感興趣的信息,并可在此基礎(chǔ)上進(jìn)一步進(jìn)行數(shù)據(jù)挖掘、文本分類、數(shù)據(jù)分析 等后續(xù)信息處理。
[0003] 信息抽取是將文本中包含的信息進(jìn)行結(jié)構(gòu)化處理,使之成為類似表格的組織形 式。然而,Web頁面具有動態(tài)異構(gòu)性的特點,網(wǎng)頁內(nèi)容會隨著時間的變化而動態(tài)改變,且不 同的網(wǎng)頁在結(jié)構(gòu)上存在較大差異,因此如何從不同Web頁面中高質(zhì)量地抽取所需要的信息 是非常重要的。
[0004] 如CN102495892A網(wǎng)頁信息抽取方法,A.構(gòu)建實例列表,從多源異構(gòu)數(shù)據(jù)源中提 取列表中實例的候選屬性;B.對提取到的屬性進(jìn)行同義歸納,將同義屬性放在同一個集合 中;C.對歸納后的屬性進(jìn)行細(xì)分類;D.分析分類后的屬性所對應(yīng)的屬性值類型;E.將屬性 及其對應(yīng)的屬性值類型信息推薦給用戶或者將其保存到結(jié)構(gòu)化數(shù)據(jù)庫中。
[0005] 典型的網(wǎng)頁信息抽取還有通過建立D0M樹來實現(xiàn),如CN103559199A網(wǎng)頁信息抽取 方法和裝置:根據(jù)多個已標(biāo)注屬性的樣本網(wǎng)頁構(gòu)建對應(yīng)的多個第一D0M樹,并根據(jù)多個第 一D0M樹構(gòu)建決策樹;根據(jù)多個未標(biāo)注屬性的樣本網(wǎng)頁構(gòu)建對應(yīng)的多個第二D0M樹,并根據(jù) 多個第二D0M樹優(yōu)化決策樹;根據(jù)優(yōu)化后的決策樹抽取待抽取網(wǎng)頁的結(jié)構(gòu)化信息;其中,已 標(biāo)注屬性的樣本網(wǎng)頁、未標(biāo)注屬性的樣本網(wǎng)頁和待抽取網(wǎng)頁屬于同一領(lǐng)域。根據(jù)多個已標(biāo) 注屬性的樣本網(wǎng)頁構(gòu)建決策樹,根據(jù)多個未標(biāo)注屬性的樣本網(wǎng)頁優(yōu)化該決策樹,由于決策 樹的構(gòu)建和優(yōu)化不單單依賴于網(wǎng)頁的布局風(fēng)格,因此優(yōu)化后的決策樹可以適用于同一領(lǐng)域 各種布局風(fēng)格的網(wǎng)頁的信息抽取。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是,提供一種知識依賴的網(wǎng)頁信息抽取方法,提高網(wǎng)頁信息抽取的 準(zhǔn)確率與效率。
[0007] 本發(fā)明提供的技術(shù)方法如下:知識依賴的信息抽取方法,包括如下步驟:
[0008] A.根據(jù)領(lǐng)域知識構(gòu)建領(lǐng)域本體;
[0009] B.抽取待分類信息及其周邊文本;
[0010] C.基于信息增益算法選擇特征詞,并構(gòu)建特征詞詞庫;
[0011] D.計算帶權(quán)詞頻,構(gòu)造特征向量;
[0012] E.使用支持向量機(jī)訓(xùn)練初始分類模型;
[0013] F.根據(jù)領(lǐng)域本體構(gòu)建特征并迭代訓(xùn)練分類器;
[0014] 步驟A所述數(shù)據(jù)源為領(lǐng)域知識及信息抽取結(jié)果的形式。
[0015] 所述步驟A的實現(xiàn)方法如下:
[0016] 本發(fā)明由領(lǐng)域?qū)<腋鶕?jù)領(lǐng)域知識及待抽取信息的結(jié)果形式構(gòu)建本發(fā)明所需要領(lǐng) 域本體,即根據(jù)信息抽取的概念以及概念間的關(guān)系建立抽取的領(lǐng)域本體,供機(jī)器學(xué)習(xí)分類 器使用;根據(jù)信息抽取結(jié)果的形式及領(lǐng)域知識建立概念列表以及概念之間的關(guān)系,并使用 RDFS進(jìn)行描述,構(gòu)建方法如下:
[0017]A1.按照信息抽取的結(jié)果形式以及相應(yīng)的領(lǐng)域知識,構(gòu)建信息抽取的概念列表以 及概念之間的關(guān)系。
[0018] A2.根據(jù)信息抽取的概念以及概念間的關(guān)系構(gòu)建基于RDF的領(lǐng)域知識庫,保證知 識庫的完整性與準(zhǔn)確性。
[0019] A3.設(shè)計知識庫與信息抽取模型的接口。
[0020] 資源描述框架(RDF)是用于描述網(wǎng)絡(luò)資源的W3C標(biāo)準(zhǔn),比如網(wǎng)頁的標(biāo)題、作者、修 改日期、內(nèi)容以及版權(quán)信息。RDF還需要一種定義應(yīng)用程序?qū)I(yè)的類和屬性的方法。應(yīng)用程 序?qū)S玫念惡蛯傩员仨毷褂脤DF的擴(kuò)展來定義。RDFSchema就是這樣一種擴(kuò)展。
[0021 ] 所述步驟B的實現(xiàn)方法如下:
[0022] 對網(wǎng)頁建立D0M(文檔對象模型)樹,對所述的D0M樹按指定的抽取規(guī)則遞歸遍歷 查找待抽取信息所在節(jié)點。對于可能包含待抽取信息的節(jié)點,從其所在節(jié)點開始抽取一定 量的周邊文本信息,抽取方法如下:
[0023] B1.將當(dāng)前節(jié)點的文本信息加入待抽取文本,待抽取文本的數(shù)量達(dá)到閾值則轉(zhuǎn)步 驟B4,否則轉(zhuǎn)步驟B2 ;
[0024] B2.按從左到右的順序依次遍歷抽取當(dāng)前節(jié)點的兄弟節(jié)點的文本并加入待抽取文 本,直到待抽取文本的數(shù)量達(dá)到閾值,若文本量達(dá)到閾值則轉(zhuǎn)步驟M,否則轉(zhuǎn)步驟B3;
[0025] B3.向上回溯并抽取當(dāng)前節(jié)點的父節(jié)點的文本并加入待抽取文本,若待抽取文本 的數(shù)量達(dá)到閾值則轉(zhuǎn)步驟M,否則將其父節(jié)點置為當(dāng)前節(jié)點,轉(zhuǎn)步驟B2;
[0026] B4.將待抽取信息及其周邊文本存儲到文件中,供后續(xù)步驟使用。
[0027] 步驟C所述數(shù)據(jù)源為步驟B所抽取的待分類信息及其周邊文本。
[0028] 所述步驟C的實現(xiàn)方法如下:
[0029] 基于信息增益(IG)的方法選擇特征詞,并構(gòu)建特征詞詞庫,方法如下:
[0030] C1.使用Ansj中文分詞對周邊文本信息進(jìn)行中文分詞,為保證信息抽取結(jié)果的準(zhǔn) 確性,我們對抽取的文本信息進(jìn)行預(yù)處理,去除非法字符和停用詞。
[0031] C2.統(tǒng)計校準(zhǔn)后的樣本中,每個類別,以及每個特征詞在類別出現(xiàn)的次數(shù)(文檔頻 率),分別寫入相應(yīng)表中。
[0032] C3.基于信息增益的特征選擇算法,選擇得分較高的若干個特征詞,這些特征詞 與類別具有較強(qiáng)的相關(guān)性。將這些特征詞按類別分類存儲到相應(yīng)文件中,作為特征詞庫使 用。其中信息增益公式為:IG(X) =H(Y)-H(Y/X),信息增益衡量該特征在分類系統(tǒng)中的重 要性,信息熵為:Η(γ) = -Σ;。吻p(yi)r條件熵為:Η(Y|X) =Σxh(Y|X=X),其中 信息熵和條件熵用來描述系統(tǒng)的信息量。
[0033] 步驟D所述數(shù)據(jù)源為步驟B所抽取的待分類信息及其周邊文本。
[0034] D.計算帶權(quán)詞頻,構(gòu)造特征向量
[0035] 將待抽取信息的周邊文本進(jìn)行中文分詞并構(gòu)建文本數(shù)組,定位待抽取信息,按照 距離衰減權(quán)重算法計算信息的帶權(quán)詞頻,在不同的應(yīng)用場景中可以動態(tài)調(diào)整其權(quán)重,以優(yōu) 化分類器的分類效果。帶權(quán)詞頻計算公式為:Fw=Σ(f*w),其中Fw為帶權(quán)詞頻,f為特征 詞詞頻,w為對應(yīng)的權(quán)重。并依據(jù)計算得到的特征詞詞頻構(gòu)造特征向量。
[0036] 距離衰減權(quán)重算法:
[0037] DL距離待抽取信息距離為一的權(quán)重為八;
[0038] D2.距離待抽取信息距離在二到三之間的權(quán)重為四;
[0039] D3.距離待抽取信息距離在四到十之間的權(quán)重為二;
[0040] D4.距離待抽取信息距離在十以上的權(quán)重為一。
[0041] 步驟E所述數(shù)據(jù)源為步驟D中構(gòu)造的特征向量。
[0042] 所述步驟E的實現(xiàn)方法如下:根據(jù)構(gòu)造的特征向量訓(xùn)練支持向量機(jī)模型,并通過 優(yōu)化參數(shù),使模型具有較好的泛化能力。
[0043] 步驟F所述數(shù)據(jù)源為初始特征向量、初始分類結(jié)果及領(lǐng)域知識。
[0044] 所述步驟F的實現(xiàn)方法如下:該方法根據(jù)領(lǐng)域本體選擇與該分類相關(guān)的分類器的 分類結(jié)果,計算其權(quán)重,并將分類結(jié)果乘以權(quán)重系數(shù)添加到新特征向量中。對初始的特征向 量進(jìn)行特征選擇,并適當(dāng)?shù)臏p少特征數(shù)量,添加到新的特征向量中,使特征向量的維數(shù)與初 始特征向量保持一致。根據(jù)構(gòu)造的新特征變量迭代訓(xùn)練分類器,并得到最終的分類結(jié)果。
[0045] 本發(fā)明的有益效果:利用本發(fā)明的方案,人們可以有效地抽取所感興趣的信息,并 可在此基礎(chǔ)上進(jìn)一步進(jìn)行數(shù)據(jù)挖掘、文本分類、數(shù)據(jù)分析等后續(xù)信息處理。利用Ansj中文 分詞、資源描述框架(RDF)和建立D0M(文檔對象模型)樹的結(jié)合提高網(wǎng)頁信息抽取的準(zhǔn)確 率與效率。
[0046] 和常用的方法相比較,該方法考慮了領(lǐng)域知識,在分類時不再使用和初始特征相 同的特征,而是重新進(jìn)行特征選擇,因此迭代所得的特征更具代表性,而且在迭代的權(quán)重計 算時,適當(dāng)降低了那些對于類別區(qū)分度更高的特征項的權(quán)重,更有利于提高分類器的精度。
【附圖說明】
[0047] 圖1為本發(fā)明實例提供的知識依賴的網(wǎng)頁信息抽取方法流程圖。
【具體實施方式】
[0048] 假定需要抽取的信息為網(wǎng)頁中的聯(lián)系信息及其類別,輸入則為概念的列表,即"聯(lián) 系信息"、"非聯(lián)系信息"、"公司聯(lián)系信息"、"合作聯(lián)系信息"等。根據(jù)抽取信息的概念以及概 念間的關(guān)系建立抽取本體。按照聯(lián)系信息的特點抽取網(wǎng)頁中匹配正則的信息及其周邊文本 信息,并對抽取結(jié)果進(jìn)行校準(zhǔn)標(biāo)記形成訓(xùn)練語料。對標(biāo)記后的訓(xùn)練語料統(tǒng)計詞頻,對于其中 詞頻較高的關(guān)鍵詞使用信息增益算法選擇特征詞,構(gòu)建特征詞詞庫。使用距離衰減算法計 算訓(xùn)練樣本的帶權(quán)詞頻,并構(gòu)造特征向量。將得到的特征向量及其類別輸入支持向量機(jī)進(jìn) 行訓(xùn)練,得到初始分類模型。使用初始分類模型進(jìn)行初步預(yù)測,根據(jù)領(lǐng)域本體、各分類器分 類結(jié)果以及初始特征向量重新構(gòu)建特征向量,并迭代訓(xùn)練新的分類模型,得到最終的分類 器分類結(jié)果。
[0049] A.根據(jù)領(lǐng)域知識構(gòu)建領(lǐng)域本體
[0050] 步驟如下:
[0051] A1.按照信息抽取的結(jié)果形式以及相應(yīng)的領(lǐng)域知識,構(gòu)建概念列表,8卩"聯(lián)系信 息"、"非聯(lián)系信息"、"公司聯(lián)系信息"、"合作聯(lián)系信息"等,以及概念之間的