一種知識依賴的網(wǎng)頁信息抽取方法

文檔序號：9646607閱讀：574來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種知識依賴的網(wǎng)頁信息抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提供一種網(wǎng)頁信息抽取方法，具體涉及一種知識依賴的網(wǎng)頁信息抽取方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)信息的爆炸式增長，如何合理地組織信息，以便于人們有效、快捷及準(zhǔn) 確地檢索所需要的信息，是一個亟待解決的問題。通過瀏覽網(wǎng)頁或關(guān)鍵詞搜索來檢索信息等信息查詢方式均存在一定的局限性，因此我們需要更為高效的信息查詢方式。信息抽取能夠幫助人們方便地找到所需要的信息，而且信息的內(nèi)容經(jīng)過合理的分析和組織后，人們可以有效地獲取感興趣的信息，并可在此基礎(chǔ)上進(jìn)一步進(jìn)行數(shù)據(jù)挖掘、文本分類、數(shù)據(jù)分析等后續(xù)信息處理。
[0003] 信息抽取是將文本中包含的信息進(jìn)行結(jié)構(gòu)化處理，使之成為類似表格的組織形式。然而，Web頁面具有動態(tài)異構(gòu)性的特點，網(wǎng)頁內(nèi)容會隨著時間的變化而動態(tài)改變，且不同的網(wǎng)頁在結(jié)構(gòu)上存在較大差異，因此如何從不同Web頁面中高質(zhì)量地抽取所需要的信息是非常重要的。
[0004] 如CN102495892A網(wǎng)頁信息抽取方法，A.構(gòu)建實例列表，從多源異構(gòu)數(shù)據(jù)源中提取列表中實例的候選屬性；B.對提取到的屬性進(jìn)行同義歸納，將同義屬性放在同一個集合中；C.對歸納后的屬性進(jìn)行細(xì)分類；D.分析分類后的屬性所對應(yīng)的屬性值類型；E.將屬性及其對應(yīng)的屬性值類型信息推薦給用戶或者將其保存到結(jié)構(gòu)化數(shù)據(jù)庫中。
[0005] 典型的網(wǎng)頁信息抽取還有通過建立D0M樹來實現(xiàn)，如CN103559199A網(wǎng)頁信息抽取方法和裝置：根據(jù)多個已標(biāo)注屬性的樣本網(wǎng)頁構(gòu)建對應(yīng)的多個第一D0M樹，并根據(jù)多個第一D0M樹構(gòu)建決策樹；根據(jù)多個未標(biāo)注屬性的樣本網(wǎng)頁構(gòu)建對應(yīng)的多個第二D0M樹，并根據(jù) 多個第二D0M樹優(yōu)化決策樹；根據(jù)優(yōu)化后的決策樹抽取待抽取網(wǎng)頁的結(jié)構(gòu)化信息；其中，已標(biāo)注屬性的樣本網(wǎng)頁、未標(biāo)注屬性的樣本網(wǎng)頁和待抽取網(wǎng)頁屬于同一領(lǐng)域。根據(jù)多個已標(biāo) 注屬性的樣本網(wǎng)頁構(gòu)建決策樹，根據(jù)多個未標(biāo)注屬性的樣本網(wǎng)頁優(yōu)化該決策樹，由于決策樹的構(gòu)建和優(yōu)化不單單依賴于網(wǎng)頁的布局風(fēng)格，因此優(yōu)化后的決策樹可以適用于同一領(lǐng)域各種布局風(fēng)格的網(wǎng)頁的信息抽取。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是，提供一種知識依賴的網(wǎng)頁信息抽取方法，提高網(wǎng)頁信息抽取的準(zhǔn)確率與效率。
[0007] 本發(fā)明提供的技術(shù)方法如下：知識依賴的信息抽取方法，包括如下步驟：
[0008] A.根據(jù)領(lǐng)域知識構(gòu)建領(lǐng)域本體；
[0009] B.抽取待分類信息及其周邊文本；
[0010] C.基于信息增益算法選擇特征詞，并構(gòu)建特征詞詞庫；
[0011] D.計算帶權(quán)詞頻，構(gòu)造特征向量；
[0012] E.使用支持向量機(jī)訓(xùn)練初始分類模型；
[0013] F.根據(jù)領(lǐng)域本體構(gòu)建特征并迭代訓(xùn)練分類器；
[0014] 步驟A所述數(shù)據(jù)源為領(lǐng)域知識及信息抽取結(jié)果的形式。
[0015] 所述步驟A的實現(xiàn)方法如下：
[0016] 本發(fā)明由領(lǐng)域?qū)＜腋鶕?jù)領(lǐng)域知識及待抽取信息的結(jié)果形式構(gòu)建本發(fā)明所需要領(lǐng) 域本體，即根據(jù)信息抽取的概念以及概念間的關(guān)系建立抽取的領(lǐng)域本體，供機(jī)器學(xué)習(xí)分類器使用；根據(jù)信息抽取結(jié)果的形式及領(lǐng)域知識建立概念列表以及概念之間的關(guān)系，并使用 RDFS進(jìn)行描述，構(gòu)建方法如下：
[0017]A1.按照信息抽取的結(jié)果形式以及相應(yīng)的領(lǐng)域知識，構(gòu)建信息抽取的概念列表以及概念之間的關(guān)系。
[0018] A2.根據(jù)信息抽取的概念以及概念間的關(guān)系構(gòu)建基于RDF的領(lǐng)域知識庫，保證知識庫的完整性與準(zhǔn)確性。
[0019] A3.設(shè)計知識庫與信息抽取模型的接口。
[0020] 資源描述框架（RDF)是用于描述網(wǎng)絡(luò)資源的W3C標(biāo)準(zhǔn)，比如網(wǎng)頁的標(biāo)題、作者、修改日期、內(nèi)容以及版權(quán)信息。RDF還需要一種定義應(yīng)用程序?qū)I(yè)的類和屬性的方法。應(yīng)用程序?qū)Ｓ玫念惡蛯傩员仨毷褂脤DF的擴(kuò)展來定義。RDFSchema就是這樣一種擴(kuò)展。
[0021 ] 所述步驟B的實現(xiàn)方法如下：
[0022] 對網(wǎng)頁建立D0M(文檔對象模型）樹，對所述的D0M樹按指定的抽取規(guī)則遞歸遍歷查找待抽取信息所在節(jié)點。對于可能包含待抽取信息的節(jié)點，從其所在節(jié)點開始抽取一定量的周邊文本信息，抽取方法如下：
[0023] B1.將當(dāng)前節(jié)點的文本信息加入待抽取文本，待抽取文本的數(shù)量達(dá)到閾值則轉(zhuǎn)步驟B4,否則轉(zhuǎn)步驟B2 ;
[0024] B2.按從左到右的順序依次遍歷抽取當(dāng)前節(jié)點的兄弟節(jié)點的文本并加入待抽取文本，直到待抽取文本的數(shù)量達(dá)到閾值，若文本量達(dá)到閾值則轉(zhuǎn)步驟M，否則轉(zhuǎn)步驟B3;
[0025] B3.向上回溯并抽取當(dāng)前節(jié)點的父節(jié)點的文本并加入待抽取文本，若待抽取文本的數(shù)量達(dá)到閾值則轉(zhuǎn)步驟M，否則將其父節(jié)點置為當(dāng)前節(jié)點，轉(zhuǎn)步驟B2;
[0026] B4.將待抽取信息及其周邊文本存儲到文件中，供后續(xù)步驟使用。
[0027] 步驟C所述數(shù)據(jù)源為步驟B所抽取的待分類信息及其周邊文本。
[0028] 所述步驟C的實現(xiàn)方法如下：
[0029] 基于信息增益（IG)的方法選擇特征詞，并構(gòu)建特征詞詞庫，方法如下：
[0030] C1.使用Ansj中文分詞對周邊文本信息進(jìn)行中文分詞，為保證信息抽取結(jié)果的準(zhǔn) 確性，我們對抽取的文本信息進(jìn)行預(yù)處理，去除非法字符和停用詞。
[0031] C2.統(tǒng)計校準(zhǔn)后的樣本中，每個類別，以及每個特征詞在類別出現(xiàn)的次數(shù)（文檔頻率），分別寫入相應(yīng)表中。
[0032] C3.基于信息增益的特征選擇算法，選擇得分較高的若干個特征詞，這些特征詞與類別具有較強(qiáng)的相關(guān)性。將這些特征詞按類別分類存儲到相應(yīng)文件中，作為特征詞庫使用。其中信息增益公式為：IG(X) =H(Y)-H(Y/X)，信息增益衡量該特征在分類系統(tǒng)中的重要性，信息熵為：Η(γ) = -Σ;。吻p(yi)r條件熵為：Η(Y|X) =Σxh(Y|X=X)，其中信息熵和條件熵用來描述系統(tǒng)的信息量。
[0033] 步驟D所述數(shù)據(jù)源為步驟B所抽取的待分類信息及其周邊文本。
[0034] D.計算帶權(quán)詞頻，構(gòu)造特征向量
[0035] 將待抽取信息的周邊文本進(jìn)行中文分詞并構(gòu)建文本數(shù)組，定位待抽取信息，按照距離衰減權(quán)重算法計算信息的帶權(quán)詞頻，在不同的應(yīng)用場景中可以動態(tài)調(diào)整其權(quán)重，以優(yōu) 化分類器的分類效果。帶權(quán)詞頻計算公式為：Fw=Σ(f*w)，其中Fw為帶權(quán)詞頻，f為特征詞詞頻，w為對應(yīng)的權(quán)重。并依據(jù)計算得到的特征詞詞頻構(gòu)造特征向量。
[0036] 距離衰減權(quán)重算法：
[0037] DL距離待抽取信息距離為一的權(quán)重為八；
[0038] D2.距離待抽取信息距離在二到三之間的權(quán)重為四；
[0039] D3.距離待抽取信息距離在四到十之間的權(quán)重為二；
[0040] D4.距離待抽取信息距離在十以上的權(quán)重為一。
[0041] 步驟E所述數(shù)據(jù)源為步驟D中構(gòu)造的特征向量。
[0042] 所述步驟E的實現(xiàn)方法如下：根據(jù)構(gòu)造的特征向量訓(xùn)練支持向量機(jī)模型，并通過優(yōu)化參數(shù)，使模型具有較好的泛化能力。
[0043] 步驟F所述數(shù)據(jù)源為初始特征向量、初始分類結(jié)果及領(lǐng)域知識。
[0044] 所述步驟F的實現(xiàn)方法如下：該方法根據(jù)領(lǐng)域本體選擇與該分類相關(guān)的分類器的分類結(jié)果，計算其權(quán)重，并將分類結(jié)果乘以權(quán)重系數(shù)添加到新特征向量中。對初始的特征向量進(jìn)行特征選擇，并適當(dāng)?shù)臏p少特征數(shù)量，添加到新的特征向量中，使特征向量的維數(shù)與初始特征向量保持一致。根據(jù)構(gòu)造的新特征變量迭代訓(xùn)練分類器，并得到最終的分類結(jié)果。
[0045] 本發(fā)明的有益效果：利用本發(fā)明的方案，人們可以有效地抽取所感興趣的信息，并可在此基礎(chǔ)上進(jìn)一步進(jìn)行數(shù)據(jù)挖掘、文本分類、數(shù)據(jù)分析等后續(xù)信息處理。利用Ansj中文分詞、資源描述框架（RDF)和建立D0M(文檔對象模型）樹的結(jié)合提高網(wǎng)頁信息抽取的準(zhǔn)確率與效率。
[0046] 和常用的方法相比較，該方法考慮了領(lǐng)域知識，在分類時不再使用和初始特征相同的特征，而是重新進(jìn)行特征選擇，因此迭代所得的特征更具代表性，而且在迭代的權(quán)重計算時，適當(dāng)降低了那些對于類別區(qū)分度更高的特征項的權(quán)重，更有利于提高分類器的精度。
【附圖說明】
[0047] 圖1為本發(fā)明實例提供的知識依賴的網(wǎng)頁信息抽取方法流程圖。
【具體實施方式】
[0048] 假定需要抽取的信息為網(wǎng)頁中的聯(lián)系信息及其類別，輸入則為概念的列表，即"聯(lián) 系信息"、"非聯(lián)系信息"、"公司聯(lián)系信息"、"合作聯(lián)系信息"等。根據(jù)抽取信息的概念以及概念間的關(guān)系建立抽取本體。按照聯(lián)系信息的特點抽取網(wǎng)頁中匹配正則的信息及其周邊文本信息，并對抽取結(jié)果進(jìn)行校準(zhǔn)標(biāo)記形成訓(xùn)練語料。對標(biāo)記后的訓(xùn)練語料統(tǒng)計詞頻，對于其中詞頻較高的關(guān)鍵詞使用信息增益算法選擇特征詞，構(gòu)建特征詞詞庫。使用距離衰減算法計算訓(xùn)練樣本的帶權(quán)詞頻，并構(gòu)造特征向量。將得到的特征向量及其類別輸入支持向量機(jī)進(jìn) 行訓(xùn)練，得到初始分類模型。使用初始分類模型進(jìn)行初步預(yù)測，根據(jù)領(lǐng)域本體、各分類器分類結(jié)果以及初始特征向量重新構(gòu)建特征向量，并迭代訓(xùn)練新的分類模型，得到最終的分類器分類結(jié)果。
[0049] A.根據(jù)領(lǐng)域知識構(gòu)建領(lǐng)域本體
[0050] 步驟如下：
[0051] A1.按照信息抽取的結(jié)果形式以及相應(yīng)的領(lǐng)域知識，構(gòu)建概念列表，8卩"聯(lián)系信息"、"非聯(lián)系信息"、"公司聯(lián)系信息"、"合作聯(lián)系信息"等，以及概念之間的

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳茂榕;孫偉偉;邵明路;滕曉程;王婷;
技術(shù)所有人：焦點科技股份有限公司;東南大學(xué);
我是此專利的發(fā)明人

上一篇：Ranked反近鄰空間關(guān)鍵字查詢方法及裝置的制造方法
上一篇：基于nvram的高效文件系統(tǒng)構(gòu)建方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)頁信息抽取相關(guān)技術(shù)

網(wǎng)頁正文自動抽取技術(shù)相關(guān)技術(shù)

java新聞網(wǎng)頁正文抽取相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種知識依賴的網(wǎng)頁信息抽取方法