專利名稱:一種在線Web新聞內(nèi)容的抽取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)信息處理領(lǐng)域,尤其涉及一種在線Web新聞內(nèi)容抽取方法及系統(tǒng)。
背景技術(shù):
隨著Internet的飛速發(fā)展,Web新聞網(wǎng)頁已經(jīng)繼傳統(tǒng)的報紙、廣播、電視之后,成為人們發(fā)布和獲取信息的主要平臺。目前,Web新聞網(wǎng)頁除了包含主要內(nèi)容外,還摻雜著大量的與主題內(nèi)容無關(guān)的信息,如導(dǎo)航條、廣告、推薦鏈接、版權(quán)聲明等。這些占整個Web頁面數(shù)據(jù)越40%_50%的噪音數(shù)據(jù)嚴(yán)重影響著許多Web應(yīng)用的服務(wù)質(zhì)量。如何獲取“干凈”的網(wǎng)頁日益成為一個重要的研究課題。目前,Web新聞內(nèi)容抽取技術(shù)根據(jù)抽取工具的自動化程度,分為手工構(gòu)建規(guī)則的抽取系統(tǒng)、有監(jiān)督的抽取系統(tǒng)、半監(jiān)督的抽取系統(tǒng)、無監(jiān)督的抽取系統(tǒng)和在線抽取系統(tǒng)。手工構(gòu)建規(guī)則的抽取系統(tǒng)是最簡單和最直接的抽取方法。使用Java、Perl這樣通用的程序設(shè)計語言或用戶自行設(shè)計的特定語言,用戶面向特定的網(wǎng)站構(gòu)建包裝器。這類的系統(tǒng)需要用戶有一定計算機和編程方面的知識、熟悉數(shù)據(jù)源和輸出結(jié)果的格式、理解抽取規(guī)則的內(nèi)涵。所以這種系統(tǒng)的自動化程度不高,構(gòu)造代價高,對于大量網(wǎng)站和網(wǎng)頁的抽取,這種花費往往是無法容忍的。特別地,當(dāng)網(wǎng)頁結(jié)構(gòu)發(fā)生變化時,抽取系統(tǒng)需手工修改,維護代價高,難以擴展和推廣。有監(jiān)督的抽取系統(tǒng)需要手工或使用工具標(biāo)記訓(xùn)練網(wǎng)頁,通過歸`納得到抽取規(guī)則。該類系統(tǒng)雖然無需用戶編程,有良好的擴展性,但是訓(xùn)練集標(biāo)記任務(wù)具有一定的專業(yè)要求且工作量較大,一般用戶難以勝任。半監(jiān)督的抽取系統(tǒng)相對于有監(jiān)督的抽取系統(tǒng),通常不需要用戶對網(wǎng)頁做出準(zhǔn)確的標(biāo)注就可以生成抽取規(guī)則。雖然這類系統(tǒng)能減輕用戶的標(biāo)記工作,但往往也需要用戶的參與,如選擇目標(biāo)模式或粗略標(biāo)記等。此外,該類系統(tǒng)通常需要嵌入一些啟發(fā)性背景知識,擴展性不高。在無監(jiān)督的抽取系統(tǒng)中,不需要用戶標(biāo)記任何訓(xùn)練集,在生成包裝器的過程中不需要與用戶交互的界面。這類系統(tǒng)通常假定Web頁面是根據(jù)請求從后臺數(shù)據(jù)庫中選取數(shù)據(jù)并嵌入到通用的模板中生成的,研究如何從模板生成的網(wǎng)頁中檢測出原始的模板,從而進(jìn)一步抽取嵌入其中的數(shù)據(jù)。但是這類系統(tǒng)的假設(shè)條件強,難以擴展。全自動的抽取方式往往會抽取出許多用戶不需要的信息,用戶需要的一些信息卻可能沒有抽取出來。在線抽取系統(tǒng)無需對網(wǎng)頁進(jìn)行預(yù)處理或預(yù)知它們的結(jié)構(gòu),能適應(yīng)任何結(jié)構(gòu)的新聞網(wǎng)頁。目前比較流行的在線抽取方法基于新聞網(wǎng)頁的HTML文本中字符的分布規(guī)律,設(shè)定抽取規(guī)則,識別抽取對象。但是這些在線方法主要基于網(wǎng)網(wǎng)頁中的字符或行,以至于網(wǎng)頁忽略網(wǎng)頁的結(jié)構(gòu)信息,抽取的精度低??傊?,目前的Web新聞內(nèi)容抽取技術(shù)主要存在如下問題:第一,目前很多的網(wǎng)頁抽取技術(shù)假定被抽取的網(wǎng)頁對象由同一個網(wǎng)頁模板生成,已有的包裝器難以有效抽取未知模板生成的網(wǎng)頁的內(nèi)容,通用性較差。如果需要抽取未知模板的網(wǎng)頁的內(nèi)容,需要針對該模板構(gòu)建新的包裝器,且任何模板的變化將導(dǎo)致包裝器失效,在線維護這些模板的代價極高。即使網(wǎng)頁由同一個模板生成,這些網(wǎng)頁中依然存在著很多非模板節(jié)點,不同網(wǎng)頁的非模板節(jié)點之間存在著一定的差異性,只有部分訓(xùn)練網(wǎng)頁生成的包裝器就無法涵蓋這些差異性,無法勝任部分網(wǎng)頁的抽取任務(wù)。第二,目前很多的網(wǎng)頁抽取技術(shù)難以勝任在線抽取任務(wù)。為達(dá)到較高的抽取精度,較好的匹配被抽取的網(wǎng)頁,往往需要較多的訓(xùn)練網(wǎng)頁和人工干預(yù),用戶負(fù)擔(dān)重,實時性能低,無法滿足在線抽取的要求。第三,現(xiàn)有的在線抽取方法雖然能滿足在線抽取,但是很多都是基于HTML文本,以行或整個文本為單位,分析字符和標(biāo)簽的分布特點,識別抽取對象。這類方法設(shè)計簡單,考慮角度單一,完全忽略了 HTML文本中字符的層次性,且該層次性與網(wǎng)頁內(nèi)容的分布有著密切的關(guān)系,難以用于海量異構(gòu)的Web新聞網(wǎng)頁的抽取。
發(fā)明內(nèi)容
為了解決上述的技術(shù)問題,本發(fā)明提供一種通用性強、用戶負(fù)擔(dān)輕、能在線抽取海量異構(gòu)Web新聞網(wǎng)頁的在線Web新聞內(nèi)容的抽取方法及系統(tǒng)。本發(fā)明通過以下技術(shù)方案實現(xiàn)。本發(fā)明在線Web新聞內(nèi)容抽取方法的特點是按如下步驟進(jìn)行:步驟I,使用HTML解析器解析被抽取的Web新聞網(wǎng)頁,得到被抽取的Web新聞網(wǎng)頁的DOM樹;步驟2,遍歷所述DOM樹,依次訪問所述DOM樹中的每個節(jié)點,構(gòu)建文本節(jié)點信息序列和文本節(jié)點的標(biāo)簽路徑信息序列;所述文本節(jié)點信息序列中的每個元素有兩個屬性,分別為文本節(jié)點和文本節(jié)點的標(biāo)簽路徑;所述標(biāo)簽路徑信息序列中的每個元素有三個屬性,分別是文本節(jié)點的標(biāo)簽路徑、標(biāo)簽路徑到達(dá)的文本內(nèi)容和標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù);所述標(biāo)簽路徑為所述DOM樹的根節(jié)點到節(jié)點的節(jié)點序列;步驟3,根據(jù)所述標(biāo)簽路徑信息序列和標(biāo)簽路徑特征系中每個標(biāo)簽路徑特征的定義,通過計算構(gòu)建標(biāo)簽路徑特征值序列;所述標(biāo)簽路徑特征系是由六個不同的標(biāo)簽路徑特征組成的,分別是文本標(biāo)簽路徑長度特征、文本標(biāo)簽路徑比特征、擴展文本標(biāo)簽路徑長度特征、擴展文本標(biāo)簽路徑比特征、文本標(biāo)簽路徑層次比特征和擴展文本標(biāo)簽路徑層次比特征;所述標(biāo)簽路徑特征值序列中的每個元素有七個屬性,分別是:標(biāo)簽路徑、文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值;所述文本標(biāo)簽路徑長度特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符的個數(shù);所述文本標(biāo)簽路徑比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符的個數(shù)與標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù)的比值;所述擴展文本標(biāo) 簽路徑長度特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù);
所述擴展文本標(biāo)簽路徑比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù)與標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù)的比值;所述文本標(biāo)簽路徑層次比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符個數(shù)與標(biāo)簽路徑的層次數(shù)的比值;所述擴展文本標(biāo)簽路徑層次比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù)與標(biāo)簽路徑的層次數(shù)的比值;所述標(biāo)簽路徑的層次數(shù)為標(biāo)簽路徑中標(biāo)簽的個數(shù);步驟4,使用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑特征值序列,得到標(biāo)簽路徑綜合特征值序列;所述標(biāo)簽路徑綜合特征值序列中的每個元素有兩個屬性,分別是標(biāo)簽路徑和標(biāo)簽路徑的綜合特征值;所述標(biāo)簽路徑的綜合特征值是利用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑的文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值得到的結(jié)果;步驟5,根據(jù)所述標(biāo)簽路徑綜合特征值序列和文本節(jié)點信息序列的映射關(guān)系,構(gòu)建文本節(jié)點綜合特征值序列;所述文本節(jié)點綜合特征值序列中的每個元素有兩個屬性,分別是文本節(jié)點和文本節(jié)點的綜合特征值;步驟6,根據(jù)文本節(jié)點綜合特征值序列抽取Web新聞網(wǎng)頁正文內(nèi)容。本發(fā)明在線Web新聞內(nèi)容抽取方法的特點也在于:所述步驟5中構(gòu)建文本節(jié)點綜合特征值序列的方法是:根據(jù)所述標(biāo)簽路徑綜合特征值序列中的每個元素的標(biāo)簽路徑屬性與所述文本節(jié)點信息序列中的每個元素的標(biāo)簽路徑屬性的對應(yīng)關(guān)系,將標(biāo)簽路徑的綜合特征值分配給對應(yīng)的文本節(jié)點,作為文本節(jié)點的綜合特征值,構(gòu)建文本節(jié)點綜·合特征值序列。所述步驟6根據(jù)文本節(jié)點綜合特征值序列抽取Web新聞網(wǎng)頁正文內(nèi)容的方法是:設(shè)置抽取閾值τ,依次訪問所述文本節(jié)點綜合特征值序列中的每個元素,若元素的文本節(jié)點的綜合特征值大于閾值τ,則抽取元素中的文本節(jié)點的文本內(nèi)容并存儲,直至文本節(jié)點綜合特征值序列中的所有元素都被訪問;最終存儲的內(nèi)容為被抽取的Web新聞網(wǎng)頁的正文內(nèi)容。本發(fā)明在線Web新聞內(nèi)容抽取系統(tǒng)的特點是由解析模塊、計算模塊、融合模塊和抽取模塊構(gòu)成;所述解析模塊根據(jù)被抽取的Web新聞網(wǎng)頁的URL地址獲取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新聞網(wǎng)頁的DOM樹;所述計算模塊是由查找單元、文本節(jié)點信息獲取單元、標(biāo)簽路徑信息獲取單元和標(biāo)簽路徑特征生成單元構(gòu)成;所述查找單元用于遍歷所述DOM樹,訪問DOM樹中的每個節(jié)點,查找出文本節(jié)點和文本節(jié)點的標(biāo)簽路徑;所述文本節(jié)點信息獲取單元用于構(gòu)建文本節(jié)點信息序列,存儲查找單元查找出的文本節(jié)點和文本節(jié)點的標(biāo)簽路徑;所述標(biāo)簽路徑信息獲取單元用于構(gòu)建標(biāo)簽路徑信息序列,存儲標(biāo)簽路徑、標(biāo)簽路徑到達(dá)的文本內(nèi)容和標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù);所述標(biāo)簽路徑特征生成單元,根據(jù)標(biāo)簽路徑信息序列中存儲的信息計算每個標(biāo)簽路徑的文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值,得到文本標(biāo)簽路徑特征值序列;所述融合模塊由加權(quán)單元和融合單元構(gòu)成;所述加權(quán)單元用于設(shè)置標(biāo)簽路徑特征系中每個元素的權(quán)重;所述融合單元根據(jù)加權(quán)單元設(shè)置的權(quán)重,利用加權(quán)DS證據(jù)理論融合每個標(biāo)簽路徑的文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值得到每個標(biāo)簽路徑的綜合特征值,最終得到標(biāo)簽路徑綜合特征值序列;所述抽取模塊由分配單元、選擇單元和抽取單元構(gòu)成;所述分配單元根據(jù)所述文本節(jié)點信息序列中每個元素的標(biāo)簽路徑屬性和所述標(biāo)簽路徑綜合特征值序列中每個元素的標(biāo)簽路徑屬性之間的對應(yīng)關(guān)系,將標(biāo)簽路徑的綜合特征值分配給對應(yīng)的文本節(jié)點,作為文本節(jié)點的綜合特征值,構(gòu)建文本節(jié)點的綜合特征值序列;所述選擇單元用于設(shè)置抽取閾值,依次訪問文本節(jié)點序列中的每個元素,若元素的文本節(jié)點的綜合特征值屬性的值大于抽取閾值,則標(biāo)記元素中的文本節(jié)點為內(nèi)容節(jié)點;所述抽取單元,依次抽取選擇單元標(biāo)注為內(nèi)容節(jié)點的文本節(jié)點的內(nèi)容并存儲,最終存儲的內(nèi)容為被抽取的Web新聞網(wǎng)頁的正文內(nèi)容。與已有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:1、本發(fā)明中由于標(biāo)簽路徑特征系的每個標(biāo)簽路徑特征僅涉及標(biāo)簽路徑到達(dá)的文本內(nèi)容的特征和標(biāo)簽路徑的特征,不基于網(wǎng)頁的模板,提高了方法的通用性;2、本發(fā)明中由于無需對網(wǎng)頁訓(xùn)練和標(biāo)記,無需用戶的參與,降低了用戶的負(fù)擔(dān);3、本發(fā)明中標(biāo)簽路徑特征系中每個標(biāo)簽路徑特征的值的計算都是簡單的個數(shù)統(tǒng)計或比值計算,速度快,實時性能強,可以實現(xiàn)在線抽??;4、本發(fā)明中由于標(biāo)簽路徑特征系中的標(biāo)簽路徑特征的多樣性,提高了對海量異構(gòu)的Web新聞網(wǎng)頁的適應(yīng)能力。
圖1是本發(fā)明在線Web新聞內(nèi)容抽取方法流程說明圖;圖2是本發(fā)明獲取文本節(jié)點信息序列和標(biāo)簽路徑信息序列的方法流程圖;圖3是本發(fā)明加權(quán)DS證據(jù)理論融合標(biāo)簽路徑特征值序列的流程說明圖;圖4是本發(fā)明在線Web新聞內(nèi)容抽取系統(tǒng)的系統(tǒng)結(jié)構(gòu)示意圖。
具體實施例方式參見圖1,本實施例中在線Web新聞內(nèi)容抽取方法是按如下步驟進(jìn)行:步驟I,使用HTML解析器解析被抽取的Web新聞網(wǎng)頁,得到被抽取的Web新聞網(wǎng)頁的DOM樹;根據(jù)被抽取的Web新聞網(wǎng)頁的URL地址獲取被抽取的新聞網(wǎng)頁的HTML文本,使用Jtidy修正HTML文本中包括標(biāo)簽匹配錯誤、標(biāo)簽書寫錯誤以及HTML編碼錯誤在內(nèi)的錯誤信息;利用HTML解析器HTMLParser逐個掃描HTML文本中的字符,解析HTML文本的結(jié)構(gòu)層次關(guān)系,得到被抽取的Web新聞網(wǎng)頁的DOM樹;步驟2,遍 歷DOM樹,依次訪問DOM樹中的每個節(jié)點,構(gòu)建文本節(jié)點信息序列和文本節(jié)點的標(biāo)簽路徑信息序列;文本節(jié)點信息序列中的每個元素有兩個屬性,分別為文本節(jié)點和文本節(jié)點的標(biāo)簽路徑;標(biāo)簽路徑信息序列中的每個元素有三個屬性,分別是文本節(jié)點的標(biāo)簽路徑、標(biāo)簽路徑到達(dá)的文本內(nèi)容和標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù);標(biāo)簽路徑為DOM樹的根節(jié)點到節(jié)點的節(jié)點序列;步驟3,根據(jù)標(biāo)簽路徑信息序列和標(biāo)簽路徑特征系中每個標(biāo)簽路徑特征的定義,通過計算構(gòu)建標(biāo)簽路徑特征值序列;標(biāo)簽路徑特征系是由六個不同的標(biāo)簽路徑特征組成的,分別是文本標(biāo)簽路徑長度特征、文本標(biāo)簽路徑比特征、擴展文本標(biāo)簽路徑長度特征、擴展文本標(biāo)簽路徑比特征、文本標(biāo)簽路徑層次比特征和擴展文本標(biāo)簽路徑層次比特征;標(biāo)簽路徑特征值序列中的每個元素有七個屬性,分別是:標(biāo)簽路徑、文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值;文本標(biāo)簽路徑長度特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符的個數(shù);文本標(biāo)簽路徑比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符的個數(shù)與標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù)的比值;擴展文本標(biāo)簽路徑長度特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù);擴展文本標(biāo)簽路徑比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù)與標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù)的比值;文本標(biāo)簽路徑層次比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符個數(shù)與標(biāo)簽路徑的層次數(shù)的比值;擴展文本標(biāo)簽路徑層次比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù)與標(biāo)簽路徑的層次數(shù)的比值;標(biāo)簽路徑的層次數(shù)為標(biāo)簽路徑中標(biāo)簽的個數(shù);步驟4,使用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑特征值序列,得到標(biāo)簽路徑綜合特征值序列;標(biāo)簽路徑綜合特征值序列中的每個元素有兩個屬性,分別是標(biāo)簽路徑和標(biāo)簽路徑的綜合特征值;標(biāo)簽路徑的綜合特征值是利用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑的文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值得到的結(jié)果;步驟5,根據(jù)標(biāo)簽路徑綜合特征值序列和文本節(jié)點信息序列的映射關(guān)系,構(gòu)建文本節(jié)點綜合特征值序列;文本節(jié)點綜合特征值序列中的每個元素有兩個屬性,分別是文本節(jié)點和文本節(jié)點的綜合特征值;其中,構(gòu)建文本節(jié)點綜合特征值序列的方法是:根據(jù)標(biāo)簽路徑綜合特征值序列中的每個元素的標(biāo)簽路徑屬性與文本節(jié)點信息序列中的每個元素的標(biāo)簽路徑屬性的對應(yīng)關(guān)系,將標(biāo)簽路徑的綜合特征值分配給對應(yīng)的文本節(jié)點,作為文本節(jié)點的綜合特征值,構(gòu)建文本節(jié)點綜合特征值序列。步驟6,根據(jù)文本節(jié)點綜合特征值序列抽取Web新聞網(wǎng)頁正文內(nèi)容;設(shè)置抽取閾值τ,依次訪問文本節(jié)點綜合特征值序列中的每個元素,若元素的文本節(jié)點的綜合特征值大于閾值τ,則抽取元素 中的文本節(jié)點的文本內(nèi)容并存儲,直至文本節(jié)點綜合特征值序列中的所有元素都被訪問;最終存儲的內(nèi)容為被抽取的Web新聞網(wǎng)頁的正文內(nèi)容;抽取閾值τ設(shè)置為文本節(jié)點綜合特征值序列中所有元素的文本節(jié)點的綜合特征值的標(biāo)準(zhǔn)差。本實施例中文本節(jié)點信息序列和標(biāo)簽路徑信息序列的構(gòu)建過程是一個典型的樹的遍歷過程,如圖2所示,具體按如下步驟進(jìn)行:構(gòu)建文本節(jié)點信息序列nSet和標(biāo)簽路徑信息序列pSet,并都初始化為空,文本節(jié)點信息序列PSet中的每個元素包含兩個屬性,分別是文本節(jié)點node和文本節(jié)點的標(biāo)簽路徑path ;標(biāo)簽路徑信息序列pSet中的每個元素包含三個屬性,分別是標(biāo)簽路徑path,標(biāo)簽路徑到達(dá)的文本內(nèi)容content和標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù)num ;依次遍歷DOM樹的每個節(jié)點;若節(jié)點為文本節(jié)點,則更新文本節(jié)點信息序列和標(biāo)簽路徑信息序列;否則遍歷節(jié)點的孩子子樹;節(jié)點的孩子子樹是以節(jié)點的孩子節(jié)點為根節(jié)點的樹。更新文本節(jié)點信息序列nSet的過程為:根據(jù)被訪問節(jié)點V和被訪問節(jié)點V的標(biāo)簽路徑P,構(gòu)建元素〈V,P〉,存放入文本節(jié)點信息序列中;更新標(biāo)簽路徑信息序列pSet的過程為:在標(biāo)簽路徑信息序列pSet中查找是否存在一個元素的標(biāo)簽路徑屬性path與被訪問節(jié)點V的標(biāo)簽路徑P相同,若存在,則將被訪問節(jié)點V的文本內(nèi)容text添加到該元素的content屬性中,且num屬性的值加I ;若不存在,則創(chuàng)建元素〈P,text, 1>,并存放入標(biāo)簽路徑信息序列pSet中。 參見圖3,本實施例中步驟4使用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑特征值序列,得到標(biāo)簽路徑綜合特征值序列是按如下步驟進(jìn)行的:步驟4-1,歸一化標(biāo)簽路徑特征值序列中的元素,具體按以下過程進(jìn)行:Hl1為標(biāo)簽路徑長度特征,m2為標(biāo)簽路徑比特征,m3為擴展標(biāo)簽路徑長度特征,m4為擴展標(biāo)簽路徑比特征,Hl5為標(biāo)簽路徑層次比特征,Hl6為擴展標(biāo)簽路徑層次比特征,標(biāo)簽路徑特征值序列中的元素為〈Pi,m/ I(Pi), m/ 2(Pi), m’ 3(Pi), m’ 4(ρ) , m’ Jpi), m' 6(Pi)>, Pi 為第i條標(biāo)簽路徑,I ^ i ^n, η為標(biāo)簽路徑的個數(shù),m' ! (Pi)為標(biāo)簽路徑Pi的標(biāo)簽路徑長度特征的值,Hi12(Pi)為標(biāo)簽路徑Pi的標(biāo)簽路徑比特征的值,Hi13(Pi)為標(biāo)簽路徑Pi的擴展標(biāo)簽路徑長度特征的值,m’4(Pi)為標(biāo)簽路徑?1的擴展標(biāo)簽路徑比特征的值,m’5(Pi)為標(biāo)簽路徑Pi的標(biāo)簽路徑層次比特征的值,Hi16(Pi)為標(biāo)簽路徑Pi的擴展標(biāo)簽路徑層次比特征的值。為避免使用DS證據(jù)理論融合出現(xiàn)悖論現(xiàn)象,令m’ k (pn+1) = min (m' k (Pi)),min (m,k (Pi))表示 m,k(p)、m’ k(p2)、m’ k(p3)、…、m’ k(pn)中的最小值,I 彡 k 彡 6,代表標(biāo)簽路徑特征系中的六個特征,Pi為第i條標(biāo)簽路徑,I ^ i ^η,η為標(biāo)簽路徑的個數(shù);按照式(I)歸一化標(biāo)簽路徑特征值序列中的元素:
權(quán)利要求
1.一種在線Web新聞內(nèi)容抽取方法,其特征是按如下步驟進(jìn)行: 步驟I,使用HTML解析器解析被抽取的Web新聞網(wǎng)頁,得到被抽取的Web新聞網(wǎng)頁的DOM 樹; 步驟2,遍歷所述DOM樹,依次訪問所述DOM樹中的每個節(jié)點,構(gòu)建文本節(jié)點信息序列和文本節(jié)點的標(biāo)簽路徑信息序列;所述文本節(jié)點信息序列中的每個元素有兩個屬性,分別為文本節(jié)點和文本節(jié)點的標(biāo)簽路徑;所述標(biāo)簽路徑信息序列中的每個元素有三個屬性,分別是文本節(jié)點的標(biāo)簽路徑、標(biāo)簽路徑到達(dá)的文本內(nèi)容和標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù);所述標(biāo)簽路徑為所述DOM樹的根節(jié)點到節(jié)點的節(jié)點序列; 步驟3,根據(jù)所述標(biāo)簽路徑信息序列和標(biāo)簽路徑特征系中每個標(biāo)簽路徑特征的定義,通過計算構(gòu)建標(biāo)簽路徑特征值序列; 所述標(biāo)簽路徑特征系是由六個不同的標(biāo)簽路徑特征組成的,分別是文本標(biāo)簽路徑長度特征、文本標(biāo)簽路徑比特征、擴展文本標(biāo)簽路徑長度特征、擴展文本標(biāo)簽路徑比特征、文本標(biāo)簽路徑層次比特征和擴展文本標(biāo)簽路徑層次比特征; 所述標(biāo)簽路徑特征值序列中的每個元素有七個屬性,分別是:標(biāo)簽路徑、文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值;所述文本標(biāo)簽路徑長度特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符的個數(shù); 所述文本標(biāo)簽路徑比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符的個數(shù)與標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù)的比值; 所述擴展文本標(biāo)簽路徑長度特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù); 所述擴展文本標(biāo)簽路徑比特征為 標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù)與標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù)的比值; 所述文本標(biāo)簽路徑層次比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中字符個數(shù)與標(biāo)簽路徑的層次數(shù)的比值; 所述擴展文本標(biāo)簽路徑層次比特征為標(biāo)簽路徑到達(dá)的文本內(nèi)容中標(biāo)點符號的個數(shù)與標(biāo)簽路徑的層次數(shù)的比值; 所述標(biāo)簽路徑的層次數(shù)為標(biāo)簽路徑中標(biāo)簽的個數(shù); 步驟4,使用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑特征值序列,得到標(biāo)簽路徑綜合特征值序列;所述標(biāo)簽路徑綜合特征值序列中的每個元素有兩個屬性,分別是標(biāo)簽路徑和標(biāo)簽路徑的綜合特征值;所述標(biāo)簽路徑的綜合特征值是利用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑的文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值得到的結(jié)果; 步驟5,根據(jù)所述標(biāo)簽路徑綜合特征值序列和文本節(jié)點信息序列的映射關(guān)系,構(gòu)建文本節(jié)點綜合特征值序列;所述文本節(jié)點綜合特征值序列中的每個元素有兩個屬性,分別是文本節(jié)點和文本節(jié)點的綜合特征值; 步驟6,根據(jù)文本節(jié)點綜合特征值序列抽取Web新聞網(wǎng)頁正文內(nèi)容。
2.根據(jù)權(quán)利要求1所述的在線Web新聞內(nèi)容抽取方法,其特征是:所述步驟5中構(gòu)建文本節(jié)點綜合特征值序列的方法是:根據(jù)所述標(biāo)簽路徑綜合特征值序列中的每個元素的標(biāo)簽路徑屬性與所述文本節(jié)點信息序列中的每個元素的標(biāo)簽路徑屬性的對應(yīng)關(guān)系,將標(biāo)簽路徑的綜合特征值分配給對應(yīng)的文本節(jié)點,作為文本節(jié)點的綜合特征值,構(gòu)建文本節(jié)點綜合特征值序列。
3.根據(jù)權(quán)利要求1所述的在線Web新聞內(nèi)容抽取方法,其特征是:所述步驟6根據(jù)文本節(jié)點綜合特征值序列抽取Web新聞網(wǎng)頁正文內(nèi)容的方法是:設(shè)置抽取閾值τ,依次訪問所述文本節(jié)點綜合特征值序列中的每個元素,若元素的文本節(jié)點的綜合特征值大于閾值τ,則抽取元素中的文本節(jié)點的文本內(nèi)容并存儲,直至文本節(jié)點綜合特征值序列中的所有元素都被訪問;最終存儲的內(nèi)容為被抽取的Web新聞網(wǎng)頁的正文內(nèi)容。
4.一種在線Web新聞內(nèi)容抽取系統(tǒng),其特征是由解析模塊、計算模塊、融合模塊和抽取模塊構(gòu)成; 所述解析模塊根據(jù)被抽取的Web新聞網(wǎng)頁的URL地址獲取HTML文本,利用HTML解析器解析HTML文本得到被抽取的Web新聞網(wǎng)頁的DOM樹; 所述計算模塊是由查找單元、文本節(jié)點信息獲取單元、標(biāo)簽路徑信息獲取單元和標(biāo)簽路徑特征生成單元構(gòu)成;所述查找單元用于遍歷所述DOM樹,訪問DOM樹中的每個節(jié)點,查找出文本節(jié)點和文本節(jié)點的標(biāo)簽路徑;所述文本節(jié)點信息獲取單元用于構(gòu)建文本節(jié)點信息序列,存儲查找單元查找出的文本節(jié)點和文本節(jié)點的標(biāo)簽路徑;所述標(biāo)簽路徑信息獲取單元用于構(gòu)建標(biāo)簽路徑信息序列,存儲標(biāo)簽路徑、標(biāo)簽路徑到達(dá)的文本內(nèi)容和標(biāo)簽路徑到達(dá)的文本節(jié)點的個數(shù);所述標(biāo)簽路徑特征生成單元,根據(jù)標(biāo)簽路徑信息序列中存儲的信息計算每個標(biāo)簽路徑的文本標(biāo)簽路徑長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值,得到文本標(biāo)簽路徑特征值序列; 所述融合模塊由加權(quán)單元和融合單元構(gòu)成;所述加權(quán)單元用于設(shè)置標(biāo)簽路徑特征系中每個元素的權(quán)重;所述融合單元根據(jù)加權(quán)單元設(shè)置的權(quán)重,利用加權(quán)DS證據(jù)理論融合每個標(biāo)簽路徑的文本標(biāo)簽路徑 長度特征的值、文本標(biāo)簽路徑比特征的值、擴展文本標(biāo)簽路徑長度特征的值、擴展文本標(biāo)簽路徑比特征的值、文本標(biāo)簽路徑層次比特征的值和擴展文本標(biāo)簽路徑層次比特征的值得到每個標(biāo)簽路徑的綜合特征值,最終得到標(biāo)簽路徑綜合特征值序列; 所述抽取模塊由分配單元、選擇單元和抽取單元構(gòu)成;所述分配單元根據(jù)所述文本節(jié)點信息序列中每個元素的標(biāo)簽路徑屬性和所述標(biāo)簽路徑綜合特征值序列中每個元素的標(biāo)簽路徑屬性之間的對應(yīng)關(guān)系,將標(biāo)簽路徑的綜合特征值分配給對應(yīng)的文本節(jié)點,作為文本節(jié)點的綜合特征值,構(gòu)建文本節(jié)點的綜合特征值序列;所述選擇單元用于設(shè)置抽取閾值,依次訪問文本節(jié)點序列中的每個元素,若元素的文本節(jié)點的綜合特征值屬性的值大于抽取閾值,則標(biāo)記元素中的文本節(jié)點為內(nèi)容節(jié)點;所述抽取單元,依次抽取選擇單元標(biāo)注為內(nèi)容節(jié)點的文本節(jié)點的內(nèi)容并存儲,最終存儲的內(nèi)容為被抽取的Web新聞網(wǎng)頁的正文內(nèi)容。
全文摘要
本發(fā)明涉及一種在線Web新聞內(nèi)容抽取方法,其步驟為獲取被抽取的Web新聞網(wǎng)頁的DOM樹;遍歷DOM樹構(gòu)建文本節(jié)點信息序列和標(biāo)簽路徑信息序列;計算標(biāo)簽路徑特征值序列;使用加權(quán)DS證據(jù)理論融合標(biāo)簽路徑特征值序列,得到標(biāo)簽路徑綜合特征值序列;構(gòu)建文本節(jié)點綜合特征值序列;根據(jù)文本節(jié)點綜合特征值序列抽取Web新聞網(wǎng)頁正文內(nèi)容。本發(fā)明還公開了一種在線Web新聞內(nèi)容抽取系統(tǒng),由解析模塊、計算模塊、融合模塊和抽取模塊構(gòu)成。本發(fā)明中的標(biāo)簽路徑特征不基于網(wǎng)頁的模板且具有多樣性,整個抽取過程都是簡單的數(shù)學(xué)元素,能有效地在線抽取海量異構(gòu)的Web新聞網(wǎng)頁。
文檔編號G06F17/30GK103246732SQ201310173280
公開日2013年8月14日 申請日期2013年5月10日 優(yōu)先權(quán)日2013年5月10日
發(fā)明者吳共慶, 李莉, 徐喆昊, 胡學(xué)鋼, 吳信東 申請人:合肥工業(yè)大學(xué)