專利名稱::一種網(wǎng)頁(yè)分類方法和裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,尤其涉及一種網(wǎng)頁(yè)分類方法和裝置。
背景技術(shù):
:在互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,經(jīng)常需要對(duì)網(wǎng)頁(yè)進(jìn)行分類。衡量網(wǎng)頁(yè)分類方法的指標(biāo)包括召回率和準(zhǔn)確率。召回率,是正確分出類別的網(wǎng)頁(yè)數(shù)量和所有網(wǎng)頁(yè)中屬于該類別的網(wǎng)頁(yè)數(shù)量的比值,用于衡量網(wǎng)頁(yè)分類方法是否具有通用性。準(zhǔn)確率,是正確分出類別的網(wǎng)頁(yè)數(shù)量除以所有分出類別的網(wǎng)頁(yè)數(shù)量的比值,用于衡量網(wǎng)頁(yè)分類方法是否準(zhǔn)確。由于網(wǎng)頁(yè)通常以文字信息為主,因此目前常用的網(wǎng)頁(yè)分類方法是抽取網(wǎng)頁(yè)中的文字信息,利用現(xiàn)有的文本分類器對(duì)網(wǎng)頁(yè)分類。其中的文本分類器是預(yù)先訓(xùn)練好的分類器,其基于文本的語(yǔ)意特性對(duì)文本進(jìn)行分類。利用文本分類器對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí),由于僅考慮了網(wǎng)頁(yè)中的文字特征,而忽略了其他特征,所以準(zhǔn)確率和召回率相對(duì)較低。
發(fā)明內(nèi)容有鑒于此,本發(fā)明實(shí)施例提供了一種網(wǎng)頁(yè)分類方法和裝置,以便提高網(wǎng)頁(yè)分類的性能。本發(fā)明實(shí)施例的技術(shù)方案具體是這樣實(shí)現(xiàn)的一種網(wǎng)頁(yè)分類方法,該方法包括確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置fn息;根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。一種網(wǎng)頁(yè)分類裝置,該裝置包括確定模塊和分類模塊;所述確定模塊,確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息;所述分類模塊,根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。由上述技術(shù)方案可見(jiàn),本發(fā)明實(shí)施例在對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí),不僅考慮待分類網(wǎng)頁(yè)顯示的內(nèi)容信息,還進(jìn)一步考慮所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息,與利用文本分類器對(duì)頁(yè)面進(jìn)行分類相比,更加全面地考慮了網(wǎng)頁(yè)的各項(xiàng)特征,因此能夠提高網(wǎng)頁(yè)分類的準(zhǔn)確率或召回率等性能。其中,所述內(nèi)容信息不僅包括文字內(nèi)容,還包括圖片、鏈接等內(nèi)容,與僅根據(jù)文字內(nèi)容進(jìn)行網(wǎng)頁(yè)分類相比,能夠提高網(wǎng)頁(yè)分類的準(zhǔn)確率。圖1是本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)分類方法流程圖。圖2是本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)分類裝置的結(jié)構(gòu)圖。圖3是本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)分類方法詳細(xì)流程圖。具體實(shí)施例方式圖1是本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)分類方法流程圖。如圖1所示,該方法包括步驟101,確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息。步驟102,根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。在根據(jù)所述內(nèi)容信息和所述位置信息對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類時(shí),可以先根據(jù)所述內(nèi)容信息和所述位置信息將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊,然后根據(jù)分出的各個(gè)網(wǎng)頁(yè)塊的特征對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。其中,可以根據(jù)網(wǎng)頁(yè)的內(nèi)容信息所處的位置、所述內(nèi)容信息的語(yǔ)義特征和結(jié)構(gòu)特征,和/或網(wǎng)頁(yè)描述語(yǔ)言(例如html語(yǔ)言)中的標(biāo)記特征,將網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊。其中的語(yǔ)義特征是指,網(wǎng)頁(yè)內(nèi)容的語(yǔ)義含義,通常通過(guò)關(guān)鍵字的形式來(lái)表示。結(jié)構(gòu)特征是指,網(wǎng)頁(yè)內(nèi)容中各種信息表現(xiàn)形式的數(shù)量或者不同信息表現(xiàn)形式之間的比例,例如文字的數(shù)量、圖片的數(shù)量、鏈接文本的數(shù)量、或者文字、圖片以及鏈接文本之間的比例。具體地,位置相近的網(wǎng)頁(yè)內(nèi)容可能組成一個(gè)網(wǎng)頁(yè)塊,語(yǔ)義特征相似和/或結(jié)構(gòu)特征相似的網(wǎng)頁(yè)內(nèi)容通常組成一個(gè)網(wǎng)頁(yè)塊,網(wǎng)頁(yè)描述語(yǔ)言的一個(gè)標(biāo)記特征下的信息往往能獨(dú)立構(gòu)成一個(gè)網(wǎng)頁(yè)塊。以html語(yǔ)言為例,標(biāo)記為div特征的網(wǎng)頁(yè)內(nèi)容通??梢苑譃橐粋€(gè)網(wǎng)頁(yè)塊,標(biāo)記為table特征的網(wǎng)頁(yè)內(nèi)容可以分為另一個(gè)網(wǎng)頁(yè)塊。通過(guò)將網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊,根據(jù)各個(gè)網(wǎng)頁(yè)塊在待分類網(wǎng)頁(yè)中所處的位置、各個(gè)網(wǎng)頁(yè)塊的語(yǔ)義特征和各個(gè)網(wǎng)頁(yè)塊的結(jié)構(gòu)特征中的任意一項(xiàng)或多項(xiàng)對(duì)網(wǎng)頁(yè)進(jìn)行分類,可以提高分類準(zhǔn)確率。首先,網(wǎng)頁(yè)塊是相近語(yǔ)義內(nèi)容的集合,將網(wǎng)頁(yè)塊作為一個(gè)特征點(diǎn)來(lái)對(duì)網(wǎng)頁(yè)分類,比利用單個(gè)關(guān)鍵詞對(duì)網(wǎng)頁(yè)分類更加準(zhǔn)確。其次,分出網(wǎng)頁(yè)塊后,可以識(shí)別出噪聲塊,去掉這些噪聲塊的影響會(huì)使網(wǎng)頁(yè)分類結(jié)果更佳。比如,在廣告塊中出現(xiàn)的是某個(gè)新車(chē)的廣告,但是網(wǎng)頁(yè)正文塊中描述的是體育新聞,如果去掉噪聲塊,會(huì)更容易識(shí)別出體育新聞來(lái)。再者,在不同的網(wǎng)頁(yè)塊中出現(xiàn)的特征對(duì)網(wǎng)頁(yè)分類的影響會(huì)不同,比如出現(xiàn)在二級(jí)導(dǎo)航塊中的關(guān)鍵字比正文中出現(xiàn)的關(guān)鍵字更能說(shuō)明網(wǎng)頁(yè)的類別。典型的網(wǎng)頁(yè)塊例如有廣告塊、導(dǎo)航塊、評(píng)論塊、邊框塊和推薦鏈接塊等。其中,廣告塊和推薦鏈接塊通常都以鏈接文字為主,但是廣告塊其鏈接出的統(tǒng)一資源定位符(UiformResouseLocator,URL)通常含有advis等關(guān)鍵字;導(dǎo)航塊通常出現(xiàn)在網(wǎng)頁(yè)的最上方;評(píng)論塊通常出現(xiàn)在網(wǎng)頁(yè)正文的下方,包含對(duì)正文的評(píng)論信息;邊框塊通常出現(xiàn)在網(wǎng)頁(yè)的左右兩邊,并且寬度較窄。根據(jù)各個(gè)網(wǎng)頁(yè)塊所具有的特征可以將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊。將網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊后,可以根據(jù)各個(gè)網(wǎng)頁(yè)塊的結(jié)構(gòu)特征和/或語(yǔ)義特征對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。其中的結(jié)構(gòu)特征可以包括文字鏈接比、圖片個(gè)數(shù)和/或圖片鏈接個(gè)數(shù)等。所述文字鏈接比是網(wǎng)頁(yè)塊中的文字?jǐn)?shù)與鏈接數(shù)的比值。為了進(jìn)一步提高網(wǎng)頁(yè)分類結(jié)果的準(zhǔn)確性,如上所述,本發(fā)明實(shí)施例還可以對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行去噪處理,然后根據(jù)去噪處理后的網(wǎng)頁(yè)內(nèi)容以及所述內(nèi)容在網(wǎng)頁(yè)中的位置對(duì)網(wǎng)頁(yè)進(jìn)行分類。具體地,可以根據(jù)網(wǎng)頁(yè)塊在待分類網(wǎng)頁(yè)中的位置和/或網(wǎng)頁(yè)塊中的關(guān)鍵詞確定網(wǎng)頁(yè)塊是否是噪聲塊,然后根據(jù)不是噪聲塊的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。例如,當(dāng)需要將導(dǎo)航塊作為噪聲塊時(shí),可以首先將處于網(wǎng)頁(yè)最上方,且關(guān)鍵字含有“導(dǎo)航”的網(wǎng)頁(yè)塊識(shí)別為噪聲塊。除了考慮網(wǎng)頁(yè)所顯示的文字、圖片、邊框、flash、鏈接等內(nèi)容信息及其所在位置外,本發(fā)明實(shí)施例還可以進(jìn)一步考慮網(wǎng)頁(yè)的URL特征,綜合考慮網(wǎng)頁(yè)顯示的內(nèi)容信息、所述內(nèi)容信息在網(wǎng)頁(yè)中的位置信息以及網(wǎng)頁(yè)的URL特征對(duì)網(wǎng)頁(yè)進(jìn)行分類,從而進(jìn)一步提高網(wǎng)頁(yè)分類的準(zhǔn)確率和召回率。其中網(wǎng)頁(yè)的URL特征通常包括語(yǔ)義特征、結(jié)構(gòu)特征和位置特征中的任意一項(xiàng)或多項(xiàng)。通常網(wǎng)頁(yè)的URL按照結(jié)構(gòu)分段可以分為子域級(jí)、目錄級(jí)、文件級(jí)以及cgi級(jí),可以通過(guò)比較待分類網(wǎng)頁(yè)URL各段的語(yǔ)義特征與某一類網(wǎng)頁(yè)的URL的相應(yīng)段的語(yǔ)義特征,判斷待分類網(wǎng)頁(yè)屬于該某一類網(wǎng)頁(yè)的概率。其中,由于結(jié)構(gòu)特征在URL中所處的位置不同,因此處于URL不同結(jié)構(gòu)特征中的語(yǔ)義特征對(duì)分類結(jié)果的影響一般不同,通常,位置越靠后的結(jié)構(gòu)特征中的語(yǔ)義特征對(duì)分類結(jié)果影響越大;另外,結(jié)構(gòu)特征的信息表現(xiàn)形式通常也可以影響分類結(jié)果。例如,http//vipemarketing.qq.com/doov/con/show/act/detail?id=44892775中,子域是指“vipemarketing.qq.com”,目錄是“/doov/con/show/act/”,資源名是“detail”,cgi是“id=44892775”。URL不同位置中出現(xiàn)的關(guān)鍵字對(duì)分類的影響不同,大體上說(shuō),位置越往后,準(zhǔn)確率越高。比如URL資源名中出現(xiàn)“news,html”,而目錄中出現(xiàn)“/video/”,則該頁(yè)面是新聞頁(yè)的可能性比視頻頁(yè)的可能性大。除了關(guān)鍵字外,URL中的結(jié)構(gòu)特征的信息表現(xiàn)形式也可以作為分類的因子,比如,資源名中全是數(shù)字組成,則該頁(yè)面是信息頁(yè)的可能性就比較大。在具體實(shí)施過(guò)程中,本發(fā)明實(shí)施例可以通過(guò)自學(xué)習(xí)等方法離線訓(xùn)練出各類網(wǎng)頁(yè)的特征庫(kù),即預(yù)先根據(jù)各類網(wǎng)頁(yè)的內(nèi)容信息和位置信息確定各類網(wǎng)頁(yè)的特征庫(kù);然后在在線分類的過(guò)程中,根據(jù)所述內(nèi)容信息和所述位置信息提取待分類網(wǎng)頁(yè)的特征,根據(jù)提取的特征和所述確定的特征庫(kù)對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。圖2是本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)分類裝置的結(jié)構(gòu)圖。如圖2所述,該分類裝置包括確定模塊201和分類模塊202。確定模塊201,用于確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息。分類模塊202,用于根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。分類模塊202可以包括分塊單元和分類單元。所述分塊單元,用于根據(jù)所述內(nèi)容信息和所述位置信息將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊。所述分類單元,用于根據(jù)分出的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。所述分塊單元,具體用于根據(jù)網(wǎng)頁(yè)內(nèi)容信息的語(yǔ)義特征和/或結(jié)構(gòu)特征,以及所述內(nèi)容信息在待分類網(wǎng)頁(yè)中的位置信息,將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊;或者用于根據(jù)網(wǎng)頁(yè)內(nèi)容信息的語(yǔ)義特征和/或結(jié)構(gòu)特征、所述內(nèi)容信息在待分類網(wǎng)頁(yè)中的位置信息以及待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)描述語(yǔ)言中的標(biāo)記特征,將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊。分類模塊202還可以進(jìn)一步包括噪聲確定單元。所述噪聲確定單元,用于根據(jù)網(wǎng)頁(yè)塊在待分類網(wǎng)頁(yè)中的位置和/或網(wǎng)頁(yè)塊中的關(guān)鍵詞確定網(wǎng)頁(yè)塊是否是噪聲塊。相應(yīng)地,所述分類單元,用于根據(jù)不是噪聲塊的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。確定模塊201,還可以進(jìn)一步用于確定待分類網(wǎng)頁(yè)的URL特征。相應(yīng)地,分類模塊202,用于根據(jù)所述內(nèi)容信息、所述位置信息以及所述URL特征對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。所述URL特征通常包括URL的語(yǔ)義特征、結(jié)構(gòu)特征或位置特征。圖2所示分類裝置還可以包括特征庫(kù)模塊。所述特征庫(kù)模塊,用于存儲(chǔ)各類網(wǎng)頁(yè)的特征,所述各類網(wǎng)頁(yè)的特征是預(yù)先根據(jù)各類網(wǎng)頁(yè)的內(nèi)容信息和位置信息確定的。所述分類模塊202,還可以用于根據(jù)待分類網(wǎng)頁(yè)的內(nèi)容信息和位置信息以及所述特征庫(kù)模塊中存儲(chǔ)的各類網(wǎng)頁(yè)的特征對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。下面結(jié)合具體的例子對(duì)本發(fā)明實(shí)施例的分類方法和分類裝置進(jìn)行示例性說(shuō)明。圖3是本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)分類方法詳細(xì)流程圖。圖3所示網(wǎng)頁(yè)分類方法分為離線訓(xùn)練階段和在線分類階段兩部分。圖3中,步驟301-304是離線訓(xùn)練階段,步驟301-302利用機(jī)器自學(xué)習(xí)的方法訓(xùn)練出網(wǎng)頁(yè)分類器,步驟303-304利用機(jī)器自學(xué)習(xí)的方法訓(xùn)練出網(wǎng)頁(yè)噪聲塊識(shí)別模型,其中網(wǎng)頁(yè)分類器的訓(xùn)練階段(步驟301-30和網(wǎng)頁(yè)噪聲塊識(shí)別模型的訓(xùn)練階段(即步驟303-304)順序可調(diào)。步驟305-309是在線分類階段,利用離線訓(xùn)練階段訓(xùn)練出的網(wǎng)頁(yè)噪聲塊識(shí)別模型對(duì)待分類網(wǎng)頁(yè)進(jìn)行降噪處理,然后提取降噪處理后的待分類網(wǎng)頁(yè)的特征,利用離線訓(xùn)練階段訓(xùn)練出的網(wǎng)頁(yè)分類器對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。具體地,圖3所示流程包括如下步驟步驟301,根據(jù)預(yù)先分好的網(wǎng)頁(yè)類型庫(kù)中的各類網(wǎng)頁(yè),確定各類網(wǎng)頁(yè)的特征庫(kù)。其中的網(wǎng)頁(yè)類型庫(kù)可以通過(guò)預(yù)先由人工區(qū)分網(wǎng)頁(yè)類型的方式得到;各類網(wǎng)頁(yè)的特征庫(kù)可以通過(guò)分析得到,比如通過(guò)人工總結(jié)一些規(guī)則(比如總結(jié)一批新聞頁(yè)的關(guān)鍵詞),或者通過(guò)特征挖掘或者聚類的方法得到特征庫(kù)(比如通過(guò)對(duì)同一個(gè)類型的網(wǎng)頁(yè),通過(guò)自動(dòng)分詞,找出詞頻較高的關(guān)鍵詞作為該類型網(wǎng)頁(yè)的特征)。步驟302,利用離線訓(xùn)練樣本和各類網(wǎng)頁(yè)的特征庫(kù)訓(xùn)練網(wǎng)頁(yè)分類器。其中的離線訓(xùn)練樣本通常也是通過(guò)人工方式得到的,其網(wǎng)頁(yè)類型通過(guò)人工方式預(yù)先確定。通過(guò)離線訓(xùn)練樣本和所述特征庫(kù),可以訓(xùn)練出特征庫(kù)中的各個(gè)特征對(duì)應(yīng)的權(quán)值因子,網(wǎng)頁(yè)分類器根據(jù)待分類網(wǎng)頁(yè)所具有的特征及該特征的權(quán)值因子即可對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。步驟303,確定網(wǎng)頁(yè)噪聲塊特征庫(kù)。本步驟中,也可以通過(guò)人工方式確定網(wǎng)頁(yè)噪聲塊的特征庫(kù)。步驟304,訓(xùn)練網(wǎng)頁(yè)噪聲塊識(shí)別模型。本步驟中,根據(jù)網(wǎng)頁(yè)噪聲塊的特征庫(kù)訓(xùn)練網(wǎng)頁(yè)噪聲塊識(shí)別模型。步驟305,對(duì)待分類網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)分塊。其中,網(wǎng)頁(yè)顯示的文字內(nèi)容是由文字以及相對(duì)結(jié)構(gòu)關(guān)系組成的二維結(jié)構(gòu)。根據(jù)網(wǎng)頁(yè)中結(jié)構(gòu)特征以及語(yǔ)義特征的不同,可以將處于相似結(jié)構(gòu)特征以及相似語(yǔ)義特征中的文字切割成一個(gè)網(wǎng)頁(yè)塊。步驟306,識(shí)別分出的各個(gè)網(wǎng)頁(yè)塊是否是噪聲塊。其中,典型的噪聲塊包括廣告塊、導(dǎo)航塊、評(píng)論塊和推薦鏈接塊等。步驟307,根據(jù)識(shí)別結(jié)果對(duì)網(wǎng)頁(yè)進(jìn)行降噪處理。具體地,本步驟中,可以刪除網(wǎng)頁(yè)中的噪聲塊,也可以標(biāo)注出網(wǎng)頁(yè)中的噪聲塊。步驟308,從不是噪聲塊的網(wǎng)頁(yè)塊中提取出待分類網(wǎng)頁(yè)的特征。本步驟中的特征包括語(yǔ)義特征和/或結(jié)構(gòu)特征。步驟309,利用離線訓(xùn)練階段訓(xùn)練出的網(wǎng)頁(yè)分類器對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類,得到待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)類型。其中,可以將分出類別的網(wǎng)頁(yè)再送入相應(yīng)類別的網(wǎng)頁(yè)庫(kù)中,以便豐富網(wǎng)頁(yè)庫(kù)的內(nèi)容,根據(jù)更加豐富的網(wǎng)頁(yè)庫(kù)更新相應(yīng)類型網(wǎng)頁(yè)的特征庫(kù)。圖3所示方法中,每一類網(wǎng)頁(yè)的特征庫(kù)中都包含網(wǎng)頁(yè)顯示的內(nèi)容信息的語(yǔ)義特征和結(jié)構(gòu)特征、網(wǎng)頁(yè)顯示的內(nèi)容信息在網(wǎng)頁(yè)中的位置信息,以及網(wǎng)頁(yè)的URL特征,這樣,根據(jù)該特征庫(kù)訓(xùn)練出的網(wǎng)頁(yè)分類器能夠全面考慮網(wǎng)頁(yè)的文字、除文字外的圖片等內(nèi)容信息、所述內(nèi)容信息在網(wǎng)頁(yè)中的位置信息、網(wǎng)頁(yè)的URL特征等多種特征,從而提高網(wǎng)頁(yè)分類的準(zhǔn)確率和召回率。其中的URL特征例如可以包括URL的語(yǔ)義特征、結(jié)構(gòu)特征或位置特征等。下面以一個(gè)具體的例子來(lái)闡述本發(fā)明實(shí)施例中所描述的網(wǎng)頁(yè)分類方法。首先,我們定義兩個(gè)網(wǎng)頁(yè)類型信息頁(yè),網(wǎng)頁(yè)的主題是以非鏈接文本為主,用以表述某個(gè)主題內(nèi)容,例如我們經(jīng)常見(jiàn)到的網(wǎng)絡(luò)中某個(gè)新聞的頁(yè)面。索引頁(yè),網(wǎng)頁(yè)的主題是以鏈接文本為主,網(wǎng)頁(yè)主要是提供到其他信息的導(dǎo)航,例如網(wǎng)站的首頁(yè)等。我們以新聞頁(yè)http://news.qq.com/a/20100519/000045.htm為例,看本發(fā)明實(shí)施例中的網(wǎng)頁(yè)分類方法如何對(duì)其進(jìn)行分類首先,輸入待分類網(wǎng)頁(yè)的URL以及該網(wǎng)頁(yè)的html源碼,其中,待分類網(wǎng)頁(yè)的URL是http://news.qq.com/a/20100519/000045.htm。然后,根據(jù)html語(yǔ)法中具有分塊特征的標(biāo)簽將網(wǎng)頁(yè)進(jìn)行切分。具體而言,我們可以用最小的table,div,span,tbody,title等節(jié)點(diǎn),將該網(wǎng)頁(yè)切成若干個(gè)小網(wǎng)頁(yè)塊。接下來(lái)進(jìn)行網(wǎng)頁(yè)噪聲塊識(shí)別。具體地,預(yù)先定義出導(dǎo)航塊、邊框塊、廣告塊以及評(píng)論塊等噪聲塊。根據(jù)這些噪聲塊的特征,識(shí)別出切割出來(lái)的網(wǎng)頁(yè)塊中哪些是噪聲塊,并將這些噪聲塊去除。其中,噪聲塊的特征包括導(dǎo)航塊通常在網(wǎng)頁(yè)的最上方出現(xiàn),用以在該網(wǎng)站中導(dǎo)航作用;邊框塊通常在網(wǎng)頁(yè)的左右兩邊出現(xiàn),其寬度較窄;廣告塊通常是以鏈接文字為主,并且鏈出的URL通常含有advis等關(guān)鍵詞;評(píng)論塊通常是對(duì)正文的評(píng)論信息,出現(xiàn)在正文的下方。8去除噪聲塊之后,頁(yè)面的內(nèi)容更加干凈。從剩下的網(wǎng)頁(yè)塊中,提取出最能描述類別的特征點(diǎn)。在識(shí)別信息頁(yè)的特征中,我們認(rèn)為鏈接文本的字?jǐn)?shù)與非鏈接文本的字?jǐn)?shù)的比值,是最有效的特征。同時(shí),在該網(wǎng)頁(yè)中,具有信息頁(yè)特征的網(wǎng)頁(yè)塊,比如,二級(jí)導(dǎo)航塊,還有很多具有信息頁(yè)特征的語(yǔ)義信息,比如二級(jí)導(dǎo)航中存在“正文”關(guān)鍵字。除了網(wǎng)頁(yè)自身特征之外,網(wǎng)頁(yè)對(duì)應(yīng)的URL也有相應(yīng)的特征點(diǎn),例如該URL是一個(gè)靜態(tài)URL,并且該URL的資源名000045.htm是由全數(shù)字組成,這些都是信息頁(yè)URL的特征。取出上述特征之后,根據(jù)離線訓(xùn)練的分類器模型,綜合考慮各個(gè)特征因子對(duì)分類的貢獻(xiàn),最終產(chǎn)生出該網(wǎng)頁(yè)的類別為信息頁(yè)。本發(fā)明實(shí)施例中提及到的網(wǎng)頁(yè)分類器,是采用機(jī)器學(xué)習(xí)算法得到的分類器。這里也可以使用其他一些方法得到分類器,比如分支定界的方法,闕值分支法等。本發(fā)明實(shí)施例中直接對(duì)網(wǎng)頁(yè)的html源代碼進(jìn)行分析,也可以先對(duì)網(wǎng)頁(yè)建立文檔對(duì)象模型(DocumentObjectModel,DOM)樹(shù),后續(xù)的分析過(guò)程都依賴于DOM樹(shù)來(lái)實(shí)現(xiàn),對(duì)DOM樹(shù)描述的網(wǎng)頁(yè)進(jìn)行分類與對(duì)html語(yǔ)言描述的網(wǎng)頁(yè)進(jìn)行分類的方法是類似的,區(qū)別僅在于,對(duì)于DOM樹(shù)描述的網(wǎng)頁(yè),通過(guò)遍歷DOM樹(shù)獲取網(wǎng)頁(yè)內(nèi)容信息的語(yǔ)義特征和結(jié)構(gòu)特征以及網(wǎng)頁(yè)內(nèi)容信息在網(wǎng)頁(yè)中的位置信息,而無(wú)需遍歷整個(gè)html頁(yè)面。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明實(shí)施例的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。權(quán)利要求1.一種網(wǎng)頁(yè)分類方法,其特征在于,該方法包括確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息;根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類包括根據(jù)所述內(nèi)容信息和所述位置信息將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊,根據(jù)分出的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,該方法進(jìn)一步包括根據(jù)網(wǎng)頁(yè)塊在待分類網(wǎng)頁(yè)中的位置和/或網(wǎng)頁(yè)塊中的關(guān)鍵詞確定網(wǎng)頁(yè)塊是否是噪聲塊;所述根據(jù)分出的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類包括根據(jù)不是噪聲塊的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述內(nèi)容信息和所述位置信息將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊包括根據(jù)網(wǎng)頁(yè)內(nèi)容信息的語(yǔ)義特征和/或結(jié)構(gòu)特征,以及所述內(nèi)容信息在待分類網(wǎng)頁(yè)中的位置信息,將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊;或者根據(jù)網(wǎng)頁(yè)內(nèi)容信息的語(yǔ)義特征和/或結(jié)構(gòu)特征、所述內(nèi)容信息在待分類網(wǎng)頁(yè)中的位置信息以及待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)描述語(yǔ)言中的標(biāo)記特征,將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述網(wǎng)頁(yè)塊包括廣告塊、導(dǎo)航塊、評(píng)論塊、邊框塊或推薦鏈接塊。6.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)分出的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類包括根據(jù)各個(gè)網(wǎng)頁(yè)塊在待分類網(wǎng)頁(yè)中所處的位置、各個(gè)網(wǎng)頁(yè)塊的結(jié)構(gòu)特征和各個(gè)網(wǎng)頁(yè)塊的語(yǔ)義特征中的任意一項(xiàng)或多項(xiàng)對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。7.根據(jù)權(quán)利要求4或6所述的方法,其特征在于,所述結(jié)構(gòu)特征包括文字鏈接比、圖片個(gè)數(shù)和鏈接個(gè)數(shù)中的任意一項(xiàng)或多項(xiàng)。8.根據(jù)權(quán)利要求1至6任一權(quán)利要求所述的方法,其特征在于,該方法進(jìn)一步包括確定待分類網(wǎng)頁(yè)的統(tǒng)一資源定位符URL特征;對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類包括根據(jù)所述內(nèi)容信息、所述位置信息以及所述URL特征對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述URL特征包括URL的語(yǔ)義特征、結(jié)構(gòu)特征和位置特征中的任意一項(xiàng)或多項(xiàng)。10.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類包括根據(jù)各類網(wǎng)頁(yè)的內(nèi)容信息和位置信息確定各類網(wǎng)頁(yè)的特征庫(kù);根據(jù)所述內(nèi)容信息和所述位置信息提取待分類網(wǎng)頁(yè)的特征,根據(jù)提取的特征和所述確定的特征庫(kù)對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。11.一種網(wǎng)頁(yè)分類裝置,其特征在于,該裝置包括確定模塊和分類模塊;所述確定模塊,用于確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息;所述分類模塊,用于根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。12.根據(jù)權(quán)利要求11所述的分類裝置,其特征在于,所述分類模塊包括分塊單元和分類單元;所述分塊單元,用于根據(jù)所述內(nèi)容信息和所述位置信息將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊;所述分類單元,用于根據(jù)分出的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。13.根據(jù)權(quán)利要求12所述的分類裝置,其特征在于,所述分塊單元,用于根據(jù)網(wǎng)頁(yè)內(nèi)容信息的語(yǔ)義特征和/或結(jié)構(gòu)特征,以及所述內(nèi)容信息在待分類網(wǎng)頁(yè)中的位置信息,將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊;或者用于根據(jù)網(wǎng)頁(yè)內(nèi)容信息的語(yǔ)義特征和/或結(jié)構(gòu)特征、所述內(nèi)容信息在待分類網(wǎng)頁(yè)中的位置信息以及待分類網(wǎng)頁(yè)的網(wǎng)頁(yè)描述語(yǔ)言中的標(biāo)記特征,將待分類網(wǎng)頁(yè)分成多個(gè)網(wǎng)頁(yè)塊。14.根據(jù)權(quán)利要求12所述的分類裝置,其特征在于,所述分類模塊進(jìn)一步包括噪聲確定單元;所述噪聲確定單元,用于根據(jù)網(wǎng)頁(yè)塊在待分類網(wǎng)頁(yè)中的位置和/或網(wǎng)頁(yè)塊中的關(guān)鍵詞確定網(wǎng)頁(yè)塊是否是噪聲塊;所述分類單元,用于根據(jù)不是噪聲塊的網(wǎng)頁(yè)塊對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。15.根據(jù)權(quán)利要求11至14任一權(quán)利要求所述的分類裝置,其特征在于,所述確定模塊,進(jìn)一步用于確定待分類網(wǎng)頁(yè)的統(tǒng)一資源定位符URL特征;所述分類模塊,根據(jù)所述內(nèi)容信息、所述位置信息以及所述符URL特征對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。16.根據(jù)權(quán)利要求15所述的分類裝置,其特征在于,所述URL特征包括URL的語(yǔ)義特征、結(jié)構(gòu)特征和位置特征中的任意一項(xiàng)或多項(xiàng)。17.根據(jù)權(quán)利要求11所述的分類裝置,其特征在于,該裝置還包括特征庫(kù)模塊,所述特征庫(kù)模塊,用于存儲(chǔ)各類網(wǎng)頁(yè)的特征,所述各類網(wǎng)頁(yè)的特征是根據(jù)各類網(wǎng)頁(yè)的內(nèi)容信息和位置信息確定的;所述分類模塊,用于根據(jù)待分類網(wǎng)頁(yè)的內(nèi)容信息和位置信息以及所述特征庫(kù)模塊中存儲(chǔ)的各類網(wǎng)頁(yè)的特征對(duì)待分類網(wǎng)頁(yè)進(jìn)行分類。全文摘要本發(fā)明實(shí)施例公開(kāi)了一種網(wǎng)頁(yè)分類方法和裝置。該方法包括確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息;根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。該裝置包括確定模塊和分類模塊;所述確定模塊,確定待分類網(wǎng)頁(yè)顯示的內(nèi)容信息、以及所述內(nèi)容信息在所述待分類網(wǎng)頁(yè)中的位置信息;所述分類模塊,根據(jù)所述內(nèi)容信息和所述位置信息對(duì)所述待分類網(wǎng)頁(yè)進(jìn)行分類。應(yīng)用本發(fā)明實(shí)施例能夠提高網(wǎng)頁(yè)分類的性能。文檔編號(hào)G06F17/30GK102411587SQ20101029155公開(kāi)日2012年4月11日申請(qǐng)日期2010年9月21日優(yōu)先權(quán)日2010年9月21日發(fā)明者張立明,楊巍申請(qǐng)人:騰訊科技(深圳)有限公司