網頁分類方法和裝置、網頁分類器的訓練方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種網頁分類方法和裝置、網頁分類器的訓練方法和裝置,其中的網頁分類方法具體包括:提取待分類網頁的用戶搜索行為特征;依據(jù)第一網頁分類器判別該用戶搜索行為特征所屬的網頁類別;其中,所述第一網頁分類器為依據(jù)網頁類別樣本的用戶搜索行為特征所構造的分類器。本發(fā)明能夠提高網頁分類的準確率和召回率。
【專利說明】網頁分類方法和裝置、網頁分類器的訓練方法和裝置
【技術領域】
[0001]本申請涉及互聯(lián)網信息處理【技術領域】,特別是涉及一種網頁分類方法和裝置、一種網頁分類器的訓練方法和裝置。
【背景技術】
[0002]隨著互聯(lián)網技術的普及和飛速發(fā)展,網絡信息成爆炸性增長,一方面滿足了用戶對信息的需求,另一方面,如何根據(jù)網頁內容把網頁自動劃分到不同的類別,以提高用戶的體驗,是目前面臨的一個問題。
[0003]衡量網頁分類方法的指標具體包括召回率和準確率等。其中,召回率,是正確分出類別的網頁數(shù)量和所有網頁中屬于該類別的網頁數(shù)量的比值,用于衡量網頁分類方法是否具有通用性;準確率,是正確分出類別的網頁數(shù)量除以所有分出類別的網頁數(shù)量的比值,用于衡量網頁分類方法是否準確。
[0004]現(xiàn)有技術常用的網頁分類方法是:提取網頁的文本內容和標簽信息等網頁內容特征,利用文本分類器對網頁內容特征進行分類。其中的文本分類器是預先訓練好的分類器,其使用分類算法對文本進行分類。
[0005]雖然網頁內容特征的描述較為全面,但可能包含大量背景資料,這導致現(xiàn)有技術出現(xiàn)如下問題:
[0006]對于短文本的網頁,現(xiàn)有技術能夠提取的有效文本特征(代表網頁唯一主題的有效特征)維度不足,且背景資料容易產生諸如廣告、推薦信息、版權聲明等與網頁內容無關的噪聲信息,更容易導致錯誤分類,從而引起準確率和召回率較低的問題。
[0007]對于長文本的網頁,現(xiàn)有技術能夠提取的網頁內容特征的維數(shù)過高,而對于常用的分類算法,特征維度越高,意味著計算量越大,因此,高維的特征容易增加文本分類器的處理時間,從而降低了網頁分類的速率;另一方面,只有代表網頁唯一主題的有效特征才能夠體現(xiàn)出網頁所屬的準確類別,而高維的特征很難集中體現(xiàn)出一個明確的主題或類別,往往體現(xiàn)出多個主題或類別,這樣容易引起文本分類器的多峰分布以及最終的錯誤分類,從而弓I起準確率和召回率較低的問題。
[0008]總之,需要本領域技術人員迫切解決的一個技術問題就是:如何能夠提高網頁分類的準確率和召回率。
【發(fā)明內容】
[0009]本申請所要解決的技術問題是提供一種網頁分類方法和裝置、一種網頁分類器的訓練方法和裝置,能夠提高網頁分類的準確率和召回率。
[0010]為了解決上述問題,本申請公開了一種網頁分類方法,包括:
[0011]提取待分類網頁的用戶搜索行為特征;
[0012]依據(jù)第一網頁分類器判別該用戶搜索行為特征所屬的網頁類別;其中,所述第一網頁分類器為依據(jù)網頁類別樣本的用戶搜索行為特征所構造的分類器。[0013]優(yōu)選的,所述提取待分類網頁的用戶搜索行為特征的步驟,進一步包括:
[0014]依據(jù)所述待分類網頁的頁面地址,在關系數(shù)據(jù)庫中檢索所述待分類網頁對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征;
[0015]所述關系數(shù)據(jù)庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到,所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面。
[0016]優(yōu)選的,所述提取待分類網頁的用戶搜索行為特征的步驟,進一步包括:
[0017]依據(jù)所述待分類網頁的頁面地址,在用戶訪問行為數(shù)據(jù)中查詢得到所述待分類網頁對應的用戶物理地址和搜索跳轉信息;
[0018]所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時其包括有搜索結果頁面的頁面地址;
[0019]依據(jù)所述待分類網頁對應的用戶物理地址和搜索跳轉信息,在所述用戶搜索行為數(shù)據(jù)中查詢得到所述待分類網頁對應的搜索關鍵詞,作為用戶搜索行為特征;
[0020]所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址。
[0021]優(yōu)選的,通過如下步驟對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到所述關系頻率:
[0022]通過查詢用戶訪問行為數(shù)據(jù),獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息;
[0023]所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,其包括有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面;
[0024]針對搜索跳轉訪問頁面,依據(jù)其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù);所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址;
[0025]建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù)作為相應的關系頻率。
[0026]優(yōu)選的,所述方法還包括:
[0027]提取待分類網頁的網頁內容特征;
[0028]對所述網頁內容特征進行降維;
[0029]融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征;
[0030]依據(jù)第二網頁分類器判別該融合特征所屬的網頁類別;其中,所述第二網頁分類器為依據(jù)網頁類別樣本的融合特征所構造的分類器。
[0031]優(yōu)選的,所述用戶搜索行為特征為搜索關鍵詞集合,所述網頁內容特征為內容詞
匯集合;
[0032]所述融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征的步驟,進一步包括:
[0033]選取全部所述搜索關鍵詞集合,以及,特定維數(shù)的部分所述內容詞匯集合,組成融合特征;所述特定維數(shù)為第一預設維數(shù)與所述搜索關鍵詞集合維數(shù)的差值;或者,
[0034]對所述搜索關鍵詞集合和內容詞匯集合的特征值進行歸一化,依據(jù)歸一化后的特征值對所述搜索關鍵詞集合和內容詞匯集合進行從高到低的合并排序,并選取排在前面的數(shù)目與第二預設維數(shù)相應的詞匯,組成融合特征。
[0035]優(yōu)選的,所述網頁內容特征為內容詞匯集合;
[0036]所述對所述網頁內容特征進行降維的步驟,進一步包括:
[0037]依據(jù)分類影響因子,去除所述內容詞匯集合中的噪聲特征;所述分類影響因子具體可以包括規(guī)范因子、位置因子、標簽因子、字體因子和詞性因子中的一項或多項。
[0038]優(yōu)選的,所述網頁內容特征為內容詞匯集合;
[0039]所述對所述網頁內容特征進行降維的步驟,進一步包括:
[0040]依據(jù)詞匯在網頁文檔中的詞頻,統(tǒng)計所述內容詞匯集合中詞匯在背景語料庫中的背景語料權重;
[0041]選取背景語料權重大于預設閾值的詞匯,組成降維后的內容詞匯集合。
[0042]優(yōu)選的,所述第一網頁分類器為通過如下步驟構造的分類器:
[0043]獲取網頁類別樣本;
[0044]提取所述網頁類別樣本的用戶搜索行為特征;
[0045]依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到第一網頁分類器。
[0046]另一方面,本申請還公開了一種網頁分類器的訓練方法,包括:
[0047]獲取網頁類別樣本;
[0048]提取所述網頁類別樣本的用戶搜索行為特征;
[0049]依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到第一網頁分類器。
[0050]優(yōu)選的,所述提取所述網頁類別樣本的用戶搜索行為特征的步驟,進一步包括:
[0051]依據(jù)所述網頁類別樣本的頁面地址,在關系數(shù)據(jù)庫中檢索所述網頁類別樣本對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征;
[0052]所述關系數(shù)據(jù)庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到,所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面。
[0053]優(yōu)選的,所述提取所述網頁類別樣本的用戶搜索行為特征的步驟,進一步包括:
[0054]依據(jù)所述網頁類別樣本的頁面地址,在用戶訪問行為數(shù)據(jù)中查詢得到所述網頁類別樣本對應的用戶物理地址和搜索跳轉信息;
[0055]所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時其包括有搜索結果頁面的頁面地址;
[0056]依據(jù)所述網頁類別樣本對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到所述網頁類別樣本對應的搜索關鍵詞,作為用戶搜索行為特征;所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址。
[0057]優(yōu)選的,通過如下步驟對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到所述關系頻率:
[0058]通過查詢用戶訪問行為數(shù)據(jù),獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息;
[0059]所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,其包括有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面;
[0060]針對搜索跳轉訪問頁面,依據(jù)其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù);所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址;
[0061]建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù)作為相應的關系頻率。
[0062]優(yōu)選的,所述方法還包括:
[0063]提取所述網頁類別樣本的網頁內容特征;
[0064]對所述網頁內容特征進行降維;
[0065]融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征;
[0066]依據(jù)所述融合特征對所述網頁類別樣本進行訓練,得到第二網頁分類器。
[0067]優(yōu)選的,所述用戶搜索行為特征為搜索關鍵詞集合,所述網頁內容特征為內容詞
匯集合;
[0068]所述融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征的步驟,進一步包括:
[0069]選取全部所述搜索關鍵詞集合,以及,特定維數(shù)的部分所述內容詞匯集合,組成融合特征;所述特定維數(shù)為第一預設維數(shù)與所述搜索關鍵詞集合維數(shù)的差值;或者,
[0070]對所述搜索關鍵詞集合和內容詞匯集合的特征值進行歸一化,依據(jù)歸一化后的特征值對所述搜索關鍵詞集合和內容詞匯集合進行從高到低的合并排序,并選取排在前面的數(shù)目與第二預設維數(shù)相應的詞匯,組成融合特征。
[0071]優(yōu)選的,所述網頁內容特征為內容詞匯集合;
[0072]所述對所述網頁內容特征進行降維的步驟,進一步包括:
[0073]依據(jù)分類影響因子,去除所述內容詞匯集合中的噪聲特征;所述分類影響因子具體可以包括規(guī)范因子、位置因子、標簽因子、字體因子和詞性因子中的一項或多項。
[0074]優(yōu)選的,所述網頁內容特征為內容詞匯集合;
[0075]所述對所述網頁內容特征進行降維的步驟,進一步包括:
[0076]依據(jù)詞匯在網頁文檔中的詞頻,統(tǒng)計所述內容詞匯集合中詞匯在背景語料庫中的背景語料權重;
[0077]選取背景語料權重大于預設閾值的詞匯,組成降維后的內容詞匯集合。[0078]另一方面,本申請還公開了一種網頁分類裝置,包括:
[0079]提取模塊,用于提取待分類網頁的用戶搜索行為特征;
[0080]判別模塊,用于依據(jù)第一網頁分類器判別該用戶搜索行為特征所屬的網頁類別;其中,所述第一網頁分類器為依據(jù)網頁類別樣本的用戶搜索行為特征所構造的分類器。
[0081]優(yōu)選的,所述提取模塊進一步包括:
[0082]檢索子模塊,用于依據(jù)所述待分類網頁的頁面地址,在所述關系數(shù)據(jù)庫中檢索所述待分類網頁對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征;所述關系數(shù)據(jù)庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到,所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面。
[0083]優(yōu)選的,所述提取模塊進一步包括:
[0084]第一查詢子模塊,用于依據(jù)所述待分類網頁的頁面地址,在用戶訪問行為數(shù)據(jù)中查詢得到所述待分類網頁對應的用戶物理地址和搜索跳轉信息;所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時其包括有搜索結果頁面的頁面地址;
[0085]第二查詢子模塊,用于依據(jù)所述待分類網頁對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到所述待分類網頁對應的搜索關鍵詞,作為用戶搜索行為特征;所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址。
[0086]在本申請的一種優(yōu)選實施例中,所述裝置還可以包括:用于對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到所述關系頻率的關系頻率分析模塊;所述關系頻率分析模塊具體可以包括:
[0087]第一查詢獲取子模塊,用于通過查詢用戶訪問行為數(shù)據(jù),獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息;所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,其包括有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面;
[0088]第二查詢獲取子模塊,用于針對搜索跳轉訪問頁面,依據(jù)其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù);所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址;
[0089]映射關系建立子模塊,用于建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù)作為相應的關系頻率。
[0090]另一方面,本申請還公開了一種網頁分類器的訓練裝置,包括:
[0091]樣本獲取模塊,用于獲取網頁類別樣本;
[0092]特征提取模塊,用于提取所述網頁類別樣本的用戶搜索行為特征;[0093]訓練模塊,用于依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到網頁分類器。
[0094]與現(xiàn)有技術相比,本申請具有以下優(yōu)點:
[0095]本申請實施例依據(jù)網頁類別樣本的用戶搜索行為特征構造網頁分類器;由于所述用戶搜索行為特征中的搜索行為特征能夠充分體現(xiàn)網頁主題的網頁特征,使得該網頁分類器具有更為準確的網頁主題描述能力和誤差消除能力;并且,由于網頁分類也是基于用戶搜索行為特征來進行的,從而可以有效提高網頁的準確率和召回率。
[0096]另外,受網頁主題的限制,網頁對應的搜索關鍵詞的特征維數(shù)顯著小于網頁內容的特征維數(shù),故本申請相對于現(xiàn)有技術,在分類算法實現(xiàn)的過程中,會明顯的降低計算量,也即能夠提高網頁分類器的訓練速度,以及,能夠提高網頁分類的速度。
【專利附圖】
【附圖說明】
[0097]圖1是本申請一種網頁分類器的訓練方法實施例1的流程圖;
[0098]圖2是本申請一種映射關系矩陣的示意圖;
[0099]圖3是本申請一種網頁分類器的訓練方法實施例2的流程圖;
[0100]圖4是本申請一種網頁分類方法實施例1的流程圖;
[0101]圖5是本申請一種網頁分類方法實施例2的流程圖;
[0102]圖6是本申請一種網頁分類器的訓練裝置實施例的結構圖;
[0103]圖7是本申請一種網頁分類裝置實施例的結構圖。
【具體實施方式】
[0104]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0105]現(xiàn)有技術中,利用文本分類器對該網頁內容特征進行分類。雖然網頁內容特征的描述較為全面,但可能包含大量背景資料,這導致短文本的特征維數(shù)不足,長文本的特征維數(shù)過高;更重要的是,由于只有代表網頁唯一主題的有效特征才能夠體現(xiàn)出網頁所屬的準確類別,而無論網頁內容特征的維數(shù)高低與否,均不能集中體現(xiàn)出對應網頁的唯一主題,故現(xiàn)有技術存在準確率和召回率較低的問題。
[0106]并且,目前各應用中待分類網頁的數(shù)量巨大,網頁媒體的表示和存儲格式復雜,網頁主題的文本信息量(如短文本和長文本)也各不相同,這就給現(xiàn)有技術中文本分類器的訓練和分類工作帶來極大挑戰(zhàn);尤其對于長文本的網頁,現(xiàn)有技術能夠提取的網頁內容特征的維數(shù)過高,這就增加了文本分類器的計算量和處理時間,從而降低了文本分類的速率。
[0107]如果采用能夠充分體現(xiàn)網頁主題的網頁特征,則既能夠給短文本的網頁提供足夠的特征維度,又能夠避免長文本的網頁出現(xiàn)的多峰分布問題,從而能夠提高網頁分類的準確率和召回率。
[0108]本申請發(fā)明人注意到了這一點,因此創(chuàng)造性地將能夠充分體現(xiàn)網頁主題的用戶搜索行為特征應用到網頁分類中。
[0109]在此通過對用戶搜索行為和用戶訪問行為進行分析,來論述為什么用戶搜索行為特征能夠充分體現(xiàn)網頁主題:[0110]用戶之所以會產生搜索行為,往往是在解決任務時遇到自己不熟悉的概念或者問題,由此才產生了對特定信息的需求,那么之后用戶會在頭腦中逐步形成秒速需求的搜索關鍵詞,將搜索關鍵詞提交給搜索引擎,然后對搜索引擎返回的搜索結果頁面進行瀏覽;[0111]由于存在對特定信息的需求,而搜索結果頁面中會包括大量網頁的超鏈接,故用戶在搜索行為后也會產生與搜索行為相關的訪問行為,例如,如果用戶點擊了搜索結果頁面中的一個網頁的超鏈接,則可以認為用戶產生了訪問行為;
[0112]綜上,搜索關鍵詞能夠將用戶引導至網頁,故可以認為用戶搜索關鍵詞為用戶在搜索過程中對所訪問網頁的主題內容的人工鑒別的反饋信息,其往往和網頁主題具有非常強的相關性。
[0113]本申請的用戶搜索行為特征通常包括有用戶搜索關鍵詞,雖然相對于現(xiàn)有技術中網頁內容特征,用戶搜索關鍵詞對網頁內容的描述能力不夠全面,表達網頁整體的思想和情感不夠清晰;但由于用戶搜索關鍵詞為用戶在搜索過程中對所訪問網頁的主題內容的人工鑒別的反饋信息,其往往和網頁主題具有非常強的相關性;因此,相對于現(xiàn)有技術,本申請采用的用戶搜索行為特征能夠充分體現(xiàn)網頁主題的網頁特征,能夠更好地體現(xiàn)網頁主題的分類。
[0114]另外,受網頁主題的限制,網頁對應的搜索關鍵詞的特征維數(shù)顯著小于網頁內容的特征維數(shù),故本申請相對于現(xiàn)有技術,在分類算法實現(xiàn)的過程中,會明顯的降低計算量,也即能夠提高網頁分類器的訓練速度。
[0115]綜上,本申請實施例依據(jù)網頁類別樣本的用戶搜索行為特征構造網頁分類器;由于所述用戶搜索行為特征中的搜索關鍵詞能夠充分體現(xiàn)網頁主題的網頁特征,使得該網頁分類器具有更為準確的網頁主題描述能力和誤差消除能力;并且,由于網頁分類也是基于用戶搜索行為特征來進行的,從而可以有效提高網頁的準確率和召回率。
[0116]參照圖1,示出了本申請一種網頁分類器的訓練方法實施例1的流程圖,具體可以包括:
[0117]步驟101、獲取網頁類別樣本;
[0118]在實際應用中,可以根據(jù)網頁分類的實際需求,人工確定網頁類別C= {cl,c2,...cn},其中,C網頁類別集合,Cl,c2,…cn代表網頁類別集合的元素。這些網頁類別可以是寬泛的網頁類別,如軍事、經濟、政治、新聞、科教、購物、財經、旅游、星座、學校網頁類別等等,這些網頁類別還可以是專業(yè)的網頁類別,如奧運領域中的籃球、足球、排球、羽毛球、跳水、拳擊等網頁類別等等,本申請對具體的網頁類別不加以限制。
[0119]在本申請的一種實施例中,可以通過聚類的方法處理網頁以自動獲得網頁類別,本申請的聚類可以是將網頁對象的集合分成由類似的對象組成的多個網頁類別的過程。聚類方法有多種,如劃分方法、層次方法、基于密度的方法、基于網格的方法、基于模型的方法等,每種具體實現(xiàn)要參見具體的聚類算法。
[0120]在此提供一種劃分方法的示例,具體可以包括:
[0121]步驟Al、特征選擇:提取網頁特征,這里的特征可以是各種網頁內容特征;
[0122]步驟A2、近鄰測度:用于測量兩個網頁內容特征之間的相似程度;
[0123]步驟A3、聚類準則:依賴于具體特征的判斷方法,如可以選取文本特征的余弦相似度作為聚類準則。[0124]步驟A4、聚類算法:即具體的聚類算法,如birch (Balanced Iterative Reducingand Clustering using Hierarchies) ), K-MEANS (k_ 平均)等。
[0125]步驟A5、結果驗證:驗證聚類結果的正確性。
[0126]在確定網頁類別后,可以網頁數(shù)據(jù)的實際涵蓋范圍和分類的應用目標來收集各網頁類別對應的樣本,一般要求各網頁類別之間數(shù)據(jù)規(guī)模分布均衡,并且各網頁類別之間具有較好的可區(qū)分性。由于各網頁類別對應的樣本的收集,為本領域內的公知技術,故在此不作贅述。
[0127]步驟102、提取所述網頁類別樣本的用戶搜索行為特征;
[0128]由于搜索關鍵詞能夠將用戶引導至網頁,故在面對用戶所訪問的一個網頁或網頁類別樣本時,其用戶搜索行為特征中就包括能將用戶引導至該網頁或網頁類別樣本的搜索關鍵詞,以下針對如何提取一個網頁或網頁類別樣本的戶搜索行為特征進行說明。
[0129]本【技術領域】中,用于表征用戶網絡行為的主要數(shù)據(jù)(以下簡稱用戶網絡行為數(shù)據(jù))來自網站的網絡服務器中的日志文件集。這些日志文件包含了訪問該網絡站點的關于每個訪問者超文本傳輸協(xié)議(簡稱HTTP)事務的執(zhí)行記錄,可以通過利用類似于網絡數(shù)據(jù)包嗅探技術的這種技術從日志文件集中獲取用于表征用戶網絡行為的歷史數(shù)據(jù)。
[0130]具體而言,日志文件集中的用戶行為數(shù)據(jù)主要包含用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)。其中,所述用戶搜索行為數(shù)據(jù)記錄有用戶的搜索關鍵詞和相應的搜索結果頁面,所述用戶訪問行為數(shù)據(jù)記錄有用戶的訪問頁面。具體的,有些網站的用戶訪問行為數(shù)據(jù)還會記錄有用戶物理地址和搜索跳轉信息,有些網站的用戶搜索行為數(shù)據(jù)還會記錄有用戶物理地址和搜索結果頁面中網頁的超鏈接信息;這里,用戶物理地址主要可以包括用戶IP((網絡之間互連的協(xié)議,Internet Protocol)地址,搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,還會記錄有搜索結果頁面的信息(如頁面地址等)。
[0131]這樣,本申請可以通過對用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析,提取一個網頁或網頁類別樣本的用戶搜索行為特征。具體而言,本申請可以提供如下提取所述網頁類別樣本的用戶搜索行為特征的方案:
[0132]提取方案P1、
[0133]提取方案Pl具體可以包括:
[0134]步驟B1、依據(jù)所述網頁類別樣本的頁面地址,在用戶訪問行為數(shù)據(jù)中查詢得到所述網頁類別樣本對應的用戶物理地址和搜索跳轉信息;所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,還會記錄有搜索結果頁面的頁面地址;
[0135]步驟B2、依據(jù)所述網頁類別樣本對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到所述網頁類別樣本對應的搜索關鍵詞,作為用戶搜索行為特征;所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中具體可以包括依據(jù)搜索關鍵詞得到的多個頁面地址。
[0136]依據(jù)上面的介紹,用戶訪問行為數(shù)據(jù)的數(shù)據(jù)字段具體可以包括:用戶訪問頁面地址、用戶物理地址和搜索跳轉信息,那么,步驟BI可以依據(jù)所述網頁類別樣本的頁面地址,在用戶訪問行為數(shù)據(jù)中查詢得到對應的用戶物理地址和搜索跳轉信息。
[0137]用戶搜索行為數(shù)據(jù)的數(shù)據(jù)字段具體可以包括:搜索關鍵詞、用戶物理地址和搜索結果,其中,所述搜索結果中具體可以包括依據(jù)搜索關鍵詞得到的多個頁面地址。這樣,依據(jù)所述網頁類別樣本對應的用戶物理地址和搜索跳轉信息,在所述用戶搜索行為數(shù)據(jù)中查詢時,可以將所述網頁類別樣本對應的用戶物理地址與用戶搜索行為數(shù)據(jù)的用戶物理地址進行匹配,將所述網頁類別樣本對應的搜索跳轉信息與用戶搜索行為數(shù)據(jù)的搜索結果進行匹配,得到所述網頁類別樣本對應的搜索關鍵詞。
[0138]在此舉一個具體的例子,假設用戶A在百度中輸入“defy手機”進行搜索,并得到想要的搜索結果頁面(頁面地址為B),則用戶搜索行為數(shù)據(jù)的數(shù)據(jù)字段具體可以包括:“defy手機”、用戶A的IP地址和搜索結果中的多個頁面地址;假設用戶A點擊了搜索結果頁面中展現(xiàn)的某個頁面地址C,并訪問了相應的網頁,則用戶訪問行為數(shù)據(jù)的數(shù)據(jù)字段具體可以包括:訪問頁面地址C、用戶A的IP地址和搜索來源頁面地址B ;綜上,本申請步驟BI和步驟B2可以針對訪問頁面地址C,提取得到相應的用戶搜索行為特征“defy手機”。
[0139]本申請實施例中,采用用戶物理地址主要是為了確保對同一用戶的網絡行為數(shù)據(jù)進行分析。
[0140]用戶搜索行為特征具體可以包括搜索關鍵詞和相應的特征值。需要說明的是,對于一個網頁類別樣本而言,其可能由不同用戶的同一搜索關鍵詞引導得到,此時,該同一搜索關鍵詞的特征值應與用戶數(shù)量相應;另外,一個網頁類別樣本也可能由不同的搜索關鍵詞引導得到,則此種情況下,其用戶搜索行為特征具體可以包括多個搜索關鍵詞和相應的特征值。
[0141]提取方案P2、
[0142]由于一個網頁類別樣本可能由多個搜索關鍵詞引導得到,且一個搜索關鍵詞得到的搜索結果中可能包含有多個網頁類別樣本;這樣,網頁類別樣本和搜索關鍵詞存在多對多的映射關系。
[0143]并且,依據(jù)搜索行為和訪問行為的頻繁性,用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)通常為海量數(shù)據(jù),因此,提取方案P2預先對海量的用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析,得到搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,并保存至關系數(shù)據(jù)庫。
[0144]這樣,提取方案2具體可以包括:依據(jù)所述網頁類別樣本的頁面地址,在所述關系數(shù)據(jù)庫中檢索所述網頁類別樣本對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征;所述關系數(shù)據(jù)庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到。
[0145]在本申請的一種優(yōu)選實施例中,可以通過如下步驟對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到所述關系頻率:
[0146]步驟D1、通過查詢用戶訪問行為數(shù)據(jù),獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息;所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,還會記錄有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面;
[0147]步驟D2、針對搜索跳轉訪問頁面,依據(jù)其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù);所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中具體可以包括依據(jù)搜索關鍵詞得到的多個頁面地址;
[0148]步驟D3、建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù)作為相應的關系頻率。
[0149]假設搜索跳轉訪問頁面記為Pi{i=0,1,……M}。那么,搜索關鍵詞記為Tj{j =
O,1,……N},那么,在本申請的一種應用示例中,可以采用映射關系矩陣存儲搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,矩陣元素Rij則表示相應的關系頻率。參照圖2,示出了本申請一種映射關系矩陣的示意圖。
[0150]在依據(jù)圖2所示映射關系矩陣中檢索所述網頁類別樣本對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征的過程中,可以依據(jù)所述網頁類別樣本的頁面地址檢索映射關系矩陣的搜索跳轉訪問頁面,假設檢索得到搜索跳轉訪問頁面Pi,那么Pi對應用戶搜索行為特征可以表示為Fi=ITil, Ti2,…,TiJ,F(xiàn)i的關系頻率可以表示為Ri= {Rn,Ri2,…,RilJ,其中,N為Pi對應搜索關鍵詞的總數(shù)。
[0151]例如,用戶A通過搜索關鍵詞T1= “手機”和T2= “電腦”搜索,并在搜索結果頁面返回后,點擊搜索頁面內的鏈接訪問了網站P1=Ittp:1l nb.zol.com.cn/”,用戶B通過搜索關鍵詞T3= “筆記本”和T2= “電腦”搜索,同樣通過點擊返回結果頁面內的鏈接訪問了網站P1= “http: // nb.zol.com.cn/”。那么,F(xiàn)l可以表示為F1=IT1, T2, T3I,其對應的關系頻率可以表示為Ri=U, 2,1} ο
[0152]步驟103、依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到網頁分類器。
[0153]在具體實現(xiàn)中,可以采用各種統(tǒng)計方法依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到網頁分類器。例如,典型的統(tǒng)計方法具體可以包括SVM(支持向量機,support vector machine)方法,貝葉斯方法、神經網絡方法、K近鄰方法、決策樹方法等等。
[0154]在此提供一種SVM的訓練方法示例,假設SVM的分類線性方程為x.w+b = O,對分類線性方程進行歸一化,使得對線性可分的樣本集(Xi,yi),i = l,...,n,X e Rd,y e {+I, -1},滿足 Yi [(w.Xi)+b]-1 ^ O, i = I,…,η,且使4||w||2最小時,分類間隔 2/| w取最小值。
[0155]其中,Xi表示網頁類別樣本,yi表示Xi所屬的網頁類別,w表示用戶搜索行為特征,分類間隔2/I Iwl I取最小值表示最優(yōu)分類面,X是待分類網頁的用戶搜索行為特征,η為網頁類別的數(shù)量,Rd表示d維的實數(shù)向量集合。
[0156]可以利用拉格朗日(Lagrange)優(yōu)化方法可以把上述最優(yōu)分類面問題轉化為其對偶問題,而在最優(yōu)分類面中采用適當?shù)膬确e函數(shù)K(xi,xj)就可以實現(xiàn)某一非線性變換后的線性分類,相應的分類函數(shù)為
【權利要求】
1.一種網頁分類方法,其特征在于,包括: 提取待分類網頁的用戶搜索行為特征; 依據(jù)第一網頁分類器判別該用戶搜索行為特征所屬的網頁類別;其中,所述第一網頁分類器為依據(jù)網頁類別樣本的用戶搜索行為特征所構造的分類器。
2.如權利要求1所述的方法,其特征在于,所述提取待分類網頁的用戶搜索行為特征的步驟,進一步包括: 依據(jù)所述待分類網頁的頁面地址,在關系數(shù)據(jù)庫中檢索所述待分類網頁對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征; 所述關系數(shù)據(jù)庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到,所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面。
3.如權利要求1所述的方法,其特征在于,所述提取待分類網頁的用戶搜索行為特征的步驟,進一步包括: 依據(jù)所述待分類網頁的頁面地址, 在用戶訪問行為數(shù)據(jù)中查詢得到所述待分類網頁對應的用戶物理地址和搜索跳轉信息; 所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時其包括有搜索結果頁面的頁面地址; 依據(jù)所述待分類網頁對應的用戶物理地址和搜索跳轉信息,在所述用戶搜索行為數(shù)據(jù)中查詢得到所述待分類網頁對應的搜索關鍵詞,作為用戶搜索行為特征; 所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址。
4.如權利要求2所述的方法,其特征在于,通過如下步驟對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到所述關系頻率: 通過查詢用戶訪問行為數(shù)據(jù),獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息; 所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,其包括有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面; 針對搜索跳轉訪問頁面,依據(jù)其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù);所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址; 建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù)作為相應的關系頻率。
5.如權利要求1所述的方法,其特征在于,還包括: 提取待分類網頁的網頁內容特征; 對所述網頁內容特征進行降維;融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征; 依據(jù)第二網頁分類器判別該融合特征所屬的網頁類別;其中,所述第二網頁分類器為依據(jù)網頁類別樣本的融合特征所構造的分類器。
6.如權利要求5所述的方法,其特征在于,所述用戶搜索行為特征為搜索關鍵詞集合,所述網頁內容特征為內容詞匯集合; 所述融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征的步驟,進一步包括: 選取全部所述搜索關鍵詞集合,以及,特定維數(shù)的部分所述內容詞匯集合,組成融合特征;所述特定維數(shù)為第一預設維數(shù)與所述搜索關鍵詞集合維數(shù)的差值;或者, 對所述搜索關鍵詞集合和內容詞匯集合的特征值進行歸一化,依據(jù)歸一化后的特征值對所述搜索關鍵詞集合和內容詞匯集合進行從高到低的合并排序,并選取排在前面的數(shù)目與第二預設維數(shù)相應的詞匯,組成融合特征。
7.如權利要求5或6所述的方法,其特征在于,所述網頁內容特征為內容詞匯集合; 所述對所述網頁內容特征進行降維的步驟,進一步包括: 依據(jù)分類影響因子,去除所述內容詞匯集合中的噪聲特征;所述分類影響因子具體可以包括規(guī)范因子、位置因子、標簽因子、字體因子和詞性因子中的一項或多項。
8.如權利要求5或6所述的方法,其特征在于,所述網頁內容特征為內容詞匯集合; 所述對所述網頁內容特征進行降維的步驟,進一步包括:` 依據(jù)詞匯在網頁文檔中的詞頻,統(tǒng)計所述內容詞匯集合中詞匯在背景語料庫中的背景語料權重; 選取背景語料權重大于預設閾值的詞匯,組成降維后的內容詞匯集合。
9.如權利要求1所述的方法,其特征在于,所述第一網頁分類器為通過如下步驟構造的分類器: 獲取網頁類別樣本; 提取所述網頁類別樣本的用戶搜索行為特征; 依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到第一網頁分類器。
10.一種網頁分類器的訓練方法,其特征在于,包括: 獲取網頁類別樣本; 提取所述網頁類別樣本的用戶搜索行為特征; 依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到第一網頁分類器。
11.如權利要求10所述的方法,其特征在于,所述提取所述網頁類別樣本的用戶搜索行為特征的步驟,進一步包括: 依據(jù)所述網頁類別樣本的頁面地址,在關系數(shù)據(jù)庫中檢索所述網頁類別樣本對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征; 所述關系數(shù)據(jù)庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到,所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面。
12.如權利要求10所述的方法,其特征在于,所述提取所述網頁類別樣本的用戶搜索行為特征的步驟,進一步包括:依據(jù)所述網頁類別樣本的頁面地址,在用戶訪問行為數(shù)據(jù)中查詢得到所述網頁類別樣本對應的用戶物理地址和搜索跳轉信息;
所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時其包括有搜索結果頁面的頁面地址; 依據(jù)所述網頁類別樣本對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到所述網頁類別樣本對應的搜索關鍵詞,作為用戶搜索行為特征;所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址。
13.如權利要求11所述的方法,其特征在于,通過如下步驟對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到所述關系頻率: 通過查詢用戶訪問行為數(shù)據(jù),獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息; 所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,其包括有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面; 針對搜索跳轉訪問頁面,依據(jù)其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù);所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址; 建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù)作為相應的關系頻率。
14.如權利要求10所述的方法,其特征在于,還包括: 提取所述網頁類別樣本的網頁內容特征; 對所述網頁內容特征進行降維; 融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征; 依據(jù)所述融合特征對所述網頁類別樣本進行訓練,得到第二網頁分類器。
15.如權利要求14所述的方法,其特征在于,所述用戶搜索行為特征為搜索關鍵詞集合,所述網頁內容特征為內容詞匯集合; 所述融合所述用戶搜索行為特征和所述降維后的網頁內容特征,得到融合特征的步驟,進一步包括: 選取全部所述搜索關鍵詞集合,以及,特定維數(shù)的部分所述內容詞匯集合,組成融合特征;所述特定維數(shù)為第一預設維數(shù)與所述搜索關鍵詞集合維數(shù)的差值;或者, 對所述搜索關鍵詞集合和內容詞匯集合的特征值進行歸一化,依據(jù)歸一化后的特征值對所述搜索關鍵詞集合和內容詞匯集合進行從高到低的合并排序,并選取排在前面的數(shù)目與第二預設維數(shù)相應的詞匯,組成融合特征。
16.如權利要求14所述的方法,其特征在于,所述網頁內容特征為內容詞匯集合; 所述對所述網頁內容特征進行降維的步驟,進一步包括:依據(jù)分類影響因子,去除所述內容詞匯集合中的噪聲特征;所述分類影響因子具體可以包括規(guī)范因子、位置因子、標簽因子、字體因子和詞性因子中的一項或多項。
17.如權利要求14所述的方法,其特征在于,所述網頁內容特征為內容詞匯集合; 所述對所述網頁內容特征進行降維的步驟,進一步包括: 依據(jù)詞匯在網頁文檔中的詞頻,統(tǒng)計所述內容詞匯集合中詞匯在背景語料庫中的背景語料權重; 選取背景語料權重大于預設閾值的詞匯,組成降維后的內容詞匯集合。
18.—種網頁分類裝置,其特征在于,包括: 提取模塊,用于提取待分類網頁的用戶搜索行為特征; 判別模塊,用于依據(jù)第一網頁分類器判別該用戶搜索行為特征所屬的網頁類別;其中,所述第一網頁分類器為依據(jù)網頁類別樣本的用戶搜索行為特征所構造的分類器。
19.如權利要求18所述的裝置,其特征在于,所述提取模塊進一步包括: 檢索子模塊,用于依據(jù)所述待分類網頁的頁面地址,在所述關系數(shù)據(jù)庫中檢索所述待分類網頁對應的搜索關鍵詞及相應的關系頻率,得到相應的用戶搜索行為特征;所述關系數(shù)據(jù)庫中記錄有搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系及相應的關系頻率,所述關系頻率為對用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到,所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面。
20.如權利要求18所述 的裝置,其特征在于,所述提取模塊進一步包括: 第一查詢子模塊,用于依據(jù)所述待分類網頁的頁面地址,在用戶訪問行為數(shù)據(jù)中查詢得到所述待分類網頁對應的用戶物理地址和搜索跳轉信息;所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時其包括有搜索結果頁面的頁面地址; 第二查詢子模塊,用于依據(jù)所述待分類網頁對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到所述待分類網頁對應的搜索關鍵詞,作為用戶搜索行為特征;所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址。 在本申請的一種優(yōu)選實施例中,所述裝置還可以包括:用于對所述用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)進行分析得到所述關系頻率的關系頻率分析模塊;所述關系頻率分析模塊具體可以包括: 第一查詢獲取子模塊,用于通過查詢用戶訪問行為數(shù)據(jù),獲取搜索跳轉訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息;所述用戶訪問行為數(shù)據(jù)記錄有訪問頁面的頁面地址及對應的用戶物理地址和搜索跳轉信息,所述搜索跳轉信息用于表示當前訪問頁面是否來源于搜索結果頁面,并且,在來源于搜索結果頁面時,其包括有搜索結果頁面的頁面地址;所述搜索跳轉訪問頁面為來源于搜索結果頁面的訪問頁面; 第二查詢獲取子模塊,用于針對搜索跳轉訪問頁面,依據(jù)其對應的用戶物理地址和搜索跳轉信息,在用戶搜索行為數(shù)據(jù)中查詢得到其對應的搜索關鍵詞,并記錄查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù);所述用戶搜索行為數(shù)據(jù)記錄有搜索關鍵詞及對應的用戶物理地址和搜索結果,其中,所述搜索結果中包括依據(jù)搜索關鍵詞得到的多個頁面地址; 映射關系建立子模塊,用于建立查詢命中的搜索關鍵詞和搜索跳轉訪問頁面之間的映射關系,并將查詢命中的搜索跳轉訪問頁面和搜索關鍵詞的次數(shù)作為相應的關系頻率。
21.—種網頁分類器的訓練裝置,其特征在于,包括: 樣本獲取模塊,用于獲取網頁類別樣本; 特征提取模塊,用于提取所述網頁類別樣本的用戶搜索行為特征; 訓練模塊,用于依據(jù)所述用戶搜索行為特征對所述網頁類別樣本進行訓練,得到網頁分類器。
【文檔編號】G06F17/30GK103678422SQ201210362603
【公開日】2014年3月26日 申請日期:2012年9月25日 優(yōu)先權日:2012年9月25日
【發(fā)明者】張中峰, 劉書良, 趙琴琴, 張一凡, 羅峰, 黃蘇支, 李娜 申請人:北京億贊普網絡技術有限公司