欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法及裝置制造方法

文檔序號:6636708閱讀:215來源:國知局
網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法及裝置。該網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法包括:確定用于執(zhí)行網(wǎng)頁搜索的第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞;獲取統(tǒng)一資源定位符集合;獲取第一向量,第一向量的多個元素分別為第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;獲取第二向量,其中,第二向量的多個元素分別為第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;根據(jù)第一向量和第二向量對第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測。通過本發(fā)明,利用第一向量和第二向量對第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測,達到了提高檢測網(wǎng)頁搜索關(guān)鍵詞之間的相關(guān)性的準(zhǔn)確性的效果。
【專利說明】網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方 法和裝置。

【背景技術(shù)】
[0002] 用戶通常會抱有一定的目的和意圖瀏覽網(wǎng)站。對于一個網(wǎng)站而言,了解用戶訪問 的真實意圖非常重要。通常,網(wǎng)站會根據(jù)用戶瀏覽網(wǎng)站的行為軌跡構(gòu)造模型,以訓(xùn)練分類器 的方法對訪問網(wǎng)站的用戶進行分類,或是通過分析網(wǎng)站站內(nèi)搜索詞的熱度來了解用戶的需 求。
[0003] 由于進行站內(nèi)搜索是用戶主動尋找信息的行為,因此,在一定程度上可以描述用 戶的需求。用戶需求可以通過對用戶在網(wǎng)站中的站內(nèi)搜索詞進行聚類的方式來加以識別。 傳統(tǒng)的站內(nèi)搜索詞聚類方法依賴于搜索詞本身,通過詞語間字面上的重疊進行計算,實現(xiàn) 方法如下:首先,對搜索關(guān)鍵詞進行字面上的拆解(包括逐子或分詞),拆解以后的搜索關(guān) 鍵詞可以表示為以詞(字)為單元的序列串;然后,逐一計算每一對搜索關(guān)鍵詞的相似度, 即比較兩個搜索詞的詞串的吻合程度,并獲取二者的相似度;最后,使用聚類算法進行關(guān)鍵 詞聚類。
[0004] 用戶需求與站內(nèi)搜索詞之間應(yīng)存在多對多的關(guān)系,即一種用戶需求可以通過多個 站內(nèi)搜索詞來表示,一個站內(nèi)搜索詞也可以表示多種不同的用戶需求。現(xiàn)有的搜索詞聚類 方法僅僅通過搜索關(guān)鍵詞字面上的吻合程度建立聯(lián)系并不符合實際情況;同時,生硬地構(gòu) 造了一種搜索關(guān)鍵詞間的相關(guān)關(guān)系,聚類結(jié)果可信度差,比如,"三星"和"蘋果"不包含任何 字面上的匹配,但是相關(guān)性應(yīng)該很高,而"本田"和"本源"是完全無關(guān)的兩個詞,但是字面 上仍然存在著相關(guān)關(guān)系;另外,現(xiàn)有方法需要計算每兩個搜索關(guān)鍵詞之間的相似度,因此時 間復(fù)雜度為O (n2),不適用于大規(guī)模數(shù)據(jù)挖掘。
[0005] 針對相關(guān)技術(shù)中網(wǎng)頁搜索關(guān)鍵詞之間的相關(guān)性檢測不準(zhǔn)確的問題,目前尚未提出 有效的解決方案。


【發(fā)明內(nèi)容】

[0006] 針對現(xiàn)有的網(wǎng)頁搜索關(guān)鍵詞之間的相關(guān)性檢測不準(zhǔn)確的問題而提出本發(fā)明,為 此,本發(fā)明的主要目的在于提供一種網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法及裝置,以解決上 述問題。
[0007] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁搜索關(guān)鍵詞的相關(guān) 性檢測方法。該方法包括:確定用于執(zhí)行網(wǎng)頁搜索的第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索 關(guān)鍵詞,其中,第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞為不同的網(wǎng)頁搜索關(guān)鍵詞;獲取 統(tǒng)一資源定位符集合,其中,統(tǒng)一資源定位符集合包括多個統(tǒng)一資源定位符,多個統(tǒng)一資源 定位符兩兩不同,多個統(tǒng)一資源定位符包括第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定 位符和第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符;獲取第一向量,其中,第一向量 包括多個元素,第一向量的多個元素分別為第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的 對應(yīng)關(guān)系;獲取第二向量,其中,第二向量包括多個元素,第二向量的多個元素分別為第二 網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;根據(jù)第一向量和第二向量對第一網(wǎng)頁 搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測。
[0008] 進一步地,獲取統(tǒng)一資源定位符集合包括:獲取第一統(tǒng)一資源定位符子集合,其 中,第一統(tǒng)一資源定位符子集合為第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符的集 合,根據(jù)以下方法分別確定第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系:分別 判斷多個統(tǒng)一資源定位符是否是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符;如 果多個統(tǒng)一資源定位符是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分別確 定第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ;如果多個統(tǒng) 一資源定位符不是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分別確定第一 網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為〇,獲取統(tǒng)一資源定位 符集合還包括:獲取第二統(tǒng)一資源定位符子集合,其中,第二統(tǒng)一資源定位符子集合為第二 網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符的集合,根據(jù)以下方法分別確定第二網(wǎng)頁搜 索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系:分別判斷多個統(tǒng)一資源定位符是否是第二統(tǒng) 一資源定位符子集合中包含的統(tǒng)一資源定位符;如果多個統(tǒng)一資源定位符是第二統(tǒng)一資源 定位符子集合中包含的統(tǒng)一資源定位符,則分別確定第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源 定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ;如果多個統(tǒng)一資源定位符不是第二統(tǒng)一資源定位符 子集合中包含的統(tǒng)一資源定位符,則分別確定第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符 的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0。
[0009] 進一步地,根據(jù)第一向量和第二向量對第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵 詞進行相關(guān)性檢測包括:根據(jù)第一向量和第二向量獲取第三向量,其中,通過以下方法確定 第三向量中包含的多個元素:如果在對應(yīng)相同的統(tǒng)一資源定位符時,第一向量和第二向量 中對應(yīng)相同的統(tǒng)一資源定位符的元素均為1,則確定第三向量中對應(yīng)的元素為〇,如果在對 應(yīng)相同的統(tǒng)一資源定位符時,第一向量和第二向量中對應(yīng)相同的統(tǒng)一資源定位符的元素一 個為1、另一個為〇,則確定第三向量中對應(yīng)的元素為1 ;獲取目標(biāo)距離,其中,目標(biāo)距離為第 三向量中包含的多個元素的平均值,用于表示第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞 之間的差異;通過以下式子獲取第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性對應(yīng) 的數(shù)值:s = 1/A,其中,S為第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性對應(yīng)的數(shù) 值,A為目標(biāo)距離。
[0010] 進一步地,多個網(wǎng)頁搜索關(guān)鍵詞包括第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵 詞,確定第三向量中包含的多個元素還包括:如果在對應(yīng)相同的統(tǒng)一資源定位符時,第一向 量和第二向量中對應(yīng)相同的統(tǒng)一資源定位符的元素均為〇,則確定第三向量中對應(yīng)的元素 為〇。
[0011] 進一步地,多個網(wǎng)頁搜索關(guān)鍵詞包括第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵 詞,多個目標(biāo)向量包括第一向量和第二向量,統(tǒng)一資源定位符集合包括多個網(wǎng)頁搜索關(guān)鍵 詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符,根據(jù)第一向量和第二向量對第一網(wǎng)頁搜索關(guān)鍵詞和第二 網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測之后,該方法還包括:確定多個網(wǎng)頁搜索關(guān)鍵詞分別屬于 不同的關(guān)鍵詞類,其中,不同的關(guān)鍵詞類中每個關(guān)鍵詞類只包含一個網(wǎng)頁搜索關(guān)鍵詞;根據(jù) 多個目標(biāo)向量獲取多個目標(biāo)距離,其中,多個目標(biāo)距離用于表示多個網(wǎng)頁搜索關(guān)鍵詞類中 任意兩個網(wǎng)頁搜索關(guān)鍵詞類之間的差異;獲取多個目標(biāo)距離中的最小值;合并最小值對應(yīng) 的兩個網(wǎng)頁搜索關(guān)鍵詞類成第一目標(biāo)關(guān)鍵詞類;統(tǒng)計多個網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的關(guān)鍵詞 類的個數(shù);判斷關(guān)鍵詞類的個數(shù)是否大于預(yù)設(shè)數(shù)量值;如果關(guān)鍵詞類的個數(shù)大于預(yù)設(shè)數(shù)量 值,則確定第一目標(biāo)關(guān)鍵詞類對應(yīng)的向量;利用第一目標(biāo)關(guān)鍵詞類對應(yīng)的向量,分別獲取第 一目標(biāo)關(guān)鍵詞類和除兩個網(wǎng)頁搜索關(guān)鍵詞類之外的多個網(wǎng)頁搜索關(guān)鍵詞類對應(yīng)的目標(biāo)距 離;獲取第一目標(biāo)關(guān)鍵詞類和除兩個網(wǎng)頁搜索關(guān)鍵詞類之外的多個網(wǎng)頁搜索關(guān)鍵詞類對應(yīng) 的目標(biāo)距離中的最小值;將最小值對應(yīng)的兩個網(wǎng)頁搜索關(guān)鍵詞類合并成第二目標(biāo)關(guān)鍵詞 類;如果關(guān)鍵詞類的個數(shù)小于或者等于預(yù)設(shè)數(shù)量值,則不再進行關(guān)鍵詞類的合并。
[0012] 進一步地,在獲取統(tǒng)一資源定位符集合之后,該方法還包括:分別統(tǒng)計多個統(tǒng)一資 源定位符的出現(xiàn)次數(shù);分別判斷多個統(tǒng)一資源定位符的出現(xiàn)次數(shù)是否小于預(yù)設(shè)出現(xiàn)次數(shù)閾 值;獲取多個統(tǒng)一資源定位符中出現(xiàn)次數(shù)小于預(yù)設(shè)出現(xiàn)次數(shù)閾值的統(tǒng)一資源定位符;將小 于預(yù)設(shè)出現(xiàn)次數(shù)閾值的統(tǒng)一資源定位符從統(tǒng)一資源定位符集合中清除。
[0013] 進一步地,經(jīng)過合并處理后的關(guān)鍵詞類包括多個關(guān)鍵詞類,多個關(guān)鍵詞類包括第 一關(guān)鍵詞類和第二關(guān)鍵詞類,分別將小于預(yù)設(shè)相關(guān)性閾值的目標(biāo)相關(guān)性數(shù)值對應(yīng)的目標(biāo)關(guān) 鍵詞簇和網(wǎng)頁搜索關(guān)鍵詞確定為一個關(guān)鍵詞類之后,該方法還包括:分別對第一關(guān)鍵詞類 和第二關(guān)鍵詞類進行標(biāo)識;統(tǒng)計第一數(shù)量,其中,第一數(shù)量為第一關(guān)鍵詞類包含的網(wǎng)頁搜索 關(guān)鍵詞的個數(shù);統(tǒng)計第二數(shù)量,其中,第二數(shù)量為第二關(guān)鍵詞類包含的網(wǎng)頁搜索關(guān)鍵詞的個 數(shù);比較第一數(shù)量和第二數(shù)量,得到比較結(jié)果;按照比較結(jié)果對第一關(guān)鍵詞類和第二關(guān)鍵 詞類進行排序。
[0014] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁搜索關(guān)鍵詞的相關(guān) 性檢測裝置,該裝置包括:確定單元,用于確定用于執(zhí)行網(wǎng)頁搜索的第一網(wǎng)頁搜索關(guān)鍵詞和 第二網(wǎng)頁搜索關(guān)鍵詞,其中,第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞為不同的網(wǎng)頁搜 索關(guān)鍵詞;第一獲取單元,用于獲取統(tǒng)一資源定位符集合,其中,統(tǒng)一資源定位符集合包括 多個統(tǒng)一資源定位符,多個統(tǒng)一資源定位符兩兩不同,多個統(tǒng)一資源定位符包括第一網(wǎng)頁 搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符和第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源 定位符;第二獲取單元,用于獲取第一向量,其中,第一向量包括多個元素,第一向量的多個 元素分別為第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;第三獲取單元,用于 獲取第二向量,其中,第二向量包括多個元素,第二向量的多個元素分別為第二網(wǎng)頁搜索關(guān) 鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;檢測單元,用于根據(jù)第一向量和第二向量對第一 網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測。
[0015] 進一步地,第一獲取單元包括:第一獲取模塊,用于獲取第一統(tǒng)一資源定位符子 集合,其中,第一統(tǒng)一資源定位符子集合為第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定 位符的集合,根據(jù)以下模塊分別確定第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān) 系:第一判斷子模塊,用于分別判斷多個統(tǒng)一資源定位符是否是第一統(tǒng)一資源定位符子集 合中包含的統(tǒng)一資源定位符;第一確定子模塊,用于在多個統(tǒng)一資源定位符是第一統(tǒng)一資 源定位符子集合中包含的統(tǒng)一資源定位符時,分別確定第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資 源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ;第二確定子模塊,用于在多個統(tǒng)一資源定位符不 是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符時,分別確定第一網(wǎng)頁搜索關(guān)鍵詞 和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0,第一獲取單元還包括:第二獲取模 塊,用于獲取第二統(tǒng)一資源定位符子集合,其中,第二統(tǒng)一資源定位符子集合為第二網(wǎng)頁搜 索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符的集合,根據(jù)以下模塊分別確定第二網(wǎng)頁搜索關(guān)鍵 詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系:第二判斷子模塊,用于分別判斷多個統(tǒng)一資源定位 符是否是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符;第三確定子模塊,用于在 多個統(tǒng)一資源定位符是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符時,分別確定 第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ;第四確定子模 塊,用于在多個統(tǒng)一資源定位符不是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符 時,分別確定第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0。
[0016] 進一步地,檢測單元包括:第三獲取模塊,用于根據(jù)第一向量和第二向量獲取第三 向量,其中,通過以下子模塊確定第三向量中包含的多個元素:第一確定子模塊,用于在對 應(yīng)相同的統(tǒng)一資源定位符,第一向量和第二向量中對應(yīng)相同的統(tǒng)一資源定位符的元素均為 1時,確定第三向量中對應(yīng)的兀素為0,第二確定子模塊,用于在對應(yīng)相同的統(tǒng)一資源定位 符,第一向量和第二向量中對應(yīng)相同的統(tǒng)一資源定位符的元素一個為1、另一個為0時,確 定第三向量中對應(yīng)的元素為1 ;第四獲取模塊,用于獲取目標(biāo)距離,其中,目標(biāo)距離為第三 向量中包含的多個元素的平均值,用于表示第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞之 間的差異;第五獲取模塊,用于通過以下式子獲取第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān) 鍵詞的相關(guān)性對應(yīng)的數(shù)值:S = 1/A,其中,S為第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞 的相關(guān)性對應(yīng)的數(shù)值,A為目標(biāo)距離。
[0017] 通過本發(fā)明,采用包括以下步驟的方法:確定用于執(zhí)行網(wǎng)頁搜索的第一網(wǎng)頁搜索 關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞,其中,第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞為不同 的網(wǎng)頁搜索關(guān)鍵詞;獲取統(tǒng)一資源定位符集合,其中,統(tǒng)一資源定位符集合包括多個統(tǒng)一資 源定位符,多個統(tǒng)一資源定位符兩兩不同,多個統(tǒng)一資源定位符包括第一網(wǎng)頁搜索關(guān)鍵詞 對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符和第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符;獲取 第一向量,其中,第一向量包括多個元素,第一向量的多個元素分別為第一網(wǎng)頁搜索關(guān)鍵詞 和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;獲取第二向量,其中,第二向量包括多個元素,第二向 量的多個元素分別為第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;根據(jù)第一向 量和第二向量對第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測,解決了網(wǎng)頁 搜索關(guān)鍵詞之間的相關(guān)性檢測不準(zhǔn)確的問題,進而通過利用第一向量和第二向量對第一網(wǎng) 頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測,達到了提高檢測網(wǎng)頁搜索關(guān)鍵詞之 間的相關(guān)性的準(zhǔn)確性的效果。

【專利附圖】

【附圖說明】
[0018] 構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0019] 圖1是根據(jù)本發(fā)明的網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法的第一實施例的示意圖; 以及
[0020] 圖2是根據(jù)本發(fā)明的網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測裝置的實施例的示意圖。

【具體實施方式】
[0021] 為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的 附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是 本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范 圍。
[0022] 需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。此外,術(shù)語"包括" 和"具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單 元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒 有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0023] 在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將 參考附圖并結(jié)合實施例來詳細說明本發(fā)明。
[0024] 圖1是根據(jù)本發(fā)明的網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法的第一實施例的示意圖。 如圖1所示,該方法包括步驟S102至步驟S110。
[0025] 步驟S102,確定用于執(zhí)行網(wǎng)頁搜索的第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵 詞,其中,第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞為不同的網(wǎng)頁搜索關(guān)鍵詞。
[0026] 用于執(zhí)行網(wǎng)頁搜索的網(wǎng)頁搜索關(guān)鍵詞可以通過在網(wǎng)站中添加 javascript代碼的 方式獲得。通過該方式,可以記錄用戶在一次會話中進行的站內(nèi)搜索行為,以及用戶在網(wǎng)站 內(nèi)進行瀏覽的網(wǎng)頁的序列信息。換言之,可獲取用戶的網(wǎng)頁搜索關(guān)鍵詞,以及用戶通過網(wǎng)頁 搜索關(guān)鍵詞訪問的網(wǎng)頁的統(tǒng)一資源定位符等信息。這里,我們研究兩個不同的網(wǎng)頁搜索關(guān) 鍵詞之間的相關(guān)性。
[0027] 步驟S104,獲取統(tǒng)一資源定位符集合,其中,統(tǒng)一資源定位符集合包括多個統(tǒng)一資 源定位符,多個統(tǒng)一資源定位符兩兩不同,多個統(tǒng)一資源定位符包括第一網(wǎng)頁搜索關(guān)鍵詞 對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符和第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符。
[0028] 統(tǒng)一資源定位符集合中包含第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定 位符,以及第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符,并且,去除了第一網(wǎng)頁 搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符和第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的所有 統(tǒng)一資源定位符中重復(fù)的部分。
[0029] 可以通過如下步驟獲取統(tǒng)一資源定位符集合:獲取第一統(tǒng)一資源定位符子集合, 其中,第一統(tǒng)一資源定位符子集合為第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符的 集合;獲取第二統(tǒng)一資源定位符子集合,其中,第二統(tǒng)一資源定位符子集合為第二網(wǎng)頁搜索 關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符的集合。需要說明的是,統(tǒng)一資源定位符集合中包含 的統(tǒng)一資源定位符無重復(fù)現(xiàn)象。
[0030] 例如,假設(shè)第一網(wǎng)頁搜索關(guān)鍵詞A對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符為:URL1、 URL2、URL3,第二網(wǎng)頁搜索關(guān)鍵詞B對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符為:URL3、URL4、 URL5。則統(tǒng)一資源定位符集合中包含的統(tǒng)一資源定位符為:URL1、URL2、URL3、URL4、URL5。
[0031] 步驟S106,獲取第一向量,其中,第一向量包括多個元素,第一向量的多個元素分 別為第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系。
[0032] 步驟S108,獲取第二向量,其中,第二向量包括多個元素,第二向量的多個元素分 別為第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系。
[0033] 優(yōu)選地,根據(jù)以下方法分別確定第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對 應(yīng)關(guān)系:分別判斷多個統(tǒng)一資源定位符是否是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資 源定位符;如果多個統(tǒng)一資源定位符是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位 符,則分別確定第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ; 如果多個統(tǒng)一資源定位符不是第一統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分 別確定第一網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為〇。
[0034] 同樣地,根據(jù)以下方法分別確定第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對 應(yīng)關(guān)系:分別判斷多個統(tǒng)一資源定位符是否是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資 源定位符;如果多個統(tǒng)一資源定位符是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位 符,則分別確定第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ; 如果多個統(tǒng)一資源定位符不是第二統(tǒng)一資源定位符子集合中包含的統(tǒng)一資源定位符,則分 別確定第二網(wǎng)頁搜索關(guān)鍵詞和多個統(tǒng)一資源定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0。
[0035] 例如,假設(shè)第一網(wǎng)頁搜索關(guān)鍵詞A對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符為:URL1、 URL2、URL3,第二網(wǎng)頁搜索關(guān)鍵詞B對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符為:URL3、URL4、 URL5。則第一向量為[1,1,1,0,0],第二向量為[0,0,1,1,1]??蛇x地,可將二者記為矩陣 形式1 1 1 ^ ^,其中,矩陣的第一行對應(yīng)關(guān)鍵詞A,第二行對應(yīng)關(guān)鍵詞B,第一列對應(yīng) 0 0 111 URL1、第二列對應(yīng)URL2、第三列對應(yīng)URL3、第四列對應(yīng)URL4、第五列對應(yīng)URL5。
[0036] 可選地,當(dāng)存在多個網(wǎng)頁搜索關(guān)鍵詞時(多個網(wǎng)頁搜索關(guān)鍵詞包括第一網(wǎng)頁搜索 關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞),確定第三向量中包含的多個元素還包括:如果在對應(yīng)相 同的統(tǒng)一資源定位符時,第一向量和第二向量中對應(yīng)相同的統(tǒng)一資源定位符的元素均為〇, 則確定第三向量中對應(yīng)的元素為〇。
[0037] 假設(shè)全部不重復(fù)的網(wǎng)頁搜索關(guān)鍵詞共有M個,對應(yīng)不重復(fù)的統(tǒng)一資源定位符共有 N個,可以獲得一個M*N維的矩陣A {M,N},其中每一行對應(yīng)一個網(wǎng)頁搜索關(guān)鍵詞,每一列對 應(yīng)一個統(tǒng)一資源定位符,A[i,j]表示該網(wǎng)頁搜索關(guān)鍵詞i的站內(nèi)搜索結(jié)果對象中是否包含 有該統(tǒng)一資源定位符j。因此矩陣A的每一行元素之和均為η (假設(shè)每個網(wǎng)頁搜索關(guān)鍵詞共 有η個統(tǒng)一資源定位符返回結(jié)果)。對每個網(wǎng)頁搜索關(guān)鍵詞可以獲得一個N維0-1向量, 值為1表示該網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的該URL出現(xiàn),值為0表示該網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的該 URL不出現(xiàn)。
[0038] 例如,假設(shè)第一網(wǎng)頁搜索關(guān)鍵詞A對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符為:URL1、 URL2、URL3,第二網(wǎng)頁搜索關(guān)鍵詞B對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符為:URL3、URL4、 URL5,第三網(wǎng)頁搜索關(guān)鍵詞C對應(yīng)的網(wǎng)頁的所有統(tǒng)一資源定位符為:URL1、URL5、URL6、 URL7。則第一向量為[1,1,1,0,0,0,0],第二向量為[0,0,1,1,1,0,0],第三向量為[1,0,0, 1 1 1 0 0 0 0 0,1,1,1]??蛇x地,可將三者記為矩陣形式0 0 1 1 1 0 0,其中,矩陣的第一行對應(yīng) 1 0 0 0 1 1 1 關(guān)鍵詞A,第二行對應(yīng)關(guān)鍵詞B,第三行對應(yīng)關(guān)鍵詞C,第一列對應(yīng)URLl、第二列對應(yīng)URL2、第 三列對應(yīng)URL3、第四列對應(yīng)URL4、第五列對應(yīng)URL5、第六列對應(yīng)URL6、第七列對應(yīng)URL7。
[0039] 步驟S110,根據(jù)第一向量和第二向量對第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵 詞進行相關(guān)性檢測。
[0040] 優(yōu)選地,根據(jù)第一向量和第二向量對第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞 進行相關(guān)性檢測可以通過如下步驟進行:根據(jù)第一向量和第二向量獲取第三向量,其中,通 過以下方法確定第三向量中包含的多個元素:如果在對應(yīng)相同的統(tǒng)一資源定位符時,第一 向量和第二向量中對應(yīng)相同的統(tǒng)一資源定位符的元素均為1,則確定第三向量中對應(yīng)的元 素為0,如果在對應(yīng)相同的統(tǒng)一資源定位符時,第一向量和第二向量中對應(yīng)相同的統(tǒng)一資源 定位符的元素一個為1、另一個為0,則確定第三向量中對應(yīng)的元素為1 ;獲取目標(biāo)距離,其 中,目標(biāo)距離為第三向量中包含的多個元素的平均值,用于表示第一網(wǎng)頁搜索關(guān)鍵詞和第 二網(wǎng)頁搜索關(guān)鍵詞之間的差異;通過以下式子獲取第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān) 鍵詞的相關(guān)性對應(yīng)的數(shù)值:S = 1/A,其中,S為第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞 的相關(guān)性對應(yīng)的數(shù)值,A為目標(biāo)距離。
[0041] 需要說明的是,可以將第三向量中包含的多個元素的平均值視為兩個搜索關(guān)鍵詞 對應(yīng)的向量之間的距離,該距離越大,說明二者相關(guān)性越小,該距離越小,說明二者相關(guān)性 越大。例如,若兩個搜索關(guān)鍵詞對應(yīng)的10個URL均相同(即第三向量中各元素均為0),則 認(rèn)為這兩個搜索關(guān)鍵詞的相關(guān)性最高,反之,若兩個搜索關(guān)鍵詞對應(yīng)的10個URL兩兩均不 相同(即第三向量中各元素均為1),則認(rèn)為這兩個搜索關(guān)鍵詞的相關(guān)性最小。
[0042] 計算兩個向量之間的距離采用亦或運算。假設(shè)對于N維向量a和向量b,對于任意 位置i (每個i對應(yīng)一個URL),當(dāng)a[i] =b[i]時,該位置處對應(yīng)的第三向量的元素為0,當(dāng) a[i]尹b[i]時,該位置處對應(yīng)的第三向量的元素為1。向量a與向量b之間的距離可以通 過以下公式計算:

【權(quán)利要求】
1. 一種網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測方法,其特征在于,包括: 確定用于執(zhí)行網(wǎng)頁搜索的第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵詞,其中,所述第 一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞為不同的網(wǎng)頁搜索關(guān)鍵詞; 獲取統(tǒng)一資源定位符集合,其中,所述統(tǒng)一資源定位符集合包括多個統(tǒng)一資源定位符, 所述多個統(tǒng)一資源定位符兩兩不同,所述多個統(tǒng)一資源定位符包括所述第一網(wǎng)頁搜索關(guān)鍵 詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符和所述第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位 符; 獲取第一向量,其中,所述第一向量包括多個元素,所述第一向量的多個元素分別為所 述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng)關(guān)系; 獲取第二向量,其中,所述第二向量包括多個元素,所述第二向量的多個元素分別為所 述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;W及 根據(jù)所述第一向量和所述第二向量對所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索 關(guān)鍵詞進行相關(guān)性檢測。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 獲取統(tǒng)一資源定位符集合包括:獲取第一統(tǒng)一資源定位符子集合,其中,所述第一統(tǒng)一 資源定位符子集合為所述第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符的集合, 根據(jù)W下方法分別確定所述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng) 關(guān)系;分別判斷所述多個統(tǒng)一資源定位符是否是所述第一統(tǒng)一資源定位符子集合中包含的 統(tǒng)一資源定位符;如果所述多個統(tǒng)一資源定位符是所述第一統(tǒng)一資源定位符子集合中包含 的統(tǒng)一資源定位符,則分別確定所述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對 應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ;如果所述多個統(tǒng)一資源定位符不是所述第一統(tǒng)一資源定位符子 集合中包含的統(tǒng)一資源定位符,則分別確定所述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源 定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0, 獲取統(tǒng)一資源定位符集合還包括:獲取第二統(tǒng)一資源定位符子集合,其中,所述第二統(tǒng) 一資源定位符子集合為所述第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符的集合, 根據(jù)W下方法分別確定所述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng) 關(guān)系;分別判斷所述多個統(tǒng)一資源定位符是否是所述第二統(tǒng)一資源定位符子集合中包含的 統(tǒng)一資源定位符;如果所述多個統(tǒng)一資源定位符是所述第二統(tǒng)一資源定位符子集合中包含 的統(tǒng)一資源定位符,則分別確定所述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對 應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ;如果所述多個統(tǒng)一資源定位符不是所述第二統(tǒng)一資源定位符子 集合中包含的統(tǒng)一資源定位符,則分別確定所述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源 定位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述第一向量和所述第二向量對所 述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測包括: 根據(jù)所述第一向量和所述第二向量獲取第H向量,其中,通過W下方法確定所述第H 向量中包含的多個元素: 如果在對應(yīng)相同的統(tǒng)一資源定位符時,所述第一向量和所述第二向量中對應(yīng)所述相同 的統(tǒng)一資源定位符的元素均為1,則確定所述第H向量中對應(yīng)的元素為0, 如果在對應(yīng)相同的統(tǒng)一資源定位符時,所述第一向量和所述第二向量中對應(yīng)所述相同 的統(tǒng)一資源定位符的元素一個為1、另一個為0,則確定所述第H向量中對應(yīng)的元素為1 ; 獲取目標(biāo)距離,其中,所述目標(biāo)距離為所述第H向量中包含的多個元素的平均值,用于 表示所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞之間的差異; 通過W下式子獲取所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性對 應(yīng)的數(shù)值: S= 1/A,其中,S為所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性對 應(yīng)的數(shù)值,A為所述目標(biāo)距離。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,多個網(wǎng)頁搜索關(guān)鍵詞包括所述第一網(wǎng)頁 搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞,確定所述第H向量中包含的多個元素還包括;女口 果在對應(yīng)相同的統(tǒng)一資源定位符時,所述第一向量和所述第二向量中對應(yīng)所述相同的統(tǒng)一 資源定位符的元素均為0,則確定所述第H向量中對應(yīng)的元素為0。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,多個網(wǎng)頁搜索關(guān)鍵詞包括所述第一網(wǎng)頁 搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞,多個目標(biāo)向量包括所述第一向量和所述第二向 量,所述統(tǒng)一資源定位符集合包括所述多個網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位 符,根據(jù)所述第一向量和所述第二向量對所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān) 鍵詞進行相關(guān)性檢測之后,所述方法還包括: 確定所述多個網(wǎng)頁搜索關(guān)鍵詞分別屬于不同的關(guān)鍵詞類,其中,所述不同的關(guān)鍵詞類 中每個關(guān)鍵詞類只包含一個網(wǎng)頁搜索關(guān)鍵詞; 根據(jù)所述多個目標(biāo)向量獲取多個目標(biāo)距離,其中,所述多個目標(biāo)距離用于表示所述多 個網(wǎng)頁搜索關(guān)鍵詞類中任意兩個網(wǎng)頁搜索關(guān)鍵詞類之間的差異; 獲取所述多個目標(biāo)距離中的最小值; 合并所述最小值對應(yīng)的兩個網(wǎng)頁搜索關(guān)鍵詞類成第一目標(biāo)關(guān)鍵詞類; 統(tǒng)計所述多個網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的關(guān)鍵詞類的個數(shù); 判斷所述關(guān)鍵詞類的個數(shù)是否大于預(yù)設(shè)數(shù)量值; 如果所述關(guān)鍵詞類的個數(shù)大于所述預(yù)設(shè)數(shù)量值,則確定所述第一目標(biāo)關(guān)鍵詞類對應(yīng)的 向量; 利用所述第一目標(biāo)關(guān)鍵詞類對應(yīng)的向量,分別獲取所述第一目標(biāo)關(guān)鍵詞類和除所述兩 個網(wǎng)頁搜索關(guān)鍵詞類之外的多個網(wǎng)頁搜索關(guān)鍵詞類對應(yīng)的目標(biāo)距離; 獲取所述第一目標(biāo)關(guān)鍵詞類和除所述兩個網(wǎng)頁搜索關(guān)鍵詞類之外的多個網(wǎng)頁搜索關(guān) 鍵詞類對應(yīng)的目標(biāo)距離中的最小值; 將所述最小值對應(yīng)的兩個網(wǎng)頁搜索關(guān)鍵詞類合并成第二目標(biāo)關(guān)鍵詞類;W及 如果所述關(guān)鍵詞類的個數(shù)小于或者等于所述預(yù)設(shè)數(shù)量值,則不再進行關(guān)鍵詞類的合并 處理。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,在獲取所述統(tǒng)一資源定位符集合之后,所 述方法還包括: 分別統(tǒng)計所述多個統(tǒng)一資源定位符的出現(xiàn)次數(shù); 分別判斷所述多個統(tǒng)一資源定位符的出現(xiàn)次數(shù)是否小于預(yù)設(shè)出現(xiàn)次數(shù)闊值; 獲取所述多個統(tǒng)一資源定位符中出現(xiàn)次數(shù)小于所述預(yù)設(shè)出現(xiàn)次數(shù)闊值的統(tǒng)一資源定 位符擬及 將小于所述預(yù)設(shè)出現(xiàn)次數(shù)闊值的統(tǒng)一資源定位符從所述統(tǒng)一資源定位符集合中清除。
7. 根據(jù)權(quán)利要求5所述的方法,其特征在于,經(jīng)過合并處理后的關(guān)鍵詞類包括多個關(guān) 鍵詞類,所述多個關(guān)鍵詞類包括第一關(guān)鍵詞類和第二關(guān)鍵詞類,分別將小于所述預(yù)設(shè)相關(guān) 性闊值的目標(biāo)相關(guān)性數(shù)值對應(yīng)的目標(biāo)關(guān)鍵詞簇和網(wǎng)頁搜索關(guān)鍵詞確定為一個關(guān)鍵詞類之 后,所述方法還包括: 分別對所述第一關(guān)鍵詞類和所述第二關(guān)鍵詞類進行標(biāo)識; 統(tǒng)計第一數(shù)量,其中,所述第一數(shù)量為所述第一關(guān)鍵詞類包含的網(wǎng)頁搜索關(guān)鍵詞的個 數(shù); 統(tǒng)計第二數(shù)量,其中,所述第二數(shù)量為所述第二關(guān)鍵詞類包含的網(wǎng)頁搜索關(guān)鍵詞的個 數(shù); 比較所述第一數(shù)量和所述第二數(shù)量,得到比較結(jié)果;W及 按照所述比較結(jié)果對所述第一關(guān)鍵詞類和所述第二關(guān)鍵詞類進行排序。
8. -種網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性檢測裝置,其特征在于,包括: 確定單元,用于確定用于執(zhí)行網(wǎng)頁搜索的第一網(wǎng)頁搜索關(guān)鍵詞和第二網(wǎng)頁搜索關(guān)鍵 詞,其中,所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞為不同的網(wǎng)頁搜索關(guān)鍵 詞; 第一獲取單元,用于獲取統(tǒng)一資源定位符集合,其中,所述統(tǒng)一資源定位符集合包括多 個統(tǒng)一資源定位符,所述多個統(tǒng)一資源定位符兩兩不同,所述多個統(tǒng)一資源定位符包括所 述第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位符和所述第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的 網(wǎng)頁的統(tǒng)一資源定位符; 第二獲取單元,用于獲取第一向量,其中,所述第一向量包括多個元素,所述第一向量 的多個元素分別為所述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng)關(guān)系; 第H獲取單元,用于獲取第二向量,其中,所述第二向量包括多個元素,所述第二向量 的多個元素分別為所述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng)關(guān)系;W及 檢測單元,用于根據(jù)所述第一向量和所述第二向量對所述第一網(wǎng)頁搜索關(guān)鍵詞和所述 第二網(wǎng)頁搜索關(guān)鍵詞進行相關(guān)性檢測。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述第一獲取單元包括:第一獲取模塊,用于獲取第一統(tǒng)一資源定位符子集合,其中, 所述第一統(tǒng)一資源定位符子集合為所述第一網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定位 符的集合, 根據(jù)W下模塊分別確定所述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng) 關(guān)系: 第一判斷子模塊,用于分別判斷所述多個統(tǒng)一資源定位符是否是所述第一統(tǒng)一資源定 位符子集合中包含的統(tǒng)一資源定位符; 第一確定子模塊,用于在所述多個統(tǒng)一資源定位符是所述第一統(tǒng)一資源定位符子集合 中包含的統(tǒng)一資源定位符時,分別確定所述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位 符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ; 第二確定子模塊,用于在所述多個統(tǒng)一資源定位符不是所述第一統(tǒng)一資源定位符子集 合中包含的統(tǒng)一資源定位符時,分別確定所述第一網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定 位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0, 所述第一獲取單元還包括:第二獲取模塊,用于獲取第二統(tǒng)一資源定位符子集合,其 中,所述第二統(tǒng)一資源定位符子集合為所述第二網(wǎng)頁搜索關(guān)鍵詞對應(yīng)的網(wǎng)頁的統(tǒng)一資源定 位符的集合, 根據(jù)W下模塊分別確定所述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位符的對應(yīng) 關(guān)系: 第二判斷子模塊,用于分別判斷所述多個統(tǒng)一資源定位符是否是所述第二統(tǒng)一資源定 位符子集合中包含的統(tǒng)一資源定位符; 第H確定子模塊,用于在所述多個統(tǒng)一資源定位符是所述第二統(tǒng)一資源定位符子集合 中包含的統(tǒng)一資源定位符時,分別確定所述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定位 符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為1 ; 第四確定子模塊,用于在所述多個統(tǒng)一資源定位符不是所述第二統(tǒng)一資源定位符子集 合中包含的統(tǒng)一資源定位符時,分別確定所述第二網(wǎng)頁搜索關(guān)鍵詞和所述多個統(tǒng)一資源定 位符的對應(yīng)關(guān)系所對應(yīng)的數(shù)值為0。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述檢測單元包括: 第H獲取模塊,用于根據(jù)所述第一向量和所述第二向量獲取第H向量,其中,通過W下 子模塊確定所述第H向量中包含的多個元素: 第一確定子模塊,用于在對應(yīng)相同的統(tǒng)一資源定位符,所述第一向量和所述第二向量 中對應(yīng)所述相同的統(tǒng)一資源定位符的元素均為1時,確定所述第H向量中對應(yīng)的元素為0, 第二確定子模塊,用于在對應(yīng)相同的統(tǒng)一資源定位符,所述第一向量和所述第二向量 中對應(yīng)所述相同的統(tǒng)一資源定位符的元素一個為1、另一個為0時,確定所述第H向量中對 應(yīng)的元素為1 ; 第四獲取模塊,用于獲取目標(biāo)距離,其中,所述目標(biāo)距離為所述第H向量中包含的多 個元素的平均值,用于表示所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞之間的差 異; 第五獲取模塊,用于通過W下式子獲取所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索 關(guān)鍵詞的相關(guān)性對應(yīng)的數(shù)值: S = 1/A,其中,S為所述第一網(wǎng)頁搜索關(guān)鍵詞和所述第二網(wǎng)頁搜索關(guān)鍵詞的相關(guān)性對 應(yīng)的數(shù)值,A為所述目標(biāo)距離。
【文檔編號】G06F17/30GK104462310SQ201410714574
【公開日】2015年3月25日 申請日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】何鑫 申請人:北京國雙科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
达尔| 青川县| 海南省| 荥阳市| 历史| 北辰区| 岱山县| 万山特区| 盐津县| 南昌市| 榆中县| 景德镇市| 孟连| 安龙县| 密山市| 肃宁县| 边坝县| 维西| 从化市| 仙桃市| 紫金县| 东平县| 彩票| 宜兴市| 凤山市| 宣恩县| 聂荣县| 阿拉善右旗| 叙永县| 日土县| 宽城| 蓝山县| 乐安县| 西华县| 玛曲县| 和平县| 梁平县| 丹寨县| 颍上县| 三原县| 玉门市|