一種基于改進譜聚類的搜索引擎排序方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及搜索引擎排序方法,特別地,涉及一種基于改進譜聚類的搜索引擎排 序方法與系統(tǒng)。
【背景技術(shù)】
[0002] 隨著搜索引擎技術(shù)的發(fā)展,使用者對搜索引擎的要求也越來越高。搜索引擎雖然 能夠根據(jù)使用者查詢搜索出成千上萬條結(jié)果,但是一般情況下,使用者只瀏覽前30條甚至 前10條結(jié)果,如果搜索引擎中排在前面的結(jié)果和使用者查詢無關(guān),使用者的查詢效率會顯 著降低。
[0003] 傳統(tǒng)的排序方法包括基于分類目錄的排序方法、基于文本檢索的排序方法與基于 鏈接整合分析的排序方法。其中,基于分類目錄的排序方法是已經(jīng)被舍棄不用的人工分類 方法;只關(guān)注網(wǎng)頁內(nèi)容的基于文本檢索的排序方法會導(dǎo)致效率低下的問題;而只關(guān)注網(wǎng)頁 鏈接的基于鏈接整合的排序方法會導(dǎo)致返回的內(nèi)容可能與使用者查詢不相關(guān)的問題?,F(xiàn)有 技術(shù)中缺乏一種同時能克服效率問題和結(jié)果相關(guān)性問題的排序算法。
[0004] 針對現(xiàn)有技術(shù)中缺乏一種同時能克服效率問題和結(jié)果相關(guān)性問題的解決方案的 問題,目前尚未有有效的解決方案。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)中缺乏一種同時能克服效率問題和結(jié)果相關(guān)性問題的解決方案的 問題,本發(fā)明的目的在于提出一種基于改進譜聚類的搜索引擎排序方法與系統(tǒng),能夠把文 本內(nèi)容和文本鏈接有效結(jié)合,提出一種結(jié)合內(nèi)容與鏈接的搜索引擎排序方法與系統(tǒng),提高 使用者的搜索效率。
[0006] 基于上述目的,本發(fā)明提供的技術(shù)方案如下:
[0007] 根據(jù)本發(fā)明的一個方面,提供了一種基于改進譜聚類的搜索引擎排序方法。
[0008] 根據(jù)本發(fā)明提供的一種基于改進譜聚類的搜索引擎排序方法包括:
[0009] 沿著網(wǎng)頁中的鏈接搜尋初始網(wǎng)頁信息,將初始網(wǎng)頁信息中的文本信息以向量形式 提取出至少一個初始網(wǎng)頁文本內(nèi)容,并將初始網(wǎng)頁文本內(nèi)容、網(wǎng)頁的鏈接與搜尋時間以向 關(guān)聯(lián)的方式存儲;
[0010] 計算每兩個初始網(wǎng)頁文本內(nèi)容之間基于密度的相似度,并根據(jù)初始網(wǎng)頁文本內(nèi)容 之間基于密度的相似度確定譜聚類的最佳類別數(shù)目;
[0011] 按照網(wǎng)頁的鏈接重新訪問更新過的網(wǎng)頁并搜尋更新過的網(wǎng)頁信息,并按照更新過 的網(wǎng)頁信息中的文本信息新網(wǎng)頁文本內(nèi)容,并將新網(wǎng)頁文本內(nèi)容、網(wǎng)頁的鏈接與更新時間 以關(guān)聯(lián)的方式存儲;
[0012] 計算譜聚類的類中心向量與類均值,計算新網(wǎng)頁文本內(nèi)容與現(xiàn)有譜聚類類別之間 的連接度,并根據(jù)新網(wǎng)頁文本內(nèi)容與現(xiàn)有所有譜聚類類別之間的連接度判斷是否將新網(wǎng)頁 文本內(nèi)容加入根據(jù)譜聚類方法建立的已有類別中,并根據(jù)各譜聚類類別的類中心向量與類 均值判斷譜聚類是否需要與其他譜聚類進行合并;
[0013] 接收使用者的查詢向量,計算查詢向量與現(xiàn)有譜聚類類別之間的相關(guān)度,建立網(wǎng) 頁鏈接的初始結(jié)果集,并將初始結(jié)果集中每個網(wǎng)頁的相關(guān)度與PageRank值計算歸一加權(quán) 值,按照相關(guān)度與PageRank值的歸一加權(quán)值的大小進行排序呈獻給使用者。
[0014] 其中,計算每兩個初始網(wǎng)頁文本內(nèi)容之間基于密度的相似度包括:
[0015] 定義譜聚類方法的局部一致性與全局一致性;
[0016] 根據(jù)譜聚類方法的局部一致性與全局一致性,得到基于密度的線段長度距離表達 式;
[0017] 根據(jù)基于密度的線段長度距離表達式,計算出兩初始網(wǎng)頁文本內(nèi)容之間基于密度 的距離;
[0018] 根據(jù)兩初始網(wǎng)頁文本內(nèi)容之間基于密度的數(shù)據(jù)距離,獲得兩初始網(wǎng)頁文本內(nèi)容之 間基于密度的相似度。
[0019] 并且,根據(jù)每兩個初始網(wǎng)頁文本內(nèi)容之間基于密度的相似度確定譜聚類的最佳類 別數(shù)目包括:
[0020] 根據(jù)每兩個初始網(wǎng)頁文本內(nèi)容之間基于密度的相似度建立相似矩陣,其中,相似 矩陣的行向量代表初始網(wǎng)頁文本內(nèi)容、列向量代表初始網(wǎng)頁文本內(nèi)容特征項的權(quán)值;
[0021 ] 計算相似矩陣中,所有初始網(wǎng)頁文本內(nèi)容特征項權(quán)值的平均值、任一譜聚類內(nèi)初 始網(wǎng)頁文本內(nèi)容特征項的平均值、所有初始網(wǎng)頁文本內(nèi)容數(shù)據(jù)集的總體方差、任一譜聚類 內(nèi)數(shù)據(jù)集的方差、任一譜聚類間數(shù)據(jù)集的方差;
[0022] 根據(jù)任一譜聚類內(nèi)數(shù)據(jù)集的方差與任一譜聚類間數(shù)據(jù)集的方差,用C-H指數(shù)定義 方差比標準計算出譜聚類的最佳類別數(shù)目。
[0023] 其中,根據(jù)新網(wǎng)頁文本內(nèi)容與現(xiàn)有所有譜聚類之間的連接度判斷是否將新網(wǎng)頁文 本內(nèi)容加入譜聚類中包括:
[0024] 將每個新網(wǎng)頁文本內(nèi)容與現(xiàn)有所有譜聚類類別之間的連接度按大小順序進行排 序;
[0025] 若該新網(wǎng)頁文本內(nèi)容最大的連接度大于第一閾值,且最大的連接度與第二大的連 接度的絕對值之差大于第二閾值,則將新網(wǎng)頁文本內(nèi)容加入最大的連接度所對應(yīng)的譜聚類 中,并更新該譜聚類的類中心向量與類均值;
[0026] 若該新網(wǎng)頁文本內(nèi)容最大的連接度大于第一閾值,但最大的連接度與第二大的連 接度的絕對值之差不大于第二閾值,則將新網(wǎng)頁文本內(nèi)容暫時存入最大的連接度所對應(yīng)的 譜聚類中,并對新網(wǎng)頁文本內(nèi)容進行標記,但不更新該譜聚類的類中心向量與類均值;
[0027] 若該新網(wǎng)頁文本內(nèi)容最大的連接度不大于第一閾值,則將該新網(wǎng)頁文本內(nèi)容劃分 到一個新的譜聚類類別中,并計算出新譜聚類類別的類中心向量與類均值。
[0028] 并且,根據(jù)各譜聚類類別的類中心向量與類均值判斷譜聚類類別是否需要與其他 譜聚類類別進行合并,為當(dāng)所有新網(wǎng)頁文本內(nèi)容都劃分到任意譜聚類類別中時,重新計算 譜聚類的最佳類別數(shù)目:
[0029] 若重新計算的譜聚類的最佳類別數(shù)目小于等于上次計算的譜聚類的最佳類別數(shù) 目,則將被標記的新網(wǎng)頁文本內(nèi)容合并到其暫存的譜聚類中,并更新該譜聚類的類中心向 量與類均值;
[0030] 若重新計算的譜聚類的最佳類別數(shù)目大于上次計算的譜聚類的最佳類別數(shù)目,則 將被標記的新網(wǎng)頁文本內(nèi)容獨立進行重新聚類,并計算出新譜聚類的類中心向量與類均 值。
[0031] 同時,計算上述查詢向量與現(xiàn)有譜聚類類別之間的相關(guān)度,建立網(wǎng)頁鏈接的初始 結(jié)果集包括:
[0032] 將查詢向量分解為至少一個查詢分量;
[0033] 分別將每個查詢分量視為關(guān)鍵詞,依次計算每個查詢分量關(guān)鍵詞與每個譜聚類類 別之間的連接度;
[0034] 根據(jù)每個查詢分量關(guān)鍵詞與每個譜聚類類別之間的連接度,計算出查詢向量與每 個譜聚類類別之間的相關(guān)度;
[0035] 根據(jù)查詢向量與每個譜聚類之間的連接度與每個查詢分量的絕對值,計算出查詢 向量的初始結(jié)果集,初始結(jié)果集為各譜聚類類別中與查詢向量距離較近的網(wǎng)頁集合。
[0036] 并且,將初始結(jié)果集中每個網(wǎng)頁的相關(guān)度與PageRank值歸一加權(quán)計算平均值,為 將拓展結(jié)果集的相關(guān)度和PageRank值分別進行歸一化,進行加權(quán)得到每個與查詢向量的 相關(guān)度。
[0037] 根據(jù)本發(fā)明的另一個方面,還提供了一種基于改進譜聚類的搜索引擎排序系統(tǒng)。
[0038] 根據(jù)本發(fā)明提供的一種基于改進譜聚類的搜索引擎排序系統(tǒng)如上所述。
[0039] 從上面所述可以看出,本發(fā)明提供的技術(shù)方案通過使用改進的譜聚類方法對網(wǎng) 頁內(nèi)容進行分析,利用網(wǎng)頁鏈接結(jié)構(gòu)對根據(jù)使用者查詢選出初始的結(jié)果集進行拓展,并計 算拓展結(jié)果集與使用者查詢的距離作為網(wǎng)頁內(nèi)容相似度,然后結(jié)合衡量網(wǎng)頁鏈接質(zhì)量的 PageRank值,最終得到每個網(wǎng)頁的相似度得分并根據(jù)該得分返回排序結(jié)果,提高了使用者 的搜索效率與搜索體驗。
【附圖說明】
[0040] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施 例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲 得其他的附圖。
[0041] 圖1為根據(jù)本發(fā)明實施例的一種基于改進譜聚類的搜索引擎排序方法的流程圖。
【具體實施方式】
[0042] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面將結(jié)合本發(fā)明實施例中 的附圖,對本發(fā)明實施例中的技術(shù)方案進一步進行清楚、完整、詳細地描述,顯然,所描述的 實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域 普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0043] 根據(jù)本發(fā)明的一個實施例,提供了一種基于改進譜聚類的搜索引擎排序方法。 [0044] 如圖1所示,根據(jù)本發(fā)明實施例提供的基于改進譜聚類的搜索引擎排序方法包 括:
[0045] 步驟S101,沿著網(wǎng)頁中的鏈接搜尋初始網(wǎng)頁信息,將初始網(wǎng)頁信息中的文本信息 以向量形式提取出至少一個初始網(wǎng)頁文本內(nèi)容,并將初始網(wǎng)頁文本內(nèi)容、網(wǎng)頁的鏈接與搜 尋時間以向關(guān)聯(lián)的方式存儲;
[0046] 步驟S103,計算每兩個初始網(wǎng)頁文本內(nèi)容之間基于密度的相似度,并根據(jù)初始網(wǎng) 頁文本內(nèi)容之間基于密度的相似度確定譜聚類的最佳類別數(shù)目;
[0047] 步驟S105,按照網(wǎng)頁的鏈接