專利名稱:基于鏈接分析的個性化搜索引擎方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎,語義網(wǎng)絡(luò)領(lǐng)域,特別是涉及一種基于鏈接分析的個性化搜索引擎方法。
背景技術(shù):
近年來,搜索引擎因其能夠在幾乎無限的資源中為廣大用戶找到所需的信息而越來越受到重視。優(yōu)秀的搜索引擎也不斷涌現(xiàn),如Google,ODP等,這其中基于鏈接分析的第三代搜索引擎(如Google)則憑借其較高的搜索準確率而成為當前搜索引擎的主流。
然而當前搜索引擎仍然存在著查準率太低的問題,搜索結(jié)果充斥著太多的無用信息,因此個性化搜索一經(jīng)提出既成為當前國際上的一個研究熱點?,F(xiàn)有的個性化搜索引擎的普遍做法是先將用戶關(guān)心的問題分為若干個類別,然后根據(jù)一些統(tǒng)計信息記錄每個用戶對每個類別的興趣值,接著按照這些興趣值對搜索結(jié)果進行處理,使搜索結(jié)果偏向用戶感興趣的類別。這種方式還只是停留在對興趣分類的基礎(chǔ)上,而沒有對這些類別的關(guān)系進行描述。為了得到更好的效果,有必要引入新的模型來描述這種關(guān)系。概念網(wǎng)絡(luò)則在這里發(fā)揮作用,我們以概念網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建知識網(wǎng),更好的組織興趣類別,同時作為描述用戶興趣的模型。
同時,現(xiàn)有方法還有一個共同的不足之處就是他們沒有充分利用包含在鏈接網(wǎng)絡(luò)結(jié)構(gòu)上的信息?,F(xiàn)有鏈接分析技術(shù)的基礎(chǔ)是“一致鏈接網(wǎng)絡(luò)”,即網(wǎng)絡(luò)結(jié)構(gòu)中所有鏈接都是一致的,如圖2所示。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于鏈接分析的個性化搜索引擎方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案如下1)用戶輸入搜索詞,在知識網(wǎng)絡(luò)中找到對應(yīng)的節(jié)點;其中知識網(wǎng)絡(luò)是一個定量表示概念之間關(guān)系的結(jié)構(gòu);2)根據(jù)知識網(wǎng)絡(luò)中的鄰接關(guān)系,擴散步驟(1)中的知識網(wǎng)絡(luò)節(jié)點得到一個概念節(jié)點集合;3)為概念節(jié)點集合中的每個節(jié)點在多態(tài)鏈接網(wǎng)絡(luò)中計算排序值,方法可采用目前很成熟的PageRank鏈接分析算法;其中多態(tài)鏈接網(wǎng)絡(luò)在原有網(wǎng)絡(luò)鏈接結(jié)構(gòu)之上添加了鏈接的類別信息;4)最后根據(jù)知識網(wǎng)絡(luò)中的權(quán)重,求前面得到的排序值的加權(quán)和,得到最終的排序值。
1.步驟(1)中知識網(wǎng)絡(luò)在概念層次關(guān)系的基礎(chǔ)上,為這些層次關(guān)系添加一個0~1之間的權(quán)值,來表示用戶對這種關(guān)系的認可程度;在用戶的使用過程中,根據(jù)搜索結(jié)果中概念節(jié)點的出現(xiàn)的次數(shù)、用戶的反饋信息來更新知識網(wǎng)絡(luò),使得在用戶與系統(tǒng)多次交互后,知識網(wǎng)絡(luò)能夠趨向于反映用戶的偏好。
2.步驟(3)中多態(tài)鏈接網(wǎng)絡(luò)是按照知識網(wǎng)絡(luò)定義的概念節(jié)點,對鏈接進行分類;這樣除了在原來的A到B的鏈接表達的A和B有關(guān)系的基礎(chǔ)上,還可以進一步表達A和B因為知識網(wǎng)絡(luò)中對應(yīng)節(jié)點定義的原因而有關(guān)系;分類允許重復(fù),也允許某些鏈接沒有被分到任何類;其中A、B代表多態(tài)鏈接網(wǎng)絡(luò)中任意兩有鏈接的節(jié)點。
3.步驟(3)中多態(tài)鏈接網(wǎng)絡(luò)的更新采用靜態(tài)的分析方法使用TF-IDF方法為每個概念節(jié)點統(tǒng)計多態(tài)鏈接網(wǎng)絡(luò)中每個節(jié)點的權(quán)重,取其中前N位的作為該多態(tài)鏈接網(wǎng)絡(luò)節(jié)點的關(guān)鍵詞集合;然后觀察關(guān)鍵字集合有重合的兩個節(jié)點,如果已經(jīng)存在鏈接,那么給該鏈接添加關(guān)鍵詞集合中的重合元素;否則給兩個節(jié)點添加一條新鏈接,同樣給該新鏈接添加關(guān)鍵詞集合中的重合元素;其中N根據(jù)多態(tài)鏈接網(wǎng)絡(luò)的規(guī)模來確定;TF-IDF的計算公式如下概念節(jié)點Ki在文檔Di中的權(quán)值為KKi,Di=FKi,Di×(Log2N/(NK,D+1))其中FKi,Di為概念節(jié)點Ki在文檔Di中的出現(xiàn)頻率;N為文檔集總數(shù),其中文檔是多態(tài)網(wǎng)絡(luò)中的節(jié)點;NK,D為文檔集中至少出現(xiàn)一次概念節(jié)點Ki的文檔數(shù);步驟(3)中多態(tài)鏈接網(wǎng)絡(luò)的更新也可以采用動態(tài)更新方法跟蹤用戶的檢索習慣,一段時間內(nèi)用戶檢索的行為通常只有一個主題,該主題從搜索詞中提??;通過分析用戶在某個文檔的停留時間,以及反饋信息來訪問歷史記錄,得到一個文檔集合;給該文檔集合中的文檔相互之間添加一條類別為通過檢索詞提取出來的若干個概念節(jié)點的鏈接。
4.步驟(3)中針對某個概念節(jié)點在多態(tài)鏈接網(wǎng)絡(luò)上使用PageRank算法時,將針對這一概念節(jié)點為每條鏈接評估一個權(quán)值,鏈接被分為三種1)與本次概念節(jié)點擁有相同類別的鏈接,權(quán)值為1;2)沒有任何類別信息的鏈接,權(quán)值為α;3)有類別信息,但是與本次概念節(jié)點不符合的鏈接,權(quán)值為β;
一個文檔A有文檔T1、T2...Tn指向它,那么A的PageRank值計算方式如下PR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))其中d一個0到1的系數(shù);C(A)A指向的文檔數(shù)目;f(A,Tx)A與Tx之間鏈接的權(quán)值。
本發(fā)明與背景技術(shù)相比,具有的有益的效果是本發(fā)明是一種用于建立個性化搜索引擎的機制。它適用于搭建因特網(wǎng)或者企業(yè)內(nèi)部網(wǎng)絡(luò)的搜索引擎。本發(fā)明的方法是通過建立知識網(wǎng)絡(luò)模型描述用戶興趣,建立多態(tài)鏈接網(wǎng)絡(luò)記錄網(wǎng)絡(luò)節(jié)點之間鏈接的不同類別,修改PageRank算法以適應(yīng)多態(tài)鏈接網(wǎng)絡(luò),進而在此基礎(chǔ)上展開鏈接分析得到搜索結(jié)果。本發(fā)明是建立在包含信息更加豐富,且與原始鏈接網(wǎng)絡(luò)保持兼容的多態(tài)鏈接網(wǎng)絡(luò)基礎(chǔ)上,加上個性化知識網(wǎng)絡(luò)在描述用戶興趣的方面的可伸縮性,從而保證了更高的準確率和更廣的適用性。
圖1為知識網(wǎng)絡(luò),概念提取自O(shè)DP搜索引擎;圖2為原始的各鏈接一致的鏈接網(wǎng)絡(luò);圖3為多態(tài)鏈接網(wǎng)絡(luò),其中不同線型表示三種不同類別的鏈接,黑色實線表示該鏈接沒有被分類,鏈接的類別是可以重復(fù)的。
具體實施例方式
本發(fā)明實施的關(guān)鍵有三點知識網(wǎng)絡(luò)、多態(tài)鏈接網(wǎng)絡(luò)的建立和維護,查詢時排序值的計算。其中知識網(wǎng)絡(luò)、多態(tài)鏈接網(wǎng)絡(luò)是本發(fā)明實施的基礎(chǔ)。
1.知識網(wǎng)絡(luò)的建立和維護知識網(wǎng)絡(luò)是在概念網(wǎng)絡(luò)的基礎(chǔ)上添加了權(quán)值,來定量的表示用戶對概念之間關(guān)系的一種結(jié)構(gòu),如圖1。概念節(jié)點可以在Yahoo!、ODP等目前非常流行的目錄搜索引擎中提取。初始化時,將在ODP中有關(guān)系的兩個節(jié)點之間的權(quán)值設(shè)置為1,否則設(shè)置為0。
知識網(wǎng)絡(luò)的維護可以在用戶的使用過程中,根據(jù)文中概念節(jié)點的出現(xiàn)的次數(shù)、用戶的反饋信息來更新知識網(wǎng)絡(luò)。當用戶和系統(tǒng)多次交互后,這個知識網(wǎng)絡(luò)就逼近于用戶對概念的真實理解。
2.多態(tài)鏈接網(wǎng)絡(luò)的建立和維護鏈接關(guān)系也是可以分類的。因特網(wǎng)上的超鏈接類型很多,有一般的網(wǎng)頁鏈接、對圖片的鏈接、email鏈接等等。類似的,把這些鏈接針對某個領(lǐng)域進行更細的分類,就形成了“多態(tài)鏈接網(wǎng)絡(luò)”,如圖3。
多態(tài)鏈接網(wǎng)絡(luò)存在靜態(tài)更新和動態(tài)更新兩種方式。在多態(tài)鏈接網(wǎng)絡(luò)建立時,可以根據(jù)需要選擇適量的靜態(tài)更新;而在系統(tǒng)運行過程中,實施動態(tài)更新。需要說明的是,即使在初始化時候完全不實施靜態(tài)更新方式也可以運行,但是搜索結(jié)果卻不能反映個性化搜索結(jié)果。詳細可參看下一點。
3.排序值的計算在這里假設(shè)知識網(wǎng)絡(luò)和多態(tài)鏈接網(wǎng)絡(luò)都是相對固定的。
排序算法步驟如下根據(jù)用戶輸入的搜索詞在知識網(wǎng)絡(luò)中找到一個最符合的節(jié)點;然后選取與該概念節(jié)點相鄰的其他節(jié)點;針對每個選出的節(jié)點在多態(tài)網(wǎng)絡(luò)中為每條鏈接評估一個權(quán)值,再為每個文檔根據(jù)修改過的PageRank算法求得表示在該概念節(jié)點意義下的排序值;最后將所有排序值加權(quán)求和得到最終的排序結(jié)果。其中,由于知識網(wǎng)絡(luò)是個性化的,所以得到的節(jié)點以及最后的組合方式都會不同,從而最終的排序值也會不同,再結(jié)合對文檔和搜索詞的相關(guān)性分析,就會得到不同的搜索結(jié)果。
把所有具有直接鏈接關(guān)系的節(jié)點(權(quán)值不為0)作為相關(guān)參考節(jié)點集合(下面稱為RelatedSet)。由于為鏈接新引入了權(quán)值,必須修改PageRank算法。
在原來的PageRank算法中,一個文檔A有文檔T1、T2...Tn指向它。那么A的PageRank值計算方式如下PR(A)=(1-d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn)) (1.1)其中d是一個0到1的系數(shù),而C(A)則是表示A指向的文檔數(shù)目。
在引入多態(tài)鏈接網(wǎng)絡(luò)后,我們將其改變?nèi)缦翽R(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))(1.2)其中f(A,T)為A和T之間鏈接的權(quán)值,定義如下 根據(jù)試驗結(jié)果,我們把α和β分別設(shè)置為0.15和0.01。
某個文檔在特定的搜索主題下排序值計算公式如下
Rank(query,doc)=Σtopic∈RelatedSet∪{word}{Weight(topic,word)*...(1.4)]]>其中PunishFactor(topic,query)*Rank(doc,topic)}doc需要排序的文檔;query搜索詞;Weighf(topic,query)知識網(wǎng)絡(luò)中定義的權(quán)值;PunishFactor(topic,query)當前檢查的節(jié)點topic與query之間的關(guān)系。為了區(qū)別搜索節(jié)點query和擴展后RelatedSet中的節(jié)點。顯然擴展節(jié)點的貢獻應(yīng)該相對小,所以將其定義為PunishFactor(w,w0)=1/kDistance(w,w0),其中Distance(topic,word)是Topic和word之間最小的邊數(shù),直接鏈接,則為1,k是控制收斂速度的參數(shù),可以設(shè)置為2;Rank(doc,topic)公式1.1定義的doc在概念節(jié)點topic意義下的PageRank值。
最終的排序結(jié)果還需要考察文檔與搜索主題之間的關(guān)聯(lián)程度,綜合給出評判,這已非本發(fā)明的內(nèi)容,故不再詳細敘述。
權(quán)利要求
1.一種基于鏈接分析的個性化搜索引擎方法, 其特征在于1)用戶輸入搜索詞,在知識網(wǎng)絡(luò)中找到對應(yīng)的節(jié)點;其中知識網(wǎng)絡(luò)是一個定量表示概念之間關(guān)系的結(jié)構(gòu);2)根據(jù)知識網(wǎng)絡(luò)中的鄰接關(guān)系,擴散步驟(1)中的知識網(wǎng)絡(luò)節(jié)點得到一個概念節(jié)點集合;3)為概念節(jié)點集合中的每個節(jié)點在多態(tài)鏈接網(wǎng)絡(luò)中計算排序值,方法可采用目前很成熟的PageRank鏈接分析算法;其中多態(tài)鏈接網(wǎng)絡(luò)在原有網(wǎng)絡(luò)鏈接結(jié)構(gòu)之上添加了鏈接的類別信息;4)最后根據(jù)知識網(wǎng)絡(luò)中的權(quán)重,求前面得到的排序值的加權(quán)和,得到最終的排序值。
2.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的個性化搜索引擎方法,其特征在于步驟(1)中知識網(wǎng)絡(luò)在概念層次關(guān)系的基礎(chǔ)上,為這些層次關(guān)系添加一個0~1之間的權(quán)值,來表示用戶對這種關(guān)系的認可程度;在用戶的使用過程中,根據(jù)搜索結(jié)果中概念節(jié)點的出現(xiàn)的次數(shù)、用戶的反饋信息來更新知識網(wǎng)絡(luò),使得在用戶與系統(tǒng)多次交互后,知識網(wǎng)絡(luò)能夠趨向于反映用戶的偏好。
3.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的個性化搜索引擎方法,其特征在于步驟(3)中多態(tài)鏈接網(wǎng)絡(luò)是按照知識網(wǎng)絡(luò)定義的概念節(jié)點,對鏈接進行分類;這樣除了在原來的A到B的鏈接表達的A和B有關(guān)系的基礎(chǔ)上,還可以進一步表達A和B因為知識網(wǎng)絡(luò)中對應(yīng)節(jié)點定義的原因而有關(guān)系;分類允許重復(fù),也允許某些鏈接沒有被分到任何類;其中A、B代表多態(tài)鏈接網(wǎng)絡(luò)中任意兩有鏈接的節(jié)點。
4.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的個性化搜索引擎方法,其特征在于步驟(3)中多態(tài)鏈接網(wǎng)絡(luò)的更新采用靜態(tài)的分析方法使用TF-IDF方法為每個概念節(jié)點統(tǒng)計多態(tài)鏈接網(wǎng)絡(luò)中每個節(jié)點的權(quán)重,取其中前N位的作為該多態(tài)鏈接網(wǎng)絡(luò)節(jié)點的關(guān)鍵詞集合;然后觀察關(guān)鍵字集合有重合的兩個節(jié)點,如果已經(jīng)存在鏈接,那么給該鏈接添加關(guān)鍵詞集合中的重合元素;否則給兩個節(jié)點添加一條新鏈接,同樣給該新鏈接添加關(guān)鍵詞集合中的重合元素;其中N根據(jù)多態(tài)鏈接網(wǎng)絡(luò)的規(guī)模來確定;TF-IDF的計算公式如下概念節(jié)點Ki在文檔Di中的權(quán)值為KKi,Di=FKi,Di×(Log2N/(NK,D+1))其中FKi,Di為概念節(jié)點Ki在文檔Di中的出現(xiàn)頻率;N為文檔集總數(shù),其中文檔是多態(tài)網(wǎng)絡(luò)中的節(jié)點;NK,D為文檔集中至少出現(xiàn)一次概念節(jié)點Ki的文檔數(shù);步驟(3)中多態(tài)鏈接網(wǎng)絡(luò)的更新也可以采用動態(tài)更新方法跟蹤用戶的檢索習慣,一段時間內(nèi)用戶檢索的行為通常只有一個主題,該主題從搜索詞中提??;通過分析用戶在某個文檔的停留時間,以及反饋信息來訪問歷史記錄,得到一個文檔集合;給該文檔集合中的文檔相互之間添加一條類別為通過檢索詞提取出來的若干個概念節(jié)點的鏈接。
5.根據(jù)權(quán)利要求1所述的一種基于鏈接分析的個性化搜索引擎方法,其特征在于步驟(3)中針對某個概念節(jié)點在多態(tài)鏈接網(wǎng)絡(luò)上使用PageRank算法時,將針對這一概念節(jié)點為每條鏈接評估一個權(quán)值,鏈接被分為三種1)與本次概念節(jié)點擁有相同類別的鏈接,權(quán)值為1;2)沒有任何類別信息的鏈接,權(quán)值為α;3)有類別信息,但是與本次概念節(jié)點不符合的鏈接,權(quán)值為β;一個文檔A有文檔T1、T2...Tn指向它,那么A的PageRank值計算方式如下PR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))其中d一個0到1的系數(shù);C(A)A指向的文檔數(shù)目;f(A,Tx)A與Tx之間鏈接的權(quán)值。
全文摘要
本發(fā)明公開了一種基于鏈接分析的個性化搜索引擎方法。是通過建立知識網(wǎng)絡(luò)模型描述用戶興趣,建立多態(tài)鏈接網(wǎng)絡(luò)記錄網(wǎng)絡(luò)節(jié)點之間鏈接的不同類別,進而在此基礎(chǔ)上展開鏈接分析得到搜索結(jié)果。本發(fā)明是建立在包含信息更加豐富,且與原始鏈接網(wǎng)絡(luò)保持兼容的多態(tài)鏈接網(wǎng)絡(luò)基礎(chǔ)上,加上個性化知識網(wǎng)絡(luò)在描述用戶興趣的方面的可伸縮性,從而保證了更高的準確率和更廣的適用性。
文檔編號G06F17/30GK1710560SQ200510050198
公開日2005年12月21日 申請日期2005年6月22日 優(yōu)先權(quán)日2005年6月22日
發(fā)明者卜佳俊, 陳純, 莫林劍, 婁水勇 申請人:浙江大學(xué)