專利名稱:一種評價網(wǎng)絡(luò)資源價值的方法及其在搜索引擎領(lǐng)域的應(yīng)用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù),特別是涉及一種利用相關(guān)目標(biāo)的一種特定指標(biāo)——人氣指標(biāo)(PeopleRank)進(jìn)行檢索、歸納的方法及其在 搜索引擎領(lǐng)域的應(yīng)用。
背景技術(shù):
目前搜索引擎一般都是通過用戶輸入一個或一組關(guān)鍵詞或文字 片段,經(jīng)過檢索處理后,向用戶回饋相當(dāng)數(shù)量的包含該關(guān)鍵詞或文字 片段或者與其密切相關(guān)的網(wǎng)頁,以供用戶瀏覽、查檢所需的資訊。然而,互聯(lián)網(wǎng)上網(wǎng)頁數(shù)量極其巨大,而且仍然在以空前的速度高 速增長,如果仍然按照傳統(tǒng)的搜索處理模式,即搜索引擎運(yùn)營商將其 搜集到的數(shù)量驚人的網(wǎng)頁資源經(jīng)以筒單地分析處理,進(jìn)行歸類備用, 那么按照用戶的輸入源經(jīng)搜索所得的相關(guān)網(wǎng)頁數(shù)量通常都是極其巨 大,但是其中大部分為低價值甚至無價值的網(wǎng)頁資源,這些無價值的 或近似于無價值的網(wǎng)頁大大增加了處理的難度,并將嚴(yán)重干擾處理的 結(jié)果,從而有可能使得呈現(xiàn)給用戶的往往是價值甚微的資源,這將嚴(yán) 重浪費(fèi)用戶的時間和精力,間接的也將造成網(wǎng)絡(luò)資源的浪費(fèi)。怎樣才能將那些真正的滿足客戶需要的網(wǎng)頁篩選出來優(yōu)先提供給客戶,即在提供給客戶的反饋內(nèi)容中能夠真實反映客戶需求的內(nèi)容 優(yōu)先排列,是完全符合用戶的利益的。因此如何判斷用戶的興趣所在 就成了搜索引擎運(yùn)營商必須解決的問題。對檢索所得的網(wǎng)頁進(jìn)行相關(guān)性評價,就成了搜索領(lǐng)域技術(shù)中的關(guān) 鍵。目前,關(guān)于網(wǎng)頁的相關(guān)性的評價方法很多,其大都注重某一方面 能反映客戶需求或意圖的因素,如檢索詞或句子的匹配程度、網(wǎng)頁鏈 接關(guān)系等,但是,僅僅利用這樣的檢索處理方法所得到的網(wǎng)頁往往包 含了諸多的復(fù)雜因素,很難準(zhǔn)確地提供與客戶實際需要緊密相連的搜 索資源。因此,目前還沒有一種較為完備的、成熟的可以較全面反映 網(wǎng)頁價值的評價方法。經(jīng)過長期實踐,發(fā)現(xiàn)現(xiàn)有的大多數(shù)網(wǎng)頁中均包含有各類的與人相 關(guān)的因素,而這些人的因素對于網(wǎng)頁的質(zhì)量評價至關(guān)重要,能最大限 度的反映該網(wǎng)頁對于用戶興趣、意圖所蘊(yùn)含的價值,也就是利用這些 人的因素可使網(wǎng)頁的質(zhì)量評價更加貼近用戶的真實需求,從而使得所 作出的評價更加準(zhǔn)確,本發(fā)明正是根據(jù)這些人的因素為任一網(wǎng)絡(luò)資源確定一權(quán)值,該權(quán)值稱為PeapleRank值(簡稱為PR值)。 發(fā)明內(nèi)容針對現(xiàn)有搜索技術(shù)中存在的缺陷和不足,本發(fā)明的一個目的在于 提供一種網(wǎng)絡(luò)資源的價值評價方法,利用該方法可以有效評價網(wǎng)頁資 源對搜索用戶的價值衡量,從而可以將高質(zhì)量的、真正符合用戶搜索 意圖的網(wǎng)頁資源優(yōu)先提供給用戶,以減少用戶瀏覽、查檢網(wǎng)頁的時間,提高用戶的搜索效能。本發(fā)明的另 一個目的在于提供一種將該網(wǎng)絡(luò)資源價值評估方法 應(yīng)用于網(wǎng)絡(luò)搜索引擎的方法,利用本發(fā)明的網(wǎng)絡(luò)資源評價方法,可以 使得網(wǎng)絡(luò)搜索時,給予搜索到的網(wǎng)絡(luò)資源更為準(zhǔn)確的權(quán)值,利用該權(quán) 值, 一方面可以剔出那些無價值或價值甚微的網(wǎng)絡(luò)資源,另一方面可 以將與用戶真實意圖更為貼切的資源優(yōu)先排列呈給用戶。本發(fā)明的技術(shù)方案如下 一種評價網(wǎng)絡(luò)資源價值的方法,其特征在于 包括以下步驟1) 提取數(shù)據(jù),提取網(wǎng)絡(luò)資源上所包含的特定的與人相關(guān)的基本 因素;2) 處理數(shù)據(jù),結(jié)合采樣時間計算該基本因素的變化率;3)確定權(quán)值,根據(jù)該基本因素及其變化率計算并賦予該網(wǎng)絡(luò)資源 一確定的代表其質(zhì)量價值的權(quán)值。所述提取數(shù)據(jù)步驟中的基本因素包括發(fā)生時間因素;用戶閱讀 數(shù)量因素,如該網(wǎng)絡(luò)資源的點擊數(shù)或瀏覽數(shù);相似內(nèi)容數(shù)量因素;關(guān) 聯(lián)及推薦關(guān)系因素;作者價值因素;網(wǎng)站價值因素。其中,除了發(fā)生時間因素;用戶閱讀數(shù)量因素,如該網(wǎng)絡(luò)資源的 點擊數(shù)或瀏覽數(shù)可以直接獲得外,網(wǎng)絡(luò)資源的相似內(nèi)容數(shù)量因素、關(guān) 聯(lián)及推薦關(guān)系因素、作者價值因素、網(wǎng)站價值因素等都需要進(jìn)一步加 工才能轉(zhuǎn)換為可計算的基本因素。最后將各個基本因素按照設(shè)定的函 數(shù)關(guān)系變換為網(wǎng)絡(luò)資源的PeopleRank權(quán)值。所述需要進(jìn)一步加工的基本因素的處理方法包括 1 )根據(jù)網(wǎng)絡(luò)資源內(nèi)容,計算出其被轉(zhuǎn)發(fā)及與其相似的網(wǎng)絡(luò)資源的 數(shù)量數(shù)據(jù),并依據(jù)該數(shù)據(jù)計算該網(wǎng)絡(luò)資源的相似內(nèi)容數(shù)量權(quán)值。2) 根據(jù)網(wǎng)絡(luò)資源之間的推薦或關(guān)聯(lián)關(guān)系,并基于以下特性計算該 網(wǎng)絡(luò)資源的關(guān)聯(lián)及推薦關(guān)系因素(1 ) 一個網(wǎng)絡(luò)資源被他人引 用的越多,則越有^介值;(2)被價值高的網(wǎng)絡(luò)資源所引用的資 源,其價值也高。關(guān)聯(lián)及推薦關(guān)系因素通常以某種迭代計算算 法實現(xiàn)。3) 根據(jù)該網(wǎng)絡(luò)資源作者的相關(guān)網(wǎng)絡(luò)資源經(jīng)迭代計算,確定作者價 值,并依據(jù)該作者價值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計算 通常為正反饋式系統(tǒng)。4) 根據(jù)該網(wǎng)絡(luò)資源所在網(wǎng)站經(jīng)迭代計算,確定該網(wǎng)站價值,并依 據(jù)該網(wǎng)站價值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計算通常為正 反饋式系統(tǒng)。所述各基本因素按照多點采樣時間計算其變化率。所述的評價網(wǎng)絡(luò)資源價值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照如上所述的價值評價方法,根據(jù)熱點網(wǎng)絡(luò)資源在一定時期內(nèi)變化率高的特性,結(jié)合網(wǎng)絡(luò)資源的類別信息,可以按照權(quán)值高低排序輸出各類別的熱點網(wǎng)絡(luò)資源。所述的評價網(wǎng)絡(luò)資源價值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照如上所述的價值評價方法,賦予搜索到的各網(wǎng)絡(luò)資源權(quán)值,并篩選剔除權(quán)值較低的網(wǎng)絡(luò)資源。所述的評價網(wǎng)絡(luò)資源相關(guān)性價值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照如上所述的價值評價方法,賦予搜索到的 各網(wǎng)絡(luò)資源權(quán)值,利用該權(quán)值參與引擎查詢結(jié)果的排序,使高質(zhì)量的 網(wǎng)頁優(yōu)先提供。本發(fā)明的技術(shù)效果本發(fā)明的評價網(wǎng)絡(luò)資源價值的方法,通過提取網(wǎng)絡(luò)資源上所包含 的特定的與人相關(guān)的基本因素,并結(jié)合采樣時間計算該基本因素的變 化率,從而根據(jù)該基本因素及變化率賦予該網(wǎng)絡(luò)資源一確定的能代表 其相關(guān)性價值的權(quán)值,即Pe(DpleRank值(簡稱PR值)。由于該P(yáng)R值不但與網(wǎng)絡(luò)資源中抽取的特定的與人相關(guān)的因素相 關(guān),而且與所提取因素的時間因素也相關(guān),因此采用這種方法確定的 PR值不但可以反映其可能符合用戶需要的程度,而且還可以有效反 應(yīng)該網(wǎng)絡(luò)資源是否仍然在人們的關(guān)注期內(nèi),即可以反映出那些曾經(jīng)引 人關(guān)注而目前已無人問津的網(wǎng)絡(luò)資源。正是這種自網(wǎng)絡(luò)資源提取的相關(guān)因素及與該因素的采樣時間之 間的相互作用,反映出了該網(wǎng)絡(luò)資源的受人關(guān)注的變化狀態(tài),這種時 間因素的作用,對于那些時效性較強(qiáng)的新聞類網(wǎng)絡(luò)資源尤其重要。People Rank就是將上述各種與人相關(guān)的因素通過一定的數(shù)學(xué)模 型,合成為綜合的價值權(quán)重。不同網(wǎng)頁(即網(wǎng)絡(luò)資源,以下皆簡稱網(wǎng)頁)擁有不同的人為因素, 因此針對不同類別的網(wǎng)頁,People Rank包含的因素也不同。對于不同的網(wǎng)絡(luò)資源而言,其包含有不同側(cè)重的人為因素,基本歸納起來,包括六種基本因素 發(fā)生時間因素;用戶閱讀數(shù)量因素,*^r^^^^W r相似內(nèi)容數(shù)量因素;關(guān)聯(lián)及推薦關(guān)系因素;作者價值因素;網(wǎng)站價值因素等。其中發(fā)生時間、網(wǎng)絡(luò)資源點擊數(shù)或瀏覽數(shù)提取后即可按照一定的 系數(shù)比例參與PR值的計算,其他因素都需要做進(jìn)一步分析轉(zhuǎn)換,即 按照某種設(shè)定的函數(shù)關(guān)系才能變換為可計算的基本因素。其中,對于相似內(nèi)容數(shù)量而言,其被轉(zhuǎn)發(fā)的數(shù)量以及網(wǎng)絡(luò)中存在 的相似網(wǎng)頁的數(shù)量反映了其受人關(guān)注的程度,因此通過計算其被轉(zhuǎn)發(fā) 的數(shù)量以及存在的與其相似的網(wǎng)頁的數(shù)量數(shù)據(jù),并依據(jù)該數(shù)據(jù)結(jié)合采 樣時間因素即可確定該網(wǎng)絡(luò)資源的權(quán)值——PR值。同理,對于關(guān)聯(lián)及推薦關(guān)系而言,各網(wǎng)頁之間的推薦或關(guān)聯(lián)特性,符合以下規(guī)律(1)網(wǎng)頁被他人引用的越多,則說明該網(wǎng)頁越有價值;(2)被價值高的網(wǎng)頁資源所引用的資源,其價值必定也高,因此基于這種規(guī)律可以獲得各網(wǎng)頁的推薦和引用數(shù)據(jù),并結(jié)合時間因素確定該網(wǎng)絡(luò)資源的權(quán)值——PR值。對于作者價值來說,根據(jù)該作者的網(wǎng)頁的People Rank數(shù)據(jù)反饋計算該作者^H直。計算初始階段,所有作者價值完全相同,通過對作 者發(fā)表文章的分析,可以得到該作者不同階段的價值權(quán)值一一PR值,這些價值權(quán)值隨迭代計算的推進(jìn),分別成為該作者后續(xù)發(fā)表文章的反饋價值權(quán)值因素,由于采用正反饋式迭代計算,Rank合成需要控制 作者的放大系數(shù),以防止其影響其它因素的作用。 網(wǎng)站價值的分析計算與作者關(guān)系相似。正是基于上述的各種與人相關(guān)的基本因素,再加上多點采樣時間 (即時間因素),可以計算各種基本因素的變化率。將基本因素和基 本因素的變化率輸入,根據(jù)一定的數(shù)學(xué)模型,合成為最終的反映網(wǎng)頁 價值的單一數(shù)值——People Rank值。熱點網(wǎng)頁的重要特性是當(dāng)前時刻受到廣泛關(guān)注,其相關(guān)因素的變 化率比較高,通過這一特征,利用上述的評價網(wǎng)絡(luò)資源價值的方法, 再加上類別信息,可以輸出各類別的熱點網(wǎng)頁,即熱點分析。People Rank本身就是網(wǎng)頁價值的重要評價參數(shù),因此可以利用 上述的評價網(wǎng)絡(luò)資源價值的方法確定搜索到的網(wǎng)頁其PR值,根據(jù)該 PR值,剔除那些價值不高的網(wǎng)頁,篩選出其中最有價值的網(wǎng)頁,以 提高搜索過程中后續(xù)網(wǎng)頁處理的質(zhì)量和效率。同理,該P(yáng)R值可以參與引擎查詢結(jié)果的排序計算,使高質(zhì)量的 網(wǎng)頁優(yōu)先排在前面,改善搜索引擎排序質(zhì)量。
圖1為PR值分析合成示意框圖;圖2為本發(fā)明在搜索領(lǐng)域的應(yīng)用示意框圖;圖3為時間衰減函數(shù)f (x)=l_eA(-1/x)的圖形。
具體實施方式
以下結(jié)合附圖對本發(fā)明做進(jìn)一步說明。如圖1, Rank合成器1為一預(yù)先設(shè)定的數(shù)學(xué)模型。以下給出一種 具體的Rank合成算法的實施例。等價關(guān)系因各基本因素差異太大,我們對它做歸一處理;通過 大量統(tǒng)計及人類社會學(xué)特征,我們確定因素1價值=因素2價值=......=因素6價值。即認(rèn)為它們在一定值下對Rank作用等價。Rank= (£用戶閱讀因素等價+ S相似內(nèi)容數(shù)量因素等價+2:網(wǎng) 頁關(guān)聯(lián)/推薦價值等價)*作者價值因素價值*網(wǎng)站價值因素價值 *發(fā)生時間因素例其中時間衰減函數(shù)f (x)=l-e"(-l/x)的圖形如附圖3所示。 其中,時間越新,Rank值越大;時間越舊,Rank值越??;符合 時間衰減規(guī)律。發(fā)生時間因素,此因素通??梢栽谧ト【W(wǎng)頁時獲得。 用戶閱讀數(shù)量因素3,如該網(wǎng)絡(luò)資源的點擊數(shù)或瀏覽數(shù),通常可 以在抓取網(wǎng)頁時從頁面中抽取用戶閱讀數(shù)量的信息而獲得;此因素可 以直接作為基本因素,結(jié)合發(fā)生時間2 (即時間因素)進(jìn)行變化率分 析,獲得變化率因素,再將做為基本因素的閱讀數(shù)量與該變化率因素 輸入Rank合成器1中進(jìn)行合成輸出該基本因素的PR值。其中發(fā)生時 間2為多點采樣時間。相似內(nèi)容數(shù)量因素4,經(jīng)過內(nèi)容相關(guān)分析41,即通過計算其被轉(zhuǎn)發(fā)的數(shù)量以及存在的與其相似的網(wǎng)頁的數(shù)量數(shù)據(jù)獲得相關(guān)因素,該相 關(guān)因素作為基本因素結(jié)合發(fā)生時間2 (即時間因素)進(jìn)行變化率分析, 獲得變化率因素。相似內(nèi)容數(shù)量因素的進(jìn)一步加工可以利用自然語言處理技術(shù)中的文本相似性分析技術(shù)來實現(xiàn)。以下給出一種實現(xiàn)方式根據(jù)網(wǎng)絡(luò)資源的文本內(nèi)容,計算出給該資源的一個特征向量X,該特征向量的維度為n。再根據(jù)所有網(wǎng)絡(luò)資源的特征向量,計算不同特征向量之間的相似度R,再由相似度的不同閥值確定網(wǎng)絡(luò)資源內(nèi)容是否相同、相關(guān)、無關(guān)。特征向量的相似度R的計算公式其中X:特征向量,X(xl,x2,x3,…,xn);n:特征向量維度,1<= k <= n;i,j:特征向量Xi、 Xj的下標(biāo),表示第i,j篇網(wǎng)頁;Rij :第i, j篇網(wǎng)頁的相似度;例<formula>formula see original document page 13</formula> \ =sqrt (900+900+900+900+400) =sqrt (4000)Rij = 3800/( sqrt(4200)* sqrt(4000)) = 0.927即這兩篇文章i, j的相似度Rij為0. 927再由閥值確定與該篇文章相同內(nèi)容頁數(shù)即網(wǎng)頁被轉(zhuǎn)發(fā)數(shù)量;與該篇文章相關(guān)內(nèi)容頁數(shù)即網(wǎng)頁內(nèi)容相似數(shù)量; 再將做為基本因素的相似內(nèi)容數(shù)量因素與該變化率因素輸入 Rank合成器1中進(jìn)行合成并輸出該相關(guān)因素的PR值。其中發(fā)生時間 2為多點采樣時間。對于關(guān)聯(lián)及推薦關(guān)系因素5,經(jīng)過關(guān)聯(lián)關(guān)系分析51,根據(jù)網(wǎng)絡(luò)資 源之間的推薦或關(guān)聯(lián)關(guān)系,并基于以下特性計算該網(wǎng)絡(luò)資源的關(guān)聯(lián)及 推薦關(guān)系因素(1) 一個網(wǎng)絡(luò)資源被他人引用的越多,則越有價值; (2)被價值高的網(wǎng)絡(luò)資源所引用的資源,其價值也高。 這通??梢酝ㄟ^某種迭代計算算法實現(xiàn)。例如 網(wǎng)頁關(guān)聯(lián)/推薦價值=S被引用網(wǎng)站價值或作者價值或資源價 值/被引用數(shù)+ f (被引用數(shù))該關(guān)聯(lián)及推薦關(guān)系因素作為基本因素結(jié)合發(fā)生時間2 (即時間因 素)進(jìn)行變化率分析,獲得變化率因素,再將做為基本因素的推薦因 素與該變化率因素輸入Rank合成器1中進(jìn)行合成并輸出該推薦因素 的PR值。其中發(fā)生時間2為多點采樣時間。以下給出 一種具體的關(guān)聯(lián)及推薦關(guān)系因素的迭代計算方法; 第 一 步由作者價值和網(wǎng)站價值及被? 1用數(shù)計算網(wǎng)站每篇文章關(guān) 聯(lián)及推薦關(guān)系價值;第二步由第一步每篇文章的關(guān)聯(lián)/推薦價值,計算新的作者價值和網(wǎng)站1"介^直;由新的作者價值和網(wǎng)站價值、新的被引用網(wǎng)站價值和被引用數(shù)量,計算每篇文章的關(guān)聯(lián)/推薦價值;第n步由第n-1步的每篇文章的關(guān)聯(lián)/推薦價值,計算新的作者 價值和網(wǎng)站價值;由n-l步的作者價值和網(wǎng)站價值、被引用網(wǎng)站價值和被引用數(shù)量, 計算每篇文章的關(guān)聯(lián)/推薦價值;當(dāng)最近兩次關(guān)聯(lián)/推薦價值小于某一控制值時,關(guān)聯(lián)/推薦價值趨 于穩(wěn)定,結(jié)束運(yùn)算退出。對于作者價值因素6,進(jìn)行作者價值分析61,初始階段,作者價 值完全相同,通過對作者發(fā)表文章的分析,可以得到該作者不同階段 的價值權(quán)值——PR值,這些價值權(quán)值隨計算的推進(jìn),分別成為該作 者后續(xù)發(fā)表文章的反饋價值權(quán)值因素,根據(jù)該網(wǎng)絡(luò)資源作者的相關(guān)網(wǎng)絡(luò)資源經(jīng)迭代計算,確定作者價 值,并依據(jù)該作者價值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計算通常為 正反饋式系統(tǒng)。 一個可能的計算方式舉例如下提取網(wǎng)絡(luò)資源主題特征詞文章價值=S特征詞idf /特征詞總數(shù)+關(guān)聯(lián)/推薦價值 作者價值=S文章價值/文章總數(shù)由于釆用正反饋系統(tǒng),Rank合成需要控制作者的放大系數(shù),以防止其影響其它因素的作用。以下給出一種具體的作者價值因素的迭代計算方法;第一步由關(guān)聯(lián)/推薦價值及文章內(nèi)容價值計算網(wǎng)站每篇文章價值;由每篇文章價值計算網(wǎng)站價值;第二步由第一步的網(wǎng)站價值計算每篇文章的關(guān)聯(lián)/推薦價值;由新文章綜合價值、新的關(guān)聯(lián)/推薦價值和文章內(nèi)容價值計算網(wǎng)站每篇文章價值;由每篇文章新價值計算網(wǎng)站價值;第n步由第n-1步的網(wǎng)站價值計算每篇文章的關(guān)聯(lián)/推薦價值; 由新文章綜合價值、新的關(guān)聯(lián)/推薦價值和文章內(nèi)容價值計算網(wǎng)站每篇文章價值;由每篇文章新價值計算網(wǎng)站價值;............當(dāng)最近兩次作者價值小于某一控制值時,作者價值趨于穩(wěn)定,結(jié) 束運(yùn)算退出。對于網(wǎng)站價值因素7及其網(wǎng)站價值分析71,采用與作者關(guān)系因 素6相似的分析和計算方法,主要差異是網(wǎng)頁集合的分析粒度不同。根據(jù)該網(wǎng)絡(luò)資源所在網(wǎng)站經(jīng)迭代計算,確定該網(wǎng)站價值,并依據(jù) 該網(wǎng)站價值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭代計算通常為正反饋式系 統(tǒng)。 一個可能的計算方式舉例如下提取網(wǎng)絡(luò)資源主題特征詞i:文章價值- S特征詞idf /特征詞總數(shù)+關(guān)聯(lián)/推薦價值 網(wǎng)站價值=S文章價值/文章總數(shù)+新文章總數(shù)綜合價值 以下給出 一種具體的網(wǎng)站價值因素的迭代計算方法;第一步由關(guān)聯(lián)/推薦價值及文章內(nèi)容價值計算網(wǎng)站每篇文章價 值;由每篇文章價值計算網(wǎng)站價值;第二步由第一步的網(wǎng)站價值計算每篇文章的關(guān)聯(lián)/推薦價值;由 新文章綜合價值、新的關(guān)聯(lián)/推薦價值和文章內(nèi)容價值計算網(wǎng)站每篇 文章價值;由每篇文章新價值計算網(wǎng)站價值;第n步由第n-l步的網(wǎng)站價值計算每篇文章的關(guān)聯(lián)/推薦價值; 由新文章綜合價值、新的關(guān)聯(lián)/推薦價值和文章內(nèi)容價值計算網(wǎng)站每篇文章價值;由每篇文章新價值計算網(wǎng)站價值;............當(dāng)最近兩次網(wǎng)站價值小于某一控制值時,網(wǎng)站價值趨于穩(wěn)定,結(jié) 束運(yùn)算退出。如圖2所示為本發(fā)明的PR值在搜索引擎領(lǐng)域中的三種不同應(yīng)用。 首先通過網(wǎng)頁提取8進(jìn)行網(wǎng)頁抓取及內(nèi)容抽取,按照上述方法由Rank合成器1確定該網(wǎng)頁的PR值,其后PR值可以分三路應(yīng)用至搜索引擎領(lǐng)域中其一,結(jié)合網(wǎng)頁分類81的信息,輸出各類別的熱點網(wǎng)頁,即熱 點分析82。如各種排行榜等。其二,根據(jù)PR值,剔除那些價值不高的網(wǎng)頁,篩選出其中最有 價值的網(wǎng)頁,以提高搜索過程中后續(xù)網(wǎng)頁處理的質(zhì)量和效率,即網(wǎng)頁 篩選83。其三,PR值可以參與引擎查詢結(jié)杲的排序計算即搜索結(jié)果排序 84,使高質(zhì)量的網(wǎng)頁優(yōu)先排在前面,改善搜索引擎排序質(zhì)量。綜上所述,利用本發(fā)明的網(wǎng)頁價值評價方法,即利用PR值可以 有效評價網(wǎng)頁資源對搜索用戶的價值,從而優(yōu)先提供高質(zhì)量的、真正 符合用戶搜索意圖的網(wǎng)頁資源給用戶,以減少用戶瀏覽、查才t網(wǎng)頁的 時間,提高用戶的檢索效能。當(dāng)然,以上實施例中所例舉的具體計算方式,僅僅為可能的計算 方式中之一,對于本領(lǐng)域的技術(shù)人員而言,依據(jù)相同的技術(shù)目的,還 可以采用其它的具體的計算方式,但這種具體計算方式的改變和不 同,并不影響其實質(zhì)依然歸屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
1. 一種評價網(wǎng)絡(luò)資源價值的方法,其特征在于包括以下步驟1)提取數(shù)據(jù),提取網(wǎng)絡(luò)資源上所包含的特定的與人相關(guān)的基本因素;2)處理數(shù)據(jù),結(jié)合采樣時間計算該基本因素的變化率;3)確定權(quán)值,根據(jù)該基本因素及其變化率賦予該網(wǎng)絡(luò)資源一確定的代表其相關(guān)性價值的權(quán)值。
2. 如權(quán)利要求l所述的方法,其特征在于所述提取數(shù)據(jù)步驟中的 基本因素包括發(fā)生時間因素、用戶閱讀數(shù)量因素、相似內(nèi)容數(shù)量 因素、關(guān)聯(lián)及推薦關(guān)系因素、作者價值因素、網(wǎng)站價值因素,其 中,相似內(nèi)容數(shù)量因素、關(guān)聯(lián)及推薦關(guān)系因素、作者價值因素、 網(wǎng)站價值因素需要按照設(shè)定的函數(shù)關(guān)系變換為可計算的基本因 素。
3. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)網(wǎng)絡(luò)資源內(nèi)容,計算出其被轉(zhuǎn)發(fā)及與其相似的網(wǎng)絡(luò)資源的數(shù) 量數(shù)據(jù),并依據(jù)該數(shù)據(jù)計算該網(wǎng)絡(luò)資源的相似內(nèi)容數(shù)量權(quán)值。
4. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)網(wǎng)絡(luò)資源之間的推薦或關(guān)聯(lián)關(guān)系,并基于以下特性計算該網(wǎng) 絡(luò)資源的關(guān)聯(lián)及推薦關(guān)系因素(1) 一個網(wǎng)絡(luò)資源被他人引用的越多,則越有價值;(2)被價值高的網(wǎng)絡(luò)資源所引用的資源,其 價值也高。
5. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)該網(wǎng)絡(luò)資源作者的相關(guān)網(wǎng)絡(luò)資源經(jīng)迭代 計算,確定作者價值,并依據(jù)該作者價值確定該網(wǎng)絡(luò)資源的權(quán)值, 所述迭代計算為正反饋式系統(tǒng)。
6. 如權(quán)利要求2所述的方法,其特征在于所述需要變換的基本因 素的處理方法包括根據(jù)該網(wǎng)絡(luò)資源所在網(wǎng)站經(jīng)迭代計算,確定 該網(wǎng)站價值,并依據(jù)該網(wǎng)站價值確定該網(wǎng)絡(luò)資源的權(quán)值,所述迭 代計算通常為正反饋式系統(tǒng)。
7. 如權(quán)利要求3-6所述的任一方法,其特征在于所述各基本因素 按照多點采樣時間計算其變化率。
8. 如權(quán)利要求1所述的評價網(wǎng)絡(luò)資源相關(guān)性價值方法在搜索引擎 領(lǐng)域的一種應(yīng)用方法,其特征在于按照權(quán)利要求l所述的價值 評價方法,根據(jù)熱點網(wǎng)絡(luò)資源在一定時期內(nèi)變化率高的特性,結(jié) 合網(wǎng)絡(luò)資源的類別信息,可以按照權(quán)值高低排序輸出各類別的熱 點網(wǎng)絡(luò)資源。
9. 如權(quán)利要求1所述的評價網(wǎng)絡(luò)資源相關(guān)性價值方法在搜索引擎 領(lǐng)域的一種應(yīng)用方法,其特征在于按照權(quán)利要求l所述的價值 評價方法,賦予搜索到的各網(wǎng)絡(luò)資源權(quán)值,并篩選剔除權(quán)值較低 的網(wǎng)絡(luò)資源。
10. 如權(quán)利要求1所述的評價網(wǎng)絡(luò)資源相關(guān)性價值方法在搜索引擎領(lǐng)域的一種應(yīng)用方法,其特征在于按照權(quán)利要求l所述的價值評價方法,賦予搜索到的各網(wǎng)絡(luò)資源權(quán)值,利用該權(quán)值參與引擎 查詢結(jié)果的排序,使高質(zhì)量的網(wǎng)頁優(yōu)先提供。
全文摘要
本發(fā)明提供一種網(wǎng)絡(luò)資源的價值評價方法,利用該方法可以有效評價網(wǎng)頁資源對搜索用戶的價值衡量,從而可以有效的將高質(zhì)量的、真正符合用戶搜索意圖的網(wǎng)頁資源優(yōu)先提供給用戶,以減少用戶瀏覽、查檢網(wǎng)頁的時間,提高用戶的搜索效能,本發(fā)明還提供將該網(wǎng)絡(luò)資源價值評估方法應(yīng)用于網(wǎng)絡(luò)搜索引擎的方法。利用本發(fā)明的價值評價方法,可以使得網(wǎng)絡(luò)搜索時,給予搜索到的網(wǎng)絡(luò)資源更為準(zhǔn)確的權(quán)值,利用該權(quán)值,一方面可以剔出那些無價值或價值甚微的網(wǎng)絡(luò)資源,另一方面可以將與用戶真實意圖更為貼切的資源優(yōu)先排列呈給用戶。
文檔編號G06F17/30GK101281519SQ20071006506
公開日2008年10月8日 申請日期2007年4月2日 優(yōu)先權(quán)日2007年4月2日
發(fā)明者劉旭平, 周鴻祎, 釗 李, 謝軍樣 申請人:奇智軟件(北京)有限公司