專利名稱:一種對排序結(jié)果進行驗證的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電信業(yè)務(wù)中的信息搜索應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種對 排序結(jié)果進行驗證的方法和系統(tǒng)。
背景技術(shù):
在信息大爆炸的時代,用戶需要更準確定位所需分類信息,由此衍 生出垂直搜索技術(shù)以滿足客戶日益增長變化的需求。為實現(xiàn)此目的,搜 索引擎需要不斷根據(jù)客戶需求完善其自身的排序規(guī)則,使之做到準確、 合理、高效。
大多數(shù)搜索產(chǎn)品在面臨新增排序需求或調(diào)整排序結(jié)果時,并不能較 完美的滿足用戶需求,無法較好的按照客戶業(yè)務(wù)需求進行排序,搜索結(jié) 果不盡如人意。急需在排序算法調(diào)整后對搜索結(jié)果的準確性做完備的驗 證,但目前業(yè)內(nèi)尚無較好的方法對搜索結(jié)果的排序進行衡量,主要存在
如下問題
1、 大多情況下,搜索結(jié)果的排序效果需要依靠人工的方式進行驗 證,再對比業(yè)務(wù)需求修改排序參數(shù)來優(yōu)化排序效果,效率低。
2、 對排序效果的判斷存在個人主觀性,無法完全客觀反映驗證實 際情況。
3、 對排序效果的衡量沒有可量化的標準,無法對各類排序算法或 算法不同參數(shù)組合的排序結(jié)果進行自動對比。
發(fā)明內(nèi)容
本發(fā)明提出 一種對排序結(jié)果進行驗證的方法和系統(tǒng),可以對多個搜 索算法的效果進行比較,并提高檢驗排序結(jié)果的效率。
根據(jù)本發(fā)明的一個方面,提出一種對排序結(jié)果進行驗證的方法,包括以下步驟搜索引擎根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果,并對搜索結(jié) 果標注位置序號,得到用位置序號組成的搜索結(jié)果序列;將各搜索結(jié)果 劃分成具有權(quán)重系數(shù)的多個信息文本,根據(jù)關(guān)鍵詞與信息文本的匹配次 數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度r ,
其中,p表示關(guān)鍵詞在字段中的匹配次數(shù),
w表示權(quán)重系數(shù);根據(jù)對信息文本設(shè)定的業(yè)務(wù)M和權(quán)重系數(shù)計算信息
豐富度C, c二Fl l + F2、2 + i^w3 +…+ f^而,其中,W表示權(quán)重系 數(shù),U氣—,>F *W ;根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)
按分數(shù)大小順序排列排序分數(shù),并將搜索引擎搜索結(jié) 果中的位置序號對應(yīng)標注到各排序后分數(shù),得到用位置序號組成的排序
結(jié)果序列;計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜 索結(jié)果序列的相似度;將相似度與配置的閾值進行比較,并記錄比較結(jié) 果,在比較結(jié)果中包括相似度大于閾值的次數(shù)以及相似度小于閾值的次 數(shù);當比較結(jié)果中相似度大于閣值的次數(shù)大于設(shè)定次數(shù),或者比較結(jié)果 中相似度小于閾值的次數(shù)小于設(shè)定次數(shù),搜索引擎的排序結(jié)果未通過驗 證,否則通過驗i正。
進一步,計算用位置序號組成的排序結(jié)果序列與用位置序號組成的 搜索結(jié)果序列的相似度的操作,包括以下步驟計算排序結(jié)果序列中位 置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值;將各計 算結(jié)果進行加和運算得到相似度。
進一步,計算差值的絕對值的操作,還包括對各差值的絕對值配以 權(quán)重系數(shù)的步驟。
進一步,計算用位置序號組成的排序結(jié)果序列與用位置序號組成的
搜索結(jié)果序列的相似度的操作,包括以下步驟計算排序結(jié)果序列中兩 個位置序號的差值的絕對值,并將各計算結(jié)果進4亍加和運算得到絕對排 序結(jié)果序列;計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕 對值,并將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列;將絕對排 序結(jié)果序列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
進一步,將相似度與配置的閾值進行比較,并記錄比較結(jié)果的操作,包括以下步驟判斷相似度是否大于配置的閾值,如果是,將記錄 結(jié)杲中相似度大于閾值的次數(shù)加1,否則,將相似度小于閾值的次數(shù)加 1;或者判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi), 如果是,將記錄結(jié)果中相似度小于閾值的次數(shù)加1,否則,將記錄結(jié)果 中相似度大于閾值的次數(shù)加1。
進一步,將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分 數(shù)的操作,還包括以下步驟當計算得到的排序分數(shù)相同時,將位置序
:排序后分數(shù)。 、 、 、 ;、
根據(jù)本發(fā)明的另一個方面,還提出一種對排序結(jié)果進行驗證的系 統(tǒng),包括搜索引擎,根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果,對搜索結(jié)果 標注位置序號,并得到用位置序號組成的搜索結(jié)果序列;信息相關(guān)度計 算模塊,將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本,根據(jù)關(guān)鍵 詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度r,
"p"wl""M^ +…+ ;^濯,其中,p表示關(guān)鍵詞在字段中的匹配次數(shù),
w表示權(quán)重系數(shù);信息豐富度計算模塊,根據(jù)各搜索結(jié)果對信息文本設(shè) 定的業(yè)務(wù)條件和權(quán)重系數(shù)計算信息豐富度c ,
c = ^l*wl + F2*w2 + F3*w3 + ... + F"*ww ,其中,w 表示權(quán)重系數(shù),
UVV一/^氣;排序分數(shù)計算模塊,根據(jù)信息相關(guān)度和信息豐富度計
算排序分數(shù)ww + ^m/;按分數(shù)大小順序排列排序分數(shù),將搜索引 擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù),并得到用位置序號 組成的排序結(jié)果序列;相似度計算才莫塊,計算用位置序號組成的排序結(jié)
果序列與用位置序號組成的搜索結(jié)果序列的相似度;配置^=莫塊,配置相 似度閾值;比較模塊,將相似度與配置的閾值進行比較,并記錄比較結(jié) 果,當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù),或者比較結(jié)果 中相似度小于閾值的次數(shù)小于設(shè)定次數(shù),搜索引擎的排序結(jié)果未通過驗 證,否則通過驗證。
進一步,相似度計算模塊計算排序結(jié)果序列中位置序號與搜索結(jié)果 序列中相應(yīng)位置的位置序號的差值的絕對值,并將各計算結(jié)果進行加和運算得到相似度。
進一步,相似度計算模塊還對各差值的絕對值配以權(quán)重系數(shù)。 進一步,相似度計算模塊計算排序結(jié)果序列中兩個位置序號的差值
的絕對值,并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列;計算 搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值,并將各計算 結(jié)果進行加和運算得到絕對搜索結(jié)果序列;將絕對糸夂序結(jié)果序列與絕對 搜索結(jié)果序列的差值的絕對值作為相似度。
進一步,比較模塊判斷相似度是否大于配置的閾值,如果是,將相 似度大于閾值的次數(shù)加1,否則,將相似度小于閾值的次數(shù)加1;或者 比較模塊判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi), 如果是,將記錄結(jié)果中相似度小于閱值的次數(shù)加1,否則,將記錄結(jié)果 中相似度大于閾值的次數(shù)加1。
進一步,排序分數(shù)計算模塊在排序分數(shù)相同時,將位置序號在搜索 結(jié)果序列中的排列順序按照排序分數(shù)的排列順序標注到對應(yīng)的各排序后 分數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點和效果
提出排序相似度作為比較排序算法效果的量化指標,通過簡化搜索 方法及相似度計算得出合理的衡量標準,可以對多個搜索算法的效果進 行比較。
提供了科學的方法,構(gòu)造一個自動檢驗搜索排序結(jié)果的系統(tǒng),通過 自動量化而非人工的方式對搜索排序結(jié)果進行驗證,大大減少了檢驗排 序效果的人為主觀性,提高檢驗排序結(jié)果的效率。
圖l為本發(fā)明一種對排序結(jié)果進行驗證的方法流程圖。 圖2為本發(fā)明一種對排序結(jié)果進行l(wèi)^正的系統(tǒng)結(jié)構(gòu)圖。
具體實施例方式
垂直搜索引擎在面臨新增調(diào)整需求時,需要通過調(diào)整排序算法或參
9數(shù)來實現(xiàn)相關(guān)功能,但目前對于頻繁調(diào)整后的排序結(jié)果無較好方式進行自動化測試及量化衡量,這給后續(xù)用戶體驗帶來了 一定的風險。
本發(fā)明的目的是提出一種搜索結(jié)果排序效果的量化指標,并根據(jù)這一指標創(chuàng)建一套切實可用的排序驗證規(guī)則,將排序算法的實現(xiàn)結(jié)果通過量化數(shù)字的形式進行展現(xiàn),可以使測試人員更為直^見和全面的對各類情況進行客觀判斷,進一步做到排序的自動化測試驗證,簡化排序算法的優(yōu)化過程,使排序算法能夠最大限度的滿足產(chǎn)品需求。
下面將結(jié)合具體實施方式
和實施例詳細說明本發(fā)明。
圖l為本發(fā)明一種對排序結(jié)果進行l(wèi)^的方法流程圖。在步驟101,搜索引擎根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果,并對搜索結(jié)果標注位置序號,得到用位置序號組成的搜索結(jié)果序列。
在步驟102,將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本,根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度 r, r = pi* wl + p2* w2 + ... +戸*簡, 信息相關(guān)度是指關(guān)鍵詞和信息文本
的匹配度。其中,p表示關(guān)鍵詞在字段中的匹配次數(shù),w表示字段權(quán)重。
一般的搜索過程可能對若干個字段進行檢索,并有一個比較復(fù)雜的
計算公式用于計算關(guān)鍵詞在這些字^:中的相關(guān)度。本發(fā)明可將這一過程簡化為以搜索關(guān)鍵詞在字段的匹配次數(shù)和字段權(quán)重來決定其相關(guān)度。例如信息包含字段企業(yè)名稱、企業(yè)簡介,其優(yōu)先級順序企業(yè)名稱->企業(yè)簡介。假設(shè)對關(guān)鍵字"星巴克,,搜索的N條結(jié)果中,其中一條記錄A在企業(yè)名稱字典出現(xiàn)次數(shù)為2,在企業(yè)簡介字段出現(xiàn)次數(shù)為2,則得到信息相關(guān)度值2+2=4。
在步驟103,根據(jù)設(shè)定的業(yè)務(wù)條件以及各業(yè)務(wù)條件的權(quán)重系數(shù),計算搜索結(jié)果所包含的信息文本的信息豐富度c,即當信息文本與設(shè)定的業(yè)務(wù)條件匹配時,將該業(yè)務(wù)條件對應(yīng)的權(quán)重系數(shù)相加得到信息豐富度。
c = Fl*wl + F2*w2 + F3*w3 + ... + F" w ,其中,W 表示權(quán)重系數(shù),UvV,:^Z氣。信息豐富度是指由若干個業(yè)務(wù)條〗牛,每個條件按照一定的權(quán)重計算得到的信息指數(shù)。例如業(yè)務(wù)規(guī)則定義了 一個信息豐富度加盟商戶一>是否有圖片展示一>是否有預(yù)定服務(wù)_>是否地圖標注一>是否有點評信息—>商戶簡
介信息量從多到少(權(quán)值遞減) 一>商戶字段總量從多到少。信息豐富度的值是根據(jù)該排序設(shè)定一個公式得出,這個值可以在測試中直接得到。假設(shè)對記錄A根據(jù)公式得到信息豐富度值為0.218,且該值總是小于l。
在步驟104,根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)score = "w + c*w' > 其中信息相關(guān)度優(yōu)先級w高于信息豐富度優(yōu)先級w,。假設(shè)記錄A得到的相關(guān)度r=4,信息豐富度c=0.218,取w=10,w,=l,則得到記錄A的排序分數(shù)score=4 x 10+0.218=40.218。
在步驟105,按分數(shù)大小順序排列排序分數(shù),并將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù),得到用位置序號組成的排序結(jié)果序列。
其中,將搜索引擎搜索結(jié)杲中的位置序號對應(yīng)標注到各排序后分數(shù)的操作,還包括以下步驟當計算得到的排序分數(shù)相同時,將位置序號
排序后分數(shù)。
在步驟106,計算用位置序號組成的排序結(jié)果序列與用位置序號組
成的搜索結(jié)果序列的相似度。其中,搜索引擎所采用的算法即被測試的搜索排序算法,算法中的參數(shù)可以改變。
假設(shè)對于關(guān)鍵字"星巴克",計算得到的排序分數(shù)score從大到小排列得到新的排序al,a2,a3,a5,a6,a4,a7,a8,al0,a9,調(diào)用搜索引擎搜索得到10條結(jié)果al,a2,a3,a4,a5,a6,a7,a8,a9,a10 (其中1, 2,…,n代表了位置信息)。下面通過實施例來說明計算相似度的實施例,但是,所述說明只是用于理解,并不是對本發(fā)明的限制。凡在此基礎(chǔ)上進行的變形和修改,都應(yīng)屬于本發(fā)明的保護范圍。
在第一實施例中,計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值,將各計算結(jié)果進行加和運算得到相似度。記S(A)為集合A關(guān)于算法S的排序序列,S,(A)為集合關(guān)于算法S, 的排序序列,"e^為A中的一個記錄,記P(a)為a在序列S(A)中的位 置,P,(a)為a在序列S,(A)中的位置。對于任意的"e力,D(a)叫P(a)-P,(a)l表示a在序列S(A)與序列S,(A)中的相對距離差。則排序相似度記 為"Z"(a》。
在JTk例子中,相似度值為<formula>formula see original document page 12</formula>在第"二實施例中,計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中
相應(yīng)位置的位置序號的差值的絕對值,對各差值的絕對值配以權(quán)重系
數(shù),再將各計算結(jié)果進^f于加和運算得到相似度。
不同位置的記錄,可通過配置權(quán)重決定其對最終相似度計算的影響
程度,記為其中,w,表示位置i的4又重。
在第三實施銜"中,計算排序結(jié)果序列中兩個位置序號的差值的絕對 值,并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列;計算搜索結(jié) 果序列中相應(yīng)位置的兩個位置序號的差值的絕對值,并將各計算結(jié)果進 行加和運算得到絕對搜索結(jié)果序列;將絕對排序結(jié)果序列與絕對搜索結(jié) 果序列的差值的絕對值作為相似度。
相似度計算公式為<formula>formula see original document page 12</formula>
其中P(a)是記錄a在排岸序列S(A)的tf皇,P,(a)是記錄a在排序 序列S,(A)的位置,S(A)和S,(A)是記錄集合A不同的排序結(jié)果。
在步驟107,將相似度與配置的閾值進行比較,并記錄比較結(jié)果, 在比較結(jié)果中包括相似度大于閾值的次數(shù)和相似度小于閾值的次數(shù)。
判斷相似度是否大于配置的閾值,如果是,將記錄結(jié)果中相似度大 于閾值的次數(shù)加l,否則,將相似度小于閾值的次數(shù)加1;或者
判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi),如果 是,將記錄結(jié)果中相似度小于閾值的次數(shù)加1,否則,將記錄結(jié)果中相 似度大于閾值的次數(shù)加1。
在步驟108,當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù), 或者比較結(jié)果中相似度小于閾值的次數(shù)小于設(shè)定次數(shù),搜索引擎的排序搜索引擎排序算法的參數(shù),重新執(zhí)行計算過 程。否則搜索引擎的排序結(jié)果通過驗證。其中,相似度大于或小于閾值 的次數(shù)是針對不同的關(guān)鍵詞得到的結(jié)果。這里所說的通過驗證是指搜索 結(jié)果能夠更加精確、準確的反映要搜索的信息,即通過上述判斷,可以 搜索到更加精確、準確的搜索結(jié)果。
跳轉(zhuǎn)到步驟109,跳轉(zhuǎn)到步驟110。本發(fā)明將相似度作為比較排序 算法效果的量化指標,通過簡化搜索方法及相似度計算得出合理的衡量 標準,可以對多個搜索算法的效果進行比較。
構(gòu)造一個自動檢驗搜索排序結(jié)果的系統(tǒng),通過自動量化而非人工的 方式對搜索排序結(jié)果進行驗證,大大減少了檢驗排序效果的人為主觀 性,提高檢驗排序結(jié)果的效率。
圖2為本發(fā)明一種對排序結(jié)果進行驗證的系統(tǒng)結(jié)構(gòu)圖。該系統(tǒng)包括 搜索引擎、信息相關(guān)度計算模塊、信息豐富度計算模塊、排序分數(shù)計算 模塊、相似度計算模塊、配置模塊以及比較模塊。
搜索引擎,根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果,對搜索結(jié)果標注位 置序號,并得到用位置序號組成的搜索結(jié)果序列。
信息相關(guān)度計算模塊,將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信 息文本,根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計 算信息相關(guān)度r, ^p"wl + p2、2 +…+ p^而,信息相關(guān)度是指搜索關(guān)鍵 詞和信息文本的匹配度。其中,p表示關(guān)鍵詞在字段中的匹配次數(shù),W 表示字段權(quán)重。
一般的搜索過程可能對若干個字段進行檢索,并有一個比較復(fù)雜的 計算公式用于計算關(guān)鍵詞在這些字段中的相關(guān)度。本發(fā)明可將這一過程 簡化為以搜索關(guān)鍵詞在字段的匹配次數(shù)和字段權(quán)重來決定其相關(guān)度。 例如信息包含字段企業(yè)名稱、企業(yè)簡介,其優(yōu)先級順序企業(yè)名稱-> 企業(yè)簡介。假設(shè)對關(guān)鍵字"星巴克,,搜索的N條結(jié)果中,其中一條記錄 A在企業(yè)名稱字典出現(xiàn)次數(shù)為2,在企業(yè)簡介字段出現(xiàn)次數(shù)為2,則得 到值2+2=4。
信息豐富度計算模塊,根據(jù)各搜索結(jié)果對信息文本設(shè)定的業(yè)務(wù)條件
13承wl +尸2傘w2 +尸3承w3 +…+尸w承w",其中, W表示權(quán)重系數(shù),UMv一i^氣。信息豐富度是指由若干個業(yè)務(wù)條 件,每個條件按照一定的權(quán)重計算得到的信息指數(shù)。
例如業(yè)務(wù)規(guī)則定義了一個信息豐富度加盟商戶~^>是否有圖片展 示一>是否有預(yù)定服務(wù)一>是否地圖標注一>是否有點評信息。假設(shè)對記 錄A根據(jù)公式得到信息豐富度值為0.218,且該值總是小于1。
排序分數(shù)計算模塊,根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)
"婦-"w + c ',按分數(shù)大小順序排列排序分數(shù),將搜索引擎搜索結(jié)果
中的位置序號對應(yīng)標注到各排序后分數(shù),并得到用4立置序號組成的排序
結(jié)果序列。其中信息相關(guān)度優(yōu)先級w高于信息豐富度優(yōu)先級w,。假設(shè) 記錄A得到的相關(guān)度F4,信息豐富度c-0.218,取>¥=10, w,=l,則得 到記錄A的排序分數(shù)score=4 x 10+0.218=40.218。
其中,排序分數(shù)計算模塊還在排序分數(shù)相同時,將位置序號在搜索
分數(shù)。 ,、 ; 口
相似度計算模塊,計算用位置序號組成的排序結(jié)果序列與用位置序 號組成的搜索結(jié)果序列的相似度。其中,搜索引擎所采用的算法即被測 試的搜索排序算法,算法中的參數(shù)可以改變。
假設(shè)對于關(guān)鍵字"星巴克",計算得到的排序分數(shù)score從大到小排 列得到新的排序al,a2,a3,a5,a6,a4,a7,a8,al0,a9,調(diào)用搜索引擎搜索得到 10條結(jié)果al,a2,a3,a4,a5,a6,a7,a8,a9,a10 (其中1, 2,…,n代表了位置信 息)。下面通過實施例來說明計算相似度的實施例,但是,所述說明只 是用于理解,并不是對本發(fā)明的限制。凡在此基礎(chǔ)上進行的變形和修 改,都應(yīng)屬于本發(fā)明的保護范圍。
在第一實施例中,相似度計算模塊計算排序結(jié)果序列中位置序號與 搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值,并將各計算結(jié)果 進行加和運算得到相似度。
記S(A)為集合A關(guān)于算法S的排序序列,S,(A)為集合關(guān)于算法S, 的排序序列,"e^為A中的一個記錄,記P(a)為a在序列S(A)中的位置,P,(a)為a在序列S,(A)中的位置。對于任意的。e^, D(a)叫P(a)-P,(a)l表示a在序列S(A)與序列S,(A)中的相對距離差。則排序相似度記 為"S"")。
在_£敘例子中,相似度值為
10
d = S"("') = "("4) + 0(a5) + "("6) + "("9) + "010) = 2 + 1 + 1 + 1 + 1 = 6。
在第'二實施例中,相似度計算模塊計算排序結(jié)果序列中位置序號與 搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值,還對各差值的絕 對值配以權(quán)重系數(shù),再將各計算結(jié)果進行加和運算得到相似度。
不同位置的記錄,可通過配置權(quán)重決定其對最終相似度計算的影響
程度,記為d=ZZ)("》*W,,其中,w,表示位置i的4又重。
在第三實施荷"中,相似度計算模塊計算排序結(jié)果序列中兩個位置序
號的差值的絕對值,并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序
列;計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值,并 將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列;將絕對排序結(jié)果序
列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
相似度計算公式為》p(",)-卜;|)-11 。 其中P(a)是記錄a在排岸序列S(A)的tf皇,P,(a)是記錄a在排序 序列S,(A)的位置,S(A)和S,(A)是記錄集合A不同的排序結(jié)果。 配置模塊,配置相似度閾值。
比較模塊,將相似度與配置的閾值進行比較,并記錄比較結(jié)果,當 比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù),或者比較結(jié)果中相似 度小于閾值的次數(shù)小于設(shè)定次數(shù),搜索引擎的排序結(jié)果未通過驗證,否 則通過驗證。這里所說的通過驗證是指搜索結(jié)果能夠更加精確、準確的 反映要搜索的信息,即通過上述判斷,可以搜索到更加精確、準確的搜 索結(jié)果。
比較模塊判斷相似度是否大于配置的閾值,如果是,將相似度大于 閾值的次數(shù)加l,否則,將相似度小于閾值的次數(shù)加l;或者
比較模塊判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍 內(nèi),如果是,將記錄結(jié)果中相似度小于閾值的次數(shù)加1,否則,將記錄結(jié)果中相似度大于閾值的次數(shù)加1。
本發(fā)明主要驗證信息相關(guān)度和信息豐富度相結(jié)合的排序方式的合理 性。其中,信息相關(guān)度是指搜索關(guān)鍵詞和信息文本的匹配程度。信息豐 富度是指由若干個業(yè)務(wù)條件,每個條件按照一定的權(quán)重計算得到的信息 指數(shù)。對信息相關(guān)度和信息豐富度通過一套簡化的算法得到比較直觀的 排序結(jié)果,并以此結(jié)果為標準,將其與搜索引擎系統(tǒng)得出的排序結(jié)果進 行比較計算,得到對相同關(guān)鍵字的兩份排序相似度的值,該值越小則相 似度越高,即認為搜索引擎系統(tǒng)的排序結(jié)果的可接受程序越高。
下面通過具體的實施例來說明本發(fā)明的排序效果。
對關(guān)鍵字"紅星,,和"大通"的搜索排序結(jié)果進行驗證。其中,在 計算相似度時根據(jù)兩個排序結(jié)果中的每條記錄的相對距離差值的和進行
計算。搜索結(jié)果僅打印出標題title, score為排序值,source position表 示搜索系統(tǒng)排序結(jié)果,dest position表示簡化算法排序結(jié)果,relevent value表示相似度值。
關(guān)鍵字紅星
計算結(jié)果
1— title
2— title
3— title
4— title
5— title
6— title
7— title
8— title
9— title
石井街紅星社區(qū)衛(wèi)生服務(wù)站
紅星電腦繡花制衣有限/>司
紅星針織廠
紅星儀器有限公司
紅星電線廠
紅星幼兒園
score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.0234375 score : 10.0234375
小紅星幼兒園
石井農(nóng)村信用合作社紅星分社score : 10.0234375 紅星通iK店 score : 10.0234375
10— title:紅星篩網(wǎng)廠 score : 10.0234375
source position: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10
dest position1, 2, 3, 4, 5, 6, 7, 8,9,闊 relevent value : 0
關(guān)鍵字大通 計算結(jié)果
1— title:廣東大通市場研究有限公司score : 10.02734375
2- title:大通證券股份有限公司廣州體育西路證券營業(yè)部score :
10.0234375
3-title:碧大通訊器材經(jīng)營部score :10.0234375
4-title:大通國際運輸有限公司廣州分公司score : 10.0234375
5-title:大通成科技有限公司score j10.0234375
6—title:大通才幾電經(jīng)營部score10.0234375
7—title:大通磨具廠score :10.0234375
8—title:廣東浩大通訊設(shè)備有限公司score j10.02734375
9—title:大通電子有限公司score 10.01953125
10--title::大通電子廠score j10.01953125
source position:
[1, 2, 3, 4, 5, 6, 7, 8, 9,10
dest position
[1, 8, 2, 3, 4, 5, 6, 7, 9, 10
relevent value : 12
從以下結(jié)果可以看到,對關(guān)鍵字"紅星"的排序結(jié)果準確率為 100%,對關(guān)鍵字"大通"的相似度值為12,排序結(jié)果是否合理可以根 據(jù)該值判斷。可靈活設(shè)置閾值,假設(shè)閾值為10,那么此次的排序結(jié)果不 合理。
本發(fā)明適用于對搜索排序結(jié)果進行自動化的驗證和排序算法參數(shù)的 自動優(yōu)化。
權(quán)利要求
1.一種對排序結(jié)果進行驗證的方法,包括以下步驟搜索引擎根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果,并對搜索結(jié)果標注位置序號,得到用位置序號組成的搜索結(jié)果序列;將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本,根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度r,r=p1*w1+p2*w2+...+pn*wn,其中,p表示關(guān)鍵詞在字段中的匹配次數(shù),w表示權(quán)重系數(shù);根據(jù)對信息文本設(shè)定的業(yè)務(wù)條件和權(quán)重系數(shù)計算信息豐富度c,c=F1*w1+F2*w2+F3*w3+...+Fn*wn,其中,w表示權(quán)重系數(shù),F(xiàn)n-1*wn-1>Fn*wn;根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)score=r*w+c*w′;按分數(shù)大小順序排列排序分數(shù),并將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù),得到用位置序號組成的排序結(jié)果序列;計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度;將相似度與配置的閾值進行比較,并記錄比較結(jié)果,在比較結(jié)果中包括相似度大于閾值的次數(shù)以及相似度小于閾值的次數(shù);當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù),或者比較結(jié)果中相似度小于閾值的次數(shù)小于設(shè)定次數(shù),搜索引擎的排序結(jié)果未通過驗證,否則通過驗證。
2. 根據(jù)權(quán)利要求1所述對排序結(jié)果進行驗證的方法,其中,計算 用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相 似度的操作,包括以下步驟計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值;將各計算結(jié)果進行加和運算得到相似度。
3. 根據(jù)權(quán)利要求2所述對排序結(jié)果進行驗證的方法,其中,計算差值的絕對值的操作,還包括對各差值的絕對值配以權(quán)重系數(shù)的步驟。
4. 根據(jù)權(quán)利要求l所述對排序結(jié)果進行驗證的方法,其中,計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度的操作,包括以下步驟計算排序結(jié)果序列中兩個位置序號的差值的絕對值,并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列;計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值,并 將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列;將絕對排序結(jié)果序列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
5. 根據(jù)權(quán)利要求1所述對排序結(jié)果進行驗證的方法,其中,將相 似度與配置的閾值進行比較,并記錄比較結(jié)果的操作,包括以下步驟判斷相似度是否大于配置的閣值,如果是,將記錄結(jié)果中相似度大 于閾值的次數(shù)加l,否則,將相似度小于閾值的次數(shù)加l;或者判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi),如果 是,將記錄結(jié)果中相似度小于閾值的次數(shù)加1,否則,將記錄結(jié)果中相 似度大于閾值的次數(shù)加1。
6. 根據(jù)權(quán)利要求1所述對排序結(jié)果進行驗證的方法,其中,將搜 索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)的操作,還包括 以下步驟當計算得到的排序分數(shù)相同時,將位置序號在搜索結(jié)果序列中的排 列順序按照排序分數(shù)的排列順序標注到對應(yīng)的各排序后分數(shù)。
7. —種對排序結(jié)果進行m^的系統(tǒng),包括搜索引擎,根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果,對搜索結(jié)果標注位 置序號,并得到用位置序號組成的搜索結(jié)果序列;信息相關(guān)度計算模塊,將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信 息文本,根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度 其中,p表示關(guān)鍵詞在字段中的匹配次數(shù),w表示權(quán)重系數(shù);3信息豐富度計算模塊,根據(jù)對信息文本設(shè)定的業(yè)務(wù)條件和權(quán)重系數(shù) 計算信息豐富度C, ^ = ^1*由尸2*^2 + ,3*^3 + ... +尸"*簡,其中,W表示 權(quán)重系數(shù),F(xiàn)"一 * w"一, >尸 * w ;排序分數(shù)計算模塊,根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)score 二r^v^ + c^vv、 按分數(shù)大小順序排列排序分數(shù),將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù),并得到用位置序號組成的排序結(jié)果序列;相似度計算模塊,計算用位置序號組成的排序結(jié)果序列與用位置序 號組成的搜索結(jié)果序列的相似度; 配置模塊,配置相似度閾值;比較模塊,將相似度與配置的閾值進行比較,并記錄比較結(jié)果,當 比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù),或者比較結(jié)果中相似 度小于閱值的次數(shù)小于設(shè)定次數(shù),搜索引擎的排序結(jié)果未通過驗證,否 則通過^ii。
8. 根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng),其中,相似 度計算模塊計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的 位置序號的差值的絕對值,并將各計算結(jié)果進行加和運算得到相似度。
9. 根據(jù)權(quán)利要求8所述對排序結(jié)果進行驗證的系統(tǒng),其中,相似 度計算模塊還對各差值的絕對值配以權(quán)重系數(shù)。
10. 根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng),其中,相似 度計算才莫塊計算排序結(jié)果序列中兩個位置序號的差值的絕對值,并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列;計算搜索結(jié)果序列中相 應(yīng)位置的兩個位置序號的差值的絕對值,并將各計算結(jié)果進行加和運算 得到絕對搜索結(jié)果序列;將絕對排序結(jié)果序列與絕對搜索結(jié)果序列的差 值的絕對值作為相似度。
11. 根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng),其中 比較模塊判斷相似度是否大于配置的閾值,如果是,將相似度大于閾值的次數(shù)加l,否則,將相似度小于閾值的次數(shù)加1;或者比較模塊判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi),如果是,將記錄結(jié)果中相似度小于閾值的次數(shù)加1,否則,將記錄 結(jié)果中相似度大于閾值的次數(shù)加1。
12.根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng),其中,排序 分數(shù)計算模塊在排序分數(shù)相同時,將位置序號在搜索結(jié)果序列中的排列 順序按照排序分數(shù)的排列順序標注到對應(yīng)的各排序后分數(shù)。
全文摘要
本發(fā)明提出一種對排序結(jié)果進行驗證的方法和系統(tǒng),根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果,并對搜索結(jié)果標注位置序號,得到用位置序號組成的搜索結(jié)果序列;計算信息相關(guān)度、信息豐富度以及排序分數(shù);按分數(shù)大小順序排列排序分數(shù),并將搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù),得到用位置序號組成的排序結(jié)果序列;計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度;將相似度與配置的閾值進行比較,記錄比較結(jié)果,并根據(jù)比較結(jié)果判斷排序結(jié)果是否通過驗證。本發(fā)明可以對多個搜索算法的效果進行比較,并提高檢驗排序結(jié)果的效率。
文檔編號G06F17/30GK101650746SQ20091017722
公開日2010年2月17日 申請日期2009年9月27日 優(yōu)先權(quán)日2009年9月27日
發(fā)明者余錦婷, 雄 徐, 楊翊平 申請人:中國電信股份有限公司