一種對排序結(jié)果進行驗證的方法和系統(tǒng)的制作方法

文檔序號：6580730閱讀：178來源：國知局

專利名稱：一種對排序結(jié)果進行驗證的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于電信業(yè)務(wù)中的信息搜索應(yīng)用技術(shù)領(lǐng)域，尤其涉及一種對排序結(jié)果進行驗證的方法和系統(tǒng)。
背景技術(shù)：
在信息大爆炸的時代，用戶需要更準確定位所需分類信息，由此衍生出垂直搜索技術(shù)以滿足客戶日益增長變化的需求。為實現(xiàn)此目的，搜索引擎需要不斷根據(jù)客戶需求完善其自身的排序規(guī)則，使之做到準確、合理、高效。
大多數(shù)搜索產(chǎn)品在面臨新增排序需求或調(diào)整排序結(jié)果時，并不能較完美的滿足用戶需求，無法較好的按照客戶業(yè)務(wù)需求進行排序，搜索結(jié) 果不盡如人意。急需在排序算法調(diào)整后對搜索結(jié)果的準確性做完備的驗證，但目前業(yè)內(nèi)尚無較好的方法對搜索結(jié)果的排序進行衡量，主要存在
如下問題
1、大多情況下，搜索結(jié)果的排序效果需要依靠人工的方式進行驗證，再對比業(yè)務(wù)需求修改排序參數(shù)來優(yōu)化排序效果，效率低。
2、對排序效果的判斷存在個人主觀性，無法完全客觀反映驗證實際情況。
3、對排序效果的衡量沒有可量化的標準，無法對各類排序算法或算法不同參數(shù)組合的排序結(jié)果進行自動對比。

發(fā)明內(nèi)容
本發(fā)明提出一種對排序結(jié)果進行驗證的方法和系統(tǒng)，可以對多個搜索算法的效果進行比較，并提高檢驗排序結(jié)果的效率。
根據(jù)本發(fā)明的一個方面，提出一種對排序結(jié)果進行驗證的方法，包括以下步驟搜索引擎根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果，并對搜索結(jié) 果標注位置序號，得到用位置序號組成的搜索結(jié)果序列；將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本，根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度r ，
其中，p表示關(guān)鍵詞在字段中的匹配次數(shù)，
w表示權(quán)重系數(shù)；根據(jù)對信息文本設(shè)定的業(yè)務(wù)M和權(quán)重系數(shù)計算信息
豐富度C, c二Fl l + F2、2 + i^w3 +…+ f^而，其中，W表示權(quán)重系數(shù)，U氣—，>F *W ;根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)
按分數(shù)大小順序排列排序分數(shù)，并將搜索引擎搜索結(jié) 果中的位置序號對應(yīng)標注到各排序后分數(shù)，得到用位置序號組成的排序
結(jié)果序列；計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度；將相似度與配置的閾值進行比較，并記錄比較結(jié) 果，在比較結(jié)果中包括相似度大于閾值的次數(shù)以及相似度小于閾值的次數(shù)；當比較結(jié)果中相似度大于閣值的次數(shù)大于設(shè)定次數(shù)，或者比較結(jié)果中相似度小于閾值的次數(shù)小于設(shè)定次數(shù)，搜索引擎的排序結(jié)果未通過驗證，否則通過驗i正。
進一步，計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度的操作，包括以下步驟計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值；將各計算結(jié)果進行加和運算得到相似度。
進一步，計算差值的絕對值的操作，還包括對各差值的絕對值配以權(quán)重系數(shù)的步驟。
進一步，計算用位置序號組成的排序結(jié)果序列與用位置序號組成的
搜索結(jié)果序列的相似度的操作，包括以下步驟計算排序結(jié)果序列中兩個位置序號的差值的絕對值，并將各計算結(jié)果進4亍加和運算得到絕對排序結(jié)果序列；計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列；將絕對排序結(jié)果序列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
進一步，將相似度與配置的閾值進行比較，并記錄比較結(jié)果的操作，包括以下步驟判斷相似度是否大于配置的閾值，如果是，將記錄結(jié)杲中相似度大于閾值的次數(shù)加1,否則，將相似度小于閾值的次數(shù)加 1;或者判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi)，如果是，將記錄結(jié)果中相似度小于閾值的次數(shù)加1，否則，將記錄結(jié)果中相似度大于閾值的次數(shù)加1。
進一步，將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)的操作，還包括以下步驟當計算得到的排序分數(shù)相同時，將位置序
:排序后分數(shù)。、、、；、
根據(jù)本發(fā)明的另一個方面，還提出一種對排序結(jié)果進行驗證的系統(tǒng)，包括搜索引擎，根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果，對搜索結(jié)果標注位置序號，并得到用位置序號組成的搜索結(jié)果序列；信息相關(guān)度計算模塊，將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本，根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度r，
"p"wl""M^ +…+ ;^濯，其中，p表示關(guān)鍵詞在字段中的匹配次數(shù)，
w表示權(quán)重系數(shù)；信息豐富度計算模塊，根據(jù)各搜索結(jié)果對信息文本設(shè) 定的業(yè)務(wù)條件和權(quán)重系數(shù)計算信息豐富度c ，
c = ^l*wl + F2*w2 + F3*w3 + ... + F"*ww ，其中,w 表示權(quán)重系數(shù)，
UVV一/^氣；排序分數(shù)計算模塊，根據(jù)信息相關(guān)度和信息豐富度計
算排序分數(shù)ww + ^m/;按分數(shù)大小順序排列排序分數(shù)，將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)，并得到用位置序號組成的排序結(jié)果序列；相似度計算才莫塊，計算用位置序號組成的排序結(jié)
果序列與用位置序號組成的搜索結(jié)果序列的相似度；配置^=莫塊，配置相似度閾值；比較模塊，將相似度與配置的閾值進行比較，并記錄比較結(jié) 果，當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù)，或者比較結(jié)果中相似度小于閾值的次數(shù)小于設(shè)定次數(shù)，搜索引擎的排序結(jié)果未通過驗證，否則通過驗證。
進一步，相似度計算模塊計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到相似度。
進一步，相似度計算模塊還對各差值的絕對值配以權(quán)重系數(shù)。進一步，相似度計算模塊計算排序結(jié)果序列中兩個位置序號的差值
的絕對值，并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列；計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列；將絕對糸夂序結(jié)果序列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
進一步，比較模塊判斷相似度是否大于配置的閾值，如果是，將相似度大于閾值的次數(shù)加1，否則，將相似度小于閾值的次數(shù)加1;或者比較模塊判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi)，如果是，將記錄結(jié)果中相似度小于閱值的次數(shù)加1，否則，將記錄結(jié)果中相似度大于閾值的次數(shù)加1。
進一步，排序分數(shù)計算模塊在排序分數(shù)相同時，將位置序號在搜索結(jié)果序列中的排列順序按照排序分數(shù)的排列順序標注到對應(yīng)的各排序后分數(shù)。
與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點和效果
提出排序相似度作為比較排序算法效果的量化指標，通過簡化搜索方法及相似度計算得出合理的衡量標準，可以對多個搜索算法的效果進行比較。
提供了科學的方法，構(gòu)造一個自動檢驗搜索排序結(jié)果的系統(tǒng)，通過自動量化而非人工的方式對搜索排序結(jié)果進行驗證，大大減少了檢驗排序效果的人為主觀性，提高檢驗排序結(jié)果的效率。

圖l為本發(fā)明一種對排序結(jié)果進行驗證的方法流程圖。圖2為本發(fā)明一種對排序結(jié)果進行l(wèi)^正的系統(tǒng)結(jié)構(gòu)圖。
具體實施例方式
垂直搜索引擎在面臨新增調(diào)整需求時，需要通過調(diào)整排序算法或參
9數(shù)來實現(xiàn)相關(guān)功能，但目前對于頻繁調(diào)整后的排序結(jié)果無較好方式進行自動化測試及量化衡量，這給后續(xù)用戶體驗帶來了一定的風險。
本發(fā)明的目的是提出一種搜索結(jié)果排序效果的量化指標，并根據(jù)這一指標創(chuàng)建一套切實可用的排序驗證規(guī)則，將排序算法的實現(xiàn)結(jié)果通過量化數(shù)字的形式進行展現(xiàn)，可以使測試人員更為直^見和全面的對各類情況進行客觀判斷，進一步做到排序的自動化測試驗證，簡化排序算法的優(yōu)化過程，使排序算法能夠最大限度的滿足產(chǎn)品需求。
下面將結(jié)合具體實施方式
和實施例詳細說明本發(fā)明。
圖l為本發(fā)明一種對排序結(jié)果進行l(wèi)^的方法流程圖。在步驟101，搜索引擎根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果，并對搜索結(jié)果標注位置序號，得到用位置序號組成的搜索結(jié)果序列。
在步驟102，將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本，根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度 r， r = pi* wl + p2* w2 + ... +戸*簡，信息相關(guān)度是指關(guān)鍵詞和信息文本
的匹配度。其中，p表示關(guān)鍵詞在字段中的匹配次數(shù)，w表示字段權(quán)重。
一般的搜索過程可能對若干個字段進行檢索，并有一個比較復(fù)雜的
計算公式用于計算關(guān)鍵詞在這些字^:中的相關(guān)度。本發(fā)明可將這一過程簡化為以搜索關(guān)鍵詞在字段的匹配次數(shù)和字段權(quán)重來決定其相關(guān)度。例如信息包含字段企業(yè)名稱、企業(yè)簡介，其優(yōu)先級順序企業(yè)名稱->企業(yè)簡介。假設(shè)對關(guān)鍵字"星巴克，，搜索的N條結(jié)果中，其中一條記錄A在企業(yè)名稱字典出現(xiàn)次數(shù)為2，在企業(yè)簡介字段出現(xiàn)次數(shù)為2，則得到信息相關(guān)度值2+2=4。
在步驟103，根據(jù)設(shè)定的業(yè)務(wù)條件以及各業(yè)務(wù)條件的權(quán)重系數(shù)，計算搜索結(jié)果所包含的信息文本的信息豐富度c，即當信息文本與設(shè)定的業(yè)務(wù)條件匹配時，將該業(yè)務(wù)條件對應(yīng)的權(quán)重系數(shù)相加得到信息豐富度。
c = Fl*wl + F2*w2 + F3*w3 + ... + F" w ,其中,W 表示權(quán)重系數(shù),UvV,:^Z氣。信息豐富度是指由若干個業(yè)務(wù)條〗牛，每個條件按照一定的權(quán)重計算得到的信息指數(shù)。例如業(yè)務(wù)規(guī)則定義了一個信息豐富度加盟商戶一>是否有圖片展示一>是否有預(yù)定服務(wù)_>是否地圖標注一>是否有點評信息—>商戶簡
介信息量從多到少(權(quán)值遞減) 一>商戶字段總量從多到少。信息豐富度的值是根據(jù)該排序設(shè)定一個公式得出，這個值可以在測試中直接得到。假設(shè)對記錄A根據(jù)公式得到信息豐富度值為0.218，且該值總是小于l。
在步驟104,根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)score = "w + c*w' > 其中信息相關(guān)度優(yōu)先級w高于信息豐富度優(yōu)先級w，。假設(shè)記錄A得到的相關(guān)度r=4，信息豐富度c=0.218，取w=10，w，=l，則得到記錄A的排序分數(shù)score=4 x 10+0.218=40.218。
在步驟105，按分數(shù)大小順序排列排序分數(shù)，并將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)，得到用位置序號組成的排序結(jié)果序列。
其中，將搜索引擎搜索結(jié)杲中的位置序號對應(yīng)標注到各排序后分數(shù)的操作，還包括以下步驟當計算得到的排序分數(shù)相同時，將位置序號
排序后分數(shù)。
在步驟106，計算用位置序號組成的排序結(jié)果序列與用位置序號組
成的搜索結(jié)果序列的相似度。其中，搜索引擎所采用的算法即被測試的搜索排序算法，算法中的參數(shù)可以改變。
假設(shè)對于關(guān)鍵字"星巴克"，計算得到的排序分數(shù)score從大到小排列得到新的排序al，a2,a3，a5，a6，a4，a7，a8，al0，a9,調(diào)用搜索引擎搜索得到10條結(jié)果al，a2，a3,a4，a5，a6，a7,a8，a9，a10 (其中1, 2，…，n代表了位置信息)。下面通過實施例來說明計算相似度的實施例，但是，所述說明只是用于理解，并不是對本發(fā)明的限制。凡在此基礎(chǔ)上進行的變形和修改，都應(yīng)屬于本發(fā)明的保護范圍。
在第一實施例中，計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值，將各計算結(jié)果進行加和運算得到相似度。記S(A)為集合A關(guān)于算法S的排序序列，S，(A)為集合關(guān)于算法S，的排序序列，"e^為A中的一個記錄，記P(a)為a在序列S(A)中的位置，P，(a)為a在序列S，(A)中的位置。對于任意的"e力，D(a)叫P(a)-P，(a)l表示a在序列S(A)與序列S，(A)中的相對距離差。則排序相似度記為"Z"(a》。
在JTk例子中，相似度值為<formula>formula see original document page 12</formula>在第"二實施例中，計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中
相應(yīng)位置的位置序號的差值的絕對值，對各差值的絕對值配以權(quán)重系
數(shù)，再將各計算結(jié)果進^f于加和運算得到相似度。
不同位置的記錄，可通過配置權(quán)重決定其對最終相似度計算的影響
程度，記為其中，w,表示位置i的4又重。
在第三實施銜"中，計算排序結(jié)果序列中兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列；計算搜索結(jié) 果序列中相應(yīng)位置的兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列;將絕對排序結(jié)果序列與絕對搜索結(jié) 果序列的差值的絕對值作為相似度。
相似度計算公式為<formula>formula see original document page 12</formula>
其中P(a)是記錄a在排岸序列S(A)的tf皇，P，(a)是記錄a在排序序列S，(A)的位置，S(A)和S，(A)是記錄集合A不同的排序結(jié)果。
在步驟107,將相似度與配置的閾值進行比較，并記錄比較結(jié)果，在比較結(jié)果中包括相似度大于閾值的次數(shù)和相似度小于閾值的次數(shù)。
判斷相似度是否大于配置的閾值，如果是，將記錄結(jié)果中相似度大于閾值的次數(shù)加l，否則，將相似度小于閾值的次數(shù)加1;或者
判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi)，如果是，將記錄結(jié)果中相似度小于閾值的次數(shù)加1，否則，將記錄結(jié)果中相似度大于閾值的次數(shù)加1。
在步驟108，當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù)，或者比較結(jié)果中相似度小于閾值的次數(shù)小于設(shè)定次數(shù)，搜索引擎的排序搜索引擎排序算法的參數(shù)，重新執(zhí)行計算過程。否則搜索引擎的排序結(jié)果通過驗證。其中，相似度大于或小于閾值的次數(shù)是針對不同的關(guān)鍵詞得到的結(jié)果。這里所說的通過驗證是指搜索結(jié)果能夠更加精確、準確的反映要搜索的信息，即通過上述判斷，可以搜索到更加精確、準確的搜索結(jié)果。
跳轉(zhuǎn)到步驟109，跳轉(zhuǎn)到步驟110。本發(fā)明將相似度作為比較排序算法效果的量化指標，通過簡化搜索方法及相似度計算得出合理的衡量標準，可以對多個搜索算法的效果進行比較。
構(gòu)造一個自動檢驗搜索排序結(jié)果的系統(tǒng)，通過自動量化而非人工的方式對搜索排序結(jié)果進行驗證，大大減少了檢驗排序效果的人為主觀性，提高檢驗排序結(jié)果的效率。
圖2為本發(fā)明一種對排序結(jié)果進行驗證的系統(tǒng)結(jié)構(gòu)圖。該系統(tǒng)包括搜索引擎、信息相關(guān)度計算模塊、信息豐富度計算模塊、排序分數(shù)計算模塊、相似度計算模塊、配置模塊以及比較模塊。
搜索引擎，根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果，對搜索結(jié)果標注位置序號，并得到用位置序號組成的搜索結(jié)果序列。
信息相關(guān)度計算模塊，將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本，根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度r， ^p"wl + p2、2 +…+ p^而，信息相關(guān)度是指搜索關(guān)鍵詞和信息文本的匹配度。其中，p表示關(guān)鍵詞在字段中的匹配次數(shù)，W 表示字段權(quán)重。
一般的搜索過程可能對若干個字段進行檢索，并有一個比較復(fù)雜的計算公式用于計算關(guān)鍵詞在這些字段中的相關(guān)度。本發(fā)明可將這一過程簡化為以搜索關(guān)鍵詞在字段的匹配次數(shù)和字段權(quán)重來決定其相關(guān)度。例如信息包含字段企業(yè)名稱、企業(yè)簡介，其優(yōu)先級順序企業(yè)名稱-> 企業(yè)簡介。假設(shè)對關(guān)鍵字"星巴克，，搜索的N條結(jié)果中，其中一條記錄 A在企業(yè)名稱字典出現(xiàn)次數(shù)為2，在企業(yè)簡介字段出現(xiàn)次數(shù)為2，則得到值2+2=4。
信息豐富度計算模塊，根據(jù)各搜索結(jié)果對信息文本設(shè)定的業(yè)務(wù)條件
13承wl +尸2傘w2 +尸3承w3 +…+尸w承w"，其中， W表示權(quán)重系數(shù)，UMv一i^氣。信息豐富度是指由若干個業(yè)務(wù)條件，每個條件按照一定的權(quán)重計算得到的信息指數(shù)。
例如業(yè)務(wù)規(guī)則定義了一個信息豐富度加盟商戶~^>是否有圖片展示一>是否有預(yù)定服務(wù)一>是否地圖標注一>是否有點評信息。假設(shè)對記錄A根據(jù)公式得到信息豐富度值為0.218，且該值總是小于1。
排序分數(shù)計算模塊，根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)
"婦-"w + c '，按分數(shù)大小順序排列排序分數(shù)，將搜索引擎搜索結(jié)果
中的位置序號對應(yīng)標注到各排序后分數(shù)，并得到用4立置序號組成的排序
結(jié)果序列。其中信息相關(guān)度優(yōu)先級w高于信息豐富度優(yōu)先級w，。假設(shè) 記錄A得到的相關(guān)度F4，信息豐富度c-0.218，取>￥=10， w，=l，則得到記錄A的排序分數(shù)score=4 x 10+0.218=40.218。
其中，排序分數(shù)計算模塊還在排序分數(shù)相同時，將位置序號在搜索
分數(shù)。，、；口
相似度計算模塊，計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度。其中，搜索引擎所采用的算法即被測試的搜索排序算法，算法中的參數(shù)可以改變。
假設(shè)對于關(guān)鍵字"星巴克"，計算得到的排序分數(shù)score從大到小排列得到新的排序al，a2，a3，a5，a6,a4，a7,a8，al0，a9，調(diào)用搜索引擎搜索得到 10條結(jié)果al，a2，a3,a4，a5，a6，a7，a8，a9，a10 (其中1, 2，…，n代表了位置信息)。下面通過實施例來說明計算相似度的實施例，但是，所述說明只是用于理解，并不是對本發(fā)明的限制。凡在此基礎(chǔ)上進行的變形和修改，都應(yīng)屬于本發(fā)明的保護范圍。
在第一實施例中，相似度計算模塊計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到相似度。
記S(A)為集合A關(guān)于算法S的排序序列，S，(A)為集合關(guān)于算法S，的排序序列，"e^為A中的一個記錄，記P(a)為a在序列S(A)中的位置，P，(a)為a在序列S，(A)中的位置。對于任意的。e^， D(a)叫P(a)-P，(a)l表示a在序列S(A)與序列S，(A)中的相對距離差。則排序相似度記為"S"")。
在_￡敘例子中，相似度值為
10
d = S"("') = "("4) + 0(a5) + "("6) + "("9) + "010) = 2 + 1 + 1 + 1 + 1 = 6。
在第'二實施例中，相似度計算模塊計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值，還對各差值的絕對值配以權(quán)重系數(shù)，再將各計算結(jié)果進行加和運算得到相似度。
不同位置的記錄，可通過配置權(quán)重決定其對最終相似度計算的影響
程度，記為d=ZZ)("》*W,,其中，w,表示位置i的4又重。
在第三實施荷"中，相似度計算模塊計算排序結(jié)果序列中兩個位置序
號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序
列；計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列；將絕對排序結(jié)果序
列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
相似度計算公式為》p(",)-卜;|)-11 。其中P(a)是記錄a在排岸序列S(A)的tf皇，P，(a)是記錄a在排序序列S，(A)的位置，S(A)和S，(A)是記錄集合A不同的排序結(jié)果。配置模塊，配置相似度閾值。
比較模塊，將相似度與配置的閾值進行比較，并記錄比較結(jié)果，當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù)，或者比較結(jié)果中相似度小于閾值的次數(shù)小于設(shè)定次數(shù)，搜索引擎的排序結(jié)果未通過驗證，否則通過驗證。這里所說的通過驗證是指搜索結(jié)果能夠更加精確、準確的反映要搜索的信息，即通過上述判斷，可以搜索到更加精確、準確的搜索結(jié)果。
比較模塊判斷相似度是否大于配置的閾值，如果是，將相似度大于閾值的次數(shù)加l，否則，將相似度小于閾值的次數(shù)加l;或者
比較模塊判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi)，如果是，將記錄結(jié)果中相似度小于閾值的次數(shù)加1，否則，將記錄結(jié)果中相似度大于閾值的次數(shù)加1。
本發(fā)明主要驗證信息相關(guān)度和信息豐富度相結(jié)合的排序方式的合理性。其中，信息相關(guān)度是指搜索關(guān)鍵詞和信息文本的匹配程度。信息豐富度是指由若干個業(yè)務(wù)條件，每個條件按照一定的權(quán)重計算得到的信息指數(shù)。對信息相關(guān)度和信息豐富度通過一套簡化的算法得到比較直觀的排序結(jié)果，并以此結(jié)果為標準，將其與搜索引擎系統(tǒng)得出的排序結(jié)果進行比較計算，得到對相同關(guān)鍵字的兩份排序相似度的值，該值越小則相似度越高，即認為搜索引擎系統(tǒng)的排序結(jié)果的可接受程序越高。
下面通過具體的實施例來說明本發(fā)明的排序效果。
對關(guān)鍵字"紅星，，和"大通"的搜索排序結(jié)果進行驗證。其中，在計算相似度時根據(jù)兩個排序結(jié)果中的每條記錄的相對距離差值的和進行
計算。搜索結(jié)果僅打印出標題title, score為排序值，source position表示搜索系統(tǒng)排序結(jié)果，dest position表示簡化算法排序結(jié)果，relevent value表示相似度值。
關(guān)鍵字紅星
計算結(jié)果
1— title
2— title
3— title
4— title
5— title
6— title
7— title
8— title
9— title
石井街紅星社區(qū)衛(wèi)生服務(wù)站
紅星電腦繡花制衣有限/>司
紅星針織廠
紅星儀器有限公司
紅星電線廠
紅星幼兒園
score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.02734375 score : 10.0234375 score : 10.0234375
小紅星幼兒園
石井農(nóng)村信用合作社紅星分社score : 10.0234375 紅星通iK店 score : 10.0234375
10— title:紅星篩網(wǎng)廠 score : 10.0234375
source position: [1， 2， 3， 4， 5， 6， 7， 8， 9， 10
dest position1， 2， 3， 4， 5， 6， 7， 8,9，闊 relevent value : 0
關(guān)鍵字大通計算結(jié)果
1— title:廣東大通市場研究有限公司score : 10.02734375
2- title:大通證券股份有限公司廣州體育西路證券營業(yè)部score :
10.0234375
3-title:碧大通訊器材經(jīng)營部score :10.0234375
4-title:大通國際運輸有限公司廣州分公司score : 10.0234375
5-title:大通成科技有限公司score j10.0234375
6—title:大通才幾電經(jīng)營部score10.0234375
7—title:大通磨具廠score :10.0234375
8—title:廣東浩大通訊設(shè)備有限公司score j10.02734375
9—title:大通電子有限公司score 10.01953125
10--title::大通電子廠score j10.01953125
source position:
[1， 2， 3， 4， 5， 6， 7， 8， 9,10
dest position
[1， 8, 2， 3， 4， 5， 6， 7， 9， 10
relevent value : 12
從以下結(jié)果可以看到，對關(guān)鍵字"紅星"的排序結(jié)果準確率為 100%，對關(guān)鍵字"大通"的相似度值為12，排序結(jié)果是否合理可以根據(jù)該值判斷。可靈活設(shè)置閾值，假設(shè)閾值為10，那么此次的排序結(jié)果不合理。
本發(fā)明適用于對搜索排序結(jié)果進行自動化的驗證和排序算法參數(shù)的自動優(yōu)化。
權(quán)利要求
1.一種對排序結(jié)果進行驗證的方法，包括以下步驟搜索引擎根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果，并對搜索結(jié)果標注位置序號，得到用位置序號組成的搜索結(jié)果序列；將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本，根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度r，r＝p1*w1+p2*w2+...+pn*wn，其中，p表示關(guān)鍵詞在字段中的匹配次數(shù)，w表示權(quán)重系數(shù)；根據(jù)對信息文本設(shè)定的業(yè)務(wù)條件和權(quán)重系數(shù)計算信息豐富度c，c＝F1*w1+F2*w2+F3*w3+...+Fn*wn，其中，w表示權(quán)重系數(shù)，F(xiàn)n-1*wn-1＞Fn*wn；根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)score＝r*w+c*w′；按分數(shù)大小順序排列排序分數(shù)，并將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)，得到用位置序號組成的排序結(jié)果序列；計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度；將相似度與配置的閾值進行比較，并記錄比較結(jié)果，在比較結(jié)果中包括相似度大于閾值的次數(shù)以及相似度小于閾值的次數(shù)；當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù)，或者比較結(jié)果中相似度小于閾值的次數(shù)小于設(shè)定次數(shù)，搜索引擎的排序結(jié)果未通過驗證，否則通過驗證。
2. 根據(jù)權(quán)利要求1所述對排序結(jié)果進行驗證的方法，其中，計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度的操作，包括以下步驟計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值；將各計算結(jié)果進行加和運算得到相似度。
3. 根據(jù)權(quán)利要求2所述對排序結(jié)果進行驗證的方法，其中，計算差值的絕對值的操作，還包括對各差值的絕對值配以權(quán)重系數(shù)的步驟。
4. 根據(jù)權(quán)利要求l所述對排序結(jié)果進行驗證的方法，其中，計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度的操作，包括以下步驟計算排序結(jié)果序列中兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列；計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列；將絕對排序結(jié)果序列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
5. 根據(jù)權(quán)利要求1所述對排序結(jié)果進行驗證的方法，其中，將相似度與配置的閾值進行比較，并記錄比較結(jié)果的操作，包括以下步驟判斷相似度是否大于配置的閣值，如果是，將記錄結(jié)果中相似度大于閾值的次數(shù)加l，否則，將相似度小于閾值的次數(shù)加l;或者判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi)，如果是，將記錄結(jié)果中相似度小于閾值的次數(shù)加1，否則，將記錄結(jié)果中相似度大于閾值的次數(shù)加1。
6. 根據(jù)權(quán)利要求1所述對排序結(jié)果進行驗證的方法，其中，將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)的操作，還包括以下步驟當計算得到的排序分數(shù)相同時，將位置序號在搜索結(jié)果序列中的排列順序按照排序分數(shù)的排列順序標注到對應(yīng)的各排序后分數(shù)。
7. —種對排序結(jié)果進行m^的系統(tǒng)，包括搜索引擎，根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果，對搜索結(jié)果標注位置序號，并得到用位置序號組成的搜索結(jié)果序列；信息相關(guān)度計算模塊，將各搜索結(jié)果劃分成具有權(quán)重系數(shù)的多個信息文本，根據(jù)關(guān)鍵詞與信息文本的匹配次數(shù)以及信息文本的權(quán)重系數(shù)計算信息相關(guān)度其中，p表示關(guān)鍵詞在字段中的匹配次數(shù)，w表示權(quán)重系數(shù)；3信息豐富度計算模塊，根據(jù)對信息文本設(shè)定的業(yè)務(wù)條件和權(quán)重系數(shù) 計算信息豐富度C, ^ = ^1*由尸2*^2 + ,3*^3 + ... +尸"*簡，其中,W表示權(quán)重系數(shù)，F(xiàn)"一 * w"一, >尸 * w ;排序分數(shù)計算模塊，根據(jù)信息相關(guān)度和信息豐富度計算排序分數(shù)score 二r^v^ + c^vv、按分數(shù)大小順序排列排序分數(shù)，將搜索引擎搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)，并得到用位置序號組成的排序結(jié)果序列；相似度計算模塊，計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度；配置模塊，配置相似度閾值；比較模塊，將相似度與配置的閾值進行比較，并記錄比較結(jié)果，當比較結(jié)果中相似度大于閾值的次數(shù)大于設(shè)定次數(shù)，或者比較結(jié)果中相似度小于閱值的次數(shù)小于設(shè)定次數(shù)，搜索引擎的排序結(jié)果未通過驗證，否則通過^ii。
8. 根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng)，其中，相似度計算模塊計算排序結(jié)果序列中位置序號與搜索結(jié)果序列中相應(yīng)位置的位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到相似度。
9. 根據(jù)權(quán)利要求8所述對排序結(jié)果進行驗證的系統(tǒng)，其中，相似度計算模塊還對各差值的絕對值配以權(quán)重系數(shù)。
10. 根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng)，其中，相似度計算才莫塊計算排序結(jié)果序列中兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對排序結(jié)果序列；計算搜索結(jié)果序列中相應(yīng)位置的兩個位置序號的差值的絕對值，并將各計算結(jié)果進行加和運算得到絕對搜索結(jié)果序列；將絕對排序結(jié)果序列與絕對搜索結(jié)果序列的差值的絕對值作為相似度。
11. 根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng)，其中比較模塊判斷相似度是否大于配置的閾值，如果是，將相似度大于閾值的次數(shù)加l，否則，將相似度小于閾值的次數(shù)加1;或者比較模塊判斷相似度與配置的閾值的差值的絕對值是否在設(shè)定范圍內(nèi)，如果是，將記錄結(jié)果中相似度小于閾值的次數(shù)加1，否則，將記錄結(jié)果中相似度大于閾值的次數(shù)加1。
12.根據(jù)權(quán)利要求7所述對排序結(jié)果進行驗證的系統(tǒng)，其中，排序分數(shù)計算模塊在排序分數(shù)相同時，將位置序號在搜索結(jié)果序列中的排列順序按照排序分數(shù)的排列順序標注到對應(yīng)的各排序后分數(shù)。
全文摘要
本發(fā)明提出一種對排序結(jié)果進行驗證的方法和系統(tǒng)，根據(jù)要搜索的關(guān)鍵詞獲取搜索結(jié)果，并對搜索結(jié)果標注位置序號，得到用位置序號組成的搜索結(jié)果序列；計算信息相關(guān)度、信息豐富度以及排序分數(shù)；按分數(shù)大小順序排列排序分數(shù)，并將搜索結(jié)果中的位置序號對應(yīng)標注到各排序后分數(shù)，得到用位置序號組成的排序結(jié)果序列；計算用位置序號組成的排序結(jié)果序列與用位置序號組成的搜索結(jié)果序列的相似度；將相似度與配置的閾值進行比較，記錄比較結(jié)果，并根據(jù)比較結(jié)果判斷排序結(jié)果是否通過驗證。本發(fā)明可以對多個搜索算法的效果進行比較，并提高檢驗排序結(jié)果的效率。
文檔編號G06F17/30GK101650746SQ20091017722
公開日2010年2月17日申請日期2009年9月27日優(yōu)先權(quán)日2009年9月27日
發(fā)明者余錦婷, 雄徐, 楊翊平申請人:中國電信股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余錦婷;徐雄;楊翊平
技術(shù)所有人：中國電信股份有限公司
我是此專利的發(fā)明人

上一篇：基于開口匯水盆地的水系沉積物調(diào)查數(shù)據(jù)處理方法
上一篇：電子裝置、電子裝置的殼體及其制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對排序結(jié)果進行驗證的方法和系統(tǒng)的制作方法