欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對搜索系統(tǒng)的查詢串改寫效果進行評測的方法和裝置的制作方法

文檔序號:6363377閱讀:129來源:國知局
專利名稱:對搜索系統(tǒng)的查詢串改寫效果進行評測的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)搜索處理技術(shù),尤其涉及一種對搜索系統(tǒng)的查詢串改寫效果進行評測的方法和裝置。
背景技術(shù)
搜索引擎是指根據(jù)一定的搜索方案、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的數(shù)據(jù)處理系統(tǒng)。
查詢串改寫(即query 改寫,也稱為 query rewriting, query alteration或queryreformulation)是在搜索引擎中,對用戶輸入的查詢串(query)即檢索文本進行改變和擴展,以達到更好的接近用戶檢索意圖的一種技術(shù)方法。查詢串改寫處理方案的主要技術(shù)效果是:將用戶的檢索文本轉(zhuǎn)化為對搜索引擎更適合的查詢串,以提高搜索引擎的搜索效率和搜索結(jié)果的準確性。
在應用查詢串改寫這項技術(shù)后,業(yè)界需要對查詢串改寫效果進行評測,以檢查每種查詢串改寫操作是否真的提高了搜索結(jié)果的準確性,是否能提高搜索結(jié)果與用戶原有查詢意圖的相關(guān)度。
目前,業(yè)界對查詢串改寫效果進行評測的現(xiàn)有方式主要是一種簡單的評測系統(tǒng)加人力來實現(xiàn),即:借助人力對改寫前的搜索結(jié)果和改寫后的搜索結(jié)果進行打分標注,將每條搜索結(jié)果標注的分數(shù)輸入評測系統(tǒng)進行匯總相加,最后得到查詢串改寫前和查詢串改寫后的兩個分值,并對兩個分值進行比較來判斷查詢串改寫的改寫效果。
現(xiàn)有技術(shù)的缺點在于:由于采用人工標注評測,因此需要耗費大量人力,且標注評測的周期很長,導致評測成本較高、評測效率較低,不利于查詢串改寫算法的快速迭代。發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種對搜索系統(tǒng)的查詢串改寫結(jié)果進行評測的方法和裝置,提高評測效率。
本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
一種對搜索系統(tǒng)的查詢串改寫效果進行評測的方法,包括:
分別對查詢串改寫前后的檢索文本進行搜索,得到相應的搜索結(jié)果;
從查詢串改寫前的搜索結(jié)果中提取統(tǒng)一資源定位符URL集合A,從查詢串改寫后的搜索結(jié)果中提取URL集合B,并確定搜索結(jié)果的參照URL集合C ;
計算所述提取的URL集合A與所述參照URL集合C的相似度f,計算所述提取的URL集合B與所述參照URL集合C的相似度F ;
比較所述相似度f和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果。
一種對搜索系統(tǒng)的查詢串改寫效果進行評測的裝置,包括:
搜索觸發(fā)模塊,用于分別對查詢串改寫前后的檢索文本進行搜索,得到相應的搜索結(jié)果;
URL集合提取模塊,用于從查詢串改寫前的搜索結(jié)果中提取URL集合A,從查詢串改寫后的搜索結(jié)果中提取URL集合B ;
參照URL集合確定模塊,用于確定搜索結(jié)果的參照URL集合C ;
相似度計算模塊,用于計算所述提取的URL集合A與所述參照URL集合C的相似度f,計算所述提取的URL集合B與所述參照URL集合C的相似度F ;
改寫效果判斷模塊,用于比較所述相似度f和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果。
與現(xiàn)有技術(shù)相比,本發(fā)明以查詢串改寫前后搜索結(jié)果的URL特征作為依據(jù),由計算機自動提取出統(tǒng)一資源定位符(URL)集合分別與參照URL集合進行相似度計算,并自動按照計算出的相似度判斷查詢串改寫的效果,整個過程可以由具有數(shù)據(jù)處理能力的設(shè)備自動執(zhí)行,因此節(jié)省了大量的人力,降低了查詢串改寫的評測成本,提高了評測效率。


圖1本發(fā)明所述對搜索系統(tǒng)的查詢串改寫結(jié)果進行評測方法的一種流程圖2為一種更為形象的描述本發(fā)明所述方法的一種示意圖3為所述對搜索系統(tǒng)的查詢串改寫效果進行評測裝置的一種組成示意圖4為所述相似度計算模塊的一種內(nèi)部組成示意圖。
具體實施方式
下面結(jié)合附圖及具體實施例對本發(fā)明再作進一步詳細的說明。
圖1本發(fā)明所述對搜索系統(tǒng)的查詢串改寫結(jié)果進行評測方法的一種流程圖。參見圖1,該流程包括:
步驟101、分別對查詢串改寫前后的查詢串(即檢索文本)進行搜索,得到相應的搜索結(jié)果。此處的具體方法是將查詢串改寫前的檢索文本和查詢串改寫后的檢索文本分別輸入到搜索系統(tǒng)的搜索引擎進行搜索,得到搜索引擎對應返回的兩部分搜索結(jié)果,每部分搜索結(jié)果包括多條記錄,每條記錄包括URL、標題、摘要等信息。
步驟102、從查詢串改寫前的搜索結(jié)果中提取URL集合A,從查詢串改寫后的搜索結(jié)果中提取URL集合B,并確定搜索結(jié)果的參照URL集合C。
此處具體的從搜索結(jié)果中提取URL的方法可以采用現(xiàn)有成熟的內(nèi)容提取技術(shù),本發(fā)明對此不再贅述。但是需要說明的是,本發(fā)明需要對URL集合中的向量數(shù)目有具體的約束,一般是提取搜索結(jié)果中的前N條記錄對應的URL,簡稱為前N條URL。即:從所述查詢串改寫前的搜索結(jié)果中提取前N個URL并按順序組成集合A ;所述從查詢串改寫后的搜索結(jié)果中提取URL集合B具體為:從所述查詢串改寫后的搜索結(jié)果中提取前N個URL并按順序組成集合B ;同時,所述確定搜索結(jié)果的參照URL集合C中的向量個數(shù)也是N個,該N個URL排序組成集合C。
在確定所述參照集合C時,可以利用已優(yōu)化的搜索引擎(即本發(fā)明所評測的搜索系統(tǒng)以外的其它搜索引擎)對所述檢索文本進行搜索,從返回的搜索結(jié)果中提取前N個URL并按順序組成集合C。
步驟103、計算所述提取的URL集合A與所述參照URL集合C的相似度f,計算所述提取的URL集合B與所述參照URL集合C的相似度F。
在本步驟中,計算所述兩個目標URL集合(即URL集合A和URL集合C,或者所述URL集合B和URL集合C)之間相似度時需要考慮集合中的URL的內(nèi)容重復度和URL所處的位置。在搜索引擎中,排序靠前的記錄往往應該有更高的權(quán)重,因此本發(fā)明可以預設(shè)一個位置加權(quán)表,其中記錄URL集合中不同位置對應的加權(quán)值,所述位置越靠前其對應加權(quán)值越聞。
一種實施例中的具體的計算相似度f和F的方法可以是:確定所述兩個目標URL集合(即URL集合A和URL集合C,或者所述URL集合B和URL集合C)中不同位置的URL的重復度,并根據(jù)預設(shè)的位置加權(quán)表對所述URL重復度進行該位置對應的加權(quán)計算,所述位置越靠前其對應加權(quán)值越高;之后根據(jù)所述加權(quán)后的重復度確定整體的相似度,例如在一種實施方式中可以將各個位置處的經(jīng)過加權(quán)的URL重復度相加,得到整體的相似度。此夕卜,由于搜索引擎中的處于第一位置的搜索結(jié)果往往比較重要,因此在本發(fā)明進一步的實施例中,在計算所述相似度f和相似度F時,進一步包括:當所述兩個目標URL集合中的排名第一的位置處的URL重復時,對該位置處的重復度進行額外加權(quán)。
圖2為一種更為形象的描述本發(fā)明所述方法的一種示意圖,其中Q為查詢串改寫前的檢索文本,Q’為查詢串改寫后的檢索文本,通過對其對應搜索結(jié)果提取URL,得到URL集合A和URL集合B,并與所述參照URL集合C進行對比計算相似度,分別得到相似度F和相似度f。
步驟104、比較所述相似度f和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果。在一種具體的實施例中,所述判斷出的查詢串改寫的改寫效果為變好、變差、以及無變化二種。
判斷查詢串改寫的改寫效果的具體方法可以為:比較所述相似度f和相似度F,當F大于f時,判定查詢串改寫的改寫效果為變好;當F小于f時,判定查詢串改寫的改寫效果為變差;當F = f時,判定查詢串改寫的改寫效果無變化。
或者,判斷查詢串改寫的改寫效果的具體方法還可以為:比較所述相似度f和相似度F,當(F_f)/f > threashold時,判定查詢串改寫的改寫效果為變好,所述threashold為一預設(shè)的閾值;當(f_F)/f > threashold時,判定查詢串改寫的改寫效果為變差;否則,判定查詢串改寫的改寫效果無變化。
本發(fā)明還公開了可以實現(xiàn)上述方法的一種對搜索系統(tǒng)的查詢串改寫效果進行評測的裝置。
圖3為所述對搜索系統(tǒng)的查詢串改寫效果進行評測裝置的一種組成示意圖,參見圖3,該裝置300包括:
搜索觸發(fā)模塊301,用于分別對查詢串改寫前后的檢索文本進行搜索,得到相應的搜索結(jié)果,發(fā)送給URL集合提取模塊302 ;
URL集合提取模塊302,用于從查詢串改寫前的搜索結(jié)果中提取URL集合A,從查詢串改寫后的搜索結(jié)果中提取URL集合B,將所述集合A和集合B輸入給相似度計算模塊304 ;
參照URL集合確定模塊303,用于確定搜索結(jié)果的參照URL集合C并輸入給相似度計算模塊304 ;
相似度計算模塊304,用于計算所述提取的URL集合A與所述參照URL集合C的相似度f,計算所述提取的URL集合B與所述參照URL集合C的相似度F,將相似度輸入給改寫效果判斷模塊305 ;
改寫效果判斷模塊305,用于比較所述相似度f 和相似度F,根據(jù)比較結(jié)果判斷查詢串改與的改與效果。
圖4為所述相似度計算模塊的一種內(nèi)部組成示意圖,參見圖4,該相似度計算模塊304具體包括:
重復度確定模塊341,用于確定所述兩個目標URL集合中不同位置的URL的重復度;
位置加權(quán)模塊342,用于根據(jù)預設(shè)的位置加權(quán)表對所述不同位置處的URL重復度進行該位置對應的加權(quán)計算,所述位置越靠前其對應加權(quán)值越高;
相似度確定模塊343,用于根據(jù)所述加權(quán)后的重復度確定整體的相似度。
另外,所述相似度計算模塊304還可以進一步包括:
額外加權(quán)模塊344,設(shè)置在所述位置加權(quán)模塊和相似度確定模塊之間,用于判斷在所述兩個目標URL集合中的排名第一的位置處的URL是否重復,如果重復,則對該位置處的重復度進行額外加權(quán)。當然該模塊為可選模塊 ,也可以省略掉。
最后,本發(fā)明通過實驗方式對本發(fā)明所述的方法和裝置的評測結(jié)果進行驗證,具體的實驗方式是:選取若干Q以及查詢串改寫后的Q’以其搜索結(jié)果,經(jīng)過人工標注,形成(Q,Q’,標注結(jié)果)集合,標注結(jié)果分為變好,變差,不變?nèi)N,將該人工標注結(jié)果視為標準集。通過計算自動評測方法輸出結(jié)果相對標準集的準確率(precision)和召回率(recall)的高低來衡量自動評測方法的效果。經(jīng)過參數(shù)調(diào)優(yōu),本發(fā)明所述的方法和裝置得到的自動評測整體結(jié)果的準確率達到70%,召回率達到66%。其中評測為變差改寫的準確率達到82%,召回率達到68%。其中對于所述URL集合A、B、C中的URL個數(shù)N的選取、以及閾值threashold的選取,對最終的準確率和召回率起到一定的影響,根據(jù)實驗效果,其中N選取40至60,尤其是50時實驗效果較佳;threashold選取0.07時,實驗效果較佳。
因此,本發(fā)明可以完全替代現(xiàn)有的通過人工評測查詢串改寫效果的方式,由具有數(shù)據(jù)處理功能的設(shè)備執(zhí)行本發(fā)明所述的方法,實現(xiàn)自動評測查詢串改寫的改寫效果,因此節(jié)省了大量的人力,降低了現(xiàn)有查詢串改寫方式的評測成本,提高了查詢串改寫效果評測的評測效率。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
權(quán)利要求
1.一種對搜索系統(tǒng)的查詢串改寫效果進行評測的方法,其特征在于,包括: 分別對查詢串改寫前后的檢索文本進行搜索,得到相應的搜索結(jié)果; 從查詢串改寫前的搜索結(jié)果中提取統(tǒng)一資源定位符URL集合A,從查詢串改寫后的搜索結(jié)果中提取URL集合B,并確定搜索結(jié)果的參照URL集合C ; 計算所述提取的URL集合A與所述參照URL集合C的相似度f,計算所述提取的URL集合B與所述參照URL集合C的相似度F ; 比較所述相似度f和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述從查詢串改寫前的搜索結(jié)果中提取URL集合A具體為:從所述查詢串改寫前的搜索結(jié)果中提取前N個URL并按順序組成集合A ; 所述從查詢串改寫后的搜索結(jié)果中提取URL集合B具體為:從所述查詢串改寫后的搜索結(jié)果中提取前N個URL并按順序組成集合B ; 所述確定搜索結(jié)果的參照URL集合C具體為:確定N個URL并排序組成集合C。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算URL集合A與參照URL集合C的相似度f、以及計算URL集合B與參照URL集合C的相似度F的具體方法為: 確定所述兩個目標URL集合中不同位置的URL的重復度,并根據(jù)預設(shè)的位置加權(quán)表對所述URL重復度進行該位置對應的加權(quán)計算,所述位置越靠前其對應加權(quán)值越高;根據(jù)所述加權(quán)后的重復度確定整體的相似度。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在計算所述相似度f和相似度F時,該方法進一步包括:在所述兩個目標URL集合中的排名第一的位置處的URL重復時,對該位置處的重復度進行額外加權(quán)。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定N個URL并排序組成集合C具體為: 利用已優(yōu)化的搜索引擎對所述檢索文本進行搜索,從返回的搜索結(jié)果中提取前N個URL并按順序組成集合C。
6.根據(jù)權(quán)利要 求1所述的方法,其特征在于,所述比較所述相似度f 和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果的具體方法為: 比較所述相似度f和相似度F,當F大于f時,判定查詢串改寫的改寫效果為變好;當F小于f時,判定查詢串改寫的改寫效果為變差;當F = f時,判定查詢串改寫的改寫效果無變化。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述比較所述相似度f和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果的具體方法為: 比較所述相似度f和相似度F,當(F-f) /f > threashold時,判定查詢串改寫的改寫效果為變好,所述threashold為一預設(shè)的閾值;當(f_F)/f > threashold時,判定查詢串改寫的改寫效果為變差;否則,判定查詢串改寫的改寫效果無變化。
8.一種對搜索系統(tǒng)的查詢串改寫效果進行評測的裝置,其特征在于,包括: 搜索觸發(fā)模塊,用于分別對查詢串改寫前后的檢索文本進行搜索,得到相應的搜索結(jié)果; URL集合提取模塊,用于從查詢串改寫前的搜索結(jié)果中提取URL集合A,從查詢串改寫后的搜索結(jié)果中提取URL集合B ; 參照URL集合確定模塊,用于確定搜索結(jié)果的參照URL集合C ; 相似度計算模塊,用于計算所述提取的URL集合A與所述參照URL集合C的相似度f,計算所述提取的URL集合B與所述參照URL集合C的相似度F ; 改寫效果判斷模塊,用于比較所述相似度f 和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述相似度計算模塊具體包括: 重復度確定模塊,用于確定所述兩個目標URL集合中不同位置的URL的重復度; 位置加權(quán)模塊,用于根據(jù)預設(shè)的位置加權(quán)表對所述不同位置處的URL重復度進行該位置對應的加權(quán)計算,所述位置越靠前其對應加權(quán)值越高; 相似度確定模塊,用于根據(jù)所述加權(quán)后的重復度確定整體的相似度。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述相似度計算模塊進一步包括: 額外加權(quán)模塊,設(shè)置在所述位置加權(quán)模塊和相似度確定模塊之間,用于判斷在所述兩個目標URL集合中的排名第一的位置處的URL是否重復,如果重復,則對該位置處的重復度進行額外 加權(quán)。
全文摘要
本發(fā)明公開了一種對搜索系統(tǒng)的查詢串改寫效果進行自動評測的方法和裝置,方法包括分別對查詢串改寫前后的檢索文本進行搜索,得到相應的搜索結(jié)果;從查詢串改寫前的搜索結(jié)果中提取統(tǒng)一資源定位符(URL)集合A,從查詢串改寫后的搜索結(jié)果中提取URL集合B,并確定搜索結(jié)果的參照URL集合C;計算所述提取的URL集合A與所述參照URL集合C的相似度f,計算所述提取的URL集合B與所述參照URL集合C的相似度F;比較所述相似度f和相似度F,根據(jù)比較結(jié)果判斷查詢串改寫的改寫效果。所述裝置包括搜索觸發(fā)模塊、URL集合提取模塊、參照URL集合確定模塊、相似度計算模塊、以及改寫效果判斷模塊。利用本發(fā)明,可以降低查詢串改寫評測的成本,提高評測效率。
文檔編號G06F17/30GK103207871SQ20121001382
公開日2013年7月17日 申請日期2012年1月17日 優(yōu)先權(quán)日2012年1月17日
發(fā)明者趙海舟, 辛國茂 申請人:深圳市騰訊計算機系統(tǒng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南部县| 乌恰县| 夹江县| 荥阳市| 子洲县| 武宁县| 蓝田县| 黔南| 项城市| 正蓝旗| 大洼县| 施甸县| 东台市| 巫山县| 民勤县| 怀宁县| 长治县| 新河县| 三原县| 嘉兴市| 南江县| 陕西省| 余庆县| 台中县| 盐城市| 凤冈县| 昌乐县| 武汉市| 都昌县| 榆中县| 七台河市| 枞阳县| 云南省| 江城| 河西区| 秦皇岛市| 巩义市| 普定县| 剑阁县| 交口县| 京山县|