一種基于位置特征的檢索方法
【專利摘要】本發(fā)明公開了一種基于位置特征的檢索方法,包括如下步驟:根據(jù)預設的關(guān)鍵詞詞頻及密度算法、位置距離相關(guān)性分數(shù)算法、分布相關(guān)性分數(shù)算法、順序相關(guān)性算法分別計算關(guān)鍵詞在檢索結(jié)果中的詞頻及密度分數(shù)、位置距離分數(shù)、分布分數(shù)、順序分數(shù);將詞頻及密度分數(shù)及位置距離分數(shù)進行加權(quán)求和獲取關(guān)鍵詞在檢索結(jié)果中的基本分數(shù)A,將分布分數(shù)平滑后,計算順序分數(shù)與平滑后的分布分數(shù)的比值B,通過A與B的乘積計算關(guān)鍵詞在每個檢索結(jié)果的綜合分數(shù),將檢索結(jié)果按照其對應的綜合分數(shù)進行降序排序后通過用戶接口提供給用戶。本發(fā)明詞頻及密度的分數(shù)、位置距離分數(shù)、分布分數(shù)、順序分數(shù)的統(tǒng)合分數(shù),實現(xiàn)提高檢索結(jié)果相關(guān)性,提高用戶體驗性的目的。
【專利說明】
一種基于位置特征的檢索方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體而言,涉及一種基于位置特征的檢索方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎的種類也越來越多。一個搜索引擎由搜索器、索引 器、檢索器和用戶接口四個部分組成。搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。 索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文 檔庫的索引表。檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查 詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。用戶接口 的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。在信息檢索的過程中, 搜索引擎一般是根據(jù)用戶輸入的查詢詞獲取匹配相應的泛需求的關(guān)鍵詞,再根據(jù)關(guān)鍵詞在 檢索結(jié)果中的詞頻、密度或位置計算在檢索結(jié)果中的分數(shù)后,根據(jù)分數(shù)排序檢索結(jié)果并提 供給用戶的。這種檢索結(jié)果并沒有考慮綜合到關(guān)鍵詞在檢索結(jié)果中的詞頻、密度、位置、以 及關(guān)鍵詞的排序?qū)z索結(jié)果的影響。
【發(fā)明內(nèi)容】
[0003] 為解決現(xiàn)有現(xiàn)有搜索引擎檢索并未綜合考慮關(guān)鍵詞在檢索結(jié)果總的詞頻及密度、 位置、順序?qū)z索結(jié)果的影響,導致用戶檢索體驗性差的計算缺陷,本發(fā)明提供了一種將關(guān) 鍵詞在檢索結(jié)果中的詞頻、密度、位置、順序都考慮在內(nèi)計算用戶查詢詞與檢索結(jié)果關(guān)聯(lián)性 的基于位置特征的檢索方法。
[0004] 本發(fā)明提供了一種基于位置特征的檢索方法,包括如下步驟:
[0005] 采集通過用戶接口獲取的用戶輸入的查詢詞;
[0006] 查詢預設所述泛需求關(guān)鍵詞數(shù)據(jù)庫,獲取所述查詢詞對應的關(guān)鍵詞,根據(jù)所述關(guān) 鍵詞獲取對應的檢索結(jié)果;
[0007] 根據(jù)預設的關(guān)鍵詞詞頻及密度算法、位置距離相關(guān)性分數(shù)算法、分布相關(guān)性分數(shù) 算法、順序相關(guān)性算法分別計算所述關(guān)鍵詞在所述檢索結(jié)果中的詞頻及密度分數(shù)、位置距 離分數(shù)、分布分數(shù)、順序分數(shù);
[0008] 將所述詞頻及密度分數(shù)及所述位置距離分數(shù)進行加權(quán)求和獲取所述關(guān)鍵詞在所 述檢索結(jié)果中的基本分數(shù)A,將所述分布分數(shù)平滑后,計算所述順序分數(shù)與平滑后的分布分 數(shù)的比值B,通過A與B的乘積計算所述關(guān)鍵詞在每個檢索結(jié)果的綜合分數(shù);
[0009] 將所述檢索結(jié)果按照其對應的綜合分數(shù)進行降序排序后通過所述用戶接口提供 給用戶。
[0010] 進一步,所述獲取所述查詢詞對應的關(guān)鍵詞包括
[0011] 遍歷所述泛需求關(guān)鍵詞數(shù)據(jù)庫,獲取所述查詢詞中包括的關(guān)鍵詞。
[0012] 進一步,所述詞頻及密度分數(shù)為:
[0014],其中,demote為預設參數(shù),idf為所述關(guān)鍵詞在所述檢索結(jié)果中的重要程度,hit_ count為查詢詞在檢索結(jié)果中擊中的次數(shù),term為查詢詞,
[0015]所述idf按照如下公式計算:
[0017]進一步,所述位置距離分數(shù)的計算公式為:
[0019] 其中,smoothA和smoothB為預設的平滑參數(shù),words_count為預設的關(guān)鍵詞詞數(shù)的 數(shù)量,span為預設的計算關(guān)鍵詞分布分數(shù)的距離,promote為預設的控制參數(shù)。
[0020] 進一步,所述基本分數(shù)的計算公式為:
[0021 ] A = hits_score*weightl+span_score*weight2
[0022]其中,weightl、weight2分別為預設的所述詞頻及密度分數(shù)的權(quán)重、所述位置距離 分數(shù)對應的權(quán)重。
[0023]進一步,所述分布分數(shù)的計算公式為:
[0026] 其中,positions表示所述關(guān)鍵詞在檢索結(jié)果中的位置,N表示所述關(guān)鍵詞在檢索 結(jié)果中的位置的數(shù)量。
[0027] 進一步,所述順序分數(shù)的計算公式為:
[0029] 其中,smoothA、smoothB為預設的平滑參數(shù),promote為預設控制參數(shù)。
[0031]其中,所述SmoothA為預設的平滑參數(shù)。
[0032] 綜上,本發(fā)明通過統(tǒng)計所述關(guān)鍵詞的詞頻及密度的分數(shù)、所述位置距離分數(shù)、分布 分數(shù)、順序分數(shù)的統(tǒng)合分數(shù),實現(xiàn)提高檢索結(jié)果相關(guān)性,提高用戶體驗性的目的。
【附圖說明】
[0033] 圖1為本發(fā)明所述的基于位置特征的檢索方法的流程示意圖。
【具體實施方式】
[0034] 下面通過具體的實施例并結(jié)合附圖對本發(fā)明做進一步的詳細描述。
[0035] 本發(fā)明的基本思想是:將用戶輸入的查詢詞進行識別獲取泛需求檢索的關(guān)鍵詞, 根據(jù)所述泛需求檢索的關(guān)鍵詞查找相應的文檔,根據(jù)所述關(guān)鍵詞在所述查找出的文檔中的 緊密度、檢索的重要程度進行相關(guān)性分數(shù)計算,最后按照預設的規(guī)則將統(tǒng)計分數(shù)后的檢索 結(jié)果提供給用戶。
[0036] 如圖1所示,本發(fā)明提供了一種基于位置特征的檢索方法,包括如下步驟:
[0037] S101、采集通過用戶接口獲取的用戶輸入的查詢詞;
[0038] S102、查詢預設所述泛需求關(guān)鍵詞數(shù)據(jù)庫,獲取所述查詢詞對應的關(guān)鍵詞,根據(jù)所 述關(guān)鍵詞獲取對應的檢索結(jié)果。
[0039] 進一步,所述獲取所述查詢詞對應的關(guān)鍵詞包括
[0040] 遍歷所述泛需求關(guān)鍵詞數(shù)據(jù)庫,獲取所述查詢詞中包括的關(guān)鍵詞。
[0041] 具體實施時,所述泛需求關(guān)鍵詞數(shù)據(jù)庫可選的利用搜索引擎采集的網(wǎng)頁進行分 詞,并將分詞的結(jié)果構(gòu)建出倒排索引結(jié)構(gòu);同時還可選的還會存儲它們的"正排"信息,即記 錄它們的標題、作者、發(fā)布時間、描述等跟位置、出現(xiàn)次數(shù)無關(guān)但也很重要的信息。而在搜索 引擎中,這些關(guān)鍵詞可選的以倒排索引的形式存儲的。倒排索引中可選的包括所有的關(guān)鍵 詞的組合及每一個關(guān)鍵詞詞對應的倒排鏈表。每個所述倒排鏈表中的塊都是該關(guān)鍵詞在某 個文檔中的信息,包括在文檔ID、在文檔中出現(xiàn)的次數(shù)、在文檔中的出現(xiàn)的位置等。
[0042] 關(guān)鍵詞的獲取方式是通過分詞算法獲取的。例如"好看的電影",在分詞算法中會 被分為"好看"、"的"、"電影",其中"的"字因為經(jīng)常出現(xiàn),會被作為"停用詞"給去除。所以最 后的關(guān)鍵詞結(jié)果是"好看"、"電影"。具體實施時,如查找Term(即關(guān)鍵詞)是否在文檔A中存 在,以及存在的位置,就是先找到Term所在的倒排鏈表,然后遍歷該倒排鏈表(當然鏈表是 按ID順序排列的,可以隨時中斷跳出),找到文檔A對應的信息,就能獲得該Term在文檔中出 現(xiàn)的次數(shù)、位置等。如果沒有找到,就說明這個Term沒有在文檔中出現(xiàn)。
[0043] 例如,對于查找"電影"查詢詞。假設有文檔1("好看的電影"),文檔2("電影很好 看,是一部好看的電景^"),"電景^"這個Term對應到的倒排列表有A(docid: 1,count: 1,pos: 2),B(docid: 2,count: 2,pos: 1、5)。這里的count指該term在文檔中出現(xiàn)的次數(shù),pos表示在 文檔中出現(xiàn)的詞的位置(去除了停用詞"很"、"是"、"的")。通過"電影"可以很容易地查找到 在哪個文檔中出現(xiàn),以及出現(xiàn)的位置等信息。
[0044] S103、根據(jù)預設的關(guān)鍵詞詞頻及密度算法、位置距離相關(guān)性分數(shù)算法、分布相關(guān)性 分數(shù)算法、順序相關(guān)性算法分別計算所述關(guān)鍵詞在所述檢索結(jié)果中的詞頻及密度分數(shù)、位 置距離分數(shù)、分布分數(shù)、順序分數(shù)。
[0045] S104、將所述詞頻及密度分數(shù)及所述位置距離分數(shù)進行加權(quán)求和獲取所述關(guān)鍵詞 在所述檢索結(jié)果中的基本分數(shù)A,將所述分布分數(shù)平滑后,計算所述順序分數(shù)與平滑后的分 布分數(shù)的比值B,通過A與B的乘積計算所述關(guān)鍵詞在每個檢索結(jié)果的綜合分數(shù);
[0046] S105、將所述檢索結(jié)果按照其對應的綜合分數(shù)進行降序排序后通過所述用戶接口 提供給用戶。
[0047]所述詞頻及密度分數(shù)為:
[0049],其中,demote為預設參數(shù),idf為所述關(guān)鍵詞在所述檢索結(jié)果中的重要程度,hit_ count為查詢詞在檢索結(jié)果中擊中的次數(shù),term為查詢詞,
[0050]所述idf按照如下公式計算:
[0052]進一步,所述位置距離分數(shù)的計算公式為:
[0054] 其中,smoothA和smoothB為預設的平滑參數(shù),words_count為預設的關(guān)鍵詞詞數(shù)的 數(shù)量,span為預設的計算關(guān)鍵詞分布分數(shù)的距離,promote為預設的控制參數(shù)。
[0055] 進一步,所述基本分數(shù)的計算公式為:
[0056] A = hits_score*weightl+span_score*weight2
[0057] 其中,weightl、weight2分別為預設的所述詞頻及密度分數(shù)的權(quán)重、所述位置距離 分數(shù)對應的權(quán)重。
[0058] 進一步,所述分布分數(shù)的計算公式為:
[0061] 其中,positions表示所述關(guān)鍵詞在檢索結(jié)果中的位置,N表示所述關(guān)鍵詞在檢索 結(jié)果中的位置的數(shù)量。
[0062] 進一步,所述順序分數(shù)的計算公式為:
[0064] 其中,smoothA、smoothB為預設的平滑參數(shù),promote為預設控制參數(shù)
[0065] 進一步,
[0067] 其中,所述SmoothA為預設的平滑參數(shù)。
[0068] 以"好看電影"這個搜索和文檔("好看的動漫電影,評價很好看")為例說明本發(fā) 明。"電影"對應到的倒排列表為(docid: 1,count: 1,pos:3),"好看"對應的倒排列表為 (docid: 1,count: 2,pos: K5) 〇
[0069] 計算hit_score:假設文檔庫中有10000個文檔,有2000個文檔包含了"電影",則 1(^("電影")=1(^(10000/2001)=0.698,假設有5000個文檔包含了"好看",則丨(^("好 看")=1〇8(10000/5001)=0.30。設置(16111〇七6 = 0.5,文檔1的11;[1:_8(30代=1(1;1^(好看)*6叉口 (hits_count(好看),0· 5)+idf (電影)*exp(hits_count(電影),0 ·5) = 0.698*exp(2,0 ·5) + 0.30 = 0.698*1.414+0.3 = 1.287。
[0070] 計算span_score:文檔1的最優(yōu)位置組合是"好看的動漫電景^",words_count是指 "好看電影"這個查詢里的詞數(shù),為2;span為"好看的動漫電影"中的詞數(shù),為3;設置promote 為Ο·7,smoothA為1,smoothB為2,span-score = exp((2+1 )/(3+2),0·7) = 0·699〇
[0071 ] 計算base_score:假設對兩個分數(shù)都取相同的權(quán)重,貝丨jbase_score = 0.5*l .287+ 0.5^0.699 = 0.993〇
[0072] 計算 balance_score:平均位置 u = 1/3*( 1+3+5) =3,
[0073] 計算reverse_score:reverse score是在最優(yōu)位置組合"好看的動漫電影"里計算 reverse_score。由于對于查詢"好看電景羅,這個組合中的逆序數(shù)為0,而對于2個詞的最大 逆序數(shù)為1。取81110(^1^為1和81110(^118為1〇41'0111(^6為0.5,則代¥6『86_8(30代 =61口(1-(0+ 1)/(1+10),0.5)=0.9534。
[0074] 最后計算總分f inal_score = base_score*r ever se_score/(bal ance_s cor e+ smoothA) =0.993*0.9534/(0.8366+1 )=0.515,其中 smoothA 設置為 l〇
[0075] 以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種基于位置特征的檢索方法,其特征在于,包括如下步驟: 采集通過用戶接口獲取的用戶輸入的查詢詞; 查詢預設所述泛需求關(guān)鍵詞數(shù)據(jù)庫,獲取所述查詢詞對應的關(guān)鍵詞,根據(jù)所述關(guān)鍵詞 獲取對應的檢索結(jié)果; 根據(jù)預設的關(guān)鍵詞詞頻及密度算法、位置距離相關(guān)性分數(shù)算法、分布相關(guān)性分數(shù)算法、 順序相關(guān)性算法分別計算所述關(guān)鍵詞在所述檢索結(jié)果中的詞頻及密度分數(shù)、位置距離分 數(shù)、分布分數(shù)、順序分數(shù); 將所述詞頻及密度分數(shù)及所述位置距離分數(shù)進行加權(quán)求和獲取所述關(guān)鍵詞在所述檢 索結(jié)果中的基本分數(shù)A,將所述分布分數(shù)平滑后,計算所述順序分數(shù)與平滑后的分布分數(shù)的 比值B,通過A與B的乘積計算所述關(guān)鍵詞在每個檢索結(jié)果的綜合分數(shù); 將所述檢索結(jié)果按照其對應的綜合分數(shù)進行降序排序后通過所述用戶接口提供給用 戶。2. 根據(jù)權(quán)利要求1所述的基于位置特征的檢索方法,其特征在于,所述獲取所述查詢詞 對應的關(guān)鍵詞包括 遍歷所述泛需求關(guān)鍵詞數(shù)據(jù)庫,獲取所述查詢詞中包括的關(guān)鍵詞。3. 根據(jù)權(quán)利要求1所述的基于位置特征的檢索方法,其特征在于,所述詞頻及密度分數(shù) 為:其中,demote為預設參數(shù),i壯為所述關(guān)鍵詞在所述檢索結(jié)果中的重要程度,Mt_count 為查詢詞在檢索結(jié)果中擊中的次數(shù),term為查詢詞, 所述i壯按照如下公式計算:4. 根據(jù)權(quán)利要求1所述的基于位置特征的檢索方法,其特征在于,所述位置距離分數(shù)的 計算公式為:其中,smoothA和smoothB為預設的平滑參數(shù),words_count為預設的關(guān)鍵詞詞數(shù)的數(shù) 量,span為預設的計算關(guān)鍵詞分布分數(shù)的距離,promote為預設的控制參數(shù)。5. 根據(jù)權(quán)利要求1所述的基于位置特征的檢索方法,其特征在于,所述基本分數(shù)的計算 公式為: A = hits_score^weightl+span_score^weight2 其中,wei曲tl、wei曲t2分別為預設的所述詞頻及密度分數(shù)的權(quán)重、所述位置距離分數(shù) 對應的權(quán)重。6. 根據(jù)權(quán)利要求1所述的基于位置特征的檢索方法,其特征在于,所述分布分數(shù)的計算 公式為:其中,positions表示所述關(guān)鍵詞在檢索結(jié)果中的位置,N表示所述關(guān)鍵詞在檢索結(jié)果 中的位置的數(shù)量。7. 根據(jù)權(quán)利要求1所述的基于位置特征的檢索方法,其特征在于,所述順序分數(shù)的計算 公式為:其中,smootM、smoothB為預設的平滑參數(shù),promote為預設控制參數(shù)。8. 根據(jù)權(quán)利要求1所述的基于位置特征的檢索方法,其特征在于,其中,所述SmootM為預設的平滑參數(shù)。
【文檔編號】G06F17/30GK106095780SQ201610361839
【公開日】2016年11月9日
【申請日】2016年5月26日
【發(fā)明人】江永青
【申請人】達而觀信息科技(上海)有限公司