本發(fā)明涉及計算機(jī)軟件,尤其是涉及一種基于多維度特征的垂直搜索引擎精排方法及系統(tǒng)。
背景技術(shù):
1、垂直搜索是一種專門針對特定領(lǐng)域或主題的搜索引擎技術(shù),與通用搜索引擎(如谷歌、百度)不同,垂直搜索引擎專注于索引和檢索特定類型的信息,例如房地產(chǎn)、旅行、購物、政務(wù)服務(wù)或特定行業(yè)的數(shù)據(jù)。隨著信息技術(shù)的飛速發(fā)展,搜索引擎在人們獲取信息的過程中扮演著至關(guān)重要的角色。然而,傳統(tǒng)的通用搜索引擎在面對特定領(lǐng)域或主題的搜索需求時,往往無法提供足夠精確和相關(guān)的搜索結(jié)果,為了解決這一問題,垂直搜索引擎應(yīng)運(yùn)而生,垂直搜索引擎專注于特定領(lǐng)域或主題的信息索引和檢索,能夠更好地滿足用戶在特定領(lǐng)域的搜索需求。例如,在房地產(chǎn)、旅行、購物、政務(wù)服務(wù)等領(lǐng)域,垂直搜索引擎可以提供更加精準(zhǔn)和有針對性的搜索結(jié)果。
2、在垂直搜索引擎中,bm25算法是一種常用的信息檢索與網(wǎng)頁排名算法,它通過考慮查詢詞在文檔中出現(xiàn)的頻率和在所有文檔中出現(xiàn)的頻率,來評估文檔與用戶查詢的相關(guān)性。然而,傳統(tǒng)的bm25算法在垂直搜索中存在一些局限性,例如未考慮資源熱度、欄目權(quán)重和業(yè)務(wù)重點(diǎn)等因素,此外,特征提取是搜索引擎中的關(guān)鍵環(huán)節(jié)。有效的特征提取能夠捕捉到文檔的關(guān)鍵信息和潛在語義,但現(xiàn)有的特征提取方法可能無法充分涵蓋多維度的特征,導(dǎo)致搜索結(jié)果的相關(guān)性和準(zhǔn)確性受到影響,現(xiàn)階段需要一種基于多維度特征的垂直搜索引擎精排方法及系統(tǒng)。
技術(shù)實現(xiàn)思路
1、為了解決垂直搜索引擎的性能較差和搜索精確度低的問題,本發(fā)明提供一種基于多維度特征的垂直搜索引擎精排方法及系統(tǒng)。能夠綜合考慮資源熱度、欄目權(quán)重、用戶行為和用戶畫像因素,深入挖掘文檔的特征,從而提供更精準(zhǔn)、個性化的搜索結(jié)果。
2、第一方面,本發(fā)明提供的一種基于多維度特征的垂直搜索引擎精排方法,采用如下的技術(shù)方案:
3、一種基于多維度特征的垂直搜索引擎精排方法,包括:
4、獲取召回的資源信息,包括獲取文檔信息、資源熱度、欄目信息和用戶行為數(shù)據(jù);
5、基于獲取的資源信息進(jìn)行特征提取,包括提取資源信息的文檔特征、資源熱度特征、欄目特征和用戶行為特征;
6、根據(jù)提取的資源信息特征進(jìn)行分類模型加權(quán),包括利用卡方特征提取和貝葉斯分類相結(jié)合方式計算分類模型加權(quán);
7、根據(jù)提取的資源信息特征進(jìn)行資源熱度加權(quán),包括設(shè)置資源熱度超參數(shù),用于調(diào)整資源熱度的權(quán)重;
8、將分類模型加權(quán)結(jié)果和資源熱度加權(quán)結(jié)果進(jìn)行模型整合,包括將分類模型加權(quán)結(jié)果作為基礎(chǔ)權(quán)重,通過乘法運(yùn)算結(jié)合資源熱度加權(quán)的結(jié)果;
9、利用模型整合后的權(quán)重進(jìn)行精排打分,根據(jù)最終的打分結(jié)果,對召回的資源進(jìn)行排序。
10、進(jìn)一步地,所述根據(jù)提取的資源信息特征進(jìn)行分類模型加權(quán),包括通過計算每個特征在不同類別中的出現(xiàn)頻率和卡方統(tǒng)計量,篩選出具有區(qū)分能力的特征,通過貝葉斯分類計算每個詞在不同類別中的先驗概率和后驗概率,選擇后驗概率最大的類別作為文檔的分類,所述貝葉斯分類的計算公式為:
11、,
12、其中,表示為關(guān)鍵詞,表示為類別,表示為類別的先驗概率,表示為在類別下,文檔中出現(xiàn)詞的聯(lián)合概率,表示為文檔中出現(xiàn)詞的情況下,該文檔屬于類別的后驗概率。
13、進(jìn)一步地,所述根據(jù)提取的資源信息特征進(jìn)行分類模型加權(quán),還包括利根據(jù)欄目信息對業(yè)務(wù)的重要性設(shè)置欄目系數(shù),通過將貝葉斯后驗概率與欄目系數(shù)相乘,得到每個文檔的初步權(quán)重。
14、進(jìn)一步地,所述根據(jù)提取的資源信息特征進(jìn)行資源熱度加權(quán),包括獲取搜索日志統(tǒng)計資源近期訪問量,并設(shè)置資源熱度超參數(shù),用于調(diào)整資源熱度的權(quán)重,基于資源近期訪問量和熱度超參數(shù)進(jìn)行資源熱度加權(quán)的計算,所述計算公式為:
15、,
16、其中,表示為資源熱度超參數(shù),表示為資源近期訪問量,表示為資源熱度加權(quán)后的權(quán)重。
17、進(jìn)一步地,所述將分類模型加權(quán)結(jié)果和資源熱度加權(quán)結(jié)果進(jìn)行模型整合,包括將分類模型加權(quán)得到的初步權(quán)重作為基礎(chǔ)權(quán)重,通過乘法運(yùn)算結(jié)合資源熱度加權(quán)的結(jié)果得到整合后的最終權(quán)重,所述最終權(quán)重表示為:
18、,
19、其中,表示為分類模型加權(quán)后的權(quán)重,表示為最終權(quán)重。
20、進(jìn)一步地,所述利用模型整合后的權(quán)重進(jìn)行精排打分,包括根據(jù)匹配規(guī)則計算粗排結(jié)果中的打分,利用模型整合后的權(quán)重計算最終的精排打分,并根據(jù)最終的打分結(jié)果,對召回的資源進(jìn)行排序,所述計算最終的精排打分公式為:
21、,
22、其中,表示為粗排結(jié)果中的打分,表示為最終的精排打分。
23、進(jìn)一步地,所述根據(jù)匹配規(guī)則計算粗排結(jié)果中的打分,包括選擇匹配規(guī)則并根據(jù)匹配規(guī)則確定匹配得分,利用詞頻-逆文檔頻率將文檔和關(guān)鍵詞轉(zhuǎn)換為向量,通過余弦相似度計算相關(guān)性得分,根據(jù)匹配得分和相關(guān)性得分確定粗排結(jié)果中的打分,設(shè)定得分閾值并剔除打分小于閾值的資源信息。
24、第二方面,一種基于多維度特征的垂直搜索引擎精排系統(tǒng),包括:
25、數(shù)據(jù)獲取模塊,被配置為:獲取用戶的資源信息,包括獲取文檔信息、資源熱度、欄目信息和用戶行為數(shù)據(jù);
26、特征提取模塊,被配置為:基于獲取的資源信息進(jìn)行特征提取,包括提取資源信息的文檔特征、資源熱度特征、欄目特征和用戶行為特征;
27、初步加權(quán)模塊,被配置為:根據(jù)提取的資源信息特征進(jìn)行分類模型加權(quán),包括利用卡方特征提取和貝葉斯分類相結(jié)合方式計算分類模型加權(quán);
28、熱度加權(quán)模塊,被配置為:根據(jù)提取的資源信息特征進(jìn)行資源熱度加權(quán),包括設(shè)置資源熱度超參數(shù),用于調(diào)整資源熱度的權(quán)重;
29、整合模塊,被配置為:將分類模型加權(quán)結(jié)果和資源熱度加權(quán)結(jié)果進(jìn)行模型整合,包括將分類模型加權(quán)結(jié)果作為基礎(chǔ)權(quán)重,通過乘法運(yùn)算結(jié)合資源熱度加權(quán)的結(jié)果;
30、精排模塊,被配置為:利用模型整合后的權(quán)重進(jìn)行精排打分,根據(jù)最終的打分結(jié)果,對召回的資源進(jìn)行排序。
31、第三方面,本發(fā)明提供一種計算機(jī)可讀存儲介質(zhì),其中存儲有多條指令,所述指令適于由終端設(shè)備的處理器加載并執(zhí)行所述的一種基于多維度特征的垂直搜索引擎精排方法。
32、第四方面,本發(fā)明提供一種終端設(shè)備,包括處理器和計算機(jī)可讀存儲介質(zhì),處理器用于實現(xiàn)各指令;計算機(jī)可讀存儲介質(zhì)用于存儲多條指令,所述指令適于由處理器加載并執(zhí)行所述的一種基于多維度特征的垂直搜索引擎精排方法。
33、綜上所述,本發(fā)明具有如下的有益技術(shù)效果:
34、1、本發(fā)明通過計算特征的出現(xiàn)頻率、卡方統(tǒng)計量和貝葉斯分類,能夠更精準(zhǔn)地確定文檔的類別,從而提高分類的準(zhǔn)確性和可靠性,設(shè)置欄目系數(shù)并與貝葉斯后驗概率相乘,能夠充分考慮欄目對業(yè)務(wù)的重要性,使分類結(jié)果更貼合實際業(yè)務(wù)需求,基于搜索日志統(tǒng)計資源近期訪問量并進(jìn)行熱度加權(quán),能夠讓熱門資源在排序中更具優(yōu)勢,滿足用戶對熱門信息的需求。
35、2、本發(fā)明通過綜合考慮文檔特征、資源熱度特征、欄目特征和用戶行為特征,對搜索結(jié)果進(jìn)行合理的加權(quán),從而實現(xiàn)精準(zhǔn)的搜索結(jié)果展示,避免了因無法充分涵蓋多維度的特征而導(dǎo)致的搜索精確度低的問題。