本技術涉及數(shù)據檢索,尤其涉及文本搜索結果排序方法、裝置、電子設備、計算機可讀存儲介質及計算機程序產品。
背景技術:
1、目前,常用的文本搜索排序方式一般是針對互聯(lián)網文檔,主要通過依據對搜索關鍵詞在被搜索文件的相關度進行綜合打分,然后根據該分值對搜索到的文檔集進行排序。其中,影響打分的因素有搜索關鍵字詞頻、每個文檔的長度及搜索關鍵字出現(xiàn)在所有文檔中的覆蓋率等。
2、但是,這種文本搜索方案中由于搜索關鍵詞的權重不明晰,容易導致標題、正文全命中參數(shù)權重過低。而在用戶搜索時標題、正文沒有全部匹配的情況下,其他部分字段全部匹配的情況下會出現(xiàn)搜索結果排序過高的現(xiàn)象,文本搜索結果的排序合理性較差,需要用戶再次人工查詢,降低了搜索效率。
3、上述內容僅用于輔助理解本技術的技術方案,并不代表承認上述內容是現(xiàn)有技術。
技術實現(xiàn)思路
1、本技術的主要目的在于提供一種文本搜索結果排序方法、裝置、電子設備、計算機可讀存儲介質及計算機程序產品,旨在解決目前的文本搜索方案的搜索結果排序合理性較差的技術問題。
2、為實現(xiàn)上述目的,本技術提出一種文本搜索結果排序方法,所述文本搜索結果排序方法包括:
3、當接收到搜索語句時,讀取預配置干預參數(shù),其中,所述預配置干預參數(shù)至少包括全匹配值、部分匹配值以及發(fā)布時間特征值;
4、根據所述搜索語句和所述預配置干預參數(shù),確定所述搜索語句對應的多個搜索結果和各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值;
5、根據各所述搜索結果的標題和正文的內容,確定各所述搜索結果與所述搜索語句的匹配情況;
6、根據各所述搜索結果的匹配情況、各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值,對各所述搜索結果進行排序,得到并返回排序后的搜索結果。
7、在一實施例中,所述根據所述搜索語句和所述預配置干預參數(shù),確定所述搜索語句對應的多個搜索結果的步驟包括:
8、將各存量文檔輸入預設的實體識別模型,生成對應的實體詞典;
9、判斷所述搜索語句是否命中所述實體詞典;
10、若命中,則在各所述存量文檔中搜索所述搜索語句對應的搜索結果和各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值;
11、若未命中,則判斷所述搜索語句在所述存量文檔中是否全部命中,并在全命中的情況下返回所述搜索語句對應的搜索結果和各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值。
12、在一實施例中,在所述讀取預配置干預參數(shù)的步驟之前,所述方法還包括:
13、將所述搜索語句輸入預設的實體識別模型,獲得所述搜索語句對應的至少一個實體;
14、根據各所述實體間的關聯(lián)關系,生成更新后的搜索語句,其中,更新后的搜索語句用于供搜索服務確定對應的搜索結果。
15、在一實施例中,在所述根據所述搜索語句和所述預配置干預參數(shù),確定所述搜索語句對應的多個搜索結果和各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值的步驟之前,所述方法包括:
16、過濾所述搜索語句中的敏感詞,并對過濾后的搜索語句進行糾錯;
17、對糾錯后的搜索語句進行分詞,得到至少一個搜索詞;
18、根據預設的停用詞表去除各所述搜索詞中的停用詞,基于去除停用詞后的搜索詞和預設的同義詞表,添加同義詞,得到更新后的搜索詞;
19、將更新后的搜索詞修改為預設標準的語法形式,以供通過搜索服務返回更新后的搜索詞對應的搜索結果。
20、在一實施例中,所述根據各所述搜索結果的匹配情況、各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值,對各所述搜索結果進行排序,得到并返回排序后的搜索結果的步驟包括:
21、根據各所述搜索結果的匹配情況、各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值,確定每個搜索結果分別對應的多個特征以及各特征分別對應的特征值,其中,所述匹配情況至少包括標題匹配或正文匹配中的一種;
22、根據各所述特征分別對應的特征值和對應的權重,計算每個搜索結果的特征得分,其中,全匹配值的權重大于部分匹配值的權重,標題匹配的權重大于正文匹配的權重;
23、基于各所述搜索結果的特征得分,按從大到小的順序對各所述搜索結果進行排序,得到并返回排序后的搜索結果。
24、在一實施例中,在所述基于各所述搜索結果的特征得分,按從大到小的順序對各所述搜索結果進行排序的步驟之前,所述方法還包括:
25、篩選特征得分低于預設得分閾值的搜索結果;
26、濾除各所述特征得分低于預設得分閾值的搜索結果;
27、基于預設的自定義得分字典,對所述自定義得分字典對應類型的搜索結果的特征得分進行更新,得到更新后的特征得分。
28、此外,本技術還提出一種文本搜索結果排序裝置,所述文本搜索結果排序裝置包括:
29、參數(shù)讀取模塊,用于當接收到搜索語句時,讀取預配置干預參數(shù),其中,所述預配置干預參數(shù)至少包括全匹配值、部分匹配值以及發(fā)布時間特征值;
30、語句搜索模塊,用于根據所述搜索語句和所述預配置干預參數(shù),確定所述搜索語句對應的多個搜索結果和各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值;
31、語句匹配模塊,用于根據各所述搜索結果的標題和正文的內容,確定各所述搜索結果與所述搜索語句的匹配情況;
32、結果排序模塊,用于根據各所述搜索結果的匹配情況、各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值,對各所述搜索結果進行排序,得到并返回排序后的搜索結果。
33、此外,為實現(xiàn)上述目的,本技術還提出一種電子設備,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現(xiàn)如上文所述的文本搜索結果排序方法的步驟。
34、此外,為實現(xiàn)上述目的,本技術還提出一種存儲介質,所述存儲介質為計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的文本搜索結果排序方法的步驟。
35、此外,為實現(xiàn)上述目的,本技術還提供一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的文本搜索結果排序方法的步驟。
36、本技術提出了一種文本搜索結果排序方法,首先當接收到搜索語句時,讀取預配置干預參數(shù),其中,所述預配置干預參數(shù)至少包括全匹配值、部分匹配值以及發(fā)布時間特征值;根據所述搜索語句和所述預配置干預參數(shù),確定所述搜索語句對應的多個搜索結果和各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值;根據各所述搜索結果的標題和正文的內容,確定各所述搜索結果與所述搜索語句的匹配情況;根據各所述搜索結果的匹配情況、各所述搜索結果分別對應的全匹配值、部分匹配值以及發(fā)布時間特征值,對各所述搜索結果進行排序,得到并返回排序后的搜索結果。本技術相當于提出了一種相對傳統(tǒng)的文本搜索排序方案更加全面的搜索排序策略,其中考慮到了不同的影響文本排序的因素,包括全匹配、部分匹配以及發(fā)布時間,而且還通過搜索結果關于標題和正文部分的匹配情況來進行搜索結果排序,讓標題和正文的匹配情況這種對文本相關性影響較大的參與搜索結果排序,使輸出的排序后的搜索結果更合理和科學,提高文本搜索的效率,讓用戶可以更高效地查詢到自己所需要的搜索結果。