1.一種檢索方法,其特征在于,所述方法應用于基于若干臺檢索服務器搭建的分布式檢索平臺,所述方法包括:
接收用戶通過檢索客戶端發(fā)送的檢索詞;
遍歷所述檢索詞,對所述檢索詞執(zhí)行相鄰字切分,生成若干個雙字詞組;
基于所述若干個雙字詞組,在預設的檢索數(shù)據(jù)庫中查找與該若干個雙字詞組分別對應的檢索對象,生成檢索對象列表;其中,所述檢索數(shù)據(jù)庫預先儲存有針對所述檢索數(shù)據(jù)庫中包含的若干個檢索對象分別進行相鄰字切分后生成的若干個雙字詞組,與所述檢索數(shù)據(jù)庫中包含各雙字詞組的檢索對象之間的對應關系;
計算所述檢索詞與所述檢索列表中的檢索對象的相似度,將相似度高于預設閾值的若干個檢索對象作為檢索結(jié)果返回至檢索客戶端,以向所述用戶顯示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
基于非中文字符的正則表達式,將所述數(shù)據(jù)庫中的預設數(shù)量的檢索對象進行分割,分割成若干子字符串;
基于所述相鄰字切分的方法,分別對所述若干子字符串進行分詞,生成若干雙字詞組;
分別建立所述子字符串生成的若干雙字詞組和與該若干雙字詞組對應的檢索對象的映射關系,并分別以所述若干雙字詞組作為檢索主鍵儲存在所述檢索數(shù)據(jù)庫中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算所述檢索詞與所述檢索列表中的檢索對象的相似度,包括:
基于編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的相似度;
所述編輯距離算法包括:
基于非中文字符的正則表達式,對所述檢索詞進行分割,分割成若干子字符串;
將所述檢索詞分割成的若干子字符串依次確定為目標子字符串;
分別計算該目標子字符串與所述檢索列表中的檢索對象被分割生成的所有子字符串的編輯距離,并獲取計算出的最小編輯距離;
將獲取到的所述檢索詞分割生成的所有目標子字符串對應的最小編輯距離進行累加,再對累加后的最小編輯距離進行平均,得到該檢索詞與所述檢索對象的相似度;其中,所述相似度以編輯距離進行表征,編輯距離越小,相似度越高。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述檢索對象包括檢索對象的內(nèi)容、檢索對象的標題和檢索對象的作者;
所述基于編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的相似度,包括:
基于所述編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的內(nèi)容的相似度,獲取第一相似度;
基于所述編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的標題的相似度,獲取第二相似度;
基于所述編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的作者的相似度,獲取第三相似度;
基于所述第一相似度、所述第二相似度和所述第三相似度,計算所述檢索詞與所述檢索列表中的檢索對象的相似度。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述第一相似度、所述第二相似度和所述第三相似度,計算所述檢索詞與所述檢索列表中的檢索對象的相似度,包括:
為所述第一相似度、所述第二相似度和所述第三相似度分別配置對應的權(quán)重;
將所述第一相似度與該第一相似度對應的權(quán)重的乘積、所述第二相似度與該第二相似度對應的權(quán)重的乘積和所述第三相似度與該第三相似度對應的權(quán)重的乘積進行累加,得到所述檢索詞與所述檢索對象的相似度。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
基于預設的權(quán)重調(diào)整策略,對所述第一相似度、所述第二相似度和所述第三相似度對應的權(quán)重,進行調(diào)整。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于預設的權(quán)重調(diào)整策略,對所述第一相似度、所述第二相似度和所述第三相似度對應的權(quán)重,進行調(diào)整,包括:
基于預設的預測模型,計算所述檢索詞分別為所述檢索對象的內(nèi)容、標題和作者的概率;
基于計算出的所述檢索詞分別為所述檢索對象的內(nèi)容、標題和作者的概率,調(diào)整與所述檢索對象的內(nèi)容、標題和作者分別對應的第一相似度、第二相似度和第三相似度的權(quán)重。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于預設的權(quán)重調(diào)整策略,對所述第一相似度、所述第二相似度和所述第三相似度對應的權(quán)重,進行調(diào)整,包括:
確定用戶輸入的所述檢索詞的長度,當該檢索詞的長度在預設的姓氏長度范圍內(nèi)時,提高所述第三相似度對應的權(quán)重;或者,
分別將由所述檢索詞切分成的所述若干個雙字詞組與預設的復姓列表進行匹配,如果任一由所述檢索詞切分成的所述若干個雙字詞組命中所述復姓列表,則提高所述第三相似度對應的權(quán)重。
9.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述檢索對象為古漢語中文文本;
所述方法還包括:
在所述基于所述相鄰字切分的方法,分別對所述若干子字符串進行分詞,生成若干雙字詞組之前,刪除由所述檢索對象分割成的所述若干字符串中的非中文字符和嘆詞詞組。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述儲存有所述檢索對象的檢索數(shù)據(jù)庫儲存在本設備的物理內(nèi)存中。
11.一種檢索裝置,其特征在于,所述裝置應用于基于若干臺檢索服務器搭建的分布式檢索平臺,所述裝置包括:
接收單元,用于接收用戶通過檢索客戶端發(fā)送的檢索詞;
切分單元,用于遍歷所述檢索詞,對所述檢索詞執(zhí)行相鄰字切分,生成若干個雙字詞組;
查找單元,用于基于所述若干個雙字詞組,在預設的檢索數(shù)據(jù)庫中查找與該若干個雙字詞組分別對應的檢索對象,生成檢索對象列表;其中,所述檢索數(shù)據(jù)庫預先儲存有針對所述檢索數(shù)據(jù)庫中包含的若干個檢索對象分別進行相鄰字切分后生成的若干個雙字詞組,與所述檢索數(shù)據(jù)庫中包含各雙字詞組的檢索對象之間的對應關系;
計算單元,用于計算所述檢索詞與所述檢索列表中的檢索對象的相似度,將相似度高于預設閾值的若干個檢索對象作為檢索結(jié)果返回至檢索客戶端,以向所述用戶顯示。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括:
分割單元,用于基于非中文字符的正則表達式,將所述數(shù)據(jù)庫中的預設數(shù)量的檢索對象進行分割,分割成若干子字符串;
所述切分單元,還用于基于所述相鄰字切分的方法,分別對所述若干子字符串進行分詞,生成若干雙字詞組;
儲存單元,用于分別建立所述子字符串生成的若干雙字詞組和與該若干雙字詞組對應的檢索對象的映射關系,并分別以所述若干雙字詞組作為檢索主鍵儲存在所述檢索數(shù)據(jù)庫中。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述計算單元,具體用于基于編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的相似度;
所述編輯距離算法包括:
基于非中文字符的正則表達式,對所述檢索詞進行分割,分割成若干子字符串;
將所述檢索詞分割成的若干子字符串依次確定為目標子字符串;
分別計算該目標子字符串與所述檢索列表中的檢索對象被分割生成的所有子字符串的編輯距離,并獲取計算出的最小編輯距離;
將獲取到的所述檢索詞分割生成的所有目標子字符串對應的最小編輯距離進行累加,再對累加后的最小編輯距離進行平均,得到該檢索詞與所述檢索對象的相似度;其中,所述相似度以編輯距離進行表征,編輯距離越小,相似度越高。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述檢索對象包括檢索對象的內(nèi)容、檢索對象的標題和檢索對象的作者;
所述計算單元,進一步用于基于所述編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的內(nèi)容的相似度,獲取第一相似度;基于所述編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的標題的相似度,獲取第二相似度;基于所述編輯距離算法,計算所述檢索詞與所述檢索列表中的檢索對象的作者的相似度,獲取第三相似度;基于所述第一相似度、所述第二相似度和所述第三相似度,計算所述檢索詞與所述檢索列表中的檢索對象的相似度。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述計算單元,進一步用于為所述第一相似度、所述第二相似度和所述第三相似度分別配置對應的權(quán)重;將所述第一相似度與該第一相似度對應的權(quán)重的乘積、所述第二相似度與該第二相似度對應的權(quán)重的乘積和所述第三相似度與該第三相似度對應的權(quán)重的乘積進行累加,得到所述檢索詞與所述檢索對象的相似度。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述裝置還包括:
調(diào)整單元,用于基于預設的權(quán)重調(diào)整策略,對所述第一相似度、所述第二相似度和所述第三相似度對應的權(quán)重,進行調(diào)整。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述調(diào)整單元,具體用于基于預設的預測模型,計算所述檢索詞分別為所述檢索對象的內(nèi)容、標題和作者的概率;基于計算出的所述檢索詞分別為所述檢索對象的內(nèi)容、標題和作者的概率,調(diào)整與所述檢索對象的內(nèi)容、標題和作者分別對應的第一相似度、第二相似度和第三相似度的權(quán)重。
18.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述調(diào)整單元,具體用于確定用戶輸入的所述檢索詞的長度,當該檢索詞的長度在預設的姓氏長度范圍內(nèi)時,提高所述第三相似度對應的權(quán)重;或者,分別將由所述檢索詞切分成的所述若干個雙字詞組與預設的復姓列表進行匹配,如果任一由所述檢索詞切分成的所述若干個雙字詞組命中所述復姓列表,則提高所述第三相似度對應的權(quán)重。
19.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述檢索對象為古漢語詩詞;
所述裝置還包括:
刪除單元,用于在所述基于所述相鄰字切分的方法,分別對所述若干子字符串進行分詞,生成若干雙字詞組之前,刪除由所述檢索對象分割成的所述若干字符串中的非中文字符和嘆詞詞組。