欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

擴展查詢方法及系統(tǒng)的制作方法

文檔序號:6487140閱讀:173來源:國知局
擴展查詢方法及系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┝艘环N擴展查詢方法,包括:獲取用戶輸入的查詢詞;確定查詢詞的歸一化查詢詞;將歸一化查詢詞作為查詢詞的擴展詞進行擴展查詢;其中,查詢詞的歸一化查詢詞采用如下方式確定:獲取用戶搜索日志中的session信息;獲取單個session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計各查詢詞的投票數(shù);確定單個查詢詞和目標查詢詞的投票相似度;根據(jù)投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度;根據(jù)單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定目標查詢詞的歸一化查詢詞。本申請還提供了一種實現(xiàn)前述方法的擴展查詢系統(tǒng)。本申請的擴展查詢方法及系統(tǒng),能夠準確的對查詢詞進行擴展,減少檢索次數(shù),提高系統(tǒng)響應(yīng)速度和處理效率。
【專利說明】擴展查詢方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請涉及計算機數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別是涉及一種擴展查詢方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,搜索引擎得到了不斷的完善,通過搜索引擎可以從互聯(lián)網(wǎng)上獲取各種信息。搜索引擎是當前互聯(lián)網(wǎng)幫助用戶快速獲取信息的主要途徑之一。用戶提交一個查詢詞(Query)給搜索引擎,搜索引擎返回給用戶與該查詢詞相關(guān)的搜索結(jié)果。
[0003]在電子商務(wù)網(wǎng)站中,特別是對于大型的電子商務(wù)網(wǎng)站來說,因為所涉及的商品數(shù)量較大,用戶往往也需要通過查詢詞的方式進行搜索來查找其所需要的商品。因為用戶輸入的查詢詞多是根據(jù)自己的意愿組合而成,這可能會出現(xiàn)能夠與查詢詞匹配的結(jié)果過少或者過多的情況,查詢結(jié)果準確度不高的情況,往往需要反復(fù)搜索。為此搜索引擎往往會對查詢詞進行擴展或者改寫,豐富查詢信息,智能的對用戶輸入的查詢詞進行優(yōu)化,從而提高搜索結(jié)果的準確性,同時降低用戶因為反復(fù)搜索而給服務(wù)器帶來的壓力。
[0004]常見的查詢詞擴展方法有在查詢端和索引端進行擴展。其中,在查詢端擴展主要包括對查詢詞進行增詞、換詞和去詞。即在用戶輸入的查詢詞的基礎(chǔ)上增加、替換或者去掉其中的某一個字或者某個部分。例如,用戶輸入的查詢詞為“諾基亞手機”,那么對查詢詞進行增詞擴展則可以是“諾基亞N95手機”等等;進行去詞擴展則可以是“諾基亞”或者“手機”;進行換詞擴展則可以是“三星手機”或者“蘋果手機”等等。在索引端擴展主要是在索引端對查詢詞進行同義詞擴展。一般通過常規(guī)的數(shù)據(jù)挖掘等方式獲取到同義詞集合,當某個詞出現(xiàn)時,則從同義詞集合中提取其他同義詞進行擴展。為了保證搜索結(jié)果與查詢詞的準確性,在擴展查詢時會采用查詢端和索引端同時擴展的方式,即查詢端和索引端分別對查詢詞進行擴展后得到各自的擴展詞,然后選取相同的擴展詞所對應(yīng)的結(jié)果作為擴展結(jié)果。在實際處理時,搜索引擎通常會按照一定的順序逐個選取查詢端的擴展詞進行檢索,并與索引端的擴展詞進行匹配,若能夠匹配上,則返回該擴展詞的檢索結(jié)果。在此過程中,可能出現(xiàn),查詢端的擴展詞有多個,索引端的擴展詞有一個,若按照順序,查詢端的最后一個擴展詞與索引端的擴展詞匹配,那么搜索引擎無疑需要進行多次檢索查詢,直到用最后一個擴展詞檢索查詢時才能夠與索引端的擴展詞匹配,這就增加了搜索引擎無效檢索的次數(shù)以及系統(tǒng)返回搜索結(jié)果的時間,降低系統(tǒng)響應(yīng)速度,并造成對系統(tǒng)資源的占用。

【發(fā)明內(nèi)容】

[0005]本申請?zhí)峁┮环N擴展查詢方法及系統(tǒng),能夠解決利用查詢詞查詢時,搜索引擎反復(fù)檢索匹配查詢詞而導(dǎo)致檢索次數(shù)增加以及占用系統(tǒng)過多資源,影響系統(tǒng)響應(yīng)速度和效率的問題。
[0006]為了解決上述問題,本申請公開了一種擴展查詢方法,包括以下步驟:
[0007]獲取用戶輸入的查詢詞;
[0008]根據(jù)所述查詢詞確定所述查詢詞的歸一化查詢詞;[0009]將所述歸一化查詢詞作為所述查詢詞的擴展詞進行擴展查詢;
[0010]其中,所述查詢詞的歸一化查詢詞采用如下方式確定:
[0011]獲取用戶搜索日志中的session信息;
[0012]獲取單個session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計各查詢詞的投票數(shù),在所述單個session內(nèi),按照各查詢詞出現(xiàn)的先后順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票;
[0013]根據(jù)目標查詢詞在所有session內(nèi)的總投票數(shù)以及單個查詢詞對目標查詢詞的投票數(shù)確定單個查詢詞和目標查詢詞的投票相似度;
[0014]根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度;
[0015]根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢
ο
[0016]進一步地,所述目標查詢詞在所有session內(nèi)的總投票數(shù)采用如下方式統(tǒng)計:
[0017]獲取包含有目標查詢詞的session ;
[0018]統(tǒng)計所述目標查詢詞在每個session內(nèi)的投票數(shù);
[0019]將所述每個session內(nèi)的投票數(shù)累加得到所述目標查詢詞的總投票數(shù)。
[0020]進一步地,所述單個查詢詞對目標查詢詞的投票數(shù)采用如下方式統(tǒng)計:
[0021]獲取同時包含單個查詢詞和目標查詢詞的session ;
[0022]判斷所述session內(nèi),該單個查詢詞對目標查詢詞是否有投票,若是,則選取所述session ;
[0023]統(tǒng)計所有被選取session的數(shù)量,得到所述單個查詢詞對目標查詢詞的投票數(shù)。
[0024]進一步地,所述確定單個查詢詞和目標查詢詞的投票相似度包括:
[0025]將所述單個產(chǎn)品對單個查詢詞對目標查詢詞的投票數(shù)占目標查詢詞的總投票數(shù)的比例作為所述單個查詢詞和目標查詢詞的投票相似度。
[0026]進一步地,所述確定單個查詢詞和目標查詢詞的投票相似度包括:
[0027]確定對目標查詢詞的每個投票的權(quán)重和基數(shù);
[0028]根據(jù)所述權(quán)重和基數(shù)計算每個投票的得分;
[0029]將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
[0030]進一步地,所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞包括:
[0031]設(shè)定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關(guān)聯(lián)度值超過所述歸一化產(chǎn)品閾值,則確定所述單個查詢詞為目標查詢詞的歸一化查詢詞。
[0032]進一步地,所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞包括:
[0033]將歸一化查詢詞類別分為同義歸一化查詢詞、相關(guān)歸一化查詢詞和擴展歸一化查詢詞三個類別;
[0034]按照關(guān)聯(lián)度值由大到小設(shè)定所述三個類別各自的取值范圍;
[0035]將所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度所屬的取值范圍對應(yīng)的類別作為所述單個查詢詞和目標查詢詞的細化類別。[0036]進一步地,所述方法在根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度之前還包括:
[0037]獲取用戶搜索日志中搜索結(jié)果的點擊信息;
[0038]根據(jù)所述點擊信息中提取包含有目標查詢詞的搜索結(jié)果;
[0039]根據(jù)所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)以及單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)確定單個查詢詞和目標查詢詞的點擊相似度;
[0040]所述確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度包括:根據(jù)所述投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0041]進一步地,所述根據(jù)所述投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度包括:
[0042]將投票相似度和點擊相似度中的較大值作為單個查詢詞和目標查詢詞的關(guān)聯(lián)度;或
[0043]確定投票相似度和點擊相似度的權(quán)重;根據(jù)所述投票相似度和點擊相似度和各自的權(quán)重按照預(yù)定規(guī)則計算得到單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0044]進一步地,在根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度之前還包括:
[0045]獲取服務(wù)器中存儲的賣家數(shù)據(jù),所述賣家數(shù)據(jù)為賣家對產(chǎn)品進行描述時所確定的產(chǎn)品描述信息;
[0046]解析所述賣家數(shù)據(jù),提取其中的查詢詞以及查詢詞的特征詞;
[0047]根據(jù)單個查詢詞和目標查詢詞的特征詞確定特征相似度;
[0048]所述根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度包括:根據(jù)所述投票相似度和特征相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0049]進一步地,所述根據(jù)單個查詢詞和目標查詢詞的特征詞確定特征相似度包括:
[0050]計算每個特征詞的特征值,所述特征值根據(jù)特征詞及對應(yīng)的查詢詞的點互信息計算得到;
[0051]根據(jù)特征值計算單個查詢詞和目標查詢詞的特征相似度。
[0052]進一步地,所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞之前還包括:確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度;
[0053]所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞包括:
[0054]根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和語義相似度確定所述目標查詢詞的歸一化查詢詞;或
[0055]根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和類目相似度確定所述目標查詢詞的歸一化查詢詞;或
[0056]根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度、語義相似度和類目相似度確定所述目標查詢詞的歸一化查詢詞。
[0057]進一步地,所述確定單個查詢詞和目標查詢詞的語義相似度包括:[0058]確定單個查詢詞和目標查詢詞的編輯距離,所述編輯距離指二者之間由一個詞轉(zhuǎn)化為另一詞所需的最少編輯操作次數(shù);
[0059]對所述編輯距離進行歸一化處理得到與關(guān)聯(lián)度具有相同量化級的語義相似度。
[0060]本申請還公開了一種擴展查詢系統(tǒng),包括:
[0061]查詢詞輸入模塊,用于獲取用戶輸入的查詢詞;
[0062]歸一化查詢詞確定模塊,用于根據(jù)所述查詢詞確定所述查詢詞的歸一化查詢詞;
[0063]擴展查詢模塊,用于將所述歸一化查詢詞作為所述查詢詞的擴展詞進行擴展查詢;
[0064]其中,所述歸一化查詢詞確定模塊包括:
[0065]session信息獲取模塊,用于獲取用戶搜索日志中的session信息;
[0066]查詢詞投票數(shù)統(tǒng)計模塊,用于獲取單個session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計各查詢詞的投票數(shù),在所述單個session內(nèi),按照各查詢詞出現(xiàn)的先后順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票;
[0067]投票相似度確定模塊,用于根據(jù)目標查詢詞在所有session內(nèi)的總投票數(shù)以及單個查詢詞對目標查詢詞的投票數(shù)確定單個查詢詞和目標查詢詞的投票相似度;
[0068]關(guān)聯(lián)度確定模塊,用于根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度;
[0069]歸一化查詢詞確定模塊,用于根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞。
[0070]進一步地,所述投票相似度確定模塊包括:
[0071]基數(shù)和權(quán)重確定單元,用于確定對目標查詢詞的每個投票的權(quán)重和基數(shù);
[0072]得分計算單元,用于根據(jù)所述權(quán)重和基數(shù)計算每個投票的得分;
[0073]比例計算單元,用于將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
[0074]進一步地,所述歸一化查詢詞確定模塊包括:
[0075]歸一化查詢詞閾值設(shè)定單元,用于設(shè)定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關(guān)聯(lián)度值超過所述歸一化產(chǎn)品閾值,則確定所述單個查詢詞為目標查詢詞的歸一化查詢詞。
[0076]進一步地,所述歸一化查詢詞確定模塊還包括:
[0077]歸一化查詢詞類別區(qū)分單元,用于將歸一化查詢詞類別分為同義歸一化查詢詞、相關(guān)歸一化查詢詞和擴展歸一化查詢詞三個類別;
[0078]取值范圍設(shè)定單元,用于按照關(guān)聯(lián)度值由大到小設(shè)定所述三個類別的取值范圍;
[0079]類別確定單元,用于將所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度所屬的取值范圍對應(yīng)的類別作為所述單個查詢詞和目標查詢詞的細化類別。
[0080]進一步地,所述歸一化查詢詞確定模塊還包括:
[0081]點擊信息獲取模塊,用于獲取用戶搜索日志中搜索結(jié)果的點擊信息;
[0082]搜索結(jié)果提取模塊,用于根據(jù)所述點擊信息中提取包含有目標查詢詞的搜索結(jié)果;
[0083]點擊相似度確定模塊,根據(jù)所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)以及單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)確定單個查詢詞和目標查詢詞的點擊相似度;
[0084]所述關(guān)聯(lián)度確定模塊用于根據(jù)所述投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0085]進一步地,所述歸一化查詢詞確定模塊還包括:
[0086]賣家數(shù)據(jù)獲取模塊,用于獲取服務(wù)器中存儲的賣家數(shù)據(jù),所述賣家數(shù)據(jù)為賣家對產(chǎn)品進行描述時所確定的產(chǎn)品描述信息;
[0087]數(shù)據(jù)解析模塊,用于解析所述賣家數(shù)據(jù),提取其中的查詢詞以及查詢詞的特征詞;
[0088]特征相似度確定模塊,用于根據(jù)單個查詢詞和目標查詢詞的特征詞確定特征相似度;
[0089]所述關(guān)聯(lián)度確定模塊用于根據(jù)所述投票相似度和特征相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0090]進一步地,所述特征相似度確定模塊包括:
[0091]特征值計算單元,用于計算每個特征詞的特征值,所述特征值根據(jù)特征詞及對應(yīng)的查詢詞的點互信息計算得到,并根據(jù)特征值計算單個查詢詞和目標查詢詞的特征相似度。
[0092]進一步地,所述歸一化查詢詞確定模塊還包括語義相似度確定模塊和/或類目相似度確定模塊,用于確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度;
[0093]所述歸一化查詢詞確定模塊用于根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和語義相似度確定所述目標查詢詞的歸一化查詢詞;或根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和類目相似度確定所述目標查詢詞的歸一化查詢詞;或根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度、語義相似度和類目相似度確定所述目標查詢詞的歸一化查詢詞。
[0094]進一步地,所述語義相似度確定模塊包括:
[0095]編輯距離計算單元,用于確定單個查詢詞和目標查詢詞的編輯距離,所述編輯距離指二者之間由一個詞轉(zhuǎn)化為另一詞所需的最少編輯操作次數(shù);
[0096]歸一化處理單元,用于對所述編輯距離進行歸一化處理得到與關(guān)聯(lián)度具有相同量化級的語義相似度。
[0097]與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點:
[0098]本申請的擴展查詢方法及系統(tǒng)通過利用用戶搜索日志中的session信息對查詢詞進行歸一化處理,將具有相同或相近似意思的查詢詞視為相同或相似,在獲取到一個查詢詞時,可以自動實現(xiàn)利用該查詢詞歸一化的查詢詞同時進行擴展搜索,在增加搜索結(jié)果范圍的同時可以保證搜索結(jié)果的準確性。利用用戶搜索日志中的session信息來進行歸一化處理,在處理過程中提取每個session內(nèi)所包含的查詢詞,并按照查詢詞出現(xiàn)的先后順序來對用戶行為進行分析,從而可以得出每個用戶在進行搜索時查詢詞的變化過程。因為單個session內(nèi)記錄的是一個較短且不間斷時間內(nèi)的用戶搜索信息,因此單個session內(nèi)的查詢詞的關(guān)聯(lián)度也會較大。因此,基于session信息這一特點來進行擴展查詢處理,可以提高歸一化處理的效果,保證最后實現(xiàn)歸一化的兩個查詢詞具有足夠高的關(guān)聯(lián)度,從而使最終的搜索結(jié)果的準確性能夠得到保證,并可以減少檢索的次數(shù),從而減少對系統(tǒng)資源的占用并提高系統(tǒng)的響應(yīng)速度和擴展查詢效率。
[0099]其次,因為session信息這一特點,降低了關(guān)聯(lián)度較小的查詢詞在同一 session內(nèi)出現(xiàn)的幾率,從而可以縮小歸一化處理的數(shù)據(jù)范圍,從而提高處理速度,節(jié)省處理時間。
[0100]另外,在進行處理時,除了考慮session信息,本申請進一步可選擇地增加了用戶點擊信息以及賣家數(shù)據(jù)兩個維度,從而提高了歸一化處理的準確性。
[0101]當然,實施本申請的任一產(chǎn)品不一定需要同時達到以上所述的所有優(yōu)點。
【專利附圖】

【附圖說明】
[0102]圖1是本申請的擴展查詢方法實施例一的流程圖;
[0103]圖2是本申請的擴展查詢方法中確定查詢詞的歸一化查詢詞的實施例一的流程圖;
[0104]圖3是本申請的擴展查詢方法中確定查詢詞的歸一化查詢詞的實施例二的流程圖;
[0105]圖4是本申請的擴展查詢方法中確定查詢詞的歸一化查詢詞的實施例三的流程圖;
[0106]圖5是本申請的擴展查詢系統(tǒng)實施例一的結(jié)構(gòu)示意圖;
[0107]圖6是本申請的擴展查詢系統(tǒng)中的歸一化查詢詞模塊的實施例一的結(jié)構(gòu)示意圖;
[0108]圖7是本申請的擴展查詢系統(tǒng)中的歸一化查詢詞模塊的實施例二的結(jié)構(gòu)示意圖;
[0109]圖8是本申請的擴展查詢系統(tǒng)中的歸一化查詢詞模塊的實施例三的結(jié)構(gòu)示意圖。
【具體實施方式】
[0110]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0111]本申請的查詢詞可以是用戶輸入的用于查詢得到其期望結(jié)果的關(guān)鍵詞。例如包括產(chǎn)品名稱、品牌、型號、或者其他詞語。在特殊領(lǐng)域,可以是特殊類別的詞語,例如,對于電子商務(wù)網(wǎng)站來說,查詢詞可以是表示產(chǎn)品名稱或者類別的產(chǎn)品詞。例如,手機、連衣裙等等。因為產(chǎn)品詞可以相對有效的提高搜索結(jié)果與用戶期望的匹配度,因此產(chǎn)品詞是一種常見的查詢詞。通過對用戶搜索日志進行分析,大約有57%的查詢是利用產(chǎn)品詞搜索,有近88%的查詢中包含產(chǎn)品詞。另一方面,電子商務(wù)網(wǎng)站中產(chǎn)品的提供方,會對產(chǎn)品進行描述并存儲在服務(wù)器中,其中包括產(chǎn)品名稱和詳細描述。電子商務(wù)網(wǎng)站中的搜索弓I擎一般的搜索方法時,將用戶輸入的產(chǎn)品詞與服務(wù)器中的產(chǎn)品名稱進行匹配,根據(jù)匹配結(jié)果得到搜索結(jié)果。因此,如何將用戶輸入的產(chǎn)品詞與產(chǎn)品提供方存儲在服務(wù)器中的產(chǎn)品名稱等信息關(guān)聯(lián)起來,是提高搜索結(jié)果準確性的重要前提。
[0112]此外,在某些大型網(wǎng)站中的信息數(shù)據(jù)量巨大,但是信息數(shù)據(jù)中包含的查詢詞會遠遠小于信息數(shù)據(jù)總量,因此,如果能對查詢詞進行歸一化處理,將表示相同或近似意思的查詢詞關(guān)聯(lián),在查詢時視為二者相同或者近似,還可以減少數(shù)據(jù)的冗余,提高搜索引擎的響應(yīng)速度。例如,對于大型商務(wù)網(wǎng)站來說,其產(chǎn)品詞會遠遠小于信息數(shù)據(jù)總量。
[0113]為此,本申請?zhí)岢鲆环N擴展查詢方法及系統(tǒng)來實現(xiàn)查詢詞的歸一化處理。
[0114]參照圖1和圖2,示出本申請的一種擴展查詢方法實施例一,包括以下步驟:[0115]步驟101,獲取用戶輸入的查詢詞。
[0116]步驟102,根據(jù)所述查詢詞確定所述查詢詞的歸一化查詢詞。
[0117]步驟103,將所述歸一化查詢詞作為所述查詢詞的擴展詞進行擴展查詢。
[0118]其中,步驟102具體包括如下步驟:
[0119]步驟1021,獲取用戶搜索日志中的session信息。
[0120]session信息是描述一個用戶在一個連續(xù)的時間內(nèi)(一般短至幾分鐘,長至若干小時)在網(wǎng)站上的一系列行為的信息。用戶從開始瀏覽網(wǎng)站頁面直到退出瀏覽這個過程中,網(wǎng)站服務(wù)器會自動為這個用戶分配一個session ID,并記錄下這段時間內(nèi)的用戶行為。當用戶間隔較長時間重新瀏覽網(wǎng)站頁面時,網(wǎng)站服務(wù)器會重新為這個用戶分配一個sessionID,并記錄用戶行為。通常情況下,用戶在連續(xù)瀏覽的一個時間段內(nèi),其行為通常具有一定的關(guān)聯(lián)性,即可以認為用戶在一個session內(nèi)的行為是相關(guān)聯(lián)的,那么,該session內(nèi)所記錄的用戶搜索查詢時所使用的查詢詞也會具有一定的關(guān)聯(lián)性。因此,本申請基于session信息來對查詢詞進行歸一化處理。
[0121]網(wǎng)站服務(wù)器中會有特定的數(shù)據(jù)庫存儲用戶搜索日志,包括其中的session信息。為了減少數(shù)據(jù)量,可以獲取一定時間段內(nèi)的用戶搜索日志,也可以分別獲取不同時間段內(nèi)的用戶搜搜日志,從而提高數(shù)據(jù)的客觀性。
[0122]步驟1022,獲取單個session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計各查詢詞的投票數(shù),在所述單個session內(nèi),按照各查詢詞出現(xiàn)的先后順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票。
[0123]在一個session內(nèi),用戶可能進行多次搜索,那么session信息中會包含多個查詢詞,session信息中會記錄用戶搜索的先后順序,即各查詢詞出現(xiàn)的先后順序。通過session信息中所記錄的每次查詢時間,即可以確定各查詢詞出現(xiàn)的先后順序。
[0124]統(tǒng)計各查詢詞的投票數(shù)的具體過程為:
[0125]按照各查詢詞出現(xiàn)的先后順序?qū)Ω鞑樵冊~進行排序;
[0126]各查詢詞的投票數(shù)為排列在該查詢詞前面的查詢詞總數(shù)。
[0127]例如,一個session內(nèi)共有a, b, c, d, e五個查詢詞,按照出現(xiàn)的先后順序排列為a,b,c,d,e。那么,根據(jù)前述定義,每個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票。即對于查詢詞b來說,其投票數(shù)為1,即a到b ;對于查詢詞c來說,其投票數(shù)為2,分別為a到c和b到c ;同理,對于查詢詞e來說,其投票數(shù)為4,abed分別對e有一次投票。也即,每個查詢詞的投票數(shù)都是排在其前面的查詢詞總數(shù)。
[0128]步驟1023,根據(jù)目標查詢詞在所有session內(nèi)的總投票數(shù)以及單個查詢詞對目標查詢詞的投票數(shù)確定單個查詢詞和目標查詢詞的投票相似度。
[0129]因為在同一時間段內(nèi)網(wǎng)站內(nèi)會有多個用戶訪問,那么則會有多個session。對于其他的session內(nèi)每個查詢詞的投票數(shù)的統(tǒng)計方法如前面步驟1022所述。
[0130]目標查詢詞在所有session內(nèi)的總投票數(shù)采用如下方式統(tǒng)計:
[0131]Al,獲取包含有目標查詢詞的session ;
[0132]A2,統(tǒng)計所述目標查詢詞在每個session內(nèi)的投票數(shù);
[0133]A3,將所述每個session內(nèi)的投票數(shù)累加得到所述目標查詢詞的總投票數(shù)。
[0134]根據(jù)前述對投票的定義,每個session內(nèi)在目標查詢詞前面出現(xiàn)的任何一個查詢詞對目標查詢詞都有一次投票。也即,每個session內(nèi),每一個查詢詞對目標查詢詞最多有一次投票,如果該查詢詞排在目標查詢詞前面,則有一次投票,反之,則沒有投票。因此,當需要確定單個查詢詞對目標查詢詞的投票數(shù)時,可以通過確定同時包含有該單個查詢詞和目標查詢詞且該單個查詢詞排在目標查詢詞前面的session的數(shù)量即可。具體包括以下步驟:
[0135]BI,獲取同時包含單個查詢詞和目標查詢詞的session ;
[0136]B2,判斷所述session內(nèi),該單個查詢詞對目標查詢詞是否有投票,若是,則選取所述 session ;
[0137]B2,統(tǒng)計所有被選取session的數(shù)量,得到所述單個查詢詞對目標查詢詞的投票數(shù)。
[0138]前述獲取包含有目標查詢詞的session或者同時包含有單個查詢詞和目標查詢詞的session可以通過匹配的方式來實現(xiàn)。即,首先確定目標查詢詞和/或單個查詢詞,將確定的詞與session內(nèi)所包含的所有查詢詞進行匹配查詢,如果能夠匹配,則確定該session包含目標查詢詞或者同時包含單個查詢詞和目標查詢詞。
[0139]可以理解,在具體實現(xiàn)時,對于總投票數(shù)和單個查詢詞對目標查詢詞的投票數(shù)的統(tǒng)計還可以采用其他的方式,只要能夠確定出具體數(shù)目即可。例如,可以將每個session內(nèi)每個查詢詞對目標查詢詞的投票用路徑形式表示。如果需要統(tǒng)計總投票數(shù),則可以通過統(tǒng)計路徑總數(shù)的方式實現(xiàn)。如果需要統(tǒng)計單個查詢詞對目標查詢詞的投票數(shù),則可以按照相同的路徑形式表示,然后與之前統(tǒng)計的所有路徑匹配,如果能夠完全匹配,則累計一票,最后統(tǒng)計所有能夠完全匹配的路徑數(shù)量,即為單個查詢詞對目標查詢詞的投票數(shù)。
[0140]單個查詢詞和目標查詢詞的投票相似度可以直接根據(jù)單個查詢詞對目標查詢詞的投票數(shù)占目標查詢詞的總投票數(shù)的比例來確定,即具體的比例數(shù)值為投票相似度值。因為,如果單個查詢詞對目標查詢詞的投票數(shù)占該目標查詢詞的總投票數(shù)的比例越大,說明從單個查詢詞到目標查詢詞的路徑變化被越多人采用,那么二者投票相似度也就越大。
[0141]單個查詢詞對目標查詢詞的投票在不同session內(nèi)也可能出現(xiàn)區(qū)別,可能是單個查詢詞直接變化到目標查詢詞,也可能是單個查詢詞經(jīng)過多次變化后到目標查詢詞。例如,一個session內(nèi)的查詢詞為abc,另一個為ac,在統(tǒng)計時,都會包含a到c的投票,但是一個中間間隔了一個b,而另一個沒有間隔,因此,兩個a到c的投票實際上存在一定的區(qū)別。為了更為客觀的統(tǒng)計出單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0142]優(yōu)選地,采用如下方式:
[0143]確定對目標查詢詞的每個投票的權(quán)重和基數(shù);
[0144]根據(jù)所述權(quán)重和基數(shù)計算每個投票的得分;
[0145]將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
[0146]在具體計算時,可以采用每個投票的基數(shù)乘以權(quán)重的方式來計算每個投票的得分,最后將各得分相加得到總得分。例如,假設(shè)每個投票基數(shù)為1,如果在一個session某個查詢詞直接變化到目標查詢詞,其權(quán)重可以設(shè)置為1,那么該投票最終計算結(jié)果仍然為I ;如果在另一 session內(nèi)該查詢詞經(jīng)過一個詞之后才變化到目標查詢詞,其權(quán)重可以設(shè)置為
0.9,那么該投票最終計算結(jié)果為0.9。又如,假設(shè)將某個查詢詞到目標查詢詞中間所經(jīng)過的每一次變化記為一個步長,那么可以通過步長倒數(shù)的方式來確定權(quán)重。可以理解,對于權(quán)重的確定還可以采用其他方式,只要能夠體現(xiàn)出不同投票之間的區(qū)別即可。
[0147]步驟1024,根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0148]本實施例中,單個查詢詞和目標查詢詞的投票相似度即為二者的關(guān)聯(lián)。
[0149]可以理解,本實施例中在確定關(guān)聯(lián)度時只考慮投票相似度一個維度,當確定關(guān)聯(lián)度還需要考慮其他維度時,還可以將投票相似度以及其他維度的數(shù)值進行歸一化處理,使之能夠具有相同的量化級,以便于確定出相對準確的關(guān)聯(lián)度。
[0150]步驟1025,根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞。
[0151]可以預(yù)先設(shè)定歸一化查詢詞的閾值,即當單個查詢詞和目標查詢詞的關(guān)聯(lián)度超過該閾值,則可以確定該單個查詢詞為目標查詢詞的歸一化查詢詞。
[0152]進一步地,在確定該單個查詢詞為目標查詢詞的歸一化查詢詞后,還可以根據(jù)具體的關(guān)聯(lián)度值進行細化,例如,可以按照關(guān)聯(lián)度值由大到小細化為同義歸一化查詢詞、相關(guān)歸一化查詢詞、擴展歸一化查詢詞等等??梢苑謩e設(shè)定各種類別所對應(yīng)的取值范圍,當關(guān)聯(lián)度值落入某個取值范圍,則將該取值范圍對應(yīng)的類別作為歸一化查詢詞的細化類別。例如,單個查詢詞和目標查詢詞的關(guān)聯(lián)度若在同義歸一化查詢詞對應(yīng)的取值范圍內(nèi),則確定該單個查詢詞為目標查詢詞的同義歸一化查詢詞,若在相關(guān)歸一化查詢詞對應(yīng)的取值范圍內(nèi),則確定二者為相關(guān)歸一化查詢詞,若在擴展歸一化查詢詞的取值范圍內(nèi),則確定二者為擴展歸一化查詢詞。
[0153]可以理解,前述方法為通過session內(nèi)的信息對查詢詞進行歸一化處理,session可以很好的記錄不同用戶在一次查詢過程中查詢詞的變化路徑,從而客觀的對用戶行為進行分析,來得到較為客觀準確的歸一化處理結(jié)果。
[0154]為了更好的對查詢詞進行歸一化處理,除了考慮session內(nèi)的信息,還可以從其他維度來進行分析,并結(jié)合通過session內(nèi)的信息得出的結(jié)果,綜合得出歸一化處理結(jié)果,從而提高處理結(jié)果的客觀性。例如,對用戶的點擊行為進行分析,或者從系統(tǒng)中存儲的查詢詞的描述信息來進行分析等等。
[0155]參照圖3,示出本申請的擴展查詢方法實施例二,對于前述實施例一的步驟102,在實施例一中的步驟1024之前包括以下步驟:
[0156]步驟201,獲取用戶搜索日志中搜索結(jié)果的點擊信息。
[0157]用戶在用某個查詢詞進行搜索得到搜索結(jié)果集合后,通常會對搜索結(jié)果集合中的某些搜索結(jié)果進行點擊。搜索結(jié)果的點擊信息包括哪些搜索結(jié)果被點擊、以及被點擊的搜索結(jié)果的標題、描述信息等等。
[0158]步驟202,根據(jù)所述點擊信息中提取包含有目標查詢詞的搜索結(jié)果。
[0159]搜索結(jié)果中會包含有一個查詢詞,來表示該結(jié)果中主要是售賣何種產(chǎn)品。因此,通過對點擊信息中每個搜索結(jié)果的標題和描述信息進行分析,就可以確定每個搜索結(jié)果的查詢詞。然后根據(jù)實際需要,提取目標查詢詞。例如,用戶用“手機”這一查詢詞進行搜索得到一系列的搜索結(jié)果,各搜索結(jié)果的查詢詞可以是“iPhone”、“三星手機” “諾基亞手機”等等。如果將“iPhone”作為目標查詢詞,則可以將所有的包含有“iphone”的搜索結(jié)果提取出來。[0160]步驟203,根據(jù)所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)以及單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)確定單個查詢詞和目標查詢詞的點擊相似度。
[0161]單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)是指,用某個查詢詞進行查詢后得到的搜索結(jié)果集合中,包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)。
[0162]所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)是指所有單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)的總和。
[0163]例如,假設(shè)目標查詢詞為“iphone”,在查詢時分別用“手機”和“智能手機”作為查詢詞進行了查詢。其中,用“手機”這一查詢詞進行查詢后得到一個搜索結(jié)果集合,其中包含有“iphone”的搜索結(jié)果被點擊的次數(shù)為5次,那么單個查詢詞“手機”所對應(yīng)的包含有目標查詢詞“iphone”的搜索結(jié)果被點擊的次數(shù)為5次。另外,用“智能手機”這一查詢詞進行查詢后得到另一個搜索結(jié)果集合,其中包含有“iphone”的搜索結(jié)果被點擊的次數(shù)為20次,那么單個查詢詞“智能手機”所對應(yīng)的包含有目標查詢詞“iphone”的搜索結(jié)果被點擊的次數(shù)為20次。所有包含有目標查詢詞“iphone”的搜索結(jié)果被點擊的總次數(shù)即為二者之和25。
[0164]所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)以及單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)的處理可以采用如下方式進行:計算單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)占所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)的比例。
[0165]因為本實施例中考慮了兩個維度,因此,確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度需要考慮兩個維度下的相似度值。為此,實施例一的步驟1024需要對應(yīng)修改為:
[0166]根據(jù)所述投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0167]具體可以采用如下方式:
[0168]選取投票相似度和點擊相似度中數(shù)值較大的作為單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0169]可以理解,還可以采用如下方式:
[0170]確定投票相似度和點擊相似度的權(quán)重;
[0171]根據(jù)所述投票相似度和點擊相似度和各自的權(quán)重按照預(yù)定規(guī)則計算得到單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
[0172]參照圖4,示出本申請的擴展查詢方法實施例三,對于前述實施例一和/或?qū)嵤├牟襟E102,在步驟1024之前包括以下步驟:
[0173]步驟301,獲取服務(wù)器中存儲的賣家數(shù)據(jù),所述賣家數(shù)據(jù)為賣家對產(chǎn)品進行描述時所確定的產(chǎn)品描述信息。
[0174]步驟302,解析所述賣家數(shù)據(jù),提取其中的查詢詞以及查詢詞的特征詞。
[0175]查詢詞的特征詞是指對查詢詞進行特征描述的詞。
[0176]步驟303,根據(jù)單個查詢詞和目標查詢詞的特征詞確定特征相似度。
[0177]其中,特征相似度可以根據(jù)如下方式確定:
[0178]確定每個特征詞的特征值;
[0179]根據(jù)特征值計算單個查詢詞和目標查詢詞的特征相似度。[0180]每個特征詞的特征值可以根據(jù)該特征詞以及對應(yīng)的查詢詞的點互信息計算得到,
具體計算公式如下:
[0181]
【權(quán)利要求】
1.一種擴展查詢方法,其特征在于,包括以下步驟: 獲取用戶輸入的查詢詞; 根據(jù)所述查詢詞確定所述查詢詞的歸一化查詢詞; 將所述歸一化查詢詞作為所述查詢詞的擴展詞進行擴展查詢; 其中,所述查詢詞的歸一化查詢詞采用如下方式確定: 獲取用戶搜索日志中的session信息; 獲取單個session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計各查詢詞的投票數(shù),在所述單個session內(nèi),按照各查詢詞出現(xiàn)的先后順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票; 根據(jù)目標查詢詞在所有session內(nèi)的總投票數(shù)以及單個查詢詞對目標查詢詞的投票數(shù)確定單個查詢詞和目標查詢詞的投票相似度; 根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度; 根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞。
2.如權(quán)利要求1所述的擴展查詢方法,其特征在于,所述目標查詢詞在所有session內(nèi)的總投票數(shù)采用如下方式統(tǒng)計: 獲取包含有目標查詢詞的session ; 統(tǒng)計所述目標查詢詞在每個session內(nèi)的投票數(shù); 將所述每個session內(nèi)的投票數(shù)累加得到所述目標查詢詞的總投票數(shù)。
3.如權(quán)利要求1所述的擴展查詢方法,其特征在于,所述單個查詢詞對目標查詢詞的投票數(shù)采用如下方式統(tǒng)計: 獲取同時包含單個查詢詞和目標查詢詞的session ; 判斷所述session內(nèi),該單個查詢詞對目標查詢詞是否有投票,若是,則選取所述session ; 統(tǒng)計所有被選取session的數(shù)量,得到所述單個查詢詞對目標查詢詞的投票數(shù)。
4.如權(quán)利要求1所述的擴展查詢方法,其特征在于,所述確定單個查詢詞和目標查詢詞的投票相似度包括: 將所述單個產(chǎn)品對單個查詢詞對目標查詢詞的投票數(shù)占目標查詢詞的總投票數(shù)的比例作為所述單個查詢詞和目標查詢詞的投票相似度。
5.如權(quán)利要求1所述的擴展查詢方法,其特征在于,所述確定單個查詢詞和目標查詢詞的投票相似度包括: 確定對目標查詢詞的每個投票的權(quán)重和基數(shù); 根據(jù)所述權(quán)重和基數(shù)計算每個投票的得分; 將單個查詢詞對目標查詢詞的投票 總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
6.如權(quán)利要求1所述的擴展查詢方法,其特征在于,所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞包括: 設(shè)定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關(guān)聯(lián)度值超過所述歸一化產(chǎn)品閾值,則確定所述單個查詢詞為目標查詢詞的歸一化查詢詞。
7.如權(quán)利要求6所述的擴展查詢方法,其特征在于,所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞包括: 將歸一化查詢詞類別分為同義歸一化查詢詞、相關(guān)歸一化查詢詞和擴展歸一化查詢詞三個類別; 按照關(guān)聯(lián)度值由大到小設(shè)定所述三個類別各自的取值范圍; 將所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度所屬的取值范圍對應(yīng)的類別作為所述單個查詢詞和目標查詢詞的細化類別。
8.如權(quán)利要求1所述的擴展查詢方法,其特征在于,所述方法在根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度之前還包括: 獲取用戶搜索日志中搜索結(jié)果的點擊信息; 根據(jù)所述點擊信息中提取包含有目標查詢詞的搜索結(jié)果; 根據(jù)所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)以及單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)確定單個查詢詞和目標查詢詞的點擊相似度; 所述確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度包括:根據(jù)所述投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
9.如權(quán)利要求8所述的擴展查詢方法,其特征在于,所述根據(jù)所述投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度包括: 將投票相似度和點擊相似度中的較大值作為單個查詢詞和目標查詢詞的關(guān)聯(lián)度;或 確定投票相似度和點擊相似度的權(quán)重;根據(jù)所述投票相似度和點擊相似度和各自的權(quán)重按照預(yù)定規(guī)則計算得到單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
10.如權(quán)利要求1所述的擴展查詢方法,其特征在于,在根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度之前還包括: 獲取服務(wù)器中存儲的賣家數(shù)據(jù),所述賣家數(shù)據(jù)為賣家對產(chǎn)品進行描述時所確定的產(chǎn)品描述信息; 解析所述賣家數(shù)據(jù),提取其中的查詢詞以及查詢詞的特征詞; 根據(jù)單個查詢詞和目標查詢詞的特征詞確定特征相似度; 所述根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度包括:根據(jù)所述投票相似度和特征相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
11.如權(quán)利要求10所述的擴展查詢方法,其特征在于,所述根據(jù)單個查詢詞和目標查詢詞的特征詞確定特征相似度包括: 計算每個特征詞的特征值,所述特征值根據(jù)特征詞及對應(yīng)的查詢詞的點互信息計算得到; 根據(jù)特征值計算單個查詢詞和目標查詢詞的特征相似度。
12.如權(quán)利要求1至11任一項所述的擴展查詢方法,其特征在于,所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞之前還包括:確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度; 所述根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞包括: 根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和語義相似度確定所述目標查詢詞的歸一化查詢詞;或根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和類目相似度確定所述目標查詢詞的歸一化查詢詞;或 根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度、語義相似度和類目相似度確定所述目標查詢詞的歸一化查詢詞。
13.如權(quán)利要求12所述的擴展查詢方法,其特征在于,所述確定單個查詢詞和目標查詢詞的語義相似度包括: 確定單個查詢詞和目標查詢詞的編輯距離,所述編輯距離指二者之間由一個詞轉(zhuǎn)化為另一詞所需的最少編輯操作次數(shù); 對所述編輯距離進行歸一化處理得到與關(guān)聯(lián)度具有相同量化級的語義相似度。
14.一種擴展查詢系統(tǒng),其特征在于,包括: 查詢詞輸入模塊,用于獲取用戶輸入的查詢詞; 歸一化查詢詞確定模塊,用于根據(jù)所述查詢詞確定所述查詢詞的歸一化查詢詞; 擴展查詢模塊,用于將所述歸一化查詢詞作為所述查詢詞的擴展詞進行擴展查詢; 其中,所述歸一化查詢詞確定模塊包括: session信息獲取模塊,用于獲取用戶搜索日志中的session信息; 查詢詞投票數(shù)統(tǒng)計模塊,用于獲取單個session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計各查詢詞的投票數(shù),在所述單個session內(nèi),按照各查詢詞出現(xiàn)的先后順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記 為一次投票; 投票相似度確定模塊,用于根據(jù)目標查詢詞在所有session內(nèi)的總投票數(shù)以及單個查詢詞對目標查詢詞的投票數(shù)確定單個查詢詞和目標查詢詞的投票相似度; 關(guān)聯(lián)度確定模塊,用于根據(jù)所述投票相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度;歸一化查詢詞確定模塊,用于根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度確定所述目標查詢詞的歸一化查詢詞。
15.如權(quán)利要求14所述的擴展查詢系統(tǒng),其特征在于,所述投票相似度確定模塊包括: 基數(shù)和權(quán)重確定單元,用于確定對目標查詢詞的每個投票的權(quán)重和基數(shù); 得分計算單元,用于根據(jù)所述權(quán)重和基數(shù)計算每個投票的得分; 比例計算單元,用于將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
16.如權(quán)利要求14所述的擴展查詢系統(tǒng),其特征在于,所述歸一化查詢詞確定模塊包括: 歸一化查詢詞閾值設(shè)定單元,用于設(shè)定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關(guān)聯(lián)度值超過所述歸一化產(chǎn)品閾值,則確定所述單個查詢詞為目標查詢詞的歸一化查詢詞。
17.如權(quán)利要求16所述的擴展查詢系統(tǒng),其特征在于,所述歸一化查詢詞確定模塊還包括: 歸一化查詢詞類別區(qū)分單元,用于將歸一化查詢詞類別分為同義歸一化查詢詞、相關(guān)歸一化查詢詞和擴展歸一化查詢詞三個類別; 取值范圍設(shè)定單元,用于按照關(guān)聯(lián)度值由大到小設(shè)定所述三個類別的取值范圍; 類別確定單元,用于將所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度所屬的取值范圍對應(yīng)的類別作為所述單個查詢詞和目標查詢詞的細化類別。
18.如權(quán)利要求14所述的擴展查詢系統(tǒng),其特征在于,所述歸一化查詢詞確定模塊還包括: 點擊信息獲取模塊,用于獲取用戶搜索日志中搜索結(jié)果的點擊信息; 搜索結(jié)果提取模塊,用于根據(jù)所述點擊信息中提取包含有目標查詢詞的搜索結(jié)果; 點擊相似度確定模塊,根據(jù)所有包含有目標查詢詞的搜索結(jié)果被點擊的總次數(shù)以及單個查詢詞所對應(yīng)的包含有目標查詢詞的搜索結(jié)果被點擊的次數(shù)確定單個查詢詞和目標查詢詞的點擊相似度; 所述關(guān)聯(lián)度確定模塊用于根據(jù)所述投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
19.如權(quán)利要求14所述的擴展查詢系統(tǒng),其特征在于,所述歸一化查詢詞確定模塊還包括: 賣家數(shù)據(jù)獲取模塊,用于獲取服務(wù)器中存儲的賣家數(shù)據(jù),所述賣家數(shù)據(jù)為賣家對產(chǎn)品進行描述時所確定的產(chǎn)品描述信息; 數(shù)據(jù)解析模塊,用于解析所述賣家數(shù)據(jù),提取其中的查詢詞以及查詢詞的特征詞; 特征相似度確定模塊,用于根據(jù)單個查詢詞和目標查詢詞的特征詞確定特征相似度; 所述關(guān)聯(lián)度確定模塊用于根據(jù)所述投票相似度和特征相似度確定單個查詢詞和目標查詢詞的關(guān)聯(lián)度。
20.如權(quán)利要求19所述的擴展查詢系統(tǒng),其特征在于,所述特征相似度確定模塊包括: 特征值計算單元,用于計算每個特征詞的特征值,所述特征值根據(jù)特征詞及對應(yīng)的查詢詞的點互信息計算得到,并根據(jù)特征值計算單個查詢詞和目標查詢詞的特征相似度。
21.如權(quán)利要求14至20任一項所述的擴展查詢系統(tǒng),其特征在于,所述歸一化查詢詞確定模塊還包括語義相似度確定模塊和/或類目相似度確定模塊,用于確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度; 所述歸一化查詢詞確定模塊用于根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和語義相似度確定所述目標查詢詞的歸一化查詢詞;或根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度和類目相似度確定所述目標查詢詞的歸一化查詢詞;或根據(jù)所述單個查詢詞和目標查詢詞的關(guān)聯(lián)度、語義相似度和類目相似度確定所述目標查詢詞的歸一化查詢詞。
【文檔編號】G06F17/30GK103577416SQ201210254810
【公開日】2014年2月12日 申請日期:2012年7月20日 優(yōu)先權(quán)日:2012年7月20日
【發(fā)明者】朱力, 董靜, 黃云平 申請人:阿里巴巴集團控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
葵青区| 重庆市| 金阳县| 南汇区| 米林县| 东乡族自治县| 呼玛县| 伊春市| 迭部县| 吉林省| 南和县| 锡林浩特市| 凌源市| 怀宁县| 成武县| 施秉县| 繁昌县| 南平市| 开封市| 会东县| 谢通门县| 安乡县| 阿巴嘎旗| 宣威市| 平陆县| 辰溪县| 宁河县| 宁远县| 哈尔滨市| 永德县| 武功县| 陆川县| 嘉鱼县| 韶山市| 洞口县| 芦山县| 象山县| 奉化市| 深水埗区| 乌鲁木齐县| 商洛市|