欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種搜索需求的挖掘方法、智能搜索方法及其裝置制造方法

文檔序號:6493232閱讀:217來源:國知局
一種搜索需求的挖掘方法、智能搜索方法及其裝置制造方法
【專利摘要】本發(fā)明提供了一種搜索需求的挖掘方法、智能搜索方法及其裝置,其中搜索需求的挖掘方法包括:A.從搜索日志的關鍵詞中確定泛需求詞;B.從所述搜索日志中提取泛需求詞對應的后繼詞;C.根據(jù)預設的過濾策略對泛需求詞對應的后繼詞進行過濾,以得到泛需求詞對應的精確需求詞,并根據(jù)泛需求詞與對應的精確需求詞之間的關聯(lián)強度建立對應關系詞表。智能搜索方法包括:獲取用戶的搜索關鍵詞;將所述搜索關鍵詞與對應關系詞表中的泛需求詞進行匹配,并在匹配通過時,利用所述對應關系詞表中所述搜索關鍵詞對應的精確需求詞獲取第一搜索結果。通過上述方式,能夠提高搜索引擎返回結果的準確性。
【專利說明】一種搜索需求的挖掘方法、智能搜索方法及其裝置
【【技術領域】】
[0001]本發(fā)明涉自然語言處理技術,特別涉及一種搜索需求的挖掘方法、智能搜索方法及其裝置。
【【背景技術】】
[0002]隨著互聯(lián)網(wǎng)的普及,搜索引擎越來越成為人們生活中不可缺少的工具。搜索引擎極大地加快了信息傳播的速度,改變了人們獲取知識的途徑,人們只需要向搜索引擎輸入感興趣的關鍵詞,就可以從搜索引擎獲取大量的相關信息。
[0003]但是,現(xiàn)有的搜索引擎是通過在索引庫中查詢用戶輸入的關鍵詞來獲取字面匹配的搜索結果的,在這種方式下,無論用戶輸入的是什么類型的關鍵詞,搜索引擎均只能向用戶返回字面匹配的搜索結果,由于搜索引擎無法判斷用戶搜索時的真實需求,因此無法自適應用戶的需要,為用戶返回更準確的搜索結果。

【發(fā)明內(nèi)容】

[0004]本發(fā)明所要解決的技術問題是提供一種搜索需求的挖掘方法、智能搜索方法及其裝置,以提高搜索引擎返回結果的準確性。
[0005]本發(fā)明為解決技術問題而采用的技術方案是提供一種搜索需求的挖掘方法,包括:A.從搜索日志的關鍵詞中確定泛需求詞;B.從所述搜索日志中提取泛需求詞對應的后繼詞,并確定泛需求詞與 對應的后繼詞之間的關聯(lián)強度,其中一個泛需求詞的后繼詞是與該泛需求詞共同出現(xiàn)在一個會話中且在該泛需求詞之后出現(xiàn)的詞語;C.根據(jù)預設的過濾策略對泛需求詞對應的后繼詞進行過濾,以得到泛需求詞對應的精確需求詞,并根據(jù)泛需求詞與對應的精確需求詞之間的關聯(lián)強度建立對應關系詞表。
[0006]根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟A中確定泛需求詞的方式至少包括以下一種:方式一、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞作為泛需求詞;或者,方式二、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞,并將提取的關鍵詞去除所述前綴后的剩余部分作為泛需求詞;或者,方式三、確定搜索日志中各關鍵詞的后繼詞,并將屬于同一實體類別的后繼詞所占比例超過第一設定閾值的關鍵詞作為泛需求詞,其中一個關鍵詞的后繼詞是與該關鍵詞共同出現(xiàn)在一個會話中且在該關鍵詞之后出現(xiàn)的詞語。
[0007]根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟B中根據(jù)下列公式計算泛需求詞X與對應
I n
的后繼詞Y之間的關聯(lián)強度=R = (I — —) * X ^,其中,R表示X與Y的關聯(lián)強度,m表
m i=l
示所述搜索日志中Y作為互異泛需求詞的后繼詞出現(xiàn)的總次數(shù),η表示所述搜索日志中Y作為X的后繼詞出現(xiàn)的總次數(shù),Wi表示Y在與X共同出現(xiàn)的第i個會話中的權重,其中Wi的大小與第i個會話中X的后繼詞總數(shù)成反比,與第i個會話中Y作為X的后繼詞出現(xiàn)的位序成正比。[0008]根據(jù)本發(fā)明之一優(yōu)選實施例,所述過濾策略至少包括以下一種:策略一、將泛需求詞對應的后繼詞中與該泛需求詞之間的關聯(lián)強度低于第二設定閾值的后繼詞過濾掉;策略二、將泛需求詞對應的后繼詞中與該泛需求詞具有相同分詞的后繼詞過濾掉;策略三、將泛需求詞對應的后繼詞中屬于同一實體類別所占比例低于第三設定閾值的后繼詞過濾掉。
[0009]本發(fā)明還提供了一種智能搜索方法,包括:獲取用戶的搜索關鍵詞;將所述搜索關鍵詞與前文所述方法得到的對應關系詞表中的泛需求詞進行匹配,并在匹配通過時,利用所述對應關系詞表中所述搜索關鍵詞對應的精確需求詞獲取第一搜索結果。
[0010]根據(jù)本發(fā)明之一優(yōu)選實施例,所述第一搜索結果中的各結果項分別由所述搜索關鍵詞對應的不同精確需求詞得到,且各結果項的排列順序由得到該結果項的精確需求詞與所述搜索關鍵詞之間的關聯(lián)強度確定。
[0011]根據(jù)本發(fā)明之一優(yōu)選實施例,所述方法進一步包括:利用所述搜索關鍵詞獲取第二搜索結果,并將所述第一搜索結果嵌入到所述第二搜索結果中返回給用戶。
[0012]本發(fā)明還提供了一種搜索需求的挖掘裝置,包括:泛需求詞挖掘單元,用于從搜索日志的關鍵詞中確定泛需求詞;后繼詞確定單元,用于從所述搜索日志中提取泛需求詞對應的后繼詞,并確定泛需求詞與對應的后繼詞之間的關聯(lián)強度,其中一個泛需求詞的后繼詞是與該泛需求詞共同出現(xiàn)在一個會話中且在該泛需求詞之后出現(xiàn)的詞語;精確需求詞確定單元,用于根據(jù)預設的過濾策略對泛需求詞對應的后繼詞進行過濾,以得到泛需求詞對應的精確需求詞,并根據(jù)泛需求詞與對應的精確需求詞之間的關聯(lián)強度建立對應關系詞表。
[0013]根據(jù)本發(fā)明之一優(yōu)選實施例,所述泛需求詞挖掘單元確定泛需求詞的方式至少包括以下一種:方式一、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞作為泛需求詞;或者,方式二、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞,并將提取的關鍵詞去除所述前綴后的剩余部分作為泛需求詞;或者,方式三、確定搜索日志中各關鍵詞的后繼詞,并將屬于同一實體類別的后繼詞所占比例超過第一設定閾值的關鍵詞作為泛需求詞,其中一個關鍵詞的后繼詞是與該關鍵詞共同出現(xiàn)在一個會話中且在該關鍵詞之后出現(xiàn)的詞語。
[0014]根據(jù)本發(fā)明之一優(yōu)選實施例,所述后繼詞確定單元根據(jù)下列公式計算泛需求詞X


n與對應的后繼詞Y之間的關聯(lián)強度=R = (1-1/m)* Σ wi,其中,R表示X與Y的關聯(lián)強


i=1

度,m表示所述搜索日志中Y作為互異泛需求詞的后繼詞出現(xiàn)的總次數(shù),η表示所述搜索日志中Y作為X的后繼詞出現(xiàn)的總次數(shù),Wi表示Y在與X共同出現(xiàn)的第i個會話中的權重,其中Wi的大小與第i個會話中X的后繼詞總數(shù)成反比,與第i個會話中Y作為X的后繼詞出現(xiàn)的位序成正比。
[0015]根據(jù)本發(fā)明之一優(yōu)選實施例,所述過濾策略至少包括以下一種:策略一、將泛需求詞對應的后繼詞中與該泛需求詞之間的關聯(lián)強度低于第二設定閾值的后繼詞過濾掉;策略二、將泛需求詞對應的后繼詞中與該泛需求詞具有相同分詞的后繼詞過濾掉;策略三、將泛需求詞對應的后繼詞中屬于同一實體類別所占比例低于第三設定閾值的后繼詞過濾掉。
[0016]本發(fā)明還提供了一種智能搜索裝置,包括:接收單元,用于獲取用戶的搜索關鍵詞;匹配單元,用于將所述搜索關鍵詞與前文所述裝置得到的對應關系詞表中的泛需求詞進行匹配;第一搜索單元,用于在所述匹配單元匹配通過時,利用所述對應關系詞表中所述搜索關鍵詞對應的精確需求詞獲取第一搜索結果。
[0017]根據(jù)本發(fā)明之一優(yōu)選實施例,所述第一搜索結果中的各結果項分別由所述搜索關鍵詞對應的不同精確需求詞得到,且各結果項的排列順序由得到該結果項的精確需求詞與所述搜索關鍵詞之間的關聯(lián)強度確定。
[0018]根據(jù)本發(fā)明之一優(yōu)選實施例,所述裝置進一步包括:第二搜索單元,用于利用所述搜索關鍵詞獲取第二搜索結果,并將所述第一搜索結果嵌入到所述第二搜索結果中返回給用戶。
[0019]由以上技術方案可以看出,本發(fā)明通過從搜索日志中挖掘泛需求詞,并通過泛需求詞挖掘精確需求詞,可以得到從泛需求詞到精確需求詞的對應關系詞表,該詞表反映了用戶行為背后的搜索需求,通過這一詞表,可以對線上用戶的搜索行為進行更好的適配,當用戶的輸入行為帶有泛需求特征時,將與精確需求對應的結果返回給用戶,能夠提高搜索引擎返回結果的準確性,節(jié)約用戶時間。
【【專利附圖】

【附圖說明】】
[0020]圖1為本發(fā)明中搜索需求的挖掘方法的實施例的流程示意圖;
[0021]圖2為本發(fā)明中智能搜索方法的實施例的流程示意圖;
[0022]圖3為本發(fā)明中智能搜索結果的一個實施例的示意圖;
[0023]圖4為本發(fā)明中搜索需求的挖掘裝置的實施例的結構示意框圖;
[0024]圖5為本發(fā)明中智能搜索裝置的實施例的結構示意框圖。 【【具體實施方式】】
[0025]為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結合附圖和具體實施例對本發(fā)明進行詳細描述。
[0026]請參考圖1,圖1為本發(fā)明中搜索需求的挖掘方法的實施例的流程示意圖。如圖1所示,該實施例的方法包括:
[0027]步驟SlOl:從搜索日志的關鍵詞中確定泛需求詞。
[0028]步驟S102:從搜索日志中提取泛需求詞對應的后繼詞,并確定泛需求詞語對應的后繼詞之間的關聯(lián)強度,其中一個泛需求詞的后繼詞是與該泛需求詞共同出現(xiàn)在一個會話中且在該泛需求詞之后出現(xiàn)的詞語。
[0029]步驟S103:根據(jù)預設的過濾策略對泛需求詞對應的后繼詞進行過濾,以得到泛需求詞對應的精確需求詞,并根據(jù)泛需求詞與對應的精確需求詞之間的關聯(lián)強度建立對應關系詞表。
[0030]下面對步驟SlOl的【具體實施方式】進行介紹。
[0031]本發(fā)明中的泛需求詞指的是表意范圍可以覆蓋若干個命名實體的詞語。例如“火鍋店”就是一個泛需求詞,因為“火鍋店”的表意范圍可以覆蓋“海底撈火鍋”、“小肥羊火鍋”
坐坐寸寸ο
[0032]本實施例中的步驟SlOl中確定泛需求詞的方式可采用以下至少一種:
[0033]方式一、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞作為泛需求詞。模式詞表可通過人工對詞語進行選取或者數(shù)據(jù)挖掘的方式得到。模式詞表中的詞包括起修飾作用的形容詞,例如“好玩的”、“好看的”、“聰明的”等等。搜索日志記錄了一個以上用戶的搜索行為,包括用戶搜索時使用的關鍵詞,因此,通過模式詞表,可以從搜索日志中提取出一個以上前綴匹配的關鍵詞,例如“好玩的地方”、“好看的電影”等等,這些前綴與模式詞表中的詞匹配的關鍵詞均可作為本實施例中的泛需求詞。
[0034]方式二、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞,并將提取的關鍵詞去除前綴后的剩余部分作為泛需求詞。例如以模式詞表中的詞為前綴的關鍵詞有“好看的電影”、“好玩的地方”,其中“好看的”、“好玩的”是前綴,則“電影”、“地方”就是泛需求詞。
[0035]方式三、確定搜索日志中各關鍵詞的后繼詞,并將屬于同一實體類別的后繼詞所占比例超過第一設定閾值的關鍵詞作為泛需求詞,其中一個關鍵詞的后繼詞是與該關鍵詞共同出現(xiàn)在一個會話中且在該關鍵詞之后出現(xiàn)的詞語。
[0036]搜索日志可以會話(session)為單位切分為一個以上的切分片段,其中每個切分片段對應一個會話的記錄。在每個切分片段中,記錄了一個用戶在一段時間內(nèi)的操作行為,其中包括用戶按時間順序搜索過的關鍵詞。例如有下面幾個切分片段:
[0037]切分片段A 好看的電影”、“盜夢空間”、“讓子彈飛”
[0038]切分片段B 電影”、“好看的電影”、“1942”、“讓子彈飛”
[0039]切分片段C 好看的電影”、“少年派”、“江南style”
[0040]則根據(jù)上面三個切分片段,可以得到關鍵詞“好看的電影”的后繼詞有“盜夢空間”、“讓子彈飛”、“1942”、“少年派”和“江南style”,共5個。
[0041]由于關鍵詞“好看的電影”的后繼詞中,屬于“電影”實體類別的后繼詞有“盜夢空間”、“讓子彈飛”、“1942”和“少年派”,即屬于同一實體類別的后繼詞數(shù)量為4,在“好看的電影”的后繼詞中占比=0.8,假設第一設定閾值為0.6,則根據(jù)方式三,可以確定“好看的電影”為泛需求詞。確定后繼詞的實體類別,可通過現(xiàn)有的實體詞表進行匹配確定,該實體詞表的結構可以表示成以下形式:
[0042]
實體詞類型實體詞
~盜夢空間、讓子彈飛……
[0043]以會話為單位對搜索日志進行切分,可以采用機器學習的方法進行,即首先在搜索日志樣本中進行切分標注,然后對搜索日志樣本提取特征,最后利用具有特征的標注樣本對未知參數(shù)的切分模型進行機器學習訓練,以得到切分模型的參數(shù)。這樣,就可以使用具有參數(shù)的切分模型對任意待切分的搜索日志進行切分了。在上述過程中,對搜索日志樣本提取的特征,以及在使用切分模型對待切分的搜索日志進行切分前,對待切分的搜索日志提取的特征,可以是以下特征中的任意一種或多種的組合:相鄰關鍵詞分別所屬詞語類別、相鄰關鍵詞分別被搜索的時間間隔、當前關鍵詞被搜索時距首個被搜索的關鍵詞的時間間隔。[0044]下面對步驟S102的【具體實施方式】進行介紹。
[0045]步驟S102中,為了從搜索日志中提取泛需求詞對應的后繼詞,首先需要對搜索日志以會話為單位進行切分。如果步驟SlOl中確定泛需求詞的方式是方式一或/和方式二,則此處可按照前面介紹的切分方式對搜索日志以會話為單位進行切分,如果步驟SlOl中采用了方式三確定泛需求詞,則此處只需要針對每個泛需求詞,確定包含該泛需求詞的切分片段,以提取該泛需求詞對應的后繼詞及計算相應的關聯(lián)強度。
[0046]具體地,本實施例中可根據(jù)下列公式計算泛需求詞X與對應的后繼詞Y之間的關聯(lián)強度:
,其中,R表示X與Y的關聯(lián)強度,m表示所述搜索日志中Y
作為互異泛需求詞的后繼詞出現(xiàn)的總次數(shù),η表示所述搜索日志中Y作為X的后繼詞出現(xiàn)的總次數(shù),Wi表示Y在與X共同出現(xiàn)的第i個會話中的權重,其中Wi的大小與第i個會話中X的后繼詞總數(shù)成反比,與第i個會話中Y作為X的后繼詞出現(xiàn)的位序成正比。
[0048]仍以前面的切分片段A、B、C為例進行介紹。對泛需求詞“好看的電影”而言,搜索日志中包含該詞語的切分片段有A、B、C,根據(jù)后繼詞的定義,可以確定泛需求詞“好看的電影”的后繼詞有“盜夢空間”、“讓子彈飛”、“1942”、“少年派”、“江南style”。
[0049]若計算后繼詞“讓子彈飛”與泛需求詞“好看的電影”之間的關聯(lián)強度,需要確定上述公式中的m、11和Wi的值??梢钥闯觯白屪訌楋w”作為“好看的電影”的后繼詞出現(xiàn)的總次數(shù)為2次,即η等于2?!白屪訌楋w”與“好看的電影”共同出現(xiàn)的第I個會話為切分片段Α,即“讓子彈飛”在切分片段A中的權 重就是W1, “讓子彈飛”與“好看的電影”共同出現(xiàn)的第2個會話為切分片段B,即“讓子彈飛”在切分片段B中的權重就是w2。其中W1的值與切分片段A中“好看的電影”的后繼詞總數(shù)(總數(shù)為2)成反比,與“讓子彈飛”在切分片段A中作為“好看的電影”的后繼詞出現(xiàn)的位序(第2位)成正比,W2的值與切分片段B中“好看的電影”的后繼詞總數(shù)(總數(shù)為2)成反比,與“讓子彈飛”在切分片段B中作為“好看的電影”的后繼詞出現(xiàn)的位序(第2位)成正比。而m的值由搜索日志中以“讓子彈飛”為后繼詞的互異泛需求詞的數(shù)量決定。假設搜索日志中泛需求詞“優(yōu)秀導演”、“金馬獎作品”、“好看的電影”的后繼詞中均有“讓子彈飛”,則m的值就是3。所以“讓子彈飛”與“好看的電影”之
間的關聯(lián)強度Λ =(、丨-1) * (W1 +W2) ?

3
[0050]下面介紹一種求上述公式中Wi的實施方式。在該方式下,可按照下列公式確定Wi的值:
[0051]其中,j表示第i個會話中Y作為X的后繼詞出現(xiàn)的位序,S表示
第i個會話中X的后繼詞總數(shù)。值得注意的是,這里的位序越大,表明Y作為X的后繼詞出現(xiàn)得越晚,即用戶搜索Y的行為在一個會話中越靠后。
[0052]按照該公式,前面例子中,由于切分片段A中“好看的電影”的后繼詞總數(shù)為2,“讓子彈飛”在“好看的電影”的后繼詞中排在第2位,因此W =^^y = 0.33。由于切分片段B中“好看的電影”的后繼詞總數(shù)為2,“讓子彈飛”在“好看的電影”的后繼詞中排在第2位,因此W2=2/2*(1+2)= 0.33。[0053]綜上所述可以計算出“讓子彈飛”與“好看的電影”之間的關聯(lián)強度
[0054]R = (l-1/3)*(0.33 + 0.33) = 0.44。
[0055]按照前面介紹的方式,在步驟S102中可以針對每個泛需求詞,分別求出該泛需求詞對應的每個后繼詞與該泛需求詞之間的關聯(lián)強度。
[0056]下面對步驟S103中的過濾策略進行介紹。具體地,本實施例中的過濾策略至少包括以下一種:
[0057]策略一:將泛需求詞對應的后繼詞中與該泛需求詞之間的關聯(lián)強度低于第二設定閾值的后繼詞過濾掉。例如,“好看的電影”的后繼詞按照關聯(lián)強度的大小排列如下:“讓子彈飛”、“1942”、“少年派”、“盜夢空間”、“江南style”,其中“盜夢空間”與“好看的電影”之間的關聯(lián)強度為0.35,“江南style”與“好看的電影”之間的關聯(lián)強度為0.1,如果第二設定閾值為0.3,則根據(jù)策略一,后繼詞“江南style”將被過濾掉。
[0058]策略二:將泛需求詞對應的后繼詞中與該泛需求詞具有相同分詞的后繼詞過濾掉。例如泛需求詞“好看的電影”的后繼詞中有一個詞為“好看的電影2012”,由于泛需求詞“好看的電影”的分詞包括“好看的”、“電影”,而后繼詞“好看的電影2012”的分詞包括“好看的”、“電影”、“2012”,這兩者有相同的分詞“好看的”、“電影”,因此根據(jù)策略二,后繼詞“好看的電影2012”就會被過濾掉。
[0059]策略三:將泛需求詞對應的后繼詞中屬于同一實體類別所占比例低于第三設定閾值的后繼詞過濾掉。例如泛需求詞“好看的電影”的后繼詞有“盜夢空間”、“讓子彈飛”、“ 1942”、“少年派”、“江南style”、“I believe”,共6個,其中“盜夢空間”、“讓子彈飛”、“1942”、“少年派”均屬于同一實體即“電影”類別,該實體類別的后繼詞所占比例為4/6=0.67,“江南style”和“I believe”屬于同一實體“歌曲”類別,該實體類別的后繼詞所占比例為2/6=0.33,如果第三設定閾值為0.5,則根據(jù)策略三,“歌曲”類別下的“江南style”和“I believe”將被過濾掉。
[0060]在步驟S103對后繼詞進行過濾后,剩下的與各個泛需求詞對應的后繼詞就是與該泛需求詞對應的精確需求詞。對應關系詞表是泛需求詞和對應的精確需求詞之間的映射表,其中泛需求詞對應的精確需求詞按照關聯(lián)強度排列。下面是對應關系詞表的一種示意結構:
[0061]
【權利要求】
1.一種搜索需求的挖掘方法,包括: A.從搜索日志的關鍵詞中確定泛需求詞; B.從所述搜索日志中提取泛需求詞對應的后繼詞,并確定泛需求詞與對應的后繼詞之間的關聯(lián)強度,其中一個泛需求詞的后繼詞是與該泛需求詞共同出現(xiàn)在一個會話中且在該泛需求詞之后出現(xiàn)的詞語; C.根據(jù)預設的過濾策略對泛需求詞對應的后繼詞進行過濾,以得到泛需求詞對應的精確需求詞,并根據(jù)泛需求詞與對應的精確需求詞之間的關聯(lián)強度建立對應關系詞表。
2.根據(jù)權利要求1所述的方法,其特征在于,所述步驟A中確定泛需求詞的方式至少包括以下一種: 方式一、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞作為泛需求詞;或者, 方式二、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞,并將提取的關鍵詞去除所述前綴后的剩余部分作為泛需求詞;或者, 方式三、確定搜索日志中各關鍵詞的后繼詞,并將屬于同一實體類別的后繼詞所占比例超過第一設定閾值的關鍵詞作為泛需求詞,其中一個關鍵詞的后繼詞是與該關鍵詞共同出現(xiàn)在一個會話中且在該關鍵詞之后出現(xiàn)的詞語。
3.根據(jù)權利要求1所述的方法,其特征在于,所述步驟B中根據(jù)下列公式計算泛需求詞X與對應的后繼詞Y之間的關聯(lián)強度:

4.根據(jù)權利要求1所述的方法,其特征在于,所述過濾策略至少包括以下一種: 策略一、將泛需求詞對應的后繼詞中與該泛需求詞之間的關聯(lián)強度低于第二設定閾值的后繼詞過濾掉; 策略二、將泛需求詞對應的后繼詞中與該泛需求詞具有相同分詞的后繼詞過濾掉;策略三、將泛需求詞對應的后繼詞中屬于同一實體類別所占比例低于第三設定閾值的后繼詞過濾掉。
5.一種智能搜索方法,包括: 獲取用戶的搜索關鍵詞; 將所述搜索關鍵詞與權利要求1至4中任一權項所述方法得到的對應關系詞表中的泛需求詞進行匹配,并在匹配通過時,利用所述對應關系詞表中所述搜索關鍵詞對應的精確需求詞獲取第一搜索結果。
6.根據(jù)權利要求5所述方法,其特征在于,所述第一搜索結果中的各結果項分別由所述搜索關鍵詞對應的不同精確需求詞得到,且各結果項的排列順序由得到該結果項的精確需求詞與所述搜索關鍵詞之間的關聯(lián)強度確定。
7.根據(jù)權利要求5所述的方法,其特征在于,所述方法進一步包括:利用所述搜索關鍵詞獲取第二搜索結果,并將所述第一搜索結果嵌入到所述第二搜索結果中返回給用戶。
8.一種搜索需求的挖掘裝置,包括: 泛需求詞挖掘單元,用于從搜索日志的關鍵詞中確定泛需求詞; 后繼詞確定單元,用于從所述搜索日志中提取泛需求詞對應的后繼詞,并確定泛需求詞與對應的后繼詞之間的關聯(lián)強度,其中一個泛需求詞的后繼詞是與該泛需求詞共同出現(xiàn)在一個會話中且在該泛需求詞之后出現(xiàn)的詞語; 精確需求詞確定單元,用于根據(jù)預設的過濾策略對泛需求詞對應的后繼詞進行過濾,以得到泛需求詞對應的精確需求詞,并根據(jù)泛需求詞與對應的精確需求詞之間的關聯(lián)強度建立對應關系詞表。
9.根據(jù)權利要求8所述的裝置,其特征在于,所述泛需求詞挖掘單元確定泛需求詞的方式至少包括以下一種: 方式一、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞作為泛需求詞;或者, 方式二、從搜索日志中提取以預設的模式詞表中的詞為前綴的關鍵詞,并將提取的關鍵詞去除所述前綴后的剩余部分作為泛需求詞;或者, 方式三、確定搜索日志中各關鍵詞的后繼詞,并將屬于同一實體類別的后繼詞所占比例超過第一設定閾值的關鍵詞作為泛需求詞,其中一個關鍵詞的后繼詞是與該關鍵詞共同出現(xiàn)在一個會話中且在該關鍵詞之后出現(xiàn)的詞語。
10.根據(jù)權利要求8所述的裝置,其特征在于,所述后繼詞確定單元根據(jù)下列公式計算泛需求詞X與對應的后繼詞Y之間的關聯(lián)強度:
11.根據(jù)權利要求8所述的裝置,其特征在于,所述過濾策略至少包括以下一種: 策略一、將泛需求詞對應的后繼詞中與該泛需求詞之間的關聯(lián)強度低于第二設定閾值的后繼詞過濾掉; 策略二、將泛需求詞對應的后繼詞中與該泛需求詞具有相同分詞的后繼詞過濾掉;策略三、將泛需求詞對應的后繼詞中屬于同一實體類別所占比例低于第三設定閾值的后繼詞過濾掉。
12.—種智能搜索裝置,包括: 接收單元,用于獲取用戶的搜索關鍵詞; 匹配單元,用于將所述搜索關鍵詞與權利要求8至11所述裝置得到的對應關系詞表中的泛需求詞進行匹配; 第一搜索單元,用于在所述匹配單元匹配通過時,利用所述對應關系詞表中所述搜索關鍵詞對應的精確需求詞獲取第一搜索結果。
13.根據(jù)權利要求12所述的裝置,其特征在于,所述第一搜索結果中的各結果項分別由所述搜索關鍵詞對應的不同精確需求詞得到,且各結果項的排列順序由得到該結果項的精確需求詞與所述搜索關鍵詞之間的關聯(lián)強度確定。
14.根據(jù)權利要求12所述的裝置,其特征在于,所述裝置進一步包括: 第二搜索單元,用于利用所述搜索關鍵詞獲取第二搜索結果,并將所述第一搜索結果嵌入到所述第二 搜索結果中返回給用戶。
【文檔編號】G06F17/30GK103885947SQ201210554903
【公開日】2014年6月25日 申請日期:2012年12月19日 優(yōu)先權日:2012年12月19日
【發(fā)明者】黃榮升, 辜斯繆 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
巴青县| 霍林郭勒市| 乐清市| 达日县| 房产| 阳西县| 卢氏县| 通州区| 宁海县| 靖边县| 黄陵县| 精河县| 新密市| 民权县| 鸡东县| 聂荣县| 会理县| 新巴尔虎右旗| 彭山县| 五大连池市| 朝阳区| 鄄城县| 双流县| 清丰县| 资源县| 沙洋县| 时尚| 金昌市| 微山县| 濮阳县| 车险| 临清市| 张家口市| 葵青区| 固镇县| 蒲江县| 建始县| 石台县| 肇州县| 奉节县| 冕宁县|