綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法
【專利摘要】本發(fā)明公開了綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法;步驟如下:接收用戶的查詢;采用查詢時(shí)效性分類算法判斷查詢屬于沒(méi)有時(shí)間意圖的查詢QoT、僅有一個(gè)查詢量突起的查詢OQ、有多個(gè)查詢量突起且突起之間沒(méi)有周期性的查詢AMQ和有多個(gè)查詢量突起且突起之間有周期性的查詢PMQ中的哪一類,若該查詢屬于QoT類就進(jìn)入步驟(3-1);若該查詢屬于OQ、AMQ、PMQ三類中的一類,就進(jìn)入步驟(3-2);(3-1):僅考慮語(yǔ)義意圖對(duì)檢索結(jié)果進(jìn)行多樣化;(3-2):計(jì)算P(t|q)并同時(shí)考慮語(yǔ)義意圖和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化;將多樣化的檢索結(jié)果輸出;本發(fā)明有效地建模查詢動(dòng)態(tài)性,通過(guò)考慮查詢的時(shí)效性特征來(lái)提升信息檢索系統(tǒng)的性能,改善用戶的搜索體驗(yàn)。
【專利說(shuō)明】綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索領(lǐng)域,具體地說(shuō)是一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法。
【背景技術(shù)】
[0002]隨著大數(shù)據(jù)時(shí)代的到來(lái),信息量越來(lái)越豐富,信息需求越來(lái)越復(fù)雜,信息檢索系統(tǒng)如何利用有限的空間滿足用戶的不同信息需求變得異常重要。而結(jié)果的多樣化作為一種最有效的解決方案近來(lái)受到企業(yè)界和學(xué)術(shù)界的普遍關(guān)注。
[0003]之所以要對(duì)信息檢索結(jié)果進(jìn)行多樣化的主要原因包括:
[0004](I)大多查詢存在歧義性、模糊性和多義性。一個(gè)典型的代表查詢是“蘋果”。它既可以代表一種水果,也可以代表蘋果公司或者其電子產(chǎn)品。對(duì)這種查詢用戶希望返回多樣化的結(jié)果,因?yàn)樗阉饕娌恢烙脩舻木唧w需求。
[0005](2)用戶的信息需求具有不確定性、瀏覽性,并且因人而異。也就是說(shuō)即使是同一個(gè)查詢,不同用戶的信息需求也是不同的。比如同樣是查詢“豬流感”,醫(yī)務(wù)人員可能更關(guān)注豬流感的病理、病因等專業(yè)方面的信息,而普通大眾則可能更關(guān)注豬流感的傳播等新聞信
肩、O
[0006]( 3 )ffeb是一個(gè)動(dòng)態(tài)的信息空間,其中的內(nèi)容不斷變化。用戶查詢也是時(shí)間敏感的,即用戶的查詢意圖隨時(shí)間而變化。比如同樣是查詢“地震”,在地震發(fā)生不久時(shí)用戶的查詢意圖與地震過(guò)后的查詢意圖存在很大區(qū)別。
[0007](4)大數(shù)據(jù)時(shí)代造成了大量可用信息的存在,因此需要信息檢索系統(tǒng)在提供檢索結(jié)果時(shí)需要盡量避免冗余信息,并保證新穎性和多樣性。
[0008]任何事物都不是一成不變的,互聯(lián)網(wǎng)更是如此,網(wǎng)絡(luò)信息日新月異。因此,對(duì)于信息檢索系統(tǒng)來(lái)說(shuō),時(shí)效性是一個(gè)很重要的因素。然而,傳統(tǒng)的檢索結(jié)果多樣化方法只是考慮查詢的語(yǔ)義意圖進(jìn)行多樣化,比如經(jīng)典的MMR模型、xQuAD模型、IA-SeIect模型等,這樣,難以捕捉查詢的動(dòng)態(tài)性,不能有效地利用查詢的時(shí)效性特征來(lái)改善信息檢索系統(tǒng)的性能。
【發(fā)明內(nèi)容】
[0009]本發(fā)明的目的就是為了解決上述問(wèn)題,提供了一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,該方法可以有效地建模查詢的動(dòng)態(tài)性,通過(guò)考慮查詢的時(shí)效性特征來(lái)提升信息檢索系統(tǒng)的性能,改善用戶的搜索體驗(yàn),提高用戶滿意度。
[0010]為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0011]一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,步驟如下:
[0012]步驟(I):接收用戶的查詢;
[0013]步驟(2):采用查詢時(shí)效性分類算法判斷查詢屬于
[0014]沒(méi)有時(shí)間意圖的查詢QoT (Query without Time intent)、
[0015]僅有一個(gè)查詢量突起的查詢OQ (One spike Query)、[0016]有多個(gè)查詢量突起且突起之間沒(méi)有周期性的查詢AMQ (Aperiodic Mult1-spikeQuery)和
[0017]有多個(gè)查詢量突起且突起之間有周期性的查詢PMQ (Periodic Mult1-spikeQuery)
[0018]中的哪一類,若該查詢屬于QoT類就進(jìn)入步驟(3-1);若該查詢屬于0Q、AMQ、PMQ三類中的一類,就進(jìn)入步驟(3-2);
[0019]步驟(3-1):僅考慮語(yǔ)義意圖對(duì)檢索結(jié)果進(jìn)行多樣化;
[0020]步驟(3-2):計(jì)算P(t|q)并同時(shí)考慮語(yǔ)義意圖和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化;
[0021]步驟(4):將多樣化的檢索結(jié)果輸出。
[0022]所述步驟(3-1)的計(jì)算公式為:
[0023] (1)
【權(quán)利要求】
1.一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,步驟如下: 步驟(1):接收用戶的查詢; 步驟(2):采用查詢時(shí)效性分類算法判斷查詢屬于 沒(méi)有時(shí)間意圖的查詢QoT、 僅有一個(gè)查詢量突起的查詢0Q、 有多個(gè)查詢量突起且突起之間沒(méi)有周期性的查詢AMQ和 有多個(gè)查詢量突起且突起之間有周期性的查詢PMQ 中的哪一類,若該查詢屬于QoT類就進(jìn)入步驟(3-1);若該查詢屬于OQ、AMQ、PMQ三類中的一類,就進(jìn)入步驟(3-2); 步驟(3-1):僅考慮語(yǔ)義意圖對(duì)檢索結(jié)果進(jìn)行多樣化; 步驟(3-2):計(jì)算P(t|q)并同時(shí)考慮語(yǔ)義意圖和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化; 步驟(4):將多樣化的檢索結(jié)果輸出。
2.如權(quán)利要求1所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述步驟(3-1)的計(jì)算公式為:
3.如權(quán)利要求2所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述公式(I)中,根據(jù)條件獨(dú)立性假設(shè),P (d I q,t, z)進(jìn)一步展開為:
4.如權(quán)利要求1所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述步驟(3-2)的計(jì)算公式為:
5.如權(quán)利要求4所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述公式(3)中,根據(jù)條件獨(dú)立性假設(shè),P (d |q,t, z)進(jìn)一步展開為:
6.如權(quán)利要求3或5所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述公式(2)和(4)中,P(Cd|q)是用于衡量文檔d與查詢q的語(yǔ)義相關(guān)度,其計(jì)算方式如下:
7.如權(quán)利要求3或5所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述公式(2)和(4)中,P(CdIz)計(jì)算方式與P(CdIq)相似,用于衡量文檔d與子主題z的語(yǔ)義相關(guān)度。
8.如權(quán)利要求5所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述公式(4)中,P(td|t)衡量文檔的發(fā)布時(shí)間td與查詢的時(shí)效性意圖t的相關(guān)度;使用Sigmoid函數(shù)作為時(shí)間衰減函數(shù)來(lái)計(jì)算P(td| t);
9.如權(quán)利要求2或4所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述公式(1)和(3)中,P (z |q)是子主題ζ的重要性;某個(gè)子主題與用戶的查詢意圖越相關(guān),該子主題的P(z|q)應(yīng)該更大;在沒(méi)有任何先驗(yàn)知識(shí)的情況下,用均勻分布來(lái)建模P (z |q)的分布,即:
10.如權(quán)利要求1所述的一種綜合語(yǔ)義和時(shí)效性意圖對(duì)檢索結(jié)果進(jìn)行多樣化的方法,其特征是,所述公式(3)中,P(t|q)的計(jì)算方式,分三種情況: 第一種是基于文檔估計(jì)方法,P (t |q)計(jì)算公式為:
【文檔編號(hào)】G06F17/30GK103870592SQ201410123319
【公開日】2014年6月18日 申請(qǐng)日期:2014年3月28日 優(yōu)先權(quán)日:2014年3月28日
【發(fā)明者】陳竹敏, 任鵬杰, 馬軍, 吳凱, 隋雪芹, 宋曉萌 申請(qǐng)人:山東大學(xué)