微博實(shí)時(shí)檢索方法和裝置制造方法
【專利摘要】本發(fā)明提供了微博實(shí)時(shí)檢索方法,包括:對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式;獲取來自用戶的關(guān)鍵詞;對(duì)關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式;以擴(kuò)展檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果。本發(fā)明還提供了一種微博實(shí)時(shí)檢索裝置,包括:文檔擴(kuò)展模塊,用于對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式;關(guān)鍵詞模塊,用于獲取來自用戶的關(guān)鍵詞;檢索擴(kuò)展模塊,用于對(duì)關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式;匹配模塊,用于以擴(kuò)展檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果。本發(fā)明提高了微博檢索的準(zhǔn)確度。
【專利說明】微博實(shí)時(shí)檢索方法和裝置【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索領(lǐng)域,具體而言,涉及一種微博實(shí)時(shí)檢索方法和裝置。
【背景技術(shù)】
[0002]微博具有以下特點(diǎn):1.微博的長度嚴(yán)格限制在140字以內(nèi);2.用戶在發(fā)布微博的同時(shí)還可以通過O符號(hào)和其他用戶進(jìn)行互動(dòng);3.用戶還可以利用#符號(hào)來表明微博所屬的主題。
[0003]作為一種互動(dòng)性和傳播性極強(qiáng)的工具,微博數(shù)量往往隨著新聞事件的發(fā)生呈現(xiàn)出爆炸性的增長,從而使得在微博平臺(tái)上實(shí)時(shí)信息更替得更頻繁;同時(shí),由于微博的長度限制,使得微博文本更加地碎片化,更加凸顯了檢索過程中詞匯不匹配(vocabulary-mismatch)的問題??偟膩碚f,微博的實(shí)時(shí)性、社會(huì)化以及碎片化特征給微博環(huán)境下的信息檢索帶來了巨大的挑戰(zhàn)。
[0004]不同于傳統(tǒng)的信息檢索任務(wù),微博實(shí)時(shí)檢索除了要考慮查詢的語義信息之外,還要考慮查詢的時(shí)間戳(timestamp),在微博環(huán)境下,用戶不僅僅希望檢索到語義相關(guān)度高的文檔,同時(shí)也希望看到最新發(fā)布的相關(guān)微博。針對(duì)微博實(shí)時(shí)檢索所展現(xiàn)出來的新特性,國際權(quán)威文本檢索會(huì)議(TREC)從第20屆(2011年)開始增加了微博實(shí)時(shí)檢索的任務(wù),并吸引了全球近60個(gè)組織參與。同時(shí),國內(nèi)外的研究學(xué)者也開始更多地關(guān)注信息檢索在微博環(huán)境下的應(yīng)用。
[0005]在傳統(tǒng)的信息檢索中,待檢索的文檔往往包含較多的文本信息,因此只要運(yùn)用查詢擴(kuò)展技術(shù)就可以較好地解決詞匯不匹配的問題,然而在微博環(huán)境下,待檢索的文檔至多能包含140個(gè)漢字,僅僅運(yùn)用 查詢擴(kuò)展并不能很好地解決微博中的詞匯不匹配的問題。
【發(fā)明內(nèi)容】
[0006]本發(fā)明旨在提供微博實(shí)時(shí)檢索方法和裝置,以解決上述的問題。
[0007]在本發(fā)明的實(shí)施例中,提供了一種微博實(shí)時(shí)檢索方法,包括:對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式;獲取來自用戶的關(guān)鍵詞;對(duì)關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式;以擴(kuò)展檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果。
[0008]在本發(fā)明的實(shí)施例中,提供了一種微博實(shí)時(shí)檢索裝置,包括:文檔擴(kuò)展模塊,用于對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式;關(guān)鍵詞模塊,用于獲取來自用戶的關(guān)鍵詞;檢索擴(kuò)展模塊,用于對(duì)關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式;匹配模塊,用于以擴(kuò)展檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果。
[0009]本發(fā)明上述實(shí)施例的微博實(shí)時(shí)檢索方法和裝置因?yàn)椴捎昧宋臋n擴(kuò)展,所以克服了微博字?jǐn)?shù)太少導(dǎo)致的檢索不精確的 問題,提高了微博檢索的準(zhǔn)確度。
【專利附圖】
【附圖說明】[0010]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0011]圖1示出了根據(jù)本發(fā)明實(shí)施例的微博實(shí)時(shí)檢索方法的流程圖;
[0012]圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的微博實(shí)時(shí)檢索方法的流程圖;
[0013]圖3示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的文檔擴(kuò)展流程圖;
[0014]圖4示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的查詢擴(kuò)展流程圖;
[0015]圖5示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的時(shí)間因素重排序流程圖;
[0016]圖6示出了根據(jù)本發(fā)明實(shí)施例的微博實(shí)時(shí)檢索裝置的示意圖。
【具體實(shí)施方式】
[0017]下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。
[0018]圖1示出了根據(jù)本發(fā)明實(shí)施例的微博實(shí)時(shí)檢索方法的流程圖,包括:
[0019]步驟S10,對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式(即文檔模型);
[0020]步驟S20,獲取來自用戶的關(guān)鍵詞;
[0021]步驟S30,對(duì)關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式(即查詢模型);
[0022]步驟S40,以擴(kuò)展檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果。
[0023]文檔擴(kuò)展是利用微博包含的外部鏈接來擴(kuò)充微博文本的語義信息。相關(guān)技術(shù)僅僅運(yùn)用查詢擴(kuò)展并不能很好地解決微博中的詞匯不匹配的問題,而本方法中采用了文檔擴(kuò)展,使得微博的字?jǐn)?shù)得以增加,所以克服了微博字?jǐn)?shù)太少導(dǎo)致的檢索不精確的問題,提高了微博檢索的準(zhǔn)確度。
[0024]優(yōu)選地,步驟SlO包括:將微博中包含的短鏈接還原成原始的長鏈接;從長鏈接中解析出網(wǎng)站關(guān)鍵字,從原始的長鏈接的網(wǎng)頁的源代碼中解析出標(biāo)題標(biāo)簽的內(nèi)容,即,從網(wǎng)頁HTML代碼中解析出〈TITLE〉標(biāo)簽的內(nèi)容,作為網(wǎng)頁核心內(nèi)容的候選文本;利用網(wǎng)站關(guān)鍵字和解析內(nèi)容生成網(wǎng)頁主題信息;對(duì)網(wǎng)頁主題信息分詞以生成主題信息邏輯式,對(duì)微博分詞以生成文檔邏輯式;將主題信息邏輯式與文檔邏輯式線性疊加以生成文檔擴(kuò)展邏輯式。
[0025]本優(yōu)選實(shí)施例從語義相關(guān)度的角度出發(fā),將從原始的長鏈接的網(wǎng)頁的源代碼中解析出標(biāo)題標(biāo)簽的內(nèi)容用于做文檔擴(kuò)展,因?yàn)檫@部分內(nèi)容的語義相關(guān)度較大,且容易獲取,能夠?qū)崿F(xiàn)較高準(zhǔn)確度的檢索,且容易實(shí)現(xiàn)。
[0026]優(yōu)選地,利用網(wǎng)站關(guān)鍵字和解析內(nèi)容生成網(wǎng)頁主題信息包括:將解析內(nèi)容用分隔符(例如“ I分割成多個(gè)子字符串,若不能分割,則將全部解析內(nèi)容作為一個(gè)子字符串;分別檢驗(yàn)各個(gè)子字符串是否含網(wǎng)站關(guān)鍵字,如果是,則舍棄這個(gè)子字符串,將未被舍棄的子字符串作為網(wǎng)頁主題信息;若各個(gè)子字符串都不包含網(wǎng)站關(guān)鍵字,則取文本長度最長的子字符串作為網(wǎng)頁主題信息。
[0027]本方案很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。
[0028]優(yōu)選地,用語言模型輔以狄利特雷平滑估計(jì)網(wǎng)頁主題信息,以對(duì)網(wǎng)頁主題信息分詞以生成主題信息邏輯式。語言模型輔以狄利特雷平滑估計(jì)是比較成熟的技術(shù),容易實(shí)現(xiàn)。
[0029]文檔擴(kuò)展利用文檔所包含的鏈接來擴(kuò)展原文檔的語義,從而克服了微博環(huán)境中對(duì)文檔字?jǐn)?shù)的限制。結(jié)合一個(gè)實(shí)際的例子,文檔擴(kuò)展的步驟如下:[0030]I)將文檔中包含的短鏈接還原成原始的長鏈接。例如,文檔“一段視頻用數(shù)字很好的分析了林書豪持續(xù)爆發(fā)的原因”包含了 http://t.cn/z04AlI9短鏈接地址,通過短鏈接恢復(fù)服務(wù),得到該短鏈接對(duì)應(yīng)的原始長鏈接為http://vide0.sina.com.cn/p/sports/k/v/2012-02-23/083261673863.html。
[0031]2)從長鏈接中解析出網(wǎng)站關(guān)鍵字。這里,網(wǎng)站關(guān)鍵字為sina。
[0032]3)從網(wǎng)頁HTML代碼中解析出〈TITLE〉標(biāo)簽的內(nèi)容,作為網(wǎng)頁核心內(nèi)容的候選文本。該網(wǎng)址對(duì)應(yīng)的網(wǎng)頁核心內(nèi)容候選文本為“視頻-科學(xué)解析林書豪爆發(fā)原因0.6秒投籃I秒加速I新浪NBA視頻”
[0033]4)將網(wǎng)頁核心內(nèi)容的候選文本用常見的分隔符分割,對(duì)分割后的子字符串進(jìn)行檢驗(yàn),若其中有包含網(wǎng)站關(guān)鍵字的子字符串,則舍棄這個(gè)字符串,否則取最長的子字符串內(nèi)容作為網(wǎng)頁主題信息,并用語言模型輔以狄利特雷平滑估計(jì)主題信息,形成主題信息模型。在這個(gè)例子中,網(wǎng)頁核心內(nèi)容候選文本被分隔符分割成三個(gè)個(gè)字符串,都不包含網(wǎng)頁關(guān)鍵字,則取最長的子字符串,也即“科學(xué)解析林書豪爆發(fā)原因0.6秒投籃I秒加速”作為網(wǎng)頁主題信息。
[0034]5)用類似更新邏輯式的方法將主題信息模型與文檔模型線性疊加形成文檔擴(kuò)展模型。
[0035]優(yōu)選地,步驟S30包括:對(duì)關(guān)鍵詞生成初始檢索邏輯式;以初始檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式得到初始結(jié)果集;取初始結(jié)果集中與關(guān)鍵詞的語義相關(guān)度最大的第一個(gè)文檔擴(kuò)展邏輯式更新初始檢索邏輯式線性,以生成更新檢索邏輯式;以更新檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式得到二次結(jié)果集;取二次結(jié)果集中與關(guān)鍵詞的語義相關(guān)度最大的前預(yù)定個(gè)數(shù)的文檔擴(kuò)展邏輯式更新更新檢索邏輯式,以生成擴(kuò)展檢索邏輯式。
[0036]本優(yōu)選實(shí)施例的查詢擴(kuò)展是利用初始檢索結(jié)果集中的第一條微博以及二次檢索結(jié)果集中的前N條微博共同擴(kuò)充查詢語義。本方案比較簡單,很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。結(jié)合一個(gè)實(shí)際的例子,查詢擴(kuò)展的步驟如下:
[0037]I)用最大似然估計(jì)來估計(jì)原始邏輯式。例如查詢“林書豪爆發(fā)”,分詞后的結(jié)果為[“林書豪”,“爆發(fā)”],經(jīng)過最大似然估計(jì),P (林書豪)=0.5,P (爆發(fā))=0.5。
[0038]2)用原始邏輯式進(jìn)行檢索,取檢索結(jié)果中排名第一的文檔作為反饋支持文檔,利用最大似然估計(jì)來估計(jì)反饋支持文檔模型,并與原始模型進(jìn)行線性疊加,獲得第一階段更新后的邏輯式。例如,在輸入“林書豪爆發(fā)”查詢后得到的第一條檢索結(jié)果是“一段視頻用數(shù)字很好的分析了林書豪持續(xù)爆發(fā)的原因”,分詞后的結(jié)果是[“一段”,“視頻”,“數(shù)字”,“分析”,“林書豪”,“持續(xù)”,“爆發(fā)”,“原因”],對(duì)每一個(gè)詞wi,它在反饋支持文檔中的模型中的概率為P(wi) = 1/8,設(shè)反饋支持文檔在線性疊加中的權(quán)重為2/5,則原始模型的權(quán)重為3/5,則在更新后的邏輯式中,P(林書豪)=P(爆發(fā))=3/5*1/2+2/5*1/8 = 3/5*1/2+2/5*1/8=7/20,其他每一個(gè)詞的概率 p(wi) = 2/5*1/8 = 1/20。
[0039]3)利用更新后的查詢進(jìn)行檢索,取檢索結(jié)果中排名最高的前5個(gè)文檔作為反饋支持文檔集,利用語言模型估計(jì)反饋支持文檔集模型,并利用EM算法迭代獲得反饋支持文檔集模型,然后再次與前一階段的邏輯式進(jìn)行線性迭代,獲得最終的邏輯式。
[0040]優(yōu)選地,利用KL距離計(jì)算查詢初始檢索邏輯式與各個(gè)文檔擴(kuò)展邏輯式的語義相似度,從而獲得初始結(jié)果集;利用KL距離計(jì)算查詢更新檢索邏輯式與各個(gè)文檔擴(kuò)展邏輯式的語義相似度,從而獲得二次結(jié)果集;利用KL距離計(jì)算查詢擴(kuò)展檢索邏輯式與各個(gè)文檔擴(kuò)展邏輯式的語義相似度,從而獲得最終檢索結(jié)果。KL距離計(jì)算是比較成熟的技術(shù),很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。
[0041]優(yōu)選地,利用KL距離計(jì)算確定語義相關(guān)度。KL距離計(jì)算是比較成熟的技術(shù),很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。
[0042]優(yōu)選地,取初始結(jié)果集中與關(guān)鍵詞的語義相關(guān)度最大的第一個(gè)文檔擴(kuò)展邏輯式更新初始檢索邏輯式線性包括:利用最大似然估計(jì)的方法來估計(jì)第一個(gè)文檔擴(kuò)展邏輯式中各個(gè)詞的概率,以生成第一階段反饋文檔邏輯式;將第一階段反饋文檔邏輯式與初始邏輯式進(jìn)行線性疊加,以生成更新檢索邏輯式。本方案比較簡單,很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。
[0043]優(yōu)選地,取二次結(jié)果集中與關(guān)鍵詞的語義相關(guān)度最大的前預(yù)定個(gè)數(shù)的文檔擴(kuò)展邏輯式更新更新檢索邏輯式包括:利用EM算法以及語言模型來估計(jì)前預(yù)定個(gè)數(shù)的文檔擴(kuò)展邏輯式中各個(gè)詞的概率,以生成第二階段反饋文檔邏輯式;將第二階段反饋文檔邏輯式與更新邏輯式進(jìn)行線性疊加,以生成擴(kuò)展檢索邏輯式。本方案比較簡單,很容易通過計(jì)算機(jī)編程來實(shí)現(xiàn)。
[0044]優(yōu)選地,本方法還包括:
[0045]過濾最終檢索結(jié)果中在各個(gè)時(shí)間段語義相似度低于預(yù)設(shè)過濾閾值的文檔擴(kuò)展邏輯式;
[0046]將查詢時(shí)間戳與文檔時(shí)間戳的差值作為文檔時(shí)間屬性的值,查詢時(shí)間戳是指用戶輸入查詢關(guān)鍵詞時(shí)的系統(tǒng)時(shí)間,文檔時(shí)間戳是指微博發(fā)布時(shí)間;
[0047]以預(yù)設(shè)的時(shí)間衰減函數(shù)將文檔時(shí)間屬性轉(zhuǎn)化為時(shí)間衰減值,使得離檢索時(shí)間越近的文檔有越高的時(shí)間權(quán)重;
[0048]根據(jù)時(shí)間權(quán)重將最終檢索結(jié)果中的各個(gè)文檔擴(kuò)展邏輯式對(duì)應(yīng)的微博進(jìn)行排序,生成最終檢索結(jié)果列表返回給用戶。
[0049]時(shí)間因素重排序是根據(jù)微博發(fā)布的時(shí)間戳對(duì)微博排序進(jìn)行重新調(diào)整,以提高離檢索時(shí)間較近的微博的時(shí)間權(quán)重。在傳統(tǒng)的信息檢索中,返回的搜索結(jié)果以相似度倒序排列,而在本優(yōu)選實(shí)施例的微博環(huán)境下的實(shí)時(shí)檢索中,返回的搜索結(jié)果可以按其發(fā)布時(shí)間倒序排列。
[0050]優(yōu)選地,過濾最終檢索結(jié)果中在各個(gè)時(shí)間段語義相似度低于預(yù)設(shè)過濾閾值的文檔擴(kuò)展邏輯式包括:將最終檢索結(jié)果中各個(gè)文檔擴(kuò)展邏輯式以其文檔時(shí)間戳以2小時(shí)為區(qū)間做歸一化;計(jì)算區(qū)間內(nèi)各個(gè)文檔擴(kuò)展邏輯式的文檔語義相似度的平均值A(chǔ)vg,并以0.2*Avg作為該時(shí)間區(qū)間的過濾閾值;將該區(qū)間內(nèi)文檔相似度低于該區(qū)間的過濾閾值的文檔擴(kuò)展邏輯式過濾。本優(yōu)選實(shí)施例提供了更優(yōu)化的微博檢索結(jié)果。
[0051]優(yōu)選地,根據(jù)時(shí)間權(quán)重將最終檢索結(jié)果中的各個(gè)文檔擴(kuò)展邏輯式對(duì)應(yīng)的微博進(jìn)行排序,生成最終檢索結(jié)果列表返回給用戶包括:將最終檢索結(jié)果中的各個(gè)文檔擴(kuò)展邏輯式的時(shí)間權(quán)重乘以其文檔語義相似度得到文檔得分;按其文檔得分降序排列產(chǎn)生最終檢索結(jié)果列表。本優(yōu)選實(shí)施例提供了更優(yōu)化的微博檢索結(jié)果。
[0052]在完成查詢擴(kuò)展以及文檔擴(kuò)展后,利用KL距離來估計(jì)查詢和文檔之間的語義相似度,由于用戶希望通過實(shí)時(shí)檢索來獲取最近發(fā)生的相關(guān)微博,因此在生成最終的檢索結(jié)果之前還需要經(jīng)過時(shí)間因素重排序。結(jié)合一個(gè)實(shí)際的例子,文檔擴(kuò)展的步驟如下:[0053]I)過濾在各個(gè)時(shí)間段語義相似度過低的文檔。例如,查詢“林書豪爆發(fā)”在2012年2月8日12:00發(fā)出,則將所有待檢索文檔的發(fā)布時(shí)間按2小時(shí)做歸一化,例如在2012年2月8日9:30發(fā)布的微博被歸入到8:00?10:00時(shí)間段,在每個(gè)時(shí)間段內(nèi),計(jì)算各個(gè)文檔的語義相似度的平均值A(chǔ)vg,并以Avg作為該時(shí)間區(qū)間的過濾閾值,將區(qū)間內(nèi)文檔相似度低于區(qū)間閾值的文檔過濾。
[0054]2)將查詢時(shí)間戳與文檔時(shí)間戳的差值作為文檔時(shí)間屬性的值。例如,在2012年2月8日9:10發(fā)布的微博的時(shí)間屬性為2.5小時(shí)。
[0055]3)令高斯函數(shù)為時(shí)間衰減函數(shù),將文檔時(shí)間屬性轉(zhuǎn)化為時(shí)間衰減值。衰減函數(shù)的形式為,令X = 2.5帶入公式,得到時(shí)間衰減值。
[0056]4)將時(shí)間衰減值乘以文檔語義相似度得到新的文檔得分,并按文檔得分降序排列文檔產(chǎn)生結(jié)果候選列表。從候選列表中截取前30個(gè)文檔,并將這30個(gè)文檔按時(shí)間戳倒序排列,形成最終結(jié)果列表,返回給查詢者。
[0057]圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的微博實(shí)時(shí)檢索方法的流程圖,包括以下步驟:
[0058]步驟S10,對(duì)輸入的文本(查詢或者文檔)進(jìn)行分詞、停用詞過濾、詞形變換(即預(yù)處理模塊);
[0059]步驟S20,利用原始查詢模型與反饋文檔模型線性疊加得到查詢模型(即查詢擴(kuò)展豐旲塊);
[0060]步驟S30,利用微博包含的外部鏈接擴(kuò)充微博文本的語義信息(即文檔擴(kuò)展模塊);
[0061 ] 步驟S40,利用KL距離計(jì)算查詢檢索邏輯式與各個(gè)文檔擴(kuò)展邏輯式的語義相似度(即匹配模塊);
[0062]步驟S50,生成文檔時(shí)間屬性,過濾最終檢索結(jié)果中在各個(gè)時(shí)間段語義相似度低于預(yù)設(shè)過濾閾值的文檔擴(kuò)展邏輯式,最后根據(jù)微博的時(shí)間屬性對(duì)檢索結(jié)果進(jìn)行重排序(即時(shí)間衰減模塊)。
[0063]圖3示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的文檔擴(kuò)展流程圖,包括以下步驟:
[0064]步驟S10,提取出微博中的短鏈接,如http://t.cn/h51HE ;
[0065]步驟S20,:將微博中包含的短鏈接還原成原始的長鏈接(即原始鏈接),如http://www.sina.com ;
[0066]步驟S30,從長鏈接中解析出網(wǎng)站關(guān)鍵字,sina.;
[0067]步驟S40,利用腳本爬取鏈接指向的網(wǎng)頁,從網(wǎng)頁源代碼中解析出標(biāo)題標(biāo)簽的內(nèi)容,作為網(wǎng)頁核心內(nèi)容的候選文本;
[0068]步驟S50,利用網(wǎng)站關(guān)鍵字和解析內(nèi)容生成網(wǎng)頁主題信息包括:將解析內(nèi)容用分隔符(例如“ I分割成多個(gè)子字符串,若不能分割,則將全部解析內(nèi)容作為一個(gè)子字符串(即主題內(nèi)容候選分隔模塊);
[0069]步驟S60,若S50得到的主題信息集中包含步驟S30得到的網(wǎng)站關(guān)鍵詞,則將其去除,得到最終主題信息;
[0070]步驟S70,用語言模型輔以狄利特雷平滑估計(jì)網(wǎng)頁主題信息,以對(duì)網(wǎng)頁主題信息分詞以生成主題信息邏輯式。[0071]圖4示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的查詢擴(kuò)展流程圖,包括以下步驟:
[0072]步驟S10,對(duì)輸入的查詢或支持文檔進(jìn)行分詞、停用詞過濾、詞形變換(即預(yù)處理豐旲塊);
[0073]步驟S20,將原始查詢模型與反饋文檔模型進(jìn)行線性疊加(即線性疊加模塊),特別的,當(dāng)沒有反饋文檔時(shí)直接輸出原始的查詢模型;
[0074]步驟S30,計(jì)算查詢模型與文檔模型的KL距離(即匹配模塊);
[0075]步驟S40,根據(jù)初步查詢的語義檢索結(jié)果生成反饋支持文檔,利用語言模型估計(jì)反饋支持文檔集模型,并利用EM算法迭代獲得反饋支持文檔集模型(即反饋更新模塊)。
[0076]圖5示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的時(shí)間因素重排序流程圖,包括以下步驟:
[0077]步驟S10,將查詢時(shí)間戳與文檔時(shí)間戳的差值作為文檔時(shí)間屬性的值(即文檔時(shí)間屬性模塊);
[0078]步驟S20,將文檔按時(shí)間屬性排序,過濾檢索結(jié)果中在各個(gè)時(shí)間段語義相似度低于預(yù)設(shè)過濾閾值的文檔擴(kuò)展邏輯式包括(即區(qū)間過濾模塊);
[0079]步驟S30,根據(jù)衰減函數(shù)計(jì)算出各個(gè)文檔的時(shí)間權(quán)重;
[0080]步驟S40,結(jié)合原始分?jǐn)?shù)和時(shí)間權(quán)重得到新的結(jié)果得分,根據(jù)此得分對(duì)結(jié)果重排序得到最終檢索結(jié)果。
[0081]圖6示出了根據(jù)本發(fā)明實(shí)施例的微博實(shí)時(shí)檢索裝置的示意圖,包括:
[0082]文檔擴(kuò)展模塊10,用于對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式;
[0083]關(guān)鍵詞模塊20,用于獲取來自用戶的關(guān)鍵詞;
[0084]檢索擴(kuò)展模塊30,用于對(duì)關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式;
[0085]匹配模塊40,用于以擴(kuò)展檢索邏輯式檢索各個(gè)文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果O
[0086]本裝置采用了文檔擴(kuò)展,使得微博的字?jǐn)?shù)得以增加,所以克服了微博字?jǐn)?shù)太少導(dǎo)致的檢索不精確的問題,提高了微博檢索的準(zhǔn)確度。
[0087]從以上的描述可以看出,本發(fā)明的特點(diǎn)在于利用了反饋支持文檔(集)更新邏輯式,從而擴(kuò)展了查詢的語義;利用微博包含的外部鏈接獲取外部網(wǎng)頁的主題信息,從而豐富了原微博的語義信息;利用了文檔時(shí)間戳信息對(duì)文檔得分進(jìn)行調(diào)權(quán),平衡了文檔語義相似度和文檔實(shí)時(shí)性,從而得到一個(gè)更合理、更準(zhǔn)確的檢索結(jié)果。
[0088]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0089]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種微博實(shí)時(shí)檢索方法,其特征在于,包括: 對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式; 獲取來自用戶的關(guān)鍵詞; 對(duì)所述關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式; 以所述擴(kuò)展檢索邏輯式檢索各個(gè)所述文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式包括: 將所述微博中包含的短鏈接還原成原始的長鏈接; 從所述長鏈接中解析出網(wǎng)站關(guān)鍵字,從所述原始的長鏈接的網(wǎng)頁的源代碼中解析出標(biāo)題標(biāo)簽的內(nèi)容; 利用所述網(wǎng)站關(guān)鍵字和所述解析內(nèi)容生成網(wǎng)頁主題信息; 對(duì)所述網(wǎng)頁主題信息分詞以生成主題信息邏輯式,對(duì)所述微博分詞以生成文檔邏輯式; 將所述主題信息邏輯式與所述文檔邏輯式線性疊加以生成所述文檔擴(kuò)展邏輯式。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,利用所述網(wǎng)站關(guān)鍵字和所述解析內(nèi)容生成網(wǎng)頁主題信息 包括: 將所述解析內(nèi)容用分隔符分割成多個(gè)子字符串,若不能分割,則將全部所述解析內(nèi)容作為一個(gè)子字符串; 分別檢驗(yàn)各個(gè)子字符串是否含所述網(wǎng)站關(guān)鍵字,如果是,則舍棄這個(gè)子字符串,將未被舍棄的子字符串作為所述網(wǎng)頁主題信息; 若各個(gè)子字符串都不包含所述網(wǎng)站關(guān)鍵字,則取文本長度最長的子字符串作為所述網(wǎng)頁主題信息。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,用語言模型輔以狄利特雷平滑估計(jì)所述網(wǎng)頁主題信息,以對(duì)所述網(wǎng)頁主題信息分詞以生成主題信息邏輯式。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述關(guān)鍵詞進(jìn)行邏輯擴(kuò)展以生成擴(kuò)展檢索邏輯式包括: 對(duì)所述關(guān)鍵詞生成初始檢索邏輯式; 以所述初始檢索邏輯式檢索各個(gè)所述文檔擴(kuò)展邏輯式得到初始結(jié)果集; 取所述初始結(jié)果集中與所述關(guān)鍵詞的語義相關(guān)度最大的第一個(gè)文檔擴(kuò)展邏輯式更新所述初始檢索邏輯式線性,以生成更新檢索邏輯式; 以所述更新檢索邏輯式檢索各個(gè)所述文檔擴(kuò)展邏輯式得到二次結(jié)果集; 取所述二次結(jié)果集中與所述關(guān)鍵詞的語義相關(guān)度最大的前預(yù)定個(gè)數(shù)的文檔擴(kuò)展邏輯式更新所述更新檢索邏輯式,以生成所述擴(kuò)展檢索邏輯式。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,利用KL距離計(jì)算查詢所述初始檢索邏輯式與各個(gè)所述文檔擴(kuò)展邏輯式的語義相似度,從而獲得所述初始結(jié)果集;利用KL距離計(jì)算查詢所述更新檢索邏輯式與各個(gè)所述文檔擴(kuò)展邏輯式的語義相似度,從而獲得所述二次結(jié)果集;利用KL距離計(jì)算查詢所述擴(kuò)展檢索邏輯式與各個(gè)所述文檔擴(kuò)展邏輯式的語義相似度,從而獲得所述最終檢索結(jié)果。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,利用KL距離計(jì)算確定所述語義相關(guān)度。
8.根據(jù)權(quán)利要求5所述的方法,其特征在于,取所述初始結(jié)果集中與所述關(guān)鍵詞的語義相關(guān)度最大的第一個(gè)文檔擴(kuò)展邏輯式更新所述初始檢索邏輯式線性包括: 利用最大似然估計(jì)的方法來估計(jì)所述第一個(gè)文檔擴(kuò)展邏輯式中各個(gè)詞的概率,以生成第一階段反饋文檔邏輯式; 將所述第一階段反饋文檔邏輯式與所述初始邏輯式進(jìn)行線性疊加,以生成所述更新檢索邏輯式。
9.根據(jù)權(quán)利要求5所述的方法,其特征在于,取所述二次結(jié)果集中與所述關(guān)鍵詞的語義相關(guān)度最大的前預(yù)定個(gè)數(shù)的文檔擴(kuò)展邏輯式更新所述更新檢索邏輯式包括: 利用EM算法以及語言模型來估計(jì)所述前預(yù)定個(gè)數(shù)的文檔擴(kuò)展邏輯式中各個(gè)詞的概率,以生成第二階段反饋文檔邏輯式; 將所述第二階段反饋文檔邏輯式與所述更新邏輯式進(jìn)行線性疊加,以生成所述擴(kuò)展檢索邏輯式。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 過濾所述最終檢索結(jié)果中在各個(gè)時(shí)間段語義相似度低于預(yù)設(shè)過濾閾值的文檔擴(kuò)展邏輯式; 將查詢時(shí)間戳與文檔時(shí)間戳的差值作為文檔時(shí)間屬性的值; 以預(yù)設(shè)的時(shí)間衰減函數(shù)將文檔時(shí)間屬性轉(zhuǎn)化為時(shí)間衰減值,使得離檢索時(shí)間越近的文檔有越聞的 時(shí)間權(quán)重; 根據(jù)所述時(shí)間權(quán)重將所述最終檢索結(jié)果中的各個(gè)文檔擴(kuò)展邏輯式對(duì)應(yīng)的微博進(jìn)行排序,生成最終檢索結(jié)果列表返回給所述用戶。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,過濾所述最終檢索結(jié)果中在各個(gè)時(shí)間段語義相似度低于預(yù)設(shè)過濾閾值的文檔擴(kuò)展邏輯式包括: 將所述最終檢索結(jié)果中各個(gè)文檔擴(kuò)展邏輯式以其文檔時(shí)間戳以2小時(shí)為區(qū)間做歸一化; 計(jì)算區(qū)間內(nèi)各個(gè)文檔擴(kuò)展邏輯式的文檔語義相似度的平均值A(chǔ)vg,并以0.2*Avg作為該時(shí)間區(qū)間的所述過濾閾值; 將該區(qū)間內(nèi)文檔相似度低于該區(qū)間的所述過濾閾值的文檔擴(kuò)展邏輯式過濾。
12.根據(jù)權(quán)利要求10所述的方法,其特征在于,根據(jù)所述時(shí)間權(quán)重將所述最終檢索結(jié)果中的各個(gè)文檔擴(kuò)展邏輯式對(duì)應(yīng)的微博進(jìn)行排序,生成最終檢索結(jié)果列表返回給所述用戶包括: 將所述最終檢索結(jié)果中的各個(gè)文檔擴(kuò)展邏輯式的時(shí)間權(quán)重乘以其文檔語義相似度得到文檔得分; 按其文檔得分降序排列產(chǎn)生所述最終檢索結(jié)果列表。
13.一種微博實(shí)時(shí)檢索裝置,其特征在于,包括: 文檔擴(kuò)展模塊,用于對(duì)微博空間中的各個(gè)微博進(jìn)行文檔擴(kuò)展以生成文檔擴(kuò)展邏輯式; 關(guān)鍵詞模塊,用于獲取來自用戶的關(guān)鍵詞; 查詢擴(kuò)展模塊,用于對(duì)所述關(guān)鍵詞進(jìn)行邏輯擴(kuò)展得到以生成擴(kuò)展檢索邏輯式; 匹配模塊,用于以所述擴(kuò)展檢索邏輯式檢索各個(gè)所述文檔擴(kuò)展邏輯式以獲得最終檢索結(jié)果。
【文檔編號(hào)】G06F17/30GK103885985SQ201210564284
【公開日】2014年6月25日 申請(qǐng)日期:2012年12月24日 優(yōu)先權(quán)日:2012年12月24日
【發(fā)明者】梁豐, 強(qiáng)閏偉, 楊建武 申請(qǐng)人:北京大學(xué), 北大方正集團(tuán)有限公司, 北京北大方正電子有限公司