欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法

文檔序號(hào):6427014閱讀:131來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種新的查詢(xún)建議方法一基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建 "iX7j QSQSCD (Query Suggestion Based on the Query Semantics andClick-through Data),屬于信息檢索領(lǐng)域。
背景技術(shù)
目前搜索引擎采用的主要交互方式是用戶(hù)自主輸入查詢(xún),搜索系統(tǒng)根據(jù)用戶(hù)輸入的查詢(xún)提供檢索結(jié)果。但是,很多時(shí)候用戶(hù)輸入的查詢(xún)?cè)~并不能準(zhǔn)確表達(dá)其搜索需求。一方面,用戶(hù)輸入的查詢(xún)?cè)~通常比較短——平均只有兩三個(gè)詞;另一方面,很多搜索引擎含有歧義或意圖模糊;此外,很多時(shí)候,用戶(hù)之所以要使用搜索引擎進(jìn)行信息的搜索就是因?yàn)閷?duì)要檢索話(huà)題知之甚少甚至毫無(wú)概念,這時(shí)候用戶(hù)很難構(gòu)造準(zhǔn)確的查詢(xún)。研究表明只有25% 的查詢(xún)能清晰表達(dá)用戶(hù)的意圖。為了更好地幫助用戶(hù)構(gòu)造查詢(xún),搜索引擎普遍采用查詢(xún)建議技術(shù),在搜索結(jié)果頁(yè)面中的“相關(guān)搜索”就是查詢(xún)建議的一個(gè)具體應(yīng)用。查詢(xún)建議指發(fā)現(xiàn)或構(gòu)造一組與原查詢(xún)Q 相關(guān)的查詢(xún){91,Q2,...},可以通過(guò)修改原查詢(xún)Q或整個(gè)替換Q來(lái)實(shí)現(xiàn)這些相關(guān)查詢(xún)。例如,對(duì)用戶(hù)查詢(xún)“蘋(píng)果iphone”,可以通過(guò)修改查詢(xún)?cè)~“ iphone”來(lái)推薦查詢(xún)“蘋(píng)果手機(jī)”,也可以將整個(gè)查詢(xún)替換為“ ipad”。由于有著巨大的應(yīng)用需求和價(jià)值,查詢(xún)建議成為近年來(lái)的研究熱點(diǎn)。從技術(shù)實(shí)現(xiàn)上看,查詢(xún)建議可以看作一個(gè)以搜索引擎查詢(xún)?yōu)闄z索對(duì)象的信息檢索問(wèn)題。然而,不同于文檔或網(wǎng)頁(yè),查詢(xún)的自身特點(diǎn)使查詢(xún)建議面臨諸多挑戰(zhàn)首先,不同于文檔或網(wǎng)頁(yè),查詢(xún)通常只包含兩到三個(gè)查詢(xún)?cè)~,缺乏充分的文本內(nèi)容,傳統(tǒng)信息檢索模型不適合直接對(duì)其進(jìn)行處理;其次,用戶(hù)查詢(xún)信息稀疏。用戶(hù)查詢(xún)?nèi)罩緮?shù)據(jù)中多數(shù)查詢(xún)出現(xiàn)次數(shù)很少,在對(duì)這些查詢(xún)處理時(shí),可利用的相關(guān)屬性信息有限;最后,用戶(hù)查詢(xún)復(fù)雜多樣。用戶(hù)查詢(xún)?nèi)罩緮?shù)據(jù)中通常包含幾千萬(wàn)甚至上億條不同的查詢(xún),即使是同一查詢(xún)不同用戶(hù)可能表示不同意圖。此外,用戶(hù)查詢(xún)受時(shí)間、突發(fā)事件等因素影響。查詢(xún)建議方法根據(jù)所依賴(lài)的數(shù)據(jù)不同可分為兩類(lèi)基于文檔的方法和基于日志的方法。1)第一種方法主要通過(guò)處理包含查詢(xún)?cè)~的文檔來(lái)分析查詢(xún),從相關(guān)文檔或人工編輯語(yǔ)料中搜索找出與輸入查詢(xún)相關(guān)的詞或短語(yǔ),然后利用這些相關(guān)詞或短語(yǔ)構(gòu)建推薦查詢(xún)。 2)第二種方法主要通過(guò)分析用戶(hù)的搜索引擎查詢(xún)?nèi)罩緦ふ以?jīng)出現(xiàn)過(guò)的相似查詢(xún),然后向用戶(hù)給予推薦。這兩種方法各有利弊,基于日志的方法對(duì)處理出現(xiàn)頻率小的稀疏查詢(xún)比較困難,基于文檔的方法雖能處理稀疏查詢(xún),但是查找相關(guān)文檔也是一個(gè)難題。

發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)目前查詢(xún)建議缺乏有效語(yǔ)義處理的問(wèn)題,提出一種基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法。本發(fā)明提供了一種基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,包括以下步驟一、對(duì)收集的查詢(xún)?nèi)罩緮?shù)據(jù)進(jìn)行預(yù)處理,去掉非中文查詢(xún)串、亂碼數(shù)據(jù)及無(wú)意義的符號(hào),形成規(guī)范的查詢(xún)?nèi)罩編?kù);二、對(duì)用戶(hù)輸入的查詢(xún)數(shù)據(jù)進(jìn)行分詞、過(guò)濾停用詞的預(yù)處理,形成包含多個(gè)關(guān)鍵詞的查詢(xún)數(shù)據(jù)串;三、將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行相似度計(jì)算;四、基于知網(wǎng)中的詞概念相關(guān)度計(jì)算方法,將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行語(yǔ)義相關(guān)度計(jì)算;五、將步驟三和步驟四計(jì)算出的相似度和語(yǔ)義相關(guān)度進(jìn)行融合,計(jì)算用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中每條日志信息的查詢(xún)語(yǔ)義相關(guān)度;六、按照步驟五中的相關(guān)度由大到小,取出Top-N推薦給用戶(hù)。本發(fā)明還提出了基于點(diǎn)擊流矩陣模型的矩陣相關(guān)度計(jì)算方法,并將其與查詢(xún)語(yǔ)義相關(guān)度相融合,具體方法為在得到用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中每條日志信息的查詢(xún)語(yǔ)義相關(guān)度之后,判斷查詢(xún)?nèi)罩編?kù)中是否包含用戶(hù)查詢(xún)數(shù)據(jù)串,若不包含,則將用戶(hù)查詢(xún)數(shù)據(jù)串的矩陣相關(guān)度設(shè)為0 ;若包含,則以用戶(hù)提交的查詢(xún)數(shù)據(jù)與該數(shù)據(jù)對(duì)應(yīng)的點(diǎn)擊URL之間的關(guān)系為基礎(chǔ),逐條計(jì)算用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中其他查詢(xún)?nèi)罩拘畔⒅g的矩陣相關(guān)度;將查詢(xún)語(yǔ)義相關(guān)度和矩陣相關(guān)度進(jìn)行融合,計(jì)算查詢(xún)數(shù)據(jù)與查詢(xún)?nèi)罩編?kù)中每條日志信息的相關(guān)度,作為推薦給用戶(hù)的依據(jù)。有益效果本發(fā)明所述基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,將查詢(xún)語(yǔ)義信息以及查詢(xún)數(shù)據(jù)與該數(shù)據(jù)對(duì)應(yīng)的點(diǎn)擊URL之間的關(guān)系作為查詢(xún)建議的依據(jù),可以有效的消除查詢(xún)歧義,并對(duì)輸入錯(cuò)誤進(jìn)行提醒,提高信息檢索系統(tǒng)的易用性和交互能力。


附圖1. QSQS⑶的查詢(xún)建議方法流程圖;附圖2.查詢(xún)-點(diǎn)擊二步圖;附圖3.查詢(xún)建議平均精度比較。
具體實(shí)施例方式下面結(jié)合附圖,具體說(shuō)明本發(fā)明的優(yōu)選實(shí)施方式。本實(shí)施方式具體實(shí)現(xiàn)了本發(fā)明所述的基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,其流程如圖1所示,包括以下步驟—、對(duì)收集的查詢(xún)?nèi)罩緮?shù)據(jù)進(jìn)行預(yù)處理,去掉非中文查詢(xún)串、亂碼數(shù)據(jù)及無(wú)意義的符號(hào),形成規(guī)范的查詢(xún)?nèi)罩編?kù);二、對(duì)用戶(hù)輸入的查詢(xún)數(shù)據(jù)進(jìn)行分詞、過(guò)濾停用詞的預(yù)處理,形成包含多個(gè)關(guān)鍵詞的查詢(xún)數(shù)據(jù)串;三、將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行相似度計(jì)算;
進(jìn)行相似度計(jì)算可以使用多種方法,例如余弦相似度計(jì)算、皮爾森系數(shù)相似度計(jì)算等。此步驟是傳統(tǒng)的文本相似度計(jì)算,通?;谠~頻統(tǒng)計(jì)計(jì)算文檔相似度。但是如果僅僅只通過(guò)該步驟獲得相似度,將會(huì)缺乏對(duì)文檔語(yǔ)義的處理。如果相關(guān)文檔之間的公共詞較多,通過(guò)單純基于詞頻的相似度計(jì)算方法可以達(dá)到相關(guān)計(jì)算的目的,如果相關(guān)文檔之間的公共詞較少,這種計(jì)算方法就難以取得較好的效果,特別對(duì)于較短的查詢(xún)串。因?yàn)椴樵?xún)串中詞匯的出現(xiàn)頻率很小,如果把與之關(guān)聯(lián)緊密的其他概念考慮進(jìn)來(lái),則可以凸現(xiàn)查詢(xún)的語(yǔ)義。 因此,本實(shí)施例在進(jìn)行傳統(tǒng)的相似度計(jì)算之后,在步驟四中進(jìn)行語(yǔ)義相關(guān)度的計(jì)算。四、基于知網(wǎng)中的詞概念相關(guān)度計(jì)算方法,將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行語(yǔ)義相關(guān)度計(jì)算。(1)知網(wǎng)中的詞概念相關(guān)度計(jì)算方法知網(wǎng)中的每個(gè)詞語(yǔ)均由DEF來(lái)描述其概念定義,DEF的值由若干個(gè)義原以及它們與主干詞之間的語(yǔ)義關(guān)系描述組成。知網(wǎng)中的概念是對(duì)詞匯語(yǔ)義的描述,每個(gè)詞的語(yǔ)義描述包含一個(gè)或多個(gè)概念,每個(gè)概念描述形成一個(gè)記錄,概念的定義以及與之相關(guān)的同義、反義、上位、下位等關(guān)系,均描述于記錄的DEF項(xiàng)中。比如DEF(高興)=IaValueI屬性值, circumstances境況,happy福,desired良}。由于義原是HowNet中最小的語(yǔ)義單位, 所以義原的相似度計(jì)算是概念相似度計(jì)算的基礎(chǔ)。由于所有的義原根據(jù)上下位關(guān)系構(gòu)成了一個(gè)樹(shù)狀的義原層次體系,所以采用簡(jiǎn)單的通過(guò)語(yǔ)義距離計(jì)算相似度的辦法。假設(shè)兩個(gè)義原在這個(gè)層次體系中的路徑距離為d,兩個(gè)義原Pl,p2之間的語(yǔ)義距離為
權(quán)利要求
1.一種基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,包括以下步驟一、對(duì)收集的查詢(xún)?nèi)罩緮?shù)據(jù)進(jìn)行預(yù)處理,去掉非中文查詢(xún)串、亂碼數(shù)據(jù)及無(wú)意義的符號(hào),形成規(guī)范的查詢(xún)?nèi)罩編?kù);二、對(duì)用戶(hù)輸入的查詢(xún)數(shù)據(jù)進(jìn)行分詞、過(guò)濾停用詞的預(yù)處理,形成包含多個(gè)關(guān)鍵詞的查詢(xún)數(shù)據(jù)串;三、將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行相似度計(jì)算;四、基于知網(wǎng)中的詞概念相關(guān)度計(jì)算方法,將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行語(yǔ)義相關(guān)度計(jì)算;五、將步驟三和步驟四計(jì)算出的相似度和語(yǔ)義相關(guān)度進(jìn)行融合,計(jì)算用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中每條日志信息的查詢(xún)語(yǔ)義相關(guān)度;六、按照步驟五中的相關(guān)度由大到小,取出Top-N推薦給用戶(hù)。
2.根據(jù)權(quán)利要求1所述的基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,其特征在于, 在得到用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中每條日志信息的查詢(xún)語(yǔ)義相關(guān)度之后,判斷查詢(xún)?nèi)罩編?kù)中是否包含用戶(hù)查詢(xún)數(shù)據(jù)串,若不包含,則將用戶(hù)查詢(xún)數(shù)據(jù)串的矩陣相關(guān)度設(shè)為O ;若包含,則以用戶(hù)提交的查詢(xún)數(shù)據(jù)與該數(shù)據(jù)對(duì)應(yīng)的點(diǎn)擊URL之間的關(guān)系為基礎(chǔ),逐條計(jì)算用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中其他查詢(xún)?nèi)罩拘畔⒅g的矩陣相關(guān)度;將查詢(xún)語(yǔ)義相關(guān)度和矩陣相關(guān)度進(jìn)行融合,計(jì)算查詢(xún)數(shù)據(jù)與查詢(xún)?nèi)罩編?kù)中每條日志信息的相關(guān)度,作為推薦給用戶(hù)的依據(jù)。
3.根據(jù)權(quán)利要求1或2所述的基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,其特征在于,所述語(yǔ)義相關(guān)度計(jì)算方法為將用戶(hù)查詢(xún)數(shù)據(jù)串以及查詢(xún)?nèi)罩編?kù)中的每條日志信息均表示為規(guī)范化向量V(q)= (t1 W1 ;t2,w2 ;L ;tn,wn),其中、為特征項(xiàng),Wi為、在q中的權(quán)值;查詢(xún)向量V (q)中的每個(gè)元素的權(quán)值Wi由下面公式來(lái)計(jì)算,
4.根據(jù)權(quán)利要求1或2所述的基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,其特征在于,所述將相似度和語(yǔ)義相關(guān)度進(jìn)行融合的方法為Sim(C^q2) = α · SimKeywords ( , q2) + (1_ α ) · Conc Rel (Q1, q2)其中SimKeywords ( ,q2)是步驟三得到的相似度,ConcReKq1, Q2)是步驟四得到的語(yǔ)義相關(guān)度,α是平衡系數(shù),其取值范圍在W,l]范圍內(nèi)。
5.根據(jù)權(quán)利要求1或2所述的基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,其特征在于,所述矩陣相關(guān)度計(jì)算方法為(1)構(gòu)建一個(gè)二步圖Bql = (Vql,Eql),其中所有頂點(diǎn)集 Vql = Q U L,Q= ( , ,..., qj即用戶(hù)提交查詢(xún)的集合,L = {11; I2,..., IJ即用戶(hù)點(diǎn)擊的URL的集合;所有邊的集合 Eql= {(1,1」)|存在從 到1」的一條邊};當(dāng)且僅當(dāng)一個(gè)用戶(hù)提交了查詢(xún)1,然后點(diǎn)擊了 URL1」,邊(qi; Ij)存在;把二步圖Bql轉(zhuǎn)換為一個(gè)矩陣S,對(duì)于mXn查詢(xún)-URL矩陣S,行表示查詢(xún),列表示URL, Sij的值表明一個(gè)查詢(xún)Qi被不同用戶(hù)連接到URL、.的次數(shù),這里的“不同”是指如果一個(gè)用戶(hù)多次點(diǎn)擊同一查詢(xún)-URL對(duì),只記為1次;(2)矩陣分解與相似度計(jì)算定義優(yōu)化函數(shù)如下
6.根據(jù)權(quán)利要求1或2所述的基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,其特征在于,將查詢(xún)語(yǔ)義相關(guān)度和矩陣相關(guān)度進(jìn)行融合的方法為
7.根據(jù)權(quán)利要求6所述的基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,其特征在于, 設(shè)定一個(gè)不大于0. 1的正數(shù),當(dāng)simMatrix (q,Qi) = 0或Sim(q,Qi) = 0時(shí),把這個(gè)正數(shù)賦值給 simMatrix(q, q^ 或 Sim(q, q^。
全文摘要
本發(fā)明涉及一種基于查詢(xún)語(yǔ)義和點(diǎn)擊流數(shù)據(jù)的查詢(xún)建議方法,包括以下步驟一、對(duì)收集的查詢(xún)?nèi)罩緮?shù)據(jù)進(jìn)行預(yù)處理;二、對(duì)用戶(hù)輸入的查詢(xún)數(shù)據(jù)進(jìn)行分詞、過(guò)濾停用詞的預(yù)處理;三、將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行相似度計(jì)算;四、基于知網(wǎng)中的詞概念相關(guān)度計(jì)算方法,將用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中日志信息逐條進(jìn)行語(yǔ)義相關(guān)度計(jì)算;五、將相似度和語(yǔ)義相關(guān)度進(jìn)行融合,計(jì)算用戶(hù)查詢(xún)數(shù)據(jù)串與查詢(xún)?nèi)罩編?kù)中每條日志信息的查詢(xún)語(yǔ)義相關(guān)度;六、按照步驟五中的相關(guān)度由大到小,取出Top-N推薦給用戶(hù)。本發(fā)明可以有效的消除查詢(xún)歧義,并對(duì)輸入錯(cuò)誤進(jìn)行提醒,提高信息檢索系統(tǒng)的易用性和交互能力。
文檔編號(hào)G06F17/30GK102253982SQ20111017276
公開(kāi)日2011年11月23日 申請(qǐng)日期2011年6月24日 優(yōu)先權(quán)日2011年6月24日
發(fā)明者彭學(xué)平, 牛振東, 黃勝 申請(qǐng)人:北京理工大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
韩城市| 桦南县| 诸暨市| 台江县| 吉安县| 安西县| 梁平县| 图们市| 丰宁| 平舆县| 土默特右旗| 昌黎县| 剑河县| 神木县| 城步| 南投市| 宜黄县| 金沙县| 道真| 金门县| 晴隆县| 金山区| 左权县| 永平县| 吉安县| 奉节县| 晴隆县| 库伦旗| 江西省| 涟源市| 图片| 淮滨县| 盐源县| 宣城市| 泰州市| 平阴县| 宿松县| 锦州市| 长岭县| 大同市| 龙江县|