專利名稱:一種熱搜詞生成方法及系統(tǒng)的制作方法
一種熱搜詞生成方法及系統(tǒng)
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理領(lǐng)域,特別涉及一種熱搜詞生成方法及系統(tǒng)。背景技術(shù):
隨著科技的發(fā)展,互聯(lián)網(wǎng)越來(lái)越普遍,出現(xiàn)了許多網(wǎng)絡(luò)搜索技術(shù)。例如搜索引擎 關(guān)鍵詞熱搜榜,針對(duì)用戶搜索條件進(jìn)行統(tǒng)計(jì)分析所得熱搜詞;搜索引擎會(huì)針對(duì)用戶所使用 的搜索條件,提供相關(guān)的關(guān)鍵詞搜索建議或者關(guān)鍵詞(錯(cuò)字)的揪錯(cuò)建議;搜索引擎提供上 述技術(shù)方案,讓用戶可以根據(jù)熱搜詞或者相關(guān)關(guān)鍵詞搜索建議,進(jìn)行進(jìn)一步瀏覽取得信息。但是現(xiàn)有技術(shù)中搜索請(qǐng)求Query熱搜詞與垂直搜索領(lǐng)域的文本(例如門戶網(wǎng)站的 新聞網(wǎng)頁(yè))信息相互獨(dú)立,沒(méi)有將二者關(guān)聯(lián),用戶的搜索體驗(yàn)還有待提升。
發(fā)明內(nèi)容本發(fā)明提供了一種熱搜詞生成方法及系統(tǒng),用以解決現(xiàn)有技術(shù)未將搜索請(qǐng)求 Query熱搜詞與垂直門戶網(wǎng)頁(yè)關(guān)聯(lián),用戶的搜索體驗(yàn)有待提升的問(wèn)題;為了進(jìn)一步提高用 戶的搜索感受,經(jīng)過(guò)驗(yàn)證后的熱搜詞進(jìn)一步可以對(duì)用戶作個(gè)性化的推送。本發(fā)明提供了一種熱搜詞生成方法,包括搜索請(qǐng)求存儲(chǔ)步驟對(duì)用戶向搜索引 擎發(fā)起的搜索請(qǐng)求進(jìn)行存儲(chǔ);聚類步驟對(duì)搜索請(qǐng)求進(jìn)行聚類運(yùn)算,得出搜索請(qǐng)求簇;驗(yàn)證 步驟確定搜索請(qǐng)求簇中最熱門的搜索請(qǐng)求;頁(yè)面搜索步驟在垂直門戶網(wǎng)頁(yè)中搜索上述 最熱門的搜索請(qǐng)求,得出與該搜索請(qǐng)求相匹配的網(wǎng)頁(yè)數(shù)量;挑選步驟取上述網(wǎng)頁(yè)數(shù)量大 于第一閾值時(shí)所關(guān)聯(lián)的搜索請(qǐng)求簇,并從該搜索請(qǐng)求簇中挑選熱搜詞。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,搜索請(qǐng)求存儲(chǔ)步驟中,還一并存儲(chǔ)輸入搜索請(qǐng)求的時(shí) 間。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,聚類步驟中的聚類運(yùn)算包括凝聚聚類算法、劃分式聚 類算法、基于密度的聚類算法,或者網(wǎng)格聚類算法。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,聚類步驟中進(jìn)一步包括獲取單位時(shí)間內(nèi)被存儲(chǔ)的搜 索請(qǐng)求;采用基于凝聚的層次聚類算法對(duì)上述獲取的搜索請(qǐng)求進(jìn)行運(yùn)算,得出搜索請(qǐng)求簇。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,基于凝聚的層次聚類算法具體包括若兩個(gè)所述被獲 取的搜索請(qǐng)求之間的編輯距離小于等于第二閾值,則確定該兩個(gè)搜索請(qǐng)求為同一搜索請(qǐng)求簇。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,驗(yàn)證步驟之前還包括計(jì)算聚類步驟中得出的搜索請(qǐng) 求簇的突發(fā)熱度,當(dāng)所述突發(fā)熱度大于第三閾值時(shí),轉(zhuǎn)入驗(yàn)證步驟。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,計(jì)算突發(fā)熱度具體包括分別對(duì)搜索請(qǐng)求簇中每一搜 索請(qǐng)求當(dāng)前一段時(shí)間的搜索頻次與昨日同期搜索頻次對(duì)比計(jì)算,得出該搜索請(qǐng)求的突發(fā)熱 度;將所述搜索請(qǐng)求簇中各搜索請(qǐng)求的突發(fā)熱度累加,得出該搜索請(qǐng)求簇的突發(fā)熱度。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,頁(yè)面搜索步驟中所述匹配的條件具體為所述最熱門 的搜索請(qǐng)求在垂直門戶網(wǎng)頁(yè)中的權(quán)值大于第四閾值,則判定相互匹配。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,最熱門的搜索請(qǐng)求為搜索頻次最高的搜索請(qǐng)求;或者, 最熱門的搜索請(qǐng)求為突發(fā)熱度數(shù)值最大的搜索請(qǐng)求;或者,最熱門的搜索請(qǐng)求為單位時(shí)間 內(nèi)搜索次數(shù)最多的搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在聚類步驟之前還包括過(guò)濾步驟獲取單位時(shí)間內(nèi) 被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合,以及獲取至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng) 求作為歷史搜索請(qǐng)求集合;以所述歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求集合中存在的周期 性突增搜索請(qǐng)求或/和歷史事件突增搜索請(qǐng)求,得出過(guò)濾后的短期搜索請(qǐng)求,并轉(zhuǎn)入聚類步驟。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,過(guò)濾步驟中,得出歷史搜索請(qǐng)求集合具體包括獲取至 少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的,與短期搜索請(qǐng)求集合中的搜索請(qǐng)求同質(zhì)的搜索請(qǐng)求;將獲取 的搜索請(qǐng)求求并集,得出歷史搜索請(qǐng)求集合;以及,以歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求 集合具體包括短期搜索請(qǐng)求集合中的搜索請(qǐng)求在上述歷史搜索請(qǐng)求集合中,則過(guò)濾該搜 索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,過(guò)濾步驟中,得出歷史搜索請(qǐng)求集合具體包括非在線 情況下,統(tǒng)計(jì)歷史熱門搜索請(qǐng)求集合;并且分析該歷史熱門搜索請(qǐng)求集合得到周期性突發(fā) 搜索請(qǐng)求集合作為上述歷史搜索請(qǐng)求集合;以及,以歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求 集合具體包括短期搜索請(qǐng)求集合中的搜索請(qǐng)求在上述歷史搜索請(qǐng)求集合中,則過(guò)濾該搜 索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在聚類步驟之前還包括過(guò)濾步驟獲取單位時(shí)間內(nèi) 被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合;以作弊搜索請(qǐng)求列表過(guò)濾短期搜索請(qǐng)求集合中 存在的作弊搜索請(qǐng)求,得出過(guò)濾后的短期搜索請(qǐng)求,并轉(zhuǎn)入聚類步驟。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,作弊搜索請(qǐng)求列表中包括關(guān)鍵詞集合,若短期搜索請(qǐng) 求集合中的搜索請(qǐng)求含有上述關(guān)鍵詞集合中的關(guān)鍵詞,則過(guò)濾該搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,作弊搜索請(qǐng)求列表生成的過(guò)程包括動(dòng)態(tài)獲取敏感詞; 根據(jù)獲取的敏感詞生成動(dòng)態(tài)的作弊搜索請(qǐng)求列表;若短期搜索請(qǐng)求集合中的搜索請(qǐng)求在上 述動(dòng)態(tài)作弊搜索請(qǐng)求列表中,則過(guò)濾該搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在挑選步驟之后還包括用戶行為分析步驟進(jìn)行用 戶行為分析,獲知用戶關(guān)注的搜索請(qǐng)求類別;推薦步驟定位所述用戶關(guān)注的搜索請(qǐng)求類 別與所述熱搜詞分類所得類別的交集,并將所述交集類別中包含的熱搜詞作為個(gè)性化熱搜 詞推送給該用戶。本發(fā)明還提供了一種熱搜詞生成系統(tǒng),包括搜索請(qǐng)求存儲(chǔ)模塊,對(duì)用戶向搜索引 擎發(fā)起的搜索請(qǐng)求進(jìn)行存儲(chǔ);聚類模塊,對(duì)獲取的搜索請(qǐng)求進(jìn)行聚類運(yùn)算,得出搜索請(qǐng)求 簇;驗(yàn)證模塊,確定所述搜索請(qǐng)求簇中搜索最熱門的搜索請(qǐng)求;頁(yè)面搜索模塊,在垂直門戶 網(wǎng)頁(yè)中搜索上述最熱門的搜索請(qǐng)求,得出與該搜索請(qǐng)求相匹配的網(wǎng)頁(yè)數(shù)量;挑選模塊,取上 述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的搜索請(qǐng)求簇,并從該搜索請(qǐng)求簇中挑選熱搜詞。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,搜索請(qǐng)求存儲(chǔ)模塊還一并存儲(chǔ)輸入搜索請(qǐng)求的時(shí)間。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,聚類模塊預(yù)設(shè)的聚類運(yùn)算包括凝聚聚類算法、劃分式 聚類算法、基于密度的聚類算法,或者網(wǎng)格聚類算法。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,聚類模塊從搜索請(qǐng)求存儲(chǔ)模塊中獲取單位時(shí)間內(nèi)被存
7儲(chǔ)的搜索請(qǐng)求,并以預(yù)設(shè)的基于凝聚的層次聚類算法對(duì)上述獲取的搜索請(qǐng)求進(jìn)行運(yùn)算。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,聚類模塊中預(yù)設(shè)的基于凝聚的層次聚類算法是若兩個(gè) 所述被獲取的搜索請(qǐng)求之間的編輯距離小于等于第二閾值,則確定該兩個(gè)搜索請(qǐng)求為同一 搜索請(qǐng)求簇。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,驗(yàn)證模塊先計(jì)算聚類模塊得出的搜索請(qǐng)求簇的突發(fā)熱 度,當(dāng)所述突發(fā)熱度大于第三閾值時(shí),再確定所述搜索請(qǐng)求簇中搜索最熱門的搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,驗(yàn)證模塊計(jì)算突發(fā)熱度具體是分別對(duì)搜索請(qǐng)求簇中每 一搜索請(qǐng)求當(dāng)前一段時(shí)間的搜索頻次與昨日同期搜索頻次對(duì)比計(jì)算,得出該搜索請(qǐng)求的突 發(fā)熱度;將所述搜索請(qǐng)求簇中各搜索請(qǐng)求的突發(fā)熱度累加,得出該搜索請(qǐng)求簇的突發(fā)熱度。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,頁(yè)面搜索模塊判斷搜索請(qǐng)求與網(wǎng)頁(yè)相匹配的匹配條件 是所述最熱門的搜索請(qǐng)求在垂直門戶網(wǎng)頁(yè)中的權(quán)值大于第四閾值,則判定相互匹配。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,最熱門的搜索請(qǐng)求為搜索頻次最高的搜索請(qǐng)求;或者, 最熱門的搜索請(qǐng)求為突發(fā)熱度數(shù)值最大的搜索請(qǐng)求;或者,最熱門的搜索請(qǐng)求為單位時(shí)間 內(nèi)搜索次數(shù)最多的搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,還包括第一過(guò)濾模塊,用于從搜索請(qǐng)求存儲(chǔ)模塊中獲 取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合,以及從搜索請(qǐng)求存儲(chǔ)模塊中獲取 至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為歷史搜索請(qǐng)求集合;并以所述歷史搜索請(qǐng)求集 合過(guò)濾短期搜索請(qǐng)求集合中存在的周期性突增搜索請(qǐng)求或/和歷史事件突增搜索請(qǐng)求,得 出過(guò)濾后的短期搜索請(qǐng)求,并輸出到聚類模塊。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,第一過(guò)濾模塊得出歷史搜索請(qǐng)求集合具體包括獲取 至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的,與所述短期搜索請(qǐng)求集合中的搜索請(qǐng)求同質(zhì)的搜索請(qǐng)求; 將所述獲取的搜索請(qǐng)求求并集,得出歷史搜索請(qǐng)求集合;以及第一過(guò)濾模塊以歷史搜索請(qǐng) 求集合過(guò)濾短期搜索請(qǐng)求集合具體包括短期搜索請(qǐng)求集合中的搜索請(qǐng)求在上述歷史搜索 請(qǐng)求集合中,則過(guò)濾該搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,第一過(guò)濾模塊得出歷史搜索請(qǐng)求集合具體包括非在 線情況下,統(tǒng)計(jì)歷史熱門搜索請(qǐng)求集合;并且分析該歷史熱門搜索請(qǐng)求集合得到周期性突 發(fā)搜索請(qǐng)求集合作為上述歷史搜索請(qǐng)求集合;以及第一過(guò)濾模塊以歷史搜索請(qǐng)求集合過(guò)濾 短期搜索請(qǐng)求集合具體包括短期搜索請(qǐng)求集合中的搜索請(qǐng)求在上述歷史搜索請(qǐng)求集合 中,則過(guò)濾該搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,還包括第二過(guò)濾模塊,用于從搜索請(qǐng)求存儲(chǔ)模塊中獲 取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合;并以作弊搜索請(qǐng)求列表過(guò)濾短期 搜索請(qǐng)求集合中存在的作弊搜索請(qǐng)求,得出過(guò)濾后的短期搜索請(qǐng)求,并輸出到聚類模塊。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,第二過(guò)濾模塊中存儲(chǔ)的作弊搜索請(qǐng)求列表中包括關(guān)鍵 詞集合,若所述短期搜索請(qǐng)求集合中的搜索請(qǐng)求含有上述關(guān)鍵詞集合中的關(guān)鍵詞,則過(guò)濾 該搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,第二過(guò)濾模塊動(dòng)態(tài)獲取敏感詞,并根據(jù)獲取的敏感詞 生成動(dòng)態(tài)的作弊搜索請(qǐng)求列表;若所述短期搜索請(qǐng)求集合中的搜索請(qǐng)求在上述動(dòng)態(tài)作弊搜 索請(qǐng)求列表中,則過(guò)濾該搜索請(qǐng)求。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,還包括用戶行為分析模塊,用于進(jìn)行用戶行為分析,獲知用戶關(guān)注的搜索請(qǐng)求類別;推薦模塊,用于定位所述用戶關(guān)注的搜索請(qǐng)求類別與所述 熱搜詞分類所得類別的交集,并將所述交集類別中包含的熱搜詞作為個(gè)性化熱搜詞推送給 該用戶。通過(guò)上述方式,本發(fā)明通過(guò)分析用戶搜索請(qǐng)求的熱度變化,來(lái)找出當(dāng)前最具時(shí)效 性的搜索請(qǐng)求集合;然后利用搜索引擎收錄的資源來(lái)做驗(yàn)證,確保搜索請(qǐng)求是有用的資訊。 亦即,將搜索請(qǐng)求的熱搜詞(即搜索請(qǐng)求簇中搜索最熱門的搜索請(qǐng)求)和垂直門戶網(wǎng)頁(yè)進(jìn) 行驗(yàn)證,辨別出新聞或事件相關(guān)的搜索請(qǐng)求熱搜詞,從而一方面補(bǔ)充各個(gè)新聞分類下的熱 搜詞,亦即結(jié)合了檢索和瀏覽的功能,提供給用戶一種比瀏覽新聞更簡(jiǎn)潔明了的獲取信息 的方式,另一方面,幫助機(jī)器自動(dòng)完成焦點(diǎn)選取,進(jìn)而給予用戶更優(yōu)的搜索和瀏覽體驗(yàn),此 外,經(jīng)過(guò)驗(yàn)證后的熱搜詞可以對(duì)用戶作個(gè)性化的推送,提高用戶的搜索感受。。
圖1是本發(fā)明實(shí)施例中熱搜詞生成方法的流程圖。圖2是本發(fā)明優(yōu)選實(shí)施例中的熱搜詞生成方法的流程圖。圖3是本發(fā)明優(yōu)選實(shí)施例中的熱搜詞生成方法的流程圖。圖4是本發(fā)明優(yōu)選實(shí)施例中的熱搜詞生成方法的流程圖。圖5是本發(fā)明實(shí)施例中熱搜詞生成系統(tǒng)的示意圖。圖6是本發(fā)明優(yōu)選實(shí)施例中的熱搜詞生成系統(tǒng)的示意圖。圖7是本發(fā)明優(yōu)選實(shí)施例中的熱搜詞生成系統(tǒng)的示意圖。圖8是本發(fā)明優(yōu)選實(shí)施例中的熱搜詞生成系統(tǒng)的示意圖。
具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。如圖1所示,為本發(fā)明實(shí)施例的熱搜詞生成方法流程圖,包括下列步驟101、對(duì)用戶向搜索引擎發(fā)起的搜索請(qǐng)求Query (以下實(shí)施例中對(duì)搜索請(qǐng)求簡(jiǎn)稱為 Query,不再贅述)進(jìn)行存儲(chǔ);102、對(duì)Query進(jìn)行聚類運(yùn)算,得出搜索請(qǐng)求簇Query cluster(以下實(shí)施例中對(duì)搜 索請(qǐng)求簇簡(jiǎn)稱為Query cluster,不再贅述);103、確定 Query cluster 中搜索最熱門的 Query ;104、在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的Query,得出與該Query相匹配的網(wǎng)頁(yè)
數(shù)量;105、取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的Query cluster,并從該Query cluster中挑選熱搜詞。為了達(dá)到更優(yōu)的效果,結(jié)合圖1進(jìn)一步對(duì)本發(fā)明的優(yōu)選實(shí)施方案描述如下101、對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ),并且其中還存儲(chǔ)了輸入及發(fā)起 Query的時(shí)間。102、獲取單位時(shí)間內(nèi)被存儲(chǔ)的Query,上述單位時(shí)間例如1小時(shí)。其后對(duì)獲取的 Query進(jìn)行聚類運(yùn)算,最終得出Query cluster。本實(shí)施例中采用但不限于基于凝聚的層次 聚類算法,還可采用凝聚聚類算法、劃分式聚類算法、基于密度的聚類算法、網(wǎng)格聚類算法,
9或者其它能將相似Query歸類在一起的算法(比如按照Query檢索返回的頁(yè)面來(lái)做關(guān)聯(lián)性 分析等)。更為具體的,通過(guò)層次聚類算法直到Query cluster之間的距離大于第二閾值, 例如第二閾值設(shè)定為0. 4。計(jì)算Query cluster之間距離的方法為計(jì)算兩個(gè)Querycluster 之間兩兩Query組合的平均編輯距離。上述編輯距離的計(jì)算以漢字或者字母為單位,每一 次增、刪、改都計(jì)為一次編輯,得出的編輯次數(shù)除以兩個(gè)Query之間較長(zhǎng)Query的長(zhǎng)度即為 編輯距離,值域?yàn)?br>
ο103、步驟102中得出Query cluster后,進(jìn)一步計(jì)算該Query cluster的突發(fā)熱 度,更為具體的,分別對(duì)Query cluster中每一 Query當(dāng)前一段時(shí)間的搜索頻次與昨日同期 搜索頻次對(duì)比計(jì)算,得出該Query的突發(fā)熱度,再將Query cluster中各Query的突發(fā)熱度 累加,得出該Query cluster的突發(fā)熱度。如果得出的Query cluster突發(fā)熱度大于第三閾值,則確定該Querycluster中 最熱門的Query,否則,舍棄該Query cluster,并獲取其他經(jīng)由步驟102聚類得出的Query cluster,重復(fù)步驟103前述操作。第三閾值可根據(jù)需求設(shè)定,第三閾值越高,則得到的 Query cluster突發(fā)性越強(qiáng),但被舍棄的Query cluster也越多。需要說(shuō)明的是,最熱門的 Query包括但不限于搜索頻次最高的Query,突發(fā)熱度數(shù)值最大的Query,或者單位時(shí)間內(nèi) 搜索次數(shù)最多的Query。104、在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的Query,例如,如果返回的某篇網(wǎng)頁(yè)的相 關(guān)權(quán)值大于第四閾值,則判定搜索到一篇與該Query相匹配的網(wǎng)頁(yè)。最終得出與該Query 相匹配的網(wǎng)頁(yè)數(shù)量。設(shè)定第四閾值是需要保證確實(shí)找到相關(guān)的網(wǎng)頁(yè),否則起不到驗(yàn)證的作 用。其中,垂直門戶網(wǎng)頁(yè)可包括但不限于新聞、論壇、圖片、視頻、音樂(lè)、貼吧。進(jìn)一步還可通 過(guò)控制第四閾值相應(yīng)控制前述數(shù)量,例如控制到0 10條24小時(shí)內(nèi)的新聞網(wǎng)頁(yè),但不局限 于0 10條,也不局限于24小時(shí)內(nèi),可依照新聞或事件的熱門程度、時(shí)效性、發(fā)布媒體的數(shù) 量、發(fā)布新聞時(shí)間做彈性調(diào)整。105、取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的Query cluster,由于步驟104中 與該Query相匹配的網(wǎng)頁(yè)數(shù)量值域?yàn)?br>
,故本實(shí)施例中第一閾值可為0 10間的正整 數(shù),并從該Query cluster中挑選熱搜詞。其中,熱搜詞挑選的原則可以根據(jù)需要擇定,包 括但不限于選擇突發(fā)性最強(qiáng)的,或者選擇最精簡(jiǎn)的,或者在Query cluster分析的基礎(chǔ)上, 重新生成。需要說(shuō)明的是,步驟102中通過(guò)聚類算法計(jì)算后,得出的Query cluster可能不止 一個(gè),若為多個(gè),則從每一滿足上述條件的Query cluster中分別挑選1個(gè)Query作為熱搜 詞,并且被挑選出的Query互不重復(fù),進(jìn)而可生成突增熱搜詞集合??梢?jiàn),本實(shí)施例中步驟101 —并存儲(chǔ)了發(fā)起Query的時(shí)間,為后續(xù)流程提供了基 礎(chǔ)。步驟102中獲取單位時(shí)間內(nèi)被存儲(chǔ)的Query,可保持所生成的熱搜詞之時(shí)效性,單位時(shí) 間也可被理解熱搜詞所需要分析的時(shí)效性而增加或縮短;通過(guò)聚類算法計(jì)算,可以幫助更 精確的統(tǒng)計(jì)每一類事件Query的突增變化,從而更準(zhǔn)確地把握突增。步驟103中引入突發(fā)熱 度機(jī)制,保證與Query所匹配的網(wǎng)頁(yè)具備突發(fā)熱度,降低“噪聲”,可給予用戶更好的體驗(yàn)。為了達(dá)到更優(yōu)的效果,本發(fā)明還提供了優(yōu)選實(shí)施例,參見(jiàn)圖2所示,包括下列步 驟201、對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ),并且其中還存儲(chǔ)了輸入及發(fā)起Query的時(shí)間。202、獲取單位時(shí)間內(nèi)被存儲(chǔ)的Query作為短期Query集合(小時(shí)級(jí)突增),以及 獲取至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的Query作為歷史Query集合(例如歷史)。之后以歷史 Query集合過(guò)濾短期Query集合中存在的周期性突增Query或/和歷史事件突增Query, 得出過(guò)濾后的短期Query。更為具體的,可以積累一定周期(一周,一個(gè)月)的同質(zhì)的歷史 數(shù)據(jù),同質(zhì)是指具有相同突發(fā)性質(zhì)的Query,比如昨天、前天的突發(fā)Query,求并集得到歷史 Query集合,如果當(dāng)前分析的Query在歷史Query集合中,則過(guò)濾掉。也可以,線下統(tǒng)計(jì)歷 史熱門Query集合,并分析得到周期性突發(fā)的Query集合作為歷史Query集合,如果短期 Query集合中的Query在歷史Query集合中,則過(guò)濾該Query。203、取步驟202過(guò)濾后的短期Query,對(duì)獲取的Query進(jìn)行聚類運(yùn)算,最終得出 Query cluster。本實(shí)施例中采用但不限于基于凝聚的層次聚類算法,還可采用凝聚聚類算 法、劃分式聚類算法、基于密度的聚類算法、網(wǎng)格聚類算法,或者其它能將相似Query歸類 在一起的算法(比如按照Query檢索返回的頁(yè)面來(lái)做關(guān)聯(lián)性分析等)。更為具體的,通過(guò)層 次聚類算法直到Querycluster之間的距離大于第二閾值,例如第二閾值設(shè)定為0. 4。計(jì)算 Querycluster之間距離的方法為計(jì)算兩個(gè)Query cluster之間兩兩Query組合的平均編 輯距離。上述編輯距離的計(jì)算以漢字或者字母為單位,每一次增、刪、改都計(jì)為一次編輯,得 出的編輯次數(shù)除以兩個(gè)Query之間較長(zhǎng)Query的長(zhǎng)度即為編輯距離,值域?yàn)閃,1]。204、步驟203中得出Query cluster后,進(jìn)一步計(jì)算該Query cluster的突發(fā)熱 度,更為具體的,分別對(duì)Query cluster中每一 Query當(dāng)前一段時(shí)間的搜索頻次與昨日同期 搜索頻次對(duì)比計(jì)算,得出該Query的突發(fā)熱度,再將Query cluster中各Query的突發(fā)熱度 累加,得出該Query cluster的突發(fā)熱度。如果得出的Query cluster突發(fā)熱度大于第三閾值,則確定該Querycluster中 最熱門的Query,否則,含棄該Query cluster,并獲取其他經(jīng)由步驟203聚類得出的Query cluster,重復(fù)步驟204前述操作。第三閾值可根據(jù)需求設(shè)定,第三閾值越高,則得到的 Query cluster突發(fā)性越強(qiáng),但被舍棄的Query cluster也越多。需要說(shuō)明的是,最熱門的 Query包括但不限于搜索頻次最高的Query,突發(fā)熱度數(shù)值最大的Query,或者單位時(shí)間內(nèi) 搜索次數(shù)最多的Query。205、在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的Query,例如,如果返回的某篇網(wǎng)頁(yè)的相 關(guān)權(quán)值大于第四閾值,則判定搜索到一篇與該Query相匹配的網(wǎng)頁(yè)。最終得出與該Query 相匹配的網(wǎng)頁(yè)數(shù)量。設(shè)定第四閾值是需要保證確實(shí)找到相關(guān)的網(wǎng)頁(yè),否則起不到驗(yàn)證的作 用。其中,垂直門戶網(wǎng)頁(yè)可包括但不限于新聞、論壇、圖片、視頻、音樂(lè)、貼吧。進(jìn)一步還可通 過(guò)控制第四閾值相應(yīng)控制前述數(shù)量,例如控制到0 10條24小時(shí)內(nèi)的新聞網(wǎng)頁(yè),但不局限 于0 10條,也不局限于24小時(shí)內(nèi),可依照新聞或事件的熱門程度、時(shí)效性、發(fā)布媒體的數(shù) 量、發(fā)布新聞時(shí)間做彈性調(diào)整。206、取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的Query cluster,由于步驟205中 與該Query相匹配的網(wǎng)頁(yè)數(shù)量值域?yàn)?br>
,故本實(shí)施例中第一閾值可為0 10間的正整 數(shù),并從該Query cluster中挑選熱搜詞。其中,熱搜詞挑選的原則可以根據(jù)需要擇定,包 括但不限于選擇突發(fā)性最強(qiáng)的,或者選擇最精簡(jiǎn)的,或者在Query cluster分析的基礎(chǔ)上, 重新生成。需要說(shuō)明的是,步驟203中通過(guò)聚類算法計(jì)算后,得出的Query cluster可能不止一個(gè),若為多個(gè),則從每一滿足上述條件的Query cluster中分別挑選1個(gè)Query作為熱 搜詞,并且被挑選出的Query互不重復(fù),進(jìn)而可生成突增熱搜詞集合??梢?jiàn),本實(shí)施例中步驟201 —并存儲(chǔ)了發(fā)起Query的時(shí)間,為后續(xù)流程提供了基 礎(chǔ)。步驟202中引入了過(guò)濾機(jī)制,以歷史Query集合過(guò)濾短期Query集合中存在的周期性 突增Query或/和歷史事件突增Query,得出過(guò)濾后的短期Query,為后續(xù)聚類運(yùn)算提供了 優(yōu)質(zhì)的Query源。步驟203中,獲取的Query為短期Query,即單位時(shí)間的Query,因此可保 持所生成的熱搜詞之時(shí)效性,單位時(shí)間也可被理解熱搜詞所需要分析的時(shí)效性而增加或縮 短;通過(guò)聚類算法計(jì)算,可以幫助更精確的統(tǒng)計(jì)每一類事件Query的突增變化,從而更準(zhǔn)確 地把握突增。步驟204中引入突發(fā)熱度機(jī)制,保證與Query所匹配的網(wǎng)頁(yè)具備突發(fā)熱度,降 低“噪聲”,可給予用戶更好的體驗(yàn)。為了達(dá)到更優(yōu)的效果,本發(fā)明還提供了優(yōu)選實(shí)施例,參見(jiàn)圖3所示,包括下列步 驟301、對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ),并且其中還存儲(chǔ)了輸入及發(fā)起 Query的時(shí)間。302、獲取單位時(shí)間內(nèi)被存儲(chǔ)的Query作為短期Query集合,以作弊Query列表過(guò) 濾短期Query集合中存在的作弊Query,得出過(guò)濾后的短期Query。作弊Query列表可以為 靜態(tài),即作弊Query列表中包括關(guān)鍵詞集合,若短期Query集合中的Query含有上述關(guān)鍵詞 集合中的關(guān)鍵詞,則過(guò)濾該Query。作弊Query列表可以為動(dòng)態(tài),即動(dòng)態(tài)獲取敏感詞,并根 據(jù)獲取的敏感詞生成動(dòng)態(tài)的作弊Query列表,若短期Query集合中的Query在上述動(dòng)態(tài)作 弊Query列表中,則過(guò)濾該Query。上述作弊Query列表中具體包括黃色、反動(dòng)、限制級(jí)的 Query 等。303、取步驟302過(guò)濾后的短期Query,對(duì)獲取的Query進(jìn)行聚類運(yùn)算,最終得出 Query cluster。本實(shí)施例中采用但不限于基于凝聚的層次聚類算法,還可采用凝聚聚類算 法、劃分式聚類算法、基于密度的聚類算法、網(wǎng)格聚類算法,或者其它能將相似Query歸類 在一起的算法(比如按照Query檢索返回的頁(yè)面來(lái)做關(guān)聯(lián)性分析等)。更為具體的,通過(guò)層 次聚類算法直到Querycluster之間的距離大于第二閾值,例如第二閾值設(shè)定為0. 4。計(jì)算 Querycluster之間距離的方法為計(jì)算兩個(gè)Query cluster之間兩兩Query組合的平均編 輯距離。上述編輯距離的計(jì)算以漢字或者字母為單位,每一次增、刪、改都計(jì)為一次編輯,得 出的編輯次數(shù)除以兩個(gè)Query之間較長(zhǎng)Query的長(zhǎng)度即為編輯距離,值域?yàn)?br>
。304、步驟303中得出Query cluster后,進(jìn)一步計(jì)算該Query cluster的突發(fā)熱 度,更為具體的,分別對(duì)Query cluster中每一 Query當(dāng)前一段時(shí)間的搜索頻次與昨日同期 搜索頻次對(duì)比計(jì)算,得出該Query的突發(fā)熱度,再將Query cluster中各Query的突發(fā)熱度 累加,得出該Query cluster的突發(fā)熱度。如果得出的Query cluster突發(fā)熱度大于第三閾值,則確定該Querycluster中 最熱門的Query,否則,舍棄該Query cluster,并獲取其他經(jīng)由步驟303聚類得出的Query cluster,重復(fù)步驟304前述操作。第三閾值可根據(jù)需求設(shè)定,第三閾值越高,則得到的 Query cluster突發(fā)性越強(qiáng),但被舍棄的Query cluster也越多。需要說(shuō)明的是,最熱門的 Query包括但不限于搜索頻次最高的Query,突發(fā)熱度數(shù)值最大的Query,或者單位時(shí)間內(nèi) 搜索次數(shù)最多的Query。
12
305、在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的Query,例如,如果返回的某篇網(wǎng)頁(yè)的相 關(guān)權(quán)值大于第四閾值,則判定搜索到一篇與該Query相匹配的網(wǎng)頁(yè)。最終得出與該Query 相匹配的網(wǎng)頁(yè)數(shù)量。設(shè)定第四閾值是需要保證確實(shí)找到相關(guān)的網(wǎng)頁(yè),否則起不到驗(yàn)證的作 用。其中,垂直門戶網(wǎng)頁(yè)可包括但不限于新聞、論壇、圖片、視頻、音樂(lè)、貼吧。進(jìn)一步還可通 過(guò)控制第四閾值相應(yīng)控制前述數(shù)量,例如控制到0 10條24小時(shí)內(nèi)的新聞網(wǎng)頁(yè),但不局限 于0 10條,也不局限于24小時(shí)內(nèi),可依照新聞或事件的熱門程度、時(shí)效性、發(fā)布媒體的數(shù) 量、發(fā)布新聞時(shí)間做彈性調(diào)整。306、取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的Query cluster,由于步驟305中 與該Query相匹配的網(wǎng)頁(yè)數(shù)量值域?yàn)?br>
,故本實(shí)施例中第一閾值可為0 10間的正整 數(shù),并從該Query cluster中挑選熱搜詞。其中,熱搜詞挑選的原則可以根據(jù)需要擇定,包 括但不限于選擇突發(fā)性最強(qiáng)的,或者選擇最精簡(jiǎn)的,或者在Query cluster分析的基礎(chǔ)上, 重新生成。需要說(shuō)明的是,步驟303中通過(guò)聚類算法計(jì)算后,得出的Query cluster可能不 止一個(gè),若為多個(gè),則從每一滿足上述條件的Query cluster中分別挑選1個(gè)Query作為熱 搜詞,并且被挑選出的Query互不重復(fù),進(jìn)而可生成突增熱搜詞集合??梢?jiàn),本實(shí)施例中步驟301 —并存儲(chǔ)了發(fā)起Query的時(shí)間,為后續(xù)流程提供了基 礎(chǔ)。步驟302中引入了過(guò)濾機(jī)制,以作弊Query列表過(guò)濾短期Query集合中存在的作弊 Query,為后續(xù)聚類運(yùn)算提供了優(yōu)質(zhì)的Query源。步驟303中,獲取的Query為短期Query, 即單位時(shí)間的Query,因此可保持所生成的熱搜詞之時(shí)效性,單位時(shí)間也可被理解熱搜詞所 需要分析的時(shí)效性而增加或縮短;通過(guò)聚類算法計(jì)算,可以幫助更精確的統(tǒng)計(jì)每一類事件 Query的突增變化,從而更準(zhǔn)確地把握突增。步驟304中引入突發(fā)熱度機(jī)制,保證與Query 所匹配的網(wǎng)頁(yè)具備突發(fā)熱度,降低“噪聲”,可給予用戶更好的體驗(yàn)。為了達(dá)到更優(yōu)的效果,進(jìn)一步提高用戶的搜索感受,本發(fā)明還提供了優(yōu)選實(shí)施例, 經(jīng)過(guò)驗(yàn)證后的熱搜詞進(jìn)一步可以對(duì)用戶作個(gè)性化的推送,參見(jiàn)圖4所示,包括下列步驟401、對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ);402、對(duì) Query 進(jìn)行聚類運(yùn)算,得出 Query cluster ;403、確定 Query cluster 中搜索最熱門的 Query ;404、在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的Query,得出與該Query相匹配的網(wǎng)頁(yè) 數(shù)量及其每個(gè)網(wǎng)頁(yè)是哪個(gè)分類屬性,進(jìn)而,可以據(jù)此得知上述最熱門的Query是哪個(gè)類別, 可以是單一類別,也可以是多個(gè)類別。在具體實(shí)現(xiàn)中,對(duì)于每篇網(wǎng)頁(yè),可以通過(guò)分類或者打 標(biāo)簽等方式得到其類別,該類別的粒度可大可小,大粒度如體育,娛樂(lè),軍事;細(xì)一些的粒 度,則如明星、電影、武器、拆遷等;甚至更精準(zhǔn)的粒度,如曼聯(lián)等。對(duì)于細(xì)粒度的分類可 允許一篇網(wǎng)頁(yè)有多個(gè)類別。405、取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的Query cluster,并從該Query cluster中挑選熱搜詞。406、對(duì)用戶行為分析,獲知該用戶關(guān)注的Query類別。具體可獲取該用戶以往的 Query,對(duì)獲取的Query進(jìn)行行為分析,從而獲知用戶喜好或關(guān)注的Query類別;也可獲取用 戶當(dāng)前瀏覽的網(wǎng)頁(yè),例如用戶當(dāng)前瀏覽娛樂(lè)新聞網(wǎng)頁(yè),根據(jù)網(wǎng)頁(yè)中的信息進(jìn)行用戶行為分 析,從而獲知用戶喜好或關(guān)注的Query類別。407、向用戶推送個(gè)性化熱搜詞。個(gè)性化熱搜詞具體可從定位用戶關(guān)注的Query類別與所述熱搜詞分類所得類別的交集獲取。例如用戶關(guān)注的Query類別為娛樂(lè)新聞和體 育新聞,熱搜詞類別包括社會(huì)新聞、政治新聞、財(cái)經(jīng)新聞、科技新聞、法律新聞、娛樂(lè)新聞和 體育新聞,那么交集為娛樂(lè)新聞和體育新聞;進(jìn)一步提取娛樂(lè)新聞和體育新聞?lì)悇e的熱搜 詞作為個(gè)性化熱搜詞推送給該用戶??梢?jiàn),本實(shí)施例除了確定哪些是熱搜詞,熱搜詞之間的關(guān)聯(lián)還可以進(jìn)一步分類,分 類后的熱搜詞可以和用戶行為建立關(guān)聯(lián),達(dá)到個(gè)性化的熱搜詞推薦、推送。即前臺(tái)可以做到 區(qū)分展示,具體來(lái)說(shuō),用戶在看娛樂(lè)新聞的時(shí)候,熱搜詞的集合只推薦娛樂(lè)新聞相關(guān)的。因 此可以給予用戶更優(yōu)的搜索體驗(yàn)。需要說(shuō)明的是,上述步驟406和407,也可接續(xù)到上述步驟105、206和306之后,形 成另外幾個(gè)方法實(shí)施例,在此不再贅述,都應(yīng)在本發(fā)明保護(hù)范圍之內(nèi)。如圖5所示,為本發(fā)明實(shí)施例的熱搜詞生成系統(tǒng)示意圖,包括搜索請(qǐng)求存儲(chǔ)模塊501,用于對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ);聚類模塊502,可以從搜索請(qǐng)求存儲(chǔ)模塊501獲取Query并進(jìn)行聚類運(yùn)算,得出 Query cluster,并輸出到驗(yàn)證模塊503 ;驗(yàn)證模塊503,用于確定Query cluster中搜索最熱門的Query,并向頁(yè)面搜索模 塊504發(fā)起驗(yàn)證請(qǐng)求,以及接收頁(yè)面搜索模塊504返回的驗(yàn)證結(jié)果;頁(yè)面搜索模塊504,根據(jù)驗(yàn)證模塊503發(fā)來(lái)的驗(yàn)證請(qǐng)求中攜帶的上述最熱門的 Query,在垂直門戶網(wǎng)頁(yè)中搜索該Query,得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量,并將該網(wǎng)頁(yè)數(shù) 量作為驗(yàn)證結(jié)果向驗(yàn)證模塊503返回;挑選模塊505,從驗(yàn)證模塊503得到上述網(wǎng)頁(yè)數(shù)量,并且取上述網(wǎng)頁(yè)數(shù)量大于第一 閾值時(shí)所關(guān)聯(lián)的Query cluster,以及從該Query cluster中挑選熱搜詞。為了達(dá)到更優(yōu)的效果,結(jié)合圖5進(jìn)一步對(duì)本發(fā)明的優(yōu)選實(shí)施方案描述如下搜索請(qǐng)求存儲(chǔ)模塊501,用于對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ),并且其中 還存儲(chǔ)了輸入及發(fā)起Query的時(shí)間。聚類模塊502,用于獲取單位時(shí)間內(nèi)被搜索請(qǐng)求存儲(chǔ)模塊501存儲(chǔ)的Query,上述 單位時(shí)間例如1小時(shí)。其后對(duì)獲取的Query進(jìn)行聚類運(yùn)算,最終得出Query cluster,并輸 出到驗(yàn)證模塊503。本實(shí)施例中采用但不限于基于凝聚的層次聚類算法,還可采用凝聚聚類 算法、劃分式聚類算法、基于密度的聚類算法、網(wǎng)格聚類算法,或者其它能將相似Query歸 類在一起的算法(比如按照Query檢索返回的頁(yè)面來(lái)做關(guān)聯(lián)性分析等)。更為具體的,通過(guò) 層次聚類算法直到Query cluster之間的距離大于第二閾值,例如第二閾值設(shè)定為0. 4。計(jì) 算Query cluster之間距離的方法為計(jì)算兩個(gè)Query cluster之間兩兩Query組合的平 均編輯距離。上述編輯距離的計(jì)算以漢字或者字母為單位,每一次增、刪、改都計(jì)為一次編 輯,得出的編輯次數(shù)除以兩個(gè)Query之間較長(zhǎng)Query的長(zhǎng)度即為編輯距離,值域?yàn)閃,1]。驗(yàn)證模塊503,接收到聚類模塊502輸出的Query cluster后,進(jìn)一步計(jì)算該Query cluster的突發(fā)熱度,更為具體的,分別對(duì)Query cluster中每一 Query當(dāng)前一段時(shí)間的搜 索頻次與昨日同期搜索頻次對(duì)比計(jì)算,得出該Query的突發(fā)熱度,再將Query cluster中各 Query的突發(fā)熱度累加,得出該Query cluster的突發(fā)熱度。如果得出的Query cluster突發(fā)熱度大于第三閾值,則確定該Querycluster中 最熱門的Query,并向頁(yè)面搜索模塊504發(fā)起驗(yàn)證請(qǐng)求,以及接收頁(yè)面搜索模塊504返回的驗(yàn)證結(jié)果;否則,舍棄該Query cluster,并獲取其他經(jīng)由聚類模塊502聚類得出的 Query cluster,重復(fù)前述操作。第三閾值可根據(jù)需求設(shè)定,第三閾值越高,則得到的Query cluster突發(fā)性越強(qiáng),但被舍棄的Query cluster也越多。需要說(shuō)明的是,最熱門的Query 包括但不限于搜索頻次最高的Query,突發(fā)熱度數(shù)值最大的Query,或者單位時(shí)間內(nèi)搜索次 數(shù)最多的Query。頁(yè)面搜索模塊504,根據(jù)驗(yàn)證模塊503發(fā)來(lái)的驗(yàn)證請(qǐng)求中攜帶的上述最熱門的 Query,在垂直門戶網(wǎng)頁(yè)中搜索該Query,得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量,并將該網(wǎng)頁(yè)數(shù) 量作為驗(yàn)證結(jié)果向驗(yàn)證模塊503返回。例如,如果返回的某篇網(wǎng)頁(yè)的相關(guān)權(quán)值大于第四閾 值,則判定搜索到一篇與該Query相匹配的網(wǎng)頁(yè)。最終得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量。 設(shè)定第四閾值是需要保證確實(shí)找到相關(guān)的網(wǎng)頁(yè),否則起不到驗(yàn)證的作用。其中,垂直門戶網(wǎng) 頁(yè)可包括但不限于新聞、論壇、圖片、視頻、音樂(lè)、貼吧。進(jìn)一步還可通過(guò)控制第四閾值相應(yīng) 控制前述數(shù)量,如控制到0 10條24小時(shí)內(nèi)的新聞網(wǎng)頁(yè),但不局限于0 10條,也不局限 于24小時(shí)內(nèi),可依照新聞或事件的熱門程度、時(shí)效性、發(fā)布媒體的數(shù)量、發(fā)布新聞時(shí)間做彈 性調(diào)整。挑選模塊505,從驗(yàn)證模塊503得到上述網(wǎng)頁(yè)數(shù)量,取上述網(wǎng)頁(yè)數(shù)量大于第一閾 值時(shí)所關(guān)聯(lián)的Query cluster,由于該Query相匹配網(wǎng)頁(yè)數(shù)量的值域在本實(shí)施例為
,故本實(shí)施例中第一閾值可為0 10間的正整數(shù),并從該Query cluster中挑選熱搜 詞。其中,熱搜詞挑選的原則可以根據(jù)需要擇定,包括但不限于選擇突發(fā)性最強(qiáng)的,或者選 擇最精簡(jiǎn)的,或者在Query cluster分析的基礎(chǔ)上,重新生成。需要說(shuō)明的是,經(jīng)由聚類模 塊502計(jì)算后,得出的Query cluster可能不止一個(gè),若為多個(gè),則從每一滿足上述條件的 Querycluster中分別挑選1個(gè)Query作為熱搜詞,并且被挑選出的Query互不重復(fù),進(jìn)而可 生成突增熱搜詞集合??梢?jiàn),本實(shí)施例中搜索請(qǐng)求存儲(chǔ)模塊501 —并存儲(chǔ)了發(fā)起Query的時(shí)間,為后續(xù)操 作提供了基礎(chǔ)。聚類模塊502獲取單位時(shí)間內(nèi)被存儲(chǔ)的Query,可保持所生成的熱搜詞之時(shí) 效性,單位時(shí)間也可被理解熱搜詞所需要分析的時(shí)效性而增加或縮短;通過(guò)聚類算法計(jì)算, 可以幫助更精確的統(tǒng)計(jì)每一類事件Query的突增變化,從而更準(zhǔn)確地把握突增。驗(yàn)證模塊 503引入突發(fā)熱度機(jī)制,保證與Query所匹配的網(wǎng)頁(yè)具備突發(fā)熱度,降低“噪聲”,可給予用 戶更好的體驗(yàn)。為了達(dá)到更優(yōu)的效果,本發(fā)明還提供了優(yōu)選實(shí)施例,參見(jiàn)圖6所示,包括搜索請(qǐng)求存儲(chǔ)模塊601,用于對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ),并且其中 還存儲(chǔ)了輸入及發(fā)起Query的時(shí)間。第一過(guò)濾模塊602,用于獲取單位時(shí)間內(nèi)被存儲(chǔ)的Query作為短期Query集合(小 時(shí)級(jí)突增),以及獲取至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的Query作為歷史Query集合(例如歷 史)。之后以歷史Query集合過(guò)濾短期Query集合中存在的周期性突增Query或/和歷史 事件突增Query,得出過(guò)濾后的短期Query。更為具體的,第一過(guò)濾模塊602可以從搜索請(qǐng) 求存儲(chǔ)模塊601中獲取積累一定周期(一周,一個(gè)月)的同質(zhì)的歷史數(shù)據(jù),同質(zhì)是指具有相 同突發(fā)性質(zhì)的Query,比如昨天、前天的突發(fā)Query,求并集得到歷史Query集合,如果判定 當(dāng)前分析的Query在歷史Query集合中,則過(guò)濾掉該Query。第一過(guò)濾模塊602也可以線下 統(tǒng)計(jì)歷史熱門Query集合,并分析得到周期性突發(fā)的Query集合作為歷史Query集合,如果
15短期Query集合中的Query在歷史Query集合中,則過(guò)濾該Query。聚類模塊603,取第一過(guò)濾模塊602過(guò)濾后的短期Query,對(duì)獲取的Query進(jìn)行聚 類運(yùn)算,最終得出Query cluster,并輸出到驗(yàn)證模塊604。本實(shí)施例中采用但不限于基于 凝聚的層次聚類算法,還可采用凝聚聚類算法、劃分式聚類算法、基于密度的聚類算法、網(wǎng) 格聚類算法,或者其它能將相似Query歸類在一起的算法(比如按照Query檢索返回的頁(yè) 面來(lái)做關(guān)聯(lián)性分析等)。更為具體的,通過(guò)層次聚類算法直到Query cluster之間的距離 大于第二閾值,例如第二閾值設(shè)定為0.4。計(jì)算Query cluster之間距離的方法為計(jì)算兩 個(gè)Query cluster之間兩兩Query組合的平均編輯距離。上述編輯距離的計(jì)算以漢字或者 字母為單位,每一次增、刪、改都計(jì)為一次編輯,得出的編輯次數(shù)除以兩個(gè)Query之間較長(zhǎng) Query的長(zhǎng)度即為編輯距離,值域?yàn)閃,1]。驗(yàn)證模塊604,接收到聚類模塊603輸出的Query cluster后,進(jìn)一步計(jì)算該Query cluster的突發(fā)熱度,更為具體的,分別對(duì)Query cluster中每一 Query當(dāng)前一段時(shí)間的搜 索頻次與昨日同期搜索頻次對(duì)比計(jì)算,得出該Query的突發(fā)熱度,再將Query cluster中各 Query的突發(fā)熱度累加,得出該Query cluster的突發(fā)熱度。如果得出的Query cluster突發(fā)熱度大于第三閾值,則確定該Querycluster中 最熱門的Query,并向頁(yè)面搜索模塊605發(fā)起驗(yàn)證請(qǐng)求,以及接收頁(yè)面搜索模塊605返 回的驗(yàn)證結(jié)果;否則,舍棄該Query cluster,并獲取其他經(jīng)由聚類模塊603聚類得出的 Query cluster,重復(fù)前述操作。第三閾值可根據(jù)需求設(shè)定,第三閾值越高,則得到的Query cluster突發(fā)性越強(qiáng),但被舍棄的Query cluster也越多。需要說(shuō)明的是,最熱門的Query 包括但不限于搜索頻次最高的Query,突發(fā)熱度數(shù)值最大的Query,或者單位時(shí)間內(nèi)搜索次 數(shù)最多的Query。頁(yè)面搜索模塊605,根據(jù)驗(yàn)證模塊604發(fā)來(lái)的驗(yàn)證請(qǐng)求中攜帶的上述最熱門的 Query,在垂直門戶網(wǎng)頁(yè)中搜索該Query,得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量,并將該網(wǎng)頁(yè)數(shù) 量作為驗(yàn)證結(jié)果向驗(yàn)證模塊604返回。例如,如果返回的某篇網(wǎng)頁(yè)的相關(guān)權(quán)值大于第四閾 值,則判定搜索到一篇與該Query相匹配的網(wǎng)頁(yè)。最終得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量。 設(shè)定第四閾值是需要保證確實(shí)找到相關(guān)的網(wǎng)頁(yè),否則起不到驗(yàn)證的作用。其中,垂直門戶網(wǎng) 頁(yè)可包括但不限于新聞、論壇、圖片、視頻、音樂(lè)、貼吧。進(jìn)一步還可通過(guò)控制第四閾值相應(yīng) 控制前述數(shù)量,如控制到0 10條24小時(shí)內(nèi)的新聞網(wǎng)頁(yè),但不局限于0 10條,也不局限 于24小時(shí)內(nèi),可依照新聞或事件的熱門程度、時(shí)效性、發(fā)布媒體的數(shù)量、發(fā)布新聞時(shí)間做彈 性調(diào)整。挑選模塊606,從驗(yàn)證模塊604得到上述網(wǎng)頁(yè)數(shù)量,取上述網(wǎng)頁(yè)數(shù)量大于第一閾 值時(shí)所關(guān)聯(lián)的Query cluster,由于該Query相匹配網(wǎng)頁(yè)數(shù)量的值域在本實(shí)施例為
,故本實(shí)施例中第一閾值可為0 10間的正整數(shù),并從該Query cluster中挑選熱搜 詞。其中,熱搜詞挑選的原則可以根據(jù)需要擇定,包括但不限于選擇突發(fā)性最強(qiáng)的,或者選 擇最精簡(jiǎn)的,或者在Query cluster分析的基礎(chǔ)上,重新生成。需要說(shuō)明的是,經(jīng)由聚類模 塊603計(jì)算后,得出的Query cluster可能不止一個(gè),若為多個(gè),則從每一滿足上述條件的 Querycluster中分別挑選1個(gè)Query作為熱搜詞,并且被挑選出的Query互不重復(fù),進(jìn)而可 生成突增熱搜詞集合??梢?jiàn),本實(shí)施例中搜索請(qǐng)求存儲(chǔ)模塊601 —并存儲(chǔ)了發(fā)起Query的時(shí)間,為后續(xù)操作提供了基礎(chǔ)。第一過(guò)濾模塊602引入了過(guò)濾機(jī)制,以歷史Query集合過(guò)濾短期Query集 合中存在的周期性突增Query或/和歷史事件突增Query,得出過(guò)濾后的短期Query,為聚 類模塊603提供了優(yōu)質(zhì)的Query源。聚類模塊603獲取的Query為短期Query,即單位時(shí)間 的Query,因此可保持所生成的熱搜詞之時(shí)效性,單位時(shí)間也可被理解熱搜詞所需要分析的 時(shí)效性而增加或縮短;通過(guò)聚類算法計(jì)算,可以幫助更精確的統(tǒng)計(jì)每一類事件Query的突 增變化,從而更準(zhǔn)確地把握突增。驗(yàn)證模塊604引入突發(fā)熱度機(jī)制,保證與Query所匹配的 網(wǎng)頁(yè)具備突發(fā)熱度,降低“噪聲”,可給予用戶更好的體驗(yàn)。為了達(dá)到更優(yōu)的效果,本發(fā)明還提供了優(yōu)選實(shí)施例,參見(jiàn)圖7所示,包括搜索請(qǐng)求存儲(chǔ)模塊701,用于對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ),并且其中 還存儲(chǔ)了輸入及發(fā)起Query的時(shí)間。第二過(guò)濾模塊702,用于獲取單位時(shí)間內(nèi)被存儲(chǔ)的Query作為短期Query集合,以 作弊Query列表過(guò)濾短期Query集合中存在的作弊Query,得出過(guò)濾后的短期Query。第二 過(guò)濾模塊702所使用的作弊Query列表可以為靜態(tài),即第二過(guò)濾模塊702預(yù)設(shè)的作弊Query 列表中包括關(guān)鍵詞集合,若短期Query集合中的Query含有上述關(guān)鍵詞集合中的關(guān)鍵詞,則 過(guò)濾該Query。第二過(guò)濾模塊702所使用的作弊Query列表可以為動(dòng)態(tài),即第二過(guò)濾模塊 702動(dòng)態(tài)獲取敏感詞,并根據(jù)獲取的敏感詞生成動(dòng)態(tài)的作弊Query列表,若短期Query集合 中的Query在上述動(dòng)態(tài)作弊Query列表中,則過(guò)濾該Query。上述作弊Query列表中具體包 括黃色、反動(dòng)、限制級(jí)的Query等。聚類模塊703,取第二過(guò)濾模塊702過(guò)濾后的短期Query,對(duì)獲取的Query進(jìn)行聚 類運(yùn)算,最終得出Query cluster,并輸出到驗(yàn)證模塊704。本實(shí)施例中采用但不限于基于 凝聚的層次聚類算法,還可采用凝聚聚類算法、劃分式聚類算法、基于密度的聚類算法、網(wǎng) 格聚類算法,或者其它能將相似Query歸類在一起的算法(比如按照Query檢索返回的頁(yè) 面來(lái)做關(guān)聯(lián)性分析等)。更為具體的,通過(guò)層次聚類算法直到Query cluster之間的距離 大于第二閾值,例如第二閾值設(shè)定為0.4。計(jì)算Query cluster之間距離的方法為計(jì)算兩 個(gè)Query cluster之間兩兩Query組合的平均編輯距離。上述編輯距離的計(jì)算以漢字或者 字母為單位,每一次增、刪、改都計(jì)為一次編輯,得出的編輯次數(shù)除以兩個(gè)Query之間較長(zhǎng) Query的長(zhǎng)度即為編輯距離,值域?yàn)?br>
。驗(yàn)證模塊704,接收到聚類模塊703輸出的Query cluster后,進(jìn)一步計(jì)算該Query cluster的突發(fā)熱度,更為具體的,分別對(duì)Query cluster中每一 Query當(dāng)前一段時(shí)間的搜 索頻次與昨日同期搜索頻次對(duì)比計(jì)算,得出該Query的突發(fā)熱度,再將Query cluster中各 Query的突發(fā)熱度累加,得出該Query cluster的突發(fā)熱度。如果得出的Query cluster突發(fā)熱度大于第三閾值,則確定該Querycluster中 最熱門的Query,并向頁(yè)面搜索模塊705發(fā)起驗(yàn)證請(qǐng)求,以及接收頁(yè)面搜索模塊705返 回的驗(yàn)證結(jié)果;否則,舍棄該Query cluster,并獲取其他經(jīng)由聚類模塊703聚類得出的 Query cluster,重復(fù)前述操作。第三閾值可根據(jù)需求設(shè)定,第三閾值越高,則得到的Query cluster突發(fā)性越強(qiáng),但被舍棄的Query cluster也越多。需要說(shuō)明的是,最熱門的Query 包括但不限于搜索頻次最高的Query,突發(fā)熱度數(shù)值最大的Query,或者單位時(shí)間內(nèi)搜索次 數(shù)最多的Query。頁(yè)面搜索模塊705,根據(jù)驗(yàn)證模塊704發(fā)來(lái)的驗(yàn)證請(qǐng)求中攜帶的上述最熱門的Query,在垂直門戶網(wǎng)頁(yè)中搜索該Query,得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量,并將該網(wǎng)頁(yè)數(shù) 量作為驗(yàn)證結(jié)果向驗(yàn)證模塊704返回。例如,如果返回的某篇網(wǎng)頁(yè)的相關(guān)權(quán)值大于第四閾 值,則判定搜索到一篇與該Query相匹配的網(wǎng)頁(yè)。最終得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量。 設(shè)定第四閾值是需要保證確實(shí)找到相關(guān)的網(wǎng)頁(yè),否則起不到驗(yàn)證的作用。其中,垂直門戶網(wǎng) 頁(yè)可包括但不限于新聞、論壇、圖片、視頻、音樂(lè)、貼吧。進(jìn)一步還可通過(guò)控制第四閾值相應(yīng) 控制前述數(shù)量,如控制到0 10條24小時(shí)內(nèi)的新聞網(wǎng)頁(yè),但不局限于0 10條,也不局限 于24小時(shí)內(nèi),可依照新聞或事件的熱門程度、時(shí)效性、發(fā)布媒體的數(shù)量、發(fā)布新聞時(shí)間做彈 性調(diào)整。挑選模塊706,從驗(yàn)證模塊704得到上述網(wǎng)頁(yè)數(shù)量,取上述網(wǎng)頁(yè)數(shù)量大于第一閾 值時(shí)所關(guān)聯(lián)的Query cluster,由于該Query相匹配網(wǎng)頁(yè)數(shù)量的值域在本實(shí)施例為
,故本實(shí)施例中第一閾值可為0 10間的正整數(shù),并從該Query cluster中挑選熱搜 詞。其中,熱搜詞挑選的原則可以根據(jù)需要擇定,包括但不限于選擇突發(fā)性最強(qiáng)的,或者選 擇最精簡(jiǎn)的,或者在Query cluster分析的基礎(chǔ)上,重新生成。需要說(shuō)明的是,經(jīng)由聚類模 塊703計(jì)算后,得出的Query cluster可能不止一個(gè),若為多個(gè),則從每一滿足上述條件的 Querycluster中分別挑選1個(gè)Query作為熱搜詞,并且被挑選出的Query互不重復(fù),進(jìn)而可 生成突增熱搜詞集合。可見(jiàn),本實(shí)施例中搜索請(qǐng)求存儲(chǔ)模塊701 —并存儲(chǔ)了發(fā)起Query的時(shí)間,為后續(xù)操 作提供了基礎(chǔ)。第二過(guò)濾模塊702引入了過(guò)濾機(jī)制,以作弊Query列表過(guò)濾短期Query集合 中存在的作弊Query,為后續(xù)聚類運(yùn)算提供了優(yōu)質(zhì)的Query源。聚類模塊703獲取的Query 為短期Query,即單位時(shí)間的Query,因此可保持所生成的熱搜詞之時(shí)效性,單位時(shí)間也可 被理解熱搜詞所需要分析的時(shí)效性而增加或縮短;通過(guò)聚類算法計(jì)算,可以幫助更精確的 統(tǒng)計(jì)每一類事件Query的突增變化,從而更準(zhǔn)確地把握突增。驗(yàn)證模塊704引入突發(fā)熱度 機(jī)制,保證與Query所匹配的網(wǎng)頁(yè)具備突發(fā)熱度,降低“噪聲”,可給予用戶更好的體驗(yàn)。為了達(dá)到更優(yōu)的效果,進(jìn)一步提高用戶的搜索感受,本發(fā)明還提供了優(yōu)選實(shí)施例, 經(jīng)過(guò)驗(yàn)證后的熱搜詞進(jìn)一步可以對(duì)用戶作個(gè)性化的推送,參見(jiàn)圖8所示,包括搜索請(qǐng)求存儲(chǔ)模塊801,用于對(duì)用戶向搜索引擎發(fā)起的Query進(jìn)行存儲(chǔ);聚類模塊802,可以從搜索請(qǐng)求存儲(chǔ)模塊801獲取Query并進(jìn)行聚類運(yùn)算,得出 Query cluster,并輸出到驗(yàn)證模塊803 ;驗(yàn)證模塊803,用于確定Query cluster中搜索最熱門的Query,并向頁(yè)面搜索模 塊804發(fā)起驗(yàn)證請(qǐng)求,以及接收頁(yè)面搜索模塊804返回的驗(yàn)證結(jié)果;頁(yè)面搜索模塊804,根據(jù)驗(yàn)證模塊803發(fā)來(lái)的驗(yàn)證請(qǐng)求中攜帶的上述最熱門的 Query,在垂直門戶網(wǎng)頁(yè)中搜索該Query,得出與該Query相匹配的網(wǎng)頁(yè)數(shù)量及其每個(gè)網(wǎng)頁(yè) 是哪個(gè)分類屬性,并將該網(wǎng)頁(yè)數(shù)量及每個(gè)網(wǎng)頁(yè)的分類屬性作為驗(yàn)證結(jié)果向驗(yàn)證模塊803返 回,進(jìn)而,驗(yàn)證模塊803可以從驗(yàn)證結(jié)果得知用來(lái)驗(yàn)證的最熱門Query是哪個(gè)類別,可以是 單一類別,也可以是多個(gè)類別。在具體實(shí)現(xiàn)中,對(duì)于每篇網(wǎng)頁(yè),可以通過(guò)分類或者打標(biāo)簽等 方式得到其類別,該類別的粒度可大可小,大粒度如體育,娛樂(lè),軍事;細(xì)一些的粒度,則 如明星、電影、武器、拆遷等;甚至更精準(zhǔn)的粒度,如曼聯(lián)等。對(duì)于細(xì)粒度的分類可允許一 篇網(wǎng)頁(yè)有多個(gè)類別。挑選模塊805,從驗(yàn)證模塊803得到上述網(wǎng)頁(yè)數(shù)量,并且取上述網(wǎng)頁(yè)數(shù) 量大于第一閾值時(shí)所關(guān)聯(lián)的Query cluster,以及從該Query cluster中挑選熱搜詞。
18
用戶行為分析模塊806,用于進(jìn)行用戶行為分析,獲知該用戶關(guān)注的Query類別。 具體可從搜索請(qǐng)求存儲(chǔ)模塊801中獲取該用戶以往的Query,對(duì)獲取的Query進(jìn)行行為分 析,從而獲知用戶喜好或關(guān)注的Query類別;也可獲取用戶當(dāng)前瀏覽的網(wǎng)頁(yè),例如用戶當(dāng) 前瀏覽娛樂(lè)新聞網(wǎng)頁(yè),根據(jù)網(wǎng)頁(yè)中的信息進(jìn)行用戶行為分析,從而獲知用戶喜好或關(guān)注的 Query類別。推薦模塊807,用于向所述用戶推送個(gè)性化熱搜詞。個(gè)性化熱搜詞具體可從定位用 戶關(guān)注的Query類別與所述熱搜詞分類所得類別的交集獲取。例如用戶關(guān)注的Query類 別為娛樂(lè)新聞和體育新聞,熱搜詞類別包括社會(huì)新聞、政治新聞、財(cái)經(jīng)新聞、科技新聞、法律 新聞、娛樂(lè)新聞和體育新聞,那么交集為娛樂(lè)新聞和體育新聞;進(jìn)一步提取挑選模塊805挑 選出的娛樂(lè)新聞和體育新聞?lì)悇e的熱搜詞作為個(gè)性化熱搜詞;最后,推薦模塊807向所述 用戶推送得到的個(gè)性化熱搜詞??梢?jiàn),本實(shí)施例除了確定哪些是熱搜詞,熱搜詞之間的關(guān)聯(lián)還可以進(jìn)一步分類,分 類后的熱搜詞可以和用戶行為建立關(guān)聯(lián),達(dá)到個(gè)性化的熱搜詞推薦、推送。即前臺(tái)可以做到 區(qū)分展示,具體來(lái)說(shuō),用戶在看娛樂(lè)新聞的時(shí)候,熱搜詞的集合只推薦娛樂(lè)新聞相關(guān)的。因 此可以給予用戶更優(yōu)的搜索體驗(yàn)。需要說(shuō)明的是,用戶行為分析模塊806和推薦模塊807,也可與上述系統(tǒng)實(shí)施例組 合,形成另外幾個(gè)系統(tǒng)實(shí)施例,在此不再贅述,都應(yīng)在本發(fā)明保護(hù)范圍之內(nèi)。在上述實(shí)施例中,僅對(duì)本發(fā)明進(jìn)行了示范性描述,但是本領(lǐng)域技術(shù)人員在閱讀本 專利申請(qǐng)后可以在不脫離本發(fā)明的精神和范圍的情況下對(duì)本發(fā)明進(jìn)行各種修改。
權(quán)利要求
一種熱搜詞生成方法,其特征在于,包括下列步驟搜索請(qǐng)求存儲(chǔ)步驟對(duì)用戶向搜索引擎發(fā)起的搜索請(qǐng)求進(jìn)行存儲(chǔ);聚類步驟對(duì)搜索請(qǐng)求進(jìn)行聚類運(yùn)算,得出搜索請(qǐng)求簇;驗(yàn)證步驟確定搜索請(qǐng)求簇中最熱門的搜索請(qǐng)求;頁(yè)面搜索步驟在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的搜索請(qǐng)求,得出與該搜索請(qǐng)求相匹配的網(wǎng)頁(yè)數(shù)量;挑選步驟取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的搜索請(qǐng)求簇,并從該搜索請(qǐng)求簇中挑選熱搜詞。
2.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,所述搜索請(qǐng)求存儲(chǔ)步驟中,還 一并存儲(chǔ)輸入搜索請(qǐng)求的時(shí)間。
3.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,所述聚類步驟中的聚類運(yùn)算 包括凝聚聚類算法、劃分式聚類算法、基于密度的聚類算法,或者網(wǎng)格聚類算法。
4.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,所述聚類步驟中進(jìn)一步包括 獲取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求;采用基于凝聚的層次聚類算法對(duì)上述獲取的搜索請(qǐng)求進(jìn)行運(yùn)算,得出搜索請(qǐng)求簇。
5.根據(jù)權(quán)利要求4所述的熱搜詞生成方法,其特征在于,所述基于凝聚的層次聚類算 法具體包括若兩個(gè)所述被獲取的搜索請(qǐng)求之間的編輯距離小于等于第二閾值,則確定該 兩個(gè)搜索請(qǐng)求為同一搜索請(qǐng)求簇。
6.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,所述驗(yàn)證步驟之前還包括 計(jì)算聚類步驟中得出的搜索請(qǐng)求簇的突發(fā)熱度,當(dāng)所述突發(fā)熱度大于第三閾值時(shí),轉(zhuǎn)入驗(yàn)證步驟。
7.根據(jù)權(quán)利要求6所述的熱搜詞生成方法,其特征在于,所述計(jì)算突發(fā)熱度具體包括 分別對(duì)搜索請(qǐng)求簇中每一搜索請(qǐng)求當(dāng)前一段時(shí)間的搜索頻次與昨日同期搜索頻次對(duì)比計(jì)算,得出該搜索請(qǐng)求的突發(fā)熱度;將所述搜索請(qǐng)求簇中各搜索請(qǐng)求的突發(fā)熱度累加,得出該搜索請(qǐng)求簇的突發(fā)熱度。
8.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,頁(yè)面搜索步驟中所述匹配的 條件具體為所述最熱門的搜索請(qǐng)求在垂直門戶網(wǎng)頁(yè)中的權(quán)值大于第四閾值,則判定相互匹配。
9.根據(jù)權(quán)利要求1或8所述的熱搜詞生成方法,其特征在于,所述最熱門的搜索請(qǐng)求為 搜索頻次最高的搜索請(qǐng)求;或者,所述最熱門的搜索請(qǐng)求為突發(fā)熱度數(shù)值最大的搜索請(qǐng)求; 或者,所述最熱門的搜索請(qǐng)求為單位時(shí)間內(nèi)搜索次數(shù)最多的搜索請(qǐng)求。
10.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,在聚類步驟之前還包括過(guò)濾步驟獲取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合,以及獲取至少 二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為歷史搜索請(qǐng)求集合;以所述歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求集合中存在的周期性突增搜索請(qǐng)求或/ 和歷史事件突增搜索請(qǐng)求,得出過(guò)濾后的短期搜索請(qǐng)求,并轉(zhuǎn)入聚類步驟。
11.根據(jù)權(quán)利要求10所述的熱搜詞生成方法,其特征在于,所述過(guò)濾步驟中,得出歷史 搜索請(qǐng)求集合具體包括獲取至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的,與所述短期搜索請(qǐng)求集合中的搜索請(qǐng)求同質(zhì)的搜索請(qǐng)求;將所述獲取的搜索請(qǐng)求求并集,得出歷史搜索請(qǐng)求集合;以及,所述以歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求集合具體包括短期搜索請(qǐng)求集合 中的搜索請(qǐng)求在上述歷史搜索請(qǐng)求集合中,則過(guò)濾該搜索請(qǐng)求。
12.根據(jù)權(quán)利要求10所述的熱搜詞生成方法,其特征在于,所述過(guò)濾步驟中,得出歷史 搜索請(qǐng)求集合具體包括非在線情況下,統(tǒng)計(jì)歷史熱門搜索請(qǐng)求集合;并且分析該歷史熱 門搜索請(qǐng)求集合得到周期性突發(fā)搜索請(qǐng)求集合作為上述歷史搜索請(qǐng)求集合;以及,所述以歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求集合具體包括短期搜索請(qǐng)求集合 中的搜索請(qǐng)求在上述歷史搜索請(qǐng)求集合中,則過(guò)濾該搜索請(qǐng)求。
13.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,在聚類步驟之前還包括過(guò)濾步驟獲取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合;以作弊搜索請(qǐng)求列表過(guò)濾短期搜索請(qǐng)求集合中存在的作弊搜索請(qǐng)求,得出過(guò)濾后的短 期搜索請(qǐng)求,并轉(zhuǎn)入聚類步驟。
14.根據(jù)權(quán)利要求13所述的熱搜詞生成方法,其特征在于,所述作弊搜索請(qǐng)求列表中 包括關(guān)鍵詞集合,若所述短期搜索請(qǐng)求集合中的搜索請(qǐng)求含有上述關(guān)鍵詞集合中的關(guān)鍵 詞,則過(guò)濾該搜索請(qǐng)求。
15.根據(jù)權(quán)利要求13所述的熱搜詞生成方法,其特征在于,所述作弊搜索請(qǐng)求列表生 成的過(guò)程包括動(dòng)態(tài)獲取敏感詞;根據(jù)獲取的敏感詞生成動(dòng)態(tài)的作弊搜索請(qǐng)求列表;若所述短期搜索請(qǐng)求集合中的搜索請(qǐng)求在上述動(dòng)態(tài)作弊搜索請(qǐng)求列表中,則過(guò)濾該搜 索請(qǐng)求。
16.根據(jù)權(quán)利要求1所述的熱搜詞生成方法,其特征在于,在挑選步驟之后還包括用戶行為分析步驟進(jìn)行用戶行為分析,獲知用戶關(guān)注的搜索請(qǐng)求類別;推薦步驟定位所述用戶關(guān)注的搜索請(qǐng)求類別與所述熱搜詞分類所得類別的交集,并 將所述交集類別中包含的熱搜詞作為個(gè)性化熱搜詞推送給該用戶。
17.一種熱搜詞生成系統(tǒng),其特征在于,包括搜索請(qǐng)求存儲(chǔ)模塊,對(duì)用戶向搜索引擎發(fā)起的搜索請(qǐng)求進(jìn)行存儲(chǔ);聚類模塊,對(duì)獲取的搜索請(qǐng)求進(jìn)行聚類運(yùn)算,得出搜索請(qǐng)求簇;驗(yàn)證模塊,確定所述搜索請(qǐng)求簇中最熱門的搜索請(qǐng)求;頁(yè)面搜索模塊,在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的搜索請(qǐng)求,得出與該搜索請(qǐng)求相 匹配的網(wǎng)頁(yè)數(shù)量;挑選模塊,取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的搜索請(qǐng)求簇,并從該搜索請(qǐng)求簇 中挑選熱搜詞。
18.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,所述搜索請(qǐng)求存儲(chǔ)模塊還 一并存儲(chǔ)輸入搜索請(qǐng)求的時(shí)間。
19.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,所述聚類模塊預(yù)設(shè)的聚類 運(yùn)算包括凝聚聚類算法、劃分式聚類算法、基于密度的聚類算法,或者網(wǎng)格聚類算法。
20.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,所述聚類模塊從搜索請(qǐng)求 存儲(chǔ)模塊中獲取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求,并以預(yù)設(shè)的基于凝聚的層次聚類算法對(duì)上 述獲取的搜索請(qǐng)求進(jìn)行運(yùn)算。
21.根據(jù)權(quán)利要求20所述的熱搜詞生成系統(tǒng),其特征在于,所述聚類模塊中預(yù)設(shè)的基于凝聚的層次聚類算法是若兩個(gè)所述被獲取的搜索請(qǐng)求之間的編輯距離小于等于第二閾 值,則確定該兩個(gè)搜索請(qǐng)求為同一搜索請(qǐng)求簇。
22.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,驗(yàn)證模塊先計(jì)算聚類模塊 得出的搜索請(qǐng)求簇的突發(fā)熱度,當(dāng)所述突發(fā)熱度大于第三閾值時(shí),再確定所述搜索請(qǐng)求簇 中搜索最熱門的搜索請(qǐng)求。
23.根據(jù)權(quán)利要求22所述的熱搜詞生成系統(tǒng),其特征在于,所述驗(yàn)證模塊計(jì)算突發(fā)熱 度具體是分別對(duì)搜索請(qǐng)求簇中每一搜索請(qǐng)求當(dāng)前一段時(shí)間的搜索頻次與昨日同期搜索頻 次對(duì)比計(jì)算,得出該搜索請(qǐng)求的突發(fā)熱度;將所述搜索請(qǐng)求簇中各搜索請(qǐng)求的突發(fā)熱度累 加,得出該搜索請(qǐng)求簇的突發(fā)熱度。
24.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,所述頁(yè)面搜索模塊判斷搜 索請(qǐng)求與網(wǎng)頁(yè)相匹配的匹配條件是所述最熱門的搜索請(qǐng)求在垂直門戶網(wǎng)頁(yè)中的權(quán)值大于 第四閾值,則判定相互匹配。
25.根據(jù)權(quán)利要求17或24所述的熱搜詞生成系統(tǒng),其特征在于,所述最熱門的搜索請(qǐng) 求為搜索頻次最高的搜索請(qǐng)求;或者,所述最熱門的搜索請(qǐng)求為突發(fā)熱度數(shù)值最大的搜索請(qǐng)求;或者,所述最熱門的搜索請(qǐng)求為單位時(shí)間內(nèi)搜索次數(shù)最多的搜索請(qǐng)求。
26.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,還包括第一過(guò)濾模塊,用 于從搜索請(qǐng)求存儲(chǔ)模塊中獲取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合,以及 從搜索請(qǐng)求存儲(chǔ)模塊中獲取至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為歷史搜索請(qǐng)求集 合;并以所述歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求集合中存在的周期性突增搜索請(qǐng)求或/ 和歷史事件突增搜索請(qǐng)求,得出過(guò)濾后的短期搜索請(qǐng)求,并輸出到聚類模塊。
27.根據(jù)權(quán)利要求26所述的熱搜詞生成系統(tǒng),其特征在于,所述第一過(guò)濾模塊得出歷 史搜索請(qǐng)求集合具體包括獲取至少二個(gè)單位時(shí)間內(nèi)被存儲(chǔ)的,與所述短期搜索請(qǐng)求集合 中的搜索請(qǐng)求同質(zhì)的搜索請(qǐng)求;將所述獲取的搜索請(qǐng)求求并集,得出歷史搜索請(qǐng)求集合; 以及第一過(guò)濾模塊以歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求集合具體包括短期搜索請(qǐng)求集 合中的搜索請(qǐng)求在上述歷史搜索請(qǐng)求集合中,則過(guò)濾該搜索請(qǐng)求。
28.根據(jù)權(quán)利要求26所述的熱搜詞生成系統(tǒng),其特征在于,所述第一過(guò)濾模塊得出歷 史搜索請(qǐng)求集合具體包括非在線情況下,統(tǒng)計(jì)歷史熱門搜索請(qǐng)求集合;并且分析該歷史 熱門搜索請(qǐng)求集合得到周期性突發(fā)搜索請(qǐng)求集合作為上述歷史搜索請(qǐng)求集合;以及第一過(guò) 濾模塊以歷史搜索請(qǐng)求集合過(guò)濾短期搜索請(qǐng)求集合具體包括短期搜索請(qǐng)求集合中的搜索 請(qǐng)求在上述歷史搜索請(qǐng)求集合中,則過(guò)濾該搜索請(qǐng)求。
29.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,還包括第二過(guò)濾模塊,用 于從搜索請(qǐng)求存儲(chǔ)模塊中獲取單位時(shí)間內(nèi)被存儲(chǔ)的搜索請(qǐng)求作為短期搜索請(qǐng)求集合;并以 作弊搜索請(qǐng)求列表過(guò)濾短期搜索請(qǐng)求集合中存在的作弊搜索請(qǐng)求,得出過(guò)濾后的短期搜索 請(qǐng)求,并輸出到聚類模塊。
30.根據(jù)權(quán)利要求29所述的熱搜詞生成系統(tǒng),其特征在于,所述第二過(guò)濾模塊中存儲(chǔ) 的作弊搜索請(qǐng)求列表中包括關(guān)鍵詞集合,若所述短期搜索請(qǐng)求集合中的搜索請(qǐng)求含有上述 關(guān)鍵詞集合中的關(guān)鍵詞,則過(guò)濾該搜索請(qǐng)求。
31.根據(jù)權(quán)利要求29所述的熱搜詞生成系統(tǒng),其特征在于,所述第二過(guò)濾模塊動(dòng)態(tài)獲取敏感詞,并根據(jù)獲取的敏感詞生成動(dòng)態(tài)的作弊搜索請(qǐng)求列表;若所述短期搜索請(qǐng)求集合 中的搜索請(qǐng)求在上述動(dòng)態(tài)作弊搜索請(qǐng)求列表中,則過(guò)濾該搜索請(qǐng)求。
32.根據(jù)權(quán)利要求17所述的熱搜詞生成系統(tǒng),其特征在于,還包括 用戶行為分析模塊,用于進(jìn)行用戶行為分析,獲知用戶關(guān)注的搜索請(qǐng)求類別; 推薦模塊,用于定位所述用戶關(guān)注的搜索請(qǐng)求類別與所述熱搜詞分類所得類別的交 集,并將所述交集類別中包含的熱搜詞作為個(gè)性化熱搜詞推送給該用戶。
全文摘要
本發(fā)明公開了一種熱搜詞生成方法及系統(tǒng),涉及信息處理領(lǐng)域,用以解決現(xiàn)有技術(shù)未將搜索請(qǐng)求Query熱搜詞與垂直門戶網(wǎng)頁(yè)關(guān)聯(lián),用戶的搜索體驗(yàn)有待提升的問(wèn)題。方法包括對(duì)用戶向搜索引擎發(fā)起的搜索請(qǐng)求進(jìn)行存儲(chǔ);對(duì)搜索請(qǐng)求進(jìn)行聚類運(yùn)算,得出搜索請(qǐng)求簇;確定搜索請(qǐng)求簇中最熱門的搜索請(qǐng)求;在垂直門戶網(wǎng)頁(yè)中搜索上述最熱門的搜索請(qǐng)求,得出與該搜索請(qǐng)求相匹配的網(wǎng)頁(yè)數(shù)量;取上述網(wǎng)頁(yè)數(shù)量大于第一閾值時(shí)所關(guān)聯(lián)的搜索請(qǐng)求簇,并從該搜索請(qǐng)求簇中挑選熱搜詞。系統(tǒng)包括搜索請(qǐng)求存儲(chǔ)模塊,聚類模塊,驗(yàn)證模塊,頁(yè)面搜索模塊和挑選模塊。本發(fā)明將搜索請(qǐng)求熱搜詞和垂直門戶網(wǎng)頁(yè)進(jìn)行驗(yàn)證,可辨別出新聞或事件相關(guān)的搜索請(qǐng)求熱搜詞。
文檔編號(hào)G06F17/30GK101984423SQ20101051448
公開日2011年3月9日 申請(qǐng)日期2010年10月21日 優(yōu)先權(quán)日2010年10月21日
發(fā)明者劉濤, 彭學(xué)政, 蔡勛梁, 黃煒 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司