專利名稱:一種基于大數(shù)據(jù)的話題檢測方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,特別是涉及一種基于大數(shù)據(jù)的話題檢測方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的信息越來越多元和豐富,與此同時,網(wǎng)絡(luò)輿情的社會影響力不斷增強,很多社會熱點事件都是在網(wǎng)絡(luò)中第一時間披露和傳播,網(wǎng)絡(luò)話題檢測因而愈發(fā)顯現(xiàn)出其重要價值。在互聯(lián)網(wǎng)環(huán)境中,存在大量自然語言形式的網(wǎng)頁文本,其類型包括新聞、博客、論壇帖子以及新興的微博等,這些網(wǎng)頁文本為發(fā)現(xiàn)熱點話題提供了最基本的數(shù)據(jù)來源。美國國防部開展的TDT (話題檢測與跟蹤,Topic Detection and Tracking)項目最早展開了話題檢測方面的研究,并取得了一定的進展。根據(jù)話題檢測進行的時間,目前的話題檢測方法可以分為回溯檢測和在線檢測兩種。其中,回溯檢測首先獲取全部的網(wǎng)頁,然后對獲取的網(wǎng)頁文本利用傳統(tǒng)的文本聚類算法進行聚類,以發(fā)現(xiàn)其中包含的話題;在線檢測則以在線的形式從實時獲取到的網(wǎng)頁文本流中標識新話題的開始位置,并將新話題加入到已有的話題中去。上述兩種話題檢測方法各有其優(yōu)劣。其中,回溯檢測方法的優(yōu)勢在于可以選擇一些效果較佳的文本挖掘算法對收集到的網(wǎng)頁數(shù)據(jù)進行離線處理,故能夠得到較為優(yōu)化的結(jié)果,但由于其以離線的方式處理網(wǎng)頁數(shù)據(jù),故其最大的缺點是時效性差;在線檢測方法目前受到越來越多的關(guān)注,其能滿足熱點話題實時檢測的需求,但由于受到處理時間的約束,其所使用的算法一般比較簡單,故跟回溯檢測方法相比檢測效果還存在一定差距。總之,需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是:如何能夠解決在互聯(lián)網(wǎng)環(huán)境中大量網(wǎng)頁文本快速更新的情況下,話題檢測面臨的檢測效果準確性與時效性的尖銳矛盾。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于大數(shù)據(jù)的話題檢測方法及裝置,能夠在互聯(lián)網(wǎng)環(huán)境中大量網(wǎng)頁文本快速更新的情況下,同時保證檢測效果的準確性和時效性。為了解決上述問題,本發(fā)明公開了一種基于大數(shù)據(jù)的話題檢測方法,包括:依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁;采集所述熱點網(wǎng)頁的內(nèi)容;依據(jù)所述熱點網(wǎng)頁的內(nèi)容,提取得到所述熱點網(wǎng)頁的網(wǎng)頁特征向量;依據(jù)所述熱點網(wǎng)頁的網(wǎng)頁特征向量對所述熱點網(wǎng)頁進行聚類,得到相應(yīng)的潛在熱點話題類;以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類;所述新增網(wǎng)頁包括在線網(wǎng)頁;
針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類??蛇x的,所述用戶網(wǎng)絡(luò)行為數(shù)據(jù)包括用戶訪問行為數(shù)據(jù)和用戶搜索行為數(shù)據(jù)中的一項或多項;則所述依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁的步驟,包括:依據(jù)所述用戶訪問行為數(shù)據(jù),獲取用戶訪問量或用戶訪問頻率符合第一預(yù)置條件的網(wǎng)頁,作為熱點網(wǎng)頁;和/或,依據(jù)所述用戶搜索行為數(shù)據(jù),獲取用戶搜索量或用戶搜索頻率符合第二預(yù)置條件的關(guān)鍵詞所關(guān)聯(lián)的網(wǎng)頁,作為熱點網(wǎng)頁??蛇x的,所述針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類的步驟,包括:當增量聚類后的某潛在熱點話題類對應(yīng)的用戶關(guān)注度參數(shù)的加權(quán)處理結(jié)果與增量聚類后的所有潛在熱點話題類對應(yīng)的用戶關(guān)注度參數(shù)的加權(quán)處理結(jié)果的比值大于第一閾值時,判定該潛在熱點話題類為熱點話題類??蛇x的,所述以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類的步驟,包括:計算新增網(wǎng)頁的網(wǎng)頁特征向量與各潛在熱點話題類的質(zhì)心向量的相似度;在某新增網(wǎng)頁的網(wǎng)頁特征向量與某潛在熱點話題類的質(zhì)心向量的相似度大于等于第一相似度閾值時,將該新增網(wǎng)頁加入至該潛在熱點話題類??蛇x的,所述潛在熱點話題類的質(zhì)心向量為對潛在熱點話題類所包括的熱點網(wǎng)頁的網(wǎng)頁特征向量進行加權(quán)處理得到,其中,某熱點網(wǎng)頁的網(wǎng)頁特征向量的權(quán)重為依據(jù)該熱點網(wǎng)頁的用戶訪問量與該熱點網(wǎng)頁所屬潛在熱點話題類中所有熱點網(wǎng)頁的總用戶訪問量的比率確定。可選的,還包括:針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù)在以往時段內(nèi)的變化,預(yù)測其是否為下一時段的熱點話題類。可選的,還包括:對所判定或預(yù)測的熱點話題類進行提示,相應(yīng)的提示內(nèi)容包括:相應(yīng)熱點話題類的描述關(guān)鍵詞??蛇x的,所述描述關(guān)鍵詞包括:相應(yīng)熱點話題類的所有網(wǎng)頁的中共現(xiàn)度最高的若干個特征詞??蛇x的,所述用戶關(guān)注度參數(shù)包括網(wǎng)頁文檔數(shù)量和用戶網(wǎng)絡(luò)行為數(shù)量。相應(yīng)的,本發(fā)明還公開了一種基于大數(shù)據(jù)的話題檢測裝置,包括:抽取模塊,用于依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁;采集模塊,用于采集所述熱點網(wǎng)頁的內(nèi)容;提取模塊,用于依據(jù)所述熱點網(wǎng)頁的內(nèi)容,提取得到所述熱點網(wǎng)頁的網(wǎng)頁特征向量;聚類模塊,用于依據(jù)所述熱點網(wǎng)頁的網(wǎng)頁特征向量對所述熱點網(wǎng)頁進行聚類,得到相應(yīng)的潛在熱點話題類;增量聚類模塊,用于以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類;所述新增網(wǎng)頁包括在線網(wǎng)頁;及判定模塊,用于針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類。與現(xiàn)有技術(shù)相比,本發(fā)明實施例具有以下優(yōu)點:本發(fā)明實施例的檢測流程所使用的數(shù)據(jù)既可以包括熱點網(wǎng)頁這樣的歷史網(wǎng)頁數(shù)據(jù),又可以包括在線網(wǎng)頁數(shù)據(jù),故本發(fā)明實施例可以同時具備回溯檢測與在線檢測各自的優(yōu)點,既具備回溯檢測的效果,又具備在線檢測的時效性;另外,由于本發(fā)明實施例檢測所使用的熱點網(wǎng)頁為依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取得到,其數(shù)據(jù)量不大,故能夠保證檢測效率;因此,本發(fā)明實施例能夠在互聯(lián)網(wǎng)環(huán)境中大量網(wǎng)頁文本快速更新的情況下,同時保證檢測效果的準確性、時效性和高效性。
圖1是本發(fā)明實施例一種基于大數(shù)據(jù)的話題檢測方法實施例的流程圖;圖2是本發(fā)明實施例一種基于大數(shù)據(jù)的話題檢測裝置實施例的結(jié)構(gòu)圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊,其經(jīng)常用于社會情緒統(tǒng)計領(lǐng)域如社會輿情中或者民意統(tǒng)計,用以發(fā)現(xiàn)熱點話題。其中,熱點話題往往是受到眾多用戶關(guān)注的話題,即用戶關(guān)注度高的話題,其產(chǎn)生與廣大用戶的關(guān)注是密不可分的,因此,用戶行為在熱點話題的檢測過程中有著重要的作用。用戶網(wǎng)絡(luò)行為主要包括用戶訪問行為和用戶搜索行為。其中,用戶訪問行為能夠體現(xiàn)用戶的行為習慣或個人興趣,而從全局上看,多個用戶的訪問行為則能夠體現(xiàn)出用戶對某些或類網(wǎng)頁的關(guān)注度。而用戶搜索行為是用戶在搜索引擎中輸入關(guān)鍵字進行搜索的動作,它能夠準確表達用戶的意圖,且用戶搜索行為后往往將對搜索結(jié)果中頁面產(chǎn)生訪問行為。在一次搜索和關(guān)聯(lián)的頁面訪問行為中,用戶的搜索關(guān)鍵詞可以用于對所訪問頁面的主題特征描述,故從全局上看,多個用戶的搜索行為也能夠體現(xiàn)用戶對某些關(guān)鍵詞的關(guān)注。因此,本發(fā)明實施例以用戶網(wǎng)絡(luò)行為數(shù)據(jù)作為話題檢測的重要依據(jù),對應(yīng)的檢測流程具體可以包括:首先依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁(所述熱點網(wǎng)頁可用于表示用戶關(guān)注度高的網(wǎng)頁),然后對這些熱點網(wǎng)頁進行聚類,得到相應(yīng)的潛在熱點話題類(所述潛在熱點話題類可能具有熱點性),并且以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類,最后針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類。由于所述新增網(wǎng)頁既可以包括歷史網(wǎng)頁也可以包括在線網(wǎng)頁,可見,本發(fā)明實施例的檢測流程所使用的數(shù)據(jù)既可以包括熱點網(wǎng)頁這樣的歷史網(wǎng)頁數(shù)據(jù),又可以包括在線網(wǎng)頁數(shù)據(jù),故本發(fā)明實施例可以同時具備回溯檢測與在線檢測各自的優(yōu)點,既具備回溯檢測的效果,又具備在線檢測的時效性;另外,由于本發(fā)明實施例檢測所使用的熱點網(wǎng)頁為依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取得到,其數(shù)據(jù)量不大,故能夠保證檢測效率;因此,本發(fā)明實施例能夠在互聯(lián)網(wǎng)環(huán)境中大量網(wǎng)頁文本快速更新的情況下,同時保證檢測效果的準確性、時效性和高效性。參照圖1,示出了本發(fā)明實施例一種基于大數(shù)據(jù)的話題檢測方法實施例的流程圖,具體可以包括:步驟101、依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁;本技術(shù)領(lǐng)域中,用戶網(wǎng)絡(luò)行為數(shù)據(jù)可用于表征用戶網(wǎng)絡(luò)行為的主要數(shù)據(jù),其可以來自運營商或網(wǎng)站的網(wǎng)絡(luò)服務(wù)器中的日志文件集,這些日志文件集即可視為本文所述的大數(shù)據(jù)。這些日志文件集包含了運營商用戶或網(wǎng)站用戶的HTTP(超文本傳輸協(xié)議,Hypertexttransfer protocol)事務(wù)的執(zhí)行記錄,可以通過利用類似于網(wǎng)絡(luò)數(shù)據(jù)包嗅探技術(shù)的這種技術(shù)從日志文件集中獲取用于表征用戶網(wǎng)絡(luò)行為的數(shù)據(jù)。具體而言,日志文件集中的用戶行為數(shù)據(jù)主要包含用戶搜索行為數(shù)據(jù)和用戶訪問行為數(shù)據(jù)。其中,所述用戶搜索行為數(shù)據(jù)記錄有用戶的搜索關(guān)鍵詞和相應(yīng)的搜索結(jié)果頁面,所述用戶訪問行為數(shù)據(jù)記錄有用戶的訪問頁面,所述搜索結(jié)果頁面和訪問頁面通常以URL(統(tǒng)一資源定位符,Uniform Resource Locator)的形式記錄。具體的,有些運營商或網(wǎng)站的用戶訪問行為數(shù)據(jù)還會記錄有用戶物理地址和搜索跳轉(zhuǎn)信息,有些運營商或網(wǎng)站的用戶搜索行為數(shù)據(jù)還會記錄有用戶物理地址和搜索結(jié)果頁面中網(wǎng)頁的超鏈接信息;這里,用戶物理地址主要可以包括用戶IP ((網(wǎng)絡(luò)之間互連的協(xié)議,Internet Protocol)地址,搜索跳轉(zhuǎn)信息用于表示當前訪問頁面是否來源于搜索結(jié)果頁面,并且,在來源于搜索結(jié)果頁面時,還會記錄有搜索結(jié)果頁面的信息(如頁面地址等)。在本發(fā)明的一種優(yōu)選實施例中,所述用戶網(wǎng)絡(luò)行為數(shù)據(jù)具體可以包括用戶訪問行為數(shù)據(jù)和用戶搜索行為數(shù)據(jù)中的一項或多項;則所述依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁的步驟,具體可以包括:子步驟S111、依據(jù)所述用戶訪問行為數(shù)據(jù),獲取用戶訪問量或用戶訪問頻率符合第一預(yù)置條件的網(wǎng)頁,作為熱點網(wǎng)頁;和/或子步驟S112、依據(jù)所述用戶搜索行為數(shù)據(jù),獲取用戶搜索量或用戶搜索頻率符合第二預(yù)置條件的關(guān)鍵詞所關(guān)聯(lián)的網(wǎng)頁,作為熱點網(wǎng)頁。其中,所述第一預(yù)置條件可以為用戶訪問量或用戶訪問頻率排在前Kl位,所述第二預(yù)置條件可以為用戶搜索量或用戶搜索頻率排在前K2位;本領(lǐng)域技術(shù)人員可以依據(jù)實際需求預(yù)置所述Kl和K2,本發(fā)明實施例對具體的Kl和K2的數(shù)值不加以限制。在本發(fā)明實施例的一種應(yīng)用示例中,用戶訪問行為數(shù)據(jù)可以表示
為:< (timel, urll), (time2, url2),..., (timen, urln) >,其中 time 1......timen 和
urll......urln分別表示訪問的時間及URL ;在實際應(yīng)用中,通過對大量用戶訪問行為
數(shù)據(jù)的分析,可以得到排名前Kl的網(wǎng)頁URL,可表示為(ti,〈(urll, visitorsl),….,(urlkl, visitorskl) 。用戶搜索行為數(shù)據(jù)可以表示為:〈(timel,sel, keywordl), (time2, se2, keywo
rd2)…(timen, sen, keywordn) >,其中,timel......timen 表不搜索時間,sel......sen 表
示使用的搜索引擎,keywordl......keywordn表示搜索關(guān)鍵詞;通過對大量用戶搜索行
為數(shù)據(jù)的分析,可以得到排名前K2的搜索關(guān)鍵詞,可表示為ti, < (keywordsI, numl),…,(keywordsk2, numk2) 。上述參數(shù)中,ti表示指定時間段,urll和visitorl分別表示urll及其訪問量,keywords I和numl分別表示搜索關(guān)鍵詞及其搜索量。
在獲得Top K2搜索關(guān)鍵詞的基礎(chǔ)上,可以進一步分析獲得各個Top K2搜索關(guān)鍵詞關(guān)聯(lián)的網(wǎng)頁 URL,可以表示為(keywords, < (urll, visitorsl),…,(urlk, visitk) 。步驟102、采集所述熱點網(wǎng)頁的內(nèi)容;在實際應(yīng)用中,可以采用網(wǎng)絡(luò)爬蟲等技術(shù)采集所述熱點網(wǎng)頁的內(nèi)容,本發(fā)明實施例對具體的采集方法不加以限制。步驟103、依據(jù)所述熱點網(wǎng)頁的內(nèi)容,提取得到所述熱點網(wǎng)頁的網(wǎng)頁特征向量;在本發(fā)明的一種應(yīng)用示例中,所述依據(jù)所述熱點網(wǎng)頁的內(nèi)容,提取得到所述熱點網(wǎng)頁的網(wǎng)頁特征向量的步驟,具體可以包括:子步驟S131、依據(jù)采集到的內(nèi)容,提取所述熱點網(wǎng)頁的網(wǎng)頁內(nèi)容特征;子步驟S131可以對采集到的網(wǎng)頁內(nèi)容進行解析,獲取網(wǎng)頁標題、網(wǎng)頁正文、網(wǎng)頁描述等特征信息。子步驟S132、依據(jù)所述網(wǎng)頁內(nèi)容特征構(gòu)建所述熱點網(wǎng)頁的網(wǎng)頁特征向量。子步驟S132可以根據(jù)網(wǎng)頁內(nèi)容特征的獲取初步結(jié)果,進行分詞和詞性標注等工作,進行停用詞過濾等處理,處理后的內(nèi)容詞匯集合可以作為構(gòu)建網(wǎng)頁特征向量的依據(jù)。在本發(fā)明的一種優(yōu)選實施例中,可以采用VSM型(向量空間模,Vector SpaceModel)作為文本特征表不,VSM將文檔表不成一個向量,向量的每一維表不一個特征詞;其具體可通過TF*IDF (詞頻-逆向文件頻率,term frequency -1nverse documentfrequency)來定義特征詞的權(quán)重:Wi = tfsjX log(N/rij) (I)
其中,wi表示詞項ti的權(quán)重,tfsi表示詞項ti在當前網(wǎng)頁中的重要程度,N表示所述熱點網(wǎng)頁對應(yīng)背景語料庫所包括的網(wǎng)頁文檔數(shù)量,ni表示背景語料庫中包含ti的網(wǎng)頁文檔數(shù)量。在本發(fā)明的一種優(yōu)選實施例中,可以分別考慮詞項ti在網(wǎng)頁標題、網(wǎng)頁內(nèi)容和網(wǎng)頁表述中出現(xiàn)的次數(shù),并按重要性求加權(quán)和,以得到tfsi,相應(yīng)的計算公式如下:tfsj = Pi X a +Ini X β +Ci X Y (2)其中,pi, mi, ci分別表示詞項ti在網(wǎng)頁標題、網(wǎng)頁內(nèi)容和網(wǎng)頁表述中中出現(xiàn)的次數(shù),α,β,Y則分別表示各自的權(quán)重。為降低特征維數(shù),簡化計算,以及防止過擬合等現(xiàn)象,在本發(fā)明的一種優(yōu)選實施例中,可以按照權(quán)重值的大小對某熱點網(wǎng)頁的詞項ti進行排序,并選取權(quán)重值大于指定閾值w的詞項ti作為特征詞,某熱點網(wǎng)頁的所有特征詞構(gòu)成相應(yīng)的網(wǎng)頁特征向量。其中的指定閾值W可由本領(lǐng)域技術(shù)人員依據(jù)實際需求預(yù)置,本發(fā)明實施例對具體的指定閾值W不加以限制。需要說明的是,上述VSM只是作為本發(fā)明一種構(gòu)建所述熱點網(wǎng)頁的網(wǎng)頁特征向量的優(yōu)選實施例,并不作為本發(fā)明實施例的應(yīng)用限制。步驟104、依據(jù)所述熱點網(wǎng)頁的網(wǎng)頁特征向量對所述熱點網(wǎng)頁進行聚類,得到相應(yīng)的潛在熱點話題類;用戶關(guān)注度高是熱點話題的一個重要特征,因此,本發(fā)明實施例通過聚類獲取用戶關(guān)注度高的潛在熱點話題類。需要說明的是,所述潛在熱點話題類可能具有熱點性,也可能不具有熱點性,需要在后續(xù)的檢測流程中進一步判定。聚類的可以描述為:將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。傳統(tǒng)的聚類方法具體可以包括:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法、傳遞閉包法、布爾矩陣法、直接聚類法、相關(guān)性分析聚類法和基于統(tǒng)計的聚類方法等等。在本發(fā)明的一種優(yōu)選實施例中,可以采用劃分方法中的K均值(K-Means)聚類方法,K均值聚類的基本思想為:接受輸入量K;然后將η個數(shù)據(jù)對象劃分為K個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。在本發(fā)明的一種應(yīng)用示例中,K均值聚類的實現(xiàn)過程具體可以包括:首先從所有熱點網(wǎng)頁中選擇K個作為K個初始聚類的中心;對于其它熱點網(wǎng)頁,則根據(jù)它們與初始聚類的中心的相似度,分別將它們分配給其最相近的初始聚類;然后再重新計算每個新聚類的聚類中心(相應(yīng)聚類中所有熱點網(wǎng)頁的均值);不斷重復這一過程直到標準測度函數(shù)(例如均方差)開始收斂為止。在具體實現(xiàn)中,K值可由本領(lǐng)域技術(shù)人員依據(jù)實際需要進行設(shè)置;可利用VSM計算某熱點網(wǎng)頁Dl與某聚類的中心D2的相似度sim(Dl,D2),當該相似度大于某一相似度閾值時,可將該熱點網(wǎng)頁分配給該聚類,本發(fā)明實施例對具體的該相似度閾值不加以限制。,在本發(fā)明的一種應(yīng)用示例中,sim(Dl,D2)可以表示為:
權(quán)利要求
1.一種基于大數(shù)據(jù)的話題檢測方法,其特征在于,包括: 依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁; 采集所述熱點網(wǎng)頁的內(nèi)容; 依據(jù)所述熱點網(wǎng)頁的內(nèi)容,提取得到所述熱點網(wǎng)頁的網(wǎng)頁特征向量; 依據(jù)所述熱點網(wǎng)頁的網(wǎng)頁特征向量對所述熱點網(wǎng)頁進行聚類,得到相應(yīng)的潛在熱點話題類; 以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類;所述新增網(wǎng)頁包括在線網(wǎng)頁; 針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類。
2.如權(quán)利要求1所述的方法,其特征在于,所述用戶網(wǎng)絡(luò)行為數(shù)據(jù)包括用戶訪問行為數(shù)據(jù)和用戶搜索行為數(shù)據(jù)中的一項或多項; 則所述依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁的步驟,包括: 依據(jù)所述用戶訪問行為數(shù)據(jù),獲取用戶訪問量或用戶訪問頻率符合第一預(yù)置條件的網(wǎng)頁,作為熱點網(wǎng)頁;和/或 依據(jù)所述用戶搜索行為數(shù)據(jù),獲取用戶搜索量或用戶搜索頻率符合第二預(yù)置條件的關(guān)鍵詞所關(guān)聯(lián)的網(wǎng)頁,作為熱點網(wǎng)頁。
3.如權(quán)利要求1所述的方法,其特征在于,所述針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類的步驟,包括: 當增量聚類后的某潛在熱點話題類對應(yīng)的用戶關(guān)注度參數(shù)的加權(quán)處理結(jié)果與增量聚類后的所有潛在熱點話題類對應(yīng)的用戶關(guān)注度參數(shù)的加權(quán)處理結(jié)果的比值大于第一閾值時,判定該潛在熱點話題類為熱點話題類。
4.如權(quán)利要求1所述的方法,其特征在于,所述以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類的步驟,包括: 計算新增網(wǎng)頁的網(wǎng)頁特征向量與各潛在熱點話題類的質(zhì)心向量的相似度; 在某新增網(wǎng)頁的網(wǎng)頁特征向量與某潛在熱點話題類的質(zhì)心向量的相似度大于等于第一相似度閾值時,將該新增網(wǎng)頁加入至該潛在熱點話題類。
5.如權(quán)利要求4所述的方法,其特征在于,所述潛在熱點話題類的質(zhì)心向量為對潛在熱點話題類所包括的熱點網(wǎng)頁的網(wǎng)頁特征向量進行加權(quán)處理得到,其中,某熱點網(wǎng)頁的網(wǎng)頁特征向量的權(quán)重為依據(jù)該熱點網(wǎng)頁的用戶訪問量與該熱點網(wǎng)頁所屬潛在熱點話題類中所有熱點網(wǎng)頁的總用戶訪問量的比率確定。
6.如權(quán)利要求1所述的方法,其特征在于,還包括: 針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù)在以往時段內(nèi)的變化,預(yù)測其是否為下一時段的熱點話題類。
7.如權(quán)利要求1至6中任一項所述的方法,其特征在于,還包括: 對所判定或預(yù)測的熱點話題類進行提示,相應(yīng)的提示內(nèi)容包括:相應(yīng)熱點話題類的描述關(guān)鍵詞。
8.如權(quán)利要求7所述的方法,其特征在于,所述描述關(guān)鍵詞包括:相應(yīng)熱點話題類的所有網(wǎng)頁的中共現(xiàn)度最高的若干個特征詞。
9.如權(quán)利要求1至6中任一項所述的方法,其特征在于,所述用戶關(guān)注度參數(shù)包括網(wǎng)頁文檔數(shù)量和用戶網(wǎng)絡(luò)行為數(shù)量。
10.一種基于大數(shù)據(jù)的話題檢測裝置,其特征在于,包括: 抽取模塊,用于依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁; 采集模塊,用于采集所述熱點網(wǎng)頁的內(nèi)容; 提取模塊,用于依據(jù)所述熱點網(wǎng)頁的內(nèi)容,提取得到所述熱點網(wǎng)頁的網(wǎng)頁特征向量; 聚類模塊,用于依據(jù)所述熱點網(wǎng)頁的網(wǎng)頁特征向量對所述熱點網(wǎng)頁進行聚類,得到相應(yīng)的潛在熱點話題類; 增量聚類模塊,用于以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類;所述新增網(wǎng)頁包括在線 網(wǎng)頁;及 判定模塊,用于針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類。
全文摘要
本發(fā)明提供了一種基于大數(shù)據(jù)的話題檢測方法及裝置,能夠在互聯(lián)網(wǎng)環(huán)境中大量網(wǎng)頁文本快速更新的情況下,同時保證檢測效果的準確性和時效性。所述的方法包括依據(jù)用戶網(wǎng)絡(luò)行為數(shù)據(jù)抽取熱點網(wǎng)頁;采集所述熱點網(wǎng)頁的內(nèi)容;依據(jù)所述熱點網(wǎng)頁的內(nèi)容,提取得到所述熱點網(wǎng)頁的網(wǎng)頁特征向量;依據(jù)所述熱點網(wǎng)頁的網(wǎng)頁特征向量對所述熱點網(wǎng)頁進行聚類,得到相應(yīng)的潛在熱點話題類;以所述潛在熱點話題類作為種子類,對新增網(wǎng)頁進行增量聚類;所述新增網(wǎng)頁包括在線網(wǎng)頁;針對增量聚類后的潛在熱點話題類,通過分析其對應(yīng)的用戶關(guān)注度參數(shù),判定其是否為熱點話題類。
文檔編號G06F17/30GK103177090SQ201310075129
公開日2013年6月26日 申請日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅峰, 黃蘇支, 李娜 申請人:億贊普(北京)科技有限公司