用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法
【專利摘要】本發(fā)明涉及一種用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法。方法包括步驟:根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞,其中當(dāng)檢測到在單位時間內(nèi)一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞;計算與熱詞最相關(guān)的多個關(guān)鍵詞;將多個關(guān)鍵詞聚合成熱點。通過應(yīng)用根據(jù)本發(fā)明的用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法,本發(fā)明能夠降低算法復(fù)雜度,增強(qiáng)實用性強(qiáng),可以實時的對大數(shù)據(jù)量進(jìn)行計算,而且可以根據(jù)社會網(wǎng)絡(luò)中的特性,利用可得到的社會網(wǎng)絡(luò)獨有的一些特征對檢測到的熱點進(jìn)行自動分類,并取得很高的準(zhǔn)確率、比較好的效果。
【專利說明】用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及社交網(wǎng)絡(luò)應(yīng)用,更具體地,涉及用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法。
【背景技術(shù)】
[0002]在過去的幾年中,社交網(wǎng)絡(luò)這一概念逐漸為人熟悉,社交網(wǎng)絡(luò)平臺規(guī)模迅速發(fā)展,其提供的服務(wù)功能越來越豐富,而熱點事件和熱點話題發(fā)現(xiàn)和推薦已經(jīng)成為幾乎所有社交網(wǎng)絡(luò)平臺共有的主要功能。目前工業(yè)界對熱點發(fā)現(xiàn)的策略較為粗糙,而且在滿足用戶多樣的需求上效果一般。
[0003]“微博客熱點話題發(fā)現(xiàn)策略研究”(楊冠超,浙江大學(xué))從當(dāng)前學(xué)術(shù)界對微博平臺上的一些現(xiàn)象研究和目前解決熱點話題發(fā)現(xiàn)的方法入手,總結(jié)了近些年來在微博平臺上前人的工作。通過對熱點話題發(fā)現(xiàn)這一命題的分析,該文選擇語義分析這一文本處理技術(shù)作為立論基礎(chǔ),并結(jié)合微博平臺上的時間序列和文本特點提出了一個迭代式的語義分析和話題熱度預(yù)測模型——TopicRank0該模型通過時間片劃分和話題的關(guān)鍵詞集合兩個概念對話題在連續(xù)時間段內(nèi)的影響力進(jìn)行計算,從而對話題在未來一段時間內(nèi)的影響力變化趨勢作出預(yù)測。該文還引入了微博客上的社交網(wǎng)絡(luò)結(jié)構(gòu)并基于用戶本身的特點信息和用戶之間的關(guān)注關(guān)系所組成的網(wǎng)絡(luò)關(guān)系進(jìn)行了研究,并通過對這個網(wǎng)絡(luò)的觀察提出了基于用戶角色對話題熱度排序進(jìn)行輔助的方法TopicRank-U。該文給出了一個模塊化的系統(tǒng)原型設(shè)計,并通過一系列的測試和實驗證明了該系統(tǒng)實現(xiàn)的兩個熱度排序模型的有效性。
[0004]“基于主題模型的網(wǎng)絡(luò)突發(fā)熱點事件檢測方法”(申請公布號:CN102289487A,申請公布目:2011.12.21)公開了一種基于主題模型的網(wǎng)絡(luò)突發(fā)熱點事件檢測方法。包括如下步驟:1)首先對文檔數(shù)據(jù)集進(jìn)行分詞處理,得到單詞列表、文檔單詞關(guān)系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣;2)根據(jù)網(wǎng)絡(luò)熱點事件涌現(xiàn)過程中相關(guān)單詞和文檔的突發(fā)特性對數(shù)據(jù)集進(jìn)行篩選;3)然后通過主題建模得到突發(fā)熱點事件的特征單詞和特征文本;4)計算出熱點事件的關(guān)注度日期分布。
[0005]“基于極大團(tuán)發(fā)現(xiàn)的網(wǎng)絡(luò)熱點話題檢測方法及裝置”(申請公布號:CN102346766A,申請公布日:2012.02.08)公開了一種基于極大團(tuán)發(fā)現(xiàn)的網(wǎng)絡(luò)熱點話題檢測方法及裝置。其中,該方法包括如下步驟:實時采集網(wǎng)絡(luò)新聞網(wǎng)站、論壇、博客、微博數(shù)據(jù);對采集的數(shù)據(jù)進(jìn)行分詞、詞頻統(tǒng)計等處理,發(fā)現(xiàn)所有的熱點詞對,構(gòu)建熱點詞對集合;將每個熱點詞用唯一的編號進(jìn)行表示;將熱點詞對集合看作無向圖,對其進(jìn)行挖掘,得到所有的極大團(tuán);將每個極大團(tuán)變換為一個詞組合,代表一個熱點話題。還公開了一種網(wǎng)絡(luò)熱點話題檢測裝置。
[0006]總而言之,現(xiàn)有技術(shù)中,熱點檢測復(fù)雜度高,實用性弱,難以實時對大數(shù)據(jù)量進(jìn)行計算。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于,提供能夠在社交網(wǎng)絡(luò)中對熱點進(jìn)行實時檢測與分類的手段。[0008]根據(jù)本發(fā)明的一個方面,提供了一種用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法。方法包括步驟:根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞,其中當(dāng)檢測到在單位時間內(nèi)一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞;計算與熱詞最相關(guān)的多個關(guān)鍵詞;將多個關(guān)鍵詞聚合成熱點。
[0009]在本發(fā)明的一個實施方式中,在檢測熱詞時,計算作為詞出現(xiàn)的頻率的函數(shù)的沖擊能量,并且當(dāng)沖擊能量大于閾值時,判定出現(xiàn)跳變。
[0010]在本發(fā)明的一個實施方式中,在預(yù)定時間長度的時間窗內(nèi)計算沖擊能量。
[0011]在本發(fā)明的一個實施方式中,在計算多個關(guān)鍵詞時,計算作為包含熱詞的狀態(tài)集合和包含其他詞的狀態(tài)集合的函數(shù)的相關(guān)度,并且選取相關(guān)度最高的多個其他詞作為關(guān)鍵
ο
[0012]在本發(fā)明的一個實施方式中,只保留最近一定數(shù)量的熱點。
[0013]在本發(fā)明的一個實施方式中,計算當(dāng)前熱點與之前的熱點的歐幾里德距離,如果距離小于閾值,則將當(dāng)前熱點與之前的熱點合并。
[0014]在本發(fā)明的一個實施方式中,以時間逆序的方式計算當(dāng)前熱點與之前的熱點的歐幾里德距離。
[0015]在本發(fā)明的一個實施方式中,根據(jù)參與用戶數(shù)、相關(guān)狀態(tài)數(shù)、最大傳播長度、獨立爆發(fā)源數(shù)、信息熵、社交緊密度、位置緊密度、用戶表述相似性中的一項或多項對熱點進(jìn)行分類。
[0016]在本發(fā)明的一個實施方式中,將熱點分類成全局熱點、區(qū)域熱點、流行熱點。
[0017]不同于現(xiàn)有技術(shù),根據(jù)本發(fā)明的各種實施方式,通過應(yīng)用根據(jù)本發(fā)明的用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法,能夠降低算法復(fù)雜度,增強(qiáng)實用性強(qiáng),可以實時的對大數(shù)據(jù)量進(jìn)行計算(每小時用戶發(fā)表的狀態(tài)數(shù)> 50,000),而且可以根據(jù)社會網(wǎng)絡(luò)中的特性,利用可得到的社會網(wǎng)絡(luò)獨有的一些特征對檢測到的熱點進(jìn)行自動分類,并取得很高的準(zhǔn)確率、比較好的效果。
【專利附圖】
【附圖說明】
[0018]通過對結(jié)合附圖所示出的實施方式進(jìn)行詳細(xì)說明,本發(fā)明的上述以及其他特征將更加明顯,本發(fā)明附圖中相同的參考標(biāo)號表示相同或相似的元素。在附圖中:
[0019]圖1是根據(jù)本發(fā)明的實施方式的用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法的流程圖;
[0020]圖2是根據(jù)本發(fā)明的實施方式的狀態(tài)數(shù)隨時間變化的示意圖;
[0021]圖3是根據(jù)本發(fā)明的實施方式的詞頻隨時間變化的示意圖;
[0022]圖4、圖5和圖6是根據(jù)本發(fā)明的實施方式的熱點分類的示意圖。
【具體實施方式】
[0023]下面結(jié)合圖1來闡述根據(jù)本發(fā)明的實施方式的用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方案。
[0024]在步驟S102中,根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞。當(dāng)檢測到在單位時間內(nèi)一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞。優(yōu)選地,計算作為詞出現(xiàn)的頻率的函數(shù)的沖擊能量,并且當(dāng)沖擊能量大于閾值時,判定出現(xiàn)跳變。沖擊能量可以在預(yù)定時間長度的時間窗內(nèi)計算。
[0025]在步驟S104中,計算與熱詞最相關(guān)的多個關(guān)鍵詞。優(yōu)選地,計算作為包含熱詞的狀態(tài)集合和包含其他詞的狀態(tài)集合的函數(shù)的相關(guān)度,并且選取相關(guān)度最高的多個其他詞作為關(guān)鍵詞。
[0026]在步驟S106中,將多個關(guān)鍵詞聚合成熱點。優(yōu)選地,計算當(dāng)前熱點與之前的熱點的歐幾里德距離,如果距離小于閾值,則將當(dāng)前熱點與之前的熱點合并??梢砸詴r間逆序的方式計算當(dāng)前熱點與之前的熱點的歐幾里德距離。
[0027]由于熱點會隨著時間變化,所以可以只保留最近一定數(shù)量的熱點。
[0028]此外,可以對熱點進(jìn)行分類。分類依據(jù)可以包括但不限于參與用戶數(shù)、相關(guān)狀態(tài)數(shù)、最大傳播長度、獨立爆發(fā)源數(shù)、信息熵、社交緊密度、位置緊密度、用戶表述相似性等??梢詫狳c分類成全局熱點、區(qū)域熱點、流行熱點等。
[0029]下面來詳細(xì)描述根據(jù)本發(fā)明的實施方式的基于時間窗和詞頻峰變的實時熱點檢測與分類。
[0030]本發(fā)明的實施方式的目標(biāo)在于實時檢測在線社交網(wǎng)絡(luò)中出現(xiàn)的爆發(fā)性熱點事件與熱點話題,并自動對檢測到的熱點進(jìn)行分類。
[0031]輸入內(nèi)容為SNS (Social Networking Services,社會性網(wǎng)絡(luò)服務(wù))用戶實時發(fā)表的狀態(tài)(例如:人人網(wǎng)的狀態(tài),新浪微博中用戶發(fā)的微博)。
[0032]輸出內(nèi)容為在固定時間窗內(nèi)發(fā)生的熱點事件及其類別(全局熱點、區(qū)域熱點、流行話題等)。
[0033]首先,進(jìn)行熱點檢測。
[0034]通過分析詞頻變化,識別詞頻(所謂詞頻就是詞出現(xiàn)的頻率,單位時間內(nèi)出現(xiàn)的次數(shù))的跳變,檢測熱詞(spike)。以熱詞為線索,計算與其top相關(guān)的k個關(guān)鍵詞(就是最相關(guān),相關(guān)性最大的前k個詞),聚合為一個熱點。
[0035]圖2示出“一個”是一個普通的出現(xiàn)頻率比較高的詞,可以發(fā)現(xiàn)它隨狀態(tài)數(shù)呈現(xiàn)周期性變化,比較穩(wěn)定。而圖3示出“動車”從23號21點左右開始(以去年7月23號溫州動車事故為例),呈現(xiàn)出明顯的沖擊(spike)。
[0036]對熱詞的檢測可以利用模型抽象。
[0037]將狀態(tài)按時間(15分鐘)劃分,切為不同的時間窗,每一個時間窗內(nèi)的狀態(tài)構(gòu)成一
個文檔集合。
[0038]對每個時間窗內(nèi)的用戶發(fā)表所有的狀態(tài)切詞,并建立倒排索引,定義每一個詞的“沖擊”能量為energy:
【權(quán)利要求】
1.一種用于網(wǎng)絡(luò)用戶發(fā)表狀態(tài)的實時熱點檢測方法,包括步驟: 根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞,其中當(dāng)檢測到在單位時間內(nèi)一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞; 計算與所述熱詞最相關(guān)的多個關(guān)鍵詞; 將所述多個關(guān)鍵詞聚合成熱點。
2.根據(jù)權(quán)利要求1所述的實時熱點檢測方法,其中,在檢測熱詞時,計算作為詞出現(xiàn)的頻率的函數(shù)的沖擊能量,并且當(dāng)所述沖擊能量大于閾值時,判定出現(xiàn)跳變。
3.根據(jù)權(quán)利要求2所述的實時熱點檢測方法,其中,在預(yù)定時間長度的時間窗內(nèi)計算沖擊能量。
4.根據(jù)權(quán)利要求1所述的實時熱點檢測方法,其中,在計算多個關(guān)鍵詞時,計算作為包含所述熱詞的狀態(tài)集合和包含其他詞的狀態(tài)集合的函數(shù)的相關(guān)度,并且選取相關(guān)度最高的多個所述其他詞作為關(guān)鍵詞。
5.根據(jù)權(quán)利要求1所述的實時熱點檢測方法,其中,只保留最近一定數(shù)量的熱點。
6.根據(jù)權(quán)利要求1-5中任一項所述的實時熱點檢測方法,其中,計算當(dāng)前熱點與之前的熱點的歐幾里德距離,如果所述距離小于閾值,則將所述當(dāng)前熱點與所述之前的熱點合并。
7.根據(jù)權(quán)利要求6所述的實時熱點檢測方法,其中,以時間逆序的方式計算當(dāng)前熱點與之前的熱點的歐幾里德距離。
8.根據(jù)權(quán)利要求1-5中任一項所述的實時熱點檢測方法,其中,根據(jù)參與用戶數(shù)、相關(guān)狀態(tài)數(shù)、最大傳播長度、獨立爆發(fā)源數(shù)、信息熵、社交緊密度、位置緊密度、用戶表述相似性中的一項或多項對熱點進(jìn)行分類。
9.根據(jù)權(quán)利要求8所述的實時熱點檢測方法,其中,將熱點分類成全局熱點、區(qū)域熱點、流行熱點。
【文檔編號】G06F17/30GK103729388SQ201210401311
【公開日】2014年4月16日 申請日期:2012年10月16日 優(yōu)先權(quán)日:2012年10月16日
【發(fā)明者】楊曉勇 申請人:北京千橡網(wǎng)景科技發(fā)展有限公司, 北京大學(xué)