欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于圖聚類的用戶生成文本流中的突發(fā)話題檢測方法

文檔序號:6427930閱讀:184來源:國知局
專利名稱:一種基于圖聚類的用戶生成文本流中的突發(fā)話題檢測方法
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是涉及一種對文本流中的突發(fā)話題檢測的方法。
背景技術(shù)
從海量用戶生成文本中準確地檢測突發(fā)話題對政府決策和商業(yè)推廣有重要意義。 一個突發(fā)話題可以是一個發(fā)生在任何時刻的熱門事件,也可以是在一段時間內(nèi)由博主自發(fā)和被廣泛響應的網(wǎng)絡(luò)活動。事件可以是不可預期的,比如火山爆發(fā),也可以是可預期的,比如總統(tǒng)競選。活動一般是不可預期的,例如博客小測驗(Internet quiz)的傳播。一個突發(fā)話題常常有一個持續(xù)時間短、被大量網(wǎng)民熱烈討論時間段。然而由于建模針對性弱和參數(shù)設(shè)置不靈活等局限,現(xiàn)有的文本聚類、概率話題模型和基于突發(fā)特征提取的方法在用戶生成文本流中的突發(fā)話題檢測問題上性能不佳。從文本流中提取話題已有大量研究工作。話題檢測與跟蹤項目(TDT)探索了從新聞文本流中通過文檔聚類進行話題檢測的方法。然而此類方法假設(shè)每一個文檔討論一個話題,這對博客日志等用戶生成文本不適用。概率話題模型用于發(fā)現(xiàn)潛在的主題并成功的應用在自動組織、搜索、索引和瀏覽大數(shù)據(jù)集。與TDT的主要區(qū)別是概率話題模型假設(shè)一個文檔可以包含多個主題。然而用概率話題模型發(fā)現(xiàn)的主題并不一定是突發(fā)話題或事件?;谕话l(fā)特征提取和聚類的話題檢測方法也假設(shè)一個文檔可討論多個話題,并且這些突發(fā)特征常常標志著突發(fā)話題出現(xiàn),然后通過對突發(fā)特征聚類得到突發(fā)話題。但是已有的基于突發(fā)特征提取和聚類的話題檢測方法的缺點是對參數(shù)的設(shè)置非常敏感。圖聚類是一類基于圖論的理論,根據(jù)特定的準則將圖中密度大的子圖的頂點聚類的方法的統(tǒng)稱,為解決本發(fā)明的突發(fā)詞聚類問題提供了技術(shù)基礎(chǔ)。由于對突發(fā)詞聚類不能事先指定類數(shù),本發(fā)明借鑒了圖聚類中解決此類問題的社團結(jié)構(gòu)檢測方法。該方法采用模塊性作為度量圖聚類優(yōu)劣的效益函數(shù),具體過程是依據(jù)邊的中間性從小到大依次移除圖中的邊,移除邊過程中形成對頂點的聚類,并返回模塊性最大的聚類,其中邊的中間性等于圖中所有頂點對間的最短路徑經(jīng)過該邊的數(shù)目除以該邊的權(quán)重。然而社團結(jié)構(gòu)檢測方法對解決突發(fā)詞聚類問題仍存在不足。首先,該方法采用圖頂點兩兩的共現(xiàn)數(shù)來度量頂點間的相關(guān)性,而這種非歸一化的度量在突發(fā)詞聚類問題中不能很好地區(qū)分相同話題突發(fā)詞間和不同話題突發(fā)詞間的連邊。其次,該方法不適用于具有“全連通”特點的加權(quán)圖結(jié)構(gòu),這是由于中間性度量在全聯(lián)通圖中退化,不能很好的區(qū)分相同話題突發(fā)詞間和不同話題突發(fā)詞間的連邊。Jaccard相似度是度量兩個集合的相似性(即這兩個集合的交集的大小除以并集的大小)的指標,可通過計算兩個突發(fā)詞所在文檔集的相似性來度量這兩個突發(fā)詞的相似性。

發(fā)明內(nèi)容
3
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種基于圖聚類的用戶生成文本流中的話題檢測方法,該方法提出了兩步圖聚類算法,即突發(fā)詞圖約簡和突發(fā)話題檢測, 能夠快速準確的將突發(fā)詞按照話題聚類,從而提高了突發(fā)話題的檢測性能。本發(fā)明的一種基于圖聚類的用戶生成文本流中的突發(fā)話題檢測方法,其特征在于,該方法包括以下步驟1)獲取用戶生成文檔首先從Web 2. 0站點采集大量網(wǎng)頁格式的文檔;然后從該網(wǎng)頁格式的文檔中提取出文檔正文作為處理后的文檔,同時提取該文檔的發(fā)表時間,并保存;2)構(gòu)造文本流設(shè)定時間單位,并將檢測時間窗的大小設(shè)定為一個時間單位;根據(jù)時間窗對所述處理后的文檔進行劃分,將同一時間窗內(nèi)的所有處理后的文檔組成一個文檔集,將所有文檔集按照時間順序組成文本流;將前、個時間窗的文檔集作為話題檢測的參考文檔集;3)檢測突發(fā)詞對t時刻,t > ti+Ι的文檔集進行話題檢測,遍歷字典中所有的詞并判定是否是突發(fā)詞;若某個詞在t時刻出現(xiàn)率大于該詞在參考文檔集中的平均出現(xiàn)率的一定倍數(shù)Tb時,則判為突發(fā)詞,Tb的取值范圍為2. 5-10 ;4)構(gòu)建初始突發(fā)詞圖將t時刻檢測到的突發(fā)詞連接成無向加權(quán)的初始突發(fā)詞圖 Gt,該圖的頂點是突發(fā)詞,該圖的邊的權(quán)重用Jaccard相似度度量;5)約簡突發(fā)詞圖按照所述初始突發(fā)詞圖Gt中邊的權(quán)重,從小到大的順序移除邊;用Gf〕表示移除i條邊后的中間圖,則該中間圖Gf〕形成對原圖Gt的頂點集合的一個聚類 L(i) (Gt),聚類中的一類對應于中間圖Gf〕一個最大聯(lián)通子圖的頂點集合;計算聚類L(i) (Gt) 的模塊性(^),找到最大的模塊性Q(i)并輸相應的中間圖作為約簡后的突發(fā)詞圖;6)突發(fā)話題檢測對約簡后的突發(fā)詞圖的每一個最大連通子圖S提取內(nèi)聚子圖,將大于N個頂點的內(nèi)聚子圖中所有頂點集合對應詞的組合為檢測出的突發(fā)話題,N取值為大于3的正整數(shù)。本發(fā)明所述的提取內(nèi)聚子圖的方法是依據(jù)步驟幻中得到的每一個最大聯(lián)通子圖 s中所有頂點對之間的最短路徑經(jīng)過該邊的數(shù)目除以該邊的權(quán)重得到的值的大小依次移除邊;用s(i)表示移除i條邊后的中間圖,則s(i)形成對圖s的頂點集合的一個聚類L(i) (s); 計算中間步驟中頂點聚類的模塊性Q(i),找到最大的Q(i)和相應的^) ;s(i)中每個頂點數(shù)不少于4的最大聯(lián)通子圖的頂點集合對應詞的組合是一個檢測出的話題。本發(fā)明的技術(shù)特點及優(yōu)點本發(fā)明將時間窗內(nèi)的文檔集合表示成一個加權(quán)圖,其中頂點是突發(fā)詞,邊權(quán)重表示頂點相關(guān)性強度,用Jaccard相似度度量。于是將話題檢測問題被轉(zhuǎn)化為圖聚類問題,即在初始突發(fā)詞圖中找出內(nèi)聚子圖,即子圖中的頂點傾向于與子圖內(nèi)部的頂點相對于與子圖外頂點以較大的權(quán)重相連。本方法提供了相對傳統(tǒng)的話題檢測問題一種基于圖的新視角,將在文檔流中檢測突發(fā)話題轉(zhuǎn)化為一個典型的圖聚類問題,這樣可以根據(jù)已有的圖論方法來得到解決。在突發(fā)詞檢測步驟中,通過根據(jù)詞的突發(fā)性的大小來檢測突發(fā)詞。突發(fā)性通過當前時刻的突發(fā)詞的出現(xiàn)率與該詞在參考文檔集中的平均出現(xiàn)率的比值計算。這樣可以去掉常用詞而保留與突發(fā)話題語義相關(guān)的突發(fā)詞。在突發(fā)詞構(gòu)建步驟中,使用的Jaccard相似度作為突發(fā)詞圖的邊權(quán)可以比共現(xiàn)數(shù)更好地表示突發(fā)詞之間的相關(guān)度。根據(jù)突發(fā)詞圖的特點,本發(fā)明提出了一種改進的兩步圖聚類算法突發(fā)詞圖約簡和突發(fā)話題檢測。突發(fā)詞圖約簡步驟旨在去掉權(quán)重小的連邊,從而保留同一話題內(nèi)部主要突發(fā)詞之間的連邊,去掉大多數(shù)不同話題的突發(fā)詞之間的連邊。突發(fā)話題檢測步驟旨在去掉少量的不同話題的突發(fā)詞之間的連邊。在以上兩步中,分別根據(jù)邊權(quán)從小到大和邊的中間性從大到小的順序移除邊。使得模塊性最大的中間圖作為每個步驟的輸出。本發(fā)明的中文網(wǎng)頁新詞自動獲取方法與現(xiàn)有的技術(shù)相比,具有以下優(yōu)點1)該方法針對用戶生成文本流中的突發(fā)話題檢測,其性能優(yōu)于已有的基于文檔聚類、概率話題模型和基于突發(fā)特征聚類的方法。2)該方法采用Jaccard相似度度量突發(fā)詞間的相關(guān)性,與已有的社團結(jié)構(gòu)檢測方法的共現(xiàn)數(shù)度量相比,這種歸一化的度量在突發(fā)詞聚類問題中能夠更好地區(qū)分相同話題突發(fā)詞間和不同話題突發(fā)詞間的連邊。3)針對突發(fā)詞圖的全連通加權(quán)圖結(jié)構(gòu),提出的兩步圖聚類算法通過突發(fā)詞圖約簡步驟去掉了大部分不同話題突發(fā)詞之間的連邊,避免了在進一步的話題識別步驟中的出現(xiàn)全聯(lián)通結(jié)構(gòu)。4)該方法是在線算法。對t時刻的話題檢測僅需要當期文檔集和參考文檔集。它可以被用在實時性很強的話題檢測應用,例如微博話題檢測等?;迷摲椒ㄊ欠潜O(jiān)督的。方法中的突發(fā)詞檢測步驟中采用的參考文檔集無需人工標定,這在實際應用中很重要,因為絕大多數(shù)用戶生成文本由于規(guī)模巨大是無法人工標定的。6)可將通過該方法檢測到的熱點話題撰寫成檢測報告提交給政府部門、新聞單位或企業(yè)的相關(guān)部門。也可以作為后續(xù)科學研究如突發(fā)話題趨勢分析、話題演變追蹤等的已知fe息。


圖1為本發(fā)明的基于圖的突發(fā)話題檢測方法總體示意圖。圖2為本發(fā)明中的兩步圖聚類算法示意圖。
具體實施例方式本發(fā)明提出的一種基于圖聚類的用戶生成文本流中的突發(fā)話題檢測方法結(jié)合附圖及實施例詳細說明如下本發(fā)明的突發(fā)話題檢測方法,如圖1所示,包括以下步驟1)獲取用戶生成文檔首先從Web 2.0站點采集大量網(wǎng)頁格式的文檔(例如博客日志、微博等;這些文檔是由Web 2. 0用戶生成并帶有時間戳的網(wǎng)頁格式的文檔);然后從該網(wǎng)頁格式的文檔中提取出文檔正文作為處理后的文檔,同時提取該文檔的發(fā)表時間,并保存;2)構(gòu)造文本流設(shè)定時間單位(例如小時、天、星期),并將檢測時間窗的大小設(shè)定為一個時間單位;根據(jù)時間窗對所述處理后的文檔進行劃分,將同一時間窗內(nèi)的所有處理后的文檔組成一個文檔集,將所有文檔集按照時間順序組成文本流;將前、個時間窗的文檔集作為話題檢測的參考文檔集;
設(shè)一個文本流S = (D1, . . . , DT}是一個長度為T的按時間排序的文檔集序列,其中Dt是一個在t時刻的文檔集。文檔集為Dt= {(!"...,電糾丨,其中屯^是!^中的一個文檔。文檔 Clta 是一個在字典 Ω = {Wl,···,W|£2|}上的二進制向量 Cltii = {δ (CltjijW1),..., δ ((!丨, 引)}。δ ((!,,,,w) = 1表示w在屯“中出現(xiàn)。其中運算符I · I表示集合的大小。例如對于一個博客突發(fā)話題以天為單位的檢測需求,文本流通過收集在時間區(qū)間 T天內(nèi)的所有的博客日志(或所有博客日志集合的采樣)得到。時間點t代表時間區(qū)間上的第t天。文檔(1。表示在第t天的序號為i的一篇日志。3)檢測突發(fā)詞對t時刻(即第t個時間窗),t >、+1的文檔集進行話題檢測, 遍歷字典中所有的詞并判定是否是突發(fā)詞;若某個詞在t時刻出現(xiàn)率大于該詞在參考文檔集中的平均出現(xiàn)率(詞在文檔集中的出現(xiàn)率是通過文檔集中包含該詞的文檔數(shù)除以文檔集中文檔總數(shù)計算的)的一定倍數(shù)Tb時,則判為突發(fā)詞,Tb的取值范圍為2. 5-10 ;具體步驟是遍歷字典中的詞w e Ω ;計算w在t時刻文檔集中的出現(xiàn)率λ t(w) =I Dt (w) I / I Dt I,其中Dt (w)表示Dt中含有詞w的文檔集合;計算w在參考文檔集中的平均出現(xiàn)率Mw) = ι/(Μο+ι)Σ = (Λ ),、< ti,其中時間窗[t。,tj內(nèi)的文檔集合作為計算
約―)的參考文檔集;計算W的突發(fā)性約⑷=〗和)/丄(昨當且僅當約⑷> %時,將其判為突發(fā)詞。4)構(gòu)建初始突發(fā)詞圖將t時刻檢測到的突發(fā)詞連接成無向加權(quán)的初始突發(fā)詞圖 Gt,該圖的頂點是突發(fā)詞,該圖的邊的權(quán)重(表示突發(fā)詞之間的相關(guān)性大小)用Jaccard相似度度量(即t時刻文檔集中同時包含邊兩端的兩個突發(fā)詞的文檔的個數(shù)除以至少包含邊兩端的一個突發(fā)詞的文檔的個數(shù));所述詞相似度Jt Ov Wj)是度量Ω中的兩個詞Wi和Wj相關(guān)性的指標,其計算式為= | 、、rJt (wi; Wj)的值域是
。如果Jt(Wi,Wj) = 0,表示兩個詞出現(xiàn)在完全不相交的文檔集合中;如果Jt (Wi,Wj) = 1,表示兩個詞出現(xiàn)在完全相同的文檔集中。使用Jaccard 相似度是因為當兩個詞屬于同一個話題時,他們傾向于出現(xiàn)在相同的文檔集合中。Jaccard 相似度比共現(xiàn)數(shù)(即Jt(WyWj)計算式中的分子)更適合區(qū)別話題內(nèi)連邊和話題間連邊。所述突發(fā)詞圖Gt = {Vt,Et, Jj是一個無向加權(quán)圖,其中Vt是頂點集合,Et是邊集合,Jt是權(quán)重集合。頂點集合表示為Vt= Iw1, ...,w|vt|},包含t時刻的所有突發(fā)詞。邊 (wi; Wj) e Et表示頂點Wi和Wj間的連接。定義Jt (Wi,Wj)是邊(Wi,Wj)的權(quán)重。Gt常常是一個全聯(lián)通圖,因為基本每一對突發(fā)詞都在文檔中共現(xiàn)過。5)約簡突發(fā)詞圖(基于圖聚類法之步驟一)該步驟如圖2(b)所示,按照所述初始突發(fā)詞圖Gt(如圖2(a)所示)中邊的權(quán)重,從小到大的順序移除邊;用Gf〕表示移除i條邊后的中間圖,則該中間圖Gf〕形成對原圖Gt的頂點集合的一個聚類L(i) (Gt),聚類中的一類對應于中間圖Gf〕一個最大聯(lián)通子圖的頂點集合;計算聚類L(i) (Gt)的模塊性0)(模塊性為度量圖聚類優(yōu)劣的效益函數(shù)),找到最大的模塊性Q(i)并輸相應的中間圖Gf〕作為約簡后的突發(fā)詞圖;Gt 的一個聚類表示為丄權(quán))={/,, ...,、},其中,、eM = {l,...,\M\},\M\ 是類數(shù)。則聚類L(Gt)的模塊性的定義為
權(quán)利要求
1.一種基于圖聚類的用戶生成文本流中的突發(fā)話題檢測方法,其特征在于,該方法包括以下步驟1)獲取用戶生成文檔首先從Web2.0站點采集大量網(wǎng)頁格式的文檔;然后從該網(wǎng)頁格式的文檔中提取出文檔正文作為處理后的文檔,同時提取該文檔的發(fā)表時間,并保存;2)構(gòu)造文本流設(shè)定時間單位,并將檢測時間窗的大小設(shè)定為一個時間單位;根據(jù)時間窗對所述處理后的文檔進行劃分,將同一時間窗內(nèi)的所有處理后的文檔組成一個文檔集,將所有文檔集按照時間順序組成文本流;將前、個時間窗的文檔集作為話題檢測的參考文檔集;3)檢測突發(fā)詞對t時刻,t>、+1的文檔集進行話題檢測,遍歷字典中所有的詞并判定是否是突發(fā)詞;若某個詞在t時刻出現(xiàn)率大于該詞在參考文檔集中的平均出現(xiàn)率的一定倍數(shù)Tb時,則判為突發(fā)詞,Tb的取值范圍為2. 5-10 ;4)構(gòu)建初始突發(fā)詞圖將t時刻檢測到的突發(fā)詞連接成無向加權(quán)的初始突發(fā)詞圖Gt, 該圖的頂點是突發(fā)詞,該圖的邊的權(quán)重用Jaccard相似度度量;5)約簡突發(fā)詞圖按照所述初始突發(fā)詞圖Gt中邊的權(quán)重,從小到大的順序移除邊;用 Gw表示移除i條邊后的中間圖,則該中間圖Gf〕形成對原圖Gt的頂點集合的一個聚類L(i) (Gt),聚類中的一類對應于中間圖Gf〕一個最大聯(lián)通子圖的頂點集合;計算聚類L(i) (Gt)的模塊性Q(i),找到最大的模塊性Q(i)并輸相應的中間圖作為約簡后的突發(fā)詞圖;6)突發(fā)話題檢測對約簡后的突發(fā)詞圖的每一個最大連通子圖s提取內(nèi)聚子圖,將大于N個頂點的內(nèi)聚子圖中所有頂點集合對應詞的組合為檢測出的突發(fā)話題,N取值為大于3的正整數(shù)。
2.如權(quán)利要求1所述方法,其特征在于,所述提取內(nèi)聚子圖的方法是依據(jù)步驟幻中得到的每一個最大聯(lián)通子圖s中所有頂點對之間的最短路徑經(jīng)過該邊的數(shù)目除以該邊的權(quán)重得到的值的大小依次移除邊;用s(i)表示移除i條邊后的中間圖,則s⑴形成對圖s的頂點集合的一個聚類L(i) (s);計算中間步驟中頂點聚類的模塊性Q(i),找到最大的Q(i)和相應的s(i) ;s(i)中每個頂點數(shù)不少于4的最大聯(lián)通子圖的頂點集合對應詞的組合是一個檢測出的話顆。
全文摘要
本發(fā)明涉及一種基于圖聚類的用戶生成文本流中的突發(fā)話題檢測方法,屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)領(lǐng)域。該方法提供了相對傳統(tǒng)的話題檢測問題的一種基于圖的新視角,將在文本流中檢測突發(fā)話題轉(zhuǎn)化為一個典型的圖聚類問題,這樣可以根據(jù)已有的圖論方法來得到解決。該方法主要步驟包括獲取文本流;檢測突發(fā)詞;構(gòu)建突發(fā)詞圖;聚類突發(fā)詞。該方法針對用戶生成文本流中的突發(fā)話題檢測,其性能優(yōu)于已有的基于文檔聚類、概率話題模型和基于突發(fā)特征聚類的方法。
文檔編號G06F17/30GK102214241SQ201110187138
公開日2011年10月12日 申請日期2011年7月5日 優(yōu)先權(quán)日2011年7月5日
發(fā)明者管曉宏, 袁睿翕, 趙麗 申請人:清華大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
四川省| 萨迦县| 历史| 孟州市| 广宁县| 锡林郭勒盟| 望奎县| 毕节市| 大余县| 武汉市| 黎城县| 阿克| 新河县| 华亭县| 阳春市| 庆元县| 凤山县| 安化县| 项城市| 襄汾县| 千阳县| 汤阴县| 仙游县| 满城县| 黑河市| 方正县| 永安市| 鲁山县| 孝感市| 吴堡县| 和田县| 青阳县| 仁寿县| 嫩江县| 运城市| 天津市| 姚安县| 吴江市| 青海省| 海安县| 曲沃县|