本發(fā)明涉及社交網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域,具體涉及了一種應(yīng)用于社交網(wǎng)絡(luò)社團(tuán)話題的演化挖掘方法。
背景技術(shù):
隨著網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為主流的傳播媒介。與傳統(tǒng)的方式相比,社交網(wǎng)絡(luò)具有大范圍、大數(shù)據(jù)和突發(fā)性強(qiáng)等特點(diǎn),社交網(wǎng)絡(luò)中社團(tuán)話題演化也成為當(dāng)下關(guān)注的熱點(diǎn)。目前,對(duì)話題演化的分析模型主要分為兩類:離散觀點(diǎn)模型和連續(xù)觀點(diǎn)模型。離散觀點(diǎn)模型包括:1、先離散時(shí)間型,通過(guò)把時(shí)間分成不同時(shí)間窗口的方法進(jìn)行分析,在每個(gè)窗口中處理、拆分文本,進(jìn)而研究話題演化過(guò)程。Alsumait[1]提出了一種在線LDA模型,該模型運(yùn)用歷史數(shù)據(jù),根據(jù)時(shí)間間隔中相應(yīng)的話題數(shù)據(jù)進(jìn)行LDA建模,分析演化軌跡。2、后離散時(shí)間型。該方法中時(shí)間不作為一個(gè)考慮因素,而是直接通過(guò)LDA建模,然后將話題分配到相對(duì)應(yīng)的時(shí)間窗口,分別計(jì)算話題記錄窗口的強(qiáng)度,通過(guò)話題強(qiáng)度變化研究整個(gè)話題演化。
連續(xù)觀點(diǎn)模型是把時(shí)間作為一個(gè)連續(xù)的變量,在話題演化模型中添加這一變量。Wang[2]在原有的基礎(chǔ)上引入時(shí)間變量提出了TOT模型(topic over time),產(chǎn)生Γ分布的時(shí)間屬性值,將其賦給文本中每個(gè)單詞新的時(shí)間屬性。但該模型僅討論了話題強(qiáng)度變化關(guān)系,并未涉及話題內(nèi)容的演化。Nallapati[3]等人提出了MTTM(Multi-scale topic tomography)模型,研究了多時(shí)間粒度的話題演化問(wèn)題。Blei等人[4]提出了DTM(Dynamic topic model)動(dòng)態(tài)話題模型,采用狀態(tài)空間記錄話題內(nèi)容和分布強(qiáng)度的變化。但上述模型都是對(duì)文本集進(jìn)行全局建模,無(wú)法增量處理話題演化問(wèn)題。
研究話題演化過(guò)程中,話題時(shí)間判定是一個(gè)重要步驟。話題主要分為事件性和非事件性兩類。事件性話題即對(duì)最新時(shí)事的關(guān)注,擁有時(shí)間性強(qiáng)的特點(diǎn),話題和話題時(shí)間有比較單一的關(guān)聯(lián),是一種很強(qiáng)的位置依賴關(guān)系。非事件性話題時(shí)間呈現(xiàn)區(qū)域性,貫穿整個(gè)話題事件。洪宇等人[5]提出將話題映射到話題片段,再由話題片段映射到話題時(shí)間。但該方法未考慮話題演化過(guò)程中語(yǔ)義的動(dòng)態(tài)變化。
[1]Alsumait L,Barbara D,Domeniconi C.On-line LDA:Adaptive topic modles for mining text streams with application to topic and tracking[C].Data mining,2008.ICDM’08.2008:3-12.
[2]Wang X,McCallum A.Topic over time:A non-Markov Continuous-time Modle of Topical Trends[C].ACM SIGKDD 2006:424-433.
[3]Nallapati R M,Cohen W,Ditmore S,Lafferty J,Ung K.Multi scale topic tomography.In:Proceeding of the 13th ACM International Conference on Knowledge Discovery and Data Mining(SIGKDD).San Joes,USA:ACM,2007:520-529.
[4]Blei D M,Lafferty J D.Dynamic topic models.In:Proceedings of the 23rd International Conference on Machine Learning.Pittsburgh,USA:ACM,2006.113-120.
[5]洪宇,倉(cāng)玉,姚建民等.話題追蹤中靜態(tài)和動(dòng)態(tài)話題模型的核捕捉衰減.軟件學(xué)報(bào),2010,23(5):1100-1119.
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種社交網(wǎng)絡(luò)中社團(tuán)話題演化挖掘的方法,綜合考慮突發(fā)性、連續(xù)性、密集性對(duì)話題隨時(shí)間演化的影響,實(shí)現(xiàn)準(zhǔn)確的話題演化挖掘方法。
為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
社交網(wǎng)絡(luò)話題演化挖掘方法,包括下述步驟:
S1、采集社交網(wǎng)絡(luò)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;
S2、分析話題數(shù)據(jù),在考慮突發(fā)性、連續(xù)性、密集性的基礎(chǔ)上建立特征值計(jì)算模型,建立話題-時(shí)間樹,抽取話題時(shí)間,并對(duì)文本進(jìn)行聚類分析;
S3、實(shí)現(xiàn)話題演化序列的輸出。話題演化序列是文本聚類的結(jié)果,能夠顯示話題演化軌跡,具有現(xiàn)實(shí)意義。
作為優(yōu)選的,步驟S1中,數(shù)據(jù)來(lái)源于社交網(wǎng)絡(luò),用戶量大、更新速度快,經(jīng)過(guò)爬蟲得到的原始數(shù)據(jù)集具有“多、亂、雜”的特點(diǎn),建立數(shù)據(jù)字典,對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理(刪除特殊符號(hào)、去除鏈接、中文分詞、去除停用詞等)能夠保證數(shù)據(jù)集的有效性,為之后建模分析話題演化提供保障。所述步驟S1中,預(yù)處理中,中文分詞作為關(guān)鍵;首先,建立好一個(gè)字典,把輸入的中文文本和字典進(jìn)行匹配,根據(jù)唯一的匹配結(jié)果,把該詞分離為一個(gè)獨(dú)立的詞;如果輸入詞不在字典中,就把該詞加入字典,作為擴(kuò)充字典。
作為優(yōu)選的,步驟S2中,同時(shí)對(duì)突發(fā)性、連續(xù)性、密集性進(jìn)行定量分析,建立特征值計(jì)算模型;包括下述步驟:
S21、定義突發(fā)性特征值。構(gòu)建時(shí)間與詞項(xiàng)的列聯(lián)表,設(shè)計(jì)K2的獨(dú)立性檢測(cè)。根據(jù)時(shí)間與詞項(xiàng)之間的關(guān)聯(lián)度歸一化詞項(xiàng)的卡方統(tǒng)計(jì)值,用該值表示突發(fā)性特征值。K2的獨(dú)立性檢測(cè)即為卡方檢驗(yàn),根據(jù)次數(shù)資料判斷兩類因子彼此相關(guān)或者相互獨(dú)立。擬合度公式為其中,n為試驗(yàn)次數(shù),fi為落入第i區(qū)間的頻率,pi為落入第i區(qū)間的概率。
S22、定義連續(xù)性特征值。連續(xù)性權(quán)重的計(jì)算需要用到時(shí)態(tài)表達(dá)規(guī)范化處理,通過(guò)分析社交網(wǎng)絡(luò)的類別和網(wǎng)頁(yè)結(jié)構(gòu),提出話題-時(shí)間關(guān)系樹,通過(guò)話題和時(shí)間信息間位置、語(yǔ)義兩種相互依存關(guān)系,反映社交網(wǎng)絡(luò)話題和話題時(shí)間之間的映射關(guān)系。
S23、定義密集性特征值。通過(guò)特征在當(dāng)前時(shí)間窗口T出現(xiàn)的次數(shù)和截止該時(shí)間窗口出現(xiàn)的次數(shù)比定義特征在時(shí)間上的密集程度。對(duì)每個(gè)時(shí)間窗口做增量更新的操作即可得到話題特征對(duì)整個(gè)演化軌跡的密集性。
S24、定義原始特征值。利用傳統(tǒng)的增量式TF×IDF模型來(lái)表示詞項(xiàng)在文本中的基本權(quán)重,作為基礎(chǔ)權(quán)重。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
1、本發(fā)明的模型與TOT模型對(duì)比,在考慮話題強(qiáng)度的基礎(chǔ)上考慮了話題內(nèi)容的變化;與DTM模型相比,能夠?qū)崿F(xiàn)增量處理話題演化挖掘。在考慮連續(xù)性權(quán)重方面。
2、話題-時(shí)間樹結(jié)合了不同類型的社交網(wǎng)絡(luò)和網(wǎng)頁(yè)結(jié)構(gòu)特點(diǎn),采用葉子話題時(shí)間合并產(chǎn)生話題時(shí)間的方法,優(yōu)于傳統(tǒng)的采用發(fā)布時(shí)間和網(wǎng)頁(yè)統(tǒng)計(jì)時(shí)間方法。
3、本發(fā)明同時(shí)考慮了話題演化過(guò)程中的突發(fā)性、連續(xù)性、密集性,結(jié)合傳統(tǒng)的TF×IDF模型,利用層次聚類的方法獲取特征演化序列。相較于劃分聚類(如k-means)而言,層次聚類具有樹狀特點(diǎn),在處理大數(shù)據(jù)時(shí)效率較高。綜合考慮以上屬性,能夠提升話題演化軌跡提取的準(zhǔn)確性。
4、實(shí)現(xiàn)話題演化軌跡提取并輸出,具有現(xiàn)實(shí)意義和價(jià)值。
附圖說(shuō)明
圖1是本發(fā)明社交網(wǎng)絡(luò)中社團(tuán)話題演化挖掘方法的流程圖;
圖2是本發(fā)明話題演化特征屬性圖;
圖3是本發(fā)明話題-時(shí)間樹圖;
圖4是本發(fā)明的數(shù)據(jù)預(yù)處理方式圖;
圖5是本發(fā)明話題演化方法實(shí)驗(yàn)結(jié)果。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例
如圖1所示,本實(shí)施例社交網(wǎng)絡(luò)社團(tuán)話題演化挖掘方法,該方法包括下述步驟:
S1、采集社交網(wǎng)絡(luò)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如圖4所示;
S2、分析話題數(shù)據(jù),如圖2所示,在考慮突發(fā)性、連續(xù)性、密集性的基礎(chǔ)上建立特征值計(jì)算模型,建立話題-時(shí)間樹,如圖3所示,抽取話題時(shí)間,并對(duì)文本進(jìn)行聚類分析;
S3、實(shí)現(xiàn)話題演化序列的輸出,如圖5所示。
下面對(duì)于本發(fā)明中的關(guān)鍵技術(shù)做進(jìn)一步的分析:
步驟S2中,首先定義突發(fā)性特征值、連續(xù)性特征值、密集性特征值和基礎(chǔ)特征值(TF×IDF值)并實(shí)現(xiàn)其計(jì)算方法,建立話題-時(shí)間樹提取話題時(shí)間,利用層次聚類對(duì)詞項(xiàng)進(jìn)行聚類。
S21、突發(fā)性。構(gòu)建時(shí)間和詞項(xiàng)的列聯(lián)表表示其關(guān)聯(lián)性,通過(guò)歸一化詞項(xiàng)wi的卡方統(tǒng)計(jì)值表示詞項(xiàng)的突發(fā)性,定義為:其中,Nwt表示t時(shí)刻話題中出現(xiàn)詞w;N-wt表示t時(shí)刻話題中未出現(xiàn)詞w;NwT表示t時(shí)刻之前話題中出現(xiàn)過(guò)詞w;N-wT表示t時(shí)刻之前話題中未出現(xiàn)過(guò)詞w。
計(jì)算方法代碼描述如下:
S22、連續(xù)性。話題特征在它所載的話題演化階段內(nèi)會(huì)表現(xiàn)出連續(xù)性,結(jié)合話題-時(shí)間關(guān)系樹,通過(guò)時(shí)態(tài)表達(dá)規(guī)范處理,定義:
其中,t(di)表示具有特征f的第i個(gè)文本的話題時(shí)間;tmax表示現(xiàn)有文本集合中最新文本的話題時(shí)間;tmin表示現(xiàn)有文本集合中最早文本的話題時(shí)間;N表示文本流中文本的總數(shù)目。
計(jì)算方法代碼描述如下:
S23、密集性。特征f在當(dāng)前時(shí)間窗口T出現(xiàn)的次數(shù)和截至該時(shí)間窗口出現(xiàn)的次數(shù)比說(shuō)明特征f在時(shí)間上的密集程度,定義:
其中,D表示窗口T中所有的文檔集合;CD(f)表示特征f在最新文檔集合D上的出現(xiàn)總次數(shù);CT-1(f)表示特征f在T之前出現(xiàn)的總次數(shù)。
計(jì)算方法代碼描述如下:
通過(guò)上述對(duì)特征值的定義并計(jì)算,在話題-時(shí)間樹種提取話題時(shí)間,利用層次聚類的方式獲取聚類結(jié)果,得到最終的話題演化序列。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。