一種融合用戶關(guān)系的自適應(yīng)微博話題追蹤方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于網(wǎng)絡(luò)技術(shù)、信息技術(shù)領(lǐng)域,具體涉及一種融合用戶關(guān)系的自適應(yīng)微博 話題追蹤方法。
【背景技術(shù)】
[0002] 關(guān)于話題追蹤的研究可以分為傳統(tǒng)話題追蹤(Traditional Topic Tracking, TTT)和自適應(yīng)話題追蹤(Adaptive Topic Tracking,ATT)兩個(gè)方面。在傳統(tǒng)話題追蹤的研 究領(lǐng)域,主要包括基于知識(shí)的話題追蹤方法和基于統(tǒng)計(jì)的話題追蹤方法這兩大追蹤類別。 前者基于知識(shí)方法的思路是依靠報(bào)道信息之間的關(guān)聯(lián)或繼承關(guān)系獲得有效的信息集合;后 者基于統(tǒng)計(jì)方法是利用統(tǒng)計(jì)知識(shí)判定信息的相關(guān)度。其中,最常用的方法是通過話題的分 類模型檢測(cè)數(shù)據(jù)與已知話題的相關(guān)度。
[0003] 在基于知識(shí)的傳統(tǒng)話題追蹤領(lǐng)域,典型的研究是Watanabe等人(Y Watanabe,Y Okaxta.K Kaneji,and Y Sakarnoto.Multiple Media Database System for TV Newscasts and Newspapers[A].In:Teehnical Report of IEIGEf[C].JaPan,1995,47-54.)通過分析日本語新聞的語法,找出新聞報(bào)道中常用的關(guān)聯(lián)詞,如"正如近期發(fā)生的…"、 "正如我所報(bào)道的…",最后通過這種關(guān)聯(lián)詞找出相關(guān)話題新聞集合??梢姡@種方法局限于 只適應(yīng)某特定知識(shí)領(lǐng)域。在基于統(tǒng)計(jì)方法的傳統(tǒng)話題跟蹤研究領(lǐng)域,目前比較成熟的主流 研究方法是基于分類策略。比如利用1〇^和〇6(^8;[0111>66(01^66)兩種分類算法實(shí)現(xiàn)話題 的跟蹤,該跟蹤方法由于初始訓(xùn)練樣本稀疏性問題會(huì)導(dǎo)致跟蹤結(jié)果不準(zhǔn)確。Schapire利用 支持向量機(jī)(VSM)算法實(shí)現(xiàn)二元分類方法,即忽略不相關(guān)話題的子類別,分類結(jié)果只包括相 關(guān)和不相關(guān)兩種類別,該跟蹤模型的穩(wěn)定性過于依賴訓(xùn)練樣本。T. Leek等人(Leek T, Schwartz R,Sista S.Probabilistic approaches to topic detection and tracking [M]//Topic detection and tracking.Springer US,2002:67-83.)提出在話題跟蹤系統(tǒng) 中建立多個(gè)分類器,旨在用多個(gè)分類器來保證跟蹤系統(tǒng)的準(zhǔn)確率,但該方法同時(shí)利用多個(gè) 分類器進(jìn)行檢測(cè)相關(guān)報(bào)道,降低了跟蹤的效率。
[0004] 傳統(tǒng)的話題跟蹤方法沒有考慮話題跟蹤過程中會(huì)出現(xiàn)話題漂移等問題,針對(duì)這些 問題,一些學(xué)者在傳統(tǒng)的話題跟蹤方法的基礎(chǔ)上,開展了一個(gè)新的研究領(lǐng)域,即自適應(yīng)話題 跟蹤方法(ATT)。該方法的主要思想是為了及時(shí)自適應(yīng)話題焦點(diǎn)的演變,話題跟蹤模型會(huì)動(dòng) 態(tài)地對(duì)話題的特征權(quán)重進(jìn)行調(diào)整,從而保證了話題跟蹤結(jié)果的有效性。
[0005] 傳統(tǒng)的話題跟蹤主要應(yīng)用于新聞、博客等領(lǐng)域相關(guān)話題的檢測(cè),這些信息文本均 屬于長(zhǎng)文本范疇,而新型的微博文本具有文本短小、口語化以及原創(chuàng)性等特點(diǎn),所以針對(duì)微 博的話題跟蹤的特點(diǎn),許多學(xué)者突破了傳統(tǒng)話題跟蹤的技術(shù),在微博話題跟蹤領(lǐng)域展開了 新的研究。
[0006] 在國(guó)外,一些學(xué)者對(duì)英文的微博進(jìn)行了研究,其中主要是基于Twitter上的數(shù)據(jù)。 在國(guó)內(nèi),一些學(xué)者針對(duì)中文微博的話題跟蹤展開了研究。由于微博文本具有內(nèi)容短小、口語 化等特點(diǎn),利用傳統(tǒng)方法在對(duì)其進(jìn)行文本處理時(shí),往往會(huì)產(chǎn)生數(shù)據(jù)稀疏的問題,而對(duì)稀疏的 數(shù)據(jù)進(jìn)行分類或者聚類時(shí),結(jié)果的準(zhǔn)確率會(huì)很低。
[0007] 目前多數(shù)方法基于文本分類技術(shù)實(shí)現(xiàn)話題跟蹤,該類方法存在以下一些問題:
[0008] 1)該類方法依賴于初始樣本訓(xùn)練,但通常在微博話題產(chǎn)生的初始階段,沒有足夠 的可用于訓(xùn)練的初始樣本,過少的訓(xùn)練樣本會(huì)造成分類器的泛化能力嚴(yán)重降低;
[0009] 2)該類方法是通過逐條判斷的方法實(shí)現(xiàn)話題的跟蹤,并沒有充分利用用戶信息及 其歷史行為,也沒有結(jié)合當(dāng)前話題的背景語義,僅依賴于及其短小且口語化的文本信息,往 往無法提取出特異性屬性。
[0010] 針對(duì)現(xiàn)有微博話題追蹤方法存在的問題,我們需要一種能適應(yīng)微博篇幅短小、口 語化、實(shí)時(shí)性、突發(fā)性等特點(diǎn)微博話題追蹤系統(tǒng)和方法,以提高微博話題追蹤系統(tǒng)的穩(wěn)定性 和追蹤效率。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的目的在于提出一種融合用戶關(guān)系的自適應(yīng)微博話題追蹤方法。該方法借 助用戶的歷史信息協(xié)助推文的相關(guān)性判斷,增加了推文判斷的穩(wěn)定性;采用迭代跟蹤方式 替代逐條分類,不需要樣本進(jìn)行初始訓(xùn)練;利用當(dāng)前跟蹤到的相關(guān)推文集合生成新一輪的 話題目標(biāo)向量,有效的避免了在話題追蹤過程中出現(xiàn)話題漂移的現(xiàn)象;話題跟蹤在推文集 合上進(jìn)行,關(guān)注話題的整體走向。
[0012] 為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0013] 一種融合用戶關(guān)系的自適應(yīng)微博話題追蹤方法,其步驟包括:
[0014] 1)通過用戶集合中的所有用戶的行為推動(dòng)推文集合按時(shí)間線延展,并將用戶集合 中所有用戶發(fā)表的推文映射到特征向量空間中;
[0015] 2)對(duì)推文特征空間進(jìn)行坐標(biāo)變換,使話題相關(guān)推文集合和話題非相關(guān)推文集合的 分布為線性可分;
[0016] 3)在當(dāng)前跟蹤時(shí)間窗內(nèi),采用聚類算法對(duì)推文特征向量進(jìn)行聚類,找到目標(biāo)話題 的相關(guān)推文集合;
[0017] 4)利用本輪得到的相關(guān)推文集合進(jìn)行下一輪話題跟蹤,并將與本輪得到的相關(guān)推 文集合關(guān)聯(lián)的用戶添加至用戶集合。
[0018] 進(jìn)一步地,步驟2)所述坐標(biāo)變換包括:
[0019] 2-1)將推文特征向量空間的坐標(biāo)進(jìn)行平移,將相關(guān)話題的中心點(diǎn)作為新的坐標(biāo)原 占 .
[0020] 2-2)在坐標(biāo)原點(diǎn)平移的基礎(chǔ)上,將推文特征向量空間進(jìn)行極坐標(biāo)變換,使話題相 關(guān)推文集合與話題非相關(guān)集合形成了兩個(gè)柱形話題簇,并近似平行地分布在極徑上。
[0021 ] 進(jìn)一步地,步驟3)所述聚類算法為K-means算法。
[0022] 進(jìn)一步地,步驟3)采用K-means算法進(jìn)行聚類并找出相關(guān)推文集合的方法是:
[0023] 3-1)初始化類中心:在跟蹤時(shí)間窗內(nèi)的推文樣本集合T中,指定兩個(gè)初始類別中心 點(diǎn),其中一個(gè)主類別中心點(diǎn)為上一個(gè)跟蹤周期的目標(biāo)尤_,·.·義二), 另外指定一個(gè)非相關(guān)話題推文集合的中心點(diǎn)為且指定 Pnon-target = 2*Ptarget;同時(shí)設(shè)定迭代終止條件max(| |m(n+1)-m(n)| |)〈Λ,其中 | |m(n+1)-m(n)| I表 示第(n+1)次迭代得到的中心點(diǎn)m(n+1)與第η次迭代得到的中心點(diǎn)m(n)之間的相似度距離,Λ 為聚類中心收斂誤差容限;
[0024] 3-2)樣本歸類:對(duì)Τ中的每條推文計(jì)算其到每個(gè)類中心的距離| |ti_t2| | = |ρι_Ρ2 ,當(dāng)且僅y
時(shí),把它歸到最近的質(zhì)心〇代表的類別中;
[0025] 3-3)更新聚類中心:對(duì)相關(guān)話題推文類別的聚類中心進(jìn)行更新,以此類的平均向 量作為新的聚類中心,其中
為每個(gè)推文特征向量的權(quán) 重,size為特征向量的維度;非相關(guān)話題推文類的聚類中心保持不變;
[0026] 3-4)迭代3-1)~3-3)步直至滿足上述收斂條件,得到作為跟蹤的話題目標(biāo), ?stii為?蹤到力目標(biāo)集A,即得到t輪聚類得到力相關(guān)《 t集A。
[0027] 進(jìn)一步地,步驟4)利用步驟3)得到的= 話題跟蹤模型計(jì)算得出下一輪的 話題跟蹤模型,即ttarget_new= 3*tave+( 1_δ )*ttarget,其中δ表示迭代系數(shù)。
[0028] 利用本發(fā)明提供的系統(tǒng)對(duì)微博中話題進(jìn)行跟蹤,具有以下優(yōu)點(diǎn):
[0029] 1、本發(fā)明借助用戶的歷史信息協(xié)助推文的相關(guān)性判斷,即引入用戶屬性協(xié)助推文 的相關(guān)性判斷,用戶屬性來自于其歷史推文,該方法借助用戶的歷史行為增加了推文判斷 的穩(wěn)定性;
[0030] 2、采用迭代跟蹤方式替代逐條分類,不需要樣本進(jìn)行初始訓(xùn)練;利用當(dāng)前跟蹤到 的相關(guān)推文集合生成新一輪的話題目標(biāo)向量,有效的避免了在話題追蹤過程中出現(xiàn)話題漂 移的現(xiàn)象,并能夠密切跟蹤話題的焦點(diǎn)演變;
[0031] 3、話題跟蹤在推文集合上進(jìn)行,關(guān)注話題的整體走向,強(qiáng)調(diào)熱度的變化與焦點(diǎn)的 演變,話題跟蹤效果不依賴于單條推文相關(guān)度的判別。
【附圖說明】
[0032] 圖1為融合用戶關(guān)系的自適應(yīng)話題追蹤模型示意圖。
[0033] 圖2為原始推文集合分布圖。
[0034] 圖3為坐標(biāo)原點(diǎn)平移后推文集合分布圖。
[0035] 圖4為極坐標(biāo)變換后推文集合分布圖。
[0036] 圖5為聚類結(jié)果示意圖。
[0037] 圖6.a. 1~圖6. d. 3為話題追蹤過程以及結(jié)果圖。
[0038] 圖7.a.1~圖7.b. 3為微博話題事件的熱度變化趨勢(shì)圖。
【具體實(shí)施方式】
[0039] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面通過具體實(shí)施例和 附圖,對(duì)本發(fā)明做進(jìn)一步說明。
[0040] 首先介紹本發(fā)明中需要的數(shù)據(jù)結(jié)構(gòu):
[0041] 1)推文特征向量為^,如下所示。本發(fā)明將微博的博文統(tǒng)稱為推文,推文特征向量 也稱為話題特征向量,是指微博文本的特征向量,其中表示的第1個(gè)特征,即為推文i中 第1個(gè)特征詞的詞頻:
[0042]
[0043] 2)兩條推文相似度為A(ti,t2),其中 G (m'i1. ..…w2 ) 分別為兩條推文的特征向量:
[0044]
[0045] 3)定義當(dāng)前的跟蹤時(shí)間窗內(nèi)的所有推文特征向量集合為T,其中[datei,date2]表 示當(dāng)前跟蹤時(shí)間窗的時(shí)間范圍,time(ti)表示推文ti的發(fā)表時(shí)間:
[0046] T = {ti | time(ti) e [datei,date2] Λ (Ujfti),UjEU}