專利名稱:一種基于新浪微博的用戶等級排序算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及社交網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種基于新浪微博的用戶等級排序算法。
背景技術(shù):
自從2006年世界上最知名的微博社交網(wǎng)站Twitter問世以來,幾年中Twitter贏得了相當(dāng)可觀的市場占有率。在2009年,Twitter的用戶增長率高達2565%,是著名社交網(wǎng)站Facebook與LinkedIn增長量總和的10倍。(參考文獻I A. Ronel, M. Teutle,^Twitter =Network Properties Analysis,, C0NIELEC0MP 54407732010180-186)在中國,新浪微博占有著巨大的市場份額,其中87%的微博使用者為新浪微博用戶。(參考文獻 2 E. Wen, V. Sun, “SINA Microblog Research Report”. http://www. techweb. com. cn/data/2011-02-25/916941. shtml2011,2)相比Twitter,新浪微博是一個更綜合更復(fù)雜的微博社交網(wǎng)絡(luò)系統(tǒng)。除了傳統(tǒng)微博應(yīng)用固有的功能,新浪微博將一條微博長度由140個字符擴展到140個漢字(280字符),同時一條微博信息中允許插入short-url網(wǎng)址、視頻、音樂、圖片或圖片組合,這些功能都增強了用戶對于新浪微博的使用體驗,使得新浪微博的用戶參與性更強,同時信息傳播力更大。因此,對于新浪微博用戶、微博社區(qū)與網(wǎng)絡(luò)結(jié)構(gòu)、觀點傳播與用戶行為分析的研究應(yīng)當(dāng)被給予足夠的重視。在研究微博信息傳播與熱點敏感話題發(fā)現(xiàn)的過程中,人作為微博信息傳播與話題發(fā)起的主體,起著至關(guān)重要的作用。同樣的信息從網(wǎng)絡(luò)社區(qū)中不同等級的用戶中發(fā)布出來,其覆蓋范圍與影響力也是千差萬別的。因此對于微博用戶等級排序的研究將成為微博研究中首先需要解決的問題。在網(wǎng)絡(luò)搜索引擎的研究中,文獻3與文獻4提出了 PageRank與HITS算法,用來計算互聯(lián)網(wǎng)絡(luò)中不同網(wǎng)頁的頁面權(quán)重。這兩套算法的核心思想是,如果一個頁面被眾多具有較高權(quán)重的頁面所指向,那么這個頁面將有很高的可能性成為權(quán)威頁面。當(dāng)一個具有高權(quán)威性的導(dǎo)航網(wǎng)站中存在大量頁面連接時,為了避免這個頁面過多地將自身權(quán)重傳遞給每一個它所指向的頁面,文獻5-7在文獻3,4的基礎(chǔ)上改進了 PageRank與HITS算法,使得網(wǎng)絡(luò)權(quán)重數(shù)值的傳遞更加均勻。在微博網(wǎng)站Twitter的研究中,文獻8將網(wǎng)絡(luò)中高權(quán)威用戶分為兩類,即名人用戶與媒體用戶。研究指出在信息傳播的過程中,名人用戶的作用主要是作為信息發(fā)布的主體,而這些發(fā)布的信息主要通過媒體用戶以轉(zhuǎn)發(fā)的形式分享出去。文獻9通過用戶每條微博信息的回復(fù)關(guān)注數(shù)量作為主要因素建模來評定用戶的等級排序,但忽視了用戶在微博社區(qū)中的度分布特征。文獻10通過用戶的連接關(guān)系與話題分布特征來衡量微博用戶在Twitter中的影響力。文獻11基于改進HITS算法與文獻12中介紹的TwitterRank算法,提出了一套新浪微博用戶權(quán)重算法,但在計算用戶權(quán)重中使用的迭代算法時間復(fù)雜度極高,很難應(yīng)用在實際微博社區(qū)網(wǎng)絡(luò)環(huán)境中。文獻13基于用戶好友關(guān)系與網(wǎng)絡(luò)歷史數(shù)據(jù)統(tǒng)計,建立了 Twitter用戶影響力模型,但文獻11-13均沒有將用戶間的交互情況考慮到用戶好友關(guān)系中去,造成了數(shù)據(jù)統(tǒng)計上的較大偏差。文獻14通過用戶微博信息特征向量分析,對微博搜索結(jié)果進行了排序。文獻15基于用戶微博信息聚類,引入潛在語義分析建立了用戶在不同話題中的影響力模型。除此之外,文獻16,17分析了新浪微博的網(wǎng)絡(luò)結(jié)構(gòu)特征與用戶行為規(guī)律,研究指出微博社交網(wǎng)絡(luò)為典型的小世界無標(biāo)度網(wǎng)絡(luò),度分布特征符合冪律分布,發(fā)帖特性伴隨長尾效應(yīng)。用戶行為具有非Poisson特性與事件時間分布等。(參考文獻3:Brin S,Page L. “The anatomy of alarge-scale hypertextual web search engine,,. Computer Networks and ISDN Systems30 (1998) 107-117。參考文獻4 :Kleinberg J. “Authoritative sources in a hyperlinkedenvironment”. JACM 46 (5) (1999) 604-632。參考文獻 5 :Yi Tong. “Apply HITS Algorithmto Measuring Class' s Authoritative Complexity”. WiCom 2954(2008) 1-4。參考文獻6 Jilin Zhang,Yongjian Ren. “Webs ranking model based on pagerank algorithm”.ICISE 5691573(2010)4811-4814。參考文獻 7 :Cheng Su,Yuntao Pan. “PageRank,HITS and Impact Factor for Journal Ranking” CSIE 351 (2009)285-290。參考文獻8 Alex Leavitt, Evan Burchard, David Fisher, Sam Gilbert “The Influentials New Approaches for Analyzing Influence on Twitter,, Web Ecology Project 4(2)(2009) 1-18。參考文獻 9:Anish Das Sarma. “Ranking Mechanisms in Twitter-likeForums”. ACM 1718487.1718491 (2010)21-30。參考文獻 10 :Meeyoung Cha. “MeasuringUser Influence in Twitter The Million Follower Fallacy,, Proceedings ofinternational AAAI Conference on Weblogs and Social (2010)10-17。參考文獻11 :YanChao_Zhang,Yun Liu, Hui Cheng, Fei Xiong, ChangLun-Zhang. " A Method ofMeasuring User Influence in MicroBlog",JCIT :Journal ofConvergence InformationTechnology”. 6(10) (2011)243-250。參考文獻 12 Jian-Shu Weng, Ee-Peng Lim,JingJiang, Qi He,“TwitterRank :Finding Topic-Sensitive Influential Twitterers,,,InProceedings of the third ACM international conference on Web search and datamining 1718487.1718520(2010)261-270。參考文獻 13 :Wang Rui,Jin Yongsheng. “AnEmpirical Study on the Relationship between the Followers' Number and Influenceof Microblogging”. ICEE 509 (2010) 2014-2017。參考文獻 14 :Rinkesh Nagmoti. “RankingApproaches for Microblog Search” . WI-IAT 170(2010) 153-157。參考文獻 15 AdityaPal. “Identifying Topical Authorities in Microblogs” 1935826. 1935843 (2011)45-54。參考文獻 16 :S. C. Deerwester, S. T. Dumais,T. K. Landauer, G. W. Furnas,andR. A. Harshman. “Indexing by Latent Semantic Analysis. 41 (6) (1990) 391-407。參考文獻17 Shulong Kang,Chuang Zhang. “CompIexit Research of Massively MicrobloggingBased on Human Behaviors” DBTA 5658996 (2010) 1~40 )
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題在于選擇何種因數(shù)對新浪微博的用戶等級排序。為了解決以上問題,一種基于新浪微博的用戶等級排序算法,包括如下步驟a、抓取新浪微博中的實時數(shù)據(jù);b、通過數(shù)據(jù)分析確定新浪微博中影響用戶等級排序的制約因素; C、建立用戶等級排序中用戶影響力參考模型;
d、建立用戶等級排序中用戶活躍度參考模型;e、通過用戶影響力與用戶活躍度模型加權(quán)獲得用戶權(quán)重計算模型,利用該模型實現(xiàn)新浪微博用戶等級排序。進一步,作為一種優(yōu)選方案,步驟a中所述的抓取新浪微博中的實時數(shù)據(jù)過程為al、利用新浪微博開放API接口抓取新浪微博實時數(shù)據(jù);a2、利用網(wǎng)絡(luò)爬蟲與網(wǎng)頁解析技術(shù)采集開放API功能以及限制之外的新浪微博在線數(shù)據(jù);a3、設(shè)計結(jié)合新浪微博開放API與網(wǎng)頁解析技術(shù)的新浪微博數(shù)據(jù)采集程序,實現(xiàn)數(shù)據(jù)的全面高效獲取。 進一步,作為一種優(yōu)選方案,步驟b中所述的分析確定新浪微博中影響用戶等級排序的制約因素包括以下步驟bl、判斷用戶粉絲數(shù)量與用戶微博影響力關(guān)系;b2、分析用戶微博影響力隨時間的演化規(guī)律;b3、分析用戶的微博回復(fù)與轉(zhuǎn)發(fā)關(guān)系;b4、判斷用戶好友數(shù)量與用戶微博影響力的關(guān)系。進一步,作為一種優(yōu)選方案,步驟e中所述的通過用戶影響力與用戶活躍度模型加權(quán)獲得用戶權(quán)重計算模型,利用該模型實現(xiàn)新浪微博用戶等級排序具體如下W = Wi+ A Wa其中W為新浪微博用戶權(quán)重。用戶權(quán)重由用戶影響力Wi與用戶活躍度Wa加權(quán)構(gòu)成,參數(shù)、用來調(diào)節(jié)這兩部分權(quán)重數(shù)值上的平衡。進一步,作為一種優(yōu)選方案,所述的相應(yīng)用戶影響力參考模型為
C _ O RJ,r RtJ,r +MP.
Uj ^ yr 5 T
1]MEAN
( F."]Wi = Nf + ^ CaCj ——
’ nJ J
「, 丨1 (N^TrNi)a = <-,-其中Cm為用戶i與i的粉絲用戶j之間的用戶好友關(guān)系交互指數(shù)Ji與L分別代表用戶i與用戶j最新發(fā)布的若干條微博數(shù)量i為用戶j對于用戶i微博的評論次數(shù)與Mm分別代表用戶j轉(zhuǎn)發(fā)與@用戶i的微博次數(shù);式中系數(shù)P為一個正整數(shù)用來線性放大用戶j對于用戶i交互指數(shù)的影響。N為用戶粉絲數(shù)量;€;為用戶粉絲的平均粉絲擁有數(shù)表示該用戶除去粉絲j后的粉絲平均粉絲擁有數(shù);因此a的取值為(0,I],這樣,當(dāng)用戶i存在一個極大權(quán)重的粉絲j時,參數(shù)a將用來調(diào)節(jié)高權(quán)重粉絲對于某一個用戶的影響。進一步,作為一種優(yōu)選方案,所述的相應(yīng)用戶活躍度參考模型為Wa=(rre+rrt)- Yj {Tt+Rtt+Mt)
tG\5days用戶活躍度特征由用戶近期15天內(nèi)發(fā)布的微博數(shù)量Tt、轉(zhuǎn)發(fā)數(shù)量Rtt與提及(@)數(shù)量Mt加權(quán)構(gòu)成;考慮用戶參與微博交互活動的參與質(zhì)量,1^與1^分別表示用戶歷史微博信息的平均回復(fù)率與平均轉(zhuǎn)發(fā)率,避免一個廣告用戶或者惡意發(fā)送消息用戶對于用戶活躍度特征判定的影響。本發(fā)明將用戶等級排序即用戶權(quán)重,看作為用戶分布特征、用戶好友特征與好友關(guān)系、用戶參與度與貢獻水平的綜合評定,從而將用戶權(quán)重劃分為用戶影響力與用戶活躍度兩大主要因素。本發(fā)明具有較高的合理性與較小的時間損耗,適用于實時網(wǎng)絡(luò)環(huán)境中。
當(dāng)結(jié)合附圖考慮時,通過參照下面的詳細描述,能夠更完整更好地理解本發(fā)明以及容易得知其中許多伴隨的優(yōu)點,但此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定,其中
圖I為用戶粉絲數(shù)目與用戶微博影響力關(guān)系對比圖;圖2為明星用戶微博影響力演化規(guī)律;圖3為普通用戶微博影響力演化規(guī)律;圖4為用戶平均轉(zhuǎn)發(fā)率與回復(fù)率對比趨勢;圖5為用戶好友數(shù)目與用戶微博平均回復(fù)率對比關(guān)系;圖6為用戶好友數(shù)與用戶粉絲數(shù)對比關(guān)系;圖7為微博好友關(guān)系不意圖;圖8為用戶權(quán)重對比圖;圖9為本排序算法實施例流程圖。
具體實施例方式以下參照圖1-9對本發(fā)明的實施例進行說明。為使上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細的說明。實施例I如圖9所示,本發(fā)明提供了一種基于新浪微博的用戶等級排序算法,其特征在于包括如下步驟SI、抓取新浪微博中的實時數(shù)據(jù);S2、通過數(shù)據(jù)分析確定新浪微博中影響用戶等級排序的制約因素;S3、建立用戶等級排序中用戶影響力參考模型;S4、建立用戶等級排序中用戶活躍度參考模型;S5、通過用戶影響力與用戶活躍度模型加權(quán)獲得用戶權(quán)重計算模型,利用該模型實現(xiàn)新浪微博用戶等級排序。實施例2通過數(shù)據(jù)分析確定新浪微博中影響用戶等級排序的制約因素,分為以下四個步驟步驟I :判斷用戶粉絲數(shù)量與用戶微博影響力關(guān)系。
圖I為用戶粉絲數(shù)目與用戶微博影響力關(guān)系對比圖。直覺上,我們認為微博中的用戶擁有越多的粉絲數(shù)量,那么這個用戶發(fā)布的微博就有越大的可能性被轉(zhuǎn)發(fā)或回復(fù)。為了驗證這個假設(shè),本發(fā)明通過收集微博中具有特定標(biāo)簽的用戶信息來進行下述測試。標(biāo)簽為用戶的特有屬性,一個用戶可選擇持有0到10個用戶標(biāo)簽來標(biāo)注用戶自身的興趣與關(guān)注事物。這樣收集到的用戶可能在粉絲數(shù)量上有很大的差別,但起碼具備同樣的一種興趣愛好,于是在某些話題與用戶行為上會表現(xiàn)出相似的特性,這也是通過標(biāo)簽收集用戶的一大優(yōu)勢。因為用戶標(biāo)簽的搜索結(jié)果是按照用戶粉絲數(shù)量的數(shù)值作為排序返回用戶信息的,而每次標(biāo)簽查詢,系統(tǒng)至多只返回1000位用戶。因此測試中選擇非熱門的用戶標(biāo)簽,以保證試驗收集到的用戶既包含了具有很高粉絲數(shù)量的明星用戶,也涵蓋了網(wǎng)絡(luò)中的普通用戶。圖I顯示了用戶粉絲數(shù)量與該用戶最近100條微博平均轉(zhuǎn)發(fā)率與平均回復(fù)率的關(guān)系。通過圖I可以近似地得出結(jié)論用戶微博影響力隨著用戶粉絲數(shù)量的增加而增大。測試中,本發(fā)明選取了 10組不同的用戶標(biāo)簽,每組標(biāo)簽返回1000位用戶信息,測試結(jié)果均支持以上結(jié)論。
步驟2 :分析用戶微博影響力隨時間的演化規(guī)律。除上述結(jié)論之外,本發(fā)明還需要研究用戶微博影響力隨時間的變化規(guī)律。通常在微博的使用習(xí)慣中,用戶往往會不斷收到網(wǎng)絡(luò)中其他用戶節(jié)點的關(guān)注,用戶可選擇互相關(guān)注或不做出反應(yīng),而很少做出刪除粉絲連接的操作。也就是說我們可以近似認為,一個用戶的粉絲數(shù)目隨著時間的延續(xù)將呈現(xiàn)出遞增的關(guān)系。因此,本發(fā)明收集了兩組數(shù)據(jù)用來驗證用戶微博受關(guān)注程度隨時間的變化關(guān)系。第一組測試樣本為從新浪微博中排名前2000的用戶中隨機抽取的100位用戶,排名依據(jù)用戶的粉絲數(shù)量;第二組測試樣本為從上述1000名擁有特定標(biāo)簽的用戶中隨機抽取的100位用戶。試驗計算了這些用戶在過去8個月中所發(fā)微博的平均轉(zhuǎn)發(fā)率與回復(fù)率,并統(tǒng)計出用戶組的月平均回復(fù)與轉(zhuǎn)發(fā)率。為了屏蔽不同用戶間微博回復(fù)與轉(zhuǎn)發(fā)數(shù)量上的差異,公式(I)對其進行了歸一化處理^ = §1 丨 Yj
^ IMAX( I )其中Ri為第i個月的歸一化用戶月平均回復(fù)或轉(zhuǎn)發(fā)率。L代表當(dāng)月第j條微博
的評論和轉(zhuǎn)發(fā)次數(shù)S /%_為該用戶在第i月中的平均回復(fù)或轉(zhuǎn)發(fā)比率。圖2與圖3為測
;=1 /
試中兩組用戶數(shù)據(jù)樣本集微博影響力(回復(fù)與轉(zhuǎn)發(fā)率)隨時間演化規(guī)律。圖2為第一組測試樣本,圖3為第二組樣本。通過圖2圖3可以看出,用戶微博的影響力隨著時間的延續(xù)逐漸提高。因為新浪微博正處于蓬勃發(fā)展的狀態(tài),因此用戶的入度分布也在不斷遞增,因此我們可以得到結(jié)論用戶的微博影響力隨著自身粉絲數(shù)量的增長而不斷增強。測試數(shù)據(jù)采集與2011年6月,因此當(dāng)時的微博評論數(shù)量尚未能完全收集,所以圖2與圖3在6月顯示的數(shù)據(jù)值偏低,這只是數(shù)據(jù)不能完全統(tǒng)計的結(jié)果,并不與結(jié)論沖突。另外一個需要注意的問題是,歸一化后用戶組的微博影響力理論最大值為1,若數(shù)值偏離I越遠,那么組內(nèi)用戶微博影響力隨時間的演化差異也就越大。在測試數(shù)據(jù)中,兩組用戶實際的比率分別為0. 6813,0. 6926與0. 5674,
0.5798。因此用戶的好友數(shù)量僅僅是影響用戶微博影響力的一個因素而不是全部。
步驟3 :分析特定用戶的微博回復(fù)與轉(zhuǎn)發(fā)關(guān)系。為了分析用戶微博平均回復(fù)與轉(zhuǎn)發(fā)數(shù)量間的關(guān)系,本發(fā)明收集了兩組數(shù)據(jù)來進行下列試驗。第一組數(shù)據(jù)為排名前1000位的新浪微博認證用戶(注所有排名依據(jù)用戶粉絲數(shù)量順序);第二組數(shù)據(jù)為排名前1000位的非新浪微博認證用戶。對于每一位用戶,試驗收集了該用戶近期發(fā)布的至多20 0條微博信息與這些微博的評論、轉(zhuǎn)發(fā)數(shù)目。圖4顯示了這些用戶微博的平均轉(zhuǎn)發(fā)數(shù)量與平均回復(fù)數(shù)量的對應(yīng)關(guān)系,可以看出用戶微博的平均轉(zhuǎn)發(fā)與回復(fù)呈現(xiàn)出較強的線性關(guān)系,于是我們可以得出結(jié)論一個用戶的微博評論數(shù)量越高,那么他對應(yīng)的微博傳播力也就越大,反之亦然。步驟4 :判斷用戶好友數(shù)量與用戶微博影響力的關(guān)系。使用上述1000名新浪微博認證用戶與1000名非認證用戶作為數(shù)據(jù)集,本發(fā)明測試了用戶好友數(shù)量與用戶微博平均回復(fù)率間的關(guān)系。從圖5中可以看出,用戶微博的平均回復(fù)率與用戶好友數(shù)量沒有直接聯(lián)系,又因為用戶微博平均回復(fù)率與轉(zhuǎn)發(fā)率呈線性關(guān)系,因此可以得到結(jié)論用戶好友數(shù)量不加入用戶微博影響力考慮因素。上述步驟S3中采用改進HITS算法進行用戶權(quán)重分析。下面對改進HIT算法模型進行介紹。HIT 算法通過上述步驟S2中討論可以得出用戶的粉絲數(shù)量是決定用戶影響力大小的核心因素之一。HITS算法的主要思想是網(wǎng)絡(luò)中的權(quán)威結(jié)點傾向于被其他權(quán)威結(jié)點指向,也就是說如果網(wǎng)絡(luò)中有大量具有高權(quán)威性的結(jié)點都指向同一節(jié)點,那么那一結(jié)點將有很高的可能性也是一個權(quán)威結(jié)點。] (2)
r n ) = T af-1}
_7] !](3)
a(v) = , a(v) o Y a(vf = I
/!][ ] V=1
h(V) = , h(y) o f h(Vf=I\h(wf^ v=i
\ 'x/wgN(5)公式(2)-(5)表述了 HITS算法的過程。網(wǎng)絡(luò)中的每個結(jié)點由authority與hub數(shù)值參量構(gòu)成,結(jié)點的authority數(shù)值由指向它的其它結(jié)點hub值決定。結(jié)點的hub數(shù)值由它所指向的其它結(jié)點的authority數(shù)值決定。每一次迭代運算后對authority與hub取值進行歸一化處理,直到第n次迭代運算數(shù)值趨向穩(wěn)定后停止計算。算法中a(t = °)與h(t =0)的初始值為1,《丨與<分別是結(jié)點i在第t次迭代過程之后的authority與hub數(shù)值。公式(4) (5)為每一步之后的歸一化過程,直到迭代結(jié)果達到收斂。HITS算法在當(dāng)今互聯(lián)網(wǎng)搜索引擎的網(wǎng)頁權(quán)重計算中被廣泛采用。因為一個網(wǎng)頁中包含了各式各樣的連接,可能連接到不同的主題或廣告。如果一個高權(quán)威性網(wǎng)頁連接到一個廣告頁面,那么這個廣告頁面于是被賦予了很高的權(quán)重;或者當(dāng)搜索一個主題時,返回了與該主題無關(guān)的其他高權(quán)威頁面,這些都會影響到HITS算法在搜索引擎應(yīng)用中的公正性。但是一個微博中的用戶并不是簡單的基于某類主題或事件的主體,而是一個綜合的復(fù)雜的個體,具有獨立的思考與判別能力。因此相比HITS算法在搜索引擎中的應(yīng)用,當(dāng)其被用于微博網(wǎng)絡(luò)中用戶結(jié)點的權(quán)重計算時,可以有效避免“主題漂移”現(xiàn)象,因此具有更高的合理性。改進HITS算法在微博用戶權(quán)重計算中的應(yīng)用本發(fā)明涉及的改進HITS算法在微博用戶權(quán)重中的應(yīng)用分為以下兩個步驟步驟I :HITS算法中權(quán)重傳遞過程的優(yōu)化設(shè)計在新浪微博中,我們發(fā)現(xiàn)具有大量粉絲的明星用戶通常只具有少量的好友數(shù)目,而且這些好友往往也是高粉絲用戶甚至明星用戶,這些用戶的微博往往具有很高的回復(fù)與轉(zhuǎn)發(fā)率。也有一些用戶,比如媒體或廣告,擁有較高的粉絲數(shù)量和好友人數(shù),而這些用戶所 發(fā)布的微博常常是為特定產(chǎn)品或品牌服務(wù)的,這些微博也常常不會被廣泛關(guān)注。圖6為用戶好友數(shù)與用戶粉絲數(shù)對比關(guān)系,分別以粉絲數(shù)量排名前1000位的新浪微博認證用戶,1000位非新浪微博認證用戶以及1000名隨機選出用戶作為數(shù)據(jù)樣本。從圖6中可以看出,隨機選出的新浪微博用戶,即普通微博用戶,其好友數(shù)量/粉絲數(shù)量在I之間上下浮動,而新浪微博認證用戶的粉絲數(shù)量遠遠超過其好友人數(shù)。因此,為了避免一個權(quán)威用戶過量地將自身權(quán)威性傳遞給該用戶的每一個好友,本發(fā)明以公式(6)代替了原HITS算法公式
(2)^ = Z /n
v/;^ / I(6)公式(6)保證了用戶j將公平地將自身權(quán)重平均分配到他的每一位好友身上,取代了原HITS算法中結(jié)點將自身權(quán)重全額傳遞給每一個連接結(jié)點的思想。步驟2 :改進HITS算法在微博用戶權(quán)重計算中的優(yōu)化因為HITS算法需要迭代計算,因此具有較高的時間復(fù)雜度。傳統(tǒng)的HITS算法被應(yīng)用于互聯(lián)網(wǎng)的網(wǎng)頁權(quán)重計算。當(dāng)一個用戶通過網(wǎng)頁A連接到網(wǎng)頁B,而網(wǎng)頁B中存在指向網(wǎng)頁C的連接,如果網(wǎng)頁A、B、C間存在較強的主題相關(guān)性,那么這個用戶將有很高的可能行通過網(wǎng)頁A,瀏覽到網(wǎng)頁B和C,也就是說網(wǎng)頁A會同時對網(wǎng)頁B和C產(chǎn)生影響。HITS算法的作用方式就是用戶對于網(wǎng)頁的點擊,因此通過迭代的方式計算網(wǎng)頁權(quán)重雖然耗時,卻是必要的。圖7為微博好友關(guān)系示意圖,單向的連接關(guān)系存在于用戶A、B、C與D之間。當(dāng)用戶B轉(zhuǎn)發(fā)了 A的微博,而之后用戶C評論了 B對A的轉(zhuǎn)發(fā),首先需要判斷的是用戶C的評論是源自用戶B的影響力與微博內(nèi)容本身,還是用戶A的影響力依然作用于用戶C對用戶B轉(zhuǎn)發(fā)微博的評論行為。在新浪微博中,若用戶B轉(zhuǎn)發(fā)了用戶A發(fā)布的一條微博信息,當(dāng)用戶C通過用戶B看到這條信息并決定轉(zhuǎn)發(fā)時,系統(tǒng)回復(fù)機制允許C同時回復(fù)給用戶B和A。如果D通過用戶C看到A最初發(fā)布的這條微博信息并決定轉(zhuǎn)發(fā)時,系統(tǒng)回復(fù)機制允許D同時回復(fù)給C和A。也就是說,每一次用戶的轉(zhuǎn)發(fā)行為都可能會連帶回復(fù)原始作者與傳播關(guān)系中的上一級用戶。因此,為了避免上述轉(zhuǎn)發(fā)機制對于用戶影響力傳播關(guān)系分析的干擾,本發(fā)明只選擇轉(zhuǎn)發(fā)數(shù)量為0的微博進行下面的測試。測試中,我們收集每一條微博評論的回復(fù)用戶信息。表I分別為排名前1000位的認證用戶,排名前1000位的非認證用戶,與1000位普通用戶的0轉(zhuǎn)發(fā)微博評論情況,從表I中可以看出,普通用戶的微博評論者中,只有0. 02%的評論來自一個陌生的用戶,即便對于著名的明星用戶而言,來自陌生人的評論也僅占很小一部分。因此我們可以得到結(jié)論一篇微博之所以被關(guān)注,主要源于微博內(nèi)容本身,以及用戶在網(wǎng)絡(luò)中的鄰居發(fā)布者,而與微博的傳播過程中的間接轉(zhuǎn)發(fā)者幾乎毫無關(guān)系。因此,對于改進HITS算法在計算微博中用戶權(quán)重關(guān)系的應(yīng)用中,不再需要進行用戶權(quán)重的迭代計算,這樣使得本發(fā)明優(yōu)化后的改進HITS算法更加合理,同時更大大降低了算法的時間復(fù)雜度。最終,公式(7)優(yōu)化后的改進HITS算法,其中Fj表示用戶j的粉絲數(shù)量。
權(quán)利要求
1.一種基于新浪微博的用戶等級排序算法,其特征在于包括如下步驟 a、抓取新浪微博中的實時數(shù)據(jù); b、通過數(shù)據(jù)分析確定新浪微博中影響用戶等級排序的制約因素; C、建立用戶等級排序中用戶影響カ參考模型; d、建立用戶等級排序中用戶活躍度參考模型; e、通過用戶影響カ與用戶活躍度模型加權(quán)獲得用戶權(quán)重計算模型,利用該模型實現(xiàn)新浪微博用戶等級排序。
2.如權(quán)利要求I所述的ー種基于新浪微博的用戶等級排序算法,其特征在于步驟a中所述的抓取新浪微博中的實時數(shù)據(jù)過程為 al、利用新浪微博開放API接ロ抓取新浪微博實時數(shù)據(jù); a2、利用網(wǎng)絡(luò)爬蟲與網(wǎng)頁解析技術(shù)采集開放API功能以及限制之外的新浪微博在線數(shù)據(jù); a3、設(shè)計結(jié)合新浪微博開放API與網(wǎng)頁解析技術(shù)的新浪微博數(shù)據(jù)采集程序,實現(xiàn)數(shù)據(jù)的全面高效獲取。
3.如權(quán)利要求I所述的ー種基于新浪微博的用戶等級排序算法,其特征在于步驟b中所述的分析確定新浪微博中影響用戶等級排序的制約因素包括以下步驟 bl、判斷用戶粉絲數(shù)量與用戶微博影響カ關(guān)系; b2、分析用戶微博影響カ隨時間的演化規(guī)律; b3、分析用戶的微博回復(fù)與轉(zhuǎn)發(fā)關(guān)系; b4、判斷用戶好友數(shù)量與用戶微博影響カ的關(guān)系。
4.如權(quán)利要求I所述的ー種基于新浪微博的用戶等級排序算法,其特征在于步驟e中所述的通過用戶影響カ與用戶活躍度模型加權(quán)獲得用戶權(quán)重計算模型,利用該模型實現(xiàn)新浪微博用戶等級排 序具體如下W = Wi+ λ . Wa 其中W為新浪微博用戶權(quán)重。用戶權(quán)重由用戶影響力Wi與用戶活躍度Wa加權(quán)構(gòu)成,參數(shù)λ用來調(diào)節(jié)這兩部分權(quán)重數(shù)值上的平衡。
5.如權(quán)利要求4所述的ー種基于新浪微博的用戶等級排序算法,其特征在于所述的相應(yīng)用戶影響カ參考模型為
6.如權(quán)利要求4所述的ー種基于新浪微博的用戶等級排序算法,其特征在于所述的相應(yīng)用戶活躍度參考模型為
全文摘要
本發(fā)明公開了一種基于新浪微博的用戶等級排序算法,包括如下步驟a、抓取新浪微博中的實時數(shù)據(jù);b、通過數(shù)據(jù)分析確定新浪微博中影響用戶等級排序的制約因素;c、建立用戶等級排序中用戶影響力參考模型;d、建立用戶等級排序中用戶活躍度參考模型;e、通過用戶影響力與用戶活躍度模型加權(quán)獲得用戶權(quán)重計算模型,利用該模型實現(xiàn)新浪微博用戶等級排序??捎糜谏缃痪W(wǎng)絡(luò)研究領(lǐng)域。本發(fā)明具有較高的合理性與較小的時間損耗,適用于實時網(wǎng)絡(luò)環(huán)境中。
文檔編號G06F17/30GK102663101SQ20121010921
公開日2012年9月12日 申請日期2012年4月13日 優(yōu)先權(quán)日2012年4月13日
發(fā)明者劉云, 周欣, 廉捷, 曹偉, 李維杰, 陳海強 申請人:中國信息安全測評中心, 北京交通大學(xué)