一種社交網(wǎng)絡(luò)推薦系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種社交網(wǎng)絡(luò)推薦系統(tǒng)及方法,涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。本發(fā)明公開的系統(tǒng)包括:并行數(shù)據(jù)獲取模塊,并行獲取必要的社交網(wǎng)絡(luò)數(shù)據(jù),實時獲取用戶間的交互信息;用戶間鏈接強度計算模塊,基于用戶間的交互信息并行計算用戶間的鏈接強度;并行化社區(qū)發(fā)現(xiàn)模塊,根據(jù)用戶間的鏈接強度,結(jié)合相應(yīng)的聚類算法,實現(xiàn)并行化的社區(qū)發(fā)現(xiàn);基于社區(qū)發(fā)現(xiàn)結(jié)果的潛在信息分析與推薦模塊,在社區(qū)發(fā)現(xiàn)的基礎(chǔ)上,分析用戶潛在的信息,分析特定社區(qū)的成因結(jié)構(gòu)特性、關(guān)鍵用戶以及分析關(guān)鍵詞在社區(qū)間的分布特性,對社交網(wǎng)絡(luò)中的用戶,綜合其個體信息及所在社區(qū)信息進行推薦。本發(fā)明還公開了社交網(wǎng)絡(luò)推薦方法。本申請技術(shù)方案提高了推薦系統(tǒng)的定向性和準(zhǔn)確性。
【專利說明】一種社交網(wǎng)絡(luò)推薦系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘和網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種社交網(wǎng)絡(luò)推薦系統(tǒng)及方法。
【背景技術(shù)】
[0002]近年來,社交網(wǎng)絡(luò)迅速崛起,極大的改變了人們的工作和生活。社交網(wǎng)絡(luò)可以便捷的共享個人和專業(yè)信息,例如興趣愛好,【技術(shù)領(lǐng)域】等,并且提供多樣化的溝通方式,例如關(guān)注,評論,轉(zhuǎn)發(fā)等。這些行為一方面使得網(wǎng)絡(luò)數(shù)據(jù)的激增,這些規(guī)模巨大的數(shù)據(jù)背后隱藏著許多有價值的信息;另一方面在社交網(wǎng)絡(luò)中構(gòu)成了社區(qū)結(jié)構(gòu),社區(qū)內(nèi)部的用戶之間關(guān)系緊密,社區(qū)之間的關(guān)系則較為稀疏。
[0003]同時,推薦系統(tǒng)已經(jīng)廣泛的運用于各種領(lǐng)域,諸如電子商務(wù),社交網(wǎng)絡(luò)等都不同程度的使用了各種形式的推薦系統(tǒng)。其中,常用的協(xié)同過濾技術(shù)尤其適合應(yīng)用在文化產(chǎn)品上,例如推薦音樂,電影等。但是協(xié)同過濾技術(shù)也同樣存在著很多局限性:如冷啟動問題,評分矩陣稀疏問題,可擴展性問題等等,這些都成為制約推薦系統(tǒng)實施的重要因素。提高推薦的及時性和準(zhǔn)確性一直是推薦系統(tǒng)研究的熱點和難點。
[0004]許多研究工作已經(jīng)取得了一定的效果,但仍然沒能很好的綜合處理社交網(wǎng)絡(luò)場景下的推薦問題。比如:社交網(wǎng)絡(luò)中數(shù)據(jù)集的快速獲取問題、合理的鏈接強度的計算問題、對大數(shù)據(jù)集的并行化處理問題、數(shù)據(jù)分析與推薦的及時性和準(zhǔn)確性問題、流量和存儲空間的有效利用問題等等。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的技術(shù)問題是,提供一種社交網(wǎng)絡(luò)推薦系統(tǒng)及方法,保證對大規(guī)模數(shù)據(jù)集推薦的高效性、可靠性和及時性。
[0006]為了解決上述技術(shù)問題,本發(fā)明公開了一種社交網(wǎng)絡(luò)推薦系統(tǒng),其包括:
[0007]并行數(shù)據(jù)獲取模塊,并行獲取必要的社交網(wǎng)絡(luò)數(shù)據(jù),實時獲取用戶間的交互信息,并存儲所獲取的數(shù)據(jù)集;
[0008]用戶間鏈接強度計算模塊,基于所述并行數(shù)據(jù)獲取模塊所獲取的用戶間的交互信息進行用戶間的鏈接強度的并行計算;
[0009]并行化社區(qū)發(fā)現(xiàn)模塊,根據(jù)所述用戶間鏈接強度計算模塊計算出的用戶間的鏈接強度,結(jié)合相應(yīng)的聚類算法,對并行數(shù)據(jù)獲取模塊所獲取的數(shù)據(jù)集實現(xiàn)并行化的社區(qū)發(fā)現(xiàn);
[0010]基于社區(qū)發(fā)現(xiàn)結(jié)果的潛在信息分析與推薦模塊,在并行化社區(qū)發(fā)現(xiàn)模塊社區(qū)發(fā)現(xiàn)結(jié)果的基礎(chǔ)上,分析用戶潛在的信息,分析特定社區(qū)的成因結(jié)構(gòu)特性、關(guān)鍵用戶以及分析關(guān)鍵詞在社區(qū)間的分布特性,對社交網(wǎng)絡(luò)中的用戶,綜合其個體信息及所在社區(qū)信息進行推薦。
[0011]較佳地,上述系統(tǒng)中,所述必要的社交網(wǎng)絡(luò)數(shù)據(jù)包括如下任一種或幾種:
[0012]用戶信息、關(guān)注列表、粉絲列表、@信息、話題信息、標(biāo)簽信息、博文消息列表與評論列表。
[0013]較佳地,上述系統(tǒng)中,所述用戶間鏈接強度計算模塊進行用戶間的鏈接強度的并行計算的過程如下:
[0014]對所述并行數(shù)據(jù)獲取模塊所獲取的整個數(shù)據(jù)集中的用戶ID進行取模運算,得到的模數(shù)為集群計算節(jié)點數(shù);
[0015]根據(jù)計算得到的各用戶對應(yīng)的模值,將用戶數(shù)據(jù)分割到對應(yīng)的計算節(jié)點,并行計算用戶間的鏈接強度。
[0016]較佳地,上述系統(tǒng)中,所述用戶間鏈接強度計算模塊按照如下公式計算用戶間的鏈接強度Wij:
【權(quán)利要求】
1.一種社交網(wǎng)絡(luò)推薦系統(tǒng),其特征在于,該系統(tǒng)包括: 并行數(shù)據(jù)獲取模塊,并行獲取必要的社交網(wǎng)絡(luò)數(shù)據(jù),實時獲取用戶間的交互信息,并存儲所獲取的數(shù)據(jù)集; 用戶間鏈接強度計算模塊,基于所述并行數(shù)據(jù)獲取模塊所獲取的用戶間的交互信息進行用戶間的鏈接強度的并行計算; 并行化社區(qū)發(fā)現(xiàn)模塊,根據(jù)所述用戶間鏈接強度計算模塊計算出的用戶間的鏈接強度,結(jié)合相應(yīng)的聚類算法,對并行數(shù)據(jù)獲取模塊所獲取的數(shù)據(jù)集實現(xiàn)并行化的社區(qū)發(fā)現(xiàn); 基于社區(qū)發(fā)現(xiàn)結(jié)果的潛在信息分析與推薦模塊,在并行化社區(qū)發(fā)現(xiàn)模塊社區(qū)發(fā)現(xiàn)結(jié)果的基礎(chǔ)上,分析用戶潛在的信息,分析特定社區(qū)的成因結(jié)構(gòu)特性、關(guān)鍵用戶以及分析關(guān)鍵詞在社區(qū)間的分布特性,對社交網(wǎng)絡(luò)中的用戶,綜合其個體信息及所在社區(qū)信息進行推薦。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述必要的社交網(wǎng)絡(luò)數(shù)據(jù)包括如下任一種或幾種: 用戶信息、關(guān)注列表、粉絲列表、@信息、話題信息、標(biāo)簽信息、博文消息列表與評論列表。
3.如權(quán)利要求1或2所述的系統(tǒng),其特征在于,所述用戶間鏈接強度計算模塊進行用戶間的鏈接強度的并行計算的過程如下: 對所述并行數(shù)據(jù)獲取模塊所獲取的整個數(shù)據(jù)集中的用戶ID進行取模運算,得到的模數(shù)為集群計算節(jié)點數(shù); 根據(jù)計算得到的各用戶對應(yīng)的模值,將用戶數(shù)據(jù)分割到對應(yīng)的計算節(jié)點,并行計算用戶間的鏈接強度。
4.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述用戶間鏈接強度計算模塊按照如下公式計算用戶間的鏈接強度Wij:
其中,Wu為用戶i與用戶j間的鏈接強度,rji = 1,2,3)分別表示用戶i與用戶j之間的好友關(guān)系,用戶i與用戶j之間@的次數(shù)以及用戶i與用戶j之間評論的次數(shù),k表示用戶i與用戶j之間的各種交互信息的權(quán)重。
5.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述并行化社區(qū)發(fā)現(xiàn)模塊根據(jù)所述用戶間鏈接強度計算模塊計算出的用戶間的鏈接強度,結(jié)合相應(yīng)的聚類算法,對并行數(shù)據(jù)獲取模塊所獲取的數(shù)據(jù)集實現(xiàn)并行化的社區(qū)發(fā)現(xiàn)指: 將并行計算的用戶間的鏈接強度組成的鄰接矩陣分割到各個計算節(jié)點上,并行計算其度矩陣和Laplacian矩陣; 對Laplacian矩陣進行特征值和特征向量的并行Lanczos數(shù)值求解,得到矩陣前K個最大特征值和對應(yīng)的特征向量; 將得到的特征向量排成一行,構(gòu)造出特征向量矩陣U,并對其行歸一化,得到規(guī)范化特征向量矩陣Y; 再對規(guī)范化的特征向量矩陣Y進行特征提取,將每行看作一個點,代表原來的抽象個體的歐式空間映射,采用基于距離的聚類方法將其聚類成K類;根據(jù)點的對應(yīng)關(guān)系,將原來的社區(qū)中的個體等價地劃為K類,完成社區(qū)的分類。
6.一種社交網(wǎng)絡(luò)推薦方法,其特征在于,該方法包括: 并行獲取必要的社交網(wǎng)絡(luò)數(shù)據(jù),實時獲取用戶間的交互信息,并存儲所獲取的數(shù)據(jù)集; 基于所獲取的用戶間的交互信息進行用戶間的鏈接強度的并行計算; 根據(jù)所述用戶間的鏈接強度,結(jié)合相應(yīng)的聚類算法,對所獲取的數(shù)據(jù)集實現(xiàn)并行化的社區(qū)發(fā)現(xiàn); 在并行化的社區(qū)發(fā)現(xiàn)結(jié)果的基礎(chǔ)上,分析用戶潛在的信息,分析特定社區(qū)的成因結(jié)構(gòu)特性、關(guān)鍵用戶以及分析關(guān)鍵詞在社區(qū)間的分布特性,對社交網(wǎng)絡(luò)中的用戶,綜合其個體信息及所在社區(qū)信息進行推薦。
7.如權(quán)利要求6所述的方法,其特征在于,所述必要的社交網(wǎng)絡(luò)數(shù)據(jù)包括如下任一種或幾種: 用戶信息、關(guān)注列表、粉絲列表、@信息、話題信息、標(biāo)簽信息、博文消息列表與評論列表。
8.如權(quán)利要求6或7所述的方法,其特征在于,用戶間的鏈接強度的并行計算的過程如下: 對所獲取的整個數(shù)據(jù)集中的用戶ID進行取模運算,得到的模數(shù)為集群計算節(jié)點數(shù);根據(jù)計算得到的各用戶對應(yīng)的模值,將用戶數(shù)據(jù)分割到對應(yīng)的計算節(jié)點,并行計算用戶間的鏈接強度。
9.如權(quán)利要求8所述的方法,其特征在于,按照如下公式計算用戶間的鏈接強度Wij:
其中,Wu為用戶i與用戶j間的鏈接強度,^ (i = 1,2,3)分別表示用戶i與用戶j之間的好友關(guān)系,用戶i與用戶j之間@的次數(shù)以及用戶i與用戶j之間評論的次數(shù),k表示用戶i與用戶j之間的各種交互信息的權(quán)重。
10.如權(quán)利要求8所述的方法,其特征在于,根據(jù)所述用戶間的鏈接強度,結(jié)合相應(yīng)的聚類算法,對所獲取的數(shù)據(jù)集實現(xiàn)并行化的社區(qū)發(fā)現(xiàn)的過程如下: 將并行計算的用戶間的鏈接強度組成的鄰接矩陣分割到各個計算節(jié)點上,并行計算其度矩陣和Laplacian矩陣; 對Laplacian矩陣進行特征值和特征向量的并行Lanczos數(shù)值求解,得到矩陣前K個最大特征值和對應(yīng)的特征向量; 將得到的特征向量排成一行,構(gòu)造出特征向量矩陣U,并對其行歸一化,得到規(guī)范化特征向量矩陣Y; 再對規(guī)范化的特征向量矩陣Y進行特征提取,將每行看作一個點,代表原來的抽象個體的歐式空間映射,采用基于距離的聚類方法將其聚類成K類; 根據(jù)點的對應(yīng)關(guān)系,將原來的社區(qū)中的個體等價地劃為K類,完成社區(qū)的分類。
【文檔編號】G06Q50/00GK104077723SQ201310097930
【公開日】2014年10月1日 申請日期:2013年3月25日 優(yōu)先權(quán)日:2013年3月25日
【發(fā)明者】陸平, 羅圣美, 胡磊, 王橋, 林云龍, 鄒俊洋, 鐘齊煒, 陸建 申請人:中興通訊股份有限公司