本發(fā)明屬于無線網(wǎng)絡(luò)技術(shù)領(lǐng)域,涉及在線社交網(wǎng)絡(luò)的好友推薦方法,可應(yīng)用于基于位置的在線社交網(wǎng)絡(luò)服務(wù)。
背景技術(shù):
基于位置的社交網(wǎng)絡(luò)幫助用戶在線分享他們的實(shí)時(shí)位置以便于用戶可以發(fā)現(xiàn)感興趣的位置并結(jié)交朋友。例如,用戶可以通過好友分享的位置發(fā)現(xiàn)自己感興趣的地點(diǎn),或者通過查找與自己分享相似地點(diǎn)的用戶來結(jié)交新的好友。此外,隨著智能手機(jī)的普及,其內(nèi)置的gps模塊可以更加精確的探測用戶的位置,使得用戶可以更加便利的分享各自的位置。因此,這種簽到服務(wù)吸引了越來越多的用戶。如何使用大量的簽到信息為用戶進(jìn)行好友推薦需要得到重視。
推薦系統(tǒng)在社交網(wǎng)絡(luò)和電子商務(wù)網(wǎng)站中扮演了重要的角色,在電子商務(wù)網(wǎng)站中,現(xiàn)有的推薦系統(tǒng)通常使用用戶的購買記錄來分析用戶的偏好,正如電子商務(wù)網(wǎng)站的購買記錄,用戶在基于位置的社交網(wǎng)絡(luò)中的簽到歷史也包含了大量的關(guān)于用戶偏好的信息。
在使用用戶的簽到信息進(jìn)行好友推薦時(shí),由于用戶通常只會(huì)在數(shù)據(jù)庫中的一小部分地點(diǎn)進(jìn)行簽到行為,因此進(jìn)行好友推薦的可用數(shù)據(jù)較為稀疏。為了緩解數(shù)據(jù)稀疏的問題,現(xiàn)有方案分為如下幾種:根據(jù)簽到地點(diǎn)的密度進(jìn)行分類,將一些地理位置較為接近的簽到地點(diǎn)看作同一個(gè)簽到地點(diǎn);使用用戶好友的簽到數(shù)據(jù)填充到用戶的簽到數(shù)據(jù)中。但是,地理位置接近的地點(diǎn)可能代表了用戶不同的興趣愛好,同樣,好友的愛好并不能完全代替用戶自身的興趣愛好,這兩種行為都在一定程度上降低了好友推薦的精度。
在考慮時(shí)間信息的推薦系統(tǒng)方面,現(xiàn)有系統(tǒng)多用在電子商務(wù)網(wǎng)站與電影推薦網(wǎng)站,通過分析用戶長期的購買記錄與電影的觀看記錄分析用戶的偏好來進(jìn)行推薦。相比于長期的趨勢,用戶的簽到行為在一天的具體時(shí)間可以提供更多反映用戶偏好的信息。而在現(xiàn)有社交網(wǎng)絡(luò)推薦系統(tǒng)中,只通過分析簽到地點(diǎn)的時(shí)間屬性對簽到地點(diǎn)進(jìn)行了分類,并未對用戶簽到行為的時(shí)間分布進(jìn)行分析來進(jìn)行好友推薦,因此推薦的準(zhǔn)確率不夠理想。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于針對上述已有技術(shù)的不足,提出一種在位置社交網(wǎng)絡(luò)中基于時(shí)間分布相對熵的好友推薦方法,以提高推薦的準(zhǔn)確率。
本發(fā)明的技術(shù)思路是:通過將擁有相似語義信息的地點(diǎn)歸為一類,解決推薦系統(tǒng)中可用數(shù)據(jù)稀疏的問題,使用詞頻-逆文檔頻率平衡熱門地點(diǎn)與用戶自身的興趣,并選出用戶最感興趣的地點(diǎn)類別,同時(shí)通過計(jì)算用戶間簽到行為隨時(shí)間分布的相對熵,綜合考慮用戶感興趣的地點(diǎn)類別和用戶間的簽到分布相對熵,實(shí)現(xiàn)更加準(zhǔn)確的好友推薦。其實(shí)現(xiàn)方案包括如下:
(1)建立一個(gè)由用戶、定位設(shè)施和社交網(wǎng)絡(luò)服務(wù)器構(gòu)成的通信系統(tǒng),
(2)用戶將位置的經(jīng)緯度與當(dāng)前的時(shí)間信息發(fā)送給社交網(wǎng)絡(luò)服務(wù)器,生成簽到信息;
(3)社交網(wǎng)絡(luò)服務(wù)器對存儲(chǔ)的簽到信息進(jìn)行預(yù)處理:
(3a)針對簽到信息中的經(jīng)緯度查找服務(wù)器的位置語義數(shù)據(jù)庫,獲取與簽到地點(diǎn)對應(yīng)的語義信息,再將每個(gè)用戶的簽到信息按其簽到地點(diǎn)的語義信息分類統(tǒng)計(jì)簽到次數(shù);
(3b)針對簽到信息中的時(shí)間信息,在步驟(3a)的基礎(chǔ)上,統(tǒng)計(jì)每個(gè)用戶在每個(gè)地點(diǎn)類別下的簽到行為隨時(shí)間的分布;
(4)根據(jù)用戶在各地點(diǎn)類別下簽到行為隨時(shí)間的分布,計(jì)算兩個(gè)用戶在相同地點(diǎn)類別下簽到分布的相對熵d(p||q),其中p和q分別為兩個(gè)不同用戶在相同地點(diǎn)類別的簽到次數(shù)隨時(shí)間的概率分布;
(5)根據(jù)用戶u在各地點(diǎn)類別下的簽到次數(shù),分別計(jì)算用戶u對于地點(diǎn)類別c的詞頻值tu,c和地點(diǎn)類別c的逆文檔頻率值ic,得到社交網(wǎng)絡(luò)服務(wù)器計(jì)算用戶u對于每個(gè)地點(diǎn)類別c的詞頻-逆文檔頻率分值f:
f=tu,c×ic
(6)根據(jù)用戶u對于每個(gè)地點(diǎn)類別c的詞頻-逆文檔頻率分值f,提取該用戶u最感興趣的地點(diǎn)類別:
(6a)對f中的逆文檔頻率值ic作冪運(yùn)算,得到新的詞頻-逆文檔頻率分值f*=tu,c×icα,其中icα為逆文檔頻率值ic的α次冪;
(6b)選擇f*最高的m個(gè)地點(diǎn)類別作為用戶u最感興趣的地點(diǎn)類別,其中m和α由實(shí)驗(yàn)確定;
(7)社交網(wǎng)絡(luò)服務(wù)器根據(jù)用戶最感興趣的地點(diǎn)類別,選取所有其他用戶中在這些地點(diǎn)類別下相對熵較小的n個(gè)用戶作為推薦結(jié)果發(fā)送給請求推薦的用戶,其中n的數(shù)量根據(jù)請求推薦的用戶所請求的好友推薦數(shù)量確定。
本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):
1)本發(fā)明由于使用了簽到地點(diǎn)的語義信息進(jìn)行分類,在緩解推薦可用數(shù)據(jù)稀疏性的同時(shí),保持了較高的推薦精度。
2)本發(fā)明由于使用了詞頻-逆文檔頻率模型提取用戶感興趣的地點(diǎn)類別,平衡了熱門簽到地點(diǎn)與用戶自身的偏好。
3)本發(fā)明由于對用戶的簽到行為隨時(shí)間的分布進(jìn)行了分析,并以用戶間簽到隨時(shí)間分布的相對熵為好友推薦的主要依據(jù),充分利用了簽到信息的地理信息與時(shí)間信息,從而保證了較高的推薦準(zhǔn)確性。
附圖說明
圖1是本發(fā)明使用的通信系統(tǒng)框架圖;
圖2是本發(fā)明的實(shí)現(xiàn)流程圖;
圖3是本發(fā)明所用推薦方案與未考慮時(shí)間因素的推薦方案的推薦準(zhǔn)確率對比圖;
圖4是本發(fā)明所用推薦方案與未考慮時(shí)間因素的推薦方案的推薦召回率對比圖。
具體實(shí)施方案
本發(fā)明的核心思想是在基于位置的社交網(wǎng)絡(luò)場景下,通過分析用戶簽到地點(diǎn)的語義信息將簽到數(shù)據(jù)進(jìn)行分類以緩解可用數(shù)據(jù)較為稀疏的問題,并綜合分析了簽到地點(diǎn)的熱度,用戶個(gè)人的偏好以及用戶簽到行為隨時(shí)間的分布規(guī)律用來對用戶進(jìn)行好友推薦,提高推薦的準(zhǔn)確度。
參照圖2,本發(fā)明實(shí)現(xiàn)步驟如下:
步驟1,建立通信系統(tǒng)框架。
參照圖1,本步驟建立的通信系統(tǒng)包括:用戶、定位設(shè)施、社交網(wǎng)絡(luò)服務(wù)器,其中用戶與定位設(shè)施和社交網(wǎng)絡(luò)服務(wù)器均通過移動(dòng)蜂窩網(wǎng)或wifi進(jìn)行雙向無線連接;
所述用戶,包含應(yīng)用模塊、數(shù)據(jù)庫模塊和gps模塊三個(gè)功能模塊;應(yīng)用模塊主要用于生成并發(fā)送簽到信息給社交網(wǎng)絡(luò)服務(wù)器;gps模塊主要用于向定位設(shè)施查詢位置信息并向應(yīng)用模塊提供用戶的地理位置信息;數(shù)據(jù)庫模塊主要用于存儲(chǔ)和管理用戶簽到和好友信息;
所述定位設(shè)施,主要包含gps模塊,該gps模塊主要用于對用戶的位置查詢進(jìn)行響應(yīng)并返回用戶的地理位置信息;
所述社交網(wǎng)絡(luò)服務(wù)器,包含應(yīng)用模塊和數(shù)據(jù)庫模塊兩個(gè)功能模塊;應(yīng)用模塊主要用于對用戶的簽到信息進(jìn)行分析整理并為用戶的好友推薦請求返回推薦結(jié)果,數(shù)據(jù)庫模塊主要用于存儲(chǔ)用戶的簽到數(shù)據(jù)和簽到地點(diǎn)的語義信息。
步驟2,采集簽到信息。
用戶借助定位設(shè)施獲得自身所在的地理位置信息,并將此地理位置信息與當(dāng)時(shí)的時(shí)間信息發(fā)送給社交網(wǎng)絡(luò)服務(wù)器生成簽到信息。
步驟3,社交網(wǎng)絡(luò)服務(wù)器對存儲(chǔ)的大量簽到信息進(jìn)行預(yù)處理。
(3a)針對簽到信息中的地理位置信息,查找服務(wù)器的位置語義數(shù)據(jù)庫獲取與簽到地點(diǎn)對應(yīng)的語義信息,然后將每個(gè)用戶的簽到信息按其簽到地點(diǎn)的語義信息分類統(tǒng)計(jì)簽到次數(shù);
(3b)針對簽到信息中的時(shí)間信息,將一天時(shí)間平均分成24個(gè)區(qū)間,統(tǒng)計(jì)用戶在地點(diǎn)類別c上每一時(shí)間區(qū)間上的簽到次數(shù)vc(i)和用戶在該地點(diǎn)類別總的簽到次數(shù)sc,得到用戶在地點(diǎn)類別c每一時(shí)間區(qū)間的簽到頻率pc(i)=vc(i)/sc,i=1,2,...,24,分別對應(yīng)所劃分的24個(gè)時(shí)間區(qū)間,由此得到用戶在某個(gè)地點(diǎn)類別簽到行為隨時(shí)間的分布。
步驟4,根據(jù)用戶在各地點(diǎn)類別下簽到行為隨時(shí)間的分布,計(jì)算兩個(gè)用戶在某地點(diǎn)類別下簽到分布的相對熵d(p||q):
其中,pc為用戶up在地點(diǎn)類別c下簽到數(shù)據(jù)隨時(shí)間的概率分布,qc為另一用戶uq在地點(diǎn)類別c下簽到數(shù)據(jù)隨時(shí)間的概率分布;i=1,2,...,24,其分別對應(yīng)步驟(3b)計(jì)算用戶簽到隨時(shí)間的概率分布時(shí)所劃分的24個(gè)時(shí)間區(qū)間。
步驟5,社交網(wǎng)絡(luò)服務(wù)器計(jì)算每個(gè)用戶u對于每個(gè)地點(diǎn)類別c的詞頻-逆文檔頻率分值f,并在此基礎(chǔ)上提取用戶最感興趣的地點(diǎn)類別。
(5a)社交網(wǎng)絡(luò)服務(wù)器計(jì)算用戶u在地點(diǎn)類別c下簽到信息的詞頻分值tu,c:
其中|cuc|表示用戶u在地點(diǎn)類別c下簽到的數(shù)量,|cu|表示用戶u的簽到總次數(shù);
(5b)社交網(wǎng)絡(luò)服務(wù)器計(jì)算每個(gè)地點(diǎn)類別c的逆文檔頻率分值ic:
其中,|u|表示服務(wù)器中所有用戶的數(shù)量,|uc|表示曾在地點(diǎn)類別c簽到的用戶的數(shù)量;
(5c)社交網(wǎng)絡(luò)服務(wù)器將用戶u在地點(diǎn)類別c下的詞頻分值tu,c與地點(diǎn)類別c的逆文檔頻率分值ic相乘,得到其在該地點(diǎn)類別下的詞頻-逆文檔頻率分值f:
f=tu,c×ic。
步驟6,根據(jù)用戶u對于每個(gè)地點(diǎn)類別c的詞頻-逆文檔頻率分值f,提取該用戶u最感興趣的地點(diǎn)類別。
(6a)對f中的逆文檔頻率值ic作冪運(yùn)算,得到新的詞頻-逆文檔頻率分值f*=tu,c×icα,其中icα為逆文檔頻率值ic的α次冪;
(6b)選擇f*最高的m個(gè)地點(diǎn)類別作為用戶u最感興趣的地點(diǎn)類別,其中m和α由實(shí)驗(yàn)確定。
步驟7,社交網(wǎng)絡(luò)服務(wù)器根據(jù)用戶最感興趣的地點(diǎn)類別,選取所有其他用戶中在這些地點(diǎn)類別下相對熵較小的n個(gè)用戶作為推薦結(jié)果發(fā)送給請求推薦的用戶。
(7a)將用戶最感興趣的地點(diǎn)類別下的用戶按相對熵升序排列;
(7b)選取用戶最感興趣的各地點(diǎn)類別下的前1個(gè)用戶,生成候選隊(duì)列;
(7c)判斷在這些候選隊(duì)列中同時(shí)出現(xiàn)的用戶數(shù)量:
如果有n個(gè)用戶同時(shí)出現(xiàn)在這些選中的列表中,則將這些用戶作為好友推薦的結(jié)果;
如果沒有n個(gè)用戶同時(shí)出現(xiàn)在這些選中的列表中,則選取用戶最感興趣的各地點(diǎn)類別下的前2個(gè)用戶,生成新的候選隊(duì)列,重新判斷,直到有n個(gè)用戶同時(shí)出現(xiàn)在這些列表中,其中n的數(shù)量根據(jù)請求推薦的用戶所請求的好友推薦數(shù)量確定。
本發(fā)明的效果可通過以下仿真實(shí)驗(yàn)進(jìn)一步說明:
1.實(shí)驗(yàn)條件設(shè)置
條件1,在gowalla獲得簽到數(shù)據(jù)集,選取其中紐約市的簽到數(shù)據(jù)組成數(shù)據(jù)集合,并選取其中簽到數(shù)量大于100次的用戶的58715條簽到數(shù)據(jù)作為實(shí)驗(yàn)的源數(shù)據(jù)。
條件2,在intel(r)corei3-2310mcpu(2.10ghz)處理器,4.00gb內(nèi)存,windows10家庭版32位操作系統(tǒng)的計(jì)算機(jī)上測試實(shí)驗(yàn)的結(jié)果。
2.實(shí)驗(yàn)內(nèi)容與結(jié)果
實(shí)驗(yàn)1:本發(fā)明好友推薦方案與傳統(tǒng)好友推薦方案推薦準(zhǔn)確率對比實(shí)驗(yàn)。
將條件1中實(shí)驗(yàn)數(shù)據(jù)平均分為3份,依次取其中一份作為測試集,其余兩份作訓(xùn)練集,首先在訓(xùn)練集上運(yùn)行本發(fā)明的推薦方案,方案提取用戶最感興趣的地點(diǎn)類別數(shù)量m為2,得到推薦準(zhǔn)確率最高的逆文檔頻率值ic的指數(shù)α,將α用于在測試集上提取用戶感興趣的地點(diǎn)類別,生成好友推薦結(jié)果;
在實(shí)驗(yàn)數(shù)據(jù)集上運(yùn)行未考慮時(shí)間因素的傳統(tǒng)好友推薦方案,得到相應(yīng)的好友列表和推薦結(jié)果,最后對兩種推薦方法的準(zhǔn)確率進(jìn)行計(jì)算,計(jì)算公式如下:
其中r(u)表示真實(shí)數(shù)據(jù)集中用戶u的好友列表,t(u)表示好友推薦系統(tǒng)返回的用戶u的推薦結(jié)果,u表示數(shù)據(jù)集中所有的用戶;
比較本發(fā)明推薦方案與傳統(tǒng)好友推薦方案推薦結(jié)果的準(zhǔn)確率隨推薦好友數(shù)量增加的變化情況,結(jié)果如圖3所示,其中本發(fā)明的推薦準(zhǔn)確率取三次交叉驗(yàn)證的平均值。
從圖3可見,本發(fā)明所用的好友推薦方案的準(zhǔn)確率明顯高于未考慮時(shí)間因素的傳統(tǒng)的好友推薦方案,推薦準(zhǔn)確率平均提升約9.1%。
實(shí)驗(yàn)2:本發(fā)明好友推薦方案與傳統(tǒng)好友推薦方案推薦召回率對比實(shí)驗(yàn)。
將條件1中實(shí)驗(yàn)數(shù)據(jù)平均分為3份,依次取其中一份作為測試集,其余兩份作訓(xùn)練集,首先在訓(xùn)練集上運(yùn)行本發(fā)明的推薦方案,方案提取用戶最感興趣的地點(diǎn)類別數(shù)量m為2,得到推薦準(zhǔn)確率最高的逆文檔頻率值ic的指數(shù)α,將α用于在測試集上提取用戶感興趣的地點(diǎn)類別,生成好友推薦結(jié)果;隨后在實(shí)驗(yàn)數(shù)據(jù)集上運(yùn)行未考慮時(shí)間因素的傳統(tǒng)好友推薦方案得到相應(yīng)的好友列表和推薦結(jié)果,最后對兩種推薦方法的召回率進(jìn)行計(jì)算,計(jì)算公式如下:
其中r(u)表示真實(shí)數(shù)據(jù)集中用戶u的好友列表,t(u)表示好友推薦系統(tǒng)返回的用戶u的推薦結(jié)果,u表示數(shù)據(jù)集中所有的用戶。
比較本發(fā)明推薦方案與傳統(tǒng)好友推薦方案推薦結(jié)果的召回率隨推薦好友數(shù)量增加的變化情況,結(jié)果如圖4所示,其中本發(fā)明的推薦召回率取三次交叉驗(yàn)證的平均值。
從圖4可見,本發(fā)明所用的方案召回率明顯高于未考慮時(shí)間的好友推薦方案,推薦召回率平均提升約19.0%。
綜上所述,本發(fā)明在推薦結(jié)果的準(zhǔn)確率與召回率方面均優(yōu)于傳統(tǒng)的好友推薦系統(tǒng),可以為基于位置社交網(wǎng)絡(luò)的用戶提供質(zhì)量更高的好友推薦服務(wù)。