一種基于多向測度和屬性相似度的混合協(xié)同過濾方法
【專利摘要】本發(fā)明公開了一種基于多向測度和屬性相似度的混合協(xié)同過濾方法,本發(fā)明在基于用戶和基于項(xiàng)目的情況下,對皮爾遜相似性和多項(xiàng)測度相似性做了對比,多向測度相似性的結(jié)果比皮爾遜相似性有顯著提高,取得了更好的推薦精度。接著,在基于用戶多向測度相似性的基礎(chǔ)上,進(jìn)一步考慮用戶對屬性的偏好作為相似性的一部分,推薦精度有一定提高。
【專利說明】一種基于多向測度和屬性相似度的混合協(xié)同過濾方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種信息推薦方法,尤其涉及一種基于多向測度和屬性相似度的混合協(xié)同過濾方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)快速發(fā)展,網(wǎng)絡(luò)中的資源數(shù)量以指數(shù)級增長,用戶不得不面對浩如煙海的網(wǎng)絡(luò)信息,加大了在其中尋找對用戶有益信息的難度,這就是信息過載。推薦系統(tǒng)作為一種信息過濾手段,可以根據(jù)用戶的興趣給用戶提供個(gè)性化推薦,是當(dāng)前解決上述問題的有效方法。在網(wǎng)絡(luò)時(shí)代之前,人們往往會(huì)從與自己有相同喜好的同伴那里獲得各種建議以幫助自己決策,這就是協(xié)同過濾的出發(fā)點(diǎn)。協(xié)同過濾通過計(jì)算用戶或項(xiàng)目間的相似性,找出有相似偏好的用戶或相似的項(xiàng)目,預(yù)測目標(biāo)用戶的喜好,進(jìn)而作出推薦,獨(dú)立于項(xiàng)目本身的內(nèi)容,且具有易于實(shí)現(xiàn)的優(yōu)點(diǎn),目前已取得廣泛應(yīng)用。推薦系統(tǒng)的其他方法還有貝葉斯網(wǎng)絡(luò)模型,條件概率,基于圖技術(shù)的推薦算法等。與此同時(shí),數(shù)據(jù)存儲的方便導(dǎo)致網(wǎng)絡(luò)中的數(shù)據(jù)不斷增長,每一個(gè)用戶不可能對眾多的項(xiàng)目都有評分信息,進(jìn)而使用戶對項(xiàng)目的評分矩陣高度稀疏,傳統(tǒng)協(xié)同過濾相似性計(jì)算方法也逐漸暴露了其局限性,無法適應(yīng)在大數(shù)據(jù)時(shí)代下的要求,在數(shù)據(jù)稀疏情況下推薦效果不佳,我們在后面的介紹中會(huì)分析傳統(tǒng)相似性計(jì)算方法存在的弊端。另外,對于新加入系統(tǒng)的用戶,其對項(xiàng)目的評分太少,以至于無法提供使推薦系統(tǒng)分析出該用戶的偏好情況的信息,系統(tǒng)不能對該用戶做出準(zhǔn)確的推薦,這就是新用戶問題。對于新加入系統(tǒng)的項(xiàng)目,用戶對該項(xiàng)目評分太少,系統(tǒng)也不能將這個(gè)項(xiàng)目推薦給用戶,這就是新項(xiàng)目問題。新用戶和新項(xiàng)目問題都屬于冷啟動(dòng)問題[1°]。由于存在這些問題,一些學(xué)者提出種種改進(jìn)措施,文獻(xiàn)【I】提出基于項(xiàng)目的項(xiàng)目評分相似性和項(xiàng)目屬性相似性自適應(yīng)權(quán)值加權(quán)結(jié)合,以解決新項(xiàng)目問題,但不能解決新用戶問題。文獻(xiàn)【2】提出基于閾值的對余弦相似性的改進(jìn),該方法可以提高推薦的多樣性,但不能保證推薦準(zhǔn)確度。文獻(xiàn)【3】提出基于交疊的鄰居集選擇方法,該方法要求設(shè)置合適的參數(shù)。文獻(xiàn)【4】提出基于用戶的項(xiàng)目評分池方法,根據(jù)用戶對項(xiàng)目的評分將用戶分成多個(gè)獨(dú)立子集分別對總評分做出貢獻(xiàn),該方法一定程度上提高了推薦準(zhǔn)確度,但并不能解決數(shù)據(jù)稀疏問題,而且需要調(diào)整的參數(shù)眾多。
【發(fā)明內(nèi)容】
[0003]因此,本文提出一種基于多向測度和項(xiàng)目屬性的相似性計(jì)算方法,利用用戶對項(xiàng)目屬性的偏好程度和多向測度相似性計(jì)算方法加權(quán)結(jié)合,得到用戶間相似性,最后生成推薦。實(shí)驗(yàn)表明該方法較傳統(tǒng)相似性計(jì)算方法具有了更好的準(zhǔn)確度,在數(shù)據(jù)稀疏的情況下,結(jié)果仍較好。過程如下:
[0004]讀入用戶-項(xiàng)目評分矩陣和項(xiàng)目屬性矩陣。項(xiàng)目屬性矩陣是n*k矩陣,η是項(xiàng)目數(shù),k是屬性數(shù),元素s(i, j)=l表示項(xiàng)目i有屬性j, s(i, j)=0表示項(xiàng)目i沒有屬性j。
[0005]進(jìn)一步的,計(jì)算每個(gè)用戶的平均評分和每個(gè)項(xiàng)目的平均評分。則進(jìn)-步的,按公式
【權(quán)利要求】
1.一種基于多向測度和屬性相似度的混合協(xié)同過濾方法,讀入用戶-項(xiàng)目評分矩陣和項(xiàng)目屬性矩陣。項(xiàng)目屬性矩陣是n*k矩陣,η是項(xiàng)目數(shù),k是屬性數(shù),元素S (i, j) =1表示項(xiàng)目i有屬性j,s(i, j)=0表示項(xiàng)目i沒有屬性j。
2.一種基于多向測度和屬性相似度的混合協(xié)同過濾方法,計(jì)算每個(gè)用戶的平均評分和每個(gè)項(xiàng)目的平均評分。
3.一種基于多向測度和屬性相似度的混合協(xié)同過濾方法,按公式
計(jì)算用戶對項(xiàng)目屬性的評分,并計(jì)算出每個(gè)用戶對項(xiàng)目屬性的平均評分和每個(gè)屬性的平均評分,其中,sum(u,j)表示用戶u對具有屬性j的項(xiàng)目的總評分,num (u, j)表示用戶u對有屬性j的項(xiàng)目的評分次數(shù)。
4.一種基于多向測度和屬性相似度的混合協(xié)同過濾方法,按公式
計(jì)算用戶對項(xiàng)目的多向測度相似度simi,用戶對項(xiàng)目屬性的多向
測度相似度sims,其中,
分別表示用
戶U對項(xiàng)目i的評分和用戶V對項(xiàng)目i的評分,ξ,€分別表示用戶U和用戶V的平均評分。
5.基于權(quán)利要求4所屬的公式sim(U,V)以及多向測度相似度sims,將simi和sims加
權(quán)結(jié)合,權(quán)重為E,對simi和sims進(jìn)行歸一化,歸一化公式為
其中max,
min分別是simi中的最大相似度,最小相似度。同理,對sims歸一化,最后得到混合相似度sim, sim=simi+E*sims0
6.一種基于多向測度和屬性相似度的混合協(xié)同過濾方法,獲得近鄰。采用Top-k方法選擇前k個(gè)與目標(biāo)用戶相似度最大的用戶作為目標(biāo)用戶近鄰。
7.一種基于多向測度和屬性相似度的混合協(xié)同過濾方法,預(yù)測評分按公式
計(jì)算用戶U對待測項(xiàng)目評分i的預(yù)測評分,其中分別是用戶U,V的平均分,rVii表示用戶V對項(xiàng)目i的評分,Piu是用戶u對項(xiàng)目i的預(yù)測評分,Neighbor(u)表示用戶u的近鄰集合。
【文檔編號】G06F19/00GK104077468SQ201410141421
【公開日】2014年10月1日 申請日期:2014年4月9日 優(yōu)先權(quán)日:2014年4月9日
【發(fā)明者】貢曉斌 申請人:丹陽市天恒信息科技有限公司