一種物品相似度貢獻(xiàn)系數(shù)、相似度獲取方法及物品推薦方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是一種根據(jù)用戶對(duì)物品的訪問(wèn)行為獲取物品 相似度的方法,以及基于該相似度的物品推薦方法。
【背景技術(shù)】
[0002] 推薦系統(tǒng)在互聯(lián)網(wǎng)的各類(lèi)應(yīng)用中廣泛使用,如有些瀏覽器,它會(huì)記錄用戶對(duì)網(wǎng)絡(luò) 上物品的訪問(wèn)行為,通過(guò)分析用戶的歷史訪問(wèn)行為對(duì)用戶進(jìn)行興趣建模,從而為用戶推薦 符合其興趣的信息。如用戶用某瀏覽器瀏覽過(guò)羽毛球拍,瀏覽器根據(jù)分析認(rèn)為羽毛球拍與 羽毛球服裝具有較大的相似度,根據(jù)這一結(jié)論瀏覽器會(huì)在主頁(yè)的某一角落主動(dòng)向用戶呈現(xiàn) 羽毛球服裝,達(dá)到推薦目的??梢?jiàn),推薦結(jié)果很大程度上決定了用戶體驗(yàn),甚至決定著產(chǎn)品 的未來(lái)。
[0003] 目前的個(gè)性化推薦算法都是基于用戶興趣行為數(shù)據(jù)分析設(shè)計(jì)的,其中基于物品協(xié) 同過(guò)濾(ItemCF)推薦算法,通過(guò)眾多用戶對(duì)物品的共同喜好行為,判斷物品之間的相似 性,從而為用戶推薦與其歷史感興趣物品相似的物品。
[0004] 然而現(xiàn)有的推薦系統(tǒng)中存在著很多影響推薦結(jié)果的因素,如:熱門(mén)物品對(duì)用戶相 似度的影響;活躍用戶對(duì)物品相似度的影響等。
[0005] 例如,ItemCF算法里的相似度僅根據(jù)物品間共同用戶數(shù)來(lái)計(jì)算,也就是說(shuō)這些用 戶對(duì)相似度計(jì)算的貢獻(xiàn)視為相同,這樣忽略了不同活躍度用戶的其興趣貢獻(xiàn)的差異,一方 面:非?;钴S的用戶可能并非出于自身真正的興趣,而是出于廣泛涉獵對(duì)很多物品對(duì)物品 進(jìn)行訪問(wèn),這意味著這個(gè)用戶使得很多物品間都產(chǎn)生了相似度,因此需要削弱活躍用戶對(duì) 物品相似度產(chǎn)生的貢獻(xiàn);另一方面:新用戶可能也并非出于自身真正的興趣,而是出于熟 悉系統(tǒng)或?qū)π迈r物品的好奇對(duì)物品進(jìn)行訪問(wèn),因此也需要削弱這類(lèi)用戶的相似度的貢獻(xiàn)。
【發(fā)明內(nèi)容】
[0006] 基于上述分析結(jié)果,本專(zhuān)利旨在提供獲取相似度貢獻(xiàn)系數(shù)的獲取方法,基于相似 度貢獻(xiàn)系數(shù)獲取更加有效、準(zhǔn)確的物品相似度的方法以及根據(jù)該相似度進(jìn)行物品推薦的方 法。
[0007] 其中,本發(fā)明提供的物品相似度貢獻(xiàn)系數(shù)的獲取方法,包括:
[0008] 步驟1 :在網(wǎng)絡(luò)上獲取目標(biāo)用戶集合中每個(gè)用戶訪問(wèn)物品的行為記錄;
[0009] 步驟2 :根據(jù)所述行為記錄為所述每個(gè)用戶建立一個(gè)包含其訪問(wèn)過(guò)的物品的列 表;
[0010] 步驟3 :根據(jù)每個(gè)用戶的訪問(wèn)過(guò)的物品數(shù)量計(jì)算該用戶的相似度貢獻(xiàn)系數(shù)C(U):
【主權(quán)項(xiàng)】
1. 一種物品相似度貢獻(xiàn)系數(shù)的獲取方法,其特征在于,包括: 步驟1;在網(wǎng)絡(luò)上獲取目標(biāo)用戶集合中每個(gè)用戶訪問(wèn)物品的行為記錄; 步驟2 ;根據(jù)所述行為記錄為所述每個(gè)用戶建立一個(gè)包含其訪問(wèn)過(guò)的物品的列表; 步驟3 ;根據(jù)每個(gè)用戶的訪問(wèn)過(guò)的物品數(shù)量計(jì)算該用戶的相似度貢獻(xiàn)系數(shù)C(u):
,其中N(u)為用戶U訪問(wèn)過(guò)的物品數(shù)量,0為活躍度闊值,a為 大于或等于0的常數(shù)。
2. 根據(jù)權(quán)利要求1所述的一種物品相似度貢獻(xiàn)系數(shù)的獲取方法,其特征在于,所述a等 于2。
3. -種基于權(quán)利要求1或2中所述物品相似度貢獻(xiàn)系數(shù)的物品相似度的獲取方法,其 特征在于,包括: 步驟1 ;在網(wǎng)絡(luò)上獲取目標(biāo)用戶集合中每個(gè)用戶訪問(wèn)物品的行為記錄; 步驟2 ;根據(jù)所述行為記錄為每個(gè)物品建立起一個(gè)包含訪問(wèn)過(guò)該物品的用戶的用戶列 表; 步驟3 ;根據(jù)步驟2獲取的列表計(jì)算每個(gè)物品與其他物品間的相似度:
其中Wy表示物品i與物品j之間的相似度,N(i)表示物品i的用 戶列表,N(j)表示物品j的用戶列表,|N(i) I表示物品i的用戶列表中的用戶數(shù)量,|N(j) 表示物品j的用戶列表中的用戶數(shù)量。
4. 一種基于權(quán)利要求3中所述物品相似度的物品推薦方法,其特征在于,包括: 步驟1 ;確定目標(biāo)用戶,并獲取該目標(biāo)用戶訪問(wèn)過(guò)的物品的列表W及目標(biāo)用戶對(duì)其訪 問(wèn)過(guò)的物品的興趣值; 步驟2 ;根據(jù)所述物品相似度確定目標(biāo)用戶訪問(wèn)過(guò)的物品的列表中每個(gè)物品的K個(gè)最 相似的物品,所述每個(gè)物品的K個(gè)最相似物品組成集合S ; 步驟3 ;計(jì)算目標(biāo)用戶對(duì)集合S中每個(gè)物品的興趣值: 其中N(u) > 是目標(biāo)用戶訪問(wèn)過(guò)的物品的列表,為集合S中物品j和N(U)中物品i的相似度,Tui是 目標(biāo)用戶對(duì)所述物品i的興趣值; 步驟4 ;將S集合中的物品按照興趣值P降序排列,得到推薦列表。
5. -種物品相似度貢獻(xiàn)系數(shù)的獲取系統(tǒng),其特征在于,包括: 行為記錄獲取單元,用于在網(wǎng)絡(luò)上獲取目標(biāo)用戶集合中每個(gè)用戶訪問(wèn)物品的行為記 錄; 物品列表生成單元,用于根據(jù)所述行為記錄為所述每個(gè)用戶建立一個(gè)包含其訪問(wèn)過(guò)的 物品的列表; 計(jì)算單元,用于根據(jù)每個(gè)用戶的訪問(wèn)過(guò)的物品數(shù)量計(jì)算該用戶的相似度貢獻(xiàn)系數(shù)
其中|N(u) I為用戶U訪問(wèn)過(guò)的物品數(shù)量,0為活躍度闊
值,a為大于或等于0的常數(shù)。
6. 根據(jù)權(quán)利要求5所述的一種物品相似度貢獻(xiàn)系數(shù)的獲取系統(tǒng),其特征在于,所述a等 于2。
7. -種基于權(quán)利要求5或6中所述物品相似度貢獻(xiàn)系數(shù)的物品相似度的獲取系統(tǒng),其 特征在于,包括: 行為記錄獲取單元,用于在網(wǎng)絡(luò)上獲取目標(biāo)用戶集合中每個(gè)用戶訪問(wèn)物品的行為記 錄; 用戶列表生成單元,用于根據(jù)所述行為記錄為每個(gè)物品建立起一個(gè)包含訪問(wèn)過(guò)該物品 的用戶的用戶列表; 計(jì)算單元,用于根據(jù)用戶列表生成單元獲取的列表計(jì)算每個(gè)物品與其他物品間的相似 度:
其中W。表示物品i與物品j之間的相似度,N(i)表示物品i 的用戶列表,N(j)表示物品j的用戶列表,|N(i) I表示物品i的用戶列表中的用戶數(shù)量, |N(j) I表示物品j的用戶列表中的用戶數(shù)量。
8. -種基于權(quán)利要求7中所述物品相似度的物品推薦系統(tǒng),其特征在于,包括: 目標(biāo)用戶訪問(wèn)物品的興趣值獲取單元,用于確定目標(biāo)用戶,并獲取該目標(biāo)用戶訪問(wèn)過(guò) 的物品列表W及目標(biāo)用戶對(duì)其訪問(wèn)過(guò)的物品的興趣值; 相似物品集合確定單元,根據(jù)所述物品相似度確定目標(biāo)用戶訪問(wèn)過(guò)的物品的列表中每 個(gè)物品的K個(gè)最相似的物品,所述目標(biāo)用戶訪問(wèn)過(guò)的物品的列表中每個(gè)物品的K個(gè)最相似 物品組成集合S; 集合S物品興趣值計(jì)算單元,用于計(jì)算目標(biāo)用戶對(duì)集合S中每個(gè)物品的興趣值P :
其中N(u)是目標(biāo)用戶訪問(wèn)過(guò)的物品的列表,Wj,和集合S中物品j和 N(u)中物品i的相似度,rui是目標(biāo)用戶對(duì)所述物品i的興趣值; 排序單元,用于將S集合中的物品按照興趣值P降序排列,得到推薦列表。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種物品相似度貢獻(xiàn)系數(shù)、相似度獲取方法及物品推薦方法及其系統(tǒng),涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,旨在提供獲取相似度貢獻(xiàn)系數(shù)的獲取方法,基于相似度貢獻(xiàn)系數(shù)獲取更加有效、準(zhǔn)確的物品相似度的方法以及根據(jù)該相似度進(jìn)行物品推薦的方法。本發(fā)明技術(shù)要點(diǎn)包括:在網(wǎng)絡(luò)上獲取目標(biāo)用戶集合中每個(gè)用戶訪問(wèn)物品的行為記錄;根據(jù)所述行為記錄為所述每個(gè)用戶建立一個(gè)包含其訪問(wèn)過(guò)的物品的列表;根據(jù)每個(gè)用戶的訪問(wèn)過(guò)的物品數(shù)量計(jì)算該用戶的相似度貢獻(xiàn)系數(shù)C(u):其中N(u)為用戶u訪問(wèn)過(guò)的物品數(shù)量,θ為活躍度閾值,a為大于或等于0的常數(shù)。
【IPC分類(lèi)】G06F17-30
【公開(kāi)號(hào)】CN104598643
【申請(qǐng)?zhí)枴緾N201510076573
【發(fā)明人】陳若田
【申請(qǐng)人】成都品果科技有限公司
【公開(kāi)日】2015年5月6日
【申請(qǐng)日】2015年2月13日