一種基于興趣群組的群體推薦方法
【專利摘要】一種基于興趣群組的群體推薦方法涉及信息【技術(shù)領(lǐng)域】。目前各個(gè)網(wǎng)站主要進(jìn)行的是個(gè)性化推薦,為每個(gè)用戶量身定做推薦內(nèi)容,這樣隨著用戶的增多,推薦服務(wù)器的計(jì)算壓力比較大,難以實(shí)時(shí)推薦。本發(fā)明先根據(jù)用戶的興趣愛(ài)好將他們分配到興趣群組中,每個(gè)興趣群組用一個(gè)虛擬用戶代表這個(gè)興趣群組的愛(ài)好。為群組內(nèi)用戶的推薦都使用同一個(gè)興趣群組的推薦列表。所以計(jì)算量顯著減少。在推薦系統(tǒng)中存在數(shù)據(jù)稀疏性問(wèn)題,增加了項(xiàng)目評(píng)分支持度作為衡量某個(gè)項(xiàng)目的評(píng)分可信程度標(biāo)準(zhǔn)。本發(fā)明增強(qiáng)推薦結(jié)果的多樣性,同時(shí)也能顯著減少產(chǎn)生推薦結(jié)果的計(jì)算量,提高系統(tǒng)的可擴(kuò)展性。
【專利說(shuō)明】一種基于興趣群組的群體推薦方法
【技術(shù)領(lǐng)域】:
[0001] 本發(fā)明涉及信息【技術(shù)領(lǐng)域】,尤其涉及一種基于興趣群組的群體推薦方法。
【背景技術(shù)】:
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展和普及,互聯(lián)網(wǎng)用戶群體和以互聯(lián)網(wǎng)為載體的各種網(wǎng) 絡(luò)信息服務(wù)和應(yīng)用急劇增加。面對(duì)海量的信息資源,用戶很難在有限時(shí)間內(nèi)通過(guò)手工方式 在如此巨大的信息空間中獲得符合其自身需求的信息,而信息提供方也很難在服務(wù)的過(guò) 程中挖掘用戶的使用習(xí)慣,從而進(jìn)一步改善自身的服務(wù),這也就產(chǎn)生了所謂的"信息過(guò)載" 問(wèn)題。為了解決信息過(guò)載問(wèn)題,傳統(tǒng)的信息服務(wù)采用了門(mén)戶網(wǎng)站(Yahoo !)、搜索引擎 (Google)和定制過(guò)濾內(nèi)容等方法,但當(dāng)用戶的需求十分模糊時(shí),這些方法也無(wú)法為用戶提 供滿意服務(wù)。在這種背景下,推薦系統(tǒng)技術(shù)應(yīng)運(yùn)而生,它被認(rèn)為是當(dāng)前解決信息過(guò)載問(wèn)題最 有效的工具之一。推薦系統(tǒng)可以依據(jù)用戶的歷史興趣偏好,通過(guò)計(jì)算用戶模型與項(xiàng)目的相 似度來(lái)為某個(gè)用戶產(chǎn)生個(gè)性化推薦。協(xié)同過(guò)濾技術(shù)是迄今為止最為成功的推薦技術(shù),已經(jīng) 廣泛應(yīng)用于諸多系統(tǒng)中。在協(xié)同過(guò)濾推薦方法中,對(duì)于m*n維的用戶-項(xiàng)目評(píng)價(jià)矩陣,尋找 最近鄰居的算法時(shí)間復(fù)雜度將達(dá)到〇(m*n 2)。因此,當(dāng)用戶和項(xiàng)目規(guī)模十分巨大時(shí),計(jì)算復(fù) 雜度的增加都將嚴(yán)重影響推薦的實(shí)時(shí)性。現(xiàn)有的推薦系統(tǒng)通常采用降維、聚類、概率、數(shù)據(jù) 集縮減、線性模型等技術(shù)對(duì)推薦系統(tǒng)的可擴(kuò)展性進(jìn)行改善。這些優(yōu)化方法通常采用離線計(jì) 算、定期更新的推薦模式,但這種離線計(jì)算方法不能充分利用最新數(shù)據(jù)以體現(xiàn)用戶興趣偏 好的動(dòng)態(tài)變化。
[0003] 針對(duì)現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提供一種基于興趣群組的群體推薦方法,使用 興趣相似的群體推薦代替用戶的個(gè)性化推薦,群體推薦列表既能夠反映用戶的興趣,增強(qiáng) 推薦結(jié)果的多樣性,同時(shí)也能顯著減少產(chǎn)生推薦結(jié)果的計(jì)算量,提高系統(tǒng)的可擴(kuò)展性。
【發(fā)明內(nèi)容】
:
[0004] 本發(fā)明提供
[0005] -種基于興趣群組的群體推薦方法,其特征在于包括如下步驟:
[0006] 1)根據(jù)群組內(nèi)用戶成員的特征表示,計(jì)算產(chǎn)生群組虛擬用戶的特征表示,群組虛 擬用戶的特征表示代表了該群組的興趣;
[0007] 2)通過(guò)計(jì)算群組虛擬用戶和待加入群組用戶特征表示的特征相似度,形成若干興 趣群組;
[0008] 3)改進(jìn)基于用戶的協(xié)同過(guò)濾方法,增加用戶評(píng)分有效性,為興趣群組內(nèi)用戶生成 用戶個(gè)體評(píng)分;
[0009] 4)依據(jù)群組內(nèi)用戶個(gè)體評(píng)分,產(chǎn)生該興趣群組的Τορ-κ推薦列表;當(dāng)需要為用戶 產(chǎn)生推薦時(shí),使用該用戶所在的興趣群組推薦列表代替用戶的個(gè)性化推薦列表。
[0010] 步驟1)和2)具體如下:
[0011] 步驟100 :根據(jù)用戶對(duì)項(xiàng)目評(píng)分,計(jì)算用戶的興趣特征;選取用戶評(píng)分的前k個(gè)項(xiàng) 目作為代表用戶的興趣特征;定義I = <ii,...,in>為項(xiàng)目集合;用戶P的興趣特征表示為 用戶對(duì)項(xiàng)目評(píng)分的集合:
【權(quán)利要求】
1. 一種基于興趣群組的群體推薦方法,其特征在于包括如下步驟: 1) 根據(jù)群組內(nèi)用戶成員的特征表示,計(jì)算產(chǎn)生群組虛擬用戶的特征表示,群組虛擬用 戶的特征表示代表了該群組的興趣; 2) 通過(guò)計(jì)算群組虛擬用戶和待加入群組用戶特征表示的特征相似度,形成若干興趣群 組; 3) 改進(jìn)基于用戶的協(xié)同過(guò)濾方法,增加用戶評(píng)分有效性,為興趣群組內(nèi)用戶生成用戶 個(gè)體評(píng)分; 4) 依據(jù)群組內(nèi)用戶個(gè)體評(píng)分,產(chǎn)生該興趣群組的Top-K推薦列表;當(dāng)需要為用戶產(chǎn)生 推薦時(shí),使用該用戶所在的興趣群組推薦列表代替用戶的個(gè)性化推薦列表。
2. 根據(jù)權(quán)利要求1所述的一種基于興趣群組的群體推薦方法,其特征在于: 步驟1)和2)具體如下:步驟100 :根據(jù)用戶對(duì)項(xiàng)目評(píng)分,計(jì)算用戶的興趣特征;選取用 戶評(píng)分的前k個(gè)項(xiàng)目作為代表用戶的興趣特征;定義I =〈ip . . .,in>為項(xiàng)目集合;用戶ρ 的興趣特征表示為用戶對(duì)項(xiàng)目評(píng)分的集合: Κρ=^^Γρ·, =}U^J G ^-n,m = n-k + \,.. ,η 其中,為用戶P對(duì)項(xiàng)目L的評(píng)分,r(m)為用戶p的所有項(xiàng)目評(píng)分的次序統(tǒng)計(jì)量;步 驟200 :根據(jù)用戶的興趣特征和興趣群組的群組特征,選擇與其興趣相近的興趣群組,將用 戶加入該組中,同時(shí)進(jìn)行興趣群組的維護(hù),包括興趣群組的群組特征向量的更新,興趣組的 分裂與合并;包括: 步驟201 :判斷用戶是否為推薦系統(tǒng)中的第一個(gè)用戶,確定所述當(dāng)前用戶是推薦系統(tǒng) 第一個(gè)用戶,執(zhí)行步驟202 ;否則執(zhí)行步驟203 ; 步驟202 :建立新的興趣群組;為該群組產(chǎn)生新的群組編號(hào); 步驟203 :計(jì)算所述當(dāng)前用戶的興趣特征與推薦系統(tǒng)中已有興趣群組的群組特征的相 似度,并且相似度大于閾值S,δ取值為〇. 15-0. 3 ; 采用Pearson相關(guān)系數(shù)度量方法,則用戶a與群組虛擬用戶b的相似度計(jì)算方法如下: .,ΣρεΡ(Γα,ρ-0(}1,ρ-}?) snn(a,o) - t . - 一 y/XpcP^-p ^rbf 其中p= {Pi,......,pm}為m個(gè)項(xiàng)目的集合,ra,p為用戶a對(duì)項(xiàng)目p的評(píng)分,r b,p為用戶 b對(duì)項(xiàng)目p的評(píng)分,?和?分別為用戶a和群組虛擬用戶b對(duì)所有打過(guò)分項(xiàng)目的平均分; 步驟204 :在所述當(dāng)前用戶的興趣特征與興趣群組的虛擬用戶特征相似度大于閾值δ 的興趣群組中,選擇相似度最高的興趣群組,作為所述當(dāng)前用戶即將加入的興趣群組; 步驟205 :當(dāng)有用戶加入或者離開(kāi)興趣群組時(shí),需要對(duì)興趣群組進(jìn)行維護(hù),包括: 步驟205a :判斷當(dāng)前興趣群組的成員變化,如果有新用戶成員加入,執(zhí)行步驟205b ;如 果有用戶成員退出,執(zhí)行步驟205d ; 步驟205b :當(dāng)有新的用戶加入時(shí),判斷當(dāng)前興趣群組內(nèi)成員數(shù)量是否超過(guò)閾值 MaxNumber ;為了避免群組合并后形成的新組再次分裂,群組分裂值MaxNumber和群組合 并值MinNumber應(yīng)滿足MaxNumber2*MinNumber ;如果當(dāng)前興趣群組成員數(shù)量超過(guò)閾值 MaxNumber,執(zhí)行步驟205c,否則執(zhí)行步驟205f ; 步驟205c :根據(jù)用戶的興趣特征,使用K-means聚類算法,將原有興趣群組內(nèi)用戶重新 聚類成2個(gè)新的興趣群組; 步驟205d:當(dāng)有新的用戶退出時(shí),判斷當(dāng)前興趣群組內(nèi)成員數(shù)量是否小于閾值 MinNumber ;如果當(dāng)前興趣群組成員數(shù)量小于閾值MinNumber,執(zhí)行步驟205e,否則執(zhí)行步 驟 205f ; 步驟205e :通過(guò)計(jì)算興趣群組之間的虛擬用戶特征相似度,將該興趣群組成員合并到 與其興趣特征相似度最高的興趣群組中; 步驟205f :計(jì)算新生成興趣群組的虛擬用戶興趣特征;采用平均值策略,群組g對(duì)項(xiàng)目 i的評(píng)分為:
其中,rui為用戶u對(duì)項(xiàng)目i的評(píng)分,|G」為群組G中對(duì)項(xiàng)目i進(jìn)行過(guò)評(píng)分的用戶數(shù)量; 則群組G的興趣特征表示為:
其中,為群組G對(duì)項(xiàng)目L的評(píng)分,re(m)為群組G的所有項(xiàng)目評(píng)分的次序統(tǒng)計(jì)量。
3.根據(jù)權(quán)利要求1所述的一種基于興趣群組的群體推薦方法,其特征在于: 步驟3)具體如下: 步驟301 :以用戶所在興趣群組的成員為鄰居,采用基于用戶的協(xié)同過(guò)濾方法,計(jì)算興 趣群組的用戶相似度矩陣;采用Person相關(guān)系數(shù)作為相似度計(jì)算標(biāo)準(zhǔn); 步驟302 :用戶u對(duì)項(xiàng)目i的評(píng)分支持度計(jì)算法方法如下:
其中,B表示對(duì)項(xiàng)目i評(píng)分過(guò)的用戶集合,武表示用戶u所在興趣群組的用戶集合; 步驟303 :計(jì)算興趣群組內(nèi)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分值,計(jì)算方法如下:
其中,?和f分別表示用戶u和用戶u'對(duì)所有項(xiàng)目評(píng)分的平均值,^^表示用戶u'對(duì) 項(xiàng)目i的評(píng)分,UserSim(u, u')表示用戶u與用戶u'的相似度,采用Pearson相關(guān)系數(shù)度 量方法; 步驟304 :結(jié)合項(xiàng)目評(píng)分支持度,計(jì)算興趣群組內(nèi)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分值,計(jì)算方 法如下:
其中,%,ω2是權(quán)重系數(shù),且ω?,ω2彡〇, ω?+ω2 = 1。
【文檔編號(hào)】G06F17/30GK104050258SQ201410265932
【公開(kāi)日】2014年9月17日 申請(qǐng)日期:2014年6月15日 優(yōu)先權(quán)日:2014年6月15日
【發(fā)明者】王永濱, 馮爽, 蔣偉 申請(qǐng)人:中國(guó)傳媒大學(xué)