一種基于用戶多種行為反饋的電影推薦方法
【專利摘要】本發(fā)明公開了一種基于用戶多種行為反饋的電影推薦方法,包括步驟:s1、電影聚類首先對電影信息進行特征選取,得到針對每個電影的關(guān)鍵字描述;s2、用戶相似度計算使用基于模糊理論的行為--內(nèi)容聚類方法,將用戶聚類成多個用戶集,每個用戶在不同用戶集中的隸屬度不同,利用電影描述信息和用戶的多種行為反饋數(shù)據(jù)進行建模,計算每個用戶在用戶群中的隸屬度,根據(jù)用戶在不同用戶集中的隸屬度來計算用戶之間的相似度;s3、生成推薦根據(jù)得到的用戶相似度信息為用戶生成不同的電影推薦列表。本發(fā)明方法利于解決數(shù)據(jù)的稀疏性問題,并解決了傳統(tǒng)“隱性-顯性”轉(zhuǎn)換做法的信息損失問題,提高了推薦精度。
【專利說明】一種基于用戶多種行為反饋的電影推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于個性化推薦領(lǐng)域,具體涉及一種基于用戶多種行為反饋的電影推薦方 法。
【背景技術(shù)】
[0002] 隨著Internet的迅速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)呈指數(shù)增長態(tài)勢。傳統(tǒng)的搜索算法只 能呈現(xiàn)給所有的用戶一樣的排序結(jié)果,無法針對不同用戶的興趣愛好提供相應的服務(wù)。信 息的爆炸使得信息的利用率反而降低,這種現(xiàn)象被稱為信息過載。個性化推薦,包括個性化 搜索,被認為是目前解決信息超載問題的最有效工具之一。
[0003] 推薦算法是個性化推薦系統(tǒng)的核心,推薦算法可以分為基于內(nèi)容的推薦算法、協(xié) 同過濾推薦算法、以及基于知識的推薦算法。其中,由于協(xié)同過濾推薦算法能夠充分利用數(shù) 據(jù)集中的信息且對領(lǐng)域知識的需求較低,在現(xiàn)實中的應用最為廣泛。
[0004] 然而,目前主流的協(xié)同過濾推薦算法主要針對評分預測問題。由于現(xiàn)實中評分數(shù) 據(jù)的獲得往往比較困難,在實際應用中通常將用戶多種行為的隱反饋數(shù)據(jù)轉(zhuǎn)換為評分數(shù) 據(jù),這種做法不僅導致推薦精度低,而且存在數(shù)據(jù)稀疏性問題。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提出了一種基于用戶多種行為反饋 的電影推薦方法,該方法直接對用戶多種行為的隱反饋數(shù)據(jù)進行建模,利于解決數(shù)據(jù)稀疏 性問題。
[0006] 為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0007] -種基于用戶多種行為反饋的電影推薦方法,包括步驟:
[0008] si、電影聚類
[0009] 根據(jù)電影的關(guān)鍵字描述,使用LDA算法將電影聚成m個簇;
[0010] 設(shè)定閾值 threshold,0· 6 < threshold <0· 8,從每個族中去掉 p (k I i) < threshold的電影,其中,p (k I i)表示電影i屬于電影簇k的概率;
[0011] s2、用戶相似度計算
[0012] 針對電影聚類得到每個電影簇k形成與之一一對應的用戶群g,用戶U對用戶群g 的隸屬度利用如下公式計算,即:
【權(quán)利要求】
1. 一種基于用戶多種行為反饋的電影推薦方法,其特征在于,包括步驟: Si、電影聚類 根據(jù)電影的關(guān)鍵字描述,使用LDA算法將電影聚成m個簇; 設(shè)定閾值threshold,0· 6 <threshold<0· 8,從每個族中去掉p(kIi) <threshold的電影,其中,P(kIi)表示電影i屬于電影簇k的概率; s2、用戶相似度計算 針對電影聚類得到每個電影簇k形成與之一一對應的用戶群g,用戶u對用戶群g的隸 屬度利用如下公式計算,即:
式中,〃<丨表示用戶u對用戶群g對應的電影簇k中電影的第t種行為的統(tǒng)計次數(shù), 以"為用戶u對所有電影的第t種行為的統(tǒng)計次數(shù),t的取值范圍為:1彡t彡T; 根據(jù)用戶模糊聚類的隸屬度計算結(jié)果,得到用戶u的隸屬度向量A= 其中,du,g表不用戶u對用戶群g的隸屬度; 對用戶集U中的任意兩個用戶u和V,通過Pearson相關(guān)系數(shù)來計算u和V的相似度, 并記為sim(u,V); S3、生成推薦 設(shè)定鄰居選取的相似度閾值為sim-threshold,對任意一個用戶u從用戶集U中選取滿 足sim(u,V) >sim-threshold的用戶作為用戶u的鄰居,并記作Neiu ; 對Neiu中用戶看過用戶u未看過的所有電影,通過如下方法預測用戶u對電影i的偏 好·
式中,A,,表示用戶u對電影i的預測偏好,pVii表示用戶V對電影i的偏好,該偏好由 用戶V的行為權(quán)重向量和用戶V在電影i上的行為統(tǒng)計向量I的內(nèi)積來衡量;權(quán)重向量 G通過交叉驗證來獲得; 對用戶u的對偏好預測結(jié)果進行降序排序,選擇前N部電影作為用戶u的推薦結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種基于用戶多種行為反饋的電影推薦方法,其特征在于, 在步驟si中,電影的關(guān)鍵字描述按照如下步驟獲得: 首先對每部電影簡介進行分詞處理,保留名詞并去掉停用詞得到:Wi = {w/,w2',. . .,wn'},其中,Wi表示對電影i進行分詞、保留名詞去停用詞處理后得到的名詞 描述; 然后根據(jù)在所有電影上的處理結(jié)果統(tǒng)計出現(xiàn)頻率最高的N個詞,并從電影的名詞描述 中剔除這N個詞以外的詞; 最后結(jié)合電影的導演、演員和類型信息得到電影的關(guān)鍵字描述=Wi =Iw1,w2, . . .,wn}。
3.根據(jù)權(quán)利要求1所述的一種基于用戶多種行為反饋的電影推薦方法,其特征在于, 在步驟s2中,近在線階段用戶相似度信息更新步驟為: si、分別統(tǒng)計用戶u對m個電影簇中電影的行為次數(shù); s2、使用隸屬度模型來計算用戶u對用戶群的隸屬度,得到用戶u新的隸屬度向量,并 更新數(shù)據(jù)庫中用戶u的隸屬度信息; S3、通過Pearson相關(guān)系數(shù)基于用戶u新的隸屬度和數(shù)據(jù)庫中其他用戶的隸屬度來計 算用戶u和其他用戶的相似度,并更新數(shù)據(jù)庫。
【文檔編號】G06F17/30GK104462383SQ201410753052
【公開日】2015年3月25日 申請日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】趙建立, 吳文敏, 張春升, 孟芳 申請人:山東科技大學