一種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設及推薦技術(shù)領(lǐng)域,尤其設及一種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推 薦方法及系統(tǒng)。
【背景技術(shù)】
[0002] 人們對推薦系統(tǒng)的研究始于上世紀90年代,研究人員通過用戶對物品的一些 反饋,如物品的評價、用戶的購買行為等隱性或顯性的反饋來預測用戶可能喜歡的物品。 協(xié)同過濾算法(Coll油orativeFiltering,CF)是推薦系統(tǒng)領(lǐng)域最為著名的算法之一, 其又細分為基于用戶的協(xié)同過濾算法(user-based,化erCF),基于物品的協(xié)同過濾算法 (item-based,ItemCF)和潛在因子模型(XatentFactorModel,LFM),該S種模型各有優(yōu)缺 點。其中的基于物品的協(xié)同過濾算法,其認為用戶的興趣具有一致性,即用戶會喜歡和他之 前喜歡的東西類似的東西,該算法主要由兩個流程組成,其一是計算兩兩物品的相似度,其 二是根據(jù)用戶歷史的行為記錄推薦與其之前喜歡的物品相似的物品。該個過程中存在一個 問題;如果某個物品非常熱口,很多人都對它有過行為記錄,會造成任何物品都和該個熱口 物品非常相似,形成"哈利波特效應",除此之外,該熱口物品也不能真實反映用戶的偏好。 該兩個問題對強調(diào)個性化、致力挖掘長尾信息的推薦系統(tǒng)而言顯然具有不合理之處。
[0003] 因此,現(xiàn)有技術(shù)還有待于改進和發(fā)展。
【發(fā)明內(nèi)容】
[0004] 鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于詞頻加權(quán)技術(shù)的個性 化協(xié)同過濾推薦方法及系統(tǒng),旨在解決現(xiàn)有的推薦方法準確性和挖掘長尾物品的能力有待 提高的問題。
[0005] 本發(fā)明的技術(shù)方案如下:
[0006] 一種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法,其中,包括步驟:
[0007]A、計算兩兩物品的相似度;
[0008]B、計算出每個物品的特征性頻率TF和倒排文檔頻率IDF,然后計算出每個物品的 TF-IDF頻率TI;
[0009]C、根據(jù)兩兩物品之間的相似度W及每個物品的TF-IDF頻率生成每個用戶的推薦 列表,然后根據(jù)所述推薦列表向用戶推薦物品。
[0010] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法,其中,所述步驟A具體包 括:
[0011] A1、獲取用戶-物品對應表;
[0012] A2、統(tǒng)計用戶-物品對應表中每一物品出現(xiàn)的次數(shù),W及兩兩物品同時出現(xiàn)的次 數(shù);
[0013]A3、根據(jù)W下公式計算出兩兩物品之間的相似度Wy;
[0014]
;其中,|N(i)I是用戶-物品對應表中物品i出現(xiàn)的次數(shù), N(j)I是用戶-物品對應表中物品j出現(xiàn)的次數(shù),|N(i)nN(j)I為用戶-物品對應表中 物品i和物品j同時出現(xiàn)的次數(shù)。
[0015] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法,其中,所述步驟B具體包 括:
[0016]B1、取每個物品相似度最高的N個物品,按相似度從高到低進行排序;
[0017]B2、分別計算取出的每個物品的特征性頻率TF和倒排文檔頻率IDF,其中TF表 示取出的某個物品在用戶-物品對應表中出現(xiàn)的次數(shù),IDF=log[S/(TF+l)],其中S為用 戶-物品對應表中的用戶總數(shù);
[0018]B3、計算取出的每個物品的TF-IDF頻率TI。
[0019] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法,其中,所述步驟C具體包 括:
[0020] C1、按下式求出每個用戶的推薦列表;
[0021]
[002引其中N(u)是用戶U喜歡的物品合集,是和物品i最相似的K個物品的集合,wy為物品i和j的相似度,Zui為物品i的TF-IDF頻率TI;
[0023]C2、將推薦列表中的各個物品從低到高排序,取排序靠前的若干物品推薦給用戶。
[0024] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法,其中,所述步驟B3中, TF-IDF頻率TI按下式計算;
[00 巧]TI=TF*IDF。
[0026] -種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦系統(tǒng),其中,包括:
[0027] 相似度計算模塊,用于計算兩兩物品的相似度;
[0028] 頻率計算模塊,用于計算出每個物品的特征性頻率TF和倒排文檔頻率IDF,然后 計算出每個物品的TF-IDF頻率TI;
[0029] 推薦模塊,用于根據(jù)兩兩物品之間的相似度W及每個物品的TF-IDF頻率生成每 個用戶的推薦列表,然后根據(jù)所述推薦列表向用戶推薦物品。
[0030] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦系統(tǒng),其中,所述相似度計算模 塊具體包括:
[0031] 對應表獲取單元,用于獲取用戶-物品對應表;
[0032] 統(tǒng)計單元,用于統(tǒng)計用戶-物品對應表中每一物品出現(xiàn)的次數(shù),W及兩兩物品同 時出現(xiàn)的次數(shù);
[0033] 相似度計算單元,用于根據(jù)W下公式計算出兩兩物品之間的相似度Wy;
[0034]
其中,|N(i)I是用戶-物品對應表中物品i出現(xiàn)的次數(shù), N(j)I是用戶-物品對應表中物品j出現(xiàn)的次數(shù),|N(i)nN(j)I為用戶-物品對應表中 物品i和物品j同時出現(xiàn)的次數(shù)。
[0035] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦系統(tǒng),其中,所述頻率計算模塊 具體包括:
[0036] 排序單元,用于取每個物品相似度最高的N個物品,按相似度從高到低進行排序;
[0037] 第一頻率計算單元,用于分別計算取出的每個物品的特征性頻率TF和倒排文檔 頻率IDF,其中TF表示取出的某個物品在用戶-物品對應表中出現(xiàn)的次數(shù),IDF=log[S/ (TF+1)],其中S為用戶-物品對應表中的用戶總數(shù);
[0038] 第二頻率計算單元,用于計算取出的每個物品的TF-IDF頻率TI。
[0039] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦系統(tǒng),其中,所述推薦模塊具體 包括:
[0040] 推薦列表生成單元,用于按下式求出每個用戶的推薦列表:
[0041]
[004引其中N(u)是用戶U喜歡的物品合集,Su,K>是和物品i最相似的K個物品的集合,wy為物品i和j的相似度,Zui為物品i的TF-IDF頻率TI;
[0043] 推薦單元,用于將推薦列表中的各個物品從低到高排序,取排序靠前的若干物品 推薦給用戶。
[0044] 所述的基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦系統(tǒng),其中,所述第二頻率計算 單元中,TF-IDF頻率TI按下式計算;
[0045]TI=TF*IDF。
[0046] 有益效果;本發(fā)明通過在協(xié)同過濾算法中引入TF-IDF算法,能夠有效的降低熱口 商品對推薦結(jié)果的影響,提升推薦系統(tǒng)的推薦覆蓋率,W及提高推薦準確性,并且能夠提高 挖掘"長尾"商品的能力。
【附圖說明】
[0047] 圖1為本發(fā)明一種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法較佳實施例的 流程圖。
[0048] 圖2為圖1所示方法中步驟S101的具體流程圖。
[0049] 圖3為圖1所示方法中步驟S102的具體流程圖。
[0050] 圖4為圖1所示方法中步驟S103的具體流程圖。
[0051] 圖5為本發(fā)明一種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦系統(tǒng)較佳實施例的 結(jié)構(gòu)框圖。
[0052]圖6為圖5所示系統(tǒng)中相似度計算模塊的具體結(jié)構(gòu)框圖。
[0053] 圖7為圖5所示系統(tǒng)中頻率計算模塊的具體結(jié)構(gòu)框圖。
[0054]圖8為圖5所示系統(tǒng)中推薦模塊的具體結(jié)構(gòu)框圖。
【具體實施方式】
[00巧]本發(fā)明提供一種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法及系統(tǒng),為使本發(fā) 明的目的、技術(shù)方案及效果更加清楚、明確,W下對本發(fā)明進一步詳細說明。應當理解,此處 所描述的具體實施例僅僅用W解釋本發(fā)明,并不用于限定本發(fā)明。
[0056] 請參閱圖1,圖1為本發(fā)明一種基于詞頻加權(quán)技術(shù)的個性化協(xié)同過濾推薦方法較 佳實施例的流程圖,如圖所示,其包括步驟:
[0057] S101、計算兩兩物品的相似度;
[0058] S102、計算出每個物品的特征性頻率TF和倒排文檔頻率IDF,然后計算出每個物 品的TF-IDF頻率TI;
[0059] S103、根據(jù)兩兩物品之間的相似度W及每個物品的TF-IDF頻率生成每個用戶的 推薦列表,然后根據(jù)所述推薦列表向用戶推薦物品。
[0060] 進一步,如圖2所示,所述步驟S101具體包括:
[0061] S201、獲取用戶-物品對應表;
[0062] 用戶-物品對應表的具體實例如下表1所示,后續(xù)的計算實例W此表為基礎(chǔ):
[0063] 表1
[0064]
[0065] 上表中,用戶1喜歡的物品有1,2, 5,用戶2喜歡的物品有3, 4, 5,依次類推。
[0066]S202、統(tǒng)計用戶-物品對應表中每一物品出現(xiàn)的次數(shù),W及兩兩物品同時出現(xiàn)的 次數(shù);
[0067] 統(tǒng)計結(jié)果如下所示:
[0068]N(l) I= 2 ;
[0069]N(2) I= 2 ;
[0070]N(3) I= 3 ;
[0071] N(4) I= 2 ;
[0072] |n6)|=3;
[007引其中,|N(i)I是用戶-物品對應表中物品i出現(xiàn)的次數(shù);
[0074]N(l)nN(2)I= 1 ;
[00巧]|N(1)nN(3)I= 1 ;
[0076] N(l) nN(4) I = 1 ;
[0077] |N(1) nN巧)I = 1 ;
[0078] N(2) nN(3) | = 1 ;
[0079] |N(2) nN巧)I = 2 ;
[0080] N(3) nN(4) I = 2 ;
[0081] |N(3) nN巧)I = 2 ;
[0082] |n(4) nN巧)I = 1 ;
[008引其中,|N(i)nN(j)I為用戶-物品對應表中物品i和物品j同時出現(xiàn)的次數(shù);S203、根據(jù)W下公式計算出兩兩物品之間的相似度Wy;
[0094] 進一步,如圖3所示,所述步驟S102具體包括;
[0095]S301、取每個物品相似度最高的N個物品,按相似度從高到低進行排序;
[0096] 取出的物品如下表2所示,其中的N為4,當然也可根據(jù)需要進行調(diào)整:
[0097]表 2
[0098]
[0099]S302、分別計算取出的每個物品的特征性頻率TF和倒排文檔頻率IDF,其中TF表 示取出的某個物品在用戶-物品對應表中出現(xiàn)的次數(shù),IDF=log[S/(TF+l)],其中S為用 戶-物品對應表中的用戶總數(shù);
[0100] 計算結(jié)果如下所示:
[0101] TFi= 2 ;
[0102] TF2= 2 ;
[0103] TFs= 3 ;
[