本發(fā)明涉及一種基于加權異構信息網(wǎng)絡的電影推薦方法,尤其涉及一種加權異構信息網(wǎng)絡中基于元路徑計算用戶間相似度的新的協(xié)同過濾推薦方法,屬于數(shù)據(jù)挖掘和機器學習的
技術領域:
。
背景技術:
:協(xié)同過濾(CollaborativeFiltering)是推薦系統(tǒng)發(fā)展史上發(fā)展最快、應用最廣的一類算法,其基本思想是相似的用戶對商品的選取也是相似的,根據(jù)與目標用戶最相似的K個鄰居對目標項目的評分來進行推薦。其中,鄰居用戶是基于用戶間的相似度得出的,最常用的相似度度量方式有Pearson相關系數(shù)和Cosine相似度。但是傳統(tǒng)的相似度度量方式只考慮了用戶評分這一個因素,評分矩陣是極其稀疏的,兩個用戶共同評價的項目非常少,在這種情況下得到的用戶相似性是不準確的,最終推薦精度自然不高。近年來,隨著數(shù)據(jù)庫技術、機器學習技術以及網(wǎng)絡科學的不斷進步,社交網(wǎng)絡朝異質性方向發(fā)展:網(wǎng)絡中包含多種實體(Entity)、實體間存在多種關系(Relation),這種網(wǎng)絡被稱為異構信息網(wǎng)絡(HeterogeneousInformationNetwork,HIN)。大數(shù)據(jù)時代的HIN包含豐富的語義信息,對其進行深度挖掘分析能夠得到非常有意義的知識,而HIN中包含的更多的有效信息會帶來更好地推薦效果,所以近年來在HIN上做推薦問題的研究開始興起。以圖1為例,HIN中不僅包含多種類型的實體(如:用戶、電影和導演類型等),還包含著多種多樣的邊信息(如:用戶對電影的評分、電影的各種屬性和邊的屬性信息等)。為了更好地利用異構網(wǎng)絡中所蘊含的多樣性內容,可以用元路徑(MetaPath)表示不同的關系,表示兩個實體之間語義信息的路徑為一條元路徑,兩節(jié)點間不同的元路徑代表不同的語義聯(lián)系。利用元路徑的概念,我們可以靈活地運用HIN中豐富的信息來做推薦,表1為幾個典型的元路徑和其分別對應的經典推薦模型。表1目前,基于HIN的推薦工作還處于起步階段,一方面,目前的大多數(shù)方法都是旨在融合異構網(wǎng)絡中的多元信息并且只考慮了HIN中的部分信息;另一方面,這些方法并沒有考慮網(wǎng)絡中邊屬性問題,沒有關注由用戶兩極化評分造成的本質差別,描述的異構網(wǎng)絡信息并不準確。以電影推薦網(wǎng)絡為例,用戶給一部電影評5分代表用戶喜歡這部電影,反之如果用戶評分為1分則表示用戶不喜歡這部電影;同樣,一部電影被貼上某種標簽的次數(shù)越多代表該電影越偏向于此類型。如果在推薦過程中不考慮此種邊屬性問題,很可能會使推薦結果有所偏差。石川等人第一次提出了加權HIN的概念,通過區(qū)分網(wǎng)絡中邊上的不同屬性值來探索更全面的元路徑語義信息以實現(xiàn)更準確的推薦,但是該方法并沒有提出新的相似度度量方法,而是將有權元路徑分解為有確定屬性值限定的原子元路徑,利用的還是原來的PathSim、HeteSim等相似度度量方法。中國專利文獻CN105373597A公開了基于k-Medoids項目聚類和局部興趣融合的用戶協(xié)同過濾推薦方法,該專利通過減緩數(shù)據(jù)極端稀疏性對協(xié)同過濾推薦的影響來提高推薦質量,宏觀上看都是對基于用戶的協(xié)調過濾方法的改進。但是,該專利與本專利方法不同,該專利提出一種基于k-Medoids項目聚類和局部興趣融合的用戶協(xié)同過濾推薦方法。首先針對用戶-項目矩陣計算任意用戶間的相似度,得到全局近鄰用戶;然后針對用戶-項目矩陣對項目進行聚類,計算用戶的局部相似度得到局部最近鄰用戶;最后將全局最近鄰和局部最近鄰進行融合,預測用戶評分。該專利存在以下缺陷:(1)本質上,該發(fā)明利用的信息還是只有用戶-項目矩陣數(shù)據(jù),還是只利用了用戶對項目非常稀疏的評分信息,并沒有引入其他屬性信息或社交關系信息等;(2)在計算用戶間相似度或計算項目間相似度對項目聚類時,該發(fā)明利用的還是協(xié)同過濾技術中的經典的相似度度量方式:余弦相似度、pearson相關系數(shù)、修正的余弦相似度等,并沒有提出新的相似度度量方式;(3)該發(fā)明并沒有細粒度地考慮用戶對不同項目評分的兩極化影響。中國專利文獻CN102231166A公開了基于社會上下文的協(xié)同推薦方法,該專利并不是對基于用戶的協(xié)同過濾推薦技術的改進,而是提出了一種新的基于模型的協(xié)同過濾推薦算法,并針對用戶對項目的評分數(shù)據(jù)的稀疏性問題,引入了用戶的社會關系數(shù)據(jù)。首先根據(jù)得到用戶與項目間的互動矩陣(例如用戶對項目的評分數(shù)據(jù)),然后得到用戶的社會關系矩陣;最后采用帶約束的低秩矩陣分解方法來預測用戶評分。該專利存在以下缺陷:(1)該專利引入了用戶的社會信息即用戶間的朋友關系等,但是所考慮的信息并不全面,并沒有考慮用戶與項目間除評分外的其他信息也沒有考慮項目的豐富的屬性信息。(2)該專利采用的是矩陣分解方法,與本申請所采用的方法有著本質的區(qū)別。(3)該專利并沒有細粒度地考慮用戶對不同項目評分的兩極化影響。中國專利文獻CN106202502A公開了音樂信息網(wǎng)絡中用戶興趣發(fā)現(xiàn)方法,先從音樂信息網(wǎng)絡中通過N步長隨機游走得到與用戶相關的信息子網(wǎng)以及信息子網(wǎng)的網(wǎng)絡模式;然后對信息子網(wǎng)進行剪枝,并在剪枝后的信息子網(wǎng)中利用HeteSim算法計算不同類型節(jié)點間相關性,進而得到不同類型邊的權重;接著,根據(jù)單源最短路徑算法得到所有歌曲對之間的最短路徑集和最短路徑權重,并計算出元路徑集和元路徑權重;最后,利用PathSelClus算法基于元路徑將歌曲聚成三類,根據(jù)聚類結果分析出用戶對歌曲的興趣愛好。該專利存在以下缺陷:(1)該專利目的與本申請不同,該發(fā)明力圖探索用戶興趣,分析用戶對歌曲的興趣愛好,而本申請旨在預測用戶對項目的評分,根據(jù)評分信息為用戶推薦其可能喜歡的具體的項目。(2)該專利利用隨機游走建立信息子圖,并對剪枝后的網(wǎng)絡應用異構信息網(wǎng)絡中的經典的計算相關性的算法Hetesim來計算任意兩節(jié)點間的相似度,將此相關度作為兩節(jié)點間的權重。該算法是針對無權異構信息網(wǎng)絡的相關性度量方法并沒有考慮權重信息,無法直接應用到加權異構信息網(wǎng)絡中,本申請中提出了一種基于加權異構信息網(wǎng)絡的新的相似度度量方式,在實驗結果分析部分本發(fā)明所提算法也與基于HeteSim的協(xié)同過濾算法做過比較,本發(fā)明所提算法優(yōu)于HeteSim。(3)該專利也是基于元路徑進行,但是其目的和方法與本申請都不同。技術實現(xiàn)要素:針對現(xiàn)有技術的不足,本發(fā)明提供了一種基于加權異構信息網(wǎng)絡的電影推薦方法;本發(fā)明包括步驟如下:(1)利用異構信息網(wǎng)絡中的語義信息和邊屬性信息,計算得到用戶之間基于不同元路徑的相似度;(2)將基于不同元路徑求得的相似度分別應用到基于用戶的協(xié)同過濾推薦算法中,得到基于每個相似度的用戶評分值;(3)采用監(jiān)督學習算法為每個用戶評分值分配不同的權重,融合為全面考慮多種元路徑信息的用戶最終評分值。在擴展MovieLens經典數(shù)據(jù)集上的實驗結果表明,本發(fā)明所提算法在精確度上較傳統(tǒng)算法有顯著提高。本申請引入加權HIN的概念,充分考慮HIN中的節(jié)點類型信息和多種邊屬性信息,并且對用戶評分進行了兩極化映射處理,提出了一種引入加權異構信息的改進協(xié)同過濾算法。術語解釋1、協(xié)同過濾推薦算法,基本思想是相似的用戶對商品的選取也是相似的,根據(jù)與目標用戶最相似的K個鄰居對目標項目的評分來進行推薦。2、異構信息網(wǎng)絡(WeightedHeterogeneousInformationNetwork,WHIN),可以簡稱為異構網(wǎng)絡。若一個信息網(wǎng)絡中頂點的類型或者是邊的類型的個數(shù)超過一個,則此信息網(wǎng)絡稱為異構信息網(wǎng)絡,否則為同構信息網(wǎng)絡。本發(fā)明的技術方案為:一種基于加權異構信息網(wǎng)絡的電影推薦方法,包括以下步驟:(1)對數(shù)據(jù)集構建加權異構信息網(wǎng)絡,并提取出兩用戶間多種不同的元路徑;(2)用戶是否喜歡一部電影受多種因素影響,分別計算用戶在對電影M、演員A、導演D、國家C、電影體裁G、電影標簽T方面的偏好度;(3)分別針對用戶在每一方面的偏好度,計算兩用戶間的相似度,若兩用戶在所有方面的偏好都相似,則兩用戶相似;否則,兩用戶偏好相差越大則兩用戶越不相似;(4)分別將受偏好度影響的6個相似度應用到協(xié)同過濾推薦算法中,預測用戶對電影的評分;(5)用戶評分受各種影響因素影響的權重不同,應用經典的線性回歸算法為每一個用戶對電影的評分分配合適的權重,融合為最終的評分值;(6)將最終的評分值最高的幾部電影推薦給該用戶。所述數(shù)據(jù)集是指grouplens研究組發(fā)布的MovieLens10M擴展數(shù)據(jù)集,該數(shù)據(jù)集結合了MovieLens數(shù)據(jù)集的電影與相應的互聯(lián)網(wǎng)電影數(shù)據(jù)庫(IMDb)和rottentoMatoes電影評論系統(tǒng)的數(shù)據(jù),經過數(shù)據(jù)預處理去除掉冗雜的演員等信息后,數(shù)據(jù)集中用戶對電影的評分數(shù)據(jù)共855598個;所述數(shù)據(jù)集包括實體類型、表示及數(shù)目,實體類型包括用戶、電影、演員、導演、國家、體裁、標簽;表示是指對每種實體類型的表示字符,字符U表示用戶類型,字符M表示電影類型,字符A表示演員類型,字符D表示導演類型,字符C表示國家類型,字符G表示體裁類型,字符T表示標簽類型;數(shù)目是指每種實體類型的個數(shù);所述元路徑包括P1、P2、P3、P4、P5、P6,P1=UMU,P2=UMAMU,P3=UMCMU,P4=UMDMU,P5=UMGMU,P6=UMTMU;P1的語義信息是指:與目標用戶(U)看過同一部電影(M)的用戶(U);P2的語義信息是指:與目標用戶(U)看過同一個演員(A)演過的電影(M)的用戶(U);P3的語義信息是指:與目標用戶(U)看過在同一個國家(C)上映的電影(M)的用戶(U);P4的語義信息是指:與目標用戶(U)看過由同一個導演(D)執(zhí)導的電影(M)的用戶(U);P5的語義信息是指:與目標用戶(U)看過屬于同一個體裁(G)的電影(M)的用戶(U);P6的語義信息是指:與目標用戶(U)看過被貼上同一個類型標簽T的電影(M)的用戶(U)。()中為節(jié)點類型,表明上面說的節(jié)點是屬于何種類型。根據(jù)本發(fā)明優(yōu)選的,所述步驟(2),用戶ui對影響因素y的偏好度的求取公式如式(Ⅰ)所示:式(Ⅰ)中,ui表示用戶,ui屬于用戶類型U;P為用戶ui到影響因素y的元路徑;為從ui到y(tǒng)的一個加權路徑實例,w為該加權路徑上的權重值;為ui到y(tǒng)的一個加權路徑實例上的權重值;t(ui,y)為ui到y(tǒng)的所有加權路徑實例上的權重值之和,即要求取的用戶ui對影響因素y的偏好度;影響因素y包括電影、演員、導演、國家、體裁、標簽;y屬于影響因素y;以元路徑P=U(W1)M(W2)A為例,用戶ui對演員aj的偏好度為:ui屬于用戶類型U,aj屬于演員類型A。即為用戶ui對演員aj的所有加權路徑實例上的權重之和。用該公式可以推算出所有用戶對所有演員基于該元路徑的偏好度。如果兩用戶對所有演員的偏好度越接近,則兩用戶的喜好越相似。根據(jù)本發(fā)明優(yōu)選的,通過擴展交換矩陣快速計算用戶在每一方面的偏好度,包括步驟如下:A、設定步驟(1)構建的加權異構信息網(wǎng)絡且節(jié)點類型映射函數(shù)表示每一個v∈V屬于節(jié)點類型集合B,即用ψ表示邊類型映射函數(shù),ψ(e)∈R表示每一個e∈E屬于邊類型集合R;用映射函數(shù)Ψ:w→W表示每條邊的權重屬于集合W:Ψ(w)∈W;V是指加權異構信息網(wǎng)絡中的節(jié)點,v是指具體節(jié)點對象實例,E是指加權異構信息網(wǎng)絡中的邊,w是指加權異構信息網(wǎng)絡中的邊上的權重;加權異構信息網(wǎng)絡的網(wǎng)絡模式S=(B,R,W),B表示網(wǎng)絡中的節(jié)點類型,R表示網(wǎng)絡中的邊的類型,W表示網(wǎng)絡中邊的權重;加權元路徑P定義在加權網(wǎng)絡模式S=(B,R,W)上,在不引起歧義的情況下,直接用節(jié)點類型和節(jié)點間邊上的權重來表示加權元路徑P,加權元路徑P表示為P=B1(W1)B2(W2)B3…(Wl-1)Bl;舉例來說,元路徑表示觀看同一部電影(M)的兩個用戶(U),用元路徑可直接表示為U(5)M(2)U。否則,加權元路徑表示為:表示從實體類型B1到實體類型Bl+1之間的復雜關系R=R1οR2ο…οRl;ο代表關系上的連接操作,加權元路徑P的長度即為R的個數(shù);對于加權元路徑P=B1(W1)B2(W2)B3…(Wl-1)Bl的擴展交換矩陣如式(Ⅱ)所示:式(Ⅱ)中,為節(jié)點類型Bi到類型Bj的擴展鄰接矩陣;的定義如式(Ⅲ)所示:B、表示xi∈Bi、yj∈Bj在元路徑P=B1(W1)B2(W2)B3…(Wl-1)Bl下xi到y(tǒng)j的所有路徑實例的權重之和,即xi對yj的偏好度。對于加權元路徑P=U(W1)M(W2)A,擴展交換矩陣為則的每一個元素為第i個用戶對第j個演員所主演的所有電影的評分之和。以2個用戶,3個演員的兩行三列的矩陣為例,則矩陣第一行第一個元素即為第一個用戶對演員1所主演的所有電影的評分之和,所以矩陣的第一行的三個元素分別為第一個用戶對3個演員所主演電影的評分之和。根據(jù)本發(fā)明優(yōu)選的,所述步驟(3),包括步驟如下:矩陣的每一行元素為該行對應的用戶對網(wǎng)絡中所有演員的偏好度,進行歸一化處理后,用每一行數(shù)據(jù)代表此用戶在演員方面的偏好,得到任意兩用戶ui與uj間在演員方面的相似度,如式(Ⅳ)所示:式(Ⅳ)中,若求取的sim(ui,uj)為負值,則用公式sim(ui,uj)=0.5+0.5*sim7ui,uj)修正,使其值位于0到1之間,對求取的sim(ui,uj)的值從到小進行排序,取前K個值對應的用戶作為與用戶u最相似的用戶集合。根據(jù)本發(fā)明優(yōu)選的,所述步驟(4),包括步驟如下:在基于用戶的協(xié)同過濾推薦系統(tǒng)中用戶u對項目i的評分如式(Ⅴ)所示:式(Ⅴ)中,ru,i為用戶u對項目i的評分;為與用戶u最相似的用戶集合,此處選取與該用戶最相似的K=30個用戶作為其相似用戶,近鄰數(shù)K的取值對最后結果的影響將在實驗結果分析部分詳細說明;為用戶u的平均打分值,消除用戶打分偏好對最后結果的影響;k為標準化因子,本發(fā)明的有益效果為:在引入加權異構網(wǎng)絡信息的基礎上,本發(fā)明提出了一種基于元路徑計算用戶間相似度的新的協(xié)同過濾推薦算法,全面的考慮了電影推薦網(wǎng)絡中可能影響到用戶對電影評分的多種影響因素,顯著地改善了預測用戶評分的準確率。附圖說明圖1為加權異構信息網(wǎng)絡示意圖。圖2為加權異構信息網(wǎng)絡的加權網(wǎng)絡模式圖。圖3(a)為近鄰數(shù)K對五種算法的平均絕對誤差值影響示意圖。圖3(b)為近鄰數(shù)K對五種算法的均方根差值影響示意圖。圖4(a)為K=30時五種算法的平均絕對誤差值比較示意圖。圖4(b)為K=30時五種算法的均方根差值比較示意圖。圖5是本發(fā)明基于加權異構信息網(wǎng)絡的電影推薦方法的詳細流程圖。具體實施方式下面結合說明書附圖和實施例對本發(fā)明作進一步限定,但不限于此。實施例一種基于加權異構信息網(wǎng)絡的電影推薦方法,如圖5所示,包括以下步驟:(1)對數(shù)據(jù)集構建加權異構信息網(wǎng)絡,并提取出兩用戶間多種不同的元路徑;所述數(shù)據(jù)集是指grouplens研究組發(fā)布的MovieLens10M擴展數(shù)據(jù)集,該數(shù)據(jù)集結合了MovieLens數(shù)據(jù)集的電影與相應的互聯(lián)網(wǎng)電影數(shù)據(jù)庫(IMDb)和rottentoMatoes電影評論系統(tǒng)的數(shù)據(jù),經過數(shù)據(jù)預處理去除掉冗雜的演員等信息后,數(shù)據(jù)集中用戶對電影的評分數(shù)據(jù)共855598個;所述數(shù)據(jù)集包括實體類型、表示及數(shù)目,實體類型包括用戶、電影、演員、導演、國家、體裁、標簽;表示是指對每種實體類型的表示字符,字符U表示用戶類型,字符M表示電影類型,字符A表示演員類型,字符D表示導演類型,字符C表示國家類型,字符G表示體裁類型,字符T表示標簽類型;數(shù)目是指每種實體類型的個數(shù);用戶有2113個,電影有10197個,演員有21185個,導演有4060個,國家有72個,體裁有20個,標簽有13222個;如表2所示:表2實體類型表示數(shù)目用戶U2113電影M10197演員A21185導演D4060國家C72體裁G20標簽T13222所述元路徑包括P1、P2、P3、P4、P5、P6,P1=UMU,P2=UMAMU,P3=UMCMU,P4=UMDMU,P5=UMGMU,P6=UMTMU;P1的語義信息是指:與目標用戶(U)看過同一部電影(M)的用戶(U);P2的語義信息是指:與目標用戶(U)看過同一個演員(A)演過的電影(M)的用戶(U);P3的語義信息是指:與目標用戶(U)看過在同一個國家(C)上映的電影(M)的用戶(U);P4的語義信息是指:與目標用戶(U)看過由同一個導演(D)執(zhí)導的電影(M)的用戶(U);P5的語義信息是指:與目標用戶(U)看過屬于同一個體裁(G)的電影(M)的用戶(U);P6的語義信息是指:與目標用戶(U)看過被貼上同一個類型標簽T的電影(M)的用戶(U)。()中為節(jié)點類型,表明上面說的節(jié)點是屬于何種類型。(2)用戶是否喜歡一部電影受多種因素影響,分別計算用戶在對電影M、演員A、導演D、國家C、電影體裁G、電影標簽T方面的偏好度;用戶ui對影響因素y的偏好度的求取公式如式(Ⅰ)所示:式(Ⅰ)中,ui表示用戶,ui屬于用戶類型U;P為用戶ui到影響因素y的元路徑;為從ui到y(tǒng)的一個加權路徑實例,w為該加權路徑上的權重值;為ui到y(tǒng)的一個加權路徑實例上的權重值;t(ui,y)為ui到y(tǒng)的所有加權路徑實例上的權重值之和,即要求取的用戶ui對影響因素y的偏好度;影響因素y包括電影、演員、導演、國家、體裁、標簽;y屬于影響因素y;以元路徑P=U(W1)M(W2)A為例,用戶ui對演員aj的偏好度為:ui屬于用戶類型U,aj屬于演員類型A。即為用戶ui對演員aj的所有加權路徑實例上的權重之和。用該公式可以推算出所有用戶對所有演員基于該元路徑的偏好度。如果兩用戶對所有演員的偏好度越接近,則兩用戶的喜好越相似。(3)分別針對用戶在每一方面的偏好度,計算兩用戶間的相似度,若兩用戶在所有方面的偏好都相似,則兩用戶相似;否則,兩用戶偏好相差越大則兩用戶越不相似;通過擴展交換矩陣快速計算用戶在每一方面的偏好度,包括步驟如下:A、設定步驟(1)構建的加權異構信息網(wǎng)絡且節(jié)點類型映射函數(shù)表示每一個v∈V屬于節(jié)點類型集合B,即用ψ表示邊類型映射函數(shù),ψ(e)∈R表示每一個e∈E屬于邊類型集合R;用映射函數(shù)Ψ:w→W表示每條邊的權重屬于集合W:Ψ(w)∈W;V是指加權異構信息網(wǎng)絡中的節(jié)點,v是指具體節(jié)點對象實例,E是指加權異構信息網(wǎng)絡中的邊,w是指加權異構信息網(wǎng)絡中的邊上的權重;如圖1所示;加權異構信息網(wǎng)絡的網(wǎng)絡模式S=(B,R,W),B表示網(wǎng)絡中的節(jié)點類型,R表示網(wǎng)絡中的邊的類型,W表示網(wǎng)絡中邊的權重;加權元路徑P定義在加權網(wǎng)絡模式S=(B,R,W)上,在不引起歧義的情況下,直接用節(jié)點類型和節(jié)點間邊上的權重來表示加權元路徑P,加權元路徑P表示為P=B1(W1)B2(W2)B3…(Wl-1)Bl;舉例來說,元路徑表示觀看同一部電影(M)的兩個用戶(U),用元路徑可直接表示為U(5)M(2)U。否則,加權元路徑表示為:表示從實體類型B1到實體類型Bl+1之間的復雜關系R=R1οR2ο…οRl;ο代表關系上的連接操作,加權元路徑P的長度即為R的個數(shù);如圖2所示;對于加權元路徑P=B1(W1)B2(W2)B3…(Wl-1)Bl的擴展交換矩陣如式(Ⅱ)所示:式(Ⅱ)中,為節(jié)點類型Bi到類型Bj的擴展鄰接矩陣;的定義如式(Ⅲ)所示:B、表示xi∈Bi、yj∈Bj在元路徑P=B1(W1)B2(W2)B3…(Wl-1)Bl下xi到y(tǒng)j的所有路徑實例的權重之和,即xi對yj的偏好度。對于加權元路徑P=U(W1)M(W2)A,擴展交換矩陣為則的每一個元素為第i個用戶對第j個演員所主演的所有電影的評分之和。以2個用戶,3個演員的兩行三列的矩陣為例,則矩陣第一行第一個元素即為第一個用戶對演員1所主演的所有電影的評分之和,所以矩陣的第一行的三個元素分別為第一個用戶對3個演員所主演電影的評分之和。矩陣的每一行元素為該行對應的用戶對網(wǎng)絡中所有演員的偏好度,進行歸一化處理后,用每一行數(shù)據(jù)代表此用戶在演員方面的偏好,得到任意兩用戶ui與uj間在演員方面的相似度,如式(Ⅳ)所示:式(Ⅳ)中,若求取的sim(ui,uj)為負值,則用公式sim(ui,uj)=0.5+0.5*sim(ui,uj)修正,使其值位于0到1之間,對求取的sim(ui,uj)的值從到小進行排序,取前K個值對應的用戶作為與用戶u最相似的用戶集合。(4)分別將受偏好度影響的6個相似度應用到協(xié)同過濾推薦算法中,預測用戶對電影的評分;在基于用戶的協(xié)同過濾推薦系統(tǒng)中用戶u對項目i的評分如式(Ⅴ)所示:式(Ⅴ)中,ru,i為用戶u對項目i的評分;為與用戶u最相似的用戶集合,此處選取與該用戶最相似的K=30個用戶作為其相似用戶,近鄰數(shù)K的取值對最后結果的影響將在實驗結果分析部分詳細說明;為用戶u的平均打分值,消除用戶打分偏好對最后結果的影響;k為標準化因子,(5)用戶評分受各種影響因素影響的權重不同,應用經典的線性回歸算法為每一個用戶對電影的評分分配合適的權重,融合為最終的評分值;(6)將最終的評分值最高的幾部電影推薦給該用戶。在有權異構信息網(wǎng)絡中用戶評分用原始評分減去該用戶得到6個受不同影響因素影響的用戶對電影的評分值。然后采用線性回歸方法為每一個基于單一元路徑的預測評分值賦予不同的權重,融合為最終的預測評分。即若用戶評分均值為3,用戶原始評分為5分則在本文改進算法中評分為2分,原始評分為1分則在改進算法中評分為-2分等。表4(a)是電影評分網(wǎng)絡中包含5位用戶和5部電影的簡單例子,展示了5位用戶對5部電影的評分情況,括號內為處理后的評分。表4(a)用戶Mov1Mov2Mov3Mov4Mov5Ann1(-2.333)04(0.667)05(1.667)Mary5(1.667)4(0.667)001(-2.333)Bob05(0.5)004(-0.5)Jim1(-2.333)04(0.667)05(1.667)Mike3(-0.333)4(0.667)03(-0.333)0表4(b)是網(wǎng)絡中用戶與演員之間的擴展鄰接矩陣WUA,WUA=WUM*WMA為用戶對某演員所主演的所有電影的評分之和,對擴展鄰接矩陣WUA進行行歸一化后每行表示該用戶對所有演員的不同偏好度值,用戶Ann與用戶Mary間的相似度為:同理可得Ann與其他用戶之間的相似度值。表4(b)表4(c)中分別是基于同構網(wǎng)絡中計算相似度最常用的Cosine相似度與Pearson相關系數(shù)和異構網(wǎng)絡中計算相似度最常用的PathSim與HeteSim(都基于相同元路徑UMAMU)方法得到的用戶Ann與其他用戶間的相似度。表4(c)MaryBobJimMikeCosine0.2380.48110.079Pearson0.9320.26410.075PathSim0.750.57110.4HeteSim0.7740.63210.4Proposed0.01960.2510.75由表3(a)中的評分信息可知,用戶Mary與用戶Ann有著相反的喜好,所以兩用戶的相似度應該非常小,但是由于PathSim和HeteSim方法忽略權重信息,沒有考慮用戶對電影評分表現(xiàn)出來的對商品的喜愛和厭惡信息,所以最終結果有所偏差。傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法中最常用的相似度度量方式為Cosine相似度和Pearson相關系數(shù),在HIN中最經典的計算兩節(jié)點間相似度的方式是基于對稱元路徑的PathSim算法和基于任意元路徑的HeteSim算法。接下來將比較本文提出的改進協(xié)同過濾方法和基于上述四種相似度度量方式的協(xié)同過濾算法在不同近鄰數(shù)K影響下的MAE值和RMSE值。實驗采用五折交叉驗證方法,最終結果為五次實驗結果的平均值。當近鄰數(shù)K為20、30、40、50和60時,在擴展MovieLens數(shù)據(jù)集下比較基于Cosine相似度、Pearson相關系數(shù)、PathSim和HeteSim的協(xié)同過濾算法和本文引入加權異構信息的改進協(xié)同過濾算法的MAE和RMSE大小。實驗結果如圖3(a)和圖3(b)所示。在MovieLens擴展數(shù)據(jù)集中,隨著鄰居數(shù)的變化,基于Cosine相似度和Pearson相關系數(shù)的協(xié)同過濾算法的MAE值始終大于其他三種算法,推測原因可能是因為本數(shù)據(jù)集稀疏度很高,用戶的共同評分項目很少導致最終評分預測準確度低。基于Cosine相似度和Pearson相關系數(shù)的協(xié)同過濾算法的MAE值在K較小時隨著K的增加MAE下降明顯,但是當K取40及以上時其MAE值變化極微,稍有下降?;贖eteSim的協(xié)同過濾算法在K取30時MAE值略小于K取20時的MAE值,當K取值大于30時其MAE值變化極小,有些許增加;而基于PathSim的協(xié)同過濾算法的MAE值隨著K的增加變化不大,略有增加,但始終大于本文所提出的改進協(xié)同過濾算法。本文算法通過分析用戶間相似度的多種影響因素已捕捉到相對全面的語義信息,所以取較小的近鄰數(shù)時,隨著K的增加,其MAE幾乎沒有變化,當近鄰數(shù)取50和60時,由于所取近鄰中摻雜了與目標用戶不那么相似的用戶,這些用戶反而會使得其MAE有所增加。如圖3(b),隨著所取近鄰數(shù)K的增加,三種算法的RMSE值的變化趨勢與圖3中MAE值的變化趨勢大致相同,都是在K=30時表現(xiàn)最優(yōu),綜上所述,取K=30。當近鄰數(shù)K=30時,比較三種算法預測用戶對電影評分數(shù)據(jù)的精度,實驗結果如圖4(a)、圖4(b)所示。由于融合了HIN中多條元路徑攜帶的不同語義信息的綜合影響,并考慮了兩用戶間不同關系上的權重值和用戶評分的兩極化影響,本文中所提出的改進協(xié)同過濾方法表現(xiàn)優(yōu)于基于Cosine相似度、Pearson相關系數(shù)、PathSim和HeteSim的協(xié)同過濾算法,其預測評分準確度在MAE和RMSE兩種評價指標上均明顯小于另兩種算法。當前第1頁1 2 3