本發(fā)明屬于數(shù)據(jù)挖掘協(xié)同領域,特別是涉及一種基于用戶偏好和信任的冷啟動推薦方法。
背景技術:
推薦系統(tǒng)是指應用知識發(fā)現(xiàn)技術產生個性化推薦,從而幫助用戶在大量的文章、產品、電影、音樂、網頁等中篩選出有用的信息,已被廣泛運用到各電子商務平臺中。
已有的推薦方法主要分為基于內容的分為基于關聯(lián)規(guī)則的推薦、內容過濾推薦、協(xié)同過濾推薦等三種。尤其,協(xié)同過濾推薦技術是被應用得最為廣泛的一種推薦方法。但是協(xié)同過濾推薦技術也存在著用戶冷啟動的問題?;谟脩魠f(xié)同過濾推薦技術的冷啟動推薦方法的原理:通過尋找與目標用戶偏好相似度較高的用戶群,然后將該用戶群感興趣的項目推薦給目標用戶。因此,尋找與目標用戶相似度較高的其他用戶是解決用戶冷啟動問題的關鍵。目前,計算用戶間相似度的方法主要利用用戶評分項目信息,然而用戶-項目評分矩陣中的數(shù)據(jù)通常非常稀疏。
針對冷用戶評分信息數(shù)據(jù)稀疏問題,目前使用最為廣泛的就是應用多種類型的數(shù)據(jù)計算用戶的綜合相似度。其中,隨著web2.0的快速發(fā)展,用戶的社交信息更容易被挖掘,且可靠性更高;因此,融合評分信息和社交信息計算用戶間的綜合相似度的方法是被應用得最廣泛的。
盡管科研人員通過使用以上兩種類型的數(shù)據(jù)計算用戶的綜合相似度,在一定程度上提高了冷用戶的個性化推薦精度。但卻往往忽視了兩種類型數(shù)據(jù)各自存在的獨特性,從而在處理兩種數(shù)據(jù)時存在以下兩方面的問題:一方面,一般都僅從單一的信任角度來考慮用戶的信任關系,即僅考慮單一方面對用戶信任的影響,且在用戶評分相似上采用一般的相似度計算方法;另一方面,在用戶綜合相似度計算中,使用傳統(tǒng)方法確定用戶評分相似、信任值、社交相似的權值分配,導致用戶的綜合相似度準確度具有一定的片面性。因此,現(xiàn)有的融合信任信息和評分信息的用戶冷啟動推薦方法仍未能有效地提高冷用戶的個性化推薦準確度。
技術實現(xiàn)要素:
本發(fā)明旨在解決以上現(xiàn)有技術的問題。提出了一種提高用戶間信任值度量的準確度,同時提高用戶評分相似度計算的精確度,多目標優(yōu)化的基于用戶偏好和信任的冷啟動推薦方法。本發(fā)明的技術方案如下:
一種基于用戶偏好和信任的冷啟動推薦方法,其包括以下步驟:s1、依據(jù)用戶社交信息,度量用戶間的綜合信任值,構建信任關系矩陣;s2、依據(jù)用戶評分數(shù)據(jù),計算用戶的偏好相似度,構建偏好關系矩陣;s3、利用綜合相似度計算方法融合步驟s2的偏好關系與步驟s1的信任關系,并使用蜂群算法迭代更新綜合相似度中的權值,進行多目標優(yōu)化,使權值達到自適應最優(yōu),構建偏好信任關系矩陣;s4、基于偏好信任關系矩陣,選取冷啟動用戶的最可信鄰居集為其預測相應項目進行評分;s5、將預測評分高的項目推薦給冷啟動用戶。
進一步的,所述步驟s1構建信任關系矩陣包括以下步驟:
通過計算用戶間的信任值得到用戶對另一用戶的信任程度,信任值為0的兩用戶間不存在信任關系,形成一個n×n有向鄰接矩陣t,即用戶的信任關系矩陣;其中的元素ts(ui,uj)代表第i個用戶對第j個用戶的綜合信任程度;所述n為正整數(shù),且i、j均為不大于n的正整數(shù)。
進一步的,所述步驟s1中計算用戶間信任值的方法包括:
(1)根據(jù)用戶社交網的特性將用戶的信任分為直接信任dt和間接信任idt;
其中,|fu|表示用戶u的好友數(shù)目;n表示用戶和用戶之間傳遞路徑的
總數(shù);d表示用戶與用戶間可達路徑的長度,且為了節(jié)省計算開銷和避免不
必要的信任傳遞,本方法設置3≥d>1。
進一步的,所述步驟(1)中,用戶間的信任值為:
t(u,v)=dt(u,v)+idt(u,v)
(2)根據(jù)用戶在社交網中相對位置范圍將用戶的可被信任概率分為局部可被信任概率α和全局可被信任概率β;
(3)根據(jù)信任的非對稱相似計算用戶的局部可被信任概率α;
其中,fu表示用戶u的直接好友;fv表示用戶v的直接好友;fu∩fv表示用戶u和用戶v的共同好友,本發(fā)明為了避免用戶間存在直接信任而局部可被信任概率α為0的矛盾,故默認設置所有可達好友間的共同好友數(shù)初始為1;α(u,v)和α(v,u)則分別表示用戶v被用戶u信任的概率和用戶u被用戶v信任的概率。
(4)根據(jù)用戶在社交網中得聲望機制計算用戶全局可被信任概率β;
其中,|iu|表示用戶u的信任入度;
(5)根據(jù)以上推理公式以及社會學中的相關理論知識得到用戶綜合信任度ts(u,v)。
ts(u,v)=α(u,v)*dt(u,v)+βv*idt(u,v)
進一步的,所述步驟s2構建用戶的偏好關系矩陣具體包括:獲取n個用戶對m個項目的主動評分,未主動評分的項目評分為空值,形成一個n×m用戶-項目評分矩陣r;其中元素r(ui,m)表示第i個用戶對第m個項目的評分;所述n、m均為正整數(shù),且i、m依次均為不大于n與m的正整數(shù);基于此評分信息通過相似度計算得到用戶間的評分相似度從而形成一個n×n矩陣s,即用戶的偏好關系矩陣;其中元素s(ui,uj)代表第i個用戶與第j個用戶的評分相似程度,所述n為正整數(shù),且i、j均為不大于n的正整數(shù)。
進一步的,所述步驟s2中計算用戶間評分相似度的方法包括:
(1)使用用戶間的杰卡爾德共同評分項目占比定義用戶間的初始評分相似度is(u,v):
其中,iu和iv分別表示被用戶u和用戶v評分的項目的總數(shù)目。
(2)使用基于用戶相似的用戶評分偏好的相似計算方法緩解用戶間評分偏差對用戶間的評分相似度帶來的影響。故最終的用戶間評分相似度s(u,v):
s(u,v)=is(u,v)*urp(u,v)
其中,μu和μv分別代表用戶u和用戶v對項目的平均評分值;σu和σv分別代表用戶u和用戶v的評分標準差。
進一步的,所述步驟s3中計算用戶間綜合相似度的方法包括:
(1)采用線性加權的方法融合用戶的社交信息和評分信息,用戶間的綜合相似度為:
cs(u,v)=a*ts(u,v)+b*s(u,v)+c*j(u,v)
其中,a、b、c分別為三個權重系數(shù),且三者滿足a+b+c=1;j(u,v)表示用戶u和用戶v的社交相似。
(2)以綜合相似度中的權重系數(shù)序列{a,b,c}為自變量,綜合預測評分的絕對平均誤差和f調和率可得到一個多目標優(yōu)化的目標函數(shù):
其中,s表示目標函數(shù);mae表示絕對平均誤差;p(u,m)表示用戶對項目的預測評分,下文會介紹;n表示預測評分的次數(shù);f調和率由準確率p和召回率r融合而成。
進一步的,f調和率為:
其中,m和n分別表示預測評分的項目數(shù)與測試集中被評分的項目數(shù),h表示用戶已經評過分的項目數(shù)。
(3)采用蜂群優(yōu)化算法對這幾個目標進行優(yōu)化,當目標函數(shù)s取最小值時,其所對應的權重系數(shù){a,b,c}即為最優(yōu)解。
進一步的,所述步驟s4中計算目標用戶u對項目m的預測評分值:
其中,cs(u,v)表示用戶u和用戶v之間的綜合相似性;r(v,m)是用戶v對項目m的評分,tnu是目標用戶的最近可信鄰居集。
進一步的,所述步驟s4中計算目標用戶u對項目m的預測評分值:
其中,cs(u,v)表示用戶u和用戶v之間的綜合相似性度;r(v,m)是用戶v對項目m的評分,tnu是目標用戶的最近可信鄰居集。
進一步的,所述步驟s5中對于待推薦的項目集合irec共有|irec|個預測評分;
降序排列待推薦項目的預測評分,取預測評分靠前的top(1≤top≤m)個項目
向目標用戶進行推薦。
本發(fā)明的優(yōu)點及有益效果如下:
1.本發(fā)明細化用戶信任,將其分為直接信任和間接信任,并考慮到社會學中信任傳播的特性,首次引入可被信任概率來進一步提高用戶信任度量的精確度,充分挖掘社交信任信息中存在的隱式信息,緩解冷用戶的數(shù)據(jù)稀疏問題。
2.在計算用戶間的評分相似度時,本發(fā)明首先使用杰卡爾德相似度求得用戶間的初始評分相似度,并考慮到等級評分對用戶評分偏差的影響,采用urp相似度進行進一步降低由評分偏差導致的用戶評分相似度的誤差。
3.以綜合相似度中的權重序列為自變量,綜合絕對平均誤差和f調和率得到一個多目標優(yōu)化的目標函數(shù)。本發(fā)明首次采用蜂群算法對這兩個目標進行迭代優(yōu)化,提高算法的收斂速度,使其權重系數(shù)自適應。保證用戶綜合相似度中的權重系數(shù)處于最優(yōu)分配,提高用戶綜合相似度計算的準確度,從而提高對冷用戶推薦的推薦質量。
附圖說明
圖1是本發(fā)明提供優(yōu)選實施例基于用戶偏好和信任的冷啟動推薦方法的原理圖;
圖2為用戶的信任關系矩陣示意圖;
圖3為用戶的信任關系網絡示意圖;
圖4為用戶-項目評分矩陣的示意圖;
圖5是本發(fā)明優(yōu)選實施例基于用戶偏好和信任的冷啟動推薦方法的流程圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、詳細地描述。所描述的實施例僅僅是本發(fā)明的一部分實施例。
本發(fā)明解決上述技術問題的技術方案是:
本發(fā)明公開了一種基于用戶偏好和信任的冷啟動推薦方法,如圖1所示,包括以下步驟:
第一步,構建用戶的信任關系矩陣。獲取如圖2所示中的用戶信任關系矩陣,并且依據(jù)其得到用戶間的信任關系網絡。如圖3所示,即為用戶間的信任關系網絡,箭頭表示兩者為好友關系,例如,u1指向u2表示u1與u2為直接好友,即u1直接信任u2。
在本實施方式中,運用以上獲取到的用戶信任關系矩陣的數(shù)據(jù),通過計算用戶間的信任值得到用戶對另一用戶的信任程度,信任值為0的兩用戶間不存在信任關系(表明兩用戶在社交網絡中不存在可達路徑),最終得到一個6×6矩陣t;其中的元素t(ui,uj)代表第i個用戶對第j個用戶的信任程度;且i、j均為不大于6的正整數(shù)。依據(jù)上述步驟s1中的用戶間的綜合信任值計算的理論推導公式和圖2中的數(shù)據(jù),本實施例可得到一組相關數(shù)據(jù)。例如用戶u1與用戶u2的信任關系數(shù)據(jù):
最終得到ts(u1,u2)=0.5*0.667+0.25*1=0.5835,表示用戶u1對用戶u2的綜合信任程度為0.5835。以此類推可以計算得到其他用戶間的信任值,從而形成包含信任程度的用戶的信任關系矩陣t。
第二步,構建用戶的偏好關系矩陣。如圖4所示,獲取6個用戶對6個項目的主動評分(本發(fā)明中的用戶項目評分為等級評分,該等級評分分為1、2、3、4、5總共5個等級;評分越高表示用戶對該項目的偏好越高),未主動評分的項目評分為空值,形成一個6×6用戶-項目評分矩陣r;其中元素r(ui,im)表示第i個用戶對第m個項目的評分;且i、m均為不大于6的正整數(shù)。
在本實施方式中,運用以上得到的用戶-項目評分矩陣中的數(shù)據(jù)信息,通過相似度計算得到用戶間的評分相似度從而形成一個6×6矩陣s;其中元素s(ui,uj)代表第i個用戶與第j個用戶的評分相似程度,且i、j均為不大于6的正整數(shù)。依據(jù)上述步驟s2中的用戶間的評分相似度計算的理論推導公式和圖4中的數(shù)據(jù),本實施例可得到一組相關數(shù)據(jù)。例如用戶u1與用戶u2的偏好關系數(shù)據(jù):
最終得到s(u1,u2)=is(u1,u2)·urp(u1,u2)=0.25*0.421=0.105,表示用戶u1與用戶u2的評分相似度為0.105,即偏好相似為0.105。以此類推可以計算得到其他用戶間的評分相似度,從而形成包含偏好關系的用戶的偏好關系矩陣s。
第三步,構建用戶的偏好信任關系矩陣。在本實施方式中,依據(jù)第一步得到的信任關系和第二步得到的偏好關系,通過綜合相似度計算得到用戶間的綜合相似度,從而得到一個6×6矩陣cs,即用戶的偏好信任關系矩陣;其中元素cs(ui,uj)代表第i個用戶與第j個用戶的綜合相似度,且i、j均為不大于6的正整數(shù)。依據(jù)上述步驟s3中的用戶間的綜合相似度計算的理論推導公式和已得到的偏好關系和信任關系數(shù)據(jù),本實施例可得到一組相關數(shù)據(jù)。例如用戶u1與用戶u2的社交相似:
以此本實施例可以得到含有權重系數(shù)的用戶間的綜合相似度:
cs(u1,u2)=a*0.75+b*0.105+c*0.333
以綜合相似度中的權重系數(shù)序列{a,b,c}為自變量,綜合預測評分的絕對平均誤差和f調和率得到一個多目標優(yōu)化的目標函數(shù)s,并采用蜂群優(yōu)化算法對這幾個目標進行優(yōu)化,當目標函數(shù)s取值最小時從而找到最優(yōu)的權系數(shù)集合{a,b,c},假設此時的權重系數(shù)最優(yōu)值為{0.4,0.4,0.2}。則
cs(u1,u2)=0.4×0.75+0.4×0.105+0.2×0.333=0.4086
以此類推可以計算得到其他用戶間的綜合相似度,從而得到用戶的偏好信任關系矩陣。
第四步,尋找目標用戶的最可信鄰居集并得到項目的預測評分。依據(jù)第三步得到的用戶的偏好信任關系矩陣的數(shù)據(jù),降序排列目標用戶的綜合相似度,選擇確定目標用戶的可信鄰居集(本實施方式中取k為10);通過評分預測公式計算該可信鄰居集對項目的預測評分,即目標用戶對該項目的預測評分值。在本實施方式中,假設u2為u1的唯一一個可信鄰居,則用戶u1對項目i3的預測評分值為:
第五步,將預測評分較高的項目推薦給冷用戶。依據(jù)第四步得到的目標用戶對項目的預測評分信息,降序排列待推薦項目的預測評分,選擇預測評分排名靠前的待推薦項目對目標用戶進行推薦。
該基于用戶偏好和信任的冷啟動推薦方法,不僅能夠挖掘出更多冷用戶的可信好友解決冷用戶的數(shù)據(jù)稀疏問題;而且多目標優(yōu)化的方法提高用戶間的綜合相似度計算的精確度,從多類型數(shù)據(jù)角度展示用戶間的偏好信任關系;提高對冷用戶的個性化推薦質量。
以上這些實施例應理解為僅用于說明本發(fā)明而不用于限制本發(fā)明的保護范圍。在閱讀了本發(fā)明的記載的內容之后,技術人員可以對本發(fā)明作各種改動或修改,這些等效變化和修飾同樣落入本發(fā)明權利要求所限定的范圍。