的相關(guān)度進(jìn)行賦值,用戶對主題的內(nèi)容貢獻(xiàn)以用戶每次發(fā)言與主題的吻合度來衡量;一種簡化的處理方法為當(dāng)兩個用戶對某主題的貢獻(xiàn)度都超過一定閾值時,則保留該主題,系數(shù)統(tǒng)一為1,代表是雙方真正共同關(guān)注的話題;
[0070](4)、計算用戶間位置相關(guān)度(如圖5所示)
[0071]通過位置關(guān)系挖掘,發(fā)現(xiàn)用戶的鄰居,再通過線性關(guān)系公式將位置關(guān)系轉(zhuǎn)換為相關(guān)度系數(shù),即與用戶在地理位置上經(jīng)常處于鄰近局域的另一用戶為該用戶的鄰居,鄰居可能是住宅區(qū),也可以是辦公區(qū);
[0072](5)、組合關(guān)聯(lián)用戶的群組相關(guān)度、話題相關(guān)度、位置相關(guān)度及用戶的主題相關(guān)度,進(jìn)行分條件的賦權(quán)累加,得出最終的推薦模型(如圖6所示);
[0073](6)、內(nèi)容分類(如圖7所示)
[0074](61)從樣本內(nèi)容集合中進(jìn)行主題提取,得到對內(nèi)容的分類標(biāo)簽;
[0075](62)使用文本分類器,將目標(biāo)內(nèi)容集合按步驟(61)得到的分類標(biāo)簽分類;
[0076](7)、內(nèi)容推薦,如圖8所示分兩種情況:
[0077](71)、若推薦的內(nèi)容是用戶未瀏覽過的內(nèi)容:首先根據(jù)內(nèi)容的類別屬性和任意用戶的關(guān)注標(biāo)簽的匹配度進(jìn)行計算,得出一個推薦指數(shù),當(dāng)某一用戶的推薦指數(shù)大于閾值,則向該用戶推薦,該閾值取值區(qū)間為(0,1);
[0078](72)、若推薦的內(nèi)容為用戶瀏覽過的內(nèi)容,首先確保該用戶對內(nèi)容產(chǎn)生真正的接收(例如:頁面停留時間超過5秒/100字),然后分三種情況計算用戶的關(guān)聯(lián)用戶的推薦指數(shù);
[0079](721)、位置關(guān)聯(lián)用戶的基礎(chǔ)系數(shù)為rl,當(dāng)分類的內(nèi)容涉及物理方位信息時,則該基礎(chǔ)系數(shù)進(jìn)行放大處理(如:乘以10倍),物理方位信息包括場所、賣場、地點和位置;
[0080](722)、群組關(guān)聯(lián)用戶的基礎(chǔ)系數(shù)為r2,當(dāng)分類的內(nèi)容覆蓋到群組主題或群組標(biāo)簽時,則該系數(shù)進(jìn)行放大處理(如:乘以10倍);
[0081](723)、話題關(guān)聯(lián)用戶的相關(guān)系數(shù)算法為:R = I {TJ Π U打,其中{TJ為內(nèi)容主題的集合,{Tul_u2}為第I用戶與第2用戶之間話題的集合,取兩個集合交集的度再乘以一個系數(shù)r作為話題相關(guān)系數(shù),系數(shù)r的取值范圍為[1,10];
[0082]最終相關(guān)用戶推薦指數(shù)計算公式為:R U1-U2= r其中,rl,r2,r3的初始值均設(shè)為1,Rg表示群組關(guān)聯(lián)用戶的群組相關(guān)度,Rt表示話題關(guān)聯(lián)用戶的話題相關(guān)度,&表示位置關(guān)聯(lián)用戶的位置相關(guān)度;一個相關(guān)用戶可能同時是三種相關(guān)用戶,也可能只是其中的兩種或一種,對于不是某類相關(guān)的用戶,可將相應(yīng)的相關(guān)系數(shù)設(shè)為O ;
[0083]對于第I用戶閱讀過的內(nèi)容,當(dāng)推薦指數(shù)R 111_112大于閾值,則向第2用戶推薦,閾值取I ;
[0084](8)、推薦優(yōu)化(如圖9所示)
[0085](81)、對于推薦給用戶的內(nèi)容,當(dāng)用戶進(jìn)行主動接收后,記錄用戶的閱讀時長,當(dāng)閱讀時長超過閾值,則認(rèn)為推薦成功;否則認(rèn)為推薦失敗;
[0086](82)、查看該用戶的推薦模型,確定該模型中起主要作用的相關(guān)度系數(shù),若推薦成功,則調(diào)大該系數(shù)的百分比(例如增加5%或10%);如果推薦失敗,則調(diào)小該系數(shù)的百分比(例如減少5%或10% )。
[0087]閱讀時長閾值或調(diào)節(jié)百分比都可根據(jù)經(jīng)驗進(jìn)行設(shè)置和調(diào)整。
[0088]本實施例中,步驟(12)采用LSA文檔主題模型提取樣本集合。
[0089]本實施例中,步驟(4)中位置關(guān)系挖掘采用聚類算法挖掘。
[0090]本實施例中,步驟(81)中的,閾值為30秒/100字。
[0091]具體實施例2
[0092]與具體實施例1大致相同,區(qū)別僅僅在于
[0093]本實施例中,步驟(12)采用LDA文檔主題模型提取樣本集合;
[0094]本實施例中,步驟(4)中位置關(guān)系挖掘采用關(guān)聯(lián)規(guī)則分析算法挖掘。
[0095]本實施例中,步驟(72)中閾值根據(jù)統(tǒng)計區(qū)間段內(nèi)段的所有推薦指數(shù)的總體情況取中間值。
[0096]上面對本發(fā)明的實施方式做了詳細(xì)說明。但是本發(fā)明并不限于上述實施方式,在所屬技術(shù)領(lǐng)域普通技術(shù)人員所具備的知識范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下做出各種變化。
【主權(quán)項】
1.一種多維協(xié)同推薦的系統(tǒng),其特征在于,包括以下模塊: 挖掘模塊,完成主題提取、位置關(guān)系挖掘和文本分類; 推薦模塊,完成各推薦內(nèi)容對于各用戶的推薦指數(shù)以及被閱讀后的內(nèi)容相對于相關(guān)用戶的推薦指數(shù),綜合得出待推薦內(nèi)容的推薦模型,計算過程需調(diào)用挖掘模塊; 內(nèi)容數(shù)據(jù)庫模塊,用于記錄推薦內(nèi)容、分類標(biāo)簽和內(nèi)容分類; 用戶數(shù)據(jù)庫模塊,記錄用戶基本信息、群組屬性、交流記錄、位置信息記錄、瀏覽記錄、關(guān)聯(lián)用戶、關(guān)注標(biāo)簽和推薦記錄。
2.—種多維協(xié)同推薦的方法,其特征在于,包括以下步驟: (1)、計算用戶的主題關(guān)注度 (11)、根據(jù)用戶瀏覽記錄將相應(yīng)內(nèi)容抽取為樣本集合; (12)、對步驟(11)中的樣本集合進(jìn)行主題提取, (13)、將步驟(12)提取的主題作為該用戶的關(guān)注標(biāo)簽,以用戶瀏覽量為權(quán)重,對各標(biāo)簽進(jìn)行相關(guān)度賦值,用戶瀏覽量包括瀏覽次數(shù)和瀏覽時長,其中時長轉(zhuǎn)化為分鐘數(shù)處理; (2)、計算用戶之間的群組相關(guān)度 根據(jù)用戶分屬群組和在群組中交流的頻次,對用戶進(jìn)行群組關(guān)聯(lián)賦值,第I用戶與第2用戶的群組相關(guān)度為累計用戶在同一群組中交流的時長,時長轉(zhuǎn)化為分鐘數(shù)取整處理; (3)、計算用戶間話題相關(guān)度, (31)、提取第I用戶與第2用戶間的交流記錄做為統(tǒng)計樣本; (32)、從步驟(31)中的統(tǒng)計樣本中進(jìn)行主題提??; (33)、根據(jù)用戶對主題的內(nèi)容貢獻(xiàn)大小對第I用戶與第2用戶在每個主題上的相關(guān)度進(jìn)行賦值,用戶對主題的內(nèi)容貢獻(xiàn)以用戶每次發(fā)言與主題的吻合度來衡量; (4)、計算用戶間位置相關(guān)度 通過位置關(guān)系挖掘,發(fā)現(xiàn)用戶的鄰居,即與用戶在地理位置上經(jīng)常處于鄰近局域的另一用戶為該用戶的鄰居, (5)、組合關(guān)聯(lián)用戶的群組相關(guān)度、話題相關(guān)度、位置相關(guān)度及用戶的主題相關(guān)度,進(jìn)行分條件的賦權(quán)累加,得出最終的推薦模型; (6)、內(nèi)容分類, (61)從樣本內(nèi)容集合中進(jìn)行主題提取,得到對內(nèi)容的分類標(biāo)簽; (62)使用文本分類器,將目標(biāo)內(nèi)容集合按步驟¢1)得到的分類標(biāo)簽分類; ⑵、內(nèi)容推薦,分兩種情況: (71)、若推薦的內(nèi)容是用戶未瀏覽過的內(nèi)容:首先根據(jù)內(nèi)容的類別屬性和任意用戶的關(guān)注標(biāo)簽的匹配度進(jìn)行計算,得出一個推薦指數(shù),當(dāng)某一用戶的推薦指數(shù)大于閾值,則向該用戶推薦,該閾值取值區(qū)間為(O,I); (72)、若推薦的內(nèi)容為用戶瀏覽過的內(nèi)容,首先確保該用戶對內(nèi)容產(chǎn)生真正的接收,然后分三種情況計算用戶的關(guān)聯(lián)用戶的推薦指數(shù); (721)、位置關(guān)聯(lián)用戶的基礎(chǔ)系數(shù)為rl,當(dāng)分類的內(nèi)容涉及物理方位信息時,則該基礎(chǔ)系數(shù)進(jìn)行放大處理,物理方位信息包括場所、賣場、地點和位置; (722)、群組關(guān)聯(lián)用戶的基礎(chǔ)系數(shù)為r2,當(dāng)分類的內(nèi)容覆蓋到群組主題或群組標(biāo)簽時,則該系數(shù)進(jìn)行放大處理; (723)、話題關(guān)聯(lián)用戶的相關(guān)系數(shù)算法為:R= |{TJ Π {Tul_u2} |*r,其中{T。}為內(nèi)容主題的集合,{Tul_u2}為第I用戶與第2用戶之間話題的集合,取兩個集合交集的度再乘以一個系數(shù)r作為話題相關(guān)系數(shù),系數(shù)r的取值范圍為[1,10]; 最終相關(guān)用戶推薦指數(shù)計算公式為:R ul-u2= r fRg+iy^Rt+rA,其中,rl,r2,r3的初始值均設(shè)為1,Rg表示群組關(guān)聯(lián)用戶的群組相關(guān)度,Rt表示話題關(guān)聯(lián)用戶的話題相關(guān)度,L表示位置關(guān)聯(lián)用戶的位置相關(guān)度; 對于第I用戶閱讀過的內(nèi)容,當(dāng)推薦指數(shù)R丨^大于閾值,則向第2用戶推薦,閾值取I或者根據(jù)統(tǒng)計區(qū)間段內(nèi)的所有推薦指數(shù)的總體情況取中間值; (8)、推薦優(yōu)化 (81)、對于推薦給用戶的內(nèi)容,當(dāng)用戶進(jìn)行主動接收后,記錄用戶的閱讀時長,當(dāng)閱讀時長超過閾值,則認(rèn)為推薦成功;否則認(rèn)為推薦失??; (82)、查看該用戶的推薦模型,確定該模型中起主要作用的相關(guān)度系數(shù),若推薦成功,則調(diào)大該系數(shù)的百分比;如果推薦失敗,則調(diào)小該系數(shù)的百分比。
3.根據(jù)權(quán)利要求1所述的一種多維協(xié)同推薦的方法,其特征在于,步驟(12)采用LSA文檔主題模型或者LDA文檔主題模型提取樣本集合。
4.根據(jù)權(quán)利要求1所述的一種多維協(xié)同推薦的方法,其特征在于,步驟(4)中位置關(guān)系挖掘采用聚類算法挖掘或者關(guān)聯(lián)規(guī)則分析算法挖掘。
5.根據(jù)權(quán)利要求1所述的一種多維協(xié)同推薦的方法,其特征在于,步驟(81)中的閾值為30秒/100字。
【專利摘要】本發(fā)明具體涉及一種多維協(xié)同推薦的系統(tǒng)與方法。一種多維協(xié)同推薦的系統(tǒng),包括挖掘模塊、推薦模塊、內(nèi)容數(shù)據(jù)庫模塊和用戶數(shù)據(jù)庫模塊。一種多維協(xié)同推薦的方法,包括1、計算用戶的主題關(guān)注度;2、計算用戶之間的群組相關(guān)度;3、計算用戶間話題相關(guān)度;4、計算用戶間位置相關(guān)度;5、組合關(guān)聯(lián)用戶的群組相關(guān)度、話題相關(guān)度、位置相關(guān)度及用戶的主題相關(guān)度,得出最終的推薦模型;6、內(nèi)容分類;7、內(nèi)容推薦;8、推薦優(yōu)化。相對于當(dāng)前僅基于用戶歷史瀏覽記錄或僅基于用戶間的社會網(wǎng)絡(luò)關(guān)系進(jìn)行推薦,本發(fā)明方法能夠更大范圍地查找相關(guān)內(nèi)容及相關(guān)用戶,并更細(xì)粒度地鑒別內(nèi)容的相關(guān)性,從而使內(nèi)容推薦更加充分有效、更加有針對性。
【IPC分類】G06F17-30
【公開號】CN104750856
【申請?zhí)枴緾N201510179754
【發(fā)明人】許延祥
【申請人】天天艾米(北京)網(wǎng)絡(luò)科技有限公司
【公開日】2015年7月1日
【申請日】2015年4月16日