一種針對(duì)用戶興趣的關(guān)注關(guān)系提取及標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別設(shè)及一種針對(duì)用戶興趣的關(guān)注關(guān)系提取及標(biāo)注 方法。
【背景技術(shù)】
[0002] 隨著越來越多的網(wǎng)絡(luò)平臺(tái)提供關(guān)注功能,網(wǎng)站用戶之間形成一種關(guān)注網(wǎng)絡(luò)。例如, 視頻分享網(wǎng)站的用戶可W關(guān)注自己感興趣的用戶;電子商務(wù)網(wǎng)站的用戶可W關(guān)注自己感興 趣的達(dá)人買家;微博平臺(tái)的用戶可W關(guān)注自己的好友,或者感興趣的其他用戶。通過關(guān)注關(guān) 系,關(guān)注用戶可W獲得被關(guān)注者收看或者上傳的視頻信息,購買的商品記錄,W及發(fā)表的微 博內(nèi)容等。運(yùn)種關(guān)注關(guān)系被認(rèn)為是關(guān)注者和被關(guān)注者可能具有共同興趣的一種隱含表達(dá)。 因此許多網(wǎng)站的推薦系統(tǒng),開始利用用戶之間的關(guān)注關(guān)系來提高推薦性能。然而,通過分析 實(shí)際網(wǎng)絡(luò)平臺(tái)的用戶行為記錄,發(fā)現(xiàn)并非所有存在關(guān)注關(guān)系的用戶之間都具有共同興趣, 運(yùn)是因?yàn)榫W(wǎng)絡(luò)平臺(tái)中用戶間建立關(guān)注關(guān)系的原因非常多,有可能是現(xiàn)實(shí)中的好友,有可能 是有共同興趣的陌生人,有可能只是隨意添加的關(guān)注關(guān)系,有可能關(guān)注者曾經(jīng)對(duì)被關(guān)注者 感興趣,但是隨著時(shí)間推移,關(guān)注者或者被關(guān)注者的興趣發(fā)生了變化,導(dǎo)致關(guān)注者對(duì)被關(guān)注 者的行為不再感興趣。因此,如何從全部關(guān)注關(guān)系中提取出能反映用戶真實(shí)興趣的關(guān)注關(guān) 系是利用關(guān)注關(guān)系進(jìn)行推薦的關(guān)鍵。
[0003] 另一方面,網(wǎng)絡(luò)平臺(tái)上用戶的興趣通常具有多樣性,例如一個(gè)視頻分享站點(diǎn)的用 戶,可能喜歡收看愛情片、懸疑片、古裝片等多種類型的視頻,其關(guān)注者可能只在愛情片方 面與其具有共同興趣,因此如果將被關(guān)注者觀看的所有類型的視頻信息都推薦給關(guān)注者, 那么推薦的絕大多數(shù)視頻可能都是關(guān)注者不感興趣的。因此,有必要對(duì)關(guān)注關(guān)系所代表的 興趣類型通過關(guān)鍵詞的方式進(jìn)行標(biāo)注。綜上,本發(fā)明提出一種針對(duì)用戶興趣的關(guān)注關(guān)系提 取及標(biāo)注方法,用W表示關(guān)注者對(duì)被關(guān)注者的真實(shí)興趣及興趣類型。本發(fā)明提出的技術(shù)可 廣泛應(yīng)用于各種網(wǎng)絡(luò)平臺(tái)的推薦系統(tǒng)中。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是為了在網(wǎng)絡(luò)平臺(tái)的所有關(guān)注關(guān)系中,提取出能夠反映用戶真實(shí)興 趣的關(guān)注關(guān)系,并對(duì)關(guān)注關(guān)系所代表的興趣用關(guān)鍵詞及權(quán)重進(jìn)行標(biāo)注。為實(shí)現(xiàn)上述發(fā)明目 的,本發(fā)明提供一種針對(duì)用戶興趣的關(guān)注關(guān)系的提取和標(biāo)注方法,其特征在于,包括W下步 驟:
[0005] 步驟1、根據(jù)用戶的關(guān)注關(guān)系,構(gòu)建初始關(guān)注圖G(U,E),圖中的節(jié)點(diǎn)是存在關(guān)注關(guān) 系的網(wǎng)絡(luò)平臺(tái)用戶,假設(shè)用戶X關(guān)注了用戶y,則建立一條從用戶節(jié)點(diǎn)y指向用戶節(jié)點(diǎn)X的邊, 邊的方向表明用戶X對(duì)用戶y的行為內(nèi)容感興趣,而不能表明用戶y對(duì)用戶X的行為感興趣, 因此初始關(guān)注圖是一個(gè)包含網(wǎng)絡(luò)平臺(tái)全部關(guān)注關(guān)系的有向無權(quán)圖;
[0006] 步驟2、通過分析用戶歷史行為數(shù)據(jù),計(jì)算初始關(guān)注圖中關(guān)注用戶與被關(guān)注用戶的 興趣相似性,相似性度量可使用但不限于皮爾遜相關(guān)系數(shù)或者余弦相似度等方法,皮爾遜 相關(guān)系數(shù)是一個(gè)統(tǒng)計(jì)學(xué)指標(biāo),可用于度量?jī)蓚€(gè)用戶之間的相關(guān)性,計(jì)算公式如公式(I)所 示:
[0007]
(1)
[000引其中,ITEM={Ii,l2,l3, . . .,In}表示網(wǎng)絡(luò)平臺(tái)上所有n個(gè)物品的集合,X康示用戶X 對(duì)物品Ii的感興趣程度,可W使用但不限于如下指標(biāo)來計(jì)算:如果使用評(píng)分行為來計(jì)算,Xi 就是用戶X對(duì)物品Ii的評(píng)分值,如果未評(píng)分則Xi = O;如果使用對(duì)物品的操作行為來計(jì)算,Xi 就表示用戶X是否對(duì)物品Ii執(zhí)行操作行為,執(zhí)行Xi = I,否則Xi = O;衣歹表示用戶x,y對(duì)所有 物品的評(píng)分或者操作行為的平均值,計(jì)算公式如公式(2)所示:
[0009]
(2)
[0010] 步驟3、根據(jù)關(guān)注者與被關(guān)注者的興趣相似性度量指標(biāo),例如皮爾遜系數(shù),提取關(guān) 注關(guān)系,方法如下:首先由網(wǎng)絡(luò)平臺(tái)預(yù)設(shè)衡量用戶興趣相似性的最低闊值,將用戶間的興趣 相似性度量指標(biāo)(例如皮爾遜系數(shù))大于闊值的關(guān)注關(guān)系作為有效的關(guān)注關(guān)系進(jìn)行提取,邊 的權(quán)重為巧(義,7)=3;[111^,7);
[0011] 步驟4、在提取關(guān)注關(guān)系的基礎(chǔ)上,對(duì)每條關(guān)注關(guān)系所表示的興趣特征進(jìn)行關(guān)鍵詞 標(biāo)注,具體步驟如下:
[0012] 4.1對(duì)網(wǎng)絡(luò)平臺(tái)上的每個(gè)物品進(jìn)行特征標(biāo)注,包括但不限于如下方法:首先判斷物 品是否存在由用戶(或者平臺(tái))主動(dòng)標(biāo)注的關(guān)鍵詞,例如視頻所屬的類別信息,微博文章所 屬的類別信息等,如果存在主動(dòng)標(biāo)注的關(guān)鍵詞,則將運(yùn)些關(guān)鍵詞加入到物品特征關(guān)鍵詞列 表中;其次,從物品相關(guān)的文本信息中提取代表物品特征的關(guān)鍵詞及每個(gè)關(guān)鍵詞的詞頻,并 將其加入到物品特征關(guān)鍵詞列表中;最后從物品特征關(guān)鍵詞列表中選擇K個(gè)關(guān)鍵詞表征該 物品的特征。選擇方法包括但不限于,包括所有的主動(dòng)標(biāo)注關(guān)鍵詞(假設(shè)為M個(gè)),W及詞頻 最高的化-M)個(gè)從物品相關(guān)文本信息中提取的關(guān)鍵詞,按重要性由高到低排列如下:
[0013] IfeyList=化巧 1 ,Keys, 1(巧3,... ,KeyM,KeyM+i,,Ifeyp,... ,IfeyQ,... ,Ifeyd
[0014] 重要性排列規(guī)則如下:
[0015] (1)對(duì)于主動(dòng)標(biāo)注的關(guān)鍵詞,按照物品被主動(dòng)標(biāo)注的順序依次排列;對(duì)于從物品相 關(guān)文本信息中提取的關(guān)鍵詞,按照關(guān)鍵詞在文本信息中的詞頻由高到低依次排列;每個(gè)關(guān) 鍵詞的權(quán)重計(jì)算如公式(3)所示:
[0016]
(3)
[0017] 其中Keyk為第k個(gè)關(guān)鍵詞,K為該物品提取關(guān)鍵詞的總數(shù);
[0018] (2)如果從物品相關(guān)文本信息中提取的關(guān)鍵詞中存在詞頻相同的關(guān)鍵詞,則所有 詞頻相同的關(guān)鍵詞隨機(jī)排序,權(quán)重按照公式(4)計(jì)算:
[0019]
(4).
[0020] 運(yùn)里假設(shè)從Keyp到Keyg的(P-Q+1)個(gè)關(guān)鍵詞具有相同詞頻,則每個(gè)詞頻相同的關(guān)鍵 詞具有相同的權(quán)重;
[0021] (3)如果物品特征關(guān)鍵詞列表KeyLiSt中的關(guān)鍵詞個(gè)數(shù)不足K個(gè),則按照實(shí)際的關(guān) 鍵詞個(gè)數(shù)標(biāo)記物品;
[0022] 4.2通過關(guān)注者和被關(guān)注者共同操作過的物品的特征關(guān)鍵詞,對(duì)提取的關(guān)注關(guān)系 進(jìn)行標(biāo)注,包括但不限于如下標(biāo)注方法:假設(shè)關(guān)注者X和被關(guān)注者y共同操作過的物品為M個(gè) ITEM(xny) = {Ii,l2,l3,. . .,Im},其中每個(gè)物品Ii的特征關(guān)鍵詞列表為KeyListi;將M個(gè)物 品的特征關(guān)鍵詞求并集,得到(y^x)關(guān)注關(guān)系所對(duì)應(yīng)的特征關(guān)鍵詞列表KeyList(y^x);計(jì) 算KeyList(y^x)中每個(gè)關(guān)鍵詞對(duì)應(yīng)的權(quán)重,按照公式(5)計(jì)算:
[0023]
樹
[0024] 其中,|KeyList(y一X) I表示關(guān)注關(guān)系(y一X)所對(duì)應(yīng)的特征關(guān)鍵詞列表中關(guān)鍵詞 的個(gè)數(shù),WL化eyk)表示關(guān)注關(guān)系的特征關(guān)鍵詞列表中第k個(gè)關(guān)鍵詞的權(quán)重,W化eyk(m))表示 關(guān)鍵詞keyk在第m個(gè)物品的特征關(guān)鍵詞列表中的權(quán)重,如果關(guān)鍵詞keyk不在物品m的特征關(guān) 鍵詞列表中,貝iMkeyk(m)) = 0;最后,將KeyList(y^x)中的關(guān)鍵詞按權(quán)重由高到低排序, 選擇其中權(quán)重最大的N個(gè)關(guān)鍵詞對(duì)關(guān)注關(guān)系(y^x)進(jìn)行標(biāo)注;
[0025] 4.3將得到的N個(gè)標(biāo)注關(guān)鍵詞的權(quán)重進(jìn)行歸一化,使得各關(guān)鍵詞的權(quán)重之和為1。針 對(duì)關(guān)注關(guān)系(V一X),N個(gè)關(guān)鍵詞的權(quán)電因一化計(jì)算,化公式(6)所示:
[0026]
拘
[0027] 重復(fù)步驟4.2、4.3,可W得到每條有效關(guān)注關(guān)系的標(biāo)注關(guān)鍵詞。
[0028] 通過本發(fā)明提取出的有效關(guān)注關(guān)系能夠標(biāo)識(shí)出具有真正共同興趣的關(guān)注者與被 關(guān)注者,并且通過對(duì)關(guān)注關(guān)系進(jìn)行特征關(guān)鍵詞標(biāo)注,使網(wǎng)絡(luò)平臺(tái)能夠確切知道關(guān)注者是對(duì) 被關(guān)注者的哪些行為內(nèi)容感興趣,因此在利用關(guān)注關(guān)系進(jìn)行相關(guān)推薦時(shí),可W有針對(duì)性的 推薦關(guān)注者感興趣的類型的物品。實(shí)驗(yàn)證明,本發(fā)明提取出的有效關(guān)注關(guān)系及特征關(guān)鍵詞 標(biāo)注能夠明顯改善推薦系統(tǒng)的性能。
【附圖說明】
[0029] 圖1是本發(fā)明提供的一種關(guān)注關(guān)系提取及標(biāo)注方法流程圖
[0030] 圖2是本發(fā)明提供的一種關(guān)注關(guān)系標(biāo)注方法流程圖
[0031] 圖3是本發(fā)明實(shí)施例提供的用戶初始關(guān)注關(guān)系圖
[0032] 圖4是本發(fā)明實(shí)施例提供的有效關(guān)注關(guān)系圖
[0033] 圖5是本發(fā)明實(shí)施例提供的15部視頻的詳細(xì)信息
[0034] 圖6是本發(fā)明實(shí)施例提供的關(guān)鍵詞標(biāo)注后的有效關(guān)注關(guān)系圖
【具體實(shí)施方式】
[0035] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,W便本領(lǐng)域的技術(shù)人員更好地 理解本發(fā)明。需要特別提醒注意的是,在W下的描述中