一種面向社交網(wǎng)絡(luò)基于云模型的topN推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘和信息檢索領(lǐng)域,涉及計(jì)算機(jī)系統(tǒng)的信息采集和分析,是一 種面向社交網(wǎng)絡(luò)基于云模型的個(gè)性化推薦方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,人們逐漸步入信息過載時(shí)代。為解決信息過載問題,人們 不斷采用新的措施,如強(qiáng)化搜索引擎,優(yōu)化推薦系統(tǒng)等解決海量信息帶來的難題。
[0003] 近年來,推薦系統(tǒng)受到物聯(lián)網(wǎng)巨頭和電商越來越多的青睞,尤其個(gè)性化推薦技術(shù) 的發(fā)展,對(duì)改善用戶體驗(yàn)和提高服務(wù)質(zhì)量起到了重要的作用。推薦系統(tǒng)可以分為兩類:評(píng)分 預(yù)測(cè)和個(gè)性化推薦。前者是對(duì)未評(píng)分物品進(jìn)行評(píng)分估計(jì),后者是向用戶提供一個(gè)個(gè)性化推 薦列表。向用戶提供個(gè)性化推薦列表的推薦方法叫做topN推薦。現(xiàn)有的推薦技術(shù)可以分為 基于內(nèi)容和基于協(xié)同過濾的技術(shù)。基于內(nèi)容的是通過分析用戶的內(nèi)容屬性和物品的內(nèi)容屬 性,建立特征表述,向用戶推薦潛在感興趣的物品?;趨f(xié)同過濾的利用的是用戶行為記錄 信息,尋找鄰居用戶群,根據(jù)鄰居用戶群興趣特征向該用戶進(jìn)行推薦。由于基于內(nèi)容的推薦 對(duì)內(nèi)容的知識(shí)要求較高,因此,基于協(xié)同過濾的技術(shù)得到了更廣泛的關(guān)注?;谝陨蠑⑹?, 基于協(xié)同過濾的topN推薦成廣泛研究的對(duì)象。
[0004] 然而,協(xié)同過濾推薦在利用屬性進(jìn)行相似度計(jì)算時(shí),由于屬性單一或者多重屬性 權(quán)重設(shè)置的不確定,因此相似度計(jì)算結(jié)果很難令人滿意。此外,引入物品的評(píng)分來生成推薦 列表時(shí),解決相似度計(jì)算過程中屬性問題和評(píng)分標(biāo)準(zhǔn)不統(tǒng)一的問題對(duì)topN推薦十分重要。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明針對(duì)現(xiàn)有技術(shù)中協(xié)同過濾推薦時(shí)采集對(duì)象的屬性單一及多重權(quán)重設(shè)置不 確定,不能得到滿意的推薦結(jié)果,致使網(wǎng)絡(luò)中發(fā)送的無用信息量過多,占用信道資源,容易 造成網(wǎng)絡(luò)擁塞等技術(shù)問題。本發(fā)明針對(duì)傳統(tǒng)相似度計(jì)算在單個(gè)屬性上過于單一和多個(gè)屬性 權(quán)值設(shè)置的不確定性的問題,提出一種基于多維云模型的社交網(wǎng)絡(luò)用戶行為相似度計(jì)算方 法。采用一種統(tǒng)一用戶評(píng)分空間的方法,并在此基礎(chǔ)上進(jìn)一步優(yōu)化傳統(tǒng)的topN推薦算法。
[0006] 從基于用戶協(xié)同過濾的topN推薦相關(guān)研究背景出發(fā),通過數(shù)據(jù)預(yù)處理,將社交網(wǎng) 絡(luò)的被推薦用戶、推薦用戶(即被推薦用戶近鄰用戶)、已評(píng)分物品關(guān)聯(lián)起來建立推薦用戶 集-被推薦用戶集-評(píng)分物品集三層關(guān)系;構(gòu)建多維云模型根據(jù)三層關(guān)系中的建立推薦用戶 集-被推薦用戶集兩層關(guān)系獲取用戶相似度,通過綜合云模型統(tǒng)一用戶對(duì)物品的評(píng)分標(biāo)準(zhǔn), 最終生成針對(duì)被推薦用戶的topN推薦集。
[0007] 本發(fā)明建立一種面向社交網(wǎng)絡(luò)的基于云模型的topN推薦系統(tǒng),包括,獲取數(shù)據(jù)源 信息模塊、計(jì)算用戶相似度模塊、綜合云模型(統(tǒng)一用戶評(píng)分標(biāo)準(zhǔn)模塊)、生成topN推薦集模 塊。其中,數(shù)據(jù)源信息模塊分別搜索被推薦用戶的最近鄰居集合,獲取相關(guān)信息,計(jì)算用戶 相似度、統(tǒng)一用戶評(píng)分標(biāo)準(zhǔn)模塊解決用戶評(píng)分主觀性和差異性的問題,推薦系統(tǒng)為被推薦 用戶產(chǎn)生其尚未關(guān)注的但可能最感興趣的物品列表。
[0008] 本發(fā)明還提出一種面向社交網(wǎng)絡(luò)基于云模型的topN推薦方法,具體包含:一種面 向社交網(wǎng)絡(luò)基于云模型的topN推薦方法,其特征在于,數(shù)據(jù)獲取模塊獲取被推薦用戶和推 薦用戶信息,及已評(píng)分物品信息,提取用戶的屬性,建立推薦用戶集-被推薦用戶集-評(píng)分物 品集三層關(guān)系,構(gòu)建被推薦用戶及推薦用戶的屬性向量;多維云模型的逆向云發(fā)生器根據(jù) 推薦用戶集-被推薦用戶集關(guān)系計(jì)算被推薦用戶和推薦用戶的相似度;綜合云模型合并被 推薦用戶和推薦用戶的評(píng)分云生成父云,多維云模型的正向云發(fā)生器在父云中生成新的評(píng) 分;生成topN推薦集模塊根據(jù)相似度和新的評(píng)分計(jì)算獲得被推薦用戶的興趣度,將所有用 戶的興趣度按高低排序列表,選取前N個(gè)作為被推薦用戶的個(gè)性化推薦集。通過該推薦可以 解決互聯(lián)網(wǎng)帶來的信息冗余的問題,由于個(gè)性化推薦針對(duì)不同用戶產(chǎn)生不同的推薦集,并 將推薦相關(guān)信息發(fā)送至用戶,節(jié)省了網(wǎng)絡(luò)資源,提高了網(wǎng)絡(luò)性能。
[0009] 所述計(jì)算被推薦用戶和推薦用戶的相似度具體包括,多維云模型的逆向云發(fā)生器 根據(jù)被推薦用戶和推薦用戶各自的屬性向量生成對(duì)應(yīng)的云,通過正向云發(fā)生器生成各自的 云滴,根據(jù)云滴的距離衡量?jī)山M云滴的相似度,由兩組云滴的相似度獲得用戶相似度。
[0010] 本發(fā)明的其中一個(gè)實(shí)施例進(jìn)一步包括,逆向云發(fā)生器根據(jù)被推薦用戶和推薦用戶 的評(píng)分生成各自的評(píng)分云,正向云發(fā)生器計(jì)算所有評(píng)分在各自評(píng)分云中的歸屬度,綜合云 模型合并所有評(píng)分云生成父云,正向云發(fā)生器利用歸屬度在父云中計(jì)算新的評(píng)分。根據(jù)推 薦用戶集-被推薦用戶集-評(píng)分物品集得到被推薦用戶和其近鄰用戶集所關(guān)注的所有物品 評(píng)分,云逆向云發(fā)生器獲取用戶評(píng)分向量(Ex,En,He)構(gòu)建一維評(píng)分云圖;綜合云模型合并 被推薦用戶和所有推薦用戶的評(píng)分云圖生成父云;正向云發(fā)生器計(jì)算所有物品評(píng)分在一維 評(píng)分云圖中的隸屬度,在父云中根據(jù)該隸屬度生成相應(yīng)的云滴,根據(jù)云滴獲得被推薦用戶 關(guān)注物品的新評(píng)分。
[0011] 本發(fā)明的其中一個(gè)實(shí)施例進(jìn)一步包括,提取被推薦用戶和推薦用戶的評(píng)分,根據(jù) 公另
,.計(jì)算用戶屬性期望向量EX,根據(jù)公式
算用戶屬性 熵值向量En,根據(jù)公無
計(jì)算評(píng)分云超熵向量,其中
η表 示所有推薦用戶評(píng)分的個(gè)數(shù),^表示評(píng)分,獲得用戶評(píng)分向量(Ex,En,He)。
[0012] 本發(fā)明的其中一個(gè)實(shí)施例進(jìn)一步包括,將被推薦用戶的評(píng)分云和其關(guān)注的所有推 薦用戶的評(píng)分云綜合生成一朵父云,所述生成父云具體包括,根據(jù)待合并用戶的評(píng)分云圖 的數(shù)學(xué)期望曲線C't(x),根據(jù)公式:
&計(jì)算待合并用戶的截?cái)囔兀鶕?jù)待 η
合并用戶屬性期望向量及截?cái)囔馗鶕?jù)公式: 獲得父云的期望Ex',根據(jù)評(píng)分 ? 云超熵向量He調(diào)用公式:計(jì)算父云的超熵He',其中η表示所有推薦用 戶評(píng)分的個(gè)數(shù)。
[0013] 提取被推薦用戶和所有關(guān)注的推薦用戶的評(píng)分向量(Ex,En,He),通過多維正向云 發(fā)生器各自生成nl、n2個(gè)云滴,按到零點(diǎn)的距離從小到大排列,若η12η2,則(Χ?有個(gè)組合的 排列,反之有個(gè)組合的排列,計(jì)算每個(gè)組合情況下云滴集之間的距離,如第j個(gè)組合情 況下云滴距離的平方和為Distance(j),根據(jù)公式
.計(jì) 算被推薦用戶和所關(guān)注的推薦用戶的相似度。
[0014] 本發(fā)明方法首先運(yùn)用多維云模型進(jìn)行相似性計(jì)算,不但消除了屬性單一的問題而 且彌補(bǔ)多屬性權(quán)值設(shè)置不確定的缺陷,為推薦結(jié)果提供準(zhǔn)確的基礎(chǔ)。其次使用綜合云模型 進(jìn)行評(píng)分空間標(biāo)準(zhǔn)的統(tǒng)一,解決了用戶評(píng)分主觀性和用戶個(gè)體差異性的問題,進(jìn)一步提高 了推薦的精度。最后由用戶相似度和新評(píng)分生成topN推薦集。采用上述兩種云模型改善了 傳統(tǒng)方法的存在的弊端,提高了推薦的準(zhǔn)確度。推薦信息能準(zhǔn)確發(fā)送到需要的客戶端,有效 提尚的網(wǎng)絡(luò)的性能和利用率。
【附圖說明】
[0015] 圖1是按照本發(fā)明一種實(shí)施方式的推薦方法的流程圖;
[0016] 圖2是本發(fā)明使用多維云模型計(jì)算用戶-用戶相似度流程示意圖;
[0017] 圖3是本發(fā)明使用綜合云模型統(tǒng)一評(píng)分標(biāo)準(zhǔn)的空間流程示意圖;
[0018] 圖4是本發(fā)明云相似度計(jì)算方法的流程示意圖;
[0019] 圖5是本發(fā)明計(jì)算用戶對(duì)新物品好感度的流程圖。
【具體實(shí)施方式】
[0020] 為使本發(fā)明的目的、技術(shù)方案以及優(yōu)點(diǎn)更加清晰明了,以下參照說明書附圖,對(duì)發(fā) 明具體實(shí)施做進(jìn)一步的詳細(xì)闡述。
[0021]如圖1是實(shí)現(xiàn)本發(fā)明的總體流程圖,包括數(shù)據(jù)獲取,計(jì)算相似度,評(píng)分標(biāo)準(zhǔn)統(tǒng)一,生 成topN推薦集四部分,其中,數(shù)據(jù)獲取可以直接從基于web研究型的推薦系統(tǒng)下載或利用成 熟的社交平臺(tái)的API獲取。通過數(shù)據(jù)源獲取物品信息、獲取用戶信息、獲取關(guān)注列表;構(gòu)建用 戶的屬性向量、構(gòu)建關(guān)注用戶的屬性向量,通過多維云模型計(jì)算被推薦用戶和推薦用戶的 相似度;獲取被推薦用戶和推薦用戶評(píng)分,建立綜合云模型統(tǒng)一評(píng)分標(biāo)準(zhǔn);計(jì)算用戶對(duì)新物 品的好感度,生成topN推薦集。
[0022]計(jì)算用戶間相似度。提取與用戶相似度有關(guān)的包括年齡、性別、居住地址、愛好等 多個(gè)屬性,通過數(shù)學(xué)方法,對(duì)不同屬性賦予不同的屬性值,多維云模型的逆向云發(fā)生器,由 提取出的屬性值計(jì)算得出代表多維屬性云圖的數(shù)字特征(云滴分布的期望;云滴的熵;期望 的隨機(jī)度量,反映云滴在云中的離散程度;云滴的超熵,是熵的不確定性度量),
[0023] 構(gòu)建代表用戶屬性的多維云圖,正向云發(fā)生器生成云滴,根據(jù)云滴的3En原則(對(duì) 于云的定性概念有貢獻(xiàn)的云滴,主要落在[Ex+3En,Ex-3En]范圍內(nèi)),取[Ex+3En,Ex-3En]范 圍內(nèi)的云滴計(jì)算得出兩個(gè)云相似度,用云的相似度衡量?jī)蓚€(gè)用戶的相似度。
[0024] 統(tǒng)一用戶評(píng)分標(biāo)準(zhǔn)。根據(jù)近鄰用戶集-被推薦用戶集-評(píng)分物品集得到被推薦用戶 和其近鄰用戶集的所有物品評(píng)分,云模型的云逆向云發(fā)生器獲取用戶評(píng)分向量(Ex,En,He) 構(gòu)建一維評(píng)分云圖;綜合云模型合并被推薦用戶和所有被關(guān)注用戶的云圖生成父云;正向 云發(fā)生器計(jì)算每個(gè)評(píng)分在一維評(píng)分云圖中的隸屬度,在父云中根據(jù)該隸屬度生成父云下相 應(yīng)的云滴,根據(jù)云滴確定新評(píng)分。
[0025] 生成topN推薦集。根據(jù)被推薦用戶與其近鄰用戶的相似度、新評(píng)分,以相似度與評(píng) 分的乘積作為被推薦用戶對(duì)新物品的感興趣程度,根據(jù)興趣程度由高到低進(jìn)行排序,取前N (N為每個(gè)數(shù)據(jù)集最佳的推薦數(shù)目)個(gè)興趣程度作為待推薦的列表。具體實(shí)施包括:
[0026] S1:數(shù)據(jù)獲取部分通過數(shù)據(jù)源獲取被推薦用戶信息集合,推薦用戶信息集合,推薦 用戶和被推薦用戶已評(píng)分的物品信息集合;
[0027] S2:相似度計(jì)算部分分別對(duì)被推薦用戶信息集合、被推薦用戶已評(píng)分的物品信息 集合和推薦用戶信息集合、推薦用戶已評(píng)分的物品集合的信息進(jìn)行屬性提取,利用多維云 相似度算法計(jì)算推薦用戶和被推薦用戶的相似度,從物品信息集合獲取推薦用戶和被推薦 用戶已評(píng)分物品的評(píng)分,使用綜合云模型合并算法合并推薦用戶和被推薦用戶的評(píng)分云, 生成父云,統(tǒng)一評(píng)分標(biāo)準(zhǔn),通過一維正向云發(fā)生器利用舊評(píng)分生成新標(biāo)準(zhǔn)下的評(píng)分。
[0028] S3:根據(jù)被推薦用戶和推薦用戶之間的相似度和推薦用戶已評(píng)分的物品在新標(biāo)準(zhǔn) 下的評(píng)分,通過相似度與新評(píng)分的乘積計(jì)算被推薦用戶對(duì)新物品(推薦用戶已評(píng)分而被推 薦用戶未評(píng)分的物品)的興趣好感值,根據(jù)好感值從高到低排序取前N個(gè)作為topN推薦集 合。
[0029] S2中的多維云模型計(jì)算用戶相似度如圖2所示,具體包括:
[0030] S21:取推薦用戶user_l,user_2,…,user_n*的用戶與被推薦用戶tar