本申請(qǐng)涉及數(shù)據(jù)分析
技術(shù)領(lǐng)域:
,特別涉及一種受眾選擇的方法及裝置。
背景技術(shù):
:隨著經(jīng)濟(jì)的快速增長(zhǎng),越來(lái)越多的新產(chǎn)品產(chǎn)生。新產(chǎn)品最初的用戶量往往比較少,這就需要借助一定的數(shù)據(jù)分析工具根據(jù)已有的歷史數(shù)據(jù)分析可能對(duì)其感興趣的用戶作為目標(biāo)受眾,這也就是所謂的受眾選擇。在大數(shù)據(jù)的環(huán)境下,有很多場(chǎng)景需要用到受眾選擇。比如,在互聯(lián)網(wǎng)領(lǐng)域中,當(dāng)產(chǎn)品用戶量較少時(shí),廣告主會(huì)利用廣告平臺(tái)識(shí)別準(zhǔn)確的投放群體,擴(kuò)大產(chǎn)品的用戶量。近來(lái),越來(lái)越多的推薦系統(tǒng)更加關(guān)注用戶的具體需求。在推薦系統(tǒng)中,基于協(xié)同過(guò)濾的方法被廣泛用來(lái)解決相關(guān)問(wèn)題。一種是基于最近鄰的協(xié)同過(guò)濾的方法,即通過(guò)計(jì)算用戶屬性和產(chǎn)品的相似性來(lái)進(jìn)行推薦。該方法簡(jiǎn)單有效,但無(wú)法處理規(guī)模較大的數(shù)據(jù)。另一種是基于潛在因子模型(latentfactormodel,lfm)的協(xié)同過(guò)濾方法,這類方法雖然具有較高的預(yù)測(cè)性能及擴(kuò)展性,但lfm處理的數(shù)據(jù)往往基于評(píng)分?jǐn)?shù)據(jù),評(píng)分?jǐn)?shù)據(jù)的范圍較?。徊⑶襩fm的輸入一般來(lái)說(shuō)是單數(shù)據(jù)源,容易忽略其他信息的重要性。另一方面,經(jīng)濟(jì)的快速發(fā)展促進(jìn)了物品種類的繁多,但每個(gè)用戶只會(huì)瀏覽其中的一小部分,從而帶來(lái)較嚴(yán)重的用戶的數(shù)據(jù)稀疏問(wèn)題,lfm計(jì)算用戶和產(chǎn)品相似性的前提是用戶至少有公共的產(chǎn)品數(shù)據(jù),因此用戶的數(shù)據(jù)稀疏性會(huì)降低算法的預(yù)測(cè)準(zhǔn)確度。技術(shù)實(shí)現(xiàn)要素:本申請(qǐng)?zhí)峁┮环N受眾選擇的方法及裝置,用以解決現(xiàn)有的方法中存在的無(wú)法處理大規(guī)模數(shù)據(jù)的問(wèn)題,以及因用戶的數(shù)據(jù)稀疏性而導(dǎo)致的預(yù)測(cè)準(zhǔn)確度降低的問(wèn)題。本申請(qǐng)?zhí)峁┑木唧w技術(shù)方案如下:第一方面,提供一種受眾選擇的方法,包括:基于多個(gè)用戶訪問(wèn)行為產(chǎn)生的歷史數(shù)據(jù),生成用戶訪問(wèn)對(duì)象觀察矩陣和用戶標(biāo)簽觀察矩陣;其中,所述用戶訪問(wèn)對(duì)象觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為訪問(wèn)對(duì)象維度,所述用戶訪問(wèn)對(duì)象觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在訪問(wèn)對(duì)象維度上對(duì)應(yīng)的訪問(wèn)對(duì)象產(chǎn)生的訪問(wèn)次數(shù);所述用戶標(biāo)簽觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為標(biāo)簽維度,所述用戶標(biāo)簽觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在標(biāo)簽維度上對(duì)應(yīng)的標(biāo)簽產(chǎn)生的訪問(wèn)次數(shù);所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從泊松poisson分布;根據(jù)所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣;其中,所述用戶潛在因子矩陣包括用戶維度和潛在因子維度,所述用戶潛在因子矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述訪問(wèn)對(duì)象潛在因子矩陣包括訪問(wèn)對(duì)象維度和潛在因子維度,所述訪問(wèn)對(duì)象潛在因子矩陣中的任一元素用于表征該元素在訪問(wèn)對(duì)象上對(duì)應(yīng)的訪問(wèn)對(duì)象與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述用戶潛在因子矩陣與所述訪問(wèn)對(duì)象潛在因子矩陣在潛在因子維度上包含的元素的數(shù)目相同;針對(duì)每一個(gè)目標(biāo)訪問(wèn)對(duì)象,執(zhí)行:根據(jù)所述用戶潛在因子矩陣和所述訪問(wèn)對(duì)象潛在因子矩陣,計(jì)算各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性;根據(jù)獲得的各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性,對(duì)所述用戶訪問(wèn)對(duì)象觀察矩陣中未對(duì)該目標(biāo)訪問(wèn)對(duì)象產(chǎn)生過(guò)訪問(wèn)次數(shù)的用戶進(jìn)行排序;根據(jù)排序結(jié)果,為該目標(biāo)訪問(wèn)對(duì)象選擇推薦的用戶。結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣,包括:根據(jù)所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,分別生成與所述用戶訪問(wèn)對(duì)象觀察矩陣具有相同維度的用戶訪問(wèn)對(duì)象期望矩陣,和與所述用戶標(biāo)簽觀察矩陣具有相同維度的用戶標(biāo)簽期望矩陣;其中,所述用戶訪問(wèn)對(duì)象觀察矩陣中的元素服從所述用戶訪問(wèn)對(duì)象期望矩陣中的元素期望的泊松poisson分布,所述用戶標(biāo)簽觀察矩陣中的元素服從所述用戶標(biāo)簽期望矩陣中元素期望的poisson分布;所述用戶訪問(wèn)對(duì)象期望矩陣為用戶潛在因子矩陣和訪問(wèn)對(duì)象潛在因子矩陣的乘積;所述用戶標(biāo)簽期望矩陣為所述用戶潛在因子矩陣和標(biāo)簽潛在因子矩陣的乘積;所述用戶潛在因子矩陣服從伽馬gamma分布;基于所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從poisson分布生成第一分布函數(shù),以及基于所述用戶潛在因子矩陣服從伽馬gamma分布生成第二分布函數(shù),基于所述第一分布函數(shù)以及所述第二分布函數(shù)生成用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),所述概率函數(shù)表示用戶產(chǎn)生訪問(wèn)行為的概率;根據(jù)生成的用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣。結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式中,所述基于所述第一分布函數(shù)以及所述第二分布函數(shù),生成用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),包括:基于所述第一分布函數(shù)以及所述第二分布函數(shù),采用最大似然估計(jì)的方法,獲得似然函數(shù),將獲得的所述似然函數(shù)作為用戶產(chǎn)生訪問(wèn)行為的概率函數(shù)。結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式中,所述根據(jù)生成的用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣,包括:生成所述似然函數(shù)的對(duì)數(shù)函數(shù),并對(duì)所述對(duì)數(shù)函數(shù)進(jìn)行偏導(dǎo)計(jì)算,產(chǎn)生三個(gè)偏導(dǎo)函數(shù);對(duì)產(chǎn)生的三個(gè)偏導(dǎo)函數(shù)的n個(gè)維度分別進(jìn)行多次乘法迭代,直至收斂,得到用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣;所述n為潛在因子維度包含的元素?cái)?shù)目。結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述在乘法迭代的計(jì)算過(guò)程中,為用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣中的初始值賦大于0的隨機(jī)值。第二方面,提供一種受眾選擇的裝置,包括:生成單元,用于基于多個(gè)用戶訪問(wèn)行為產(chǎn)生的歷史數(shù)據(jù),生成用戶訪問(wèn)對(duì)象觀察矩陣和用戶標(biāo)簽觀察矩陣;其中,所述用戶訪問(wèn)對(duì)象觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為訪問(wèn)對(duì)象維度,所述用戶訪問(wèn)對(duì)象觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在訪問(wèn)對(duì)象維度上對(duì)應(yīng)的訪問(wèn)對(duì)象產(chǎn)生的訪問(wèn)次數(shù);所述用戶標(biāo)簽觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為標(biāo)簽維度,所述用戶標(biāo)簽觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在標(biāo)簽維度上對(duì)應(yīng)的標(biāo)簽產(chǎn)生的訪問(wèn)次數(shù);所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從泊松poisson分布;第一計(jì)算單元,用于根據(jù)所述生成單元生成的所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣;其中,所述用戶潛在因子矩陣包括用戶維度和潛在因子維度,所述用戶潛在因子矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述訪問(wèn)對(duì)象潛在因子矩陣包 括訪問(wèn)對(duì)象維度和潛在因子維度,所述訪問(wèn)對(duì)象潛在因子矩陣中的任一元素用于表征該元素在訪問(wèn)對(duì)象上對(duì)應(yīng)的訪問(wèn)對(duì)象與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述用戶潛在因子矩陣與所述訪問(wèn)對(duì)象潛在因子矩陣在潛在因子維度上包含的元素的數(shù)目相同;第二計(jì)算單元,用于針對(duì)每一個(gè)目標(biāo)訪問(wèn)對(duì)象,執(zhí)行:根據(jù)所述用戶潛在因子矩陣和所述訪問(wèn)對(duì)象潛在因子矩陣,計(jì)算各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性;排序單元,用于根據(jù)所述第二計(jì)算單元計(jì)算獲得的各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性,對(duì)所述用戶訪問(wèn)對(duì)象觀察矩陣中未對(duì)該目標(biāo)訪問(wèn)對(duì)象產(chǎn)生過(guò)訪問(wèn)次數(shù)的用戶進(jìn)行排序;選擇單元,用于根據(jù)所述排序單元的排序結(jié)果,為該目標(biāo)訪問(wèn)對(duì)象選擇推薦的用戶。結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述第一計(jì)算單元用于:根據(jù)所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,分別生成與所述用戶訪問(wèn)對(duì)象觀察矩陣具有相同維度的用戶訪問(wèn)對(duì)象期望矩陣,和與所述用戶標(biāo)簽觀察矩陣具有相同維度的用戶標(biāo)簽期望矩陣;其中,所述用戶訪問(wèn)對(duì)象觀察矩陣中的元素服從所述用戶訪問(wèn)對(duì)象期望矩陣中的元素期望的泊松poisson分布,所述用戶標(biāo)簽觀察矩陣中的元素服從所述用戶標(biāo)簽期望矩陣中元素期望的poisson分布;所述用戶訪問(wèn)對(duì)象期望矩陣為用戶潛在因子矩陣和訪問(wèn)對(duì)象潛在因子矩陣的乘積;所述用戶標(biāo)簽期望矩陣為所述用戶潛在因子矩陣和標(biāo)簽潛在因子矩陣的乘積;所述用戶潛在因子矩陣服從伽馬gamma分布;基于所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從poisson分布生成第一分布函數(shù),以及基于所述用戶潛在因子矩陣服從伽馬gamma分布生成第二分布函數(shù),基于所述第一分布函數(shù)以及所述第二分布函數(shù)生成用戶 產(chǎn)生訪問(wèn)行為的概率函數(shù),所述概率函數(shù)表示用戶產(chǎn)生訪問(wèn)行為的概率;根據(jù)生成的用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣。結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述第一計(jì)算單元還用于:基于所述第一分布函數(shù)以及所述第二分布函數(shù),采用最大似然估計(jì)的方法,獲得似然函數(shù),將獲得的所述似然函數(shù)作為用戶產(chǎn)生訪問(wèn)行為的概率函數(shù)。結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式中,所述第一計(jì)算單元還用于:生成所述似然函數(shù)的對(duì)數(shù)函數(shù),并對(duì)所述對(duì)數(shù)函數(shù)進(jìn)行偏導(dǎo)計(jì)算,產(chǎn)生三個(gè)偏導(dǎo)函數(shù);對(duì)產(chǎn)生的三個(gè)偏導(dǎo)函數(shù)的n個(gè)維度分別進(jìn)行多次乘法迭代,直至收斂,得到用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣;所述n為潛在因子維度包含的元素?cái)?shù)目。結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式,在第二方面的第四種可能的實(shí)現(xiàn)方式中,所述第一計(jì)算單元在乘法迭代的計(jì)算過(guò)程中,為用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣中的初始值賦大于0的隨機(jī)值。第三方面,提供一種受眾選擇的裝置,包括收發(fā)器、處理器、存儲(chǔ)器和總線,收發(fā)器、處理器、存儲(chǔ)器均與總線連接,其中,所述存儲(chǔ)器中存儲(chǔ)一組程序,所述處理器用于調(diào)用所述存儲(chǔ)器中存儲(chǔ)的程序,使得所述裝置執(zhí)行如上述第一方面和第一方面的第一種至第四種可能的實(shí)現(xiàn)方式中的任一種所述的方法。本申請(qǐng)將泊松分布的概率潛在因子模型進(jìn)行改進(jìn),運(yùn)用到推薦系統(tǒng)中,為用戶的訪問(wèn)行為建模,且通過(guò)分析用戶訪問(wèn)對(duì)象觀察矩陣和用戶標(biāo)簽觀察矩陣的關(guān)系,有機(jī)的融入標(biāo)簽信息,提高預(yù)測(cè)準(zhǔn)確度,緩解數(shù)據(jù)稀疏性,另外,線性的時(shí)間復(fù)雜度表明本申請(qǐng)的方法可以處理大規(guī)模數(shù)據(jù)。附圖說(shuō)明圖1為本申請(qǐng)中受眾選擇的方法流程圖;圖2為本申請(qǐng)中tgap模型示意圖;圖3為本申請(qǐng)中各個(gè)方法準(zhǔn)確率對(duì)比圖;圖4和圖5為本申請(qǐng)中受眾選擇的裝置結(jié)構(gòu)圖。具體實(shí)施方式為了使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本申請(qǐng)作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。鑒于現(xiàn)有技術(shù)一些受眾選擇的方法無(wú)法處理大規(guī)模數(shù)據(jù),以及因用戶的數(shù)據(jù)稀疏性而導(dǎo)致的預(yù)測(cè)準(zhǔn)確度降低的問(wèn)題,本申請(qǐng)中提出了一種受眾選擇的方法,主要在數(shù)據(jù)分析過(guò)程中,在數(shù)據(jù)源中融入了標(biāo)簽數(shù)據(jù),彌補(bǔ)了當(dāng)訪問(wèn)對(duì)象的訪問(wèn)用戶數(shù)目較少,也就是數(shù)據(jù)稀疏時(shí),數(shù)據(jù)源單薄的問(wèn)題,也就是說(shuō),標(biāo)簽數(shù)據(jù)為構(gòu)建用戶興趣時(shí)起到一個(gè)補(bǔ)充的作用,這樣,提高了預(yù)測(cè)準(zhǔn)確度。并且線性的時(shí)間復(fù)雜度分析也表明了本申請(qǐng)的方法可以應(yīng)用到大規(guī)模數(shù)據(jù)集中。本申請(qǐng)?zhí)岢龅姆椒ㄖ猩婕暗臑g覽行為以及標(biāo)簽等數(shù)據(jù)是廣泛存在于各個(gè)領(lǐng)域的,因此具有普遍適用性。本申請(qǐng)中可以以用戶瀏覽網(wǎng)站舉例說(shuō)明,但本申請(qǐng)?zhí)岢龅姆椒ㄟm用領(lǐng)域不局限于此。本申請(qǐng)?zhí)峁┑氖鼙娺x擇的方法的基本思想是:采用基于泊松分布的概率潛在因子模型,對(duì)用戶的訪問(wèn)行為建模,并有機(jī)地融入標(biāo)簽信息。用戶對(duì)網(wǎng)站等訪問(wèn)對(duì)象的訪問(wèn)頻率可以表明用戶對(duì)網(wǎng)站的喜愛(ài)程度,因此用戶訪問(wèn)網(wǎng)站的數(shù)據(jù)自然的服從泊松分布。標(biāo)簽是用戶在訪問(wèn)網(wǎng)站時(shí)由廣告系統(tǒng)自動(dòng)生成,能夠表示用戶感興趣的內(nèi)容。比如,當(dāng)一個(gè)用戶在觀看網(wǎng)站上的 視頻時(shí),廣告平臺(tái)能夠識(shí)別出用戶在收看公開(kāi)課頻道,則為用戶標(biāo)注“在線教育”的標(biāo)簽。鑒于標(biāo)簽信息與用戶訪問(wèn)的網(wǎng)站信息共享著同一個(gè)用戶空間,即用戶在產(chǎn)生訪問(wèn)行為時(shí),會(huì)產(chǎn)生網(wǎng)站瀏覽和標(biāo)簽瀏覽兩個(gè)方向的信息,因此,將標(biāo)簽信息和用戶訪問(wèn)的網(wǎng)站信息有機(jī)的結(jié)合在一起。以下將結(jié)合附圖對(duì)本申請(qǐng)?zhí)峁┑氖鼙娺x擇的方法進(jìn)行詳細(xì)說(shuō)明。參閱圖1所示,本申請(qǐng)?zhí)峁┑氖鼙娺x擇的方法的流程具體如下。用戶訪問(wèn)的訪問(wèn)對(duì)象可以包括但不限于網(wǎng)站,以下描述中,訪問(wèn)對(duì)象以網(wǎng)站為例,“訪問(wèn)對(duì)象”在概念上等同于“網(wǎng)站”。本申請(qǐng)對(duì)用戶已經(jīng)產(chǎn)生的歷史瀏覽數(shù)據(jù)進(jìn)行分析,采用本申請(qǐng)的方法,針對(duì)目標(biāo)網(wǎng)站,預(yù)測(cè)潛在用戶,并為目標(biāo)網(wǎng)站推薦潛在用戶。步驟101:基于多個(gè)用戶訪問(wèn)行為產(chǎn)生的歷史數(shù)據(jù),生成用戶訪問(wèn)對(duì)象觀察矩陣和用戶標(biāo)簽觀察矩陣;其中,所述用戶訪問(wèn)對(duì)象觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為訪問(wèn)對(duì)象維度,所述用戶訪問(wèn)對(duì)象觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在訪問(wèn)對(duì)象維度上對(duì)應(yīng)的訪問(wèn)對(duì)象產(chǎn)生的訪問(wèn)次數(shù);所述用戶標(biāo)簽觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為標(biāo)簽維度,所述用戶標(biāo)簽觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在標(biāo)簽維度上對(duì)應(yīng)的標(biāo)簽產(chǎn)生的訪問(wèn)次數(shù);所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從泊松poisson分布?;谟脩粼诰W(wǎng)絡(luò)上的匿名瀏覽日志,可以獲得用戶訪問(wèn)行為產(chǎn)生的歷史數(shù)據(jù),根據(jù)獲得的歷史數(shù)據(jù),生成用戶訪問(wèn)對(duì)象觀察矩陣和用戶標(biāo)簽觀察矩陣。參閱圖2所示,為本申請(qǐng)?zhí)峁┑氖鼙娺x擇的方法中應(yīng)用到的模型的示意圖,該模型可以稱為標(biāo)簽加強(qiáng)的伽馬泊松模型(tagenhancedgammapoissonmodel,tgap)。假設(shè)用戶訪問(wèn)對(duì)象觀察矩陣用fb表示,用戶標(biāo)簽觀察矩陣用fp表示。如圖2所示,tgap模型的兩個(gè)輸入矩陣為fb和fp。fb包括用戶維度和訪問(wèn)對(duì)象維度,fb是m×n矩陣,包括m維用戶、n維 訪問(wèn)對(duì)象。fb中的任一元素用于表示用戶u針對(duì)訪問(wèn)對(duì)象w產(chǎn)生的訪問(wèn)次數(shù),也可以說(shuō)用戶u訪問(wèn)訪問(wèn)對(duì)象w產(chǎn)生的觀察值。當(dāng)然,在所述歷史數(shù)據(jù)中,并不是每一個(gè)訪問(wèn)對(duì)象都會(huì)有多個(gè)用戶瀏覽,有些訪問(wèn)對(duì)象的用戶瀏覽量很低,只有少量的用戶瀏覽,這些訪問(wèn)對(duì)象可以稱為目標(biāo)訪問(wèn)對(duì)象,本申請(qǐng)的目的就是為所述目標(biāo)訪問(wèn)對(duì)象推薦潛在的可以對(duì)其感興趣的用戶,也就是受眾選擇。也就是說(shuō),生成的用戶訪問(wèn)對(duì)象矩陣中,某些元素對(duì)應(yīng)的用戶維度的用戶針對(duì)訪問(wèn)對(duì)象維度的訪問(wèn)對(duì)象未產(chǎn)生過(guò)訪問(wèn)次數(shù),這些元素的值缺失,或者說(shuō),這些元素的值為零,通過(guò)本申請(qǐng)的方法可以對(duì)這些缺失的值進(jìn)行預(yù)測(cè),也就是預(yù)測(cè)缺失值對(duì)應(yīng)的用戶對(duì)對(duì)應(yīng)的訪問(wèn)對(duì)象的喜愛(ài)程度,或者說(shuō)關(guān)聯(lián)程度,如果值越大,代表用戶越喜愛(ài)這個(gè)訪問(wèn)對(duì)象,為這個(gè)訪問(wèn)對(duì)象推薦該用戶的價(jià)值就越大。fp包括用戶維度和標(biāo)簽維度,fp是m×l矩陣,包括m維用戶、l維標(biāo)簽。fp中的任一元素用于表示用戶u針對(duì)標(biāo)簽t產(chǎn)生的訪問(wèn)次數(shù),也可以說(shuō)用戶u訪問(wèn)網(wǎng)站時(shí)產(chǎn)生的標(biāo)簽t的觀察值。在上述預(yù)測(cè)用戶訪問(wèn)對(duì)象矩陣中缺失的值的過(guò)程中,利用fb和fp這兩個(gè)數(shù)據(jù)源,利用fp中標(biāo)簽數(shù)據(jù),對(duì)構(gòu)建用戶興趣起到補(bǔ)充的作用。步驟102:根據(jù)所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,計(jì)算、訪問(wèn)對(duì)象潛在因子矩陣;其中,所述用戶潛在因子矩陣包括用戶維度和潛在因子維度,所述用戶潛在因子矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述訪問(wèn)對(duì)象潛在因子矩陣包括訪問(wèn)對(duì)象維度和潛在因子維度,所述訪問(wèn)對(duì)象潛在因子矩陣中的任一元素用于表征該元素在訪問(wèn)對(duì)象上對(duì)應(yīng)的訪問(wèn)對(duì)象與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述用戶潛在因子矩陣與所述訪問(wèn)對(duì)象潛在因子矩陣在潛在因子維度上包含的元素的數(shù)目相同。如圖2所示,tgap模型的兩個(gè)輸入矩陣為fb和fp,對(duì)兩個(gè)輸入矩陣進(jìn)行 矩陣分解以及降維處理,可近似分解為三個(gè)輸出矩陣:用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣和標(biāo)簽潛在因子矩陣。用戶潛在因子矩陣用um×d表示,是m×d矩陣,包括m維用戶、d維潛在因子;訪問(wèn)對(duì)象潛在因子矩陣用wd×n表示,是d×n矩陣,包括d維潛在因子、n維訪問(wèn)對(duì)象;標(biāo)簽潛在因子矩陣用td×1表示,是d×l矩陣,包括d維潛在因子、l維標(biāo)簽。所述三個(gè)輸出矩陣在潛在因子維度包含的元素?cái)?shù)據(jù)均相同。所述用戶潛在因子矩陣um×d中的任一元素uuk即用戶u的第k維潛在因子的值,表征該元素對(duì)應(yīng)的用戶維度的用戶u與對(duì)應(yīng)的潛在因子維度的潛在因子k之間的關(guān)聯(lián)程度;同理,所述訪問(wèn)對(duì)象潛在因子矩陣wd×n中的任一元素wwk即訪問(wèn)對(duì)象w的第k維潛在因子的值,表征該元素對(duì)應(yīng)的訪問(wèn)對(duì)象維度的訪問(wèn)對(duì)象w與對(duì)應(yīng)的潛在因子維度的潛在因子k之間的關(guān)聯(lián)程度;所述標(biāo)簽潛在因子矩陣td×1中的任一元素ttk即標(biāo)簽t的第k維潛在因子的值,表征該元素對(duì)應(yīng)的標(biāo)簽維度的標(biāo)簽t與對(duì)應(yīng)的潛在因子維度的潛在因子k之間的關(guān)聯(lián)程度。下面具體介紹獲得所述三個(gè)輸出矩陣的方法。根據(jù)所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,分別生成與所述用戶訪問(wèn)對(duì)象觀察矩陣具有相同維度的用戶訪問(wèn)對(duì)象期望矩陣,和與所述用戶標(biāo)簽觀察矩陣具有相同維度的用戶標(biāo)簽期望矩陣;所述用戶訪問(wèn)對(duì)象期望矩陣用b表示,所述用戶標(biāo)簽期望矩陣用p表示;b與fb具有相同維度,也是m×n矩陣,包括m維用戶、n維訪問(wèn)對(duì)象,b中的任一元素buw用于表示用戶u針對(duì)訪問(wèn)對(duì)象w可能產(chǎn)生的訪問(wèn)次數(shù)的期望值;p與fp具有相同維度,也是m×l矩陣,包括m維用戶、l維標(biāo)簽,p中的任一元素put用于表示用戶u針對(duì)標(biāo)簽t可能產(chǎn)生的訪問(wèn)次數(shù)的期望值。對(duì)所述用戶訪問(wèn)對(duì)象期望矩陣b和所述用戶標(biāo)簽期望矩陣p進(jìn)行因式分解,每一個(gè)期望矩陣均可被分解為兩個(gè)低維矩陣。b可被分解為用戶潛在因子矩陣um×d和訪問(wèn)對(duì)象潛在因子矩陣ww×n;p可被分解為所述用戶潛在因子矩陣um×d和標(biāo)簽潛在因子矩陣td×1;其中b和p 分解的用戶潛在因子矩陣um×d相同,即um×d可被b和p共用。因此,用戶訪問(wèn)對(duì)象期望矩陣b可由用戶潛在因子矩陣um×d和訪問(wèn)對(duì)象潛在因子矩陣wd×n計(jì)算而來(lái),即b=um×d×wd×n;用戶標(biāo)簽期望矩陣p可由用戶潛在因子矩陣um×d和標(biāo)簽潛在因子矩陣td×1計(jì)算而來(lái),即p=um×d×td×1。這樣,就可以將兩個(gè)輸入矩陣fb和fp分別近似分解為兩個(gè)低維矩陣:fb≈um×d×wd×n;fp≈um×d×td×1。以下利用觀察矩陣中觀察值的生成過(guò)程,求解所述三個(gè)輸出矩陣。具體地:1、所述用戶潛在因子矩陣服從伽馬gamma分布;表示為uuk~gamma(αk,βk),uuk表示um×d矩陣中的任一元素。則用戶u的概率密度函數(shù)為:公式(1)其中,α表示gamma分布中的形狀參數(shù);β表示gamma分布中的尺度參數(shù);γ(x)表示gamma函數(shù)。2、fb中的元素(即觀察值)在對(duì)應(yīng)的b中的元素(即期望值)附近波動(dòng)。所述用戶訪問(wèn)對(duì)象觀察矩陣fb中的元素自然服從所述用戶訪問(wèn)對(duì)象期望矩陣b中的元素buw期望的泊松poisson分布,所述用戶標(biāo)簽觀察矩陣fp中的元素服從所述用戶標(biāo)簽期望矩陣p中元素put期望的poisson分布;可以表示為~poisson(buw),~poisson(put)。則fb的泊松分布可以定義為:公式(2)fp的泊松分布可以定義為:公式(3)3、基于所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從 poisson分布生成第一分布函數(shù),以及基于所述用戶潛在因子矩陣服從伽馬gamma分布生成第二分布函數(shù),基于所述第一分布函數(shù)以及所述第二分布函數(shù)生成用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),所述概率函數(shù)表示用戶產(chǎn)生訪問(wèn)行為的概率。具體地,采用最大似然估計(jì)的方法,獲得似然函數(shù),將獲得的所述似然函數(shù)作為用戶產(chǎn)生訪問(wèn)行為的概率函數(shù)。也就是根據(jù)以上公式(1)、公式(2)、公式(3),可以生成用戶產(chǎn)生訪問(wèn)行為的概率函數(shù);用戶產(chǎn)生訪問(wèn)行為的概率函數(shù)為:公式(4)4、根據(jù)生成的用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣。具體地,生成所述似然函數(shù)的對(duì)數(shù)函數(shù);訪問(wèn)對(duì)象期望矩陣b也可用buw表示,用戶標(biāo)簽期望矩陣p也可用put表示?;赽uw=um×d×wd×n,以及put=um×d×td×1,計(jì)算公式(4)的對(duì)數(shù)函數(shù):公式(5)并對(duì)所述對(duì)數(shù)函數(shù)進(jìn)行偏導(dǎo)計(jì)算,產(chǎn)生三個(gè)偏導(dǎo)函數(shù);對(duì)產(chǎn)生的三個(gè)偏導(dǎo)函數(shù)的n個(gè)維度分別進(jìn)行多次乘法迭代,直至收斂,得到用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣,所述n為潛在因子維度包含的元素?cái)?shù)目。本申請(qǐng)中可以采用lee和seung提出的多乘法迭代方法對(duì)所述三個(gè)偏導(dǎo)函數(shù)的n個(gè)維度分別進(jìn)行多次乘法迭代,直到收斂,分別進(jìn)行n次乘法迭代,分別得到用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣中元素(即潛在變量)的求解公式;分別如下:公式(6)公式(7)公式(8)需要注意的是,上述計(jì)算用戶潛在因子矩陣中元素的過(guò)程中,融入了標(biāo)簽元素。所述在乘法迭代的計(jì)算過(guò)程中,為用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣中的初始值賦大于0的隨機(jī)值。由于迭代過(guò)程中,需要用到未知的w、u、t,為了最后對(duì)缺失值預(yù)測(cè)的值大于0,因此賦于三個(gè)矩陣大于0的隨機(jī)值。根據(jù)公式(6)、公式(7)、公式(8)便可獲得用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣。其中,在求解wwk的過(guò)程中,只有當(dāng)對(duì)應(yīng)的觀察值f非零時(shí),內(nèi)循環(huán)比率才需要計(jì)算。而計(jì)算需要計(jì)算d(d表示潛在因子維度)次乘法。因此,計(jì)算wwk的時(shí)間復(fù)雜度是o(n1d),與之相似,計(jì)算ttk的時(shí)間復(fù)雜度為0(n2d)。n1和n2分布表示訪問(wèn)對(duì)象和標(biāo)簽特征的非零觀察值個(gè)數(shù)。因此,本申請(qǐng)中上述算法對(duì)于用戶的非零時(shí)間觀察值是線性的。與之相似,求解uuk的時(shí)間復(fù)雜度為o(n1d+n2d),假設(shè)我們進(jìn)行r次迭代,模型的時(shí)間復(fù)雜度為:o(n1dr+n2dr)。那么,當(dāng)維度d=10時(shí),所需求解時(shí)間大概為8分鐘左右。步驟103:針對(duì)每一個(gè)目標(biāo)訪問(wèn)對(duì)象,執(zhí)行:根據(jù)所述用戶潛在因子矩陣和所述訪問(wèn)對(duì)象潛在因子矩陣,計(jì)算各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性。具體地,所述用戶潛在因子矩陣和所述訪問(wèn)對(duì)象潛在因子矩陣相乘,可以計(jì)算目標(biāo)訪問(wèn)對(duì)象w和各個(gè)用戶u的相似性得分。其中,每一個(gè)潛在因子維度代表用戶或者訪問(wèn)對(duì)象的一個(gè)潛在屬性,在用戶潛在因子矩陣中用戶u在k1潛在因子維度的值代表用戶u與潛在因子k1之間的關(guān)聯(lián)程度,換句話說(shuō),也 可以認(rèn)為用戶u對(duì)潛在因子k1的喜愛(ài)程度;在訪問(wèn)對(duì)象潛在因子矩陣中,目標(biāo)訪問(wèn)對(duì)象w在k1潛在因子維度的值代表目標(biāo)訪問(wèn)對(duì)象w與潛在因子k1之間的關(guān)聯(lián)程度;那么,用戶潛在因子矩陣中用戶u在k1潛在因子維度的值與訪問(wèn)對(duì)象潛在因子矩陣中目標(biāo)訪問(wèn)對(duì)象w在k1潛在因子維度的值相乘,獲得在k1潛在因子維度用戶u與目標(biāo)訪問(wèn)對(duì)象w之間的關(guān)聯(lián)程度,或者稱為用戶u與目標(biāo)訪問(wèn)對(duì)象w的相似性。用戶u在所有潛在因子維度上形成的向量與目標(biāo)訪問(wèn)對(duì)象w在所有潛在因子維度上形成的向量相乘,獲得用戶u與目標(biāo)訪問(wèn)對(duì)象w的相似性得分。步驟104:根據(jù)獲得的各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性,對(duì)所述用戶訪問(wèn)對(duì)象觀察矩陣中未對(duì)該目標(biāo)訪問(wèn)對(duì)象產(chǎn)生過(guò)訪問(wèn)次數(shù)的用戶進(jìn)行排序。根據(jù)步驟103中獲得的目標(biāo)訪問(wèn)對(duì)象w和各個(gè)用戶u的相似性得分,將對(duì)所述用戶訪問(wèn)對(duì)象觀察矩陣中未對(duì)該目標(biāo)訪問(wèn)對(duì)象產(chǎn)生過(guò)訪問(wèn)次數(shù)的用戶的相似性得分進(jìn)行排序。步驟105:根據(jù)排序結(jié)果,為該目標(biāo)訪問(wèn)對(duì)象選擇推薦的用戶。例如,根據(jù)得分,所述用戶訪問(wèn)對(duì)象觀察矩陣中未對(duì)該目標(biāo)訪問(wèn)對(duì)象產(chǎn)生過(guò)訪問(wèn)次數(shù)的用戶中選擇前10個(gè)用戶,為該目標(biāo)訪問(wèn)對(duì)象進(jìn)行推薦。綜上,本申請(qǐng)將泊松分布的概率潛在因子模型進(jìn)行改進(jìn),運(yùn)用到推薦系統(tǒng)中,為用戶的訪問(wèn)行為建模,且通過(guò)分析用戶訪問(wèn)對(duì)象觀察矩陣和用戶標(biāo)簽觀察矩陣的關(guān)系,有機(jī)的融入標(biāo)簽信息,提高預(yù)測(cè)準(zhǔn)確度,緩解數(shù)據(jù)稀疏性,另外,線性的時(shí)間復(fù)雜度表明本申請(qǐng)的方法可以處理大規(guī)模數(shù)據(jù)。下面結(jié)合具體的應(yīng)用場(chǎng)景對(duì)本申請(qǐng)?zhí)峁┑睦胻gap模型的受眾選擇的方法作進(jìn)一步詳細(xì)說(shuō)明。例如,基于智能電視的應(yīng)用場(chǎng)景,即上述訪問(wèn)對(duì)象為電視節(jié)目。在智能電視的應(yīng)用中,新產(chǎn)生了一個(gè)綜藝節(jié)目c。由于該綜藝節(jié)目c為新產(chǎn)品,因此用戶量較少,廣告主希望能夠?yàn)樵摼C藝節(jié)目c推薦真正對(duì)其感興趣的用戶。因此,需要從已有的用戶中找到可能對(duì)該綜藝節(jié)目c感興趣的用戶。基于用戶u觀看電視節(jié)目產(chǎn)生的瀏覽日志,可以獲得該用戶u觀看過(guò)的電視節(jié)目集合wu={wu1,wu2,…,wum},以及產(chǎn)生的標(biāo)簽集合tu={tu1,tu2,…,tum},其中tu可以表示已觀看電視節(jié)目所屬的種類。首先,對(duì)用戶觀看電視節(jié)目產(chǎn)生的數(shù)據(jù)基于時(shí)間排序,并將前一個(gè)月的數(shù)據(jù)作為訓(xùn)練集,緊鄰該月的一周數(shù)據(jù)作為測(cè)試集。其次,分別對(duì)訓(xùn)練集和測(cè)試集中的數(shù)據(jù)進(jìn)行聚合。訓(xùn)練集中,統(tǒng)計(jì)用戶一月內(nèi)觀看每個(gè)電視節(jié)目的次數(shù)以及產(chǎn)生每個(gè)標(biāo)簽的次數(shù);與之相似,測(cè)試集中則統(tǒng)計(jì)用戶一周內(nèi)觀看每個(gè)電視節(jié)目的次數(shù)以及產(chǎn)生每個(gè)標(biāo)簽的次數(shù)。根據(jù)訓(xùn)練集,采用本申請(qǐng)的方法進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果與測(cè)試集中的數(shù)據(jù)進(jìn)行比對(duì),如果兩者的公共用戶越多,則說(shuō)明預(yù)測(cè)的越準(zhǔn)確。根據(jù)訓(xùn)練集,可以得到用戶-節(jié)目的觀看次數(shù)矩陣作為fb、用戶-標(biāo)簽的產(chǎn)生次數(shù)矩陣fp,將這兩個(gè)矩陣作為tgap模型的兩個(gè)輸入矩陣進(jìn)行建模。如表1所示為輸入矩陣fb,表2所示為輸入矩陣fp。表1w1w2w3w4u13956u2412022u370表2t1t2t3t4t5t6u120322840u261527u3806098可見(jiàn)參與計(jì)算的歷史數(shù)據(jù)中共包含3個(gè)用戶(分別用u1、u2、u3表示)、4個(gè)電視節(jié)目(分別用w1、w2、w3、w4表示)以及6個(gè)標(biāo)簽(分別用t1、t2、t3、t4、t5、t6表示)。如表1中矩陣fb所示,u1針對(duì)w1產(chǎn)生的訪問(wèn)次數(shù)為39次;又 如表2中矩陣fp所示,u1針對(duì)t1產(chǎn)生的訪問(wèn)次數(shù)為20次。通過(guò)有效的利用這兩個(gè)數(shù)據(jù)源fb和fp進(jìn)行建模,對(duì)矩陣fb中的缺失值進(jìn)行預(yù)測(cè)。建模過(guò)程中,為了得到結(jié)果矩陣w、u、t,我們需要按照公式(6)、(7)、(8)處理訓(xùn)練集。由于迭代過(guò)程中,需要用到未知的w、u、t,因此我們需要為這三個(gè)矩陣賦隨機(jī)值。為了最后得到預(yù)測(cè)的次數(shù)大于0,我們需要賦大于0的隨機(jī)值。此后,根據(jù)乘法迭代公式不斷迭代直到收斂,即可得到所求的潛在因子矩陣w、u和t。如果我們?nèi)【S度是3來(lái)進(jìn)行矩陣分解,并迭代15次,得到的用戶潛在因子矩陣u、電視節(jié)目潛在因子矩陣w以及標(biāo)簽潛在矩陣t分別如表3、表4和表5所示。表3c1c2c3w14.604.624.63w26.346.366.37w33.963.973.98w44.164.184.18表4c1c2c3u13.802.776.02u23.782.766.00u33.782.765.99表5潛在因子分別用c1、c2、c3表示,如表3的用戶潛在因子矩陣所示,用戶w1與潛在因子c1的關(guān)聯(lián)程度為4.60,如表4的電視節(jié)目潛在因子矩陣所示,用戶w1與潛在因子c1的關(guān)聯(lián)程度為3.80,如表5的標(biāo)簽潛在矩陣所示,用戶w1與潛在因子c1的關(guān)聯(lián)程度為4.25。得到用戶潛在因子矩陣、電視節(jié)目潛在因子矩陣以及標(biāo)簽潛在矩陣后,通過(guò)將電視節(jié)目潛在因子矩陣w和用戶潛在因子矩陣u進(jìn)行相乘,得到fb中每一個(gè)缺失值的預(yù)測(cè)值,預(yù)測(cè)后的矩陣如表6所示。其中,預(yù)測(cè)值越大表明該預(yù)測(cè)值對(duì)應(yīng)的用戶對(duì)對(duì)應(yīng)的電視節(jié)目越感興趣。表6w1w2w3w4u1395650.004552.5502u2479.738812022u357.87297049.766252.2998需要說(shuō)明的是,即使在fb中用戶u3只有一個(gè)觀察值,也就是只產(chǎn)生過(guò)一次觀看電視節(jié)目的記錄,通過(guò)本申請(qǐng)的方法,可以根據(jù)該用戶u3的標(biāo)簽信息以及其他用戶的相關(guān)信息對(duì)該用戶u3預(yù)測(cè)合理的預(yù)測(cè)值。最后,根據(jù)表6所示的預(yù)測(cè)后的矩陣,可以為每一個(gè)目標(biāo)電視節(jié)目w推薦可能對(duì)其感興趣的潛在用戶。具體地址,對(duì)于每一目標(biāo)電視節(jié)目w,對(duì)未觀看過(guò)該電視節(jié)目的所有用戶u的預(yù)測(cè)值進(jìn)行排序,取前k個(gè)用戶作為我們選擇的受眾推薦給w,k值可以根據(jù)隨意設(shè)定,比如k取值20或者30。比如根據(jù)表6得到的預(yù)測(cè)值可知,對(duì)于電視節(jié)目w3,顯然u1的預(yù)測(cè)值要比u3高,說(shuō)明u1比u3對(duì)電視節(jié)目w3感興趣的可能性更大。因此,如果為目標(biāo)電視節(jié)目w3推薦用戶,顯然要推薦u1。而且從另一個(gè)角度也可以看出這個(gè)推薦是合理的。因?yàn)閺谋?可以看出u2對(duì)電視節(jié)目w3是最感興趣的,因此與u2越相似的用戶對(duì)電視節(jié)目w3感興趣的概率越大。從表2可以看出,跟u3相比,顯然u1與u2更加相似。如圖3所示,是本申請(qǐng)的方法在某廣告公司的數(shù)據(jù)(用戶917047,網(wǎng)站1404,標(biāo)簽135)上進(jìn)行推薦的實(shí)例,從圖3可以看出,當(dāng)d=20時(shí),本申請(qǐng)的方法比原有的方法準(zhǔn)確率提升了14.44%?;诒旧暾?qǐng)?zhí)峁┑纳鲜鍪鼙娺x擇的方法,如圖4所示,本申請(qǐng)還提供了一種受眾選擇的裝置40,包括生成單元41、第一計(jì)算單元42、第二計(jì)算單元43、排序單元44、選擇單元45。其中:生成單元41,用于基于多個(gè)用戶訪問(wèn)行為產(chǎn)生的歷史數(shù)據(jù),生成用戶訪問(wèn)對(duì)象觀察矩陣和用戶標(biāo)簽觀察矩陣;其中,所述用戶訪問(wèn)對(duì)象觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為訪問(wèn)對(duì)象維度,所述用戶訪問(wèn)對(duì)象觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在訪問(wèn)對(duì)象維度上對(duì)應(yīng)的訪問(wèn)對(duì)象產(chǎn)生的訪問(wèn)次數(shù);所述用戶標(biāo)簽觀察矩陣包括兩個(gè)維度,其中一個(gè)維度為用戶維度,另一維度為標(biāo)簽維度,所述用戶標(biāo)簽觀察矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶針對(duì)該元素在標(biāo)簽維度上對(duì)應(yīng)的標(biāo)簽產(chǎn)生的訪問(wèn)次數(shù);所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從泊松poisson分布;第一計(jì)算單元42,用于根據(jù)所述生成單元41生成的所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣;其中,所述用戶潛在因子矩陣包括用戶維度和潛在因子維度,所述用戶潛在因子矩陣中的任一元素用于表征該元素在用戶維度上對(duì)應(yīng)的用戶與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述訪問(wèn)對(duì)象潛在因子 矩陣包括訪問(wèn)對(duì)象維度和潛在因子維度,所述訪問(wèn)對(duì)象潛在因子矩陣中的任一元素用于表征該元素在訪問(wèn)對(duì)象上對(duì)應(yīng)的訪問(wèn)對(duì)象與該元素在潛在因子維度上對(duì)應(yīng)的潛在因子之間的關(guān)聯(lián)程度;所述用戶潛在因子矩陣與所述訪問(wèn)對(duì)象潛在因子矩陣在潛在因子維度上包含的元素的數(shù)目相同;第二計(jì)算單元43,用于針對(duì)每一個(gè)目標(biāo)訪問(wèn)對(duì)象,執(zhí)行:根據(jù)所述用戶潛在因子矩陣和所述訪問(wèn)對(duì)象潛在因子矩陣,計(jì)算各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性;排序單元44,用于根據(jù)所述第二計(jì)算單元43計(jì)算獲得的各個(gè)用戶和該目標(biāo)訪問(wèn)對(duì)象的相似性,對(duì)所述用戶訪問(wèn)對(duì)象觀察矩陣中未對(duì)該目標(biāo)訪問(wèn)對(duì)象產(chǎn)生過(guò)訪問(wèn)次數(shù)的用戶進(jìn)行排序;選擇單元45,用于根據(jù)所述排序單元44的排序結(jié)果,為該目標(biāo)訪問(wèn)對(duì)象選擇推薦的用戶??蛇x的,所述第一計(jì)算單元42用于:根據(jù)所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣,分別生成與所述用戶訪問(wèn)對(duì)象觀察矩陣具有相同維度的用戶訪問(wèn)對(duì)象期望矩陣,和與所述用戶標(biāo)簽觀察矩陣具有相同維度的用戶標(biāo)簽期望矩陣;其中,所述用戶訪問(wèn)對(duì)象觀察矩陣中的元素服從所述用戶訪問(wèn)對(duì)象期望矩陣中的元素期望的泊松poisson分布,所述用戶標(biāo)簽觀察矩陣中的元素服從所述用戶標(biāo)簽期望矩陣中元素期望的poisson分布;所述用戶訪問(wèn)對(duì)象期望矩陣為用戶潛在因子矩陣和訪問(wèn)對(duì)象潛在因子矩陣的乘積;所述用戶標(biāo)簽期望矩陣為所述用戶潛在因子矩陣和標(biāo)簽潛在因子矩陣的乘積;所述用戶潛在因子矩陣服從伽馬gamma分布;基于所述用戶訪問(wèn)對(duì)象觀察矩陣和所述用戶標(biāo)簽觀察矩陣均服從poisson分布生成第一分布函數(shù),以及基于所述用戶潛在因子矩陣服從伽馬gamma分布生成第二分布函數(shù),基于所述第一分布函數(shù)以及所述第二分布函數(shù)生成用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),所述概率函數(shù)表示用戶產(chǎn)生訪問(wèn)行為的概率;根據(jù)生成的用戶產(chǎn)生訪問(wèn)行為的概率函數(shù),計(jì)算用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣。可選的,所述第一計(jì)算單元42還用于:基于所述第一分布函數(shù)以及所述第二分布函數(shù),采用最大似然估計(jì)的方法,獲得似然函數(shù),將獲得的所述似然函數(shù)作為用戶產(chǎn)生訪問(wèn)行為的概率函數(shù)。可選的,所述第一計(jì)算單元42還用于:生成所述似然函數(shù)的對(duì)數(shù)函數(shù),并對(duì)所述對(duì)數(shù)函數(shù)進(jìn)行偏導(dǎo)計(jì)算,產(chǎn)生三個(gè)偏導(dǎo)函數(shù);對(duì)產(chǎn)生的三個(gè)偏導(dǎo)函數(shù)的n個(gè)維度分別進(jìn)行多次乘法迭代,直至收斂,得到用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣;所述n為潛在因子維度包含的元素?cái)?shù)目。可選的,所述第一計(jì)算單元42在乘法迭代的計(jì)算過(guò)程中,為用戶潛在因子矩陣、訪問(wèn)對(duì)象潛在因子矩陣、以及標(biāo)簽潛在因子矩陣中的初始值賦大于0的隨機(jī)值?;谕话l(fā)明構(gòu)思,參閱圖5所示,本申請(qǐng)?zhí)峁┝肆硪环N受眾選擇的裝置50,包括收發(fā)器51、處理器52、存儲(chǔ)器53和總線54,收發(fā)器51、處理器52、存儲(chǔ)器53均與總線54連接,其中,所述存儲(chǔ)器53中存儲(chǔ)一組程序,所述處理器52用于調(diào)用所述存儲(chǔ)器53中存儲(chǔ)的程序,使得所述裝置50執(zhí)行本申請(qǐng)圖1提供的受眾選擇的方法。其中,在圖5中,總線架構(gòu)可以包括任意數(shù)量的互聯(lián)的總線和橋,具體由處理器52代表的一個(gè)或多個(gè)處理器和存儲(chǔ)器53代表的存儲(chǔ)器的各種電路鏈接在一起??偩€架構(gòu)還可以將諸如外圍設(shè)備、穩(wěn)壓器和功率管理電路等之類的各種其他電路鏈接在一起,這些都是本領(lǐng)域所公知的,因此,本文不再對(duì)其進(jìn)行進(jìn)一步描述。總線提供接口。收發(fā)器51可以是多個(gè)元件,即包括發(fā)送機(jī)和收發(fā)機(jī),提供用于在傳輸介質(zhì)上與各種其他裝置通信的單元。處理器52負(fù)責(zé)管理總線架構(gòu)和通常的處理,存儲(chǔ)器53可以存儲(chǔ)處理器52在執(zhí)行操作時(shí)所使用的數(shù)據(jù)。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本申請(qǐng)是參照根據(jù)本申請(qǐng)的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。當(dāng)前第1頁(yè)12