本申請涉及互聯(lián)網(wǎng)技術領域,尤其涉及一種用戶特征數(shù)據(jù)的計算方法和裝置。
背景技術:
目前,互聯(lián)網(wǎng)中會記錄用戶的活動數(shù)據(jù),通過用戶的活動數(shù)據(jù)可以計算出用戶的特征數(shù)據(jù),例如,用戶的喜好、活動軌跡、消費能力等。但往往由于互聯(lián)網(wǎng)中記錄的單個用戶的數(shù)據(jù)量過少(如數(shù)據(jù)缺失或非常稀疏等),所以可能會導致用戶特征數(shù)據(jù)的計算不準確,而整個互聯(lián)網(wǎng)中記錄的所有的用戶活動數(shù)據(jù)量又過多,無法從中篩選出用于某一個用戶特征數(shù)據(jù)計算的關聯(lián)活動數(shù)據(jù),或由于互聯(lián)網(wǎng)的數(shù)據(jù)量過大,導致運算速度過慢等。
技術實現(xiàn)要素:
本申請的目的旨在至少在一定程度上解決上述的技術問題之一。
為此,本申請的第一個目的在于提出一種用戶特征數(shù)據(jù)的計算方法,該方法針對互聯(lián)網(wǎng)中的海量數(shù)據(jù)進行了篩選,通過選取與用戶最相關的多個關聯(lián)用戶的活動數(shù)據(jù)進行特征數(shù)據(jù)的計算,減少了數(shù)據(jù)的計算量,提高了計算速度。
本申請的第二個目的在于提出一種用戶特征數(shù)據(jù)的計算裝置。
為了實現(xiàn)上述目的,本申請第一方面實施例的用戶特征數(shù)據(jù)的計算方法,包括:獲取用戶的活動數(shù)據(jù),并根據(jù)所述用戶的活動數(shù)據(jù)確定與所述用戶關聯(lián)的多個關聯(lián)用戶;根據(jù)所述用戶的活動數(shù)據(jù)分別建立所述用戶與所述多個關聯(lián)用戶之間的多個特征向量,并根據(jù)所述多個特征向量分別計算所述用戶與所述多個關聯(lián)用戶之間的多個關聯(lián)度;根據(jù)所述多個關聯(lián)度從所述多個關聯(lián)用戶中選擇多個參考用戶;以及根據(jù)所述多個參考用戶計算所述用戶的特征數(shù)據(jù)。
本申請實施例的用戶特征數(shù)據(jù)的計算方法,可先獲取用戶的活動數(shù)據(jù),并根據(jù)用戶的活動數(shù)據(jù)確定與用戶關聯(lián)的多個關聯(lián)用戶,之后可根據(jù)用戶的活動數(shù)據(jù)分別建立用戶與多個關聯(lián)用戶之間的多個特征向量,并根據(jù)多個特征向量分別計算用戶與多個關聯(lián)用戶之間的多個關聯(lián)度,然后,可根據(jù)多個關聯(lián)度從多個關聯(lián)用戶中選擇多個參考用戶,最后,可根據(jù)多個參考用戶計算用戶的特征數(shù)據(jù),即通過針對互聯(lián)網(wǎng)中的海量數(shù)據(jù)進行了篩選,通過選取與用戶最相關的多個關聯(lián)用戶的活動數(shù)據(jù)進行特征數(shù)據(jù)的計算,減少了數(shù)據(jù)的計算 量,提高了計算速度。
為了實現(xiàn)上述目的,本申請第二方面實施例的用戶特征數(shù)據(jù)的計算裝置,包括:獲取模塊,用于獲取用戶的活動數(shù)據(jù),并根據(jù)所述用戶的活動數(shù)據(jù)確定與所述用戶關聯(lián)的多個關聯(lián)用戶;第一計算模塊,用于根據(jù)所述用戶的活動數(shù)據(jù)分別建立所述用戶與所述多個關聯(lián)用戶之間的多個特征向量,并根據(jù)所述多個特征向量分別計算所述用戶與所述多個關聯(lián)用戶之間的多個關聯(lián)度;選擇模塊,用于根據(jù)所述多個關聯(lián)度從所述多個關聯(lián)用戶中選擇多個參考用戶;以及第二計算模塊,用于根據(jù)所述多個參考用戶計算所述用戶的特征數(shù)據(jù)。
本申請實施例的用戶特征數(shù)據(jù)的計算裝置,可通過獲取模塊獲取用戶的活動數(shù)據(jù),并根據(jù)用戶的活動數(shù)據(jù)確定與用戶關聯(lián)的多個關聯(lián)用戶,第一計算模塊根據(jù)用戶的活動數(shù)據(jù)分別建立用戶與多個關聯(lián)用戶之間的多個特征向量,并根據(jù)多個特征向量分別計算用戶與多個關聯(lián)用戶之間的多個關聯(lián)度,選擇模塊根據(jù)多個關聯(lián)度從多個關聯(lián)用戶中選擇多個參考用戶,第二計算模塊根據(jù)多個參考用戶計算用戶的特征數(shù)據(jù),即通過針對互聯(lián)網(wǎng)中的海量數(shù)據(jù)進行了篩選,通過選取與用戶最相關的多個關聯(lián)用戶的活動數(shù)據(jù)進行特征數(shù)據(jù)的計算,減少了數(shù)據(jù)的計算量,提高了計算速度。
本申請附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實踐了解到。
附圖說明
本申請上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中,
圖1是根據(jù)本申請一個實施例的用戶特征數(shù)據(jù)的計算方法的流程圖;
圖2是根據(jù)本申請另一個實施例的用戶特征數(shù)據(jù)的計算方法的流程圖;
圖3是根據(jù)本申請一個實施例的用戶特征數(shù)據(jù)的計算裝置的結構示意圖;
圖4是根據(jù)本申請一個實施例的第二計算模塊的結構示意圖。
具體實施方式
下面詳細描述本申請的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本申請,而不能理解為對本申請的限制。
下面參考附圖描述本申請實施例的用戶特征數(shù)據(jù)的計算方法和裝置。
圖1是根據(jù)本申請一個實施例的用戶特征數(shù)據(jù)的計算方法的流程圖。如圖1所示,該用戶特征數(shù)據(jù)的計算方法可以包括:
S101,獲取用戶的活動數(shù)據(jù),并根據(jù)用戶的活動數(shù)據(jù)確定與用戶關聯(lián)的多個關聯(lián)用戶。
其中,在本申請的實施例中,用戶的活動數(shù)據(jù)可理解為用戶在互聯(lián)網(wǎng)中進行操作(例如,搜索操作、廣告選擇操作、瀏覽操作等)時所返回的結果。可以基于對歷史用戶的行為數(shù)據(jù)的經(jīng)驗觀察以及歷史用戶的社交活動數(shù)據(jù)來理解用戶的活動數(shù)據(jù)。
具體地,可先獲取用戶的活動數(shù)據(jù),之后可根據(jù)用戶的活動數(shù)據(jù)找到與該用戶的活動數(shù)據(jù)有關聯(lián)的多個用戶,以作為該用戶的多個關聯(lián)用戶。例如,以活動數(shù)據(jù)為用戶X0選擇查看某個廣告為例,可根據(jù)該活動數(shù)據(jù)找到其他同樣選擇查看該廣告的用戶Xi,并將這些用戶Xi作為與用戶X0關聯(lián)的多個關聯(lián)用戶Xi??梢岳斫?,關聯(lián)用戶可以是該用戶的社會關系圈中的好友,還可以是與該用戶的活動數(shù)據(jù)有關聯(lián)的陌生人。
S102,根據(jù)用戶的活動數(shù)據(jù)分別建立用戶與多個關聯(lián)用戶之間的多個特征向量,并根據(jù)多個特征向量分別計算用戶與多個關聯(lián)用戶之間的多個關聯(lián)度。
具體而言,在本申請的實施例中,可先分別從用戶的活動數(shù)據(jù)中挑選出用戶與每個關聯(lián)用戶之間的多個特征變量,并將多個特征變量進行組合以建立用戶與每個關聯(lián)用戶之間的特征向量;對用戶與每個關聯(lián)用戶之間的特征向量進行數(shù)值化和歸一化處理,并根據(jù)數(shù)值化和歸一化處理之后的用戶與每個關聯(lián)用戶之間的特征向量,及特征向量中的每個特征變量的預設權重值,計算用戶與每個關聯(lián)用戶之間的關聯(lián)度。其中,在本申請的實施例中,特征向量可包括但不限于活動數(shù)據(jù)的用途、活動數(shù)據(jù)的發(fā)生地、活動數(shù)據(jù)的大小和活動數(shù)據(jù)的發(fā)生次數(shù)等。
更具體地,可先從用戶的活動數(shù)據(jù)中挑選出用戶X0與關聯(lián)用戶Xi之間有關聯(lián)的信息(即關聯(lián)的活動數(shù)據(jù))以作為用戶X0與關聯(lián)用戶Xi之間的特征變量,并將這些變量組合以建立用戶X0與關聯(lián)用戶Xi之間的特征向量,即該特征向量中的元素可分別為用戶X0與關聯(lián)用戶Xi之間關聯(lián)的活動數(shù)據(jù)的用途、用戶X0與關聯(lián)用戶Xi之間關聯(lián)的活動數(shù)據(jù)的發(fā)生地、用戶X0與關聯(lián)用戶Xi之間關聯(lián)的活動數(shù)據(jù)的大小和用戶X0與關聯(lián)用戶Xi之間關聯(lián)的活動數(shù)據(jù)的發(fā)生次數(shù)等。然后,可對用戶X0與關聯(lián)用戶Xi之間的特征向量進行數(shù)值化和歸一化處理,并根據(jù)數(shù)值化和歸一化處理之后的特征向量及特征向量中的每個特征變量的權重值,計算出用戶X0與關聯(lián)用戶Xi之間關聯(lián)度??梢岳斫?,關聯(lián)度越大,表示用戶X0與關聯(lián)用戶Xi的關系越親密。
例如,以用戶X0與關聯(lián)用戶Xi之間的特征向量為I={A,B,C,D}為例,其中,A為關聯(lián)活動數(shù)據(jù)的用途,B為關聯(lián)活動數(shù)據(jù)的發(fā)生地,C為關聯(lián)活動數(shù)據(jù)的大小,D為關聯(lián)活動數(shù)據(jù)的發(fā)生次數(shù)??上葘τ脩鬤0與關聯(lián)用戶Xi之間的特征向量I進行數(shù)值化處理,由于特征向量I中只有關聯(lián)活動數(shù)據(jù)的用途特征A和關聯(lián)活動數(shù)據(jù)的發(fā)生地B不是數(shù)值,因此可對這兩個特征變量進行數(shù)值化,即:假設關聯(lián)活動數(shù)據(jù)的用途特征A為Categorical類型,因 此,可先根據(jù)活動數(shù)據(jù)的種類取值及其業(yè)務含義進行數(shù)值化,關系越強烈取值越大,即將上述關聯(lián)活動數(shù)據(jù)用途特征A數(shù)值化為AX,之后,計算用戶X0與每個關聯(lián)用戶Xi的關聯(lián)活動數(shù)據(jù)發(fā)生地特征B之間的物理距離,根據(jù)物理距離從高到低劃分為1至M個等級,即將上述關聯(lián)活動數(shù)據(jù)發(fā)生地特征B數(shù)值化為BX。然后,對每個特征向量中的每個特征變量歸一化處理:將上述進行數(shù)值化之后的特征向量中的每個特征變量(即AX、BX、C、D)進行歸一化處理,分別得到歸一化之后的特征變量(即AY、BY、C、D)。之后,可根據(jù)數(shù)值化和歸一化之后的用戶X0與每個關聯(lián)用戶Xi之間的特征向量(即AY、BY、C、D)、及該特征向量中每個特征變量的預設權重值,計算出用戶X0與每個關聯(lián)用戶Xi之間的關聯(lián)度,其中,如上述特征變量AY的預設權重值為WA、特征變量BY的預設權重值WB、特征變量C的預設權重值WC和特征變量D的預設權重值WD,可通過如下公式得到用戶X0與每個關聯(lián)用戶Xi之間的關聯(lián)度Ki:Ki=(AYWA+BYWB+CWC+DWD),其中,i為第i個關聯(lián)用戶,可以理解,Di越大表示用戶X0與關聯(lián)用戶Xi之間的關系越親密。
S103,根據(jù)多個關聯(lián)度從多個關聯(lián)用戶中選擇多個參考用戶。
具體而言,在本申請的實施例中,可根據(jù)多個關聯(lián)度對多個關聯(lián)用戶進行排序,并根據(jù)排序結果選擇關聯(lián)度最大的多個關聯(lián)用戶作為多個參考用戶。也就是說,由于關聯(lián)度越大表示用戶X0與關聯(lián)用戶Xi之間的關系越親密,所以對關聯(lián)度進行從大到小的排序,將排在靠前的多個關聯(lián)度所對應的關聯(lián)用戶Xi作為用戶X0的多個參考用戶。由此,可以使得計算結果能夠更加的準確。
S104,根據(jù)多個參考用戶計算用戶的特征數(shù)據(jù)。
具體而言,在本申請的實施例中,可先獲取多個參考用戶的特征數(shù)據(jù),之后根據(jù)用戶與多個參考用戶之間的關聯(lián)度和多個參考用戶的特征數(shù)據(jù)計算用戶的特征數(shù)據(jù)。更具體地,可先從系統(tǒng)的數(shù)據(jù)庫中提取多個參考用戶的特征數(shù)據(jù)Vi(如用戶的喜好、活動軌跡、消費能力等),并對每個參考用戶的特征數(shù)據(jù)Vi進行初始化,之后,可對用戶X0與每個參考用戶之間的關聯(lián)度和每個參考用戶的初始化后的特征數(shù)據(jù)Vi進行加權求和,得到該用戶X0的特征數(shù)據(jù)V0:V0=(K1V1+K2V2+……+KnVn)/ΣKi,其中,Ki為第i個參考用戶與用戶X0的關聯(lián)度,n為參考用戶的個數(shù)。
本申請實施例的用戶特征數(shù)據(jù)的計算方法,可先獲取用戶的活動數(shù)據(jù),并根據(jù)用戶的活動數(shù)據(jù)確定與用戶關聯(lián)的多個關聯(lián)用戶,之后可根據(jù)用戶的活動數(shù)據(jù)分別建立用戶與多個關聯(lián)用戶之間的多個特征向量,并根據(jù)多個特征向量分別計算用戶與多個關聯(lián)用戶之間的多個關聯(lián)度,然后,可根據(jù)多個關聯(lián)度從多個關聯(lián)用戶中選擇多個參考用戶,最后,可根據(jù)多個參考用戶計算用戶的特征數(shù)據(jù),即通過針對互聯(lián)網(wǎng)中的海量數(shù)據(jù)進行了篩選,通過選取與用戶最相關的多個關聯(lián)用戶的活動數(shù)據(jù)進行特征數(shù)據(jù)的計算,減少了數(shù)據(jù)的計算 量,提高了計算速度。
為了使得本領域的技術人員能夠更加清楚地了解本申請,下面可舉例說明,即可以特征數(shù)據(jù)為消費能力為例,則用戶特征數(shù)據(jù)的計算方法可包括以下步驟:
舉例而言,如圖2所示,該用戶特征數(shù)據(jù)的計算方法可包括:可先獲取用戶X0的非消費類支付數(shù)據(jù)(即上述的活動數(shù)據(jù)),并可根據(jù)該用戶X0的非消費類支付數(shù)據(jù)確定與該用戶關聯(lián)的多個關聯(lián)用戶(如支付關系人)(S201),其中,支付關系人可理解用戶X0在第三方支付平臺進行非消費支付時所涉及到的社會關系人等。之后,可根據(jù)用戶X0的非消費類支付數(shù)據(jù)分別建立用戶與多個支付關系人之間的多個特征向量,并根據(jù)該多個特征向量分別計算用戶與多個支付關系人之間的多個關聯(lián)度(S202)。然后,根據(jù)多個關聯(lián)度從該多個支付關系人中選擇多個參考用戶(S203)。最后,根據(jù)該多個參考用戶計算用戶的消費能力(即上述的特征數(shù)據(jù))(S204)。
具體地,在確定與用戶X0關聯(lián)的多個支付關系人之后,可從非消費類支付數(shù)據(jù)中的支付信息(支付類型、支付場景、支付次數(shù)、支付金額、支付發(fā)生地、支付用途等)中挑選出與關聯(lián)度最相關的特征變量,以組成用戶X0與每個支付關系人之間的特征向量,如特征向量I={A,B,C,D},其中,A為支付用途,B為支付發(fā)生地,C為支付金額,D為支付次數(shù)。然后,對用戶X0與每個支付關系人之間的特征向量進行數(shù)值化和歸一化處理,其中可舉例描述對特征向量進行數(shù)值化和歸一化處理的過程:
例如,數(shù)字化的實現(xiàn)過程可為:假設支付用途A可以分為交易、紅包、借款或還款、家庭轉賬等,可通過數(shù)值來間接說明用戶與支付關系人之間的遠近,即可將上述用途分別數(shù)字化為1、2、3、4、……,其中,如果支付用途A是家庭轉賬類的,則表明用戶與支付關系人之間關系比較親近,可能為夫妻、子女等;如果支付用途A是交易類,可能親近關系一般,為買家與賣家等;計算X0與Xi的支付發(fā)生地特征變量B之間的物理距離,將物理距離從高到低劃分為M個區(qū)間,分別取值為1~M;支付金額和支付次數(shù)原本就是數(shù)值,因此不需要再數(shù)字化。
歸一化處理的實現(xiàn)過程為:將上述進行了數(shù)字化之后的特征向量進行歸一化計算,以特征向量中的支付用途A為例,假設支付用途A數(shù)字化為1、2、3、4后,再對每個用戶的取值進行歸一化,其中歸一化公式可如下所示:(x-min)/(max,min),其中,x為用戶針對支付用途A的數(shù)值,max為支付用途A中的最大值,min為支付用途A中的最小值,例如,支付用途A的取值為2的用戶歸一化為(2-1)/(4-1),以此類推。
之后,可對數(shù)值化和歸一化處理之后的特征向量和特征向量中的每個特征變量的預設權重值進行加權求和,得到用戶X0與每個支付關系人之間的關聯(lián)度。然后,挑選出排序靠前的關聯(lián)度對應的多個支付關系人作為參考用戶,并提取參考用戶在最近某個時間段內(nèi)的 消費類支付數(shù)據(jù),如支付金額、支付場景等,之后,可根據(jù)每個參考用戶的支付金額初始化每個參考用戶的消費能力Vi,然后,對每個參考用戶之間的關聯(lián)度Ki和每個參考用戶的消費能力Vi進行加權求和,得到用戶X0的消費能力V0=(K1V1+K2V2+……+KnVn)/ΣKi。
為了實現(xiàn)上述實施例,本申請還提出了一種用戶特征數(shù)據(jù)的計算裝置。
圖3是根據(jù)本申請一個實施例的用戶特征數(shù)據(jù)的計算裝置的結構示意圖。如圖3所示,該用戶特征數(shù)據(jù)的計算裝置可以包括:獲取模塊10、第一計算模塊20、選擇模塊30和第二計算模塊40。
具體地,獲取模塊10可用于獲取用戶的活動數(shù)據(jù),并根據(jù)用戶的活動數(shù)據(jù)確定與用戶關聯(lián)的多個關聯(lián)用戶。其中,在本申請的實施例中,用戶的活動數(shù)據(jù)可理解為用戶在互聯(lián)網(wǎng)中進行操作(例如,搜索操作、廣告選擇操作、瀏覽操作等)時所返回的結果??梢曰趯v史用戶的行為數(shù)據(jù)的經(jīng)驗觀察以及歷史用戶的社交活動數(shù)據(jù)來理解用戶的活動數(shù)據(jù)。
更具體地,獲取模塊10可先獲取用戶的活動數(shù)據(jù),之后可根據(jù)用戶的活動數(shù)據(jù)找到與該用戶的活動數(shù)據(jù)有關聯(lián)的多個用戶,以作為該用戶的多個關聯(lián)用戶。例如,以活動數(shù)據(jù)為用戶X0選擇查看某個廣告為例,獲取模塊10可根據(jù)該活動數(shù)據(jù)找到其他同樣選擇查看該廣告的用戶Xi,并將這些用戶Xi作為與用戶X0關聯(lián)的多個關聯(lián)用戶Xi。可以理解,關聯(lián)用戶可以是該用戶的社會關系圈中的好友,還可以是與該用戶的活動數(shù)據(jù)有關聯(lián)的陌生人。
第一計算模塊20可用于根據(jù)用戶的活動數(shù)據(jù)分別建立用戶與多個關聯(lián)用戶之間的多個特征向量,并根據(jù)多個特征向量分別計算用戶與多個關聯(lián)用戶之間的多個關聯(lián)度。具體而言,在本申請的實施例中,第一計算模塊20可具體用于:分別從用戶的活動數(shù)據(jù)中挑選出用戶與每個關聯(lián)用戶之間的多個特征變量,并將多個特征變量進行組合以建立用戶與每個關聯(lián)用戶之間的特征向量;對用戶與每個關聯(lián)用戶之間的特征向量進行數(shù)值化和歸一化處理,并根據(jù)數(shù)值化和歸一化處理之后的用戶與每個關聯(lián)用戶之間的特征向量,及特征向量中的每個特征變量的預設權重值,計算用戶與每個關聯(lián)用戶之間的關聯(lián)度。其中,在本申請的實施例中,特征向量可包括但不限于活動數(shù)據(jù)的用途、活動數(shù)據(jù)的發(fā)生地、活動數(shù)據(jù)的大小和活動數(shù)據(jù)的發(fā)生次數(shù)等。
更具體地,第一計算模塊20可先從用戶的活動數(shù)據(jù)中挑選出用戶X0與關聯(lián)用戶Xi之間有關聯(lián)的信息(即關聯(lián)的活動數(shù)據(jù))以作為用戶X0與關聯(lián)用戶Xi之間的特征變量,并將這些變量組合以建立用戶X0與關聯(lián)用戶Xi之間的特征向量,即該特征向量中的元素可分別為用戶X0與關聯(lián)用戶Xi之間關聯(lián)的活動數(shù)據(jù)的用途、用戶X0與關聯(lián)用戶Xi之間關聯(lián)的活動數(shù)據(jù)的發(fā)生地、用戶X0與關聯(lián)用戶Xi之間關聯(lián)的活動數(shù)據(jù)的大小和用戶X0與關聯(lián)用戶Xi之間 關聯(lián)的活動數(shù)據(jù)的發(fā)生次數(shù)等。然后,可對用戶X0與關聯(lián)用戶Xi之間的特征向量進行數(shù)值化和歸一化處理,并根據(jù)數(shù)值化和歸一化處理之后的特征向量及特征向量中的每個特征變量的權重值,計算出用戶X0與關聯(lián)用戶Xi之間關聯(lián)度??梢岳斫?,關聯(lián)度越大,表示用戶X0與關聯(lián)用戶Xi的關系越親密。
例如,以用戶X0與關聯(lián)用戶Xi之間的特征向量為I={A,B,C,D}為例,其中,A為關聯(lián)活動數(shù)據(jù)的用途,B為關聯(lián)活動數(shù)據(jù)的發(fā)生地,C為關聯(lián)活動數(shù)據(jù)的大小,D為關聯(lián)活動數(shù)據(jù)的發(fā)生次數(shù)??上葘τ脩鬤0與關聯(lián)用戶Xi之間的特征向量I進行數(shù)值化處理,由于特征向量I中只有關聯(lián)活動數(shù)據(jù)的用途特征A和關聯(lián)活動數(shù)據(jù)的發(fā)生地B不是數(shù)值,因此可對這兩個特征變量進行數(shù)值化,即:假設關聯(lián)活動數(shù)據(jù)的用途特征A為Categorical類型,因此,第一計算模塊20可先根據(jù)活動數(shù)據(jù)的種類取值及其業(yè)務含義進行數(shù)值化,關系越強烈取值越大,即將上述關聯(lián)活動數(shù)據(jù)用途特征A數(shù)值化為AX,之后,計算用戶X0與每個關聯(lián)用戶Xi的關聯(lián)活動數(shù)據(jù)發(fā)生地特征B之間的物理距離,根據(jù)物理距離從高到低劃分為1至M個等級,即將上述關聯(lián)活動數(shù)據(jù)發(fā)生地特征B數(shù)值化為BX。然后,對每個特征向量中的每個特征變量歸一化處理:將上述進行數(shù)值化之后的特征向量中的每個特征變量(即AX、BX、C、D)進行歸一化處理,分別得到歸一化之后的特征變量(即AY、BY、C、D)。之后,可根據(jù)數(shù)值化和歸一化之后的用戶X0與每個關聯(lián)用戶Xi之間的特征向量(即AY、BY、C、D)、及該特征向量中每個特征變量的預設權重值,計算出用戶X0與每個關聯(lián)用戶Xi之間的關聯(lián)度,其中,如上述特征變量AY的預設權重值為WA、特征變量BY的預設權重值WB、特征變量C的預設權重值WC和特征變量D的預設權重值WD,可通過如下公式得到用戶X0與每個關聯(lián)用戶Xi之間的關聯(lián)度Ki:Ki=(AYWA+BYWB+CWC+DWD),其中,i為第i個關聯(lián)用戶,可以理解,Di越大表示用戶X0與關聯(lián)用戶Xi之間的關系越親密。
選擇模塊30可用于根據(jù)多個關聯(lián)度從多個關聯(lián)用戶中選擇多個參考用戶。具體而言,在本申請的實施例中,選擇模塊30可具體用于:根據(jù)多個關聯(lián)度對多個關聯(lián)用戶進行排序,并根據(jù)排序結果選擇關聯(lián)度最大的多個關聯(lián)用戶作為多個參考用戶。也就是說,由于關聯(lián)度越大表示用戶X0與關聯(lián)用戶Xi之間的關系越親密,所以對關聯(lián)度進行從大到小的排序,將排在靠前的多個關聯(lián)度所對應的關聯(lián)用戶Xi作為用戶X0的多個參考用戶。由此,可以使得計算結果能夠更加的準確。
第二計算模塊40可用于根據(jù)多個參考用戶計算用戶的特征數(shù)據(jù)。具體而言,在本申請的實施例中,如圖4所示,該第二計算模塊40可包括獲取單元41和計算單元42。具體地,獲取單元41可用于獲取多個參考用戶的特征數(shù)據(jù)。計算單元42可用于根據(jù)用戶與多個參考用戶之間的關聯(lián)度和多個參考用戶的特征數(shù)據(jù)計算用戶的特征數(shù)據(jù)。
更具體地,獲取單元41可先從系統(tǒng)的數(shù)據(jù)庫中提取多個參考用戶的特征數(shù)據(jù)Vi(如用 戶的喜好、活動軌跡、消費能力等)。計算單元42對每個參考用戶的特征數(shù)據(jù)Vi進行初始化,之后,可對用戶X0與每個參考用戶之間的關聯(lián)度和每個參考用戶的初始化后的特征數(shù)據(jù)Vi進行加權求和,得到該用戶X0的特征數(shù)據(jù)V0:V0=(K1V1+K2V2+……+KnVn)/ΣKi,其中,Ki為第i個參考用戶與用戶X0的關聯(lián)度,n為參考用戶的個數(shù)。
本申請實施例的用戶特征數(shù)據(jù)的計算裝置,可通過獲取模塊獲取用戶的活動數(shù)據(jù),并根據(jù)用戶的活動數(shù)據(jù)確定與用戶關聯(lián)的多個關聯(lián)用戶,第一計算模塊根據(jù)用戶的活動數(shù)據(jù)分別建立用戶與多個關聯(lián)用戶之間的多個特征向量,并根據(jù)多個特征向量分別計算用戶與多個關聯(lián)用戶之間的多個關聯(lián)度,選擇模塊根據(jù)多個關聯(lián)度從多個關聯(lián)用戶中選擇多個參考用戶,第二計算模塊根據(jù)多個參考用戶計算用戶的特征數(shù)據(jù),即通過針對互聯(lián)網(wǎng)中的海量數(shù)據(jù)進行了篩選,通過選取與用戶最相關的多個關聯(lián)用戶的活動數(shù)據(jù)進行特征數(shù)據(jù)的計算,減少了數(shù)據(jù)的計算量,提高了計算速度。
在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本申請的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。
此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本申請的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本申請的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本申請的實施例所屬技術領域的技術人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設 備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(ROM),可擦除可編輯只讀存儲器(EPROM或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(CDROM)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
應當理解,本申請的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本申請各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本申請的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本申請的限制,本領域的普通技術人員在本申請的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。