欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種構(gòu)建用戶畫像的系統(tǒng)的制作方法

文檔序號(hào):12127292閱讀:241來(lái)源:國(guó)知局
一種構(gòu)建用戶畫像的系統(tǒng)的制作方法與工藝

本發(fā)明涉及一種構(gòu)建用戶畫像的系統(tǒng)。



背景技術(shù):

用戶畫像,即用戶信息標(biāo)簽化,就是通過(guò)收集與分析用戶社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等主要信息的數(shù)據(jù)之后,完美地抽象出一個(gè)用戶全貌是支撐個(gè)性化推薦、自動(dòng)化營(yíng)銷等大數(shù)據(jù)應(yīng)用的基本方式。用戶畫像為公司或企業(yè)提供了足夠的信息基礎(chǔ),能夠幫助企業(yè)快速找到精準(zhǔn)用戶群體以及用戶需求等更為廣泛的反饋信息。

然而,現(xiàn)有的用戶畫像構(gòu)建的方法中,對(duì)用戶上網(wǎng)數(shù)據(jù)分析不全面、不準(zhǔn)確,從而導(dǎo)致構(gòu)建的用戶畫像不能很好的體現(xiàn)用戶全貌,無(wú)法滿足廣告運(yùn)營(yíng)商或者企業(yè)找到精準(zhǔn)用戶的需求。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明主要解決的技術(shù)問(wèn)題是提供一種構(gòu)建用戶畫像的系統(tǒng),通過(guò)該系統(tǒng)能夠構(gòu)建全息多維度的用戶畫像。

為解決上述技術(shù)問(wèn)題,本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種構(gòu)建用戶畫像的系統(tǒng),所述構(gòu)建用戶畫像的系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)應(yīng)用模塊以及數(shù)據(jù)業(yè)務(wù)模塊,其中:所述數(shù)據(jù)采集模塊用于采集所述用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù);所述數(shù)據(jù)預(yù)處理模塊用于對(duì)所述用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行預(yù)處理;所述數(shù)據(jù)分析模塊用于對(duì)預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行特征提取,得到所述用戶的屬性特征;所述數(shù)據(jù)應(yīng)用模塊用于基于已建立的多維特征庫(kù)訓(xùn)練的標(biāo)簽分類,根據(jù)所述用戶的屬性特征在所述多維特征庫(kù)中進(jìn)行匹配,得到所述用戶的多維度屬性標(biāo)簽,所述多維度屬性標(biāo)簽至少包括所 述用戶的基本屬性標(biāo)簽、社會(huì)屬性標(biāo)簽、上網(wǎng)行為屬性標(biāo)簽、行為習(xí)慣屬性標(biāo)簽以及興趣特征屬性標(biāo)簽;所述數(shù)據(jù)業(yè)務(wù)模塊用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。

其中,所述數(shù)據(jù)分析模塊用于分別通過(guò)離線和在線方式對(duì)預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行分析處理,得到所述用戶的屬性特征。

其中,所述數(shù)據(jù)分析模塊包括加載單元以及離線分析單元,其中:所述加載單元用于將預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)加載到數(shù)據(jù)存儲(chǔ)平臺(tái)中;所述離線分析單元用于結(jié)合數(shù)據(jù)存儲(chǔ)平臺(tái)中存儲(chǔ)的歷史數(shù)據(jù),基于Hadoop開源映射/化簡(jiǎn)計(jì)算框架,對(duì)所述預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行離線分析處理,得到所述用戶的屬性特征。

其中,所述數(shù)據(jù)分析模塊包括分布單元以及在線分析單元,其中:所述分布單元用于將預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)均勻分布到卡夫卡集群;所述在線分析單元用于通過(guò)Spark核心流計(jì)算平臺(tái)實(shí)時(shí)從所述卡夫卡集群拉取數(shù)據(jù)并進(jìn)行實(shí)時(shí)流計(jì)算分析處理,得到所述用戶的屬性特征。

其中,所述已建立的多維特征庫(kù)包括運(yùn)營(yíng)商基礎(chǔ)信息庫(kù)、終端類型基礎(chǔ)庫(kù)、應(yīng)用程序分類庫(kù)、統(tǒng)一資源定位符URL分類庫(kù)、訪問(wèn)網(wǎng)站及行為規(guī)律統(tǒng)計(jì)特征庫(kù)、上網(wǎng)內(nèi)容聚類結(jié)果庫(kù)、用戶群體分類庫(kù)、命名實(shí)體識(shí)別內(nèi)容提取庫(kù)、動(dòng)態(tài)標(biāo)簽分類管理庫(kù)、互聯(lián)網(wǎng)網(wǎng)站特征庫(kù)、歷史用戶興趣關(guān)注點(diǎn)庫(kù)以及終端移動(dòng)軌跡變化庫(kù)中的至少一種。

其中,所述數(shù)據(jù)分析模塊還用于構(gòu)建所述多維特征庫(kù),其中,所述數(shù)據(jù)分析模塊通過(guò)以下方式構(gòu)建所述多維特征庫(kù):通過(guò)外圍系統(tǒng)或呼叫詳細(xì)記錄話單日志數(shù)據(jù)的接入,對(duì)所有用戶的國(guó)際用戶識(shí)別碼、所屬運(yùn)營(yíng)商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置中的至少一種基礎(chǔ)信息進(jìn)行提取分析,累積得到所述運(yùn)營(yíng)商基礎(chǔ)信息庫(kù);或通過(guò)獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對(duì)所述所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中的移動(dòng)終端國(guó)際身份碼、終端型號(hào)、品牌類型、終端操作系統(tǒng)中的至少一種相關(guān)信息進(jìn)行提取分析,累積得到所述終端類型基礎(chǔ)庫(kù);或通過(guò)獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),過(guò)濾掉無(wú)效URL,針對(duì)有效的URL建立所述有效URL 所屬網(wǎng)站的所述URL分類庫(kù);或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),從所述所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中提取應(yīng)用程序類型,通過(guò)人工和自動(dòng)相結(jié)合的方式定期對(duì)所述應(yīng)用程序類型進(jìn)行分類、統(tǒng)計(jì),以形成所述應(yīng)用程序分類庫(kù);或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對(duì)每個(gè)用戶的上網(wǎng)情況,對(duì)用戶的常去訪問(wèn)網(wǎng)站以及行為進(jìn)行累積統(tǒng)計(jì),形成所述訪問(wèn)網(wǎng)站和行為規(guī)律統(tǒng)計(jì)特征庫(kù);或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對(duì)每個(gè)用戶的上網(wǎng)產(chǎn)生的日志情況,對(duì)所述每個(gè)用戶常在日志中產(chǎn)生的用戶內(nèi)容形成基于用戶內(nèi)容的特征聚類,產(chǎn)生所述上網(wǎng)內(nèi)容聚類結(jié)果庫(kù);或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對(duì)具有相同特征標(biāo)簽或相同屬性或相同業(yè)務(wù)特征的用戶進(jìn)行聚類合并,形成所述用戶群體分類庫(kù);或通過(guò)結(jié)合離線存儲(chǔ)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對(duì)所有用戶的上網(wǎng)行為進(jìn)行分析,對(duì)產(chǎn)生的行為進(jìn)行統(tǒng)計(jì),進(jìn)而對(duì)用戶關(guān)注內(nèi)容進(jìn)行聚類分析以形成所述歷史用戶興趣關(guān)注點(diǎn)庫(kù);或通過(guò)對(duì)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中導(dǎo)航地圖類應(yīng)用程序進(jìn)行分析,得到用戶移動(dòng)變化的經(jīng)緯度位置信息,將所述經(jīng)緯度信息與地理信息系統(tǒng)展示結(jié)合,得到用戶的移動(dòng)軌跡,同時(shí)對(duì)用戶位置停留時(shí)間進(jìn)行統(tǒng)計(jì),從而得到每個(gè)用戶常去地區(qū),對(duì)所有用戶常去地區(qū)進(jìn)行匯總從而形成所述終端移動(dòng)軌跡變化庫(kù);或根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),通過(guò)主流的命名實(shí)體識(shí)別算法及訓(xùn)練樣本集,對(duì)上網(wǎng)內(nèi)容中具有特定意義的實(shí)體進(jìn)行提取,建立所述命名實(shí)體識(shí)別內(nèi)容提取庫(kù);或預(yù)先根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類標(biāo)準(zhǔn),根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志,對(duì)所述所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志中的互聯(lián)網(wǎng)網(wǎng)站進(jìn)行特征收集,構(gòu)建所述互聯(lián)網(wǎng)網(wǎng)站特征庫(kù);或基于每個(gè)特征庫(kù)訓(xùn)練的標(biāo)簽分類,將所有特征庫(kù)訓(xùn)練的標(biāo)簽分類進(jìn)行匯總歸并,建立用戶偏好的所述動(dòng)態(tài)標(biāo)簽分類管理庫(kù)。

其中,所述用戶的基本屬性標(biāo)簽包括用戶名、用戶標(biāo)識(shí)、性別、民族、國(guó)籍、年齡區(qū)間段、學(xué)歷、職業(yè)、收入水平、用戶終端、國(guó)際用戶識(shí)別碼、國(guó)際移動(dòng)終端標(biāo)識(shí)碼、所屬運(yùn)營(yíng)商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置、終端品牌類型、終端型號(hào)、終端操作系統(tǒng)以及終端安裝的應(yīng) 用程序中的至少一種;所述社會(huì)屬性標(biāo)簽包括行業(yè)、職業(yè)、工作地點(diǎn)、居住地點(diǎn)、銀行卡、會(huì)員卡以及交通工具中的至少一種;所述上網(wǎng)行為屬性標(biāo)簽包括瀏覽、搜索、下載、購(gòu)買以及評(píng)論中的至少一種;所述行為習(xí)慣屬性標(biāo)簽包括日均上網(wǎng)時(shí)間、常登錄網(wǎng)站以及常用應(yīng)用程序中的至少一種;所述興趣特征屬性標(biāo)簽包括體育、音樂(lè)、社交、資訊、購(gòu)物、休閑、旅游、游戲以及投資理財(cái)中的至少一種。

其中,所述數(shù)據(jù)應(yīng)用模塊還用于在所述已建立的多維特征庫(kù)中找不到與所述用戶的屬性特征匹配的多維度屬性標(biāo)簽時(shí),將所述用戶的屬性特征以及對(duì)應(yīng)的多維度屬性標(biāo)簽添加到所述多維特征庫(kù)中。

其中,所述數(shù)據(jù)采集模塊用于實(shí)時(shí)采集所述用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),以對(duì)所述用戶的多維度屬性標(biāo)簽進(jìn)行更新。

其中,所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)為移動(dòng)互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)。

本發(fā)明的有益效果是:區(qū)別于現(xiàn)有技術(shù)的情況,本發(fā)明提供的構(gòu)建用戶畫像的系統(tǒng),該構(gòu)建用戶畫像的系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)應(yīng)用模塊以及數(shù)據(jù)業(yè)務(wù)模塊,其中:數(shù)據(jù)采集模塊用于采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),數(shù)據(jù)預(yù)處理模塊用于對(duì)用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)分析模塊用于對(duì)預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行特征提取,得到用戶的屬性特征,數(shù)據(jù)應(yīng)用模塊用于基于已建立的多維特征庫(kù)訓(xùn)練的標(biāo)簽分類,根據(jù)用戶的屬性特征在多維特征庫(kù)中進(jìn)行匹配,得到用戶的多維度屬性標(biāo)簽,數(shù)據(jù)業(yè)務(wù)模塊用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。通過(guò)本發(fā)明提供的系統(tǒng),能夠?qū)τ脩舻纳暇W(wǎng)數(shù)據(jù)進(jìn)行全面、準(zhǔn)確的分析從而確定用戶的多維度屬性標(biāo)簽,從而根據(jù)多維度屬性標(biāo)簽構(gòu)建用戶畫像,能夠構(gòu)建出全息的多維度用戶畫像,從而能夠滿足運(yùn)營(yíng)商/企業(yè)/公司快速精準(zhǔn)廣告投放和用戶群體的消費(fèi)行為的推薦。

附圖說(shuō)明

圖1是本發(fā)明實(shí)施例提供的一種構(gòu)建用戶畫像的系統(tǒng)的結(jié)構(gòu)示意圖;

圖2是本發(fā)明實(shí)施例提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的 其中一種結(jié)構(gòu)示意圖;

圖3是本發(fā)明實(shí)施例中提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的另一種結(jié)構(gòu)示意圖。

具體實(shí)施方式

請(qǐng)參閱圖1,圖1是本發(fā)明實(shí)施例提供的一種構(gòu)建用戶畫像的系統(tǒng)的結(jié)構(gòu)示意圖,如圖所示,本發(fā)明實(shí)施例的構(gòu)建用戶畫像的系統(tǒng)100包括數(shù)據(jù)采集模塊11、數(shù)據(jù)預(yù)處理模塊12、數(shù)據(jù)分析模塊13、數(shù)據(jù)應(yīng)用模塊14以及數(shù)據(jù)業(yè)務(wù)模塊15,其中:

數(shù)據(jù)采集模塊11用于采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)。

構(gòu)建用戶畫像的系統(tǒng)通過(guò)與外圍系統(tǒng)對(duì)接,通過(guò)數(shù)據(jù)采集模塊11采集原始數(shù)據(jù)或通過(guò)從運(yùn)營(yíng)商對(duì)接的分光設(shè)備,實(shí)時(shí)采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)。其中,用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)包括但不限于是移動(dòng)互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)、有線無(wú)線互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)等等。

數(shù)據(jù)預(yù)處理模塊12用于對(duì)用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行預(yù)處理。

由于獲取的上網(wǎng)日志數(shù)據(jù)類型種類比較多,網(wǎng)絡(luò)通信協(xié)議種類也比較豐富,噪音垃圾信息較多。因此,需要對(duì)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理(清洗、整合),形成規(guī)范的日志格式化,即將上網(wǎng)日志數(shù)據(jù)按照統(tǒng)一規(guī)范形成日志分析需要的基本信息。

數(shù)據(jù)預(yù)處理模塊12對(duì)獲取的用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行預(yù)處理,以使得用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)按照統(tǒng)一規(guī)范進(jìn)行格式化。因?yàn)榛ヂ?lián)網(wǎng)的信息滿足4A(Anyone,Anytime,Anywhere,Anything)特性,這些非結(jié)構(gòu)化的信息可以被統(tǒng)一標(biāo)識(shí)為何時(shí)(When),何地(Where),與誰(shuí)(Who)和關(guān)于什么(What)被分享給誰(shuí)(Who)。因此,數(shù)據(jù)預(yù)處理模塊12可以設(shè)計(jì)一種隱式數(shù)據(jù)的表述格式為:Who,When,Where and What to Whom?;ヂ?lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)都可以被表達(dá)為這樣的格式,從而達(dá)到了使得預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)都能統(tǒng)一格式。

數(shù)據(jù)分析模塊13用于對(duì)預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行分析處理,得到用戶的屬性特征。

通過(guò)特征提取,可以得到用戶的屬性特征。用戶的屬性特征是指能夠標(biāo)識(shí)用戶特征的關(guān)鍵信息。比如對(duì)上網(wǎng)(或呼叫詳細(xì)記錄CDR話單日志)中可解析的文本內(nèi)容進(jìn)行分析,主要對(duì)文本內(nèi)容中的人名、地名、機(jī)構(gòu)名等進(jìn)行識(shí)別,實(shí)現(xiàn)用戶基本信息的提取。

其中,本發(fā)明實(shí)施例中,數(shù)據(jù)分析模塊13可以通過(guò)在線(即實(shí)時(shí))和離線相結(jié)合的方式對(duì)預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行特征提取,從而得到用戶的屬性特征。在線處理方式只能對(duì)當(dāng)前的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行處理,而離線處理方式可以結(jié)合歷史存儲(chǔ)數(shù)據(jù)進(jìn)行分析處理,從而可以對(duì)在線處理方式?jīng)]有提取的用戶屬性特征進(jìn)行補(bǔ)充和完善。通過(guò)在線和離線處理方式對(duì)互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行處理,從而可以將當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘分析,使得提取的用戶屬性更加全面完整。

其中,請(qǐng)進(jìn)一步參閱圖2,圖2是本發(fā)明實(shí)施例提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的其中一種結(jié)構(gòu)示意圖,如圖所示,數(shù)據(jù)分析模塊可以包括加載單元131以及離線分析單元132,其中:

加載單元131用于將預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)加載到數(shù)據(jù)存儲(chǔ)平臺(tái)中。

加載單元131通過(guò)加載使得預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)入離線日志分析平臺(tái)。其中,日志數(shù)據(jù)通過(guò)加載入庫(kù)到數(shù)據(jù)存儲(chǔ)平臺(tái)中,數(shù)據(jù)存儲(chǔ)平臺(tái)支持結(jié)構(gòu)化和非結(jié)構(gòu)化的存儲(chǔ)方式,提供關(guān)系型數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)和檢索庫(kù)。

離線分析單元132用于結(jié)合離線存儲(chǔ)的歷史數(shù)據(jù),基于Hadoop開源映射/化簡(jiǎn)計(jì)算框架,對(duì)預(yù)處理后的所述互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行分析處理,得到用戶的屬性特征。

通過(guò)結(jié)合離線存儲(chǔ)的歷史數(shù)據(jù),基于Hadoop開源映射/化簡(jiǎn)(Map/Reduce)完成日志數(shù)據(jù)的歷史關(guān)聯(lián)分析,得到用戶屬性特征。

通過(guò)離線分析單元離線處理的用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)事實(shí)上是用戶不斷變化的行為數(shù)據(jù),如瀏覽的網(wǎng)站、常去活動(dòng)區(qū)域、常用的應(yīng)用程序(Application,APP)和消費(fèi)習(xí)慣等,基于用戶上網(wǎng)行為和習(xí)慣 進(jìn)行分析,從而可以獲取用戶喜好、行為特征的最重要的途徑。由于此部分信息的分析隨時(shí)間的變化,屬性特征有演化的趨勢(shì)。在該離線處理中,主要是從歷史用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中提取出用戶屬性特征,這里的用戶屬性特征是指從上網(wǎng)日志數(shù)據(jù)中提取出能夠標(biāo)識(shí)用戶屬性特征的關(guān)鍵信息。比如瀏覽網(wǎng)站所屬類型、常用APP所屬類型或者常去活動(dòng)區(qū)域所屬地區(qū)等等。

請(qǐng)進(jìn)一步參閱圖3,圖3是本發(fā)明實(shí)施例中提供的構(gòu)建用戶畫像的系統(tǒng)中數(shù)據(jù)分析模塊的另一種結(jié)構(gòu)示意圖,如圖所示,數(shù)據(jù)分析模塊可以包括分布單元133以及在線分析單元134,其中:

分布單元133用于將預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)均勻分布到卡夫卡集群。

卡夫卡(Kafka)是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。其主要具有以下特性:1)通過(guò)O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種結(jié)構(gòu)對(duì)于即使數(shù)以TB的消息存儲(chǔ)也能夠保持長(zhǎng)時(shí)間的穩(wěn)定性能;2)高吞吐量:即使是非常普通的硬件環(huán)境搭建kafka集群也可以支持每秒數(shù)十萬(wàn)的消息;3)支持通過(guò)kafka服務(wù)器和消費(fèi)機(jī)集群來(lái)分區(qū)消息;4)支持Hadoop并行數(shù)據(jù)加載。

分布單元133將預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),按照一定的規(guī)則進(jìn)行分區(qū),使得日志數(shù)據(jù)能夠均勻地分布在Kafka集群的各臺(tái)機(jī)器上。通過(guò)將日志數(shù)據(jù)加載到Kafka,目的是讓日志數(shù)據(jù)以一定時(shí)序或者大小形成分布式的消息隊(duì)列。

在線分析單元用于通過(guò)Spark核心流計(jì)算平臺(tái)實(shí)時(shí)從卡夫卡集群拉取數(shù)據(jù)并進(jìn)行實(shí)時(shí)流計(jì)算分析處理,得到用戶的屬性特征。

本發(fā)明中,通過(guò)Spark下的Sparking Streaming進(jìn)行實(shí)時(shí)流計(jì)算,Spark Streaming屬于Spark的核心應(yīng)用程序編程接口(Application Programming Interface,api),是一種流式計(jì)算框架,它支持高吞吐量、支持容錯(cuò)的實(shí)時(shí)流數(shù)據(jù)處理。

日志數(shù)據(jù)實(shí)時(shí)均勻分布到Kafka集群后,通過(guò)Sparking Streaming 實(shí)時(shí)從Kafka拉取數(shù)據(jù)并進(jìn)行實(shí)時(shí)流計(jì)算處理解析,對(duì)格式化的日志數(shù)據(jù)字段進(jìn)行分析得到用戶的屬性特征。

數(shù)據(jù)應(yīng)用模塊14用于基于已建立的多維特征庫(kù)訓(xùn)練的標(biāo)簽分類,根據(jù)用戶的屬性特征在多維特征庫(kù)中進(jìn)行匹配,得到用戶的多維度屬性標(biāo)簽。

數(shù)據(jù)應(yīng)用模塊14主要是基于數(shù)據(jù)分析模塊的分析結(jié)果(用戶上網(wǎng)行為規(guī)律統(tǒng)計(jì)、APP使用規(guī)律、用戶上網(wǎng)內(nèi)容特征詞提取、手機(jī)終端信息)進(jìn)行整合,形成多維的畫像分析特征的多維特征庫(kù)庫(kù),并根據(jù)當(dāng)前提取的用戶屬性特征在多維特征庫(kù)中進(jìn)行匹配,確定用戶的多維度屬性標(biāo)簽。

在本發(fā)明中,多維特征庫(kù)是指多個(gè)不同特征庫(kù)組合在一起的統(tǒng)稱。其中,特征庫(kù)是經(jīng)過(guò)對(duì)大數(shù)據(jù)分析統(tǒng)計(jì),并不斷訓(xùn)練而得到的特征與不同標(biāo)簽分類對(duì)應(yīng)的特征庫(kù)。比如對(duì)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),確定所訪問(wèn)網(wǎng)址中含預(yù)定字段的為旅游網(wǎng)站,將所有含該預(yù)定字段的網(wǎng)站歸并到一起作為特征,而旅游則作為該特征對(duì)應(yīng)的標(biāo)簽。在后續(xù)進(jìn)行匹配時(shí),只要用戶訪問(wèn)的網(wǎng)站屬于包含該預(yù)定字段的網(wǎng)站,即通過(guò)特征庫(kù)的匹配就可以得到用戶的其中一個(gè)多維度屬性標(biāo)簽為旅游。

其中,本發(fā)明實(shí)施例中的多維特征庫(kù)包括但不限于是運(yùn)營(yíng)商基礎(chǔ)信息庫(kù)、終端類型基礎(chǔ)庫(kù)、應(yīng)用程序分類庫(kù)、統(tǒng)一資源定位符(Uniform Resoure Locator,URL)分類庫(kù)、訪問(wèn)網(wǎng)站及行為規(guī)律統(tǒng)計(jì)特征庫(kù)、上網(wǎng)內(nèi)容聚類結(jié)果庫(kù)、用戶群體分類庫(kù)、命名實(shí)體識(shí)別內(nèi)容提取庫(kù)、動(dòng)態(tài)標(biāo)簽分類管理庫(kù)、互聯(lián)網(wǎng)網(wǎng)站特征庫(kù)、歷史用戶興趣關(guān)注點(diǎn)以及終端移動(dòng)軌跡變化庫(kù)等。

其中,本發(fā)明實(shí)施例中,用戶的多維度屬性標(biāo)簽是構(gòu)建用戶畫像的主要要素。本發(fā)明中的多維度屬性標(biāo)簽是指從多個(gè)維度反映用戶特征的屬性標(biāo)簽。其中,本發(fā)明實(shí)施例中多維度屬性標(biāo)簽包括但不限于是用戶的基本屬性標(biāo)簽、社會(huì)屬性標(biāo)簽、上網(wǎng)行為屬性標(biāo)簽、行為習(xí)慣屬性標(biāo)簽以及興趣特征屬性標(biāo)簽等。

更進(jìn)一步地,用戶的基本屬性標(biāo)簽包括但不限于是用戶名、用戶標(biāo)識(shí)、性別、民族、國(guó)籍、年齡區(qū)間段、學(xué)歷、職業(yè)、收入水平、用戶終端、國(guó)際用戶識(shí)別碼、國(guó)際移動(dòng)終端標(biāo)識(shí)碼、所屬運(yùn)營(yíng)商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置、終端品牌類型、終端型號(hào)、終端操作系統(tǒng)以及終端安裝的應(yīng)用程序中的一種或者多種。而社會(huì)屬性標(biāo)簽包括但不限于是行業(yè)、職業(yè)、工作地點(diǎn)、居住地點(diǎn)、銀行卡、會(huì)員卡以及交通工具中的一種或多種。上網(wǎng)行為屬性標(biāo)簽包括但不限于是瀏覽、搜索、下載、購(gòu)買以及評(píng)論等,而行為習(xí)慣屬性標(biāo)簽包括但不限于是日均上網(wǎng)時(shí)間、常登錄網(wǎng)站以及常用應(yīng)用程序等。興趣特征屬性標(biāo)簽包括但不限于是體育、音樂(lè)、社交、資訊、購(gòu)物、休閑、旅游、游戲以及投資理財(cái)?shù)取?/p>

其中,用戶的基本屬性標(biāo)簽是通常體現(xiàn)的是用戶靜態(tài)屬性,是相對(duì)穩(wěn)定的信息,例如性別、年齡等。而社會(huì)屬性、上網(wǎng)行為屬性、行為習(xí)慣屬性、興趣特征屬性所體現(xiàn)的是用戶的動(dòng)態(tài)屬性,是隨時(shí)間不斷變化的屬性。而正是這些不斷變化的動(dòng)態(tài)屬性才可以真正體現(xiàn)用戶群體差異化特征。

在具體實(shí)現(xiàn)時(shí),可以通過(guò)以下方式綜合分析確定用戶的動(dòng)態(tài)屬性:

1)通過(guò)統(tǒng)計(jì)用戶的日均上網(wǎng)時(shí)間、用戶常去登錄上網(wǎng)的網(wǎng)站(類型)、用戶常用應(yīng)用程序APP以及使用常用的APP的時(shí)間,從而對(duì)用戶的行為習(xí)慣特征屬性進(jìn)行分析。

2)從用戶內(nèi)容偏好/碎片化上網(wǎng)時(shí)間偏好/用戶業(yè)務(wù)偏好等方面來(lái)綜合分析用戶的興趣特征屬性。比如根據(jù)用戶上網(wǎng)的不同行為動(dòng)作行為(例如,瀏覽、搜索、下載、購(gòu)買和評(píng)論等)、或者用戶使用的APP類型(例如,包含各種APP應(yīng)用、常去訪問(wèn)的網(wǎng)站類型等)、或者用戶上網(wǎng)產(chǎn)生的內(nèi)容數(shù)據(jù):購(gòu)買商品類型、瀏覽網(wǎng)頁(yè)內(nèi)容、搜索內(nèi)容、下載內(nèi)容的類型等進(jìn)行綜合分析得到用戶的興趣特征屬性。就比如一個(gè)用戶的上網(wǎng)日志數(shù)據(jù)中,其搜索、瀏覽的大都是購(gòu)物網(wǎng)站或者使用的應(yīng)用程序大多是購(gòu)物類應(yīng)用,可以確定購(gòu)物為該用戶的一個(gè)興趣特征屬性,又或者一個(gè)用戶搜索、瀏覽以及評(píng)論的大多是旅游網(wǎng)站或者最常使用的應(yīng)用程序?yàn)槁糜晤悜?yīng)用,那么可以確定旅游為該用戶的一個(gè)興趣特征屬性, 以此類推。

以下以用戶屬性相關(guān)的標(biāo)簽確定作為舉例進(jìn)行說(shuō)明:

基于多維特征庫(kù)訓(xùn)練的標(biāo)簽分類,建立用戶偏好的動(dòng)態(tài)標(biāo)簽管理。具體可以通過(guò)如下方面來(lái)進(jìn)行綜合考慮,根據(jù)不同因子所占權(quán)重分配,制定統(tǒng)一的動(dòng)態(tài)屬性相關(guān)的標(biāo)簽分類標(biāo)準(zhǔn):

比如基于URL分類庫(kù):分析用戶上網(wǎng)行為日志,提取內(nèi)容與URL分類庫(kù)進(jìn)行匹配,輸出用戶訪問(wèn)網(wǎng)頁(yè)的類型,同時(shí)通過(guò)統(tǒng)計(jì)用戶訪問(wèn)內(nèi)容的、訪問(wèn)時(shí)間和頻率等信息,以刻畫出用戶偏好,確定興趣特征屬性標(biāo)簽。

又比如基于應(yīng)用程序分類庫(kù):分析用戶上網(wǎng)行為日志,提取APP類型與應(yīng)用程序分類庫(kù)進(jìn)行匹配,輸出用戶使用APP類型,同時(shí)通過(guò)統(tǒng)計(jì)APP用戶使用時(shí)長(zhǎng)、使用頻率等信息,對(duì)用戶興趣進(jìn)行歸并考慮。

又比如基于歷史用戶興趣關(guān)注點(diǎn)庫(kù):分析用戶上網(wǎng)行為日志,對(duì)其中的動(dòng)作行為(瀏覽/下載/搜索/評(píng)論等)進(jìn)行提取并統(tǒng)計(jì),結(jié)合歷史用戶興趣關(guān)注點(diǎn)庫(kù),實(shí)現(xiàn)對(duì)用戶關(guān)注內(nèi)容的聚類,以刻畫出用戶的上網(wǎng)行為屬性標(biāo)簽。

而基于用戶群體分類庫(kù):分析用戶上網(wǎng)行為日志,根據(jù)用戶的業(yè)務(wù)需求、或者業(yè)務(wù)屬性、或者用戶特征,與用戶群體分類庫(kù)進(jìn)行匹配,確定用戶基本屬性標(biāo)簽。

基于終端移動(dòng)軌跡變化庫(kù):分析用戶上網(wǎng)行為日志,對(duì)用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中導(dǎo)航地圖類應(yīng)用程序進(jìn)行分析,得到用戶移動(dòng)變化的經(jīng)緯度位置信息,將經(jīng)緯度信息與地理信息系統(tǒng)展示結(jié)合,得到用戶的移動(dòng)軌跡,同時(shí)對(duì)用戶位置停留時(shí)間進(jìn)行統(tǒng)計(jì),從而得到每個(gè)用戶常去地區(qū),與終端移動(dòng)軌跡變化庫(kù)進(jìn)行匹配,分析用戶常去地區(qū)活躍度信息,確定用戶的社會(huì)屬性標(biāo)簽。

數(shù)據(jù)業(yè)務(wù)模塊15用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。

標(biāo)簽通常是人為規(guī)定的高度精煉的特征標(biāo)識(shí),如年齡段標(biāo)簽:25~35歲,地域標(biāo)簽:北京,標(biāo)簽呈現(xiàn)出兩個(gè)重要特征:1、語(yǔ)義化,人能很方便地理解每個(gè)標(biāo)簽含義。這也使得用戶畫像模型具備實(shí)際意義。能夠 較好的滿足業(yè)務(wù)需求。如,判斷用戶偏好。2、短文本,每個(gè)標(biāo)簽通常只表示一種含義,標(biāo)簽本身無(wú)需再做過(guò)多文本分析等預(yù)處理工作,這為利用機(jī)器提取標(biāo)準(zhǔn)化信息提供了便利。所以從這個(gè)意義上理解,用戶畫像即是用戶標(biāo)簽的總和。

通過(guò)以上多個(gè)多維特征庫(kù)匹配得到的多維度標(biāo)簽,數(shù)據(jù)業(yè)務(wù)模塊15將用戶的所有多維度標(biāo)簽進(jìn)行關(guān)聯(lián)融合,為用戶打上多維度標(biāo)簽,或者對(duì)已經(jīng)打上的多維度標(biāo)簽進(jìn)行更新和補(bǔ)充,以完成用戶畫像的構(gòu)建。

在實(shí)際應(yīng)用過(guò)程中,數(shù)據(jù)采集模塊11采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)是實(shí)時(shí)的,從而通過(guò)實(shí)時(shí)獲取的用戶上網(wǎng)日志數(shù)據(jù),進(jìn)行分析處理得到最新的用戶多維度標(biāo)簽,以對(duì)用戶畫像上已有多維度標(biāo)簽進(jìn)行更新或補(bǔ)充,從而刻畫出最新的含有時(shí)空特性的全息多維用戶畫像。

另外,數(shù)據(jù)應(yīng)用模塊14還用于在已建立的多維特征庫(kù)中找不到與用戶的屬性特殊匹配的多維度屬性標(biāo)簽時(shí),將用戶的屬性特征以及對(duì)應(yīng)的多維度屬性標(biāo)簽添加到多維度特征庫(kù)中。通過(guò)這樣的方式,以不斷更新和完善多維特征庫(kù)。

其中,在本發(fā)明實(shí)施例中,多維特征庫(kù)是實(shí)現(xiàn)本發(fā)明方法的基礎(chǔ)和關(guān)鍵,因此,本發(fā)明實(shí)施例的系統(tǒng),通過(guò)數(shù)據(jù)分析模塊13構(gòu)建多維特征庫(kù),數(shù)據(jù)分析模塊13通過(guò)以下方式構(gòu)建多維特征庫(kù)。

通過(guò)外圍系統(tǒng)或呼叫詳細(xì)記錄話單日志數(shù)據(jù)的接入,對(duì)國(guó)際用戶識(shí)別碼、所屬運(yùn)營(yíng)商、網(wǎng)絡(luò)類型、歸屬地、漫游地、位置中的一種或多種基礎(chǔ)信息進(jìn)行提取分析,累積得到運(yùn)營(yíng)商基礎(chǔ)信息庫(kù)。運(yùn)營(yíng)商基礎(chǔ)信息庫(kù)包括運(yùn)營(yíng)商標(biāo)識(shí)以及對(duì)應(yīng)的運(yùn)營(yíng)商信息特征?;?/p>

或通過(guò)獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對(duì)所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中的移動(dòng)終端國(guó)際身份碼、終端型號(hào)、品牌類型、終端操作系統(tǒng)中的至少一種相關(guān)信息進(jìn)行提取分析,累積得到終端類型基礎(chǔ)庫(kù)。由于目前移動(dòng)互聯(lián)網(wǎng)中應(yīng)用種類較多,各個(gè)協(xié)議的運(yùn)行中對(duì)用戶代理(User-Agent)字段填寫的不規(guī)范,因此在實(shí)際提取過(guò)程中,需要對(duì)有分歧的特征字段信息進(jìn)行統(tǒng)一和校驗(yàn)(例如,終端型號(hào)部分填的是iphone,而也有填的是IOS;有些只是填的GT900,需要從外網(wǎng)收集收 集型號(hào)和品牌的對(duì)應(yīng)的標(biāo)記信息)。

或通過(guò)獲取所有用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),過(guò)濾掉無(wú)效URL,針對(duì)有效的URL建立有效URL所屬網(wǎng)站的分類庫(kù)。針對(duì)用戶的上網(wǎng)日志數(shù)據(jù),過(guò)濾掉廣告、功能頁(yè)面、導(dǎo)航頁(yè)面、錯(cuò)誤頁(yè)面等無(wú)效URL后,對(duì)剩余的有效URL所屬網(wǎng)站的URL分類庫(kù)。

或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),從所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中提取APP類型,通過(guò)人工和自動(dòng)相結(jié)合的方式定期對(duì)APP類型進(jìn)行分類、統(tǒng)計(jì),以形成應(yīng)用程序分類庫(kù)。由于APP應(yīng)用種類比較豐富,功能比較突出,用戶使用和依賴性較強(qiáng),因此利用已識(shí)別的APP應(yīng)用庫(kù),參照APP Store下載和安卓市場(chǎng)的第三方下載的APP分類建議,通過(guò)人工和自動(dòng)相結(jié)合的方式定期對(duì)APP應(yīng)用統(tǒng)一分類,以形成APP分類庫(kù)。

或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對(duì)每個(gè)用戶的上網(wǎng)情況,對(duì)用戶的常去訪問(wèn)網(wǎng)站以及行為進(jìn)行累積統(tǒng)計(jì),形成訪問(wèn)網(wǎng)站和行為規(guī)律統(tǒng)計(jì)特征庫(kù)。

或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),針對(duì)每個(gè)用戶的上網(wǎng)產(chǎn)生的日志情況,對(duì)每個(gè)用戶常在日志中產(chǎn)生的用戶內(nèi)容形成基于用戶內(nèi)容的特征聚類,產(chǎn)生上網(wǎng)內(nèi)容聚類結(jié)果庫(kù)。針對(duì)每個(gè)用戶的上網(wǎng)產(chǎn)生的日志情況,對(duì)該用戶常在日志中產(chǎn)生的用戶內(nèi)容(瀏覽新聞或帖子,發(fā)表或評(píng)論內(nèi)容,購(gòu)買內(nèi)容等),形成基于用戶內(nèi)容的特征聚類,產(chǎn)生用戶上網(wǎng)內(nèi)容聚類結(jié)果特征庫(kù)。

或通過(guò)獲取所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對(duì)具有相同特征標(biāo)簽或相同屬性或相同業(yè)務(wù)特征的用戶進(jìn)行特征合并,對(duì)用戶群體進(jìn)行分類,因此形成用戶群體分類庫(kù)??梢愿鶕?jù)實(shí)際的業(yè)務(wù)需求定義聚類指標(biāo)參數(shù),對(duì)累積的所有用戶進(jìn)行細(xì)分分群并歸并從而得到用戶群體分類庫(kù)。

或通過(guò)結(jié)合離線存儲(chǔ)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),對(duì)所有用戶的上網(wǎng)行為進(jìn)行分析,對(duì)產(chǎn)生的行為進(jìn)行統(tǒng)計(jì),進(jìn)而對(duì)用戶關(guān)注內(nèi)容進(jìn)行聚類分析以形成歷史用戶興趣關(guān)注點(diǎn)庫(kù)。結(jié)合歷史上網(wǎng)行為分析,對(duì) 產(chǎn)生的動(dòng)作行為(瀏覽/下載/搜索/評(píng)論等)進(jìn)行統(tǒng)計(jì),進(jìn)而對(duì)用戶關(guān)注內(nèi)容利用傳統(tǒng)聚類分析實(shí)現(xiàn)歷史用戶興趣關(guān)注點(diǎn)庫(kù)的建立。

或通過(guò)對(duì)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)中導(dǎo)航地圖類應(yīng)用程序進(jìn)行分析,得到用戶移動(dòng)變化的經(jīng)緯度位置信息,將經(jīng)緯度信息與地理信息系統(tǒng)(Geographic Information System,GIS)展示結(jié)合,得到用戶的移動(dòng)軌跡,同時(shí)對(duì)用戶位置停留時(shí)間進(jìn)行統(tǒng)計(jì),從而得到每個(gè)用戶常去地區(qū),對(duì)所有用戶常去地區(qū)進(jìn)行匯總從而形成終端移動(dòng)軌跡變化庫(kù)。通過(guò)對(duì)上網(wǎng)日志中導(dǎo)航地圖類APP分析,可以得到手機(jī)用戶移動(dòng)變化的經(jīng)緯度位置信息。因此,一方面,將此信息和GIS展示結(jié)合,可以將手機(jī)用戶的移動(dòng)軌跡完整實(shí)時(shí)呈現(xiàn);另一方面,可以在不同時(shí)間段對(duì)手機(jī)用戶位置停留時(shí)間進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)時(shí)長(zhǎng)可以對(duì)手機(jī)用戶常去活動(dòng)地進(jìn)行活躍度分析,即可得到手機(jī)用戶的常去地區(qū)分布,以形成終端移動(dòng)軌跡變化庫(kù)。

或根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),通過(guò)主流的命名實(shí)體識(shí)別算法及訓(xùn)練樣本集,對(duì)上網(wǎng)內(nèi)容中具有特定意義的實(shí)體進(jìn)行提取,建立命名實(shí)體識(shí)別內(nèi)容提取庫(kù)。通過(guò)對(duì)所有用戶的互聯(lián)網(wǎng)主流的命名實(shí)體識(shí)別算法及訓(xùn)練樣本集,對(duì)上網(wǎng)內(nèi)容中具有特定意義的實(shí)體,比如主要包括人名、地名、機(jī)構(gòu)名、專有名詞等進(jìn)行提取,建立針對(duì)特定手機(jī)用戶的屬性特征庫(kù),以豐富多維屬性標(biāo)簽。

或預(yù)先根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類標(biāo)準(zhǔn),根據(jù)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志,對(duì)所有用戶的互聯(lián)網(wǎng)上網(wǎng)日志中的互聯(lián)網(wǎng)網(wǎng)站進(jìn)行特征收集,構(gòu)建互聯(lián)網(wǎng)網(wǎng)站特征庫(kù)。即是預(yù)先根據(jù)互聯(lián)網(wǎng)網(wǎng)站的分類標(biāo)準(zhǔn),對(duì)用戶的日志數(shù)據(jù)中互聯(lián)網(wǎng)的網(wǎng)站進(jìn)行特征收集(網(wǎng)站對(duì)應(yīng)的URL,名稱,建立時(shí)間,所屬網(wǎng)站分類等),構(gòu)建對(duì)應(yīng)的網(wǎng)站特征庫(kù)。

或基于每個(gè)特征庫(kù)訓(xùn)練的標(biāo)簽分類,將所有特征庫(kù)訓(xùn)練的標(biāo)簽分類進(jìn)行匯總歸并,建立用戶偏好的所述動(dòng)態(tài)標(biāo)簽分類管理庫(kù)。其中,在具體應(yīng)用過(guò)程中,可以綜合從多方面考慮,并根據(jù)每個(gè)特征庫(kù)訓(xùn)練的標(biāo)簽分類所占的權(quán)重,制定統(tǒng)一的標(biāo)簽分類標(biāo)準(zhǔn),結(jié)合預(yù)先定義的體育/音樂(lè)/社交/資訊/購(gòu)物/休閑/旅游/游戲/投資(理財(cái))等進(jìn)行各類別累積特征實(shí) 現(xiàn)。

以上本發(fā)明實(shí)施例的構(gòu)建用戶畫像的系統(tǒng),可以用于構(gòu)建手機(jī)用戶畫像,也可以是用于構(gòu)建其他終端用戶畫像。其中,比如當(dāng)本發(fā)明實(shí)施例的構(gòu)建用戶畫像的系統(tǒng)用于構(gòu)建手機(jī)用戶畫像時(shí),結(jié)合手機(jī)終端基本信息庫(kù)和手機(jī)用戶基本信息庫(kù),通過(guò)手機(jī)號(hào)將手機(jī)用戶所有屬性標(biāo)簽字段關(guān)聯(lián)起來(lái),從而構(gòu)建一個(gè)完整的含時(shí)空特性的全景用戶畫像,使得每個(gè)手機(jī)用戶都有完整的用戶畫像信息。當(dāng)然,如果是用于其他終端用戶構(gòu)建畫像時(shí),也可以通過(guò)其他標(biāo)識(shí)比如終端設(shè)備ID、用戶ID等關(guān)聯(lián)用戶的屬性標(biāo)簽,從而將用戶的所有屬性標(biāo)簽關(guān)聯(lián)起來(lái)以構(gòu)成用戶畫像。

以上是本發(fā)明實(shí)施例提供的構(gòu)建用戶畫像的系統(tǒng)的詳細(xì)說(shuō)明,可以理解,本發(fā)明提供的構(gòu)建用戶畫像的系統(tǒng),該構(gòu)建用戶畫像的系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)應(yīng)用模塊以及數(shù)據(jù)業(yè)務(wù)模塊,其中:數(shù)據(jù)采集模塊用于采集用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù),數(shù)據(jù)預(yù)處理模塊用于對(duì)用戶互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)分析模塊用于對(duì)預(yù)處理后的互聯(lián)網(wǎng)上網(wǎng)日志數(shù)據(jù)進(jìn)行特征提取,得到用戶的屬性特征,數(shù)據(jù)應(yīng)用模塊用于基于已建立的多維特征庫(kù)訓(xùn)練的標(biāo)簽分類,根據(jù)用戶的屬性特征在多維特征庫(kù)中進(jìn)行匹配,得到用戶的多維度屬性標(biāo)簽,數(shù)據(jù)業(yè)務(wù)模塊用于根據(jù)所述多維度屬性標(biāo)簽構(gòu)建所述用戶畫像。通過(guò)這樣的方式,基于大數(shù)據(jù)分析平臺(tái),對(duì)移動(dòng)互聯(lián)網(wǎng)海量上網(wǎng)日志數(shù)據(jù)進(jìn)行挖掘分析,通過(guò)對(duì)用戶上網(wǎng)的行為特征進(jìn)行累積,對(duì)用戶興趣偏好標(biāo)簽標(biāo)定,進(jìn)而對(duì)用戶畫像進(jìn)行全景刻畫,以克服現(xiàn)有基于用戶上網(wǎng)行為分析不全面、不準(zhǔn)確等問(wèn)題。本發(fā)明的構(gòu)建用戶畫像的系統(tǒng)能夠構(gòu)建出全息的多維度用戶畫像,從而為運(yùn)營(yíng)商/企業(yè)/公司快速精準(zhǔn)廣告投放和用戶群體的消費(fèi)行為的推薦,累積用戶興趣偏好特征,掌握移動(dòng)互聯(lián)網(wǎng)發(fā)展態(tài)勢(shì)提供技術(shù)手段支撐。

在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者 可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。

所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。

所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說(shuō)明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
昌吉市| 彭州市| 安徽省| 江都市| 建昌县| 建始县| 于田县| 洪洞县| 九龙坡区| 思南县| 忻州市| 土默特右旗| 宕昌县| 河曲县| 大理市| 大关县| 吉隆县| 五河县| 景谷| 四川省| 商南县| 龙泉市| 吉隆县| 佛坪县| 西乌珠穆沁旗| 商水县| 共和县| 南皮县| 鞍山市| 栾城县| 台州市| 余姚市| 沾益县| 阳谷县| 大兴区| 介休市| 神农架林区| 会同县| 西乌| 神木县| 缙云县|