本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù),特別涉及一種基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法。
背景技術(shù):
:
隨著廣電網(wǎng)絡(luò)公司后平移時(shí)代的到來(lái),數(shù)字電視業(yè)務(wù)發(fā)展日益成熟,付費(fèi)頻道、時(shí)移回看、VOD點(diǎn)播、其他增值業(yè)務(wù)(股票、電視商城、游戲等)等多種雙向互動(dòng)新業(yè)務(wù)在不斷的充實(shí)廣電網(wǎng)絡(luò)運(yùn)營(yíng)商的業(yè)務(wù)服務(wù)內(nèi)容,廣電網(wǎng)絡(luò)運(yùn)營(yíng)商的發(fā)展重點(diǎn)逐漸從數(shù)字平臺(tái)搭建、雙向網(wǎng)絡(luò)改造轉(zhuǎn)向了更加多元化的業(yè)務(wù)經(jīng)營(yíng)和盈利模式。
與此同時(shí),內(nèi)容信息量也出現(xiàn)爆發(fā)式增長(zhǎng),面對(duì)紛繁蕪雜的各類節(jié)目信息,如何讓用戶從大量的節(jié)目信息中便捷的獲取想要的直播節(jié)目?jī)?nèi)容,成為了運(yùn)營(yíng)商丞待解決的問題。
另一方面,現(xiàn)有的直播推薦技術(shù),主要是通過(guò)建設(shè)媒資庫(kù),將需要推薦的節(jié)目信息導(dǎo)入到媒資庫(kù),由后臺(tái)編輯人員依據(jù)營(yíng)銷事件或時(shí)間點(diǎn)等進(jìn)行人工推薦,將節(jié)目信息推薦到機(jī)頂盒終端的推薦位上,供用戶使用。
這種方式,由于采用千篇一律的推薦方式,每個(gè)用戶看到的推薦內(nèi)容都是一樣的,并不能滿足用戶的個(gè)性化潛在需求,往往造成用戶對(duì)推薦的內(nèi)容不感興趣,不信任,造成業(yè)務(wù)使用率無(wú)法提高,并且維護(hù)媒資庫(kù)需要大量的人力支撐,造成廣電網(wǎng)絡(luò)運(yùn)營(yíng)商運(yùn)營(yíng)成本增加。
技術(shù)實(shí)現(xiàn)要素:
:
有鑒于此,本發(fā)明提供了一種基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法。該方法主要解決的是面對(duì)越來(lái)越靈活的雙向新媒體業(yè)務(wù),面對(duì)百萬(wàn)級(jí),甚至千萬(wàn)級(jí)用戶的海量行為數(shù)據(jù),將采集到的用戶行為數(shù)據(jù)進(jìn)行HDFS分布式存儲(chǔ),經(jīng)過(guò)ETL模塊對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載之后,由符合傳媒行業(yè)特點(diǎn)的優(yōu)化組合推薦算法模塊、策略處理模塊,將海量的用戶行為數(shù)據(jù)進(jìn)行高效的數(shù)據(jù)預(yù)處理,形成線下推薦結(jié)果和線上推薦結(jié)果,并最終形成一系列的內(nèi)容-特征推薦結(jié)果數(shù)據(jù),再通過(guò)不同的WEB應(yīng)用程序調(diào)用相關(guān)的內(nèi)容-特征推薦數(shù)據(jù)集,以實(shí)現(xiàn)對(duì)用戶“千人千面”的偏好洞察,為運(yùn)營(yíng)商提供個(gè)性化、自動(dòng)化的直播推薦。
本發(fā)明的具體技術(shù)方案如下:
基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法,包括以下步驟:
(1)設(shè)置終端數(shù)據(jù)采集模塊、HDFS分布式存儲(chǔ)模塊、ETL模塊、推薦模塊、WEB應(yīng)用模塊;
(2)終端數(shù)據(jù)采集模塊用于采集用戶在多媒體信息播放終端的收視行為數(shù)據(jù),并將所采集的數(shù)據(jù)轉(zhuǎn)發(fā)給HDFS分布式存儲(chǔ)模塊負(fù)責(zé)存儲(chǔ);
(3)HDFS分布式存儲(chǔ)模塊除了負(fù)責(zé)存儲(chǔ)用戶收視行為數(shù)據(jù),還負(fù)責(zé)存儲(chǔ)其他第三方系統(tǒng)異構(gòu)數(shù)據(jù);
(4)ETL模塊負(fù)責(zé)從HDFS分布式存儲(chǔ)模塊對(duì)所存儲(chǔ)的用戶收視行為數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載,并為推薦模塊提供基礎(chǔ)元素?cái)?shù)據(jù);
(5)推薦模塊包括策略處理模塊、算法處理模塊、線下推薦結(jié)果、線上推薦結(jié)果、內(nèi)容-特征推薦結(jié)果數(shù)據(jù);
(6)WEB應(yīng)用模塊為終端內(nèi)嵌的web應(yīng)用程序,用于推薦請(qǐng)求和推薦內(nèi)容的展示。
上述方案中,所述多媒體信息播放終端包括DVB STB(數(shù)字電視機(jī)頂盒)、OTT(互聯(lián)網(wǎng)機(jī)頂盒)、智能電視、手機(jī)、平板電腦。
上述方案中,所述其他第三方系統(tǒng)異構(gòu)數(shù)據(jù)為PV、UV這些頁(yè)面瀏覽數(shù)據(jù)。
上述方案中,所述推薦模塊中的策略處理模塊用于為算法處理模塊提供基礎(chǔ)數(shù)據(jù),由用戶標(biāo)簽、內(nèi)容標(biāo)簽、用戶畫像三部分組成;內(nèi)容標(biāo)簽定義了用戶所收看節(jié)目的節(jié)目類型、所屬地區(qū)、節(jié)目狀態(tài)、情感類型等屬性;用戶標(biāo)簽定義了用戶的個(gè)人屬性、社會(huì)屬性、消費(fèi)行為屬性、愛好偏向?qū)傩?、收視行為屬性等;用戶畫像通過(guò)內(nèi)容標(biāo)簽和用戶標(biāo)簽的數(shù)據(jù)整合,標(biāo)記了用戶的標(biāo)簽?zāi)P鸵晥D,由此勾勒用戶的整體輪廓和興趣偏好。
上述方案中,所述推薦模塊中的算法處理模塊所采用的推薦算法主要使用協(xié)同過(guò)濾(item_base,user_base)、用戶相似度計(jì)算、節(jié)目相似度計(jì)算、聚類算法、關(guān)聯(lián)規(guī)則、統(tǒng)計(jì)等,在自然語(yǔ)言處理上,使用分詞、索引、關(guān)鍵詞和輿情相關(guān)的算法、基于時(shí)間序列的預(yù)測(cè),GBDT+LR的排序算法框架等,實(shí)現(xiàn)基于用戶畫像的個(gè)性化推薦。
上述方案中,所述推薦模塊中的線下推薦結(jié)果是將用戶特征屬性、內(nèi)容特征屬性和業(yè)務(wù)規(guī)則相結(jié)合,融合推薦算法形成的線下推薦結(jié)果集。
上述方案中,所述推薦模塊中的線上推薦結(jié)果是基于用戶實(shí)時(shí)的收視行為數(shù)據(jù)和頁(yè)面瀏覽行為數(shù)據(jù),結(jié)合用戶應(yīng)用場(chǎng)景、條件規(guī)則,形成的實(shí)時(shí)線上推薦結(jié)果集。
上述方案中,所述推薦模塊中的內(nèi)容-特征推薦結(jié)果數(shù)據(jù)是融合線下推薦結(jié)果和線上推薦結(jié)果,經(jīng)過(guò)預(yù)處理、去重、過(guò)濾、排名等步驟后形成的最終推薦結(jié)果集。
通過(guò)上述本發(fā)明所述方法可使廣電網(wǎng)絡(luò)運(yùn)營(yíng)商利用現(xiàn)有的雙向網(wǎng)絡(luò)通道獲取到的海量用戶行為數(shù)據(jù),快速有效的得到真實(shí)的、準(zhǔn)確的用戶收視偏好、用戶畫像,實(shí)時(shí)地為運(yùn)營(yíng)商提供運(yùn)營(yíng)決策依據(jù),有效的提高用戶業(yè)務(wù)使用率。同時(shí)在資源利用率上,較現(xiàn)有的海量數(shù)據(jù)分析技術(shù)可節(jié)省大量的硬件設(shè)備資源及人員成本。
附圖說(shuō)明:
以下結(jié)合附圖和具體實(shí)施方式來(lái)進(jìn)一步說(shuō)明本發(fā)明。
圖1為本發(fā)明所述基于海量用戶行為數(shù)據(jù)的直播推薦方法的步驟框圖。
具體實(shí)施方式:
為了使本發(fā)明實(shí)現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié)合具體圖示,進(jìn)一步闡述本發(fā)明。
如圖1所示,本發(fā)明所述的基于海量跨屏收視行為數(shù)據(jù)的直播推薦方法,首先是設(shè)置終端數(shù)據(jù)采集模塊、HDFS分布式存儲(chǔ)模塊、ETL模塊、推薦模塊、WEB應(yīng)用模塊;其次,終端數(shù)據(jù)采集模塊用于采集用戶在多媒體信息播放終端(包括DVB STB(數(shù)字電視機(jī)頂盒)、OTT(互聯(lián)網(wǎng)機(jī)頂盒)、智能電視、手機(jī)、平板電腦等)的收視行為數(shù)據(jù),并將所采集的數(shù)據(jù)轉(zhuǎn)發(fā)給HDFS分布式存儲(chǔ)模塊負(fù)責(zé)存儲(chǔ);HDFS分布式存儲(chǔ)模塊除了負(fù)責(zé)存儲(chǔ)用戶收視行為數(shù)據(jù),還負(fù)責(zé)存儲(chǔ)其他第三方系統(tǒng)異構(gòu)數(shù)據(jù)(PV、UV這些頁(yè)面瀏覽數(shù)據(jù));ETL模塊負(fù)責(zé)從HDFS分布式存儲(chǔ)模塊對(duì)所存儲(chǔ)的用戶收視行為數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換和加載,并為推薦模塊提供基礎(chǔ)元素?cái)?shù)據(jù);推薦模塊包括策略處理模塊、算法處理模塊、線下推薦結(jié)果、線上推薦結(jié)果、內(nèi)容-特征推薦結(jié)果數(shù)據(jù);WEB應(yīng)用模塊為終端內(nèi)嵌的web應(yīng)用程序,用于推薦請(qǐng)求和推薦內(nèi)容的展示。
需要指出的是推薦模塊中的策略處理模塊用于為算法處理模塊提供基礎(chǔ)數(shù)據(jù),由用戶標(biāo)簽、內(nèi)容標(biāo)簽、用戶畫像三部分組成;內(nèi)容標(biāo)簽定義了用戶所收看節(jié)目的節(jié)目類型、所屬地區(qū)、節(jié)目狀態(tài)、情感類型等屬性;用戶標(biāo)簽定義了用戶的個(gè)人屬性、社會(huì)屬性、消費(fèi)行為屬性、愛好偏向?qū)傩浴⑹找曅袨閷傩缘?;用戶畫像通過(guò)內(nèi)容標(biāo)簽和用戶標(biāo)簽的數(shù)據(jù)整合,標(biāo)記了用戶的標(biāo)簽?zāi)P鸵晥D,由此勾勒用戶的整體輪廓和興趣偏好。
推薦模塊中的算法處理模塊所采用的推薦算法主要使用協(xié)同過(guò)濾(item_base,user_base)、用戶相似度計(jì)算、節(jié)目相似度計(jì)算、聚類算法、關(guān)聯(lián)規(guī)則、統(tǒng)計(jì)等,在自然語(yǔ)言處理上,使用分詞、索引、關(guān)鍵詞和輿情相關(guān)的算法、基于時(shí)間序列的預(yù)測(cè),GBDT+LR的排序算法框架等,實(shí)現(xiàn)基于用戶畫像的個(gè)性化推薦。
推薦模塊中的線下推薦結(jié)果是將用戶特征屬性、內(nèi)容特征屬性和業(yè)務(wù)規(guī)則相結(jié)合,融合推薦算法形成的線下推薦結(jié)果集。
推薦模塊中的線上推薦結(jié)果是基于用戶實(shí)時(shí)的收視行為數(shù)據(jù)和頁(yè)面瀏覽行為數(shù)據(jù),結(jié)合用戶應(yīng)用場(chǎng)景、條件規(guī)則,形成的實(shí)時(shí)線上推薦結(jié)果集。
推薦模塊中的內(nèi)容-特征推薦結(jié)果數(shù)據(jù)是融合線下推薦結(jié)果和線上推薦結(jié)果,經(jīng)過(guò)預(yù)處理、去重、過(guò)濾、排名等步驟后形成的最終推薦結(jié)果集。
由于上述方法中采用了優(yōu)化組合的算法包及數(shù)據(jù)模型進(jìn)行海量的數(shù)據(jù)預(yù)處理操作,每次的用戶的推薦請(qǐng)求,只需要從經(jīng)過(guò)數(shù)據(jù)預(yù)處理的內(nèi)容-特征推薦結(jié)果數(shù)據(jù)中提取相關(guān)數(shù)據(jù)參與實(shí)時(shí)運(yùn)算,不需要從完整的原始海量行為數(shù)據(jù)中進(jìn)行查詢和運(yùn)算,分析運(yùn)算效率由現(xiàn)有技術(shù)所需的幾個(gè)小時(shí),十幾個(gè)小時(shí)的漫長(zhǎng)等待時(shí)間,提升為秒級(jí),甚至毫秒級(jí)的實(shí)時(shí)響應(yīng),大大提高了推薦運(yùn)算效率,同時(shí)整個(gè)推薦運(yùn)算過(guò)程完全采用機(jī)器自學(xué)習(xí)算法,只需要普通的PC服務(wù)器資源即可完成,大大節(jié)省了人力資源投入和硬件服務(wù)器資源的投入。
以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說(shuō)明書中描述的只是說(shuō)明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會(huì)有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。