一種基于大數(shù)據(jù)的用戶行為分析方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種基于大數(shù)據(jù)的用戶行為分析方法及系統(tǒng),本發(fā)明通過(guò)客戶端實(shí)時(shí)采集用戶行為數(shù)據(jù),將用戶行為和頁(yè)面URL的上下文信息相結(jié)合,最大限度地重現(xiàn)用戶瀏覽Web頁(yè)面的真實(shí)場(chǎng)景,提取全面的用戶行為軌跡,為分析用戶行為提供有效的數(shù)據(jù)保障;并通過(guò)安全分析模塊為用戶行為數(shù)據(jù)提供安全保障,還利用用戶行為數(shù)據(jù)本體模型對(duì)用戶行為建模,實(shí)現(xiàn)行為信息語(yǔ)義級(jí)的共享和重用,提高了模型互操作性和可靠性;實(shí)時(shí)采集用戶行為及上下文數(shù)據(jù)進(jìn)行分析,使結(jié)果更可靠;以列存儲(chǔ)數(shù)據(jù)庫(kù)對(duì)本體和行為信息進(jìn)行存儲(chǔ),為海量數(shù)據(jù)管理奠定基礎(chǔ);將云計(jì)算技術(shù)的強(qiáng)大處理能力和大規(guī)模數(shù)據(jù)存儲(chǔ)能力、本體及其推理、知識(shí)發(fā)現(xiàn)方法相結(jié)合,實(shí)時(shí)分析海量用戶行為數(shù)據(jù),及時(shí)獲取用戶興趣,從而實(shí)現(xiàn)有效與精準(zhǔn)的用戶推送。
【專利說(shuō)明】一種基于大數(shù)據(jù)的用戶行為分析方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,具體是一種基于大數(shù)據(jù)的用戶行為分析方法及系統(tǒng)。
【背景技術(shù)】
[0002]用戶行為分析是分析用戶在使用網(wǎng)絡(luò)資源時(shí)表現(xiàn)出來(lái)的規(guī)律、個(gè)性化的習(xí)慣,其目的在于監(jiān)視、預(yù)測(cè)、甚至控制用戶行為,而用戶興趣是用戶的個(gè)性化特點(diǎn)針對(duì)網(wǎng)絡(luò)資源的具體表現(xiàn)。在互聯(lián)網(wǎng)飛速發(fā)展的今天,對(duì)用戶行為進(jìn)行分析,提取用戶興趣,了解其特點(diǎn),一方面可以進(jìn)行用戶個(gè)性化定制與推送,為網(wǎng)站訪問(wèn)者提供更加主動(dòng)的、智能化的服務(wù);另一方面,從用戶行為的不同表現(xiàn),發(fā)現(xiàn)其興趣和偏好,可以優(yōu)化頁(yè)面之間組織關(guān)系,完善網(wǎng)站系統(tǒng)架構(gòu),從而減輕用戶尋找信息的負(fù)擔(dān),使其操作更加簡(jiǎn)單,節(jié)約時(shí)間和精力。
[0003]對(duì)于用戶行為的分析,國(guó)內(nèi)外做過(guò)很多研究,但存在一些問(wèn)題:首先,大多集中于挖掘WEB日志,但這些日志并不足以及時(shí)描述用戶訪問(wèn)網(wǎng)站時(shí)的情景;其次,大型網(wǎng)站一般擁有龐大的在線用戶,產(chǎn)生的實(shí)時(shí)行為和上下文信息量巨大,因此,系統(tǒng)的存儲(chǔ)能力和計(jì)算速度更強(qiáng),才能及時(shí)地將分析結(jié)果反饋給用戶。而目前,大多數(shù)用戶行為分析系統(tǒng)采用關(guān)系數(shù)據(jù)庫(kù)技術(shù)與傳統(tǒng)的數(shù)據(jù)處理方法,不能很好滿足海量數(shù)據(jù)的高效分析。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種基于大數(shù)據(jù)的用戶行為分析方法及系統(tǒng),以解決上述【背景技術(shù)】中提出的問(wèn)題。本發(fā)明綜合利用云計(jì)算、本體推理以及知識(shí)發(fā)現(xiàn)方法等技術(shù),對(duì)實(shí)時(shí)采集的海量用戶實(shí)時(shí)行為數(shù)據(jù),在滿足安全的前提下,實(shí)現(xiàn)了有效與精準(zhǔn)的推送。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于大數(shù)據(jù)的用戶行為分析方法,包括如下步驟:
51、客戶端實(shí)時(shí)采集用戶行為數(shù)據(jù),然后通過(guò)客戶端上傳到服務(wù)器保存;
52、安全分析模塊根據(jù)數(shù)據(jù)庫(kù)中保存的惡意行為判別策略,對(duì)服務(wù)器保存的用戶行為數(shù)據(jù)進(jìn)行分析,若確定為惡意行為,并根據(jù)判別策略對(duì)應(yīng)的惡意等級(jí)確定打擊策略,將所確定的打擊策略同分析結(jié)果一起反饋給服務(wù)器,服務(wù)器根據(jù)打擊策略對(duì)相應(yīng)用戶進(jìn)行管控處理;若確定為安全行為,則進(jìn)行S3 ;
53、對(duì)用戶行為數(shù)據(jù)采用并行運(yùn)算模型進(jìn)行預(yù)處理與聚合;
54、根據(jù)聚合后的用戶行為數(shù)據(jù),建立用戶行為數(shù)據(jù)本體模型,并存儲(chǔ)在數(shù)據(jù)庫(kù)中;
55、對(duì)用戶行為數(shù)據(jù)本體模型進(jìn)行推理,找出用戶最新興趣數(shù)據(jù);
56、提取S4中聚合后的用戶行為數(shù)據(jù)中每個(gè)用戶每一次會(huì)話內(nèi)瀏覽的網(wǎng)頁(yè)URL鏈接,采用基于用戶行為上下文的軌跡重現(xiàn)算法進(jìn)行軌跡補(bǔ)全,將補(bǔ)全后的結(jié)果存放到所述數(shù)據(jù)庫(kù)相應(yīng)表中;
57、依據(jù)S6中補(bǔ)全后的結(jié)果建立轉(zhuǎn)移矩陣,并將該轉(zhuǎn)移矩陣存放到所述數(shù)據(jù)庫(kù)相應(yīng)表中;依據(jù)S5中所述用戶最新興趣數(shù)據(jù),利用余弦因子法計(jì)算出每個(gè)用戶間的興趣相似度,構(gòu)成興趣相似度矩陣;結(jié)合所述轉(zhuǎn)移矩陣建立基于協(xié)同過(guò)濾的推薦模型; 58、針對(duì)實(shí)時(shí)捕捉到的用戶輸入頁(yè)面URL,通過(guò)基于協(xié)同過(guò)濾的推薦模型推薦下一步URL 集;
59、將客戶端繼續(xù)采集的用戶下一步的用戶行為數(shù)據(jù)與S8中推薦的下一步URL集進(jìn)行比較,得到比較結(jié)果;
S10、根據(jù)所述比較結(jié)果實(shí)時(shí)評(píng)估該用戶行為分析方法。
[0006]作為本發(fā)明進(jìn)一步的方案:步驟SI中所述用戶行為數(shù)據(jù)包括用戶行為主體、發(fā)生時(shí)間、發(fā)生的頁(yè)面、上下滾動(dòng)頁(yè)面、移動(dòng)或點(diǎn)擊鼠標(biāo)、頁(yè)面停留時(shí)間、收藏、打印、保存、訪問(wèn)同一頁(yè)面次數(shù)、復(fù)制粘貼文字操作、當(dāng)前用戶的搜索條件、搜索關(guān)鍵字對(duì)應(yīng)的標(biāo)題。
[0007]作為本發(fā)明進(jìn)一步的方案:步驟S2中所述安全分析模塊包括:第一分析模塊和第二分析模塊;第一分析模塊包括轉(zhuǎn)發(fā)子模塊和分析子模塊;轉(zhuǎn)發(fā)子模塊用于接收用戶行為數(shù)據(jù)并同時(shí)轉(zhuǎn)發(fā)一份給第二分析模塊;分析子模塊用于進(jìn)行用戶行為分析;第二分析模塊,用于進(jìn)行IP地址和消息的聚合分析,其中IP地址和消息均為用戶行為數(shù)據(jù)中所包含的內(nèi)容。
[0008]作為本發(fā)明進(jìn)一步的方案:在步驟S3中,所述預(yù)處理包括:去除不完整數(shù)據(jù),刪除重復(fù)數(shù)據(jù)、圖片、頁(yè)面動(dòng)畫;對(duì)頁(yè)面進(jìn)行的打印、收藏、保存、下載操作,在獲取后,將其轉(zhuǎn)換為對(duì)應(yīng)的數(shù)據(jù)格式保存在數(shù)據(jù)庫(kù)中;所述數(shù)據(jù)聚合包括:對(duì)正確、但無(wú)效的用戶行為信息,采用基于規(guī)則的用戶行為聚合算法進(jìn)行過(guò)濾、整合。
[0009]作為本發(fā)明進(jìn)一步的方案:步驟S4中使用OWL-DL描述語(yǔ)言建立用戶行為數(shù)據(jù)本體模型,并對(duì)本體模型進(jìn)行分解,所述數(shù)據(jù)庫(kù)采用開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)。
[0010]一種采用所述基于大數(shù)據(jù)的用戶行為分析方法的系統(tǒng),包括:
客戶端,用于實(shí)時(shí)采集用戶行為數(shù)據(jù),然后通過(guò)客戶端上傳到服務(wù)器保存;
安全分析模塊,用于根據(jù)數(shù)據(jù)庫(kù)中保存的惡意行為判別策略,對(duì)服務(wù)器保存的用戶行為數(shù)據(jù)進(jìn)行分析,若確定為惡意行為,并根據(jù)判別策略對(duì)應(yīng)的惡意等級(jí)確定打擊策略,將所確定的打擊策略同分析結(jié)果一起反饋給服務(wù)器,服務(wù)器根據(jù)打擊策略對(duì)相應(yīng)用戶進(jìn)行管控處理;
數(shù)據(jù)預(yù)處理與聚合模塊,用于實(shí)時(shí)對(duì)用戶行為數(shù)據(jù)采用并行模型進(jìn)行預(yù)處理與聚合,將結(jié)果存放到數(shù)據(jù)庫(kù)相應(yīng)表中;
用戶行為本體模型建立模塊,用于建立用戶行為數(shù)據(jù)本體模型,并設(shè)計(jì)的基于開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)的本體存儲(chǔ)模式;
用戶興趣偏好分析模塊,用于將所述數(shù)據(jù)預(yù)處理與聚合模塊聚合后的用戶行為數(shù)據(jù)添加到用戶行為數(shù)據(jù)本體模型中,對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)中的用戶行為數(shù)據(jù)本體模型數(shù)據(jù)進(jìn)行推理,找出用戶最新興趣數(shù)據(jù);
用戶瀏覽軌跡補(bǔ)全模塊,用于利用基于用戶行為上下文的軌跡重現(xiàn)算法,對(duì)數(shù)據(jù)預(yù)處理與聚合模塊所得結(jié)果進(jìn)行補(bǔ)全,將補(bǔ)全后的結(jié)果存放到數(shù)據(jù)庫(kù)相應(yīng)表中;
推薦模型建立模塊,用于依據(jù)用戶瀏覽軌跡補(bǔ)全模塊所述補(bǔ)全后的結(jié)果建立轉(zhuǎn)移矩陣,并將該矩陣存放到數(shù)據(jù)庫(kù)相應(yīng)表中,依據(jù)用戶興趣偏好分析模塊中所述用戶最新興趣數(shù)據(jù),利用余弦因子法計(jì)算出每個(gè)用戶間的興趣相似度,構(gòu)成興趣相似度矩陣;結(jié)合所述轉(zhuǎn)移矩陣建立基于協(xié)同過(guò)濾的推薦模型;
系統(tǒng)推薦模塊,用于針對(duì)實(shí)時(shí)捕捉到的用戶輸入頁(yè)面URL,通過(guò)基于協(xié)同過(guò)濾的推薦模型推薦下一步URL集;
比較模塊,將客戶端繼續(xù)采集的用戶下一步的用戶行為數(shù)據(jù)與系統(tǒng)推薦模塊推薦的下一步URL集進(jìn)行比較;
評(píng)估模塊,根據(jù)所述比較結(jié)果實(shí)時(shí)評(píng)估該用戶行為分析方法。
[0011]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過(guò)客戶端實(shí)時(shí)采集用戶行為數(shù)據(jù),將用戶行為和頁(yè)面URL的上下文信息相結(jié)合,最大限度地重現(xiàn)用戶瀏覽Web頁(yè)面的真實(shí)場(chǎng)景,提取全面的用戶行為軌跡,為分析用戶行為提供有效的數(shù)據(jù)保障;并通過(guò)安全分析模塊為用戶行為數(shù)據(jù)提供安全保障,還利用用戶行為數(shù)據(jù)本體模型對(duì)用戶行為建模,實(shí)現(xiàn)行為信息語(yǔ)義級(jí)的共享和重用,提高了模型互操作性和可靠性;實(shí)時(shí)采集用戶行為及上下文數(shù)據(jù)進(jìn)行分析,使結(jié)果更可靠;以列存儲(chǔ)數(shù)據(jù)庫(kù)對(duì)本體和行為信息進(jìn)行存儲(chǔ),為海量數(shù)據(jù)管理奠定基礎(chǔ);將云計(jì)算技術(shù)的強(qiáng)大處理能力和大規(guī)模數(shù)據(jù)存儲(chǔ)能力、本體及其推理、知識(shí)發(fā)現(xiàn)方法相結(jié)合,實(shí)時(shí)分析海量用戶行為數(shù)據(jù),及時(shí)獲取用戶興趣,從而實(shí)現(xiàn)有效與精準(zhǔn)的用戶推送。
【專利附圖】
【附圖說(shuō)明】
[0012]圖1為基于大數(shù)據(jù)的用戶行為分析方法的流程圖。
[0013]圖2為基于大數(shù)據(jù)的用戶行為分析系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0014]下面結(jié)合【具體實(shí)施方式】對(duì)本專利的技術(shù)方案作進(jìn)一步詳細(xì)地說(shuō)明。
[0015]請(qǐng)參閱圖1,一種基于大數(shù)據(jù)的用戶行為分析方法,包括如下步驟:
51、客戶端實(shí)時(shí)采集用戶行為數(shù)據(jù),然后通過(guò)客戶端上傳到服務(wù)器保存;所述用戶行為數(shù)據(jù)包括用戶行為主體、發(fā)生時(shí)間、發(fā)生的頁(yè)面、上下滾動(dòng)頁(yè)面、移動(dòng)或點(diǎn)擊鼠標(biāo)、頁(yè)面停留時(shí)間、收藏、打印、保存、訪問(wèn)同一頁(yè)面次數(shù)、復(fù)制粘貼文字操作、當(dāng)前用戶的搜索條件、搜索關(guān)鍵字對(duì)應(yīng)的標(biāo)題;
52、安全分析模塊根據(jù)數(shù)據(jù)庫(kù)中保存的惡意行為判別策略,對(duì)服務(wù)器保存的用戶行為數(shù)據(jù)進(jìn)行分析,若確定為惡意行為,并根據(jù)判別策略對(duì)應(yīng)的惡意等級(jí)確定打擊策略,將所確定的打擊策略同分析結(jié)果一起反饋給服務(wù)器,服務(wù)器根據(jù)打擊策略對(duì)相應(yīng)用戶進(jìn)行管控處理;若確定為安全行為,則進(jìn)行S3 ;所述安全分析模塊包括:第一分析模塊和第二分析模塊;第一分析模塊包括轉(zhuǎn)發(fā)子模塊和分析子模塊;轉(zhuǎn)發(fā)子模塊用于接收用戶行為數(shù)據(jù)并同時(shí)轉(zhuǎn)發(fā)一份給第二分析模塊;分析子模塊用于進(jìn)行用戶行為分析;第二分析模塊,用于進(jìn)行IP地址和消息的聚合分析,其中IP地址和消息均為用戶行為數(shù)據(jù)中所包含的內(nèi)容;
53、對(duì)用戶行為數(shù)據(jù)采用并行運(yùn)算模型進(jìn)行預(yù)處理與聚合;所述預(yù)處理包括:去除不完整數(shù)據(jù),刪除重復(fù)數(shù)據(jù)、圖片、頁(yè)面動(dòng)畫;對(duì)頁(yè)面進(jìn)行的打印、收藏、保存、下載操作,在獲取后,將其轉(zhuǎn)換為對(duì)應(yīng)的數(shù)據(jù)格式保存在數(shù)據(jù)庫(kù)中;所述數(shù)據(jù)聚合包括:對(duì)正確、但無(wú)效的用戶行為信息,采用基于規(guī)則的用戶行為聚合算法進(jìn)行過(guò)濾、整合;
54、根據(jù)聚合后的用戶行為數(shù)據(jù),建立用戶行為數(shù)據(jù)本體模型,并存儲(chǔ)在數(shù)據(jù)庫(kù)中;具體使用OWL-DL描述語(yǔ)言建立用戶行為數(shù)據(jù)本體模型,并對(duì)本體模型進(jìn)行分解,所述數(shù)據(jù)庫(kù)采用開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù); 55、對(duì)用戶行為數(shù)據(jù)本體模型進(jìn)行推理,找出用戶最新興趣數(shù)據(jù);
56、提取S4中聚合后的用戶行為數(shù)據(jù)中每個(gè)用戶每一次會(huì)話內(nèi)瀏覽的網(wǎng)頁(yè)URL鏈接,采用基于用戶行為上下文的軌跡重現(xiàn)算法進(jìn)行軌跡補(bǔ)全,將補(bǔ)全后的結(jié)果存放到所述數(shù)據(jù)庫(kù)相應(yīng)表中;
57、依據(jù)S6中補(bǔ)全后的結(jié)果建立轉(zhuǎn)移矩陣,并將該轉(zhuǎn)移矩陣存放到所述數(shù)據(jù)庫(kù)相應(yīng)表中;依據(jù)S5中所述用戶最新興趣數(shù)據(jù),利用余弦因子法計(jì)算出每個(gè)用戶間的興趣相似度,構(gòu)成興趣相似度矩陣;結(jié)合所述轉(zhuǎn)移矩陣建立基于協(xié)同過(guò)濾的推薦模型;
58、針對(duì)實(shí)時(shí)捕捉到的用戶輸入頁(yè)面URL,通過(guò)基于協(xié)同過(guò)濾的推薦模型推薦下一步URL 集;
59、將客戶端繼續(xù)采集的用戶下一步的用戶行為數(shù)據(jù)與S8中推薦的下一步URL集進(jìn)行比較,得到比較結(jié)果;
S10、根據(jù)所述比較結(jié)果實(shí)時(shí)評(píng)估該用戶行為分析方法。
[0016]請(qǐng)參閱圖2,一種采用所述基于大數(shù)據(jù)的用戶行為分析方法的系統(tǒng),包括:
客戶端,用于實(shí)時(shí)采集用戶行為數(shù)據(jù),然后通過(guò)客戶端上傳到服務(wù)器保存;
安全分析模塊,用于根據(jù)數(shù)據(jù)庫(kù)中保存的惡意行為判別策略,對(duì)服務(wù)器保存的用戶行為數(shù)據(jù)進(jìn)行分析,若確定為惡意行為,并根據(jù)判別策略對(duì)應(yīng)的惡意等級(jí)確定打擊策略,將所確定的打擊策略同分析結(jié)果一起反饋給服務(wù)器,服務(wù)器根據(jù)打擊策略對(duì)相應(yīng)用戶進(jìn)行管控處理;
數(shù)據(jù)預(yù)處理與聚合模塊,用于實(shí)時(shí)對(duì)用戶行為數(shù)據(jù)采用并行模型進(jìn)行預(yù)處理與聚合,將結(jié)果存放到數(shù)據(jù)庫(kù)相應(yīng)表中;
用戶行為本體模型建立模塊,用于建立用戶行為數(shù)據(jù)本體模型,并設(shè)計(jì)的基于開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)的本體存儲(chǔ)模式;
用戶興趣偏好分析模塊,用于將所述數(shù)據(jù)預(yù)處理與聚合模塊聚合后的用戶行為數(shù)據(jù)添加到用戶行為數(shù)據(jù)本體模型中,對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)中的用戶行為數(shù)據(jù)本體模型數(shù)據(jù)進(jìn)行推理,找出用戶最新興趣數(shù)據(jù);
用戶瀏覽軌跡補(bǔ)全模塊,用于利用基于用戶行為上下文的軌跡重現(xiàn)算法,對(duì)數(shù)據(jù)預(yù)處理與聚合模塊所得結(jié)果進(jìn)行補(bǔ)全,將補(bǔ)全后的結(jié)果存放到數(shù)據(jù)庫(kù)相應(yīng)表中;
推薦模型建立模塊,用于依據(jù)用戶瀏覽軌跡補(bǔ)全模塊所述補(bǔ)全后的結(jié)果建立轉(zhuǎn)移矩陣,并將該矩陣存放到數(shù)據(jù)庫(kù)相應(yīng)表中,依據(jù)用戶興趣偏好分析模塊中所述用戶最新興趣數(shù)據(jù),利用余弦因子法計(jì)算出每個(gè)用戶間的興趣相似度,構(gòu)成興趣相似度矩陣;結(jié)合所述轉(zhuǎn)移矩陣建立基于協(xié)同過(guò)濾的推薦模型;
系統(tǒng)推薦模塊,用于針對(duì)實(shí)時(shí)捕捉到的用戶輸入頁(yè)面URL,通過(guò)基于協(xié)同過(guò)濾的推薦模型推薦下一步URL集;
比較模塊,將客戶端繼續(xù)采集的用戶下一步的用戶行為數(shù)據(jù)與系統(tǒng)推薦模塊推薦的下一步URL集進(jìn)行比較;
評(píng)估模塊,根據(jù)所述比較結(jié)果實(shí)時(shí)評(píng)估該用戶行為分析方法。
[0017]上面對(duì)本專利的較佳實(shí)施方式作了詳細(xì)說(shuō)明,但是本專利并不限于上述實(shí)施方式,在本領(lǐng)域的普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本專利宗旨的前提下作出各種變化。
【權(quán)利要求】
1.一種基于大數(shù)據(jù)的用戶行為分析方法,其特征在于,包括如下步驟: S1、客戶端實(shí)時(shí)采集用戶行為數(shù)據(jù),然后通過(guò)客戶端上傳到服務(wù)器保存;S2、安全分析模塊根據(jù)數(shù)據(jù)庫(kù)中保存的惡意行為判別策略,對(duì)服務(wù)器保存的用戶行為數(shù)據(jù)進(jìn)行分析,若確定為惡意行為,并根據(jù)判別策略對(duì)應(yīng)的惡意等級(jí)確定打擊策略,將所確定的打擊策略同分析結(jié)果一起反饋給服務(wù)器,服務(wù)器根據(jù)打擊策略對(duì)相應(yīng)用戶進(jìn)行管控處理;若確定為安全行為,則進(jìn)行S3 ;S3、對(duì)用戶行為數(shù)據(jù)采用并行運(yùn)算模型進(jìn)行預(yù)處理與聚合;S4、根據(jù)聚合后的用戶行為數(shù)據(jù),建立用戶行為數(shù)據(jù)本體模型,并存儲(chǔ)在數(shù)據(jù)庫(kù)中;S5、對(duì)用戶行為數(shù)據(jù)本體模型進(jìn)行推理,找出用戶最新興趣數(shù)據(jù);S6、提取S4中聚合后的用戶行為數(shù)據(jù)中每個(gè)用戶每一次會(huì)話內(nèi)瀏覽的網(wǎng)頁(yè)URL鏈接,采用基于用戶行為上下文的軌跡重現(xiàn)算法進(jìn)行軌跡補(bǔ)全,將補(bǔ)全后的結(jié)果存放到所述數(shù)據(jù)庫(kù)相應(yīng)表中;S7、依據(jù)S6中補(bǔ)全后的結(jié)果建立轉(zhuǎn)移矩陣,并將該轉(zhuǎn)移矩陣存放到所述數(shù)據(jù)庫(kù)相應(yīng)表中;依據(jù)S5中所述用戶最新興趣數(shù)據(jù),利用余弦因子法計(jì)算出每個(gè)用戶間的興趣相似度,構(gòu)成興趣相似度矩陣;結(jié)合所述轉(zhuǎn)移矩陣建立基于協(xié)同過(guò)濾的推薦模型;S8、針對(duì)實(shí)時(shí)捕捉到的用戶輸入頁(yè)面URL,通過(guò)基于協(xié)同過(guò)濾的推薦模型推薦下一步URL集;S9、將客戶端繼續(xù)采集的用戶下一步的用戶行為數(shù)據(jù)與S8中推薦的下一步URL集進(jìn)行比較,得到比較結(jié)果;S10、根據(jù)所述比較結(jié)果實(shí)時(shí)評(píng)估該用戶行為分析方法。
2.根據(jù)權(quán)利要求1所述基于大數(shù)據(jù)的用戶行為分析方法,其特征在于:步驟S1中所述用戶行為數(shù)據(jù)包括用戶行為主體、發(fā)生時(shí)間、發(fā)生的頁(yè)面、上下滾動(dòng)頁(yè)面、移動(dòng)或點(diǎn)擊鼠標(biāo)、頁(yè)面停留時(shí)間、收藏、打印、保存、訪問(wèn)同一頁(yè)面次數(shù)、復(fù)制粘貼文字操作、當(dāng)前用戶的搜索條件、搜索關(guān)鍵字對(duì)應(yīng)的標(biāo)題。
3.根據(jù)權(quán)利要求1所述基于大數(shù)據(jù)的用戶行為分析方法,其特征在于,步驟S2中所述安全分析模塊包括:第一分析模塊和第二分析模塊;第一分析模塊包括轉(zhuǎn)發(fā)子模塊和分析子模塊;轉(zhuǎn)發(fā)子模塊用于接收用戶行為數(shù)據(jù)并同時(shí)轉(zhuǎn)發(fā)一份給第二分析模塊;分析子模塊用于進(jìn)行用戶行為分析;第二分析模塊,用于進(jìn)行IP地址和消息的聚合分析,其中IP地址和消息均為用戶行為數(shù)據(jù)中所包含的內(nèi)容。
4.根據(jù)權(quán)利要求1所述基于大數(shù)據(jù)的用戶行為分析方法,其特征在于,在步驟S3中,所述預(yù)處理包括:去除不完整數(shù)據(jù),刪除重復(fù)數(shù)據(jù)、圖片、頁(yè)面動(dòng)畫;對(duì)頁(yè)面進(jìn)行的打印、收藏、保存、下載操作,在獲取后,將其轉(zhuǎn)換為對(duì)應(yīng)的數(shù)據(jù)格式保存在數(shù)據(jù)庫(kù)中;所述數(shù)據(jù)聚合包括:對(duì)正確、但無(wú)效的用戶行為信息,采用基于規(guī)則的用戶行為聚合算法進(jìn)行過(guò)濾、整合。
5.根據(jù)權(quán)利要求1所述基于大數(shù)據(jù)的用戶行為分析方法,其特征在于:步驟S4中使用OWL-DL描述語(yǔ)言建立用戶行為數(shù)據(jù)本體模型,并對(duì)本體模型進(jìn)行分解,所述數(shù)據(jù)庫(kù)采用開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)。
6.一種采用權(quán)利要求1-5之一所述基于大數(shù)據(jù)的用戶行為分析方法的系統(tǒng),其特征在于,包括: 客戶端,用于實(shí)時(shí)采集用戶行為數(shù)據(jù),然后通過(guò)客戶端上傳到服務(wù)器保存;安全分析模塊,用于根據(jù)數(shù)據(jù)庫(kù)中保存的惡意行為判別策略,對(duì)服務(wù)器保存的用戶行為數(shù)據(jù)進(jìn)行分析,若確定為惡意行為,并根據(jù)判別策略對(duì)應(yīng)的惡意等級(jí)確定打擊策略,將所確定的打擊策略同分析結(jié)果一起反饋給服務(wù)器,服務(wù)器根據(jù)打擊策略對(duì)相應(yīng)用戶進(jìn)行管控處理;數(shù)據(jù)預(yù)處理與聚合模塊,用于實(shí)時(shí)對(duì)用戶行為數(shù)據(jù)采用并行模型進(jìn)行預(yù)處理與聚合,將結(jié)果存放到數(shù)據(jù)庫(kù)相應(yīng)表中;用戶行為本體模型建立模塊,用于建立用戶行為數(shù)據(jù)本體模型,并設(shè)計(jì)的基于開(kāi)源的非關(guān)系型分布式數(shù)據(jù)庫(kù)的本體存儲(chǔ)模式;用戶興趣偏好分析模塊,用于將所述數(shù)據(jù)預(yù)處理與聚合模塊聚合后的用戶行為數(shù)據(jù)添加到用戶行為數(shù)據(jù)本體模型中,對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)中的用戶行為數(shù)據(jù)本體模型數(shù)據(jù)進(jìn)行推理,找出用戶最新興趣數(shù)據(jù);用戶瀏覽軌跡補(bǔ)全模塊,用于利用基于用戶行為上下文的軌跡重現(xiàn)算法,對(duì)數(shù)據(jù)預(yù)處理與聚合模塊所得結(jié)果進(jìn)行補(bǔ)全,將補(bǔ)全后的結(jié)果存放到數(shù)據(jù)庫(kù)相應(yīng)表中;推薦模型建立模塊,用于依據(jù)用戶瀏覽軌跡補(bǔ)全模塊所述補(bǔ)全后的結(jié)果建立轉(zhuǎn)移矩陣,并將該矩陣存放到數(shù)據(jù)庫(kù)相應(yīng)表中,依據(jù)用戶興趣偏好分析模塊中所述用戶最新興趣數(shù)據(jù),利用余弦因子法計(jì)算出每個(gè)用戶間的興趣相似度,構(gòu)成興趣相似度矩陣;結(jié)合所述轉(zhuǎn)移矩陣建立基于協(xié)同過(guò)濾的推薦模型;系統(tǒng)推薦模塊,用于針對(duì)實(shí)時(shí)捕捉到的用戶輸入頁(yè)面URL,通過(guò)基于協(xié)同過(guò)濾的推薦模型推薦下一步URL集;比較模塊,將客戶端繼續(xù)采集的用戶下一步的用戶行為數(shù)據(jù)與系統(tǒng)推薦模塊推薦的下一步URL集進(jìn)行比較;評(píng)估模塊,根據(jù)所述比較結(jié)果實(shí)時(shí)評(píng)估該用戶行為分析方法。
【文檔編號(hào)】G06F17/30GK104462213SQ201410615306
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年12月5日 優(yōu)先權(quán)日:2014年12月5日
【發(fā)明者】于曉暉, 龐劍飛, 王鵬 申請(qǐng)人:成都逸動(dòng)無(wú)限網(wǎng)絡(luò)科技有限公司