本發(fā)明屬互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種基于數(shù)據(jù)流虛擬資產(chǎn)在線異常發(fā)現(xiàn)的方法。
背景技術(shù):
互聯(lián)網(wǎng)的迅猛發(fā)展催生了電子商務(wù)的繁榮,其中虛擬資產(chǎn)交易的增長(zhǎng)尤為迅速,虛擬資產(chǎn)是指在網(wǎng)絡(luò)世界中存在的具有競(jìng)爭(zhēng)性、持久性以及可以交換或者買賣的物品,包括網(wǎng)上銀行、網(wǎng)絡(luò)帳號(hào)、網(wǎng)游裝備武器、虛擬貨幣等。
目前,我國(guó)已經(jīng)開展了基于eID的網(wǎng)域空間虛擬資產(chǎn)管理與保全技術(shù)研究,以實(shí)現(xiàn)對(duì)虛擬資產(chǎn)的規(guī)范統(tǒng)一管理。虛擬資產(chǎn)保全系統(tǒng)全面準(zhǔn)確的記錄了對(duì)虛擬資產(chǎn)的各種操作,但如何從這些記錄數(shù)據(jù)中間挖掘出異常的交易行為仍然面臨諸多挑戰(zhàn)。針對(duì)網(wǎng)絡(luò)虛擬資產(chǎn)交易信息規(guī)模巨大,增長(zhǎng)速度非常快的特點(diǎn),自動(dòng)地從海量的虛擬資產(chǎn)交易信息中發(fā)現(xiàn)以及預(yù)測(cè)異常行為,從而對(duì)已經(jīng)發(fā)生以及可能發(fā)生的犯罪行為進(jìn)行有效的檢測(cè)顯得極為迫切。
異常發(fā)現(xiàn)的主要目的是根據(jù)已知的異常數(shù)據(jù)訓(xùn)練并建立一個(gè)異常檢測(cè)模型。異常發(fā)現(xiàn)方法主要包括基于統(tǒng)計(jì)學(xué)、基于信息論、基于譜、基于機(jī)器學(xué)習(xí)的異常發(fā)現(xiàn)技術(shù),其中基于機(jī)器學(xué)習(xí)的異常發(fā)現(xiàn)技術(shù)又主要包括基于聚類、基于分類、基于序列模式的異常發(fā)現(xiàn)技術(shù)?;诰垲惖漠惓0l(fā)現(xiàn)技術(shù)只能用于離線分析,把所有數(shù)據(jù)進(jìn)行聚類之后,那些個(gè)體數(shù)量小于某一閾值的族群被視為是異常,聚類算法的優(yōu)勢(shì)在于它不需要?dú)v史數(shù)據(jù)帶有標(biāo)簽。異常發(fā)現(xiàn)從本質(zhì)上講可以看作是個(gè)分類問題,就是把數(shù)據(jù)進(jìn)行分類,分為正?;虍惓?。異常發(fā)現(xiàn)技術(shù)主要是使用帶標(biāo)簽的歷史數(shù)據(jù)進(jìn)行訓(xùn)練,得到分類器,然后運(yùn)用這個(gè)分類 器對(duì)新來的數(shù)據(jù)進(jìn)行分類?;谛蛄心J降漠惓0l(fā)現(xiàn)技術(shù)主要是通多用戶的操作時(shí)序數(shù)據(jù)挖掘出用戶的一些正常行為模式和異常行為模式,之后對(duì)用戶新數(shù)據(jù)提取行為模式,與數(shù)據(jù)庫中的正常行為模式和異常行為模式進(jìn)行匹配,看當(dāng)前操作是否屬于異常。
全擁等人[1]提出了一種基于共生矩陣的電子商務(wù)交易日志的異常檢測(cè)方法,該算法利用共生矩陣對(duì)用戶的交易行為建模,通過PCA方法建立共生矩陣空間,從而得到用戶正常交易模式。在檢測(cè)階段,對(duì)待數(shù)據(jù)產(chǎn)生的共生矩陣進(jìn)行了修正并獲取用戶的交易模式,通過矩陣2-范數(shù)計(jì)算用戶交易模式和其正常模式之間的距離并以此來判斷用戶的交易行為是否異常。
姬炳帥等人[2]提出了另一電子商務(wù)的用戶行為異常檢測(cè)方法,首先根據(jù)用戶行為日志數(shù)據(jù)的特點(diǎn)將其分割為靜態(tài)屬性集和操作序列集,然后利用基于軸屬性的Apriori算法和GSP序列模式挖掘算法分別對(duì)這兩種類型的數(shù)據(jù)集進(jìn)行模式挖掘,在此基礎(chǔ)上建立用戶的正常行為模式,最后使用基于先后順序的模式比較方法將用戶當(dāng)前的行為模式與其歷史正常行為模式進(jìn)行匹配,以此來判斷該用戶的交易行為是否異常。
趙學(xué)良[3]提出了一種基于滑動(dòng)窗口模型的數(shù)據(jù)流離群點(diǎn)檢測(cè)方法,該方法使用簡(jiǎn)單的滑動(dòng)窗口對(duì)數(shù)據(jù)流的新舊數(shù)據(jù)更迭進(jìn)行有效管理,并且算法采用的數(shù)據(jù)結(jié)構(gòu)有效地降低了近鄰集統(tǒng)計(jì)時(shí)的計(jì)算量,使得算法性能較優(yōu)。
然而,上述前兩種[1,2]虛擬資產(chǎn)中的異常檢測(cè)方法都是離線進(jìn)行分析,離線分析是針對(duì)歷史數(shù)據(jù)進(jìn)行分析,如果發(fā)現(xiàn)異常數(shù)據(jù),那么再對(duì)異常數(shù)據(jù)進(jìn)行追溯,找到異常源頭,因此,時(shí)效性很低。
上述第三種[3]異常發(fā)現(xiàn)方法所尋找的離群點(diǎn)是指當(dāng)前滑動(dòng)窗口中的異常點(diǎn),而不是全局的異常點(diǎn),而且也沒有給出基于數(shù)據(jù)流的離群點(diǎn)發(fā)現(xiàn)技術(shù)的框架。
[1]全擁,李樹棟,賈焰,等.基于共生矩陣的電子商務(wù)交易日志異常檢測(cè)[J].中國(guó)電子商情:通信市場(chǎng),2013(4):39-45。
[2]姬炳帥,李虎,韓偉紅,等.面向電子商務(wù)的用戶異常行為檢測(cè)研究[J].信息網(wǎng)絡(luò)安全,2014(9):80-85。
[3]趙學(xué)良.基于滑動(dòng)窗口模型的數(shù)據(jù)流離群點(diǎn)檢測(cè)研究[D].重慶大學(xué),2012。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)以上問題,本發(fā)明提供一種基于數(shù)據(jù)流虛擬資產(chǎn)在線異常發(fā)現(xiàn)的方法,可實(shí)時(shí)地對(duì)異常進(jìn)行檢測(cè),適用于實(shí)時(shí)檢測(cè)虛擬資產(chǎn)操作中的異常行為。
本發(fā)明的技術(shù)方案如下:
一種基于數(shù)據(jù)流虛擬資產(chǎn)在線異常發(fā)現(xiàn)的方法,包括以下步驟:
(1)數(shù)據(jù)處理:用戶操作行為日志數(shù)據(jù)流流入數(shù)據(jù)窗口中,通過對(duì)數(shù)據(jù)窗口中數(shù)據(jù)的預(yù)處理提取到數(shù)據(jù)概要,已經(jīng)處理過的數(shù)據(jù)流直接流出數(shù)據(jù)窗口,存到永久存儲(chǔ)器中;
(2)離線分析:數(shù)據(jù)庫中的數(shù)據(jù)定期計(jì)算一次,用模式生成算法挖掘出用戶的正常行為模式和異常行為模式;
(3)在線分析:系統(tǒng)實(shí)時(shí)地對(duì)滑動(dòng)窗口中的數(shù)據(jù)進(jìn)行分析,提取當(dāng)前的行為模式,與模式庫中的正常行為模式和異常行為模式進(jìn)行匹配,看是否屬于異常,若被判為異常,進(jìn)行報(bào)警處理。
其中,所述的步驟(2)中包括以下步驟:
1、數(shù)據(jù)的存儲(chǔ):從數(shù)據(jù)窗口流出的數(shù)據(jù)流流進(jìn)永久存儲(chǔ)器時(shí)默認(rèn)為正常行為標(biāo)簽,當(dāng)實(shí)時(shí)分析模塊檢測(cè)到某個(gè)用戶操作為異常時(shí),調(diào)整數(shù)據(jù)庫中對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽。同時(shí),調(diào)整數(shù)據(jù)庫中對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽還包括人工反饋性的調(diào)整,如 當(dāng)系統(tǒng)判斷某用戶行為異常并發(fā)出警報(bào)后被人工確認(rèn)為是錯(cuò)誤警報(bào),需要把信息反饋到數(shù)據(jù)庫中去調(diào)整相應(yīng)數(shù)據(jù)的標(biāo)簽。應(yīng)對(duì)虛擬資產(chǎn)用戶操作行為海量數(shù)據(jù)的存儲(chǔ)一般采用nosql的數(shù)據(jù)庫存儲(chǔ),如Cassandra。
2、模式的生成:對(duì)離線分析模塊數(shù)據(jù)庫中的數(shù)據(jù),系統(tǒng)定期用模式生成算法定期計(jì)算一次,得到每個(gè)用戶的正常行為模式庫和異常行為模式庫。模式生成算法采用多種算法,如關(guān)聯(lián)規(guī)則、序列模式、譜理論、基于時(shí)空序列挖掘等;
3、模式的更新:對(duì)數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行計(jì)算更新模式時(shí),只使用用戶最后一次登出之前的所有操作行為數(shù)據(jù)進(jìn)行分析。
其中,所述的步驟(3)中包括以下步驟:
1)提取數(shù)據(jù)概要:只對(duì)用戶登錄到登出之間的數(shù)據(jù)進(jìn)行處理,只記錄登錄操作的時(shí)間,節(jié)省內(nèi)存空間而保證不丟失重要信息,且所用數(shù)據(jù)結(jié)構(gòu)有利于后續(xù)計(jì)算;
2)提取當(dāng)前用戶行為模式:每一次用戶有新的操作行為數(shù)據(jù)進(jìn)入時(shí),都對(duì)該用戶對(duì)應(yīng)的數(shù)據(jù)概要進(jìn)行當(dāng)前用戶行為模式提??;
3)行為模式匹配:提取出的行為模式與離線分析模塊中生成的正常行為模式庫和異常行為模式進(jìn)行匹配。
進(jìn)一步的,所述的步驟1)中還包括以下步驟:
步驟1:首先創(chuàng)建一個(gè)新的HashMap,命名為dataProfile,用來存數(shù)據(jù)概要;
步驟2:讀到緩沖區(qū)的一條記錄,驗(yàn)證該記錄中用戶ID字段是否為空,若為空,直接跳到步驟5;否則,進(jìn)入下一步驟;
步驟3:驗(yàn)證當(dāng)前數(shù)據(jù)概要dataProfile中是否存在key為當(dāng)前用戶ID的記錄,若不存在,則在dataProfile中添加一條key為當(dāng)前用戶ID的記錄,這種情 況操作類型肯定為登錄操作,需要記錄登錄時(shí)間;否則,進(jìn)入下一步驟;
步驟4:查看當(dāng)前操作類型是何類型,若為登出操作,則將dataProfile中key為當(dāng)前用戶ID的記錄刪除;若為其他操作,則在dataProfile中key為當(dāng)前用戶ID的記錄的value中的操作序列中加入當(dāng)前操作類型和相應(yīng)商品ID;
步驟5:讀取緩沖區(qū)下一條記錄,進(jìn)入循環(huán)。
進(jìn)一步的,所述的步驟3)中還包括以下步驟:
步驟a:與異常行為模式庫中異常行為模式匹配;
步驟b:若匹配成功,則將其判斷為已知的異常;
步驟c:若未匹配成功,則再與正常行為模式匹配,若匹配成功,則將其判斷為正常,若未匹配成功,則將其判斷為未知的異常;
步驟d:確認(rèn)為異常后,進(jìn)行以下四個(gè)操作:①實(shí)時(shí)反饋給前端,發(fā)出異常報(bào)警,②在數(shù)據(jù)概要中將該用戶的記錄刪除,③把該用戶加入到一個(gè)異常用戶隊(duì)列中去,不再對(duì)其進(jìn)行異常檢測(cè)了,直至該用戶發(fā)送登出行為,將其從異常用戶隊(duì)列中刪除,④把異常反饋給數(shù)據(jù)庫,調(diào)整相應(yīng)標(biāo)簽。
本發(fā)明的有益效果是:采用從數(shù)據(jù)窗口流出的數(shù)據(jù)流進(jìn)永久存儲(chǔ)器時(shí)默認(rèn)為正常行為標(biāo)簽,當(dāng)實(shí)時(shí)分析模塊檢測(cè)到某個(gè)用戶操作為異常時(shí),再去調(diào)整數(shù)據(jù)庫中對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽,可使得數(shù)據(jù)窗口中的數(shù)據(jù)不需要等到檢測(cè)操作完成并判斷好它屬于哪個(gè)標(biāo)簽就可以直接流出,可節(jié)省內(nèi)存空間,防止數(shù)據(jù)被堵塞在數(shù)據(jù)窗口中。
由于用戶為異常操作可在登出操作之前被判斷出來,且實(shí)時(shí)分析模塊檢測(cè)發(fā)現(xiàn)異常之后可以立馬反饋給離線分析模塊去調(diào)整數(shù)據(jù)庫中對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽,因此,可確保用戶最后一次登出之前的所有數(shù)據(jù)都為更新過標(biāo)簽的。
與現(xiàn)有技術(shù)相比,本發(fā)明將數(shù)據(jù)流的技術(shù)應(yīng)用到虛擬資產(chǎn)的異常發(fā)現(xiàn)中,設(shè) 計(jì)了基于數(shù)據(jù)流的虛擬資產(chǎn)在線異常發(fā)現(xiàn)技術(shù)框架,使得系統(tǒng)能更快速有效地實(shí)現(xiàn)實(shí)時(shí)地檢測(cè)異常,從而更好地預(yù)防用戶的損失。
附圖說明
圖1為本發(fā)明的基于數(shù)據(jù)流虛擬資產(chǎn)在線異常發(fā)現(xiàn)框架圖。
圖2為本發(fā)明的提取數(shù)據(jù)概要生成算法流程圖。
圖3為本發(fā)明的硬件部署環(huán)境圖。
具體實(shí)施方式
為了便于理解本發(fā)明,以下結(jié)合說明書附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。
本發(fā)明提供一種基于數(shù)據(jù)流虛擬資產(chǎn)在線異常發(fā)現(xiàn)的方法,其框架圖如圖1所示,包括在線分析模塊和離線分析模塊。首先,用戶操作行為日志數(shù)據(jù)流流入數(shù)據(jù)窗口中,通過對(duì)數(shù)據(jù)窗口中數(shù)據(jù)的預(yù)處理提取到數(shù)據(jù)概要,已經(jīng)處理過的數(shù)據(jù)流直接流出數(shù)據(jù)窗口,存到永久存儲(chǔ)器中。在離線分析模塊中,數(shù)據(jù)庫中的數(shù)據(jù)將被定期計(jì)算一次,用模式生成算法挖掘出用戶的正常行為模式和異常行為模式。在線分析模塊中,系統(tǒng)會(huì)實(shí)時(shí)地對(duì)滑動(dòng)窗口中的數(shù)據(jù)進(jìn)行分析,提取當(dāng)前的行為模式,然后再與模式庫中的正常行為模式和異常行為模式進(jìn)行匹配,看是否屬于異常。若被判為異常,則進(jìn)行報(bào)警處理。
在線分析模塊:在線分析模塊主要有三個(gè)工作,即提取數(shù)據(jù)概要、提取當(dāng)前用戶行為模式、行為模式匹配。表1是某個(gè)時(shí)間段的用戶操作行為日志流的簡(jiǎn)單示例,該數(shù)據(jù)流包括12條記錄,時(shí)間跨多為50秒,有三個(gè)用戶參與。此示例僅展示用戶、IP地址、時(shí)間、操作行為類型、相關(guān)商品ID五個(gè)字段,現(xiàn)實(shí)數(shù)據(jù)中會(huì)復(fù)雜許多。提取數(shù)據(jù)概要的目的是為了盡可能地節(jié)省寶貴的內(nèi)存空間而又要保證不丟失重要信息,并且做到所用的數(shù)據(jù)結(jié)構(gòu)需要有利于之后的計(jì) 算。所以,本發(fā)明提取數(shù)據(jù)概要模式主要堅(jiān)持以下兩條要求:
A.只對(duì)用戶登錄到登出之間的數(shù)據(jù)進(jìn)行處理;
B.只記錄登錄操作的時(shí)間。
表1 用戶操作行為日志流的簡(jiǎn)單示例
表2是根據(jù)表1中數(shù)據(jù)示例產(chǎn)生的用戶操作行為數(shù)據(jù)概要簡(jiǎn)單示例,數(shù)據(jù)概要主要包括用戶ID、IP地址、登錄時(shí)間、操作序列四個(gè)字段。數(shù)據(jù)概要以每個(gè)用戶為單位存于List當(dāng)中,其中的操作序列該字段也是一個(gè)List,當(dāng)用戶有新的操作行為數(shù)據(jù)進(jìn)入數(shù)據(jù)窗口之后,提取其操作類型和相關(guān)商品ID加入到操作序列這個(gè)List中。
表2 用戶操作行為數(shù)據(jù)概要簡(jiǎn)單示例
提取數(shù)據(jù)概要具體算法如圖2所示,主要步驟為:
步驟1:首先創(chuàng)建一個(gè)新的HashMap,命名為dataProfile,用來存數(shù)據(jù)概要。
步驟2:讀到緩沖區(qū)的一條記錄,驗(yàn)證該記錄中用戶ID字段是否為空,若為空,直接跳到步驟5;否則,進(jìn)入下一步驟。
步驟3:驗(yàn)證當(dāng)前數(shù)據(jù)概要dataProfile中是否存在key為當(dāng)前用戶ID的記錄,若不存在,則再dataProfile中添加一條key為當(dāng)前用戶ID的記錄,這種情況操作類型肯定為登錄操作,需要記錄登錄時(shí)間;否則,進(jìn)入下一步驟。
步驟4:查看當(dāng)前操作類型是何類型,若為登出操作,則將dataProfile中key為當(dāng)前用戶ID的記錄刪除;若為其他操作,則在dataProfile中key為當(dāng)前用戶ID的記錄的value中的操作序列中加入當(dāng)前操作類型和相應(yīng)商品ID。
步驟5:讀取緩沖區(qū)下一條記錄,進(jìn)入循環(huán)。
每一次用戶有新的操作行為數(shù)據(jù)進(jìn)入時(shí),都對(duì)該用戶對(duì)應(yīng)的數(shù)據(jù)概要進(jìn)行當(dāng)前行為模式提取,提取出的行為模式與離線分析模塊中生成的正常行為模式庫和異常行為模式進(jìn)行匹配。匹配過程具體為:先與異常行為模式庫中異常行為模式匹配,若匹配成功,則將其判斷為已知的異常;若未匹配成功,則再與正常行為模式匹配,若匹配成功,則將其判斷為正常,若未匹配成功,則將其判斷為未知的異常。確認(rèn)為異常后,需要做四個(gè)操作:①實(shí)時(shí)反饋給前端,發(fā)出異常報(bào)警;②在數(shù)據(jù)概要中將該用戶的記錄刪除;③把該用戶加入到一個(gè)異常用戶隊(duì)列中去,不再對(duì)其進(jìn)行異常檢測(cè)了,直至該用戶發(fā)送登出行為,將其從異常用戶隊(duì)列中刪除;④把異常反饋給數(shù)據(jù)庫,調(diào)整相應(yīng)標(biāo)簽。
表3是根據(jù)表2中的數(shù)據(jù)概要對(duì)其中的用戶user1所提取的一個(gè)簡(jiǎn)單行為模式示例,其表示用戶user1在19點(diǎn)左右在IP地址220.79.15.21登錄時(shí)長(zhǎng)為30分 鐘以內(nèi),相關(guān)商品的價(jià)格為0-100元區(qū)間,操作序列為登錄---瀏覽了與加入購物車的商品相似度為0.84的商品---瀏覽了加入購物車的商品---加入購物車。
表3 用戶user1提取的簡(jiǎn)單行為模式示例
表4是行為模式庫中用戶user1的部分正常行為模式的示例,包括兩條IP地址及時(shí)間的關(guān)聯(lián)規(guī)則;關(guān)注商品價(jià)格區(qū)間的百分比,示例中用戶user1關(guān)注的商品80%是0-100元的,19%是100-200元的,1%是200-500元的;三條操作序列的頻繁模式。
表4 用戶user1部分正常行為模式的示例
模式匹配階段,采用的步驟是:①首先將用戶當(dāng)前操作行為模式中的靜態(tài)屬性(IP地址及時(shí)間、商品價(jià)格)與正常行為模式庫中的所有關(guān)聯(lián)規(guī)則進(jìn)行比較,如果全部匹配成功,則此次行為判斷為正常;②否則,將當(dāng)前用戶操作行為模式中的操作序列與正常行為模式庫中的所有操作序列進(jìn)行比較,當(dāng)相似度超過所設(shè)定的閾值時(shí)將此次行為判斷為正常,否則判斷為異常。所給示例中, 靜態(tài)屬性的匹配時(shí)發(fā)現(xiàn)“IP地址及時(shí)間”匹配不上,正常行為模式在IP地址為220.79.15.21的登錄時(shí)間一般在11點(diǎn)左右,而這次出現(xiàn)在19點(diǎn)左右,進(jìn)入操作序列的匹配;計(jì)算操作序列的相似性目前有很多方法可以使用,該點(diǎn)不是本發(fā)明重點(diǎn)研究之處,該例中使用Deep-Simi算法計(jì)算得到當(dāng)前行為模式中的操作序列與所給示例正常行為模式中的第一條操作序列相似度為0.7,而閾值一般設(shè)在0.4-0.6之間,所以將此次行為判斷為正常。
離線分析模塊:主要是包括數(shù)據(jù)的存儲(chǔ)和模式的生成。應(yīng)對(duì)虛擬資產(chǎn)用戶操作行為海量數(shù)據(jù)的存儲(chǔ)一般采用nosql的數(shù)據(jù)庫存儲(chǔ),比如Cassandra。值得注意的是,從數(shù)據(jù)窗口流出的數(shù)據(jù)流進(jìn)永久存儲(chǔ)器時(shí)默認(rèn)為正常行為標(biāo)簽,當(dāng)實(shí)時(shí)分析模塊檢測(cè)到某個(gè)用戶操作為異常時(shí),再去調(diào)整數(shù)據(jù)庫中對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽。這樣做的一個(gè)好處就是數(shù)據(jù)窗口中的數(shù)據(jù)不需要等到檢測(cè)操作完成并判斷好它屬于哪個(gè)標(biāo)簽就可以直接流出,這樣很節(jié)省內(nèi)存空間,不然將會(huì)有很多數(shù)據(jù)都被堵塞在數(shù)據(jù)窗口中。同時(shí),調(diào)整數(shù)據(jù)庫中的標(biāo)簽還應(yīng)包括人工反饋性的調(diào)整,比如當(dāng)系統(tǒng)判斷某用戶行為異常并發(fā)出的警報(bào)后被人工確認(rèn)為是錯(cuò)誤警報(bào),那么我們需要把這個(gè)信息反饋到數(shù)據(jù)庫中去,去調(diào)整相應(yīng)數(shù)據(jù)的標(biāo)簽。
對(duì)離線分析模塊數(shù)據(jù)庫中的數(shù)據(jù),系統(tǒng)會(huì)定期用模式生成算法定期計(jì)算一次,得到每個(gè)用戶的正常行為模式庫和異常行為模式庫。模式生成算法可以采用多種算法,比如關(guān)聯(lián)規(guī)則、序列模式、譜理論、基于時(shí)空序列挖掘等等。在對(duì)數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行計(jì)算更新模式時(shí),我們只使用用戶最后一次登出之前的所有操作行為數(shù)據(jù)進(jìn)行分析就好。因?yàn)閿?shù)據(jù)庫中的有一部分最新的數(shù)據(jù)是沒有調(diào)整過標(biāo)簽的,標(biāo)簽都是默認(rèn)為正常的,而我們能確保用戶最后一次登出之前的所有數(shù)據(jù)都是更新過標(biāo)簽的,這是因?yàn)槿绻脩魹楫惓2僮骺隙ㄊ菚?huì)在登出操作之前就會(huì)被判斷出來,實(shí)時(shí)分析模塊檢測(cè)發(fā)現(xiàn)異常之后可以立馬反饋給離 線分析模塊去調(diào)整數(shù)據(jù)庫中對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽。
本發(fā)明的硬件部署環(huán)境圖如圖3所示,本發(fā)明硬件可擴(kuò)展性強(qiáng),當(dāng)需求增加時(shí),只需增加集群節(jié)點(diǎn)即可。
實(shí)施例1
一種基于數(shù)據(jù)流虛擬資產(chǎn)在線異常發(fā)現(xiàn)的方法,其虛擬資產(chǎn)管理系統(tǒng)的硬件具體信息如下:
虛擬資產(chǎn)數(shù)據(jù)流處理集群:2個(gè)節(jié)點(diǎn),節(jié)點(diǎn)配置為4核CPU、32G內(nèi)存、Centos6.564位系統(tǒng);
行為模式計(jì)算集群:5個(gè)節(jié)點(diǎn),節(jié)點(diǎn)配置為4核CPU、16G內(nèi)存、Centos6.564系統(tǒng);
虛擬資產(chǎn)操作日志數(shù)據(jù)庫:1個(gè)節(jié)點(diǎn),節(jié)點(diǎn)配置為2核CPU、8G內(nèi)存、2TB硬盤、Centos6.564位操作系統(tǒng);
行為模式庫:1個(gè)節(jié)點(diǎn),節(jié)點(diǎn)配置為2核CPU、8G內(nèi)存、2TB硬盤、Centos6.564位操作系統(tǒng)。
如上述的硬件配置環(huán)境能夠應(yīng)對(duì)1W級(jí)別用戶的并發(fā)操作。虛擬資產(chǎn)數(shù)據(jù)流處理集群實(shí)時(shí)地不斷流入的數(shù)據(jù)提取數(shù)據(jù)概要,將數(shù)據(jù)概要存儲(chǔ)在內(nèi)存中,處理過的數(shù)據(jù)直接流出滑動(dòng)窗口存到虛擬資產(chǎn)操作日志數(shù)據(jù)庫中。行為模式計(jì)算集群定期不斷地去訪問虛擬資產(chǎn)操作日志數(shù)據(jù)庫中的數(shù)據(jù),計(jì)算用戶行為模式,得到新的行為模式后去更新行為模式庫。與此同時(shí),虛擬資產(chǎn)數(shù)據(jù)流處理集群根據(jù)數(shù)據(jù)概要中的信息提取用戶的當(dāng)前行為模式,再去訪問行為模式庫中的該用戶的正常行為模式和異常行為模式,分別進(jìn)行匹配,驗(yàn)證當(dāng)前操作是否屬于異常。若判斷為異常,需要將異常標(biāo)簽反饋給虛擬資產(chǎn)操作日志數(shù)據(jù)庫。
與現(xiàn)有技術(shù)相比,本發(fā)明將數(shù)據(jù)流的技術(shù)應(yīng)用到虛擬資產(chǎn)的異常發(fā)現(xiàn)中,設(shè) 計(jì)了基于數(shù)據(jù)流的虛擬資產(chǎn)在線異常發(fā)現(xiàn)技術(shù)框架,使得系統(tǒng)能更快速有效地實(shí)現(xiàn)實(shí)時(shí)地檢測(cè)異常,從而更好地預(yù)防用戶的損失。
以上是對(duì)本發(fā)明進(jìn)行了示例性的描述,顯然本發(fā)明的實(shí)現(xiàn)并不受上述方式的限制,只要采用了本發(fā)明技術(shù)方案進(jìn)行的各種改進(jìn),或未經(jīng)改進(jìn)將本發(fā)明的構(gòu)思和技術(shù)方案直接應(yīng)用于其它場(chǎng)合的,均在本發(fā)明的保護(hù)范圍內(nèi)。