欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種異常組合數(shù)據(jù)的檢測方法及裝置與流程

文檔序號:12693993閱讀:355來源:國知局
一種異常組合數(shù)據(jù)的檢測方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種異常組合數(shù)據(jù)的檢測方法及裝置。



背景技術(shù):

在信息安全領(lǐng)域,需要特別關(guān)注的問題是,如何在海量數(shù)據(jù)中發(fā)現(xiàn)異常的行為。其中,在多維數(shù)據(jù)的異常檢測中,有一類稱為“組合異?!钡膯栴},對于這類問題,往往同一種組合出現(xiàn)的次數(shù)越多,則認(rèn)為該組合是異常組合的可能性越大,例如,在網(wǎng)站登錄的風(fēng)險檢測中,如果某一相同組合(比如設(shè)備、IP、用戶)被采用,以嘗試進(jìn)行多次的網(wǎng)站登錄,這很有可能是一種異常行為,在安全領(lǐng)域,這種發(fā)生在登錄時的異常行為被稱為“撞庫”行為。

然而,現(xiàn)有的異常組合檢測方法,是憑借經(jīng)驗(yàn),人工從多種組合方式中找出可能的異常組合方式,并針對找出的每種組合分別進(jìn)行聚合統(tǒng)計(jì),以從大量組合數(shù)據(jù)中統(tǒng)計(jì)出每種組合出現(xiàn)的次數(shù),并人工劃定閾值,如果某種組合的出現(xiàn)次數(shù)大于該閾值,則認(rèn)為該組合是一種頻繁組合,進(jìn)而認(rèn)為該組合是異常組合,但是,這種基于人工操作的異常組合檢測方式,耗時耗力,使得異常組合的檢測效率比較低下。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例的主要目的在于提供一種異常組合數(shù)據(jù)的檢測方法及裝置,能夠提高異常組合數(shù)據(jù)的檢測速度。

本發(fā)明實(shí)施例提供了一種異常組合數(shù)據(jù)的檢測方法,包括:

獲取待檢測的數(shù)據(jù)組合項(xiàng);

將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配;

若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為異常組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是異常組合項(xiàng)。

可選的,所述頻繁組合數(shù)據(jù)庫按照以下方式形成:

獲取數(shù)據(jù)組合樣本集,所述數(shù)據(jù)組合樣本集中包括至少一條數(shù)據(jù)組合樣本;

分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系,確定所述數(shù)據(jù)組合樣本是否為頻繁組合項(xiàng);

獲取所有被確定為頻繁組合項(xiàng)的數(shù)據(jù)組合樣本,形成所述頻繁組合數(shù)據(jù)庫。

可選的,所述分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系,包括:

利用FPGrowth關(guān)聯(lián)分析算法,分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系。

可選的,所述將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配,包括:

遍歷所述頻繁組合數(shù)據(jù)庫中的頻繁組合項(xiàng);

確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù),以及確定當(dāng)前遍歷到的頻繁組合項(xiàng)中的數(shù)據(jù)元素個數(shù);

判斷兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)是否相同;

如果不同,則遍歷下一頻繁組合項(xiàng),并執(zhí)行上述確定數(shù)據(jù)元素個數(shù)的步驟;

如果相同,則判斷兩個組合項(xiàng)中的數(shù)據(jù)元素是否全部相同,如果是,則確定匹配成功并停止遍歷,如果否,則繼續(xù)遍歷下一頻繁組合項(xiàng),并執(zhí)行上述確定數(shù)據(jù)元素個數(shù)的步驟。

可選的,所述將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配,包括:

確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù);

從所述頻繁組合數(shù)據(jù)庫中篩選出與所述數(shù)據(jù)元素個數(shù)相同的頻繁組合項(xiàng),并將篩選出的全部頻繁組合項(xiàng)形成篩選組合集;

遍歷所述篩選組合集中的頻繁組合項(xiàng);

判斷當(dāng)前遍歷到的頻繁組合項(xiàng)與所述待檢測的數(shù)據(jù)組合項(xiàng)中的各個數(shù)據(jù)元素是否全部相同;

如果是,則確定匹配成功并停止遍歷,如果否,則繼續(xù)遍歷下一頻繁組合項(xiàng),并執(zhí)行上述判斷步驟。

本發(fā)明實(shí)施例還提供了一種異常組合數(shù)據(jù)的檢測裝置,包括:

組合獲取單元,用于獲取待檢測的數(shù)據(jù)組合項(xiàng);

組合匹配單元,用于將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配;

結(jié)果確定單元,用于若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為異常組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是異常組合項(xiàng)。

可選的,所述裝置還包括:

樣本獲取單元,用于獲取數(shù)據(jù)組合樣本集,所述數(shù)據(jù)組合樣本集中包括至少一條數(shù)據(jù)組合樣本;

關(guān)聯(lián)分析單元,用于分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系,確定所述數(shù)據(jù)組合樣本是否為頻繁組合項(xiàng);

數(shù)據(jù)庫建立單元,用于獲取所有被確定為頻繁組合項(xiàng)的數(shù)據(jù)組合樣本,形成所述頻繁組合數(shù)據(jù)庫。

可選的,所述關(guān)聯(lián)分析單元,具體用于利用FPGrowth關(guān)聯(lián)分析算法,分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系。

可選的,所述組合匹配單元包括:

第一遍歷子單元,用于遍歷所述頻繁組合數(shù)據(jù)庫中的頻繁組合項(xiàng);

第一個數(shù)確定子單元,用于確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù),以及確定當(dāng)前遍歷到的頻繁組合項(xiàng)中的數(shù)據(jù)元素個數(shù);

個數(shù)判斷子單元,用于判斷兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)是否相同;

第一繼續(xù)遍歷子單元,用于如果兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)不相同,則遍歷下一頻繁組合項(xiàng),并通過所述第一個數(shù)確定子單元確定數(shù)據(jù)元素個數(shù);

第一元素判斷子單元,用于如果兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)相同,則判斷兩個組合項(xiàng)中的元素是否全部相同;

所述第一繼續(xù)遍歷子單元,還用于如果兩個組合項(xiàng)中的數(shù)據(jù)元素全部相同,則確定匹配成功并停止遍歷,如果兩個組合項(xiàng)中的元素不完全相同,則繼續(xù)遍歷下一頻繁組合項(xiàng),并通過所述第一個數(shù)確定子單元確定數(shù)據(jù)元素個數(shù)。

可選的,所述組合匹配單元包括:

第二個數(shù)確定子單元,用于確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù);

組合項(xiàng)篩選子單元,用于從所述頻繁組合數(shù)據(jù)庫中篩選出與所述數(shù)據(jù)元素個數(shù)相同的頻繁組合項(xiàng),并將篩選出的全部頻繁組合項(xiàng)形成篩選組合集;

第二遍歷子單元,用于遍歷所述篩選組合集中的頻繁組合項(xiàng);

第二元素判斷子單元,用于判斷當(dāng)前遍歷到的頻繁組合項(xiàng)與所述待檢測的數(shù)據(jù)組合項(xiàng)中的各個數(shù)據(jù)元素是否全部相同;

第二元素判斷子單元,用于如果兩個組合項(xiàng)中的元素全部相同,則確定匹配成功并停止遍歷,如果兩個組合項(xiàng)中的元素不完全相同,則繼續(xù)遍歷下一頻繁組合項(xiàng),并通過所述第二元素判斷子單元進(jìn)行判斷。

本發(fā)明實(shí)施例提供的異常組合數(shù)據(jù)的檢測方法及裝置,獲取一條待檢測的數(shù)據(jù)組合項(xiàng);將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配;若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為異常組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是異常組合項(xiàng)。即,本發(fā)明實(shí)施例基于預(yù)先建立的頻繁組合數(shù)據(jù)庫,通過匹配操作,如果頻繁組合數(shù)據(jù)庫中存在待檢測的數(shù)據(jù)組合項(xiàng),則認(rèn)為該組合項(xiàng)為頻繁組合項(xiàng),進(jìn)而認(rèn)為該組合項(xiàng)為異常組合,可見,這種自動匹配的方式可以提高異常組合數(shù)據(jù)的檢測速度。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的異常組合數(shù)據(jù)的檢測方法的流程示意圖;

圖2為本發(fā)明實(shí)施例提供的形成頻繁組合數(shù)據(jù)庫的流程示意圖;

圖3為本發(fā)明實(shí)施例提供的組合項(xiàng)的匹配流程示意圖之一;

圖4為本發(fā)明實(shí)施例提供的組合項(xiàng)的匹配流程示意圖之二;

圖5為本發(fā)明實(shí)施例提供的異常組合數(shù)據(jù)的檢測裝置的組成示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

參見圖1,為發(fā)明實(shí)施例提供的異常組合數(shù)據(jù)的檢測方法的流程示意圖,該方法包括以下步驟S101-S103:

S101:獲取待檢測的數(shù)據(jù)組合項(xiàng)。

在實(shí)際應(yīng)用中,網(wǎng)絡(luò)中存在很多數(shù)據(jù)組合項(xiàng),即每一數(shù)據(jù)組合項(xiàng)中包括至少兩個數(shù)據(jù)元素,例如,用戶在登陸購物網(wǎng)站、聊天軟件、網(wǎng)上銀行等,均需要輸入用戶名和密碼,而用于登陸的某一組具體用戶名和密碼則是一條數(shù)據(jù)組合項(xiàng)中的兩個數(shù)據(jù)元素,每一組組合數(shù)據(jù)則可以作為一條待檢測的數(shù)據(jù)組合項(xiàng)。

S102:將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配。

在本實(shí)施例中,需要預(yù)先建立一個頻繁組合數(shù)據(jù)庫,該數(shù)據(jù)庫中存儲有多個頻繁組合項(xiàng),且每一頻繁組合項(xiàng)中包括至少兩個數(shù)據(jù)元素。例如,這些頻繁組合項(xiàng)可以包括(A,B)、(A,C)、(A,B,C)、(C,D)……等等。

S103:若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為頻繁組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是頻繁組合項(xiàng)。

例如,如果所述待檢測的數(shù)據(jù)組合項(xiàng)是(A,C),則通過步驟S102將(A,C)與頻繁組合數(shù)據(jù)庫中的頻繁組合項(xiàng)進(jìn)行匹配,若發(fā)現(xiàn)頻繁組合數(shù)據(jù)庫中存在一頻繁組合項(xiàng)(A,C),則說明匹配成功,否則匹配失敗。進(jìn)一步地,如果匹配成功,則可以將待檢測的數(shù)據(jù)組合項(xiàng)(A,C)視為異常組合。

需要說明的是,本實(shí)施例不限制數(shù)據(jù)元素A和C在組合項(xiàng)中的排列方式,即(A,C)與(C,A)代表同一組合。

本發(fā)明實(shí)施例提供的異常組合數(shù)據(jù)的檢測方法,獲取一條待檢測的數(shù)據(jù)組合項(xiàng);將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配;若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為頻繁組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是頻繁組合項(xiàng)。即,本發(fā)明實(shí)施例基于預(yù)先建立的頻繁組合數(shù)據(jù)庫,通過匹配操作,如果頻繁組合數(shù)據(jù)庫中存在待檢測的數(shù)據(jù)組合項(xiàng),則認(rèn)為該組合項(xiàng)為頻繁組合項(xiàng),進(jìn)而認(rèn)為該組合項(xiàng)為異常組合,可見,這種自動匹配的方式可以提高異常組合數(shù)據(jù)的檢測速度。

具體地,下面對步驟S102的相關(guān)內(nèi)容進(jìn)行具體介紹。

在本實(shí)施例中,參見圖2所示的形成頻繁組合數(shù)據(jù)庫的流程示意圖,S102中的頻繁組合數(shù)據(jù)庫可以按照以下方式預(yù)先形成,具體形成步驟包括S201-S203:

S201:獲取數(shù)據(jù)組合樣本集,所述數(shù)據(jù)組合樣本集中包括至少一條數(shù)據(jù)組合樣本。

預(yù)先獲取一些數(shù)據(jù)組合樣本,每一數(shù)據(jù)組合樣本中包括至少兩個數(shù)據(jù)元素,本實(shí)施例中的組合數(shù)據(jù)可以是運(yùn)行在spark大數(shù)據(jù)處理環(huán)境中的數(shù)據(jù)。

需要說明的是,上述“待檢測的數(shù)據(jù)組合項(xiàng)”是當(dāng)前需要確定是否為頻繁組合項(xiàng)的數(shù)據(jù)組合;而“數(shù)據(jù)組合樣本”是在“待檢測的數(shù)據(jù)組合項(xiàng)”之前就獲取的樣本,用于在異常檢測之前預(yù)先形成頻繁組合數(shù)據(jù)庫的。

S202:分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系,確定所述數(shù)據(jù)組合樣本是否為頻繁組合項(xiàng)。

在本實(shí)施中,S202具體可以包括:利用FPGrowth關(guān)聯(lián)分析算法,分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系,確定所述數(shù)據(jù)組合樣本是否為頻繁組合項(xiàng)。

當(dāng)然,本實(shí)施例也可以采用其他關(guān)聯(lián)分析算法,比如Apriori算法,對此本實(shí)施例不做限制。

S203:獲取所有被確定為頻繁組合項(xiàng)的數(shù)據(jù)組合樣本,形成頻繁組合數(shù)據(jù)庫。

FPGrowth是一種快速關(guān)聯(lián)分析算法,通過該算法,可以快速挖掘出大數(shù)據(jù)中隱藏的頻繁項(xiàng)模式。本實(shí)施例采用FPGrowth關(guān)聯(lián)分析算法,識別出服務(wù)器日志大數(shù)據(jù)中那些頻繁出現(xiàn)的組合模式,但與傳統(tǒng)關(guān)聯(lián)分析不同的是,這里,越是頻繁的組合項(xiàng)越疑似為有問題,比如,這種頻繁組合是一種“撞庫”行為,其中,撞庫是指黑客通過收集互聯(lián)網(wǎng)已泄露的用戶和密碼信息,生成對應(yīng)的字典表,嘗試批量登陸其他網(wǎng)站后,得到一系列可以登錄的用戶,很多用戶在不同網(wǎng)站使用的是相同的帳號密碼,因此黑客可以通過獲取用戶在A網(wǎng)站的賬戶從而嘗試登錄B網(wǎng)址,這就可以理解為撞庫攻擊。

本實(shí)施例通過關(guān)聯(lián)分析獲得樣本集中的頻繁組合項(xiàng),并利用這些頻繁組合項(xiàng)構(gòu)建一個頻繁組合數(shù)據(jù)庫,這樣帶來的有益效果是能夠快速獲得頻繁出現(xiàn)的特征組合,而不需要針對所有不同組合情況分別進(jìn)行統(tǒng)計(jì)和判斷,這大大節(jié)省了計(jì)算資源的開銷,并且大大提升了異常檢測中的自動化能力。

可見,采用FPGrowth進(jìn)行關(guān)聯(lián)分析的過程,即是對具有關(guān)聯(lián)關(guān)系的組合進(jìn)行數(shù)據(jù)解耦的過程,以從大量組合樣本中找出每一頻繁組合項(xiàng),這樣,對于一個待檢測組合項(xiàng),無需關(guān)心它與其他待檢測組合項(xiàng)之間的耦合關(guān)系,只需要共享頻繁組合數(shù)據(jù)庫并從中匹配出相同的組合項(xiàng),即認(rèn)為該待檢測組合項(xiàng)為頻繁組合項(xiàng)。

在本實(shí)施例中,關(guān)于步驟S102,即“將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配”,可以采用以下兩種實(shí)施方式之一實(shí)現(xiàn),具體如下:

在第一種實(shí)施方式中,參見圖3所示的組合項(xiàng)的匹配流程示意圖,可以包括S301-S306:

S301:遍歷所述頻繁組合數(shù)據(jù)庫中的頻繁組合項(xiàng)。

可以將頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng),按照字母或是數(shù)據(jù)元素個數(shù)進(jìn)行排序,然后根據(jù)排序結(jié)果依次遍歷。

S302:確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù),以及,確定當(dāng)前遍歷到的頻繁組合項(xiàng)中的數(shù)據(jù)元素個數(shù)。

S303:判斷兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)是否相同,如果否,則執(zhí)行步驟S304,如果是,則執(zhí)行步驟S305。

例如,假設(shè)這兩個組合中的數(shù)據(jù)元素個數(shù)一個是2、一個是3,說明這兩個組合是不同的,則執(zhí)行步驟S304;假設(shè)這兩個組合中的數(shù)據(jù)元素個數(shù)均是2,則這兩個組合有可能相同,則執(zhí)行步驟S305繼續(xù)判斷。

S304:遍歷下一頻繁組合項(xiàng),并執(zhí)行步驟S302。

S305:判斷兩個組合項(xiàng)中的數(shù)據(jù)元素是否全部相同,如果是,則執(zhí)行步驟S306,如果否,則執(zhí)行步驟S304。

例如,假設(shè)待檢測的組合項(xiàng)和當(dāng)前遍歷的組合項(xiàng)均是(A,C),則匹配成功,否則,繼續(xù)遍歷并匹配。

S306:確定匹配成功并停止遍歷。

在第二種實(shí)施方式中,參見圖4所示的組合項(xiàng)的匹配流程示意圖,可以包括S401-S405:

S401:確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù)。

S402:從所述頻繁組合數(shù)據(jù)庫中篩選出與所述數(shù)據(jù)元素個數(shù)相同的頻繁組合項(xiàng),并將篩選出的全部頻繁組合項(xiàng)形成篩選組合集。

在本實(shí)施例中,可以預(yù)先將頻繁組合數(shù)據(jù)庫進(jìn)行分組,即將具有相同數(shù)據(jù)元素個數(shù)的組合項(xiàng)分為一組,這樣,如果待檢測的組合項(xiàng)為(A,C),則其數(shù)據(jù)元素個數(shù)為2,此時,只需要從頻繁組合數(shù)據(jù)庫中找出所有數(shù)據(jù)元素個數(shù)為2的一組頻繁組合項(xiàng)即可,這些組合項(xiàng)即形成了所述篩選組合集。

S403:遍歷所述篩選組合集中的頻繁組合項(xiàng)。

在本實(shí)施例中,可以將所述篩選組合集中的頻繁組合項(xiàng),按照字母等方式進(jìn)行排序,然后根據(jù)排序結(jié)果依次遍歷。

基于上個例子,只需要依次遍歷數(shù)據(jù)元素個數(shù)為2的各個頻繁組合項(xiàng),以進(jìn)行組合項(xiàng)的匹配,這樣,節(jié)省了匹配時間、增加了匹配效率。

S404:判斷當(dāng)前遍歷到的頻繁組合項(xiàng)與所述待檢測的數(shù)據(jù)組合項(xiàng)中的各個數(shù)據(jù)元素是否全部相同;如果是,則執(zhí)行步驟S406,如果否,則執(zhí)行步驟S405。

基于上個例子,假設(shè)待檢測的組合項(xiàng)和當(dāng)前遍歷的組合項(xiàng)均是(A,C),則匹配成功,否則,繼續(xù)遍歷并匹配。

S405:繼續(xù)遍歷下一頻繁組合項(xiàng),并執(zhí)行步驟S404。

S406:確定匹配成功并停止遍歷。

參見圖5,為本發(fā)明實(shí)施例提供的異常組合數(shù)據(jù)的檢測裝置的組成示意圖,該裝置包括:

組合獲取單元501,用于獲取待檢測的數(shù)據(jù)組合項(xiàng);

組合匹配單元502,用于將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配;

結(jié)果確定單元503,用于若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為異常組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是異常組合項(xiàng)。

在一些實(shí)施方式中,所述裝置還包括:

樣本獲取單元,用于獲取數(shù)據(jù)組合樣本集,所述數(shù)據(jù)組合樣本集中包括至少一條數(shù)據(jù)組合樣本;

關(guān)聯(lián)分析單元,用于分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系,確定所述數(shù)據(jù)組合樣本是否為頻繁組合項(xiàng);

數(shù)據(jù)庫建立單元,用于獲取所有被確定為頻繁組合項(xiàng)的數(shù)據(jù)組合樣本,形成所述頻繁組合數(shù)據(jù)庫。

在一些實(shí)施方式中,所述關(guān)聯(lián)分析單元,具體用于利用FPGrowth關(guān)聯(lián)分析算法,分析各個數(shù)據(jù)組合樣本之間的關(guān)聯(lián)關(guān)系。

在一些實(shí)施方式中,所述組合匹配單元502可以包括:

第一遍歷子單元,用于遍歷所述頻繁組合數(shù)據(jù)庫中的頻繁組合項(xiàng);

第一個數(shù)確定子單元,用于確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù),以及確定當(dāng)前遍歷到的頻繁組合項(xiàng)中的數(shù)據(jù)元素個數(shù);

個數(shù)判斷子單元,用于判斷兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)是否相同;

第一繼續(xù)遍歷子單元,用于如果兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)不相同,則遍歷下一頻繁組合項(xiàng),并通過所述第一個數(shù)確定子單元確定數(shù)據(jù)元素個數(shù);

第一元素判斷子單元,用于如果兩個組合項(xiàng)中的數(shù)據(jù)元素個數(shù)相同,則判斷兩個組合項(xiàng)中的元素是否全部相同;

所述第一繼續(xù)遍歷子單元,還用于如果兩個組合項(xiàng)中的數(shù)據(jù)元素全部相同,則確定匹配成功并停止遍歷,如果兩個組合項(xiàng)中的元素不完全相同,則繼續(xù)遍歷下一頻繁組合項(xiàng),并通過所述第一個數(shù)確定子單元確定數(shù)據(jù)元素個數(shù)。

在一些實(shí)施方式中,所述組合匹配單元502可以包括:

第二個數(shù)確定子單元,用于確定所述待檢測的數(shù)據(jù)組合項(xiàng)中的數(shù)據(jù)元素個數(shù);

組合項(xiàng)篩選子單元,用于從所述頻繁組合數(shù)據(jù)庫中篩選出與所述數(shù)據(jù)元素個數(shù)相同的頻繁組合項(xiàng),并將篩選出的全部頻繁組合項(xiàng)形成篩選組合集;

第二遍歷子單元,用于遍歷所述篩選組合集中的頻繁組合項(xiàng);

第二元素判斷子單元,用于判斷當(dāng)前遍歷到的頻繁組合項(xiàng)與所述待檢測的數(shù)據(jù)組合項(xiàng)中的各個數(shù)據(jù)元素是否全部相同;

第二元素判斷子單元,用于如果兩個組合項(xiàng)中的元素全部相同,則確定匹配成功并停止遍歷,如果兩個組合項(xiàng)中的元素不完全相同,則繼續(xù)遍歷下一頻繁組合項(xiàng),并通過所述第二元素判斷子單元進(jìn)行判斷。

所述異常組合數(shù)據(jù)的檢測裝置包括處理器和存儲器,上述組合獲取單元501、組合匹配單元502、結(jié)果確定單元503等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實(shí)現(xiàn)相應(yīng)的功能。

處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來提高異常組合數(shù)據(jù)的檢測速度。

存儲器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。

本發(fā)明實(shí)施例提供的異常組合數(shù)據(jù)的檢測裝置,獲取一條待檢測的數(shù)據(jù)組合項(xiàng);將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配;若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為頻繁組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是頻繁組合項(xiàng)。即,本發(fā)明實(shí)施例基于預(yù)先建立的頻繁組合數(shù)據(jù)庫,通過匹配操作,如果頻繁組合數(shù)據(jù)庫中存在待檢測的數(shù)據(jù)組合項(xiàng),則認(rèn)為該組合項(xiàng)為頻繁組合項(xiàng),進(jìn)而認(rèn)為該組合項(xiàng)為異常組合,可見,這種自動匹配的方式可以提高異常組合數(shù)據(jù)的檢測速度。

本申請還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:

獲取待檢測的數(shù)據(jù)組合項(xiàng);

將所述待檢測的數(shù)據(jù)組合項(xiàng)與頻繁組合數(shù)據(jù)庫中的各個頻繁組合項(xiàng)進(jìn)行匹配;

若存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)為異常組合項(xiàng),若不存在匹配結(jié)果,則確定所述待檢測的數(shù)據(jù)組合項(xiàng)不是異常組合項(xiàng)。

通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法中的全部或部分步驟可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個人計(jì)算機(jī),服務(wù)器,或者諸如媒體網(wǎng)關(guān)等網(wǎng)絡(luò)通信設(shè)備,等等)執(zhí)行本發(fā)明各個實(shí)施例或者實(shí)施例的某些部分所述的方法。

需要說明的是,對于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。

還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
广河县| 神木县| 信丰县| 基隆市| 大同县| 娱乐| 图木舒克市| 裕民县| 阿荣旗| 永寿县| 凤城市| 申扎县| 双鸭山市| 延安市| 台东市| 崇明县| 同江市| 淮阳县| 宜兴市| 蓝田县| 白朗县| 和田县| 开阳县| 石门县| 山西省| 永川市| 清水河县| 霸州市| 邛崃市| 河源市| 吴桥县| 阿荣旗| 凌源市| 澳门| 横峰县| 高雄县| 麻江县| 武冈市| 正蓝旗| 耒阳市| 黔东|