一種減少網(wǎng)絡(luò)審計(jì)系統(tǒng)冗余日志的方法與裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)審計(jì)日志處理領(lǐng)域,更具體地說,涉及一種減少網(wǎng)絡(luò)審計(jì)系統(tǒng)冗余日志的方法與裝置。
【背景技術(shù)】
[0002]在網(wǎng)絡(luò)審計(jì)系統(tǒng)中,日志消息扮演著至關(guān)重要的角色。日志消息不僅能夠給出系統(tǒng)運(yùn)行狀況的重要信息,這些信息有助于正確檢測(cè)系統(tǒng)運(yùn)行情況。然而在網(wǎng)絡(luò)審計(jì)系統(tǒng)中,一個(gè)日志文件里記錄了成百上千條的大量的日志消息,如當(dāng)用戶需要下載某電影時(shí),點(diǎn)擊頁面上的“下載”按鈕時(shí),會(huì)產(chǎn)生包括:客戶端地址、下載地址、電影信息、下載內(nèi)容所述類型、以及下載地址鏈接下載狀況等諸多日志,如果用戶不小心鼠標(biāo)連擊,又會(huì)產(chǎn)生許多日志,其中包括許多與第一次點(diǎn)擊相同的日志。所有這些日志中,有許多是有用的信息,許多是無用的信息。如果網(wǎng)絡(luò)審計(jì)系統(tǒng)對(duì)所有這些日志分析處理,不僅僅造成許多不必要分析運(yùn)算,而且可能給下載該電影的用戶造成麻煩,如系統(tǒng)彈出兩次下載確定窗口等。目前,一般的網(wǎng)絡(luò)審計(jì)系統(tǒng)通過對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)包進(jìn)行分析還原,將還原后的網(wǎng)絡(luò)日志記錄下來。某些音視頻應(yīng)用,客戶端會(huì)頻繁和服務(wù)器端進(jìn)行通信,導(dǎo)致記錄下很多重復(fù)的或類似的沒有分析價(jià)值的冗余日志,重復(fù)收集此類日志沒有分析的價(jià)值,反而會(huì)對(duì)網(wǎng)絡(luò)審計(jì)系統(tǒng)造成處理性能壓力。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問題在于,針對(duì)現(xiàn)有技術(shù)的上述很多分析價(jià)值的冗余日志會(huì)對(duì)網(wǎng)絡(luò)審計(jì)系統(tǒng)造成處理性能壓力的缺陷,提供一種減少網(wǎng)絡(luò)審計(jì)系統(tǒng)冗余日志的方法與
目.ο
[0004]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:構(gòu)建了一種減少網(wǎng)絡(luò)審計(jì)系統(tǒng)冗余日志的方法,包含以下步驟:
[0005]S1、抓取數(shù)據(jù)包;
[0006]S2、解析所述的數(shù)據(jù)包,得到數(shù)據(jù)包對(duì)應(yīng)日志;
[0007]S3、獲取待檢測(cè)日志的相關(guān)特征,查找第一數(shù)據(jù)庫中是否存在相同的相關(guān)特征,若存在則所述待檢測(cè)日志為相關(guān)日志,丟棄所述的相關(guān)日志,若不存在則所述待檢測(cè)日志為不相關(guān)日志,提取所述的待檢測(cè)日志的相關(guān)特征保存到第一數(shù)據(jù)庫中;
[0008]S4、若待檢測(cè)日志為不相關(guān)日志,則獲取所述待檢測(cè)日志的重復(fù)特征,查找第二數(shù)據(jù)庫中是否存在相同的重復(fù)特征,若不存在則所述的待檢測(cè)日志為不重復(fù)日志,提取所述待檢測(cè)日志的重復(fù)特征以及日志的產(chǎn)生時(shí)間保存到第二數(shù)據(jù)庫中,若存在,則獲取待檢測(cè)日志的產(chǎn)生時(shí)間以及第二數(shù)據(jù)庫中與所述待檢測(cè)日志具有相同的重復(fù)特征對(duì)應(yīng)日志的產(chǎn)生時(shí)間,判斷第二數(shù)據(jù)庫中與所述待檢測(cè)具有相同重復(fù)特征的日志之間的產(chǎn)生時(shí)間間隔是否在預(yù)設(shè)時(shí)間內(nèi),若是則所述的待檢測(cè)日志為重復(fù)日志,丟棄所述的待檢測(cè)日志,若否則為不重復(fù)日志,提取所述待檢測(cè)日志的重復(fù)特征以及日志產(chǎn)生時(shí)間保存到第二數(shù)據(jù)庫中;
[0009]所述第一數(shù)據(jù)庫保存有所述待檢測(cè)日志之前的不相關(guān)日志的相關(guān)特征,所述相關(guān)特征為根據(jù)特定規(guī)則從日志具體內(nèi)容中抽取得到,所述第二數(shù)據(jù)庫保存有所述待檢測(cè)日志之前的不重復(fù)日志的重復(fù)特征以及日志的產(chǎn)生時(shí)間,所述的重復(fù)特征包括日志的協(xié)議標(biāo)識(shí)符以及第二特征,所述第二特征為所需考慮的日志的源ip、目的ip、源端口、目的端口、網(wǎng)址。
[0010]在本發(fā)明所述的方法中,所述的相關(guān)特征包含日志的第一特征以及第一特征之間的關(guān)系表達(dá)式,所述的步驟S3包括:獲取所述待檢測(cè)日志的第一特征以及第一特征之間的關(guān)系表達(dá)式,根據(jù)述待檢測(cè)日志的第一特征以及第一特征之間的關(guān)系表達(dá)式對(duì)應(yīng)內(nèi)容查找第一配置文件中是否存在相同的內(nèi)容,所述的第一特征包括:開始字符、結(jié)束字符以及長度,所述關(guān)系表達(dá)式為或、與、非。
[0011]在本發(fā)明所述的方法中,所述的步驟S4包括:
[0012]獲取所述的待檢測(cè)日志的協(xié)議標(biāo)識(shí)符,查找第二數(shù)據(jù)庫中是否存在相同的協(xié)議標(biāo)識(shí)符,若不存在則所述的待檢測(cè)日志為不重復(fù)日志;
[0013]若第二數(shù)據(jù)庫中存在與所述不相關(guān)日志相同的協(xié)議標(biāo)識(shí)符,則提取第二特征的內(nèi)容并進(jìn)行散列處理獲得散列值,查找所述第二數(shù)據(jù)庫中與所述待檢測(cè)日志具有相同的協(xié)議標(biāo)識(shí)符的日志中是否具有相同的散列值,若否則所述待檢測(cè)日志為不重復(fù)日志,若是則第二數(shù)據(jù)庫中存在與所述待檢測(cè)日志相同的重復(fù)特征;
[0014]若所述待檢測(cè)日志為不重復(fù)日志,則獲取所述待檢測(cè)日志的協(xié)議標(biāo)識(shí)符、產(chǎn)生時(shí)間以及散列值保存到第二數(shù)據(jù)庫中,所述的第二數(shù)據(jù)庫保存有所述待檢測(cè)日志之前的不重復(fù)日志的協(xié)議標(biāo)識(shí)符、產(chǎn)生時(shí)間以及散列值。
[0015]在本發(fā)明所述的方法中,上述的散列處理為md5散列處理,所述的散列值為md5值。
[0016]在本發(fā)明所述的裝置中,上述的第一數(shù)據(jù)庫和第二數(shù)據(jù)庫為文件或者緩存中的一種。
[0017]本發(fā)明解決為了解決其技術(shù)問題,還構(gòu)建了一種減少網(wǎng)絡(luò)審計(jì)系統(tǒng)冗余日志的裝置,包含捕包裝置、協(xié)議解析裝置、相關(guān)判斷裝置、重復(fù)判斷裝置、特征處理裝置;
[0018]所述捕包裝置用于抓取數(shù)據(jù)包,并將所述數(shù)據(jù)包發(fā)送給協(xié)議分析裝置;
[0019]所述協(xié)議解析裝置用于接收捕包壯漢子發(fā)送的數(shù)據(jù)包并進(jìn)行解析,得到所述數(shù)據(jù)包對(duì)應(yīng)日志并發(fā)送給相關(guān)判斷裝置;
[0020]所述相關(guān)判斷裝置用于接收協(xié)議解析裝置發(fā)送的日志,獲取待檢測(cè)日志的相關(guān)特征,查找第一數(shù)據(jù)庫中是否存在相同的相關(guān)特征;
[0021]所述的重復(fù)判斷裝置用于在待檢測(cè)日志為不相關(guān)日志時(shí),則獲取所述待檢測(cè)日志的重復(fù)特征,查找第二數(shù)據(jù)庫中是否存在相同的重復(fù)特征,若存在,則獲取待檢測(cè)日志的產(chǎn)生時(shí)間以及第二數(shù)據(jù)庫中與所述待檢測(cè)日志具有相同的重復(fù)特征對(duì)應(yīng)日志的產(chǎn)生時(shí)間,判斷第二數(shù)據(jù)庫中與所述待檢測(cè)具有相同重復(fù)特征的日志與所述的待檢測(cè)日志之間的產(chǎn)生時(shí)間間隔是否在預(yù)設(shè)時(shí)間內(nèi);
[0022]所述特征處理裝置與所述的重復(fù)判斷裝置和相關(guān)判斷裝置連接,用于在所述待檢測(cè)日志為相關(guān)日志或者是重復(fù)日志時(shí)丟棄所述的待檢測(cè)日志,在所述待檢測(cè)日志為不相關(guān)日志,提取所述的待檢測(cè)日志的相關(guān)特征保存到第一數(shù)據(jù)庫中,在所述待檢測(cè)日志為不重復(fù)日志時(shí),提取所述的待檢測(cè)日志的重復(fù)特征以及日志的產(chǎn)生時(shí)間保存到第二數(shù)據(jù)庫中;
[0023]所述第一數(shù)據(jù)庫保存有所述待檢測(cè)日志之前的不相關(guān)日志的相關(guān)特征,所述相關(guān)特征為根據(jù)特定規(guī)則從日志具體內(nèi)容中抽取得到,所述第二數(shù)據(jù)庫保存有所述待檢測(cè)日志之前的不重復(fù)日志的重復(fù)特征以及日志的產(chǎn)生時(shí)間,所述的重復(fù)特征包括日志的協(xié)議標(biāo)識(shí)符以及第二特征,所述第二特征為所需考慮的日志的源ip、目的ip、源端口、目的端口、網(wǎng)址。
[0024]在本發(fā)明所述的裝置中,所述的相關(guān)判斷裝置包括相關(guān)特征處理裝置,用于獲取所述待檢測(cè)日志的第一特征以及第一特征之間的關(guān)系表達(dá)式,根據(jù)述待檢測(cè)日志的第一特征以及第一特征之間的關(guān)系表達(dá)式對(duì)應(yīng)內(nèi)容查找第一配置文件中是否存在相同的內(nèi)容,所述的第一特征包括:開始字符、結(jié)束字符以及長度,所述關(guān)系表達(dá)式為或、與、非。
[0025]在本發(fā)明所述的裝置中,所述的重復(fù)判斷裝置包括重復(fù)特征處理模塊以及時(shí)間間隔處理模塊,所述的重復(fù)特征處理模塊用于獲取所述的待檢測(cè)日志的協(xié)議標(biāo)識(shí)符,查找第二數(shù)據(jù)庫中是否存在相同的協(xié)議標(biāo)識(shí)符,