本發(fā)明涉及一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng)。
背景技術(shù):
:隨著web技術(shù)的發(fā)展,大量的信息系統(tǒng)部署在網(wǎng)絡(luò)上對(duì)外提供服務(wù)。信息系統(tǒng)在為信息發(fā)布和交互帶來(lái)便利的同時(shí),針對(duì)系統(tǒng)的web攻擊越來(lái)越多,系統(tǒng)安全已成為一個(gè)日益重要的問(wèn)題。根據(jù)國(guó)家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布《中國(guó)互聯(lián)網(wǎng)站發(fā)展?fàn)顩r及其安全報(bào)告(2016)》顯示,針對(duì)信息系統(tǒng)的sql注入、網(wǎng)頁(yè)篡改、網(wǎng)站后門(mén)等web攻擊事件層出不窮,黨政機(jī)關(guān)、科研機(jī)構(gòu)、重要行業(yè)單位網(wǎng)站是黑客組織攻擊的重點(diǎn)目標(biāo)。對(duì)于采用技術(shù)手段繞過(guò)防火墻的入侵攻擊,防火墻無(wú)法檢測(cè)和告警。信息系統(tǒng)的應(yīng)用服務(wù)器有記錄用戶訪問(wèn)行為的日志數(shù)據(jù),包括用戶操作行為、訪問(wèn)請(qǐng)求和系統(tǒng)錯(cuò)誤異常等。因此要全面掌握系統(tǒng)安全狀況,及時(shí)定位web攻擊,實(shí)時(shí)分析信息系統(tǒng)日志數(shù)據(jù)非常必要。黑客在獲得控制權(quán)后會(huì)立即竊取篡改數(shù)據(jù)或?qū)嵤┢茐男袨?,完成攻擊后很有可能清除入侵痕跡。因此,第一時(shí)間發(fā)現(xiàn)web攻擊行為十分重要,特別是對(duì)于規(guī)模龐大的信息系統(tǒng)或者數(shù)據(jù)中心,web攻擊檢測(cè)方法必須要支持海量的日志數(shù)據(jù)實(shí)時(shí)在線檢測(cè)。當(dāng)前關(guān)于web攻擊的檢測(cè)方法側(cè)重于研究攻擊檢測(cè)方法的準(zhǔn)確性和完備性。專利(cn201510889266.0)“一種web攻擊檢測(cè)方法和裝置”公開(kāi)了一種web攻擊檢測(cè)方法。該方法實(shí)現(xiàn)了基于url正常行為模型的web攻擊檢測(cè)。但是該方法沒(méi)有考慮web攻擊的實(shí)時(shí)檢測(cè)需求,難以滿足海量日志數(shù)據(jù)分析的實(shí)時(shí)性要求。技術(shù)實(shí)現(xiàn)要素:針對(duì)以上問(wèn)題,本發(fā)明提出了一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng)。包括采用多緩存隊(duì)列,在線采集和分發(fā)應(yīng)用服務(wù)器日志數(shù)據(jù);采用集群式處理架構(gòu)設(shè)計(jì),動(dòng)態(tài)調(diào)配分析節(jié)點(diǎn)負(fù)載,保障海量日志數(shù)據(jù)分析的實(shí)時(shí)性和可靠性;采用基于動(dòng)態(tài)時(shí)間窗口的流數(shù)據(jù)分析方法,實(shí)時(shí)檢測(cè)攻擊事件。本發(fā)明能夠提高應(yīng)用服務(wù)器日志分析處理能力和時(shí)效性,提高web攻擊檢測(cè)的及時(shí)性,提高信息系統(tǒng)的安全性。為了實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明的技術(shù)方案是,一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),包括日志數(shù)據(jù)采集客戶端、日志數(shù)據(jù)緩存集群和流數(shù)據(jù)檢測(cè)集群;所述的日志數(shù)據(jù)采集客戶端是將信息系統(tǒng)應(yīng)用服務(wù)器日志封裝成syslog消息格式的客戶端軟件;所述的日志數(shù)據(jù)緩存集群由至少兩個(gè)日志數(shù)據(jù)緩存模塊組成,通過(guò)以太網(wǎng)與日志數(shù)據(jù)采集客戶端、流數(shù)據(jù)檢測(cè)集群連接;所述的流數(shù)據(jù)檢測(cè)集群由至少兩個(gè)流數(shù)據(jù)檢測(cè)模塊組成;所述的日志數(shù)據(jù)緩存模塊包括分發(fā)線程、維護(hù)線程和至少一個(gè)緩沖隊(duì)列;分發(fā)線程接收來(lái)自日志數(shù)據(jù)采集客戶端的syslog消息,并轉(zhuǎn)化為統(tǒng)一格式的消息對(duì)象,再將消息對(duì)象分發(fā)到緩存隊(duì)列,維護(hù)線程用于清理緩沖隊(duì)列中不符合要求的消息對(duì)象;所述的流數(shù)據(jù)檢測(cè)模塊包括流數(shù)據(jù)生產(chǎn)模塊、流數(shù)據(jù)一級(jí)處理模塊、流數(shù)據(jù)二級(jí)處理模塊和流數(shù)據(jù)三級(jí)處理模塊;流數(shù)據(jù)生產(chǎn)模塊提取日志數(shù)據(jù)緩存模塊的消息對(duì)象,并轉(zhuǎn)化為統(tǒng)一格式的流數(shù)據(jù)單元;流數(shù)據(jù)一級(jí)處理模塊采用wu-manber多模匹配算法檢測(cè)流數(shù)據(jù)單元中是否含有攻擊特征關(guān)鍵字,將含有特征關(guān)鍵字的流數(shù)據(jù)單元發(fā)送到流數(shù)據(jù)二級(jí)處理模塊中;流數(shù)據(jù)二級(jí)處理模塊采用流數(shù)據(jù)分析模型,去除重復(fù)的攻擊事件,統(tǒng)計(jì)攻擊次數(shù),并將融合的攻擊事件檢測(cè)結(jié)果發(fā)送至流數(shù)據(jù)三級(jí)檢測(cè)模塊;流數(shù)據(jù)三級(jí)檢測(cè)模塊將檢測(cè)結(jié)果存入關(guān)系數(shù)據(jù)庫(kù)中。所述的一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),所述的分發(fā)線程將syslog消息轉(zhuǎn)化成格式為<消息頭,消息體>,表示為<head,body>的統(tǒng)一格式的消息對(duì)象。所述的一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),所述的分發(fā)線程根據(jù)消息對(duì)象根據(jù)分配函數(shù),將消息對(duì)象分發(fā)到第i個(gè)緩存隊(duì)列,分配函數(shù)公式如下:i=|h(head)|%n其中h(head)為消息對(duì)象頭字符串的哈希值,n為緩沖隊(duì)列的個(gè)數(shù)。所述的一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),維護(hù)線程清理緩沖隊(duì)列中不符合要求的消息對(duì)象,是從緩沖隊(duì)列中刪除距離當(dāng)前時(shí)間超過(guò)維護(hù)線程時(shí)間閾值t1的消息對(duì)象,其中維護(hù)線程時(shí)間閾值t1是在系統(tǒng)啟動(dòng)初始化時(shí)進(jìn)行設(shè)置的。所述的一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),所述的流數(shù)據(jù)生產(chǎn)模塊包括至少一個(gè)處理單元、流數(shù)據(jù)維護(hù)線程和流數(shù)據(jù)緩沖隊(duì)列;所述的處理單元用于提取日志數(shù)據(jù)緩存模塊中的消息對(duì)象,并轉(zhuǎn)換成流數(shù)據(jù)單元;流數(shù)據(jù)緩沖隊(duì)列的一個(gè)元素為一個(gè)流數(shù)據(jù)單元,隊(duì)列長(zhǎng)度根流數(shù)據(jù)單元的規(guī)模進(jìn)行配置;流數(shù)據(jù)維護(hù)線程用于從流數(shù)據(jù)緩沖隊(duì)列中刪除日志時(shí)間距離當(dāng)前時(shí)間超過(guò)流數(shù)據(jù)維護(hù)線程時(shí)間閾值t3的消息對(duì)象,其中流數(shù)據(jù)維護(hù)線程時(shí)間閾值t3是在系統(tǒng)啟動(dòng)初始化時(shí)進(jìn)行設(shè)置的。所述的一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),所述的處理單元由至少一個(gè)流數(shù)據(jù)提取線程和主管線程組成,流數(shù)據(jù)提取線程用于一一對(duì)應(yīng)的提取日志數(shù)據(jù)緩存模塊的緩沖隊(duì)列中的信息對(duì)象,即流數(shù)據(jù)提取線程i僅用于提取緩沖隊(duì)列i中的消息對(duì)象,所述的主管線程負(fù)責(zé)創(chuàng)建和維護(hù)流數(shù)據(jù)提取線程。所述的一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),所述的流數(shù)據(jù)二級(jí)處理模塊包括流數(shù)據(jù)分析模型、過(guò)程對(duì)象維護(hù)線程和過(guò)程對(duì)象隊(duì)列;所述的流數(shù)據(jù)分析模型用于統(tǒng)計(jì)和融合檢測(cè)結(jié)果;過(guò)程對(duì)象隊(duì)列中以一個(gè)過(guò)程對(duì)象為一個(gè)元素,隊(duì)列長(zhǎng)度根據(jù)對(duì)象的規(guī)模進(jìn)行配置,過(guò)程對(duì)象維護(hù)線程用于從過(guò)程對(duì)象隊(duì)列中刪除距離當(dāng)前時(shí)間超過(guò)過(guò)程對(duì)象維護(hù)線程時(shí)間閾值t2的過(guò)程對(duì)象,其中過(guò)程對(duì)象維護(hù)線程時(shí)間閾值t2是在系統(tǒng)啟動(dòng)初始化時(shí)進(jìn)行設(shè)置的。所述的一種基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),所述的流數(shù)據(jù)分析模型采用如下步驟建立:步驟1,計(jì)算其中一個(gè)流數(shù)據(jù)單元中server_port、server_ip、client_ip三個(gè)屬性組合字符串的hash值,并在過(guò)程對(duì)象隊(duì)列中查找是否存在具有相同的hash值的過(guò)程對(duì)象,如果找到相同過(guò)程對(duì)象v,轉(zhuǎn)到步驟2;如果沒(méi)有找到,則轉(zhuǎn)到步驟3;步驟2,更新所有過(guò)程對(duì)象中的時(shí)間窗口屬性值,方法如下:δt=asctime-c_timeti=tavg+σ(t)其中c_time為標(biāo)識(shí)時(shí)間,用于標(biāo)識(shí)過(guò)程對(duì)象v的最后更新時(shí)間;ti為過(guò)程對(duì)象v的時(shí)間窗口屬性;c_time和ti均是系統(tǒng)啟動(dòng)初始化時(shí)設(shè)置;δt是時(shí)間差,tavg是時(shí)間窗口平均值,[t1,t2...tr]為過(guò)程對(duì)象隊(duì)列中所有過(guò)程對(duì)象的ti屬性的集合,r是過(guò)程對(duì)象隊(duì)列的長(zhǎng)度,σ(t)是事件窗口的均方誤差,asctime為訪問(wèn)時(shí)間;計(jì)算流數(shù)據(jù)單元u的asctime屬性值與過(guò)程對(duì)象v的c_time屬性值之間的差值,并根據(jù)差值更新過(guò)程對(duì)象v的count屬性值,方法如下:更新過(guò)程對(duì)象v的c_time為asctime,如果count大于統(tǒng)計(jì)閾值c,則轉(zhuǎn)到步驟4,否則轉(zhuǎn)向步驟1,其中count為計(jì)數(shù)器;步驟3,由過(guò)程對(duì)象維護(hù)線程創(chuàng)建一個(gè)新的過(guò)程對(duì)象,設(shè)置count屬性值為1,標(biāo)識(shí)c_time時(shí)間設(shè)置為asctime,轉(zhuǎn)到步驟1;步驟4,將過(guò)程對(duì)象v發(fā)送至流數(shù)據(jù)三級(jí)檢測(cè)模塊,轉(zhuǎn)到步驟1。本發(fā)明的技術(shù)效果在于,采用多緩存隊(duì)列,實(shí)時(shí)在線采集信息系統(tǒng)應(yīng)用日志,能夠防止黑客完成攻擊后清除日志數(shù)據(jù);采用集群框架設(shè)計(jì),整個(gè)安全日志數(shù)據(jù)處理流程由志數(shù)據(jù)緩存集群和流數(shù)據(jù)檢測(cè)集群組成,能夠?qū)崿F(xiàn)負(fù)載均衡和解決單點(diǎn)故障,提高數(shù)據(jù)處理的實(shí)時(shí)性和可靠性;采用基于動(dòng)態(tài)時(shí)間窗口的流數(shù)據(jù)分析方法,能夠根據(jù)不同的場(chǎng)景,動(dòng)態(tài)調(diào)整時(shí)間窗口閾值,提高數(shù)據(jù)融合的準(zhǔn)確性。附圖說(shuō)明圖1為本發(fā)明實(shí)施例的基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)方法框架示意圖;圖2為圖1中日志緩存模塊框架圖;圖3為圖1中流數(shù)據(jù)檢測(cè)模塊框架圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。本實(shí)施例通過(guò)以下過(guò)程實(shí)現(xiàn),第一步,首先搭建web攻擊實(shí)時(shí)在線檢測(cè)系統(tǒng),系統(tǒng)由日志數(shù)據(jù)采集客戶端、日志數(shù)據(jù)緩存集群和流數(shù)據(jù)檢測(cè)集群組成。日志數(shù)據(jù)采集客戶端是一種將信息系統(tǒng)應(yīng)用服務(wù)器日志封裝成syslog(是一種用來(lái)在互聯(lián)網(wǎng)協(xié)議的網(wǎng)絡(luò)中傳遞記錄檔訊息的標(biāo)準(zhǔn))消息格式的客戶端軟件,常見(jiàn)的開(kāi)源syslog軟件有nxlog和evtsys,本發(fā)明在windows和linux主機(jī)使用syslog軟件的是nxlog。日志數(shù)據(jù)緩存集群由k個(gè)(k>1)日志數(shù)據(jù)緩存模塊組成,通過(guò)以太網(wǎng)與日志數(shù)據(jù)采集客戶端、流數(shù)據(jù)檢測(cè)集群連接。流數(shù)據(jù)檢測(cè)集群由r個(gè)(r>1)流數(shù)據(jù)檢測(cè)模塊組成。日志數(shù)據(jù)緩存模塊由分發(fā)線程、維護(hù)線程和n個(gè)(n≥1)緩沖隊(duì)列組成。分發(fā)線程從tcp數(shù)據(jù)通信鏈路中接收來(lái)自日志數(shù)據(jù)采集客戶端的syslog消息,并轉(zhuǎn)化為統(tǒng)一格式的消息對(duì)象,格式為<消息頭,消息體>,表示為<head,body>,再將消息對(duì)象根據(jù)分配函數(shù),分發(fā)到第i個(gè)緩存隊(duì)列,分配函數(shù)公式如下:i=|h(head)|%n其中h(head)為消息頭字符串的哈希值。緩沖隊(duì)列的一個(gè)元素為一個(gè)syslog消息對(duì)象,隊(duì)列長(zhǎng)度根據(jù)消息對(duì)象的規(guī)模進(jìn)行配置,隊(duì)列長(zhǎng)度設(shè)置為50000000。維護(hù)線程根據(jù)時(shí)間閾值t1的配置,清理緩沖隊(duì)列的數(shù)據(jù),即從緩沖隊(duì)列中刪除距離當(dāng)前時(shí)間超過(guò)t1的消息對(duì)象,釋放內(nèi)存空間。流數(shù)據(jù)檢測(cè)模塊由流數(shù)據(jù)生產(chǎn)模塊、流數(shù)據(jù)一級(jí)處理模塊、流數(shù)據(jù)二級(jí)處理模塊和流數(shù)據(jù)三級(jí)處理模塊組成。流數(shù)據(jù)生產(chǎn)模塊提取日志數(shù)據(jù)緩存模塊的消息對(duì)象,并轉(zhuǎn)化為統(tǒng)一格式的流數(shù)據(jù)單元。流數(shù)據(jù)一級(jí)處理模塊采用wu-manber多模匹配算法檢測(cè)流數(shù)據(jù)單元中是否含有攻擊特征關(guān)鍵字,將含有特征關(guān)鍵字的流數(shù)據(jù)單元發(fā)送到流數(shù)據(jù)二級(jí)處理模塊中。流數(shù)據(jù)二級(jí)處理模塊采用基于時(shí)間窗口的流數(shù)據(jù)分析模型,分析檢測(cè)結(jié)果,并將流數(shù)據(jù)單元發(fā)送至流數(shù)據(jù)三級(jí)檢測(cè)模塊。流數(shù)據(jù)三級(jí)檢測(cè)模塊將檢測(cè)結(jié)果存入關(guān)系數(shù)據(jù)庫(kù)中。流數(shù)據(jù)二級(jí)處理模塊由流數(shù)據(jù)分析模型、過(guò)程對(duì)象維護(hù)線程和過(guò)程對(duì)象隊(duì)列組成。流數(shù)據(jù)分析模型統(tǒng)計(jì)和融合檢測(cè)結(jié)果。過(guò)程對(duì)象隊(duì)列的一個(gè)元素為一個(gè)過(guò)程對(duì)象,隊(duì)列長(zhǎng)度根據(jù)對(duì)象的規(guī)模進(jìn)行配置,通常一個(gè)過(guò)程對(duì)象隊(duì)列最大接收規(guī)模為1000個(gè)每秒,隊(duì)列長(zhǎng)度設(shè)置為1000。過(guò)程對(duì)象維護(hù)線程根據(jù)時(shí)間閾值t2的配置,清理過(guò)程對(duì)象隊(duì)列的數(shù)據(jù),即從過(guò)程對(duì)象隊(duì)列中刪除距離當(dāng)前時(shí)間超過(guò)t2的消息對(duì)象,釋放內(nèi)存空間。流數(shù)據(jù)分析模型采用如下步驟建立:步驟1,計(jì)算其中一個(gè)流數(shù)據(jù)單元中server_port、server_ip、client_ip三個(gè)屬性組合字符串的hash值,并在過(guò)程對(duì)象隊(duì)列中查找是否存在具有相同的hash值的過(guò)程對(duì)象,如果找到相同過(guò)程對(duì)象v,轉(zhuǎn)到步驟2;如果沒(méi)有找到,則轉(zhuǎn)到步驟3;步驟2,更新所有過(guò)程對(duì)象中的時(shí)間窗口屬性值,方法如下:δt=asctime-c_timeti=tavg+σ(t)其中c_time為標(biāo)識(shí)時(shí)間,用于標(biāo)識(shí)過(guò)程對(duì)象v的最后更新時(shí)間;ti為過(guò)程對(duì)象v的時(shí)間窗口屬性;c_time和ti均是系統(tǒng)啟動(dòng)初始化時(shí)設(shè)置;δt是時(shí)間差,tavg是時(shí)間窗口平均值,[t1,t2...tr]為過(guò)程對(duì)象隊(duì)列中所有過(guò)程對(duì)象的ti屬性的集合,r是過(guò)程對(duì)象隊(duì)列的長(zhǎng)度,σ(t)是事件窗口的均方誤差,asctime為訪問(wèn)時(shí)間;計(jì)算流數(shù)據(jù)單元u的asctime屬性值與過(guò)程對(duì)象v的c_time屬性值之間的差值,并根據(jù)差值更新過(guò)程對(duì)象v的count屬性值,方法如下:更新過(guò)程對(duì)象v的c_time為asctime,如果count大于統(tǒng)計(jì)閾值c,則轉(zhuǎn)到步驟4,否則轉(zhuǎn)向步驟1,其中count為計(jì)數(shù)器;步驟3,由過(guò)程對(duì)象維護(hù)線程創(chuàng)建一個(gè)新的過(guò)程對(duì)象,設(shè)置count屬性值為1,標(biāo)識(shí)c_time時(shí)間設(shè)置為asctime,轉(zhuǎn)到步驟1;步驟4,將過(guò)程對(duì)象v發(fā)送至流數(shù)據(jù)三級(jí)檢測(cè)模塊,轉(zhuǎn)到步驟1。流數(shù)據(jù)生產(chǎn)模塊由m個(gè)(m≥1)個(gè)處理單元、流數(shù)據(jù)維護(hù)線程和流數(shù)據(jù)緩沖隊(duì)列組成。其中處理單元負(fù)責(zé)提取日志數(shù)據(jù)緩存模塊中的消息對(duì)象,并轉(zhuǎn)換成流數(shù)據(jù)單元。處理單元由n個(gè)(n≥1)流數(shù)據(jù)提取線程和主管線程組成,流數(shù)據(jù)提取線程與日志數(shù)據(jù)緩存模塊的緩沖隊(duì)列為一一對(duì)應(yīng)關(guān)系,即流數(shù)據(jù)提取線程i只能提取緩沖隊(duì)列i中的消息對(duì)象,主管線程負(fù)責(zé)創(chuàng)建和維護(hù)流數(shù)據(jù)提取線程。流數(shù)據(jù)緩沖隊(duì)列的一個(gè)元素為一個(gè)流數(shù)據(jù)單元,隊(duì)列長(zhǎng)度根流數(shù)據(jù)單元的規(guī)模進(jìn)行配置,隊(duì)列長(zhǎng)度設(shè)置為100000000。流數(shù)據(jù)維護(hù)線程根據(jù)時(shí)間閾值t3的配置清理流數(shù)據(jù)緩沖隊(duì)列的數(shù)據(jù),即從流數(shù)據(jù)緩沖隊(duì)列中刪除日志時(shí)間距離當(dāng)前時(shí)間超過(guò)t3的消息對(duì)象,釋放內(nèi)存空間。第二步,初始化多源安全日志采集系統(tǒng)。2.1在日志源安裝syslog客戶端軟件,。2.2為流數(shù)據(jù)分析模型預(yù)設(shè)一個(gè)標(biāo)識(shí)時(shí)間c_time,預(yù)設(shè)一個(gè)時(shí)間窗口tp。2.3設(shè)置維護(hù)線程的時(shí)間閾值t1為24小時(shí),設(shè)置對(duì)象維護(hù)線程的時(shí)間閾值t2為5分鐘,設(shè)置流數(shù)據(jù)維護(hù)線程的時(shí)間閾值t3為24小時(shí),第三步,syslog客戶端啟動(dòng)syslog程序,向日志數(shù)據(jù)緩存模塊發(fā)送日志數(shù)據(jù)。日志數(shù)據(jù)緩存模塊的分發(fā)線程根據(jù)分配函數(shù),將日志數(shù)據(jù)轉(zhuǎn)化為消息對(duì)象并發(fā)送至緩沖隊(duì)列,維護(hù)線程判斷緩沖隊(duì)列中消息對(duì)象消息頭的時(shí)間屬性值距離當(dāng)前時(shí)間的值是否大于閾值t1,如果大于,則刪除該消息對(duì)象。第四步,流數(shù)據(jù)生產(chǎn)模塊的主管線程根據(jù)緩沖隊(duì)列的數(shù)量,創(chuàng)建流數(shù)據(jù)提取線程。流數(shù)據(jù)提取線程提取緩沖隊(duì)列中的消息對(duì)象,轉(zhuǎn)化為統(tǒng)一格式的流數(shù)據(jù)單元,并放入流數(shù)據(jù)緩沖隊(duì)列。流數(shù)據(jù)維護(hù)線程判斷流數(shù)據(jù)緩存隊(duì)列中流數(shù)據(jù)對(duì)象的asctime屬性值距離當(dāng)前時(shí)間的差值是否大于閾值t3,如果大于,則刪除該流數(shù)據(jù)對(duì)象。第五步,流數(shù)據(jù)一級(jí)處理模塊調(diào)用wu-manber多模匹配算法檢測(cè)流數(shù)據(jù)單元中是否含有攻擊特征關(guān)鍵字,如果含有,將流數(shù)據(jù)單元發(fā)送到流數(shù)據(jù)二級(jí)處理模塊。第六步,流數(shù)據(jù)二級(jí)處理模塊采用流數(shù)據(jù)分析模型,去除重復(fù)的攻擊事件,統(tǒng)計(jì)攻擊次數(shù),將融合的攻擊事件檢測(cè)結(jié)果發(fā)送至流數(shù)據(jù)三級(jí)處理模塊。第七步,流數(shù)據(jù)三級(jí)處理模塊將檢測(cè)結(jié)果存入關(guān)系數(shù)據(jù)庫(kù)中。圖1是本發(fā)明涉及的基于流數(shù)據(jù)分析的web攻擊實(shí)時(shí)在線檢測(cè)方法框架示意圖,系統(tǒng)由日志數(shù)據(jù)采集客戶端、日志數(shù)據(jù)緩存集群和流數(shù)據(jù)檢測(cè)集群組成。日志數(shù)據(jù)采集客戶端是一種將信系統(tǒng)應(yīng)用服務(wù)器日志封裝成syslog(是一種用來(lái)在互聯(lián)網(wǎng)協(xié)議的網(wǎng)絡(luò)中傳遞記錄檔訊息的標(biāo)準(zhǔn))消息格式的客戶端軟件,常見(jiàn)的開(kāi)源syslog軟件有nxlog和evtsys,本發(fā)明在windows和linux主機(jī)使用syslog軟件的是nxlog。日志數(shù)據(jù)緩存集群由k個(gè)(k>1)日志數(shù)據(jù)緩存模塊組成,通過(guò)以太網(wǎng)與日志數(shù)據(jù)采集客戶端、流數(shù)據(jù)檢測(cè)集群連接。流數(shù)據(jù)檢測(cè)集群由r個(gè)(r>1)流數(shù)據(jù)檢測(cè)模塊組成。圖2是圖1中日志緩存模塊框架圖,日志數(shù)據(jù)緩存模塊由分發(fā)線程、維護(hù)線程和n個(gè)(n≥1)緩沖隊(duì)列組成。分發(fā)線程從tcp數(shù)據(jù)通信鏈路中接收來(lái)自日志數(shù)據(jù)采集客戶端的syslog消息,并轉(zhuǎn)化為統(tǒng)一格式的消息對(duì)象,格式為<消息頭,消息體>,表示為<head,body>,再將消息對(duì)象根據(jù)分配函數(shù),分發(fā)到第i個(gè)緩存隊(duì)列,分配函數(shù)公式如下:i=|h(head)|%n其中h(head)為消息頭字符串的哈希值。緩沖隊(duì)列的一個(gè)元素為一個(gè)syslog消息對(duì)象,隊(duì)列長(zhǎng)度根據(jù)消息對(duì)象的規(guī)模進(jìn)行配置,隊(duì)列長(zhǎng)度設(shè)置為50000000。維護(hù)線程根據(jù)時(shí)間閾值t1的配置,清理緩沖隊(duì)列的數(shù)據(jù),即從緩沖隊(duì)列中刪除距離當(dāng)前時(shí)間超過(guò)t1的消息對(duì)象,釋放內(nèi)存空間。圖3是圖1中流數(shù)據(jù)檢測(cè)模塊框架圖,流數(shù)據(jù)檢測(cè)模塊由流數(shù)據(jù)生產(chǎn)模塊、流數(shù)據(jù)一級(jí)處理模塊、流數(shù)據(jù)二級(jí)處理模塊和流數(shù)據(jù)三級(jí)處理模塊組成。流數(shù)據(jù)生產(chǎn)模塊提取日志數(shù)據(jù)緩存模塊的消息對(duì)象,并轉(zhuǎn)化為統(tǒng)一格式的流數(shù)據(jù)單元。如下表1所示,流數(shù)據(jù)單元包括訪問(wèn)時(shí)間、客戶端ip、服務(wù)端ip、服務(wù)端端口、請(qǐng)求方法、返回狀態(tài)碼、用戶代理、cookie、訪問(wèn)路徑和請(qǐng)求參數(shù)、鏈接網(wǎng)址、設(shè)備名稱、設(shè)備ip12個(gè)數(shù)據(jù)字段。表1流數(shù)據(jù)單元格式流數(shù)據(jù)一級(jí)處理模塊采用wu-manber多模匹配算法檢測(cè)流數(shù)據(jù)單元中是否含有攻擊特征關(guān)鍵字,將含有特征關(guān)鍵字的流數(shù)據(jù)單元發(fā)送到流數(shù)據(jù)二級(jí)處理模塊中。流數(shù)據(jù)二級(jí)處理模塊采用基于時(shí)間窗口的流數(shù)據(jù)分析模型,分析檢測(cè)結(jié)果,并將流數(shù)據(jù)單元發(fā)送至流數(shù)據(jù)三級(jí)檢測(cè)模塊。流數(shù)據(jù)三級(jí)檢測(cè)模塊將檢測(cè)結(jié)果存入關(guān)系數(shù)據(jù)庫(kù)中。流數(shù)據(jù)二級(jí)處理模塊由流數(shù)據(jù)分析模型、過(guò)程對(duì)象維護(hù)線程和過(guò)程對(duì)象隊(duì)列組成。流數(shù)據(jù)分析模型統(tǒng)計(jì)和融合檢測(cè)結(jié)果。過(guò)程對(duì)象隊(duì)列的一個(gè)元素為一個(gè)過(guò)程對(duì)象,隊(duì)列長(zhǎng)度根據(jù)對(duì)象的規(guī)模進(jìn)行配置,通常一個(gè)過(guò)程對(duì)象隊(duì)列最大接收規(guī)模為1000個(gè)每秒,隊(duì)列長(zhǎng)度設(shè)置為1000。如下表2所示,過(guò)程對(duì)象包括哈希鍵值、時(shí)間窗口、計(jì)數(shù)器、標(biāo)識(shí)時(shí)間4個(gè)數(shù)據(jù)字段。過(guò)程對(duì)象維護(hù)線程根據(jù)時(shí)間閾值t2的配置,清理過(guò)程對(duì)象隊(duì)列的數(shù)據(jù),即從過(guò)程對(duì)象隊(duì)列中刪除距離當(dāng)前時(shí)間超過(guò)t2的消息對(duì)象,釋放內(nèi)存空間。表2過(guò)程對(duì)象格式屬性屬性名稱hash_keyhashcode(server_port+server_ip+client_ip)t時(shí)間窗口count計(jì)數(shù)器c_time標(biāo)識(shí)時(shí)間當(dāng)前第1頁(yè)12