本發(fā)明涉及網(wǎng)絡安全領域,具體涉及一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡安全分析系統(tǒng)。
背景技術:
:大數(shù)據(jù)作為云計算、物聯(lián)網(wǎng)之后IT行業(yè)又一大顛覆性的技術革命。目前大數(shù)據(jù)技術處于起步階段,由于大數(shù)據(jù)平臺的數(shù)據(jù)結構復雜性,并沒有足夠完善的數(shù)據(jù)安全防護及評價措施,如果用戶進入數(shù)據(jù)庫中,而這些數(shù)據(jù)中對于某些用戶是不應該能夠使用,或者過度使用的,這就給系統(tǒng)帶來了極大的安全隱患。技術實現(xiàn)要素:針對上述問題,本發(fā)明旨在提供一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡安全分析系統(tǒng)。本發(fā)明的目的采用以下技術方案來實現(xiàn):提供了一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡安全分析系統(tǒng),包括:請求模塊,用戶通過客戶端向認證服務器發(fā)送身份認證請求,客戶端通過傳感器采集用戶的生物驗證信息;認證模塊,認證服務器接收用戶的身份認證請求,對用戶進行身份認證;若用戶通過身份認證,用戶則通過客戶端向大數(shù)據(jù)資源下載服務器發(fā)送大數(shù)據(jù)資源訪問請求;否則,向客戶端發(fā)送報警信息,禁止該用戶訪問網(wǎng)絡,結束;下載模塊,大數(shù)據(jù)資源下載服務器根據(jù)所述大數(shù)據(jù)資源訪問請求從網(wǎng)絡中下載大數(shù)據(jù)資源,并將下載的大數(shù)據(jù)資源發(fā)送至客戶端,所述下載模塊包括數(shù)據(jù)采集模塊、數(shù)據(jù)分類模塊、分類檢測模塊和檢測融合模塊;安全分析模塊,通過安全分析服務器,對客戶端獲得的大數(shù)據(jù)資源進行數(shù)據(jù)安全分析,確定所述大數(shù)據(jù)資源的安全評級。本發(fā)明的有益效果為:網(wǎng)絡條件下大數(shù)據(jù)安全性大幅提高。附圖說明利用附圖對本發(fā)明作進一步說明,但附圖中的實施例不構成對本發(fā)明的任何限制,對于本領域的普通技術人員,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)以下附圖獲得其它的附圖。圖1是本發(fā)明的結構連接示意圖。附圖標記:請求模塊1、認證模塊2、下載模塊3、安全分析模塊4。具體實施方式結合以下實施例對本發(fā)明作進一步描述。參見圖1,本實施例的一種大數(shù)據(jù)環(huán)境下的網(wǎng)絡安全分析系統(tǒng),包括:請求模塊1,用戶通過客戶端向認證服務器發(fā)送身份認證請求,客戶端通過傳感器采集用戶的生物驗證信息;認證模塊2,認證服務器接收用戶的身份認證請求,對用戶進行身份認證;若用戶通過身份認證,用戶則通過客戶端向大數(shù)據(jù)資源下載服務器發(fā)送大數(shù)據(jù)資源訪問請求;否則,向客戶端發(fā)送報警信息,禁止該用戶訪問網(wǎng)絡,結束;下載模塊3,大數(shù)據(jù)資源下載服務器根據(jù)所述大數(shù)據(jù)資源訪問請求從網(wǎng)絡中下載大數(shù)據(jù)資源,并將下載的大數(shù)據(jù)資源發(fā)送至客戶端,所述下載模塊包括數(shù)據(jù)采集模塊、數(shù)據(jù)分類模塊、分類檢測模塊和檢測融合模塊;所述數(shù)據(jù)采集模塊用于采集需要進行檢測的數(shù)據(jù);所述數(shù)據(jù)分類模塊用于將由數(shù)據(jù)采集模塊輸出的數(shù)據(jù)劃分為圖像數(shù)據(jù)和文本數(shù)據(jù),并對分類后的數(shù)據(jù)進行過濾處理;所述分類檢測模塊用于對分類后的數(shù)據(jù)進行分析檢測;所述檢測融合模塊用于根據(jù)檢測需求篩選所需的圖像數(shù)據(jù)和文本數(shù)據(jù)。安全分析模塊4,通過安全分析服務器,對客戶端獲得的大數(shù)據(jù)資源進行數(shù)據(jù)安全分析,確定所述大數(shù)據(jù)資源的安全評級。優(yōu)選地,所述網(wǎng)絡安全分析系統(tǒng)還包括:安全防護模塊,根據(jù)所述大數(shù)據(jù)資源的安全評級,對客戶端執(zhí)行相應的安全防護措施。本優(yōu)選實施例為大數(shù)據(jù)提供了安全防護。優(yōu)選地,所述生物驗證信息包括:指紋信息、瞳孔信息、面部特征識別信息、以及語音識別信息中的至少兩種。本優(yōu)選實施例通過至少兩種信息驗證,安全性更好。優(yōu)選的,所述采集需要進行檢測的數(shù)據(jù),包括:A、采集一定時間段內(nèi)需要進行檢測的數(shù)據(jù),按設定的過濾規(guī)則對該數(shù)據(jù)進行初步過濾處理,所述設定的過濾規(guī)則包括刪除包含特殊字符、推廣相關的特殊漢字和網(wǎng)頁鏈接的內(nèi)容的數(shù)據(jù);B、設所述一定時間段的時間范圍為[ZB,ZE],將[ZB,ZE]按照時間順序平均分為n個子時間段,對每個子時間段內(nèi)的數(shù)據(jù)進行重要度評估,評估公式定義為:式中,Yi為第i個子時間段的重要程度,YTi為設定的第i個子時間段的重要程度值,F(xiàn)i為第i個子時間段的數(shù)據(jù)的數(shù)量,F(xiàn)為在[ZB,ZE]內(nèi)的數(shù)據(jù)的數(shù)量;C、將各重要度按照由小到大進行排序,按照重要度的排列順序,將數(shù)據(jù)依次發(fā)送至數(shù)據(jù)分類模塊。本優(yōu)選實施例通過設定過濾規(guī)則,將不需要進行檢測的數(shù)據(jù)進行刪除,減少了檢測后續(xù)處理的數(shù)據(jù)量;通過對各子時間段的數(shù)據(jù)進行重要度評估,并按照重要度的排列順序,將數(shù)據(jù)依次發(fā)送至數(shù)據(jù)分類模塊,使后續(xù)的模塊能夠預先處理重要程度高的數(shù)據(jù),提高了檢測的速度。優(yōu)選的,所述對分類后的數(shù)據(jù)進行過濾處理,包括:A、提取文本數(shù)據(jù),對該文本數(shù)據(jù)進行聚類處理,形成多個類別的文本數(shù)據(jù)集;B、計算每個類別的文本數(shù)據(jù)集中的數(shù)據(jù)的數(shù)量,按照數(shù)量由少到大的順序對多個文本數(shù)據(jù)集進行排序;C、刪除前18%的文本數(shù)據(jù)集,將剩余的文本數(shù)據(jù)集以及圖像數(shù)據(jù)發(fā)送至分類檢測模塊。本優(yōu)選實施例進一步對文本數(shù)據(jù)進行聚類處理,過濾掉數(shù)量較少的文本數(shù)據(jù)集,減少了后續(xù)檢測的數(shù)據(jù)量,從而進一步提高了檢測的速度。優(yōu)選的,所述對該文本數(shù)據(jù)進行聚類處理,包括:確定聚簇的個數(shù)K,包括:對該文本數(shù)據(jù)采用等距法設定k-means聚類算法的初始中心,得到聚類中心;在得到聚類中心后將相鄰的聚類中心的中點作為分類的劃分點,將各個對象加入到距離最近的類中,從而確定聚簇的個數(shù)K;將該文本數(shù)據(jù)劃分為n個樣本,對n個樣本進行向量化,通過夾角余弦函數(shù)計算所有樣本兩兩之間的相似度,得到相似度矩陣SIM:SIM=[sim(oi,oj)]n×n,i,j=1,…,n計算每一個樣本與其它所有樣本的相似度之和,求和公式為:上述式子中,為樣本oi與其它所有樣本的相似度之和,sim(oi,oj)表示樣本oi,oj間的相似度,i,j=1,…,n;按降序排列設按從大到小排列的前4個值對應的樣本為omax,omax-1,omax-2,omax-3,根據(jù)下列公式確定第一個初始的聚簇中心MED:上述式子中,ωmax-μ表示omax-μ的重要度權值;對中的最大值對應的矩陣中行向量的元素進行升序排列,假設前k-1個最小的元素為SIMpq,q=1,…,k-1,選擇前k-1個最小的元素SIMpq相對應的樣本作為剩余的k-1個初始的聚簇中心;計算剩余樣本與各初始的聚簇中心之間的相似度,將剩余樣本分發(fā)到相似度最高的聚簇中,形成變化后的k個聚簇;計算變化后的聚簇中各樣本的均值,將其作為更新后的聚簇中心代替更新前的聚簇中心;若更新前的聚簇中心與更新后的聚簇中心相同,或者目標函數(shù)達到了最小值,停止更新,所述目標函數(shù)為:上述式子中,Cl表示k個聚簇中的第l個聚簇,ox為第l個聚簇中的樣本,為第l個聚簇的中心。本優(yōu)選實施例有效避免單一采取隨機抽樣方法所帶來的偶然性,解決對該文本數(shù)據(jù)進行聚類處理時在選取k值以及初始化聚類中心時所存在的問題,提高了聚類穩(wěn)定性,進一步提高了對文本數(shù)據(jù)進行過濾處理的精度。優(yōu)選的,所述分類檢測模塊包括圖像數(shù)據(jù)檢測單元和文本數(shù)據(jù)檢測單元;所述圖像數(shù)據(jù)檢測單元基于語義特征對圖像數(shù)據(jù)進行檢測,具體為:采用小波變換的方法對圖像進行分割,對區(qū)域低層特征進行提取,構造特征矩陣,再應用非負矩陣分解訓練算法構造語義空間,將圖像投影到該空間以獲取圖像語義特征;所述文本數(shù)據(jù)檢測單元包括文本數(shù)據(jù)建模子單元、文本數(shù)據(jù)分類子單元、檢測子單元,具體為:(1)文本數(shù)據(jù)建模子單元,用于使用構成文檔的詞項來表達文檔的語義,其將n篇文檔t1,t2,…,tn的每篇文檔表示成m維特征向量v1,v2,…,vm,構成n×m的文檔-特征矩陣:式中,m為構成文檔的詞項的數(shù)量;1≤i≤n,1≤j≤m,式中,di,j表示詞項vj在文檔ti中所占權重,f(ti,vj)表示詞項vj在文檔ti中出現(xiàn)的次數(shù),f(vj)表示詞項vj在所有文檔中出現(xiàn)的次數(shù)總和;(2)文本數(shù)據(jù)分類子單元,用于對建模后的文本文檔進行分類,具體包括:a、將文本集中的文檔隨機映射到一個二維平面網(wǎng)格空間,每個網(wǎng)格中只能投影一篇文檔,同時,在二維平面上放置一定數(shù)量的螞蟻;b、每只螞蟻隨機在二維網(wǎng)格空間移動,選擇一個文檔撿起,并攜帶它在二維網(wǎng)格空間隨機移動,每移動一次,螞蟻計算它所攜帶文檔或者所在網(wǎng)格中的文檔與周圍環(huán)境的群體相似度,決定是否撿起或者放下該文檔,將每個網(wǎng)格作為二維網(wǎng)格空間離散值,設螞蟻所在位置為p,它所在環(huán)境的群體相似度定義為:上述式子中,ti∈p(a×a)表示文檔ti在位置p的邊長a×a的鄰域,r(ti,tj)表示兩篇文檔之間的文本距離,σ表示相似度因子,σ的取值范圍是[1,2],上述式子中,m表示文檔中詞項數(shù)量;c、撿起和放下,如果螞蟻沒有攜帶任何文檔移動,那么它將撿起與周圍環(huán)境群體相似度較低的文檔;如果螞蟻正在攜帶一篇文檔移動,那么當螞蟻處于空網(wǎng)格,并且這篇文檔與周圍環(huán)境的群體相似度較高時,它將放下這篇文檔,撿起概率Pj(ti)和放下概率Pf(ti)定義為:上述式子中,T1和T2為常數(shù)閾值,T1=0.14,T1=0.16;d、b和c重復進行,經(jīng)過一段時間,相似性高的文檔將被聚集在同一區(qū)域。本優(yōu)選實施例對數(shù)據(jù)進行分類檢測,能夠充分利用不同類型數(shù)據(jù)特點,采用對應的方法進行檢測,提高了檢測的針對性;對文檔進行建模,將非結構化的文本數(shù)據(jù)轉換成可計算的結構化數(shù)據(jù),同時便于后續(xù)對文檔進行分類;文本數(shù)據(jù)分類子單元提高了檢測效率,節(jié)約了檢測時間。本發(fā)明與傳統(tǒng)網(wǎng)絡安全分析系統(tǒng)的數(shù)據(jù)檢測結果如下表所示:數(shù)據(jù)檢測速度數(shù)據(jù)檢側準確率本發(fā)明0.21s94.5%傳統(tǒng)網(wǎng)絡安全分析系統(tǒng)0.35s85%最后應當說明的是,以上實施例僅用以說明本發(fā)明的技術方案,而非對本發(fā)明保護范圍的限制,盡管參照較佳實施例對本發(fā)明作了詳細地說明,本領域的普通技術人員應當理解,可以對本發(fā)明的技術方案進行修改或者等同替換,而不脫離本發(fā)明技術方案的實質(zhì)和范圍。當前第1頁1 2 3