本公開實施例涉及信息安全,尤其涉及一種數(shù)據(jù)安全分析方法及智算數(shù)據(jù)安全工作站。
背景技術(shù):
1、隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,企業(yè)積累的數(shù)據(jù)量不斷增長。然而,由于缺乏有效的數(shù)據(jù)安全管理手段,企業(yè)面臨安全風(fēng)險?,F(xiàn)有的數(shù)據(jù)安全分析技術(shù)主要存在以下不足:
2、數(shù)據(jù)敏感性識別效率低,無法快速準(zhǔn)確標(biāo)記敏感數(shù)據(jù);
3、用戶行為分析能力不足,難以有效識別內(nèi)部人員的異常操作;
4、數(shù)據(jù)泄露風(fēng)險評估不全面,無法檢測復(fù)雜的高級持續(xù)性威脅。因此,亟需一種更加全面高效的數(shù)據(jù)安全分析方法,能夠精準(zhǔn)識別敏感數(shù)據(jù),實時監(jiān)控用戶行為,深入評估數(shù)據(jù)泄露風(fēng)險,以此增強企業(yè)的數(shù)據(jù)安全防護(hù)能力。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開實施例提供一種數(shù)據(jù)安全分析方法及智算數(shù)據(jù)安全工作站,能夠提高法律文書釋義的準(zhǔn)確率。
2、本公開實施例提供一種數(shù)據(jù)安全分析方法,包括:
3、智算數(shù)據(jù)安全工作站獲取不同數(shù)據(jù)源的數(shù)據(jù),所述數(shù)據(jù)包括用戶操作日志、數(shù)據(jù)訪問和傳輸日志;
4、基于預(yù)設(shè)規(guī)則庫和機(jī)器學(xué)習(xí)模型,對所述數(shù)據(jù)進(jìn)行分類分級,標(biāo)記敏感數(shù)據(jù);
5、基于所述用戶操作日志分析用戶行為模式,識別異常行為;
6、基于所述數(shù)據(jù)訪問和傳輸日志,評估數(shù)據(jù)泄露風(fēng)險,生成風(fēng)險報告。
7、可選地,基于預(yù)設(shè)規(guī)則庫和機(jī)器學(xué)習(xí)模型,對所述數(shù)據(jù)進(jìn)行分類分級,標(biāo)記敏感數(shù)據(jù),包括:
8、利用自然語言處理nlp技術(shù),提取所述數(shù)據(jù)中的文本信息;
9、通過詞頻-逆文檔頻率tf-idf技術(shù),提取所述文本信息中的關(guān)鍵詞;
10、構(gòu)建預(yù)設(shè)規(guī)則庫,所述預(yù)設(shè)規(guī)則庫中包含敏感信息類型、關(guān)鍵詞匹配規(guī)則和正則表達(dá)式規(guī)則;
11、構(gòu)建svm模型,利用所述預(yù)設(shè)規(guī)則庫的訓(xùn)練數(shù)據(jù)集訓(xùn)練所述svm模型;
12、利用所述svm模型對所述文本信息中的關(guān)鍵詞進(jìn)行分類和分級,標(biāo)記出不同類別的敏感數(shù)據(jù)。
13、可選地,基于預(yù)設(shè)規(guī)則庫和機(jī)器學(xué)習(xí)模型,對所述數(shù)據(jù)進(jìn)行分類分級,標(biāo)記敏感數(shù)據(jù),包括:
14、利用自然語言處理nlp技術(shù),提取所述數(shù)據(jù)中的文本信息;
15、構(gòu)建預(yù)設(shè)規(guī)則庫,所述預(yù)設(shè)規(guī)則庫中包含敏感信息類型、關(guān)鍵詞匹配規(guī)則和正則表達(dá)式規(guī)則;
16、構(gòu)建支持向量機(jī)svm模型,利用所述預(yù)設(shè)規(guī)則庫的訓(xùn)練數(shù)據(jù)集訓(xùn)練所述svm模型;
17、提取所述文本信息中的特征向量;
18、對所述特征向量進(jìn)行均值中心化處理:計算每個所述特征向量的均值,將其減去對應(yīng)的均值,以消除特征間的偏移;
19、對均值中心化處理后所述特征向量進(jìn)行特征稀疏化處理:利用l1正則化技術(shù),將所述特征向量中低于預(yù)設(shè)閾值的特征值置零,以減少特征冗余;
20、將均值中心化處理和特征稀疏化處理后的特征輸入所述svm模型,標(biāo)記出不同類別的敏感數(shù)據(jù)。
21、可選地,基于所述用戶操作日志分析用戶行為模式,識別異常行為,包括:
22、在所述智算數(shù)據(jù)安全工作站中部署用戶行為分析ueba系統(tǒng),從所述數(shù)據(jù)中獲取所述用戶操作日志;
23、構(gòu)建隨機(jī)森林模型,對所述隨機(jī)森林模型進(jìn)行訓(xùn)練,建立用戶正常行為的基準(zhǔn)線;
24、將所述用戶操作日志輸入至訓(xùn)練后的所述隨機(jī)森林模型中,識別出用戶的異常行為模式。
25、可選地,根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述用戶操作日志分析用戶行為模式,識別異常行為,包括:
26、獲取所述用戶操作日志;
27、定義所述用戶操作日志的語義安全超屬性,包括登錄時間、登錄ip地址、使用的設(shè)備信息;
28、生成模擬的異常登錄攻擊模式,所述異常登錄攻擊模式包括非工作時間的登錄嘗試、從不同地區(qū)的ip進(jìn)行登錄嘗試和/或使用不同設(shè)備進(jìn)行登錄嘗試;
29、將所述模擬的異常登錄攻擊模式和正常登錄行為模式進(jìn)行數(shù)據(jù)混合,形成訓(xùn)練數(shù)據(jù)集;
30、構(gòu)建svm模型或隨機(jī)森林模型,將所述訓(xùn)練數(shù)據(jù)集輸入至所述svm模型或隨機(jī)森林模型;
31、將所述語義安全超屬性輸入至訓(xùn)練后的所述svm模型或隨機(jī)森林模型中,進(jìn)行異常行為識別。
32、可選地,基于所述數(shù)據(jù)訪問和傳輸日志,評估數(shù)據(jù)泄露風(fēng)險,生成風(fēng)險報告,包括:
33、構(gòu)建貝葉斯網(wǎng)絡(luò)模型;
34、使用歷史數(shù)據(jù)對所述貝葉斯網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;
35、將所述數(shù)據(jù)訪問和傳輸日志輸入至所述貝葉斯網(wǎng)絡(luò)模型中,評估數(shù)據(jù)泄露風(fēng)險,識別潛在的風(fēng)險點和異常行為,生成風(fēng)險報告。
36、可選地,基于所述數(shù)據(jù)訪問和傳輸日志,評估數(shù)據(jù)泄露風(fēng)險,生成風(fēng)險報告,包括:
37、使用自監(jiān)督序列學(xué)習(xí)算法構(gòu)建高級持續(xù)性威脅apt檢測模型,所述apt檢測模型為transformer、bert或lstm模型;
38、獲取歷史系統(tǒng)行為數(shù)據(jù),所述歷史系統(tǒng)行為數(shù)據(jù)包括正常行為和已知的apt攻擊行為數(shù)據(jù);
39、利用上下文感知異常檢測方法,獲取歷史系統(tǒng)行為數(shù)據(jù)中的上下文信息,并將所述上下文信息和行為序列嵌入結(jié)合,形成上下文特征向量,所述上下文信息包括用戶身份、訪問時間、地理位置和操作類型;
40、利用所述上下文特征向量對所述apt檢測模型進(jìn)行訓(xùn)練,以便所述apt檢測模型學(xué)習(xí)系統(tǒng)行為序列嵌入,理解正常和異常的行為模式;
41、將所述數(shù)據(jù)訪問和傳輸日志輸入至所述apt檢測模型,實時評估數(shù)據(jù)泄露風(fēng)險,識別潛在的apt攻擊行為,并生成風(fēng)險報告。
42、可選地,所述apt檢測模型為基于transformer的預(yù)訓(xùn)練大語言模型llm,則利用所述上下文特征向量對所述apt檢測模型進(jìn)行訓(xùn)練,包括:
43、利用所述上下文特征向量對所述llm進(jìn)行微調(diào)訓(xùn)練;
44、則將所述數(shù)據(jù)訪問和傳輸日志輸入至所述apt檢測模型,實時評估數(shù)據(jù)泄露風(fēng)險,識別潛在的apt攻擊行為,并生成風(fēng)險報告,包括:
45、將所述數(shù)據(jù)訪問和傳輸日志轉(zhuǎn)化為自然語言描述;
46、利用微調(diào)后的所述llm對所述自然語言描述進(jìn)行語義理解,識別潛在的apt攻擊行為特征;
47、利用llm的語言生成能力,自動生成apt攻擊事件的風(fēng)險報告。
48、可選地,所述方法還包括:
49、所述llm從生成的報告中提取關(guān)鍵信息,包括攻擊者、攻擊手段、目標(biāo)資產(chǎn),構(gòu)建apt攻擊知識圖譜;
50、利用知識圖譜進(jìn)行推理和關(guān)聯(lián)分析,發(fā)現(xiàn)潛在的apt攻擊鏈和攻擊者團(tuán)隊。
51、本發(fā)明實施例還提供一種智算數(shù)據(jù)安全工作站,包括:
52、獲取模塊,用于獲取不同數(shù)據(jù)源的數(shù)據(jù),所述數(shù)據(jù)包括用戶操作日志、數(shù)據(jù)訪問和傳輸日志;
53、敏感數(shù)據(jù)標(biāo)記模塊,用于基于預(yù)設(shè)規(guī)則庫和機(jī)器學(xué)習(xí)模型,對所述數(shù)據(jù)進(jìn)行分類分級,標(biāo)記敏感數(shù)據(jù);
54、異常行為識別模塊,用于基于所述用戶操作日志分析用戶行為模式,識別異常行為;
55、數(shù)據(jù)泄露風(fēng)險評估模塊,用于基于所述數(shù)據(jù)訪問和傳輸日志,評估數(shù)據(jù)泄露風(fēng)險,生成風(fēng)險報告。
56、與現(xiàn)有技術(shù)相比,本公開實施例的技術(shù)方案具有以下優(yōu)點:
57、利用nlp、機(jī)器學(xué)習(xí)等技術(shù),精準(zhǔn)高效地識別數(shù)據(jù)中的敏感信息,為后續(xù)的安全分析提供基礎(chǔ);
58、從用戶操作日志入手,深入洞察內(nèi)部人員的行為模式,有效檢測潛在的違規(guī)操作;
59、針對數(shù)據(jù)訪問傳輸過程開展多維度風(fēng)險評估,結(jié)合大語言模型等新技術(shù)識別高級威脅,增強數(shù)據(jù)泄露防護(hù)能力;
60、提供智算數(shù)據(jù)安全工作站,集成數(shù)據(jù)采集、敏感信息標(biāo)記、行為異常檢測、泄露風(fēng)險評估等功能于一體,為企業(yè)提供一站式的數(shù)據(jù)安全分析解決方案。