本發(fā)明涉及數(shù)據(jù)分類管控,具體涉及一種基于人工智能的數(shù)據(jù)分類管控方法。
背景技術(shù):
1、基于人工智能的數(shù)據(jù)分類管控,是指利用人工智能技術(shù)對數(shù)據(jù)進(jìn)行分類和管理,以確保數(shù)據(jù)的安全性和合規(guī)性。這種管控方式通過機(jī)器學(xué)習(xí)和自然語言處理等技術(shù),對數(shù)據(jù)進(jìn)行自動分類,識別并標(biāo)記敏感信息,如個人隱私數(shù)據(jù)、財(cái)務(wù)信息等,并根據(jù)預(yù)設(shè)的安全策略,對不同類別的數(shù)據(jù)采取不同的安全措施,防止數(shù)據(jù)泄露和未授權(quán)訪問。
2、在敏捷應(yīng)用方向,人工智能的數(shù)據(jù)分類管控能夠提高企業(yè)數(shù)據(jù)管理的效率和準(zhǔn)確性。通過自動化的數(shù)據(jù)分類和風(fēng)險(xiǎn)評估,企業(yè)可以更迅速地響應(yīng)數(shù)據(jù)安全事件和合規(guī)要求,減少人工干預(yù)的時間和錯誤。同時,ai技術(shù)還能動態(tài)調(diào)整數(shù)據(jù)分類策略,適應(yīng)快速變化的業(yè)務(wù)需求和數(shù)據(jù)環(huán)境,從而在保持?jǐn)?shù)據(jù)安全的同時,支持企業(yè)的敏捷開發(fā)和運(yùn)營。
3、現(xiàn)有技術(shù)存在以下不足:
4、對企業(yè)的敏感數(shù)據(jù)進(jìn)行管控時,若企業(yè)的財(cái)務(wù)信息出現(xiàn)泄露且現(xiàn)有技術(shù)無法智能化感知時,財(cái)務(wù)信息泄露可能導(dǎo)致公司銀行賬戶信息、信用卡信息等被不法分子利用,進(jìn)行盜竊和欺詐行為,造成企業(yè)直接的經(jīng)濟(jì)損失,非法交易、賬戶被盜刷等行為會迅速消耗企業(yè)的資金,導(dǎo)致財(cái)務(wù)危機(jī)。
5、在所述背景技術(shù)部分公開的上述信息僅用于加強(qiáng)對本公開的背景的理解,因此它可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于人工智能的數(shù)據(jù)分類管控方法,通過實(shí)時捕獲和解析網(wǎng)絡(luò)流量中的傳輸數(shù)據(jù),利用深度包檢測技術(shù)獲取具體傳輸內(nèi)容,并對其進(jìn)行預(yù)處理和劃分,結(jié)合企業(yè)的安全策略,建立字段收集數(shù)據(jù)庫并進(jìn)行匹配,再通過機(jī)器學(xué)習(xí)模型對數(shù)據(jù)進(jìn)行相似度分析和評估,將傳輸數(shù)據(jù)劃分為高敏感和低敏感數(shù)據(jù),在高敏感數(shù)據(jù)傳輸前,進(jìn)行人臉識別認(rèn)證,未認(rèn)證通過的數(shù)據(jù)采用tls/ssl協(xié)議進(jìn)行加密傳輸,確保數(shù)據(jù)在傳輸過程中的安全性,從而有效防止財(cái)務(wù)信息泄露,保障企業(yè)財(cái)務(wù)安全,避免因數(shù)據(jù)泄露導(dǎo)致的經(jīng)濟(jì)損失和財(cái)務(wù)危機(jī),以解決上述背景技術(shù)中的問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于人工智能的數(shù)據(jù)分類管控方法,包括以下步驟:
3、通過網(wǎng)絡(luò)流量監(jiān)控工具實(shí)時捕獲所有從敏感信息儲存設(shè)備傳輸?shù)臄?shù)據(jù)流,采用深度包檢測技術(shù),解析網(wǎng)絡(luò)包,獲取具體的傳輸數(shù)據(jù);
4、對捕獲的傳輸數(shù)據(jù)進(jìn)行預(yù)處理,將預(yù)處理后的傳輸數(shù)據(jù)按照預(yù)定義的字段進(jìn)行劃分,再根據(jù)企業(yè)的安全策略確定需要監(jiān)控的敏感字段,將敏感字段匯總,建立字段收集數(shù)據(jù)庫;
5、收集數(shù)據(jù)傳輸時的若干個字段數(shù)據(jù),將收集的字段數(shù)據(jù)與企業(yè)敏感數(shù)據(jù)存儲的數(shù)據(jù)庫進(jìn)行匹配,并利用機(jī)器學(xué)習(xí)模型對傳輸數(shù)據(jù)和字段收集數(shù)據(jù)庫進(jìn)行相似度分析,基于分析的結(jié)果,將傳輸數(shù)據(jù)劃分為高敏感傳輸數(shù)據(jù)和低敏感傳輸數(shù)據(jù);
6、對高敏感傳輸數(shù)據(jù)進(jìn)行人臉識別認(rèn)證,待認(rèn)證通過后,進(jìn)行信息傳輸,確保只有符合傳輸條件的人員才能進(jìn)行傳輸;
7、針對高敏感傳輸數(shù)據(jù)未認(rèn)證通過的數(shù)據(jù)傳輸,使用tls/ssl協(xié)議在數(shù)據(jù)傳輸?shù)脑搭^進(jìn)行加密,并在目標(biāo)端進(jìn)行解密,確保數(shù)據(jù)在傳輸過程中始終保持加密狀態(tài)。
8、優(yōu)選的,采用深度包檢測技術(shù),解析網(wǎng)絡(luò)包,獲取具體的傳輸數(shù)據(jù),具體的步驟如下:
9、在網(wǎng)絡(luò)中安裝流量監(jiān)控工具,實(shí)時監(jiān)控從敏感信息儲存設(shè)備傳輸?shù)乃袛?shù)據(jù)流;
10、通過過濾器對捕獲的數(shù)據(jù)包進(jìn)行初步分類和過濾,識別并剔除無關(guān)的數(shù)據(jù)流;
11、通過tcp流重組將分段的數(shù)據(jù)包進(jìn)行重組,還原成完整的消息或文件,確保深度包檢測分析完整的應(yīng)用層數(shù)據(jù);
12、對重組后的數(shù)據(jù)包通過協(xié)議解析器進(jìn)行分析,逐層解析網(wǎng)絡(luò)協(xié)議棧,從鏈路層、網(wǎng)絡(luò)層到傳輸層,最終到達(dá)應(yīng)用層;
13、數(shù)據(jù)在應(yīng)用層被提取出來后,通過dpi引擎對其進(jìn)行深度分析,提取出具體的傳輸數(shù)據(jù)。
14、優(yōu)選的,對捕獲的傳輸數(shù)據(jù)進(jìn)行預(yù)處理,并將預(yù)處理后的傳輸數(shù)據(jù)按照預(yù)定義的字段進(jìn)行劃分的具體步驟如下:
15、對捕獲的傳輸數(shù)據(jù)進(jìn)行清洗,去除噪音和無關(guān)信息;
16、在清洗后的數(shù)據(jù)基礎(chǔ)上,進(jìn)行數(shù)據(jù)解析,將原始數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);
17、根據(jù)預(yù)定義的字段,將解析后的數(shù)據(jù)進(jìn)行字段提??;
18、將提取出的字段與預(yù)定義的字段進(jìn)行映射和歸類,根據(jù)企業(yè)的安全策略,將不同類別的字段數(shù)據(jù)歸類到相應(yīng)的數(shù)據(jù)庫或存儲系統(tǒng)中。
19、優(yōu)選的,將收集的字段數(shù)據(jù)與企業(yè)敏感數(shù)據(jù)存儲的數(shù)據(jù)庫進(jìn)行匹配時,獲取匹配時的覆蓋率信息和匹配密度信息,對覆蓋率信息和匹配密度信息進(jìn)行分析處理后,生成覆蓋率指數(shù)和匹配密度指數(shù),將覆蓋率指數(shù)和匹配密度指數(shù)輸入至預(yù)先訓(xùn)練好的機(jī)器學(xué)習(xí)模型中,生成相似度評估系數(shù),通過相似度評估系數(shù)對傳輸數(shù)據(jù)和字段收集數(shù)據(jù)庫的相似度進(jìn)行智能化評估。
20、優(yōu)選的,將收集的字段數(shù)據(jù)與企業(yè)敏感數(shù)據(jù)存儲的數(shù)據(jù)庫進(jìn)行匹配時生成的相似度評估系數(shù)與預(yù)先設(shè)定的相似度評估系數(shù)參考閾值進(jìn)行比對分析,對傳輸數(shù)據(jù)進(jìn)行劃分,具體的劃分步驟如下:
21、若相似度評估系數(shù)大于等于相似度評估系數(shù)參考閾值,則將傳輸數(shù)據(jù)劃分為高敏感傳輸數(shù)據(jù);
22、若相似度評估系數(shù)小于相似度評估系數(shù)參考閾值,則將傳輸數(shù)據(jù)劃分為低敏感傳輸數(shù)據(jù)。
23、優(yōu)選的,針對高敏感傳輸數(shù)據(jù)未認(rèn)證通過的數(shù)據(jù)傳輸,使用tls/ssl協(xié)議在數(shù)據(jù)傳輸?shù)脑搭^進(jìn)行加密,并在目標(biāo)端進(jìn)行解密,具體的步驟如下:
24、在數(shù)據(jù)傳輸?shù)脑搭^和目標(biāo)端生成公鑰和私鑰對,源頭服務(wù)器將公鑰分發(fā)給目標(biāo)端服務(wù)器;
25、將源頭服務(wù)器與目標(biāo)端服務(wù)器之間建立tls/ssl連接;
26、在源頭服務(wù)器,傳輸數(shù)據(jù)在傳輸前使用目標(biāo)端服務(wù)器的公鑰進(jìn)行加密;
27、加密后的數(shù)據(jù)通過已建立的tls/ssl安全連接進(jìn)行傳輸;
28、在目標(biāo)端服務(wù)器,收到加密數(shù)據(jù)后,使用私鑰進(jìn)行解密。
29、優(yōu)選的,將收集的字段數(shù)據(jù)與企業(yè)敏感數(shù)據(jù)存儲的數(shù)據(jù)庫進(jìn)行匹配,對匹配時的覆蓋率信息進(jìn)行分析處理后,生成覆蓋率指數(shù)的步驟如下:
30、使用哈希匹配或相似性算法進(jìn)行初步匹配,識別潛在的匹配對;
31、計(jì)算匹配對,計(jì)算的表達(dá)式為:mi,j=match(fi,dj),式中,mi,j表示匹配對矩陣中的第i行第j列元素,表示字段數(shù)據(jù)fi與數(shù)據(jù)庫數(shù)據(jù)dj是否匹配,fi表示第i個收集的字段數(shù)據(jù),dj表示第j個數(shù)據(jù)庫數(shù)據(jù)項(xiàng),match表示匹配函數(shù),若fi與dj匹配則返回1,否則返回0;
32、計(jì)算覆蓋率,計(jì)算的表達(dá)式為:式中,ci表示第i個字段數(shù)據(jù)的覆蓋率,j表示第i個字段數(shù)據(jù)在所有數(shù)據(jù)庫數(shù)據(jù)項(xiàng)中的匹配數(shù),n表示數(shù)據(jù)庫數(shù)據(jù)項(xiàng)的總數(shù);
33、對字段數(shù)據(jù)的覆蓋率進(jìn)行歸一化處理,歸一化處理的計(jì)算表達(dá)式為:ni表示歸一化后的第i個字段數(shù)據(jù)的覆蓋率,min(c)表示所有字段數(shù)據(jù)覆蓋率中的最小值,max(c)表示所有字段數(shù)據(jù)覆蓋率中的最大值;
34、計(jì)算覆蓋率指數(shù),計(jì)算的表達(dá)式為:式中,ciμ表示覆蓋率指數(shù),α和β表示權(quán)重參數(shù),α用于調(diào)整歸一化后的覆蓋率的影響力,β用于調(diào)整熵值的影響力,wi表示第i個字段數(shù)據(jù)的權(quán)重,反映字段數(shù)據(jù)的重要性,m表示收集的字段數(shù)據(jù)總數(shù),h(n)表示歸一化覆蓋率的熵值,衡量數(shù)據(jù)匹配的分布均勻性,計(jì)算公式為:
35、優(yōu)選的,使用哈希匹配或相似性算法進(jìn)行初步匹配,識別潛在的匹配對的具體步驟為:
36、s1、選擇數(shù)據(jù)哈希函數(shù),將每個字段數(shù)據(jù)轉(zhuǎn)換為一個固定長度的哈希值,應(yīng)用選定的哈希函數(shù),對每個字段數(shù)據(jù)和數(shù)據(jù)庫數(shù)據(jù)進(jìn)行哈希編碼,生成對應(yīng)的哈希值列表,將數(shù)據(jù)庫數(shù)據(jù)的哈希值存儲在哈希表中;
37、s2、對于每個待匹配的字段數(shù)據(jù),計(jì)算其與數(shù)據(jù)庫數(shù)據(jù)的相似性,若哈希匹配不成功,進(jìn)一步使用相似性算法進(jìn)行細(xì)粒度比較,具體步驟包括:
38、將字段數(shù)據(jù)的哈希值在哈希表中查找,若找到完全匹配的哈希值,則視為潛在匹配對,對于未找到完全匹配的哈希值,使用相似性算法計(jì)算字段數(shù)據(jù)與數(shù)據(jù)庫數(shù)據(jù)之間的相似度;
39、s3、根據(jù)相似性計(jì)算結(jié)果,識別并記錄潛在的匹配對,具體的步驟包括:
40、將levenshtein距離與預(yù)先設(shè)定的距離參考閾值進(jìn)行比對分析,若levenshtein距離小于距離參考閾值,則將匹配對標(biāo)記為匹配,若levenshtein距離大于等于距離參考閾值,則將匹配對標(biāo)記為不匹配。
41、優(yōu)選的,將收集的字段數(shù)據(jù)與企業(yè)敏感數(shù)據(jù)存儲的數(shù)據(jù)庫進(jìn)行匹配,對匹配時的匹配密度信息進(jìn)行分析處理后,生成匹配密度指數(shù)的步驟如下:
42、收集字段數(shù)據(jù)與企業(yè)敏感數(shù)據(jù)存儲數(shù)據(jù)庫進(jìn)行匹配的所有匹配記錄,包括匹配成功和匹配失敗的記錄,計(jì)算匹配成功率,作為初步的匹配密度度量,匹配成功率的計(jì)算表達(dá)式為:式中,p表示匹配成功率,s表示匹配成功次數(shù),m表示總匹配次數(shù);
43、計(jì)算總匹配權(quán)重,計(jì)算的表達(dá)式為:式中,w表示總匹配權(quán)重,ωk表示第k次匹配的權(quán)重系數(shù),mk表示第k次匹配是否成功,n表示總匹配次數(shù);
44、計(jì)算加權(quán)后的匹配成功率,計(jì)算的表達(dá)式為:式中,pω表示加權(quán)匹配成功率,考慮不同匹配的重要性,給予高質(zhì)量匹配更高的權(quán)重,表示所有匹配的權(quán)重系數(shù)總和;
45、綜合匹配成功率和加權(quán)匹配成功率,生成匹配密度指數(shù),匹配密度指數(shù)的計(jì)算表達(dá)式為:式中,dmiμ表示匹配密度指數(shù),r1和r2分別為匹配成功率p和加權(quán)匹配成功率pω的權(quán)重系數(shù),分別衡量匹配成功率p和加權(quán)匹配成功率pω的重要性。
46、在上述技術(shù)方案中,本發(fā)明提供的技術(shù)效果和優(yōu)點(diǎn):
47、本發(fā)明通過實(shí)時捕獲和解析網(wǎng)絡(luò)流量中的傳輸數(shù)據(jù),利用深度包檢測技術(shù)獲取具體傳輸內(nèi)容,并對其進(jìn)行預(yù)處理和劃分,結(jié)合企業(yè)的安全策略,建立字段收集數(shù)據(jù)庫并進(jìn)行匹配,再通過機(jī)器學(xué)習(xí)模型對數(shù)據(jù)進(jìn)行相似度分析和評估,將傳輸數(shù)據(jù)劃分為高敏感和低敏感數(shù)據(jù),在高敏感數(shù)據(jù)傳輸前,進(jìn)行人臉識別認(rèn)證,未認(rèn)證通過的數(shù)據(jù)采用tls/ssl協(xié)議進(jìn)行加密傳輸,確保數(shù)據(jù)在傳輸過程中的安全性,從而有效防止財(cái)務(wù)信息泄露,保障企業(yè)財(cái)務(wù)安全,避免因數(shù)據(jù)泄露導(dǎo)致的經(jīng)濟(jì)損失和財(cái)務(wù)危機(jī)。