本技術屬于大數據,具體涉及一種日志脫敏方法、裝置、計算機設備及存儲介質。
背景技術:
1、在網絡安全和數據隱私保護領域,日志信息的安全性和隱私性一直是一個重要的問題。由于日志信息往往包含敏感信息,如用戶名、密碼、交易記錄等,一旦被泄露,可能會導致嚴重的后果,如財產損失、隱私泄露等。因此,對于日志信息的保護和隱私保護顯得尤為重要。
2、目前,市面上已有一些日志脫敏技術,但這些技術存在一些缺點和不足。例如,一些日志脫敏技術需要對日志進行復雜的處理,導致處理時間較長,效率較低,如采用正則表達式來分析日志進行脫敏,但是正則表達式執(zhí)行效率低,導致服務器cpu占用高,影響正常業(yè)務;另一些日志脫敏技術只能對特定類型的日志進行脫敏,不能適用于所有類型的日志,且缺乏靈活性,如基于預定義關鍵詞的脫敏方法,難以應對動態(tài)變化的敏感信息,增加了誤報和漏報的風險。
技術實現(xiàn)思路
1、本技術實施例的目的在于提出一種日志脫敏方法、裝置、計算機設備及存儲介質,以解決現(xiàn)有日志脫敏技術存在的執(zhí)行效率低和缺乏靈活性的技術問題。
2、為了解決上述技術問題,本技術實施例提供一種日志脫敏方法,采用了如下所述的技術方案:
3、一種日志脫敏方法,包括:
4、接收脫敏規(guī)則生成指令,獲取預先收集的歷史日志數據;
5、將歷史日志數據導入預訓練的敏感數據識別模型,得到敏感識別結果;
6、基于敏感識別結果生成日志脫敏規(guī)則;
7、接收日志脫敏指令,獲取待處理日志數據;
8、使用日志脫敏規(guī)則對待處理日志數據進行脫敏操作,得到日志脫敏結果。
9、進一步地,在將歷史日志數據導入預訓練的敏感數據識別模型,得到敏感識別結果的步驟之前,還包括:
10、對歷史日志數據進行數據標注,得到歷史標注數據,其中,數據標注包括字符類型標注和字符長度標注;
11、將歷史標注數據劃分為訓練數據集和測試數據集;
12、使用訓練數據集對預設初始識別模型進行迭代訓練,直至模型擬合,得到敏感數據識別模型;
13、使用測試數據集對敏感數據識別模型進行模型性能測試。
14、進一步地,初始識別模型包括輸入層、隱藏層和輸出層,使用訓練數據集對預設初始識別模型進行迭代訓練,直至模型擬合,得到敏感數據識別模型的步驟,具體包括:
15、通過輸入層將訓練數據集中的歷史標注數據轉化為日志文本序列;
16、使用隱藏層讀取日志文本序列并學習日志文本序列的上下文信息,輸出日志文本序列的隱藏狀態(tài)信息;
17、基于隱藏狀態(tài)信息,使用輸出層為日志文本序列分配預測標簽;
18、根據預測標簽和歷史標注數據中的真實標簽,使用反向傳播算法計算預測誤差;
19、根據預測誤差調整輸入層、隱藏層和輸出層之間的模型參數,直至模型擬合,得到敏感數據識別模型。
20、進一步地,基于長短期記憶網絡搭建隱藏層,使用隱藏層讀取日志文本序列并學習日志文本序列的上下文信息,輸出日志文本序列的隱藏狀態(tài)信息的步驟,具體包括:
21、隱藏層以時間步的方式讀取日志文本序列,得到若干個時間步;
22、隱藏層獲取每一個時間步的上下文信息,得到每一個時間步的隱藏狀態(tài);
23、隱藏層整合每一個時間步的隱藏狀態(tài),得到隱藏狀態(tài)信息。
24、進一步地,基于條件隨機場搭建輸出層,基于隱藏狀態(tài)信息,使用輸出層為日志文本序列分配預測標簽的步驟,具體包括:
25、輸出層根據隱藏狀態(tài)信息中每一個時間步的隱藏狀態(tài),計算每一個時間步在各個預設標簽下的發(fā)射分數;
26、輸出層基于預設的轉換分數矩陣,將每一個時間步在各個預設標簽下的發(fā)射分數轉化為標簽概率,得到每一個時間步在各個預設標簽下的標簽概率;
27、基于每一個時間步在各個預設標簽下的標簽概率,使用全局優(yōu)化算法求解每一個時間步的最優(yōu)標簽概率;
28、基于每一個時間步的最優(yōu)標簽概率確定每一個時間步的最優(yōu)標簽,得到預測標簽。
29、進一步地,日志脫敏規(guī)則包括敏感關鍵詞匹配規(guī)則、敏感數據長度匹配規(guī)則、數據脫敏長度匹配規(guī)則和敏感字符間距匹配規(guī)則,敏感字符間距為敏感關鍵詞和敏感數據之間的字符間距,使用日志脫敏規(guī)則對待處理日志數據進行脫敏操作,得到日志脫敏結果的步驟,具體包括:
30、根據敏感關鍵詞匹配規(guī)則,對待處理日志數據進行關鍵詞匹配,得到目標敏感關鍵詞;
31、基于目標敏感關鍵詞匹配規(guī)則、敏感字符間距匹配規(guī)則和敏感數據長度匹配規(guī)則,確定目標敏感數據;
32、通過數據脫敏長度匹配規(guī)則,對目標敏感數據進行數據脫敏,得到日志脫敏結果。
33、進一步地,基于目標敏感關鍵詞匹配規(guī)則、敏感字符間距匹配規(guī)則和敏感數據長度匹配規(guī)則,確定目標敏感數據的步驟,具體包括:
34、確定目標敏感關鍵詞的末位字符,得到第一末位字符;
35、獲取預設的字符指針,將字符指針指向第一末位字符的下一位字符;
36、從第一末位字符的下一位字符開始,對字符指針進行第一滑動,第一滑動的滑動長度為敏感字符間距,確定第一滑動完成時字符指針所在的字符位,得到第二末位字符;
37、將字符指針指向第二末位字符的下一位字符;
38、從第二末位字符的下一位字符開始,對字符指針進行第二滑動,第二滑動的滑動長度為敏感數據長度,確定第二滑動完成時字符指針所在的字符位,得到第三末位字符;
39、基于第二末位字符的下一位字符和第三末位字符確定目標敏感數據。
40、為了解決上述技術問題,本技術實施例還提供一種日志脫敏裝置,采用了如下所述的技術方案:
41、一種日志脫敏裝置,包括:
42、第一指令模塊,用于接收脫敏規(guī)則生成指令,獲取預先收集的歷史日志數據;
43、敏感識別模塊,用于將歷史日志數據導入預訓練的敏感數據識別模型,得到敏感識別結果;
44、規(guī)則生成模塊,用于基于敏感識別結果生成日志脫敏規(guī)則;
45、第二指令模塊,用于接收日志脫敏指令,獲取待處理日志數據;
46、脫敏操作模塊,用于使用日志脫敏規(guī)則對待處理日志數據進行脫敏操作,得到日志脫敏結果。
47、為了解決上述技術問題,本技術實施例還提供一種計算機設備,采用了如下所述的技術方案:
48、一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如上述任一項所述的日志脫敏方法的步驟。
49、為了解決上述技術問題,本技術實施例還提供一種計算機可讀存儲介質,采用了如下所述的技術方案:
50、一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上述中任一項所述的日志脫敏方法的步驟。
51、與現(xiàn)有技術相比,本技術實施例主要有以下有益效果:
52、本技術公開一種日志脫敏方法、裝置、計算機設備及存儲介質,屬于大數據技術領域。本技術通過接收脫敏規(guī)則生成指令,獲取預先收集的歷史日志數據;將歷史日志數據導入預訓練的敏感數據識別模型,得到敏感識別結果;基于敏感識別結果生成日志脫敏規(guī)則;接收日志脫敏指令,獲取待處理日志數據;使用日志脫敏規(guī)則對待處理日志數據進行脫敏操作,得到日志脫敏結果。通過集成預訓練的敏感數據識別模型,實現(xiàn)了敏感信息的快速準確識別,顯著提升了脫敏處理的執(zhí)行效率。同時,基于識別結果動態(tài)生成的脫敏規(guī)則,不僅確保了脫敏操作的針對性與精準性,還提升了日志脫敏處理的靈活性,能夠適應不同場景下的日志脫敏需求。