本發(fā)明涉及信息檢測,更具體的說是涉及一種碎片化敏感信息智能檢測方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)量的爆炸性增長使得敏感信息的保護(hù)變得尤為重要。然而,現(xiàn)有的敏感信息檢測系統(tǒng)往往存在檢測準(zhǔn)確率低、難以處理碎片化信息等問題。特別是在處理跨媒體、跨平臺等復(fù)雜場景時(shí),敏感信息的檢測和識別變得尤為困難。
2、現(xiàn)有的敏感信息檢測系統(tǒng)采用基于規(guī)則和簡單的模型二分類的敏感信息檢測系統(tǒng),這類系統(tǒng)依賴于預(yù)定義的規(guī)則和關(guān)鍵詞列表以及需要大量高質(zhì)量的敏感數(shù)據(jù)訓(xùn)練模型來識別文檔或數(shù)據(jù)中的敏感信息。盡管這些系統(tǒng)在特定場景下能有效檢測出一些敏感信息,但存在以下明顯的局限性:
3、1、由于進(jìn)行信息檢索時(shí),采用傳統(tǒng)的規(guī)則關(guān)鍵詞匹配等方法,此類方法不能理解語境,因此可能將無害的語句誤判為敏感信息。通過簡單的變體處理,如替換字母、添加符號等,就能繞過關(guān)鍵詞匹配,降低檢測系統(tǒng)的有效性。而且,規(guī)則和關(guān)鍵詞列表的維護(hù)比較困難,難以應(yīng)對新出現(xiàn)的敏感信息類型。
4、2、對于碎片化的敏感信息檢測效果不佳,尤其是當(dāng)敏感信息分布在多個(gè)文檔或數(shù)據(jù)集中時(shí)。
5、3、檢測準(zhǔn)確率受限,容易產(chǎn)生誤報(bào)和漏報(bào)。
6、由此可見,如何高效、準(zhǔn)確地檢測碎片化敏感信息成為當(dāng)前亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、針對以上問題,本發(fā)明的目的在于提供一種碎片化敏感信息智能檢測方法及系統(tǒng),利用大模型的檢索增強(qiáng)能力,結(jié)合知識圖譜的關(guān)聯(lián)性分析,實(shí)現(xiàn)了對碎片化敏感信息的高效、準(zhǔn)確檢測。
2、本發(fā)明為實(shí)現(xiàn)上述目的,通過以下技術(shù)方案實(shí)現(xiàn):
3、第一方面,本發(fā)明公開了一種碎片化敏感信息智能檢測方法,包括:
4、定義敏感信息,并創(chuàng)建敏感信息知識庫;
5、使用深度學(xué)習(xí)模型構(gòu)建檢索模型;
6、從多源文檔中獲取待檢測的碎片化信息,并對碎片化信息進(jìn)行數(shù)據(jù)清洗,生成待檢測的文本;
7、使用大語言模型識別待檢測文本中的敏感信息;
8、基于敏感信息,利用nlp技術(shù)構(gòu)建知識圖譜;
9、使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為包含敏感信息的社區(qū)生成摘要信息;
10、使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為每個(gè)社區(qū)生成摘要信息;
11、將摘要信息輸入檢索模型,利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配,以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則;
12、基于待檢測的文本,對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理,生成敏感信息研判提示文本;
13、基于敏感信息研判提示文本,使用大語言模型生成關(guān)于敏感信息的評估報(bào)告。進(jìn)一步,所述定義敏感信息,并創(chuàng)建敏感信息知識庫,包括:
14、將個(gè)人身份信息、財(cái)務(wù)信息、健康信息、地理位置數(shù)據(jù)定義為敏感信息;
15、創(chuàng)建一個(gè)包含所有已定義敏感信息的數(shù)據(jù)集或數(shù)據(jù)庫,作為敏感信息知識庫;
16、所述敏感信息知識庫包括:敏感信息的實(shí)例、敏感信息的類別和敏感信息的上下文描述。
17、進(jìn)一步,所述使用深度學(xué)習(xí)模型構(gòu)建檢索模型,包括:
18、獲取敏感信息知識庫中的文本數(shù)據(jù),對文本數(shù)據(jù)進(jìn)行預(yù)處理;
19、使用詞嵌入技術(shù)將文本數(shù)據(jù)中的每個(gè)單詞轉(zhuǎn)換為固定長度的向量;
20、使用句向量模型將文本數(shù)據(jù)中的句子或短語轉(zhuǎn)換為向量;
21、根據(jù)檢索需求選擇深度學(xué)習(xí)模型,利用基于文本數(shù)據(jù)轉(zhuǎn)換的向量訓(xùn)練深度學(xué)習(xí)模型,生成檢索模型。
22、進(jìn)一步,所述使用大語言模型識別待檢測文本中的敏感信息,包括:
23、利用自然語言處理技術(shù),從待檢測的文本中抽取有意義的特征;
24、使用大語言模型識別待檢測文本中潛在的敏感信息模式;
25、定義敏感信息的規(guī)則,將抽取的特征和識別出的潛在的敏感信息模式與敏感信息的規(guī)則進(jìn)行匹配,以確定待檢測文本中是否包含敏感信息;
26、如果匹配成功,則將相應(yīng)的文本被標(biāo)記為敏感信息,記為待識別文本。
27、進(jìn)一步,所述基于敏感信息,利用nlp技術(shù)構(gòu)建知識圖譜,包括:
28、使用nlp技術(shù)識別待識別文本中的實(shí)體;
29、從待識別文本中抽取實(shí)體之間的關(guān)系;
30、基于實(shí)體、實(shí)體之間的關(guān)系,構(gòu)建一個(gè)包含實(shí)體和關(guān)系的知識圖譜。
31、進(jìn)一步,所述使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為每個(gè)社區(qū)生成摘要信息,包括:
32、使用leiden算法基于不同的主題或上下文將知識圖譜劃分為多個(gè)社區(qū);
33、從每個(gè)社區(qū)中提取關(guān)鍵信息和敏感點(diǎn);
34、基于提取的關(guān)鍵信息和敏感點(diǎn)生成摘要信息。
35、進(jìn)一步,所述將摘要信息輸入檢索模型,利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配,以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則,包括:
36、將摘要信息輸入檢索模型,將摘要信息轉(zhuǎn)換為向量表示,生成摘要信息向量;
37、利用檢索模型計(jì)算摘要信息向量與敏感信息知識庫中每個(gè)條目向量的相似度;
38、基于預(yù)設(shè)的相似度閾值,確定相似度高于相似度閾值的條目,將相應(yīng)的條目視為潛在敏感信息,并提取出相應(yīng)的敏感信息研判規(guī)則。
39、進(jìn)一步,所述基于待檢測的文本,對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理,生成敏感信息研判提示文本,包括:
40、根據(jù)敏感信息研判規(guī)則,將潛在敏感信息與待檢測文本融合,形成包含完整信息的上下文環(huán)境,生成敏感信息研判提示文本;
41、基于生成敏感信息研判提示文本,對待檢測文本中敏感信息的存在性及其敏感程度進(jìn)行評估。
42、進(jìn)一步,所述基于敏感信息研判提示文本,使用大語言模型生成關(guān)于敏感信息的評估報(bào)告,包括:
43、基于敏感信息研判提示文本,使用大語言模型識別出敏感信息類型、標(biāo)記出敏感信息的位置,并對其進(jìn)行加密或脫敏處理;
44、利用大語言模型為每個(gè)實(shí)體或關(guān)系分配一個(gè)敏感性評分、評估敏感信息的風(fēng)險(xiǎn)等級并生成敏感信息的處理建議,以形成敏感信息的評估報(bào)告。
45、第二方面,本發(fā)明還公開了一種碎片化敏感信息智能檢測系統(tǒng),包括:
46、知識庫創(chuàng)建模塊,用于定義敏感信息,并創(chuàng)建敏感信息知識庫;
47、檢索模型構(gòu)建模塊,用于使用深度學(xué)習(xí)模型構(gòu)建檢索模型;
48、數(shù)據(jù)準(zhǔn)備模塊,用于從多源文檔中獲取待檢測的碎片化信息,并對碎片化信息進(jìn)行數(shù)據(jù)清洗,生成待檢測的文本;
49、敏感信息識別模塊,用于使用大語言模型識別待檢測文本中的敏感信息;
50、知識圖譜構(gòu)建模塊,用于基于敏感信息,利用nlp技術(shù)構(gòu)建知識圖譜;
51、社區(qū)檢測模塊,用于使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為每個(gè)社區(qū)生成摘要信息;
52、檢索匹配模塊,用于將摘要信息輸入檢索模型,利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配,以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則;
53、融合模塊,用于基于待檢測的文本,對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理,生成敏感信息研判提示文本;
54、響應(yīng)生成模塊,用于基于敏感信息研判提示文本,使用大語言模型生成關(guān)于敏感信息的評估報(bào)告。
55、對比現(xiàn)有技術(shù),本發(fā)明有益效果在于:
56、1、本發(fā)明利用先進(jìn)的大型模型來增強(qiáng)對上下文的理解,大模型通過上下文學(xué)習(xí),能夠理解復(fù)雜語境下的敏感信息,識別潛在的敏感信息片段,從而提高檢測準(zhǔn)確率。
57、2、本發(fā)明整合了包含與敏感信息相關(guān)的實(shí)體、關(guān)系和屬性的知識圖譜。這些結(jié)構(gòu)化信息有助于增強(qiáng)模型的理解和檢測的準(zhǔn)確性。知識圖譜對于提供一個(gè)全面的框架來理解不同敏感信息片段之間的關(guān)系至關(guān)重要,即使這些信息分散在多個(gè)文檔或數(shù)據(jù)集中,仍然能夠挖掘信息之間的隱含關(guān)聯(lián)。知識圖譜中存儲的實(shí)體關(guān)系和屬性信息可以輔助模型識別和理解潛在的敏感信息,提高檢測的全面性和準(zhǔn)確性。
58、3、本發(fā)明能否分析分散在不同文檔或數(shù)據(jù)集中的碎片化信息,通過語義匹配鏈接實(shí)體和關(guān)系,利用信息聚合的方法確保了全面且準(zhǔn)確的檢測。
59、4、本發(fā)明綜合大模型決策和碎片化信息整合技術(shù),進(jìn)行智能檢測,判斷信息的敏感性和等級,能夠有效減少誤報(bào)和漏報(bào)。
60、由此可見,本發(fā)明與現(xiàn)有技術(shù)相比,具有突出的實(shí)質(zhì)性特點(diǎn)和顯著的進(jìn)步,其實(shí)施的有益效果也是顯而易見的。