一種碎片化敏感信息智能檢測方法及系統(tǒng)與流程

文檔序號：40573073發(fā)布日期：2025-01-03 11:35閱讀：14來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息檢測，更具體的說是涉及一種碎片化敏感信息智能檢測方法及系統(tǒng)。

背景技術(shù)：

1、隨著信息技術(shù)的飛速發(fā)展，數(shù)據(jù)量的爆炸性增長使得敏感信息的保護(hù)變得尤為重要。然而，現(xiàn)有的敏感信息檢測系統(tǒng)往往存在檢測準(zhǔn)確率低、難以處理碎片化信息等問題。特別是在處理跨媒體、跨平臺等復(fù)雜場景時(shí)，敏感信息的檢測和識別變得尤為困難。

2、現(xiàn)有的敏感信息檢測系統(tǒng)采用基于規(guī)則和簡單的模型二分類的敏感信息檢測系統(tǒng)，這類系統(tǒng)依賴于預(yù)定義的規(guī)則和關(guān)鍵詞列表以及需要大量高質(zhì)量的敏感數(shù)據(jù)訓(xùn)練模型來識別文檔或數(shù)據(jù)中的敏感信息。盡管這些系統(tǒng)在特定場景下能有效檢測出一些敏感信息，但存在以下明顯的局限性：

3、1、由于進(jìn)行信息檢索時(shí)，采用傳統(tǒng)的規(guī)則關(guān)鍵詞匹配等方法，此類方法不能理解語境，因此可能將無害的語句誤判為敏感信息。通過簡單的變體處理，如替換字母、添加符號等，就能繞過關(guān)鍵詞匹配，降低檢測系統(tǒng)的有效性。而且，規(guī)則和關(guān)鍵詞列表的維護(hù)比較困難，難以應(yīng)對新出現(xiàn)的敏感信息類型。

4、2、對于碎片化的敏感信息檢測效果不佳，尤其是當(dāng)敏感信息分布在多個(gè)文檔或數(shù)據(jù)集中時(shí)。

5、3、檢測準(zhǔn)確率受限，容易產(chǎn)生誤報(bào)和漏報(bào)。

6、由此可見，如何高效、準(zhǔn)確地檢測碎片化敏感信息成為當(dāng)前亟待解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、針對以上問題，本發(fā)明的目的在于提供一種碎片化敏感信息智能檢測方法及系統(tǒng)，利用大模型的檢索增強(qiáng)能力，結(jié)合知識圖譜的關(guān)聯(lián)性分析，實(shí)現(xiàn)了對碎片化敏感信息的高效、準(zhǔn)確檢測。

2、本發(fā)明為實(shí)現(xiàn)上述目的，通過以下技術(shù)方案實(shí)現(xiàn)：

3、第一方面，本發(fā)明公開了一種碎片化敏感信息智能檢測方法，包括：

4、定義敏感信息，并創(chuàng)建敏感信息知識庫；

5、使用深度學(xué)習(xí)模型構(gòu)建檢索模型；

6、從多源文檔中獲取待檢測的碎片化信息，并對碎片化信息進(jìn)行數(shù)據(jù)清洗，生成待檢測的文本；

7、使用大語言模型識別待檢測文本中的敏感信息；

8、基于敏感信息，利用nlp技術(shù)構(gòu)建知識圖譜；

9、使用圖算法對知識圖譜進(jìn)行社區(qū)劃分，并為包含敏感信息的社區(qū)生成摘要信息；

10、使用圖算法對知識圖譜進(jìn)行社區(qū)劃分，并為每個(gè)社區(qū)生成摘要信息；

11、將摘要信息輸入檢索模型，利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配，以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則；

12、基于待檢測的文本，對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理，生成敏感信息研判提示文本；

13、基于敏感信息研判提示文本，使用大語言模型生成關(guān)于敏感信息的評估報(bào)告。進(jìn)一步，所述定義敏感信息，并創(chuàng)建敏感信息知識庫，包括：

14、將個(gè)人身份信息、財(cái)務(wù)信息、健康信息、地理位置數(shù)據(jù)定義為敏感信息；

15、創(chuàng)建一個(gè)包含所有已定義敏感信息的數(shù)據(jù)集或數(shù)據(jù)庫，作為敏感信息知識庫；

16、所述敏感信息知識庫包括：敏感信息的實(shí)例、敏感信息的類別和敏感信息的上下文描述。

17、進(jìn)一步，所述使用深度學(xué)習(xí)模型構(gòu)建檢索模型，包括：

18、獲取敏感信息知識庫中的文本數(shù)據(jù)，對文本數(shù)據(jù)進(jìn)行預(yù)處理；

19、使用詞嵌入技術(shù)將文本數(shù)據(jù)中的每個(gè)單詞轉(zhuǎn)換為固定長度的向量；

20、使用句向量模型將文本數(shù)據(jù)中的句子或短語轉(zhuǎn)換為向量；

21、根據(jù)檢索需求選擇深度學(xué)習(xí)模型，利用基于文本數(shù)據(jù)轉(zhuǎn)換的向量訓(xùn)練深度學(xué)習(xí)模型，生成檢索模型。

22、進(jìn)一步，所述使用大語言模型識別待檢測文本中的敏感信息，包括：

23、利用自然語言處理技術(shù)，從待檢測的文本中抽取有意義的特征；

24、使用大語言模型識別待檢測文本中潛在的敏感信息模式；

25、定義敏感信息的規(guī)則，將抽取的特征和識別出的潛在的敏感信息模式與敏感信息的規(guī)則進(jìn)行匹配，以確定待檢測文本中是否包含敏感信息；

26、如果匹配成功，則將相應(yīng)的文本被標(biāo)記為敏感信息，記為待識別文本。

27、進(jìn)一步，所述基于敏感信息，利用nlp技術(shù)構(gòu)建知識圖譜，包括：

28、使用nlp技術(shù)識別待識別文本中的實(shí)體；

29、從待識別文本中抽取實(shí)體之間的關(guān)系；

30、基于實(shí)體、實(shí)體之間的關(guān)系，構(gòu)建一個(gè)包含實(shí)體和關(guān)系的知識圖譜。

31、進(jìn)一步，所述使用圖算法對知識圖譜進(jìn)行社區(qū)劃分，并為每個(gè)社區(qū)生成摘要信息，包括：

32、使用leiden算法基于不同的主題或上下文將知識圖譜劃分為多個(gè)社區(qū)；

33、從每個(gè)社區(qū)中提取關(guān)鍵信息和敏感點(diǎn)；

34、基于提取的關(guān)鍵信息和敏感點(diǎn)生成摘要信息。

35、進(jìn)一步，所述將摘要信息輸入檢索模型，利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配，以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則，包括：

36、將摘要信息輸入檢索模型，將摘要信息轉(zhuǎn)換為向量表示，生成摘要信息向量；

37、利用檢索模型計(jì)算摘要信息向量與敏感信息知識庫中每個(gè)條目向量的相似度；

38、基于預(yù)設(shè)的相似度閾值，確定相似度高于相似度閾值的條目，將相應(yīng)的條目視為潛在敏感信息，并提取出相應(yīng)的敏感信息研判規(guī)則。

39、進(jìn)一步，所述基于待檢測的文本，對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理，生成敏感信息研判提示文本，包括：

40、根據(jù)敏感信息研判規(guī)則，將潛在敏感信息與待檢測文本融合，形成包含完整信息的上下文環(huán)境，生成敏感信息研判提示文本；

41、基于生成敏感信息研判提示文本，對待檢測文本中敏感信息的存在性及其敏感程度進(jìn)行評估。

42、進(jìn)一步，所述基于敏感信息研判提示文本，使用大語言模型生成關(guān)于敏感信息的評估報(bào)告，包括：

43、基于敏感信息研判提示文本，使用大語言模型識別出敏感信息類型、標(biāo)記出敏感信息的位置，并對其進(jìn)行加密或脫敏處理；

44、利用大語言模型為每個(gè)實(shí)體或關(guān)系分配一個(gè)敏感性評分、評估敏感信息的風(fēng)險(xiǎn)等級并生成敏感信息的處理建議，以形成敏感信息的評估報(bào)告。

45、第二方面，本發(fā)明還公開了一種碎片化敏感信息智能檢測系統(tǒng)，包括：

46、知識庫創(chuàng)建模塊，用于定義敏感信息，并創(chuàng)建敏感信息知識庫；

47、檢索模型構(gòu)建模塊，用于使用深度學(xué)習(xí)模型構(gòu)建檢索模型；

48、數(shù)據(jù)準(zhǔn)備模塊，用于從多源文檔中獲取待檢測的碎片化信息，并對碎片化信息進(jìn)行數(shù)據(jù)清洗，生成待檢測的文本；

49、敏感信息識別模塊，用于使用大語言模型識別待檢測文本中的敏感信息；

50、知識圖譜構(gòu)建模塊，用于基于敏感信息，利用nlp技術(shù)構(gòu)建知識圖譜；

51、社區(qū)檢測模塊，用于使用圖算法對知識圖譜進(jìn)行社區(qū)劃分，并為每個(gè)社區(qū)生成摘要信息；

52、檢索匹配模塊，用于將摘要信息輸入檢索模型，利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配，以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則；

53、融合模塊，用于基于待檢測的文本，對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理，生成敏感信息研判提示文本；

54、響應(yīng)生成模塊，用于基于敏感信息研判提示文本，使用大語言模型生成關(guān)于敏感信息的評估報(bào)告。

55、對比現(xiàn)有技術(shù)，本發(fā)明有益效果在于：

56、1、本發(fā)明利用先進(jìn)的大型模型來增強(qiáng)對上下文的理解，大模型通過上下文學(xué)習(xí)，能夠理解復(fù)雜語境下的敏感信息，識別潛在的敏感信息片段，從而提高檢測準(zhǔn)確率。

57、2、本發(fā)明整合了包含與敏感信息相關(guān)的實(shí)體、關(guān)系和屬性的知識圖譜。這些結(jié)構(gòu)化信息有助于增強(qiáng)模型的理解和檢測的準(zhǔn)確性。知識圖譜對于提供一個(gè)全面的框架來理解不同敏感信息片段之間的關(guān)系至關(guān)重要，即使這些信息分散在多個(gè)文檔或數(shù)據(jù)集中，仍然能夠挖掘信息之間的隱含關(guān)聯(lián)。知識圖譜中存儲的實(shí)體關(guān)系和屬性信息可以輔助模型識別和理解潛在的敏感信息，提高檢測的全面性和準(zhǔn)確性。

58、3、本發(fā)明能否分析分散在不同文檔或數(shù)據(jù)集中的碎片化信息，通過語義匹配鏈接實(shí)體和關(guān)系，利用信息聚合的方法確保了全面且準(zhǔn)確的檢測。

59、4、本發(fā)明綜合大模型決策和碎片化信息整合技術(shù)，進(jìn)行智能檢測，判斷信息的敏感性和等級，能夠有效減少誤報(bào)和漏報(bào)。

60、由此可見，本發(fā)明與現(xiàn)有技術(shù)相比，具有突出的實(shí)質(zhì)性特點(diǎn)和顯著的進(jìn)步，其實(shí)施的有益效果也是顯而易見的。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李志剛,路冰,羅圣美,紀(jì)翀,蔣榮
技術(shù)所有人：南京中孚信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

敏感信息監(jiān)控系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種碎片化敏感信息智能檢測方法及系統(tǒng)與流程