欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種碎片化敏感信息智能檢測方法及系統(tǒng)與流程

文檔序號:40573073發(fā)布日期:2025-01-03 11:35閱讀:14來源:國知局
一種碎片化敏感信息智能檢測方法及系統(tǒng)與流程

本發(fā)明涉及信息檢測,更具體的說是涉及一種碎片化敏感信息智能檢測方法及系統(tǒng)。


背景技術(shù):

1、隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)量的爆炸性增長使得敏感信息的保護(hù)變得尤為重要。然而,現(xiàn)有的敏感信息檢測系統(tǒng)往往存在檢測準(zhǔn)確率低、難以處理碎片化信息等問題。特別是在處理跨媒體、跨平臺等復(fù)雜場景時(shí),敏感信息的檢測和識別變得尤為困難。

2、現(xiàn)有的敏感信息檢測系統(tǒng)采用基于規(guī)則和簡單的模型二分類的敏感信息檢測系統(tǒng),這類系統(tǒng)依賴于預(yù)定義的規(guī)則和關(guān)鍵詞列表以及需要大量高質(zhì)量的敏感數(shù)據(jù)訓(xùn)練模型來識別文檔或數(shù)據(jù)中的敏感信息。盡管這些系統(tǒng)在特定場景下能有效檢測出一些敏感信息,但存在以下明顯的局限性:

3、1、由于進(jìn)行信息檢索時(shí),采用傳統(tǒng)的規(guī)則關(guān)鍵詞匹配等方法,此類方法不能理解語境,因此可能將無害的語句誤判為敏感信息。通過簡單的變體處理,如替換字母、添加符號等,就能繞過關(guān)鍵詞匹配,降低檢測系統(tǒng)的有效性。而且,規(guī)則和關(guān)鍵詞列表的維護(hù)比較困難,難以應(yīng)對新出現(xiàn)的敏感信息類型。

4、2、對于碎片化的敏感信息檢測效果不佳,尤其是當(dāng)敏感信息分布在多個(gè)文檔或數(shù)據(jù)集中時(shí)。

5、3、檢測準(zhǔn)確率受限,容易產(chǎn)生誤報(bào)和漏報(bào)。

6、由此可見,如何高效、準(zhǔn)確地檢測碎片化敏感信息成為當(dāng)前亟待解決的問題。


技術(shù)實(shí)現(xiàn)思路

1、針對以上問題,本發(fā)明的目的在于提供一種碎片化敏感信息智能檢測方法及系統(tǒng),利用大模型的檢索增強(qiáng)能力,結(jié)合知識圖譜的關(guān)聯(lián)性分析,實(shí)現(xiàn)了對碎片化敏感信息的高效、準(zhǔn)確檢測。

2、本發(fā)明為實(shí)現(xiàn)上述目的,通過以下技術(shù)方案實(shí)現(xiàn):

3、第一方面,本發(fā)明公開了一種碎片化敏感信息智能檢測方法,包括:

4、定義敏感信息,并創(chuàng)建敏感信息知識庫;

5、使用深度學(xué)習(xí)模型構(gòu)建檢索模型;

6、從多源文檔中獲取待檢測的碎片化信息,并對碎片化信息進(jìn)行數(shù)據(jù)清洗,生成待檢測的文本;

7、使用大語言模型識別待檢測文本中的敏感信息;

8、基于敏感信息,利用nlp技術(shù)構(gòu)建知識圖譜;

9、使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為包含敏感信息的社區(qū)生成摘要信息;

10、使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為每個(gè)社區(qū)生成摘要信息;

11、將摘要信息輸入檢索模型,利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配,以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則;

12、基于待檢測的文本,對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理,生成敏感信息研判提示文本;

13、基于敏感信息研判提示文本,使用大語言模型生成關(guān)于敏感信息的評估報(bào)告。進(jìn)一步,所述定義敏感信息,并創(chuàng)建敏感信息知識庫,包括:

14、將個(gè)人身份信息、財(cái)務(wù)信息、健康信息、地理位置數(shù)據(jù)定義為敏感信息;

15、創(chuàng)建一個(gè)包含所有已定義敏感信息的數(shù)據(jù)集或數(shù)據(jù)庫,作為敏感信息知識庫;

16、所述敏感信息知識庫包括:敏感信息的實(shí)例、敏感信息的類別和敏感信息的上下文描述。

17、進(jìn)一步,所述使用深度學(xué)習(xí)模型構(gòu)建檢索模型,包括:

18、獲取敏感信息知識庫中的文本數(shù)據(jù),對文本數(shù)據(jù)進(jìn)行預(yù)處理;

19、使用詞嵌入技術(shù)將文本數(shù)據(jù)中的每個(gè)單詞轉(zhuǎn)換為固定長度的向量;

20、使用句向量模型將文本數(shù)據(jù)中的句子或短語轉(zhuǎn)換為向量;

21、根據(jù)檢索需求選擇深度學(xué)習(xí)模型,利用基于文本數(shù)據(jù)轉(zhuǎn)換的向量訓(xùn)練深度學(xué)習(xí)模型,生成檢索模型。

22、進(jìn)一步,所述使用大語言模型識別待檢測文本中的敏感信息,包括:

23、利用自然語言處理技術(shù),從待檢測的文本中抽取有意義的特征;

24、使用大語言模型識別待檢測文本中潛在的敏感信息模式;

25、定義敏感信息的規(guī)則,將抽取的特征和識別出的潛在的敏感信息模式與敏感信息的規(guī)則進(jìn)行匹配,以確定待檢測文本中是否包含敏感信息;

26、如果匹配成功,則將相應(yīng)的文本被標(biāo)記為敏感信息,記為待識別文本。

27、進(jìn)一步,所述基于敏感信息,利用nlp技術(shù)構(gòu)建知識圖譜,包括:

28、使用nlp技術(shù)識別待識別文本中的實(shí)體;

29、從待識別文本中抽取實(shí)體之間的關(guān)系;

30、基于實(shí)體、實(shí)體之間的關(guān)系,構(gòu)建一個(gè)包含實(shí)體和關(guān)系的知識圖譜。

31、進(jìn)一步,所述使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為每個(gè)社區(qū)生成摘要信息,包括:

32、使用leiden算法基于不同的主題或上下文將知識圖譜劃分為多個(gè)社區(qū);

33、從每個(gè)社區(qū)中提取關(guān)鍵信息和敏感點(diǎn);

34、基于提取的關(guān)鍵信息和敏感點(diǎn)生成摘要信息。

35、進(jìn)一步,所述將摘要信息輸入檢索模型,利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配,以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則,包括:

36、將摘要信息輸入檢索模型,將摘要信息轉(zhuǎn)換為向量表示,生成摘要信息向量;

37、利用檢索模型計(jì)算摘要信息向量與敏感信息知識庫中每個(gè)條目向量的相似度;

38、基于預(yù)設(shè)的相似度閾值,確定相似度高于相似度閾值的條目,將相應(yīng)的條目視為潛在敏感信息,并提取出相應(yīng)的敏感信息研判規(guī)則。

39、進(jìn)一步,所述基于待檢測的文本,對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理,生成敏感信息研判提示文本,包括:

40、根據(jù)敏感信息研判規(guī)則,將潛在敏感信息與待檢測文本融合,形成包含完整信息的上下文環(huán)境,生成敏感信息研判提示文本;

41、基于生成敏感信息研判提示文本,對待檢測文本中敏感信息的存在性及其敏感程度進(jìn)行評估。

42、進(jìn)一步,所述基于敏感信息研判提示文本,使用大語言模型生成關(guān)于敏感信息的評估報(bào)告,包括:

43、基于敏感信息研判提示文本,使用大語言模型識別出敏感信息類型、標(biāo)記出敏感信息的位置,并對其進(jìn)行加密或脫敏處理;

44、利用大語言模型為每個(gè)實(shí)體或關(guān)系分配一個(gè)敏感性評分、評估敏感信息的風(fēng)險(xiǎn)等級并生成敏感信息的處理建議,以形成敏感信息的評估報(bào)告。

45、第二方面,本發(fā)明還公開了一種碎片化敏感信息智能檢測系統(tǒng),包括:

46、知識庫創(chuàng)建模塊,用于定義敏感信息,并創(chuàng)建敏感信息知識庫;

47、檢索模型構(gòu)建模塊,用于使用深度學(xué)習(xí)模型構(gòu)建檢索模型;

48、數(shù)據(jù)準(zhǔn)備模塊,用于從多源文檔中獲取待檢測的碎片化信息,并對碎片化信息進(jìn)行數(shù)據(jù)清洗,生成待檢測的文本;

49、敏感信息識別模塊,用于使用大語言模型識別待檢測文本中的敏感信息;

50、知識圖譜構(gòu)建模塊,用于基于敏感信息,利用nlp技術(shù)構(gòu)建知識圖譜;

51、社區(qū)檢測模塊,用于使用圖算法對知識圖譜進(jìn)行社區(qū)劃分,并為每個(gè)社區(qū)生成摘要信息;

52、檢索匹配模塊,用于將摘要信息輸入檢索模型,利用檢索模型與敏感信息知識庫中的條目進(jìn)行匹配,以檢索出摘要信息中的潛在敏感信息和相應(yīng)的敏感信息研判規(guī)則;

53、融合模塊,用于基于待檢測的文本,對潛在敏感信息和對應(yīng)的敏感信息研判規(guī)則進(jìn)行上下文融合處理,生成敏感信息研判提示文本;

54、響應(yīng)生成模塊,用于基于敏感信息研判提示文本,使用大語言模型生成關(guān)于敏感信息的評估報(bào)告。

55、對比現(xiàn)有技術(shù),本發(fā)明有益效果在于:

56、1、本發(fā)明利用先進(jìn)的大型模型來增強(qiáng)對上下文的理解,大模型通過上下文學(xué)習(xí),能夠理解復(fù)雜語境下的敏感信息,識別潛在的敏感信息片段,從而提高檢測準(zhǔn)確率。

57、2、本發(fā)明整合了包含與敏感信息相關(guān)的實(shí)體、關(guān)系和屬性的知識圖譜。這些結(jié)構(gòu)化信息有助于增強(qiáng)模型的理解和檢測的準(zhǔn)確性。知識圖譜對于提供一個(gè)全面的框架來理解不同敏感信息片段之間的關(guān)系至關(guān)重要,即使這些信息分散在多個(gè)文檔或數(shù)據(jù)集中,仍然能夠挖掘信息之間的隱含關(guān)聯(lián)。知識圖譜中存儲的實(shí)體關(guān)系和屬性信息可以輔助模型識別和理解潛在的敏感信息,提高檢測的全面性和準(zhǔn)確性。

58、3、本發(fā)明能否分析分散在不同文檔或數(shù)據(jù)集中的碎片化信息,通過語義匹配鏈接實(shí)體和關(guān)系,利用信息聚合的方法確保了全面且準(zhǔn)確的檢測。

59、4、本發(fā)明綜合大模型決策和碎片化信息整合技術(shù),進(jìn)行智能檢測,判斷信息的敏感性和等級,能夠有效減少誤報(bào)和漏報(bào)。

60、由此可見,本發(fā)明與現(xiàn)有技術(shù)相比,具有突出的實(shí)質(zhì)性特點(diǎn)和顯著的進(jìn)步,其實(shí)施的有益效果也是顯而易見的。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
正阳县| 南岸区| 桃江县| 桑日县| 衢州市| 顺义区| 桃园市| 潼关县| 宽城| 明水县| 新兴县| 奎屯市| 凤山县| 隆安县| 淳安县| 富阳市| 怀柔区| 汾西县| 武胜县| 沂水县| 普陀区| 类乌齐县| 金川县| 扎兰屯市| 夏河县| 方城县| 大方县| 军事| 杭州市| 蒲城县| 大新县| 大冶市| 军事| 美姑县| 武陟县| 精河县| 习水县| 额敏县| 德保县| 石城县| 沅江市|