本申請(qǐng)涉及數(shù)據(jù)處理,具體涉及一種基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法及裝置。
背景技術(shù):
1、個(gè)人隱私是現(xiàn)代社會(huì)中不可或缺的基本權(quán)利,它不僅關(guān)乎個(gè)人信息的保護(hù),也直接影響到每個(gè)人的自由和安全。在數(shù)字化時(shí)代,個(gè)人數(shù)據(jù)常常被企業(yè)和機(jī)構(gòu)收集、存儲(chǔ)和分析,令人擔(dān)憂的是,這些信息可能在未經(jīng)授權(quán)的情況下被泄露或?yàn)E用。因此,維護(hù)個(gè)人隱私顯得尤為重要,保護(hù)隱私不僅是對(duì)自己權(quán)利的捍衛(wèi),也是對(duì)社會(huì)信任的基礎(chǔ)。
2、為了保護(hù)個(gè)人隱私,許多企業(yè)和組織采取了信息屏蔽技術(shù),通過對(duì)敏感數(shù)據(jù)進(jìn)行脫敏、加密或匿名處理,確保在使用和分享數(shù)據(jù)時(shí)不會(huì)泄露個(gè)人身份信息。這種技術(shù)不僅可以有效防止數(shù)據(jù)泄露和濫用,還能在大數(shù)據(jù)分析、人工智能應(yīng)用等領(lǐng)域中保護(hù)用戶的隱私權(quán)。
3、目前,個(gè)人隱私信息屏蔽處理主要是通過信息提取和語義理解的方式進(jìn)行個(gè)人信息判斷,然后進(jìn)行數(shù)據(jù)涂抹達(dá)到去除隱私的目的。其中,信息提取主要是通過ocr識(shí)別的方式,語義理解的目的是進(jìn)行個(gè)人關(guān)鍵信息辨別,提取出文本內(nèi)容屬于個(gè)人的信息,例如姓名、證件號(hào)、地址和電話等,然后再對(duì)提取的內(nèi)容進(jìn)行涂抹。但是,這種方式需要大量的數(shù)據(jù)進(jìn)行模型訓(xùn)練,從而達(dá)到語義理解的目的,導(dǎo)致整個(gè)轉(zhuǎn)化周期長,效率低,成本高;而且其處理效果可能受限于訓(xùn)練材料的類型,導(dǎo)致準(zhǔn)確率低。
技術(shù)實(shí)現(xiàn)思路
1、為此,本申請(qǐng)?zhí)峁┮环N基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法及裝置,以解決現(xiàn)有技術(shù)存在的個(gè)人隱私信息屏蔽處理方式效率和準(zhǔn)確率低,成本高的問題。
2、為了實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案:
3、第一方面,一種基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法,包括:
4、步驟1:獲取含有個(gè)人隱私信息的電子文件,并將所述電子文件拆分為單頁影像數(shù)據(jù);
5、步驟2:識(shí)別所述單頁影像數(shù)據(jù),并獲取識(shí)別坐標(biāo)和文本信息,將所述識(shí)別坐標(biāo)和文本信息按區(qū)域進(jìn)行結(jié)構(gòu)封裝,得到識(shí)別結(jié)果;
6、步驟3:根據(jù)預(yù)先設(shè)置好的隱私字段名稱和隱私關(guān)鍵字段對(duì)所述識(shí)別結(jié)果進(jìn)行字段名稱匹配查找,得到隱私關(guān)鍵字識(shí)別結(jié)果;
7、步驟4:根據(jù)所述隱私關(guān)鍵字識(shí)別結(jié)果進(jìn)行行縱數(shù)據(jù)分組,得到行縱分組結(jié)果;
8、步驟5:根據(jù)所述行縱分組結(jié)果和匹配查找進(jìn)行隱私區(qū)域判定,得到隱私區(qū)域判定結(jié)果;
9、步驟6:根據(jù)所述隱私區(qū)域判定結(jié)果在所述電子文件上進(jìn)行空白區(qū)域截取或覆蓋,從而將隱私內(nèi)容進(jìn)行隱藏。
10、進(jìn)一步地,所述步驟1中,電子文件為pdf格式或jpg格式。
11、進(jìn)一步地,所述步驟2中,識(shí)別所述單頁影像數(shù)據(jù)時(shí)采用ocr技術(shù)。
12、進(jìn)一步地,所述步驟4具體為:利用所述識(shí)別結(jié)果的四角坐標(biāo)和所述隱私關(guān)鍵字識(shí)別結(jié)果的四角坐標(biāo)進(jìn)行矩形區(qū)域合并,然后計(jì)算識(shí)別結(jié)果區(qū)域面積和矩形合并區(qū)域的陰影重疊部分的比例,判斷是否屬于同一行;然后進(jìn)行識(shí)別結(jié)果區(qū)域的x坐標(biāo)順序排序,從而完成行縱信息獲取,得到行縱分組結(jié)果。
13、進(jìn)一步地,還包括:根據(jù)需要的文件格式對(duì)隱藏了隱私內(nèi)容的電子文件進(jìn)行輸出。
14、第二方面,一種基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽裝置,包括:
15、數(shù)據(jù)獲取模塊,用于獲取含有個(gè)人隱私信息的電子文件,并將所述電子文件拆分為單頁影像數(shù)據(jù);
16、數(shù)據(jù)識(shí)別模塊,用于識(shí)別所述單頁影像數(shù)據(jù),并獲取識(shí)別坐標(biāo)和文本信息,將所述識(shí)別坐標(biāo)和文本信息按區(qū)域進(jìn)行結(jié)構(gòu)封裝,得到識(shí)別結(jié)果;
17、匹配查找模塊,用于根據(jù)預(yù)先設(shè)置好的隱私字段名稱和隱私關(guān)鍵字段對(duì)所述識(shí)別結(jié)果進(jìn)行字段名稱匹配查找,得到隱私關(guān)鍵字識(shí)別結(jié)果;
18、行縱分組模塊,用于根據(jù)所述隱私關(guān)鍵字識(shí)別結(jié)果進(jìn)行行縱數(shù)據(jù)分組,得到行縱分組結(jié)果;
19、隱私區(qū)域判定模塊,用于根據(jù)所述行縱分組結(jié)果和匹配查找進(jìn)行隱私區(qū)域判定,得到隱私區(qū)域判定結(jié)果;
20、隱私內(nèi)容隱藏模塊,用于根據(jù)所述隱私區(qū)域判定結(jié)果在所述電子文件上進(jìn)行空白區(qū)域截取或覆蓋,從而將隱私內(nèi)容進(jìn)行隱藏。
21、進(jìn)一步地,所述行縱分組模塊具體用于:利用所述識(shí)別結(jié)果的四角坐標(biāo)和所述隱私關(guān)鍵字識(shí)別結(jié)果的四角坐標(biāo)進(jìn)行矩形區(qū)域合并,然后計(jì)算識(shí)別結(jié)果區(qū)域面積和矩形合并區(qū)域的陰影重疊部分的比例,判斷是否屬于同一行;然后進(jìn)行識(shí)別結(jié)果區(qū)域的x坐標(biāo)順序排序,從而完成行縱信息獲取,得到行縱分組結(jié)果。
22、第三方面,一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法的步驟。
23、第四方面,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法的步驟。
24、第五方面,一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,該計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法的步驟。
25、相比現(xiàn)有技術(shù),本申請(qǐng)至少具有以下有益效果:
26、本申請(qǐng)?zhí)峁┝艘环N基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法及裝置,通過獲取含有個(gè)人隱私信息的電子文件,并將電子文件拆分為單頁影像數(shù)據(jù);識(shí)別單頁影像數(shù)據(jù),并獲取識(shí)別坐標(biāo)和文本信息,將識(shí)別坐標(biāo)和文本信息按區(qū)域進(jìn)行結(jié)構(gòu)封裝,得到識(shí)別結(jié)果;根據(jù)預(yù)先設(shè)置好的隱私字段名稱和隱私關(guān)鍵字段對(duì)識(shí)別結(jié)果進(jìn)行字段名稱匹配查找,得到隱私關(guān)鍵字識(shí)別結(jié)果;根據(jù)隱私關(guān)鍵字識(shí)別結(jié)果進(jìn)行行縱數(shù)據(jù)分組,得到行縱分組結(jié)果;根據(jù)行縱分組結(jié)果和匹配查找進(jìn)行隱私區(qū)域判定,得到隱私區(qū)域判定結(jié)果;根據(jù)隱私區(qū)域判定結(jié)果在電子文件上進(jìn)行空白區(qū)域截取或覆蓋,從而將隱私內(nèi)容進(jìn)行隱藏。本申請(qǐng)?zhí)峁┑幕诎姹咀R(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法及裝置易于部署,能夠快速、高效的實(shí)現(xiàn)個(gè)人隱私信息處理,且成本低。
1.一種基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法,其特征在于,所述步驟1中,電子文件為pdf格式或jpg格式。
3.根據(jù)權(quán)利要求1所述的基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法,其特征在于,所述步驟2中,識(shí)別所述單頁影像數(shù)據(jù)時(shí)采用ocr技術(shù)。
4.根據(jù)權(quán)利要求1所述的基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法,其特征在于,所述步驟4具體為:利用所述識(shí)別結(jié)果的四角坐標(biāo)和所述隱私關(guān)鍵字識(shí)別結(jié)果的四角坐標(biāo)進(jìn)行矩形區(qū)域合并,然后計(jì)算識(shí)別結(jié)果區(qū)域面積和矩形合并區(qū)域的陰影重疊部分的比例,判斷是否屬于同一行;然后進(jìn)行識(shí)別結(jié)果區(qū)域的x坐標(biāo)順序排序,從而完成行縱信息獲取,得到行縱分組結(jié)果。
5.根據(jù)權(quán)利要求1所述的基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽方法,其特征在于,還包括:根據(jù)需要的文件格式對(duì)隱藏了隱私內(nèi)容的電子文件進(jìn)行輸出。
6.一種基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽裝置,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的基于版本識(shí)別與關(guān)鍵字段定位的隱私信息屏蔽裝置,其特征在于,所述行縱分組模塊具體用于:利用所述識(shí)別結(jié)果的四角坐標(biāo)和所述隱私關(guān)鍵字識(shí)別結(jié)果的四角坐標(biāo)進(jìn)行矩形區(qū)域合并,然后計(jì)算識(shí)別結(jié)果區(qū)域面積和矩形合并區(qū)域的陰影重疊部分的比例,判斷是否屬于同一行;然后進(jìn)行識(shí)別結(jié)果區(qū)域的x坐標(biāo)順序排序,從而完成行縱信息獲取,得到行縱分組結(jié)果。
8.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至5中任一項(xiàng)所述的方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至5中任一項(xiàng)所述的方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,其特征在于,該計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至5中任一項(xiàng)所述的方法的步驟。