本發(fā)明涉及數(shù)據(jù)安全,具體為一種基于不可見字符的鐵路敏感數(shù)據(jù)水印溯源方法。
背景技術(shù):
1、隨著鐵路信息化的快速發(fā)展,中國鐵路系統(tǒng)經(jīng)歷了深刻的數(shù)字化轉(zhuǎn)型,從傳統(tǒng)的人工操作逐步向智能化、自動(dòng)化方向邁進(jìn)。這一進(jìn)程極大地提高了鐵路運(yùn)營效率、安全性和服務(wù)質(zhì)量,但同時(shí)也帶來了前所未有的數(shù)據(jù)安全挑戰(zhàn)。鐵路系統(tǒng)中的敏感數(shù)據(jù)涵蓋范圍廣泛,包括但不限于:乘客個(gè)人信息、列車運(yùn)行調(diào)度數(shù)據(jù)、基礎(chǔ)設(shè)施維護(hù)記錄、安全監(jiān)控系統(tǒng)數(shù)據(jù)、財(cái)務(wù)交易信息等。這些數(shù)據(jù)一旦泄露或被惡意利用,可能會(huì)導(dǎo)致嚴(yán)重的經(jīng)濟(jì)損失、安全隱患,甚至危及國家安全。因此,數(shù)據(jù)保護(hù)已成為確保鐵路系統(tǒng)安全、穩(wěn)定、高效運(yùn)行的關(guān)鍵因素。
2、在諸多數(shù)據(jù)保護(hù)技術(shù)中,數(shù)據(jù)水印技術(shù)近年來受到越來越多的關(guān)注,并在鐵路敏感數(shù)據(jù)保護(hù)領(lǐng)域展現(xiàn)出巨大潛力。數(shù)據(jù)水印是一種將識(shí)別信息嵌入到數(shù)據(jù)中的技術(shù),目的是為數(shù)據(jù)添加所有權(quán)標(biāo)識(shí)或追蹤信息。當(dāng)前常用的數(shù)據(jù)水印技術(shù)主要有:偽行水印、偽列水印、數(shù)據(jù)變形水印、指紋水印等。然而,這些技術(shù)在應(yīng)用于鐵路業(yè)務(wù)系統(tǒng)時(shí)存在明顯的局限性,有的改變數(shù)據(jù)集的結(jié)構(gòu),有的要求數(shù)據(jù)集的不可變。
3、例如,偽行水印技術(shù)通過在原始數(shù)據(jù)集中插入模擬生成的數(shù)據(jù)行,但這可能導(dǎo)致鐵路客貨運(yùn)等業(yè)務(wù)應(yīng)用中數(shù)據(jù)庫分頁查詢返回的數(shù)據(jù)條數(shù)不一致,影響數(shù)據(jù)的完整性和準(zhǔn)確性。偽列水印技術(shù)則需要調(diào)整數(shù)據(jù)結(jié)構(gòu)增添一列,可能影響現(xiàn)有系統(tǒng)的穩(wěn)定性和性能。數(shù)據(jù)變形水印在無數(shù)據(jù)脫敏場景中不適用,可能影響鐵路運(yùn)營數(shù)據(jù)的準(zhǔn)確性和可用性。而指紋水印要求數(shù)據(jù)集不可變,與鐵路業(yè)務(wù)數(shù)據(jù)經(jīng)常需要更新的特性相沖突。
4、這些現(xiàn)有技術(shù)的局限性在鐵路行業(yè)應(yīng)用中尤為突出。根據(jù)國鐵集團(tuán)召開的工作會(huì)議,到2020年底,中國鐵路營業(yè)里程達(dá)到14.63萬公里左右,高鐵營業(yè)里程達(dá)到3.79萬公里以上。如此龐大的鐵路網(wǎng)絡(luò)產(chǎn)生了海量的敏感數(shù)據(jù),對(duì)數(shù)據(jù)保護(hù)技術(shù)提出了更高的要求。同時(shí),《中華人民共和國網(wǎng)絡(luò)安全法》和《中華人民共和國數(shù)據(jù)安全法》的實(shí)施,也為鐵路行業(yè)數(shù)據(jù)保護(hù)提供了法律依據(jù)和監(jiān)管要求。
5、基于上述背景,針對(duì)鐵路敏感數(shù)據(jù)保護(hù)的特殊需求,本發(fā)明提出了一種基于不可見字符的鐵路敏感數(shù)據(jù)水印溯源方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是克服現(xiàn)有的缺陷,提供一種基于不可見字符的鐵路敏感數(shù)據(jù)水印溯源方法,實(shí)現(xiàn)了鐵路敏感數(shù)據(jù)的水印嵌入和溯源,為鐵路數(shù)據(jù)安全提供了有效保護(hù),不改變?cè)紨?shù)據(jù)結(jié)構(gòu),對(duì)現(xiàn)有系統(tǒng)影響小,同時(shí)具有較強(qiáng)的通用性和可擴(kuò)展性,適用于各類鐵路敏感數(shù)據(jù)的保護(hù)需求,可以有效解決背景技術(shù)中的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于不可見字符的鐵路敏感數(shù)據(jù)水印溯源方法,包括以下步驟:
3、s1、水印信息預(yù)處理:將需要寫入的水印信息計(jì)算成固定長度的摘要信息,然后依照預(yù)定義的編碼規(guī)則生成不可見字符串,并將兩者對(duì)應(yīng)存儲(chǔ)起來,根據(jù)配置的分組設(shè)置對(duì)不可見字符串進(jìn)行分片;
4、s2、水印信息寫入:遍歷結(jié)果集元數(shù)據(jù)確定寫入的列及其位置,將不可見字符串分片對(duì)應(yīng)寫入;
5、s3、水印溯源:對(duì)提供的數(shù)據(jù)集文件按行讀取,提取不可見字符串,將提取的不可見字符串與預(yù)存的水印信息進(jìn)行比對(duì),計(jì)算匹配度,輸出溯源結(jié)果。
6、優(yōu)選的,所述步驟s1中,使用sm3算法對(duì)水印信息進(jìn)行計(jì)算,得到摘要信息,摘要信息為固定長度的16進(jìn)制字符串。
7、優(yōu)選的,所述步驟s1中,根據(jù)編碼規(guī)則將16進(jìn)制字符串轉(zhuǎn)換為不可見字符串,編碼規(guī)則如下:
8、0-\u202d,1-\u206e,2-\u2060,3-\u200d,
9、4-\u206b,5-\u200e,6-\u206c,7-\u206a,
10、8-\u202c,9-\u202a,a-\u200b,b-\u202b,
11、c-\u202e,d-\u200c,e-\u206f,f-\u206d。
12、優(yōu)選的,所述步驟s1中,不可見字符串分組步驟如下:
13、不分組:即只有1組,待寫入的信息是:f+步驟s1中生成的不可見字符串;
14、分兩組:則組一待寫入的信息是,0+步驟s1中生成的1/2不可見字符串;組二待寫入的信息是,1+剩下的不可見字符串;
15、分三組:則組一待寫入的信息是,0+步驟s1中生成的1/3不可見字符串;組二待寫入的信息是,1+剩下的1/2不可見字符串;組三待寫入的信息是,2+剩下的不可見字符串;
16、其他分組依此類推,最終步驟s1中的不可見字符串分割成很多片段;
17、分組數(shù)不少于15(0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f)。
18、優(yōu)選的,所述步驟s2包括以下步驟:
19、1)、系統(tǒng)遍歷鐵路數(shù)據(jù)集的元數(shù)據(jù),識(shí)別所有字符類型的列;
20、2)、剔除不適合寫入水印的列;
21、3)、生成可寫入列的索引列表,為后續(xù)寫入做準(zhǔn)備;
22、4)、系統(tǒng)逐行處理鐵路數(shù)據(jù)集。
23、優(yōu)選的,所述系統(tǒng)逐行處理鐵路數(shù)據(jù)集步驟如下:
24、1)、隨機(jī)選擇一個(gè)可寫入列,從待寫入的字符片段中取出一個(gè),將字符片段插入到選中列的值中,更新該列的值;
25、2)、如果一行數(shù)據(jù)未能寫入所有片段,系統(tǒng)繼續(xù)在下一行寫入剩余片段;
26、3)、當(dāng)完整寫入一條不可見字符串后,系統(tǒng)根據(jù)配置的寫入密度,跳過指定行數(shù);
27、4)、重復(fù)上部步驟1-3,直到處理完整個(gè)數(shù)據(jù)集。
28、優(yōu)選的,所述步驟s3中,提取不可見字符串步驟如下:
29、1)、系統(tǒng)讀取需要溯源的鐵路數(shù)據(jù)集文件;
30、2)、將讀取的數(shù)據(jù)行放入一個(gè)有容量限制的隊(duì)列中;
31、3)、啟動(dòng)多個(gè)分析線程,從隊(duì)列中取出數(shù)據(jù)行進(jìn)行處理;
32、4)、每個(gè)線程分析數(shù)據(jù)行,提取可能的水印片段信息;
33、5)、根據(jù)片段格式,組裝提取的片段,嘗試重構(gòu)完整的不可見字符串;
34、6)、如果獲得完整的不可見字符串,停止提取過程;否則繼續(xù)處理直到文件結(jié)束。
35、優(yōu)選的,所述步驟s3中,提取到的是完整的不可見字符串,系統(tǒng)直接確認(rèn)對(duì)應(yīng)的水印信息;輸出溯源結(jié)果,包括匹配的水印信息和匹配度。
36、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:通過采用不可見字符實(shí)現(xiàn)水印嵌入,在保護(hù)數(shù)據(jù)完整性的同時(shí),最小化了對(duì)原始數(shù)據(jù)的修改,保證了數(shù)據(jù)的準(zhǔn)確性和可用性;無需調(diào)整數(shù)據(jù)集結(jié)構(gòu),避免了對(duì)現(xiàn)有鐵路業(yè)務(wù)系統(tǒng)的大規(guī)模改造,不影響現(xiàn)有系統(tǒng)的正常運(yùn)行,從而提高了系統(tǒng)兼容性;克服了現(xiàn)有水印方法對(duì)數(shù)據(jù)不可變性的要求,完全適應(yīng)了鐵路業(yè)務(wù)數(shù)據(jù)經(jīng)常更新的特點(diǎn),并解決了在數(shù)據(jù)分頁查詢中可能導(dǎo)致的數(shù)據(jù)條數(shù)不一致問題;無需針對(duì)不同類型的數(shù)據(jù)開發(fā)特定的水印技術(shù),具有廣泛的通用性,通過提高水印的隱蔽性和安全性,為數(shù)據(jù)泄露后的有效溯源追蹤提供了技術(shù)手段,即使在數(shù)據(jù)部分丟失或修改的情況下,仍能實(shí)現(xiàn)數(shù)據(jù)來源的追蹤和識(shí)別,顯著增強(qiáng)了數(shù)據(jù)的溯源能力??傮w而言,本發(fā)明既能有效保護(hù)敏感數(shù)據(jù)安全,又不影響現(xiàn)有業(yè)務(wù)系統(tǒng)正常運(yùn)行的水印溯源方法,具有重要的實(shí)用價(jià)值和推廣應(yīng)用前景。