本發(fā)明涉及信息安全和圖像處理,特別是利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)的圖像識別與加密傳輸技術(shù),具體是一種基于transformer的文件加密傳輸方法。
背景技術(shù):
1、隨著數(shù)字化轉(zhuǎn)型的加速,文件傳輸成為日常業(yè)務(wù)操作中不可或缺的環(huán)節(jié)?,F(xiàn)有技術(shù)中,文件加密傳輸主要依賴于傳統(tǒng)加密算法,如aes、rsa等,這些算法雖然在一定程度上保證了數(shù)據(jù)的安全性,但在面對復(fù)雜的網(wǎng)絡(luò)環(huán)境和高級持續(xù)性威脅(apt)時(shí),其加密強(qiáng)度和解密效率面臨挑戰(zhàn)。此外,現(xiàn)有技術(shù)對于文件傳輸?shù)奶幚硗鶅H針對文件數(shù)據(jù)本身,而忽略了語義層面的信息傳輸,即不再傳輸文件本身,而是提取文件的視覺信息,將文件轉(zhuǎn)為可視化的圖像并利用圖像內(nèi)容的結(jié)構(gòu)化特性對信息進(jìn)行加密,這樣極大提高了信息被破解的難度。
2、ocr(optical?character?recognition,光學(xué)字符識別)技術(shù)是一種將圖像中的文字轉(zhuǎn)換成可編輯和可搜索的文本格式的方法。它通過掃描和攝像等光學(xué)輸入方式獲取圖像上的文字信息。ocr技術(shù)在文檔數(shù)字化、車牌識別、銀行支票處理等領(lǐng)域有著廣泛的應(yīng)用。ocr有多種實(shí)現(xiàn)方法,有傳統(tǒng)的圖像處理方法,也有基于深度學(xué)習(xí)的方法。
3、以transformer為代表的深度學(xué)習(xí)技術(shù)近年在計(jì)算機(jī)視覺與自然語言處理中取得了廣泛的應(yīng)用,transformer及其變體已經(jīng)成為深度學(xué)習(xí)中最重要的模型架構(gòu)之一。transformer是一種深度學(xué)習(xí)模型在2017年首次提出。它的核心創(chuàng)新是自注意力(self-attention)機(jī)制,這種機(jī)制使得模型能夠處理序列數(shù)據(jù)中的長距離依賴問題,并且能夠并行處理序列中的所有元素,從而大大提高了訓(xùn)練效率。自注意力機(jī)制,允許模型在序列的任意兩個(gè)位置之間直接建立依賴關(guān)系,無需等待信息逐步傳遞。transformer的另一個(gè)關(guān)鍵特點(diǎn)是它使用了多頭注意力(multi-head?attention),這意味著模型在不同的表示子空間中并行地學(xué)習(xí)信息。這增加了模型的表達(dá)能力,使其能夠捕捉到更豐富的序列特征。
4、transformer模型由編碼器(encoder)和解碼器(decoder)組成。編碼器將輸入序列轉(zhuǎn)換為連續(xù)表示,解碼器則根據(jù)編碼器的輸出和之前的輸出生成目標(biāo)序列。在自注意力層中,每個(gè)位置都會(huì)計(jì)算與其他所有位置的注意力分?jǐn)?shù),這些分?jǐn)?shù)決定了在生成當(dāng)前位置的輸出時(shí),應(yīng)該給予其他位置多少關(guān)注。這種機(jī)制使得模型能夠捕捉到序列中的復(fù)雜模式和關(guān)系。
5、transformer在計(jì)算機(jī)視覺存在廣泛的應(yīng)用,圖像檢測,圖像分類,圖像分割等領(lǐng)域都有諸多變種。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對現(xiàn)有文件加密傳輸技術(shù)存在的問題,提出了一種基于transformer的文件加密傳輸方法。
2、本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
3、一種基于transformer的文件加密傳輸方法,其特征在于:將文件內(nèi)容轉(zhuǎn)化為多張圖像,圖像通過基于transformer的ocr模型和圖像去噪模型的編碼器與解碼器,對圖像的分文字信息和非文字信息分別實(shí)現(xiàn)加密與解密;其中,基于transformer的ocr模型用于加密和解密文字信息,基于transformer的圖像去噪模型用于加密和解密非文字信息。
4、本發(fā)明基于transformer的文件加密傳輸方法,具體包括以下步驟:
5、s1文件圖像化;
6、文件在發(fā)送端通過可視化軟件打開,屏幕內(nèi)容通過截圖工具自動(dòng)儲存為圖像,當(dāng)可視化內(nèi)容超過一個(gè)屏幕尺寸時(shí)則儲存多張圖像直到文件內(nèi)容均被包含;
7、s2文字與非文字分離;
8、將圖像的文字信息全部檢出,判斷文字的類型為后面的語素判斷做準(zhǔn)備;非文字信息采用背景進(jìn)行填充,非文字區(qū)域的圖像中求取最大聯(lián)通區(qū)域,以該區(qū)域內(nèi)的像素平均值作為背景填充的像素;
9、s3文字圖像塊的切分與位置編碼;
10、根據(jù)預(yù)設(shè)的圖像的寬和高wunit,hunit,將文字區(qū)域切分為多個(gè)圖像塊,每個(gè)圖像塊包含一定量的文字信息;圖像塊不可分割任何語素;對各圖像塊進(jìn)行位置編碼;
11、s4編碼與加密;
12、非文字信息以圖像方式輸入到基于transformer的圖像降噪模型;transformer模型的encoder部分的輸出結(jié)果可視為數(shù)據(jù)加密過程,并進(jìn)行編碼;
13、文字信息以圖像塊輸入到基于transformer的ocr模型;transformer的encoder部分對所有圖像塊進(jìn)行編碼,實(shí)現(xiàn)數(shù)據(jù)加密;每個(gè)圖像塊對應(yīng)的位置編碼與圖像塊的編碼結(jié)果結(jié)合,形成文字部分的加密數(shù)據(jù)包;
14、非文字信息與文字信息分別完成加密后,在發(fā)送端一起傳輸至接收端;
15、s5解碼與文件還原;
16、非文字信息通過基于transformer的圖像去噪模型的解碼器進(jìn)行解碼,恢復(fù)出不帶文字信息的原始圖像背景ibg;
17、文字信息通過基于transformer的ocr模型的解碼器進(jìn)行解碼得到文字信息;基于位置編碼可得到文字信息對應(yīng)到圖像上ibg的位置,將解析到的文字重新繪制到圖像背景ibg上;
18、對所有圖像塊都執(zhí)行同樣操作,將文字信息與非文字圖像結(jié)合,實(shí)現(xiàn)對圖像信息的恢復(fù)。
19、進(jìn)一步,所述步驟s2中,語素是語言中最小的有意義的單位;包括:中文的一個(gè)字,英文的一個(gè)完整的單詞,一個(gè)標(biāo)點(diǎn)符號。
20、進(jìn)一步,所述步驟s3中,圖像塊不可分割任何語素是通過對圖像塊邊緣存在字符的圖像塊進(jìn)行縮放與平移實(shí)現(xiàn)。
21、對圖像塊邊緣存在字符的圖像塊進(jìn)行縮放與平移方法包括:
22、當(dāng)圖像塊不包括任何文字信息時(shí),該圖像塊不處理;當(dāng)圖像塊的邊緣分割了一個(gè)語素時(shí),將該圖像塊的寬或高縮小使得其剛好避開處于邊緣的語素,縮小后再將圖像塊上采樣至標(biāo)準(zhǔn)大小wunit,hunit,縮放的比例信息記為rx,ry,分別表示圖像寬與高方向的縮放比例;當(dāng)某圖像塊前面的塊進(jìn)行了縮放時(shí),本圖像塊需要對應(yīng)偏移,以無縫對接上前一個(gè)圖像塊的邊緣,平移的像素記為offsetx,offsety,分別表示圖像寬與高方向的平移像素;當(dāng)某個(gè)圖像塊的長度超出原始圖像的界限時(shí),為確保輸入圖像尺寸統(tǒng)一,采用補(bǔ)零的方式對圖像多余部分進(jìn)行填充;
23、采用以上方法對原始圖像進(jìn)行分塊;每個(gè)圖像塊的位置變化信息記為圖像塊的位置編碼,即一個(gè)向量pos=(x,y,rx,ry,offsetx,offsety),其中,x,y為圖像塊的左上角原點(diǎn)對應(yīng)原始圖像的圖像坐標(biāo)位置;每個(gè)圖像塊都記錄對應(yīng)的位置編碼。
24、本發(fā)明的有益效果:本發(fā)明不采用任何傳統(tǒng)的加解密算法,而是利用圖像承載原始文件的視覺信息,將視覺信息進(jìn)一步的分為文字部分與非文字部分,對兩個(gè)部分采用不同的模型算法進(jìn)行處理。其中,對非文字部分采用基于transformer圖像去噪算法,對文字部分采用基于transformer的ocr算法。兩種算法都基于transformer,加密是利用transformer的encoder充當(dāng)加密運(yùn)算器,利用transformer的decoder充當(dāng)解密運(yùn)算器。本發(fā)明方法不基于原始的文件數(shù)據(jù),而是以重新生成視覺信息的方式實(shí)現(xiàn)數(shù)據(jù)的語義傳輸。在確保信息加密的同時(shí)也實(shí)現(xiàn)了信息的還原,特別適用于包含大量圖像和文字信息的文件傳輸場景,為信息安全領(lǐng)域提供了新的技術(shù)解決方案。