本發(fā)明涉及信息安全,更具體地,涉及一種端對(duì)端音頻隱寫(xiě)方法及系統(tǒng)。
背景技術(shù):
1、隨著多媒體技術(shù)的普及與應(yīng)用以及社交網(wǎng)絡(luò)的飛速發(fā)展。人們利用手機(jī)、電腦等多媒體設(shè)備交流變得越來(lái)越普及。人們通過(guò)社交媒體每天在社交網(wǎng)絡(luò)上傳播大量視頻、音頻、圖像、文字等信息,這些信息有的會(huì)包含一些個(gè)人隱私問(wèn)題,如家庭住址、個(gè)人身份證號(hào)等。通過(guò)多媒體設(shè)備在社交網(wǎng)絡(luò)上公開(kāi)傳輸信息有信息泄露的風(fēng)險(xiǎn)。特別是關(guān)于一些個(gè)人隱私問(wèn)題和一些重要信息在網(wǎng)絡(luò)上進(jìn)行傳播時(shí)可能會(huì)被不法分子竊取利用造成財(cái)產(chǎn)損失。通信安全保障主要分為加密和信息隱藏:加密主要對(duì)秘密音頻本身進(jìn)行操作,但經(jīng)過(guò)特殊處理后的明文更加容易受到第三方的懷疑。而信息隱藏則隱藏秘密數(shù)據(jù)的存在性,使秘密數(shù)據(jù)在不引起第三方的懷疑下進(jìn)行隱蔽通信。因此,信息隱藏這種具有偽裝特性的通信安全保障被越來(lái)越多的使用。隱寫(xiě)術(shù)是在盡可能不破壞載體本身各種性質(zhì)的情況下,在多媒體載體中嵌入秘密音頻的技術(shù)。隱寫(xiě)術(shù)最重要的特點(diǎn)是不可檢測(cè)性,其目的是使通信雙方能夠進(jìn)行隱蔽通信,而不被其他用戶(hù)察覺(jué)通信痕跡。音頻隱寫(xiě)是隱寫(xiě)術(shù)中的一個(gè)重要分支,由于一段音頻可以包含大量信息,因此在其中隱藏秘密音頻時(shí)難以被察覺(jué),是一個(gè)理想的秘密音頻載體。通過(guò)網(wǎng)絡(luò)傳輸?shù)囊纛l信息成為了實(shí)施隱蔽通信的新型重要載體,適應(yīng)網(wǎng)絡(luò)信道的音頻隱寫(xiě)術(shù)有望成為開(kāi)放網(wǎng)絡(luò)環(huán)境下可靠、隱蔽傳遞信息的一種重要方式。
2、目前,已經(jīng)提出了一些音頻隱寫(xiě)方法。例如典型的最低有效位替換方法,把離散小波變換和快速傅里葉變換結(jié)合應(yīng)用于隱藏秘密音頻在語(yǔ)音中。最近深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和語(yǔ)音處理領(lǐng)域的飛速發(fā)展,在數(shù)字圖像隱寫(xiě)領(lǐng)域已經(jīng)取得了一些相關(guān)成果。其中用生成對(duì)抗網(wǎng)絡(luò)來(lái)生成具有更好嵌入特性的載體圖像,利用可逆神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端對(duì)端的信息隱寫(xiě)來(lái)達(dá)到更好的隱寫(xiě)效果。利用可逆神經(jīng)網(wǎng)絡(luò)可逆塊的可逆過(guò)程實(shí)現(xiàn)了良好的秘密音頻隱藏效果,并且在抵御隱寫(xiě)分析攻擊方面也有出色的效果。受此啟發(fā),我們嘗試把可逆網(wǎng)絡(luò)和對(duì)抗訓(xùn)練結(jié)合用在音頻隱寫(xiě)方面實(shí)現(xiàn)端對(duì)端音頻隱寫(xiě)。傳統(tǒng)機(jī)器學(xué)習(xí)方法,往往不能直接利用原始數(shù)據(jù),而需要提前對(duì)原始數(shù)據(jù)進(jìn)行一定的處理,比如降維、特征提取等方法。我們提出的端對(duì)端的音頻隱寫(xiě)方法,模型可以直接利用輸入數(shù)據(jù)而不需要其他處理。我們的模型能夠自動(dòng)從原始數(shù)據(jù)中學(xué)習(xí)到有用的特征表示,減少人為干預(yù)和預(yù)處理的需求。據(jù)我們所知目前端對(duì)端音頻隱寫(xiě)方向的研究應(yīng)用還屬于開(kāi)拓階段。
3、kuznetsov等研究了在音頻中使用直接擴(kuò)頻技術(shù)隱藏信息的方法,探索了5種不同的產(chǎn)生擴(kuò)頻序列的方式對(duì)音頻隱寫(xiě)的影響(kuznetsov,a.,onikiychuk,a.,peshkova,o.,gancarczyk,t.,warwas,k.,&ziubina,r.(2022).direct?spread?spectrum?technologyfor?data?hiding?in?audio.sensors,22(9),3115.)
4、yang等人提出了一個(gè)基于生成性對(duì)抗網(wǎng)絡(luò)的框架來(lái)實(shí)現(xiàn)音頻隱寫(xiě)在時(shí)間域中的最優(yōu)嵌入(yang,j.,zheng,h.,kang,x.,&shi,y.q.(2020,may).approaching?optimalembedding?in?audio?steganography?with?gan.in?icassp?2020-2020ieeeinternational?conference?on?acoustics,speech?and?signal?processing(icassp)(pp.2827-2831).ieee.)
5、nassrullah等提出基于lsb的高效音頻隱寫(xiě)方法,通過(guò)利用載體在隱藏容量和失真率之間進(jìn)行平衡來(lái)提高隱寫(xiě)性能(nassrullah,h.a.,flayyih,w.n.,&nasrullah,m.a.(2020).enhancement?of?lsb?audio?steganography?based?on?carrier?and?messagecharacteristics.j.inf.hiding?multim.signal?process.,11(3),126-137.)
6、chen等人提出了一種利用可逆網(wǎng)絡(luò)生成音頻水印的技術(shù)(chen,g.,wu,y.,liu,s.,liu,t.,du,x.,&wei,f.(2023).wavmark:watermarking?for?audiogeneration.arxivpreprint?arxiv:2308.12770.)
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問(wèn)題,本發(fā)明的目的是提供一種端對(duì)端音頻隱寫(xiě)方法及系統(tǒng)。
2、本發(fā)明第一方面提供了一種端對(duì)端音頻隱寫(xiě)方法,所述方法包括:
3、采用單通道音頻作為載體,利用短時(shí)傅里葉變換將載體音頻的一維波向量轉(zhuǎn)換為頻域;
4、利用短時(shí)傅里葉變換將秘密音頻的一維波向量轉(zhuǎn)換為頻域;
5、把轉(zhuǎn)換為頻域后的秘密音頻和轉(zhuǎn)換為頻域后的載體音頻輸入到可逆神經(jīng)網(wǎng)絡(luò)中,利用可逆神經(jīng)網(wǎng)絡(luò)將秘密音頻嵌入到載體音頻中,獲得隱寫(xiě)音頻;
6、對(duì)隱寫(xiě)音頻進(jìn)行模擬攻擊,然后評(píng)估載體音頻與隱寫(xiě)音頻之間的差異,并提供關(guān)于可逆神經(jīng)網(wǎng)絡(luò)性能的反饋,
7、根據(jù)關(guān)于可逆神經(jīng)網(wǎng)絡(luò)性能的反饋,調(diào)整可逆神經(jīng)網(wǎng)絡(luò),以提高生成器生成的音頻的準(zhǔn)確性,使其接近于來(lái)自原始類(lèi)的數(shù)據(jù);
8、利用調(diào)整后的神經(jīng)網(wǎng)絡(luò)提取被模擬攻擊后的隱寫(xiě)音頻,并輸出經(jīng)過(guò)隱寫(xiě)后的秘密音頻和載體音頻。
9、優(yōu)選地,利用短時(shí)傅里葉變換將載體音頻的一維波向量轉(zhuǎn)換為頻域的公式為:
10、xspecov=γstft(xcov)
11、其中,xspecov載體音頻的頻域,xcov為載體音頻的一維波向量,γstft()為短時(shí)傅里葉變換公式。
12、優(yōu)選地,利用短時(shí)傅里葉變換將秘密音頻的一維波向量轉(zhuǎn)換為頻域的公式為:
13、xspesec=γstft(xsec)
14、其中,xspesec為秘密音頻的頻域,xsec為秘密音頻的一維波向量。
15、優(yōu)選地,所述把秘密音頻嵌入到載體音頻中去,其嵌入過(guò)程的公式為:
16、
17、其中,表示隱藏后的載體音頻,表示隱藏后的秘密音頻,表示的是hadamard乘積運(yùn)算,φ(.)、ρ(.)、η(.)表示任意的函數(shù),本技術(shù)采用5層denseblock來(lái)表示這三個(gè)函。
18、優(yōu)選地,所述反向提取秘密音頻的過(guò)程中采取的操作標(biāo)準(zhǔn)化公式為:
19、
20、其中,zi表示提取后的載體音頻,表示提取后的秘密音頻,表示矩陣除法運(yùn)算。
21、本發(fā)明第二方面提供了一種端對(duì)端音頻隱寫(xiě)系統(tǒng),所述系統(tǒng)包括:stft變換器、若干個(gè)inn可逆模塊、istft變換器、模擬攻擊模塊、鑒別器;
22、所述inn可逆模塊包括信息隱藏可逆塊和信息提取可逆塊;
23、所述stft變換器將載體音頻的一維波向量轉(zhuǎn)換為頻域,秘密音頻的一維波向量轉(zhuǎn)換為頻域;
24、所述信息隱藏可逆塊用來(lái)生成隱寫(xiě)音頻,在將秘密音頻嵌入載體音頻中,并獲取損失和隱寫(xiě)音頻系數(shù);
25、信息提取可逆塊用來(lái)提取隱寫(xiě)音頻的秘密信息,利用嵌入過(guò)程中嵌入的輔助信息,逆轉(zhuǎn)修改過(guò)程,恢復(fù)秘密信息的原始數(shù)據(jù);
26、所述istft變換器用來(lái)將隱寫(xiě)音頻系數(shù)進(jìn)行逆短時(shí)傅里葉變換,得到隱寫(xiě)音頻;
27、所述模擬攻擊模塊用來(lái)實(shí)現(xiàn)對(duì)隱寫(xiě)音頻進(jìn)行模擬攻擊;
28、所述鑒別器用來(lái)評(píng)估載體音頻與隱寫(xiě)音頻之間的差異,并提供關(guān)于信息提取可逆塊性能的反饋,進(jìn)一步信息提取可逆塊生成的實(shí)例接近于來(lái)自原始類(lèi)的秘密數(shù)據(jù);
29、所述stft變換器還用來(lái)將被攻擊的隱寫(xiě)音頻進(jìn)行短時(shí)傅里葉變換;
30、所述信息提取可逆塊根據(jù)經(jīng)短時(shí)傅里葉變換后的隱寫(xiě)音頻信息結(jié)合輔助信息,對(duì)隱寫(xiě)音頻進(jìn)行反向提取,并將提取后的音頻利用istft變換器進(jìn)行逆短時(shí)傅里葉變換,獲得經(jīng)過(guò)隱寫(xiě)后的載體音頻和秘密音頻。
31、優(yōu)選地,所述信息隱藏可逆塊在將秘密音頻嵌入載體音頻的過(guò)程中,對(duì)秘密音頻中的原始數(shù)據(jù)進(jìn)行修改,且該修改通過(guò)信息提取可逆塊可以實(shí)現(xiàn)可逆。
32、優(yōu)選地,所述信息提取可逆塊和信息隱藏可逆塊互為可逆。
33、優(yōu)選地,所述鑒別器由依次相連的6組組成,從組1到組5,每個(gè)組由卷積層、bn層和leakyrelu激活函數(shù)組成;第6組包含一個(gè)全局平均池和一個(gè)線(xiàn)性層,用于輸出分類(lèi)概率。
34、優(yōu)選地,所述鑒別器的卷積層的卷積核大?。?,步幅=2,填充=1。
35、與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:本發(fā)明提供了一種端對(duì)端音頻隱寫(xiě)方法及系統(tǒng)。本發(fā)明采用了可逆神經(jīng)網(wǎng)絡(luò),可逆網(wǎng)絡(luò)具有從輸入到輸出的雙向映射能力,這種映射是雙射的,意味著每個(gè)輸入都唯一對(duì)應(yīng)一個(gè)輸出,并且每個(gè)輸出也唯一對(duì)應(yīng)一個(gè)輸入??赡婢W(wǎng)絡(luò)的編碼和解碼使用相同的參數(shù),可以保留更多輸入的細(xì)節(jié)。此外本發(fā)明在可逆神經(jīng)網(wǎng)絡(luò)的整體架構(gòu)中加入了鑒別器模塊和攻擊模塊,鑒別器的主要作用是來(lái)判斷生成的音頻和原始的載體音頻的直接相似度,根據(jù)兩者直接的差異來(lái)調(diào)整生成器的生成效果,根據(jù)對(duì)抗學(xué)習(xí)的原理不斷過(guò)更新生成器,生成更加接近原聲效果的音頻。本發(fā)明還在攻擊模塊模仿普通攻擊的特性,模型自適應(yīng)的學(xué)習(xí)對(duì)各種攻擊的魯棒性。端對(duì)端音頻隱寫(xiě)不需要對(duì)輸入數(shù)據(jù)做預(yù)處理,可以直接把數(shù)據(jù)輸入模型得到輸出結(jié)果。提高音頻隱寫(xiě)的效率。