本發(fā)明涉及信息技術(shù)安全,尤其是涉及一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法。
背景技術(shù):
1、現(xiàn)如今,機(jī)器學(xué)習(xí)在各個領(lǐng)域均取得了矚目的成就,如常用于電商的推薦系統(tǒng)、用于醫(yī)學(xué)診斷的統(tǒng)計分析以及應(yīng)用于社會研究的大數(shù)據(jù)分析等。以上成就均離不開基于大型數(shù)據(jù)集的機(jī)器學(xué)習(xí)模型,而大型數(shù)據(jù)集的使用勢必會招致隱私問題。為此,許多保護(hù)機(jī)制應(yīng)運而生,如l-diversity、t-closeness以及k-anonymity。這些機(jī)制仍在不斷發(fā)展,但其隱私保護(hù)程度受限于攻擊者的背景知識。此外,此類簡單的方法并不能緩解數(shù)據(jù)短缺問題,而數(shù)據(jù)短缺恰恰是某些領(lǐng)域備受關(guān)注的問題,如醫(yī)療領(lǐng)域,處于隱私考慮,加上疾病的多樣性,細(xì)分領(lǐng)域疾病的記錄屈指可數(shù),難以支持機(jī)器模型的訓(xùn)練。因此,數(shù)據(jù)集在發(fā)布時其隱私問題不容忽視。圖像生成模型的發(fā)展如火如荼,其中生成對抗網(wǎng)絡(luò)(gan)作為老牌模型,仍然能夠?qū)崿F(xiàn)高質(zhì)量圖像的生成,可為數(shù)據(jù)短缺問題提供解決方案。但也同樣面臨隱私問題,即深度模型會記住訓(xùn)練樣本,當(dāng)模型應(yīng)用于敏感信息時,所學(xué)習(xí)到的分布極易泄露訓(xùn)練數(shù)據(jù)的隱私。
2、如今,隱私化的生成模型發(fā)展迅速,大多是通過生成對抗網(wǎng)絡(luò)同差分隱私相互結(jié)合,推動了隱私化生成模型的發(fā)展,但其在生成質(zhì)量以及隱私預(yù)算上仍然存在較大改進(jìn)空間。其中g(shù)an所參與的方法中不可避免地需要考慮對抗訓(xùn)練地平衡問題,由于gan本身存在的訓(xùn)練不穩(wěn)定,在差分隱私的設(shè)定下這個問題將更加突出,這就導(dǎo)致了合成數(shù)據(jù)可用性不高。此外,噪聲的過量添加也會導(dǎo)致可用性不高,而擾動不夠則會導(dǎo)致安全性不足。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,在訓(xùn)練過程中使生成器和判別器在多次循環(huán)訓(xùn)練中相互優(yōu)化,并且使用梯度壓縮和梯度追溯方法,降低數(shù)據(jù)的敏感度,減少訓(xùn)練過程中的噪聲添加并且追蹤梯度的方向,提高合成數(shù)據(jù)的準(zhǔn)確性,實現(xiàn)敏感數(shù)據(jù)的隱私保護(hù),同時保持較高的數(shù)據(jù)可用性。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,步驟包括:
3、s1、構(gòu)建生成對抗網(wǎng)絡(luò)模型,獲取數(shù)據(jù)集對生成對抗網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,生成對抗網(wǎng)絡(luò)模型包括判別器和生成器;
4、s2、更新判別器參數(shù),使用基于梯度壓縮和梯度追溯的dpgcsgd方法,并基于全局敏感度添加高斯噪聲,以保證判別器訓(xùn)練過程滿足差分隱私;
5、s3、更新生成器參數(shù),采樣噪聲樣本,計算生成器的梯度,通過最大化生成樣本被判別器識別為真實樣本的概率來優(yōu)化生成器;
6、s4、完成所有循環(huán)后,輸出滿足差分隱私的判別器和生成器。
7、優(yōu)選的,步驟s1對生成對抗網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練包括:
8、初始化判別器和生成器,對判別器和生成器進(jìn)行循環(huán)訓(xùn)練,外循環(huán)控制生成器的更新,在生成器的每一次循環(huán)中,內(nèi)層循環(huán)控制判別器的更新。
9、優(yōu)選的,步驟s2中dpgcsgd方法包括:
10、初始化梯度參數(shù)模型θ0,進(jìn)入t次迭代更新模型參數(shù)θ;
11、從訓(xùn)練數(shù)據(jù)中采樣大小為m的樣本,計算損失當(dāng)前模型參數(shù)θ的梯度和當(dāng)前迭代步的更新梯度;
12、進(jìn)行梯度分組,在每一層網(wǎng)絡(luò)中選擇前k個梯度值最大的梯度;
13、遍歷分組后的每個梯度,若梯度不屬于選擇的k個梯度值,將梯度值設(shè)為0,否則對梯度值進(jìn)行梯度裁剪,并添加噪聲,使判別器訓(xùn)練過程滿足差分隱私;
14、計算每組梯度中隱私損失,更新模型參數(shù)和記憶因子,實現(xiàn)梯度追溯;
15、使用瑞麗差分隱私計數(shù)方法跟蹤累積的隱私預(yù)算,并在優(yōu)化過程中更新判別器參數(shù),當(dāng)累積的隱私預(yù)算達(dá)到目標(biāo)值時達(dá)到收斂條件,循環(huán)終止退出內(nèi)循環(huán)。
16、優(yōu)選的,計算損失當(dāng)前模型參數(shù)的梯度公式為:
17、
18、計算當(dāng)前迭代步的更新梯度公式為:
19、pt=γtgt+et
20、式中,γt表示學(xué)習(xí)率,et表示記憶因子。
21、優(yōu)選的,對梯度值進(jìn)行梯度裁剪,并添加噪聲公式為:
22、
23、式中,qt,j表示裁剪并加噪后的梯度值,pt,j為第t次迭代中梯j的梯度向量值,ct,j為梯度裁剪閾值,為添加的高斯噪聲量。
24、優(yōu)選的,更新模型參數(shù)和記憶因子包括:
25、在每次迭代中,在上一次迭代時更新的記憶因子添加到縮放梯度向量中,并將上一次迭代的梯度向量與當(dāng)前的梯度向量進(jìn)行加權(quán)平均,得到一個新的梯度向量。
26、優(yōu)選的,步驟s3中使用adam優(yōu)化器根據(jù)計算的梯度和學(xué)習(xí)率更新生成器參數(shù)。
27、因此,本發(fā)明采用上述的一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,具有以下有益效果:
28、(1)在訓(xùn)練階段對梯度添加高斯噪聲使得梯度實現(xiàn)差分隱私保護(hù),生成對抗網(wǎng)絡(luò)的整體訓(xùn)練也滿足差分隱私;
29、(2)采用梯度壓縮,對量級較大的若干梯度保留,再進(jìn)行裁剪加噪以實現(xiàn)差分隱私保護(hù),可以在相同的隱私保護(hù)水平實現(xiàn)更少的噪聲擾動,采用梯度追溯,在模型訓(xùn)練時保證模型梯度下降方向正確,進(jìn)一步保證模型收斂;
30、(3)使用瑞麗差分隱私計數(shù)方法,并且能夠在合理的隱私預(yù)算下生成高質(zhì)量的合成樣本,通過將差分隱私和生成對抗網(wǎng)絡(luò)相結(jié)合,能夠為模型提供隱私保護(hù)的同時實現(xiàn)合成數(shù)據(jù)的可用性。
31、下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
1.一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,其特征在于,步驟包括:
2.根據(jù)權(quán)利要求1所述的一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,其特征在于,步驟s1對生成對抗網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練包括:
3.根據(jù)權(quán)利要求2所述的一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,其特征在于,步驟s2中dpgcsgd方法包括:
4.根據(jù)權(quán)利要求3所述的一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,其特征在于,計算損失當(dāng)前模型參數(shù)的梯度公式為:
5.根據(jù)權(quán)利要求4所述的一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,其特征在于,對梯度值進(jìn)行梯度裁剪,并添加噪聲公式為:
6.根據(jù)權(quán)利要求5所述的一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,其特征在于,更新模型參數(shù)和記憶因子包括:
7.根據(jù)權(quán)利要求6所述的一種基于梯度壓縮生成對抗網(wǎng)絡(luò)的差分隱私保護(hù)方法,其特征在于:步驟s3中使用adam優(yōu)化器根據(jù)計算的梯度和學(xué)習(xí)率更新生成器參數(shù)。