本發(fā)明涉及數(shù)據(jù)分析和網(wǎng)絡安全領域,特別是關于一種基于差分隱私的聯(lián)邦深度聚類方法、系統(tǒng)、處理設備及存儲介質(zhì)。
背景技術:
1、聯(lián)邦聚類作為聯(lián)邦學習的分支之一,肩負著對分布式數(shù)據(jù)進行聚類分析的重要任務。聯(lián)邦學習作為一種新興的分布式學習框架,為解決分布式數(shù)據(jù)聚類問題提供了一種新的解決方案。聯(lián)邦聚類能在保護數(shù)據(jù)隱私的前提下,基于全局相似性對分布在不同參與方的數(shù)據(jù)進行聚類。該方法允許參與方在本地保留其數(shù)據(jù),從而減少了隱私泄露的風險。
2、現(xiàn)有的聯(lián)邦聚類方法主要包括基于k-means、fuzzy-c-means、譜聚類以及矩陣分解等方法,這些方法在處理大規(guī)模、高維、非線性復雜數(shù)據(jù)集時存在顯著的局限性,聚類性能不理想。例如,基于k-means的聯(lián)邦聚類方法容易受到離群點的影響,對初始中心的選擇敏感,且難以處理非凸形狀的聚類問題;基于譜聚類的聯(lián)邦聚類算法在構建相似度矩陣和計算特征向量時需耗費大量時間,不適用于大規(guī)模數(shù)據(jù)集。為克服高維復雜數(shù)據(jù)集中的維度災難和特征選擇問題,最新研究中已有學者將對比學習等先進的表征學習方法應用于聯(lián)邦聚類,提出了基于對比學習的聯(lián)邦聚類方法,但是這些方法難以應對數(shù)據(jù)異構場景。
3、除聚類性能問題,現(xiàn)有方法在隱私保護方面也存在重大缺陷。多數(shù)聯(lián)邦聚類方法在運行過程中要求客戶端將局部聚類中心或模型參數(shù)更新上傳至服務器。然而,這些信息包含了客戶端的敏感信息,屬于隱私數(shù)據(jù),應當受到充分的保護。已有研究表明,攻擊者通過對聚類中心的k-近鄰攻擊、重構攻擊以及對模型參數(shù)發(fā)起梯度攻擊、成員推斷攻擊等方式成功還原出數(shù)據(jù)集中的原始信息,對用戶隱私構成嚴重威脅。盡管有方法應用本地化差分隱私技術保護了需要上傳的質(zhì)心矩陣,但是這種方法引入了大量噪聲,使得在隱私保護和聚類性能之間難以取得平衡,導致算法可用性差。
技術實現(xiàn)思路
1、針對上述問題,本發(fā)明的目的是提供一種能夠提高聚類性能和隱私保護能力的基于差分隱私的聯(lián)邦深度聚類方法、系統(tǒng)、處理設備及存儲介質(zhì)。
2、為實現(xiàn)上述目的,本發(fā)明采取以下技術方案:第一方面,提供一種基于差分隱私的聯(lián)邦深度聚類方法,包括:
3、中心服務器基于公共數(shù)據(jù)集和每一客戶端的本地聚類模型,對全局模型進行訓練,得到訓練好的全局模型;
4、每一客戶端均采用訓練好的全局模型,對本地數(shù)據(jù)集進行預測,得到對應的聚類分配結果。
5、進一步地,所述中心服務器基于公共數(shù)據(jù)集和每一客戶端的本地聚類模型,對全局模型進行訓練,得到訓練好的全局模型,包括:
6、中心服務器根據(jù)公共數(shù)據(jù)集,對全局模型進行預訓練,得到模型參數(shù);
7、每一客戶端均根據(jù)聯(lián)邦安全聚合協(xié)議,兩兩之間協(xié)商隨機數(shù),完成隨機數(shù)的協(xié)商;
8、每一客戶端均采用lora方法,對本地聚類模型中卷積層的參數(shù)進行重參數(shù)化,得到初始的全局模型參數(shù);
9、每一客戶端均根據(jù)中心服務器發(fā)送的全局模型參數(shù)初始化本地聚類模型,并根據(jù)本地數(shù)據(jù)集,對本地聚類模型進行訓練;
10、每一客戶端均根據(jù)全局模型參數(shù),計算本地聚類模型的參數(shù)更新值,按照裁剪閾值對參數(shù)更新值進行裁剪,并添加高斯噪聲,得到裁剪和添加高斯噪聲后的本地聚類模型的參數(shù)更新值;
11、每一客戶端均基于聯(lián)邦安全聚合協(xié)議,根據(jù)對應協(xié)商好的隨機數(shù),對裁剪和添加高斯噪聲后本地聚類模型的參數(shù)更新值進行加密,得到經(jīng)隨機數(shù)加密后的參數(shù)更新值,并發(fā)送至中心服務器;
12、中心服務器聚合每一客戶端經(jīng)隨機數(shù)加密后本地聚類模型的參數(shù)更新值,更新全局模型;
13、重復上述步驟進行若干輪聯(lián)邦學習,更新全局模型,得到最終訓練好的全局模型。
14、第二方面,提供一種基于差分隱私的聯(lián)邦深度聚類方法,包括:
15、為每一客戶端均定制對應的本地聚類模型;
16、中心服務器基于公共數(shù)據(jù)集和每一客戶端的本地聚類模型,對全局模型和每一客戶端的本地聚類模型進行訓練,得到訓練好的全局模型和每一客戶端的本地聚類模型;
17、每一客戶端均采用對應訓練好的本地聚類模型,對本地數(shù)據(jù)集進行預測,得到對應的聚類分配結果,每一客戶端還對本地聚類中心進行拉格朗日編碼,生成秘密共享片段與其它客戶端共享;
18、中心服務器采用拉格朗日插值法,基于訓練好的全局模型和每一客戶端生成的秘密共享片段,得到全局聚類結果,每一客戶端均根據(jù)全局聚類結果,重新為本地數(shù)據(jù)集分配聚類標簽。
19、進一步地,所述中心服務器基于公共數(shù)據(jù)集和每一客戶端的本地聚類模型,對全局模型和每一客戶端的本地聚類模型進行訓練,得到訓練好的全局模型和每一客戶端的本地聚類模型,包括:
20、中心服務器根據(jù)公共數(shù)據(jù)集,對全局模型進行預訓練,得到模型參數(shù);
21、每一客戶端均根據(jù)聯(lián)邦安全聚合協(xié)議,兩兩之間協(xié)商隨機數(shù),完成隨機數(shù)的協(xié)商;
22、每一客戶端均采用lora方法,對本地聚類模型中卷積層的參數(shù)進行重參數(shù)化,得到初始的全局模型參數(shù);
23、每一客戶端均根據(jù)中心服務器發(fā)送的全局模型參數(shù)初始化本地聚類模型,并根據(jù)本地數(shù)據(jù)集,對本地聚類模型進行訓練;
24、每一客戶端均根據(jù)全局模型參數(shù),計算本地聚類模型的參數(shù)更新值,按照裁剪閾值對參數(shù)更新值進行裁剪,并添加高斯噪聲,得到裁剪和添加高斯噪聲后的本地聚類模型的參數(shù)更新值;
25、每一客戶端均基于聯(lián)邦安全聚合協(xié)議,根據(jù)對應協(xié)商好的隨機數(shù),對裁剪和添加高斯噪聲后本地聚類模型的參數(shù)更新值進行加密,得到經(jīng)隨機數(shù)加密后的參數(shù)更新值,并發(fā)送至中心服務器;
26、中心服務器聚合每一客戶端經(jīng)隨機數(shù)加密后本地聚類模型的參數(shù)更新值,更新全局模型,每一客戶端均基于更新后的全局模型為對應的本地聚類模型進行賦值,得到每一客戶端更新后的本地聚類模型;
27、重復上述對本地聚類模型進行訓練的過程,進行若干輪聯(lián)邦學習,更新全局模型和每一客戶端的本地聚類模型,得到最終訓練好的全局模型和每一客戶端的本地聚類模型。
28、進一步地,所述每一客戶端均采用對應訓練好的本地聚類模型,對本地數(shù)據(jù)集進行預測,得到對應的聚類分配結果,每一客戶端還對本地聚類中心進行拉格朗日編碼,生成秘密共享片段與其它客戶端共享,包括:
29、每一客戶端均采用對應訓練好的本地聚類模型對本地數(shù)據(jù)集進行預測,得到對應的聚類分配結果;
30、每一客戶端均根據(jù)對應的聚類分配結果,計算對應的本地聚類中心;
31、中心服務器與所有客戶端確定用于生成秘密共享片段的參數(shù);
32、每一客戶端均將對應的本地聚類中心分成l段,并采樣s個噪聲向量;
33、每一客戶端均基于確定的參數(shù),對本地聚類中心進行拉格朗日編碼,計算本地聚類中心的秘密共享片段,并發(fā)送至其余客戶端。
34、進一步地,所述中心服務器采用拉格朗日插值法,基于訓練好的全局模型和每一客戶端生成的秘密共享片段,得到全局聚類結果,每一客戶端均根據(jù)全局聚類結果,重新為本地數(shù)據(jù)集分配聚類標簽,包括:
35、中心服務器為所有客戶端的本地聚類中心隨機生成聚類結果;
36、每一客戶端均根據(jù)對應的聚類結果,在秘密共享的本地聚類中心上計算全局聚類中心;
37、每一客戶端均計算對應本地聚類中心中的秘密共享片段到全局聚類中心的距離,并將計算的距離發(fā)送至中心服務器;
38、中心服務器采用拉格朗日插值法,對計算的距離進行解碼,恢復得到真實距離;
39、中心服務器根據(jù)真實距離重新生成聚類結果,并發(fā)送至對應客戶端;
40、重復上述步驟直至迭代至收斂,得到全局聚類結果;
41、每一客戶端均根據(jù)全局聚類結果,重新為本地數(shù)據(jù)集分配聚類標簽。
42、第三方面,提供一種基于差分隱私的聯(lián)邦深度聚類系統(tǒng),包括:
43、模型訓練模塊,用于中心服務器基于公共數(shù)據(jù)集和每一客戶端的本地聚類模型,對全局模型進行訓練,得到訓練好的全局模型;
44、預測模塊,用于每一客戶端均用于采用訓練好的全局模型,對本地數(shù)據(jù)集進行預測,得到對應的聚類分配結果。
45、第四方面,提供一種基于差分隱私的聯(lián)邦深度聚類系統(tǒng),包括:
46、模型定制模塊,用于為每一客戶端均定制對應的本地聚類模型;
47、模型訓練模塊,用于中心服務器基于公共數(shù)據(jù)集和每一客戶端的本地聚類模型,對全局模型和每一客戶端的本地聚類模型進行訓練,得到訓練好的全局模型和每一客戶端的本地聚類模型;
48、聚類分配確定模塊,用于每一客戶端均采用對應訓練好的本地聚類模型,對本地數(shù)據(jù)集進行預測,得到對應的聚類分配結果,每一客戶端還對本地聚類中心進行拉格朗日編碼,生成秘密共享片段與其它客戶端共享;
49、全局聚類確定模塊,用于中心服務器采用拉格朗日插值法,基于訓練好的全局模型和每一客戶端生成的秘密共享片段,得到全局聚類結果,每一客戶端均根據(jù)全局聚類結果,重新為本地數(shù)據(jù)集分配聚類標簽。
50、第五方面,提供一種處理設備,包括計算機程序指令,其中,所述計算機程序指令被處理設備執(zhí)行時用于實現(xiàn)上述基于差分隱私的聯(lián)邦深度聚類方法對應的步驟。
51、第六方面,提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序指令,其中,所述計算機程序指令被處理器執(zhí)行時用于實現(xiàn)上述基于差分隱私的聯(lián)邦深度聚類方法對應的步驟。
52、本發(fā)明由于采取以上技術方案,其具有以下優(yōu)點:
53、1、本發(fā)明中每一客戶端的本地聚類模型均采用基于對比學習的對比聚類模型,以更好地挖掘數(shù)據(jù)的潛在特征,提升聚類效果。
54、2、本發(fā)明采用基于聯(lián)邦安全聚合協(xié)議,能夠在不依賴可信服務器的前提下,為客戶端提供中心化用戶級別的差分隱私保護。相較于直接用本地化差分隱私方式對客戶端上傳參數(shù)進行擾動,本發(fā)明的這種方式添加的噪聲更少,對模型可用性的影響更小。
55、3、本發(fā)明提出一組模型可用性提升方案,緩解了差分隱私噪聲對模型聚類性能的不良影響,具體包括:采用預訓練,并在微調(diào)時應用低秩自適應方法(low-rankadaptation,lora)以精簡微調(diào)時的參數(shù)量;優(yōu)化原對比聚類損失函數(shù),引入kl散度損失項,提升模型性能;提出帶噪的魯棒模型訓練方法,增強模型對噪聲的魯棒性,本發(fā)明能夠更好地平衡隱私和模型可用性。
56、4、由于數(shù)據(jù)異構為隱私保護的聯(lián)邦聚類任務帶來了一定的挑戰(zhàn):數(shù)據(jù)異構將導致聯(lián)邦聚類深度模型收斂慢,性能差;數(shù)據(jù)異構會導致客戶端的本地聚類模型更新具有較大的二范數(shù),加重了在隱私和可用性之間的平衡困難。為解決上述問題,在數(shù)據(jù)異構場景下,本發(fā)明進一步設計了基于差分隱私的聯(lián)邦深度聚類方法來實現(xiàn)更具針對性的模型訓練,有效緩解了異構帶來的不良影響,提升了模型聚類性能。
57、綜上所述,本發(fā)明可以廣泛應用于數(shù)據(jù)分析和網(wǎng)絡安全領域中。