本發(fā)明涉及一種具有隱私保護(hù)的雙通道聯(lián)邦圖學(xué)習(xí)方法、裝置及系統(tǒng),屬于聯(lián)邦學(xué)習(xí)。
背景技術(shù):
1、在當(dāng)前的云計(jì)算及系統(tǒng)安全性和聯(lián)邦學(xué)習(xí)技術(shù)領(lǐng)域中,分布式圖學(xué)習(xí)面臨諸多挑戰(zhàn)。隨著數(shù)據(jù)保護(hù)條例(如gdpr)的嚴(yán)格實(shí)施,如何在保護(hù)數(shù)據(jù)隱私的同時實(shí)現(xiàn)高效的模型訓(xùn)練成為亟待解決的問題。傳統(tǒng)的分布式圖學(xué)習(xí)方法在客戶端之間往往存在信息缺失的問題,導(dǎo)致模型分類結(jié)果不理想,且訓(xùn)練過程中數(shù)據(jù)隱私性及模型安全性較弱。
2、具體來說,現(xiàn)有的圖學(xué)習(xí)方法在跨客戶端數(shù)據(jù)聚合時,難以有效處理非獨(dú)立同分布(non-iid)的標(biāo)簽分布偏移問題,以及跨客戶端數(shù)據(jù)不完整的情況。這些問題會嚴(yán)重影響模型的訓(xùn)練效果和魯棒性。此外,客戶端數(shù)據(jù)在傳輸和聚合過程中存在隱私泄露的風(fēng)險,服務(wù)器可能通過客戶端上傳的梯度信息對客戶端的隱私數(shù)據(jù)進(jìn)行推斷,從而引發(fā)隱私泄露問題。
3、為了克服這些挑戰(zhàn),研究人員開始探索具有隱私保護(hù)功能的聯(lián)邦學(xué)習(xí)技術(shù)。然而,現(xiàn)有的聯(lián)邦學(xué)習(xí)技術(shù)在處理圖數(shù)據(jù)時,往往難以兼顧數(shù)據(jù)隱私保護(hù)、模型訓(xùn)練效率和模型魯棒性。特別是在面對惡意客戶端的無目標(biāo)攻擊時,現(xiàn)有方法往往難以保證系統(tǒng)的穩(wěn)定性和可靠性。
4、因此,亟需一種能夠同時解決數(shù)據(jù)隱私保護(hù)、模型訓(xùn)練效率和模型魯棒性問題的聯(lián)邦圖學(xué)習(xí)方法。這種方法需要能夠在保護(hù)客戶端原始隱私數(shù)據(jù)及聯(lián)邦學(xué)習(xí)訓(xùn)練過程中數(shù)據(jù)隱私的同時,克服數(shù)據(jù)孤島問題,對于非獨(dú)立同分布的子圖級別聯(lián)邦學(xué)習(xí)數(shù)據(jù)也能有很好的分類結(jié)果,同時在面臨惡意客戶端的無目標(biāo)攻擊情況下,能夠很好地保證系統(tǒng)的魯棒性,從而提高分類準(zhǔn)確率和效率。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的是提供了一種具有隱私保護(hù)的雙通道聯(lián)邦圖學(xué)習(xí)方法、裝置及系統(tǒng),解決現(xiàn)有技術(shù)中存在的問題,實(shí)現(xiàn)高效、安全、魯棒的聯(lián)邦圖學(xué)習(xí)。
2、本發(fā)明為實(shí)現(xiàn)上述目的,通過以下技術(shù)方案實(shí)現(xiàn):
3、所述方法包括:客戶端在本地持有的子圖上進(jìn)行特征聚合,獲取聚合后的節(jié)點(diǎn)特征信息,并發(fā)送至服務(wù)器;
4、服務(wù)器利用聚合后的節(jié)點(diǎn)特征信息隨機(jī)進(jìn)行兩個客戶端子圖之間的跨客戶端特征聚合,獲取跨客戶端子圖信息;
5、客戶端根據(jù)跨客戶端子圖信息與服務(wù)器交互,通過元學(xué)習(xí)的方式獲取全局元模型參數(shù);客戶端將子圖信息中子圖節(jié)點(diǎn)劃分為支持集和查詢集,在支持集上更新本地模型參數(shù),并在查詢集上計(jì)算損失梯度,梯度上傳給服務(wù)器,服務(wù)器聚合來自所有客戶端的梯度,通過梯度下降算法更新全局元模型參數(shù);
6、客戶端根據(jù)全局元模型的參數(shù)更新本地模型參數(shù),所述全局元模型和本地模型采用雙通道注意力特征融合結(jié)構(gòu)的圖卷積神經(jīng)網(wǎng)絡(luò);
7、客戶端根據(jù)本地子圖節(jié)點(diǎn)的支持集更新本地模型參數(shù),并上傳至服務(wù)器,服務(wù)器采用聯(lián)邦平均算法對全局元模型參數(shù)微調(diào),獲取全局模型。
8、優(yōu)選的,所述雙通道注意力特征融合結(jié)構(gòu)的圖卷積神經(jīng)網(wǎng)絡(luò)包括:線性層、relu層、dropout層、雙通道卷積模塊、dropout+relu層、注意力特征融合模塊和log_softmax激活函數(shù);所述雙通道卷積模塊分別使用均值聚合和截尾均值聚合作為每個卷積通道的特征聚合方法。
9、優(yōu)選的,所述dropout層輸出的節(jié)點(diǎn)特征經(jīng)過均值聚合得到節(jié)點(diǎn)特征,經(jīng)過截尾均值聚合得到節(jié)點(diǎn)特征,所述節(jié)點(diǎn)特征和經(jīng)過dropout+relu層后通過注意力特征融合模塊進(jìn)行注意力特征融合得到節(jié)點(diǎn)特征,公式如下:
10、,
11、其中,表示通過節(jié)點(diǎn)特征得到的注意力權(quán)重。
12、優(yōu)選的,截尾均值聚合通過以下公式獲?。?/p>
13、,
14、其中,為拋棄掉極端值的比例,表示是節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集,表示節(jié)點(diǎn)在第層的特征表示,表示節(jié)點(diǎn)的鄰居節(jié)點(diǎn),表示節(jié)點(diǎn)的鄰居節(jié)點(diǎn),表示節(jié)點(diǎn)在第層的聚合值。
15、優(yōu)選的,客戶端根據(jù)跨客戶端子圖信息與服務(wù)器交互,通過元學(xué)習(xí)的方式獲取全局元模型參數(shù),具體方式如下:
16、將跨客戶端子圖信息的子圖節(jié)點(diǎn)劃分為支持集和查詢集;
17、客戶端通過支持集更新本地模型參數(shù),將支持集節(jié)點(diǎn)對應(yīng)的標(biāo)簽和支持集當(dāng)前節(jié)點(diǎn)的輸出的交叉熵?fù)p失作為本地模型更新支持集的損失函數(shù);
18、通過查詢集獲取本地梯度并上傳至服務(wù)器,通過以下公式獲取本地梯度:
19、,
20、其中,表示模型參數(shù)的梯度,表示查詢集上的損失,為查詢集節(jié)點(diǎn)對應(yīng)的標(biāo)簽和查詢集當(dāng)前節(jié)點(diǎn)的輸出的交叉熵?fù)p失;
21、根據(jù)每個客戶端上傳梯度,服務(wù)器對梯度求和并進(jìn)行梯度下降,得到全局元模型參數(shù)。
22、優(yōu)選的,客戶端根據(jù)本地子圖節(jié)點(diǎn)的支持集更新本地模型參數(shù),具體公式如下:
23、,
24、其中,表示學(xué)習(xí)率,表示本階段的損失函數(shù),計(jì)算公式如下:
25、,
26、其中,和為超參數(shù),表示的l2范數(shù),為正則化項(xiàng),表示第輪的元模型參數(shù),表示第個客戶端支持集上的特征向量。
27、優(yōu)選的,子圖跨客戶端特征聚合具體方式如下:聚合節(jié)點(diǎn)周圍鄰居節(jié)點(diǎn)的特征信息,通過該特征信息更新當(dāng)前節(jié)點(diǎn)信息。
28、優(yōu)選的,所述客戶端與服務(wù)器數(shù)據(jù)交互過程通過多密鑰全同態(tài)加密算法加密,每個客戶端使用單獨(dú)加密密鑰。
29、一種具有隱私保護(hù)的雙通道聯(lián)邦圖學(xué)習(xí)裝置,包括處理器和存儲有程序指令的存儲器,所述處理器被配置為在運(yùn)行所述程序指令時,執(zhí)行所述的具有隱私保護(hù)的雙通道聯(lián)邦圖學(xué)習(xí)方法。
30、一種具有隱私保護(hù)的雙通道聯(lián)邦圖學(xué)習(xí)系統(tǒng),包括:
31、特征聚合模塊,被配置為將客戶端本地持有的子圖上進(jìn)行特征聚合,將客戶端本地聚合的子圖上聚合后的節(jié)點(diǎn)特征信息發(fā)送至服務(wù)器,隨機(jī)進(jìn)行兩個客戶端子圖之間的跨客戶端特征聚合,獲取跨客戶端子圖信息。
32、雙通道注意力融合模塊,被配置為通過均值聚合和截尾均值聚合對每個卷積通道的特征聚合;
33、多密鑰全同態(tài)加密隱私保護(hù)模塊,被配置為通過多密鑰全同態(tài)加密算法加密客戶端與服務(wù)器間的交互數(shù)據(jù)。
34、聯(lián)邦學(xué)習(xí)模塊,被配置為通過元學(xué)習(xí)的方式使客戶端與服務(wù)器數(shù)據(jù)交互獲取全局元模型參數(shù);并對全局元模型參數(shù)微調(diào)獲取全局模型。
35、本發(fā)明的優(yōu)點(diǎn)在于:本發(fā)明的雙通道聯(lián)邦圖學(xué)習(xí)方法通過引入兩個獨(dú)立的通信通道,即數(shù)據(jù)通道和模型通道,實(shí)現(xiàn)了數(shù)據(jù)的隔離傳輸與處理,有效降低了數(shù)據(jù)泄露的風(fēng)險。用戶無需直接共享原始數(shù)據(jù),僅需通過加密或匿名化處理的數(shù)據(jù)或模型參數(shù)進(jìn)行交互,從而在保證學(xué)習(xí)效果的同時,大大增強(qiáng)了數(shù)據(jù)的隱私保護(hù)能力。
36、該方法利用圖結(jié)構(gòu)數(shù)據(jù)的特性,通過構(gòu)建圖神經(jīng)網(wǎng)絡(luò)模型,能夠捕捉數(shù)據(jù)間的復(fù)雜關(guān)系,提高模型對數(shù)據(jù)的理解和表示能力。同時,雙通道的設(shè)計(jì)允許數(shù)據(jù)更新和模型更新并行進(jìn)行,減少了通信延遲和等待時間,進(jìn)一步提升了聯(lián)邦學(xué)習(xí)的整體效率和效果。
37、通過實(shí)現(xiàn)隱私保護(hù)的聯(lián)邦學(xué)習(xí),本發(fā)明打破了數(shù)據(jù)孤島現(xiàn)象,促進(jìn)了不同組織或機(jī)構(gòu)之間的數(shù)據(jù)協(xié)作與資源共享。各方可以在不泄露各自敏感數(shù)據(jù)的前提下,共同參與模型的訓(xùn)練和優(yōu)化,從而加速技術(shù)進(jìn)步和創(chuàng)新應(yīng)用的發(fā)展。