1.一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,所述步驟一中,fl的優(yōu)化目標(biāo)定義為:其中,pk為客戶k的權(quán)重,一般為pk=nk/n,其中為樣本總數(shù)。
3.根據(jù)權(quán)利要求2所述的一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,所述fl的算法過程如下:在每個epoch?t≥0時,服務(wù)器從所有客戶端中隨機(jī)選擇一個子集ct參與當(dāng)前一輪訓(xùn)練,并將最新的全局模型參數(shù)θt分發(fā)給這些選擇的客戶端;
4.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,所述步驟二中,在求解優(yōu)化問題的過程中,ddummy不斷更新,優(yōu)化在max_iter次迭代后終止,然后輸出更新的數(shù)據(jù)作為重構(gòu)的數(shù)據(jù)樣本drec,客戶端k的重構(gòu)相似度,表示為
5.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,所述步驟三中,全局模型數(shù)據(jù)分布的特征向量,記為vg,通過計算所有參與訓(xùn)練過程的客戶的特征向量的均值得到,然后,將客戶端k的當(dāng)前數(shù)據(jù)分布與全局?jǐn)?shù)據(jù)分布的相異度表示為同樣,將歷史數(shù)據(jù)分布與全局?jǐn)?shù)據(jù)分布的相異度記為當(dāng)前數(shù)據(jù)分布與歷史數(shù)據(jù)分布sk,cl的相似度計算公式如下:并且隨著梯度反演得到的當(dāng)前數(shù)據(jù)分布與歷史數(shù)據(jù)分布更加一致,sk,cl值增大。
6.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,所述步驟四中,學(xué)習(xí)過程采用深度強(qiáng)化學(xué)習(xí)算法td3。
7.根據(jù)權(quán)利要求6所述的一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,為了模擬fl的訓(xùn)練過程,包括惡意客戶端及其行為,建立了一個強(qiáng)化學(xué)習(xí)環(huán)境,對于聯(lián)邦學(xué)習(xí)中的每個epoch?t,設(shè)為強(qiáng)化學(xué)習(xí)模擬環(huán)境狀態(tài),其中kj為參與訓(xùn)練的客戶端標(biāo)識符,用重構(gòu)相似度和樹獲得的度量表示客戶端k的狀態(tài);
8.根據(jù)權(quán)利要求7所述的一種基于強(qiáng)化學(xué)習(xí)的自適應(yīng)聚合防御復(fù)雜投毒攻擊方法,其特征在于,fl系統(tǒng)首先得到即對環(huán)境參數(shù)進(jìn)行加權(quán),表示客戶端k的分?jǐn)?shù),然后,函數(shù)g(·)將映射到[0,1]區(qū)間并將其規(guī)范化,從而產(chǎn)生令定義:函數(shù)fδ表示具有較低分?jǐn)?shù)的客戶端,被認(rèn)為表現(xiàn)出惡意行為并被排除在聚合之外,服務(wù)器策略的生成過程揭示了閾值δ在fδ中也是根據(jù)環(huán)境狀態(tài)自適應(yīng)調(diào)整的。