基于聲譽的客戶端調度深度強化學習優(yōu)化方法

文檔序號：40630225發(fā)布日期：2025-01-10 18:36閱讀：2來源：國知局

本技術的實施例涉及無線聯邦學習，特別涉及一種基于聲譽的客戶端調度深度強化學習優(yōu)化方法。

背景技術：

1、聯邦機器學習是一個機器學習框架，能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規(guī)的要求下，進行數據使用和機器學習建模。聯邦學習作為分布式的機器學習范式，可以有效解決數據孤島問題，讓參與方在不共享數據的基礎上進行聯合建模，能從技術上打破數據孤島，實現人工智能協作。聯邦學習定義了機器學習框架，在此框架下通過設計虛擬模型解決不同數據擁有方在不交換數據的情況下進行協作的問題。虛擬模型是各方將數據聚合在一起的最優(yōu)模型，各自區(qū)域依據模型為本地目標服務。聯邦學習要求此建模結果應當無限接近傳統(tǒng)模式，即將多個數據擁有方的數據匯聚到一處進行建模的結果。在聯邦機制下，各參與者的身份和地位相同，可建立共享數據策略。由于數據不發(fā)生轉移，因此不會泄露用戶隱私或影響數據規(guī)范的情況。

2、聯邦學習是一種新型的分布式機器學習，允許多個參與者在本地訓練機器學習模型。近年來，聯邦學習由于能夠將原始數據分散，不上傳到云服務器，從而防止用戶隱私數據的泄露，引起了學術界和工業(yè)界的廣泛關注。然而，在享受聯邦學習的好處的同時，它也面臨著一些挑戰(zhàn)。首先，聯邦學習使多個參與方可以在數據隱私得到保護的情況下訓練機器學習模型，但是由于服務器無法監(jiān)控各參與者在本地進行的訓練過程，因此參與者可以篡改本地訓練模型，從而對聯邦學習的全局模型構成安全序隱患。目前已提出的fl協議設計已被證明容易受到系統(tǒng)內外的攻擊者的攻擊，從而損害數據隱私和系統(tǒng)穩(wěn)健性。其次，聯邦學習會遇到資源不平衡和效率低下等問題。此外，在聯邦學習同步模型更新期間，信道條件和終端客戶端計算資源的差異可能導致離散問題。在現實世界中，異構聯邦學習面臨與模型公平性相關的安全問題，參與協作學習的客戶端對合作的貢獻可能存在差異，并且這種差異可能因異構性而加劇。同時，目前已提出的聯邦學習框架大多忽略了參與客戶端在協作過程中的貢獻差異，因此可能會存在一些“搭便車”的參與者，他們希望從聯邦通信中學習而不貢獻有用信息。此外，通過聯合訓練獲得的全局模型可能偏向數據量大或頻繁出現的客戶端，并且整體損失函數可能會隱式地對某些客戶有利或不利。

3、通過上述分析可以發(fā)現，目前的聯邦學習存在以下問題：

4、1)惡意參與者可能會故意操縱數據或模型來影響聯邦學習的結果，從而破壞整個系統(tǒng)的可信度和準確性。

5、2)聯邦學習會遇到資源不平衡和效率低下等問題。

6、3)在聯邦學習同步模型更新期間，信道條件和終端客戶端計算資源的差異可能導致離散問題，進而影響聯邦學習的效果。

技術實現思路

1、鑒于此，本技術的實施例提出了一種基于聲譽的客戶端調度深度強化學習優(yōu)化方法，能夠最大限度地減少聯邦學習的訓練延遲，在優(yōu)化客戶端調度、客戶端cpu頻率、帶寬分配和傳輸速率的同時，堅持用戶公平性和模型完整性，并且有效提升了客戶端應對惡意攻擊的能力。

2、在第一方面中，本技術的實施例提出了一種基于聲譽的客戶端調度深度強化學習優(yōu)化方法，包括以下步驟：

3、s1，定義并初始化客戶端的環(huán)境狀態(tài)，并設計動作和獎勵；其中，客戶端的環(huán)境狀態(tài)包括信道增益、聲譽價值和cpu可用資源；

4、s2，通過行動者網絡，根據客戶端的環(huán)境狀態(tài)進行最優(yōu)動作選擇，根據選擇出的最優(yōu)動作進行隨機采樣，得到客戶端調度；

5、s3，基于客戶端調度和客戶端的環(huán)境狀態(tài)，確定帶寬分配、傳輸速率和cpu頻率；

6、s4，指示各客戶端執(zhí)行本地聯邦學習訓練并上傳更新模型，基于各更新模型更新各客戶端的聲譽價值；

7、s5，基于執(zhí)行最優(yōu)動作時收到的反饋信號得到獎勵，并更新當前狀態(tài)、當前動作、當前獎勵、當前狀態(tài)值和未來狀態(tài)，放入重放緩沖區(qū)中；

8、s6，若達到設定的最大迭代次數閾值，或滿足預設的收斂判斷條件，則得到優(yōu)化后的行動者網絡損失函數參數和評論者網絡損失函數參數，否則，重復執(zhí)行s2至s6；

9、s7，通過優(yōu)化后的行動者網絡，根據客戶端的環(huán)境狀態(tài)進行最優(yōu)動作選擇，根據選擇出的最優(yōu)動作進行隨機采樣，得到最優(yōu)的客戶端調度。

10、可選地，在s1中，定義并初始化客戶端的環(huán)境狀態(tài)，包括：

11、定義第τ次迭代中的客戶端的環(huán)境狀態(tài)為s(τ)，s(τ)通過公式表示為：

12、s(τ)＝[s1(τ),s2(τ),…,sk(τ),…,sk(τ)]；

13、

14、其中，k表示客戶端的總數，sk(τ)表示第k個客戶端在第τ次迭代中的狀態(tài)信息，hk(τ)表示第k個客戶端在第τ次迭代中的信道增益，rek(τ)表示第k個客戶端在第τ次迭代中的聲譽價值，表示第k個客戶端在第τ次迭代中的cpu可用資源，初始化客戶端的環(huán)境狀態(tài)即令τ＝1；

15、在s1中，設計動作，包括：

16、定義第τ次迭代中的動作為a(τ)＝[ak(τ)]，ak(τ)表示第k個客戶端被選中的概率；

17、在s1中，設計獎勵，包括：

18、定義第τ次迭代中的獎勵為r(τ)＝-ttotal(τ)，ttotal(τ)表示全部客戶端執(zhí)行決策所需要的總時間。

19、可選地，在s2中，通過行動者網絡，根據客戶端的環(huán)境狀態(tài)進行最優(yōu)動作選擇，包括：

20、第τ次迭代中，通過行動者網絡，從環(huán)境中獲得狀態(tài)信號sk(τ)；

21、基于sk(τ)，根據策略π，進行最優(yōu)動作選擇，確定動作ak(τ)和聲譽價值rek(τ)；

22、基于動作ak(τ)和聲譽價值rek(τ)計算客戶端的概率向量vk(τ)，vk(τ)表示為：

23、

24、

25、其中，a(τ)表示可用的客戶端的集合，表示第k個客戶端要求的信譽；

26、根據選擇出的最優(yōu)動作進行隨機采樣，得到客戶端調度，包括：

27、根據動作ak(τ)隨機采樣得到客戶端調度x(τ)＝[xk(τ)]，xk(τ)∈{0,1}；

28、其中，xk(τ)＝0表示第k個客戶端在第τ次迭代中沒有被選擇，xk(τ)＝1表示第k個客戶端在第τ次迭代中被選擇。

29、可選地，s3，具體包括：

30、通過kkt條件，根據客戶端調度x(τ)和cpu可用資源fava(τ)，基于拉格朗日對偶分解法，得到帶寬分配α(τ)和傳輸速率o(τ)；

31、根據客戶端調度x(τ)、帶寬分配α(τ)和傳輸速率o(τ)，基于啟發(fā)式自適應搜索算法，尋找得到cpu頻率f(τ)的最優(yōu)解。

32、可選地，在s4中，基于各更新模型更新各客戶端的聲譽價值，通過以下公式實現：

33、

34、其中，posk表示第k個客戶端的積極行為，negk表示第k個客戶端的消極行為，bk表示第k個客戶端的信任性，yk表示第k個客戶端的不確定性。

35、可選地，s5，具體包括：

36、在執(zhí)行最優(yōu)動作時，接收反饋信號r(τ)，并將r(τ)作為當前獎勵；

37、將當前狀態(tài)s(τ)、當前動作a(τ)、當前獎勵r(τ)、當前狀態(tài)值vπ[s(τ)；ω]和未來狀態(tài)s(τ+1)，放入重放緩沖區(qū)中；

38、vπ[s(τ)；ω]的表達式為：

39、vπ[s(τ)；ω]＝eπ{r(τ)+γ·vπ[s(τ+1)；ω]}；

40、其中，ω為評論者網絡損失函數參數，γ為預設的折扣因子。

41、可選地，s6，具體包括：

42、判斷重放緩沖區(qū)的大小ζ是否達到預設的重放緩沖區(qū)尺寸上限ψ；

43、若ζ<ψ，則令τ＝τ+1，重復執(zhí)行s2至s6；

44、若ζ≥ψ，則通過深度強化學習網絡，根據當前狀態(tài)s(τ)、當前動作a(τ)、當前獎勵r(τ)、當前狀態(tài)值vπ[s(τ)；ω]、未來狀態(tài)s(τ+1)和折扣因子γ，計算求解出行動者網絡損失函數參數θ和評論者網絡損失函數參數ω。

45、可選地，行動者網絡損失函數參數θ的求解公式為：

46、

47、其中，πτ(θ)表示執(zhí)行新策略θ與執(zhí)行舊策略θold的概率比，clip<πτ(θ),1-ξ,1+ξ>表示πτ(θ)有一個下界1-ξ和一個上界1+ξ，若πτ(θ)接近于1，則表明新策略θ與舊策略θold之間的差異較小，表示一個動作相對于平均期望值的優(yōu)勢值，λ表示預設的偏方差權衡因子，δ(τ)表示時間微分誤差，ωold表示更新前的評論者網絡損失函數參數；

48、評論者網絡損失函數參數ω的求解公式為：

49、

50、其中，表示狀態(tài)值函數的估計值。

51、通過上述方式，本技術提出了一個基于聲譽的無線聯邦學習聚合的優(yōu)化框架，實現了通信和計算資源的集成優(yōu)化，在該框架中，引入了聲譽模型來評估客戶的質量。在確?？蛻裟Ｐ椭档眯刨嚨那疤嵯?，引入了一個最小—最大優(yōu)化框架，旨在確保所有參與客戶端的公平對待，提出的優(yōu)化問題是一個難以直接解決的混合整數非線性規(guī)劃問題。為了解決這個混合整數非線性規(guī)劃問題，本技術開發(fā)了一種用于客戶端調度的深度強化學習算法和一種用于無線電資源分配的迭代算法，用以優(yōu)化行動者網絡損失函數參數和評論者網絡損失函數參數，從而獲得最佳的客戶端之間的延遲公平性，此外，本技術不僅在減少延遲方面表現出色，而且還熟練地平衡了收斂效率和總訓練延遲，并且有效提升了客戶端應對惡意攻擊的能力。總的來說，本技術能夠最大限度地減少聯邦學習的訓練延遲，在優(yōu)化客戶端調度、客戶端cpu頻率、帶寬分配和傳輸速率的同時，堅持用戶公平性和模型完整性。

52、在第二方面中，本技術的實施例提出了一種服務器，包括：至少一個處理器；以及，與所述至少一個處理器通信連接的存儲器；其中，所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行如上述第一方面中所述的一種基于聲譽的客戶端調度深度強化學習優(yōu)化方法。

53、在第三方面中，本技術的實施例提出了一種計算機可讀存儲介質，所述計算機可讀存儲介質中存儲有計算機程序，所述計算機程序被處理器執(zhí)行時，能夠實現如上述第一方面中所述的一種基于聲譽的客戶端調度深度強化學習優(yōu)化方法。

54、可以理解的是，上述第二方面至第五方面的有益效果可以參見上述第一方面中的相關描述，在此不再贅述。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：馮杰,廖燕燕,黃欣琦,劉雷,裴慶祺
技術所有人：西安電子科技大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于聲譽的客戶端調度深度強化學習優(yōu)化方法