本發(fā)明屬于移動邊緣計算,具體涉及一種移動邊緣計算中基于博弈論的任務(wù)復(fù)制與卸載方法。
背景技術(shù):
1、第五代移動通信技術(shù)(5g)的普及使物聯(lián)網(wǎng)(internet?of?tings,iot)進入了快速發(fā)展的時代,在這個時代中,大量計算密集型和延遲敏感型應(yīng)用變得無處不在。實時視頻分析、增強現(xiàn)實(augmented?reality,ar)和自動駕駛等應(yīng)用需要大量的計算資源和超低延遲才能有效運行。這種需求的激增促使移動邊緣計算(mobile?edge?computing,mec)這一新范式的出現(xiàn),它將計算能力帶到網(wǎng)絡(luò)邊緣,以使計算資源更加靠近數(shù)據(jù)源。mec提供了許多優(yōu)勢,包括降低延遲、改善帶寬利用率和通過將任務(wù)從集中式的云計算中心卸載到更靠近終端設(shè)備的邊緣服務(wù)器(mec服務(wù)器)來增強用戶體驗。
2、在mec的背景下,任務(wù)卸載策略備受關(guān)注,因為該策略用于優(yōu)化終端設(shè)備和mec服務(wù)器之間計算任務(wù)的分配,這些策略對于最大化邊緣計算環(huán)境的效率和性能至關(guān)重要。通過智能地決定哪些任務(wù)需要卸載以及卸載到何處,可以顯著減少全局任務(wù)執(zhí)行時間、降低終端設(shè)備能量消耗并提高整體系統(tǒng)吞吐量。
3、然而,成功實現(xiàn)任務(wù)卸載技術(shù)不僅需要高效的決策算法和通信協(xié)議,還需要容錯能力以確保系統(tǒng)在網(wǎng)絡(luò)故障、通信延遲或計算節(jié)點故障時任務(wù)執(zhí)行的可靠性。在移動邊緣計算環(huán)境中,任務(wù)卸載的容錯能力尤為重要,因為終端設(shè)備和邊緣節(jié)點經(jīng)常會遇到不穩(wěn)定的網(wǎng)絡(luò)連接、設(shè)備故障、有限的計算資源和不可預(yù)測的工作環(huán)境。此外,許多應(yīng)用場景,如自動駕駛、遠程醫(yī)療和智能制造,要求系統(tǒng)具有高可用性和連續(xù)性。因此,設(shè)計具備容錯能力的任務(wù)卸載技術(shù)對于確保邊緣計算系統(tǒng)的高可用性至關(guān)重要。
4、mec系統(tǒng)中的任務(wù)卸載技術(shù)在過去幾年中引起了學(xué)術(shù)界和工業(yè)界的極大關(guān)注。從任務(wù)的容錯能力角度看,可以分為無容錯能力與有容錯能力的任務(wù)卸載策略兩大類。
5、(一)無容錯能力的任務(wù)卸載策略
6、無容錯能力的任務(wù)卸載策略,顧名思義,即在考慮mec環(huán)境下任務(wù)卸載策略時未將系統(tǒng)的容錯性作為評價卸載策略性能的指標,而是以所有任務(wù)總體執(zhí)行時延或平均執(zhí)行時延為主要優(yōu)化目標。該類方法可以分為如下兩小類:
7、(1.1)去中心化的卸載策略
8、該類又稱為普適邊緣計算,是指僅依靠具有感知、存儲和通信能力的邊緣設(shè)備來實現(xiàn)任務(wù)卸載而無需集中管理的邊緣計算。典型的技術(shù)為基于對系統(tǒng)狀態(tài)的完整觀測,將問題轉(zhuǎn)換為隨機博弈論模型,并推導(dǎo)出邊緣設(shè)備之間的納什均衡。在此基礎(chǔ)之上通過一般對抗性模仿學(xué)習(xí)或深度強化學(xué)習(xí)等方法來求解納什均衡點,從而得出最優(yōu)的任務(wù)卸載策略。
9、(1.2)中心化的卸載策略
10、該類又稱為基于集中控制器的邊緣計算,其基本思想是依靠一個掌握網(wǎng)絡(luò)全局信息的中心控制器,結(jié)合網(wǎng)絡(luò)狀態(tài)信息、邊緣設(shè)備計算資源等信息,來決定任務(wù)該如何卸載。典型的技術(shù)有面向多任務(wù)之間相互依賴性特點,使用深度確定性策略梯度(deepdeterministic?policy?gradient,ddpg)的學(xué)習(xí)算法來實現(xiàn)多優(yōu)先級任務(wù)調(diào)度的策略;另一種技術(shù)主要針對三層移動云邊緣計算架構(gòu)(邊緣設(shè)備、mec服務(wù)器以及云計算中心)中的計算卸載和服務(wù)緩存。在這種結(jié)構(gòu)中,移動用戶訂閱云服務(wù)中心以獲得計算卸載服務(wù),按月或按年支付相關(guān)費用。此外,云服務(wù)中心可以從緩存容量和計算資源有限的mec服務(wù)器購買一些計算和通信資源,以幫助移動用戶卸載計算。
11、然而,這些研究通常僅限于可靠的邊緣網(wǎng)絡(luò)環(huán)境假設(shè),在實施任務(wù)卸載決策時忽略了潛在的故障情況,例如執(zhí)行任務(wù)的設(shè)備突發(fā)故障、停電等。
12、(二)有容錯能力的任務(wù)卸載策略
13、現(xiàn)階段,學(xué)術(shù)界與產(chǎn)業(yè)界已出現(xiàn)一部分考慮了容錯性的任務(wù)卸載策略,將其歸納總結(jié)為系統(tǒng)級任務(wù)容錯方案與任務(wù)級任務(wù)容錯方案兩大類。
14、(2.1)系統(tǒng)級任務(wù)容錯卸載方案
15、系統(tǒng)級任務(wù)容錯卸載方案的特點是需要基于全局信息來支撐卸載決策。典型的技術(shù)有如下幾種:一是基于拍賣機制(auction?mechanism),對mec參與者之間的交互和用戶成功卸載的概率進行建模,以確保在不可靠的情況下提供具備容錯能力的邊緣服務(wù);二是基于對動態(tài)移動邊緣環(huán)境、用戶成本、故障懲罰和多樣化的服務(wù)質(zhì)量保障(quality?ofservice,qos)要求進行建模,將任務(wù)卸載問題轉(zhuǎn)化為隨機過程中的在線決策問題,并在決策過程中實施故障恢復(fù)策略來應(yīng)對不同類型的故障;三是利用基于dueling?deep?q網(wǎng)絡(luò)算法來確定用戶卸載行為,并利用自適應(yīng)檢查點機制來提高任務(wù)可靠性,從而實現(xiàn)半在線容錯卸載方法來優(yōu)化服務(wù)卸載效率和系統(tǒng)可靠性。
16、然而,上述技術(shù)都是在系統(tǒng)全局層面實現(xiàn)的容錯任務(wù)卸載方案,均需要獲取相對應(yīng)的全局信息,會產(chǎn)生額外的代價,因為在實際落地使用時難以輕易獲取全局的網(wǎng)絡(luò)、設(shè)備或任務(wù)信息。
17、(2.2)任務(wù)級任務(wù)容錯卸載方案
18、第二類具備容錯能力的卸載方案為任務(wù)級卸載方案,即從邊緣設(shè)備計算任務(wù)本身的視角考慮,在沒有全局信息視角的情況下,來確保mec系統(tǒng)具備容錯能力的方案。典型技術(shù)有:一是基于檢查點和復(fù)制的容錯方法,其基本思想是在對邊緣網(wǎng)絡(luò)中執(zhí)行的iot應(yīng)用程序任務(wù)使用智能檢查點,并通過在附近的替代mec服務(wù)器上復(fù)制檢查點文件來提高系統(tǒng)的可靠性,從而提高系統(tǒng)的整體可用性。二是基于任務(wù)卸載和服務(wù)復(fù)制技術(shù),該類技術(shù)通常將卸載策略問題建模為整數(shù)線性規(guī)劃問題,以最小化所有用戶的響應(yīng)時間為目標,以同時滿足用戶的時間和時差為約束條件進行建模,在此基礎(chǔ)之上基于拉格朗日分析使用線性松弛規(guī)劃來對模型求解,從而得出最優(yōu)卸載策略提高系統(tǒng)的可用性;三是基于單個復(fù)制任務(wù)中斷概率將問題建模為非線性整數(shù)規(guī)劃問題,在用戶終端和mec服務(wù)器硬件資源的約束條件下,對任務(wù)的復(fù)制決策進行聯(lián)合優(yōu)化,以最大限度地降低系統(tǒng)中斷的概率。然而,這些技術(shù)主要有以下兩個不足:一是通過啟發(fā)式解決方案來實現(xiàn)的;二是缺乏全面的理論分析支撐。這些不足使這些方案難以適應(yīng)邊緣計算場景動態(tài)變化的特性。
19、由上述分析可見,現(xiàn)有的邊緣計算任務(wù)復(fù)制與卸載策略,存在如下不足之處:
20、1)無容錯能力的任務(wù)卸載策略,在進行任務(wù)卸載決策時不考慮執(zhí)行任務(wù)的設(shè)備突發(fā)故障或因網(wǎng)絡(luò)原因?qū)е氯蝿?wù)傳輸延時等意外情況,致使任務(wù)卸載或執(zhí)行失敗,該類任務(wù)卸載策略不適用于需要向用戶提供高可用性的業(yè)務(wù)場景;
21、2)現(xiàn)有的系統(tǒng)級任務(wù)容錯卸載方案,在進行任務(wù)容錯卸載時的假設(shè)前提是存在一個集中控制器,其能夠獲取全局信息,如網(wǎng)絡(luò)狀態(tài)信息、設(shè)備狀態(tài)信息以及任務(wù)狀態(tài)信息等。然而該假設(shè)前提過于理想,在實際落地應(yīng)用時獲取全局信息存在較大難度,且從技術(shù)實現(xiàn)角度看,獲取全局信息會引入額外的代價,例如通信延時等;
22、3)現(xiàn)有的任務(wù)級任務(wù)容錯卸載方案,其技術(shù)原理的共性是通過啟發(fā)式解決方案來實現(xiàn)的,同時這些解決方案缺乏嚴謹?shù)睦碚摲治鲋?,在邊緣網(wǎng)絡(luò)環(huán)境發(fā)生變化時,難以對變化做出適應(yīng),故而難以實現(xiàn)較好的效果。而在mec環(huán)境下,邊緣網(wǎng)絡(luò)狀態(tài)發(fā)生變化是較為常見的現(xiàn)象。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種移動邊緣計算中基于博弈論的任務(wù)復(fù)制與卸載方法,可有效解決上述問題。
2、本發(fā)明采用的技術(shù)方案如下:
3、本發(fā)明提供一種移動邊緣計算中基于博弈論的任務(wù)復(fù)制與卸載方法,包括以下步驟:
4、步驟s1,構(gòu)建移動邊緣系統(tǒng)架構(gòu);所述移動邊緣系統(tǒng)架構(gòu)包括n個iot設(shè)備d1,d2,…,dn形成的集合d={d1,d2,…,dn},m個mec服務(wù)器e1,e2,…,em形成的集合ε={e1,e2,…,em},以及一個云計算中心r;其中,和分別代表集合{1,2,…,n}和集合{1,2,…,m};
5、步驟s2,在周期t內(nèi),以每個iot設(shè)備的任務(wù)復(fù)制與卸載策略為待求解,其中,每個iot設(shè)備的任務(wù)復(fù)制與卸載策略包括原始任務(wù)復(fù)制策略x、原始任務(wù)卸載策略y以及復(fù)制任務(wù)卸載策略z;以移動邊緣系統(tǒng)在周期t的整體服務(wù)性能最大化為目標函數(shù),結(jié)合約束條件,構(gòu)建得到任務(wù)復(fù)制與卸載的最優(yōu)化模型;
6、步驟s3,將所述任務(wù)復(fù)制與卸載的最優(yōu)化模型轉(zhuǎn)化為博弈論模型;
7、步驟s4,采用基于多智能體強化學(xué)習(xí)的納什均衡求解方法,求解所述博弈論模型,得到每個iot設(shè)備的最優(yōu)的任務(wù)復(fù)制與卸載策略。
8、優(yōu)選的,步驟s2具體為:
9、步驟s2.1,在移動邊緣環(huán)境中,定義任務(wù)復(fù)制與卸載相關(guān)的參數(shù)及含義:
10、步驟s2.1.1,假設(shè)iot設(shè)備dn在時刻t產(chǎn)生原始任務(wù)形成的集合其中,q(n,t)代表iot設(shè)備dn在時刻t產(chǎn)生的所有原始任務(wù)的數(shù)量;
11、步驟s2.1.2,對于iot設(shè)備dn在時刻t產(chǎn)生的原始任務(wù)q∈{1,2,…,q(n,t)},其輸入數(shù)據(jù)量和計算復(fù)雜度分別為和其在時刻t被復(fù)制的份數(shù)表示為因此,產(chǎn)生個復(fù)制任務(wù);其中,g代表最大復(fù)制份數(shù)限制,任務(wù)復(fù)制份數(shù)因此,若原始任務(wù)未進行復(fù)制,則
12、步驟s2.1.3,在移動邊緣環(huán)境中,iot設(shè)備dn在時刻t產(chǎn)生的每個原始任務(wù)或每個復(fù)制任務(wù),均只能在一個節(jié)點執(zhí)行,即:或者在本地的iot設(shè)備dn執(zhí)行,或者被卸載到mec服務(wù)器集合ε中的某臺mec服務(wù)器em執(zhí)行,或者被卸載到云計算中心r執(zhí)行;
13、因此,定義原始任務(wù)的決策結(jié)果變量以及復(fù)制任務(wù)x的決策結(jié)果變量i∈{r∪n∪ε},i代表執(zhí)行任務(wù)的節(jié)點,含義為:
14、如果原始任務(wù)在本地的iot設(shè)備dn執(zhí)行,則此時i=n,因此,
15、如果復(fù)制任務(wù)x在本地的iot設(shè)備dn執(zhí)行,則此時i=n,因此,
16、如果原始任務(wù)在云計算中心r執(zhí)行,則此時i=r,因此,
17、如果復(fù)制任務(wù)x在云計算中心r執(zhí)行,則此時i=r,因此,
18、如果原始任務(wù)被卸載到mec服務(wù)器em執(zhí)行,則此時i=m,因此,
19、
20、如果復(fù)制任務(wù)x被卸載到mec服務(wù)器em執(zhí)行,則此時i=m,因此,
21、
22、由于每個原始任務(wù)或每個復(fù)制任務(wù)x僅能在一個節(jié)點i執(zhí)行,因此,且
23、步驟s2.2,評估得到iot設(shè)備dn在時刻t的傳輸時延
24、步驟s2.3,評估得到iot設(shè)備dn在時刻t的執(zhí)行時延
25、步驟s2.4,評估得到iot設(shè)備dn在時刻t的可靠性υn(t);
26、步驟s2.5,采用公式(1),對iot設(shè)備dn在時刻t的傳輸時延執(zhí)行時延和可靠性υn(t)進行加權(quán)求和,得到iot設(shè)備dn在時刻t的服務(wù)代價un(t):
27、
28、其中:α1和α2為加權(quán)求和的權(quán)重參數(shù);
29、步驟s2.6,采用公式(2),得到移動邊緣系統(tǒng)在時刻t的整體服務(wù)代價ug(t):
30、
31、步驟s2.7,以移動邊緣系統(tǒng)在周期t的整體服務(wù)代價最小,也就是使整體服務(wù)性能最大化為目標,并結(jié)合約束條件,構(gòu)建得到任務(wù)復(fù)制與卸載的最優(yōu)化模型。
32、優(yōu)選的,步驟s2.2具體為:
33、步驟s2.2.1,iot設(shè)備dn在時刻t產(chǎn)生的原始任務(wù)其從iot設(shè)備dn到mec服務(wù)器em之間的傳輸時延采用公式(3)確定:
34、
35、其中:rn,m(t)代表iot設(shè)備dn到mec服務(wù)器em之間的無線鏈路傳輸速率,通過公式(4)確定:
36、
37、其中:w代表鏈路帶寬;n0是噪聲功率譜密度;hn,m(t)與pn,m(t)分別代表iot設(shè)備dn到mec服務(wù)器em之間的無線信道增益與發(fā)射功率;
38、步驟s2.2.2,iot設(shè)備dn在時刻t產(chǎn)生的原始任務(wù)其從iot設(shè)備dn到云計算中心r的傳輸時延采用公式(5)確定:
39、
40、其中:表示iot設(shè)備dn與云計算中心r之間的傳輸速率;
41、步驟s2.2.3,采用公式(6),得到iot設(shè)備dn的所有原始任務(wù)在時刻t的總傳輸時延
42、
43、iot設(shè)備dn的所有原始任務(wù)在時刻t的總傳輸時延即為iot設(shè)備dn在時刻t的傳輸時延
44、優(yōu)選的,步驟s2.3具體為:
45、步驟s2.3.1,如果iot設(shè)備dn在時刻t產(chǎn)生的原始任務(wù)在本地的iot設(shè)備dn執(zhí)行,則其在本地執(zhí)行的執(zhí)行時延采用公式(7)得到:
46、
47、其中:fn(t)代表iot設(shè)備dn在時刻t的計算能力;
48、步驟s2.3.2,如果iot設(shè)備dn在時刻t將原始任務(wù)卸載至mec服務(wù)器em執(zhí)行,則其在mec服務(wù)器em執(zhí)行的執(zhí)行時延采用公式(8)得到:
49、
50、其中:fn,q,m(t)代表mec服務(wù)器em分配給原始任務(wù)的計算能力;
51、步驟s2.3.3,如果iot設(shè)備dn在時刻t將原始任務(wù)卸載至云計算中心r執(zhí)行,其執(zhí)行時延按0計算;
52、步驟s2.3.4,采用公式(9),得到iot設(shè)備dn在時刻t的所有原始任務(wù)的總執(zhí)行時延
53、
54、iot設(shè)備dn在時刻t的所有原始任務(wù)的總執(zhí)行時延即為iot設(shè)備dn在時刻t的執(zhí)行時延
55、優(yōu)選的,步驟s2.4具體為:
56、步驟s2.4.1,mec服務(wù)器em的故障率用δm(t)表示,故障率服從泊松分布,因此在時刻t,mec服務(wù)器em發(fā)生rm次故障的概率mec服務(wù)器em未發(fā)生故障,即rm=0的概率為
57、因此,mec服務(wù)器em在時刻t發(fā)生故障的概率
58、因此,對于iot設(shè)備dn在時刻t的原始任務(wù)在時刻t的累積失敗概率表示為
59、步驟s2.4.2,iot設(shè)備dn在時刻t的原始任務(wù)的可靠性通過公式(10)確定:
60、
61、步驟s2.4.3,iot設(shè)備dn在時刻t的所有原始任務(wù)的可靠性γn(t),通過公式(11)確定:
62、
63、iot設(shè)備dn在時刻t的所有原始任務(wù)的可靠性γn(t),即為iot設(shè)備dn在時刻t的可靠性γn(t)。
64、優(yōu)選的,步驟s2.7中,任務(wù)復(fù)制與卸載的最優(yōu)化模型為:
65、目標函數(shù)p1:
66、約束條件c1-c7分別為:
67、c1:
68、c2:
69、c3:
70、c4:
71、c5:0≤pn,m(t)≤pn(t)
72、c6:q∈{1,2,…,q(n,t)}
73、c7:i∈{r∪n∪ε}
74、其中:
75、c1表示的取值范圍;
76、c2表示和均為二值變量;
77、c3表示針對任一個原始任務(wù)其只能在一個節(jié)點執(zhí)行,即:本地的iot設(shè)備dn執(zhí)行,云計算中心r執(zhí)行,或者mec服務(wù)器em執(zhí)行,即:原始任務(wù)不可被拆分到多個節(jié)點執(zhí)行;
78、c4中,fm(t)表示mec服務(wù)器em的整體計算能力;fn,q,m(t)表示mec服務(wù)器em中分配給原始任務(wù)的計算能力;因此,c4含義為:在mec服務(wù)器em中,已分配的計算資源不可以超出其全部計算資源;
79、c5中,pn,m(t)代表iot設(shè)備dn到mec服務(wù)器em的發(fā)射功率;pn(t)代表iot設(shè)備dn的最大功率;c5含義為:iot設(shè)備dn到mec服務(wù)器em的發(fā)射功率,不可以超出iot設(shè)備dn的最大功率;
80、c6表示iot設(shè)備的數(shù)量,mec服務(wù)器的數(shù)量以及原始任務(wù)的數(shù)量取值范圍;
81、c7表示任務(wù)復(fù)制份數(shù)的取值范圍以及任務(wù)執(zhí)行的節(jié)點類型取值范圍。
82、優(yōu)選的,步驟s3具體為:
83、將n個iot設(shè)備d1,d2,…,dn作為博弈論中的玩家;對于玩家dn,即iot設(shè)備dn,其任務(wù)復(fù)制與卸載策略表示為πn={xn,yn,zn};其中,xn表示iot設(shè)備dn的原始任務(wù)復(fù)制策略,yn表示原始任務(wù)的卸載策略,zn表示復(fù)制任務(wù)的卸載策略;
84、當(dāng)iot設(shè)備dn采用任務(wù)復(fù)制與卸載策略πn時,其服務(wù)代價un(πn)作為博弈論中的收益,由此建立得到博弈論模型
85、優(yōu)選的,步驟s4具體為:
86、步驟s4.1,將博弈論模型轉(zhuǎn)化為多智能體部分可觀測馬爾可夫決策過程pomdp;
87、具體的,博弈論模型中的每個玩家dn視為是智能體dn;pomdp包括五個部分,記為
88、表示狀態(tài)空間,代表整個系統(tǒng)的全局狀態(tài);
89、代表觀測空間,代表智能體可觀測到的系統(tǒng)狀態(tài),是全局狀態(tài)的一部分;在時刻t,智能體的觀測空間其中,智能體dn的觀測狀態(tài)ln(t)表示智能體dn的位置信息,fn(t)表示智能體dn的計算處理能力,表示智能體dn產(chǎn)生的原始任務(wù)數(shù)量與原始任務(wù)輸入數(shù)據(jù)大小,σε表示mec服務(wù)器的全局信息,σr表示云計算中心的全局信息;
90、表示動作空間,動作空間包含了所有智能體所有可能的動作,即an(t)={xn(t),yn(t),zn(t)};其中,an(t)代表智能體dn在時刻t采取的動作;xn(t),yn(t),zn(t),分別代表智能體dn在時刻t采取的動作,包括原始任務(wù)復(fù)制策略、原始任務(wù)的卸載策略和復(fù)制任務(wù)的卸載策略;
91、p表示觀測狀態(tài)轉(zhuǎn)移概率函數(shù),表示在給定當(dāng)前狀態(tài)和采取的行動的情況下接收特定觀測的可能性;
92、代表獎勵空間,表示為rn(t)=un(t);其中,rn(t)代表智能體dn在時刻t獲取的獎勵;un(t)代表智能體dn在時刻t的服務(wù)代價;
93、基于pomdp包括的五個部分將多任務(wù)復(fù)制與卸載的問題表示為:
94、objective:
95、
96、其中:t代表時刻t,t代表時間區(qū)間;γ(t)表示衰減系數(shù),0≤γ(t)≤1,代表未來某個時刻的獎勵值對當(dāng)前獎勵值的影響;rn(t)表示智能體dn在時刻t收到的獎勵;在該目標函數(shù)objective中,任務(wù)復(fù)制與卸載策略的目標是找到適當(dāng)x,y以及z,使得在時間區(qū)間t內(nèi)所有智能體的累計衰減獎勵值最大化;代表尋優(yōu)到的最優(yōu)的任務(wù)復(fù)制與卸載策略,分別為iot設(shè)備dn最優(yōu)的原始任務(wù)復(fù)制策略,原始任務(wù)的卸載策略和復(fù)制任務(wù)的卸載策略;
97、步驟s4.2,采用基于matd3的任務(wù)復(fù)制與卸載納什均衡求解方法,對目標函數(shù)objective進行求解:
98、具體的,每個智能體dn具有一個matd3控制器,每個智能體dn通過執(zhí)行自身的動作an(t)與環(huán)境進行交互,獲得對應(yīng)的獎勵rn(t)并觀測下一個狀態(tài);算法包括經(jīng)驗回放池d、評論者網(wǎng)絡(luò)critic?network以及演員網(wǎng)絡(luò)actor?network;
99、經(jīng)驗回放池用于存儲已有的經(jīng)驗樣本,表示為其中,表示智能體dn當(dāng)前的觀測狀態(tài),an(t)表示當(dāng)前采取的動作,表示當(dāng)前獲取的獎勵,表示下一次觀測到的狀態(tài);經(jīng)驗回放池d存儲的經(jīng)驗樣本,用于對評論者網(wǎng)絡(luò)critic?network以及演員網(wǎng)絡(luò)actor?network進行訓(xùn)練;
100、演員網(wǎng)絡(luò)actor?network,包含評估網(wǎng)絡(luò)evaluation?network和目標網(wǎng)絡(luò)targetnetwork;評估網(wǎng)絡(luò)evaluation?network,用于接收智能體dn當(dāng)前的觀測狀態(tài)通過策略網(wǎng)絡(luò)生成動作an(t);該動作通過梯度更新優(yōu)化器不斷改進;目標網(wǎng)絡(luò)target?network采用策略用于向下一次觀測狀態(tài)添加噪聲生成目標動作并通過軟更新從評估網(wǎng)絡(luò)evaluation?network中同步參數(shù),確保策略網(wǎng)絡(luò)的穩(wěn)定性和一致性;通過經(jīng)驗回放池的經(jīng)驗樣本,演員網(wǎng)絡(luò)actor?network不斷學(xué)習(xí)和優(yōu)化策略,實現(xiàn)對邊緣計算任務(wù)的高效決策;
101、評論者網(wǎng)絡(luò)critic?network,包括兩個獨立的評估網(wǎng)絡(luò)和兩個獨立的目標網(wǎng)絡(luò),兩個評估網(wǎng)絡(luò)的參數(shù)分別為和通過梯度下降算法進行優(yōu)化,目標是最小化損失函數(shù)該損失函數(shù)衡量了每個評估網(wǎng)絡(luò)輸出的q值與目標q值之間的差異;每個評估網(wǎng)絡(luò)接收智能體dn當(dāng)前的觀測狀態(tài)和采取的動作an(t),分別計算目標q值,即:和通過梯度下降優(yōu)化器更新其參數(shù)和兩個目標網(wǎng)絡(luò)分別生成目標q值:和其中,和分別代表兩個目標網(wǎng)絡(luò)的參數(shù),通過軟更新同步評估網(wǎng)絡(luò)的參數(shù)。
102、本發(fā)明提供的一種移動邊緣計算中基于博弈論的任務(wù)復(fù)制與卸載方法具有以下優(yōu)點:
103、本發(fā)明提出一種移動邊緣計算中基于博弈論的任務(wù)復(fù)制與卸載方法,將穩(wěn)健的博弈論模型與多智能體強化學(xué)習(xí)算法有效結(jié)合,可以有效提高系統(tǒng)服務(wù)性能和系統(tǒng)可靠性。