1.一種ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法,其特征在于,所述方法應(yīng)用智能體的策略actor和critic網(wǎng)絡(luò),采用深度強(qiáng)化學(xué)習(xí)drl方法進(jìn)行決策,包括:
2.如權(quán)利要求1所述的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法,其特征在于,包括如下步驟:
3.如權(quán)利要求1所述的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法,其特征在于,所述s102、智能體與環(huán)境互動(dòng);在每個(gè)回合開(kāi)始時(shí),初始化系統(tǒng)狀態(tài)s(t);其中,狀態(tài)包含三部分,即任務(wù)的狀態(tài)stask(t)、網(wǎng)絡(luò)的狀態(tài)snet(t)和共識(shí)中的狀態(tài)信息scon(t),具體如下:
4.如權(quán)利要求1所述的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法,其特征在于,所述s103:智能體執(zhí)行生成的動(dòng)作,根據(jù)執(zhí)行的動(dòng)作獲得即時(shí)獎(jiǎng)勵(lì),并將環(huán)境狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)中獎(jiǎng)勵(lì)reward的計(jì)算共識(shí)如下:
5.如權(quán)利要求1所述的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法,其特征在于,所述s106:計(jì)算優(yōu)勢(shì)函數(shù):
6.如權(quán)利要求1所述的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法,其特征在于,所述s107:更新策略actor和critic網(wǎng)絡(luò)的參數(shù);actor的參數(shù)由下式更新:
7.一種如權(quán)利要求1所述方法的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng),其特征在于,所述系統(tǒng)包括:
8.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行如權(quán)利要求1的基于ipbft共識(shí)的多址邊緣計(jì)算系統(tǒng)中優(yōu)化方法的步驟。