本發(fā)明屬于無(wú)線通信,尤其涉及一種mec賦能的低空元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法。
背景技術(shù):
1、多接入邊緣計(jì)算是一種分布式計(jì)算架構(gòu),將數(shù)據(jù)處理和計(jì)算任務(wù)移至離數(shù)據(jù)源更近的邊緣設(shè)備上,而非集中在遠(yuǎn)程數(shù)據(jù)中心。這種方法減少了數(shù)據(jù)傳輸延遲,提高了實(shí)時(shí)性和處理效率。邊緣計(jì)算特別適用于需要即時(shí)響應(yīng)的應(yīng)用,如智能城市、工業(yè)自動(dòng)化和物聯(lián)網(wǎng)(internet?of?things,iot)。通過(guò)將計(jì)算資源部署在網(wǎng)絡(luò)邊緣,邊緣計(jì)算還能夠減輕中心服務(wù)器的負(fù)擔(dān),提高系統(tǒng)的整體性能和可靠性。空地一體化網(wǎng)絡(luò)(air-ground?integratednetwork,agin)是一種融合空中和地面網(wǎng)絡(luò)資源的通信網(wǎng)絡(luò)系統(tǒng)。其核心理念是通過(guò)將空中通信設(shè)施(如低軌衛(wèi)星、無(wú)人機(jī))與地面通信基礎(chǔ)設(shè)施(如基站、光纜)緊密結(jié)合,實(shí)現(xiàn)網(wǎng)絡(luò)覆蓋的無(wú)縫擴(kuò)展和資源的高效利用。這種網(wǎng)絡(luò)結(jié)構(gòu)可以有效解決傳統(tǒng)地面網(wǎng)絡(luò)在偏遠(yuǎn)地區(qū)或?yàn)?zāi)后救援中的覆蓋不足問(wèn)題,提高網(wǎng)絡(luò)的可靠性和靈活性。同時(shí),空地一體化網(wǎng)絡(luò)支持更高的數(shù)據(jù)傳輸速率和更低的延遲,有助于增強(qiáng)移動(dòng)通信、物聯(lián)網(wǎng)以及遠(yuǎn)程控制等應(yīng)用場(chǎng)景的性能。通過(guò)動(dòng)態(tài)調(diào)配空中和地面的網(wǎng)絡(luò)資源,空地一體化網(wǎng)絡(luò)不僅能優(yōu)化網(wǎng)絡(luò)性能,還能提供更廣泛的服務(wù)覆蓋,滿足現(xiàn)代社會(huì)對(duì)高效、可靠通信的需求。
2、由于將mec和無(wú)人機(jī)結(jié)合到空地一體化網(wǎng)絡(luò)架構(gòu)使用時(shí),需要解決一些挑戰(zhàn)。
3、(1)資源管理與調(diào)度:邊緣計(jì)算和無(wú)人機(jī)的資源分配和調(diào)度需要精確協(xié)調(diào),以避免資源沖突和提高系統(tǒng)的整體效率。這要求在動(dòng)態(tài)環(huán)境中進(jìn)行高效的資源管理。
4、(2)數(shù)據(jù)處理與延遲:盡管邊緣計(jì)算可以降低延遲,但無(wú)人機(jī)的計(jì)算能力有限,大量數(shù)據(jù)的處理可能依然會(huì)面臨延遲問(wèn)題,特別是在高數(shù)據(jù)流量情況下。
5、(3)能源管理:無(wú)人機(jī)的電池壽命有限,而邊緣計(jì)算節(jié)點(diǎn)也需要穩(wěn)定的電源供應(yīng)。優(yōu)化能源使用和延長(zhǎng)無(wú)人機(jī)的運(yùn)行時(shí)間是一個(gè)關(guān)鍵問(wèn)題。
6、(4)計(jì)算能力和存儲(chǔ)需求:無(wú)人機(jī)通常具備有限的計(jì)算和存儲(chǔ)能力,如何在邊緣計(jì)算環(huán)境中有效利用這些有限資源,并保證數(shù)據(jù)處理的高效性是一個(gè)挑戰(zhàn)。
7、其次,在對(duì)mec賦能的低空元宇宙系統(tǒng)進(jìn)行優(yōu)化時(shí),深度強(qiáng)化學(xué)習(xí)(deepreinforcement?learning,drl)是一種有效的方案。drl將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)的一種技術(shù),旨在解決復(fù)雜的決策和控制問(wèn)題。在drl中,智能體通過(guò)與環(huán)境的互動(dòng)進(jìn)行學(xué)習(xí),依據(jù)獲得的獎(jiǎng)勵(lì)信號(hào)來(lái)優(yōu)化其行為策略。深度學(xué)習(xí)技術(shù)在drl中用于從高維輸入數(shù)據(jù)(如圖像)中提取重要特征,而強(qiáng)化學(xué)習(xí)則通過(guò)獎(jiǎng)勵(lì)機(jī)制驅(qū)動(dòng)智能體不斷改進(jìn)決策策略,從而達(dá)到最大化長(zhǎng)期回報(bào)的目標(biāo)。drl在處理連續(xù)和離散動(dòng)作空間的任務(wù)時(shí),能夠處理傳統(tǒng)方法難以應(yīng)對(duì)的復(fù)雜問(wèn)題,如玩電子游戲、自動(dòng)駕駛和機(jī)器人控制等。經(jīng)典的drl算法有許多,其中deep?q-network(dqn)是一個(gè)重要的里程碑,它通過(guò)引入深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近q值函數(shù),克服了傳統(tǒng)q-learning在高維狀態(tài)空間中的局限性。另一種重要算法是policy?gradient方法,它直接優(yōu)化策略函數(shù),通過(guò)計(jì)算策略的梯度來(lái)優(yōu)化決策。一種較為新穎的算法是proximal?policy?optimization(ppo),它通過(guò)限制策略更新的幅度來(lái)保持算法的穩(wěn)定性和有效性。這些算法在解決實(shí)際問(wèn)題時(shí)各有優(yōu)劣,能夠應(yīng)對(duì)不同環(huán)境下的復(fù)雜決策挑戰(zhàn)。但這些算法仍存在一些不足需要進(jìn)行改善。
8、(1)一方面,在復(fù)雜環(huán)境中drl算法普遍依賴于固定的獎(jiǎng)勵(lì)函數(shù),當(dāng)其應(yīng)用于具有不同偏好或特性的智能體時(shí),可能會(huì)因算法的泛化能力弱而出現(xiàn)訓(xùn)練效果很差的情況。
9、(2)另一方面,傳統(tǒng)的drl難以在探索(發(fā)現(xiàn)新策略)和利用(利用已知的特征和狀態(tài))之間取得平衡。這種限制通常會(huì)阻止智能體有效地利用先驗(yàn)偏好來(lái)探索未知狀態(tài)。
10、現(xiàn)有技術(shù)在產(chǎn)業(yè)應(yīng)用中存在的技術(shù)問(wèn)題主要體現(xiàn)在以下幾個(gè)方面:
11、1.泛化能力弱:
12、經(jīng)典的深度強(qiáng)化學(xué)習(xí)(drl)算法往往依賴于固定的獎(jiǎng)勵(lì)函數(shù),這導(dǎo)致在面對(duì)具有不同偏好或特性的智能體時(shí),算法的泛化能力顯得不足,訓(xùn)練效果可能大打折扣。
13、2.探索與利用失衡:
14、傳統(tǒng)的drl算法在探索新策略和利用已知特征和狀態(tài)之間難以取得平衡。這種失衡會(huì)阻礙智能體有效地利用先驗(yàn)偏好來(lái)探索未知狀態(tài),從而影響算法的整體性能和效率。
15、3.資源分配不合理:
16、在空地基層計(jì)算場(chǎng)景中,特別是在帶寬等資源非常緊缺的情況下,現(xiàn)有文獻(xiàn)和技術(shù)沒(méi)有充分考慮到如何更加合理地分配資源。這可能導(dǎo)致資源利用不充分,進(jìn)而影響系統(tǒng)的整體性能和穩(wěn)定性。
17、4.無(wú)人機(jī)路徑規(guī)劃問(wèn)題:
18、在空地一體化場(chǎng)景中,無(wú)人機(jī)的路徑規(guī)劃是一個(gè)關(guān)鍵問(wèn)題?,F(xiàn)有技術(shù)可能未能充分考慮無(wú)人機(jī)的感知覆蓋問(wèn)題,即如何在保證無(wú)人機(jī)有效執(zhí)行任務(wù)的同時(shí),最大化其對(duì)環(huán)境的感知和覆蓋能力。
19、5.算法適應(yīng)性不足:
20、空地一體化場(chǎng)景中的無(wú)人機(jī)和其他iot設(shè)備往往具備高動(dòng)態(tài)性,這要求算法具有更強(qiáng)的適應(yīng)性。然而,經(jīng)典的drl算法大多不具備這種特征,難以適應(yīng)復(fù)雜且多樣的需求變化。
21、綜上所述,現(xiàn)有技術(shù)在產(chǎn)業(yè)應(yīng)用中面臨的主要技術(shù)問(wèn)題是泛化能力弱、探索與利用失衡、資源分配不合理、無(wú)人機(jī)路徑規(guī)劃問(wèn)題以及算法適應(yīng)性不足。這些問(wèn)題限制了現(xiàn)有技術(shù)在實(shí)際應(yīng)用中的效果和范圍,需要引入新的機(jī)制和方法進(jìn)行改進(jìn)和優(yōu)化。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明提供了一種mec賦能的低空元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法。
2、本發(fā)明是這樣實(shí)現(xiàn)的,一種mec賦能的低空元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法包括:
3、s101、初始化智能體全局網(wǎng)絡(luò)參數(shù);
4、初始化智能體全局網(wǎng)絡(luò)的θ,回合數(shù)m,最大訓(xùn)練步數(shù)t,每步的優(yōu)化迭代次數(shù)i,備選策略數(shù)量j,最優(yōu)候選策略數(shù)量k,初始化全局網(wǎng)絡(luò)的學(xué)習(xí)率α,折扣因子γ,初始化回放緩沖區(qū)大小d,初始化策略分布初始化轉(zhuǎn)移概率分布初始化超參數(shù),如載波頻率fc,時(shí)隙長(zhǎng)度δt等;
5、s102、每個(gè)回合開(kāi)始時(shí),初始狀態(tài)st被設(shè)定,策略分布隨機(jī)抽樣得到j(luò)個(gè)備選策略;
6、s103、由這些策略分別隨機(jī)抽樣得到j(luò)個(gè)動(dòng)作,再基于j個(gè)備選策略得到j(luò)個(gè)條件轉(zhuǎn)移概率分布,并由對(duì)應(yīng)的j個(gè)動(dòng)作計(jì)算出對(duì)應(yīng)的當(dāng)前獎(jiǎng)勵(lì);
7、s104、根據(jù)主動(dòng)推理和自由能原理,利用累積獎(jiǎng)勵(lì)和條件轉(zhuǎn)移概率分布求得各備選策略的自由能;
8、s105、對(duì)前k個(gè)最小的自由能求平均,并基于平均值得到當(dāng)前的策略分布;
9、s106、基于得到的策略分布抽樣出策略,進(jìn)而抽樣出動(dòng)作作為當(dāng)前智能體的行進(jìn)行為,并與環(huán)境交互得到下一個(gè)狀態(tài);
10、s107、將經(jīng)驗(yàn)元組存儲(chǔ)到重放緩沖區(qū)中;如果重放緩沖區(qū)已滿,則刪去最舊的經(jīng)驗(yàn)來(lái)存儲(chǔ)最新的經(jīng)驗(yàn);
11、s108、全局網(wǎng)絡(luò)輸出自由能的預(yù)測(cè)值,求與實(shí)際自由能的誤差函數(shù),用反向傳播算法與梯度下降更新全局網(wǎng)絡(luò)參數(shù);
12、s109、重復(fù)訓(xùn)練,直至算法收斂,最終得到策略分布,從而每一步的策略都可隨機(jī)在分布中抽取,以此控制智能體的動(dòng)作,獲得最優(yōu)的聯(lián)合無(wú)人機(jī)軌跡規(guī)劃和資源卸載分配。
13、進(jìn)一步,所述s102、每個(gè)回合開(kāi)始時(shí),初始狀態(tài)被設(shè)定;策略分布隨機(jī)抽樣得到j(luò)個(gè)備選策略,再由j個(gè)策略各自隨機(jī)抽樣得到j(luò)個(gè)動(dòng)作;智能體的狀態(tài)表示為:
14、s(t)={λ(t),w(t),u(t-1),d(t),hrice(t),h(t),f(t),fvsp(t),fe(t),rv-e(t),rue(t)},
15、其中,λ(t)={λm(t)},λm(t)為無(wú)人機(jī)m在時(shí)隙t的感知速率;w(t)={wm(t)},wm(t)為無(wú)人機(jī)m在時(shí)隙t所占的帶寬資源;u(t-1)={um(t-1)},其中um(t-1)={xm(t-1),ym(t-1),hm(t-1)}是無(wú)人機(jī)m在時(shí)隙t-1末端的坐標(biāo);d(t)={dm(t)},dm(t)為無(wú)人機(jī)m在時(shí)隙t與地面基站的距離;為無(wú)人機(jī)m在時(shí)隙t的萊斯值;h(t)={hm(t)},hm(t)為無(wú)人機(jī)m在時(shí)隙t與地面基站的信息增益;f(t)={fm(t)},fm(t)為無(wú)人機(jī)m在時(shí)隙t的可用計(jì)算資源;fvsp(t)為時(shí)隙t中虛擬服務(wù)運(yùn)營(yíng)商可用的計(jì)算資源,fe(t)為時(shí)隙t中邊緣服務(wù)平臺(tái)的可用計(jì)算資源,rv-e(t)為時(shí)隙t中從虛擬服務(wù)運(yùn)營(yíng)商到邊緣服務(wù)平臺(tái)的數(shù)據(jù)傳輸速率,rue(t)是在時(shí)隙t中運(yùn)營(yíng)商將處理后的數(shù)據(jù)傳回元宇宙用戶設(shè)備的數(shù)據(jù)速率;自策略πt抽樣生成的動(dòng)作表示為:
16、a(t)={tsens(t),δ(t),tfly(t),κ(t),ι(t)},
17、其中,表示無(wú)人機(jī)的感知持續(xù)時(shí)間,δ(t)={δm(t)}={δxm(t),δym(t),δhm(t)},表示無(wú)人機(jī)軌跡,表示無(wú)人機(jī)飛行時(shí)間,κ(t)={κm(t)},是無(wú)人機(jī)的數(shù)據(jù)卸載比率,ι(t)是虛擬服務(wù)運(yùn)營(yíng)商的數(shù)據(jù)卸載比例。
18、進(jìn)一步,所述s103:基于j個(gè)備選策略得到j(luò)個(gè)條件轉(zhuǎn)移概率分布,并由對(duì)應(yīng)的j個(gè)動(dòng)作計(jì)算出對(duì)應(yīng)的當(dāng)前獎(jiǎng)勵(lì),即時(shí)獎(jiǎng)勵(lì)reward的計(jì)算公式如下:
19、
20、上式中代表系統(tǒng)所有設(shè)備在時(shí)隙t的能耗、時(shí)延以及虛擬服務(wù)運(yùn)營(yíng)商成本的加權(quán)和的倒數(shù),換而言之,分母即是要求的目標(biāo)函數(shù)。
21、進(jìn)一步,所述s104:根據(jù)主動(dòng)推理和自由能原理,利用累積獎(jiǎng)勵(lì)和條件轉(zhuǎn)移概率分布求得j個(gè)備選策略的自由能,其中自由能相反數(shù)的計(jì)算公式為:
22、
23、所述s105:對(duì)前k個(gè)最小的自由能求平均,并基于平均值得到當(dāng)前的策略分布,這一過(guò)程等價(jià)于取自由能相反數(shù)的前k個(gè)最大值,將數(shù)值自大到小排序后求得平均值:
24、
25、并獲取策略分布:
26、
27、其中,σ(·)表示與自然數(shù)e的指數(shù)相關(guān)的連續(xù)分布,如指數(shù)分布和伽馬分布;
28、所述s106:基于得到的策略分布抽樣出策略πt,進(jìn)而抽樣出動(dòng)作at作為當(dāng)前智能體的行進(jìn)行為,并與環(huán)境交互得到下一個(gè)狀態(tài);抽取過(guò)程概括如下:πt~q(π),at~πt。
29、進(jìn)一步,所述s108:全局網(wǎng)絡(luò)輸出自由能的預(yù)測(cè)值q(st,at;θ),求與目標(biāo)(即實(shí)際自由能)的誤差函數(shù)l(θ),用反向傳播算法與梯度下降更新全局網(wǎng)絡(luò)參數(shù);損失函數(shù)由下式給出:
30、
31、損失函數(shù)的梯度由下式給出:
32、
33、而后通過(guò)梯度下降更新全局網(wǎng)絡(luò)的參數(shù),如下:
34、θ←θ-α·▽?duì)萳(θ),
35、其中,θ為全局模型網(wǎng)絡(luò)內(nèi)部參數(shù),α是學(xué)習(xí)率。
36、本發(fā)明的另一目的在于提供一種mec賦能的低空元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化系統(tǒng)包括:
37、系統(tǒng)初始化模塊,用于初始化深度確定性策略梯度算法參數(shù)的系統(tǒng)初始化模塊,包含設(shè)置網(wǎng)絡(luò)學(xué)習(xí)率、折扣因子及回放緩沖區(qū)大小的配置模塊,以及用于定義無(wú)人機(jī)數(shù)量、地面基站位置等網(wǎng)絡(luò)布局參數(shù)的網(wǎng)絡(luò)構(gòu)建模塊;
38、智能體模塊,用于每個(gè)周期開(kāi)始時(shí)基于當(dāng)前網(wǎng)絡(luò)狀態(tài)生成動(dòng)作的智能體模塊,該智能體模塊運(yùn)用了主動(dòng)推理機(jī)制和自由能原理,通過(guò)選取最大的前k位自由能最小值的均值,擬合策略的分布;
39、動(dòng)作執(zhí)行模塊,用于執(zhí)行無(wú)人機(jī)路徑規(guī)劃和任務(wù)卸載策略的動(dòng)作執(zhí)行模塊;
40、獎(jiǎng)勵(lì)獲取模塊,用于執(zhí)行動(dòng)作并計(jì)算即時(shí)獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)獲取模塊,該獎(jiǎng)勵(lì)獲取模塊根據(jù)系統(tǒng)所有設(shè)備的時(shí)延、能耗和運(yùn)營(yíng)商成本的加權(quán)平均的倒數(shù)進(jìn)行獎(jiǎng)勵(lì)計(jì)算,以及將系統(tǒng)狀態(tài)從當(dāng)前狀態(tài)轉(zhuǎn)移到下一狀態(tài)的狀態(tài)轉(zhuǎn)移模塊;
41、經(jīng)驗(yàn)回放模塊,用于存儲(chǔ)每一次的系統(tǒng)狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)、累積獎(jiǎng)勵(lì)和下一狀態(tài)的經(jīng)驗(yàn)元組的經(jīng)驗(yàn)回放模塊;
42、抽樣模塊,用于從策略的分布中抽樣的模塊以及從策略π中抽樣模塊;
43、全局網(wǎng)絡(luò)更新模塊,用于使用反向傳播算法的全局網(wǎng)絡(luò)更新模塊,該模塊包括利用梯度下降法來(lái)調(diào)整網(wǎng)絡(luò)參數(shù)的參數(shù)優(yōu)化單元。
44、本發(fā)明的另一目的在于提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),使得所述處理器執(zhí)行所述mec與無(wú)人機(jī)賦能的元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法的步驟。
45、本發(fā)明的另一目的在于提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),使得所述處理器執(zhí)行所述mec與無(wú)人機(jī)賦能的元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法的步驟。
46、本發(fā)明的另一目的在于提供一種信息數(shù)據(jù)處理終端,所述信息數(shù)據(jù)處理終端用于實(shí)現(xiàn)所述mec與無(wú)人機(jī)賦能的元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化系統(tǒng)。
47、結(jié)合上述的技術(shù)方案和解決的技術(shù)問(wèn)題,本發(fā)明所要保護(hù)的技術(shù)方案所具備的優(yōu)點(diǎn)及積極效果為:
48、第一、本發(fā)明顯著提升了系統(tǒng)的整體效能和靈活性。在這一創(chuàng)新架構(gòu)中,無(wú)人機(jī)不僅充當(dāng)了移動(dòng)的計(jì)算和通信節(jié)點(diǎn),還彌補(bǔ)了地面iot設(shè)備覆蓋的不足,特別是在偏遠(yuǎn)或難以接入的區(qū)域。無(wú)人機(jī)能夠在這些區(qū)域提供即時(shí)的計(jì)算和通信支持,與地面iot設(shè)備共同合作,實(shí)現(xiàn)數(shù)據(jù)的收集、初步處理及快速傳輸。此種空地一體化整合方案通過(guò)擴(kuò)展網(wǎng)絡(luò)的覆蓋范圍,使得即便是在網(wǎng)絡(luò)覆蓋有限的地方,也能高效地滿足各種計(jì)算需求,優(yōu)化了數(shù)據(jù)處理效率,提升了系統(tǒng)的整體性能。無(wú)人機(jī)的動(dòng)態(tài)靈活性使其能夠根據(jù)實(shí)時(shí)需求調(diào)整計(jì)算資源的部署,實(shí)現(xiàn)高效的數(shù)據(jù)轉(zhuǎn)發(fā)和任務(wù)處理,減少了數(shù)據(jù)傳輸?shù)难舆t,并有效緩解了帶寬瓶頸。與此同時(shí),mec技術(shù)將計(jì)算資源更接近數(shù)據(jù)源,有效減少了數(shù)據(jù)傳輸?shù)竭h(yuǎn)程云端的時(shí)間,從而顯著提高了數(shù)據(jù)處理速度和系統(tǒng)響應(yīng)能力。這種接近源頭的計(jì)算方式不僅提升了系統(tǒng)的實(shí)時(shí)處理能力,也增強(qiáng)了對(duì)不同環(huán)境條件的適應(yīng)能力,使得系統(tǒng)在動(dòng)態(tài)變化的網(wǎng)絡(luò)需求和環(huán)境中能夠保持高度的穩(wěn)定性和可靠性。通過(guò)將無(wú)人機(jī)的機(jī)動(dòng)性與mec技術(shù)的高效數(shù)據(jù)處理能力結(jié)合,空地一體化網(wǎng)絡(luò)能夠?qū)崿F(xiàn)更高效的數(shù)據(jù)處理、更低的延遲和更優(yōu)的資源利用,為各種復(fù)雜和動(dòng)態(tài)的應(yīng)用場(chǎng)景提供了更加可靠、靈活且高效的解決方案。這種結(jié)合不僅推動(dòng)了智能網(wǎng)絡(luò)的技術(shù)進(jìn)步,也為未來(lái)的網(wǎng)絡(luò)應(yīng)用開(kāi)辟了新的可能性。
49、本發(fā)明具體取得的顯著技術(shù)進(jìn)步,在于實(shí)現(xiàn)了一種mec賦能的低空元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法,該方法在以下幾個(gè)關(guān)鍵方面取得了顯著的進(jìn)步:
50、1)高效的任務(wù)卸載分配策略:
51、該方法通過(guò)優(yōu)化無(wú)人機(jī)卸載至地面基站的資源分配比例,以及基站卸載至邊緣服務(wù)平臺(tái)的資源分配比例,顯著提高了空地一體化元宇宙網(wǎng)絡(luò)中的資源利用率。該優(yōu)化措施不僅提高了系統(tǒng)的整體性能,還有效降低了能耗和時(shí)延。
52、2)合理的無(wú)人機(jī)路徑規(guī)劃策略:
53、該方法通過(guò)分析無(wú)人機(jī)的三維坐標(biāo)進(jìn)行優(yōu)化,使系統(tǒng)能夠自動(dòng)調(diào)整無(wú)人機(jī)的飛行路徑,以確保對(duì)目標(biāo)區(qū)域的全面感知覆蓋,并能夠適應(yīng)不斷變化的網(wǎng)絡(luò)條件。這一優(yōu)化過(guò)程通過(guò)自適應(yīng)調(diào)整無(wú)人機(jī)的飛行時(shí)間和感知時(shí)間等性能參數(shù),從而有效提升了用戶體驗(yàn)。
54、3)強(qiáng)化學(xué)習(xí)的集成:
55、本發(fā)明將深度強(qiáng)化學(xué)習(xí)(deep?reinforcement?learning,drl)算法與主動(dòng)推理方法結(jié)合,實(shí)現(xiàn)了系統(tǒng)在決策過(guò)程中不僅依賴于單一的獎(jiǎng)勵(lì),而是綜合利用環(huán)境的額外信息。該系統(tǒng)通過(guò)基于實(shí)時(shí)數(shù)據(jù)進(jìn)行自主學(xué)習(xí)和適應(yīng),從而能夠在缺乏明確指令的情況下做出最優(yōu)決策。這種自適應(yīng)能力在應(yīng)對(duì)復(fù)雜和動(dòng)態(tài)變化的環(huán)境中具有極其重要的作用。
56、4)能耗、時(shí)延和運(yùn)營(yíng)商成本優(yōu)化:
57、該方法所包含的獎(jiǎng)勵(lì)機(jī)制特別關(guān)注于減少系統(tǒng)的能耗、時(shí)延和運(yùn)營(yíng)成本,這不僅提高了能效,還具有環(huán)境友好性。在能源成本不斷上升和環(huán)境保護(hù)日益受到重視的背景下,這一點(diǎn)變得尤為關(guān)鍵。
58、5)系統(tǒng)可靠性和適應(yīng)性的提升:
59、通過(guò)對(duì)多個(gè)備選策略進(jìn)行篩選并在每一步中進(jìn)行多次迭代,所預(yù)測(cè)出的自由能值逐漸趨近于真實(shí)值,因此,采用全局網(wǎng)絡(luò)對(duì)該值進(jìn)行逼近的方案增強(qiáng)了系統(tǒng)的可靠性。此外,通過(guò)關(guān)注系統(tǒng)獎(jiǎng)勵(lì)之外的其他因素,而不依賴于確定性的獎(jiǎng)勵(lì)函數(shù),智能體的探索空間得到了拓展,這間接提升了系統(tǒng)的適應(yīng)性。
60、6)網(wǎng)絡(luò)的自主學(xué)習(xí)和優(yōu)化能力:
61、該方法通過(guò)不斷的迭代訓(xùn)練和基于經(jīng)驗(yàn)的網(wǎng)絡(luò)更新,使得系統(tǒng)能夠不斷優(yōu)化其決策過(guò)程,從而提高整體性能。
62、這些技術(shù)進(jìn)步的綜合作用,使得mec賦能的低空元宇宙系統(tǒng)在性能方面取得顯著提升,同時(shí)也改進(jìn)了能效、穩(wěn)定性和自適應(yīng)能力等多個(gè)方面。這些改進(jìn)對(duì)滿足大數(shù)據(jù)時(shí)代繁雜的計(jì)算需求至關(guān)重要。
63、本發(fā)明提供的mec賦能的低空元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法,其核心在于使用數(shù)學(xué)模型來(lái)指導(dǎo)系統(tǒng)的行為和學(xué)習(xí)過(guò)程。可以根據(jù)這些數(shù)學(xué)模型的特點(diǎn)來(lái)探討它們帶來(lái)的技術(shù)效果:
64、1)自由能的計(jì)算
65、自由能的計(jì)算不僅關(guān)注系統(tǒng)能耗、時(shí)延和運(yùn)營(yíng)商成本,還存在一項(xiàng)關(guān)于環(huán)境信息的因子,稱為信息增益,其額外關(guān)注智能體偏好,增加了智能體的主觀能動(dòng)性。
66、能效優(yōu)化與成本節(jié)約:通過(guò)將獎(jiǎng)勵(lì)與系統(tǒng)能耗、時(shí)延和運(yùn)營(yíng)商成本加權(quán)和直接相關(guān)聯(lián),這種方法鼓勵(lì)智能體探索加權(quán)和趨于最小化的環(huán)境,從而實(shí)現(xiàn)用戶服務(wù)質(zhì)量提升以及運(yùn)營(yíng)商成本節(jié)約的雙贏局面。
67、2)全局網(wǎng)絡(luò)損失函數(shù)和更新
68、通過(guò)逼近計(jì)算得出的自由能近似值,全局網(wǎng)絡(luò)利用反向傳播和梯度下降的方法更新全局網(wǎng)絡(luò)。
69、策略優(yōu)化:通過(guò)不斷調(diào)整全局網(wǎng)絡(luò)參數(shù),系統(tǒng)能夠?qū)W習(xí)并采用更有效的決策策略分布,從而抽樣得到具體的策略。
70、學(xué)習(xí)穩(wěn)定性:將根據(jù)主動(dòng)推理機(jī)制推算出的目標(biāo)作為基礎(chǔ)可以平衡學(xué)習(xí)過(guò)程,避免因預(yù)測(cè)誤差過(guò)大而引起的不穩(wěn)定。
71、性能優(yōu)化:通過(guò)精確計(jì)算損失函數(shù)并更新網(wǎng)絡(luò),提高了系統(tǒng)決策的準(zhǔn)確性和效率。
72、3)參數(shù)更新公式
73、描述了全局網(wǎng)絡(luò)的參數(shù)更新方法。
74、策略逐漸逼近:通過(guò)逐步更新全局模型網(wǎng)絡(luò)參數(shù),系統(tǒng)能夠平滑地過(guò)渡到新策略,防止由于急劇變化導(dǎo)致的性能波動(dòng)。
75、持續(xù)學(xué)習(xí)和適應(yīng):這種持續(xù)的參數(shù)更新機(jī)制確保系統(tǒng)能夠適應(yīng)長(zhǎng)期的環(huán)境變化。
76、本發(fā)明提供的數(shù)學(xué)模型的應(yīng)用不僅提高了mec賦能的低空元宇宙系統(tǒng)的運(yùn)行效率和決策質(zhì)量,還增強(qiáng)了其對(duì)環(huán)境變化的適應(yīng)能力和長(zhǎng)期穩(wěn)定性。這些技術(shù)效果對(duì)于處理大量數(shù)據(jù)和高頻交互的現(xiàn)代邊緣計(jì)算環(huán)境至關(guān)重要。
77、本發(fā)明提供的mec賦能的低空元宇宙系統(tǒng)中基于主動(dòng)推理的優(yōu)化方法,通過(guò)智能體與環(huán)境的交互來(lái)優(yōu)化網(wǎng)絡(luò)的性能。
78、初始化智能體的狀態(tài),智能體的狀態(tài)包括多個(gè)變量,例如:無(wú)人機(jī)感知速率、無(wú)人機(jī)所占帶寬、時(shí)變信道增益、地面基站與無(wú)人機(jī)的距離、無(wú)人機(jī)、地面基站以及邊緣計(jì)算平臺(tái)的可用計(jì)算資源、無(wú)人機(jī)的三維坐標(biāo)、傳輸功率等。這些變量共同定義了智能體在特定時(shí)刻的環(huán)境狀態(tài),進(jìn)而影響智能體的決策。
79、智能體最初模擬執(zhí)行動(dòng)作并獲得即時(shí)獎(jiǎng)勵(lì),模擬生成動(dòng)作,并由此獲取獲得獎(jiǎng)勵(lì),而后通過(guò)一系列繁瑣的篩選得到最優(yōu)的動(dòng)作,此時(shí)智能體才執(zhí)行真實(shí)的動(dòng)作并進(jìn)行狀態(tài)的轉(zhuǎn)移。獎(jiǎng)勵(lì)的計(jì)算公式考慮了系統(tǒng)所有設(shè)備的長(zhǎng)期能耗、長(zhǎng)期延遲以及運(yùn)營(yíng)商成本,這是系統(tǒng)設(shè)計(jì)的綜合目標(biāo),旨在減少運(yùn)營(yíng)商成本的同時(shí)提升用戶體驗(yàn)。
80、計(jì)算損失函數(shù)并更新網(wǎng)絡(luò),使用梯度下降方法更新當(dāng)前全局網(wǎng)絡(luò),這可以幫助提升全局網(wǎng)絡(luò)對(duì)自由能的預(yù)測(cè)精度,從而優(yōu)化系統(tǒng)性能。這部分的操作可以類比于深度強(qiáng)化學(xué)習(xí)中的價(jià)值函數(shù)更新,關(guān)鍵在于提高預(yù)測(cè)準(zhǔn)確性以引導(dǎo)策略改進(jìn)。
81、這些步驟和數(shù)學(xué)模型的應(yīng)用,帶來(lái)了顯著的技術(shù)進(jìn)步:
82、策略優(yōu)化:通過(guò)深度強(qiáng)化學(xué)習(xí),系統(tǒng)能夠自學(xué)習(xí)并優(yōu)化策略,以適應(yīng)不斷變化的網(wǎng)絡(luò)環(huán)境。
83、資源高效利用:任務(wù)卸載分配的優(yōu)化確保了所有算力設(shè)備均得到了高效利用,尤其是負(fù)載多種功能的無(wú)人機(jī)。
84、能耗最小化:通過(guò)優(yōu)化長(zhǎng)期能耗,有助于實(shí)現(xiàn)綠色通信,降低對(duì)環(huán)境的影響。
85、系統(tǒng)穩(wěn)定性與適應(yīng)性:采用獨(dú)特的主動(dòng)推理機(jī)制,關(guān)注到除獎(jiǎng)勵(lì)外的其他額外信息,增加了智能體關(guān)于自身偏好的關(guān)注度,繼而增強(qiáng)了穩(wěn)定性與普適性。
86、這些進(jìn)步展現(xiàn)了基于主動(dòng)推理的深度強(qiáng)化學(xué)習(xí)在復(fù)雜網(wǎng)絡(luò)系統(tǒng)中的潛力,尤其是在實(shí)現(xiàn)智能、高效的空地一體化通信網(wǎng)絡(luò)方面。
87、第二,作為本發(fā)明的權(quán)利要求的創(chuàng)造性輔助證據(jù),還體現(xiàn)在以下幾個(gè)重要方面:
88、(1)本發(fā)明的技術(shù)方案轉(zhuǎn)化后的預(yù)期收益和商業(yè)價(jià)值為:
89、本發(fā)明中深度考慮了元宇宙網(wǎng)絡(luò)中服務(wù)供應(yīng)商的運(yùn)營(yíng)成本,通過(guò)創(chuàng)新的技術(shù)手段有效降低了能耗,并確保了在滿足用戶對(duì)延遲的嚴(yán)格需求方面的優(yōu)越性能。具體來(lái)說(shuō),本發(fā)明采取了一系列優(yōu)化策略,不僅在技術(shù)實(shí)現(xiàn)層面提升了系統(tǒng)的效率,還從經(jīng)濟(jì)角度最小化了運(yùn)營(yíng)商的成本。這種綜合性的改進(jìn)方案為后續(xù)的專利投產(chǎn)及實(shí)際業(yè)務(wù)應(yīng)用提供了極具價(jià)值的參考,預(yù)示著在提升用戶體驗(yàn)的同時(shí),運(yùn)營(yíng)商可以實(shí)現(xiàn)更高的經(jīng)濟(jì)效益。
90、(2)本發(fā)明的技術(shù)方案是否解決了人們一直渴望解決、但始終未能獲得成功的技術(shù)難題:
91、經(jīng)典drl算法大多都脫離不開(kāi)固定的幾種獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)范式,這使得這些算法普遍只適用于特定的場(chǎng)景,一旦對(duì)需求或場(chǎng)景進(jìn)行變化,訓(xùn)練的結(jié)果大都會(huì)與期望相去甚遠(yuǎn),即泛化性能差。當(dāng)然,許多研究也在drl內(nèi)引入并綜合了一些理論,如李雅普諾夫(lyapunov)優(yōu)化理論與注意力機(jī)制,但始終無(wú)法擺脫泛化能力弱的魔咒。本發(fā)明為drl結(jié)合了腦神經(jīng)科學(xué)中的主動(dòng)推理機(jī)制,通過(guò)自由能對(duì)算法進(jìn)行指導(dǎo)。結(jié)合多名學(xué)者的研究,最終將自由能轉(zhuǎn)換為累積獎(jiǎng)勵(lì)與一個(gè)不定項(xiàng)之和的形式,既沒(méi)有拋棄傳統(tǒng)drl中的獎(jiǎng)勵(lì),又在不定項(xiàng)中體現(xiàn)了不同智能體(由具體需求抽象而來(lái))各自的偏好或特點(diǎn),使得算法的泛化性能得到顯著提升。
92、第三,本發(fā)明針對(duì)現(xiàn)有技術(shù)在產(chǎn)業(yè)應(yīng)用中存在的幾個(gè)關(guān)鍵問(wèn)題,提出了一種創(chuàng)新的解決方案,并實(shí)現(xiàn)了顯著的技術(shù)進(jìn)步。
93、首先,針對(duì)現(xiàn)有技術(shù)中drl算法泛化能力弱的問(wèn)題,本發(fā)明通過(guò)引入主動(dòng)推理和自由能原理,增強(qiáng)了算法在不同環(huán)境和偏好下的適應(yīng)性。這使得算法在面對(duì)具有不同特性的智能體時(shí),能夠更好地泛化,提高訓(xùn)練效果。
94、其次,本發(fā)明解決了傳統(tǒng)drl算法在探索和利用之間失衡的問(wèn)題。通過(guò)優(yōu)化備選策略的自由能,并基于自由能選擇動(dòng)作,算法能夠在探索新策略和利用已知狀態(tài)之間找到更好的平衡,提高了整體性能和效率。
95、此外,本發(fā)明還考慮了空地基層計(jì)算中資源分配不合理的問(wèn)題。通過(guò)引入策略分布和條件轉(zhuǎn)移概率分布,算法能夠更合理地分配無(wú)人機(jī)和其他iot設(shè)備的資源,提高了資源利用率和系統(tǒng)穩(wěn)定性。
96、最后,本發(fā)明在產(chǎn)業(yè)應(yīng)用中取得了顯著的技術(shù)進(jìn)步。通過(guò)優(yōu)化無(wú)人機(jī)的軌跡規(guī)劃和資源卸載分配,算法實(shí)現(xiàn)了系統(tǒng)能耗、時(shí)延和成本的降低,提高了整體性能。這為mec與無(wú)人機(jī)賦能的元宇宙系統(tǒng)的發(fā)展提供了有力的技術(shù)支持,推動(dòng)了相關(guān)產(chǎn)業(yè)的進(jìn)步和發(fā)展。