本發(fā)明屬于邊緣計(jì)算,更具體地,涉及一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法和系統(tǒng)。
背景技術(shù):
1、隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,移動(dòng)設(shè)備的數(shù)量持續(xù)激增,并推動(dòng)著新型移動(dòng)應(yīng)用的快速發(fā)展,如自動(dòng)導(dǎo)航、在線式交互游戲、ar/vr虛擬技術(shù)等。移動(dòng)邊緣計(jì)算的提出為解決移動(dòng)設(shè)備有限的計(jì)算能力和電池容量提供了經(jīng)濟(jì)高效的解決方案。然而,如何在通信基礎(chǔ)設(shè)施覆蓋范圍有限的地區(qū)提供可靠的計(jì)算服務(wù),仍是一個(gè)具有挑戰(zhàn)性的問(wèn)題。無(wú)人機(jī)具有高度靈活性和機(jī)動(dòng)性等特點(diǎn),已經(jīng)成為輔助無(wú)線通信的重要手段。搭載小型服務(wù)器的無(wú)人機(jī)可以作為空中計(jì)算平臺(tái),為移動(dòng)設(shè)備提供靈活和彈性的計(jì)算服務(wù),具有部署高效便捷、覆蓋范圍廣闊等優(yōu)點(diǎn)。無(wú)人機(jī)輔助的移動(dòng)邊緣計(jì)算技術(shù)已經(jīng)成為了5g網(wǎng)絡(luò)的關(guān)鍵技術(shù)之一,受到學(xué)術(shù)界和產(chǎn)業(yè)界廣泛關(guān)注。
2、目前,在邊緣計(jì)算過(guò)程中,優(yōu)化邊緣計(jì)算任務(wù)已成為一個(gè)非常重要的研究課題。為了降低用戶端的功耗和處理時(shí)間,現(xiàn)有普遍采用的優(yōu)化方法是將用戶設(shè)備終端的計(jì)算任務(wù)卸載到邊緣服務(wù)器。
3、然而,當(dāng)前無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法均存在一些不可忽略的缺陷:第一,當(dāng)前無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法多為二進(jìn)制卸載,即計(jì)算任務(wù)要么全部本地計(jì)算,要么將任務(wù)全部卸載到無(wú)人機(jī)服務(wù)器端,這種方式可能導(dǎo)致用戶設(shè)備本地計(jì)算資源和無(wú)人機(jī)遠(yuǎn)端計(jì)算資源的浪費(fèi);第二,當(dāng)前多數(shù)無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法都假設(shè)無(wú)人機(jī)從固定起點(diǎn)出發(fā)前往固定終點(diǎn)且沒(méi)有考慮無(wú)人機(jī)在垂直方向的移動(dòng)能力。從而一方面忽略無(wú)人機(jī)的靈活部署能力會(huì)導(dǎo)致脫離實(shí)際,比如突發(fā)情況下在任意地點(diǎn)部署無(wú)人機(jī)進(jìn)行邊緣計(jì)算任務(wù)卸載,因此這類(lèi)方法不能針對(duì)隨機(jī)起始點(diǎn)做出最優(yōu)路徑規(guī)劃;另一方面忽略無(wú)人機(jī)在垂直方向的移動(dòng)能力,不能刺激無(wú)人機(jī)最大限度的調(diào)整飛行軌跡來(lái)優(yōu)化通信條件與共享計(jì)算資源;第三,當(dāng)前無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載場(chǎng)景大多數(shù)只考慮了用戶設(shè)備固定或移動(dòng)路徑先驗(yàn)已知情況,而忽略實(shí)際中用戶設(shè)備進(jìn)行隨機(jī)移動(dòng)的可能性,對(duì)無(wú)人機(jī)飛行軌跡與系統(tǒng)計(jì)算資源做出非最優(yōu)分配,這將導(dǎo)致邊緣計(jì)算系統(tǒng)的整體工作效率低下,無(wú)法根據(jù)實(shí)時(shí)變化的系統(tǒng)環(huán)境進(jìn)行在線卸載決策;第四,聯(lián)合在線決策、部分卸載和路徑優(yōu)化三大要素組成的邊緣計(jì)算系統(tǒng)將面臨高度復(fù)雜非凸優(yōu)化問(wèn)題,現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法無(wú)法在大型解空間中尋找到全局最優(yōu)解,這將導(dǎo)致邊緣計(jì)算系統(tǒng)無(wú)法做出最優(yōu)決策的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法和系統(tǒng),其目的在于,解決現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法由于采用二進(jìn)制卸載,導(dǎo)致用戶設(shè)備本地計(jì)算資源和無(wú)人機(jī)遠(yuǎn)端計(jì)算資源的浪費(fèi)的技術(shù)問(wèn)題,以及現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法忽略無(wú)人機(jī)靈活部署能力與垂直方向的移動(dòng)能力,導(dǎo)致脫離實(shí)際,無(wú)法針對(duì)隨機(jī)起始點(diǎn)做出最優(yōu)路徑規(guī)劃的問(wèn)題,以及現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法忽略實(shí)際中用戶設(shè)備進(jìn)行隨機(jī)移動(dòng)的可能性,導(dǎo)致邊緣計(jì)算系統(tǒng)無(wú)法根據(jù)實(shí)時(shí)變化的系統(tǒng)環(huán)境進(jìn)行在線卸載決策,進(jìn)而整體工作效率低下的問(wèn)題,以及現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法難以解決聯(lián)合在線決策、部分卸載和路徑優(yōu)化三大要素組成的高度復(fù)雜非凸優(yōu)化問(wèn)題,導(dǎo)致邊緣計(jì)算系統(tǒng)無(wú)法完成持續(xù)性最優(yōu)卸載過(guò)程的技術(shù)問(wèn)題。
2、為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法,包括以下步驟:
3、(1)設(shè)置時(shí)隙序號(hào)t=1;
4、(2)判斷t是否大于邊緣計(jì)算系統(tǒng)中時(shí)隙的總數(shù)t,如果是則進(jìn)入步驟(8),否則進(jìn)入步驟(3);
5、(3)搭載服務(wù)器的無(wú)人機(jī)從邊緣計(jì)算系統(tǒng)中的第n個(gè)終端用戶獲取該第n個(gè)終端用戶在第t個(gè)時(shí)隙的待處理任務(wù)的參數(shù)wn(t)和坐標(biāo)參數(shù)cn(t),從自身獲取無(wú)人機(jī)在第t-1個(gè)時(shí)隙的坐標(biāo)參數(shù)cu(t-1),并根據(jù)待處理任務(wù)的參數(shù)wn(t)和坐標(biāo)參數(shù)cn(t)獲取第n個(gè)終端用戶在第t個(gè)時(shí)隙的全本地處理時(shí)延全本地處理能耗其中n表示存在待處理任務(wù)的終端用戶在邊緣計(jì)算系統(tǒng)中的序號(hào),且有n∈[1,邊緣計(jì)算系統(tǒng)中存在待處理任務(wù)的終端用戶的總數(shù)n]。
6、(4)搭載服務(wù)器的無(wú)人機(jī)根據(jù)步驟(3)得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的待處理任務(wù)的參數(shù)wn(t)和坐標(biāo)參數(shù)cn(t)、以及無(wú)人機(jī)在第t-1個(gè)時(shí)隙的坐標(biāo)參數(shù)cu(t-1),獲取每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的待處理任務(wù)的參數(shù)wn′(t)和歸一化后的坐標(biāo)參數(shù)cn′(t),以及無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cu′(t-1)。
7、(5)搭載服務(wù)器的無(wú)人機(jī)將步驟(4)得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的待處理任務(wù)的參數(shù)wn′(t)和歸一化后的坐標(biāo)參數(shù)cn′(t)、以及無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cu′(t-1)輸入預(yù)先訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型w,以得到無(wú)人機(jī)在第t個(gè)時(shí)隙的最優(yōu)水平移動(dòng)角度ω(t)、最優(yōu)水平移動(dòng)距離δdu(t)、最優(yōu)垂直移動(dòng)距離δzu(t)以及每個(gè)終端用戶的最優(yōu)任務(wù)卸載量
8、(6)搭載服務(wù)器的無(wú)人機(jī)根據(jù)步驟(5)得到的無(wú)人機(jī)在第t個(gè)時(shí)隙的最優(yōu)水平移動(dòng)角度ω(t)、最優(yōu)水平移動(dòng)距離δdu(t)、最優(yōu)垂直移動(dòng)距離δzu(t)以及每個(gè)終端用戶的最優(yōu)任務(wù)卸載量獲取第n個(gè)終端用戶在第t個(gè)時(shí)隙的本地處理時(shí)延任務(wù)上行時(shí)延本地處理能耗以及任務(wù)上行能耗以及搭載服務(wù)器的無(wú)人機(jī)的遠(yuǎn)端處理時(shí)延和遠(yuǎn)端處理能耗
9、(7)搭載服務(wù)器的無(wú)人機(jī)根據(jù)步驟(6)得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的本地處理時(shí)延任務(wù)上行時(shí)延本地處理能耗任務(wù)上行能耗以及搭載服務(wù)器的無(wú)人機(jī)的遠(yuǎn)端處理時(shí)延遠(yuǎn)端處理能耗獲取邊緣計(jì)算系統(tǒng)在第t個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(t)和任務(wù)能量消耗e(t)(截止此時(shí),邊緣計(jì)算系統(tǒng)完成第t個(gè)時(shí)隙的卸載過(guò)程),設(shè)置t=t+1,并返回步驟(2);
10、(8)搭載服務(wù)器的無(wú)人機(jī)根據(jù)步驟(3)得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的全本地處理時(shí)延全本地處理能耗以及步驟(7)得到的邊緣計(jì)算系統(tǒng)在每個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(t)和任務(wù)能量消耗e(t),獲取邊緣計(jì)算系統(tǒng)的系統(tǒng)效用u。
11、(9)搭載服務(wù)器的無(wú)人機(jī)將步驟(8)得到的邊緣計(jì)算系統(tǒng)的系統(tǒng)效用u作為服務(wù)結(jié)果反饋至每個(gè)終端用戶,過(guò)程結(jié)束。
12、優(yōu)選地,第n個(gè)終端用戶在第t個(gè)時(shí)隙的待處理任務(wù)的參數(shù)wn(t)包括待處理任務(wù)的任務(wù)大小dn(t),以及處理待處理任務(wù)中1bit任務(wù)所需要的cpu周期數(shù)cn(t);第n個(gè)終端用戶在第t個(gè)時(shí)隙的坐標(biāo)參數(shù)cn(t)包括x軸坐標(biāo)xn(t)、y軸坐標(biāo)yn(t)、以及z軸坐標(biāo)zn(t)。
13、第n個(gè)終端用戶在第t個(gè)時(shí)隙的全本地處理時(shí)延是根據(jù)以下公式進(jìn)行計(jì)算:
14、
15、其中fn為第n個(gè)終端用戶使用的本地cpu芯片的頻率。
16、第n個(gè)終端用戶在第t個(gè)時(shí)隙的全本地處理能耗是根據(jù)以下公式進(jìn)行計(jì)算:
17、
18、其中κ為第n個(gè)終端用戶使用的本地cpu芯片的有效開(kāi)關(guān)電容的電容值。
19、優(yōu)選地,步驟(4)包括以下子步驟:
20、(4-1)根據(jù)步驟(3)得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的待處理任務(wù)的參數(shù)wn(t)獲取每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的待處理任務(wù)參數(shù)wn′(t);
21、(4-2)根據(jù)步驟(3)得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的坐標(biāo)參數(shù)cn(t),獲取每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cn′(t);
22、(4-3)根據(jù)無(wú)人機(jī)在第t-1個(gè)時(shí)隙的坐標(biāo)參數(shù)cu(t-1),獲取無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cu′(t-1)。
23、優(yōu)選地,每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的待處理任務(wù)的參數(shù)wn′(t)包括歸一化后的待處理任務(wù)的任務(wù)大小dn′(t),以及歸一化后的處理待處理任務(wù)中1bit任務(wù)所需要的cpu周期數(shù)cn′(t);
24、每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的待處理任務(wù)的任務(wù)大小dn′(t)是根據(jù)以下公式進(jìn)行計(jì)算:
25、dn′(t)=dn(t)/ξd
26、其中ξd為歸一化因子,該歸一化因子的取值范圍是由待處理任務(wù)的任務(wù)大小決定,越大,則該值越大,反之則該值越小。
27、每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的處理待處理任務(wù)中1bit任務(wù)所需要的cpu周期數(shù)cn′(t)是根據(jù)以下公式進(jìn)行計(jì)算:
28、cn′(t)=cn(t)/ξc
29、其中ξc為歸一化因子。
30、每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cn′(t)包括歸一化后的x軸坐標(biāo)xn′(t)、歸一化后的y軸坐標(biāo)yn′(t)、以及歸一化后的z軸坐標(biāo)zn′(t);
31、每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的x軸坐標(biāo)xn′(t)是根據(jù)以下公式進(jìn)行計(jì)算:
32、xn′(t)=xn(t)/ξx
33、其中ξx為歸一化因子,該歸一化因子的取值范圍是由x軸坐標(biāo)的大小決定,越大,則該值越大,反之則該值越小。
34、每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的y軸坐標(biāo)yn′(t)是根據(jù)以下公式進(jìn)行計(jì)算:
35、yn′(t)=y(tǒng)n(t)/ξy
36、其中ξy為歸一化因子,該歸一化因子的取值范圍是由y軸坐標(biāo)的大小決定,越大,則該值越大,反之則該值越小。
37、每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的z軸坐標(biāo)zn′(t)是根據(jù)以下公式進(jìn)行計(jì)算:
38、zn′(t)=zn(t)/ξz
39、其中ξz為歸一化因子。
40、無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cu′(t-1)包括歸一化后的x軸坐標(biāo)xu′(t-1)、歸一化后的y軸坐標(biāo)yu′(t-1)、以及歸一化后的z軸坐標(biāo)zu′(t-1)。
41、無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的x軸坐標(biāo)xu′(t-1)是根據(jù)以下公式進(jìn)行計(jì)算:
42、xu′(t-1)=xu(t-1)/ξx
43、無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的y軸坐標(biāo)yu′(t-1)是根據(jù)以下公式進(jìn)行計(jì)算:
44、yu′(t-1)=y(tǒng)u(t-1)/ξy
45、無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的z軸坐標(biāo)zu′(t-1)是根據(jù)以下公式進(jìn)行計(jì)算:
46、zu′(t-1)=zu(t-1)/ξz。
47、優(yōu)選地,步驟(6)包括以下子步驟:
48、(6-1)根據(jù)步驟(5)得到的無(wú)人機(jī)在第t個(gè)時(shí)隙的最優(yōu)水平移動(dòng)角度ω(t)、最優(yōu)水平移動(dòng)距離δdu(t)、最優(yōu)垂直移動(dòng)距離δzu(t),獲取無(wú)人機(jī)在第t個(gè)時(shí)隙的坐標(biāo)參數(shù)cu(t)。
49、(6-2)根據(jù)步驟(6-1)得到的搭載服務(wù)器的無(wú)人機(jī)在第t個(gè)時(shí)隙的坐標(biāo)參數(shù)cu(t)以及根據(jù)步驟(5)得到的無(wú)人機(jī)在第t個(gè)時(shí)隙該執(zhí)行的每個(gè)終端用戶的任務(wù)卸載量將每個(gè)終端用戶的在第t個(gè)時(shí)隙的待處理任務(wù)中的一部分進(jìn)行遠(yuǎn)端卸載處理,并獲取第n個(gè)終端用戶在第t個(gè)時(shí)隙的任務(wù)上行時(shí)延任務(wù)上行能耗以及搭載服務(wù)器的無(wú)人機(jī)的遠(yuǎn)端處理時(shí)延遠(yuǎn)端處理能耗
50、(6-3)根據(jù)步驟(5)得到的無(wú)人機(jī)在第t個(gè)時(shí)隙該執(zhí)行的每個(gè)終端用戶的任務(wù)卸載量將每個(gè)終端用戶的在第t個(gè)時(shí)隙的待處理任務(wù)中的剩余部分進(jìn)行本地計(jì)算處理,并獲取第n個(gè)終端用戶在第t個(gè)時(shí)隙的本地處理時(shí)延和本地處理能耗
51、優(yōu)選地,搭載服務(wù)器的無(wú)人機(jī)在第t個(gè)時(shí)隙的x軸坐標(biāo)xu(t)是根據(jù)以下公式進(jìn)行計(jì)算:
52、xu(t)=xu(t-1)+δdu(t)cos(ω(t))
53、搭載服務(wù)器的無(wú)人機(jī)在第t個(gè)時(shí)隙的y軸坐標(biāo)yu(t)是根據(jù)以下公式進(jìn)行計(jì)算:
54、yu(t)=y(tǒng)u(t-1)+δdu(t)sin(ω(t))
55、搭載服務(wù)器的無(wú)人機(jī)在第t個(gè)時(shí)隙的z軸坐標(biāo)zu(t)是根據(jù)以下公式進(jìn)行計(jì)算:
56、zu(t)=zu(t-1)+δzu(t)
57、第n個(gè)終端用戶在第t個(gè)時(shí)隙的任務(wù)上行時(shí)延是根據(jù)以下公式進(jìn)行計(jì)算:
58、
59、其中為第n個(gè)終端用戶在第t個(gè)時(shí)隙將其待處理任務(wù)發(fā)送至搭載服務(wù)器的無(wú)人機(jī)的無(wú)線通信速率,可由香農(nóng)定理表示為其中bu為無(wú)人機(jī)的無(wú)線信道帶寬;pn為第n個(gè)終端用戶的發(fā)射功率;σ2為加性高斯白噪聲功率;pnlos為環(huán)境噪聲功率;為第n個(gè)終端用戶在第t個(gè)時(shí)隙的信道增益,可由自由空間路徑損耗模型表示為其中g(shù)0為參考距離為1m時(shí)的信道增益;為第n個(gè)終端用戶在第t個(gè)時(shí)隙與搭載服務(wù)器的無(wú)人機(jī)的直線距離,可由歐幾里得距離表示為
60、第n個(gè)終端用戶在第t個(gè)時(shí)隙的任務(wù)上行能耗是根據(jù)以下公式進(jìn)行計(jì)算:
61、
62、其中pu為搭載服務(wù)器的無(wú)人機(jī)的接收功率。
63、第n個(gè)終端用戶在第t個(gè)時(shí)隙的任務(wù)在搭載服務(wù)器的無(wú)人機(jī)的遠(yuǎn)端處理時(shí)延是根據(jù)以下公式進(jìn)行計(jì)算:
64、
65、其中為搭載服務(wù)器的無(wú)人機(jī)分配給第n個(gè)終端用戶使用的服務(wù)器cpu芯片的頻率。
66、第n個(gè)終端用戶在第t個(gè)時(shí)隙的任務(wù)在搭載服務(wù)器的無(wú)人機(jī)的遠(yuǎn)端處理能耗是根據(jù)以下公式進(jìn)行計(jì)算:
67、
68、第n個(gè)終端用戶在第t個(gè)時(shí)隙的本地處理時(shí)延是根據(jù)以下公式進(jìn)行計(jì)算:
69、
70、第n個(gè)終端用戶在第t個(gè)時(shí)隙的本地處理能耗是根據(jù)以下公式進(jìn)行計(jì)算:
71、
72、優(yōu)選地,邊緣計(jì)算系統(tǒng)在第t個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(t)是根據(jù)以下公式進(jìn)行計(jì)算:
73、
74、邊緣計(jì)算系統(tǒng)在第t個(gè)時(shí)隙的任務(wù)能量消耗e(t)是根據(jù)以下公式進(jìn)行計(jì)算:
75、
76、優(yōu)選地,步驟(8)包括以下子步驟:
77、(8-1)搭載服務(wù)器的無(wú)人機(jī)根據(jù)步驟(3)得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的全本地處理時(shí)延全本地處理能耗獲取邊緣計(jì)算系統(tǒng)的全本地總處理時(shí)延和全本地總處理能耗
78、具體而言,邊緣計(jì)算系統(tǒng)的全本地總處理時(shí)延是根據(jù)以下公式進(jìn)行計(jì)算:
79、
80、邊緣計(jì)算系統(tǒng)的全本地總處理能耗是根據(jù)以下公式進(jìn)行計(jì)算:
81、
82、(8-2)搭載服務(wù)器的無(wú)人機(jī)根據(jù)步驟(7)得到邊緣計(jì)算系統(tǒng)在每個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(t)和任務(wù)能量消耗e(t),獲取邊緣計(jì)算系統(tǒng)的任務(wù)總響應(yīng)時(shí)延tsystem和任務(wù)總能量消耗esystem。
83、具體而言,邊緣計(jì)算系統(tǒng)的任務(wù)總響應(yīng)時(shí)延tsystem是根據(jù)以下公式進(jìn)行計(jì)算:
84、
85、邊緣計(jì)算系統(tǒng)的任務(wù)總能量消耗esystem是根據(jù)以下公式進(jìn)行計(jì)算:
86、
87、(8-3)根據(jù)步驟(8-1)得到的邊緣計(jì)算系統(tǒng)的全本地總處理時(shí)延和全本地總處理能耗并根據(jù)步驟(8-2)得到的邊緣計(jì)算系統(tǒng)的任務(wù)總響應(yīng)時(shí)延tsystem和任務(wù)總能量消耗esystem,獲取該邊緣計(jì)算系統(tǒng)的系統(tǒng)效用u:
88、
89、優(yōu)選地,深度強(qiáng)化學(xué)習(xí)模型w采用tensorflow架構(gòu)的深度強(qiáng)化學(xué)習(xí)模型,其是按照以下步驟訓(xùn)練得到的:
90、(a1)獲取多份用戶軌跡與任務(wù)文件組成的用戶軌跡與任務(wù)文件數(shù)據(jù)集,并按照100:2500的比例將該用戶軌跡與任務(wù)文件數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集。
91、(a2)使用步驟(a1)中獲取的訓(xùn)練集對(duì)深度強(qiáng)化學(xué)習(xí)模型w進(jìn)行訓(xùn)練,以得到初步訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型。
92、(a3)使用步驟(a1)獲取的測(cè)試集對(duì)步驟(a2)初步訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型w進(jìn)行驗(yàn)證,直到獲取的邊緣計(jì)算系統(tǒng)的優(yōu)化目標(biāo)p1達(dá)到最優(yōu)為止,從而得到最終訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型w;
93、其中步驟(a2)包括以下子步驟:
94、(a2-1)設(shè)置迭代計(jì)數(shù)器i=0;
95、(a2-2)判斷i是否等于預(yù)設(shè)的模型迭代次數(shù)i,如果是則進(jìn)入步驟(a2-15),否則進(jìn)入步驟(a2-3);
96、(a2-3)從步驟(a1)獲取的訓(xùn)練集中隨機(jī)選擇一份用戶軌跡與任務(wù)文件,隨機(jī)初始化搭載服務(wù)器的無(wú)人機(jī)的初始(即時(shí)隙k=0時(shí))坐標(biāo)參數(shù)cu(0),并設(shè)置迭代計(jì)數(shù)器k=1;
97、(a2-4)判斷k是否大于預(yù)設(shè)的模型模擬時(shí)隙數(shù)k,如果是則進(jìn)入步驟(a2-12),否則進(jìn)入步驟(a2-5);
98、(a2-5)獲取搭載服務(wù)器的無(wú)人機(jī)在第k-1個(gè)時(shí)隙的坐標(biāo)參數(shù),并從步驟(a2-3)獲取的用戶軌跡與任務(wù)文件中提取每個(gè)用戶在第k個(gè)時(shí)隙的待處理任務(wù)的參數(shù)和坐標(biāo)參數(shù);
99、(a2-6)根據(jù)步驟(a2-5)獲取的每個(gè)用戶在第k個(gè)時(shí)隙的待處理任務(wù)的參數(shù)和坐標(biāo)參數(shù),獲取每個(gè)用戶在第k個(gè)時(shí)隙的全本地處理時(shí)延和全本地處理能耗
100、(a2-7)對(duì)步驟(a2-5)獲取的搭載服務(wù)器的無(wú)人機(jī)在第k-1個(gè)時(shí)隙的坐標(biāo)參數(shù)、以及每個(gè)用戶在第k個(gè)時(shí)隙的待處理任務(wù)的參數(shù)和坐標(biāo)參數(shù)進(jìn)行歸一化處理,以獲取搭載服務(wù)器的無(wú)人機(jī)在第k-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)、以及每個(gè)用戶在第k個(gè)時(shí)隙的歸一化后的待處理任務(wù)的參數(shù)和歸一化后的坐標(biāo)參數(shù);
101、(a2-8)將步驟(a2-7)獲取的搭載服務(wù)器的無(wú)人機(jī)在第k-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)、以及每個(gè)用戶在第k個(gè)時(shí)隙的歸一化后的待處理任務(wù)的參數(shù)和歸一化后的坐標(biāo)參數(shù)輸入深度強(qiáng)化學(xué)習(xí)模型w,以通過(guò)ε-greedy策略獲取無(wú)人機(jī)在第k個(gè)時(shí)隙的動(dòng)作a(k),其中ε為貪婪值;
102、其中深度強(qiáng)化學(xué)習(xí)模型w采用ε-greedy策略進(jìn)行動(dòng)作選擇,即有ε的概率采取隨機(jī)動(dòng)作,1-ε的概率采取深度強(qiáng)化學(xué)習(xí)模型w的網(wǎng)絡(luò)輸出值與動(dòng)作噪聲之和,其中ε的取值范圍為[0,1],優(yōu)選為0.5,為均值等于0,標(biāo)準(zhǔn)差等于0.05的高斯噪聲。
103、(a2-9)根據(jù)步驟(a2-8)獲取的無(wú)人機(jī)在第k個(gè)時(shí)隙的動(dòng)作a(k),獲取邊緣計(jì)算系統(tǒng)在第k個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(k)和任務(wù)能量消耗e(k),以及無(wú)人機(jī)在第k個(gè)時(shí)隙的坐標(biāo)參數(shù);
104、(a2-10)對(duì)步驟(a2-8)中的貪婪值ε和深度強(qiáng)化學(xué)習(xí)模型w進(jìn)行更新,以分別得到更新后的貪婪值ε和深度強(qiáng)化學(xué)習(xí)模型w;
105、其中貪婪值ε是根據(jù)以下公式進(jìn)行更新:
106、
107、其中深度強(qiáng)化學(xué)習(xí)模型w采用獎(jiǎng)勵(lì)函數(shù)r,且有:
108、r(k)=α1t(k)+α2e(k)
109、其中,α1和α2的取值范圍為[0,1],皆優(yōu)選為0.5;
110、深度強(qiáng)化學(xué)習(xí)模型w采用軟更新方式,且有:
111、θw′←τθw+(1-τ)θw′
112、其中,τ為更新率,其取值范圍為[0,1],優(yōu)選為0.05;θw,θw′分別為深度強(qiáng)化學(xué)習(xí)模型w的更新前與更新后的網(wǎng)絡(luò)參數(shù)。
113、(a2-11)設(shè)置迭代計(jì)數(shù)器k=k+1,并返回步驟(a2-4);
114、(a2-12)根據(jù)步驟(a2-6)獲取的每個(gè)用戶在第k個(gè)時(shí)隙的全本地處理時(shí)延和全本地處理能耗以及步驟(a2-9)獲取的邊緣計(jì)算系統(tǒng)在第k個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(k)和任務(wù)能量消耗e(k),獲取邊緣計(jì)算系統(tǒng)的系統(tǒng)效用u;
115、(a2-13)根據(jù)步驟(a2-12)獲取的邊緣計(jì)算系統(tǒng)的系統(tǒng)效用u,獲取該邊緣計(jì)算系統(tǒng)的優(yōu)化目標(biāo)p1:
116、(p1:)maxu
117、s.t.c1:δdu(k)≤δdmax
118、c2:|δzu(k)|≤δzmax
119、其中約束c1表示表示無(wú)人機(jī)水平移動(dòng)距離不能超過(guò)水平移動(dòng)距離最大值δdmax;約束c2表示無(wú)人機(jī)垂直移動(dòng)距離不能超過(guò)垂直移動(dòng)距離最大值δzmax;
120、(a2-14)設(shè)置迭代計(jì)數(shù)器i=i+1,并返回步驟(a2-2);
121、(a2-15)模型迭代結(jié)束,得到初步訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型。
122、按照本發(fā)明的另一方面,提供了一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載系統(tǒng),包括:
123、第一模塊,用于設(shè)置時(shí)隙序號(hào)t=1;
124、第二模塊,用于判斷t是否大于邊緣計(jì)算系統(tǒng)中時(shí)隙的總數(shù)t,如果是則進(jìn)入第八模塊,否則進(jìn)入第三模塊;
125、第三模塊,其設(shè)置于搭載服務(wù)器的無(wú)人機(jī),用于從邊緣計(jì)算系統(tǒng)中的第n個(gè)終端用戶獲取該第n個(gè)終端用戶在第t個(gè)時(shí)隙的待處理任務(wù)的參數(shù)wn(t)和坐標(biāo)參數(shù)cn(t),從自身獲取無(wú)人機(jī)在第t-1個(gè)時(shí)隙的坐標(biāo)參數(shù)cu(t-1),并根據(jù)待處理任務(wù)的參數(shù)wn(t)和坐標(biāo)參數(shù)cn(t)獲取第n個(gè)終端用戶在第t個(gè)時(shí)隙的全本地處理時(shí)延全本地處理能耗其中n表示存在待處理任務(wù)的終端用戶在邊緣計(jì)算系統(tǒng)中的序號(hào),且有n∈[1,邊緣計(jì)算系統(tǒng)中存在待處理任務(wù)的終端用戶的總數(shù)n]。
126、第四模塊,其設(shè)置于搭載服務(wù)器的無(wú)人機(jī),用于根據(jù)第三模塊得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的待處理任務(wù)的參數(shù)wn(t)和坐標(biāo)參數(shù)cn(t)、以及無(wú)人機(jī)在第t-1個(gè)時(shí)隙的坐標(biāo)參數(shù)cu(t-1),獲取每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的待處理任務(wù)的參數(shù)wn′(t)和歸一化后的坐標(biāo)參數(shù)cn′(t),以及無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cu′(t-1)。
127、第五模塊,其設(shè)置于搭載服務(wù)器的無(wú)人機(jī),用于將第四模塊得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的歸一化后的待處理任務(wù)的參數(shù)wn′(t)和歸一化后的坐標(biāo)參數(shù)cn′(t)、以及無(wú)人機(jī)在第t-1個(gè)時(shí)隙的歸一化后的坐標(biāo)參數(shù)cu′(t-1)輸入預(yù)先訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型w,以得到無(wú)人機(jī)在第t個(gè)時(shí)隙的最優(yōu)水平移動(dòng)角度ω(t)、最優(yōu)水平移動(dòng)距離δdu(t)、最優(yōu)垂直移動(dòng)距離δzu(t)以及每個(gè)終端用戶的最優(yōu)任務(wù)卸載量
128、第六模塊,其設(shè)置于搭載服務(wù)器的無(wú)人機(jī),用于根據(jù)第五模塊得到的無(wú)人機(jī)在第t個(gè)時(shí)隙的最優(yōu)水平移動(dòng)角度ω(t)、最優(yōu)水平移動(dòng)距離δdu(t)、最優(yōu)垂直移動(dòng)距離δzu(t)以及每個(gè)終端用戶的最優(yōu)任務(wù)卸載量獲取第n個(gè)終端用戶在第t個(gè)時(shí)隙的本地處理時(shí)延任務(wù)上行時(shí)延本地處理能耗以及任務(wù)上行能耗以及搭載服務(wù)器的無(wú)人機(jī)的遠(yuǎn)端處理時(shí)延和遠(yuǎn)端處理能耗
129、第七模塊,其設(shè)置于搭載服務(wù)器的無(wú)人機(jī),用于根據(jù)第六模塊得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的本地處理時(shí)延任務(wù)上行時(shí)延本地處理能耗任務(wù)上行能耗以及搭載服務(wù)器的無(wú)人機(jī)的遠(yuǎn)端處理時(shí)延遠(yuǎn)端處理能耗獲取邊緣計(jì)算系統(tǒng)在第t個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(t)和任務(wù)能量消耗e(t)(截止此時(shí),邊緣計(jì)算系統(tǒng)完成第t個(gè)時(shí)隙的卸載過(guò)程),設(shè)置t=t+1,并返回第二模塊;
130、第八模塊,其設(shè)置于搭載服務(wù)器的無(wú)人機(jī),用于根據(jù)第三模塊得到的每個(gè)終端用戶在第t個(gè)時(shí)隙的全本地處理時(shí)延全本地處理能耗以及第七模塊得到的邊緣計(jì)算系統(tǒng)在每個(gè)時(shí)隙的任務(wù)響應(yīng)時(shí)延t(t)和任務(wù)能量消耗e(t),獲取邊緣計(jì)算系統(tǒng)的系統(tǒng)效用u。
131、第九模塊,其設(shè)置于搭載服務(wù)器的無(wú)人機(jī),用于將第八模塊得到的邊緣計(jì)算系統(tǒng)的系統(tǒng)效用u作為服務(wù)結(jié)果反饋至每個(gè)終端用戶,過(guò)程結(jié)束。
132、總體而言,通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:
133、(1)由于本發(fā)明采用了步驟(2)到步驟(7),其充分考慮了實(shí)際場(chǎng)景中用戶設(shè)備的物理位置與任務(wù)情況,且根據(jù)實(shí)時(shí)情況更新?tīng)顟B(tài),同時(shí)其將不同維度、不同范圍以及不同量綱的輸入?yún)?shù)進(jìn)行統(tǒng)一,簡(jiǎn)化了動(dòng)態(tài)環(huán)境下?tīng)顟B(tài)空間的復(fù)雜程度,增強(qiáng)了各個(gè)輸入?yún)?shù)之間的關(guān)聯(lián)性,提升了深度強(qiáng)化學(xué)習(xí)模型對(duì)復(fù)雜動(dòng)態(tài)環(huán)境的狀態(tài)分析和特征提取能力,解決現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法忽略實(shí)際中用戶設(shè)備進(jìn)行隨機(jī)移動(dòng)的可能性,導(dǎo)致邊緣計(jì)算系統(tǒng)無(wú)法根據(jù)實(shí)時(shí)變化的系統(tǒng)環(huán)境進(jìn)行在線卸載決策,進(jìn)而整體工作效率低下的問(wèn)題;
134、(2)由于本發(fā)明采用了步驟(1)和步驟(6),其充分考慮了無(wú)人機(jī)具備三維移動(dòng)能力,同時(shí)會(huì)在隨機(jī)位置進(jìn)行部署的實(shí)際情況,解決現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法忽略無(wú)人機(jī)靈活部署能力與垂直方向的移動(dòng)能力,導(dǎo)致脫離實(shí)際,無(wú)法針對(duì)隨機(jī)起始點(diǎn)做出最優(yōu)路徑規(guī)劃的問(wèn)題;
135、(3)由于本發(fā)明采用了步驟(5)到步驟(7),其通過(guò)深度強(qiáng)化學(xué)習(xí)模型,無(wú)人機(jī)能根據(jù)用戶設(shè)備和自身的方位和資源狀態(tài)快速分析,從而迅速做出無(wú)人機(jī)移動(dòng)路徑和的對(duì)每位用戶的針對(duì)性卸載決策,因此能夠解決現(xiàn)有無(wú)人機(jī)輔助邊緣計(jì)算任務(wù)卸載方法采用二進(jìn)制卸載,導(dǎo)致用戶設(shè)備本地計(jì)算資源和無(wú)人機(jī)遠(yuǎn)端計(jì)算資源的浪費(fèi)的技術(shù)問(wèn)題;
136、(4)由于本發(fā)明采用了步驟(1)到步驟(9),其將動(dòng)態(tài)環(huán)境下用戶設(shè)備和無(wú)人機(jī)的連續(xù)時(shí)隙交互過(guò)程進(jìn)行建模,從而無(wú)人機(jī)能夠?qū)τ脩粼O(shè)備進(jìn)行持續(xù)性最優(yōu)卸載,同時(shí)得到邊緣計(jì)算系統(tǒng)在整段卸載過(guò)程中的系統(tǒng)效用,因此能夠解決現(xiàn)有算法難以解決綜合在線決策、部分卸載和路徑優(yōu)化三大要素的高度復(fù)雜非凸優(yōu)化問(wèn)題,導(dǎo)致邊緣計(jì)算系統(tǒng)無(wú)法完成持續(xù)性最優(yōu)卸載過(guò)程的技術(shù)問(wèn)題;
137、(5)本發(fā)明的實(shí)現(xiàn)過(guò)程簡(jiǎn)單,運(yùn)算效率高。