欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于圖神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的V2X資源分配方法與流程

文檔序號(hào):40622099發(fā)布日期:2025-01-10 18:27閱讀:4來源:國知局
基于圖神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的V2X資源分配方法與流程

本發(fā)明屬于車聯(lián)網(wǎng)c-v2x技術(shù)中的資源分配領(lǐng)域,具體涉及一種基于圖神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的v2x資源分配方法。


背景技術(shù):

1、c-v2x技術(shù)被認(rèn)為能提供比ieee802.11p技術(shù)更高的速率、更低的延遲和更高的可靠性。近期,第三代合作伙伴計(jì)劃(3gpp)在其第16版標(biāo)準(zhǔn)中,對(duì)nr-v2x技術(shù)進(jìn)行了標(biāo)準(zhǔn)化[4-5](原7-8)。在實(shí)際部署中,為了支持v2x通信帶來的大量無線通信需求,資源分配問題成為車聯(lián)網(wǎng)技術(shù)中至關(guān)重要的一環(huán)。然而,資源分配問題通常是np-hard的。在車聯(lián)網(wǎng)環(huán)境中需要同時(shí)滿足車對(duì)車(v2v)鏈路對(duì)可靠性的要求與車對(duì)基礎(chǔ)設(shè)施(v2i)鏈路的速率要求,很難求得最優(yōu)解。并且,傳統(tǒng)的資源分配方法大多需要基于準(zhǔn)確的信道狀態(tài)信息(csi),這在車輛高速移動(dòng)的車聯(lián)網(wǎng)環(huán)境中是十分奢侈的。隨著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的發(fā)展,一些研究員們開始利用深度強(qiáng)化學(xué)習(xí)強(qiáng)大的函數(shù)逼近特性來解決資源分配問題。在不準(zhǔn)確的csi條件下,深度強(qiáng)化學(xué)習(xí)可以通過不斷試錯(cuò)的方式積累經(jīng)驗(yàn),學(xué)習(xí)到一種普適的策略,可以在分布式的資源分配場(chǎng)景中獲得較好的性能。

2、在分布式的場(chǎng)景下,車輛的局部觀測(cè)通常受到各種噪聲影響,難以表征信道條件,不足以支撐車輛做出好的決策方案,在車輛自主選擇資源時(shí)容易造成資源碰撞與沖突,影響通信成功率,強(qiáng)化學(xué)習(xí)中的智能體只根據(jù)自己的局部觀測(cè)做出決策,缺乏足夠的信息,車輛間無法達(dá)成有效的合作。這嚴(yán)重影響了全局資源調(diào)度的質(zhì)量,甚至很容易發(fā)生資源碰撞和擁塞等問題,通信鏈路之間的相互干擾也很難控制。此外,在車輛高速移動(dòng)的環(huán)境下,基于車輛局部觀測(cè)的csi包含了大量噪聲,難以準(zhǔn)確描述車輛所處的信道環(huán)境,這也在一定程度上影響著drl的效果。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在克服現(xiàn)有技術(shù)的局限性,提出一種在nr-v2x標(biāo)準(zhǔn)的模式2下使用gnn-ddqn算法進(jìn)行分布式資源分配的方案。該方案通過引入圖神經(jīng)網(wǎng)絡(luò)(gnn)和強(qiáng)化學(xué)習(xí)(rl)相結(jié)合,使用gnn從車輛的局部觀測(cè)中提取包含全局結(jié)構(gòu)信息的低維特征,幫助智能體獲取更加豐富的局部信息,隨后使用雙深度q網(wǎng)絡(luò)(ddqn)模型做出決策,實(shí)現(xiàn)更高效的資源分配策略。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:

3、基于圖神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的v2x資源分配方法,具體包括:

4、步驟一:系統(tǒng)模型設(shè)置;所述系統(tǒng)模型設(shè)置包括信道模型設(shè)置和性能指標(biāo)設(shè)置;

5、步驟二:將車輛網(wǎng)絡(luò)構(gòu)建成圖,確定每個(gè)節(jié)點(diǎn)的鄰居以及圖中每個(gè)節(jié)點(diǎn)包含的節(jié)點(diǎn)特征;

6、步驟三:通過訓(xùn)練gnn-ddqn網(wǎng)絡(luò),得到最優(yōu)的信道和功率分配方案,最大化v2i鏈路的傳輸速率和v2v鏈路的通信成功率;

7、步驟四:進(jìn)行數(shù)值和仿真評(píng)估。

8、進(jìn)一步地,所述步驟一中,系統(tǒng)模型設(shè)置具體步驟為:

9、(1)信道模型設(shè)置:構(gòu)建一個(gè)模擬十字路口的交通模型,基站位于十字路口的中心,車輛按照隨機(jī)分布的方式添加到道路中并按照給定的初始速度勻速行駛;假設(shè)環(huán)境中包含m個(gè)蜂窩用戶(cues),使用v2i鏈路與基站進(jìn)行通信,傳輸日常所需的高速率要求的娛樂生活信息,表示為m={1,2,3,…,m};有k對(duì)v2v用戶(vues),使用v2v鏈路進(jìn)行通信,傳輸車輛行駛過程中必要的安全信息,表示為k={1,2,3,…,k};由于上行資源使用并不那么密集,假設(shè)v2v鏈路與v2i鏈路共享正交分配的上行頻譜以提高頻譜的利用率,車輛的資源選擇被分為信道選擇和功率選擇,每個(gè)車輛選擇一個(gè)信道,并在對(duì)應(yīng)的信道中選擇一個(gè)功率級(jí)別,假設(shè)子信道的數(shù)量等于v2i鏈路的數(shù)量m,功率列表中的功率數(shù)量為n,每個(gè)車輛同時(shí)只能選擇一個(gè)信道和一個(gè)發(fā)射功率級(jí)別,因此,對(duì)于每個(gè)鏈路共有m*n種資源選擇方案;

10、將v2i鏈路與v2v鏈路分開管理,考慮在事先給定v2i鏈路的資源選擇的情況下,每條v2v鏈路自主選擇資源,學(xué)習(xí)目標(biāo)是在滿足v2v鏈路的時(shí)延要求和可靠性的前提下盡可能減小對(duì)v2i鏈路產(chǎn)生的干擾,從而最大化v2i鏈路的傳輸速率;為了方便描述,將v2v鏈路對(duì)可靠性的要求轉(zhuǎn)化為中斷概率;

11、考慮環(huán)境中共有s輛車,每輛車與周圍的3輛車進(jìn)行設(shè)備到設(shè)備(d2d)通信,因此vues數(shù)k等于3s;每輛車均搭載了天線,并加載了q網(wǎng)絡(luò)模型與graphsage模型;由于v2v鏈路與v2i鏈路共享正交分配的上行頻譜,第i個(gè)cue的信噪比(sinr)表示為:

12、

13、其中,代表第i個(gè)cue的發(fā)射功率,而指的是第j個(gè)vue的發(fā)射功率。σ2表示的是噪聲功率;對(duì)于第i個(gè)cue,信道的功率增益由hi表示,而對(duì)于第j個(gè)vue,干擾的功率增益用來表示;此外,ρj[i]用作頻率分配的指標(biāo),如果第j個(gè)vue使用了第i個(gè)cue的頻譜資源,那么ρj[i]就被賦值為1,否則就為0;根據(jù)香農(nóng)公式,第i個(gè)cue的通信容量表示為:

14、cc[i]=b·log(1+γc[i])?(28)

15、其中,b表示帶寬;同理,第j個(gè)vue的sinr可以表示為:

16、

17、其中:

18、

19、表示共享同一個(gè)資源塊(resource?block,rb)的v2i鏈路的干擾功率;

20、

21、表示同一rb中所有v2v鏈路的總干擾功率,gj表示第j個(gè)vue的功率增益,表示第i個(gè)cue的干擾功率增益,表示第j'個(gè)vue的干擾功率增益,第j個(gè)vue的容量表示如下:

22、cv[j]=b·log(1+γv[j])?(32);

23、(2)性能指標(biāo)設(shè)置:使用v2v通信的中斷概率與v2i通信的傳輸速率作為性能指標(biāo);考慮到v2v鏈路的時(shí)延要求,相應(yīng)的約束表示為:

24、

25、其中表示鏈路j的v2v傳輸速率,dj表示鏈路j的負(fù)載,即所需傳輸?shù)臄?shù)據(jù)量,tmax表示最大傳輸延遲;

26、對(duì)v2v鏈路的可靠性要求,將其轉(zhuǎn)換為中斷概率;設(shè)定中斷閾值γ0與中斷概率p0,則v2v鏈路j∈k的可靠性要求表示為:

27、

28、其中,表示v2v對(duì)j的sinr,隨著瑞利衰落,可靠性約束(8)變?yōu)椋?/p>

29、

30、其中γeff是有效中斷概率;假設(shè)所有v2v鏈路上的可容忍中斷概率和最大可容忍延遲是一樣的;

31、此外,由于每個(gè)v2v鏈路只可以被分配一個(gè)資源塊和一個(gè)功率級(jí)別,使用aj∈[0,1],j∈k來表示第j個(gè)v2v鏈路是否被分配資源塊,如果aj=1,則表示第j個(gè)v2v鏈路已被分配資源塊;同理,bj∈[0,1],j∈k被用來標(biāo)記第j個(gè)v2v鏈路的功率選擇;據(jù)此,將優(yōu)化問題表述如下:

32、

33、其中,λ表示代表v2v鏈路重要性的權(quán)重占比,c1-c2表示對(duì)v2v鏈路的可靠性要求和時(shí)延要求,c3-c4表示v2v鏈路的資源塊選擇標(biāo)記和功率選擇標(biāo)記,c5表示對(duì)最大功率的約束,避免使用過大的發(fā)射功率,對(duì)v2i鏈路造成較大干擾。由于最大化目標(biāo)中包含了v2i鏈路的速率,而影響v2i速率的主要因素就是v2v鏈路的信號(hào)造成的干擾,主要由v2v鏈路信號(hào)的發(fā)射功率決定,因此這種問題表述會(huì)在盡可能保證v2v鏈路可靠性和時(shí)延的情況下減小功率的使用以減小對(duì)v2i鏈路的干擾。

34、進(jìn)一步地,所述步驟二的具體方式為:將v2v鏈路看作圖中的節(jié)點(diǎn),鏈路間的干擾視為邊,鏈路的物理特征作為節(jié)點(diǎn)特征,從而構(gòu)建一個(gè)完整的圖。

35、進(jìn)一步地,所述構(gòu)建成圖的具體操作步驟為:

36、將每個(gè)v2v對(duì)視為一個(gè)節(jié)點(diǎn),記作ng=[v1,v2,v3,…,vk],鏈路間的干擾關(guān)系視作邊;對(duì)于節(jié)點(diǎn)v,它包含一個(gè)初始特征xv和一個(gè)存儲(chǔ)鄰居節(jié)點(diǎn)索引的列表n(v);節(jié)點(diǎn)的初始特征即為車輛局部觀測(cè)到的信道和干擾的信息,根據(jù)本發(fā)明之前的假設(shè),子信道的數(shù)量等于cues的數(shù)量m,對(duì)于第i個(gè)子信道,記錄它對(duì)v2v鏈路的瞬時(shí)信道功率增益,表示為gt[i],i∈m、v2i鏈路中發(fā)射機(jī)到接收機(jī)的子信道功率增益,記為ht[i],i∈m以及前一時(shí)隙的干擾信號(hào)強(qiáng)度it-1[i],i∈m;因此,節(jié)點(diǎn)v的特征表示為

37、xv={gt?pht?pit-1}???????(37)

38、其中||表示向量的拼接;

39、為了實(shí)現(xiàn)分布式部署,節(jié)省計(jì)算資源,本發(fā)明根據(jù)車輛間的通信關(guān)系來構(gòu)建圖;每個(gè)節(jié)點(diǎn)的鄰居根據(jù)車輛的通信關(guān)系來確定,鄰居數(shù)目在10-14個(gè),且不會(huì)隨著環(huán)境中車輛數(shù)目變化而變化。

40、進(jìn)一步地,所述步驟三的具體算法為:設(shè)計(jì)一個(gè)包含狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)的gnn-ddqn框架,通過訓(xùn)練迭代得到最優(yōu)策略;

41、(1)狀態(tài)空間:狀態(tài)空間包含兩部分,一部分是gnn提取到的聚合特征,另一部分是車輛的局部觀測(cè);假設(shè)鄰居的采樣數(shù)目為s,對(duì)于節(jié)點(diǎn)v,采樣得到的鄰居集合為ns(v),聚合得到的節(jié)點(diǎn)特征為zv,則特征聚合過程表示如下:

42、zv=faggregate({xu|u∈n(v)})?(38)

43、其中,faggregate表示模型的聚合函數(shù),本發(fā)明采用平均聚合函數(shù),與一般的平均聚合不同的是,本發(fā)明考慮了邊的權(quán)重來反應(yīng)各個(gè)鄰居節(jié)點(diǎn)特征的重要性,因此表示為:

44、

45、對(duì)于特征更新過程,本發(fā)明使用鄰居特征的聚合結(jié)果與節(jié)點(diǎn)本身的初始特征合并以獲取最終的節(jié)點(diǎn)特征嵌入;

46、hv=fupdate(zv,xv)??????(40)

47、選用求和的方式將鄰居特征的聚合結(jié)果與節(jié)點(diǎn)初始特征結(jié)合起來,并通過訓(xùn)練得到的一組參數(shù)對(duì)其進(jìn)行特征提取,hv表示最終得到的節(jié)點(diǎn)嵌入,因此,fupdate表示如下:

48、fupdate(zv,xv)=σ(w(zv+xv)+b)????(41)

49、其中w表示訓(xùn)練權(quán)重參數(shù),b表示偏置向量,σ表示激活函數(shù);

50、因此,完整的一輪聚合過程表示為:

51、hv=fupdate(xv,faggregate({xu|u∈ns(v)}))?(42)

52、同理,對(duì)于兩層的聚合過程表示為:

53、hv=fupdate(xv,faggregate({fupdate(xu,faggregate({xn|n∈ns(u)}))|u∈ns(v)}))(43)

54、獲取到每個(gè)節(jié)點(diǎn)的低維特征后,定義強(qiáng)化學(xué)習(xí)中智能體的狀態(tài);對(duì)于本發(fā)明所考慮的v2x環(huán)境,真實(shí)的狀態(tài)信息主要由車輛對(duì)環(huán)境的局部觀測(cè)以及graphsage模型從csi中提取到的低維特征組成,對(duì)于車輛的局部觀測(cè),分為兩個(gè)部分,第一部分是信道和干擾的信息,包括每個(gè)子信道的v2v鏈路的瞬時(shí)信道功率增益gt,用來表示v2i鏈路信道信息的發(fā)射機(jī)到接收機(jī)的子信道功率增益ht,以及前一時(shí)隙的干擾信號(hào)強(qiáng)度it―1;第二部分是來自周圍車輛的共享信息,包括鄰居車輛在前一時(shí)隙中對(duì)每個(gè)信道選擇的次數(shù)nt―1,以及車輛剩余未發(fā)送比特?cái)?shù)與總需要發(fā)送的比特?cái)?shù)之間的比值lt和在時(shí)延約束要求下剩余的發(fā)送時(shí)間ut。graphsage模型提取到的低維特征則使用表示;因此,智能體局部觀測(cè)到的狀態(tài)表示如下:

55、

56、(2)動(dòng)作空間:根據(jù)局部觀測(cè)到的狀態(tài),ddqn網(wǎng)絡(luò)依據(jù)策略π選取動(dòng)作at∈a;由于智能體需要同時(shí)選擇子信道和功率,將兩種動(dòng)作組合成一種復(fù)合動(dòng)作,將智能體選擇的復(fù)合動(dòng)作映射到兩個(gè)維度上,分別作為子信道和功率級(jí)別的選擇;本發(fā)明考慮了較為簡單的三種功率級(jí)別,資源塊數(shù)量為m,因此共有3*m種動(dòng)作;假設(shè)智能體選擇的動(dòng)作為at,通過以下方式對(duì)其進(jìn)行分解:

57、

58、其中,%表示取模運(yùn)算,/表示除法且向下取整,表示分解出的子信道選擇動(dòng)作,則表示功率級(jí)別的選擇;

59、(3)獎(jiǎng)勵(lì)函數(shù):強(qiáng)化學(xué)習(xí)的目標(biāo)是使環(huán)境中v2v鏈路能最大限度滿足v2v通信的低延遲和高可靠性要求,在此基礎(chǔ)上最小化對(duì)v2i鏈路的干擾以最大化v2i鏈路的傳輸速率;此前本發(fā)明將v2v鏈路對(duì)延遲和可靠性的要求轉(zhuǎn)化為中斷概率的要求,因此,對(duì)于獎(jiǎng)勵(lì)的設(shè)計(jì)本發(fā)明只需要考慮v2v鏈路的中斷概率與v2i鏈路的傳輸速率;此外,本發(fā)明根據(jù)鏈路已經(jīng)傳輸?shù)臅r(shí)間設(shè)置了一個(gè)懲罰項(xiàng),獎(jiǎng)勵(lì)函數(shù)表示如下:

60、

61、其中λc表示v2i鏈路的權(quán)重,λp表示已用傳輸時(shí)間的權(quán)重,ut表示剩余時(shí)間,t0表示傳輸延遲限制,因此(t0-ut)表示已經(jīng)傳輸?shù)臅r(shí)間;

62、(4)gnn-ddqn的訓(xùn)練階段:gnn與ddqn網(wǎng)絡(luò)分開更新,對(duì)于gnn網(wǎng)絡(luò),本發(fā)明將智能體選擇每個(gè)子信道所獲得的獎(jiǎng)勵(lì)信息存放在一個(gè)與子信道數(shù)量相應(yīng)的矩陣中,記作rg={r1,r2,r3,…,rm},并將這個(gè)矩陣作為相應(yīng)節(jié)點(diǎn)的標(biāo)簽,通過以下方式對(duì)標(biāo)簽進(jìn)行軟化處理:

63、

64、其中,表示網(wǎng)絡(luò)聚合結(jié)果的權(quán)值,表示節(jié)點(diǎn)v的標(biāo)簽,表示滯后網(wǎng)絡(luò)的聚合結(jié)果;

65、使用均方誤差函數(shù)更新圖網(wǎng)絡(luò):

66、

67、其中,θ表示graphsage模型中的權(quán)重參數(shù),yv表示用于網(wǎng)絡(luò)更新的平滑標(biāo)簽;

68、對(duì)于ddqn網(wǎng)絡(luò),本質(zhì)上需要學(xué)習(xí)的是一個(gè)能夠最大化長期折現(xiàn)獎(jiǎng)勵(lì)的最優(yōu)策略π*和一個(gè)能夠根據(jù)狀態(tài)預(yù)測(cè)相應(yīng)動(dòng)作的q值的深度網(wǎng)絡(luò)模型;對(duì)于給定的狀態(tài)-動(dòng)作對(duì)(st,at),其對(duì)應(yīng)的q值q(st,at)是根據(jù)策略π定義的在采取動(dòng)作at∈a之后獲得的期望累積折扣獎(jiǎng)勵(lì),因此,q值可以被用來衡量給定狀態(tài)下某個(gè)動(dòng)作的質(zhì)量;一旦本發(fā)明能夠獲取較為準(zhǔn)確的q值,就可以根據(jù)下式選擇動(dòng)作:

69、at=argmaxa∈aq(st,a)??????(50)

70、這意味著本發(fā)明選取的是q值最大的動(dòng)作;

71、在ddqn網(wǎng)絡(luò)中,最優(yōu)策略對(duì)應(yīng)的q值q*根據(jù)以下更新方程獲得:

72、

73、其中,是學(xué)習(xí)率,等式右邊的第二項(xiàng)是更新q值的td誤差,β折現(xiàn)因子,qold表示q網(wǎng)絡(luò)預(yù)測(cè)的q值,表示目標(biāo)q網(wǎng)絡(luò)預(yù)測(cè)的q值;

74、假設(shè)q網(wǎng)絡(luò)的權(quán)重參數(shù)用表示,當(dāng)輸入為智能體觀測(cè)到的狀態(tài)時(shí),輸出將是每個(gè)動(dòng)作對(duì)應(yīng)的q值;本發(fā)明使用td誤差來優(yōu)化q網(wǎng)絡(luò)的參數(shù)表示如下:

75、

76、直到兩個(gè)網(wǎng)絡(luò)都收斂。

77、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
长沙市| 保定市| 樟树市| 定西市| 泾阳县| 陆川县| 焦作市| 双桥区| 同江市| 筠连县| 舟曲县| 丘北县| 深泽县| 竹北市| 英吉沙县| 榕江县| 长丰县| 阿鲁科尔沁旗| 昆山市| 保定市| 乌兰察布市| 临沭县| 阳谷县| 嘉善县| 哈尔滨市| 辽阳县| 阆中市| 永昌县| 承德县| 高雄市| 府谷县| 原阳县| 宁海县| 中西区| 枝江市| 贵州省| 太白县| 苍溪县| 武城县| 沭阳县| 麻阳|