本發(fā)明屬于物聯(lián)網(wǎng)技術(shù)領(lǐng)域,涉及車載通信中的基于多智能體q學(xué)習(xí)的mac層信道接入的實現(xiàn)方法。
背景技術(shù):
自第二次工業(yè)革命發(fā)明了機動車輛之后,隨著汽車領(lǐng)域的快速發(fā)展,汽車已成為人們現(xiàn)代生活中不可或缺的一部分。隨著人們?nèi)粘I罟?jié)奏的加快,公共汽車、私家車等交通工具的使用日益普遍。汽車在為人們?nèi)粘3鲂袔肀憷耐瑫r也引發(fā)了許多問題,例如交通擁堵、環(huán)境污染、交通事故等。其中交通堵塞已成為嚴重的社會問題,為道路使用者帶來很多難題,每年由于交通堵塞造成大量燃料浪費和時間浪費。不僅使人們?nèi)粘3鲂袑⒋罅繒r間浪費在車路上,燃料浪費及尾氣排放等造成的霧霾嚴重危害著人類健康。交通事故也已成為人類生活的最大威脅之一。鑒于此,就需要未來車輛出行更安全、更綠色(例如尾氣排放更少)、完全自動化、讓乘客有更舒適的娛樂體驗等。因此為使交通基礎(chǔ)設(shè)施更加安全和高效,交通系統(tǒng)就必須足夠智能。its(intelligenttransportationsystems,智能交通系統(tǒng))為改善道路交通安全、緩解交通擁堵、減少汽車油耗保護環(huán)境應(yīng)運而生,在學(xué)術(shù)界和工業(yè)領(lǐng)域都受到廣泛關(guān)注。its旨在利用信息和通信技術(shù)提高未來交通系統(tǒng)的質(zhì)量、效率和安全。未來將會部署更先進的its技術(shù)有效管理城市交通,提高高速公路及道路安全。另外,通過its技術(shù)接入寬帶網(wǎng)絡(luò)有望能徹底變革乘客和司機qoe(qualityofexperience,質(zhì)量體驗)的娛樂應(yīng)用。而vanet(vehicularad-hocnetwork,車載自組織網(wǎng)絡(luò))能支持its應(yīng)用,作為its的重要組成部分旨在改善交通安全,提高交通效率,通過緩解交通擁堵減少油耗保護環(huán)境,為乘客提供安全舒適的體驗,因此大多新型應(yīng)用(例如行動資訊娛樂)應(yīng)運而生。vanets應(yīng)用可被分為以下幾類:安全相關(guān)應(yīng)用、交通管理和交通效率應(yīng)用、用戶娛樂服務(wù)及網(wǎng)絡(luò)連通性應(yīng)用等。這些vanets應(yīng)用對vanet網(wǎng)絡(luò)的需求各不相同。安全消息要保證快速訪問且傳輸時延要短,消息僅在短時間內(nèi)有效。娛樂服務(wù)數(shù)據(jù)量較大,對同步要求比較嚴格。由于預(yù)期的vanets應(yīng)用各種各樣,因此vanets網(wǎng)絡(luò)就需要支持各種需求。安全應(yīng)用應(yīng)能在相鄰車輛之間無線廣播警告消息以便快速通知司機危險情況。為確保效率,安全應(yīng)用周期性傳輸數(shù)據(jù)時延要越低越好,而mac(mediaaccesscontrol,介質(zhì)訪問控制)協(xié)議在vanet提供有效數(shù)據(jù)傳輸中起至關(guān)重要的作用。mac協(xié)議位于數(shù)據(jù)鏈路層,它不僅要確保信道訪問的公平性,還需提供多信道協(xié)作和差錯控制。因此就必須為vanet設(shè)計高效可靠的mac協(xié)議。
目前已有多種vanetsmac協(xié)議被相繼提出,wave標準采用ieee802.11p實現(xiàn)mac層,以csma/ca為基礎(chǔ)。但是,當多輛車的退避計數(shù)器遞減到零要同時接入信道時,基于csma的協(xié)議就會發(fā)生不可避免的碰撞,尤其是在高密度場景中,還會導(dǎo)致接入時延無限增加和嚴重的丟包。除了csma協(xié)議,大多數(shù)研究人員更傾向于在vanets尤其是安全應(yīng)用中采用基于tdma的訪問機制。tdma協(xié)議為距離最接近的不同車輛分配不同的時隙,因此tdma協(xié)議具有確定的信道接入時延,可擴展性好,傳輸干擾小。但是由于車載環(huán)境的高速移動性和網(wǎng)絡(luò)密度的動態(tài)性,使vanets分布式時隙調(diào)度變得非常困難。除此之外還有一些文獻對傳統(tǒng)的退避算法進行了改進,在傳統(tǒng)二進制指數(shù)退避算法的基礎(chǔ)上對mild和eied算法進行了研究和對比,對這兩種算法進行優(yōu)化后改善了網(wǎng)絡(luò)性能,之后在newmild算法基礎(chǔ)上提出了基于統(tǒng)計次數(shù)的退避算法,即當車輛節(jié)點接入無線信道成功發(fā)送數(shù)據(jù)后,理應(yīng)減小競爭窗口,但該算法設(shè)置了一個閾值用于增加數(shù)據(jù)發(fā)送失敗的車輛節(jié)點接入無線信道的機會。當節(jié)點連續(xù)接入無線信道成功發(fā)送數(shù)據(jù)的次數(shù)大于該閾值時,就將該節(jié)點的競爭窗口值設(shè)為最大值。類似地,當節(jié)點接入無線信道發(fā)送數(shù)據(jù)連續(xù)失敗的次數(shù)大于該閾值時,就將該節(jié)點的競爭窗口值設(shè)為最小值。最后通過仿真證明了該算法有效降低了隱藏節(jié)點對網(wǎng)絡(luò)性能的影響,提高了節(jié)點接入無線信道的公平性。還有文獻提出一種基于鄰居節(jié)點數(shù)估計的最小競爭窗口調(diào)整算法,即adaptivecwmin算法,該算法改變了最小cw(contentionwindow,競爭窗口)的調(diào)整規(guī)則,并根據(jù)網(wǎng)絡(luò)信道的使用情況動態(tài)地調(diào)整cwmin。在ieee802.11廣播退避馬爾科夫模型的基礎(chǔ)上推導(dǎo)了cw值和節(jié)點數(shù)量的關(guān)系,通過估測鄰居節(jié)點的數(shù)量動態(tài)調(diào)整最小cw值,通過仿真證明該算法對提高廣播接收率要優(yōu)于其他方法。此外,節(jié)點成功發(fā)送數(shù)據(jù)后,根據(jù)函數(shù)計算出適應(yīng)車載網(wǎng)絡(luò)狀況的最優(yōu)的cwmin值。利用該文獻中提出的算法在數(shù)據(jù)包重傳之后選擇合理的cw,縮短了競爭節(jié)點等待重傳的時間,使網(wǎng)絡(luò)吞吐量增加。
但是上述現(xiàn)有技術(shù)都是在beb算法的基礎(chǔ)上進行了改進,總的來說,數(shù)據(jù)發(fā)生碰撞要退避時還是倍乘cw值,數(shù)據(jù)成功發(fā)送后cw就恢復(fù)為15,若有多個節(jié)點都同時成功發(fā)送完數(shù)據(jù),cw值都恢復(fù)為15,再次發(fā)送數(shù)據(jù)時又發(fā)生碰撞。網(wǎng)絡(luò)負載情況考慮較少,不適用于不同負載程度的網(wǎng)絡(luò),即對不同密度的交通流不具可擴展性,且信道接入公平性也沒有得到有效改善。
技術(shù)實現(xiàn)要素:
本發(fā)明針對上述現(xiàn)有技術(shù)存在的一些問題,提出一種基于多智能體q學(xué)習(xí)的車載通信mac層信道接入的實現(xiàn)方法,該方法是基于多智能體q學(xué)習(xí)的ieee802.11pmac層數(shù)據(jù)傳輸方法——ql-cwmulti-agent算法,它完全不同于以往傳統(tǒng)的beb算法,而是各個車輛節(jié)點在vanet網(wǎng)絡(luò)環(huán)境中都利用q學(xué)習(xí)算法,不斷地與周圍環(huán)境交互學(xué)習(xí)。車輛節(jié)點在vanets環(huán)境中不斷地反復(fù)試錯,根據(jù)從周圍環(huán)境中獲得的反饋信號(即獎賞值),動態(tài)地調(diào)整競爭窗口(cw),新加入vanet網(wǎng)絡(luò)環(huán)境中的車輛節(jié)點利用遷移學(xué)習(xí)更快地學(xué)習(xí)網(wǎng)絡(luò)環(huán)境。車輛節(jié)點在網(wǎng)絡(luò)環(huán)境中不僅要根據(jù)環(huán)境學(xué)習(xí)自己的狀態(tài)——動作對映射關(guān)系,還要學(xué)習(xí)其他車輛節(jié)點的狀態(tài)——動作對關(guān)系,從而為自己構(gòu)建受其他車輛節(jié)點約束的聯(lián)合狀態(tài)——動作對關(guān)系,最終獲得自己的聯(lián)合策略,根據(jù)聯(lián)合策略選擇能使其他車輛節(jié)點也能獲得最高獎賞值的cw值,使節(jié)點總能以最佳的cw(即從周圍環(huán)境中獲得獎賞值最大時所選的cw值)接入信道,以減少數(shù)據(jù)幀碰撞率和傳輸時延,提高節(jié)點接入信道的公平性。
為此,本發(fā)明采取的技術(shù)方案是一種基于多智能體q學(xué)習(xí)的車載通信mac層信道接入方法,該方法包括如下步驟:
步驟1:在vanets環(huán)境中,每個車輛節(jié)點根據(jù)當前網(wǎng)絡(luò)環(huán)境和其他車輛節(jié)點構(gòu)建自己的聯(lián)合狀態(tài)—動作對映射關(guān)系和聯(lián)合策略;
步驟2:判斷vanet網(wǎng)絡(luò)中是否有新的車輛節(jié)點加入;
步驟3:若有,則新加入的車輛節(jié)點通過遷移學(xué)習(xí)快速獲取動作空間、狀態(tài)空間、和獎賞函數(shù),此后每個車輛節(jié)點更新自己的聯(lián)合狀態(tài)—動作對關(guān)系和聯(lián)合策略;
步驟4:若沒有,則判斷當前車輛節(jié)點是否有數(shù)據(jù)需要發(fā)送;
步驟5:若有數(shù)據(jù)要發(fā)送,則根據(jù)eceq算法確定滿足相關(guān)均衡的動作策略解;
步驟6:從{i,k,r}動作集中選擇能使多智能體系統(tǒng)最終達到相關(guān)均衡的動作;
步驟7:執(zhí)行完動作后確定cw值,以該cw值接入無線信道發(fā)送數(shù)據(jù);
步驟8:當前車輛節(jié)點是否還有消息需要發(fā)送,若無,則結(jié)束;若有,則返回執(zhí)行步驟2。
進一步的,步驟3中,若有新的車輛節(jié)點加入vanet中時,新加入的節(jié)點會通過遷移學(xué)習(xí)快速獲取狀態(tài)空間、動作空間和獎賞函數(shù),并構(gòu)建受其他車輛節(jié)點約束的聯(lián)合狀態(tài)—動作對映射關(guān)系和聯(lián)合策略。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
1、本發(fā)明的車輛節(jié)點利用q學(xué)習(xí)算法與周圍環(huán)境不斷交互,根據(jù)網(wǎng)絡(luò)環(huán)境反饋的獎賞信號,動態(tài)地調(diào)整競爭窗口,使節(jié)點下次發(fā)送數(shù)據(jù)時總能以最佳的cw值接入信道,提高了數(shù)據(jù)成功發(fā)送的概率,減少了退避次數(shù),數(shù)據(jù)包接收率及端到端傳輸時延問題等都得到有效改善。
2、新加入網(wǎng)絡(luò)環(huán)境的車輛節(jié)點通過遷移學(xué)習(xí)快速學(xué)習(xí)狀態(tài)——動作對映射關(guān)系,獲得聯(lián)合策略。采用本發(fā)明提出的ql-cwmulti-agent算法的通信節(jié)點能快速適應(yīng)未知環(huán)境,數(shù)據(jù)包接收率和數(shù)據(jù)包傳輸時延都得到有效改善,更重要的是ql-cwmulti-agent算法能為節(jié)點接入信道提供更高的公平性,適用于各種不同負載程度的網(wǎng)絡(luò)環(huán)境。
3、本發(fā)明減少了數(shù)據(jù)幀碰撞率和傳輸時延,提高了節(jié)點接入信道的公平性,不同車輛節(jié)點在vanet中進行q學(xué)習(xí)根據(jù)學(xué)習(xí)結(jié)果使用不同的cw值接入無線信道,可以看出,如果車輛節(jié)點消息發(fā)送成功不再是直接就把cw值降為15,而是利用q學(xué)習(xí)不斷探索逐漸減小cw值,同時還考慮其他車輛節(jié)點接入無線信道的機會,最終使得車輛節(jié)點在車載自組織網(wǎng)絡(luò)中接入無線信道的公平性得到顯著提高,而且不論是網(wǎng)絡(luò)中有多少車輛節(jié)點,算法都同樣適用,即本文提出的無線信道接入方法能對不同的網(wǎng)絡(luò)負載場景具有擴展性。
附圖說明
圖1所示為車載通信中車輛節(jié)點利用本發(fā)明接入無線信道的流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明創(chuàng)造作進一步的詳細說明。
如圖1所示,本發(fā)明的方法包括如下步驟:
步驟1:在vanets環(huán)境中,每個車輛節(jié)點根據(jù)當前網(wǎng)絡(luò)環(huán)境和其他車輛節(jié)點構(gòu)建自己的聯(lián)合狀態(tài)—動作對映射關(guān)系和聯(lián)合策略;
步驟2:判斷vanet網(wǎng)絡(luò)中是否有新的車輛節(jié)點加入;
步驟3:若有,則新加入的車輛節(jié)點通過遷移學(xué)習(xí)快速獲取動作空間、狀態(tài)空間、和獎賞函數(shù),此后每個車輛節(jié)點更新自己的聯(lián)合狀態(tài)—動作對關(guān)系和聯(lián)合策略;
步驟4:若沒有,則判斷當前車輛節(jié)點是否有數(shù)據(jù)需要發(fā)送;
步驟5:若有數(shù)據(jù)要發(fā)送,則根據(jù)eceq算法確定滿足相關(guān)均衡的動作策略解;
步驟6:從{i,k,r}動作集中選擇能使多智能體系統(tǒng)最終達到相關(guān)均衡的動作;
步驟7:執(zhí)行完動作后確定cw值,以該cw值接入無線信道發(fā)送數(shù)據(jù);
步驟8:當前車輛節(jié)點是否還有消息需要發(fā)送,若無,則結(jié)束;若有,則返回執(zhí)行步驟2。
其中,ql-cwmulti-agent算法包括如下內(nèi)容:
整個車載自組織網(wǎng)絡(luò)中車輛數(shù)量為n,即多智能體q學(xué)習(xí)系統(tǒng)中智能體集合為n={1,2,...,n},用an表示車載自組織網(wǎng)絡(luò)中車輛n在接入信道的退避過程中可執(zhí)行動作的離散集an∈{i,k,r},即包括增加(increase)競爭窗口、保持(keep)競爭窗口大小不變、減小(reduce)競爭窗口,車輛n在某時刻從an中選取執(zhí)行的動作用an表示。那么n輛車在退避過程中選取競爭窗口值的聯(lián)合動作集為a=a1×a2×...×an,車輛某時刻接入無線信道所用的競爭窗口值即環(huán)境狀態(tài)的離散集為s={15,31,63,127,255,511,1023},用rn表示車輛n在接入信道過程中成功發(fā)送數(shù)據(jù)從網(wǎng)絡(luò)環(huán)境中獲得報酬的獎賞函數(shù),由于多智能體系統(tǒng)的獎賞值取決于全部車輛的聯(lián)合動作,則獎賞值用s×a→r表示。車輛n在t時刻采取固定的一步策略
車載自組織網(wǎng)絡(luò)中車輛節(jié)點需要發(fā)送數(shù)據(jù)接入無線信道的退避過程中,任意兩個車輛節(jié)點之間的動作模型、狀態(tài)空間和獎賞函數(shù)都相同,那么當車載自組織網(wǎng)絡(luò)中有新的車輛加入時,由于某一車輛節(jié)點學(xué)習(xí)所得的知識可用于強化其他車輛節(jié)點的學(xué)習(xí),這樣可以改善車輛節(jié)點的學(xué)習(xí)速度和效率,為使新車輛節(jié)點快速學(xué)習(xí)適應(yīng)網(wǎng)絡(luò)環(huán)境,就可以遷移學(xué)習(xí)直接向其他車輛節(jié)點學(xué)習(xí),從而快速學(xué)得自己的狀態(tài)—動作對映射關(guān)系和更新q表的q值迭代方法,最終目標是使新加入車載自組織網(wǎng)絡(luò)的車輛節(jié)點利用最少的從其他車輛節(jié)點學(xué)到的先驗知識快速學(xué)習(xí)適應(yīng)環(huán)境和解決任務(wù)。所以多智能體系統(tǒng)中各智能體之間可以進行知識遷移,新加入的車輛節(jié)點利用遷移學(xué)習(xí)可以更快地學(xué)習(xí)網(wǎng)絡(luò)環(huán)境。遷移學(xué)習(xí)過程如下:
遷移什么:任意兩個車輛節(jié)點在q學(xué)習(xí)過程中的動作空間、狀態(tài)空間及獎賞函數(shù)都相同,所以車載自組織網(wǎng)絡(luò)中的車輛節(jié)點通過q學(xué)習(xí)得到的q表就可以通過遷移學(xué)習(xí)遷移到新加入車載自組織網(wǎng)絡(luò)的車輛節(jié)點,考慮到通信開銷,只遷移q表中前q個最大項(按q值排序)。
如何遷移:使用廣播通信根據(jù)請求對已學(xué)信息進行廣播。
何時遷移:當有新的車輛節(jié)點加入車載自組織網(wǎng)絡(luò)時進行遷移。
具體遷移過程為:當有新的車輛節(jié)點加入車載自組織網(wǎng)絡(luò)時,新車輛節(jié)點會廣播一條遷移請求信息,每個接收到這條消息的車輛節(jié)點啟動定時器,定時器值與車間距離成反比。定時器先到時的車輛先廣播自己q表中最大的q項。新加入的車輛節(jié)點一旦接收到遷移信息,就根據(jù)遷移信息更新自己的q表,從而加快學(xué)習(xí)過程。
由于q學(xué)習(xí)算法很大程度上依賴于動作值函數(shù),即q函數(shù)。單智能體q學(xué)習(xí)過程中,智能體選擇的策略表達式(即狀態(tài)到選擇每個動作概率的映射關(guān)系)為π*(s),q值函數(shù)q(s,a)為智能體在狀態(tài)s下執(zhí)行完動作a后從環(huán)境中獲取的期望獎賞值,之后智能體按照策略
其中s(t+1)表示下一個狀態(tài),即車輛n執(zhí)行完動作an(t)后再次發(fā)送數(shù)據(jù)需要接入無線信道時使用的競爭窗口值。其中t:s×a×s→[0,1]表示狀態(tài)轉(zhuǎn)移概率函數(shù)。則t(s(t),a1(t),a2(t),...,an(t),s(t+1))表示從狀態(tài)s(t)轉(zhuǎn)移到狀態(tài)s(t+1)的轉(zhuǎn)移概率。∑a(t+1)表示各個智能體按照策略πn執(zhí)行完動作an(t+1)后得到獎賞值qn(s(t+1),a1(t+1),...,an(t+1))的權(quán)重和,即車輛n執(zhí)行完i/k/r動作(增加cw/保持cw不變/減少cw)后再次發(fā)送數(shù)據(jù)接入無線信道所使用的cw值(即s(t+1)的值)可從網(wǎng)絡(luò)環(huán)境中獲得的獎賞值的權(quán)重和。γ∈[0,1)為折扣因子,γ越大表示對當前獎賞值的重視程度越高,反之表示對后續(xù)獎賞值的重視程度高。公式1表示車輛n在t時刻有數(shù)據(jù)要發(fā)送并以競爭窗口s(t)接入無線信道時,其他車輛分別選擇執(zhí)行動作a1到an(每個動作分別表示增加cw/保持cw不變/減少cw),之后車輛會繼續(xù)按照此策略在車載自組織網(wǎng)絡(luò)環(huán)境中交互學(xué)習(xí),一旦車輛需要接入無線信道發(fā)送數(shù)據(jù)時能使每輛車都以最優(yōu)的cw值執(zhí)行退避過程后接入無線信道發(fā)送數(shù)據(jù)。
強化學(xué)習(xí)最終目標是各個智能體都能找到最優(yōu)策略,選擇值函數(shù)最大的動作。協(xié)作博弈中,相關(guān)均衡是聯(lián)合動作空間上的概率分布的矩陣。最終實現(xiàn)相關(guān)均衡的q學(xué)習(xí)方法通過基于相關(guān)動作策略的q函數(shù)的線性組合定義狀態(tài)—值函數(shù),定義如下:
其中vnk(sk)表示智能體n在第k次迭代時在sk狀態(tài)下的狀態(tài)—值函數(shù),表示多智能體在此狀態(tài)下的相關(guān)均衡協(xié)作程度;a=[a1,...,an,...,an],an是第n個智能體執(zhí)行的動作,n表示多智能體系統(tǒng)中智能體的個數(shù);a表示多智能體在狀態(tài)sk下的可用聯(lián)合動作集;qn(k-1)(sk,a)表示智能體n在第k-1次迭代過程中在sk狀態(tài)下執(zhí)行聯(lián)合動作a的q值函數(shù)。πn*(sk,a)是聯(lián)合動作集a的概率分布向量,代表智能體n在sk下的最佳相關(guān)均衡動作策略。
多智能體強化學(xué)習(xí)中智能體的聯(lián)合動作策略考慮了其他智能體的決策和q值函數(shù),從而增加了所有智能體的累計獎賞值。對于狀態(tài)sk下從聯(lián)合動作策略中選擇分配給第n個智能體的動作可以通過如下不等式約束來確定相關(guān)均衡動作策略:
a-n=πm≠nam,
a-n=πm≠nam,
a=(a-n,an)公式4
其中an表示第n個智能體的動作集,a-n表示除了智能體n之外其他智能體的聯(lián)合動作集,an∈an表示第n個智能體的動作,a-n∈a-n表示除了智能體n之外其他智能體的聯(lián)合動作。an'表示智能體n動作集中的任意一個動作;πn表示第n個智能體滿足上式相關(guān)均衡的所有動作策略(即動作概率)的可行解。4.4式中為求解最佳相關(guān)均衡點定義了一組線性不等式約束,πn是未知變量,q值函數(shù)是已知變量。
根據(jù)公式4確定了滿足相關(guān)均衡的動作策略解后,根據(jù)eceq(correlatedequilibriumq,相關(guān)均衡q學(xué)習(xí))算法(即最大化所有智能體獎勵的最小值)求得πn的最優(yōu)解,再根據(jù)公式3為各智能體確定總能使系統(tǒng)狀態(tài)—值函數(shù)最大的動作,從而使多智能體系統(tǒng)最終能達到相關(guān)均衡。
本發(fā)明所述vanets環(huán)境中,車輛節(jié)點利用q學(xué)習(xí)算法在周圍環(huán)境中通過反復(fù)試錯與環(huán)境不斷交互學(xué)習(xí),根據(jù)vanets環(huán)境給予的反饋信號,在節(jié)點退避過程中動態(tài)地調(diào)整競爭窗口(即cw),使節(jié)點總能以最佳的cw(即從周圍環(huán)境中獲得的獎賞值最大時所選的cw值)接入信道。
本發(fā)明將多智能體q學(xué)習(xí)算法應(yīng)用到車載通信mac信道接入方法中,推導(dǎo)了多個車輛節(jié)點在q學(xué)習(xí)過程中的聯(lián)合動作集和受限于聯(lián)合策略π的q值迭代表達式。車輛節(jié)點在車載自組織網(wǎng)絡(luò)中利用q學(xué)習(xí)方法接入無線信道的過程中為降低與其他車輛節(jié)點的競爭,選擇執(zhí)行與其他車輛節(jié)點相關(guān)的聯(lián)合動作。同時在多智能體q學(xué)習(xí)系統(tǒng)中引入遷移學(xué)習(xí),加快了新加入車載自組織網(wǎng)絡(luò)的車輛節(jié)點的學(xué)習(xí)速度,大大降低了車輛節(jié)點接入無線信道發(fā)送數(shù)據(jù)的時延。最后為使多智能體系統(tǒng)最終達到相關(guān)均衡,根據(jù)eceq(最大化所有智能體獎勵的最小值,即使車輛節(jié)點接入無線信道成功發(fā)送數(shù)據(jù)的次數(shù)最大化)方法計算動作策略的最優(yōu)解,再根據(jù)最優(yōu)動作策略為車輛節(jié)點分配總能使獎賞值最大化的動作,盡可能使每個車輛節(jié)點每次都能以最優(yōu)的cw值接入無線信道成功發(fā)送數(shù)據(jù),使得各個車輛節(jié)點接入無線信道的公平性得到顯著提高。