欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于q學(xué)習(xí)的車(chē)載網(wǎng)mac協(xié)議的實(shí)現(xiàn)方法_2

文檔序號(hào):9551019閱讀:來(lái)源:國(guó)知局
數(shù)據(jù)幀后, 環(huán)境給予節(jié)點(diǎn)一個(gè)正的獎(jiǎng)賞,若發(fā)送失敗,則給予負(fù)的獎(jiǎng)賞,在網(wǎng)絡(luò)負(fù)載較低時(shí),使節(jié)點(diǎn)利 用學(xué)習(xí)所得的最佳CW選擇以較小的CW接入信道避免時(shí)延增加,網(wǎng)絡(luò)負(fù)載較高時(shí),則利用較 大的CW接入信道減少碰撞。本發(fā)明所提出的QL-MAC算法可動(dòng)態(tài)地調(diào)整競(jìng)爭(zhēng)窗口,能以較 低的時(shí)延發(fā)送數(shù)據(jù),提高了數(shù)據(jù)包接受率和競(jìng)爭(zhēng)效率,減少了信道接入時(shí)延。
[0024] QL-MAC中采用的Q-Learning算法定義包括如下:
[0025] 整個(gè)車(chē)載自組織網(wǎng)絡(luò)即Agent學(xué)習(xí)的環(huán)境,網(wǎng)絡(luò)中的每個(gè)車(chē)輛節(jié)點(diǎn)即Agent,車(chē)輛 節(jié)點(diǎn)在網(wǎng)絡(luò)中接入信道時(shí)所采用的競(jìng)爭(zhēng)窗口即Agent學(xué)習(xí)環(huán)境的環(huán)境狀態(tài),由此車(chē)輛節(jié)點(diǎn) 可能采用的所有競(jìng)爭(zhēng)窗口集即Agent學(xué)習(xí)環(huán)境的狀態(tài)空間。由于節(jié)點(diǎn)在網(wǎng)絡(luò)中接入信道的 競(jìng)爭(zhēng)窗口通常為2的指數(shù)冪減1,因此競(jìng)爭(zhēng)窗口集為{15, 31,63, 127, 255, 511,1023},競(jìng)爭(zhēng) 窗口初始值cw_s15,最大值CW_為1023。每一Agent可執(zhí)行的動(dòng)作有:
[0026] 1)增加(I),2)保持(K),3)減少(R)。"增加"即增大競(jìng)爭(zhēng)窗口,"保持"和"減少" 則分別是保持競(jìng)爭(zhēng)窗口大小不變和減小競(jìng)爭(zhēng)窗口。節(jié)點(diǎn)每執(zhí)行一個(gè)動(dòng)作后,環(huán)境狀態(tài)就發(fā) 生狀態(tài)轉(zhuǎn)移。在網(wǎng)絡(luò)環(huán)境中不斷探索學(xué)習(xí)的過(guò)程中,每一節(jié)點(diǎn)在狀態(tài)一一動(dòng)作對(duì)之間都維 護(hù)一個(gè)Q表,Q表中包含Q值Q(st,at),Q值的變化范圍為-1到1。其中\(zhòng)為當(dāng)前競(jìng)爭(zhēng)窗口 的大小,at為節(jié)點(diǎn)可能執(zhí)行的動(dòng)作。每發(fā)送完一個(gè)MAC幀后,節(jié)點(diǎn)根據(jù)發(fā)送狀態(tài)從網(wǎng)絡(luò)環(huán)境 中獲得一個(gè)獎(jiǎng)賞值,若發(fā)送成功,節(jié)點(diǎn)得到一個(gè)正的獎(jiǎng)賞,若發(fā)送失?。ū舅惴ㄖ卸xMAC 層重傳次數(shù)不超過(guò)4,即數(shù)據(jù)重傳4次后,發(fā)送節(jié)點(diǎn)還是接收不到數(shù)據(jù)幀對(duì)應(yīng)的ACK消息,則 定義此次發(fā)送失?。?,節(jié)點(diǎn)則得到一個(gè)負(fù)的獎(jiǎng)賞,丟包主要是由與其他數(shù)據(jù)包發(fā)生碰撞造成 的,通過(guò)對(duì)獎(jiǎng)賞值進(jìn)行評(píng)價(jià),節(jié)點(diǎn)自適應(yīng)地調(diào)整其競(jìng)爭(zhēng)窗口大小,總選擇執(zhí)行能使累積獎(jiǎng)賞 值Q值最大化的最優(yōu)動(dòng)作。
[0027] 2)Q值更新,包括:
[0028] Agent與環(huán)境不斷交互學(xué)習(xí)過(guò)程中,節(jié)點(diǎn)接入信道可能執(zhí)行的動(dòng)作有:增加(I)、 保持(K)、減少(R)。狀態(tài)空間為{15, 31,63, 127, 255, 511,1023}。當(dāng)競(jìng)爭(zhēng)窗口為最小值時(shí), 競(jìng)爭(zhēng)窗口無(wú)法繼續(xù)減少,同樣地,當(dāng)競(jìng)爭(zhēng)窗口為最大值時(shí),競(jìng)爭(zhēng)窗口無(wú)法繼續(xù)增加。如圖1 所示為節(jié)點(diǎn)在網(wǎng)絡(luò)環(huán)境中學(xué)習(xí)的狀態(tài)轉(zhuǎn)移圖。
[0029] VANETs中,節(jié)點(diǎn)采用QL-MAC算法發(fā)送MAC數(shù)據(jù)幀過(guò)程中,利用狀態(tài)--動(dòng)作對(duì)的 值函數(shù)Q(st,at)進(jìn)行迭代,并利用獎(jiǎng)賞作為估計(jì)函數(shù)來(lái)選擇下一動(dòng)作,對(duì)Q函數(shù)進(jìn)行優(yōu)化, 通過(guò)多步迭代學(xué)習(xí)逼近最優(yōu)值函數(shù),節(jié)點(diǎn)每發(fā)送一次數(shù)據(jù)幀,就更新一次Q表,更新Q值的 表達(dá)式即0學(xué)習(xí)的佚代公式為:
[0030]
[0031] 其中α為學(xué)習(xí)率,是Agent在環(huán)境中的學(xué)習(xí)步長(zhǎng),用于控制學(xué)習(xí)速度,α值越大, Q值收斂越快,由于MAC數(shù)據(jù)幀發(fā)送較為頻繁,0. 6足以反映網(wǎng)絡(luò)拓?fù)涞淖兓潭?,所以本發(fā) 明設(shè)α取值為0.6。γ為折扣因子,γe[0,1],它體現(xiàn)了Agent對(duì)以后環(huán)境所給予獎(jiǎng)勵(lì) 的重視程度,取值越大表示越重視以后的獎(jiǎng)勵(lì),反之,則只在乎眼前的獎(jiǎng)勵(lì)。本發(fā)明中取γ 為0. 9。車(chē)輛節(jié)點(diǎn)在VANETs中初次接入信道發(fā)送數(shù)據(jù)時(shí),會(huì)首先初始化Q(st,at)的值,然 后根據(jù)探索策略在狀態(tài)8,時(shí)選擇執(zhí)行動(dòng)作at,得到下一狀態(tài)st+1及其獎(jiǎng)賞值R,之后根據(jù)獎(jiǎng) 賞值通過(guò)迭代公式公式1更新Q值,一直循環(huán)執(zhí)行直到實(shí)現(xiàn)目標(biāo)狀態(tài)或達(dá)到限制的迭代次 數(shù)。其中獎(jiǎng)賞值R計(jì)算如下:
[0032]
[0033] 其中1?"表示選擇當(dāng)前的CW值接入信道成功發(fā)送數(shù)據(jù)所獲得的正獎(jiǎng)賞。發(fā)送失 敗,獎(jiǎng)賞值為-1,若當(dāng)前狀態(tài)正在發(fā)送數(shù)據(jù),獎(jiǎng)賞值為〇。表I中定義了選擇各不同大小的 CW值成功發(fā)送數(shù)據(jù)所獲得的不同獎(jiǎng)賞值。成功發(fā)送數(shù)據(jù)所選的CW值越小,得到的獎(jiǎng)賞值就 越大,而網(wǎng)絡(luò)負(fù)載過(guò)高時(shí),節(jié)點(diǎn)從環(huán)境中獲得負(fù)的獎(jiǎng)賞從而增加競(jìng)爭(zhēng)窗口,這樣能使節(jié)點(diǎn)充 分利用信道資源。
[0034] 表ICW與獎(jiǎng)賞值的關(guān)系
[0035]
[0036] 節(jié)點(diǎn)每從環(huán)境中獲得一次獎(jiǎng)賞,就按照公式1式更新一次Q值,式中 max表示執(zhí)行動(dòng)作后所獲得的最大q值,g卩到 狀態(tài)為止節(jié)點(diǎn)從環(huán)境中所 ut+i 獲得的最大累積獎(jiǎng)賞值,st+1表示選取執(zhí)行動(dòng)作at+1后的狀態(tài),例如,競(jìng)爭(zhēng)窗口大小為15時(shí), 節(jié)點(diǎn)接入信道發(fā)送數(shù)據(jù)發(fā)生碰撞,無(wú)法成功發(fā)送數(shù)據(jù),下次再發(fā)送數(shù)據(jù)就選擇執(zhí)行"增加" 動(dòng)作,增加競(jìng)爭(zhēng)窗口大小,此時(shí)狀態(tài)轉(zhuǎn)移為{31}。更新Q值的算法包括如下:
[0037]
[0038] 探索、利用和收斂包括如下:
[0039] 強(qiáng)化學(xué)習(xí)中,"探索"是指Agent要盡可能地經(jīng)歷所有的狀態(tài)一一動(dòng)作對(duì),從而獲得 全面充分的經(jīng)驗(yàn)知識(shí),保證學(xué)習(xí)過(guò)程能收斂到最優(yōu)的Q值函數(shù),但是過(guò)度"探索"會(huì)引入冗 余信息,浪費(fèi)存儲(chǔ)資源和計(jì)算資源,最終影響學(xué)習(xí)速度。"利用"則是Agent為了從環(huán)境中獲 得較高的獎(jiǎng)賞值,總是根據(jù)當(dāng)前的Q表選擇執(zhí)行可以獲得高獎(jiǎng)賞值的動(dòng)作,而不愿冒險(xiǎn)去 嘗試可能會(huì)產(chǎn)生更高獎(jiǎng)賞值但也可能產(chǎn)生低獎(jiǎng)賞值的動(dòng)作。所以尋求"探索"和"利用"間 的平衡對(duì)保證學(xué)習(xí)過(guò)程能快速收斂到最優(yōu)Q值函數(shù)非常重要,Agent需要不斷"探索"次優(yōu) 動(dòng)作從而使"利用"趨向全局最優(yōu)。
[0040] QL-MAC算中,節(jié)點(diǎn)在網(wǎng)絡(luò)環(huán)境中學(xué)習(xí)所用的探索策略為強(qiáng)化學(xué)習(xí)算法中應(yīng)用較為 廣泛的ε-greedy動(dòng)作選取機(jī)制,每個(gè)Agent節(jié)點(diǎn)要執(zhí)行的第一個(gè)動(dòng)作是將其CW值初始化 為15,當(dāng)Agent對(duì)自己所處的網(wǎng)絡(luò)環(huán)境一無(wú)所知時(shí),采用最小的CW值是最佳選擇。此后節(jié) 點(diǎn)以概率ε進(jìn)行探索,尋求新的可能會(huì)產(chǎn)生更高獎(jiǎng)賞值但也可能產(chǎn)生低獎(jiǎng)賞值的動(dòng)作,以 概率1-ε選擇當(dāng)前Q值最高的動(dòng)作(利用)。本發(fā)明中將ε值設(shè)為〇. 382時(shí),使節(jié)點(diǎn)能在 "探索"和"利用"間取得一個(gè)較好的折衷。由于節(jié)點(diǎn)接入信道并成功發(fā)送數(shù)據(jù)所選用的CW 越小,Agent得到的獎(jiǎng)賞就越多,只要當(dāng)前所選的CW能成功發(fā)送數(shù)據(jù),節(jié)點(diǎn)就絕不會(huì)再增加 CW,當(dāng)CW大于15,而網(wǎng)絡(luò)負(fù)載降低時(shí),QL-MAC算法也會(huì)通過(guò)探索將CW重設(shè)為15,即QL-MAC 算法總能使節(jié)點(diǎn)在網(wǎng)絡(luò)環(huán)境中通過(guò)"探索"和"利用"將CW調(diào)整為最佳值。
[0041] 收斂問(wèn)題也是強(qiáng)化學(xué)習(xí)算法所研究的一重要問(wèn)題,Watkins與Dayan利用隨機(jī)過(guò) 程和不動(dòng)點(diǎn)理論給出:1)學(xué)習(xí)過(guò)程具有Markov性;2)所有的狀態(tài)-動(dòng)作對(duì)能被無(wú)限次訪 問(wèn);3)Q表中能存儲(chǔ)所有狀態(tài)一一動(dòng)作對(duì)的Q值函數(shù),每個(gè)元素分別對(duì)應(yīng)于一個(gè)狀態(tài)一一動(dòng) 作對(duì);4)學(xué)習(xí)率α滿(mǎn)足一定的取值條件:〇彡a1
以上四個(gè) 條件都滿(mǎn)足時(shí),Q學(xué)習(xí)過(guò)程可收斂到最優(yōu)狀態(tài)一一動(dòng)作對(duì)值函數(shù)Q%由此可見(jiàn),QL-MAC滿(mǎn)足 收斂的所有條件。
【主權(quán)項(xiàng)】
1. 一種基于Q學(xué)習(xí)的車(chē)載網(wǎng)MAC協(xié)議的實(shí)現(xiàn)方法,其特征在于,所述方法包括如下步 驟: 步驟1 :在VANETs環(huán)境中,當(dāng)前車(chē)輛節(jié)點(diǎn)有消息要發(fā)送時(shí),將其競(jìng)爭(zhēng)窗口初始化為CW_ 后發(fā)送數(shù)據(jù); 步驟2 :判斷數(shù)據(jù)是否成功發(fā)送; 步驟3 :若接收節(jié)點(diǎn)成功接收到消息,發(fā)送節(jié)點(diǎn)則獲得一個(gè)正的獎(jiǎng)賞值并更新其Q表, 然后判斷是否還有數(shù)據(jù)需要發(fā)送; 步驟4 :若沒(méi)有數(shù)據(jù)需要發(fā)送,則流程結(jié)束; 步驟5 :若還有消息需要發(fā)送,則減小當(dāng)前競(jìng)爭(zhēng)窗口(即競(jìng)爭(zhēng)窗口為15時(shí)不再減?。?繼續(xù)發(fā)送消息,返回執(zhí)行步驟2 ; 步驟6:若接收節(jié)點(diǎn)沒(méi)有成功接收到消息,發(fā)送節(jié)點(diǎn)獲得一個(gè)負(fù)的獎(jiǎng)賞值并更新其Q表,然后增加當(dāng)前競(jìng)爭(zhēng)窗口(即競(jìng)爭(zhēng)窗口為1023時(shí)不再增加)再次發(fā)送數(shù)據(jù),返回執(zhí)行步 驟2。2. 根據(jù)權(quán)利要求1所述的一種基于Q學(xué)習(xí)的車(chē)載網(wǎng)MAC協(xié)議的實(shí)現(xiàn)方法,其特征在于, 所述VANETs環(huán)境中,車(chē)輛節(jié)點(diǎn)利用Q學(xué)習(xí)算法在周?chē)h(huán)境中通過(guò)反復(fù)試錯(cuò)與環(huán)境不斷交互 學(xué)習(xí),根據(jù)VANETs環(huán)境給予的反饋信號(hào),在節(jié)點(diǎn)退避過(guò)程中動(dòng)態(tài)地調(diào)整競(jìng)爭(zhēng)窗口(即CW), 使節(jié)點(diǎn)總能以最佳的CW(即從周?chē)h(huán)境中獲得的獎(jiǎng)賞值最大時(shí)所選的CW值)接入信道。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于Q學(xué)習(xí)的車(chē)載網(wǎng)MAC協(xié)議的實(shí)現(xiàn)方法,方法中車(chē)輛節(jié)點(diǎn)利用Q學(xué)習(xí)算法,在VANETs(車(chē)載自組織網(wǎng))環(huán)境中通過(guò)反復(fù)試錯(cuò)與環(huán)境不斷交互學(xué)習(xí),根據(jù)VANETs環(huán)境給予的反饋信號(hào)(即獎(jiǎng)賞值),動(dòng)態(tài)地調(diào)整競(jìng)爭(zhēng)窗口(CW),使節(jié)點(diǎn)總能以最佳的CW(即從周?chē)h(huán)境中獲得的獎(jiǎng)賞值最大時(shí)所選的CW值)接入信道,最終達(dá)到減少數(shù)據(jù)幀碰撞率和傳輸時(shí)延,提高節(jié)點(diǎn)接入信道的公平性的目的。
【IPC分類(lèi)】H04L1/12, H04L29/08, H04W28/08, H04W74/08
【公開(kāi)號(hào)】CN105306176
【申請(qǐng)?zhí)枴緾N201510777878
【發(fā)明人】趙海濤, 杜艾芊, 劉南杰, 朱洪波
【申請(qǐng)人】南京郵電大學(xué)
【公開(kāi)日】2016年2月3日
【申請(qǐng)日】2015年11月13日
當(dāng)前第2頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
班玛县| 黄大仙区| 文水县| 台东市| 思南县| 吉水县| 冕宁县| 沛县| 宁河县| 通城县| 县级市| 酉阳| 漾濞| 绥阳县| 嘉峪关市| 扎兰屯市| 双城市| 仲巴县| 余姚市| 故城县| 延川县| 鄂托克旗| 湄潭县| 濉溪县| 金川县| 曲松县| 安国市| 万荣县| 法库县| 清新县| 唐河县| 阳高县| 宝坻区| 睢宁县| 囊谦县| 福海县| 黑山县| 连山| 板桥市| 南投市| 武隆县|