技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明涉及汽車無人駕駛技術(shù)領(lǐng)域,一種基于強(qiáng)化學(xué)習(xí)的車輛跟馳模型建立方法,包括以下步驟:(1)定義經(jīng)驗(yàn)緩存D、創(chuàng)建Q值網(wǎng)絡(luò),(2)隨機(jī)初始化環(huán)境中所有車輛位置、速度、加速度和環(huán)境狀態(tài),(3)選擇并執(zhí)行動(dòng)作,記錄轉(zhuǎn)移樣本,計(jì)算長期回報(bào),(4)更新Q值網(wǎng)絡(luò)權(quán)重,對(duì)誤差函數(shù)loss進(jìn)行一次梯度下降,(5)步數(shù)是否超過最大時(shí)間步數(shù),重復(fù)步驟3至步驟4,直到步數(shù)超過最大時(shí)間步數(shù)timestepmax的值或碰撞,(6)步數(shù)是否超過最大回合數(shù),重復(fù)步驟2至步驟5,直到步數(shù)超過最大回合數(shù)episodemax的值。本發(fā)明把強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)結(jié)合起來,不斷地對(duì)環(huán)境進(jìn)行探索和對(duì)已經(jīng)學(xué)習(xí)到的經(jīng)驗(yàn)進(jìn)行利用,最終得到一個(gè)無須駕駛數(shù)據(jù)驅(qū)動(dòng)的無人汽車跟馳模型建立方法。
技術(shù)研發(fā)人員:譚國真;羅志祥
受保護(hù)的技術(shù)使用者:大連理工大學(xué)
技術(shù)研發(fā)日:2017.04.22
技術(shù)公布日:2017.09.08