本公開(kāi)涉及圖像處理以及自動(dòng)駕駛,尤其涉及行為決策方法、裝置、設(shè)備、介質(zhì)、程序產(chǎn)品及自動(dòng)駕駛車(chē)輛。
背景技術(shù):
1、在霧天場(chǎng)景下,自然光在傳播過(guò)程中會(huì)被這些懸浮的水滴、顆粒吸收或者散射,造成拍攝景物輪廓模糊,圖像清晰度以及色彩飽和度下降,從而影響圖像整體的視覺(jué)效果。尤其當(dāng)霧霾濃度較大時(shí),真實(shí)圖像的信息會(huì)丟失嚴(yán)重,阻礙圖像的后續(xù)應(yīng)用。
2、在實(shí)施本公開(kāi)的過(guò)程中發(fā)現(xiàn),在霧天場(chǎng)景下,現(xiàn)有基于先驗(yàn)和學(xué)習(xí)映射方法去霧誤差大,需要對(duì)目標(biāo)對(duì)象的行駛行為進(jìn)行決策時(shí),誤差被傳遞,影響目標(biāo)對(duì)象的安全運(yùn)行。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問(wèn)題,本公開(kāi)提供了一種行為決策方法、裝置、設(shè)備、介質(zhì)、程序產(chǎn)品及自動(dòng)駕駛車(chē)輛。
2、根據(jù)本公開(kāi)的第一個(gè)方面,提供了一種行為決策方法,包括:
3、在第t時(shí)刻采集到的第一圖像幀為具有霧氣的圖像的情況下,對(duì)具有霧氣的圖像進(jìn)行去霧處理,得到去霧圖像;
4、基于注意力機(jī)制,對(duì)去霧圖像進(jìn)行狀態(tài)檢測(cè),得到狀態(tài)信息,其中,狀態(tài)信息用于表征在第t時(shí)刻時(shí)目標(biāo)對(duì)象所處環(huán)境信息;
5、基于深度強(qiáng)化學(xué)習(xí),對(duì)狀態(tài)信息進(jìn)行行為決策,得到初始決策結(jié)果,其中,初始決策結(jié)果用于表征從第t時(shí)刻到第t+1時(shí)刻時(shí),目標(biāo)對(duì)象所需要執(zhí)行的動(dòng)作信息;以及
6、在確定初始決策結(jié)果滿(mǎn)足第一預(yù)設(shè)條件的情況下,將初始決策結(jié)果確定為目標(biāo)決策結(jié)果。
7、根據(jù)本公開(kāi)的實(shí)施例,去霧圖像包括在目標(biāo)對(duì)象行進(jìn)方向前方的車(chē)道圖像;
8、行為決策方法還包括:
9、基于在目標(biāo)對(duì)象行進(jìn)方向前方的車(chē)道圖像,確定車(chē)道圖像中車(chē)道的長(zhǎng)度;
10、基于初始決策結(jié)果和車(chē)道的長(zhǎng)度,對(duì)目標(biāo)對(duì)象進(jìn)行模擬仿真,得到仿真結(jié)果,其中,仿真結(jié)果用于表征目標(biāo)對(duì)象執(zhí)行初始決策結(jié)果時(shí)的行駛信息;
11、基于仿真結(jié)果和預(yù)設(shè)評(píng)估函數(shù),確定針對(duì)初始決策結(jié)果的評(píng)估值;以及
12、在確定評(píng)估值超過(guò)閾值的情況下,確定初始決策結(jié)果滿(mǎn)足第一預(yù)設(shè)條件。
13、根據(jù)本公開(kāi)的實(shí)施例,初始決策結(jié)果包括橫向加速度信息和縱向加速度信息,仿真結(jié)果包括執(zhí)行初始決策結(jié)果時(shí)的行駛速度信息和行駛碰撞情況信息;
14、基于初始決策結(jié)果和車(chē)道的長(zhǎng)度,對(duì)目標(biāo)對(duì)象進(jìn)行模擬仿真,得到仿真結(jié)果,包括:
15、根據(jù)橫向加速度信息、縱向加速度信息和在第t時(shí)刻時(shí)目標(biāo)對(duì)象的速度信息,生成模擬執(zhí)行指令,其中,模擬執(zhí)行指令用于指示目標(biāo)對(duì)象行駛車(chē)道的長(zhǎng)度;以及
16、統(tǒng)計(jì)目標(biāo)對(duì)象執(zhí)行模擬執(zhí)行指令的過(guò)程中的行駛速度信息和行駛碰撞情況信息。
17、根據(jù)本公開(kāi)的實(shí)施例,預(yù)設(shè)評(píng)估函數(shù)包括安全約束項(xiàng)、速度評(píng)估項(xiàng)、舒適度評(píng)估項(xiàng)和檢測(cè)距離評(píng)估項(xiàng);
18、基于仿真結(jié)果和預(yù)設(shè)評(píng)估函數(shù),確定針對(duì)初始決策結(jié)果的評(píng)估值,包括:
19、根據(jù)行駛碰撞情況信息和預(yù)設(shè)安全約束條件,確定安全約束項(xiàng)的值;
20、將目標(biāo)對(duì)象執(zhí)行完模擬執(zhí)行指令時(shí)的行駛速度信息確定為速度評(píng)估項(xiàng)的值;
21、根據(jù)目標(biāo)對(duì)象執(zhí)行模擬執(zhí)行指令的過(guò)程中預(yù)設(shè)時(shí)間間隔對(duì)應(yīng)的行駛速度信息,確定舒適度評(píng)估項(xiàng)的值;
22、將車(chē)道的長(zhǎng)度確定為檢測(cè)距離評(píng)估項(xiàng)的值;以及
23、將安全約束項(xiàng)的值、速度評(píng)估項(xiàng)的值、舒適度評(píng)估項(xiàng)的值和檢測(cè)距離評(píng)估項(xiàng)的值求和,得到針對(duì)初始決策結(jié)果的評(píng)估值。
24、根據(jù)本公開(kāi)的實(shí)施例,在第t時(shí)刻采集到的第一圖像幀為具有霧氣的圖像的情況下,對(duì)具有霧氣的圖像進(jìn)行去霧處理,得到去霧圖像包括:
25、對(duì)具有霧氣的圖像進(jìn)行特征提取,得到特征圖像;
26、對(duì)特征圖像進(jìn)行殘差預(yù)測(cè),得到預(yù)測(cè)殘差圖像;以及
27、將預(yù)測(cè)殘差圖像和特征圖像融合,得到去霧圖像。
28、根據(jù)本公開(kāi)的實(shí)施例,基于深度強(qiáng)化學(xué)習(xí),對(duì)狀態(tài)信息進(jìn)行行為決策,得到初始決策結(jié)果,包括:
29、將狀態(tài)信息輸入深度強(qiáng)化學(xué)習(xí)中的策略網(wǎng)絡(luò),輸出初始決策結(jié)果,其中,策略網(wǎng)絡(luò)是基于樣本評(píng)估值預(yù)先訓(xùn)練得到的,樣本評(píng)估值是基于對(duì)樣本狀態(tài)信息進(jìn)行行為決策后得到的樣本初始決策結(jié)果得到的。
30、根據(jù)本公開(kāi)的實(shí)施例,行為決策方法還包括:
31、在第t時(shí)刻之前的任意t′時(shí)刻采集到的第二圖像幀為具有霧氣的樣本圖像的情況下,對(duì)具有霧氣的樣本圖像進(jìn)行去霧處理,得到樣本去霧圖像;
32、基于注意力機(jī)制,對(duì)樣本去霧圖像進(jìn)行狀態(tài)檢測(cè),輸出樣本狀態(tài)信息,其中,樣本狀態(tài)信息用于表征第二圖像幀中目標(biāo)對(duì)象所處環(huán)境信息;
33、基于深度強(qiáng)化學(xué)習(xí)的初始策略網(wǎng)絡(luò),對(duì)樣本狀態(tài)信息進(jìn)行行為決策,得到樣本初始決策結(jié)果,其中,樣本初始決策結(jié)果用于表征從第t′-1時(shí)刻到第t′時(shí)刻時(shí),目標(biāo)對(duì)象所需要執(zhí)行的動(dòng)作信息;
34、利用深度強(qiáng)化學(xué)習(xí)的初始預(yù)測(cè)網(wǎng)絡(luò),對(duì)樣本初始決策結(jié)果進(jìn)行預(yù)測(cè),得到預(yù)測(cè)初始狀態(tài)信息,其中,預(yù)測(cè)初始狀態(tài)信息用于表征在第t′時(shí)刻時(shí)預(yù)測(cè)的目標(biāo)對(duì)象所處環(huán)境信息;
35、基于預(yù)測(cè)初始狀態(tài)信息和與預(yù)測(cè)初始狀態(tài)信息匹配的標(biāo)簽,訓(xùn)練初始預(yù)測(cè)網(wǎng)絡(luò),得到訓(xùn)練好的預(yù)測(cè)網(wǎng)絡(luò);
36、基于訓(xùn)練好的預(yù)測(cè)網(wǎng)絡(luò)得到的預(yù)測(cè)狀態(tài)信息,確定針對(duì)樣本初始決策結(jié)果的樣本評(píng)估值;以及
37、基于樣本評(píng)估值和策略梯度,更新初始策略網(wǎng)絡(luò)的參數(shù),直至達(dá)到第二預(yù)設(shè)條件為止,得到策略網(wǎng)絡(luò)。
38、本公開(kāi)的第二方面提供了一種行為決策裝置,包括:
39、去霧模塊,用于在第t時(shí)刻采集到的第一圖像幀為具有霧氣的圖像的情況下,對(duì)具有霧氣的圖像進(jìn)行去霧處理,得到去霧圖像;
40、檢測(cè)模塊,用于基于注意力機(jī)制,對(duì)去霧圖像進(jìn)行狀態(tài)檢測(cè),輸出狀態(tài)信息,其中,狀態(tài)信息用于表征在第t時(shí)刻時(shí)目標(biāo)對(duì)象所處環(huán)境信息;
41、決策模塊,用于基于深度強(qiáng)化學(xué)習(xí),對(duì)狀態(tài)信息進(jìn)行行為決策,得到初始決策結(jié)果,其中,初始決策結(jié)果用于表征從第t時(shí)刻到第t+1時(shí)刻時(shí),目標(biāo)對(duì)象所需要執(zhí)行的動(dòng)作信息;以及
42、確定模塊,用于在確定初始決策結(jié)果滿(mǎn)足第一預(yù)設(shè)條件的情況下,將初始決策結(jié)果確定為目標(biāo)決策結(jié)果。
43、本公開(kāi)的第三方面提供了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序,其中,上述一個(gè)或多個(gè)處理器執(zhí)行上述一個(gè)或多個(gè)計(jì)算機(jī)程序以實(shí)現(xiàn)上述行為決策方法的步驟。
44、本公開(kāi)的第四方面還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序或指令,上述計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述行為決策方法的步驟。
45、本公開(kāi)的第五方面還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,上述計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述行為決策方法的步驟。
46、本公開(kāi)的第六方面還提供了一種自動(dòng)駕駛車(chē)輛,包括上述電子設(shè)備。
47、根據(jù)本公開(kāi)的實(shí)施例,針對(duì)具有霧氣的場(chǎng)景,將去霧處理和狀態(tài)檢測(cè)與深度強(qiáng)化學(xué)習(xí)結(jié)合,使去霧處理和狀態(tài)檢測(cè)作為場(chǎng)景識(shí)別,不僅能夠達(dá)到去霧的效果,還可以基于注意力機(jī)制實(shí)現(xiàn)對(duì)目標(biāo)對(duì)象所處環(huán)境識(shí)別的效果。針對(duì)識(shí)別的實(shí)時(shí)場(chǎng)景,利用深度強(qiáng)化學(xué)習(xí)實(shí)時(shí)決策,能夠及時(shí)得到初始決策結(jié)果,實(shí)現(xiàn)實(shí)時(shí)決策。此外,只有在滿(mǎn)足第一預(yù)設(shè)條件的情況下,將初始決策結(jié)果確定為目標(biāo)決策結(jié)果,能夠使目標(biāo)對(duì)象在霧天的情況下,保持安全穩(wěn)定運(yùn)行。至少部分解決了現(xiàn)有基于先驗(yàn)和學(xué)習(xí)映射方法去霧誤差大,對(duì)目標(biāo)對(duì)象的行駛行為進(jìn)行決策時(shí),誤差被傳遞,影響目標(biāo)對(duì)象的安全運(yùn)行的問(wèn)題。