本發(fā)明涉及自動駕駛,尤其涉及一種自動駕駛控制方法、裝置、電子設(shè)備及計算機(jī)存儲介質(zhì)。
背景技術(shù):
1、近年來,人工智能技術(shù)的高速發(fā)展對各行各業(yè)產(chǎn)生了深遠(yuǎn)的影響,如圖像識別、語音識別、自然語言處理等。這些技術(shù)為自動駕駛提供了強大的技術(shù)支持,使得汽車能夠更好地感知周圍環(huán)境,理解并應(yīng)對復(fù)雜多變的道路狀況,各大車企都展現(xiàn)了屬于自己流派的自動駕駛感知技術(shù)。
2、現(xiàn)有的自動駕駛技術(shù)中,出于安全性和穩(wěn)定性考慮,對于車輛的控制比較僵硬,對于不同的車輛行駛環(huán)境,可能會出現(xiàn)持續(xù)變速、急加速、急剎、突然變道等操作,導(dǎo)致車輛能耗增加的同時,降低乘客的乘坐體驗,特別是針對復(fù)雜的駕駛環(huán)境,不會考慮車輛能耗,造成能源浪費。
3、由此可見,現(xiàn)有的自動駕駛技術(shù)會造成車輛能耗過高的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、有鑒于此,有必要提供一種自動駕駛控制方法、裝置、電子設(shè)備及計算機(jī)存儲介質(zhì),用以解決現(xiàn)有的自動駕駛技術(shù)會造成車輛能耗過高的技術(shù)問題。
2、為了解決上述問題,本發(fā)明提供一種自動駕駛控制方法,包括:
3、獲取車輛所處場景的場景信息,所述場景信息包括車輛狀態(tài)信息及車輛所在道路的道路環(huán)境信息;
4、采用基于深度強化學(xué)習(xí)的車輛節(jié)能控制模型對所述車輛狀態(tài)信息和所述道路環(huán)境信息進(jìn)行分析,確定車輛控制策略,其中,所述車輛節(jié)能控制模型包括獎勵函數(shù),所述獎勵函數(shù)用于表示所述車輛在所述車輛控制策略下的安全性行駛和節(jié)能效率的平衡性,所述車輛控制策略對應(yīng)的獎勵函數(shù)的獎勵值最大
5、按照所述車輛控制策略控制所述車輛自動駕駛。
6、在一種可能的實施方式中,所述獲取車輛所處場景的場景信息,包括:
7、采用車載傳感器采集車輛狀態(tài)信息;
8、采用圖像采集裝置和車載雷達(dá)裝置采集車輛所在道路的道路環(huán)境信息。
9、在一種可能的實施方式中,所述采用圖像采集裝置和車載雷達(dá)裝置采集車輛所在道路的道路環(huán)境信息,包括:
10、采用圖像采集裝置采集所述車輛第一預(yù)設(shè)范圍內(nèi)的圖像信息;
11、采用車載雷達(dá)裝置采集所述車輛第二預(yù)設(shè)范圍內(nèi)的雷達(dá)點云信息;
12、將所述圖像信息和所述雷達(dá)點云信息進(jìn)行融合,得到車輛所在道路的環(huán)境信息。
13、在一種可能的實施方式中,所述基于深度強化學(xué)習(xí)的車輛節(jié)能控制模型的訓(xùn)練過程包括:
14、采用高樣本池中的樣本數(shù)據(jù)對所述車輛節(jié)能控制模型進(jìn)行第一輪訓(xùn)練,將所述第一輪訓(xùn)練中獎勵函數(shù)的獎勵值大于所述預(yù)設(shè)獎勵閾值的樣本數(shù)據(jù)添加至所述高樣本池,更新所述高樣本池;
15、按照預(yù)設(shè)的比例在更新后的高樣本池和所述標(biāo)準(zhǔn)樣本池中隨機(jī)選取樣本數(shù)據(jù)對所述車輛節(jié)能控制模型進(jìn)行第二輪訓(xùn)練,直至所述車輛節(jié)能控制模型達(dá)到預(yù)期效果。
16、在一種可能的實施方式中,所述直至所述車輛節(jié)能控制模型達(dá)到預(yù)期效果,包括:
17、計算每次訓(xùn)練結(jié)果的獎勵函數(shù)的獎勵值和當(dāng)前價值網(wǎng)絡(luò)的評估值,所述價值網(wǎng)絡(luò)評估值用于指示所述訓(xùn)練結(jié)果中的車輛控制策略的評分;
18、基于所述每次訓(xùn)練結(jié)果的獎勵函數(shù)的獎勵值和所述當(dāng)前價值網(wǎng)絡(luò)評估值計算目標(biāo)價值網(wǎng)絡(luò)的目標(biāo)值;
19、基于所述當(dāng)前價值網(wǎng)絡(luò)的評估值和所述目標(biāo)價值網(wǎng)絡(luò)的目標(biāo)值構(gòu)建損失函數(shù),更新所述車輛節(jié)能控制模型以使所述損失函數(shù)最小化。
20、在一種可能的實施方式中,所述計算每次訓(xùn)練結(jié)果當(dāng)前價值網(wǎng)絡(luò)的評估值,包括:
21、分別計算每次訓(xùn)練結(jié)果的第一當(dāng)前價值網(wǎng)絡(luò)的第一評估值和第二當(dāng)前價值網(wǎng)絡(luò)的第二評估值;
22、將所述第一評估值和所述第二評估值中的較小值作為所述訓(xùn)練結(jié)果當(dāng)前價值網(wǎng)絡(luò)的評估值。
23、在一種可能的實施方式中,所述獎勵函數(shù)的獎勵值的計算包括:
24、基于所述車輛控制策略下車輛的電機(jī)轉(zhuǎn)速和電機(jī)扭矩計算能量消耗得分;
25、基于所述車輛控制策略下車輛的車速與車輛允許車輛范圍的關(guān)系計算車速得分;
26、基于所述車輛控制策略下車輛的安全性確定安全得分;
27、按照預(yù)設(shè)的權(quán)重對所述能量消耗得分、所述車速得分和所述安全得分計算所述獎勵函數(shù)的獎勵值。
28、本發(fā)明還提供一種自動駕駛控制裝置,包括:
29、環(huán)境信息獲取模塊,用于獲取車輛所處場景的環(huán)境信息,所述環(huán)境信息包括車輛狀態(tài)信息及車輛所在道路的環(huán)境信息;
30、控制策略確定模塊,用于采用基于深度強化學(xué)習(xí)的車輛節(jié)能控制模型對所述車輛狀態(tài)信息和所述道路環(huán)境信息進(jìn)行分析,確定車輛控制策略,其中,所述車輛節(jié)能控制模型包括獎勵函數(shù),所述獎勵函數(shù)用于表示所述車輛在所述車輛控制策略下的安全性行駛和節(jié)能效率的平衡性,所述車輛控制策略對應(yīng)的獎勵函數(shù)的獎勵值最大;
31、控制策略執(zhí)行模塊,用于按照所述車輛控制策略控制所述車輛自動駕駛。
32、本發(fā)明還提供一種電子設(shè)備,包括存儲器和處理器,其中,
33、所述存儲器,用于存儲程序;
34、所述處理器,與所述存儲器耦合,用于執(zhí)行所述存儲器中存儲的所述程序,以實現(xiàn)上述任一實施例所述的自動駕駛控制方法中的步驟。
35、本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),用于存儲計算機(jī)可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時能夠?qū)崿F(xiàn)上述任一實施例所述的自動駕駛控制方法中的步驟。
36、本發(fā)明的有益效果是:本發(fā)明提供的自動駕駛控制方法,通過獲取車輛狀態(tài)信息和車輛所在道路的道路信息,采用基于深度強化學(xué)習(xí)的車輛節(jié)能控制模型對車輛狀態(tài)信息和道路環(huán)境信息進(jìn)行分析,確定車輛控制策略,其中,車輛節(jié)能控制模型包括獎勵函數(shù),獎勵函數(shù)用于表示車輛在車輛控制策略下的安全性行駛和節(jié)能效率的平衡性,車輛控制策略對應(yīng)的獎勵函數(shù)的獎勵值最大,通過采用獎勵函數(shù)的獎勵值最大的車輛控制策略控制車輛進(jìn)行自動駕駛,能夠有效降低車輛能耗,節(jié)約能源。
1.一種自動駕駛控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的自動駕駛控制方法,其特征在于,所述獲取車輛所處場景的場景信息,包括:
3.根據(jù)權(quán)利要求2所述的自動駕駛控制方法,其特征在于,所述采用圖像采集裝置和車載雷達(dá)裝置采集車輛所在道路的道路環(huán)境信息,包括:
4.根據(jù)權(quán)利要求1所述的自動駕駛控制方法,其特征在于,所述基于深度強化學(xué)習(xí)的車輛節(jié)能控制模型的訓(xùn)練過程包括:
5.根據(jù)權(quán)利要求4所述的自動駕駛控制方法,其特征在于,所述直至所述車輛節(jié)能控制模型達(dá)到預(yù)期效果,包括:
6.根據(jù)權(quán)利要求5所述的自動駕駛控制方法,其特征在于,計算每次訓(xùn)練結(jié)果當(dāng)前價值網(wǎng)絡(luò)的評估值,包括:
7.根據(jù)權(quán)利要求1所述的自動駕駛控制方法,其特征在于,所述獎勵函數(shù)的獎勵值的計算包括:
8.一種自動駕駛控制裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括存儲器和處理器,其中,
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,用于存儲計算機(jī)可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時能夠?qū)崿F(xiàn)上述權(quán)利要求1至7中任意一項所述的自動駕駛控制方法中的步驟。