本技術(shù)涉及智能交通管理,尤其涉及一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法及相關(guān)裝置。
背景技術(shù):
1、隨著城市化進程的加速,交通壓力和安全挑戰(zhàn)日益嚴峻,智能交通系統(tǒng)(its)作為應(yīng)對這些挑戰(zhàn)的關(guān)鍵技術(shù),正迅速發(fā)展。its通過集成先進的信息技術(shù)、數(shù)據(jù)通信傳輸技術(shù)以及計算機技術(shù),實現(xiàn)了對交通流動的實時監(jiān)控、高效管理和科學(xué)引導(dǎo)。全息軌跡構(gòu)建技術(shù),作為its的重要組成部分,能夠全面捕捉和分析路口內(nèi)車輛的動態(tài)行為,對于提升交通流的優(yōu)化和預(yù)測能力至關(guān)重要。
2、當(dāng)前,實現(xiàn)路口內(nèi)復(fù)雜全息軌跡構(gòu)建的主要技術(shù)方案依賴于雷視融合技術(shù)。該技術(shù)結(jié)合了雷達和視覺檢測設(shè)備的優(yōu)勢,能夠獲取車輛的位置、速度、運動方向以及外觀和車牌等特征信息。然而,在實際應(yīng)用中,由于視線遮擋、光照變化、距離限制等因素,視覺檢測設(shè)備往往無法連續(xù)或準確地捕獲車輛軌跡,導(dǎo)致軌跡信息的不完整。
3、為了解決這些問題,當(dāng)前技術(shù)方案采用了軌跡修正方法。這種方法的核心在于設(shè)定預(yù)設(shè)軌跡,即根據(jù)道路設(shè)計和交通規(guī)則,為車輛設(shè)定一系列預(yù)期的行駛路徑和速度。在實際應(yīng)用中,系統(tǒng)首先通過雷達和視覺檢測設(shè)備獲取車輛的實際行駛數(shù)據(jù),然后將這些數(shù)據(jù)與預(yù)設(shè)軌跡進行對比和分析。當(dāng)發(fā)現(xiàn)實際軌跡與預(yù)設(shè)軌跡存在偏差時,系統(tǒng)會利用算法進行軌跡修正,以模擬和還原車輛在路口的真實行駛狀態(tài)。
4、然而,盡管軌跡修正方法在一定程度上緩解了檢測誤差,但其仍存在局限性。一方面,預(yù)設(shè)軌跡的設(shè)定依賴于道路設(shè)計和交通規(guī)則,缺乏對車輛行為的深入學(xué)習(xí)和理解。因此,在復(fù)雜交通環(huán)境中,特別是交通流量大、交通事件突發(fā)的情況下,預(yù)設(shè)軌跡的預(yù)測準確性可能受限。另一方面,軌跡修正方法主要依賴于算法對實際軌跡與預(yù)設(shè)軌跡的對比和分析,缺乏對車輛行駛意圖和路徑的實時預(yù)測能力。這限制了全息軌跡構(gòu)建技術(shù)在應(yīng)對突發(fā)交通事件和復(fù)雜交通場景方面的能力。
技術(shù)實現(xiàn)思路
1、鑒于上述問題,本技術(shù)提供了一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法及相關(guān)裝置,以實現(xiàn)更好的應(yīng)對突發(fā)交通事件和復(fù)雜交通場景的目的。具體方案如下:
2、本技術(shù)第一方面提供一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法,包括:
3、獲得目標(biāo)車輛的初始軌跡數(shù)據(jù);
4、確定所述目標(biāo)車輛的目標(biāo)流向;
5、基于所述初始軌跡數(shù)據(jù),從所述目標(biāo)流向?qū)?yīng)的至少一個車道中篩選目標(biāo)車道;
6、如果所述初始軌跡數(shù)據(jù)滿足修正條件,從路口的配置信息中提取所述目標(biāo)車道的車道信息,并基于所述初始軌跡數(shù)據(jù),獲得所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息和當(dāng)前運動信息;
7、將所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息、當(dāng)前運動信息及所述目標(biāo)車道的車道信息輸入至生成對抗模仿學(xué)習(xí)模型,得到所述生成對抗模仿學(xué)習(xí)模型確定的目標(biāo)軌跡數(shù)據(jù);
8、基于所述目標(biāo)軌跡數(shù)據(jù),對所述初始軌跡數(shù)據(jù)進行修正。
9、在一種可能的實現(xiàn)中,確定所述目標(biāo)車輛的目標(biāo)流向,包括:
10、如果所述目標(biāo)車輛已鎖流向,則將所述目標(biāo)車輛已鎖定的流向作為所述目標(biāo)車輛的目標(biāo)流向;
11、如果所述目標(biāo)車輛未鎖流向,且所述目標(biāo)車輛的進口道車道流向配置為單流向,則將所述單流向作為所述目標(biāo)車輛的目標(biāo)流向;
12、如果所述目標(biāo)車輛未鎖流向,且所述目標(biāo)車輛的進口道車道流向配置為多流向,則通過比較所述多流向中各流向?qū)?yīng)的車流量,從所述多流向中選擇車流量最大的流向作為所述目標(biāo)車輛的目標(biāo)流向;
13、如果所述多流向中各流向?qū)?yīng)的車流量一致,基于所述目標(biāo)車輛的歷史軌跡,確定臨時目標(biāo)點,如果所述臨時目標(biāo)點位于所述多流向中其中一個流向中,將所述多流向中包含所述臨時目標(biāo)點的流向作為所述目標(biāo)車輛的目標(biāo)流向。
14、在一種可能的實現(xiàn)中,基于所述初始軌跡數(shù)據(jù),從所述目標(biāo)流向?qū)?yīng)的至少一個車道中篩選目標(biāo)車道,包括:
15、基于所述初始軌跡數(shù)據(jù)中所述目標(biāo)車輛當(dāng)前所處軌跡點,確定所述目標(biāo)車輛的最新軌跡航向角;
16、獲取所述目標(biāo)車輛的目標(biāo)流向所對應(yīng)的出口道航向角;
17、確定所述最新軌跡航向角和所述出口道航向角的平均夾角;
18、確定所述目標(biāo)流向?qū)?yīng)的至少一個車道中各車道的目標(biāo)點和所述目標(biāo)車輛當(dāng)前所處軌跡點之間的角度,將所述角度與所述平均夾角之差最小的車道作為目標(biāo)車道。
19、在一種可能的實現(xiàn)中,所述初始軌跡數(shù)據(jù)滿足修正條件通過以下方式判斷得到:
20、確定所述初始軌跡數(shù)據(jù)中進入所述目標(biāo)車道的路口內(nèi)的第一個初始軌跡點和所述目標(biāo)車道的目標(biāo)點之間的第一距離;
21、確定所述初始軌跡數(shù)據(jù)中所述目標(biāo)車輛當(dāng)前所處軌跡點和所述第一個初始軌跡點之間的第二距離;
22、如果所述目標(biāo)流向為左轉(zhuǎn)流向,如果所述第二距離和所述第一距離的比值不小于左轉(zhuǎn)閾值,則滿足修正條件;
23、如果所述目標(biāo)流向為右轉(zhuǎn)流向,如果所述第二距離和所述第一距離的比值不小于右轉(zhuǎn)閾值,則滿足修正條件;
24、如果所述目標(biāo)流向為直行流向,如果所述第二距離和所述第一距離的比值不小于直行閾值,且所述目標(biāo)車輛在視覺跟蹤中失效,則滿足修正條件;
25、如果所述目標(biāo)流向為掉頭流向,如果所述目標(biāo)車輛在視覺跟蹤中失效,則滿足修正條件。
26、在一種可能的實現(xiàn)中,所述生成對抗模仿學(xué)習(xí)模型基于對抗網(wǎng)絡(luò)訓(xùn)練得到,所述對抗網(wǎng)絡(luò)包括生成器和評判器;
27、所述生成對抗模仿學(xué)習(xí)模型基于所述對抗網(wǎng)絡(luò)進行訓(xùn)練的過程,包括:
28、獲取路口的車輛行駛軌跡,并基于所述路口的車輛行駛軌跡確定專家的狀態(tài)動作對;
29、在當(dāng)前時刻,按照課程分布集的設(shè)定采樣出個車輛,作為多個樣本車輛;
30、獲取所述多個樣本車輛中各所述樣本車輛在當(dāng)前位置的樣本信息;所述樣本信息包括:所述樣本車輛在當(dāng)前位置的位置信息和運動信息及其周圍樣本車輛的位置信息和運動信息及目標(biāo)樣本車道的車道信息;
31、根據(jù)所述生成器的當(dāng)前策略對各樣本車輛對應(yīng)的樣本信息進行處理,生成各所述樣本車輛的軌跡;
32、確定各所述樣本車輛的軌跡對應(yīng)的懲罰值;
33、基于所述評判器為各所述樣本車輛的軌跡中的每個狀態(tài)動作對進行評分,生成各所述樣本車輛的獎勵值;所述獎勵值通過以下方式確定得到:
34、
35、其中,表示評判器在參數(shù)下根據(jù)狀態(tài)動作對得出的值,表示所述樣本車輛的軌跡對應(yīng)的懲罰值;
36、保持所述評判器的參數(shù)不變,基于信賴域優(yōu)化方法更新所述生成器的策略參數(shù);基于信賴域優(yōu)化方法更新所述生成器的策略參數(shù),包括:對以下約束優(yōu)化問題進行求解:
37、;
38、其中,表示策略的參數(shù);表示期望;表示在時刻采取的當(dāng)前策略,其根據(jù)舊參數(shù)定義的;表示新策略;表示當(dāng)前策略在時刻下在觀察條件下采取動作的概率;表示新策略在時刻下在觀察條件下采取動作的概率;表示當(dāng)前策略在觀察條件下采取動作的概率分布;表示新策略在觀察條件下采取動作的概率分布;表示和之間的kl(kullback-leibler)散度;表示步長參數(shù),用于控制每次優(yōu)化步驟中策略的最大變化量;表示優(yōu)勢函數(shù),用于衡量觀察條件下采取動作的動作價值期望與觀測器估計的狀態(tài)價值期望之間的差異程度;動作表示所述樣本車輛根據(jù)策略采取的行為;
39、所述優(yōu)勢函數(shù)通過以下廣義優(yōu)勢估計方法進行估計得到:
40、
41、其中,表示折扣率;是介于0和1之間的參數(shù),用于平衡td(temporaldifference)誤差的權(quán)重;表示評判器確定的獎勵值;和分別表示在時刻和時刻的狀態(tài)價值期望;
42、保持所述生成器的策略參數(shù)不變,基于所述專家的狀態(tài)動作對和所述生成器的新策略生成的狀態(tài)動作對,更新所述評判器的評判參數(shù);所述評判器的評判參數(shù)通過以下目標(biāo)函數(shù)進行更新:
43、
44、其中,表示專家策略,表示所述新策略,表示在執(zhí)行策略時狀態(tài)動作對被訪問到的概率;表示在策略下時間處于狀態(tài)的概率;表示基于當(dāng)前策略在狀態(tài)下采取動作的概率;表示在執(zhí)行策略時狀態(tài)動作對被訪問到的概率;表示在策略下時間處于狀態(tài)的概率;表示基于專家策略在狀態(tài)下采取動作的概率;是的簡化表達,表示評判器在參數(shù)下根據(jù)狀態(tài)動作對得出的值。
45、在一種可能的實現(xiàn)中,確定各所述樣本車輛的軌跡對應(yīng)的懲罰值,包括:
46、通過懲罰函數(shù),確定各所述樣本車輛的軌跡對應(yīng)的懲罰值;
47、其中,表示任意兩個樣本車輛之間最小距離,1表示碰撞懲罰值,表示樣本車輛距道路邊緣最近距離,,表示樣本車輛距離道路左邊緣最近距離,表示樣本車輛距離道路右邊緣最近距離,表示距離懲罰值,表示不滿足車輛運動學(xué)約束,表示約束懲罰值,表示急剎車懲罰值,表示加速度。
48、在一種可能的實現(xiàn)中,所述碰撞懲罰值通過以下方式確定得到:
49、從所述樣本車輛的軌跡中提取前n個連續(xù)的位置點;
50、針對所述前n個連續(xù)的位置點中各位置點,如果所述樣本車輛在移動到所述位置點之前與其周圍車輛未發(fā)生碰撞,但在所述位置點與其周圍車輛發(fā)生碰撞,將所述位置點標(biāo)記為異常;如果所述樣本車輛在移動到所述位置點之前與其周圍車輛未發(fā)生碰撞,且在所述位置點與其周圍車輛未發(fā)生碰撞,將所述位置點標(biāo)記為候選;
51、如果所述前n個連續(xù)的位置點中各位置點中存在標(biāo)記為候選的位置點,將標(biāo)記為候選的位置點中排列在最后的位置點作為所述樣本車輛的新的當(dāng)前位置,并確定標(biāo)記為異常的位置點對應(yīng)的懲罰值,將標(biāo)記為異常的位置點對應(yīng)的懲罰值進行累加,得到碰撞懲罰值;
52、如果所述前n個連續(xù)的位置點均標(biāo)記為異常,將所述前n個連續(xù)的位置點中第一個位置點作為所述樣本車輛的新的當(dāng)前位置,并確定標(biāo)記為異常的位置點對應(yīng)的懲罰值,將標(biāo)記為異常的位置點對應(yīng)的懲罰值進行累加,得到碰撞懲罰值。
53、本技術(shù)另一方面提供一種基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化裝置,包括:
54、第一獲得模塊,用于獲得目標(biāo)車輛的初始軌跡數(shù)據(jù);
55、第一確定模塊,用于確定所述目標(biāo)車輛的目標(biāo)流向;
56、篩選模塊,用于基于所述初始軌跡數(shù)據(jù),從所述目標(biāo)流向?qū)?yīng)的至少一個車道中篩選目標(biāo)車道;
57、第二獲得模塊,用于如果所述初始軌跡數(shù)據(jù)滿足修正條件,從路口的配置信息中提取所述目標(biāo)車道的車道信息,并基于所述初始軌跡數(shù)據(jù),獲得所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息和當(dāng)前運動信息;
58、第二確定模塊,用于將所述目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息、當(dāng)前運動信息及所述目標(biāo)車道的車道信息輸入至生成對抗模仿學(xué)習(xí)模型,得到所述生成對抗模仿學(xué)習(xí)模型確定的目標(biāo)軌跡數(shù)據(jù);
59、修正模塊,用于基于所述目標(biāo)軌跡數(shù)據(jù),對所述初始軌跡數(shù)據(jù)進行修正。
60、本技術(shù)第三方面提供一種電子設(shè)備,包括:
61、存儲器用于存儲計算機程序;
62、處理器用于執(zhí)行所述計算機程序,以使所述電子設(shè)備能夠?qū)崿F(xiàn)如上述任意一項所述的基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法。
63、本技術(shù)第四方面提供一種計算機存儲介質(zhì),所述存儲介質(zhì)承載有一個或多個計算機程序,當(dāng)所述一個或多個計算機程序被電子設(shè)備執(zhí)行時,能夠使所述電子設(shè)備能夠?qū)崿F(xiàn)如上述任意一項所述的基于模仿學(xué)習(xí)的車輛軌跡優(yōu)化方法。
64、在本技術(shù)中,通過對生成對抗模仿學(xué)習(xí)模型進行訓(xùn)練,生成對抗模仿學(xué)習(xí)模型可以學(xué)習(xí)如何根據(jù)車輛當(dāng)前的位置、速度、運動方向以及周圍車輛的動態(tài)變化來預(yù)測車輛未來的行駛意圖和路徑。因此,將目標(biāo)車輛及其周圍車輛的當(dāng)前位置信息、當(dāng)前運動信息及目標(biāo)車道的車道信息輸入至生成對抗模仿學(xué)習(xí)模型,生成對抗模仿學(xué)習(xí)模型能夠生成更加準確和可靠的目標(biāo)軌跡數(shù)據(jù),因此,目標(biāo)軌跡數(shù)據(jù)可以對通過雷達設(shè)備和視覺檢測設(shè)備確定的不完整或偏差的車輛軌跡進行智能修正,以應(yīng)對視線遮擋、光照變化和距離過遠等問題,從而實現(xiàn)對路口內(nèi)車輛運動狀態(tài)的連續(xù)和準確捕捉。以及,利用生成對抗模仿學(xué)習(xí)模型深入學(xué)習(xí)和理解車輛行為,可以摒棄對預(yù)設(shè)軌跡的依賴,實現(xiàn)對車輛行駛意圖和路徑的準確預(yù)測,可以更好的應(yīng)對突發(fā)交通事件和復(fù)雜交通場景。以及,通過生成對抗模仿學(xué)習(xí)模型,可以優(yōu)化數(shù)據(jù)在復(fù)雜交通場景下的融合過程,如交通擁堵情況下的雷視融合精度和適應(yīng)性。