所屬的技術(shù)人員能夠理解,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。下面參照圖12來描述根據(jù)本發(fā)明的這種實施方式的電子設(shè)備1200。圖12顯示的電子設(shè)備1200僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。如圖12所示,電子設(shè)備1200以通用計算設(shè)備的形式表現(xiàn)。電子設(shè)備1200的組件可以包括但不限于:上述至少一個處理單元1210、上述至少一個存儲單元1220、連接不同系統(tǒng)組件(包括存儲單元1220和處理單元1210)的總線1230。其中,存儲單元存儲有程序代碼,程序代碼可以被處理單元1210執(zhí)行,使得處理單元1210執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實施方式的步驟。存儲單元1220可以包括易失性存儲單元形式的可讀介質(zhì),例如隨機存取存儲單元(ram)12201和/或高速緩存存儲單元12202,還可以進一步包括只讀存儲單元(rom)12203。存儲單元1220還可以包括具有一組(至少一個)程序模塊12205的程序/實用工具12204,這樣的程序模塊12205包括但不限于:操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)??偩€1230可以為表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。電子設(shè)備1200也可以與一個或多個外部設(shè)備1240(例如鍵盤、指向設(shè)備、藍牙設(shè)備等)通信,還可與一個或者多個使得用戶能與該電子設(shè)備1200交互的設(shè)備通信,和/或與使得該電子設(shè)備1200能與一個或多個其它計算設(shè)備進行通信的任何設(shè)備(例如路由器、調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口1250進行。并且,電子設(shè)備1200還可以通過網(wǎng)絡(luò)適配器1260與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器1260通過總線1230與電子設(shè)備1200的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合電子設(shè)備1200使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實施方式可以通過軟件實現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實現(xiàn)。因此,根據(jù)本公開實施方式的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是cd-rom,u盤,移動硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺計算設(shè)備(可以是個人計算機、服務(wù)器、終端裝置、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本公開實施方式的方法。在本公開的示例性實施例中,還提供了一種計算機可讀存儲介質(zhì),其上存儲有能夠?qū)崿F(xiàn)本說明書上述方法的程序產(chǎn)品。在一些可能的實施方式中,本發(fā)明的各個方面還可以實現(xiàn)為一種程序產(chǎn)品的形式,其包括程序代碼,當(dāng)程序產(chǎn)品在終端設(shè)備上運行時,程序代碼用于使終端設(shè)備執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實施方式的步驟。描述了根據(jù)本發(fā)明的實施方式的用于實現(xiàn)上述方法的程序產(chǎn)品,其可以采用便攜式緊湊盤只讀存儲器(cd-rom)并包括程序代碼,并可以在終端設(shè)備,例如個人電腦上運行。然而,本發(fā)明的程序產(chǎn)品不限于此,在本文件中,可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。程序產(chǎn)品可以采用一個或多個可讀介質(zhì)的任意組合。可讀介質(zhì)可以是可讀信號介質(zhì)或者可讀存儲介質(zhì)??勺x存儲介質(zhì)例如可以為但不限于電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合??勺x存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。計算機可讀信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了可讀程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合??勺x信號介質(zhì)還可以是可讀存儲介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序??勺x介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、rf等等,或者上述的任意合適的組合。可以以一種或多種程序設(shè)計語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的程序代碼,程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、c++等,還包括常規(guī)的過程式程序設(shè)計語言—諸如“c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算設(shè)備上執(zhí)行、部分地在用戶設(shè)備上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算設(shè)備上部分在遠程計算設(shè)備上執(zhí)行、或者完全在遠程計算設(shè)備或服務(wù)器上執(zhí)行。在涉及遠程計算設(shè)備的情形中,遠程計算設(shè)備可以通過任意種類的網(wǎng)絡(luò),包括局域網(wǎng)(lan)或廣域網(wǎng)(wan),連接到用戶計算設(shè)備,或者,可以連接到外部計算設(shè)備(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。應(yīng)當(dāng)注意,盡管在上文詳細描述中提及了用于動作執(zhí)行的設(shè)備的若干模塊或者單元,但是這種劃分并非強制性的。實際上,根據(jù)本公開的實施方式,上文描述的兩個或更多模塊或者單元的特征和功能可以在一個模塊或者單元中具體化。反之,上文描述的一個模塊或者單元的特征和功能可以進一步劃分為由多個模塊或者單元來具體化。此外,盡管在附圖中以特定順序描述了本公開中方法的各個步驟,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些步驟,或是必須執(zhí)行全部所示的步驟才能實現(xiàn)期望的結(jié)果。附加的或備選的,可以省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,以及/或者將一個步驟分解為多個步驟執(zhí)行等。通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,這里描述的示例實施方式可以通過軟件實現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實現(xiàn)。因此,根據(jù)本公開實施方式的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是cd-rom,u盤,移動硬盤等)中或網(wǎng)絡(luò)上,包括若干指令以使得一臺計算設(shè)備(可以是個人計算機、服務(wù)器、移動終端、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行根據(jù)本公開實施方式的方法。本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本技術(shù)旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由所附的權(quán)利要求指出。
背景技術(shù):
1、隨著自動駕駛技術(shù)的迅速發(fā)展,智能交通系統(tǒng)的智能化水平不斷提升,自動駕駛將徹底改變交通系統(tǒng),并被廣泛認為是有效緩解交通擁堵和減少交通事故的關(guān)鍵技術(shù)。
2、但是對于自動駕駛的測試,相關(guān)技術(shù)中的測試方法,例如,路徑規(guī)劃方法,存在策略單一,考慮因素較少,交互性差的問題,對自動駕駛路徑規(guī)劃的行進路徑不準(zhǔn)確。
3、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實現(xiàn)思路
1、本公開的目的在于提供一種自動駕駛路徑規(guī)劃方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品,至少在一定程度上解決現(xiàn)有技術(shù)中對自動駕駛路徑規(guī)劃不準(zhǔn)確的問題。
2、本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習(xí)得。
3、根據(jù)本公開的第一方面,提供了一種自動駕駛路徑規(guī)劃方法,所述方法包括:
4、獲取待規(guī)劃智能體的初始狀態(tài)和初始動作;
5、將所述初始狀態(tài)和初始動作輸入已訓(xùn)練的交通流仿真模型中,獲取所述交通流仿真模型中多個智能體與所述待規(guī)劃智能體的實時交互信息;所述交通流仿真模型為通過對多個智能體分為多個組,并通過上層架構(gòu)和下層架構(gòu)訓(xùn)練得到的;其中,所述下層架構(gòu)為對每個組進行組內(nèi)協(xié)同訓(xùn)練,所述上層架構(gòu)為對多個組進行組間協(xié)同訓(xùn)練;
6、根據(jù)所述實時交互信息,決策所述待規(guī)劃智能體的實時動作和實時狀態(tài);
7、根據(jù)預(yù)設(shè)時間段的所述實時動作和實時狀態(tài),確定所述行進路徑。
8、在一種可能的實施例中,所述待規(guī)劃智能體包括自動駕駛類型的智能體;
9、所述方法還包括:
10、訓(xùn)練多個交通流仿真模型;其中,在每個交通流仿真模型在訓(xùn)練過程中,針對自動駕駛類型的智能體生成不同的第一獎勵權(quán)重;所述第一獎勵權(quán)重表征在任意一種交通流仿真場景中,其他類型的智能體對所述自動駕駛類型的智能體進行決策動作時的獎勵值;其中,所述第一獎勵權(quán)重越大,獎勵值越大;所述獎勵值影響交通流仿真模型的損失值收斂;
11、根據(jù)不同的第一獎勵權(quán)重,得到每種交通流仿真場景下,自動駕駛類型的智能體的一個已訓(xùn)練的交通流仿真模型。
12、在一種可能的實施例中,所述方法還包括:
13、在自動駕駛測試過程中,獲取待測測試智能體的初始狀態(tài)和初始動作;
14、將待測測試智能體的初始狀態(tài)和初始動作分別輸入多個已訓(xùn)練的交通流仿真模型,得到不同的交通流仿真場景下的實時動作和實時狀態(tài);
15、根據(jù)不同交通流場景下的實時動作和實時狀態(tài),確定每個交通流場景下的行進路徑,得到多組行進路徑。
16、在一種可能的實施例中,所述方法還包括:
17、在交通流仿真模型的訓(xùn)練過程中,針對任意一個智能體,以所述任意一個智能體為中心,生成多個預(yù)設(shè)范圍;
18、針對所述任意一個智能體,向位于不同預(yù)設(shè)范圍內(nèi)其他智能體進行決策動作時,生成不同的第二獎勵權(quán)重;距離所述任意一個智能體的預(yù)設(shè)范圍越小,第二獎勵權(quán)重越大;
19、根據(jù)不同的第二獎勵權(quán)重,得到已訓(xùn)練的交通流仿真模型。
20、在一種可能的實施例中,所述交通流仿真模型的訓(xùn)練過程包括:
21、獲取交通流中的多個智能體,其中,智能體為相互之間存在信息交互的物體;
22、收集所述多個智能體當(dāng)前次的觀測狀態(tài)集合、動作集合、獎勵集合和下一次的觀測狀態(tài)集合,存儲至數(shù)據(jù)庫中作為訓(xùn)練數(shù)據(jù)集;所述獎勵集合表征智能體決策不同動作時對應(yīng)的獎勵值;
23、對多個智能體進行分組,得到多個分組;
24、根據(jù)所述訓(xùn)練數(shù)據(jù)集對所述交通流仿真模型的上層架構(gòu)和下層架構(gòu)進行訓(xùn)練,得到已訓(xùn)練的交通流仿真模型。
25、在一種可能的實施例中,所述根據(jù)所述訓(xùn)練數(shù)據(jù)集對所述交通流仿真模型的上層架構(gòu)和下層架構(gòu)進行訓(xùn)練,得到已訓(xùn)練的交通流仿真模型,包括:
26、從訓(xùn)練數(shù)據(jù)集中抽取訓(xùn)練樣本,根據(jù)訓(xùn)練樣本對交通流仿真模型進行迭代訓(xùn)練;
27、確定下層架構(gòu)的第一損失值和上層架構(gòu)的第二損失值;
28、若下層架構(gòu)的第一損失值不滿足第一預(yù)設(shè)值,或者,上層架構(gòu)的第二損失值不滿足第二預(yù)設(shè)值,則根據(jù)預(yù)設(shè)學(xué)習(xí)率調(diào)整交通流仿真模型的網(wǎng)絡(luò)參數(shù),直至所述第一損失值滿足第一預(yù)設(shè)值和所述第二損失值滿足第二預(yù)設(shè)值,得到已訓(xùn)練的交通流仿真模型。
29、在一種可能的實施例中,所述交通流仿真模型的一次迭代訓(xùn)練過程包括:
30、根據(jù)訓(xùn)練樣本中當(dāng)前時間步長下的觀測狀態(tài)、動作以及下一時間步長下的觀測狀態(tài),預(yù)測每個智能體在下一時間步長的動作;
31、根據(jù)當(dāng)前時間步長下的觀測狀態(tài)、動作、下一時間步長下的觀測狀態(tài),每個智能體在下一時間步長的動作,確定每個分組的預(yù)測群體q函數(shù)和每個分組內(nèi)每個智能體的預(yù)測局部q函數(shù);
32、根據(jù)當(dāng)前次的觀測狀態(tài)集合和動作集合,確定每個分組內(nèi)每個智能體的真實局部q函數(shù)和每個智能體在組內(nèi)的重要度權(quán)重參數(shù);
33、根據(jù)所述每個智能體在組內(nèi)的重要度權(quán)重參數(shù)、對應(yīng)當(dāng)前次的觀測狀態(tài)集合和動作集合,確定每個分組的真實群體q函數(shù);
34、根據(jù)每個分組的預(yù)測群體q函數(shù)、每個分組內(nèi)每個智能體的預(yù)測局部q函數(shù)、每個分組的真實群體q函數(shù)和每個分組內(nèi)每個智能體的真實局部q函數(shù),確定下層架構(gòu)的第一損失值和上層架構(gòu)的第二損失值。
35、根據(jù)本公開的再一方面,提供一種自動駕駛路徑規(guī)劃裝置,包括:
36、獲取單元,用于獲取待規(guī)劃智能體的初始狀態(tài)和初始動作;
37、實時信息獲取單元,用于將所述初始狀態(tài)和初始動作輸入已訓(xùn)練的交通流仿真模型中,獲取所述交通流仿真模型中多個智能體與所述待規(guī)劃智能體的實時交互信息;所述交通流仿真模型為通過對多個智能體分為多個組,并通過上層架構(gòu)和下層架構(gòu)訓(xùn)練得到的;其中,所述下層架構(gòu)為對每個組進行組內(nèi)協(xié)同訓(xùn)練,所述上層架構(gòu)為對多個組進行組間協(xié)同訓(xùn)練;
38、決策單元,用于根據(jù)所述實時交互信息,決策所述待規(guī)劃智能體的實時動作和實時狀態(tài);
39、路徑規(guī)劃單元,用于根據(jù)預(yù)設(shè)時間段的所述實時動作和實時狀態(tài),確定所述行進路徑。
40、在一種可能的實施例中,所述自動駕駛路徑規(guī)劃裝置,還包括:
41、離線訓(xùn)練單元,用于獲取交通流中的多個智能體,其中,智能體為相互之間存在信息交互的物體;
42、收集所述多個智能體當(dāng)前次的觀測狀態(tài)集合、動作集合、獎勵集合和下一次的觀測狀態(tài)集合,存儲至數(shù)據(jù)庫中作為訓(xùn)練數(shù)據(jù)集;所述獎勵集合表征智能體決策不同動作時對應(yīng)的獎勵值;
43、對定義的智能體進行分組,得到多個分組;
44、根據(jù)所述訓(xùn)練數(shù)據(jù)集對所述交通流仿真模型的上層架構(gòu)和下層架構(gòu)進行訓(xùn)練,得到已訓(xùn)練的交通流仿真模型
45、在一種可能的實施例中,所述離線訓(xùn)練單元,還用于:
46、所述多個智能體包括自動駕駛類型的智能體;
47、所述方法還包括:
48、訓(xùn)練多個交通流仿真模型;其中,在每個交通流仿真模型在訓(xùn)練過程中,針對自動駕駛類型的智能體生成不同的第一獎勵權(quán)重;所述第一獎勵權(quán)重表征在任意一種交通流仿真場景中,其他類型的智能體對所述自動駕駛類型的智能體進行決策動作時的獎勵值;其中,所述第一獎勵權(quán)重越大,獎勵值越大;所述獎勵值影響交通流仿真模型的損失值收斂;
49、根據(jù)不同的第一獎勵權(quán)重,得到每種交通流仿真場景下,自動駕駛類型的智能體的一個已訓(xùn)練的交通流仿真模型。
50、根據(jù)本公開的再一方面,提供一種電子設(shè)備,包括:處理器;以及存儲器,用于存儲所述處理器的可執(zhí)行指令;其中,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行第一方面中任意一項的方法。
51、根據(jù)本公開的再一方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)第一方面中任意一項的方法。
52、根據(jù)本公開的再一個方面,還提供了一種計算機程序產(chǎn)品或計算機程序,該計算機程序產(chǎn)品或計算機程序包括計算機指令,該計算機指令存儲在計算機可讀存儲介質(zhì)中。計算機設(shè)備的處理器從計算機可讀存儲介質(zhì)讀取該計算機指令,處理器執(zhí)行該計算機指令,使得該計算機設(shè)備執(zhí)行上述第一方面中所述的方法。
53、本公開的實施例所提供的一種自動駕駛路徑規(guī)劃方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品,涉及自動駕駛技術(shù)領(lǐng)域,該方法包括:獲取待規(guī)劃智能體的初始狀態(tài)和初始動作;將初始狀態(tài)和初始動作輸入已訓(xùn)練的交通流仿真模型中,獲取交通流仿真模型中多個智能體與待規(guī)劃智能體的實時交互信息;交通流仿真模型為通過對多個智能體分為多個組,并通過上層架構(gòu)和下層架構(gòu)訓(xùn)練得到的;其中,下層架構(gòu)為對每個組進行組內(nèi)協(xié)同訓(xùn)練,上層架構(gòu)為對多個組進行組間協(xié)同訓(xùn)練;根據(jù)實時交互信息,決策待規(guī)劃智能體的實時動作和實時狀態(tài);根據(jù)預(yù)設(shè)時間段的實時動作和實時狀態(tài),確定行進路徑。通過上述方式,可以基于交通流仿真模型對待規(guī)劃智能體實現(xiàn)與多個智能體之間的交互,獲取交互信息多,能夠模擬真實交通路況的信息,可以提高路徑規(guī)劃的精度。
54、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。