本發(fā)明屬于深度學(xué)習(xí)和序列預(yù)測,更具體地,涉及一種基于流式transformer的自動駕駛軌跡預(yù)測方法和系統(tǒng)。
背景技術(shù):
1、針對交通參與者的軌跡預(yù)測在自動駕駛研究領(lǐng)域里起著至關(guān)重要的作用,準(zhǔn)確地預(yù)測軌跡對于下游自車路徑規(guī)劃任務(wù)起關(guān)鍵影響。因此軌跡預(yù)測研究是目前自動駕駛領(lǐng)域深度學(xué)習(xí)的重要組成部分,展現(xiàn)出巨大的研究潛力和應(yīng)用價(jià)值。
2、現(xiàn)有的軌跡預(yù)測方法主要包括關(guān)注場景表征的方法、關(guān)注場景建模的方法、以及關(guān)注精準(zhǔn)預(yù)測的方法三種;關(guān)注場景表征的方法主要采用了向量化的表征,這種表征方式有效地表示了場景中高精地圖的結(jié)構(gòu)和交通參與者的運(yùn)動狀態(tài),從而極大地方便了模型的學(xué)習(xí)與建模;關(guān)注場景建模的方法則多采用基于transformer模型的深度學(xué)習(xí)方法,這類方法不僅能全面地建模高精地圖和交通參與者的內(nèi)部特征,還能高效地學(xué)習(xí)場景元素的空間關(guān)系,從而能確保模型給出準(zhǔn)確的預(yù)測軌跡;關(guān)注精準(zhǔn)預(yù)測的方法則通過預(yù)訓(xùn)練、額外的微調(diào)模塊或后處理方法等進(jìn)一步優(yōu)化初步的預(yù)測軌跡從而取得更為精準(zhǔn)的預(yù)測結(jié)果。
3、然而,現(xiàn)有的軌跡預(yù)測方法仍存在一些不可忽略的缺陷:第一、受限于現(xiàn)有獨(dú)立場景的訓(xùn)練數(shù)據(jù)集,這類方法只能有效利用局部窗口中的信息,這與實(shí)際應(yīng)用相沖突,因此導(dǎo)致模型與部署存在較大差異;第二、由于這類方法忽略了時(shí)序場景上下文間的聯(lián)系,因此限制了模型感知當(dāng)前場景不可視的信息,從而導(dǎo)致模型應(yīng)對突發(fā)情況的能力較弱;第三、由于這類方法只能獨(dú)立地預(yù)測每個(gè)場景,而忽略了時(shí)序間軌跡預(yù)測的一致性,因此會導(dǎo)致軌跡預(yù)測不夠準(zhǔn)確,且存在突變的問題。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種基于流式transformer的高自動駕駛軌跡預(yù)測方法和系統(tǒng),其目的在于,解決現(xiàn)有軌跡預(yù)測方法由于只能有效利用局部窗口中的信息,這與實(shí)際應(yīng)用相沖突,因此導(dǎo)致模型與部署存在較大差異的技術(shù)問題;以及由于沒有構(gòu)建時(shí)序的場景上下文關(guān)系,導(dǎo)致模型應(yīng)對突發(fā)情況能力較弱的技術(shù)問題;以及由于沒有關(guān)注時(shí)序間軌跡預(yù)測的一致性,導(dǎo)致模型的軌跡預(yù)測不夠準(zhǔn)確,且存在突變的技術(shù)問題。
2、為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種基于流式transformer的自動駕駛軌跡預(yù)測方法,包括以下步驟:
3、(1)獲取自動駕駛車輛的獨(dú)立場景數(shù)據(jù),并對該獨(dú)立場景數(shù)據(jù)進(jìn)行預(yù)處理,以得到預(yù)處理后的連續(xù)場景數(shù)據(jù)。
4、(2)將步驟(1)預(yù)處理后的連續(xù)場景數(shù)據(jù)輸入預(yù)先訓(xùn)練好的的流式transformer軌跡預(yù)測模型中,以獲取預(yù)測的未來軌跡。
5、優(yōu)選地,步驟(1)具體為:首先獲取每輛自動駕駛車輛的獨(dú)立場景數(shù)據(jù),其包括交通參與者的歷史軌跡及高精地圖,然后,根據(jù)該獨(dú)立場景數(shù)據(jù)中交通參與者的歷史軌跡選擇多個(gè)時(shí)間分割點(diǎn),并在該歷史軌跡上從每個(gè)時(shí)間分割點(diǎn)向前選取一段軌跡作為未來預(yù)測軌跡,從該時(shí)間分割點(diǎn)向后選取一段軌跡作為已知?dú)v史軌跡,所有時(shí)間分割點(diǎn)對應(yīng)的未來預(yù)測軌跡和已知?dú)v史軌跡組成連續(xù)軌跡片段;然后,根據(jù)每個(gè)時(shí)間分割點(diǎn)對獨(dú)立場景數(shù)據(jù)中的高精地圖進(jìn)行聚合處理,得到的處理結(jié)果和連續(xù)軌跡片段一起構(gòu)成連續(xù)場景數(shù)據(jù)。
6、優(yōu)選地,流式transformer軌跡預(yù)測模型包含用于單次處理的場景編碼器及未來軌跡解碼器、以及用于跨場景特征交互的場景上下文流和預(yù)測軌跡流。
7、場景編碼器包括地圖編碼器、歷史軌跡編碼器和交互編碼器。
8、地圖編碼器采用pointnet網(wǎng)絡(luò),其輸入是維度為nm×l×2的高精地圖向量,其中nm代表高精地圖向量的總數(shù)量,l代表每個(gè)高精地圖向量包含的點(diǎn)數(shù)量,特征維度2代表地圖在鳥瞰圖下的坐標(biāo)值;其對維度為nm×l×2的高精地圖向量先后進(jìn)行局部編碼和全局編碼處理,輸出維度為nm×c的地圖特征張量fm,其中c表示地圖特征張量的維度;
9、歷史軌跡編碼器是采用多層一維近鄰注意力(neighbor?attention)模塊,其輸入是維度為na×h×4的交通參與者的歷史軌跡向量,其中na代表交通參與者的總數(shù)量,h代表歷史軌跡的步數(shù),特征維度4則代表交通參與者的橫坐標(biāo)、縱坐標(biāo)、橫坐標(biāo)上的速度、以及縱坐標(biāo)上的速度,其對該維度為na×h×4的交通參與者的歷史軌跡進(jìn)行注意力加權(quán)編碼處理,輸出是維度為na×c的物體特征張量fa;
10、交互編碼器采用標(biāo)準(zhǔn)的transformer網(wǎng)絡(luò),其輸入是維度為nm×c的地圖特征張量fm與維度為na×c的物體特征張量fa,其將二者連接后,輸出維度為(na+nm)×c的當(dāng)前場景特征張量fs。
11、優(yōu)選地,未來軌跡解碼器的輸入為從當(dāng)前場景特征張量fs中提取出的維度為nfa×c的關(guān)注交通參與者特征張量ffa,該未來軌跡編碼器對該關(guān)注交通參與者特征張量ffa進(jìn)行解碼操作,最終輸出為多模態(tài)預(yù)測軌跡y,對應(yīng)的概率p及其對應(yīng)的特征fy,該多模態(tài)預(yù)測軌跡y的維度為nfa×nm×t×2,其中nfa代表交通參與者的數(shù)量,nm代表預(yù)測的軌跡模態(tài)數(shù),t為預(yù)測的未來軌跡的步數(shù),特征維度2指代坐標(biāo)位置。
12、場景上下文信息流的輸入為交互編碼器輸出的當(dāng)前場景特征張量fs、以及獲取到的歷史場景特征張量fs′,其使用分解注意力模塊對二者進(jìn)行處理,最終輸出為更新后的當(dāng)前場景特征張量,分解注意力模塊包括地圖-地圖注意力子模塊和物體-場景注意力子模塊;
13、預(yù)測軌跡信息流則置于未來軌跡解碼器之后,用于聯(lián)系歷史預(yù)測與當(dāng)前預(yù)測,其輸入為未來軌跡解碼器輸出的多模態(tài)預(yù)測軌跡y及其對應(yīng)的特征fy,通過交叉注意力模塊對二者進(jìn)行處理,最終輸出為更新后的多模態(tài)預(yù)測軌跡yr。
14、優(yōu)選地,流式transformer軌跡預(yù)測模型是通過以下步驟訓(xùn)練得到的:
15、(2-1)獲取用于軌跡預(yù)測的自動駕駛數(shù)據(jù)集,對該自動駕駛數(shù)據(jù)集進(jìn)行預(yù)處理,以得到預(yù)處理后的自動駕駛數(shù)據(jù)集,并采用vectornet模型中的向量化方法,對預(yù)處理后的自動駕駛數(shù)據(jù)集進(jìn)行向量格式轉(zhuǎn)換,以得到格式轉(zhuǎn)換后的自動駕駛數(shù)據(jù)集,并按照9:1的比例將該格式轉(zhuǎn)換后的自動駕駛數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集,其中自動駕駛數(shù)據(jù)集包括交通參與者的歷史與未來軌跡以及高精地圖。
16、(2-2)針對步驟(2-1)獲取的訓(xùn)練集中的每個(gè)自動駕駛場景片段而言,將該自動駕駛場景片段中的高精地圖向量m(其維度是nm×l×2)以及交通參與者的歷史軌跡向量a(其維度是na×h×4)輸入流式transformer軌跡預(yù)測模型中的地圖編碼器、歷史軌跡編碼器和交互編碼器,以分別獲取維度為nm×c的地圖特征張量fm、維度為na×c的物體特征張量fa、以及維度為(na+nm)×c的場景特征張量fs。
17、(2-3)場景上下文信息流采用分解注意力模塊(其包括地圖-地圖注意力子模塊和物體-場景注意力子模塊)對當(dāng)前場景特征張量fs及獲取到的歷史場景特征張量fs′進(jìn)行處理,以獲取更新后的當(dāng)前場景特征張量。
18、(2-4)從步驟(2-3)得到的更新后的當(dāng)前場景特征張量中提取出維度為nfa×c的關(guān)注交通參與者的特征張量ffa,并將其輸入未來軌跡解碼器中,以得到多模態(tài)軌跡y、對應(yīng)的概率p及其對應(yīng)的特征fy。
19、(2-5)將步驟(2-4)得到的多模態(tài)預(yù)測軌跡y及其對應(yīng)的特征fy輸入預(yù)測軌跡信息流,以得到更新后的多模態(tài)預(yù)測軌跡yr。需要注意的是,預(yù)測軌跡信息流中維護(hù)一個(gè)記憶軌跡庫,用于存儲和記錄歷史多模態(tài)預(yù)測軌跡y’及對應(yīng)的特征fy′。
20、(2-6)根據(jù)步驟(2-5)得到的更新后的多模態(tài)預(yù)測軌跡yr和步驟(2-4)得到的多模態(tài)預(yù)測軌跡y及其對應(yīng)的概率p計(jì)算損失函數(shù),并利用該損失函數(shù)對流式transformer軌跡預(yù)測模型進(jìn)行迭代訓(xùn)練,直到該流式transformer軌跡預(yù)測模型收斂為止,從而得到訓(xùn)練好的流式transformer軌跡預(yù)測模型。
21、(2-7)使用步驟(2-1)得到的驗(yàn)證集對步驟(2-6)初步訓(xùn)練好的流式transformer軌跡預(yù)測模型進(jìn)行驗(yàn)證,以得到最終訓(xùn)練好的流式transformer軌跡預(yù)測模型。
22、優(yōu)選地,步驟(2-1)中采用的自動駕駛數(shù)據(jù)集是argoverse?1和argoverse2數(shù)據(jù)集,前者是在邁阿密和匹茲堡采集的323557個(gè)自動駕駛場景片段,每個(gè)自動駕駛場景片段都包含3秒的已知?dú)v史軌跡、2秒的未來預(yù)測軌跡以及高精地圖,而后者則是多至6個(gè)城市采集的共250000個(gè)自動駕駛場景片段,每個(gè)自動駕駛場景片段都包含5秒的已知?dú)v史軌跡、6秒的未來預(yù)測軌跡以及高精地圖。兩個(gè)數(shù)據(jù)集都采用10赫茲的采樣頻率且每個(gè)場景僅使用半徑150米的高精地圖及交通參與者。
23、步驟(2-2)中的地圖編碼器采用pointnet網(wǎng)絡(luò),步驟(2-2)具體為,首先通過多層感知機(jī)將高精地圖向量m映射為高維特征,隨后,采用最大池化操作對該高精地圖向量m進(jìn)行處理,以獲取該高精地圖向量m對應(yīng)的全局特征,之后,將全局特征與高精地圖向量m中的每個(gè)點(diǎn)特征相連接,以得到包含全局信息的點(diǎn)特征,之后,對所有點(diǎn)特征重復(fù)一次上述映射操作和最大池化操作,從而得到維度為nm×c的地圖特征張量fm。物體編碼器采用近鄰注意力網(wǎng)絡(luò),其通過多層堆疊的近鄰注意力模塊對自動駕駛場景片段中交通參與者的歷史軌跡向量a進(jìn)行時(shí)序上的壓縮及特征升維的處理,以得到維度為na×c的物體特征張量fa,并對物體特征張量fa與地圖特征張量fm進(jìn)行連接操作,以得到初步的場景特征張量,隨后,交互編碼器采用標(biāo)準(zhǔn)的transformer編碼器對該初步的場景特征張量進(jìn)行處理,以得到場景特征張量fs。
24、優(yōu)選地,步驟(2-3)具體為,分解注意力模塊首先對當(dāng)前場景特征張量fs及獲取到的歷史場景特征張量fs′進(jìn)行拆分處理,以分別得到當(dāng)前物體特征張量、當(dāng)前地圖特征張量、歷史物體特征張量、以及歷史地圖特征張量,其后,分解注意力模塊中的地圖-地圖注意力模塊以當(dāng)前地圖特征張量和歷史地圖特征張量為輸入、以當(dāng)前地圖特征張量為查詢特征、以歷史地圖特征張量為鍵值特征進(jìn)行注意力操作處理,以得到更新后的當(dāng)前地圖特征張量;同時(shí),物體-場景注意力模塊以當(dāng)前物體特征張量與歷史場景特征張量為輸入、以當(dāng)前物體特征張量作為查詢特征、以歷史場景特征作為鍵值特征進(jìn)行注意力操作處理,以得到更新后的當(dāng)前場景特征張量;最后,分解注意力模塊將更新后的當(dāng)前物體特征張量與地圖特征張量進(jìn)行連接操作,以得到更新后的當(dāng)前場景特征張量。
25、優(yōu)選地,步驟(2-5)具體為,首先預(yù)測軌跡信息流首先獲取存儲在預(yù)測軌跡信息流中記憶軌跡庫中的歷史多模態(tài)預(yù)測軌跡y’及對應(yīng)的特征fy′,并對該歷史多模態(tài)預(yù)測軌跡y’進(jìn)行旋轉(zhuǎn)平移變換處理,以得到變換后的歷史多模態(tài)預(yù)測軌跡如下:
26、
27、其中r(θ)和y分別表示歷史多模態(tài)預(yù)測軌跡y’對應(yīng)的旋轉(zhuǎn)矩陣和軌跡中心。
28、然后,預(yù)測軌跡信息流將多模態(tài)預(yù)測軌跡y及其對應(yīng)的特征fy作為查詢特征,變換后的多模態(tài)預(yù)測軌跡及其對應(yīng)的特征作為鍵值特征輸入注意力模塊中,以獲取更新后的特征fyr:
29、
30、其中mha表示注意力操作,q、k、v分別表示該操作所使用的查詢特征、鍵特征和值特征,te表示軌跡編碼操作。
31、最后,將更新后的特征fyr輸入多層感知機(jī)模塊中,以獲取更新后的多模態(tài)預(yù)測軌跡yr并作為最終的網(wǎng)絡(luò)輸出。
32、優(yōu)選地,步驟(2-6)采用的損失函數(shù)loss為:
33、loss=lossreg+losscls+lossrefine
34、其中:
35、lossreg=lsmoothl1(y,y)
36、losscls=lce(p,p)
37、lossrefine=lsmoothl1(yr,y)
38、其中l(wèi)smoothl1表示smooth-l1函數(shù),lce表示交叉熵函數(shù),y表示多模態(tài)預(yù)測軌跡的真實(shí)值,p表示多模態(tài)預(yù)測軌跡對應(yīng)的概率的真實(shí)值。
39、按照本發(fā)明的另一方面,提供了一種基于流式transformer的自動駕駛軌跡預(yù)測方法,包括:
40、第一模塊,用于獲取自動駕駛車輛的獨(dú)立場景數(shù)據(jù),并對該獨(dú)立場景數(shù)據(jù)進(jìn)行預(yù)處理,以得到預(yù)處理后的連續(xù)場景數(shù)據(jù)。
41、第二模塊,用于將第一模塊預(yù)處理后的連續(xù)場景數(shù)據(jù)輸入預(yù)先訓(xùn)練好的的流式transformer軌跡預(yù)測模型中,以獲取預(yù)測的未來軌跡。
42、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:
43、(1)本發(fā)明由于在流式transformer軌跡預(yù)測模型中采用了步驟(1),其通過對現(xiàn)有數(shù)據(jù)集進(jìn)行了重組,從而將對立的駕駛場景轉(zhuǎn)變成了連續(xù)的駕駛子場景,從而能在一定程度上模擬真實(shí)的駕駛情況,因此能夠緩解現(xiàn)有方法存在的在真實(shí)應(yīng)用場景次優(yōu)低效的技術(shù)問題;
44、(2)本發(fā)明由于在流式transformer軌跡預(yù)測模型訓(xùn)練過程中采用了步驟(2-3),其通過場景上下文信息流實(shí)現(xiàn)了當(dāng)前場景特征與歷史場景特征的時(shí)序交互,更好地利用歷史信息,從而能有效擴(kuò)大了感知范圍并預(yù)測一些當(dāng)前不可見的情況,因此能夠解決現(xiàn)有方法無法利用歷史場景上下文及難以應(yīng)對可能存在的突發(fā)情況的技術(shù)問題;
45、(3)本發(fā)明由于在流式transformer軌跡預(yù)測模型訓(xùn)練過程中采用了步驟(2-5),其通過軌跡預(yù)測信息流,利用歷史軌跡來約束和優(yōu)化當(dāng)前的預(yù)測,從而有效改善了當(dāng)前軌跡的準(zhǔn)確度,因此解決了現(xiàn)有時(shí)序軌跡不一致性導(dǎo)致當(dāng)前預(yù)測軌跡不夠準(zhǔn)確且存在突變的技術(shù)問題;
46、(4)本發(fā)明由于在流式transformer軌跡預(yù)測模型訓(xùn)練過程中采用了步驟(2-5),其通過采用軌跡編碼的注意力模塊及記憶軌跡庫保留歷史軌跡,進(jìn)而顯式地引入了對軌跡時(shí)序一致性的限制,利用歷史存在的運(yùn)動范式簡化當(dāng)前場景的預(yù)測難度,因此能夠增強(qiáng)模型對于突變運(yùn)動情況的泛化能力,從而提高軌跡預(yù)測的準(zhǔn)確性。