本發(fā)明涉及計算機視覺,具體地說是一種基于單到多模態(tài)知識蒸餾的跨模態(tài)駕駛場景激光點云分割方法。
背景技術:
1、語義分割在大規(guī)模戶外場景理解中起著至關重要的作用,并已廣泛應用于自動駕駛、機器人及相關領域。近年來,學術界和工業(yè)界在使用不同傳感器(如相機圖像和激光雷達點云)實現準確且可靠的分割結果方面做出了巨大努力。盡管每種模態(tài)各有其優(yōu)點,但也不可避免地面臨獨特的挑戰(zhàn)。例如,相機圖像提供了豐富的顏色和紋理信息,但在深度上存在模糊性,并且對光照變化敏感。而激光雷達點云包含準確的深度和幾何信息,并且對環(huán)境變化具有較強的魯棒性,但缺乏顏色描述符。此外,隨著距離的增加,點云的密度也會急劇下降。
2、結合激光雷達點云和圖像進行魯棒的語義分割展現了巨大的潛力。然而,兩種模態(tài)之間的異質性(例如密度、視野范圍)在建立每個點與像素之間的雙射映射時帶來了挑戰(zhàn)。該模態(tài)對齊問題在跨模態(tài)方法的網絡設計和數據處理方面引入了新的挑戰(zhàn),具體表現為:1)投射到圖像平面之外的激光雷達點會面臨模態(tài)缺失問題;2)在模型訓練過程中,保持幾何一致性的復雜性限制了許多數據增強技術的應用,從而影響了模型的推理精度和泛化能力;3)圖像模態(tài)的缺失會嚴重影響模型的推理精度,造成模型的魯棒性下降。
3、為了應對上述挑戰(zhàn),當前的研究方法致力于在網絡訓練和推理時去除沒有出現在相機視野內的點云,或者使用復雜的transformer模塊來補全缺失的圖像特征。第一種方法會導致網絡的預測存在盲區(qū),導致潛在的安全隱患,而第二種方法雖然能起到作用,但是會帶來巨大的顯存開銷和推理延遲,無法適應自動駕駛場景的實時性需求。
4、綜上所述,開發(fā)一種能分割相機視野外激光雷達點云,在訓練過程中能自由的使用多種數據增強方法,且在圖像模態(tài)缺失時能依靠點云單一模態(tài)給出合理分割結果的跨模態(tài)點云分割方法,是亟待解決的關鍵問題。
技術實現思路
1、本發(fā)明的目的是針對現有技術的不足而設計的一種跨模態(tài)駕駛場景激光點云分割方法,利用預訓練過的單一模態(tài)激光雷達分割網絡作為教師網絡,輔助監(jiān)督訓練同時由點云分支、圖像分支以及雙向特征融合補全模塊組成的跨模態(tài)點云分割網絡,其中雙向特征融合補全模塊用來實現特征的雙向融合與傳遞并補全缺損的圖像特征。該方法利用車載激光雷達和環(huán)視相機拍攝的彩色圖像,通過具有點云分支和圖像分支的分割網絡,得到點云分割結果,有效解決了駕駛場景中,由于車載激光雷達和環(huán)視相機視野范圍差異導致的部分激光雷達點無法獲取對應的像素,使用數據增強后難以維持點云和圖像的對應關系,以及由于圖像特征缺失導致的分割精度下降問題,在駕駛場景數據集上顯著提升了點云分割精度同時提升了點云分割的魯棒性,方法簡便,使用效果好,具有良好的運用前景和商業(yè)開發(fā)價值。
2、本發(fā)明的目的是這樣實現的:一種跨模態(tài)駕駛場景激光點云分割方法,其特點是該方法具體包括:
3、步驟1:數據集準備和預處理
4、收集大量駕駛場景中車載激光雷達和相機拍攝的激光雷達點云和環(huán)視圖像,分別記為p和i,對激光雷達點云標注逐點語義標簽,記為y,環(huán)視圖像無需標記。標定相機內參,激光雷達以及相機相對車輛的變換矩陣。
5、步驟2:構建和訓練激光雷達分割網絡
6、基于三維稀疏卷積構建編碼器-解碼器結構的激光雷達點云分割網絡,將激光雷達點云經過多幀融合和實例增強等數據增強,記為數據增強a,以及隨機旋轉、翻轉和縮放這些數據增強,記為數據再增強b,后輸入到激光雷達點云分割網絡,使用逐點真值語義標簽對網絡進行監(jiān)督。
7、步驟3:構建基于雙向特征融合補全模塊的跨模態(tài)點云分割網絡
8、構建包含點云分支、圖像分支以及雙向特征融合補全模塊的跨模態(tài)點云分割網絡,其中點云分支是由三維稀疏卷積構建的編碼器-解碼器結構的激光雷達點云分割模型,圖像分支是由二維卷積算子構建的編碼器-解碼器結構的圖像分割模型,雙向特征融合補全模塊由若干卷積層和多層感知機組成,可對缺失匹配圖像特征的點云特征進行補全,并將輸入的相匹配的點云特征和圖像特征進行融合后返還到對應點云和圖像分支。
9、步驟4:聯合訓練
10、4-1:輸入激光雷達點云和多幀環(huán)視圖像;
11、4-2:將激光雷達點云經過數據增強a和數據再增強b后輸入激光雷達分割網絡,得到編碼器特征和預測結果;
12、4-3:將激光雷達點云經過數據再增強b及其對應的環(huán)視圖像經過隨機刪除固定數量圖像,后輸入基于雙向特征融合補全模塊的跨模態(tài)點云分割網絡,得到點云分支編碼器特征和跨模態(tài)預測結果;
13、4-4:利用激光雷達點云標注逐點語義標簽,以及步驟4-2得到的激光雷達分割網絡的編碼器特征和預測結果來監(jiān)督步驟4-3得到的點云分支編碼器特征和跨模態(tài)預測結果,從而對基于雙向特征融合補全模塊的跨模態(tài)點云分割網絡進行訓練。
14、步驟5:前饋推理
15、將駕駛場景的激光雷達點云及其對應的環(huán)視圖像輸入訓練好的跨模態(tài)點云分割網絡,以前饋的方式得到激光雷達點云的分割結果。
16、本發(fā)明與現有技術相比具有在駕駛場景數據集上顯著提升了點云分割精度同時提升了點云分割的魯棒性,解決了車載激光雷達和環(huán)視相機視野范圍差異導致的部分激光雷達點無法獲取對應的像素,使用數據增強后難以維持點云和圖像的對應關系,以及由于圖像特征缺失導致的分割精度下降問題。
1.一種跨模態(tài)駕駛場景激光點云分割方法,其特征在于,采用基于單到多模態(tài)知識蒸餾的方法,利用預訓練過的單一模態(tài)激光雷達分割網絡作為教師網絡,輔助監(jiān)督訓練同時具有點云分支和圖像分支的跨模態(tài)點云分割網絡,將點云分支和圖像分支之間通過雙向特征融合補全模塊進行特征的雙向融合與傳遞,并補全缺損的圖像特征,實現跨模態(tài)駕駛場景激光點云分割具體步驟如下: