本發(fā)明涉及自動駕駛圖像識別,尤其涉及一種基于sam模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)。
背景技術:
1、現(xiàn)有的視覺大模型例如sam(segment?anything,是meta?ai提出的一個致力于圖像分割的基礎模型,它可以根據(jù)夠根據(jù)指定對象的提示,預測對象掩碼),使用超大規(guī)模的的數(shù)據(jù)用于模型訓練,展現(xiàn)了強大的圖像分割能力。然而,sam在訓練過程中只使用了rgb圖像,因此其只能用于rgb圖像的分割,限制了sam在多模態(tài)分割任務中的實際應用。
2、在現(xiàn)有技術中,高效微調(diào)模型的方法已經(jīng)能夠?qū)⑾駍am這樣的視覺大模型適配到自動駕駛領域。例如,lora(low-rank?adaptation,低秩適配)技術通過引入低秩矩陣來進行微調(diào),使得大模型在特定任務中表現(xiàn)出色,而無需重新訓練整個模型。
3、然而,這些技術的應用主要集中在單一模態(tài)圖像的處理上,特別是rgb圖像。而自動駕駛領域越來越多的采用激光雷達圖像+多個攝像頭圖像的多模態(tài)識別方案,以實現(xiàn)3d、4d感知。雖然現(xiàn)有的這些方法可以高效地將sam適配到自動駕駛領域,但無法將其拓展到處理多模態(tài)分割任務上。例如,lora技術雖然能夠高效地訓練和適配模型,但它局限于rgb圖像數(shù)據(jù)進行微調(diào),缺乏對深度圖像(相比于rgb圖像,深度圖像的每個像素點的值可用于表征場景中某一點距離攝像機的遠近)等其他模態(tài)的支持。因此,現(xiàn)有技術在多模態(tài)自動駕駛圖像分割任務中的應用仍然具有較大的局限性,無法滿足日益增長的多模態(tài)自動駕駛圖像數(shù)據(jù)的處理需求。
技術實現(xiàn)思路
1、本發(fā)明實施例所要解決的技術問題在于,提供一種基于sam模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng),以滿足多模態(tài)自動駕駛圖像數(shù)據(jù)的處理需求。
2、為了解決上述技術問題,本發(fā)明實施例提出了一種基于sam模型的多模態(tài)自動駕駛圖像分割方法,包括:
3、構建步驟:構建用于分割多模態(tài)自動駕駛圖像的sam模型,所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊,其中,模態(tài)編碼器對輸入的非rgb模態(tài)的自動駕駛圖像進行編碼,獲取非rgb模態(tài)的自動駕駛圖像的非rgb特征;深度感知模塊根據(jù)獲取的非rgb特征與rgb特征進行交互,完成非rgb特征的增強并輸入至圖像編碼器;
4、訓練步驟:使用交叉熵損失和dice損失來訓練所述sam模型,得到訓練好的sam模型,其中,在訓練過程中凍結(jié)圖像編碼器的參數(shù),以提高訓練效率和降低計算資源需求;
5、識別步驟:將多模態(tài)的自動駕駛圖像輸入訓練好的sam模型,所述sam模型根據(jù)點擊提示或者物體框提示輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。
6、相應地,本發(fā)明實施例還提供了一種基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),包括:
7、構建單元:構建用于分割多模態(tài)自動駕駛圖像的sam模型,所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊,其中,模態(tài)編碼器對輸入的非rgb模態(tài)的自動駕駛圖像進行編碼,獲取非rgb模態(tài)的自動駕駛圖像的非rgb特征;深度感知模塊根據(jù)獲取的非rgb特征與rgb特征進行交互,完成非rgb特征的增強并輸入至圖像編碼器;
8、訓練單元:使用交叉熵損失和dice損失來訓練所述sam模型,得到訓練好的sam模型,其中,訓練單元在訓練過程中凍結(jié)圖像編碼器的參數(shù),以提高訓練效率和降低計算資源需求;
9、識別單元:將多模態(tài)的自動駕駛圖像輸入訓練好的sam模型,所述sam模型根據(jù)點擊提示或者物體框提示輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。
10、本發(fā)明的有益效果為:
11、(1)本發(fā)明通過集成輕量級的深度感知模塊,模型無需改變原有的sam結(jié)構,即可處理包括非rgb圖像在內(nèi)的多模態(tài)的自動駕駛圖像數(shù)據(jù)。這意味著原本只能用于rgb圖像分割的sam,現(xiàn)在可以擴展到rgb-d圖像等多模態(tài)的自動駕駛圖像數(shù)據(jù)的分割,極大地提升了自動駕駛圖像的識別效率。
12、(2)本發(fā)明在保證計算效率和資源利用率的前提下,實現(xiàn)了對sam模型性能的顯著提升。本發(fā)明相比于重新訓練整個模型或使用更復雜的網(wǎng)絡結(jié)構,本發(fā)明既節(jié)省了計算資源,又加快了模型的訓練速度,同時確保了多模態(tài)的自動駕駛圖像數(shù)據(jù)處理的高效性。
13、(3)本發(fā)明在多模態(tài)的自動駕駛圖像分割任務中取得了優(yōu)異的性能表現(xiàn)。實驗結(jié)果表明,增強后的sam在多模態(tài)的自動駕駛圖像數(shù)據(jù)上的分割精度和魯棒性顯著提升,能夠更準確地處理復雜的自動駕駛場景中的各種模態(tài)的圖像信息。
1.一種基于sam模型的多模態(tài)自動駕駛圖像分割方法,其特征在于,包括:
2.如權利要求1所述的基于sam模型的多模態(tài)自動駕駛圖像分割方法,其特征在于,深度感知模塊包括兩個跨模態(tài)注意力模塊,兩個跨模態(tài)注意力模塊分別完成非rgb特征到rgb特征的增強和完成rgb特征對非rgb特征的增強,
3.如權利要求1所述的基于sam模型的多模態(tài)自動駕駛圖像分割方法,其特征在于,訓練步驟中,采用下式訓練所述sam模型:
4.一種基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),其特征在于,包括:
5.如權利要求4所述的基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),其特征在于,深度感知模塊包括兩個跨模態(tài)注意力模塊,兩個跨模態(tài)注意力模塊分別完成非rgb特征到rgb特征的增強和完成rgb特征對非rgb特征的增強,
6.如權利要求4所述的基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),其特征在于,訓練單元采用下式訓練所述sam模型: