基于SAM模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)與流程

文檔序號：40535656發(fā)布日期：2025-01-03 10:54閱讀：5來源：國知局

本發(fā)明涉及自動駕駛圖像識別，尤其涉及一種基于sam模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)。

背景技術：

1、現(xiàn)有的視覺大模型例如sam（segment?anything，是meta?ai提出的一個致力于圖像分割的基礎模型，它可以根據(jù)夠根據(jù)指定對象的提示，預測對象掩碼），使用超大規(guī)模的的數(shù)據(jù)用于模型訓練，展現(xiàn)了強大的圖像分割能力。然而，sam在訓練過程中只使用了rgb圖像，因此其只能用于rgb圖像的分割，限制了sam在多模態(tài)分割任務中的實際應用。

2、在現(xiàn)有技術中，高效微調(diào)模型的方法已經(jīng)能夠?qū)⑾駍am這樣的視覺大模型適配到自動駕駛領域。例如，lora（low-rank?adaptation，低秩適配）技術通過引入低秩矩陣來進行微調(diào)，使得大模型在特定任務中表現(xiàn)出色，而無需重新訓練整個模型。

3、然而，這些技術的應用主要集中在單一模態(tài)圖像的處理上，特別是rgb圖像。而自動駕駛領域越來越多的采用激光雷達圖像+多個攝像頭圖像的多模態(tài)識別方案，以實現(xiàn)3d、4d感知。雖然現(xiàn)有的這些方法可以高效地將sam適配到自動駕駛領域，但無法將其拓展到處理多模態(tài)分割任務上。例如，lora技術雖然能夠高效地訓練和適配模型，但它局限于rgb圖像數(shù)據(jù)進行微調(diào)，缺乏對深度圖像（相比于rgb圖像，深度圖像的每個像素點的值可用于表征場景中某一點距離攝像機的遠近）等其他模態(tài)的支持。因此，現(xiàn)有技術在多模態(tài)自動駕駛圖像分割任務中的應用仍然具有較大的局限性，無法滿足日益增長的多模態(tài)自動駕駛圖像數(shù)據(jù)的處理需求。

技術實現(xiàn)思路

1、本發(fā)明實施例所要解決的技術問題在于，提供一種基于sam模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)，以滿足多模態(tài)自動駕駛圖像數(shù)據(jù)的處理需求。

2、為了解決上述技術問題，本發(fā)明實施例提出了一種基于sam模型的多模態(tài)自動駕駛圖像分割方法，包括：

3、構建步驟：構建用于分割多模態(tài)自動駕駛圖像的sam模型，所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊，其中，模態(tài)編碼器對輸入的非rgb模態(tài)的自動駕駛圖像進行編碼，獲取非rgb模態(tài)的自動駕駛圖像的非rgb特征；深度感知模塊根據(jù)獲取的非rgb特征與rgb特征進行交互，完成非rgb特征的增強并輸入至圖像編碼器；

4、訓練步驟：使用交叉熵損失和dice損失來訓練所述sam模型，得到訓練好的sam模型，其中，在訓練過程中凍結(jié)圖像編碼器的參數(shù)，以提高訓練效率和降低計算資源需求；

5、識別步驟：將多模態(tài)的自動駕駛圖像輸入訓練好的sam模型，所述sam模型根據(jù)點擊提示或者物體框提示輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。

6、相應地，本發(fā)明實施例還提供了一種基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng)，包括：

7、構建單元：構建用于分割多模態(tài)自動駕駛圖像的sam模型，所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊，其中，模態(tài)編碼器對輸入的非rgb模態(tài)的自動駕駛圖像進行編碼，獲取非rgb模態(tài)的自動駕駛圖像的非rgb特征；深度感知模塊根據(jù)獲取的非rgb特征與rgb特征進行交互，完成非rgb特征的增強并輸入至圖像編碼器；

8、訓練單元：使用交叉熵損失和dice損失來訓練所述sam模型，得到訓練好的sam模型，其中，訓練單元在訓練過程中凍結(jié)圖像編碼器的參數(shù)，以提高訓練效率和降低計算資源需求；

9、識別單元：將多模態(tài)的自動駕駛圖像輸入訓練好的sam模型，所述sam模型根據(jù)點擊提示或者物體框提示輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。

10、本發(fā)明的有益效果為：

11、（1）本發(fā)明通過集成輕量級的深度感知模塊，模型無需改變原有的sam結(jié)構，即可處理包括非rgb圖像在內(nèi)的多模態(tài)的自動駕駛圖像數(shù)據(jù)。這意味著原本只能用于rgb圖像分割的sam，現(xiàn)在可以擴展到rgb-d圖像等多模態(tài)的自動駕駛圖像數(shù)據(jù)的分割，極大地提升了自動駕駛圖像的識別效率。

12、（2）本發(fā)明在保證計算效率和資源利用率的前提下，實現(xiàn)了對sam模型性能的顯著提升。本發(fā)明相比于重新訓練整個模型或使用更復雜的網(wǎng)絡結(jié)構，本發(fā)明既節(jié)省了計算資源，又加快了模型的訓練速度，同時確保了多模態(tài)的自動駕駛圖像數(shù)據(jù)處理的高效性。

13、（3）本發(fā)明在多模態(tài)的自動駕駛圖像分割任務中取得了優(yōu)異的性能表現(xiàn)。實驗結(jié)果表明，增強后的sam在多模態(tài)的自動駕駛圖像數(shù)據(jù)上的分割精度和魯棒性顯著提升，能夠更準確地處理復雜的自動駕駛場景中的各種模態(tài)的圖像信息。

技術特征：

1.一種基于sam模型的多模態(tài)自動駕駛圖像分割方法，其特征在于，包括：

2.如權利要求1所述的基于sam模型的多模態(tài)自動駕駛圖像分割方法，其特征在于，深度感知模塊包括兩個跨模態(tài)注意力模塊，兩個跨模態(tài)注意力模塊分別完成非rgb特征到rgb特征的增強和完成rgb特征對非rgb特征的增強，

3.如權利要求1所述的基于sam模型的多模態(tài)自動駕駛圖像分割方法，其特征在于，訓練步驟中，采用下式訓練所述sam模型：

4.一種基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng)，其特征在于，包括：

5.如權利要求4所述的基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng)，其特征在于，深度感知模塊包括兩個跨模態(tài)注意力模塊，兩個跨模態(tài)注意力模塊分別完成非rgb特征到rgb特征的增強和完成rgb特征對非rgb特征的增強，

6.如權利要求4所述的基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng)，其特征在于，訓練單元采用下式訓練所述sam模型：

技術總結(jié)
本發(fā)明實施例公開了一種基于SAM模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)，所述方法包括：構建步驟：構建SAM模型，所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊；訓練步驟：使用交叉熵損失和Dice損失來訓練模型；識別步驟：將多模態(tài)的自動駕駛圖像輸入模型，輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。本發(fā)明通過引入輕量級的模態(tài)編碼器和深度感知模塊，實現(xiàn)了對深度信息或者其他模態(tài)信息的特征編碼，深度感知模塊將編碼的深度信息注入到SAM模型的骨干網(wǎng)絡中，實現(xiàn)深度特征和RGB特征的交替增強，從而實現(xiàn)了對SAM模型的多模態(tài)拓展，避免了對于每一種多模態(tài)任務都重新訓練大模型的巨大計算開銷。

技術研發(fā)人員：林志坤,劉鵬,蔡忠鵬,何宜兵,張神力
受保護的技術使用者：深圳天海宸光科技有限公司
技術研發(fā)日：
技術公布日：2025/1/2

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：林志坤,劉鵬,蔡忠鵬,何宜兵,張神力
技術所有人：深圳天海宸光科技有限公司
我是此專利的發(fā)明人

上一篇：一種土建工程用多功能防護欄的制作方法
上一篇：膠管壓力循環(huán)測試臺的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于SAM模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)與流程