欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于SAM模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)與流程

文檔序號:40535656發(fā)布日期:2025-01-03 10:54閱讀:5來源:國知局
基于SAM模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)與流程

本發(fā)明涉及自動駕駛圖像識別,尤其涉及一種基于sam模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng)。


背景技術:

1、現(xiàn)有的視覺大模型例如sam(segment?anything,是meta?ai提出的一個致力于圖像分割的基礎模型,它可以根據(jù)夠根據(jù)指定對象的提示,預測對象掩碼),使用超大規(guī)模的的數(shù)據(jù)用于模型訓練,展現(xiàn)了強大的圖像分割能力。然而,sam在訓練過程中只使用了rgb圖像,因此其只能用于rgb圖像的分割,限制了sam在多模態(tài)分割任務中的實際應用。

2、在現(xiàn)有技術中,高效微調(diào)模型的方法已經(jīng)能夠?qū)⑾駍am這樣的視覺大模型適配到自動駕駛領域。例如,lora(low-rank?adaptation,低秩適配)技術通過引入低秩矩陣來進行微調(diào),使得大模型在特定任務中表現(xiàn)出色,而無需重新訓練整個模型。

3、然而,這些技術的應用主要集中在單一模態(tài)圖像的處理上,特別是rgb圖像。而自動駕駛領域越來越多的采用激光雷達圖像+多個攝像頭圖像的多模態(tài)識別方案,以實現(xiàn)3d、4d感知。雖然現(xiàn)有的這些方法可以高效地將sam適配到自動駕駛領域,但無法將其拓展到處理多模態(tài)分割任務上。例如,lora技術雖然能夠高效地訓練和適配模型,但它局限于rgb圖像數(shù)據(jù)進行微調(diào),缺乏對深度圖像(相比于rgb圖像,深度圖像的每個像素點的值可用于表征場景中某一點距離攝像機的遠近)等其他模態(tài)的支持。因此,現(xiàn)有技術在多模態(tài)自動駕駛圖像分割任務中的應用仍然具有較大的局限性,無法滿足日益增長的多模態(tài)自動駕駛圖像數(shù)據(jù)的處理需求。


技術實現(xiàn)思路

1、本發(fā)明實施例所要解決的技術問題在于,提供一種基于sam模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng),以滿足多模態(tài)自動駕駛圖像數(shù)據(jù)的處理需求。

2、為了解決上述技術問題,本發(fā)明實施例提出了一種基于sam模型的多模態(tài)自動駕駛圖像分割方法,包括:

3、構建步驟:構建用于分割多模態(tài)自動駕駛圖像的sam模型,所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊,其中,模態(tài)編碼器對輸入的非rgb模態(tài)的自動駕駛圖像進行編碼,獲取非rgb模態(tài)的自動駕駛圖像的非rgb特征;深度感知模塊根據(jù)獲取的非rgb特征與rgb特征進行交互,完成非rgb特征的增強并輸入至圖像編碼器;

4、訓練步驟:使用交叉熵損失和dice損失來訓練所述sam模型,得到訓練好的sam模型,其中,在訓練過程中凍結(jié)圖像編碼器的參數(shù),以提高訓練效率和降低計算資源需求;

5、識別步驟:將多模態(tài)的自動駕駛圖像輸入訓練好的sam模型,所述sam模型根據(jù)點擊提示或者物體框提示輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。

6、相應地,本發(fā)明實施例還提供了一種基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),包括:

7、構建單元:構建用于分割多模態(tài)自動駕駛圖像的sam模型,所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊,其中,模態(tài)編碼器對輸入的非rgb模態(tài)的自動駕駛圖像進行編碼,獲取非rgb模態(tài)的自動駕駛圖像的非rgb特征;深度感知模塊根據(jù)獲取的非rgb特征與rgb特征進行交互,完成非rgb特征的增強并輸入至圖像編碼器;

8、訓練單元:使用交叉熵損失和dice損失來訓練所述sam模型,得到訓練好的sam模型,其中,訓練單元在訓練過程中凍結(jié)圖像編碼器的參數(shù),以提高訓練效率和降低計算資源需求;

9、識別單元:將多模態(tài)的自動駕駛圖像輸入訓練好的sam模型,所述sam模型根據(jù)點擊提示或者物體框提示輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。

10、本發(fā)明的有益效果為:

11、(1)本發(fā)明通過集成輕量級的深度感知模塊,模型無需改變原有的sam結(jié)構,即可處理包括非rgb圖像在內(nèi)的多模態(tài)的自動駕駛圖像數(shù)據(jù)。這意味著原本只能用于rgb圖像分割的sam,現(xiàn)在可以擴展到rgb-d圖像等多模態(tài)的自動駕駛圖像數(shù)據(jù)的分割,極大地提升了自動駕駛圖像的識別效率。

12、(2)本發(fā)明在保證計算效率和資源利用率的前提下,實現(xiàn)了對sam模型性能的顯著提升。本發(fā)明相比于重新訓練整個模型或使用更復雜的網(wǎng)絡結(jié)構,本發(fā)明既節(jié)省了計算資源,又加快了模型的訓練速度,同時確保了多模態(tài)的自動駕駛圖像數(shù)據(jù)處理的高效性。

13、(3)本發(fā)明在多模態(tài)的自動駕駛圖像分割任務中取得了優(yōu)異的性能表現(xiàn)。實驗結(jié)果表明,增強后的sam在多模態(tài)的自動駕駛圖像數(shù)據(jù)上的分割精度和魯棒性顯著提升,能夠更準確地處理復雜的自動駕駛場景中的各種模態(tài)的圖像信息。



技術特征:

1.一種基于sam模型的多模態(tài)自動駕駛圖像分割方法,其特征在于,包括:

2.如權利要求1所述的基于sam模型的多模態(tài)自動駕駛圖像分割方法,其特征在于,深度感知模塊包括兩個跨模態(tài)注意力模塊,兩個跨模態(tài)注意力模塊分別完成非rgb特征到rgb特征的增強和完成rgb特征對非rgb特征的增強,

3.如權利要求1所述的基于sam模型的多模態(tài)自動駕駛圖像分割方法,其特征在于,訓練步驟中,采用下式訓練所述sam模型:

4.一種基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),其特征在于,包括:

5.如權利要求4所述的基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),其特征在于,深度感知模塊包括兩個跨模態(tài)注意力模塊,兩個跨模態(tài)注意力模塊分別完成非rgb特征到rgb特征的增強和完成rgb特征對非rgb特征的增強,

6.如權利要求4所述的基于sam模型的多模態(tài)自動駕駛圖像分割系統(tǒng),其特征在于,訓練單元采用下式訓練所述sam模型:


技術總結(jié)
本發(fā)明實施例公開了一種基于SAM模型的多模態(tài)自動駕駛圖像分割方法及系統(tǒng),所述方法包括:構建步驟:構建SAM模型,所述模型包括圖像編碼器、掩膜解碼器、提示編碼器、模態(tài)編碼器和深度感知模塊;訓練步驟:使用交叉熵損失和Dice損失來訓練模型;識別步驟:將多模態(tài)的自動駕駛圖像輸入模型,輸出對所述自動駕駛圖像中各個對象的分割結(jié)果。本發(fā)明通過引入輕量級的模態(tài)編碼器和深度感知模塊,實現(xiàn)了對深度信息或者其他模態(tài)信息的特征編碼,深度感知模塊將編碼的深度信息注入到SAM模型的骨干網(wǎng)絡中,實現(xiàn)深度特征和RGB特征的交替增強,從而實現(xiàn)了對SAM模型的多模態(tài)拓展,避免了對于每一種多模態(tài)任務都重新訓練大模型的巨大計算開銷。

技術研發(fā)人員:林志坤,劉鵬,蔡忠鵬,何宜兵,張神力
受保護的技術使用者:深圳天海宸光科技有限公司
技術研發(fā)日:
技術公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
武安市| 慈溪市| 安宁市| 潮安县| 靖边县| 绩溪县| 堆龙德庆县| 巴彦县| 靖西县| 甘南县| 四平市| 天气| 德惠市| 叙永县| 潼南县| 布拖县| 留坝县| 德江县| 静乐县| 巫山县| 临城县| 宣恩县| 海城市| 山东省| 南部县| 基隆市| 台南市| 承德市| 永泰县| 措美县| 玛曲县| 错那县| 香港| 杂多县| 景洪市| 应用必备| 辰溪县| 杭锦后旗| 瑞金市| 东海县| 惠安县|