本發(fā)明屬于計算機視覺領(lǐng)域,具體涉及一種基于邊緣的開放詞匯分割模型目標(biāo)識別方法。
背景技術(shù):
1、目標(biāo)分割模型是一種計算機視覺領(lǐng)域的技術(shù),用于將圖像中的不同目標(biāo)或區(qū)域進(jìn)行像素級別的分割和標(biāo)記,具有廣泛的應(yīng)用前景。在傳統(tǒng)的圖像處理領(lǐng)域中,目標(biāo)邊緣檢測、分割和分類是至關(guān)重要的任務(wù),但傳統(tǒng)方法存在一些限制。一般來說,這些方法通常依賴于手動定義特征提取和規(guī)則,無法充分捕捉復(fù)雜的目標(biāo)結(jié)構(gòu)和變化。傳統(tǒng)的邊緣檢測方法一般基于邊緣強度、梯度或紋理等特征,使用濾波器和閾值等技術(shù)來提取圖像中的邊緣信息。然而,這些方法對于紋理復(fù)雜、邊緣模糊或低對比度的圖像區(qū)域往往效果不佳。此外,傳統(tǒng)的分割方法往往基于閾值、區(qū)域生長或圖割等手動定義的規(guī)則,對于具有復(fù)雜形狀和變化的目標(biāo),分割效果有限。而傳統(tǒng)的分類方法則需要事先定義特征向量和分類器,無法自動學(xué)習(xí)和適應(yīng)不同物體的特征表示。綜上所述,傳統(tǒng)圖像處理方法在處理復(fù)雜圖像時存在諸多挑戰(zhàn),需要更先進(jìn)的技術(shù)來克服這些限制。
2、隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,深度學(xué)習(xí)模型通過使用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠自動從大規(guī)模標(biāo)記數(shù)據(jù)中學(xué)習(xí)圖像的特征表示,展現(xiàn)出強大的模式識別能力。特別是在目標(biāo)邊緣檢測、分割和分類任務(wù)中,基于深度學(xué)習(xí)的方法已經(jīng)取得了顯著的成果,大大提高了這些任務(wù)的準(zhǔn)確性和魯棒性。
3、現(xiàn)有的基于深度學(xué)習(xí)模型做開放詞匯分割任務(wù)通常采用目前所存在的大型開源數(shù)據(jù)集進(jìn)行模型的訓(xùn)練,例如coco數(shù)據(jù)集、pascal?voc數(shù)據(jù)集等。其實現(xiàn)流程一般是利用深度學(xué)習(xí)模型結(jié)構(gòu)捕捉多層級的圖像特征,而后將特征進(jìn)行空間分辨率的恢復(fù),從而實現(xiàn)像素級的目標(biāo)與背景的分割,并通過損失函數(shù)進(jìn)行模型參數(shù)的調(diào)整與優(yōu)化?,F(xiàn)有的基于深度學(xué)習(xí)模型的開放詞匯分割任務(wù)也存在多種實現(xiàn)方案:cod模型實現(xiàn)了基于條件擴散模型的偽裝物體檢測任務(wù),通過漸進(jìn)式的去噪過程處理高度相似于周圍環(huán)境的偽裝物體,優(yōu)化了對象邊界與背景的區(qū)別;cod模型采用adaptive?transformer?conditional?network(atcn)的網(wǎng)絡(luò)結(jié)構(gòu)提取圖片的多尺度特征,并結(jié)合擴散模型,有效的提高了處理細(xì)微邊界差異的能力,分割出偽裝物體的位置,避免了過度自信的點估計問題。sam模型結(jié)合圖像數(shù)據(jù)以及交互式提示(prompt,如點擊、框選)等多模態(tài)輸入形式,基于transformer網(wǎng)絡(luò)提取圖像中多位置特征并通過解碼器結(jié)合輸入生成準(zhǔn)確的分割掩碼;此外,模型采用交互式學(xué)習(xí)機制,通過用戶反饋快速優(yōu)化,增強對新場景的適應(yīng)能力,實現(xiàn)了快速處理和高效分割。上述兩個模型在進(jìn)行目標(biāo)分割任務(wù)時,得到的結(jié)果是不包含目標(biāo)語義信息的,cod模型返回的結(jié)果是包含圖像中所有目標(biāo)位置的二值掩碼圖,sam模型返回的結(jié)果是prompt所在位置的目標(biāo)掩碼圖或者在沒有prompt的情況下返回圖中所有像素按目標(biāo)劃分的掩碼圖,根據(jù)不包含目標(biāo)語義信息的結(jié)果掩碼圖無法有效的對圖像中的目標(biāo)進(jìn)行識別。現(xiàn)有的方法都是通過一些參數(shù)量較大的語義特征預(yù)訓(xùn)練模型來與目標(biāo)分割模型進(jìn)行結(jié)合,為分割結(jié)果圖提供目標(biāo)語義信息以進(jìn)行目標(biāo)識別。open-vocabulary?sam模型結(jié)合了sam模型和clip模型,通過創(chuàng)新的雙向知識轉(zhuǎn)移模塊—sam2clip和clip2sam—實現(xiàn)了高效的知識融合,使得模型能夠在沒有預(yù)先設(shè)定類別的情況下,也能有效的實現(xiàn)交互式的圖像分割和識別。
4、然而,目前基于深度學(xué)習(xí)的開放詞匯分割模型存在以下缺陷:
5、(1)現(xiàn)有的大多數(shù)開放詞匯分割模型主要關(guān)注于像素級的圖像分割,能夠?qū)D像細(xì)分成不同的區(qū)域,但往往缺乏對這些分割區(qū)域進(jìn)行后續(xù)的分類識別。這種單一的分割任務(wù)在處理現(xiàn)實世界中復(fù)雜場景時顯得力不從心,同時也限制了模型的適應(yīng)性與擴展性。在多變的應(yīng)用環(huán)境中,僅僅通過分割而不進(jìn)行識別,難以滿足更廣泛的場景解析和決策支持需求。
6、(2)在處理邊界模糊、物體重疊或遮擋情況時,現(xiàn)有的開放詞匯分割模型面對存在遮擋較為嚴(yán)重的物體時識別精度會降低,從而導(dǎo)致錯誤的分割決策或產(chǎn)生模糊的分割邊界。這不僅影響了模型的識別精度,也降低了其在實際應(yīng)用中的可靠性。
7、(3)盡管借助參數(shù)量較大復(fù)雜度較高的預(yù)訓(xùn)練模型將識別任務(wù)整合到開放詞匯分割模型中,可以協(xié)助分割模型進(jìn)行目標(biāo)識別,從而顯著提升模型的功能性,但這通常伴隨著模型規(guī)模的增大和復(fù)雜性的提升。這種復(fù)雜的模型需要更多的計算資源進(jìn)行訓(xùn)練和推理,可能在資源受限的環(huán)境或需要高實時性的應(yīng)用場景中造成部署上的困難。
8、因此,急需一種有效且快速的基于開放詞匯分割模型的目標(biāo)識別方法。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中所存在的上述問題,本發(fā)明提供了一種基于邊緣的開放詞匯分割模型目標(biāo)識別方法。
2、本發(fā)明要解決的技術(shù)問題通過以下技術(shù)方案實現(xiàn):
3、一種基于邊緣的開放詞匯分割模型目標(biāo)識別方法,包括:
4、獲取目標(biāo)圖像;所述目標(biāo)圖像中含有待識別的目標(biāo);
5、初始化高斯白噪聲作為所述目標(biāo)的噪聲輪廓掩碼圖;
6、將所述目標(biāo)圖像和所述噪聲輪廓掩碼圖輸入至預(yù)先訓(xùn)練完成的開放詞匯分割模型,以使所述開放詞匯分割模型執(zhí)行以下操作:
7、從所述目標(biāo)圖像和所述噪聲輪廓掩碼圖中提取目標(biāo)的多尺度特征;對所述噪聲輪廓掩碼圖進(jìn)行編碼,得到編碼特征;將所述多尺度特征作為條件特征與所述編碼特征進(jìn)行融合,得到融合特征;根據(jù)所述融合特征預(yù)測所述目標(biāo)的去噪輪廓掩碼圖;根據(jù)所述去噪輪廓掩碼圖和所述多尺度特征,利用單個全連接層預(yù)測所述目標(biāo)的分類和定位。
8、可選地,所述開放詞匯分割模型包括:pvt網(wǎng)絡(luò)、dn網(wǎng)絡(luò)和分類定位模塊;
9、所述pvt網(wǎng)絡(luò)用于從所述目標(biāo)圖像和所述噪聲輪廓掩碼圖中提取目標(biāo)的多尺度特征;所述dn網(wǎng)絡(luò)為基于unet的去噪擴散模型,包括編碼器、特征融合模塊和解碼器;所述編碼器用于對所述噪聲輪廓掩碼圖進(jìn)行編碼,得到編碼特征;所述特征融合模塊用于將所述多尺度特征作為條件特征與所述編碼特征進(jìn)行融合,得到融合特征;所述解碼器用于根據(jù)所述融合特征預(yù)測所述目標(biāo)的去噪輪廓掩碼圖;所述分類定位模塊用于根據(jù)所述去噪輪廓掩碼圖和所述多尺度特征,利用單個全連接層預(yù)測所述目標(biāo)的分類和定位。
10、可選地,所述分類定位模塊,利用單個全連接層預(yù)測所述目標(biāo)的分類和定位,包括:
11、通過對所述去噪輪廓掩碼圖進(jìn)行邊緣檢測,生成每個潛在目標(biāo)對應(yīng)的建議區(qū)域;
12、針對每個所述建議區(qū)域,根據(jù)該建議區(qū)域從所述多尺度特征中提取對應(yīng)潛在目標(biāo)所在區(qū)域的特征,并根據(jù)該特征,利用單個全連接層預(yù)測該潛在目標(biāo)的分類和定位及對應(yīng)的置信度;
13、將置信度高于置信閾值的潛在目標(biāo)的分類和定位作為對所述目標(biāo)圖像中的目標(biāo)的分類和定位。
14、可選地,對所述開放詞匯分割模型進(jìn)行訓(xùn)練的方式包括:
15、獲取多個樣本圖像和對應(yīng)的標(biāo)注信息;所述樣本圖像中含有樣本目標(biāo),所述標(biāo)注信息包括樣本圖像中的樣本目標(biāo)的位置信息、分類信息和掩碼輪廓信息;
16、從每個樣本圖像中獲取對應(yīng)的樣本目標(biāo)的噪聲輪廓掩碼圖;
17、利用所述多個樣本圖像和對應(yīng)的標(biāo)注信息及噪聲輪廓掩碼圖構(gòu)建數(shù)據(jù)集;
18、利用所述數(shù)據(jù)集訓(xùn)練開放詞匯分割模型。
19、可選地,利用所述多個樣本圖像和對應(yīng)的標(biāo)注信息及噪聲輪廓掩碼圖構(gòu)建數(shù)據(jù)集,包括:
20、對部分或全部的樣本圖像對應(yīng)的噪聲輪廓掩碼圖進(jìn)行邊界預(yù)處理,以隨機破壞樣本目標(biāo)輪廓;
21、利用所述多個樣本圖像和對應(yīng)的標(biāo)注信息及邊界預(yù)處理后的噪聲輪廓掩碼圖構(gòu)建數(shù)據(jù)集。
22、可選地,利用所述數(shù)據(jù)集訓(xùn)練開放詞匯分割模型,包括:
23、將樣本圖像和對應(yīng)的噪聲輪廓掩碼圖輸入至訓(xùn)練中的pvt網(wǎng)絡(luò),以使該pvt網(wǎng)絡(luò)輸出樣本目標(biāo)的多尺度特征;
24、將樣本圖像對應(yīng)的噪聲輪廓掩碼圖輸入至訓(xùn)練中的dn網(wǎng)絡(luò),以使該dn網(wǎng)絡(luò)預(yù)測樣本目標(biāo)的去噪輪廓掩碼圖;
25、根據(jù)樣本目標(biāo)的去噪輪廓掩碼圖和多尺度特征,利用單個全連接層預(yù)測樣本目標(biāo)的分類和定位;
26、根據(jù)樣本圖像對應(yīng)的標(biāo)注信息、去噪輪廓掩碼圖、訓(xùn)練中的dn網(wǎng)絡(luò)的去噪擴散模型在加噪和去噪過程中處理的噪聲,以及單個全連接層預(yù)測的樣本目標(biāo)的分類和定位,計算訓(xùn)練中的開放詞匯分割模型的模型損失,根據(jù)所述模型損失調(diào)整開放詞匯分割模型的網(wǎng)絡(luò)參數(shù),直至完成訓(xùn)練。
27、可選地,根據(jù)樣本圖像對應(yīng)的標(biāo)注信息、去噪輪廓掩碼圖、訓(xùn)練中的dn網(wǎng)絡(luò)的去噪擴散模型在加噪和去噪過程中處理的噪聲,以及單個全連接層預(yù)測的樣本目標(biāo)的分類和定位,計算訓(xùn)練中的開放詞匯分割模型的模型損失,包括:
28、根據(jù)樣本圖像對應(yīng)的掩碼輪廓信息和去噪輪廓掩碼圖,以及訓(xùn)練中的dn網(wǎng)絡(luò)的擴散模型在加噪和去噪過程中處理的噪聲,計算訓(xùn)練中的開放詞匯分割模型的分割損失;
29、根據(jù)樣本圖像對應(yīng)的位置信息、分類信息和訓(xùn)練中的單個全連接層預(yù)測的樣本目標(biāo)的分類和定位,計算訓(xùn)練中的開放詞匯分割模型的分類定位損失;
30、綜合所述分割損失和所述分類定位損失,得到訓(xùn)練中的開放詞匯分割模型的損失。
31、可選地,所述分割損失通過下式計算:
32、
33、其中,表示分割損失,f表示樣本圖像對應(yīng)的掩碼輪廓信息;fθ表示樣本圖像對應(yīng)的去噪輪廓掩碼圖;n表示擴散模型在加噪過程中添加的噪聲,nθ表示擴散模型在去噪過程中去除的噪聲;δt=(1-t)2表示為隨時間t變化的失重率;為樣本目標(biāo)邊緣損失。
34、可選地,的計算公式為:
35、
36、其中,e+表示樣本圖像對應(yīng)的去噪輪廓掩碼圖中屬于樣本目標(biāo)邊緣的像素數(shù)量,e-表示樣本圖像對應(yīng)的去噪輪廓掩碼圖中不屬于樣本目標(biāo)邊緣的像素數(shù)量,λ是平衡e+與e-的權(quán)重因子,是樣本圖像對應(yīng)的掩碼輪廓信息中,第j個邊緣的第i個像素的真實像素值,為樣本圖像對應(yīng)的去噪輪廓掩碼圖中,與位置對應(yīng)的像素屬于樣本目標(biāo)邊緣的概率值。
37、可選地,所述分類定位損失通過下式計算:
38、
39、其中,表示分類定位損失,yi是樣本目標(biāo)的真實分類;pi是單個全連接層預(yù)測的樣本目標(biāo)的分類;c是所有樣本目標(biāo)的類別總數(shù);n表示單個全連接層預(yù)測的樣本目標(biāo)數(shù);pj表示單個全連接層預(yù)測的樣本目標(biāo)定位;yj表示樣本目標(biāo)的真實定位。
40、與現(xiàn)有技術(shù)相比,本發(fā)明提供的基于邊緣的開放詞匯分割模型目標(biāo)識別方法具有如下有益效果:
41、(1)本發(fā)明將目標(biāo)的噪聲輪廓掩碼圖連同原始的目標(biāo)圖像一并輸入至開放詞匯分割模型,該噪聲輪廓掩碼圖中含有目標(biāo)邊緣信息,能夠使模型學(xué)習(xí)并識別圖像中目標(biāo)的邊緣特征從而將圖像分割成具有清晰邊界的不同區(qū)域,利用邊界所包含區(qū)域的連通性,實現(xiàn)對目標(biāo)準(zhǔn)確的分類和定位。由此,本發(fā)明提高了開放詞匯分割模型在圖像分割任務(wù)中處理邊界模糊、物體重疊或遮擋等情況的精確度,大大提升了對于目標(biāo)邊緣的分割能力,使開放詞匯分割模型能夠有效分割并識別目標(biāo)的類別和定位,提高了開放詞匯分割模型目標(biāo)識別方法的準(zhǔn)確率。
42、(2)本發(fā)明將從目標(biāo)圖像和噪聲輪廓掩碼圖中提取的多尺度特征作為條件特征與從噪聲輪廓掩碼圖中提取的編碼特征進(jìn)行融合,這種多尺度特征的綜合應(yīng)用允許模型捕捉從基礎(chǔ)到高級的各種細(xì)節(jié)和上下文信息,極大豐富了模型在不同分辨率層次上的視覺信息處理能力,有效提升了輸出的準(zhǔn)確性。
43、(3)本發(fā)明利用輕量級的單個全連接層預(yù)測目標(biāo)的分類和定位,不需要復(fù)雜的模型去完成分類,由此顯著提升了模型的計算效率,降低了部署成本,減少對硬件資源的需求,使得模型可以在低功耗設(shè)備上順暢運行,提高了開放詞匯分割模型的可用性。
44、綜上,本發(fā)明實現(xiàn)了一種有效且快速的基于開放詞匯分割模型的目標(biāo)識別方法。
45、以下將結(jié)合附圖及對本發(fā)明做進(jìn)一步詳細(xì)說明。