本發(fā)明屬于水下目標(biāo)檢測,具體涉及一種基于改進的yolov8輕量級模型的水下目標(biāo)檢測方法。
背景技術(shù):
1、水下目標(biāo)檢測是在水下環(huán)境中,通過使用不同的傳感器和技術(shù)來識別和檢測物體、動物或其他水下目標(biāo)的過程。隨著水下目標(biāo)檢測的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測方法在海洋領(lǐng)域具有廣泛的經(jīng)濟前景。水下目標(biāo)檢測在海洋養(yǎng)殖、開發(fā)海洋資源、預(yù)警海洋災(zāi)害以及保護海洋環(huán)境中發(fā)揮重要的價值,同時也面臨許多技術(shù)性挑戰(zhàn),以海洋養(yǎng)殖為例:1)由于特定養(yǎng)殖區(qū)域的海水溫度、鹽度等指標(biāo)變化細微難以實時精準(zhǔn)監(jiān)測,尤其是溫度的略微波動對海洋經(jīng)濟生物的日常活動以及交流、行為產(chǎn)生劇烈影響,當(dāng)海水溫度超過33度海參便會大面積死亡、會導(dǎo)致嚴(yán)重的經(jīng)濟損失。2)由于潮汐、風(fēng)浪等因素,水下環(huán)境變化速度快且充滿未知與困難導(dǎo)致水下作業(yè)時間受限。這意味著有著豐富的水下作業(yè)經(jīng)驗潛水員必須在特定時間里完成任務(wù),潛水員遭遇的風(fēng)險大大提升,這些局限性要求水下目標(biāo)檢測模型要做到輕量且高效。
2、yolo系列是單階段目標(biāo)檢測算法,它的全稱是you?only?look?once,意思是只需對圖像進行一次處理,就可以得到目標(biāo)的類別和位置。yolov8于2023年提出,結(jié)合了yolo前幾代優(yōu)點,是一種單階段的目標(biāo)檢測算法,檢測速度快且提高了目標(biāo)檢測的精度和穩(wěn)定性,yolov8的backbone由cbs、c2f、sppf構(gòu)成,cbs模塊包含一個卷積層、批量歸一化層、以及silu激活函數(shù)。其中,全新的c2f模塊延續(xù)了csp思想,加深了梯度信息的融合程度能學(xué)習(xí)到更多的的特征信息并實現(xiàn)更低的計算復(fù)雜度,這使得yolov8可以在保持高精度的同時,提高檢測速度。sppf是采用yolov5中的模塊,能夠優(yōu)化特征提取和編碼的過程,提高運算速度。bottleneck為一種特殊的殘差結(jié)構(gòu)通常用于在保持網(wǎng)絡(luò)性能的同時減少參數(shù)數(shù)量和計算量。yolov8的neck部分延續(xù)pan(path?aggregation?network,pan)+fpn(featurepyramid?network,fpn)思想,處理來自backbone的多尺度特征,通過上采樣和下采樣操作使得模型能夠融合低層的細節(jié)特征與高層的語義特征,增強模型的感知能力,提高對不同尺度的目標(biāo)檢測的準(zhǔn)確性。yolov8在head部分增加最核心的改動-解耦頭(decoupled-head),將原先的檢測頭分解成兩個部分,這樣更關(guān)注于各自的任務(wù),提高實時檢測的準(zhǔn)確度。
3、目前有相關(guān)專利文獻有記載傳統(tǒng)的yolov8模型應(yīng)用于水下目標(biāo)檢測,但是yolov8模型中cbs和c2f特征提取和信息融合效果差,無法保證復(fù)雜場景下水下目標(biāo)信息的檢測精度問題。傳統(tǒng)的pan+fpn網(wǎng)絡(luò)結(jié)構(gòu)會導(dǎo)致計算量和參數(shù)量巨大,計算量巨大會加劇計算資源損耗、檢測時間變長。整個傳統(tǒng)的yolov8模型檢測精度欠佳、模型不夠輕量,達不到快速準(zhǔn)確地對水下目標(biāo)檢測的目的。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于設(shè)計出一種基于改進的yolov8輕量級模型的水下目標(biāo)檢測方法,能夠解決背景技術(shù)中現(xiàn)有模型特征提取和信息融合效果差,不具有輕量高效效果等問題,本發(fā)明重點關(guān)注水下目標(biāo)信息,增加檢測精度,本發(fā)明可以減小水下方法體積、降低資源消耗、適應(yīng)復(fù)雜多變的水下環(huán)境,為水下設(shè)備輕量級部署奠定基礎(chǔ)。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
3、一種基于改進的yolov8輕量級模型的水下目標(biāo)檢測方法,其特征在于:所述方法如下:
4、步驟1:獲取公開水下目標(biāo)檢測數(shù)據(jù)集duo;
5、步驟2:將水下目標(biāo)檢測數(shù)據(jù)集duo輸入到改進的輕量級yolov8模型中進行訓(xùn)練,得到輕量級水下目標(biāo)檢測模型;
6、步驟3:將待識別水下目標(biāo)圖像輸入所述輕量級水下目標(biāo)檢測模型中,得到檢測結(jié)果;
7、所述輕量級yolov8模型包括感受場注意力機制的rfaconv,將ccfm和dysample進行融合形成的ccfm-d模塊,將cbs與ema注意力機制進行融合形成ce模塊的改進sppf
8、具體表現(xiàn)在改進的輕量級yolov8模型是在傳統(tǒng)yolov8模型的基礎(chǔ)上,進行以下三個方面的改進:
9、針對傳統(tǒng)cbs和c2f特征提取和信息融合效果差問題,引入rfaconv對其改進,rfaconv將感受場特征和注意力特征圖進行乘積輸出,這樣可以更好利用空間特征信息,提高模型表達能力,其中,包括對cbs進行替換、對c2f進行改進;
10、將跨尺度融合(cross-scale?feature-fusion,ccfm)模塊與動態(tài)上采樣器dysample相結(jié)合。將ccfm-d引入到neck中,增加了模型的表現(xiàn)能力的同時實現(xiàn)了輕量化;
11、將ce模塊放入sppf中,在傳統(tǒng)cbs前向傳播的過程基礎(chǔ)之上,將ema注意力機制融合到卷積操作之后。很好地重塑批處理維度,以便重點關(guān)注小密集的水下生物。
12、進一步的,感受場注意力機制的rfaconv替換cbs,rfaconv特征提取步驟如下:
13、s1:對初始輸入原始水下圖像進行全局平均池化計算,以產(chǎn)生水下全局信息特征圖;對水下全局信息特征圖進行1×1的分組卷積計算,產(chǎn)生多個詳細的水下特征特征圖;對多個詳細的水下特征特征圖進行softmax操作產(chǎn)生分布均勻的水下感受場注意力特征圖,以便進行后續(xù)所述計算中的乘積運算;在生成感受場注意力特征圖的同時,對初始輸入數(shù)據(jù)特征圖以進行3×3的分組卷積計算,產(chǎn)生水下感受場空間特征圖;對感受場空間特征圖進行歸一化操作產(chǎn)生符合要求的水下感受場空間特征圖;
14、s2:對符合要求的水下感受場空間特征圖以進行relu激活操作產(chǎn)生最終的水下感受場空間特征圖;
15、s3:對生成的水下感受場注意力特征圖和水下感受場空間特征圖進行乘積運算,rfa水下特征圖,其中,全局平均池化操作將每個特征圖中的所有像素值加和,然后除以像素總數(shù),產(chǎn)生單一的數(shù)值作為該特征圖的輸出,分組卷積將輸入特征圖分成多個分組,并在每個分組上應(yīng)用卷積操作;通過激活函數(shù)softmax將一組輸入值進行處理,以產(chǎn)生一個概率分布。
16、進一步的,感受場注意力機制的rfaconv改進c2f,由于c2f中bottleneck的空間信息整合能力下降問題,對c2f當(dāng)中的bottleneck模塊進行改進,將原先的bottleneck中的3×3的cbs組成,使用rfaconv卷積進行替換;c2f為yolov8提出的模塊,具有輕量化融合效果好的優(yōu)點,而bottleneck是c2f當(dāng)中的一種瓶頸結(jié)構(gòu),可以有效的降低參數(shù)量,使得信息可以有效的表達。c2f_rfa特征融合具體步驟如下:
17、s1:對rfa卷積產(chǎn)生的水下特征圖進行split拆分操作,以產(chǎn)生2份尺寸大小相同的水下特征圖;
18、s2:第一份流入到bottleneck_r模塊中,用組卷積核掃描而改變感受場大小,產(chǎn)生局部rfa卷積數(shù)據(jù)特征圖;
19、s3:第二份作為原始水下特征圖與第一份的局部rfa卷積數(shù)據(jù)特征圖進行連接操作;
20、s4:把組合的特征圖進行卷積運算產(chǎn)生最終的水下特征融合特征圖。
21、進一步的,對初始特征融合矩陣以進行所述的1×1卷積計算;然后對所述降維水下融合信息矩陣以進行dysample上采樣操作;接著對所述上采樣操作后的水下融合信息矩陣與rfa水下特征矩陣以進行連接操作,以產(chǎn)生水下融合特征矩陣;最后,對所述連接操作的水下融合特征矩陣,以進行最終的特征融合操作,以產(chǎn)生適合檢測的特征矩陣,ccfm模塊是rt-detr的特征融合網(wǎng)絡(luò),可以利用低層信息,避開高層語義特征的干擾。dysample模塊是一個點采樣模塊,可以避免插值采樣的模糊弊端,生成更清晰的特征圖;
22、ccfm-d融合特征具體步驟如下:
23、s1:對空間金字塔池化層輸出的初始特征融合特征圖進行的1×1卷積計算,產(chǎn)生降維水下融合信息特征圖;
24、s2:對降維水下融合信息特征圖進行dysample上采樣操作,以便后續(xù)檢測更小的水下對象;
25、s3:對上采樣操作后的水下融合信息特征圖與rfa水下特征圖進行連接操作,產(chǎn)生水下融合特征圖;
26、s4:對連接操作的水下融合特征圖,進行最終的特征融合操作,產(chǎn)生適合待檢測的特征特征圖;其中,空間金字塔池化層對不同尺度的上下文信息進行特征提取,產(chǎn)生多尺度輸出;特征融合操作增強梯度流信息的傳遞,產(chǎn)生表達能力更強的特征融合特征圖;dysample上采樣操作對特征融合特征圖進行l(wèi)inear操作產(chǎn)生高維度張量投影,投影到高維度的張量增加模型的表現(xiàn)能力;對高維度張量投影進行0.25倍pixel?shuffle操作產(chǎn)生偏移量;對偏移量與原始偏移量進行相加操作以產(chǎn)生和偏移量,產(chǎn)生新像素值特征圖,捕獲大小不同的目標(biāo);
27、s5:對偏移量與原始特征進行g(shù)rid?sampling操作生成最終特征,所述linear操作主要學(xué)習(xí)權(quán)重特征圖與偏置向量,通過反向傳播和梯度下降對優(yōu)化算法進行調(diào)整,增加模型的魯棒性;所述pixel?shuffle操作是聯(lián)系高低分辨率圖像的映射關(guān)系,以產(chǎn)生更高分辨率的圖像;所述grid?sampling操作是對一定規(guī)則網(wǎng)格進行采樣的方法,以產(chǎn)生分布均勻、計算量小的特征。
28、進一步的,ce模塊改進sppf步驟包括:經(jīng)過1×1卷積降維后開始執(zhí)行ema注意力機制,接著進行bn操作,產(chǎn)生批歸一化特征圖;最后,進行silu激活操作;其中,ema注意力機制很好地重塑批處理維度,以便重點關(guān)注小密集的水下生物;bn與silu操作目的是使得特征更加利于水下交叉信息的表達,ema為一種注意力機制,可以保留每個信道上的信息,減少計算開銷。
29、進一步的,數(shù)據(jù)集duo包含若干張水下目標(biāo)生物圖片以及對應(yīng)的水下生物種類的標(biāo)簽。
30、通過上述技術(shù)方案可以得到以下有益效果:本發(fā)明對yolov8進行改進現(xiàn)階段的水下目標(biāo)檢測模型在資源有限的水下設(shè)備上部署受限,為解決水下檢測模型參數(shù)量和計算量過大問題,提出一種輕量級的水下目標(biāo)檢測模型rce-yolo。首先,針對傳統(tǒng)cbs和c2f特征提取和信息融合效果差問題,引入rfaconv對cbs進行替換、對c2f進行改進。其次,針對參數(shù)量計算量過大問題,引入ccfm-d模塊對neck層進行改進。最后,使用ce模塊對sppf進行改進,使其重點關(guān)注水下目標(biāo)信息增加檢測精度。本發(fā)明在改進yolov8的基礎(chǔ)上,進行水下目標(biāo)檢測,提高了檢測精度、降低了計算成本。
31、本發(fā)明基于這種機制的卷積為rfaconv旨在通過動態(tài)調(diào)整或增強卷積核在處理不同空間位置時的權(quán)重,來更好地利用感受野內(nèi)的空間特征。傳統(tǒng)的卷積核在滑動過程中參數(shù)是固定的,而rfa則允許這些參數(shù)(或權(quán)重)根據(jù)感受野內(nèi)的特征分布或重要性進行動態(tài)調(diào)整。這種機制可以使得網(wǎng)絡(luò)更加關(guān)注于對任務(wù)有重要影響的特征,忽略或減少對不重要特征的關(guān)注。
32、本發(fā)明的ccfm模塊是一個跨尺度特征融合模塊,是通過結(jié)合不同尺度的特征信息來提高模型對圖像細節(jié)信息的提取能力,dysample是一個動態(tài)上采樣器沒有使用復(fù)雜的動態(tài)卷積,而是通過一種不使用傳統(tǒng)內(nèi)核的點采樣,點采樣在保持高效率的同時能保證良好的檢測精度,克服了傳統(tǒng)unsample過于依賴附近的數(shù)據(jù)點問題。二者結(jié)合可以更好的降低計算量和參數(shù)量,提高檢測精度。
33、本發(fā)明結(jié)合了ema注意力機制可通過其獨特的并行處理能力和不降低信道維數(shù)的學(xué)習(xí)能力,為特征提取和高級特征映射時提供了更高的效率和更好的性能。并行設(shè)計不僅有助于提升模型的實時處理能力,還有助于提升模型在水下任務(wù)中的準(zhǔn)確性和魯棒性。