本發(fā)明涉及行李重識(shí)別領(lǐng)域,具體是一種基于rgb-d和注意力機(jī)制的跨模態(tài)行李重識(shí)別方法
背景技術(shù):
1、現(xiàn)有的機(jī)場行李分揀系統(tǒng)大都是基于rfid技術(shù)來實(shí)現(xiàn)的,但是rfid存在著成本高,同時(shí)難以全過程監(jiān)控行李在傳送帶上的位置的問題。因此實(shí)現(xiàn)民航機(jī)場行李全流程自動(dòng)分揀跟蹤對(duì)于民航機(jī)場持續(xù)發(fā)展有著重要意義。然而,傳統(tǒng)方案難以實(shí)現(xiàn)全流程自動(dòng)分揀跟蹤。為了解決這一問題,利用重識(shí)別算法的方式識(shí)別傳送帶不同攝像頭下的行李成為一種可行的實(shí)現(xiàn)方案。但現(xiàn)有的重識(shí)別算法多是基于行人重識(shí)別算法,沒有考慮到行李重識(shí)別的特點(diǎn)和問題。
2、當(dāng)前的行人重識(shí)別算法基于模態(tài)分類,可以將其分為兩類:一類是基于單一模態(tài)的行人重識(shí)別算法,另一類是基于多模態(tài)的行人重識(shí)別算法。在單一模態(tài)的行人重識(shí)別算法中,zheng?l等人設(shè)計(jì)了一種入了姿態(tài)不變嵌入(pie)作為行人描述符,將行人對(duì)齊到標(biāo)準(zhǔn)姿勢,引入了通過姿勢估計(jì)和仿射變換生成的posebox結(jié)構(gòu)。yuteng?ye等人提出了一種特征修剪和合并(fpc)框架來針對(duì)由于遮擋物的污染導(dǎo)致被遮擋人重識(shí)別難的問題。但是關(guān)于單一模態(tài)的行人重識(shí)別大都沒有注意多尺度特征的重要性,即局部特征和全局特征對(duì)于重識(shí)別都有促進(jìn)效果。在多模態(tài)行人重識(shí)別算法中,zhang?z等人提出了一種rgb-紅外(rgb-ir)行人重識(shí)別算法,這一算法是基于對(duì)抗生成網(wǎng)絡(luò)實(shí)現(xiàn)的,但是其對(duì)抗生成網(wǎng)絡(luò)生成的圖像質(zhì)量偏低,導(dǎo)致模型性能低。lu?h等人提出了名為pmt的一種基于transformer的rgb-ir行人重識(shí)別算法,該算法是基于漸進(jìn)式策略進(jìn)行學(xué)習(xí)的,但是沒有很好的利用紅外圖像的特征。ye等人提出了基于對(duì)稱排序度量學(xué)習(xí)方法進(jìn)行行人重識(shí)別,算法從兩個(gè)模態(tài)中挑選出兩組互相對(duì)稱的樣本,然后以用排序損失來優(yōu)化樣本對(duì),最終縮小兩個(gè)模態(tài)的差別。但是上述關(guān)于多模態(tài)的重識(shí)別研究算法中都是基于行人重識(shí)別的,行人重識(shí)別多是在戶外環(huán)境,所以需要考慮白天和黑夜的區(qū)別,固可以引入紅外圖像以減弱夜晚對(duì)rgb圖像的影響。行李的紅外圖像差距不大,以及機(jī)場行李重識(shí)別是在室內(nèi)環(huán)境下,其光照條件相對(duì)比較統(tǒng)一,只是在不同攝像頭下有固定的區(qū)別。同時(shí)行李重識(shí)別除了顏色外也需要關(guān)注其表面紋理和大小,故更需要考慮其他模態(tài)的引入。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明地目的在于提出一種基于rgb-d和注意力機(jī)制的跨模態(tài)行李重識(shí)別方法,解決現(xiàn)有的重識(shí)別算法精度不高難以滿足實(shí)際需要的問題。
2、本發(fā)明的目的是這樣達(dá)到的:
3、使用深度攝像頭提取行李的深度圖像和rgb圖像。首先,使用優(yōu)化中值濾波算法對(duì)rgb圖像進(jìn)行濾波降噪。然后,利用特征提取網(wǎng)絡(luò)提取rgb和深度特征,利用卷積注意力機(jī)制將rgb特征和深度特征進(jìn)行融合。最后,結(jié)合多個(gè)損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,得到重識(shí)別結(jié)果。
4、其具體包括如下步驟:
5、步驟1、使用優(yōu)化中值濾波算法對(duì)原始深度圖像進(jìn)行降噪處理。
6、步驟2、提取多分支的深度特征和rgb特征。
7、步驟3、將特征輸入到基于注意力機(jī)制的特征融合模塊進(jìn)行特征融合
8、步驟4、通過訓(xùn)練獲得網(wǎng)絡(luò)輸出,最終得到行李重識(shí)別結(jié)果。
9、進(jìn)一步地,所述步驟1使用者通過深度攝像頭獲取行李的rgb圖像和深度圖像并對(duì)深度圖像使用優(yōu)化中值濾波算法進(jìn)行降噪處理。假定原始深度圖像i,濾波器窗口w大小m×n,設(shè)定的閾值t。計(jì)算當(dāng)前像素i(i,j)與窗口w內(nèi)各個(gè)像素的差值,并求取這些差值的平均值avg。avg大于設(shè)定的閾值t時(shí),用中值濾波算法用搜索框內(nèi)像素點(diǎn)的中值替代該點(diǎn)像素值,反之不需要用搜索框內(nèi)像素點(diǎn)的中值替代該點(diǎn)像素值。
10、進(jìn)一步地,所述步驟2中在獲得步驟1的結(jié)果,rgb圖像和降噪后的深度圖像后,使用如下方式提取深度特征和rgb特征:將rgb圖像和深度圖像分別送入兩個(gè)不共享參數(shù)的resnet-50網(wǎng)絡(luò)。網(wǎng)絡(luò)的第一個(gè)分支在經(jīng)過layer2(包含若干1×1的卷積核和3×3的卷積核)得到表示局部特征的rgb特征圖和深度特征圖。第二個(gè)分支會(huì)在經(jīng)過layer4(包含若干1×1的卷積核和3×3的卷積核)之后得到表示全局特征的rgb特征圖和深度特征圖。
11、進(jìn)一步地,所述步驟3中在獲得步驟2的結(jié)果即rgb特征圖和深度特征之后,將rgb特征和深度特征進(jìn)行融合,將包含顏色、表面特征的rgb圖像和含有深度信息的深度圖像的特征融合。融合方式如下:假定輸入rgb特征frgb和深度特征fdepth,其大小都為h×w×c。frgb計(jì)算其通道權(quán)重wc=σ(mlp(avgpool(frgb))+mlp(maxpool(frgb)))其中,σ表示sigmoid函數(shù),mlp表示為共享多層網(wǎng)絡(luò)。將得到的通道權(quán)重向量wc與深度特征fdepth進(jìn)行點(diǎn)乘操作得到新的中間特征再與rgb特征frgb拼接起來得到基于通道注意力的融合特征frgb-d。根據(jù)frgb-d計(jì)算出空間權(quán)重ws=σ(f7×7([avgpool(frgb-d);maxpool(frgb-d)]))其中,σ表示sigmoid函數(shù),f7×7表示一個(gè)內(nèi)核大小為7×7的卷積層。將得到的空間權(quán)重ws與初步融合特征frgb-d進(jìn)行點(diǎn)乘得到一個(gè)h×w×2c的特征圖。同時(shí)為維持維度上的一致以及去除冗余信息實(shí)現(xiàn)特征的不變性,將得到的特征圖通過執(zhí)行最大池化壓縮成大小為h×w×c的特征圖,即最終的深度特征fdepth和rgb特征frgb的融合特征f′rgb-d。
12、進(jìn)一步地,所述步驟4中在獲得步驟3的結(jié)果f′rgb-d,結(jié)合難樣本三元和交叉熵?fù)p失函數(shù)一起訓(xùn)練,得到最終的重識(shí)別結(jié)果。
13、本發(fā)明的積極效果是:
14、(1)針對(duì)現(xiàn)實(shí)場景中的行李重識(shí)別任務(wù),本發(fā)明提出了一種基于rgb-d和注意力機(jī)制的跨模態(tài)行李重識(shí)別方法cmam-reid。本發(fā)明的核心思想是引入了深度圖像解決光照不同的情況下,不同攝像頭下同一個(gè)行李rgb圖像顏色特征以及紋理特征差異明顯的問題。首先,本發(fā)明提出了一種優(yōu)化中值濾波算法來去除深度圖像的噪點(diǎn),降低其對(duì)重識(shí)別的影響。其次,本發(fā)明提出了一種優(yōu)化中值濾波算法來去除深度圖像的噪點(diǎn),降低其對(duì)重識(shí)別的影響。然后,本發(fā)明提出了基于resnet-50的多分支特征提取網(wǎng)絡(luò),同時(shí)提取圖像的全局和局部特征。最后,本發(fā)明提出了一種基于注意力機(jī)制的特征融合模塊讓算法自行決定賦予哪種特征更高的權(quán)重以及更關(guān)注的部分。該方法可以提升行李重識(shí)別的精度。
15、(2)本發(fā)明提出了用于機(jī)場行李重識(shí)別場景檢測需求創(chuàng)建了行李重識(shí)別數(shù)據(jù)集。數(shù)據(jù)集為包括rgb和深度圖像的多模態(tài)行李數(shù)據(jù)集,該數(shù)據(jù)集是在測試基地的行李傳送帶上實(shí)地拍攝收集的,包括了硬包、軟包以及各類尺寸的行李,具有實(shí)際的應(yīng)用價(jià)值。
1.一種基于rgb-d和注意力機(jī)制的跨模態(tài)行李重識(shí)別方法,包括如下步驟:
2.所述步驟1使用者通過深度攝像頭獲取行李的rgb圖像和深度圖像并對(duì)深度圖像使用優(yōu)化中值濾波算法進(jìn)行降噪處理;假定原始深度圖像i,濾波器窗口w大小m×n,設(shè)定的閾值t;計(jì)算當(dāng)前像素i(i,j)與窗口w內(nèi)各個(gè)像素的差值,并求取這些差值的平均值avg;avg大于設(shè)定的閾值t時(shí),則需要用中值濾波算法用搜索框內(nèi)像素點(diǎn)的中值替代該點(diǎn)像素值,反之不需要用搜索框內(nèi)像素點(diǎn)的中值替代該點(diǎn)像素值。
3.所述步驟2中在獲得步驟1的結(jié)果,rgb圖像和降噪后的深度圖像后,使用如下方式提取深度特征和rgb特征:將rgb圖像和深度圖像分別送入兩個(gè)不共享參數(shù)的resnet-50網(wǎng)絡(luò);網(wǎng)絡(luò)的第一個(gè)分支在經(jīng)過layer2(包含若干1×1的卷積核和3×3的卷積核)得到表示局部特征的rgb特征圖和深度特征圖;第二個(gè)分支會(huì)在經(jīng)過layer4(包含若干1×1的卷積核和3×3的卷積核)之后得到表示全局特征的rgb特征圖和深度特征圖。
4.所述步驟3中在獲得步驟2的結(jié)果即rgb特征圖和深度特征之后,將rgb特征和深度特征進(jìn)行融合,將包含顏色、表面特征的rgb圖像和含有深度信息的深度圖像的特征融合;融合方式如下:假定輸入rgb特征frgb和深度特征fdepth,其大小都為h×w×c;frgb計(jì)算其通道權(quán)重:
5.所述步驟4中在獲得步驟3的結(jié)果f′rgb-d,結(jié)合難樣本三元和交叉熵?fù)p失函數(shù)一起訓(xùn)練,得到最終的重識(shí)別結(jié)果。