本發(fā)明屬于圖像處理,具體涉及一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識(shí)別方法。
背景技術(shù):
1、給定一個(gè)自然光或紅外相機(jī)拍攝的查詢圖像,visible-infrared?person?re-identification(vi-reid)的目的是在紅外或自然光庫(kù)中檢索相同身份的行人。隨著監(jiān)控?cái)z像頭的普及以及相關(guān)數(shù)據(jù)集的提出,vi-reid任務(wù)收到了大量研究人員的關(guān)注。
2、作為一個(gè)圖像檢索任務(wù),vi-reid面臨兩個(gè)挑戰(zhàn):度量函數(shù)存在的數(shù)據(jù)偏見(jiàn)和度量與表征學(xué)習(xí)的不適配問(wèn)題。
3、為了拉近類(lèi)內(nèi)間距以及模態(tài)差異,當(dāng)前的方法可分成基于像素與基于特征兩類(lèi)?;谙袼豙aligngan,jsia]方法旨在通過(guò)生成模型生成對(duì)應(yīng)模態(tài)著色風(fēng)格的假圖,假圖用來(lái)輔助圖像檢索。但是由于模態(tài)差異大,風(fēng)格遷移需要復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),這種方式并沒(méi)有取得好的表現(xiàn)。
4、目前主流的方式是通過(guò)設(shè)計(jì)度量函數(shù),通過(guò)限制模態(tài)間的特征距離來(lái)訓(xùn)練模型學(xué)習(xí)模態(tài)共存特征。mmn、agw和fbp-al基于經(jīng)典的三元組策略,限制同類(lèi)模態(tài)間與類(lèi)間的相對(duì)距離來(lái)緩解模態(tài)差異。但這些方法每次僅優(yōu)化一對(duì)樣本,缺乏魯棒性且容易陷入子優(yōu)結(jié)果。hct和mpnaet提出約束樣本點(diǎn)到模態(tài)中心的距離,一定程度緩解上述問(wèn)題。但是模態(tài)中心是基于當(dāng)前批量的特征均值,仍無(wú)法避免小批量帶來(lái)的數(shù)據(jù)偏見(jiàn)。除此之外,度量函數(shù)從特征距離角度出發(fā)評(píng)估特征,而表征學(xué)習(xí)從身份表達(dá)角度評(píng)估特征,這一區(qū)別會(huì)影響模型訓(xùn)練。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識(shí)別方法,從時(shí)序角度進(jìn)行特征的分層融合,幫助模型學(xué)習(xí)到更豐富的特征,有效緩解了模態(tài)差異。
2、為實(shí)現(xiàn)上述目的,本發(fā)明所采取的技術(shù)方案為:
3、一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識(shí)別方法,所述基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識(shí)別方法,包括:
4、步驟s1、給定一張可見(jiàn)光模態(tài)圖像/紅外線模態(tài)圖像作為查詢圖像,以及給定包含紅外線模態(tài)圖像/可見(jiàn)光模態(tài)圖像的圖像庫(kù);
5、步驟s2、加載多特征分層融合學(xué)習(xí)網(wǎng)絡(luò),所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)包括模態(tài)特征增強(qiáng)模塊、四流resnet-50主干網(wǎng)絡(luò)模型和基于時(shí)序的特征融合模塊;
6、步驟s3、通過(guò)所述模態(tài)特征增強(qiáng)模塊對(duì)可見(jiàn)光模態(tài)圖像和紅外線模態(tài)圖像分別進(jìn)行兩種模態(tài)增強(qiáng),得到可見(jiàn)光第一增強(qiáng)模態(tài)圖像、可見(jiàn)光第二增強(qiáng)模態(tài)圖像、紅外線第一增強(qiáng)模態(tài)圖像和紅外線第二增強(qiáng)模態(tài)圖像;
7、步驟s4、將可見(jiàn)光第一增強(qiáng)模態(tài)圖像、可見(jiàn)光第二增強(qiáng)模態(tài)圖像、紅外線第一增強(qiáng)模態(tài)圖像和紅外線第二增強(qiáng)模態(tài)圖像輸入四流resnet-50主干網(wǎng)絡(luò)模型,輸出不同尺寸的特征圖c2、c3、c4和c5;
8、步驟s5、將不同尺寸的特征圖c2、c3、c4和c5輸入基于時(shí)序的特征融合模塊進(jìn)行層級(jí)時(shí)序融合,所述基于時(shí)序的特征融合模塊操作如下:
9、將特征圖c3和c4分別經(jīng)過(guò)1×1卷積和上采樣統(tǒng)一成與特征圖c2相同的尺寸,分別記為特征f3和f4,同時(shí)將特征圖c2記為特征f2,將特征圖c5經(jīng)過(guò)1×1卷積和上采樣統(tǒng)一成與特征圖c2相同的尺寸,記為特征fori;
10、首先將特征ft傳入lstm2網(wǎng)絡(luò)進(jìn)行處理,t∈[2,t]為層級(jí),且最高層級(jí)t=4,然后將輸出的結(jié)果與原始特征進(jìn)行融合,得到融合后的特征用如下公式表示:
11、
12、然后對(duì)得到的特征進(jìn)行注意力處理,得到特征用如下公式表示:
13、
14、最后將得到的特征與特征fori進(jìn)一步融合,用如下公式表示:
15、
16、其中,set表示針對(duì)第t層級(jí)特征的注意力處理操作,表示第t層級(jí)的融合特征,fout表示基于時(shí)序的特征融合模塊最終輸出的融合特征,且表示可見(jiàn)光第一增強(qiáng)模態(tài)融合特征,表示可見(jiàn)光第二增強(qiáng)模態(tài)融合特征,表示紅外線第一增強(qiáng)模態(tài)融合特征,表示紅外線第二增強(qiáng)模態(tài)融合特征;
17、步驟s6、基于可見(jiàn)光對(duì)應(yīng)的融合特征以及紅外線對(duì)應(yīng)的融合特征計(jì)算查詢圖像和圖像庫(kù)中圖像的匹配度,提取圖像庫(kù)中匹配度最高的前top-k張圖像作為重識(shí)別結(jié)果。
18、以下還提供了若干可選方式,但并不作為對(duì)上述總體方案的額外限定,僅僅是進(jìn)一步的增補(bǔ)或優(yōu)選,在沒(méi)有技術(shù)或邏輯矛盾的前提下,各可選方式可單獨(dú)針對(duì)上述總體方案進(jìn)行組合,還可以是多個(gè)可選方式之間進(jìn)行組合。
19、作為優(yōu)選,所述對(duì)可見(jiàn)光模態(tài)圖像和紅外線模態(tài)圖像分別進(jìn)行兩種模態(tài)增強(qiáng),得到可見(jiàn)光第一增強(qiáng)模態(tài)圖像、可見(jiàn)光第二增強(qiáng)模態(tài)圖像、紅外線第一增強(qiáng)模態(tài)圖像和紅外線第二增強(qiáng)模態(tài)圖像,包括:
20、對(duì)于可見(jiàn)光模態(tài)圖像xvis的第一種增強(qiáng)方式:先對(duì)原始的可見(jiàn)光模態(tài)圖像xvis的三個(gè)通道xr,xg,xb進(jìn)行隨機(jī)加權(quán)得到退化圖xds,再與原始的可見(jiàn)光模態(tài)圖像xvis進(jìn)行加權(quán)融合得到可見(jiàn)光第一增強(qiáng)模態(tài)圖像用如下公式表示:
21、xds=α1×xr+α2×xg+α3×xb
22、
23、其中,xr,xg,xb分別為可見(jiàn)光模態(tài)圖像xvis的r通道、g通道和b通道,α1、α2、α3為隨機(jī)加權(quán)權(quán)重,屬于[0,1],且α1+α2+α3=1,β1、β2為加權(quán)融合權(quán)重,屬于[0,1],且β1+β2=1;
24、對(duì)于可見(jiàn)光模態(tài)圖像xvis的第二種增強(qiáng)方式:在可見(jiàn)光模態(tài)圖像xvis的三個(gè)通道中隨機(jī)選擇一個(gè)通道,并在隨機(jī)選定的通道中,以預(yù)設(shè)系數(shù)加入其他兩個(gè)通道的信息,用如下公式表示:
25、
26、其中,為可見(jiàn)光第二增強(qiáng)模態(tài)圖像,randselect為隨機(jī)選擇操作,為在可見(jiàn)光模態(tài)圖像xvis的三個(gè)通道中隨機(jī)選擇所選中的一個(gè)通道,為可見(jiàn)光模態(tài)圖像xvis的三個(gè)通道中除所選中通道外的其他兩個(gè)通道,(xr,xg,xb)為可見(jiàn)光模態(tài)圖像xvis的三個(gè)通道,γ1、γ2、γ3為預(yù)設(shè)系數(shù),屬于[0,1],且γ1+γ2+γ3=1,0<γ2+γ3≤0.15;
27、對(duì)于紅外線模態(tài)圖像xir的第一種增強(qiáng)方式:對(duì)紅外線模態(tài)圖像的通道xir的像素值進(jìn)行乘法倍增,用如下公式表示:
28、
29、其中,為紅外線第一增強(qiáng)模態(tài)圖像,δ為倍增系數(shù),屬于[0.01,0.5];
30、對(duì)于紅外線模態(tài)圖像xir的第二種增強(qiáng)方式:將圖片進(jìn)行隨機(jī)翻轉(zhuǎn)和/或隨機(jī)擦除,用如下公式表示:
31、
32、其中,為紅外線第二增強(qiáng)模態(tài)圖像,randerase表示隨機(jī)擦除函數(shù),randflip表示隨機(jī)翻轉(zhuǎn)函數(shù)。
33、作為優(yōu)選,所述四流resnet-50主干網(wǎng)絡(luò)模型,包含四個(gè)分別處理可見(jiàn)光第一增強(qiáng)模態(tài)圖像、可見(jiàn)光第二增強(qiáng)模態(tài)圖像、紅外線第一增強(qiáng)模態(tài)圖像和紅外線第二增強(qiáng)模態(tài)圖像的分支,每個(gè)分支包含一個(gè)獨(dú)立參數(shù)的子網(wǎng)絡(luò)記為evis1、evis2、eir1和eir2,均由resnet-50網(wǎng)絡(luò)的第一層實(shí)現(xiàn);
34、所述四流resnet-50主干網(wǎng)絡(luò)模型,還包含一個(gè)共享參數(shù)的子網(wǎng)絡(luò)es,由resnet-50網(wǎng)絡(luò)除第一層以外的剩余層實(shí)現(xiàn)。
35、作為優(yōu)選,所述將可見(jiàn)光第一增強(qiáng)模態(tài)圖像、可見(jiàn)光第二增強(qiáng)模態(tài)圖像、紅外線第一增強(qiáng)模態(tài)圖像和紅外線第二增強(qiáng)模態(tài)圖像輸入四流resnet-50主干網(wǎng)絡(luò)模型,輸出不同尺寸的特征圖c2、c3、c4和c5,包括:
36、將可見(jiàn)光第一增強(qiáng)模態(tài)圖像輸入子網(wǎng)絡(luò)evis1;
37、將可見(jiàn)光第二增強(qiáng)模態(tài)圖像輸入子網(wǎng)絡(luò)evis2;
38、將紅外線第一增強(qiáng)模態(tài)圖像輸入子網(wǎng)絡(luò)eir1;
39、將紅外線第二增強(qiáng)模態(tài)圖像輸入子網(wǎng)絡(luò)eir2;
40、取子網(wǎng)絡(luò)evis1、evis2、eir1和eir2的輸出進(jìn)行拼接,得到特征圖c1;
41、將特征圖c1輸入子網(wǎng)絡(luò)es,得到子網(wǎng)絡(luò)es每層輸出的特征圖c2、c3、c4和c5。
42、作為優(yōu)選,所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程如下:
43、獲取訓(xùn)練數(shù)據(jù)集劃分為自然光集和紅外線集,所自然光集中包含可見(jiàn)光模態(tài)圖像,所述紅外線集包含紅外線模態(tài)圖像;
44、將自然光集和紅外線集輸入所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò),根據(jù)所述多特征分層融合學(xué)習(xí)網(wǎng)絡(luò)的輸出計(jì)算聯(lián)合優(yōu)化損失進(jìn)行訓(xùn)練更新。
45、作為優(yōu)選,所述計(jì)算聯(lián)合優(yōu)化損失,包括:
46、
47、其中,為聯(lián)合優(yōu)化損失,表示異中心簇?fù)p失,表示id損失,表示模態(tài)間的三元組損失,表示四元中心簇?fù)p失;
48、所述id損失對(duì)可見(jiàn)光第一增強(qiáng)模態(tài)圖像和紅外線第一增強(qiáng)模態(tài)圖像經(jīng)過(guò)四流resnet-50主干網(wǎng)絡(luò)模型得到的特征進(jìn)行損失的計(jì)算,計(jì)算公式如下:
49、
50、其中,p是訓(xùn)練數(shù)據(jù)集中的類(lèi)別個(gè)數(shù),a表示第a個(gè)類(lèi)別,qa表示第a個(gè)類(lèi)別實(shí)際的標(biāo)簽分布概率,pa表示第a個(gè)類(lèi)別預(yù)測(cè)的分布概率,ε為常數(shù),y表示行人的類(lèi)別標(biāo)簽;
51、所述異中心簇?fù)p失計(jì)算公式如下:
52、
53、其中,q是訓(xùn)練階段批次中和每類(lèi)圖像的數(shù)量,f()是四流resnet-50主干網(wǎng)絡(luò)模型的全連接層之前的輸出,mean[a-b]是對(duì)象a和對(duì)象b之差的均值運(yùn)算,表示訓(xùn)練階段批次中第i張可見(jiàn)光第一增強(qiáng)模態(tài)圖像,表示訓(xùn)練階段批次中第i張紅外線第一增強(qiáng)模態(tài)圖像;
54、所述模態(tài)間的三元組損失計(jì)算公式表示為:
55、
56、其中,表示vis1和ir1模態(tài)間的三元組損失,表示輸入來(lái)自vis1和ir1模態(tài)的正樣本對(duì)和來(lái)自vis1模態(tài)的負(fù)樣本對(duì)計(jì)算得到的三元組損失,表示輸入來(lái)自vis1和ir1模態(tài)的正樣本對(duì)和來(lái)自ir1模態(tài)的負(fù)樣本對(duì)計(jì)算得到的三元組損失,vis1模態(tài)表示可見(jiàn)光第一增強(qiáng)模態(tài)圖像對(duì)應(yīng)的可見(jiàn)光第一增強(qiáng)模態(tài),ir1模態(tài)表示紅外線第一增強(qiáng)模態(tài)圖像對(duì)應(yīng)的紅外線第一增強(qiáng)模態(tài),與可用公式表示為:
57、
58、其中,m表示每次迭代隨機(jī)選擇的行人數(shù)量,b表示第b個(gè)行人,c表示第c個(gè)行人,ξ是間隔參數(shù),表示vis1圖像中第b個(gè)行人和ir1圖像中第c個(gè)行人之間的歐式距離,表示vis1圖像中第b個(gè)行人和ir1圖像中第k個(gè)行人之間的歐式距離,表示ir1圖像中第b個(gè)行人和vis1圖像中第c個(gè)行人之間的歐式距離,表示ir1圖像中第b個(gè)行人和vis1圖像中第k個(gè)行人之間的歐式距離,并且b與c相同,表示同一個(gè)行人;k與b、c不相同,表示不同的行人,yb表示當(dāng)前模態(tài)的第b個(gè)行人的類(lèi)別標(biāo)簽,yc表示與yb不同模態(tài)的同一行人的類(lèi)別標(biāo)簽,yk表示與yb和yc不同行人的類(lèi)別標(biāo)簽,[z]+=max(z,0),z為函數(shù)輸入;
59、所述四元中心簇?fù)p失計(jì)算公式表示為:
60、
61、其中,表示vis1和ir1模態(tài)間的中心簇?fù)p失,表示vis1和ir2模態(tài)間的中心簇?fù)p失,表示vis2和ir1模態(tài)間的中心簇?fù)p失,表示vis2和ir2模態(tài)間的中心簇?fù)p失,vis2模態(tài)表示可見(jiàn)光第二增強(qiáng)模態(tài)圖像對(duì)應(yīng)的可見(jiàn)光第二增強(qiáng)模態(tài),ir2模態(tài)表示紅外線第二增強(qiáng)模態(tài)圖像對(duì)應(yīng)的紅外線第二增強(qiáng)模態(tài);
62、將v1或v2記為v,將i1或i2記為i,則中心簇?fù)p失用如下公式表示:
63、
64、其中,d表示第d個(gè)類(lèi)別,g表示第g個(gè)類(lèi)別,ρ為預(yù)設(shè)參數(shù),表示包含第d個(gè)類(lèi)別的行人對(duì)應(yīng)的vis融合特征的平均中心位置,表示包含第d個(gè)類(lèi)別的行人對(duì)應(yīng)的ir融合特征的平均中心位置,vis為vis1或vis2,ir為ir1或ir2,表示包含第g個(gè)類(lèi)別的行人對(duì)應(yīng)的vis或ir融合特征的平均中心位置,∥a-b∥2表示計(jì)算對(duì)象a和對(duì)象b之間的歐氏距離。
65、本發(fā)明提供的一種基于多特征分層融合學(xué)習(xí)的跨模態(tài)行人重識(shí)別方法,與現(xiàn)有技術(shù)相比,具有以下有益效果:
66、(1)本發(fā)明方法為了提取多樣化的特征,從圖像增強(qiáng)角度出發(fā),通過(guò)對(duì)每種增強(qiáng)的圖像提取特征來(lái)豐富模型可以學(xué)習(xí)到的網(wǎng)絡(luò)。
67、(2)本發(fā)明方法首次從時(shí)序融合的角度考慮跨模態(tài)行人重識(shí)別問(wèn)題。具體來(lái)說(shuō),面對(duì)得到的多樣特征,本方法設(shè)計(jì)了一種基于時(shí)序的方法來(lái)分層融合所學(xué)習(xí)到的特征,有效緩解了模態(tài)差異,提高重識(shí)別準(zhǔn)確度。