本發(fā)明涉及圖像識別,尤其涉及一種基于多模態(tài)信息監(jiān)督的行人重識別方法。
背景技術(shù):
1、行人重識別(reid)是一項計算機視覺任務(wù),旨在從不同攝像頭或在不同時間拍攝的圖像中識別和匹配同一個人。reid技術(shù)在跨攝像頭多目標(biāo)跟蹤、智能安防、視頻監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用。行人重識別面臨著多個技術(shù)挑戰(zhàn),這一過程需要克服行人由于姿態(tài)、視角、光照、遮擋等各種變化而導(dǎo)致的外觀差異,因此對算法的魯棒性要求很高。
2、近20年來,行人重識別技術(shù)一直是機器視覺領(lǐng)域和人工智能領(lǐng)域的研究熱點,涌現(xiàn)出很多經(jīng)典算法,具體算法可以分為以下幾類:
3、(1)基于傳統(tǒng)技術(shù)進行行人重識別,該類算法主要依賴于手工設(shè)計的特征提取和度量學(xué)習(xí)進行行人重識別,常用的算法有顏色分布直方圖比較算法、紋理分布直方圖比較算法、感知哈希算法等。這些方法在行人重識別方面取得了一定的成效,但是由于采用了圖像底層特征的計算方法,容易受到姿態(tài)、視角、光照、遮擋等因素的干擾,魯棒性較低。
4、(2)基于深度學(xué)習(xí)技術(shù)進行行人重識別,近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人工智能技術(shù)開始逐漸應(yīng)用于圖像相似度獲取領(lǐng)域,借助卷積神經(jīng)網(wǎng)絡(luò)、注意力神經(jīng)網(wǎng)絡(luò)、transformer網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù),可以對兩幅行人局部圖像進行顯著的差異性特征提取,直接輸出兩幅圖像中行人的相似度,極大的提高了行人重識別的準(zhǔn)確率和穩(wěn)定性。雖然基于深度學(xué)習(xí)技術(shù)進行行人重識別的方法可以獲得不錯的效果,但該技術(shù)的泛化能力不足,造成這種不足的根本原因是,無法獲取大量標(biāo)注良好的樣本數(shù)據(jù),標(biāo)注良好的樣本數(shù)據(jù)需要考慮場景的多樣性、標(biāo)注的一致性、數(shù)據(jù)分布的長尾性等,基于以上各種原因,大規(guī)模數(shù)據(jù)的標(biāo)注成本很高,極大的限制了基于深度學(xué)習(xí)技術(shù)進行行人重識別技術(shù)的發(fā)展。
5、近期,視覺語言大模型取得了顯著的進步,憑借著超大參數(shù),視覺語言大模型能夠同時關(guān)注視覺(如圖像、視頻)和語言(如文本)兩種模態(tài)的數(shù)據(jù),完成多個復(fù)雜的任務(wù),如圖像描述生成、視覺問答、文本生成圖像等?,F(xiàn)階段,多模型大模型復(fù)雜度很高,需要的計算資源很大,不適合實際使用。
技術(shù)實現(xiàn)思路
1、基于背景技術(shù)存在的技術(shù)問題,本發(fā)明提出了一種基于多模態(tài)信息監(jiān)督的行人重識別方法,通過借助語言大模型生成的分析結(jié)果作為監(jiān)督信號,去指導(dǎo)行人特征提取網(wǎng)絡(luò)分支訓(xùn)練,無需人工參與,即可獲取大規(guī)模高質(zhì)量樣本數(shù)據(jù),極大提高行人重識別的準(zhǔn)確度和魯棒性。
2、本發(fā)明提出的一種基于多模態(tài)信息監(jiān)督的行人重識別方法,將任意給出的兩幅行人圖像輸入到已訓(xùn)練完成的深度神經(jīng)網(wǎng)絡(luò)模型中,輸出兩個對應(yīng)的行人信息特征向量,計算兩個行人信息特征向量之間的相似度,當(dāng)相似度大于設(shè)定相似度閾值,則判斷兩幅行人圖像中的行人為同一個人;
3、所述深度神經(jīng)網(wǎng)絡(luò)模型包括行人特征提取網(wǎng)絡(luò)分支以及輔助訓(xùn)練分支,行人特征提取網(wǎng)絡(luò)分支的輸入為任意給定的兩幅行人圖像,輔助訓(xùn)練分支只參與深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程,輔助訓(xùn)練分支通過對行人特征提取網(wǎng)絡(luò)分支輸出的行人信息特征向量進行損失函數(shù)優(yōu)化監(jiān)督操作,以訓(xùn)練行人特征提取網(wǎng)絡(luò)分支中的可訓(xùn)練參數(shù)。
4、進一步地,所述行人特征提取網(wǎng)絡(luò)分支包括依次連接的視覺編碼器imageencode、最大值池化層maxpool、卷積層conv0以及特征尺寸調(diào)整層reshape0;
5、任意給定的兩幅行人圖像作為輸入圖像送入視覺編碼器image?encode中,特征尺寸調(diào)整層reshape0輸出兩個圖像對應(yīng)的行人信息特征向量。
6、進一步地,所述輔助訓(xùn)練分支包括文本向量化模塊word?embedding、特征尺寸調(diào)整層reshape1、拼接層concat0、拼接層concat1、語言大模型模塊llm以及全連接層fc;
7、問題提示文本輸入到文本向量化模塊word?embedding,視覺編碼器image?encode輸出的兩個特征向量送入特征尺寸調(diào)整層reshape1,
8、特征尺寸調(diào)整層reshape1輸出的兩個特征向量以及文本向量化模塊wordembedding輸出文本向量均送入拼接層concat1中,拼接層concat1的輸出連接到語言大模型模塊llm的輸入;
9、將特征尺寸調(diào)整層reshape0輸出兩行人信息特征向量輸入到拼接層concat0,并將拼接層concat0的輸出通過全連接層fc,全連接層fc輸出分類任務(wù)的預(yù)測結(jié)果,基于分類任務(wù)的預(yù)測結(jié)果和語言大模型模塊llm輸出的答案構(gòu)建損失函數(shù)層,以訓(xùn)練行人特征提取網(wǎng)絡(luò)分支。
10、進一步地,所述全連接層fc包括全連接層fc_1、…、全連接層fc_n,每一個全連接層均表示任意一個分類任務(wù)的預(yù)測結(jié)果。
11、進一步地,損失函數(shù)層與全連接層的數(shù)量一一對應(yīng),損失函數(shù)層中設(shè)置交叉熵?fù)p失函數(shù)。
12、進一步地,深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程如下:
13、收集多個行人圖像并預(yù)處理,以構(gòu)建樣本圖像訓(xùn)練集;同時設(shè)計問題提示文本集,問題提示文本集用于描述當(dāng)前輸入圖像對中要判斷的問題,與全連接層fc表示的分類任務(wù)對應(yīng);
14、基于交叉熵?fù)p失構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型的目標(biāo)損失函數(shù);
15、從圖像訓(xùn)練集中任選兩幅行人圖像,從問題提示文本集中任選一個問題提示文本,共同組成訓(xùn)練樣本數(shù)據(jù)對,將訓(xùn)練樣本數(shù)據(jù)對輸入到深度神經(jīng)網(wǎng)絡(luò)模型中;
16、微調(diào)語言大模型模塊llm:忽略最大值池化層maxpool、卷積層conv0以及特征尺寸調(diào)整層reshape0、特征尺寸調(diào)整層reshape1、拼接層concat0、拼接層concat1以及全連接層fc,凍結(jié)文本向量化模塊word?embedding,微調(diào)視覺編碼器image?encode和語言大模型模塊llm;
17、訓(xùn)練行人特征提取網(wǎng)絡(luò)分支:凍結(jié)文本向量化模塊word?embedding、視覺編碼器image?encode和語言大模型模塊llm,基于輔助訓(xùn)練分支中語言大模型模塊llm輸出的答案去監(jiān)督訓(xùn)練最大值池化層maxpool、卷積層conv0以及特征尺寸調(diào)整層reshape0、特征尺寸調(diào)整層reshape1、拼接層concat0、拼接層concat1以及全連接層fc。
18、一種計算機設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上所述的行人重識別方法;
19、一種計算機可讀儲存介質(zhì),其特征在于,所述計算機可讀儲存介質(zhì)上存儲有若干分類程序,所述若干分類程序用于被處理器調(diào)用并執(zhí)行如上所述的行人重識別方法。
20、本發(fā)明提供的一種基于多模態(tài)信息監(jiān)督的行人重識別方法的優(yōu)點在于:本發(fā)明結(jié)構(gòu)中提供的一種基于多模態(tài)信息監(jiān)督的行人重識別方法,。
1.一種基于多模態(tài)信息監(jiān)督的行人重識別方法,其特征在于,將任意給出的兩幅行人圖像輸入到已訓(xùn)練完成的深度神經(jīng)網(wǎng)絡(luò)模型中,輸出兩個對應(yīng)的行人信息特征向量,計算兩個行人信息特征向量之間的相似度,當(dāng)相似度大于設(shè)定相似度閾值,則判斷兩幅行人圖像中的行人為同一個人;
2.根據(jù)權(quán)利要求1所述的基于多模態(tài)信息監(jiān)督的行人重識別方法,其特征在于,所述行人特征提取網(wǎng)絡(luò)分支包括依次連接的視覺編碼器image?encode、最大值池化層maxpool、卷積層conv0以及特征尺寸調(diào)整層reshape0;
3.根據(jù)權(quán)利要求2所述的基于多模態(tài)信息監(jiān)督的行人重識別方法,其特征在于,所述輔助訓(xùn)練分支包括文本向量化模塊word?embedding、特征尺寸調(diào)整層reshape1、拼接層concat0、拼接層concat1、語言大模型模塊llm以及全連接層fc;
4.根據(jù)權(quán)利要求3所述的基于多模態(tài)信息監(jiān)督的行人重識別方法,其特征在于,所述全連接層fc包括全連接層fc_1、…、全連接層fc_n,每一個全連接層均表示任意一個分類任務(wù)的預(yù)測結(jié)果。
5.根據(jù)權(quán)利要求4所述的基于多模態(tài)信息監(jiān)督的行人重識別方法,其特征在于,損失函數(shù)層與全連接層的數(shù)量一一對應(yīng),損失函數(shù)層中設(shè)置交叉熵?fù)p失函數(shù)。
6.根據(jù)權(quán)利要求3所述的基于多模態(tài)信息監(jiān)督的行人重識別方法,其特征在于,深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程如下:
7.一種計算機設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1-6中任一項所述的行人重識別方法。
8.一種計算機可讀儲存介質(zhì),其特征在于,所述計算機可讀儲存介質(zhì)上存儲有若干分類程序,所述若干分類程序用于被處理器調(diào)用并執(zhí)行如權(quán)利要求1-6中任一項所述的行人重識別方法。