本發(fā)明屬于視頻監(jiān)控技術(shù)領(lǐng)域,具體而言,涉及一種基于深度學(xué)習(xí)和強化學(xué)習(xí)的行人重識別方法及系統(tǒng)。
背景技術(shù):
為了識別不同視角的非重疊監(jiān)控場景下的行人身份,行人重識別技術(shù)得到廣泛發(fā)展,尤其是在監(jiān)控視頻領(lǐng)域。由于不同監(jiān)控場景下同一行人存在背景、光照、朝向等差異大的問題,因此如何解決背景、光照、朝向等因素的影響,從而快速檢測行人并進(jìn)行跟蹤是當(dāng)前亟待解決的技術(shù)問題。
現(xiàn)有的行人重識別技術(shù)主要存在如下問題:
目前的研究主要集中在如何有更好地表達(dá)特征以及如何更好地進(jìn)行距離度量學(xué)習(xí)上。特征表達(dá)多集中在行人外表,比如整體或者子區(qū)域的衣著顏色,紋理特征等,運用這些特征雖然在識別上帶來了提升,但對于衣著不對稱和朝向變化帶來的差異,現(xiàn)有的方法尚不夠好,對于正面和背面差異較大的重識別,常常會造成匹配失敗,帶來了較多識別誤差。
現(xiàn)有的基于朝向的行人重識別匹配策略多是專家系統(tǒng)式的決策。例如,匹配決策時,每個人都使用相同的朝向進(jìn)行比對,在沒有相同朝向的情況下選擇相鄰或者過渡的朝向。這樣的決策方法依賴于人為設(shè)計,對充分考慮的朝向或外表情況可以有很好的效果,但行人外表,朝向的多樣性決定了匹配準(zhǔn)則的復(fù)雜性,也說明了這種方法的不足。
三、基于無朝向信息的匹配方法:這種方法中所有圖片沒有朝向信息,其中包括很多中匹配方法,比如(1):首先計算probe和gallery中所有圖片的匹配距離/相似度,對于probe和gallery的每一個人(包括與其多張圖片匹配的距離),選擇類內(nèi)距離最小的/相似度最大的值,再對所有類進(jìn)行排序;(2):計算所有probe和gallery中圖像的可能組合得到所有匹配距離/相似度,將probe和gallery中同個人的所有距離/相似度求平均值,再進(jìn)行排序。論文[1]在匹配過程中,從不同類別的圖片中選取所有可能的匹配組合,通過計算權(quán)重直方圖,最大化穩(wěn)定的顏色區(qū)域等方法對距離進(jìn)行加權(quán)歸一化,再應(yīng)用了方法3(1),選取其中最小匹配距離。
四、主要關(guān)注在如何用更好的方法來提取行人的特征上,如CN201410070931.9公開了一種行人重識別特征提取方法,該方法先進(jìn)行行人檢測和行人輪廓的提取,后根據(jù)人體對稱性把行人的輪廓分為頭部、左軀干、右軀干、左腿和右腿五個感興趣區(qū)域來提取特征。
技術(shù)實現(xiàn)要素:
為解決現(xiàn)有上述技術(shù)問題,本發(fā)明利用多任務(wù)的方法構(gòu)建深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)一次操作提取行人行為特征及朝向信息,并對其進(jìn)行整理,同時對決策進(jìn)行強化訓(xùn)練快速選擇最優(yōu)的決策模型實現(xiàn)對待識別圖片的處理,完成行人的重識別。
本發(fā)明提供了一種基于深度學(xué)習(xí)和強化的行人重識別方法,其特征在于,包括如下步驟:
接收視頻獲取行人圖片,根據(jù)行人圖片獲取行人坐標(biāo)信息,通過光流算法和行人坐標(biāo)信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標(biāo)注行人身份信息后得到行人訓(xùn)練數(shù)據(jù)集,行人訓(xùn)練數(shù)據(jù)集包含行人的朝向信息據(jù)和身份標(biāo)簽;
以行人訓(xùn)練數(shù)據(jù)集為基礎(chǔ),利用多任務(wù)學(xué)習(xí)方法構(gòu)建并訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),獲得行人朝向和身份識別的雙任務(wù)模型;
按照朝向設(shè)置決策基,根據(jù)不同決策基的組合設(shè)定決策類別,按照朝向設(shè)置決策基,根據(jù)不同決策基的組合設(shè)定決策類別,將所有的決策類別建立為決策空間,并根據(jù)預(yù)設(shè)的強化學(xué)習(xí)模型對決策空間中決策類別進(jìn)行訓(xùn)練計算最優(yōu)決策模型;
接收待識別行人圖片,調(diào)用雙任務(wù)模型獲得該行人的朝向信息后,調(diào)用最優(yōu)決策模型獲得最優(yōu)決策,查詢行人庫輸出對該行人識別的檢索結(jié)果。
進(jìn)一步,所述利用多任務(wù)學(xué)習(xí)方法構(gòu)建深度神經(jīng)網(wǎng)包括分別構(gòu)建數(shù)據(jù)輸入層、卷積層、批規(guī)范化層、非線性層、池化層、全連接層和softmax損耗層,其中,
數(shù)據(jù)輸入層,用于接收行人圖片,對行人圖片進(jìn)行預(yù)處理;
卷積層,用于提取對預(yù)處理后的行人圖片的圖像特征;
批規(guī)范化層,用于對圖像特征進(jìn)行規(guī)劃化處理;
非線性層,用于圖像特征或規(guī)范化處理的圖像特征進(jìn)行非線性變換;
池化層,用于將圖像特征與行人進(jìn)行映射操作;
全連接層,用于對圖像特征進(jìn)行線性變換;
softmax損耗層,用于計算預(yù)測類別和標(biāo)簽類別的誤差。
進(jìn)一步,所述按照朝向設(shè)置決策基,根據(jù)不同決策基的組合設(shè)定決策類別,將所有的決策類別建立為決策空間,并根據(jù)預(yù)設(shè)的強化學(xué)習(xí)模型對決策空間中決策類別進(jìn)行訓(xùn)練計算最優(yōu)決策模型包括
選擇決策基組成新的決策;
根據(jù)行人朝向訓(xùn)練行人朝向數(shù)據(jù)集,獲取行人朝向匹配權(quán)重,根據(jù)匹配權(quán)重確定新的決策的種類;
利用強化學(xué)習(xí)算法函數(shù)對新的決策的種類進(jìn)行訓(xùn)練,獲取最優(yōu)決策模型。
進(jìn)一步,所述利用強化學(xué)習(xí)算法函數(shù)對決策種類計算訓(xùn)練,獲取最優(yōu)決策模型包括
選擇新的決策計算同一行人的行人圖片預(yù)設(shè)的行人重識別庫的相似度,判斷相似度是否大于閾值T;
如果相似度大于閾值T,計算該行人圖片的回報值R,統(tǒng)計該行人圖片的累積回報值V(S);
最大化折算累積回報函數(shù)最大化識別率對累積回報值V(S)進(jìn)行計算獲取最優(yōu)決策模型π*。
本發(fā)明還提供了一種基于深度學(xué)習(xí)的行人重識別系統(tǒng),包括
合并數(shù)據(jù)標(biāo)簽?zāi)K,用于接收視頻獲取行人圖片,根據(jù)行人圖片獲取行人坐標(biāo)信息,通過光流算法和行人坐標(biāo)信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標(biāo)注行人身份信息后得到行人訓(xùn)練數(shù)據(jù)集,行人訓(xùn)練數(shù)據(jù)集包括行人的朝向信息和身份標(biāo)簽;
行人朝向計算模塊,用于以行人訓(xùn)練數(shù)據(jù)集為基礎(chǔ),利用多任務(wù)學(xué)習(xí)方法構(gòu)建并深度神經(jīng)網(wǎng)絡(luò),獲得行人朝向和身份識別的雙任務(wù)模型;
決策計算模塊,用于按照朝向設(shè)置決策基,根據(jù)不同決策基的組合設(shè)定決策類別,將所有的決策類別建立為決策空間,并根據(jù)預(yù)設(shè)的強化學(xué)習(xí)模型對決策空間中決策類別進(jìn)行訓(xùn)練計算最優(yōu)決策模型;
識別模塊,用于接收待識別行人圖片,調(diào)用雙任務(wù)模型獲得該行人的朝向信息后,調(diào)用決策學(xué)習(xí)模型獲得最優(yōu)決策,查詢行人庫輸出對該行人識別的檢索結(jié)果。
進(jìn)一步,所述行人朝向計算模塊
構(gòu)建子模塊,用于構(gòu)建數(shù)據(jù)輸入層、卷積層、批規(guī)范化層、非線性層、池化層、全連接層和softmax損耗層。
進(jìn)一步,所述決策計算模塊包括
決策設(shè)定子模塊,用于選擇決策基組成新的決策;
分類子模塊,用于根據(jù)行人朝向訓(xùn)練行人朝向數(shù)據(jù)集,獲取行人朝向匹配權(quán)重,根據(jù)匹配權(quán)重計確定新的決策的種類;
強化訓(xùn)練子模塊,用于利用強化學(xué)習(xí)算法函數(shù)對新的決策的種類進(jìn)行訓(xùn)練,獲取最優(yōu)決策模型。
進(jìn)一步,強化訓(xùn)練子模塊包括
相似度計算單元,用于選擇新的決策計算同一行人的行人圖片預(yù)設(shè)的行人重識別庫的相似度,判斷相似度是否大于閾值T;
回報值計算單元,用于如果相似度大于閾值T,計算該行人圖片的回報值R,統(tǒng)計該行人圖片的累積回報值V(S);
最優(yōu)決策計算單元,用于最大化折算累積回報函數(shù)最大化識別率對累積回報值V(S)進(jìn)行計算獲取最優(yōu)決策模型π*。
進(jìn)一步,進(jìn)一步,
V(S)=R1+γR2+γ2R3+…,其中,γ為衰減項。
進(jìn)一步,
綜上,本發(fā)明包括如下有益效果:
1、采用深度神經(jīng)網(wǎng)絡(luò)一次完成了行人行為特征的提取和朝向識別;
2、首次將強化學(xué)習(xí)應(yīng)用于行人重識別中的朝向匹配策略學(xué)習(xí)上;
3、強化學(xué)習(xí)更高效地利用朝向信息做出匹配決策;
4、使用強化學(xué)習(xí)得到的決策模型能更充分地考慮不同的場景和數(shù)據(jù),而且這種方法可以細(xì)化到每一類都具備決策差異,更好地做到具體問題具體決策。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1-2本發(fā)明所述的基于深度學(xué)習(xí)的行人重識別方法的流程示意圖;
圖3為本發(fā)明所述的基于深度學(xué)習(xí)的行人重識別方法中S103的示意圖;
圖4為本發(fā)明所述的基于深度學(xué)習(xí)的行人重識別系統(tǒng)的框圖結(jié)構(gòu)示意圖。
具體實施方式
為了使本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)介紹。
下面通過具體的實施例并結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)描述。
如圖1-2所示,一種基于深度學(xué)習(xí)的行人重識別方法,包括如下步驟:
S101、接收視頻獲取行人圖片,根據(jù)行人圖片獲取行人坐標(biāo)信息,通過光流算法和行人坐標(biāo)信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標(biāo)注行人身份信息后得到行人訓(xùn)練數(shù)據(jù)集,行人訓(xùn)練數(shù)據(jù)集包含行人的朝向信息據(jù)和身份標(biāo)簽;
本發(fā)明的目的在于對行人進(jìn)行重識別,對出現(xiàn)在攝像機視角1下的行人在攝像機視角2下進(jìn)行重新識別的過程,該技術(shù)旨在識別不同視角的非重疊監(jiān)控場景下行人的身份。因此本發(fā)明中接收的視頻包括多個攝像頭的視頻輸入流,每個攝像頭的角度可能不同,因此導(dǎo)致同一行人在攝像頭下的朝向不同,因此需要對接收的不同攝像頭視頻中的行人圖片中的行人按照一定的策略進(jìn)行匹配,判斷該行人朝向并對行人加以區(qū)別。
S102、以行人訓(xùn)練數(shù)據(jù)集為基礎(chǔ),利用多任務(wù)學(xué)習(xí)方法構(gòu)建并訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),獲得行人朝向和身份識別的雙任務(wù)模型;
多任務(wù)學(xué)習(xí)假設(shè)待學(xué)習(xí)的多個任務(wù)具有一定的相關(guān)性,可以結(jié)合在一起進(jìn)行聯(lián)合訓(xùn)練,提高特征的泛化性能和使用效率。多任務(wù)學(xué)習(xí)與單任務(wù)學(xué)習(xí)的深度模型的區(qū)別在于網(wǎng)絡(luò)的輸出部分,多任務(wù)學(xué)習(xí)的輸入和單任務(wù)學(xué)習(xí)的輸入數(shù)據(jù)相同,但同一批數(shù)據(jù)包含了多個任務(wù)的標(biāo)簽,輸出為多個分類分支,每個分支處理單個多分類任務(wù),這樣可以大大節(jié)約數(shù)據(jù)以及計算開支,實現(xiàn)數(shù)據(jù)和模型的高效復(fù)用,在模型的輸出部分為多個不同任務(wù)的分類器,如softmax,在訓(xùn)練的時候,根據(jù)不同任務(wù)的重要性,分配不同的學(xué)習(xí)比重,使得模型更傾向于擬合復(fù)雜的分類任務(wù)。
S103、按照朝向設(shè)置決策基,根據(jù)不同決策基的組合設(shè)定決策類別,按照朝向設(shè)置決策基,根據(jù)不同決策基的組合設(shè)定決策類別,將所有的決策類別建立為決策空間,并根據(jù)預(yù)設(shè)的強化學(xué)習(xí)模型對決策空間中決策類別進(jìn)行訓(xùn)練計算最優(yōu)決策模型;
具體的,四個朝向可以分為四種決策/動作(action)方法,這四種是最基本的決策,稱為決策基,本發(fā)明通過不同決策基的組合設(shè)定決策的類別。比如選擇其中兩個或多個決策基加權(quán)組合成新的決策。
S104、接收待識別行人圖片,調(diào)用雙任務(wù)模型獲得該行人的朝向信息后,調(diào)用最優(yōu)決策模型獲得最優(yōu)決策,查詢行人庫輸出對該行人識別的檢索結(jié)果。
在識別過程中,需要進(jìn)行識別的圖片(用probe表示)可以是一張,也可以是多張。而識別過程中,待識別圖片(probe)需要匹配行人庫(用gallery表示)中的圖片從而找到該庫中的同一個人。gallery一般包含多個人/類別,每個類別可以有一張圖片,也可以有多張圖片。本發(fā)明通過行人朝向和身份識別的雙任務(wù)模型的設(shè)置對待識別的圖片(probe)進(jìn)行處理獲取對行人重識別及朝向信息,通過調(diào)用最優(yōu)決策計算模型對probe進(jìn)行處理計算該行人與gallery中行人的匹配度從而確定該行人的身份,并將檢索結(jié)果進(jìn)行輸出,達(dá)到對行人重識別的目的。
如圖2所示,本發(fā)明首先對行人圖片進(jìn)行處理獲取行人朝向數(shù)據(jù)、行人識別數(shù)據(jù),在將二者進(jìn)行合并處理生成合并行人訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集包括行人朝向及行人標(biāo)識。同時本發(fā)明利用創(chuàng)建的深度神經(jīng)網(wǎng)絡(luò)對行人訓(xùn)練數(shù)據(jù)集進(jìn)行圖像特征提取、線性轉(zhuǎn)換、映射等處理最終對行人朝向的誤差計算提高對行人重識別預(yù)測結(jié)果的精確性,從而獲取待視頻圖片中行人的朝向。同時本發(fā)明利用強化學(xué)習(xí)模型對決策空間中決策進(jìn)行計算選擇最優(yōu)決策模型進(jìn)而快速實現(xiàn)對待識別圖片中行人匹配決策的選擇,最終提高輸出對行人的識別結(jié)果。
進(jìn)一步,所述利用多任務(wù)學(xué)習(xí)方法構(gòu)建深度神經(jīng)網(wǎng)包括分別構(gòu)建數(shù)據(jù)輸入層、卷積層、批規(guī)范化層、非線性層、池化層、全連接層和softmax損耗層,
其中,
數(shù)據(jù)輸入層用于接收行人圖片,對行人圖片進(jìn)行預(yù)處理;
卷積層,用于提取對預(yù)處理后的行人圖片的圖像特征;
批規(guī)范化層,用于對圖像特征進(jìn)行規(guī)劃化處理;
非線性層,用于圖像特征或規(guī)范化處理的圖像特征進(jìn)行非線性變換;池化層,用于將圖像特征與行人進(jìn)行映射操作;
全連接層,用于對圖像特征進(jìn)行線性變換;
softmax損耗層,用于計算預(yù)測類別和標(biāo)簽類別的誤差。非線性層提升了神經(jīng)網(wǎng)絡(luò)的非線性表征能力,從而神經(jīng)網(wǎng)絡(luò)可以更好地表達(dá)復(fù)雜函數(shù)關(guān)系,從而可以提取更好的特征,圖像通過卷積和非線性等操作之后得到的是高維特征,通過全連接層方便了將所有特征信息扁平化線性化輸出,全連接層對比卷積層,是卷積層的特殊形式,現(xiàn)有的全連接層已經(jīng)不是必要的層,比如現(xiàn)在廣泛使用的全卷積網(wǎng)絡(luò),可以簡單地認(rèn)為全連接層可以把高維的數(shù)據(jù)扁平化輸出,比如做一個10分類的任務(wù)可以在最后做一個輸出維度為10的全連接然后再連接上分類器。
進(jìn)一步,如圖3所示S103包括
S1031、選擇決策基組成新的決策;
S1032、根據(jù)行人朝向訓(xùn)練行人朝向數(shù)據(jù)集,獲取行人朝向匹配權(quán)重,根據(jù)匹配權(quán)重確定新的決策的種類;
S1033、利用強化學(xué)習(xí)算法函數(shù)對新的決策的種類進(jìn)行訓(xùn)練,獲取最優(yōu)決策模型。
新的決策按照不同的方式可以分為兩類:
(1)一套權(quán)重作為一種決策類別:
如公式(1)所示,S為匹配相似度,Wpq是兩張匹配圖片朝向分為p和q的匹配權(quán)重,Spq為這兩張匹配圖片的相似度,p、q均可代表右面,背面,左面或正面中任意一面。這種方法將probe(待識別圖片,即在識別過程中,需要進(jìn)行識別的圖片,可以是一張,也可以是多張)和gallery(庫中的圖片進(jìn)行重識別,即在識別過程中,待識別圖片probe需要匹配庫中的圖片,找到庫中的同一個人,這個庫中的圖像用gallery表示。gallery一般包含多個人/類別,每個類別可以有一張圖片,也可以有多張圖片)所有存在的組合都會乘以相應(yīng)的權(quán)重而利用起來。
(2)同一套權(quán)重但組合成多種決策類別:由決策基組成的新決策中,權(quán)重在不同的數(shù)據(jù)集上可以是不同的,比如,在數(shù)據(jù)集1上學(xué)習(xí)得到的權(quán)重中,相同朝向的權(quán)重很大,不同朝向的權(quán)重很小,而在數(shù)據(jù)集2上學(xué)習(xí)得到的權(quán)重中,相同朝向匹配的權(quán)重和不同朝向匹配的權(quán)重相差不大,這種現(xiàn)象可以直觀地理解為,數(shù)據(jù)集1不同朝向之間的差異巨大,導(dǎo)致不同朝向匹配的置信度差,而數(shù)據(jù)集2不同朝向之間的差異不太大。所以如果存在n種分布區(qū)別大的數(shù)據(jù)集,方法(1)則有n種新決策,而方法(2)在gallery中四種朝向都存在的情況下共有n*11種新決策,隨著數(shù)據(jù)集分布種類的增加,決策種類也大幅增加。在不同分布的數(shù)據(jù)集上用SVM訓(xùn)練得到朝向匹配權(quán)重。這些決策充分考慮了數(shù)據(jù)集的具體情況,對不同數(shù)據(jù)集的不同行人的匹配決策有更強的靈活性。這種方法的決策空間可以衍生出C44+C34+C24=11種新決策,與方法(1)的區(qū)別在于,方法(1)會使用probe與gallery的所有組合,而方法(2)會根據(jù)不同的情況選擇相應(yīng)的朝向組合進(jìn)行加權(quán)。例如,在gallery中某個類包含了四個朝向,方法(1)會將probe與gallery中四個朝向的所有圖片進(jìn)行組合,然后按照公式(1)得到最終相似度;方法(2)則會根據(jù)probe的朝向情況抽取兩個或者三個朝向組合加權(quán)和求取最終相似度,而不是所有存在的組合都利用,最終加快匹配速度。
進(jìn)一步,S1033包括
選擇新的決策計算同一行人的行人圖片預(yù)設(shè)的行人重識別庫的相似度,判斷相似度是否大于閾值T;
如果相似度大于閾值T,計算該行人圖片的回報值R,統(tǒng)計該行人圖片的累積回報值V(S);
最大化折算累積回報函數(shù)最大化識別率對累積回報值V(S)進(jìn)行計算獲取最優(yōu)決策模型π*。
進(jìn)一步,
V(S)=R1+γR2+γ2R3+…,其中,γ為衰減項。
進(jìn)一步,
本發(fā)明通過設(shè)計強化學(xué)習(xí)算法中的回報(reward)函數(shù)R,在一次匹配過程中(一張probe與gallery中的所有類別),probe與gallery中的一類進(jìn)行匹配,代理/動作者(agent)根據(jù)probe和gallery中的朝向情況在決策空間中選擇一個決策行動(action)A,若得到的相似度大于閾值T,并且所比對的probe和gallery為同一個類,則得到回報值R,循環(huán)遍歷所有probe進(jìn)行匹配最終得到折算累積回報(discounted cumulative reward)V(s),如公式(2)所示,其中γ為衰減項。在本發(fā)明中,由于匹配過程不存在時序性,為離散隨機的匹配,故衰減項為1,即每個probe與gallery的匹配都是平行的,不需要衰減。
如圖4所示,本發(fā)明還提供了一種基于深度學(xué)習(xí)的行人重識別系統(tǒng),包括合并數(shù)據(jù)標(biāo)簽?zāi)K10、行人朝向計算模塊20、決策計算模塊30、識別模塊40。
其中,
合并數(shù)據(jù)標(biāo)簽?zāi)K10,用于接收視頻獲取行人圖片,根據(jù)行人圖片獲取行人坐標(biāo)信息,通過光流算法和行人坐標(biāo)信息計算不同幀圖片中同一行人的運動方向得到行人朝向信息,并在標(biāo)注行人身份信息后得到行人訓(xùn)練數(shù)據(jù)集,行人訓(xùn)練數(shù)據(jù)集包括行人的朝向信息和身份標(biāo)簽;
本發(fā)明通過合并數(shù)據(jù)標(biāo)簽?zāi)K實現(xiàn)了對接收的視頻進(jìn)行處理獲取行人的朝向及行人身份標(biāo)簽,初步實現(xiàn)了對行人訓(xùn)練數(shù)據(jù)集的生成,為構(gòu)建深度神經(jīng)網(wǎng)絡(luò)提供了素材,提高了深度神經(jīng)網(wǎng)絡(luò)對行人中行人朝向及重識別的識別精度,不需要額外的設(shè)備對視頻進(jìn)行處理即可實現(xiàn),提高了行人重識別的效率,降低了行人重識別的成本。
光流算法在本發(fā)明中主要起跟蹤作用,光流算法有四個主要的步驟:1、選擇感興趣的目標(biāo),在本發(fā)明中就是行人;2、計算目標(biāo)圖片中的特征點,比如SIFT角點;3、預(yù)測角點在下一幀的位置;4、根據(jù)不同幀相同的角點之間的變化規(guī)律對目標(biāo)進(jìn)行跟蹤。例如,在本發(fā)明中,通過利用光流算法跟蹤行人的軌跡可以得到行人的運動方向,從而可以判斷出行人的朝向信息(人不會反方向行走)。可以使用其它的跟蹤算法,但是光流算法簡單易用,再配合上已經(jīng)標(biāo)注的行人坐標(biāo)的移動信息,可以得到更加可靠的行人朝向數(shù)據(jù)。
行人朝向計算模塊20,用于以行人訓(xùn)練數(shù)據(jù)集為基礎(chǔ),利用多任務(wù)學(xué)習(xí)方法構(gòu)建并深度神經(jīng)網(wǎng)絡(luò),獲得行人朝向和身份識別的雙任務(wù)模型;
決策計算模塊30,用于按照朝向設(shè)置決策基,根據(jù)不同決策基的組合設(shè)定決策類別,將所有的決策類別建立為決策空間,并根據(jù)預(yù)設(shè)的強化學(xué)習(xí)模型對決策空間中決策類別進(jìn)行訓(xùn)練計算最優(yōu)決策模型;
識別模塊40,用于接收待識別行人圖片,調(diào)用雙任務(wù)模型獲得該行人的朝向信息后,調(diào)用決策學(xué)習(xí)模型獲得最優(yōu)決策,查詢行人庫輸出對該行人識別的檢索結(jié)果。
進(jìn)一步,所述決策計算模塊包括
決策設(shè)定子模塊,用于選擇決策基組成新的決策;
分類子模塊,用于根據(jù)行人朝向訓(xùn)練行人朝向數(shù)據(jù)集,獲取行人朝向匹配權(quán)重,根據(jù)匹配權(quán)重計確定決策種類;
強化訓(xùn)練子模塊,用于利用強化學(xué)習(xí)算法函數(shù)對決策種類計算訓(xùn)練,獲取最優(yōu)決策模型。
強化訓(xùn)練子模塊包括
相似度計算單元,用于選擇新的決策計算同一行人的行人圖片預(yù)設(shè)的行人重識別庫的相似度,判斷相似度是否大于閾值T;
回報值計算單元,用于如果相似度大于閾值T,計算該行人圖片的回報值R,統(tǒng)計該行人圖片的累積回報值V(S);
最優(yōu)決策計算單元,用于最大化折算累積回報函數(shù)最大化識別率對累積回報值V(S)進(jìn)行計算獲取最優(yōu)決策模型π*。
進(jìn)一步,所述合并數(shù)據(jù)標(biāo)簽?zāi)K包括
朝向子模塊,用于根據(jù)行人圖片獲取行人坐標(biāo)信息,通過光流算法和行人坐標(biāo)信息計算不同行人圖片中同一行人的運動方向得到行人朝向數(shù)據(jù);
行人識別子模塊,用于對行人朝向數(shù)據(jù)進(jìn)行清洗,對朝向數(shù)據(jù)中的行人進(jìn)行標(biāo)記。
進(jìn)一步,所述決策計算模塊包括
決策空間建立子模塊,用于根據(jù)決策基建立決策空間;
決策強化計算子模塊,用于根據(jù)回報函數(shù)對決策空間計算,獲取最優(yōu)決策模型。
更進(jìn)一步,所述決策空間建立子模塊包括
決策設(shè)置單元,用于選擇決策基組成新的決策;
分類子單元,用于根據(jù)行人朝向權(quán)重的設(shè)置將新的決策按照進(jìn)行分類。
更進(jìn)一步,所述決策強化計算子模塊包括
相似度計算單元,用于選擇新的決策計算同一行人的行人圖片預(yù)設(shè)的行人重識別庫的相似度,判斷相似度是否大于閾值T;
回報值計算單元,用于如果相似度大于閾值T,計算該行人圖片的回報值R,統(tǒng)計該行人圖片的累積回報值V(S);
最優(yōu)決策計算單元,用于最大化折算累積回報函數(shù)最大化識別率對累積回報值V(S)進(jìn)行計算獲取最優(yōu)決策模型π*。
以上只通過說明的方式描述了本發(fā)明的某些示范性實施例,毋庸置疑,對于本領(lǐng)域的普通技術(shù)人員,在不偏離本發(fā)明的精神和范圍的情況下,可以用各種不同的方式對所描述的實施例進(jìn)行修正。因此,上述附圖和描述在本質(zhì)上是說明性的,不應(yīng)理解為對本發(fā)明權(quán)利要求保護范圍的限制。