本發(fā)明涉及一種基于結(jié)合人體語義與三維重構(gòu)的行人搜索方法及系統(tǒng),屬于計算機視覺。
背景技術(shù):
1、隨著城市化進程的加快和人口的增長,行人搜索在城市管理和公共安全領(lǐng)域的重要性日益凸顯。城市環(huán)境的復雜性以及人流量的激增,使得傳統(tǒng)的監(jiān)控和搜索手段面臨諸多挑戰(zhàn)。通過行人識別搜索技術(shù),可以對來自不同監(jiān)控設(shè)備的行人圖像或視頻序列進行有效檢索,實現(xiàn)跨攝像頭的行人追蹤,這顯著提升了智能監(jiān)控系統(tǒng)的效率和準確性。因此,該技術(shù)在安全監(jiān)控、智能零售和智慧城市等領(lǐng)域有著巨大的應用前景,具有重要的研究價值和現(xiàn)實意義。
2、此外,人工智能和深度學習技術(shù)的迅猛發(fā)展,使行人搜索領(lǐng)域迎來了新的機遇。深度學習的先進算法和強大計算能力為行人搜索提供了堅實的理論基礎(chǔ)和技術(shù)支撐。借助卷積神經(jīng)網(wǎng)絡(luò)(cnn)等深度學習模型,使得行人搜索算法能夠更有效地提取行人圖像中的特征,顯著提升識別的準確性和魯棒性。
3、然而,值得注意的是,傳統(tǒng)的行人搜索方法通常假設(shè)行人在某個封閉場景短時間內(nèi)重復出現(xiàn),行人的視覺外觀大致相同,大大減少了搜索的難度,與真實開放場景中長時間跨度的情況并不相符,因此在實際應用中難以有效使用。
4、在現(xiàn)實世界中,行人在長時間跨度下可能會更換衣物并再次出現(xiàn)在監(jiān)控畫面中。更為關(guān)鍵的是,犯罪嫌疑人可能會通過改變外表或遮擋面部來進行偽裝,這使得衣服特征不能再作為行人識別的有效判斷依據(jù)。因此,換衣行人搜索應運而生。換衣搜索的目標是要建立在長時間跨度監(jiān)控攝像頭下同一行人不同衣服的身份聯(lián)系,由于衣服的變化,行人外觀差異明顯,大大增加了搜索的難度。
5、因此,本發(fā)明提出了一種基于結(jié)合人體語義與三維重構(gòu)的行人搜索方法及系統(tǒng)來解決上述問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)的不足,研制一種基于結(jié)合人體語義與三維重構(gòu)的行人搜索方法及系統(tǒng)。通過模擬換衣過程擴充訓練數(shù)據(jù)樣本,對比學習非衣服區(qū)域的特征,以及引入額外體型和頭部特征,使模型更有效地應對因換衣問題帶來的挑戰(zhàn),大幅度提升換衣行人搜索的準確率和魯棒性。
2、本發(fā)明解決技術(shù)問題的技術(shù)方案為一種基于結(jié)合人體語義與三維重構(gòu)的行人搜索方法,包括以下步驟:
3、s1.加載行人數(shù)據(jù),獲取人體語義:
4、由獲取的原始行人數(shù)據(jù)構(gòu)建數(shù)據(jù)集,對數(shù)據(jù)集中原始行人數(shù)據(jù)進行隨機分層采樣,從數(shù)據(jù)集中獲取待處理的原始行人圖像,通過預訓練的人體語義解析模型對原始行人圖像進行人體各部件的語義信息標注,得到對應的人體語義掩碼;
5、s2.人體語義換衣,數(shù)據(jù)樣本擴充:
6、利用人體語義掩碼將同一行人不同穿著的兩張圖像進行衣物的更換,得到換衣后的行人圖像,進而擴充數(shù)據(jù)集樣本;
7、s3.對比學習特征,關(guān)注人體區(qū)域:
8、用骨干網(wǎng)絡(luò)提取原始行人圖像和換衣后行人圖像的特征,使用均方誤差損失對比換衣前后特征的變化,使這兩個特征之間更加接近;
9、s4.三維人體重構(gòu),頭部信息保留:
10、首先利用人體屬性分析模型提取出行人的性別信息,通過預訓練的三維人體網(wǎng)格估計模型在三維空間中定位人體網(wǎng)格頂點,使用對應性別的smpl-x模型對行人進行三維建模,然后將三維模型投影到原始行人圖像背景下,利用人體語義頭部掩碼,將原始行人圖像的頭部貼到相應頭部位置,最后,使用骨干網(wǎng)絡(luò)提取保留頭部的三維建模圖像特征;
11、s5.行人特征融合,全局特征匹配:
12、將提取的原始行人圖像的特征與三維建模圖像特征進行卷積注意力的特征融合,得到最終的全局特征,利用全局特征進行特征相似度匹配,通過計算歐氏距離來評估特征之間的相似性,對行人檢索圖庫進行排序,得到最終的檢索結(jié)果。
13、s1具體步驟如下:
14、小批量樣本為數(shù)據(jù)集進行隨機分層采樣后的一批數(shù)據(jù),,小批量樣本中包含組不同身份行人的圖像,每組同身份行人包含張不同穿著的原始行人圖像,,表示小批量樣本中原始行人圖像的總數(shù)量,表示小批量樣本中第張原始行人圖像,的形狀為,、和分別表示原始行人圖像的通道數(shù)、高度和寬度;并對小批量樣本中每張原始行人圖像進行真實身份的標注,原始行人圖像的真實身份標簽為,;
15、使用預訓練的人體語義解析模型對數(shù)據(jù)集中任意一個小批量樣本中任意一張原始行人圖像進行人體語義分割,得到人體像素局部語義置信度,表示屬于人體語義第部分像素坐標為的語義置信度,,六個人體語義部分依次標注為背景、頭部、上衣、下衣、上肢、下肢,再通過激活函數(shù)對人體像素局部語義置信度進行處理,得到6個局部語義掩膜像素坐標,表示第個人體語義部分的語義掩膜像素坐標,再通過對函數(shù)求參數(shù)的函數(shù)得到人體語義掩碼;
16、其中,函數(shù)具體實現(xiàn)如下:
17、,,
18、函數(shù)具體實現(xiàn)如下:
19、。
20、s2具體步驟如下:
21、選擇與原始行人圖像為同一行人不同穿著的圖像來與原始行人圖像進行換衣操作,具體通過原始行人圖像的人體語義掩碼和圖像的人體語義掩碼找到兩張圖像衣服掩碼重疊區(qū)域并進行像素替換,未替換的衣服區(qū)域用另一張圖像的衣服進行填充,填充的另一張圖像的衣服的獲取過程是在圖像的衣服區(qū)域的1/4位置取出大小為該區(qū)域的1/5的像素塊,將其通過雙線性插值變成的形狀;
22、替換過程如下:
23、,
24、,
25、其中,表示衣服掩碼重疊區(qū)域,表示未替換的衣服區(qū)域,表示衣服掩碼值,,表示上衣區(qū)域掩碼值,表示上衣區(qū)域掩碼值;
26、經(jīng)過替換后得到一張換衣后的行人圖像,然后再選擇與原始行人圖像為同一行人不同穿著的其他圖像進行替換,進而得到新的圖像,同理,為數(shù)據(jù)集中所有原始行人圖像選擇同一行人不同穿著的圖像來進行替換操作,進而擴充數(shù)據(jù)集的樣本數(shù)量。
27、s3具體步驟如下:
28、將所有原始行人圖像與換衣后的行人圖像在小批量樣本上拼接得到形狀為的數(shù)據(jù)樣本,得到數(shù)據(jù)擴張后的小批量樣本,表示小批量樣本中第張行人圖像,,表示小批量樣本中行人圖像的數(shù)量,再使用resnet-50骨干網(wǎng)絡(luò)進行特征提取,每張圖像得到一個對應的圖像特征,圖像的圖像特征為,然后通過分類損失和三元組損失對resnet-50骨干網(wǎng)絡(luò)進行約束訓練,計算過程如下:
29、,
30、,
31、其中,表示第張圖像的真實身份標簽,表示圖像的行人身份預測概率,表示三元組損失中的邊距,設(shè)置,表示正樣本對的最大距離,正樣本對表示相同行人身份的特征對,表示負樣本對的最小距離,負樣本對表示不同行人身份的特征對,表示取最大值的操作,表示取最小值的操作;
32、小批量樣本中的行人圖像前一半為原始行人圖像,后一半為換衣后的行人圖像,則對應的圖像特征前一半為原始行人圖像的特征,后一半為換衣后的行人圖像的特征,從圖像特征中選擇原始圖像特征與換衣后的圖像特征進行均方誤差損失計算,迫使模型學習與衣服無關(guān)區(qū)域的線索,均方誤差損失計算如下:
33、,
34、其中,表示范數(shù),表示換衣后的行人圖像的特征,表示原始行人圖像的特征,此處。
35、s4具體步驟如下:
36、利用預訓練的人體屬性分析模型得到原始行人圖像中行人的性別信息,使用預訓練的三維人體網(wǎng)格估計模型預測行人在三維空間中的三維身體參數(shù),輸入至對應性別的smpl-x3d人體模型中得到三維人體網(wǎng)格;
37、通過python中的3d工具進行渲染三維建模將將三維模型投影到原始行人圖像背景下,具體過程如下:
38、(1)創(chuàng)建一個空白的三維場景;
39、(2)利用三維人體網(wǎng)格中的頂點位置信息和smpl-x模型的頂點連接信息在三維場景中添加一個三維模型,模型選用非金屬外觀、不透明、灰色的材質(zhì)進行渲染;
40、(3)用白色平行光對模型進行照射;
41、(4)根據(jù)原始行人圖像大小與初始相機參數(shù)計算出對應三維空間中的相機參數(shù),相機參數(shù)包括主點和焦距,在三維場景中添加該參數(shù)的相機,利用相機將三維模型投影到對應圖像的二維平面;
42、(5)將投影后的圖像與原始行人圖像合并得到保留背景的三維建模圖像;
43、然后通過原始行人圖像的人體語義掩碼將原始圖像的行人頭部替換到三維建模圖像的對應頭部區(qū)域,得到保留原始行人圖像頭部的三維建模圖像,行人頭部像素值替換公式如下所示:
44、,,
45、其中,表示,表示,和分別表示,表示原始行人圖像頭部像素向量的數(shù)量;
46、最后,使用resnet-50骨干網(wǎng)絡(luò)對保留原始行人圖像頭部的三維建模圖像進行特征提取,得到三維建模圖像特征,再通過分類損失和三元組損失進行約束訓練。
47、s5具體步驟如下:
48、使用輕量級的卷積塊注意力模塊cbam對提取的原始行人圖像特征和三維建模圖像特征進行特征融合,cbam模塊包括通道注意力模塊和空間注意力模塊,具體過程為將三維建模圖像特征輸入至cbam模塊的通道注意力模塊后再與進行點積,得到三維建模注意力特征,然后將三維建模注意力特征與原始行人圖像特征原始行人圖像的特征進行通道維度的拼接,將拼接后的特征進行卷積融合降維,進而將特征融合到單個特征的維度,然后再將融合降維后的特征輸入至完整的cbam模塊分別經(jīng)過通道注意力模塊和空間注意力模塊,得到通道和空間注意力的全局特征,最后將得到的全局特征通過分類損失和三元組損失進行訓練和優(yōu)化;
49、整個特征融合過程的公式可表示為:
50、,
51、,
52、,
53、其中,表示三維建模注意力特征,表示通道注意力模塊的操作,表示對應元素相乘的點積操作,表示的輸入的原始行人圖像的特征,表示1×1卷積操作,表示融合降維后的特征,表示拼接操作,表示全局特征,表示空間注意力模塊的操作,表示經(jīng)過通道注意力模塊后得到的融合注意力特征;
54、最后根據(jù)全局特征進行特征相似度匹配,計算當前待檢索的原始行人圖像特征與檢索圖庫中的行人圖像特征的歐式距離,通過歐式距離大小對檢索圖庫進行排序,得到行人的檢索結(jié)果。
55、本發(fā)明還提供了一種基于結(jié)合人體語義與三維重構(gòu)的行人搜索系統(tǒng),執(zhí)行一種基于結(jié)合人體語義與三維重構(gòu)的行人搜索方法。
56、
技術(shù)實現(xiàn)要素:
中提供的效果僅僅是實施例的效果,而不是發(fā)明所有的全部效果,上述技術(shù)方案具有如下優(yōu)點或有益效果:
57、(1)本發(fā)明充分利用人體語義信息,設(shè)計基于衣服采樣的換衣模塊擴充訓練數(shù)據(jù)集樣本,該換衣模塊通過對衣服區(qū)域進行像素值替換的方式來改變行人的衣服外觀,相較于使用生成模型的換衣技術(shù)更加簡單有效,省去了復雜的模型訓練和生成過程,能夠更加快速地改變服裝樣貌,提高應用的靈活性和效率;
58、(2)本發(fā)明通過最小化換衣前后行人特征的均方誤差,可以讓模型更好地捕捉到行人圖像中不受衣物變化影響的特征,從而更專注于提取與身份相關(guān)的特征,這是一種行之有效的解決換衣問題的方法,具有良好的實用性和便捷性,在模型訓練過程中,不僅可以快速地實現(xiàn)行人特征的調(diào)整,還能顯著地減少計算的復雜性,使模型訓練更加高效;
59、(3)本發(fā)明引入三維人體重構(gòu)技術(shù),不僅沒有額外增加衣服噪聲,還增強了人體的體型特征,此外,考慮到頭部是人體中最具有判別力的區(qū)域,本發(fā)明利用人體語義頭部掩碼,保留了原始圖像中的行人頭部,提取出更突出的行人頭部特征,最后通過注意力機制與原始圖像特征進行融合,增強了特征的全局表達能力,提高了換衣行人搜索的準確率和魯棒性。