本技術(shù)涉及圖像處理,尤其涉及一種圖像處理方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù):
1、目標(biāo)跟蹤用于從視頻數(shù)據(jù)中分析出一些目標(biāo)的運(yùn)動(dòng)狀態(tài)信息(比如,在每幀視頻圖像中所處位置等)。
2、另外,對(duì)于目標(biāo)跟蹤的一些實(shí)現(xiàn)方案(比如,基于卡爾曼濾波的兩階段跟蹤方案等)來(lái)說(shuō),因這些實(shí)現(xiàn)方案通常只適用于處理高幀率視頻,以使在利用這些實(shí)現(xiàn)方案處理低幀率視頻時(shí)往往會(huì)呈現(xiàn)比較差的目標(biāo)跟蹤效果。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供了一種圖像處理方法、裝置、電子設(shè)備、計(jì)算機(jī)可讀介質(zhì)。
2、為了實(shí)現(xiàn)上述目的,本技術(shù)提供的技術(shù)方案如下:
3、本技術(shù)提供一種圖像處理方法,所述方法包括:
4、對(duì)待處理圖像進(jìn)行特征提取處理,得到特征提取結(jié)果;
5、對(duì)所述特征提取結(jié)果進(jìn)行編碼處理,得到檢測(cè)查詢表征數(shù)據(jù);
6、依據(jù)所述檢測(cè)查詢表征數(shù)據(jù)以及所述待處理圖像對(duì)應(yīng)的跟蹤查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息;所述跟蹤查詢表征數(shù)據(jù)是依據(jù)所述待處理圖像對(duì)應(yīng)的多個(gè)歷史圖像的目標(biāo)描述信息所確定的;所述待處理圖像的目標(biāo)描述信息用于描述所述待處理圖像中的至少一個(gè)目標(biāo)。
7、在一種可能的實(shí)施方式下,所述對(duì)所述特征提取結(jié)果進(jìn)行編碼處理,得到檢測(cè)查詢表征數(shù)據(jù),包括:
8、對(duì)所述特征提取結(jié)果進(jìn)行編碼處理,得到圖像特征表征數(shù)據(jù)以及檢測(cè)查詢表征數(shù)據(jù);
9、所述依據(jù)所述檢測(cè)查詢表征數(shù)據(jù)以及所述待處理圖像對(duì)應(yīng)的跟蹤查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息,包括:
10、依據(jù)所述圖像特征表征數(shù)據(jù)、所述檢測(cè)查詢表征數(shù)據(jù)以及所述待處理圖像對(duì)應(yīng)的跟蹤查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息。
11、在一種可能的實(shí)施方式下,所述多個(gè)歷史圖像包括第一類(lèi)圖像和第二類(lèi)圖像;
12、所述跟蹤查詢表征數(shù)據(jù)的確定過(guò)程,包括:
13、從所述第一類(lèi)圖像的目標(biāo)描述信息中提取第一跟蹤目標(biāo)描述信息;
14、依據(jù)所述第一跟蹤目標(biāo)描述信息以及所述第二類(lèi)圖像的目標(biāo)描述信息,確定所述跟蹤查詢表征數(shù)據(jù)。
15、在一種可能的實(shí)施方式下,所述依據(jù)所述第一跟蹤目標(biāo)描述信息以及所述第二類(lèi)圖像的目標(biāo)描述信息,確定所述跟蹤查詢表征數(shù)據(jù),包括:
16、依據(jù)所述第一跟蹤目標(biāo)描述信息中的目標(biāo)位置表征數(shù)據(jù)以及所述第二類(lèi)圖像的目標(biāo)描述信息中的目標(biāo)內(nèi)容特征表征數(shù)據(jù),確定第二跟蹤目標(biāo)描述信息;
17、根據(jù)所述第二跟蹤目標(biāo)描述信息和所述第一跟蹤目標(biāo)描述信息,確定所述跟蹤查詢表征數(shù)據(jù)。
18、在一種可能的實(shí)施方式下,所述待處理圖像與所述待處理圖像對(duì)應(yīng)的多個(gè)歷史圖像屬于同一個(gè)視頻數(shù)據(jù);
19、所述待處理圖像的時(shí)序晚于所述第一類(lèi)圖像的時(shí)序;
20、所述第一類(lèi)圖像的時(shí)序晚于所述第二類(lèi)圖像的時(shí)序。
21、在一種可能的實(shí)施方式下,所述依據(jù)所述檢測(cè)查詢表征數(shù)據(jù)以及所述待處理圖像對(duì)應(yīng)的跟蹤查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息,包括:
22、依據(jù)所述檢測(cè)查詢表征數(shù)據(jù)和所述跟蹤查詢表征數(shù)據(jù),確定待處理查詢表征數(shù)據(jù);
23、依據(jù)所述待處理查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息。
24、在一種可能的實(shí)施方式下,所述依據(jù)所述圖像特征表征數(shù)據(jù)、所述檢測(cè)查詢表征數(shù)據(jù)以及所述待處理圖像對(duì)應(yīng)的跟蹤查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息,包括:
25、依據(jù)所述檢測(cè)查詢表征數(shù)據(jù)和所述跟蹤查詢表征數(shù)據(jù),確定待處理查詢表征數(shù)據(jù);
26、依據(jù)所述圖像特征表征數(shù)據(jù)和所述待處理查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息。
27、在一種可能的實(shí)施方式下,所述待處理圖像的目標(biāo)描述信息是利用預(yù)先訓(xùn)練好的解碼器所確定的;
28、所述解碼器包括至少一個(gè)解碼層,所述解碼層中的自注意力模塊是利用第一注意力掩模進(jìn)行實(shí)現(xiàn)的,所述第一注意力掩模用于屏蔽屬于同一個(gè)目標(biāo)的在不同歷史圖像下對(duì)應(yīng)的查詢表征數(shù)據(jù)之間的交互。
29、在一種可能的實(shí)施方式下,所述至少一個(gè)目標(biāo)包括一個(gè)或者多個(gè)待跟蹤目標(biāo);
30、所述至少一個(gè)解碼層包括第一解碼層和第二解碼層;
31、所述解碼器還包括特征融合模塊;
32、所述特征融合模塊用于針對(duì)由所述第一解碼層輸出的跟蹤查詢處理數(shù)據(jù)進(jìn)行融合處理,得到跟蹤查詢?nèi)诤蠑?shù)據(jù);所述跟蹤查詢處理數(shù)據(jù)是依據(jù)所述第一解碼層以及所述跟蹤查詢表征數(shù)據(jù)所確定的;所述跟蹤查詢處理數(shù)據(jù)包括由所述第一解碼層針對(duì)各所述待跟蹤目標(biāo)分別輸出的處理后的查詢表征數(shù)據(jù);所述跟蹤查詢?nèi)诤蠑?shù)據(jù)包括由所述特征融合模塊針對(duì)各所述處理后的查詢表征數(shù)據(jù)分別輸出的融合后的查詢表征數(shù)據(jù);
33、所述第二解碼層用于針對(duì)所述跟蹤查詢?nèi)诤蠑?shù)據(jù)以及由所述第一解碼層輸出的檢測(cè)查詢處理數(shù)據(jù)進(jìn)行處理;所述檢測(cè)查詢處理數(shù)據(jù)是依據(jù)所述第一解碼層以及所述檢測(cè)查詢表征數(shù)據(jù)所確定的。
34、在一種可能的實(shí)施方式下,所述特征融合模塊包括信息移除分支網(wǎng)絡(luò)和信息添加分支網(wǎng)絡(luò);
35、所述跟蹤查詢?nèi)诤蠑?shù)據(jù)的確定過(guò)程,包括:
36、利用所述信息移除分支網(wǎng)絡(luò)對(duì)所述跟蹤查詢處理數(shù)據(jù)進(jìn)行處理,得到保留信息特征;
37、利用所述信息添加分支網(wǎng)絡(luò)對(duì)所述跟蹤查詢處理數(shù)據(jù)進(jìn)行處理,得到待添加信息特征;
38、根據(jù)所述保留信息特征和所述待添加信息特征,確定所述跟蹤查詢?nèi)诤蠑?shù)據(jù)。
39、在一種可能的實(shí)施方式下,所述保留信息特征的確定過(guò)程,包括:
40、對(duì)所述跟蹤查詢處理數(shù)據(jù)進(jìn)行時(shí)序信息提取處理,得到第一時(shí)序信息;
41、對(duì)所述第一時(shí)序信息與所述跟蹤查詢處理數(shù)據(jù)進(jìn)行自注意力處理,得到自注意力處理結(jié)果;
42、對(duì)所述自注意力處理結(jié)果進(jìn)行全連接處理,得到全連接處理結(jié)果;
43、依據(jù)所述全連接處理結(jié)果,確定待移除信息表征數(shù)據(jù);
44、依據(jù)所述待移除信息表征數(shù)據(jù),對(duì)所述跟蹤查詢處理數(shù)據(jù)進(jìn)行信息移除處理,得到所述保留信息特征。
45、在一種可能的實(shí)施方式下,所述待添加信息特征的確定過(guò)程,包括:
46、對(duì)所述跟蹤查詢處理數(shù)據(jù)進(jìn)行時(shí)序信息提取處理,得到第二時(shí)序信息;
47、對(duì)所述第二時(shí)序信息與所述跟蹤查詢處理數(shù)據(jù)進(jìn)行自注意力處理,得到所述待添加信息特征。
48、在一種可能的實(shí)施方式下,所述特征融合模塊中的自注意力層是利用第二注意力掩模進(jìn)行實(shí)現(xiàn)的,所述第二注意力掩模用于屏蔽屬于不同目標(biāo)的查詢表征數(shù)據(jù)之間的交互。
49、在一種可能的實(shí)施方式下,所述待處理圖像的目標(biāo)描述信息是利用預(yù)先訓(xùn)練好的目標(biāo)跟蹤模型所確定的;
50、所述目標(biāo)跟蹤模型的訓(xùn)練損失的確定過(guò)程,包括:
51、依據(jù)第一圖像數(shù)據(jù)、所述第一圖像數(shù)據(jù)對(duì)應(yīng)的多個(gè)歷史圖像的目標(biāo)描述信息、以及所述目標(biāo)跟蹤模型,確定所述第一圖像數(shù)據(jù)的目標(biāo)描述信息;
52、從所述第一圖像數(shù)據(jù)的目標(biāo)描述信息中提取第一組信息和第二組信息;
53、依據(jù)所述第一組信息和所述第一圖像數(shù)據(jù)對(duì)應(yīng)的目標(biāo)標(biāo)簽數(shù)據(jù),得到第一損失;
54、依據(jù)所述第二組信息和所述目標(biāo)標(biāo)簽數(shù)據(jù),得到第二損失;
55、依據(jù)所述第一損失和所述第二損失,確定所述目標(biāo)跟蹤模型的訓(xùn)練損失。
56、在一種可能的實(shí)施方式下,所述第一組信息對(duì)應(yīng)的時(shí)序晚于所述第二組信息對(duì)應(yīng)的時(shí)序。
57、在一種可能的實(shí)施方式下,所述依據(jù)所述第二組信息和所述目標(biāo)標(biāo)簽數(shù)據(jù),得到第二損失,包括:
58、依據(jù)標(biāo)簽匹配結(jié)果、所述第二組信息、以及所述目標(biāo)標(biāo)簽數(shù)據(jù),確定所述第二損失;所述標(biāo)簽匹配結(jié)果是根據(jù)所述第一組信息與所述目標(biāo)標(biāo)簽數(shù)據(jù)之間的匹配結(jié)果所確定的。
59、在一種可能的實(shí)施方式下,所述第二組信息包括至少一個(gè)目標(biāo)預(yù)測(cè)結(jié)果;
60、所述第二損失的確定過(guò)程,包括:
61、依據(jù)所述標(biāo)簽匹配結(jié)果、所述第二組信息、以及所述目標(biāo)標(biāo)簽數(shù)據(jù),確定各所述目標(biāo)預(yù)測(cè)結(jié)果對(duì)應(yīng)的損失;
62、依據(jù)所述至少一個(gè)目標(biāo)預(yù)測(cè)結(jié)果對(duì)應(yīng)的損失的平均值,確定所述第二損失。
63、在一種可能的實(shí)施方式下,所述待處理圖像的目標(biāo)描述信息是利用預(yù)先訓(xùn)練好的目標(biāo)跟蹤模型所確定的;
64、所述目標(biāo)跟蹤模型的訓(xùn)練過(guò)程,包括:
65、利用至少一個(gè)第二圖像數(shù)據(jù)以及各所述第二圖像數(shù)據(jù)的目標(biāo)檢測(cè)標(biāo)簽,對(duì)初始模型進(jìn)行訓(xùn)練,得到待優(yōu)化模型;
66、利用至少一個(gè)圖像序列以及各所述圖像序列的目標(biāo)跟蹤標(biāo)簽,對(duì)所述待優(yōu)化模型中的解碼模塊進(jìn)行訓(xùn)練,得到所述目標(biāo)跟蹤模型。
67、在一種可能的實(shí)施方式下,所述至少一個(gè)目標(biāo)包括一個(gè)或者多個(gè)待跟蹤目標(biāo);所述跟蹤查詢表征數(shù)據(jù)包括各所述待跟蹤目標(biāo)在多個(gè)歷史圖像下對(duì)應(yīng)的查詢表征數(shù)據(jù)。
68、在一種可能的實(shí)施方式下,所述待處理圖像是指從圖像序列中抽取的一個(gè)圖像;所述目標(biāo)描述信息包括至少一個(gè)目標(biāo)預(yù)測(cè)結(jié)果;
69、所述得到所述待處理圖像的目標(biāo)描述信息之后,所述方法還包括:
70、從所述目標(biāo)描述信息中提取滿足預(yù)設(shè)參考條件的目標(biāo)預(yù)測(cè)結(jié)果;
71、利用所述圖像序列中的下一幀圖像更新所述待處理圖像,利用所述滿足預(yù)設(shè)參考條件的目標(biāo)預(yù)測(cè)結(jié)果中的查詢表征數(shù)據(jù),更新所述跟蹤查詢表征數(shù)據(jù),并繼續(xù)執(zhí)行所述對(duì)待處理圖像進(jìn)行特征提取處理的步驟。
72、在一種可能的實(shí)施方式下,所述圖像序列為視頻數(shù)據(jù)。
73、本技術(shù)提供了一種圖像處理裝置,包括:
74、提取單元,用于對(duì)待處理圖像進(jìn)行特征提取處理,得到特征提取結(jié)果;
75、編碼單元,用于對(duì)所述特征提取結(jié)果進(jìn)行編碼處理,得到檢測(cè)查詢表征數(shù)據(jù);
76、解碼單元,用于依據(jù)所述檢測(cè)查詢表征數(shù)據(jù)以及所述待處理圖像對(duì)應(yīng)的跟蹤查詢表征數(shù)據(jù)進(jìn)行解碼處理,得到所述待處理圖像的目標(biāo)描述信息;所述跟蹤查詢表征數(shù)據(jù)是依據(jù)所述待處理圖像對(duì)應(yīng)的多個(gè)歷史圖像的目標(biāo)描述信息所確定的;所述待處理圖像的目標(biāo)描述信息用于描述所述待處理圖像中的至少一個(gè)目標(biāo)。
77、本技術(shù)提供了一種電子設(shè)備,所述設(shè)備包括:處理器和存儲(chǔ)器;
78、所述存儲(chǔ)器,用于存儲(chǔ)指令或計(jì)算機(jī)程序;
79、所述處理器,用于執(zhí)行所述存儲(chǔ)器中的所述指令或計(jì)算機(jī)程序,以使得所述電子設(shè)備執(zhí)行本技術(shù)提供的圖像處理方法。
80、本技術(shù)提供了一種計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可讀介質(zhì)中存儲(chǔ)有指令或計(jì)算機(jī)程序,當(dāng)所述指令或計(jì)算機(jī)程序在設(shè)備上運(yùn)行時(shí),使得所述設(shè)備執(zhí)行本技術(shù)提供的圖像處理方法。
81、本技術(shù)提供了一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在非暫態(tài)計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行本技術(shù)提供的圖像處理方法的程序代碼。
82、與現(xiàn)有技術(shù)相比,本技術(shù)至少具有以下優(yōu)點(diǎn):
83、本技術(shù)提供的技術(shù)方案中,對(duì)于待處理圖像(比如,一個(gè)視頻數(shù)據(jù)中的某一幀視頻圖像)來(lái)說(shuō),先對(duì)該待處理圖像進(jìn)行特征提取處理,得到特征提取結(jié)果,以使該特征提取結(jié)果用于表征該待處理圖像所攜帶的圖像信息;再對(duì)該特征提取結(jié)果進(jìn)行編碼處理,得到檢測(cè)查詢表征數(shù)據(jù)(比如,多個(gè)檢測(cè)query);最后,依據(jù)該檢測(cè)查詢表征數(shù)據(jù)以及該待處理圖像對(duì)應(yīng)的跟蹤查詢表征數(shù)據(jù)(比如,基于多個(gè)歷史圖像所確定的跟蹤query)進(jìn)行解碼處理,得到該待處理圖像的目標(biāo)描述信息(比如,目標(biāo)內(nèi)容特征表征數(shù)據(jù)、目標(biāo)位置表征數(shù)據(jù)、以及類(lèi)別置信度等),以使該目標(biāo)描述信息能夠表示出該待處理圖像中一些目標(biāo)。其中,因該跟蹤查詢表征數(shù)據(jù)是依據(jù)該待處理圖像對(duì)應(yīng)的多個(gè)歷史圖像的目標(biāo)描述信息所確定的,以使該跟蹤查詢表征數(shù)據(jù)能夠更好地表示出該待處理圖像中一些目標(biāo)的歷史狀態(tài),從而使得基于該跟蹤查詢表征數(shù)據(jù)所確定的目標(biāo)描述信息能夠更好地表示出該待處理圖像中一些目標(biāo),如此有利于提高目標(biāo)跟蹤效果。
84、另外,當(dāng)本技術(shù)提供的圖像處理方法用于實(shí)現(xiàn)針對(duì)視頻數(shù)據(jù)的目標(biāo)跟蹤處理時(shí),因該圖像處理方法需要參考多個(gè)歷史圖像的目標(biāo)描述信息(比如,query),以確定某一個(gè)視頻圖像中的目標(biāo),以使在針對(duì)該視頻圖像的目標(biāo)確定過(guò)程中能夠從這些歷史圖像的目標(biāo)描述信息中獲取到比較多的可參考內(nèi)容(比如,目標(biāo)在不同歷史圖像中所處狀態(tài)等),如此能夠有效地克服因視頻數(shù)據(jù)的幀率較低而導(dǎo)致的問(wèn)題,從而能夠有效地提高針對(duì)低幀率視頻的目標(biāo)跟蹤效果,進(jìn)而使得本技術(shù)提供的圖像處理方法適用于針對(duì)具有任何幀率的視頻數(shù)據(jù)進(jìn)行目標(biāo)跟蹤處理,如此有利于提高該圖像處理方法在目標(biāo)跟蹤領(lǐng)域中的普適性。