本技術(shù)涉及計(jì)算機(jī)視覺和圖像處理,特別是涉及一種基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、圖像復(fù)制檢測(cè)(image?copy?detection,icd)旨在確定查詢圖像是否為參考集中某個(gè)圖像經(jīng)過(guò)編輯(如縮放、裁剪、模糊、添加噪聲、改變亮度或者顏色等)后的版本,icd技術(shù)在圖像版權(quán)保護(hù)等領(lǐng)域發(fā)揮著重要作用。傳統(tǒng)的icd方法主要依賴于手工設(shè)計(jì)的特征提取技術(shù),例如尺度不變特征變換(scale-invariant?feature?transform,sift)和加速魯棒特征(speed?up?robust?features,surf),這些特征提取方法能夠在一定程度上有效捕捉圖像中的關(guān)鍵點(diǎn)和局部特征實(shí)現(xiàn)圖像匹配和復(fù)制檢測(cè)。然而,傳統(tǒng)方法在面對(duì)圖像編輯、壓縮和其他變換時(shí),魯棒性和精度存在一定的局限。
2、面對(duì)大規(guī)模的圖像復(fù)制檢測(cè)任務(wù)時(shí),icd方法一般將圖像表示成一定維度的特征描述符(特征向量),然后匹配特征描述符之間的相似度,高于設(shè)定閾值的視為拷貝圖像。目前,已有研究采用了對(duì)比學(xué)習(xí)網(wǎng)絡(luò)模型提取的圖像特征描述符來(lái)計(jì)算圖像間的相似度,為進(jìn)一步提高檢檢測(cè)的準(zhǔn)確性,另一些研究采用了兩階段檢測(cè)方法。但一方面兩階段的檢測(cè)方法復(fù)雜度和成本較高,另一方面現(xiàn)有模型都忽略了不同圖像特征描述符的整體差異,即不同源但是由于圖像內(nèi)容、類別相似使得圖像特征描述符相似度高于同源圖像情況,降低了檢測(cè)的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的是提供一種基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,以提高拷貝圖像檢測(cè)的準(zhǔn)確性,同時(shí)降低檢測(cè)方法的復(fù)雜度。
2、為實(shí)現(xiàn)上述目的,本技術(shù)提供了如下方案。
3、第一方面,本技術(shù)提供了一種基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)方法,包括:
4、獲取訓(xùn)練圖像庫(kù),對(duì)訓(xùn)練圖像庫(kù)中每張?jiān)紙D像應(yīng)用各種增強(qiáng)變換方式得到兩張?jiān)鰪?qiáng)圖像,與原始圖像一起構(gòu)建訓(xùn)練數(shù)據(jù)集;
5、構(gòu)建包括對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)和特征聚合分類網(wǎng)絡(luò)的自監(jiān)督神經(jīng)網(wǎng)絡(luò)模型;
6、基于訓(xùn)練數(shù)據(jù)集對(duì)自監(jiān)督神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,將訓(xùn)練好的對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)作為圖像特征編碼學(xué)習(xí)模型,將訓(xùn)練好的特征聚合分類網(wǎng)絡(luò)作為圖像特征分類模型;
7、將查詢圖像和參考圖像庫(kù)中的所有參考圖像分別輸入圖像特征編碼學(xué)習(xí)模型,得到編碼后的查詢圖像特征向量和參考圖像特征向量;
8、計(jì)算查詢圖像特征向量與每個(gè)參考圖像特征向量間的歐氏距離,并選取歐式距離最近的前k個(gè)參考圖像特征向量;其中k為大于1的正整數(shù);
9、將查詢圖像特征向量依次與前k個(gè)參考圖像特征向量聚合成雙通道特征向量后,輸入到圖像特征分類模型得到預(yù)測(cè)類別概率;
10、將歐式距離轉(zhuǎn)化的余弦相似度與預(yù)測(cè)類別概率之和作為總相似度分?jǐn)?shù),按總相似度分?jǐn)?shù)重新排序這前k個(gè)參考圖像,選取總相似度分?jǐn)?shù)最高的參考圖像作為查詢圖像的拷貝圖像。
11、可選地,所述對(duì)訓(xùn)練圖像庫(kù)中每張?jiān)紙D像應(yīng)用的各種增強(qiáng)變換方式包括:隨機(jī)裁剪和縮放、隨機(jī)水平翻轉(zhuǎn)、隨機(jī)顏色抖動(dòng)、隨機(jī)灰度化、高斯模糊、隨機(jī)疊加文本以及隨機(jī)疊加表情。
12、可選地,所述構(gòu)建包括對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)和特征聚合分類網(wǎng)絡(luò)的自監(jiān)督神經(jīng)網(wǎng)絡(luò)模型,具體包括:
13、構(gòu)建對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò),所述對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)包括resnet、gem層、展平層、全連接層和l2正則化單元;所述對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)采用resnet作為特征提取器,提取出尺寸為7×7×2048的特征圖,其中2048為通道數(shù),7×7為每個(gè)通道的空間分辨率;resnet輸出的特征圖經(jīng)過(guò)gem層的池化操作之后,將特征圖展平,特征圖被聚合為一個(gè)2048維的特征向量;使用全連接層對(duì)2048維的特征向量進(jìn)行降維,將2048維的特征向量映射到512維或更高維度,并作用l2正則化后輸出編碼后的特征向量;
14、構(gòu)建特征聚合分類網(wǎng)絡(luò),所述特征聚合分類網(wǎng)絡(luò)包括3×1卷積層、第一線性層、relu激活函數(shù)、第二線性層、第一sigmoid函數(shù)、逐元素運(yùn)算操作層、線性層+relu+dropout組合單元以及第二sigmoid函數(shù);所述特征聚合分類網(wǎng)絡(luò)的輸入為雙通道特征向量;經(jīng)由3×1卷積層對(duì)雙通道特征向量進(jìn)行3×1的卷積操作,將雙通道特征向量恢復(fù)為512維或更高維度的樣本特征向量;將樣本特征向量經(jīng)過(guò)第一線性層,輸出維度縮減為原樣本特征向量的1/16;然后使用relu激活函數(shù)對(duì)第一線性層的輸出進(jìn)行非線性變換;接著第二線性層將輸出恢復(fù)到原始維度,并通過(guò)第一sigmoid函數(shù)將特征值歸一化到[0,1]范圍內(nèi),作為注意力權(quán)重;將得到的注意力權(quán)重與原樣本特征向量逐元素相乘,生成加權(quán)后的上下文特征向量;將加權(quán)后的上下文特征向量通過(guò)一組線性層降維至1,每個(gè)線性層后接relu激活函數(shù),并使用dropout以防止過(guò)擬合;最終通過(guò)第二sigmoid函數(shù)將線性層+relu+dropout組合單元的輸出歸一化到[0,1]范圍內(nèi),作為預(yù)測(cè)類別概率。
15、可選地,所述基于訓(xùn)練數(shù)據(jù)集對(duì)自監(jiān)督神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,具體包括:
16、每訓(xùn)練批次將訓(xùn)練數(shù)據(jù)集中n個(gè)樣本的原始圖像與其對(duì)應(yīng)的2n個(gè)增強(qiáng)圖像調(diào)整分辨率為224×224后,輸入對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò),得到編碼后的n個(gè)原始圖像特征向量和2n個(gè)增強(qiáng)圖像特征向量;視同一張?jiān)紙D像的兩個(gè)增強(qiáng)圖像互為正樣本,一張?jiān)紙D像的增強(qiáng)圖像與同一訓(xùn)練批次中其他原始圖像的增強(qiáng)圖像互為負(fù)樣本,通過(guò)infonce損失函數(shù)使得對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)收斂,將訓(xùn)練好的對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)作為圖像特征編碼學(xué)習(xí)模型;
17、對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)的輸出包括編碼得到的n個(gè)原始圖像特征向量和相應(yīng)的n個(gè)增強(qiáng)圖像特征向量;將每個(gè)原始圖像特征向量與相應(yīng)增強(qiáng)圖像特征向量進(jìn)行聚合操作,得到正樣本的雙通道特征向量;將每個(gè)原始圖像特征向量與同一批次中其他原始圖像的特征向量進(jìn)行聚合操作,得到負(fù)樣本的雙通道特征向量;將正樣本和負(fù)樣本的雙通道特征向量輸入特征聚合分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出預(yù)測(cè)類別概率;預(yù)測(cè)類別概率為1表示預(yù)測(cè)為正類,0表示預(yù)測(cè)為負(fù)類,預(yù)測(cè)類別概率越接近1表示預(yù)測(cè)為正類的可能性越大;使用二分類交叉熵?fù)p失函數(shù)來(lái)優(yōu)化分類目標(biāo),使得特征聚合分類網(wǎng)絡(luò)收斂,將訓(xùn)練好的特征聚合分類網(wǎng)絡(luò)作為圖像特征分類模型。
18、可選地,所述計(jì)算查詢圖像特征向量與每個(gè)參考圖像特征向量間的歐氏距離,具體包括:
19、采用公式計(jì)算查詢圖像特征向量a與參考圖像特征向量b間的歐氏距離l2_distance(a,b);其中d為特征向量的維度;ac、bc分別為特征向量a、b在第c個(gè)維度的分量。
20、可選地,所述將歐式距離轉(zhuǎn)化的余弦相似度與預(yù)測(cè)類別概率之和作為總相似度分?jǐn)?shù),具體包括:
21、采用公式將查詢圖像特征向量a與參考圖像特征向量b間的歐氏距離l2_distance(a,b)轉(zhuǎn)化為余弦相似度cosine_similarity(a,b);
22、將余弦相似度cosine_similarity(a,b)與預(yù)測(cè)類別概率之和作為總相似度分?jǐn)?shù)。
23、第二方面,本技術(shù)提供了一種基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)裝置,包括:
24、訓(xùn)練數(shù)據(jù)集構(gòu)建模塊,用于獲取訓(xùn)練圖像庫(kù),對(duì)訓(xùn)練圖像庫(kù)中每張?jiān)紙D像應(yīng)用各種增強(qiáng)變換方式得到兩張?jiān)鰪?qiáng)圖像,與原始圖像一起構(gòu)建訓(xùn)練數(shù)據(jù)集;
25、模型構(gòu)建模塊,用于構(gòu)建包括對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)和特征聚合分類網(wǎng)絡(luò)的自監(jiān)督神經(jīng)網(wǎng)絡(luò)模型;
26、模型訓(xùn)練模塊,用于基于訓(xùn)練數(shù)據(jù)集對(duì)自監(jiān)督神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,將訓(xùn)練好的對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)作為圖像特征編碼學(xué)習(xí)模型,將訓(xùn)練好的特征聚合分類網(wǎng)絡(luò)作為圖像特征分類模型;
27、特征向量編碼模塊,用于將查詢圖像和參考圖像庫(kù)中的所有參考圖像分別輸入圖像特征編碼學(xué)習(xí)模型,得到編碼后的查詢圖像特征向量和參考圖像特征向量;
28、歐氏距離計(jì)算模塊,用于計(jì)算查詢圖像特征向量與每個(gè)參考圖像特征向量間的歐氏距離,并選取歐式距離最近的前k個(gè)參考圖像特征向量;其中k為大于1的正整數(shù);
29、預(yù)測(cè)類別概率模塊,用于將查詢圖像特征向量依次與前k個(gè)參考圖像特征向量聚合成雙通道特征向量后,輸入到圖像特征分類模型得到預(yù)測(cè)類別概率;
30、拷貝圖像檢測(cè)模塊,用于將歐式距離轉(zhuǎn)化的余弦相似度與預(yù)測(cè)類別概率之和作為總相似度分?jǐn)?shù),按總相似度分?jǐn)?shù)重新排序這前k個(gè)參考圖像,選取總相似度分?jǐn)?shù)最高的參考圖像作為查詢圖像的拷貝圖像。
31、第三方面,本技術(shù)提供了一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)所述基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)方法。
32、第四方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)方法。
33、第五方面,本技術(shù)提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)方法。
34、根據(jù)本技術(shù)提供的具體實(shí)施例,本技術(shù)公開了以下技術(shù)效果:
35、本技術(shù)提供了一種基于自監(jiān)督學(xué)習(xí)的拷貝圖像檢測(cè)方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,通過(guò)引入各種增強(qiáng)變換方式得到增強(qiáng)圖像來(lái)構(gòu)建訓(xùn)練數(shù)據(jù)集,增強(qiáng)了對(duì)比學(xué)習(xí)主干網(wǎng)絡(luò)所提取圖像特征向量的魯棒性;通過(guò)特征聚合分類網(wǎng)絡(luò)對(duì)同源圖像和不同源圖像特征向量的聚合和分類來(lái)學(xué)習(xí)不同圖像特征向量之間的整體差異,提高了拷貝圖像檢測(cè)的準(zhǔn)確性;同時(shí)將歐式距離轉(zhuǎn)化的余弦相似度與預(yù)測(cè)類別概率之和作為總相似度分?jǐn)?shù)來(lái)選取拷貝圖像,通過(guò)對(duì)特征向量相似度分?jǐn)?shù)的調(diào)整降低了兩階段檢測(cè)方法的復(fù)雜度。