本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種圖像檢索方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)中圖像數(shù)據(jù)的爆炸式增長,及用戶基于圖像的檢索需求,圖像檢索技術(shù)的應(yīng)用越來越廣。
圖像檢索技術(shù),其通常可根據(jù)輸入圖像的哈希碼,和至少一個圖像中每個圖像的哈希碼,從該至少一個圖像中確定目標(biāo)圖像作為圖像檢索結(jié)果。其中,該輸入圖像的哈希碼可以是根據(jù)人工獲取的該輸入圖像的圖像特征所確定的。
然而,人工獲取的圖像特征可能不準(zhǔn)確,其難以反映輸入圖像的特征,使得圖像檢索的準(zhǔn)確度較低。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種圖像檢索方法及裝置,以提高圖像檢索的準(zhǔn)確度。
本發(fā)明提供一種圖像檢索方法,包括:
采用深度卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進(jìn)行處理,得到所述輸入圖像的圖像特征;
采用非線性映射函數(shù)對所述圖像特征進(jìn)行處理,得到所述輸入圖像的哈希碼;
根據(jù)所述輸入圖像的哈希碼,和至少一個圖像中每個圖像的哈希碼,確定所述輸入圖像與所述每個圖像的漢明距離;
根據(jù)所述輸入圖像與所述每個圖像的漢明距離,對所述至少一個圖像進(jìn)行排序,并將所述排序后的圖像作為圖像檢索結(jié)果。
本發(fā)明還提供一種圖像檢索裝置,包括:
第一處理模塊,用于采用深度卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進(jìn)行處理,得到所述輸入圖像的圖像特征;
第二處理模塊,用于采用非線性映射函數(shù)對所述圖像特征進(jìn)行處理,得到所述輸入圖像的哈希碼;
第一確定模塊,用于根據(jù)所述輸入圖像的哈希碼,和至少一個圖像中每個圖像的哈希碼,確定所述輸入圖像與所述每個圖像的漢明距離;
排序模塊,用于根據(jù)所述輸入圖像與所述每個圖像的漢明距離,對所述至少一個圖像進(jìn)行排序,并將所述排序后的圖像作為圖像檢索結(jié)果。
本發(fā)明提供的圖像檢索法及裝置,可通過采用深度卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進(jìn)行處理得到該輸入圖像的圖像特征,繼而采用非線性映射函數(shù)對該圖像特征進(jìn)行處理得到該輸入圖像的哈希碼,還根據(jù)該輸入圖像的哈希碼,和至少一個圖像中每個圖像的哈希碼,確定該輸入圖像與該每個圖像的漢明距離,繼而根據(jù)該輸入圖像與該每個圖像的漢明距離,對該至少一個圖像進(jìn)行排序,并將該排序后的圖像作為圖像檢索結(jié)果。該方法中,由于圖像特征是采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理所得到的,該圖像特征的準(zhǔn)確度較高,可準(zhǔn)確反映該輸入圖像的語義信息,有效提高了圖像檢索的準(zhǔn)確度。同時由于圖像的哈希碼是采用非線性映射函數(shù)對圖像特征進(jìn)行降維映射得到的,該哈希碼的準(zhǔn)確度較高(即保留更準(zhǔn)確的語義信息),可準(zhǔn)確反映該輸入圖像的語義信息,因此兩者的結(jié)合有效提高了圖像檢索的準(zhǔn)確度。并且,該方法中,由于非線性映射函數(shù)具有強(qiáng)大的泛化能力,可準(zhǔn)確表達(dá)圖像特征與哈希碼的對應(yīng)關(guān)系,因此采用該非線性映射函數(shù)對該圖像特征進(jìn)行處理,得到該輸入圖像的哈希碼,可使得該輸入圖像的哈希碼更加準(zhǔn)確,從而有效提高圖像檢索的準(zhǔn)確度。
附圖說明
圖1為本發(fā)明提供的一種圖像配準(zhǔn)方法的流程圖一;
圖2為本發(fā)明實施例提供的一種圖像檢索方法所使用的深度卷積神經(jīng)網(wǎng)絡(luò)的示意圖;
圖3為本發(fā)明提供的一種圖像檢索方法的流程圖二;
圖4為本發(fā)明實施例提供的一種圖像檢索方法所使用的非線性映射層的示意圖;
圖5為本發(fā)明提供的一種圖像檢索方法的流程圖三;
圖6為本發(fā)明提供的一種圖像檢索方法的流程圖四;
圖7a為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集cifar-10的pr曲線圖;
圖7b為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集nus-wide的pr曲線圖;
圖8a為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集cifar-10的precision@n曲線圖;
圖8b為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集nus-wide的precision@n曲線圖;
圖9為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖一;
圖10為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖二;
圖11為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖三
圖12為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖四。
具體實施方式
本發(fā)明提供一種圖像檢索方法。圖1為本發(fā)明提供的一種圖像檢索方法的流程圖一。該圖像檢索方法可由圖像檢索裝置執(zhí)行,該圖像檢索裝置可通過軟件和/或硬件的方式集成在任一具有處理功能設(shè)備,如平板電腦、筆記本電腦、臺式電腦、服務(wù)器等設(shè)備中。如圖1所示,該圖像檢索方法可包括:
s101、采用深度卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進(jìn)行處理,得到該輸入圖像的圖像特征。
具體地,該s101中可采用該深度卷積神經(jīng)網(wǎng)絡(luò)的處理函數(shù),對該輸入圖像的像素數(shù)據(jù)進(jìn)行處理,得到該輸入圖像的圖像特征。該深度卷積神經(jīng)網(wǎng)絡(luò)的處理函數(shù)也可稱為該深度卷積神經(jīng)網(wǎng)絡(luò)的模型函數(shù)。
舉例來說,該s101例如可采用如下公式(1)對該輸入圖像進(jìn)行處理,得到該輸入圖像的圖像特征。
其中,yi為該輸入圖像的圖像特征;
例如,該深度卷積神經(jīng)網(wǎng)絡(luò)例如可以包括:視覺結(jié)構(gòu)組織(visualgeometrygroup,簡稱vgg)所提出的深度卷積神經(jīng)網(wǎng)絡(luò),又稱vgg-f網(wǎng)絡(luò)中的部分處理層。
圖2為本發(fā)明實施例提供的一種圖像檢索方法所使用的深度卷積神經(jīng)網(wǎng)絡(luò)的示意圖。如圖2所示,該深度卷積神經(jīng)網(wǎng)絡(luò)可包括:5個卷積層和2個全連接層。該深度卷積神經(jīng)網(wǎng)絡(luò)中各處理層采用的參數(shù)例如可為如下表1所示。
表1
結(jié)合表1可知,圖2所示的該深度卷積神經(jīng)網(wǎng)絡(luò)中卷積層1所包括的卷積核的大小(size):核窗口的長度×核窗口的寬度×核窗口的個數(shù)可以為11×11×64,該卷積層1所包括的卷積核的步幅(stride):核窗口按行的滑動長度×核窗口按列的滑行長度為4×4,該卷積層1所包括的卷積核的填充(pad):填補(bǔ)長度為0×0。該卷積層1還包括:激活函數(shù)及局部歸一化(localresponsenormalization,簡稱lrn),該激活函數(shù)可以為修正線性單元(relurectifiedlinearunits,簡稱relu)。該卷積層1所包括的池化(pool)的大小:池化窗口的長度×池化窗口的寬度為3×3,該卷積層1所包括的池化的步幅:池化窗口按行的滑動長度×池化窗口按列的滑動長度為2×2,該卷積層1所包括的池化的填充:填補(bǔ)長度為0×1。
圖2所示的該深度卷積神經(jīng)網(wǎng)絡(luò)中卷積層2所包括的卷積核的大?。汉舜翱诘拈L度×核窗口的寬度×核窗口的個數(shù)可以為5×5×256,該卷積層2所包括的卷積核的步幅:核窗口按行的滑動長度×核窗口按列的滑行長度為1×1,該卷積層2所包括的卷積核的填充:填補(bǔ)長度為2×2。該卷積層2還包括:激活函數(shù)及l(fā)rn,該激活函數(shù)可以為relu。該卷積層2所包括的池化的大小:池化窗口的長度×池化窗口的寬度為3×3,該卷積層2所包括的池化的步幅:池化窗口按行的滑動長度×池化窗口按列的滑動長度為2×2,該卷積層1所包括的池化的填充:填補(bǔ)長度為0×1。
圖2所示的該深度卷積神經(jīng)網(wǎng)絡(luò)中卷積層3所包括的卷積核的大小:核窗口的長度×核窗口的寬度×核窗口的個數(shù)可以為3×3×256,該卷積層3所包括的卷積核的步幅:核窗口按行的滑動長度×核窗口按列的滑行長度為:1×1,該卷積層3所包括的卷積核的填充:填補(bǔ)長度為:1×1。該卷積層3所包括的激活函數(shù)可以為relu。
圖2所示的該深度卷積神經(jīng)網(wǎng)絡(luò)中卷積層4所包括的卷積核的大?。汉舜翱诘拈L度×核窗口的寬度×核窗口的個數(shù)可以為3×3×256,該卷積層4所包括的卷積核的步幅:核窗口按行的滑動長度×核窗口按列的滑行長度為:1×1,該卷積層4所包括的卷積核的填充:填補(bǔ)長度為:1×1。該卷積層4所包括的激活函數(shù)可以為relu。
圖2所示的該深度卷積神經(jīng)網(wǎng)絡(luò)中卷積層5所包括的卷積核的大?。汉舜翱诘拈L度×核窗口的寬度×核窗口的個數(shù)可以為3×3×256,該卷積層5所包括的卷積核的步幅:核窗口按行的滑動長度×核窗口按列的滑行長度為1×1,該卷積層5所包括的卷積核的填充:填補(bǔ)長度為1×1。該卷積層2還包括:激活函數(shù)如relu。該卷積層5所包括的池化的大?。撼鼗翱诘拈L度×池化窗口的寬度為3×3,該卷積層5所包括的池化的步幅:池化窗口按行的滑動長度×池化窗口按列的滑動長度為2×2,該卷積層1所包括的池化的填充:填補(bǔ)長度為0×1。
圖2所示的深度卷積神經(jīng)網(wǎng)絡(luò)中的全連接層6和全連接層7分別包括的節(jié)點個數(shù)為4096,所包括的激活函數(shù)為relu。
該s101中例如可將該輸入圖像的像素數(shù)據(jù)輸入至圖2所示的深度卷積神經(jīng)網(wǎng)絡(luò)的卷積層1,采用卷積層1的處理函數(shù),結(jié)合表1所示的卷積層1采用的參數(shù),對該輸入圖像的像素數(shù)據(jù)進(jìn)行處理;并將該卷積層1輸出的數(shù)據(jù)輸出卷積層2,采用卷積層2的處理函數(shù),結(jié)合表1所示的卷積層2采用的參數(shù),對卷積層1輸出的數(shù)據(jù)進(jìn)行處理;并將該卷積層2輸出的數(shù)據(jù)輸出卷積層3,,采用卷積層2的處理函數(shù),結(jié)合表1所示的卷積層2采用的參數(shù),對卷積層1輸出的數(shù)據(jù)進(jìn)行處理;并將該卷積層2輸出的數(shù)據(jù)輸出卷積層3,采用卷積層3的處理函數(shù),結(jié)合表1所示的卷積層3采用的參數(shù),對卷積層2輸出的數(shù)據(jù)進(jìn)行處理;并將該卷積層3輸出的數(shù)據(jù)輸出卷積層4,采用卷積層4的處理函數(shù),結(jié)合表1所示的卷積層4采用的參數(shù),對卷積層3輸出的數(shù)據(jù)進(jìn)行處理;并將該卷積層4輸出的數(shù)據(jù)輸出卷積層5,采用卷積層5的處理函數(shù),結(jié)合表1所示的卷積層5采用的參數(shù),對卷積層4輸出的數(shù)據(jù)進(jìn)行處理;并將該卷積層5輸出的數(shù)據(jù)輸出全連接層6,采用全連接層6的處理函數(shù),結(jié)合表1所示的全連接層6采用的參數(shù),對卷積層5輸出的數(shù)據(jù)進(jìn)行處理;并將全連接層6輸出的數(shù)據(jù)輸出全連接層7,采用全連接層7的處理函數(shù),結(jié)合表1所示的全連接層7采用的參數(shù),對卷積層6輸出的數(shù)據(jù)進(jìn)行處理,得到該全連接層7的輸出數(shù)據(jù)。該全連接層7的輸出數(shù)據(jù)可用于表征該輸入圖像的圖像特征。
s102、采用非線性映射函數(shù)對該圖像特征進(jìn)行處理,得到該輸入圖像的哈希碼。
舉例來說,該s102例如可采用如下公式(2)對該圖像特征進(jìn)行處理,得到該輸入圖像的哈希碼。
其中,φi為該輸入圖像的哈希碼;
s103、根據(jù)該輸入圖像的哈希碼,和至少一個圖像中每個圖像的哈希碼,確定該輸入圖像與該每個圖像的漢明距離。
其中,該至少一個圖像可以為預(yù)設(shè)的數(shù)據(jù)庫中的圖像。針對該至少一個圖像中的每個圖像的哈希碼可以是在執(zhí)行圖像檢索方法之前采用上述s101和s102預(yù)先計算所得到的。
s104、根據(jù)該輸入圖像與該每個圖像的漢明距離,對該至少一個圖像進(jìn)行排序,并將該排序后的圖像作為圖像檢索結(jié)果。
具體地,該s104中可通過比較該輸入圖像與該每個圖像的漢明距離,將該至少一個圖像,按照與該輸入圖像的漢明距離進(jìn)行排序,并將該排序后的圖像作為圖像檢索結(jié)果。其中,該方法中可將該至少一個圖像,按照與該輸入圖像的漢明距離從小到大的順序,即漢明距離的升序進(jìn)行排序。
該至少一個圖像中,若一個圖像與該輸入圖像的漢明距離越小,則該一個圖像與該輸入圖像的相似度越高;反之,若該一個圖像與該輸入圖像的漢明距離越大,則該一個圖像與該輸入圖像的相似度越低。
本發(fā)明提供的該圖像檢索方法,可通過采用深度卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進(jìn)行處理得到該輸入圖像的圖像特征,繼而采用非線性映射函數(shù)對該圖像特征進(jìn)行處理得到該輸入圖像的哈希碼,還根據(jù)該輸入圖像的哈希碼,和至少一個圖像中每個圖像的哈希碼,確定該輸入圖像與該每個圖像的漢明距離,繼而根據(jù)該輸入圖像與該每個圖像的漢明距離,對該至少一個圖像進(jìn)行排序,并將該排序后的圖像作為圖像檢索結(jié)果。該方法中,由于圖像特征是采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理所得到的,該圖像特征的準(zhǔn)確度較高,可準(zhǔn)確反映該輸入圖像的語義信息,有效提高了圖像檢索的準(zhǔn)確度。
其中,語義信息可以為搜索意圖,即圖像具體包含有什么用戶感興趣的內(nèi)容。
同時由于圖像的哈希碼是采用非線性映射函數(shù)對圖像特征進(jìn)行降維映射得到的,該哈希碼的準(zhǔn)確度較高(即保留更準(zhǔn)確的語義信息),可準(zhǔn)確反映該輸入圖像的語義信息,因此兩者的結(jié)合有效提高了圖像檢索的準(zhǔn)確度。
并且,該方法中,由于非線性映射函數(shù)具有強(qiáng)大的泛化能力,可準(zhǔn)確表達(dá)圖像特征與哈希碼的對應(yīng)關(guān)系,因此采用該非線性映射函數(shù)對該圖像特征進(jìn)行處理,得到該輸入圖像的哈希碼,可使得該輸入圖像的哈希碼更加準(zhǔn)確,從而有效提高圖像檢索的準(zhǔn)確度。
相對于傳統(tǒng)的深度哈希算法,本發(fā)明的圖像檢索方法中,考慮了深度神經(jīng)網(wǎng)絡(luò)與非線性映射的結(jié)合,有效打破傳統(tǒng)方法受線性映射學(xué)習(xí)能力瓶頸的約束,提高整體哈希模型的學(xué)習(xí)能力。
可選的,如上所示的圖像檢索方法中,該非線性映射函數(shù)可包括至少一個決策樹算法。
其中,每個決策樹算法可以為一個軟決策樹算法。
該圖像檢索方法中,采用包括有至少一個軟決策樹算法的非線性映射函數(shù),進(jìn)行圖像特征的映射,繼而得到哈希碼,由于軟決策樹不僅具有非線性映射能力,其輸出的哈希碼的哈希值是連續(xù)可導(dǎo)的,可方便與深度神經(jīng)網(wǎng)絡(luò)結(jié)合并利用梯度下降方法進(jìn)行參數(shù)的優(yōu)化,繼而提高哈希碼的準(zhǔn)確度,提高圖像檢索方法的準(zhǔn)確度。
可選的,圖3為本發(fā)明提供的一種圖像檢索方法的流程圖二。如圖3所示,如上所示的s102中采用非線性映射函數(shù)對該圖像特征進(jìn)行處理,得到該輸入圖像的哈希碼可包括:
s301、根據(jù)該圖像特征,采用每個決策樹算法,得到該輸入圖像的一個哈希值;該輸入圖像的哈希碼包括至少一個哈希值。
其中,該非映射映射函數(shù)對應(yīng)的決策樹算法的個數(shù)可等于預(yù)設(shè)的哈希碼位數(shù),其中,每個決策樹算法可用于得到該輸入圖像的哈希碼中的一個哈希值。
根據(jù)該圖像特征采用一個決策樹算法可得到一個哈希值,那么根據(jù)該圖像特征采用該至少一個決策樹算法便可得到該輸入圖像的至少一個哈希值,該輸入圖像的至少一個哈希值可構(gòu)成該輸入圖像的哈希碼。
舉例來說,若預(yù)設(shè)的哈希碼位數(shù)為k,則該非線性映射函數(shù)可包括k個決策樹算法,每個決策樹算法可得到一個哈希值,也稱哈希比特。每個決策樹算法可稱為映射層的一棵決策樹,每棵決策樹可輸出一個哈希值,每棵決策樹的輸入均為該輸入圖像的圖像特征。每棵決策樹輸出的哈希值即為每個決策樹算法得到的一個哈希值。
圖4為本發(fā)明實施例提供的一種圖像檢索方法所使用的非線性映射層的示意圖。如圖4所示,本發(fā)明的非線性映射層可包括:k棵決策樹,該k棵決策樹中,不同決策樹的層數(shù)相同,以及不同決策樹中同一層的節(jié)點數(shù)等相同。與傳統(tǒng)的決策樹不同,本發(fā)明所涉及的每棵決策樹的層數(shù),以及每棵決策樹中各層的節(jié)點數(shù)可以為預(yù)設(shè)值。
若每棵決策樹的層數(shù)為ll,當(dāng)ll為1時,則映射層可以為線性映射層,因此,本發(fā)明所涉及的映射層中每棵決策樹的層數(shù)可大于或等于2。
針對k棵決策樹中的第k棵決策樹,可根據(jù)該圖像特征,采用下述公式(3)得到該第k棵決策樹上節(jié)點(l,m)k輸出的哈希值。
公式(3)中,f(l,m)k(yi)為該第k棵決策樹上節(jié)點(l,m)k輸出的哈希值;(l,m)k為該第k棵決策樹上第l層的第m個節(jié)點;yi為該輸入圖像的圖像特征;i用于表示該輸入圖像為圖像i。
w(l,m)k為節(jié)點(l,m)k的參數(shù)向量,
其中,
第k棵決策樹上節(jié)點(l,m)k的參數(shù)向量可包括權(quán)重w(l,m)k和偏置b(l,m)k,σ(·)函數(shù)的輸入(即節(jié)點(l,m)k對yi的映射)原本應(yīng)該是
k棵決策樹在(l,m)位置,即第l層的第m個節(jié)點的參數(shù)向量組成參數(shù)矩陣w(l,m),其中第k個列向量為w(l,m)k。每棵決策樹的根節(jié)點的輸出可以作為該每棵決策樹的輸出,該每棵決策樹的輸出可以為一個具有實數(shù)范圍的哈希比特值。
該方法中,可根據(jù)該輸入圖像的圖像特征,采用如下公式(4),得到k棵決策樹的輸出,即該輸入圖像的哈希碼。
公式(4)中,
在本發(fā)明實施例提供的圖像檢索方法中,每棵決策樹的層數(shù)例如可以為2,即上述ll可以為2。當(dāng)然,該ll還可以為其他整數(shù)值,在此不再贅述。
為防止各決策樹輸出的哈希值的過擬合,本發(fā)明提供的方法還可在每棵決策樹中每個節(jié)點輸出哈希值之后,對k棵決策樹中各節(jié)點輸出的哈希值進(jìn)行批量歸一化(batchnormalization)處理。
可選的,如上所示的s301中根據(jù)該圖像特征,采用每個決策樹算法,得到該輸入圖像的一個哈希值之前,該方法還可包括:
s301a、根據(jù)該每個決策樹算法采用的參數(shù)向量,確定第一正則化項;該每個決策樹算法針對不同葉子節(jié)點所采用的參數(shù)向量相互平行。
該每個決策樹算法針對不同葉子節(jié)點所采用的參數(shù)向量,可稱為每棵決策樹中不同葉子節(jié)點的參數(shù)向量。也就是說,本發(fā)明方法中,同一棵決策樹中不同葉子節(jié)點間的參數(shù)向量相互平行。
舉例來說,第k棵決策樹中葉子節(jié)點(ll,m)與葉子節(jié)點(ll,m')的參數(shù)向量相互平行的關(guān)系可通過如下公式(4)表示。
其中,w(ll,m)k為第k棵決策樹中葉子節(jié)點(ll,m)的參數(shù)向量,
根據(jù)如上公式(4)也就是平行約束的公式可知,第k棵決策樹的所有葉子節(jié)點的參數(shù)向量可以根據(jù)同一個向量βk進(jìn)行線性表示。例如第k棵決策樹中葉子節(jié)點(ll,m)的參數(shù)向量w(ll,m)k可以表示為如下公式(5)。
w(ll,m)k=a(ll,m)kβk公式(5)
其中,a(ll,m)k為標(biāo)量,可表示w(ll,m)k相對于βk的比例系數(shù)。
該s301a中可將上述公式(4)進(jìn)行縮放處理,得到如下公式(6),并根據(jù)公式(6)得到該第一正則化項。
(如m=2ll-1,則m+1=1)公式(6)
其中,r1為該第一正則化項。
s301b、根據(jù)該至少一個決策樹算法中不同決策樹算法采用的參數(shù)向量,確定第二正則化項;該不同決策樹算法針對同一葉子節(jié)點所采用的參數(shù)向量相互正交。
該不同決策樹算法針對同一葉子節(jié)點所采用的參數(shù)向量交,可稱為不同決策樹中不同位置的葉子節(jié)點的參數(shù)向量。也就是說,本發(fā)明方法中,不同決策樹中不同位置的葉子節(jié)點的參數(shù)向量相互正交。
舉例來說,由于該k棵決策樹的同一葉子節(jié)點位置如(ll,m)的參數(shù)向量可組成參數(shù)矩陣w(ll,m),因此,如參數(shù)矩陣w(ll,m)為正交矩陣,則可確定不同決策樹中不同位置的葉子節(jié)點的參數(shù)向量相互正交。
參數(shù)矩陣w(ll,m)為正交矩陣可表示為如下公式(7)。
其中,
根據(jù)上述公式(7),也就是正交約束的公式,k棵決策樹對應(yīng)的k個向量[β1,…,βk,…,βk]是彼此正交的。
根據(jù)上述公式(4)可知,k棵決策樹在葉子節(jié)點(ll,m)位置,即第ll層的第m個節(jié)點的參數(shù)矩陣與圖像特征的向量yi的乘積
則對于輸入圖像如圖像i,其第k棵決策樹輸出的哈希比特
公式(8)中的
該s301b中可將上述公式(7)進(jìn)行縮放處理,得到如下公式(9),并根據(jù)公式(9)得到該第二正則化項。
其中,r2為該第二正則化項,||·||f為矩陣的弗羅貝尼烏斯范數(shù)。
s301c、根據(jù)該第一正則化項、該第二正則化項和成本函數(shù),對該每個決策樹算法采用的參數(shù)向量進(jìn)行更新;該成本函數(shù)為對至少一個訓(xùn)練圖像進(jìn)行處理得到的。
具體地,該至少一個訓(xùn)練圖像中不同圖像相似概率可通過根據(jù)該不同圖像的哈希碼得到的漢明距離進(jìn)行確定。漢明距離越大,則該不同圖像相似的概率越小,反之,漢明距離越小,則該不同圖像相似的概率越大。
當(dāng)圖像的哈希碼由-1和1組成時,其漢明距離可根據(jù)
公式(10)中,pij為該至少一個訓(xùn)練圖像中圖像i和圖像j相似的概率。
該方法中可根據(jù)計算得到的該不同圖像間概率,以及該不同圖像間的實際概率,確定該不同圖像間的概率誤差,并根據(jù)該概率誤差得到負(fù)的對數(shù)似然函數(shù),作為該成本函數(shù)。
該成本函數(shù)例如可以為如下公式(11)所示。
公式(11)可稱為成本函數(shù),在該公式(11)中,cij表示圖像i和圖像j相似的概率誤差,sij為圖像i和圖像j相似的實際概率。該實際概率可以為預(yù)設(shè)值。例如,若圖像i和圖像j相似,則sij=1,若圖像i和圖像j相似,則sij=0。
該圖像檢索方法中,可根據(jù)該第一正則化項和該第二正則化項,對該每個決策樹算法采用的參數(shù)向量進(jìn)行更新,從而根據(jù)更新參數(shù)向量后的每個決策樹算法得到一個哈希值,繼而得到該哈希碼,可有效避免哈希碼的比特間的冗余,使得該哈希碼更加簡潔和準(zhǔn)確,繼而提高圖像檢索性能,即提高圖像檢索的準(zhǔn)確度。
可選的,圖5為本發(fā)明提供的一種圖像檢索方法的流程圖三。如圖5所示,如上所示的s301c中根據(jù)該第一正則化項和該第二正則化項,對該每個決策樹算法采用的參數(shù)向量進(jìn)行更新可包括:
s501、根據(jù)該第一正則化項、該第二正則化項和該成本函數(shù),得到損失函數(shù)。
具體地,該第一正則化項可稱為第一正交懲罰項,該第二正則化項可稱為第二正交懲罰項。
根據(jù)該第一正則化項、該第二正則化項及上述公式(11)所示的成本函數(shù),可得到如下公式(12)。
公式(12)可稱為損失函數(shù)。r1為第一正則化項,r2為第二正則化項,λ為預(yù)設(shè)的正則化項系數(shù)。該損失函數(shù)還可稱為成對的負(fù)對數(shù)似然損失函數(shù),或者交叉熵?fù)p失函數(shù)。θ為該該深度卷積神經(jīng)網(wǎng)絡(luò)對應(yīng)的參數(shù),w為非線性映射函數(shù)采用的參數(shù)。
s502、采用參數(shù)矩陣,對該損失函數(shù)進(jìn)行求導(dǎo),得到該損失函數(shù)的第一梯度值;該參數(shù)矩陣包括:該至少一個決策樹算法采用的參數(shù)向量。
為了解決離散的漢明距離帶來的優(yōu)化問題,該方法中可將上述公式(12)中的
公式(13)中,
該方法中可根據(jù)如下公式(14)可計算得到上述公式(13)針對非線性映射函數(shù)的倒數(shù)。
該方法中,還可根據(jù)公式(15)和公式(16),可分別計算得到第一正則化項針對第k棵決策樹中葉子節(jié)點的參數(shù)向量的導(dǎo)數(shù),及第二正則化項針對k棵決策樹中葉子節(jié)點的參數(shù)向量的導(dǎo)數(shù)。
公式(15)中,
公式(16)中,
同時,該方法還可將根據(jù)上述公式(15)所得到的第一正則化項針對第k棵決策樹中葉子節(jié)點的參數(shù)向量的導(dǎo)數(shù),采用下述公式(17)對該每個小批量圖像集對應(yīng)的損失函數(shù)針對每棵決策樹中葉子節(jié)點的參數(shù)向量進(jìn)行處理。
該方法還可將根據(jù)上述公式(16)所得到的第二正則化項針對k棵決策樹中葉子節(jié)點的參數(shù)向量的導(dǎo)數(shù),采用下述公式(18)對該每個小批量圖像集對應(yīng)的損失函數(shù)針對k決策樹中葉子節(jié)點的參數(shù)向量進(jìn)行處理。
該方法中可根據(jù)
s503、根據(jù)該損失函數(shù)的第一梯度值,對該每個決策樹算法采用的參數(shù)向量進(jìn)行更新。
該s503中可根據(jù)
該圖像檢索方法中,可根據(jù)該第一正則化項、該第二正則化項和成本函數(shù),得到損失函數(shù),并采用包括有該至少一個決策樹算法采用的參數(shù)向量的參數(shù)矩陣對該損失函數(shù)進(jìn)行求導(dǎo),得到該損失函數(shù)的第一梯度值;所述參數(shù)矩陣,繼而根據(jù)該損失函數(shù)的第一梯度值,對該每個決策樹算法采用的參數(shù)向量進(jìn)行更新,從而可根據(jù)更新參數(shù)向量后的每個決策樹算法得到一個哈希值,繼而得到該哈希碼,可有效避免哈希碼的比特間的冗余,使得該哈希碼更加簡潔和準(zhǔn)確,繼而提高圖像檢索性能,即提高圖像檢索的準(zhǔn)確度。
可選的,本發(fā)明還提供一種圖像檢索方法。圖6為本發(fā)明提供的一種圖像檢索方法的流程圖四。如圖6所示,在如上所示的方法的基礎(chǔ)上,該圖像檢索方法還可包括:
s601、根據(jù)預(yù)先獲取的該至少一個訓(xùn)練圖像的圖像特征,對該損失函數(shù)進(jìn)行求導(dǎo),得到該損失函數(shù)的第二梯度值。
舉例來說,若訓(xùn)練圖像的個數(shù)為n,該n個訓(xùn)練圖像可構(gòu)成訓(xùn)練圖像集。該訓(xùn)練圖像集可表示為
將訓(xùn)練圖像集
針對每個小批量圖像集,分別確定每個小批量圖像集對應(yīng)的圖像特征表達(dá)函數(shù)
采用類似上述公式(13)得到每個小批量圖像集對應(yīng)的損失函數(shù),并采用類似上述公式(14)的方式得到每個小批量圖像集對應(yīng)的損失函數(shù)針對非線性映射函數(shù)的導(dǎo)數(shù)
采用鏈?zhǔn)椒▌t確定每個小批量圖像集對應(yīng)的損失函數(shù)針對圖像特征表達(dá)函數(shù)的導(dǎo)數(shù),得到第二梯度值
s602、根據(jù)該損失函數(shù)的第二梯度值,對該深度卷積神經(jīng)網(wǎng)絡(luò)采用的參數(shù)進(jìn)行更新。
該s602中可根據(jù)
該圖像檢索方法,還可根據(jù)預(yù)先獲取的所述至少一個訓(xùn)練圖像的圖像特征,對該損失函數(shù)進(jìn)行求導(dǎo),得到該損失函數(shù)的第二梯度值,根據(jù)該損失函數(shù)的第二梯度值,對該深度卷積神經(jīng)網(wǎng)絡(luò)采用的參數(shù)進(jìn)行更新,得到根據(jù)更新后的深度卷積神經(jīng)網(wǎng)絡(luò)采用的參數(shù)確定該輸入圖像的圖像特征,可提高圖像特征的準(zhǔn)確度,繼而提高圖像檢索的準(zhǔn)確度。
如下結(jié)合實例進(jìn)行說明。
為了比較不同算法的圖像檢索效果,本發(fā)明可采用測試指標(biāo):在第n個位置上的準(zhǔn)確率(precision@n),準(zhǔn)確率-召回率(precision-recall,簡稱pr)以及平均準(zhǔn)確率均值(meanaverageprecision,簡稱map)。其中,precision@n測量的是前n個返回結(jié)果中與查詢圖像相似的圖像個數(shù)占n個返回結(jié)果的比例;pr曲線也可稱為查準(zhǔn)率-查全率曲線,通常隨著返回結(jié)果數(shù)目從大到小變化,準(zhǔn)確率減小,召回率增加,pr曲線與坐標(biāo)(1,1)的偏離程度反映了算法的檢索效果,離得越近越好;map是所有查詢的平均正確率(averageprecision,簡稱ap)的平均值,ap指的單個查詢圖像在不同返回結(jié)果數(shù)目下的準(zhǔn)確率的平均。map例如可采用如下公式(19)計算得到。
其中
為了更好地說明本發(fā)明提供的圖像檢索方法的檢索效果,本發(fā)明還可使用兩個基準(zhǔn)圖像數(shù)據(jù)集cifar-10和nus-wide來圖像檢索方法的效果。
其中,圖像數(shù)據(jù)集cifar-10可包括:60,000張32*32的單標(biāo)簽圖像,平均分為10類,每類6000張。在訓(xùn)練階段,可從每一類中隨機(jī)選擇500張,共5000張圖像作為訓(xùn)練圖像集;在測試階段,可從每一類中隨機(jī)選擇100張,共1000張圖像作為測試圖像集。如兩張圖像包括有同一標(biāo)簽則該兩張圖像相似,否則不相似。對于傳統(tǒng)哈希算法即包括線性哈希算法的圖像檢索方法中,可采用512維要點(gist)特征作為圖像特征;對于包括本發(fā)明提供的圖像檢索方法在內(nèi)的深度哈希算法,可直接輸入圖像像素數(shù)據(jù)。
圖像數(shù)據(jù)集nus-wide可包括269,648張多標(biāo)簽圖像,涵蓋了81個概念標(biāo)簽。由于圖像數(shù)據(jù)集只提供圖像的統(tǒng)一資源定位符(uniformresourcelocator,簡稱url),而且很多圖像的url已經(jīng)失效,可從中選取114,427張圖像。從這些選取到的圖像中,可篩選出數(shù)目大于5000的最頻繁出現(xiàn)的10類圖像,共56572張。從篩選出的圖像中,我們從每一類隨機(jī)選擇500張作訓(xùn)練集,100張作測試圖像集。兩張圖像包括有至少一個共同標(biāo)簽則該兩張圖像相似,否則不相似。對于傳統(tǒng)哈希算法即包括線性哈希算法的圖像檢索方法中,可采用圖像數(shù)據(jù)集提供的1134維特征作為圖像特征;對于包括本發(fā)明提供的圖像檢索方法在內(nèi)的深度哈希算法,可直接輸入圖像像素數(shù)據(jù)。
本發(fā)明提供的圖像檢索方法中結(jié)合了深度卷積神經(jīng)網(wǎng)絡(luò)及非線性映射函數(shù)等,因而,本發(fā)明提供的圖像檢索方法對應(yīng)的算法可稱為深度監(jiān)督哈希非線性預(yù)測(deepsupervisedhashingwithnonlinearprojections,簡稱dshnp)算法。
本發(fā)明可在開源框架如matconvnet框架下實現(xiàn)該dshnp算法。其中,損失函數(shù)中正則化項的系數(shù),如上述λ可以為0.1。在小批量隨機(jī)梯度下降方法中,設(shè)置動量參數(shù)為0.9,權(quán)重衰減參數(shù)為5*10-4,小批量大小如上述b可以為128。
如上所示的方法中,例如可根據(jù)
對應(yīng)的,還選擇了多種具有代表性的哈希算法作為本發(fā)明提供的dshnp算法的對比算法,其中傳統(tǒng)無監(jiān)督哈希算法包括譜哈希(spectralhashing,簡稱sh)算法和迭代量化(iterativequantization,簡稱itq)算法;傳統(tǒng)監(jiān)督非線性哈希算法包括監(jiān)督核哈希(supervisedhashingwithkernels,ksh)算法,監(jiān)督離散哈希(superviseddiscretehashing,簡稱sdh)算法,快速監(jiān)督哈希(fastsupervisedhashing,簡稱fasth)算法;深度哈希方法包括深度語義排名哈希(deepsemanticrankinghashing,簡稱dsrh)算法,深度正規(guī)化相似性比較哈希(deepregularizedsimilaritycomparisonhashing,簡稱drsch)算法,深度成對監(jiān)督哈希(deeppairwise-basedsupervisedhashing,簡稱dpsh)算法。
下面通過實驗數(shù)據(jù)來說明本發(fā)明的圖像檢索方法的dshnp算法的圖像檢索性能。
上述所示的各算法分別在哈希碼位數(shù)為12、24、32、48的不同情況下的map指標(biāo)對照表可如下表2所示。
表2
根據(jù)表2可知,本發(fā)明的圖像檢索方法的dshnp算法在各哈希碼位數(shù)的情況下,其map指標(biāo)明顯高于其他算法的map指標(biāo)。
基于該表2分析可知,在傳統(tǒng)哈希算法中,圖像檢索效果最好的算法是fasth算法,本發(fā)明的圖像檢索方法的dshnp算法相對于fasth算法有很大的提升,在圖像數(shù)據(jù)集cifar-10上有27.9%的平均map指標(biāo)的提升,在圖像數(shù)據(jù)集nus-wide上有19.8%的平均map指標(biāo)的提升。這是因為傳統(tǒng)哈希算法中采用的是人工提取的圖像特征,而本發(fā)明的圖像檢索方法的dshnp算法中是基于深度卷積神經(jīng)網(wǎng)絡(luò)哈希算法進(jìn)行圖像特征的學(xué)習(xí)及提取,并且還與非線性哈希映射的聯(lián)合優(yōu)化,保證了采用最優(yōu)的圖像特征用于哈希映射。在深度哈希算法中,dpsh算法是性能最好的,本發(fā)明的圖像檢索方法的dshnp算法相對于dpsh也有一定的提升,在圖像數(shù)據(jù)集cifar-10和圖像數(shù)據(jù)集nus-wide上分別有1.3%和5.2%的平均map指標(biāo)的提升。
圖7a為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集cifar-10的pr曲線圖。圖7b為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集nus-wide的pr曲線圖。圖8a為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集cifar-10的precision@n曲線圖。圖8b為本發(fā)明提供的圖像檢索方法基于圖像數(shù)據(jù)集nus-wide的precision@n曲線圖。
參見圖7a和圖7b可知,本發(fā)明的圖像檢索方法的dshnp算法在基于哈希碼位數(shù)為48的情況下,無論是本發(fā)明的圖像檢索方法的dshnp算法中,還是圖像數(shù)據(jù)集nus-wide,其準(zhǔn)確率相對于傳統(tǒng)的算法,均可得到有效提高。
參見圖8a和圖8b可知,本發(fā)明的圖像檢索方法的dshnp算法在基于哈希碼位數(shù)為48的情況下,無論是本發(fā)明的圖像檢索方法的dshnp算法中,還是圖像數(shù)據(jù)集nus-wide,其前n個返回結(jié)果中與查詢圖像相似的圖像個數(shù)占n個返回結(jié)果的比例相對于傳統(tǒng)的算法,均可得到有效提高。
基于上述可知,本發(fā)明提供的的圖像檢索方法的dshnp算法,具有非線性哈希映射的優(yōu)勢,其將基于深度卷積神經(jīng)網(wǎng)絡(luò)哈希算法進(jìn)行圖像特征的學(xué)習(xí)及提取與非線性哈希映射相結(jié)合,可有效提高圖像檢索的準(zhǔn)確度。
本發(fā)明還提供一種圖像檢索裝置。該圖像檢索裝置可執(zhí)行上述任一所示的圖像檢索方法。圖9為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖一。如圖9所示,該圖像檢索裝置可包括:
第一處理模塊901,用于采用深度卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像進(jìn)行處理,得到該輸入圖像的圖像特征。
第二處理模塊902,用于采用非線性映射函數(shù)對該圖像特征進(jìn)行處理,得到該輸入圖像的哈希碼。
第一確定模塊903,用于根據(jù)該輸入圖像的哈希碼,和至少一個圖像中每個圖像的哈希碼,確定該輸入圖像與該每個圖像的漢明距離。
排序模塊904,用于根據(jù)該輸入圖像與該每個圖像的漢明距離,對該至少一個圖像進(jìn)行排序,并將該排序后的圖像作為圖像檢索結(jié)果。
可選的,如上所示的非線性映射函數(shù)可包括:至少一個決策樹算法;
第二處理模塊902,具體用于根據(jù)該圖像特征,采用每個決策樹算法,得到該輸入圖像的一個哈希值;該輸入圖像的哈希碼包括至少一個哈希值。
可選的,圖10為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖二。如圖10所示,圖像檢索裝置還可包括:
第二確定模塊905,用于在第二處理模塊902根據(jù)該圖像特征,采用該每個決策樹算法,得到該輸入圖像的一個哈希值之前,根據(jù)該每個決策樹算法采用的參數(shù)向量,確定第一正則化項;根據(jù)該至少一個決策樹算法中不同決策樹算法采用的參數(shù)向量,確定第二正則化項;其中,該每個決策樹算法針對不同葉子節(jié)點所采用的參數(shù)向量相互平行;該不同決策樹算法針對同一葉子節(jié)點所采用的參數(shù)向量相互正交。
第一更新模塊906,用于根據(jù)該第一正則化項、該第二正則化項和成本函數(shù),對該每個決策樹算法采用的參數(shù)向量進(jìn)行更新;該成本函數(shù)為對至少一個訓(xùn)練圖像進(jìn)行處理得到的。
可選的,圖11為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖三。如圖11所示,第一更新模塊906包括:
處理子單元9061,用于根據(jù)該第一正則化項、該第二正則化項對該成本函數(shù)進(jìn)行處理,得到損失函數(shù);采用參數(shù)矩陣,對該損失函數(shù)進(jìn)行求導(dǎo),得到該損失函數(shù)的第一梯度值;其中,該參數(shù)矩陣包括:該至少一個決策樹算法采用的參數(shù)向量。
更新子單元9062,用于根據(jù)該損失函數(shù)的第一梯度值,對該每個決策樹算法采用的參數(shù)向量進(jìn)行更新。
可選的,圖12為本發(fā)明提供的一種圖像檢索裝置的結(jié)構(gòu)示意圖四。如圖12所示,圖像檢索裝置還可包括:
第三確定模塊907,用于根據(jù)預(yù)先獲取的所述至少一個訓(xùn)練圖像的圖像特征,對該損失函數(shù)進(jìn)行求導(dǎo),得到該損失函數(shù)的第二梯度值;
第二更新模塊908,用于根據(jù)該損失函數(shù)的第二梯度值,對該深度卷積神經(jīng)網(wǎng)絡(luò)采用的參數(shù)進(jìn)行更新。
本發(fā)明提供的各圖像檢索裝置,可執(zhí)行上述任一所示的圖像檢索裝置,其具體的實現(xiàn)及有益效果可參見上述,在此不再贅述。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。