本發(fā)明涉及圖像內(nèi)容檢索領(lǐng)域,尤其是涉及了一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法。
背景技術(shù):
基于內(nèi)容的圖像檢索是大規(guī)模數(shù)字圖像內(nèi)容檢索的分支,近年來吸引了廣泛關(guān)注。在如今時代,隨著網(wǎng)頁內(nèi)容、移動互聯(lián)網(wǎng)的快速發(fā)展,圖像以海量級別增長,以社交領(lǐng)域新浪微博為例,每月活躍用戶上傳照片數(shù)以億計,以購物平臺淘寶為例,其后臺儲存圖片達300億張。顯而易見,如今在數(shù)字圖像領(lǐng)域,限制發(fā)展的不再是儲存容量、傳輸速度,而是檢索能力,因此這個問題的解決,將在人機交互領(lǐng)域、遠程服務(wù)器內(nèi)容搜查,特別在遠洋深海中有著極大的應(yīng)用前景,例如長距離大面積的船舶定位、安全航道軌跡的統(tǒng)計,甚至在國際海洋權(quán)益的爭議中,實現(xiàn)侵權(quán)目標(biāo)的快速查找和有效識別分析,可以為海洋執(zhí)法機構(gòu)提供證據(jù)或決策依據(jù)。
如何在海量的圖像中迅速找到自己所需內(nèi)容,已經(jīng)成為了當(dāng)今的挑戰(zhàn)。由于特定內(nèi)容檢索需要海量數(shù)據(jù)建模,同時不同嵌體的檢索圖像其上下文環(huán)境內(nèi)容信息不盡相同,因此非感興趣區(qū)域之外的信息如何處理才能提高檢索的精度給任務(wù)造成了一定難度。
本發(fā)明提出了一種基于深度卷積網(wǎng)絡(luò)進行圖像內(nèi)容信息表征的新框架。使用已經(jīng)預(yù)訓(xùn)練的深度卷積網(wǎng)絡(luò)進行網(wǎng)絡(luò)截取,將得到的特征圖通過不同通道疊加的方讓其張量從三維轉(zhuǎn)換為二維,接著將得到的中間結(jié)果進行固定等長度編碼,使之成為特征向量,進行l(wèi)2范數(shù)的歸一化處理后,圖像之間通過點積運算計算相似性。本發(fā)明可以處理檢索圖像中特定物體的提取與比較,同時根據(jù)現(xiàn)實情況利用上下文環(huán)境信息,極大程度上提高檢索精度。
技術(shù)實現(xiàn)要素:
針對解決在海量圖像中尋找特定目標(biāo)的檢索問題,本發(fā)明的目的在于提供一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法,提出了一種基于深度卷積網(wǎng)絡(luò)進行圖像內(nèi)容信息表征的新框架。
為解決上述問題,本發(fā)明提供一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法,其主要內(nèi)容包括:
(一)卷積網(wǎng)絡(luò)結(jié)構(gòu);
(二)區(qū)域卷積特征最大值;
(三)環(huán)繞內(nèi)容信息提?。?/p>
(四)帶權(quán)重的區(qū)域卷積特征最大值。
其中,所述的卷積網(wǎng)絡(luò)結(jié)構(gòu),采取總共34層的預(yù)訓(xùn)練卷積網(wǎng)絡(luò)拓撲,具體為:
(1)輸入圖像;
(2)首先經(jīng)過卷積核為7×7、特征圖數(shù)為64個的卷積層共1層;
(3)繼續(xù)經(jīng)過采樣率為二分之一的池化層共1層;
(4)經(jīng)過卷積核為3×3、特征圖數(shù)為64個的卷積層共6層,其中每兩層特征合并;
(5)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為128個的卷積層共8層,其中除首層外每兩層特征合并;
(6)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為256個的卷積層共10層,其中除首層外每兩層特征合并;
(7)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為512個的卷積層共6層,其中除首層外每兩層特征合并;
(8)繼續(xù)經(jīng)過均值池化層共1層;
(9)最后經(jīng)過神經(jīng)元為1000的全連接層共1層,輸出圖像表征。
進一步地,所述的區(qū)域卷積特征最大值,包括卷積網(wǎng)絡(luò)截層和特征圖譜編碼。
進一步地,所述的卷積網(wǎng)絡(luò)截層,給定一個卷積網(wǎng)絡(luò)結(jié)構(gòu),用于圖像表征可不沿用預(yù)訓(xùn)練中最終層輸出,而是使用最后一層卷積層或者池化層所得到的向量,具體地,對于具有l(wèi)層的卷積網(wǎng)絡(luò),給定圖像
特征圖xl可分解為k個二維特征圖的序列,即
進一步地,所述特征圖譜編碼,對于特征圖抽象概括的信息維度非常龐大,輸入圖像為3×3時,該網(wǎng)絡(luò)的特征圖譜維度為23×13×2048,因此需要將維度龐大的信息編碼到固定長度的全局信息,具體為:對于給定層l的特征圖xl,首先產(chǎn)生一序列正方形區(qū)域r={ri},i=1,…,n,其中ri∈s且n由特征圖的尺寸所決定,接著,區(qū)域卷積特征最大值由橫跨k個通道的空域所計算得到,即對每個區(qū)域ri都會產(chǎn)生一個1×k的向量
則區(qū)域卷積特征最大值有:
每個區(qū)域向量
此時得到的最終圖像表征f仍然是1×k的向量,需要將其再次進行l(wèi)2范數(shù)均一化,這樣通過簡單的點積運算就能計算圖像之間的相似性。
進一步地,所述的環(huán)繞內(nèi)容信息提取,包括環(huán)繞信息區(qū)域分類、空間關(guān)注度以及計算模型。
進一步地,所述的環(huán)繞信息區(qū)域分類,對于圖像中感興趣的區(qū)域之外,所有的圖像信息都可以稱作上下文環(huán)繞信息,簡稱環(huán)繞信息,這些環(huán)繞信息跟感興趣區(qū)域信息捆綁在一起進行分類時,有時候會增加檢索的成功率,但有時候會降低,而其中環(huán)繞信息可以分為三類:
(1)全圖信息:整幅檢索圖像都輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;
(2)興趣信息:只截取感興趣區(qū)域的信息輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;
(3)興趣投影信息:先用整幅檢索圖像輸入到深度卷積網(wǎng)絡(luò),在前向反饋中得到不同層特征圖的表征,然后計算每一層特征圖中興趣區(qū)域的投影,最終積累的特征圖投影編碼成固定長度的特征向量。
進一步地,所述的空間關(guān)注度,三類環(huán)繞信息各有優(yōu)劣,為了合并三類信息達到最優(yōu)結(jié)果,利用三類信息各自的有點合并成一個空間關(guān)注度模型,用來提取深度卷積網(wǎng)絡(luò)表征,具體為:
(1)興趣信息和興趣投影信息具有對圖像最高的響應(yīng)度,其中興趣信息具有本身表征的能力,而興趣投影信息則具有更高的上下文環(huán)繞信息的表征;
(2)全圖信息由于含有不具備先驗知識的環(huán)繞信息,當(dāng)全圖被輸入深度卷積網(wǎng)絡(luò)時,會產(chǎn)生大量的不明確的分類信息,因此在全局考慮中需要將其比重降至最低;
(3)關(guān)注度模型產(chǎn)生的最終表征不僅應(yīng)該包含遠離興趣區(qū)域的信息,更要包含興趣區(qū)域本身的信息,這是空間關(guān)注度的約束條件。
進一步地,所述的計算模型,用關(guān)注度圖譜
其中rl是特征圖xl中興趣信息投影區(qū)域,m是顯著性圖譜;對于在特征圖xl中位置p∈rl激活因子按照以下公式調(diào)整:
g(·)是一個單調(diào)函數(shù),具體為:
g(a)=λ1+λ2aφ(6)
其中,常量λ1設(shè)置為0.5,常量λ2設(shè)置為0.4,φ設(shè)置為4。
進一步地,所述的帶權(quán)重的區(qū)域卷積特征最大值,改變公式(3)中的區(qū)域卷積特征最大值均等貢獻權(quán)重的做法,在對檢索圖像不存在先驗知識的情況下,增加興趣區(qū)域rl的個數(shù)能確保更高的興趣物體檢索覆蓋度,但同時會增加不相關(guān)區(qū)域的信息干擾,因此,根據(jù)公式(3)增加一個帶權(quán)重的聚集綜合表征:
其中,
ψ(xl)=m(8)
其中,
此外,顯著性映射還會進行最大值均一化操作,使得mp∈[0,1]。
附圖說明
圖1是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的系統(tǒng)流程圖。主要包括卷積網(wǎng)絡(luò)結(jié)構(gòu);區(qū)域卷積特征最大值;環(huán)繞內(nèi)容信息提??;帶權(quán)重的區(qū)域卷積特征最大值。
采取總共34層的預(yù)訓(xùn)練卷積網(wǎng)絡(luò)拓撲,具體為:
(1)輸入圖像;
(2)首先經(jīng)過卷積核為7×7、特征圖數(shù)為64個的卷積層共1層;
(3)繼續(xù)經(jīng)過采樣率為二分之一的池化層共1層;
(4)經(jīng)過卷積核為3×3、特征圖數(shù)為64個的卷積層共6層,其中每兩層特征合并;
(5)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為128個的卷積層共8層,其中除首層外每兩層特征合并;
(6)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為256個的卷積層共10層,其中除首層外每兩層特征合并;
(7)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為512個的卷積層共6層,其中除首層外每兩層特征合并;
(8)繼續(xù)經(jīng)過均值池化層共1層;
(9)最后經(jīng)過神經(jīng)元為1000的全連接層共1層,輸出圖像表征。
區(qū)域卷積特征最大值,包括卷積網(wǎng)絡(luò)截層和特征圖譜編碼。
卷積網(wǎng)絡(luò)截層,給定一個卷積網(wǎng)絡(luò)結(jié)構(gòu),用于圖像表征可不沿用預(yù)訓(xùn)練中最終層輸出,而是使用最后一層卷積層或者池化層所得到的向量,具體地,對于具有l(wèi)層的卷積網(wǎng)絡(luò),給定圖像
特征圖xl可分解為k個二維特征圖的序列,即
特征圖譜編碼,對于特征圖抽象概括的信息維度非常龐大,輸入圖像為3×3時,該網(wǎng)絡(luò)的特征圖譜維度為23×13×2048,因此需要將維度龐大的信息編碼到固定長度的全局信息,具體為:對于給定層l的特征圖xl,首先產(chǎn)生一序列正方形區(qū)域r={ri},i=1,…,n,其中ri∈s且n由特征圖的尺寸所決定,接著,區(qū)域卷積特征最大值由橫跨k個通道的空域所計算得到,即對每個區(qū)域ri都會產(chǎn)生一個1×k的向量
則區(qū)域卷積特征最大值有:
每個區(qū)域向量
此時得到的最終圖像表征f仍然是1×k的向量,需要將其再次進行l(wèi)2范數(shù)均一化,這樣通過簡單的點積運算就能計算圖像之間的相似性。
環(huán)繞內(nèi)容信息提取,包括環(huán)繞信息區(qū)域分類、空間關(guān)注度以及計算模型。
環(huán)繞信息區(qū)域分類,對于圖像中感興趣的區(qū)域之外,所有的圖像信息都可以稱作上下文環(huán)繞信息,簡稱環(huán)繞信息,這些環(huán)繞信息跟感興趣區(qū)域信息捆綁在一起進行分類時,有時候會增加檢索的成功率,但有時候會降低,而其中環(huán)繞信息可以分為三類:
(1)全圖信息:整幅檢索圖像都輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;
(2)興趣信息:只截取感興趣區(qū)域的信息輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;
(3)興趣投影信息:先用整幅檢索圖像輸入到深度卷積網(wǎng)絡(luò),在前向反饋中得到不同層特征圖的表征,然后計算每一層特征圖中興趣區(qū)域的投影,最終積累的特征圖投影編碼成固定長度的特征向量。
空間關(guān)注度,三類環(huán)繞信息各有優(yōu)劣,為了合并三類信息達到最優(yōu)結(jié)果,利用三類信息各自的有點合并成一個空間關(guān)注度模型,用來提取深度卷積網(wǎng)絡(luò)表征,具體為:
(1)興趣信息和興趣投影信息具有對圖像最高的響應(yīng)度,其中興趣信息具有本身表征的能力,而興趣投影信息則具有更高的上下文環(huán)繞信息的表征;
(2)全圖信息由于含有不具備先驗知識的環(huán)繞信息,當(dāng)全圖被輸入深度卷積網(wǎng)絡(luò)時,會產(chǎn)生大量的不明確的分類信息,因此在全局考慮中需要將其比重降至最低;
(3)關(guān)注度模型產(chǎn)生的最終表征不僅應(yīng)該包含遠離興趣區(qū)域的信息,更要包含興趣區(qū)域本身的信息,這是空間關(guān)注度的約束條件。
計算模型,用關(guān)注度圖譜
其中rl是特征圖xl中興趣信息投影區(qū)域,m是顯著性圖譜;對于在特征圖xl中位置p∈rl激活因子按照以下公式調(diào)整:
g(·)是一個單調(diào)函數(shù),具體為:
g(a)=λ1+λ2aφ(6)
其中,常量λ1設(shè)置為0.5,常量λ2設(shè)置為0.4,φ設(shè)置為4。
帶權(quán)重的區(qū)域卷積特征最大值,改變公式(3)中的區(qū)域卷積特征最大值均等貢獻權(quán)重的做法,在對檢索圖像不存在先驗知識的情況下,增加興趣區(qū)域rl的個數(shù)能確保更高的興趣物體檢索覆蓋度,但同時會增加不相關(guān)區(qū)域的信息干擾,因此,根據(jù)公式(3)增加一個帶權(quán)重的聚集綜合表征:
其中,
ψ(xl)=m(8)
其中,
此外,顯著性映射還會進行最大值均一化操作,使得mp∈[0,1]。
圖2是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)圖。如圖所示,可以觀察到網(wǎng)絡(luò)結(jié)構(gòu)按照序列進行排列,下一層處理的數(shù)據(jù)為上一層產(chǎn)生的輸出。
對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。