欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法與流程

文檔序號:11251008閱讀:622來源:國知局
一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法與流程

本發(fā)明涉及圖像內(nèi)容檢索領(lǐng)域,尤其是涉及了一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法。



背景技術(shù):

基于內(nèi)容的圖像檢索是大規(guī)模數(shù)字圖像內(nèi)容檢索的分支,近年來吸引了廣泛關(guān)注。在如今時代,隨著網(wǎng)頁內(nèi)容、移動互聯(lián)網(wǎng)的快速發(fā)展,圖像以海量級別增長,以社交領(lǐng)域新浪微博為例,每月活躍用戶上傳照片數(shù)以億計,以購物平臺淘寶為例,其后臺儲存圖片達300億張。顯而易見,如今在數(shù)字圖像領(lǐng)域,限制發(fā)展的不再是儲存容量、傳輸速度,而是檢索能力,因此這個問題的解決,將在人機交互領(lǐng)域、遠程服務(wù)器內(nèi)容搜查,特別在遠洋深海中有著極大的應(yīng)用前景,例如長距離大面積的船舶定位、安全航道軌跡的統(tǒng)計,甚至在國際海洋權(quán)益的爭議中,實現(xiàn)侵權(quán)目標(biāo)的快速查找和有效識別分析,可以為海洋執(zhí)法機構(gòu)提供證據(jù)或決策依據(jù)。

如何在海量的圖像中迅速找到自己所需內(nèi)容,已經(jīng)成為了當(dāng)今的挑戰(zhàn)。由于特定內(nèi)容檢索需要海量數(shù)據(jù)建模,同時不同嵌體的檢索圖像其上下文環(huán)境內(nèi)容信息不盡相同,因此非感興趣區(qū)域之外的信息如何處理才能提高檢索的精度給任務(wù)造成了一定難度。

本發(fā)明提出了一種基于深度卷積網(wǎng)絡(luò)進行圖像內(nèi)容信息表征的新框架。使用已經(jīng)預(yù)訓(xùn)練的深度卷積網(wǎng)絡(luò)進行網(wǎng)絡(luò)截取,將得到的特征圖通過不同通道疊加的方讓其張量從三維轉(zhuǎn)換為二維,接著將得到的中間結(jié)果進行固定等長度編碼,使之成為特征向量,進行l(wèi)2范數(shù)的歸一化處理后,圖像之間通過點積運算計算相似性。本發(fā)明可以處理檢索圖像中特定物體的提取與比較,同時根據(jù)現(xiàn)實情況利用上下文環(huán)境信息,極大程度上提高檢索精度。



技術(shù)實現(xiàn)要素:

針對解決在海量圖像中尋找特定目標(biāo)的檢索問題,本發(fā)明的目的在于提供一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法,提出了一種基于深度卷積網(wǎng)絡(luò)進行圖像內(nèi)容信息表征的新框架。

為解決上述問題,本發(fā)明提供一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法,其主要內(nèi)容包括:

(一)卷積網(wǎng)絡(luò)結(jié)構(gòu);

(二)區(qū)域卷積特征最大值;

(三)環(huán)繞內(nèi)容信息提?。?/p>

(四)帶權(quán)重的區(qū)域卷積特征最大值。

其中,所述的卷積網(wǎng)絡(luò)結(jié)構(gòu),采取總共34層的預(yù)訓(xùn)練卷積網(wǎng)絡(luò)拓撲,具體為:

(1)輸入圖像;

(2)首先經(jīng)過卷積核為7×7、特征圖數(shù)為64個的卷積層共1層;

(3)繼續(xù)經(jīng)過采樣率為二分之一的池化層共1層;

(4)經(jīng)過卷積核為3×3、特征圖數(shù)為64個的卷積層共6層,其中每兩層特征合并;

(5)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為128個的卷積層共8層,其中除首層外每兩層特征合并;

(6)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為256個的卷積層共10層,其中除首層外每兩層特征合并;

(7)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為512個的卷積層共6層,其中除首層外每兩層特征合并;

(8)繼續(xù)經(jīng)過均值池化層共1層;

(9)最后經(jīng)過神經(jīng)元為1000的全連接層共1層,輸出圖像表征。

進一步地,所述的區(qū)域卷積特征最大值,包括卷積網(wǎng)絡(luò)截層和特征圖譜編碼。

進一步地,所述的卷積網(wǎng)絡(luò)截層,給定一個卷積網(wǎng)絡(luò)結(jié)構(gòu),用于圖像表征可不沿用預(yù)訓(xùn)練中最終層輸出,而是使用最后一層卷積層或者池化層所得到的向量,具體地,對于具有l(wèi)層的卷積網(wǎng)絡(luò),給定圖像則對應(yīng)的輸出層l∈l結(jié)果是一個三維張量其中k是通道的數(shù)量,w×h是輸出特征圖的空域維度;

特征圖xl可分解為k個二維特征圖的序列,即與平面圖像的像素相對,這些二維特征圖稱作卷積層中的激活因子,而這些激活因子在特征圖中的空域位置表示為所有的p點組合起來可表征為s=[1,w]×[1,h],每一層都計算的是比上一層更高階的抽象信息。

進一步地,所述特征圖譜編碼,對于特征圖抽象概括的信息維度非常龐大,輸入圖像為3×3時,該網(wǎng)絡(luò)的特征圖譜維度為23×13×2048,因此需要將維度龐大的信息編碼到固定長度的全局信息,具體為:對于給定層l的特征圖xl,首先產(chǎn)生一序列正方形區(qū)域r={ri},i=1,…,n,其中ri∈s且n由特征圖的尺寸所決定,接著,區(qū)域卷積特征最大值由橫跨k個通道的空域所計算得到,即對每個區(qū)域ri都會產(chǎn)生一個1×k的向量

則區(qū)域卷積特征最大值有:

每個區(qū)域向量都進行l(wèi)2范數(shù)均一化得到中間結(jié)果,接著用主成分分析法對中間結(jié)果進行白化處理,最后將白化完的結(jié)果再進行l(wèi)2范數(shù)均一化,因此可以得到最終此輸入圖像的聚集總和表征為:

此時得到的最終圖像表征f仍然是1×k的向量,需要將其再次進行l(wèi)2范數(shù)均一化,這樣通過簡單的點積運算就能計算圖像之間的相似性。

進一步地,所述的環(huán)繞內(nèi)容信息提取,包括環(huán)繞信息區(qū)域分類、空間關(guān)注度以及計算模型。

進一步地,所述的環(huán)繞信息區(qū)域分類,對于圖像中感興趣的區(qū)域之外,所有的圖像信息都可以稱作上下文環(huán)繞信息,簡稱環(huán)繞信息,這些環(huán)繞信息跟感興趣區(qū)域信息捆綁在一起進行分類時,有時候會增加檢索的成功率,但有時候會降低,而其中環(huán)繞信息可以分為三類:

(1)全圖信息:整幅檢索圖像都輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;

(2)興趣信息:只截取感興趣區(qū)域的信息輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;

(3)興趣投影信息:先用整幅檢索圖像輸入到深度卷積網(wǎng)絡(luò),在前向反饋中得到不同層特征圖的表征,然后計算每一層特征圖中興趣區(qū)域的投影,最終積累的特征圖投影編碼成固定長度的特征向量。

進一步地,所述的空間關(guān)注度,三類環(huán)繞信息各有優(yōu)劣,為了合并三類信息達到最優(yōu)結(jié)果,利用三類信息各自的有點合并成一個空間關(guān)注度模型,用來提取深度卷積網(wǎng)絡(luò)表征,具體為:

(1)興趣信息和興趣投影信息具有對圖像最高的響應(yīng)度,其中興趣信息具有本身表征的能力,而興趣投影信息則具有更高的上下文環(huán)繞信息的表征;

(2)全圖信息由于含有不具備先驗知識的環(huán)繞信息,當(dāng)全圖被輸入深度卷積網(wǎng)絡(luò)時,會產(chǎn)生大量的不明確的分類信息,因此在全局考慮中需要將其比重降至最低;

(3)關(guān)注度模型產(chǎn)生的最終表征不僅應(yīng)該包含遠離興趣區(qū)域的信息,更要包含興趣區(qū)域本身的信息,這是空間關(guān)注度的約束條件。

進一步地,所述的計算模型,用關(guān)注度圖譜初始化特征圖xl,對于此關(guān)注度圖譜中所有k個通道中的元素p,其中ap∈[0,1],活躍度可以表征為:

其中rl是特征圖xl中興趣信息投影區(qū)域,m是顯著性圖譜;對于在特征圖xl中位置p∈rl激活因子按照以下公式調(diào)整:

g(·)是一個單調(diào)函數(shù),具體為:

g(a)=λ1+λ2aφ(6)

其中,常量λ1設(shè)置為0.5,常量λ2設(shè)置為0.4,φ設(shè)置為4。

進一步地,所述的帶權(quán)重的區(qū)域卷積特征最大值,改變公式(3)中的區(qū)域卷積特征最大值均等貢獻權(quán)重的做法,在對檢索圖像不存在先驗知識的情況下,增加興趣區(qū)域rl的個數(shù)能確保更高的興趣物體檢索覆蓋度,但同時會增加不相關(guān)區(qū)域的信息干擾,因此,根據(jù)公式(3)增加一個帶權(quán)重的聚集綜合表征:

其中,是區(qū)域信息的權(quán)重,由一種顯著性映射方式取得,具體為:給定特征圖,通過疊加不同的通道,則將其張量從三維xl映射為二維m,即因此有:

ψ(xl)=m(8)

其中,最終的權(quán)重計算可由下得到:

此外,顯著性映射還會進行最大值均一化操作,使得mp∈[0,1]。

附圖說明

圖1是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)圖。

具體實施方式

需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的系統(tǒng)流程圖。主要包括卷積網(wǎng)絡(luò)結(jié)構(gòu);區(qū)域卷積特征最大值;環(huán)繞內(nèi)容信息提??;帶權(quán)重的區(qū)域卷積特征最大值。

采取總共34層的預(yù)訓(xùn)練卷積網(wǎng)絡(luò)拓撲,具體為:

(1)輸入圖像;

(2)首先經(jīng)過卷積核為7×7、特征圖數(shù)為64個的卷積層共1層;

(3)繼續(xù)經(jīng)過采樣率為二分之一的池化層共1層;

(4)經(jīng)過卷積核為3×3、特征圖數(shù)為64個的卷積層共6層,其中每兩層特征合并;

(5)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為128個的卷積層共8層,其中除首層外每兩層特征合并;

(6)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為256個的卷積層共10層,其中除首層外每兩層特征合并;

(7)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為512個的卷積層共6層,其中除首層外每兩層特征合并;

(8)繼續(xù)經(jīng)過均值池化層共1層;

(9)最后經(jīng)過神經(jīng)元為1000的全連接層共1層,輸出圖像表征。

區(qū)域卷積特征最大值,包括卷積網(wǎng)絡(luò)截層和特征圖譜編碼。

卷積網(wǎng)絡(luò)截層,給定一個卷積網(wǎng)絡(luò)結(jié)構(gòu),用于圖像表征可不沿用預(yù)訓(xùn)練中最終層輸出,而是使用最后一層卷積層或者池化層所得到的向量,具體地,對于具有l(wèi)層的卷積網(wǎng)絡(luò),給定圖像則對應(yīng)的輸出層l∈l結(jié)果是一個三維張量其中k是通道的數(shù)量,w×h是輸出特征圖的空域維度;

特征圖xl可分解為k個二維特征圖的序列,即與平面圖像的像素相對,這些二維特征圖稱作卷積層中的激活因子,而這些激活因子在特征圖中的空域位置表示為所有的p點組合起來可表征為s=[1,w]×[1,h],每一層都計算的是比上一層更高階的抽象信息。

特征圖譜編碼,對于特征圖抽象概括的信息維度非常龐大,輸入圖像為3×3時,該網(wǎng)絡(luò)的特征圖譜維度為23×13×2048,因此需要將維度龐大的信息編碼到固定長度的全局信息,具體為:對于給定層l的特征圖xl,首先產(chǎn)生一序列正方形區(qū)域r={ri},i=1,…,n,其中ri∈s且n由特征圖的尺寸所決定,接著,區(qū)域卷積特征最大值由橫跨k個通道的空域所計算得到,即對每個區(qū)域ri都會產(chǎn)生一個1×k的向量

則區(qū)域卷積特征最大值有:

每個區(qū)域向量都進行l(wèi)2范數(shù)均一化得到中間結(jié)果,接著用主成分分析法對中間結(jié)果進行白化處理,最后將白化完的結(jié)果再進行l(wèi)2范數(shù)均一化,因此可以得到最終此輸入圖像的聚集總和表征為:

此時得到的最終圖像表征f仍然是1×k的向量,需要將其再次進行l(wèi)2范數(shù)均一化,這樣通過簡單的點積運算就能計算圖像之間的相似性。

環(huán)繞內(nèi)容信息提取,包括環(huán)繞信息區(qū)域分類、空間關(guān)注度以及計算模型。

環(huán)繞信息區(qū)域分類,對于圖像中感興趣的區(qū)域之外,所有的圖像信息都可以稱作上下文環(huán)繞信息,簡稱環(huán)繞信息,這些環(huán)繞信息跟感興趣區(qū)域信息捆綁在一起進行分類時,有時候會增加檢索的成功率,但有時候會降低,而其中環(huán)繞信息可以分為三類:

(1)全圖信息:整幅檢索圖像都輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;

(2)興趣信息:只截取感興趣區(qū)域的信息輸入到深度卷積網(wǎng)絡(luò)中,得到的圖像表征編碼成固定長度的特征向量;

(3)興趣投影信息:先用整幅檢索圖像輸入到深度卷積網(wǎng)絡(luò),在前向反饋中得到不同層特征圖的表征,然后計算每一層特征圖中興趣區(qū)域的投影,最終積累的特征圖投影編碼成固定長度的特征向量。

空間關(guān)注度,三類環(huán)繞信息各有優(yōu)劣,為了合并三類信息達到最優(yōu)結(jié)果,利用三類信息各自的有點合并成一個空間關(guān)注度模型,用來提取深度卷積網(wǎng)絡(luò)表征,具體為:

(1)興趣信息和興趣投影信息具有對圖像最高的響應(yīng)度,其中興趣信息具有本身表征的能力,而興趣投影信息則具有更高的上下文環(huán)繞信息的表征;

(2)全圖信息由于含有不具備先驗知識的環(huán)繞信息,當(dāng)全圖被輸入深度卷積網(wǎng)絡(luò)時,會產(chǎn)生大量的不明確的分類信息,因此在全局考慮中需要將其比重降至最低;

(3)關(guān)注度模型產(chǎn)生的最終表征不僅應(yīng)該包含遠離興趣區(qū)域的信息,更要包含興趣區(qū)域本身的信息,這是空間關(guān)注度的約束條件。

計算模型,用關(guān)注度圖譜初始化特征圖xl,對于此關(guān)注度圖譜中所有k個通道中的元素p,其中ap∈[0,1],活躍度可以表征為:

其中rl是特征圖xl中興趣信息投影區(qū)域,m是顯著性圖譜;對于在特征圖xl中位置p∈rl激活因子按照以下公式調(diào)整:

g(·)是一個單調(diào)函數(shù),具體為:

g(a)=λ1+λ2aφ(6)

其中,常量λ1設(shè)置為0.5,常量λ2設(shè)置為0.4,φ設(shè)置為4。

帶權(quán)重的區(qū)域卷積特征最大值,改變公式(3)中的區(qū)域卷積特征最大值均等貢獻權(quán)重的做法,在對檢索圖像不存在先驗知識的情況下,增加興趣區(qū)域rl的個數(shù)能確保更高的興趣物體檢索覆蓋度,但同時會增加不相關(guān)區(qū)域的信息干擾,因此,根據(jù)公式(3)增加一個帶權(quán)重的聚集綜合表征:

其中,是區(qū)域信息的權(quán)重,由一種顯著性映射方式取得,具體為:給定特征圖,通過疊加不同的通道,則將其張量從三維xl映射為二維m,即因此有:

ψ(xl)=m(8)

其中,最終的權(quán)重計算可由下得到:

此外,顯著性映射還會進行最大值均一化操作,使得mp∈[0,1]。

圖2是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)圖。如圖所示,可以觀察到網(wǎng)絡(luò)結(jié)構(gòu)按照序列進行排列,下一層處理的數(shù)據(jù)為上一層產(chǎn)生的輸出。

對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
贵溪市| 察雅县| 昆山市| 江津市| 翁牛特旗| 卢湾区| 江达县| 梨树县| 莱西市| 深圳市| 手机| 正镶白旗| 公安县| 庆云县| 大石桥市| 泰安市| 江源县| 屏山县| 丽江市| 临颍县| 陇川县| 通江县| 乐亭县| 北流市| 大庆市| 双桥区| 斗六市| 德州市| 靖宇县| 大兴区| 吉木乃县| 宣威市| 德钦县| 阳信县| 宜春市| 洱源县| 海原县| 三门县| 浦城县| 临沭县| 南开区|