一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法與流程

文檔序號：11251008閱讀：622來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及圖像內(nèi)容檢索領(lǐng)域，尤其是涉及了一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法。

背景技術(shù)：

基于內(nèi)容的圖像檢索是大規(guī)模數(shù)字圖像內(nèi)容檢索的分支，近年來吸引了廣泛關(guān)注。在如今時代，隨著網(wǎng)頁內(nèi)容、移動互聯(lián)網(wǎng)的快速發(fā)展，圖像以海量級別增長，以社交領(lǐng)域新浪微博為例，每月活躍用戶上傳照片數(shù)以億計，以購物平臺淘寶為例，其后臺儲存圖片達300億張。顯而易見，如今在數(shù)字圖像領(lǐng)域，限制發(fā)展的不再是儲存容量、傳輸速度，而是檢索能力，因此這個問題的解決，將在人機交互領(lǐng)域、遠程服務(wù)器內(nèi)容搜查，特別在遠洋深海中有著極大的應(yīng)用前景，例如長距離大面積的船舶定位、安全航道軌跡的統(tǒng)計，甚至在國際海洋權(quán)益的爭議中，實現(xiàn)侵權(quán)目標(biāo)的快速查找和有效識別分析，可以為海洋執(zhí)法機構(gòu)提供證據(jù)或決策依據(jù)。

如何在海量的圖像中迅速找到自己所需內(nèi)容，已經(jīng)成為了當(dāng)今的挑戰(zhàn)。由于特定內(nèi)容檢索需要海量數(shù)據(jù)建模，同時不同嵌體的檢索圖像其上下文環(huán)境內(nèi)容信息不盡相同，因此非感興趣區(qū)域之外的信息如何處理才能提高檢索的精度給任務(wù)造成了一定難度。

本發(fā)明提出了一種基于深度卷積網(wǎng)絡(luò)進行圖像內(nèi)容信息表征的新框架。使用已經(jīng)預(yù)訓(xùn)練的深度卷積網(wǎng)絡(luò)進行網(wǎng)絡(luò)截取，將得到的特征圖通過不同通道疊加的方讓其張量從三維轉(zhuǎn)換為二維，接著將得到的中間結(jié)果進行固定等長度編碼，使之成為特征向量，進行l(wèi)2范數(shù)的歸一化處理后，圖像之間通過點積運算計算相似性。本發(fā)明可以處理檢索圖像中特定物體的提取與比較，同時根據(jù)現(xiàn)實情況利用上下文環(huán)境信息，極大程度上提高檢索精度。

技術(shù)實現(xiàn)要素：

針對解決在海量圖像中尋找特定目標(biāo)的檢索問題，本發(fā)明的目的在于提供一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法，提出了一種基于深度卷積網(wǎng)絡(luò)進行圖像內(nèi)容信息表征的新框架。

為解決上述問題，本發(fā)明提供一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法，其主要內(nèi)容包括：

(一)卷積網(wǎng)絡(luò)結(jié)構(gòu)；

(二)區(qū)域卷積特征最大值；

(三)環(huán)繞內(nèi)容信息提?。?/p>

(四)帶權(quán)重的區(qū)域卷積特征最大值。

其中，所述的卷積網(wǎng)絡(luò)結(jié)構(gòu)，采取總共34層的預(yù)訓(xùn)練卷積網(wǎng)絡(luò)拓撲，具體為：

(1)輸入圖像；

(2)首先經(jīng)過卷積核為7×7、特征圖數(shù)為64個的卷積層共1層；

(3)繼續(xù)經(jīng)過采樣率為二分之一的池化層共1層；

(4)經(jīng)過卷積核為3×3、特征圖數(shù)為64個的卷積層共6層，其中每兩層特征合并；

(5)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為128個的卷積層共8層，其中除首層外每兩層特征合并；

(6)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為256個的卷積層共10層，其中除首層外每兩層特征合并；

(7)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為512個的卷積層共6層，其中除首層外每兩層特征合并；

(8)繼續(xù)經(jīng)過均值池化層共1層；

(9)最后經(jīng)過神經(jīng)元為1000的全連接層共1層，輸出圖像表征。

進一步地，所述的區(qū)域卷積特征最大值，包括卷積網(wǎng)絡(luò)截層和特征圖譜編碼。

進一步地，所述的卷積網(wǎng)絡(luò)截層，給定一個卷積網(wǎng)絡(luò)結(jié)構(gòu)，用于圖像表征可不沿用預(yù)訓(xùn)練中最終層輸出，而是使用最后一層卷積層或者池化層所得到的向量，具體地，對于具有l(wèi)層的卷積網(wǎng)絡(luò)，給定圖像則對應(yīng)的輸出層l∈l結(jié)果是一個三維張量其中k是通道的數(shù)量，w×h是輸出特征圖的空域維度；

特征圖x^l可分解為k個二維特征圖的序列，即與平面圖像的像素相對，這些二維特征圖稱作卷積層中的激活因子，而這些激活因子在特征圖中的空域位置表示為所有的p點組合起來可表征為s＝[1,w]×[1,h]，每一層都計算的是比上一層更高階的抽象信息。

進一步地，所述特征圖譜編碼，對于特征圖抽象概括的信息維度非常龐大，輸入圖像為3×3時，該網(wǎng)絡(luò)的特征圖譜維度為23×13×2048，因此需要將維度龐大的信息編碼到固定長度的全局信息，具體為：對于給定層l的特征圖x^l，首先產(chǎn)生一序列正方形區(qū)域r＝{ri},i＝1,…,n，其中ri∈s且n由特征圖的尺寸所決定，接著，區(qū)域卷積特征最大值由橫跨k個通道的空域所計算得到，即對每個區(qū)域ri都會產(chǎn)生一個1×k的向量

則區(qū)域卷積特征最大值有：

每個區(qū)域向量都進行l(wèi)2范數(shù)均一化得到中間結(jié)果，接著用主成分分析法對中間結(jié)果進行白化處理，最后將白化完的結(jié)果再進行l(wèi)2范數(shù)均一化，因此可以得到最終此輸入圖像的聚集總和表征為：

此時得到的最終圖像表征f仍然是1×k的向量，需要將其再次進行l(wèi)2范數(shù)均一化，這樣通過簡單的點積運算就能計算圖像之間的相似性。

進一步地，所述的環(huán)繞內(nèi)容信息提取，包括環(huán)繞信息區(qū)域分類、空間關(guān)注度以及計算模型。

進一步地，所述的環(huán)繞信息區(qū)域分類，對于圖像中感興趣的區(qū)域之外，所有的圖像信息都可以稱作上下文環(huán)繞信息，簡稱環(huán)繞信息，這些環(huán)繞信息跟感興趣區(qū)域信息捆綁在一起進行分類時，有時候會增加檢索的成功率，但有時候會降低，而其中環(huán)繞信息可以分為三類：

(1)全圖信息：整幅檢索圖像都輸入到深度卷積網(wǎng)絡(luò)中，得到的圖像表征編碼成固定長度的特征向量；

(2)興趣信息：只截取感興趣區(qū)域的信息輸入到深度卷積網(wǎng)絡(luò)中，得到的圖像表征編碼成固定長度的特征向量；

(3)興趣投影信息：先用整幅檢索圖像輸入到深度卷積網(wǎng)絡(luò)，在前向反饋中得到不同層特征圖的表征，然后計算每一層特征圖中興趣區(qū)域的投影，最終積累的特征圖投影編碼成固定長度的特征向量。

進一步地，所述的空間關(guān)注度，三類環(huán)繞信息各有優(yōu)劣，為了合并三類信息達到最優(yōu)結(jié)果，利用三類信息各自的有點合并成一個空間關(guān)注度模型，用來提取深度卷積網(wǎng)絡(luò)表征，具體為：

(1)興趣信息和興趣投影信息具有對圖像最高的響應(yīng)度，其中興趣信息具有本身表征的能力，而興趣投影信息則具有更高的上下文環(huán)繞信息的表征；

(2)全圖信息由于含有不具備先驗知識的環(huán)繞信息，當(dāng)全圖被輸入深度卷積網(wǎng)絡(luò)時，會產(chǎn)生大量的不明確的分類信息，因此在全局考慮中需要將其比重降至最低；

(3)關(guān)注度模型產(chǎn)生的最終表征不僅應(yīng)該包含遠離興趣區(qū)域的信息，更要包含興趣區(qū)域本身的信息，這是空間關(guān)注度的約束條件。

進一步地，所述的計算模型，用關(guān)注度圖譜初始化特征圖x^l，對于此關(guān)注度圖譜中所有k個通道中的元素p，其中ap∈[0,1]，活躍度可以表征為：

其中rl是特征圖x^l中興趣信息投影區(qū)域，m是顯著性圖譜；對于在特征圖x^l中位置p∈rl激活因子按照以下公式調(diào)整：

g(·)是一個單調(diào)函數(shù)，具體為：

g(a)＝λ1+λ2a^φ(6)

其中，常量λ1設(shè)置為0.5，常量λ2設(shè)置為0.4，φ設(shè)置為4。

進一步地，所述的帶權(quán)重的區(qū)域卷積特征最大值，改變公式(3)中的區(qū)域卷積特征最大值均等貢獻權(quán)重的做法，在對檢索圖像不存在先驗知識的情況下，增加興趣區(qū)域rl的個數(shù)能確保更高的興趣物體檢索覆蓋度，但同時會增加不相關(guān)區(qū)域的信息干擾，因此，根據(jù)公式(3)增加一個帶權(quán)重的聚集綜合表征：

其中，是區(qū)域信息的權(quán)重，由一種顯著性映射方式取得，具體為：給定特征圖，通過疊加不同的通道，則將其張量從三維x^l映射為二維m，即因此有：

ψ(x^l)＝m(8)

其中，最終的權(quán)重計算可由下得到：

此外，顯著性映射還會進行最大值均一化操作，使得mp∈[0,1]。

附圖說明

圖1是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)圖。

具體實施方式

需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互結(jié)合，下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的系統(tǒng)流程圖。主要包括卷積網(wǎng)絡(luò)結(jié)構(gòu)；區(qū)域卷積特征最大值；環(huán)繞內(nèi)容信息提??；帶權(quán)重的區(qū)域卷積特征最大值。

采取總共34層的預(yù)訓(xùn)練卷積網(wǎng)絡(luò)拓撲，具體為：

(1)輸入圖像；

(2)首先經(jīng)過卷積核為7×7、特征圖數(shù)為64個的卷積層共1層；

(3)繼續(xù)經(jīng)過采樣率為二分之一的池化層共1層；

(4)經(jīng)過卷積核為3×3、特征圖數(shù)為64個的卷積層共6層，其中每兩層特征合并；

(5)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為128個的卷積層共8層，其中除首層外每兩層特征合并；

(6)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為256個的卷積層共10層，其中除首層外每兩層特征合并；

(7)繼續(xù)經(jīng)過卷積核為3×3、特征圖數(shù)為512個的卷積層共6層，其中除首層外每兩層特征合并；

(8)繼續(xù)經(jīng)過均值池化層共1層；

(9)最后經(jīng)過神經(jīng)元為1000的全連接層共1層，輸出圖像表征。

區(qū)域卷積特征最大值，包括卷積網(wǎng)絡(luò)截層和特征圖譜編碼。

卷積網(wǎng)絡(luò)截層，給定一個卷積網(wǎng)絡(luò)結(jié)構(gòu)，用于圖像表征可不沿用預(yù)訓(xùn)練中最終層輸出，而是使用最后一層卷積層或者池化層所得到的向量，具體地，對于具有l(wèi)層的卷積網(wǎng)絡(luò)，給定圖像則對應(yīng)的輸出層l∈l結(jié)果是一個三維張量其中k是通道的數(shù)量，w×h是輸出特征圖的空域維度；

特征圖譜編碼，對于特征圖抽象概括的信息維度非常龐大，輸入圖像為3×3時，該網(wǎng)絡(luò)的特征圖譜維度為23×13×2048，因此需要將維度龐大的信息編碼到固定長度的全局信息，具體為：對于給定層l的特征圖x^l，首先產(chǎn)生一序列正方形區(qū)域r＝{ri},i＝1,…,n，其中ri∈s且n由特征圖的尺寸所決定，接著，區(qū)域卷積特征最大值由橫跨k個通道的空域所計算得到，即對每個區(qū)域ri都會產(chǎn)生一個1×k的向量

則區(qū)域卷積特征最大值有：

此時得到的最終圖像表征f仍然是1×k的向量，需要將其再次進行l(wèi)2范數(shù)均一化，這樣通過簡單的點積運算就能計算圖像之間的相似性。

環(huán)繞內(nèi)容信息提取，包括環(huán)繞信息區(qū)域分類、空間關(guān)注度以及計算模型。

環(huán)繞信息區(qū)域分類，對于圖像中感興趣的區(qū)域之外，所有的圖像信息都可以稱作上下文環(huán)繞信息，簡稱環(huán)繞信息，這些環(huán)繞信息跟感興趣區(qū)域信息捆綁在一起進行分類時，有時候會增加檢索的成功率，但有時候會降低，而其中環(huán)繞信息可以分為三類：

(1)全圖信息：整幅檢索圖像都輸入到深度卷積網(wǎng)絡(luò)中，得到的圖像表征編碼成固定長度的特征向量；

(2)興趣信息：只截取感興趣區(qū)域的信息輸入到深度卷積網(wǎng)絡(luò)中，得到的圖像表征編碼成固定長度的特征向量；

空間關(guān)注度，三類環(huán)繞信息各有優(yōu)劣，為了合并三類信息達到最優(yōu)結(jié)果，利用三類信息各自的有點合并成一個空間關(guān)注度模型，用來提取深度卷積網(wǎng)絡(luò)表征，具體為：

計算模型，用關(guān)注度圖譜初始化特征圖x^l，對于此關(guān)注度圖譜中所有k個通道中的元素p，其中ap∈[0,1]，活躍度可以表征為：

其中rl是特征圖x^l中興趣信息投影區(qū)域，m是顯著性圖譜；對于在特征圖x^l中位置p∈rl激活因子按照以下公式調(diào)整：

g(·)是一個單調(diào)函數(shù)，具體為：

g(a)＝λ1+λ2a^φ(6)

其中，常量λ1設(shè)置為0.5，常量λ2設(shè)置為0.4，φ設(shè)置為4。

帶權(quán)重的區(qū)域卷積特征最大值，改變公式(3)中的區(qū)域卷積特征最大值均等貢獻權(quán)重的做法，在對檢索圖像不存在先驗知識的情況下，增加興趣區(qū)域rl的個數(shù)能確保更高的興趣物體檢索覆蓋度，但同時會增加不相關(guān)區(qū)域的信息干擾，因此，根據(jù)公式(3)增加一個帶權(quán)重的聚集綜合表征：

ψ(x^l)＝m(8)

其中，最終的權(quán)重計算可由下得到：

此外，顯著性映射還會進行最大值均一化操作，使得mp∈[0,1]。

圖2是本發(fā)明一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)圖。如圖所示，可以觀察到網(wǎng)絡(luò)結(jié)構(gòu)按照序列進行排列，下一層處理的數(shù)據(jù)為上一層產(chǎn)生的輸出。

對于本領(lǐng)域技術(shù)人員，本發(fā)明不限制于上述實施例的細節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實現(xiàn)本發(fā)明。此外，本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍，這些改進和變型也應(yīng)視為本發(fā)明的保護范圍。因此，所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏春秋
技術(shù)所有人：深圳市唯特視科技有限公司
我是此專利的發(fā)明人

上一篇：一種數(shù)據(jù)分析方法及裝置與流程
上一篇：一種基于聚類的多維流數(shù)據(jù)可視分析方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

圖像表征相關(guān)技術(shù)

圖像特征提取算法相關(guān)技術(shù)

圖像前景提取相關(guān)技術(shù)

圖像輪廓提取相關(guān)技術(shù)

opencv提取輪廓內(nèi)圖像相關(guān)技術(shù)

matlab提取圖像坐標(biāo)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種利用內(nèi)容環(huán)繞信息提取圖像表征的特定對象檢索方法與流程