欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度學習的自然圖像中顯著區(qū)域的檢測方法

文檔序號:6526200閱讀:1377來源:國知局
一種基于深度學習的自然圖像中顯著區(qū)域的檢測方法
【專利摘要】本發(fā)明涉及一種利用深度學習進行自然圖像中顯著區(qū)域的檢測方法,在訓練階段,首先在自然圖像數(shù)據(jù)庫上選取一定數(shù)量的圖片提取基本特征,構成訓練樣本,然后利用深度學習模型對已提取特征進行再學習,從而得到更抽象更有區(qū)分能力的增強型高級特征,最后用學習到的特征訓練分類器。在測試階段,對于任意一幅測試圖像,首先提取基本特征,然后利用訓練好的深度模型,提取增強型高級特征,最后利用分類器進行顯著性與否的預測,并把每個像素點的預測值作為這點的顯著值。這樣我們就得到整幅圖像的顯著圖,顯著值越大,就越顯著。
【專利說明】—種基于深度學習的自然圖像中顯著區(qū)域的檢測方法
【技術領域】
[0001]本發(fā)明涉及一種基于深度學習的自然圖像中顯著區(qū)域的檢測方法,可以應用于復雜背景下自然圖像中多區(qū)域的顯著性檢測。
【背景技術】
[0002]自然圖像的顯著區(qū)域檢測一直是圖像處理和計算機視覺領域的一個研究熱點,到目前為止,已經有大量的研究結構和課題組從事這方面的研究,而且已經取得了非常不錯的成果。
[0003]按照對視覺信息的處理方式劃分,可以將視覺注意過程分為兩部分,分別為自底向上(bottom-up)和自頂向下(top-down)的視覺注意。自底向上視覺注意模型通過直接計算低層特征的視覺顯著度來構建注意過程,具有速度快,不受意識控制,前向傳播等特點。自頂向下的注意模型又稱任務驅動的注意模型,需要先驗知識的支持,根據(jù)特定對象的特點在場景中進行視覺搜索,與人的主觀意識有關,是涉及記憶、控制等模塊的分工協(xié)作,具有速度慢,受意識控制,任務驅動和閉環(huán)結構等特點。
[0004]目前的絕大部分模型和算法都采用的是第一種注意機制,然而關于顯著性的估計方法卻呈現(xiàn)出百花齊放,百家爭鳴的趨勢。一般可以將現(xiàn)有的視覺注意模型分為以下幾類:認知模型(cognitive model),貝葉斯模型(Byes Model),決策論模型(decision theoretic model),信息論模型(information theoretic model),圖模型(graphical model),頻譜分析模型(spectral analysis model)和模型分類模型(patternclassification model)。盡管大量的算法被提出,而且性能不斷的提升,但是就目前的結果和實際上人眼的關注位置還是有很大的差異性。一方面的原因在于提取的特征區(qū)分能力不夠,另一方面的原因在于沒有發(fā)現(xiàn)的更好的模型來對顯著值進行估算。

【發(fā)明內容】

[0005]要解決的技術問題
[0006]為了解決現(xiàn)有方法在自然圖像中,顯著區(qū)域檢測效果差的問題,本發(fā)明提出了一種自底向上的基于深度學習的自然圖像顯著區(qū)域檢測方法,可以自動的從復雜背景的自然圖像中檢測出相應的顯著區(qū)域,并且取得比較高的準確率。
[0007]本發(fā)明的思想在于:
[0008]技術方案
[0009]一種基于深度學習的自然圖像中顯著區(qū)域的檢測方法,其特征提取步驟如下:
[0010]步驟1、提取任意一幅待檢測圖像數(shù)據(jù)的視覺特征:
[0011]對任意一幅待檢測圖像數(shù)據(jù)進行下采樣,然后進行N維特征的提取:
[0012]1.對下采樣后的圖像數(shù)據(jù)提取圖像RGB通道的每個通道的特征值;
[0013]2.將下采樣后的圖像數(shù)據(jù)從RGB顏色空間轉換到LAB顏色空間,并提取LAB顏色空間三個通道中每個通道的特征值;[0014]分別計算L通道在灰度級參數(shù)binl=8的直方圖HL,A通道在灰度級參數(shù)bin2=16時的直方圖HA,B通道在灰度級參數(shù)bin3=16時的灰度分布直方圖HB,利用下述公式計算HL, HA,和HB三個直方圖融合后的LAB顏色直方圖Q:
[0015]Q=(HL-1)*bin2*bin3+(HA-1)*bin3+HB+l
[0016]3.將下采樣后的圖像數(shù)據(jù)從RGB顏色空間轉換到HSV顏色空間,分別計算H通道在灰度級參數(shù)bin=8和S通道在灰度級參數(shù)bin=8下的直方圖;
[0017]4.采用ITTI算法提取圖像數(shù)據(jù)的方向,亮度,顏色對比度三類特征;
[0018]5.計算下采樣后圖像數(shù)據(jù)在4個方向3個尺度下的可控金字塔子頻帶特征;
[0019]6.采用SR,MZ,GBVS算法計算下采樣后圖像數(shù)據(jù)的顯著圖,并以顯著圖為顯著特征;
[0020]7.對下采樣后圖像數(shù)據(jù)提取緊密度特征;
[0021]8.將下采樣后圖像數(shù)據(jù)用窗口為[W,W],偏差為X的高斯低通濾波器平滑,然后采用的Leung-Malik濾波器算法,計算平滑后圖像的Leung-Malik濾波器最大響應特征;所述整數(shù)w為5?10 ;所述X為0.25?2.5 ;
[0022]9.計算下采樣后圖像數(shù)據(jù)中各個像素點到圖像中心像素點的歐氏距離,然后歸一化到[0,1]之間得到中心偏置特征;
[0023]10.采樣水平線檢測算法計算下采樣后圖像數(shù)據(jù)的水平線特征;
[0024]11.采樣人臉檢測算法提取下采樣后圖像數(shù)據(jù)的人臉特征;
[0025]12.采樣目標銀行特征提取算法提取下采樣后圖像數(shù)據(jù)的在行人,汽車,花朵,交通標志四種濾波模板下的特征;
[0026]將以上提取的特征構成特征矩陣[P,P,N],并將特征矩陣中每一維特征對應的二維矩陣[P,P]轉化為長度為p*p的列向量,由此得到新的二維特征矩陣的維數(shù)為[P*P,N];其中:P為下采樣后圖像的長或者寬;
[0027]步驟2:利用深度學習中的深度玻爾茲曼機模型,以步驟I得到的二維特征矩陣為輸入樣本,并提取深度玻爾茲曼機學習的高層特征,并送入softmax分類器進行分類,以分類器對每一個像素點預測為正樣本的概率值作為此像素點的顯著值,由此得到長度為P*P的顯著值列向量,縮放回采樣后測試圖像的大小,此采樣后測試圖像的顯著圖大小為[P, P];最后對得到的顯著圖像進行歸一化操作,并縮放到采樣前測試圖像的尺度,得到此測試圖像的最終顯著圖;
[0028]所述深度玻爾茲曼機和softmax分類器訓練:隨機選取Z幅圖像樣本,參照步驟I的特征提取過程,對每幅下采樣后的樣本圖像進行特征提取,得到每幅樣本圖像的特征矩陣維數(shù)為[Py,Py,Ny];按照采樣后每幅樣本圖片的Ground Truth中像素點的顯著值大小進行由大到小的排序,在排序結果的前q%中隨機選擇數(shù)量在10?40之間的正樣本點,在排序結果的后k%隨機選取數(shù)量在10?40之間的負樣本點;其中q取值為5?20,k取值為30?70 ;對于每一個隨機選取的樣本點來說,它對應N維的特征向量,每個樣本的長度為N,得到矩陣維度為[R,N]的樣本矩陣,R為樣本的數(shù)量;并對樣本矩陣采用ZCA白化對樣本矩陣進行去冗余處理,然后用處理后的樣本訓練具有多個隱層的深度玻爾茲曼機以進行高層特征學習,并將帶有標簽信息的高層特征送入softmax分類器進行訓練,并利用反向傳播算法反向調整深度玻爾茲曼機和softmax分類器的學習參數(shù),以此來實現(xiàn)模型較高的預測和分類能力。
[0029]所述ITTI 算法米用 A Model of Saliency-Based Visual Attention for RapidScene Analysis 提出的 ITTI 算法。
[0030]所述在4個方向3個尺度下的可控金字塔子頻帶特征的計算采用Filter DesignTechnique for Steerable Pyramid Image Transforms 中給出的算法。
[0031]所述SR, MZ, GBVS 算法米用 Saliency Detection:A Spectral ResidualApproach, Contrast-based image attention analysis by using fuzzy growing,和Graph-based visual saliency 中提出的 SR, MZ, GBVS 算法。
[0032]所述緊密度特征的米用Mult1-scale Saliency Detection Using Random Walkwith Restart中提出的緊密度特征的計算方法。
[0033]所述Leung-Malik 濾波器算法米用 Salient Object Detection:ADiscriminative Regional Feature Integration Approach 中的 Leung-Malik 濾波器算法。
[0034]所述水平線檢測算法米用Modeling the shape of the scene:A holisticrepresentation of the spatial envelope 中水平線檢測算法。
[0035]所述人臉檢測算法采用Robust real-time object detection中的人臉檢測算法。
[0036]所述目標銀行特征提取算采用Object Bank: A High-Level ImageRepresentation for Scene Classification and Semantic Feature Sparsification 中提出的目標銀行特征提取算法。
[0037]有益效果
[0038]本發(fā)明涉及一種利用深度學習進行自然圖像中顯著區(qū)域的檢測方法,在訓練階段,首先在自然圖像數(shù)據(jù)庫上選取一定數(shù)量的圖片提取基本特征,構成訓練樣本,然后利用深度學習模型對已提取特征進行再學習,從而得到更抽象更有區(qū)分能力的增強型高級特征,最后用學習到的特征訓練分類器。在測試階段,對于任意一幅測試圖像,首先提取基本特征,然后利用訓練好的深度模型,提取增強型高級特征,最后利用分類器進行顯著性與否的預測,并把每個像素點的預測值作為這點的顯著值。這樣我們就得到整幅圖像的顯著圖,顯著值越大,就越顯著。
[0039]本發(fā)明方法,通過提取一系列的底層,中層和高層特征構成訓練特征樣本集,然后利用深度學習算法提取增強型高級特征,實驗結果表明我們學習到的特征具有更高的區(qū)分性和魯棒性。本發(fā)明可以應用于復雜背景下自然圖像中多區(qū)域的顯著性檢測。該方法具有較高的檢測精度,相對于絕大部分的方法來說,具有明顯的優(yōu)勢。
【專利附圖】

【附圖說明】
[0040]圖1:本發(fā)明方法的基本流程圖。
[0041]圖2:不同方法在兩種數(shù)據(jù)庫上的ROC曲線,a:MIT數(shù)據(jù)庫上的ROC曲線,b:Toronto數(shù)據(jù)庫上的ROC曲線。
[0042]圖3:多種方法在多幅圖片上的顯著圖。【具體實施方式】
[0043]現(xiàn)結合實施例、附圖對本發(fā)明作進一步描述:
[0044]用于實施的硬件環(huán)境是:Intel Pentium2.93GHz CPU計算機、4.0GB內存,運行的軟件環(huán)境是:Matlab R2011b和Windows7。利用網上公布的MIT和Toronto數(shù)據(jù)庫進行我們的實驗,其中MIT數(shù)據(jù)庫包含1003幅自然圖像,Toronto數(shù)據(jù)庫包含120幅圖片。我們用Matlab軟件實現(xiàn)了本發(fā)明提出的方法。
[0045]本發(fā)明具體實施如下:
[0046]步驟I提取圖像數(shù)據(jù)的視覺特征:
[0047]本發(fā)明利用交叉驗證每次選取903幅圖像(最后一次為900幅)進行訓練,利用剩余的圖片進行測試。首先對訓練集中每一幅圖片進行37維特征的提取,下面分別介紹各個特征的提取方法及參數(shù)設置,其中所有的特征是基于對原始圖像下采樣到200*200的基礎上提取到的:
[0048].RGB通道:提取圖像三個通道的特征值。
[0049].LAB通道:從RGB顏色通道轉換到LAB空間,提取三個通道的特征值。
[0050]?顏色直方圖:設置LAB空間灰度級個數(shù)參數(shù)bin=[8,16,16],利用LAB三個通道的特征值,分別計算在相應參數(shù)下的灰度分布直方圖,然后融合三個直方圖得到LAB直方圖。圖像轉換到HSV空間,計算在bin=[8,8]下,分別計算H和S通道在相應bin參數(shù)下的
直方圖。
`[0051]?方向,亮度,顏色對比度特征:利用文章A Model of Saliency-Based VisualAttention for Rapid Scene Analysis 提出的 ITTI 算法,提取三類特征。
[0052]?可控金字塔子頻帶特征:利用文章Filter Design Technique for SteerablePyramid Image Transforms中給出的算法,計算在4個方向3個尺度下的特征。
[0053].SR, MZ, GBVS 特征:分別利用文章 Saliency Detection:A Spectral ResidualApproach, Contrast-based image attention analysis by using fuzzy growing,和Graph-based visual saliency中提出的SR, MZ, GBVS算法,計算圖像的顯著圖,并以此作為特征。
[0054]?緊密度特征:利用文章Mult1-scale Saliency Detection Using Random Walkwith Restart中提出的緊密度(Compactness)的計算方法,提取此特征。
[0055].LM濾波器最大響應特征:下采樣后的圖像用窗口為[5,5],偏差為0.5的的高斯低通濾波器平滑,然后利用文章Salient Object Detection:A DiscriminativeRegional Feature Integration Approach中采用的LM濾波器算法,得到此特征。
[0056]?中心偏置特征:計算采樣后圖像中各個像素點到圖像中心像素點的歐氏距離,然后歸一化到[0,1]之間。
[0057]?水平線檢測特征:利用文章 Modeling the shape of the scene:A holisticrepresentation of the spatial envelope 中提出的水平線檢測(Horizontal linedetector)算法,提取特征。
[0058]?人臉特征:利用文章Robust real-time object detection中給出的人臉檢測算法,提取人臉特征.[0059]?目標銀行特征:利用文章 0bject Bank:A High-Level Image Representationfor Scene Classification and Semantic Feature Sparsification 中提出的目標銀行(object bank)特征提取算法,提取行人,車,花朵,交通標志四種模板下的特征。
[0060]對一副圖像而言,經過以上的特征提取階段之后,得到的特征矩陣是[200,200,37],換而言之,每一個像素點對應一個37維的特征。
[0061]步驟2模型訓練:
[0062]本發(fā)明采用深度學習中的深度玻爾茲曼機(Deep Boltzmann Machine,簡稱DBM)模型,利用文章Efficient Learning of Deep Boltzmann Machine 中給出的DBM學習算法,構建包含兩個隱層的深度網絡。其中輸入層的節(jié)點數(shù)為37,第一隱層節(jié)點數(shù)為90,第二隱層節(jié)點數(shù)為60,輸出層節(jié)點個數(shù)為2.各層的訓練迭代次數(shù)可在100到300之間選擇,此外mean-field的執(zhí)行次數(shù)設置為5。對于樣本的選擇,根據(jù)每幅圖片Ground Truth,按照顯著值的大小排序,并在前5%中隨機選擇20個點作為正樣本,在后70%隨機選擇20個點作為負樣本,一共選擇903幅圖片用于訓練。此外,在訓練之前,本發(fā)明對樣本進行了一些預處理,即使特征具有零均值,并采用ZCA白化對訓練樣本進行去冗余。
[0063]步驟3預測測試圖像的顯著性區(qū)域:
[0064]對于一副測試圖像,首先要按照步驟I的說明,提取37維基本特征,其次,利用驟2中訓練好的模型,把提取出來的特征送入此模型。因為有兩個輸出節(jié)點,故應選擇在模型訓練時與正樣本標簽相對應的節(jié)點的值,作為該點的顯著值。最后對整幅圖像進行歸一化操作,并縮放到原始圖像的大小,即可得到此圖像的顯著圖。
[0065]步驟4R0C曲線的繪制和AUC的計算:
[0066]本發(fā)明采用接收者操作特征曲線(Receiver Operating Characteristic,簡稱ROC)和曲線下的面積(Area Under Curve簡稱AUC)進行評估。ROC曲線的橫軸表示負例錯分為正例的概率,縱軸表示正例分對`的概率,曲線下方和坐標軸之間的面積就是AUC (整個坐標軸間的面積為1),AUC越大,`檢測效果越好,模型預測能力越強。本發(fā)明與多類算法在MIT和Toronto數(shù)據(jù)庫上測試的AUC結果如下表格所示:
[0067]表1不同算法在兩種數(shù)據(jù)上測試得到的AUC值
[0068]
【權利要求】
1.一種基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于步驟如下: 步驟1、提取任意一幅待檢測圖像數(shù)據(jù)的視覺特征: 對任意一幅待檢測圖像數(shù)據(jù)進行下采樣,然后進行N維特征的提取: .1.對下采樣后的圖像數(shù)據(jù)提取圖像RGB通道的每個通道的特征值; .2.將下采樣后的圖像數(shù)據(jù)從RGB顏色空間轉換到LAB顏色空間,并提取LAB顏色空間三個通道中每個通道的特征值; 分別計算L通道在灰度級參數(shù)binl=8的直方圖HL,A通道在灰度級參數(shù)bin2=16時的直方圖HA,B通道在灰度級參數(shù)bin3=16時的灰度分布直方圖HB,利用下述公式計算HL,HA,和HB三個直方圖融合后的LAB顏色直方圖Q:
Q=(HL-1)*bin2*bin3+(HA-1)*bin3+HB+l. 3.將下采樣后的圖像數(shù)據(jù)從RGB顏色空間轉換到HSV顏色空間,分別計算H通道在灰度級參數(shù)bin=8和S通道在灰度級參數(shù)bin=8下的直方圖;. 4.采用ITTI算法提取圖像數(shù)據(jù)的方向,亮度,顏色對比度三類特征;. 5.計算下采樣后圖像數(shù)據(jù)在4個方向3個尺度下的可控金字塔子頻帶特征;. 6.采用SR,MZ,GBVS算法計算下采樣后圖像數(shù)據(jù)的顯著圖,并以顯著圖為顯著特征;.7.對下采樣后圖像數(shù)據(jù)提取緊密度特征;.8.將下采樣后圖像數(shù)據(jù)用窗口為[?,《],偏差為X的高斯低通濾波器平滑,然后采用的Leung-Malik濾波器算法,計算平滑后圖像的Leung-Malik濾波器最大響應特征;所述整數(shù)w為5~10 ;所述X為0.25~2.5 ;. 9.計算下采樣后圖像數(shù)據(jù)中各個像素點到圖像中心像素點的歐氏距離,然后歸一化到[0,I]之間得到中心偏置特征;. 10.采樣水平線檢測算法計算下采樣后圖像數(shù)據(jù)的水平線特征;. 11.采樣人臉檢測算法提取下采樣后圖像數(shù)據(jù)的人臉特征;. 12.采樣目標銀行特征提取算法提取下采樣后圖像數(shù)據(jù)的在行人,汽車,花朵,交通標志四種濾波模板下的特征; 將以上提取的特征構成特征矩陣[P,P,N],并將特征矩陣中每一維特征對應的二維矩陣[P,P]轉化為長度為P*P的列向量,由此得到新的二維特征矩陣的維數(shù)為[P*P,N];其中:P為下采樣后圖像的長或者寬; 步驟2:利用深度學習中的深度玻爾茲曼機模型,以步驟I得到的二維特征矩陣為輸入樣本,并提取深度玻爾茲曼機學習的高層特征,并送入softmax分類器進行分類,以分類器對每一個像素點預測為正樣本的概率值作為此像素點的顯著值,由此得到長度為P*P的顯著值列向量,縮放回采樣后測試圖像的大小,此采樣后測試圖像的顯著圖大小為[P,P] ?’最后對得到的顯著圖像進行歸一化操作,并縮放到采樣前測試圖像的尺度,得到此測試圖像的最終顯著圖; 所述深度玻爾茲曼機和softmax分類器訓練:隨機選取Z幅圖像樣本,參照步驟I的特征提取過程,對每幅下采樣后的樣本圖像進行特征提取,得到每幅樣本圖像的特征矩陣維數(shù)為[Py,Py,Ny];按照采樣后每幅樣本圖片的Ground Truth中像素點的顯著值大小進行由大到小的排序,在排序結果的前q%中隨機選擇數(shù)量在10~40之間的正樣本點,在排序結果的后k%隨機選取數(shù)量在10~40之間的負樣本點;其中q取值為5~20,k取值為30~,70 ;對于每一個隨機選取的樣本點來說,它對應N維的特征向量,每個樣本的長度為N,得到矩陣維度為[R,N]的樣本矩陣,R為樣本的數(shù)量;并對樣本矩陣采用ZCA白化對樣本矩陣進行去冗余處理,然后用處理后的樣本訓練具有多個隱層的深度玻爾茲曼機以進行高層特征學習,并將帶有標簽信息的高層特征送入softmax分類器進行訓練,并利用反向傳播算法反向調整深度玻爾茲曼機和softmax分類器的學習參數(shù),以此來實現(xiàn)模型較高的預測和分類能力。
2.根據(jù)權利要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述ITTI算法米用A Model of Saliency-Based Visual Attention for Rapid SceneAnalysis提出的ITTI算法。
3.根據(jù)權利要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述在4個方向3個尺度下的可控金字塔子頻帶特征的計算采用Filter DesignTechnique for Steerable Pyramid Image Transforms 中給出的算法。
4.根據(jù)權利要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述 SR, MZ, GBVS 算法米用 Saliency Detection:A Spectral Residual Approach,Contrast-based image attention analysis by using fuzzy growing,和 Graph-basedvisual saliency 中提出的 SR, MZ, GBVS 算法。
5.根據(jù)權利要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述緊密度特征的米用 Mult1-scale Saliency Detection Using Random Walk withRestart中提出的緊密度特征的計算方法。
6.根據(jù)權利要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述 Leung-Malik 濾波器算法米用 Salient Object Detection:A DiscriminativeRegional Feature Integration Approach 中的 Leung-Malik 濾波器算法。
7.根據(jù)權利 要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述水平線檢測算法采用Modeling the shape of the scene:A holisticrepresentation of the spatial envelope 中水平線檢測算法。
8.根據(jù)權利要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述人臉檢測算法采用Robust real-time object detection中的人臉檢測算法。
9.根據(jù)權利要求1所述基于深度學習的數(shù)據(jù)圖像中顯著區(qū)域的檢測方法,其特征在于:所述目標銀行特征提取算米用 Object Bank:A High-Level Image Representation forScene Classification and Semantic Feature Sparsification 中提出的目標銀行特征提取算法。
【文檔編號】G06K9/66GK103810503SQ201310739026
【公開日】2014年5月21日 申請日期:2013年12月26日 優(yōu)先權日:2013年12月26日
【發(fā)明者】韓軍偉, 聞時鋒, 張鼎文, 郭雷 申請人:西北工業(yè)大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
枝江市| 高淳县| 焉耆| 勃利县| 嘉黎县| 思南县| 修水县| 湘阴县| 岳池县| 闸北区| 工布江达县| 德惠市| 孝感市| 中方县| 宾阳县| 阿图什市| 格尔木市| 潮安县| 全南县| 策勒县| 托里县| 五寨县| 安义县| 衡阳县| 宜君县| 镇坪县| 宁都县| 驻马店市| 黄大仙区| 巧家县| 永昌县| 于都县| 吴忠市| 芦溪县| 陵水| 万载县| 多伦县| 朝阳县| 读书| 开鲁县| 安平县|