本發(fā)明涉及數(shù)字圖像處理
技術(shù)領(lǐng)域:
,具體涉及一種基于補充文本特征的場景圖像分類方法。
背景技術(shù):
:圖像分類作為圖像理解的基礎,在計算機視覺領(lǐng)域扮演著重要的角色。雖然人們在特征提取和訓練方面做了很多努力,取得了很大進步,但是目前來看仍沒有統(tǒng)一的最好的適用于所有圖像的分類方法。圖像分類中,其中一個最為流行的就是視覺詞袋模型(Bag-of-Word),該模型是一種基于統(tǒng)計模型的圖像分類模型,其目的是得到更具表現(xiàn)力的圖像特征表示。該模型中應用最為廣泛的圖像特征是基于圖像文本信息的特征,如SIFT、HOG等。提取到圖像的特征后,需要利得到的局部特征構(gòu)建視覺字典,然后用構(gòu)造的字典把提取到的特征進行映射得到圖像的特征表示,作為詞袋模型的輸出特征用于圖像分類和檢索。傳統(tǒng)的視覺詞袋模型中,提取的描述子特征通常為SIFT等文本特征,該特征主要集中描述目標的某些特定的細節(jié),往往容易忽略圖像中的顏色、形狀、邊界等信息。而這些信息在圖像分類中也是不可缺少的一部分,如果沒有這些信息基于詞袋模型的圖像分類可能就會忽略圖像之間的細微差異從而導致最終的圖像特征變現(xiàn)了不足,影響圖像分類的效果。技術(shù)實現(xiàn)要素:為克服現(xiàn)有技術(shù)的不足,本發(fā)明旨在:解決視覺詞袋模型中由于文本特征信息缺失而導致的圖像特征辨別力下降最終影響分類結(jié)果的問題,提出一種對文本特征進行補充的方法用于圖像分類。SIFT等文本特征主要是基于圖像興趣點提取的一種局部特征,該特征容易缺失圖像中的顏色、形狀、邊界等信息。因此我們提出一種具體的補充方法,該方法沒有明顯增加計算量的同時,將圖像的顏色、形狀和邊界特征作為文本特征的補充與其融合,并將融合后的補充特征用于視覺字典構(gòu)建和特征編碼,從而提高圖像特征的辨別力,提高分類準確率。本發(fā)明采用的技術(shù)方案是,基于補充文本特征的圖像分類方法,步驟如下:(1)分別提取數(shù)據(jù)集中圖像的SIFT特征、顏色特征、形狀和邊界特征,并將顏色、形狀和邊界特征作為補充信息融入到SIFT特征中,得到補充的文本特征;(2)從補充的文本特征中隨機選取200000個通過K-奇異值分解方法K-SVD訓練得到字典B;(3)通過學習到的字典B,利用正交匹配追蹤法對單幅圖像的所有的文本特征X進行稀疏編碼,得到稀疏特征向量C;(4)對稀疏征進行空間最大值匯聚,并將匯聚后特征進行歸一化處理得到圖像的特征向量F;(5)將圖像特征向量F送入線性SVM分類器,分別進行訓練和測試得到圖像分類結(jié)果。步驟1具體為:(1.1)將每幅圖像以8像素為間隔,劃分為16×16的圖像塊,并求出圖像塊內(nèi)每個像素點的梯度大小和梯度方向;(1.2)計算每4×4像素的圖像塊內(nèi)每個像素在8個方向的向量和,其中8個方向分別為0度,45度,90度,135度,180度,225度,270度,315度,得到128維的SIFT特征向量,16×16的圖像塊內(nèi)共有16個這樣的特征向量,該特征作為圖像基本的文本特征;(1.3)將圖像轉(zhuǎn)換到HSV顏色空間,并將原圖像塊劃分為4×4的網(wǎng)格,在每個網(wǎng)格內(nèi)分別計算三個顏色通道的均值和標準差,得到96維的特征,即圖像的顏色特征,作為文本特征的補充信息;(1.4)利用主成分分析法對顏色特征進行降維,降維到文本特征維度的一半;(1.5)利用基于局部二值模式的匹配核函數(shù)提取圖像塊緊湊的低維特征其中P和Q表示兩個不同的圖像塊,a和a′分別表示兩個圖像塊中的像素,s(a)是以a為中心的3×3領(lǐng)域內(nèi)像素值的標準差,∈s是一個數(shù)值很小的常數(shù),b(a)是一個用來二值化a周圍的局部窗口中像素差值的二元列向量,標準化的線性核用來衡量每個局部二值模式的貢獻,高斯核函數(shù)kb(b(a),b(a′))=exp(-γb‖b(a)-b(a′)‖2)用來測量兩個局部二值模式之間的形狀相似性,高斯位置核函數(shù)kp(a,a′)=exp(-γp‖a-a′‖2)用來測量兩個像素點之間的空間距離;(1.6)利用核主成分分析法對低維特征進行降維,維度同樣選取為64維,得到可以有效獲取圖像局部形狀和邊界信息的特征;(1.7)將顏色、形狀和邊界信息作為補充的信息與SIFT特征進行融合,得到維度為256的補充文本特征;步驟2具體為:(2.1)從數(shù)據(jù)集中圖像所有的補充文本特征中隨機選取200000個特征,每一特征均為256維,200000個圖像塊可以構(gòu)成一個256×200000的矩陣,矩陣的每一列代表一個補充的文本特征向量;(2.2)從200000個圖像塊中隨機選取512個作為初始的字典,則初始字典可以用一個256×512的矩陣表示;(2.3)用K-SVD方法訓練字典,即求解目標函數(shù):其中K為稀疏度,這里設為5,ci表示編碼C的第i列。得到字典的步驟如下:(2.3.1)將字典固定,通過正交匹配追蹤法求解出每一個yi對應的稀疏表示ci,其中i的取值范圍為1—200000;(2.3.2)計算殘差,并選取對應使用字典的第k列的索引集合的殘差項,對殘差項進行奇異值分解,得到奇異值分解矩陣,并其中得到256×256的酉矩陣;(2.3.3)用256×256的酉矩陣第一列更新字典的第k列;(2.3.4)反復迭代,訓練得到最終的字典,這里迭代次數(shù)設為50。步驟3,具體為:(3.1)給定字典B,編碼過程就是求解下式的過程:(3.2)第一次迭代,選擇輸入數(shù)據(jù)x作為當前殘差,正交匹配追蹤算法選擇與當前殘差最佳對應的視覺單詞;(3.3)將x正交映射到前面選擇的視覺單詞上,并重新計算殘差;(3.4)反復迭代直到滿足稀疏度K后停止,得到稀疏編碼向量。步驟4具體為:(4.1)對整幅圖像中所有的補充文本特征,求其各維度的最大值,得到一個512維度的特征向量;(4.2)把整幅圖像劃分為4個圖像塊,分別求每個圖像塊中各圖像特征在各維度的最大值,得到4個512維度的特征向量;(4.3)把整幅圖像劃分為16個圖像塊,分別求每個圖像塊中各圖像特征在各維度的最大值,得到16個512維度的特征向量;(4.4)將(4.1)步驟到(4.3)產(chǎn)生的各單元特征向量分別進行歸一化處理:Fs為各單元得到的匯聚特征,S為單元數(shù),‖F(xiàn)s‖p為p范數(shù);(4.5)將得到的21個單元的歸一化特征進行連接,得到圖像的特征表示。步驟5具體為:(5.1)隨機從數(shù)據(jù)集的每一類圖像中選取60張圖像作為該類的訓練樣本,剩余圖像作為該類的測試樣本;(5.2)將步驟(5.1)選取的100個圖像的特征向量送入線性SVM分類器中進行訓練,得到訓練好的SVM分類器;(5.3)將步驟(5.1)選取的測試樣本送入步驟(5.2)訓練好的SVM分類器中,得到圖像的分類結(jié)果。本發(fā)明的特點及有益效果是:1.本文方法將圖像中的顏色、形狀和邊界信息作為補充的圖像信息,融入初始的文本特征中,彌補了文本特征信息缺失的問題,提高了圖像特征的表現(xiàn)力。2.本文方法加入的補充信息都是經(jīng)降維處理的,因此補充信息的加入不會明顯增加計算量;3.本文方法提取圖像中的有效信息并通過有效的融合方法,在沒有增加運算復雜度的同時增加了特征的辨別力,提高了圖像分類準確率。附圖說明:圖1是本文基于補充文本特征的圖像分類方法的流程圖。圖2是本文實驗數(shù)據(jù)庫部分圖像。圖3圖像空間金字塔劃分結(jié)構(gòu)圖。具體實施方式提出了一種基于補充文本特征的圖像分類方法,將圖像中的形狀、邊界和顏色信息作為補充信息融合在初始的SIFT文本特征中,然后進行字典的構(gòu)建和特征編碼,得到有效的圖像表示,提高了圖像分類的準確率。本方法的基本思路是:利用圖像中的形狀、邊界和顏色信息對基本的文本特征進行補充,通過將這些信息融合在文本特征中來解決文本特征信息缺失的問題,從而在后續(xù)特征學習過程中提高特征的表現(xiàn)力,提高最終圖像分類的準確率。具體的方法步驟如下:(6)分別提取數(shù)據(jù)集中圖像的SIFT特征、顏色特征、形狀和邊界特征,并將顏色、形狀和邊界特征作為補充信息融入到SIFT特征中,得到補充的文本特征;(7)從補充的文本特征中隨機選取200000個通過K-奇異值分解方法(K-SVD)訓練得到字典B;(8)通過學習到的字典B,利用正交匹配追蹤法對單幅圖像的所有的文本特征X進行稀疏編碼,得到稀疏特征向量C;(9)對稀疏征進行空間最大值匯聚,并將匯聚后特征進行歸一化處理得到圖像的特征向量F;(10)將圖像特征向量F送入線性SVM分類器,分別進行訓練和測試得到圖像分類結(jié)果。通過實驗比較表明,本方法相比現(xiàn)有同類的圖像分類方法具有更好的分類效果。本實驗采用OxfordFlower-17數(shù)據(jù)集,數(shù)據(jù)集包括17類花的圖像,每一類別80張,張圖像具有較大的尺度變化、拍攝角度變化和光照變化。每一類訓練圖像分別隨機取60張進行訓練,剩余圖像作為測試圖像,分類結(jié)果取10次分類結(jié)果的平均值。用本方法與其他方法在OxfordFlower-17數(shù)據(jù)集上進行比較,結(jié)果如表1所示。表1本方法與其他方法在OxfordFlower-17數(shù)據(jù)集上比較結(jié)果方法平均分類準確率Gehler[1]85.5%LLC[2]88.24%本文方法89.81%由表中結(jié)果可以看出,在同樣的實驗參數(shù)下,本方法在OxfordFlower-17數(shù)據(jù)集上的分類準確率要高于文章[1][2]中的方法,且分別高出4.3%和1.6%。與[1]中方法比較,均為結(jié)合了多個特征的圖像分類,但是本方法的準確率更高,說明本方法選擇的補充信息增加了文本特征的表現(xiàn)力,通過特性學習得到的圖像特征更具辨別力;與[2]方法比較,本方法增加了文本特征的補充信息,但是并沒有明顯增加計算量,分類準確率得到了提升,說明本方法的有效性和可行性。[1]GehlerP,NowozinS.Onfeaturecombinationformulticlassobjectclassification[C]//ComputerVision,2009IEEE12thInternationalConferenceon.IEEE,2009:221-228。[2]WangJ,YangJ,YuK,etal.Locality-constrainedlinearcodingforimageclassification[C]//ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010:3360-3367。為了使本方法的方案及優(yōu)點更加清楚明白,結(jié)合附圖,對本方法進行具體的說明:步驟1,分別提取數(shù)據(jù)集中圖像的SIFT特征、顏色特征、形狀和邊界特征。(1.1)將每幅圖像以8像素為間隔,劃分為16×16的圖像塊,并求出圖像塊內(nèi)每個像素點的梯度大小和梯度方向;(1.2)計算每4×4像素的圖像塊內(nèi)每個像素在8個方向的向量和,其中8個方向分別為0度,45度,90度,135度,180度,225度,270度,315度,得到128維的SIFT特征向量,16×16的圖像塊內(nèi)共有16個這樣的特征向量,該特征作為圖像基本的文本特征;(1.3)將圖像轉(zhuǎn)換到HSV顏色空間,并將原圖像塊劃分為4×4的網(wǎng)格,在每個網(wǎng)格內(nèi)分別計算三個顏色通道的均值和標準差,得到96維的特征,即圖像的顏色特征,作為文本特征的補充信息;(1.4)利用主成分分析法對顏色特征進行降維,降維到文本特征維度的一半;(1.5)利用基于局部二值模式的匹配核函數(shù)提取圖像塊緊湊的低維特征其中P和Q表示兩個不同的圖像塊,a和a′分別表示兩個圖像塊中的像素,s(a)是以a為中心的3×3領(lǐng)域內(nèi)像素值的標準差,∈s是一個數(shù)值很小的常數(shù),b(a)是一個用來二值化a周圍的局部窗口中像素差值的二元列向量,標準化的線性核用來衡量每個局部二值模式的貢獻,高斯核函數(shù)kb(b(a),b(a′))=exp(-γb‖b(a)-b(a′)‖2)用來測量兩個局部二值模式之間的形狀相似性,高斯位置核函數(shù)kp(a,a′)=exp(-γp‖a-a′‖2)用來測量兩個像素點之間的空間距離。(1.6)利用核主成分分析法對低維特征進行降維,維度同樣選取為64維,得到可以有效獲取圖像局部形狀和邊界信息的特征;(1.7)將顏色、形狀和邊界信息作為補充的信息與SIFT特征進行融合,得到維度為256的補充文本特征。步驟2,從補充的文本特征中隨機選取200000個通過K-奇異值分解方法(K-SVD)訓練得到字典B。(2.1)從數(shù)據(jù)集中圖像所有的補充文本特征中隨機選取200000個特征,每一特征均為256維,200000個圖像塊可以構(gòu)成一個256×200000的矩陣,矩陣的每一列代表一個補充的文本特征向量;(2.2)從200000個圖像塊中隨機選取512個作為初始的字典,則初始字典可以用一個256×512的矩陣表示;(2.3)用K-SVD方法訓練字典,即求解目標函數(shù):其中K為稀疏度,這里設為5,ci表示編碼C的第i列。得到字典的步驟如下:(2.3.1)將字典固定,通過正交匹配追蹤法求解出每一個yi對應的稀疏表示ci,其中i的取值范圍為1—200000;(2.3.2)計算殘差,并選取對應使用字典的第k列的索引集合的殘差項,對殘差項進行奇異值分解,得到奇異值分解矩陣,并其中得到256×256的酉矩陣;(2.3.3)用256×256的酉矩陣第一列更新字典的第k列;(2.3.4)反復迭代,訓練得到最終的字典,這里迭代次數(shù)設為50。步驟3,通過學習到的字典B,利用正交匹配追蹤法對單幅圖像的所有的文本特征X進行稀疏編碼,得到稀疏特征向量C。(3.1)給定字典B,編碼過程就是求解下式的過程:(3.2)第一次迭代,選擇輸入數(shù)據(jù)x作為當前殘差,正交匹配追蹤算法選擇與當前殘差最佳對應的視覺單詞;(3.3)將x正交映射到前面選擇的視覺單詞上,并重新計算殘差;(3.4)反復迭代直到滿足稀疏度K后停止,得到稀疏編碼向量。步驟4,如圖3所示對圖像進行空間金字塔劃分,并對得到的稀疏征進行空間最大值匯聚,將匯聚后特征進行歸一化處理得到圖像的特征向量F。(4.1)對整幅圖像中所有的補充文本特征,求其各維度的最大值,得到一個512維度的特征向量;(4.2)把整幅圖像劃分為4個圖像塊,分別求每個圖像塊中各圖像特征在各維度的最大值,得到4個512維度的特征向量;(4.3)把整幅圖像劃分為16個圖像塊,分別求每個圖像塊中各圖像特征在各維度的最大值,得到16個512維度的特征向量;(4.4)將(4.1)步驟到(4.3)產(chǎn)生的各單元特征向量分別進行歸一化處理:Fs為各單元得到的匯聚特征,S為單元數(shù),這里S=21,‖F(xiàn)s‖p為p范數(shù),這里p取2;(4.5)將得到的21個單元的歸一化特征進行連接,得到圖像的特征表示。步驟5,將圖像特征向量F送入線性SVM分類器,分別進行訓練和測試得到圖像分類結(jié)果。(5.1)隨機從數(shù)據(jù)集的每一類圖像中選取60張圖像作為該類的訓練樣本,剩余圖像作為該類的測試樣本;(5.2)將步驟(5.1)選取的100個圖像的特征向量送入線性SVM分類器中進行訓練,得到訓練好的SVM分類器;(5.3)將步驟(5.1)選取的測試樣本送入步驟(5.2)訓練好的SVM分類器中,得到圖像的分類結(jié)果。當前第1頁1 2 3