專(zhuān)利名稱(chēng):一種基于對(duì)稱(chēng)特性的圖像顯著區(qū)域檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,特別涉及一種圖像顯著區(qū)域的檢測(cè)方法。
背景技術(shù):
人類(lèi)視覺(jué)系統(tǒng)能夠快速有效地處理來(lái)自外界的大量視覺(jué)信息?;谶@樣的一個(gè)特點(diǎn),目前越來(lái)越多的研究者開(kāi)始寄希望于模擬視覺(jué)選擇性注意機(jī)制去完成各種圖像處理任務(wù),例如圖像識(shí)別,目標(biāo)跟蹤以及場(chǎng)景分析等。到目前為止,已有很多基于視覺(jué)選擇性注意機(jī)制提取顯著區(qū)域的模型,其中,最典型的模型是1998年Itti和Koch等人提出的一種自底向上的選擇性注意模型——Itti模型,具體可參見(jiàn)文獻(xiàn):L. Itti, C. Koch. Ε. Niebur. A model of saliency-based visual attention for rapid scene analysis. Pattern Analysis and Machine Intelligence, IEEE Transactions on,1998,20 (11) 1254-1259. 這種方法充分利用了濾波器的思想并且模擬了視覺(jué)生理機(jī)制中的感受野的中央外周機(jī)制機(jī)返回抑制機(jī)制,形成了一個(gè)擬生理結(jié)構(gòu)的計(jì)算模型。從整體來(lái)說(shuō),它基本完成了對(duì)初期視覺(jué)注意機(jī)制的建模,對(duì)于研究生理意義上的視覺(jué)選擇性注意機(jī)制有重要的意義。但是用該模型得到的顯著區(qū)域不太符合人眼注視的區(qū)域,得到的顯著區(qū)域不能完整的覆蓋目標(biāo),得到的區(qū)域僅僅是目標(biāo)的部分內(nèi)容,預(yù)測(cè)人眼注視區(qū)域的能力較差。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有的Itti模型檢測(cè)顯著區(qū)域存在的問(wèn)題,提出了一種基于對(duì)稱(chēng)特性的圖像顯著區(qū)域檢測(cè)方法。本發(fā)明的技術(shù)方案是一種基于對(duì)稱(chēng)特性的圖像顯著區(qū)域檢測(cè)方法,包括如下步驟Si.對(duì)目標(biāo)圖像建立多尺度圖像;S2.提取步驟Sl中得到的不同尺度圖像的時(shí)域?qū)ΨQ(chēng)特征,得到不同尺度下的時(shí)域?qū)ΨQ(chēng)圖,然后將不同尺度下的時(shí)域?qū)ΨQ(chēng)圖合并得到時(shí)域特征圖像;S3.提取步驟Sl中得到的不同尺度圖像的頻域?qū)ΨQ(chēng)特征,得到不同尺度下的頻域?qū)ΨQ(chēng)圖,然后將不同尺度下的頻域?qū)ΨQ(chēng)圖合并得到頻域特征圖像;S4.利用多特征圖合并策略合并步驟S2、S3得到的時(shí)域特征圖像和頻域特征圖像,得到時(shí)頻特征圖像,然后對(duì)時(shí)頻特征圖像進(jìn)行閾值處理,得到最終顯著圖。本發(fā)明的有益效果本發(fā)明首先對(duì)目標(biāo)圖像進(jìn)行處理,得到不同尺度的圖像,再分別提取不同尺度的圖像的頻域?qū)ΨQ(chēng)特征和時(shí)域?qū)ΨQ(chēng)特征,合并得到時(shí)頻特征圖像,進(jìn)而得到最終顯著圖。本發(fā)明將圖像的時(shí)域特征和頻域特征結(jié)合了起來(lái),共同完成圖像顯著區(qū)域的檢測(cè),本發(fā)明的檢測(cè)方法利用了對(duì)稱(chēng)特征在人眼注視過(guò)程中所起的作用,可以比較完整的檢測(cè)顯著目標(biāo),檢測(cè)到的圖像顯著區(qū)域更符合人眼注視的結(jié)果。
圖1是本發(fā)明基于對(duì)稱(chēng)特性的圖像顯著區(qū)域檢測(cè)方法流程示意圖。圖2是實(shí)施例一中采用本發(fā)明方法對(duì)人造圖像進(jìn)行檢測(cè)的顯著圖以及用其它兩種對(duì)稱(chēng)方法檢測(cè)所得的顯著圖。圖3是實(shí)施例二中采用本發(fā)明方法對(duì)自然圖像進(jìn)行檢測(cè)的顯著圖以及眼動(dòng)注視圖、背景技術(shù)中提到的Itti模型檢測(cè)所得到的顯著圖。
具體實(shí)施例方式下面結(jié)合附圖和具體的實(shí)施例對(duì)本發(fā)明做進(jìn)一步的闡述。本發(fā)明以現(xiàn)代生物學(xué)和生理學(xué)為基礎(chǔ),根據(jù)生理學(xué)研究結(jié)果當(dāng)人們注視外界環(huán)境時(shí),很容易被具有對(duì)稱(chēng)特征的物體所吸引,并且沿著對(duì)稱(chēng)軸的方向轉(zhuǎn)移。為此本發(fā)明首先根據(jù)圖像的時(shí)頻域特征,將圖像分別轉(zhuǎn)化為時(shí)域圖像和頻域圖像,并分別提取了不同尺度圖像的時(shí)域?qū)ΨQ(chēng)和頻域?qū)ΨQ(chēng)特征,從而得到更加符合人眼注意的顯著結(jié)果圖。下面以實(shí)施例一和實(shí)施例二為例進(jìn)行具體說(shuō)明。實(shí)施例一以一人造圖像的對(duì)稱(chēng)圖檢測(cè)為例。如圖2a所示,首先構(gòu)造一幅包含內(nèi)接正方形的圓的圖像,作為目標(biāo)圖像,圖像大小為181X181。具體檢測(cè)方法的流程如圖1所示,具體過(guò)程如下Si.對(duì)目標(biāo)圖像建立多尺度圖像。這里利用高斯金字塔模型建立多尺度圖像,提取圖像不同尺度下的信息,即對(duì)目標(biāo)圖像進(jìn)行逐級(jí)降采樣,在每一次采樣之后,對(duì)圖像進(jìn)行高斯平滑濾波,減小噪聲干擾。這里共進(jìn)行五次采樣,得到五個(gè)不同尺度圖像。具體的說(shuō),不同尺度下的高斯圖像可由目標(biāo)圖像與高斯核卷積得到,高斯核中的尺度因子控制著圖像被平滑的程度。S2.提取步驟Sl中得到的不同尺度圖像的時(shí)域?qū)ΨQ(chēng)特征,得到不同尺度下的時(shí)域?qū)ΨQ(chēng)圖,然后將不同尺度下的時(shí)域?qū)ΨQ(chēng)圖合并得到時(shí)域特征圖像。即計(jì)算步驟Sl中得到的五個(gè)不同尺度圖像的時(shí)域?qū)ΨQ(chēng)圖,這里利用各向同性對(duì)稱(chēng)算子對(duì)每一尺度下的圖像進(jìn)行處理,各項(xiàng)同性對(duì)稱(chēng)算子的半徑為10像素,然后將五個(gè)不同尺度下的時(shí)域?qū)ΨQ(chēng)圖利用插值的方法歸一到目標(biāo)圖像尺度,合并為一幅時(shí)域特征圖像。 各項(xiàng)同性對(duì)稱(chēng)算子具體可參考文獻(xiàn):D. Reisfeld, H. ffolfson. Y. Yeshurun. Context-free attentional operators :the generalized symmetry transform. International Journal of Computer Vision,1995,14(2) :119-130.S3.提取步驟Sl中得到的不同尺度圖像的頻域?qū)ΨQ(chēng)特征,得到不同尺度下的頻域?qū)ΨQ(chēng)圖,然后將不同尺度下的頻域?qū)ΨQ(chēng)圖合并得到頻域特征圖像。即計(jì)算步驟Sl中得到的五個(gè)不同尺度圖像的頻域?qū)ΨQ(chēng)圖,首先對(duì)五個(gè)不同尺度圖像進(jìn)行傅里葉變換,再利用相位對(duì)稱(chēng)算子處理頻域下每一尺度的圖像,然后將不同尺度下的頻域?qū)ΨQ(chēng)圖利用插值的方法歸一到目標(biāo)圖像尺度,合并為一幅頻域特征圖像。 相位對(duì)禾爾算子具體可參考文獻(xiàn):P. Kovesi,” Symmetry and Asymmetry From Local Phase, “ AI' 97,Tenth Australian Joint Conference on Artificial Intelligence. Proceedings-Poster Papers,1997,ppl85_190.S4.顯著圖的提取,即利用多特征圖合并策略合并步驟S2、S3得到的時(shí)域特征圖像和頻域特征圖像,得到時(shí)頻特征圖像,然后對(duì)時(shí)頻特征圖像進(jìn)行閾值處理,得到最終顯著圖。這里利用多特征圖合并策略中的全局增強(qiáng)法對(duì)時(shí)域特征圖像和頻域特征圖像進(jìn)行合并,得到時(shí)頻特征圖像。多特征圖合并策略和全局增強(qiáng)法具體可參考文獻(xiàn)羅四維.視覺(jué)感知系統(tǒng)信息處理理論.北京電子工業(yè)出版社,2006,113-118。對(duì)該結(jié)果圖進(jìn)行閾值處理,保留最顯著區(qū)域,得到最終顯著圖。所述的顯著圖是只保留整幅結(jié)果圖的3%的顯著區(qū)域。圖2為采用本發(fā)明方法對(duì)人造圖像進(jìn)行檢測(cè)的對(duì)稱(chēng)圖及與另外兩種對(duì)稱(chēng)算子所得對(duì)稱(chēng)圖的一組對(duì)比圖。其中2a.人造圖像,2b.采用各向同性對(duì)稱(chēng)算子所得的對(duì)稱(chēng)圖, 2c.采用相位對(duì)稱(chēng)算子所得的對(duì)稱(chēng)圖,2d.采用本發(fā)明方法檢測(cè)所得的對(duì)稱(chēng)。從圖中可以看出,單獨(dú)使用各項(xiàng)同性對(duì)稱(chēng)算子時(shí),不能有效檢測(cè)到圖像中邊緣;而單獨(dú)使用相位對(duì)稱(chēng)算子時(shí),實(shí)驗(yàn)結(jié)果中的偽邊緣效應(yīng)非常嚴(yán)重;本實(shí)施方法不僅可以有效的提取出圖像的邊緣輪廓,同時(shí)還可以抑制出現(xiàn)在相位對(duì)稱(chēng)圖中的偽邊緣,這也證明了該方法在圖像目標(biāo)提取及顯著區(qū)域檢測(cè)中的可行性。實(shí)施例二以一自然圖像的顯著區(qū)域檢測(cè)為例。本圖像以及眼動(dòng)注視圖均從Neil. D.B.Bruce等人提供的網(wǎng)上數(shù)據(jù)庫(kù)中下載得到。圖像大小均為681X511,其中眼動(dòng)注視圖是由20個(gè)被試自由觀看圖像得到的。具體檢測(cè)方法的流程圖如圖1所示,具體過(guò)程如下與實(shí)施例一相同,只是在步驟S2中,各項(xiàng)同性對(duì)稱(chēng)算子的半徑變?yōu)榱?像素。圖3為采用本發(fā)明方法對(duì)自然圖像進(jìn)行實(shí)際檢測(cè)所得的顯著圖以及采用背景技術(shù)中的Itti模型所得顯著圖、眼動(dòng)注視圖的效果對(duì)比圖組。其中3a.原始圖像,3b.人眼注視圖,3c.本發(fā)明方法檢測(cè)所得顯著圖,3d.采用背景技術(shù)中提到的Itti模型檢測(cè)所得的顯著圖。從圖中可以清楚的看出,采用本發(fā)明方法提取顯著區(qū)域時(shí),其結(jié)果更符合人眼注視的結(jié)果。本實(shí)施與利用其它特征提取顯著區(qū)域進(jìn)行定量比較所得的性能評(píng)估指標(biāo)ROC面積分別為方向0. 6654,亮度0. 6788,顏色0. 7295,各向同性對(duì)稱(chēng)0. 7365 ;本實(shí)施中得到的性能評(píng)估指標(biāo)ROC面積為0. 7480。性能評(píng)估指標(biāo)ROC面積越大表明該模型預(yù)測(cè)人眼注視的能力越強(qiáng),當(dāng)達(dá)到1時(shí),性能最好。本發(fā)明設(shè)計(jì)了一種模擬視覺(jué)選擇性注意機(jī)制的顯著性提取方法,利用了對(duì)稱(chēng)特征在人眼注視過(guò)程中所起的作用,結(jié)合了時(shí)域和頻域?qū)ΨQ(chēng)特征,有效地提取了圖像的顯著區(qū)域。本發(fā)明首先提取目標(biāo)圖像的不同尺度信息,之后將圖像轉(zhuǎn)化為頻域圖像,并在不同尺度下的時(shí)域圖像和頻域圖像上分別提取時(shí)域?qū)ΨQ(chēng)特征和頻域?qū)ΨQ(chēng)特征。其中,時(shí)域?qū)ΨQ(chēng)特征是將各項(xiàng)同性對(duì)稱(chēng)算子應(yīng)用在圖像中所得到的,而頻域?qū)ΨQ(chēng)特征是將相位對(duì)稱(chēng)算子應(yīng)用在圖像的頻域表示中所得到的,后將不同尺度下的時(shí)域、頻域?qū)ΨQ(chēng)圖合并為時(shí)域特征圖像和頻域特征圖像。最后,將兩幅特征圖像利用全局加強(qiáng)法歸一化合并后最終得到圖像的顯著圖。本發(fā)明的檢測(cè)方法根據(jù)外界不同的輸入來(lái)選擇不同的對(duì)稱(chēng)半徑,可有效完整的從復(fù)雜場(chǎng)景中提取圖像的顯著區(qū)域,從而預(yù)測(cè)人眼注視的區(qū)域。本領(lǐng)域的普通技術(shù)人員將會(huì)意識(shí)到,這里所述的實(shí)施例是為了幫助讀者理解本發(fā)明的原理,應(yīng)被理解為本發(fā)明的保護(hù)范圍并不局限于這樣的特別陳述和實(shí)施例。本領(lǐng)域的普通技術(shù)人員可以根據(jù)本發(fā)明公開(kāi)的這些技術(shù)啟示做出各種不脫離本發(fā)明實(shí)質(zhì)的其它各種具體變形和組合,這些變形和組合仍然在本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種基于對(duì)稱(chēng)特性的圖像顯著區(qū)域檢測(cè)方法,其特征在于,包括如下步驟51.對(duì)目標(biāo)圖像建立多尺度圖像52.提取步驟Sl中得到的不同尺度圖像的時(shí)域?qū)ΨQ(chēng)特征,得到不同尺度下的時(shí)域?qū)ΨQ(chēng)圖,然后將不同尺度下的時(shí)域?qū)ΨQ(chēng)圖合并得到時(shí)域特征圖像;53.提取步驟Sl中得到的不同尺度圖像的頻域?qū)ΨQ(chēng)特征,得到不同尺度下的頻域?qū)ΨQ(chēng)圖,然后將不同尺度下的頻域?qū)ΨQ(chēng)圖合并得到頻域特征圖像;54.利用多特征圖合并策略合并步驟S2、S3得到的時(shí)域特征圖像和頻域特征圖像,得到時(shí)頻特征圖像,然后對(duì)時(shí)頻特征圖像進(jìn)行閾值處理,得到最終顯著圖。
2.根據(jù)權(quán)利要求1所述的圖像顯著區(qū)域檢測(cè)方法,其特征在于,步驟Sl具體為利用高斯金字塔模型建立多尺度圖像。
3.根據(jù)權(quán)利要求1或2所述的圖像顯著區(qū)域檢測(cè)方法,其特征在于,步驟S2具體為利用各項(xiàng)同性對(duì)稱(chēng)算子提取時(shí)域?qū)ΨQ(chēng)特征。
4.根據(jù)權(quán)利要求3所述的圖像顯著區(qū)域檢測(cè)方法,其特征在于,步驟S3具體為利用相位對(duì)稱(chēng)算子提取頻域?qū)ΨQ(chēng)特征。
5.根據(jù)權(quán)利要求3所述的圖像顯著區(qū)域檢測(cè)方法,其特征在于,步驟S4所述的多特征圖合并策略為全局增強(qiáng)法。
6.根據(jù)權(quán)利要求3所述的圖像顯著區(qū)域檢測(cè)方法,其特征在于,步驟S2所述的各項(xiàng)同性對(duì)稱(chēng)算子的半徑為8-10像素。
7.根據(jù)權(quán)利要求3所述的圖像顯著區(qū)域檢測(cè)方法,其特征在于,步驟S2所述的合并具體為將不同尺度下的時(shí)域?qū)ΨQ(chēng)圖利用插值的方法歸一到目標(biāo)圖像尺度,合并為一幅時(shí)域特征圖像。
8.根據(jù)權(quán)利要求3所述的圖像顯著區(qū)域檢測(cè)方法,其特征在于,步驟S3所述的合并具體為將不同尺度下的頻域?qū)ΨQ(chēng)圖利用插值的方法歸一到目標(biāo)圖像尺度,合并為一幅頻域特征圖像。
全文摘要
本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,公開(kāi)了一種基于對(duì)稱(chēng)特性的圖像顯著區(qū)域檢測(cè)方法。針對(duì)現(xiàn)有的Itti模型檢測(cè)顯著區(qū)域存在的問(wèn)題,本發(fā)明的方法首先對(duì)目標(biāo)圖像進(jìn)行處理,得到不同尺度的圖像,再分別提取不同尺度的圖像的頻域?qū)ΨQ(chēng)特征和時(shí)域?qū)ΨQ(chēng)特征,合并得到時(shí)頻特征圖像,進(jìn)而得到最終顯著圖。本發(fā)明將圖像的時(shí)域特征和頻域特征結(jié)合了起來(lái),共同完成圖像顯著區(qū)域的檢測(cè),本發(fā)明的檢測(cè)方法利用了對(duì)稱(chēng)特征在人眼注視過(guò)程中所起的作用,可以比較完整的檢測(cè)顯著目標(biāo),檢測(cè)到的圖像顯著區(qū)域更符合人眼注視的結(jié)果。
文檔編號(hào)G06T5/00GK102222324SQ20111016357
公開(kāi)日2011年10月19日 申請(qǐng)日期2011年6月17日 優(yōu)先權(quán)日2011年6月17日
發(fā)明者李朝義, 李永杰, 陳麗霞 申請(qǐng)人:電子科技大學(xué)