專利名稱::一種快速的圖像序列特征顯著圖獲取方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于機(jī)器視覺和圖像處理
技術(shù)領(lǐng)域:
,具體涉及一種基于頻率域相位分析的圖像序列顯著圖獲取方法。技術(shù)背景隨著互聯(lián)網(wǎng)和IT相關(guān)技術(shù)的不斷發(fā)展,人類社會(huì)進(jìn)入信息時(shí)代,人們每天通過各種手段(網(wǎng)絡(luò)、電視、廣播等等)獲得大量的信息。據(jù)統(tǒng)計(jì),其中80%來源于圖像媒體,15%來源于語音。可見視覺信息是人類接收信息的主要手段,即圖像與視頻成了信息交流中最為重要的載體,也是蘊(yùn)含信息量最大的媒體。其理所當(dāng)然的成為當(dāng)今通信和計(jì)算機(jī)系統(tǒng)中一種重要的處理對(duì)象,如何從大量的視頻圖像信息中獲得有用信息,是數(shù)據(jù)挖掘中的關(guān)鍵。其次圖像與視頻信息攜帶了巨大的信息量,其傳播與存儲(chǔ)對(duì)網(wǎng)絡(luò)通信的速度與容量提出了更高的要求。其爆炸性增長讓已經(jīng)非常緊張的網(wǎng)絡(luò)帶寬與存儲(chǔ)資源變得日益不堪重負(fù)。為了減少圖像與視頻在傳輸和存儲(chǔ)中的資源消耗,盡管各種壓縮算法不斷被提出,也起到了一定的效果,但其越來越趨向于設(shè)計(jì)的極限而顯得力不從心。同時(shí)對(duì)于圖像中的目標(biāo)檢測(cè)、識(shí)別和跟蹤也是目前計(jì)算機(jī)視覺中十分重要的方面,它在軍事、航天和智能機(jī)器人等方面有廣泛的應(yīng)用價(jià)值,如何快速搜索到有用的目標(biāo)進(jìn)行跟蹤和識(shí)別,也是人們關(guān)心的問題。在這一背景下,人們更傾向于從另一個(gè)角度去解決以上問題——對(duì)人的視覺機(jī)能的研究和模擬。人對(duì)于視覺信息具有很強(qiáng)的去冗余的能力首先人眼視網(wǎng)膜中央凹的結(jié)構(gòu),使得人眼對(duì)視覺中央?yún)^(qū)域的分辨率較高,而周圍的分辨率逐漸降低;其次人腦只對(duì)視覺場(chǎng)景中有新穎信息的感興趣的部分分配較多的注意力[13][14][15],因而觀察也較為仔細(xì),而對(duì)其余位置并不"關(guān)注",這種資源優(yōu)化配置的機(jī)制為人眼和人腦節(jié)省了大量資源,同時(shí)對(duì)于運(yùn)動(dòng)的目標(biāo)和與場(chǎng)景中那些與它周邊明顯不同的區(qū)域眼睛也會(huì)特別關(guān)注,這是人的視覺能很快地搜索到目標(biāo)的原因。受此啟發(fā),把以上稱之為注意力選擇的機(jī)制[1][2][3],將這種機(jī)制應(yīng)用于圖像、視頻的有用信息的挖掘、目標(biāo)檢測(cè)、識(shí)別中,可節(jié)省其搜索時(shí)間,應(yīng)用于圖像和視頻的編解碼壓縮中,可在人眼能夠感受到的視覺質(zhì)量下降最少的情況下,大大減少圖像、視頻的容量大小,對(duì)緩解其傳輸、存儲(chǔ)的壓力將有很好的效果。要應(yīng)用以上注意力選擇機(jī)制就必須抽取圖像中人眼感興趣的區(qū)域,通常自然視頻場(chǎng)景中的顯著特征區(qū)域如強(qiáng)烈的顏色對(duì)比、形狀對(duì)比、運(yùn)動(dòng)變化和新穎物體的出現(xiàn)都將導(dǎo)致強(qiáng)烈的視覺刺激信號(hào),引起注意力的選擇。因此,對(duì)顯著區(qū)域的提取技術(shù)成為解決以上問題的關(guān)鍵,同時(shí)也是后續(xù)目標(biāo)識(shí)別與監(jiān)測(cè)的前提技術(shù)。對(duì)此,相關(guān)的研究持續(xù)了數(shù)十年,提出各種不同的模型[5][6][7]。但是,時(shí)至今日,它依然是機(jī)器視覺和圖像視頻處理領(lǐng)域中極具挑戰(zhàn)性的問題。基于靜態(tài)圖像的方法在過去的研究中取得了長足的進(jìn)步,其中包括Itti等人提出的一種自下而上(bottom-up)的處理模型,并以此開發(fā)出了一套0++視覺工具集~NVT(NeuromorphicVisionToolkit)[4],以下簡稱為NVT算法。此種方法從一定意義模擬了生物對(duì)于復(fù)雜場(chǎng)景的視覺處理,具有較好的顯著特征抽取結(jié)果和抗噪聲的能力,但也存在著計(jì)算成本高,速度慢并且顯著特征抽取結(jié)果依賴于參數(shù)的選擇等不足。最近Hou等人提出了一種基于傅立葉變換的殘差對(duì)自然場(chǎng)景分析方法SR(SpectralResidual)[8],這種算法有計(jì)算成本低,運(yùn)算速度快,結(jié)果不依賴于參數(shù)選取的優(yōu)點(diǎn),但是其抗噪聲能力差,并僅局限于抽取視頻圖像灰度特征而不考慮顏色信息,對(duì)彩色圖像顯著特征抽取效果差。同時(shí)以上幾種方法都只是針對(duì)于靜態(tài)圖像,對(duì)于帶有重要運(yùn)動(dòng)信息的圖像序列無法做出準(zhǔn)確的顯著特征抽取。當(dāng)前對(duì)于動(dòng)態(tài)場(chǎng)景的顯著特征抽取方法還是一個(gè)空白。在[|2]中提出的彩色圖像的超復(fù)數(shù)傅立葉變換的基礎(chǔ)之上,本發(fā)明提出了一種基于頻率域相位顯著特征抽取的圖像序列顯著圖獲取方法[9],簡稱為PQFT(PhasespectrumofQuaternionFourierTransform)算法。該方法把相位信息作為模擬人眼注意力選擇的依據(jù),以此來快速、準(zhǔn)確獲取原圖像顯著區(qū)域,此外該方法把圖像序列的時(shí)間信息和空間信息統(tǒng)一到四元數(shù)表示的圖像中,把對(duì)圖像顏色、形狀和運(yùn)動(dòng)的信息通道的運(yùn)算處理統(tǒng)一到對(duì)一個(gè)四元數(shù)表示的圖像的運(yùn)算處理,提高了運(yùn)算效率與計(jì)算效果??赏瑫r(shí)對(duì)于靜態(tài)圖像和動(dòng)態(tài)圖像的序列進(jìn)行處理,最終使得顯著特征抽取效果強(qiáng)于只支持靜態(tài)彩色圖像的NVT算法和只考慮靜態(tài)灰度圖像特征的SR算法,而運(yùn)算成本和運(yùn)算時(shí)間同SR相當(dāng),比NVT小很多,因而可使這項(xiàng)技術(shù)用于實(shí)時(shí)的處理。下面介紹與本發(fā)明相關(guān)的一些概念1.NVT算法簡介依特(Itti)、柯希(Koch)在1998年提出基于顯著性特征的注意力選擇模型[4],并在2001年度自然(Nature)上對(duì)該模型理論作了進(jìn)一步的完善[17]。這個(gè)注意力選擇模型是基于這樣的假設(shè)原始圖像輸入到模型后,通過多個(gè)通道的處理,考慮不同的尺度的分析和濾波的計(jì)算后獲得一個(gè)兩維的顯著特征映射圖,這個(gè)映射圖中幅度最強(qiáng)的區(qū)域部分,就為注意力選擇的焦點(diǎn),其次強(qiáng)的區(qū)域?yàn)榈诙x擇,以此類推得到數(shù)個(gè)顯著特征區(qū)域,它可以為注意力的分配提供很好的策略。它的基本模型如圖l所示輸入的靜態(tài)圖像先通過一個(gè)線性濾波器濾去圖像中的噪聲,然后并行的分為三個(gè)通道獲取圖像的顏色、亮度、和方位的信息,然后并行地送到金字塔狀的高斯低通濾波器^^中(Overcompletesteerablepyramids)[16],對(duì)輸入圖像進(jìn)行逐層低通濾波處理和降采樣,(具體見后面的介紹),產(chǎn)生一系列不同尺度的紅、藍(lán)、綠、黃四種顏色,亮度,以及四個(gè)方位(0度,45度,90度,135度)所對(duì)應(yīng)的兩維特征圖(9個(gè)尺度),呈金字塔狀輸出。然后分別對(duì)各個(gè)特征通道所對(duì)應(yīng)的不同尺度特征圖之間的"中心點(diǎn)-環(huán)繞區(qū)域"差異性的進(jìn)行計(jì)算(center-surrounddifferences)和歸一化,顏色通道獲得紅綠特征、藍(lán)黃特征各6幅特征映射圖(共12幅),亮度通道6幅特征映射圖,方位信息四個(gè)方向各6幅映射圖(共24幅),然后通過個(gè)尺度特征圖的合并以及歸一化,獲得顏色、亮度和方向三個(gè)輸入通道各自對(duì)應(yīng)的綜合特征圖。它的金字塔顏色和亮度信息是這樣獲得的假定視覺信息輸入為靜止的彩色圖像,通過二維金字塔形高斯濾波器對(duì)輸入圖像進(jìn)行逐層低通處理和降采樣,得到9個(gè)不同尺度的圖像,呈金字塔輸出[18],實(shí)現(xiàn)從l:l(第0層)到1:256(第8層)的尺度。設(shè)r,g和6分別代表輸入圖像的紅色、綠色和藍(lán)色通道,亮度信息/通過下式獲得/=0+g+6)/3(1)四個(gè)顏色通道紅、綠、藍(lán)、黃(i,G,5,F(xiàn))輸入分別通過以下式子獲取/=r—(g+6)/2G=g-(r+6)/27=(r+g)/2—|"g|/2—Z)(2)以上顏色通道輸出若有負(fù)值均設(shè)為O。假設(shè)^w為金字塔形高斯低通濾波器。通過這濾波器對(duì)/,及,G,B和y五個(gè)通道進(jìn)行處理,詳見文獻(xiàn)[16,17],設(shè)原始的五個(gè)通道的圖像為/。,i。,G。,5。,;r。,把它們通過低通濾波器濾波后,再用長、寬兩點(diǎn)取一點(diǎn)的方法取得減小尺度的低一個(gè)分辨率的圖像,然后再不斷地濾波和減小尺度,取得9個(gè)不同尺度的亮度信息/和四個(gè)顏色通道的金字塔圖像/。,iCT,Gff,5CT,i;,其中0"={0,1,2,...8}。方位信息是用濾波器來實(shí)現(xiàn)的,用不同尺度的嘉柏(Gabor)方向?yàn)V波『w(CT;e)對(duì)輸入圖像進(jìn)行處理得到輸出為(3)這里cre(O,1,2,...8}代表相應(yīng)的分辨率(尺度)的圖像層,^{0°,45°,90°,135°}對(duì)應(yīng)4個(gè)不同角度方向。而方向檢測(cè)的嘉柏(Gabor)濾波器『w是通過文獻(xiàn)[16]提出的帶有一組具有方向性的正弦波的拉普拉斯金字塔濾波器的調(diào)制得到。"中心點(diǎn)-環(huán)繞區(qū)域"的差異是求不同尺度圖像層(分辨率高和分辨率相對(duì)較低的兩層圖像)之間的差值。設(shè)c對(duì)應(yīng)經(jīng)濾波器后產(chǎn)生的不同尺度的圖像層,選取落在圖像ce{2,3,4}的像素點(diǎn)作為中心點(diǎn),而環(huán)繞區(qū)域是對(duì)應(yīng)的在s二c+3的圖像層,這里^£{3,4}。兩層之間的差值計(jì)算是通過把相對(duì)低分辨率的圖像層s拉伸放大到和高分辨率圖像層c同樣大小然后進(jìn)行逐點(diǎn)相減的運(yùn)算,這樣可以通過計(jì)算,生成一系列特征映射圖,實(shí)現(xiàn)對(duì)不同尺度的圖像層特征的抽取。在亮度信息通道總共6幅特征映射圖/(c,",其中ce(2,3,勻,s=c+3,5e{3,4};顏色通道中把紅色為中心點(diǎn)綠色為環(huán)繞區(qū)域,為12幅(對(duì)應(yīng)紅綠特征、藍(lán)黃特征各6幅)而方位通道有24幅特征映射圖。把三個(gè)通道的特征圖通過線性相加獲得最終的兩維的綜合特征映射圖(Saliencymap)。如同輸入圖像的"地理"特征映射,該特征映射圖輸出越強(qiáng)的區(qū)域,對(duì)應(yīng)于輸入圖像中越顯著越容易吸引注意力的區(qū)域。同時(shí),己經(jīng)分配注意力的顯著區(qū)域?qū)?huì)對(duì)它在特征映射圖的輸出進(jìn)行抑制,這樣注意力不會(huì)一直集中在最顯著的區(qū)域,而會(huì)按照顯著性依次關(guān)注個(gè)對(duì)應(yīng)區(qū)域。所有的特征都純粹地通過自下而上的方式形成顯著性的映射,最后在整幅輸入圖像中形成對(duì)應(yīng)的"地理"特征映射圖,從而得到輸入圖像的顯著圖。整個(gè)流程見圖l。該模型模仿生物視覺的自下而上的預(yù)處理過程,實(shí)現(xiàn)對(duì)視覺區(qū)域中最為顯著的區(qū)域的計(jì)算,在現(xiàn)有的計(jì)算機(jī)實(shí)現(xiàn)的注意力選擇模型中得到廣泛的應(yīng)用。但由于該模型算法復(fù)雜,計(jì)算成本高,運(yùn)算時(shí)間長。同時(shí)其運(yùn)算結(jié)果嚴(yán)重依賴于參數(shù)的選取(各種濾波器參數(shù),不同尺度綜合參數(shù),線性迭加參數(shù)等)并且只針對(duì)靜態(tài)圖像。2.SR算法簡介SR方法是2007年赫(Hou)提出的一種得到圖像的顯著圖的方法[8]。他們認(rèn)為,從信息論對(duì)編碼的要求來看,單幅圖像的信息/^藶像j可以看作由兩部分組成,即麟熟=邵纖教勸+//沐發(fā)鵬(5)其中/^先麥,/7^)為先驗(yàn)信息部分而/^新^^^i^新穎信息部分,而新穎信息的部分可能就是輸入圖像的顯著圖。同時(shí)SR發(fā)現(xiàn),對(duì)輸入圖像/(;c,力進(jìn)行二維傅立葉變換后,得到頻率域的振幅譜和相位譜為」(/)=iF(/(x,力)l,i5(/)=臟,g[/呵(F(/(x,力))/層/(F(/(x,力))](6)式(6)中的F為二維傅立葉變換,J(/)和尸(/)分別為圖像的振幅譜和相位譜。其頻率域的幅值v4(/)的對(duì)數(shù)形式為丄(/)-log04(/))經(jīng)過一個(gè)低通濾波器^(/)可以得到的S(/),如式(7)示:<formula>formulaseeoriginaldocumentpage8</formula>(7)赫(Hou)他們檢測(cè)很多圖像的5(/),發(fā)現(xiàn)幾乎所有圖像的B(/)都是類似的,這樣就可以把S(/)看作是圖像的先驗(yàn)信息部分,而把丄(/)看作是單幅圖像總的信息,于是就可以把7(/)=丄(/)-5(/)來表示圖像中殘留信息的部分,稱為殘留譜(spectralresidual)。而殘留譜正好表達(dá)了原圖像中的新穎信息具有顯著性。因此把殘留譜i(/)的指數(shù)作為頻率域的幅值,保留原來的相位譜,經(jīng)過傅立葉逆變換就可以恢復(fù)出原圖像顯著圖來。該方法的具體步驟為下1.用式(6)得到圖像的振幅譜J(/)和相位譜戶(/)2.讓l(/)二log04(/)),利用式(7)得到圖像的先驗(yàn)信息B(/)3.得到殘留譜=Z(/)-,新的振幅譜exp(7C0)4.原圖像顯著圖<formula>formulaseeoriginaldocumentpage8</formula>(8)(8)式中g(shù)Oc,力為濾波器,F(xiàn)爿為傅立葉逆變換。該方法得到的特征顯著圖的質(zhì)量可以與NVT得到的顯著圖相比,而且該算法計(jì)算速度快,運(yùn)算效率高,結(jié)果不依賴于參數(shù)的設(shè)定,可以實(shí)時(shí);但是該算法抗噪聲能力差,只利用了圖像灰度特征,卻忽略了圖像顏色等方面的信息,其效果不如NVT算法。同樣本算法也是只針對(duì)靜態(tài)的灰度圖像,不能處理彩色和動(dòng)態(tài)圖像。3.四元數(shù)簡單介紹11()1'111[12|:四元數(shù)(Quaternion)是1843年數(shù)學(xué)家漢密爾頓(Hamilton)創(chuàng)造的,由四個(gè)數(shù)為一組來表示一個(gè)三維或四為一體的數(shù)。數(shù)字從有理數(shù)到實(shí)數(shù)再到復(fù)數(shù),數(shù)字的擴(kuò)充就到頭了,復(fù)數(shù)是平面上一個(gè)點(diǎn),如何再繼續(xù)擴(kuò)充成空間中一個(gè)點(diǎn),Hamilton從三元數(shù)推廣到四元數(shù)來表示帶有旋轉(zhuǎn)的空間坐標(biāo)上的點(diǎn),他用兩個(gè)復(fù)數(shù)的組合得到超復(fù)數(shù)表示的四元數(shù),后期的數(shù)學(xué)家對(duì)四元數(shù)的運(yùn)算給出了很多法則。同時(shí)近年來由于在信息領(lǐng)域中往往碰到由多個(gè)因素決定的問題,四元數(shù)在信息領(lǐng)域尤其在圖像領(lǐng)域中的應(yīng)用開始發(fā)展起來,2007年在IEEE圖像處理期刊雜志上E11等人^,J提出用四元數(shù)的傅立葉變換來解彩色圖象的處理問題給本專利的發(fā)明有了很大啟發(fā),下面給出與本專利有關(guān)的四元數(shù)基本概念和運(yùn)算。1.四元數(shù)基本概念定義一個(gè)四元數(shù)可以用如下超復(fù)數(shù)的形式表示9="+W+C7'+^:,其中a,6,C,J是實(shí)數(shù),/,,A是復(fù)數(shù)運(yùn)算子。"為四元數(shù)的數(shù)量部分,也稱純量部分;6/+"+說為向量部分。它們滿足以下法則=/2=/=A:2=—1以及#==—=,汰=—,々'==—&所以四元數(shù)相乘不滿足乘法交換律。一個(gè)四元數(shù)的模和補(bǔ)可以表示為H=a/"2"2+C2W2,^"/-H模等于1的四元數(shù)被稱為單位四元數(shù),對(duì)于fl為零的單位四元數(shù)稱為單位純四元數(shù)。2.四元數(shù)的極數(shù)形式任何的四元數(shù)都可以表示為極數(shù)形式《=|M|e"、其中IM為四元數(shù)的模即幅值。根據(jù)歐拉公式,=cos0+//sin0,其中為單位純四元數(shù),稱為四元數(shù)的本征軸(dgenaxis),如《=a+W+g'+說,則//=(&/+q/+說)/+c2+c/2。<z>是四元數(shù)的本征相角(eigenangle)cos-=sin-=+c2+c2/||^|,-e[O,TT]。3.四元數(shù)的凱萊-狄克森(Cayley-Dickson)形式與偶對(duì)(symplectic)形式任意四元數(shù)《-"+W+g'+W,可以重寫為凱萊-狄克森形式9=」+場(chǎng)',其中」=a+6/,5=c+d,即《二0+W)+(c+^X/。按照以上思想可以把g重寫為偶對(duì)形式《=爿'+57/2,j'=a'+67v5^c'+^Vv其中^,/^為兩個(gè)單位純四元數(shù),且^丄/v4.四元數(shù)圖像傅立葉變換如果一幅圖像/的每個(gè)像素的值用四元數(shù)來表示,其離散傅立葉變換為v]=JJ]/M)+(""/W))/(",附)(丄0)V層m=0"=。其中A為單位純四元數(shù),1,/(",w)表示原始四元數(shù)圖像第n行m列的四元數(shù)值。M表示圖像的寬度,N表示圖像的高度。F[w,v]表示頻率域第u行v列的取值。四元數(shù)圖像的傅立葉逆變換為=yy,2一/m)+(附師,,v)(ii)四元數(shù)圖像快速傅立葉變換算法[12]:1)給定四元數(shù)圖像/(",w),重寫為四元數(shù)偶對(duì)形式/(",/m)=+/2(",/n)/i2(12)其中/(W,W)二d(",W)+A"'2(",W)//,,/2(",m)二r2,(",W)+r2,2(W,m)A(13)2)建立等效復(fù)數(shù)圖像,這一步只是簡單的把(13)中的M改寫為/乂'(,附)=ru(",m)+"2(",附)/,/2'(",m)=r2!(",附)+r22(",附)/對(duì)/(",w)和/20,w)進(jìn)行二維復(fù)數(shù)傅立葉變換得到(14)[v,w]=+2[v,w]/,F(xiàn)2'[v,w3)將(15)中的/改寫為/^得到(15)A[v,w]=i(,[v,w]+i(2[v,w]/^,F(xiàn)2[v,w]![V,W]+2[V,W]//,(16)最后利用式(9)得到完整頻率域四元數(shù)形式為:_F[v,w]=fJ[v,w]+F2[v,w]//:(17)四元數(shù)圖像快速傅立葉逆變換同上類似,只是把第2步中的二維復(fù)數(shù)傅立葉變換改為二維復(fù)數(shù)傅立葉逆變換。1.R.Fergus,P.Perona,andA.Zisserman.Objectclassrecognitionbyunsupervisedscale-invariantlearning.Proc.CVPR,2,2003.2.TreismanandG.Gelade.AFeature-IntegrationTheoryofAttention.CognitivePsychology,12(1):97-136,1980.3.J.Wolfe.GuidedSearch2.0:ARevisedModelofGuidedSearch.PsychonomicBulletin&Review,1(2):202—238,1994.4.L.Itti,C.Koch,E.Niebur,etal.AModelofSaliency-BasedVisualAttentionforRapidSceneAnalysis.IEEETransactions,onPAMI,20(11):1254—1259,1998.5.R.Rensink.Seeing,sensing,andscrutinizing.VisionResearch,40(10-12》1469—87,2000.6.D.SrandC.Koch,Modelingattentiontosalientproto陽objects.NeuralNetworks.19,1395-1407,20067.D.Walther,L.Itti,M.Riesenhuber,T.Poggio,andC.Koch.AttentionalSelectionforObjectRecognition—aGentle^Vay.LectureNotesinComputerScience,2525(1):472479,2002.8.X.HouandLZhang,SaliencyDetection:ASpectralResidualApproach,Proc.CVPR,9.K.Castleman,DigitalImageProcessing.Prentice-Hall,NewYork,1996,10.T.EllandS.Sangwin,HypercomplexFourierTransformsofColorImages,IEEETransactionsonImageProcessing,16(1):22-35,200711.T.A.Ell,HypercomplexSpectralTransforms,Ph.D.dissertation,Univ.Minnesota,Minneapolis,1992.12.S.J.Sangwine,Fouriertransformsofcolourimagesusingquaternion,orhypercomplex:參考文獻(xiàn)2007.numbers,Electron.Lett,vol.32,no.21,pp.1979—1980,Oct.1996.'13.S.Engel,X.Zhang,andB.Wandell,ColourTuninginHumanVisualCortexMeasuredWithFunctionalMagneticResonanceImaging,Nature,vol.388,no.6,637,pp.68—71,My1997.14.MI.PosnerandY.Cohen,ComponentsofVisualOrienting,H.BoumaandD.G.Bouwhuis,eds.,AttentionandPerformance,vol.10,pp.531—556.Hilldale,N丄Erlbaum,1984.15.J.Wolfe.GuidedSearch2.0:ARevisedModelofGuidedSearch.PsychonomicBulletin&Review,1(2):202—238,1994.16.H.Greenspan,S.Belongie,R.Goodman,P.Perona,S.Rakshit,andC.H.Anderson,"OvercompleteSteerablePyramidFiltersandRotationInvariance,"Proc.IEEEComputerVisionandPatternRecognition,pp.222-228,Seattle,Wash.,June1994.17.L.IttiandC.Koch,"Computationalmodelingofvisualattention,,'NatureNeurosci.Rev.,vol.21,pp.314-329,2001.18.H.Greenspan,S.Belongie,R.Goodman,P,Perona,S.Rakshit,andC.H.Anderson,"OvercompleteSteerablePyramidFiltersandRotationInvariance,"Proc.IEEEComputerVisionandPatternRecognition,pp.222-228,Seattle,Wash.,June1994.
發(fā)明內(nèi)容本發(fā)明的目的在于提出一種提取圖像序列特征顯著圖的方法,用于提取場(chǎng)景中人眼感興趣的目標(biāo)區(qū)域,進(jìn)而提取顯著物體。雖然己有的NVT算法和SR算法都在一定程度上做到了這一點(diǎn),但兩者都存在一定的局限性,有各自的不足與缺陷。本發(fā)明正是針對(duì)以上不足,提出了一種新的利用四元數(shù)運(yùn)算,基于圖像相位信息來獲取圖像顯著圖的方法。從靜態(tài)圖像的特征顯著圖的獲取方法來分析,我們指出了SR方法的不合理性,并作了改進(jìn)。對(duì)NVT而言,由于算法過于復(fù)雜,計(jì)算硬件成本高,運(yùn)算時(shí)間長,并不適合對(duì)連續(xù)的視頻圖像序列進(jìn)行在線的處理。而SR中基于圖像頻率域處理的算法,由于有快速傅立葉變換算法的存在,因而計(jì)算速度很快。但是仔細(xì)分析SR算法(上一節(jié)SR介紹中的步驟),在它的富理葉對(duì)數(shù)譜的殘留譜計(jì)算(步驟3)并不是很有道理,因?yàn)楦盗⑷~變換的幅度譜只反映了圖像中每個(gè)頻率成分的比例,它不存在位置信息,但是圖像的特征顯著圖往往反映了圖像邊緣的位置信息,而相反,相位譜是反映邊緣位置信息的[91。用一維的傅立葉變換作為考察相位譜的例子如圖2示。圖2中左圖表示原始的信號(hào),右圖為只通過相位譜的反傅立葉變換(保持幅度譜為非另常數(shù))恢復(fù)的信號(hào)??梢钥闯鐾ㄟ^相位恢復(fù)的信號(hào),在原信號(hào)變化劇烈的位置(如方波的跳變上下緣)有較大的輸出,而對(duì)原信號(hào)平穩(wěn)部分或者是有周期性變化規(guī)律的位置,輸出很小(信號(hào)的起始和結(jié)束不考慮)。對(duì)于圖像而言,圖像中非周期性的紋理、邊緣變化劇烈的部分是相位信號(hào)恢復(fù)圖像輸出較大的對(duì)應(yīng)所在,同時(shí)這些部分往往是蘊(yùn)藏信息量比較大的位置,攜有大量的新穎信息,因而也是人腦感興趣。所以可以簡單的以相位信息恢復(fù)的圖像看作是表征人眼注意力選擇區(qū)域的特征顯著圖。因此,我們認(rèn)為之所以SR算法能得到比較好的結(jié)果是因?yàn)樗A袅嗽瓐D像的相位譜(SR介紹中的步驟4)。我們把SR介紹中的步驟改為如下(1)用式(6)得到圖像的振幅譜^(/)和相位譜P(/);(2)將所有頻率上的振幅譜設(shè)為1。W^(/)=l,V/;(3)原圖像顯著圖/,(",OT)-g(",附)叫l(wèi)F-'[expC/2;r尸(/))]l;(18)在(18)式中g(shù)(",m)為低通濾波器,g(",附)52乂11111111111111111111F-'表示傅立葉逆變換。很明顯,在這里我們只考慮相位譜尸(/),把圖像的振幅譜定為l,濾波器是將突出的邊緣部分平滑為一個(gè)特征顯著區(qū)域,以便人們注意不是一個(gè)點(diǎn),而是一個(gè)區(qū)域來得到感興趣的目標(biāo)。上面這個(gè)方法我們稱為PFT。與SR方法相比,本發(fā)明減少了求對(duì)數(shù)譜、對(duì)數(shù)譜的濾波、計(jì)算對(duì)數(shù)殘留譜和恢復(fù)對(duì)數(shù)殘留譜為殘留譜的步驟。利用上面的PFT方法對(duì)三幅靜態(tài)圖像進(jìn)行處理,并與SR進(jìn)行對(duì)照,結(jié)果如圖3所示。其中左圖是原圖像,上兩幅為風(fēng)景圖,下一幅是三個(gè)長頸鹿,中間和右圖分別是本發(fā)明的方法和SR方法得到的特征顯著圖結(jié)果,亮的部分是該注意的地方,兩者幾乎相同。為了定量的分析,我們對(duì)分辨率為64x64,128x128,256x256和512x512的四組圖像的特征顯著圖進(jìn)行了對(duì)比,用式(18)表示PFT和SR的特征顯著圖誤差1泌£'=7ZT藝Z(人(潛)("'附)_(",附))層f(19)這里見M為特征顯著圖的長和寬,m,"為圖像的編號(hào)。比較二者M(jìn)SE的結(jié)果如圖4和表1所示圖像尺64x648.5138e-004128x1284.6235e-004256x2563.0836e-004512x5121.8690e-004表1基于相位的方法同SR算法顯著圖MSE比較從圖4和表1看,我們提出的PFT和SR二者的MSE差別非常小,兩種方法得到的顯著圖是很接近的,可見真正用于獲取圖像特征顯著信息的是圖像頻率域相位信息,而不是SR算法中提出的所謂殘留譜,SR算法之所以成功是因?yàn)槠溆?jì)算殘留譜的步驟在一定程度上模擬了幅度歸一化的步驟,保留了相位信息。對(duì)于彩色圖像,我們將圖像的每個(gè)像素上的色彩、亮度和運(yùn)動(dòng)信息作為一個(gè)四元數(shù),對(duì)視頻圖像序列進(jìn)行四元數(shù)的傅立葉變換,同樣利用四元數(shù)的傅立葉變換的相位譜得到視頻圖像序列的特征顯著圖。令/時(shí)刻的輸入視頻幀為/w"ge(z;M:l…W,其中^為總的幀數(shù)。每幀包含有紅、綠、藍(lán)三個(gè)通道的信息,記為Kag(0,6(0。如同NVT對(duì)彩色圖像處理的方法(式(1)和(2))得到亮度為朋,)+g(,)+柳/3四種廣義調(diào)制的紅、綠、藍(lán)、黃顏色通道分別為<formula>formulaseeoriginaldocumentpage13</formula>貝'J紅綠double-opponent禾口藍(lán)黃double-opponent通道分另U為斷,H雄)-,(20),H5")-w)|記/(卜r)為時(shí)刻t的前第r幀圖像,則運(yùn)動(dòng)殘差圖像為M(0=/(0,-",(21)其中r為時(shí)延,在本發(fā)明中r一般取為2-4。將以上得到的/(0、iG(O、5r(r)、M(O組成四元數(shù)圖像<formula>formulaseeoriginaldocumentpage13</formula>《(O表示四元數(shù)圖像,為此圖像中n行m列的四元數(shù)。利用四元數(shù)圖像快速傅立葉變換算法(式(12)(17))對(duì)《(Z,",m)進(jìn)行四元數(shù)的傅立葉變換處理。步驟為-把g(f,",w)寫成偶對(duì)sympkctic形式其中&(f,w,w)=r,,,(f,",m)+r1>2(f,",w)//,,g2(f,;7,附)=r2>1(r,",7)+r22(f,",)建立等效復(fù)數(shù)圖像,把/^改寫為;g',(>,",附)=rt,(y,",附)+。2,w,,g'2",=r2,(f,",wi)+r22(f,",m)i對(duì)《;0,",w)和&0,w,進(jìn)行二維復(fù)數(shù)傅立葉變換得到g、v,w]=7d["v,w]+《217,v,w]/,2'21>,v,w]=0,v,w]+7;,21>,v,w]/將上式中的/改寫為/^得到Q|>,V,w]=《,v,w]+《2[Z1,V,w]〃,,込0,V,W]=|>,V,w]+《,2[/,V,最后得到完整頻率域四元數(shù)形式為W,v,w]=G["v,w]+込|Y,v,,則頻率域的四元數(shù)圖像可以用g()表示,其極數(shù)形式表示為2(0=|2W|e〃、設(shè)定振幅譜為固定值,一般取ll2(0hl(23),則此時(shí)2(0=^僅僅包含相角信息。同四元數(shù)圖像傅立葉變換類似計(jì)算g(O的四元數(shù)傅立葉逆變換,得到逆變換結(jié)果記為=a")+6(0'/+c(f)'/+壽)(24)此時(shí),原圖像顯著圖即為^(0的模經(jīng)過低通濾波后的結(jié)果為sM",w,m)=g(;w,/w)*|r《0;)||(25)其中g(shù)(",w)定義同式(18)。十分明顯,四元數(shù)的PFT方法的步驟為(1)將圖像序列用公式(1),(2),(20)(22)寫為四元數(shù)形式(2)用四元數(shù)圖像的FFT(式(12)~(17))得到頻率域的四元數(shù)圖像,它的極坐標(biāo)形式卯)=|^)|浐;(3)將所有頻率上的振幅譜設(shè)為1,即|2(/)|=1;(4)由四元數(shù)圖像傅立葉逆變換得到四元數(shù)圖像w(O(24式);(5)由式(25)得到sM(,",w)二g(",w)lw(Ol,即原圖像顯著圖。我們把用四元數(shù)FFT用于獲取圖像特征顯著圖的方法稱為PQFT方法,該方法原理簡單,計(jì)算開銷小,計(jì)算速度快,同時(shí)具有很好的顯著特征抽取效果。運(yùn)用此種算法可以避免NVT算法計(jì)算量上的局限。同時(shí)NVT算法和SR算法都是針對(duì)靜態(tài)圖像的,對(duì)視頻,只是簡單的把其中的每幀圖像單獨(dú)處理。這樣就忽略了視頻場(chǎng)景中人眼注意力選擇的一個(gè)重要因素——運(yùn)動(dòng),人眼對(duì)于運(yùn)動(dòng)的物體時(shí)非常敏感的。本發(fā)明把圖像序列中相隔r幀的圖像之差記為殘差圖像,看作圖像中物體運(yùn)動(dòng)信息,通過加入此通道可以很好的把握?qǐng)D像序列的運(yùn)動(dòng)變化,把運(yùn)動(dòng)加入到注意力選擇中以避免NVT算法和SR算法不支持動(dòng)態(tài)圖像的局限。此外原有的SR算法只利用了圖像的強(qiáng)度信號(hào),即灰度信息而忽略了圖像的顏色信息,對(duì)于顏色特征顯著的圖像,其效果不佳,穩(wěn)定性差??梢婎伾盘?hào)是分析圖像顯著圖所需要的。而Itti的NVT的算法雖然用到了顏色、形狀、方位等信息,但需要對(duì)每個(gè)信息通道進(jìn)行分別處理,并且每個(gè)通道都要計(jì)算大量高斯金字塔,計(jì)算量大,同時(shí)這還帶來一個(gè)通道融合的問題。因此NVT算法雖然很好的模仿了生物機(jī)理,但其信息處理的效率很差的。并且,由于算法運(yùn)算步驟繁多,每一步又牽涉一定的參數(shù)選取工作。所以整個(gè)算法最后嚴(yán)重依賴于參數(shù)的選擇。本發(fā)明通過構(gòu)建四元數(shù)特征圖像來完成圖像空間信息和時(shí)間信息的綜合。將圖像的顏色、形狀和運(yùn)動(dòng)結(jié)合起來用于后續(xù)分析。具體而言,通過對(duì)圖像特征的分析,提取得到圖像的特征通道,分別為圖像的光強(qiáng)(灰度)信號(hào),廣義紅綠對(duì)比信號(hào),廣義藍(lán)黃對(duì)比信號(hào)和運(yùn)動(dòng)變化信號(hào),把以上每個(gè)信號(hào)看作是四元數(shù)的一個(gè)元,組合成四元數(shù)的形式,稱之為四元數(shù)特征圖像。由于有計(jì)算四元數(shù)FFT算法的存在,后續(xù)的頻率域相位計(jì)算都在四元數(shù)特征圖像上進(jìn)行,這樣就把圖像所有的特征統(tǒng)一到同一個(gè)載體上。大大提高算法的運(yùn)算效率與顯著特征抽取效果。本發(fā)明的優(yōu)點(diǎn)本發(fā)明圖像序列特征顯著圖獲取時(shí)通過對(duì)簡單、有效的相位信息的還原來提取得到原圖像特征顯著特性。這樣算法復(fù)雜度低,易于實(shí)現(xiàn)。其次本發(fā)明綜合利用圖像序列的顏色、形狀的空間信息和運(yùn)動(dòng)、變化的時(shí)間信息。使得本算法準(zhǔn)確度高,顯著特征抽取效果好。同時(shí)本算法把對(duì)圖像顏色、形狀和運(yùn)動(dòng)的信息每個(gè)通道的運(yùn)算處理統(tǒng)一到對(duì)四元數(shù)特征圖像的運(yùn)算處理,而四元數(shù)的傅立葉變換是有快速算法的,這樣就在提高算法的效果的同時(shí)加快了算法的運(yùn)算速度。同SR算法相比,本發(fā)明可以應(yīng)用于彩色圖像的顯著特征抽取,并大大提高了抗噪聲能力。同NVT算法相比,本發(fā)明運(yùn)算成本低,運(yùn)算時(shí)間大大減少;算法穩(wěn)定性好,計(jì)算結(jié)果不依賴于參數(shù)的選??;其效果也有所提高。同時(shí)本發(fā)明通過加入運(yùn)動(dòng)信息的分析,增加了對(duì)動(dòng)態(tài)圖像序列的支持,可以很好的找到其中人眼注意力選擇優(yōu)先級(jí)較高的運(yùn)動(dòng)物體。這是原有算法所不具備的。在動(dòng)態(tài)視頻圖像顯著性的抽取中,本發(fā)明的效果要明顯優(yōu)于NVT和SR算法。圖1為NVT算法模型示意圖。圖2為一維信號(hào)相位信息功能說明圖,(a)、(c)、(e)為原始波形,(b)、(d)、(f)為對(duì)應(yīng)的相位譜恢復(fù)波形。圖3為基于相位的方法同SR算法顯著圖比較示意圖,(a)、(d)、(g)為原始圖像,(b)、(e)、(h)為通過PFT方法得到的顯著圖(c)、(f)、(i)為通過SR方法得到的顯著圖。圖4為基于相位的方法(PFT)同SR算法顯著圖MSE比較。圖5為本發(fā)明算法流程圖。圖6為三種方法對(duì)于靜態(tài)圖像的顯著目標(biāo)抽取比較結(jié)果,其中,(a)行為三種方法對(duì)自然圖像一得到顯著圖的比較,(b)行為三種方法對(duì)自然圖像一選取目標(biāo)的比較,(c)行為三種方法對(duì)自然圖像二得到顯著圖的比較,(d)行為三種方法對(duì)自然圖像二選取目標(biāo)的比較。圖7為靜態(tài)圖像每一步正確檢測(cè)到的目標(biāo)數(shù)的示意圖。圖8為三種方法對(duì)于動(dòng)態(tài)圖像的顯著目標(biāo)抽取比較結(jié)果,其中,(a)行為三種方法對(duì)第354視頻幀圖像得到顯著圖的比較,(b)行為三種方法對(duì)第354視頻幀圖像選取目標(biāo)的比較,(c)行為三種方法對(duì)第369視頻幀圖像得到顯著圖的比較,(d)行為三種方法對(duì)第369視頻幀圖像選取目標(biāo)的比較,(e)行為三種方法對(duì)第417視頻幀圖像得到顯著圖的比較,(f)行為三種方法對(duì)第417視頻幀圖像選取目標(biāo)的比較。圖9為動(dòng)態(tài)圖像每一步正確檢測(cè)目標(biāo)數(shù)示意圖。圖IO為三種方法對(duì)白噪聲測(cè)試的示意圖,其中,(a)、(b)(c)為噪聲密度分別為O.l、0.4、0.7的圖像,(d)行為三種方法對(duì)噪聲密度為0.1的圖像得到顯著圖的比較,(e)行為三種方法對(duì)噪聲密度為0.1的圖像選取目標(biāo)的比較,(f)行為三種方法對(duì)噪聲密度為0.4的圖像得到顯著圖的比較,(g)行為三種方法對(duì)噪聲密度為0.4的圖像選取目標(biāo)的比較,(h)行為三種方法對(duì)噪聲密度為0.7的圖像得到顯著圖的比較,(i)行為三種方法對(duì)噪聲密度為0.7的圖像選取目標(biāo)的比較。具體實(shí)驗(yàn)方式本發(fā)明方法的具體實(shí)施分為3個(gè)階段1)圖像序列特征獲取2)四元數(shù)特征圖像傅立葉變換處理3)顯著圖的目標(biāo)提取。圖5顯示了算法流程圖。給定需要處理的圖像序列,利用式(20)提取圖像顏色通道信息,以及式(21)分析圖像序列運(yùn)動(dòng)信息,并由式(22)把得到的顏色、運(yùn)動(dòng)信息組成四元數(shù)特征圖像。完成圖像序列特征的獲取。然后由上文介紹的四元數(shù)傅立葉變換方法對(duì)得到的四元數(shù)特征圖像進(jìn)行傅立葉變換,根據(jù)式(23)設(shè)定頻率域振幅譜,保留相位信息。再對(duì)此四元數(shù)圖像傅立葉逆變換以及低通濾波后,完成四元數(shù)特征圖像傅立葉變換處理,得到原始圖像的顯著圖。此時(shí)設(shè)在顯著圖中前n個(gè)最大輸出為0"^,/e[1』],則第n個(gè)目標(biāo)物體坐在的區(qū)域記為ig^={(",m)|a.OmaxSQ(",附)SCLJ,其中(w,w)表示圖像上的位置,a是區(qū)域選取閾值,本發(fā)明中a—般取0.75。^rM乍為第i個(gè)顯著物體所在區(qū)域。為了比較本發(fā)明與NVT以及SR算法的效果,設(shè)計(jì)兩組對(duì)比試驗(yàn)。其中將本發(fā)明(PQFT)和SR的顯著圖分辨率設(shè)定為64x64,而NVT的分辯率由程序自行決定。NVT算法的參數(shù)選取默認(rèn)值。所有的測(cè)試在Linux環(huán)境下的Matlab2007a平臺(tái)進(jìn)行。測(cè)試電腦為帶有1G內(nèi)存的P43G主機(jī)。NVT算法為C程序?qū)崿F(xiàn),而SR和本發(fā)明為Matlab實(shí)現(xiàn)。測(cè)試一靜態(tài)圖像顯著特征圖抽取比較結(jié)果測(cè)試靜態(tài)圖像時(shí),不考慮圖像物體運(yùn)動(dòng)信息,因此在運(yùn)用本發(fā)明組成四元數(shù)特征圖像步驟中,去掉運(yùn)動(dòng)信息的部分,把四元數(shù)特征圖像表示為柳=0+/(0.w,+w2+.w3選取IOO張自然圖像為測(cè)試集,分別將三種算法應(yīng)用于這些圖像的特征顯著圖以及顯著物體的抽取,圖6列出了測(cè)試集中2幅典型圖像作為結(jié)果說明,其中每一列表示用相同的算法得到的結(jié)果,三列分別表示我們的PQFT方法和SR,NVT三種不同算法結(jié)果,"單行"表示每種算法的顯著圖結(jié)果。"雙行"為每種算法最后劃定的特征物體區(qū)域。對(duì)于每張圖,每種算法都根據(jù)特征顯著圖選取前5個(gè)具有顯著特性的目標(biāo)物體,表2和圖7指出了三種方法每一步正確檢測(cè)到的目標(biāo)數(shù),可見本發(fā)明在總目標(biāo)的檢測(cè)率以及檢測(cè)目標(biāo)反應(yīng)速度上都是三種算法中最好的,表3指出三種算法所用的時(shí)間對(duì)比。本發(fā)明在兼顧顏色信息的前提下與SR算法時(shí)間相當(dāng),比C語言實(shí)現(xiàn)的NVT快很多。<table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table>表2靜態(tài)圖像每一步正確檢測(cè)到的目標(biāo)數(shù)<table>tableseeoriginaldocumentpage18</column></row><table>表3三種算法應(yīng)用于靜態(tài)圖像的運(yùn)算時(shí)間對(duì)比測(cè)試二動(dòng)態(tài)圖像序列顯著目標(biāo)抽取結(jié)果本測(cè)試使用640x480分辨率的15f/s的1000多幀動(dòng)態(tài)圖像序列。圖8顯示了三種算法在視頻序列中6幀圖像的顯著目標(biāo)抽取結(jié)果??梢姳景l(fā)明由于加入了運(yùn)動(dòng)信息,可以很好的選取其中運(yùn)動(dòng)的行人的位置,這是其他兩種方法無法做到的。表4和圖9表示了三種算法對(duì)于動(dòng)態(tài)圖像每一步正確檢測(cè)的目標(biāo)數(shù),其中本發(fā)明每幀平均可以正確選取2.52個(gè)目標(biāo)物體,是三種方法中最好的。表5給出三種算法所用的時(shí)間對(duì)比,結(jié)果同測(cè)試一類似。<table>tableseeoriginaldocumentpage18</column></row><table>算法平均運(yùn)算時(shí)間(s)PQFT0.0565SR0.0141NVT0.4313表5三種算法應(yīng)用于動(dòng)態(tài)圖像的運(yùn)算時(shí)間對(duì)比測(cè)試三抗白噪聲測(cè)試本測(cè)試是用三種算法對(duì)不同程度白噪聲污染的自然圖像的顯著圖抽取效果。這里使用文獻(xiàn)[4]中的測(cè)試圖像。圖像中作為顯著物體的兩人站立在白色的雪山前。使用5X5的白色噪聲色塊對(duì)原始圖像進(jìn)行污染,(T表示白色噪聲色塊的密度,(T等于0.1、0.4、0.7的噪聲圖像如圖IO(a)、(b)、(c)所示。PQFT、SR、NVT三種算法抽取圖像顯著圖的運(yùn)算結(jié)果如圖10右三列所示??梢奡R算法對(duì)噪聲非常敏感,在有噪聲的情況下抽取效果非常不理想,而NVT算法在低噪聲情況下,可以正確找到圖像顯著區(qū)域,但需要較多迭代次數(shù),并且隨著白噪聲的增加抽取結(jié)果顯著下降,00.4以后也無法正確得到圖像顯著區(qū)域。而本發(fā)明提出的PQFT算法對(duì)所有的cr幾乎都能得到正確的抽取結(jié)果,即使在(7=0.7時(shí)也可以l步找到顯著區(qū)域——人站立的位置。本測(cè)試說明本發(fā)明抗白噪聲能力突出,遠(yuǎn)在SR以及NVT算法之上。權(quán)利要求1.一種快速的圖像序列特征顯著圖獲取方法,其特征在于具體步驟如下(1)用下式(6)得到圖像的振幅譜A(f)和相位譜P(f)A(f)=‖F(xiàn)(I(x,y))‖,P(f)=arctg[imag(F(I(x,y)))/real(F(I(x,y)))](6)式(6)中的F為二維傅立葉變換,I(x,y)為輸入圖像;(2)將所有頻率上的振幅譜設(shè)為1,即<math-cwu><![CDATA[<math><mrow><mi>A</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>,</mo><mo>∀</mo><mi>f</mi><mo>;</mo></mrow></math>]]></math-cwu><!--imgid="icf0001"file="S2008100358622C00011.gif"wi="24"he="5"top="64"left="105"img-content="drawing"img-format="tif"orientation="portrait"inline="no"/-->(3)原圖像顯著圖Is(n,m)=g(n,m)*‖F(xiàn)-1[exp(j2πp(f))]‖(18)在(18)式中g(shù)(n,m)為低通濾波器,<math-cwu><![CDATA[<math><mrow><mi>g</mi><mrow><mo>(</mo><mi>n</mi><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msup><mn>5</mn><mn>2</mn></msup></mfrac><mfencedopen='('close=')'><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd><mtd><mn>1</mn></mtd></mtr></mtable></mfenced><mo>,</mo></mrow></math>]]></math-cwu><!--imgid="icf0002"file="S2008100358622C00012.gif"wi="49"he="30"top="84"left="93"img-content="drawing"img-format="tif"orientation="portrait"inline="no"/-->F-1表示傅立葉逆變換。2、一種快速的圖像序列特征顯著圖獲取方法,對(duì)于彩色圖像,其特征在于具體步驟如下(l)令,時(shí)刻的輸入視頻幀為/wflge(0,,-l…W,其中7V為總的幀數(shù),每幀包含有紅、綠、藍(lán)三個(gè)通道的信息,記為根據(jù)NVT對(duì)彩色圖像處理的方法得到亮度/(t)為四種廣義調(diào)制的紅、綠、藍(lán)、黃顏色通道分別為22,J(,)(,))—卜(,);洲L柳則紅綠double-opponent禾卩藍(lán)黃double-opponent通道分別為卿)=|雄)-,=|邵),)|記/(卜r)為時(shí)刻t的前第r幀圖像,則運(yùn)動(dòng)殘差圖像為(20)M(,)=/(0_/0-r),(21)其中r為時(shí)延,r取2-4;將以上得到的/(0、iG(O、^y(0、M(O組成四元數(shù)圖像W)=/0)+■M!+57(0."2+WO"3(22)g(O表示四元數(shù)圖像,《("n,m)為此圖像中n行m列的四元數(shù);(2)利用四元數(shù)圖像快速傅立葉變換算法進(jìn)行四元數(shù)的傅立葉變換處理,步驟為:把《^,《,0寫成偶對(duì)形式^,w,附)二&(y,",w)+^2(y,w,w)//2建立等效復(fù)數(shù)圖像,把/A改寫為z'《',(y,m,w)=^,(z1,",附)+^2w,w》',《'2(/■,",附)=r2i(y,w,w)+-22(t",附)/對(duì)A(r,w,w)和w)進(jìn)行二維復(fù)數(shù)傅立葉變換得到g、V,M]=《',|Y,V,W]+《2[,,V,W]/,g'2V,W]=,["V,W]+及;,2o,V,W]/將上式中的/改寫為^得到q0,v,w]=/(t[f,v,w]+《2v,w]//,,込iy,v,w]=,iy,v,w]+i;,2iy,v,最后得到完整頻率域四元數(shù)形式為g0,V,W]二g,["V,M]+込iy,V,M]//2;則頻率域的四元數(shù)圖像用2(0表示,其極數(shù)形式表示為2(0=||2(0||,;(3)設(shè)定振幅譜為固定值,一般取||2(0|=1,(23)(4)計(jì)算2(0的四元數(shù)傅立葉逆變換,得到逆變換結(jié)果記為=a(/)+柳./+c(Oy.+.A:.(24)(5)原圖像顯著圖即為^(/)的模經(jīng)過低通濾波后的結(jié)果為式中g(shù)(",w)為低通濾波器,g(",w)=-(25)F一'表示傅立葉逆變換'全文摘要本發(fā)明屬于機(jī)器視覺和圖像處理
技術(shù)領(lǐng)域:
,具體為一種快速的圖像序列特征顯著圖獲取方法。本發(fā)明把輸入圖像序列的時(shí)間信息和空間信息綜合在四元數(shù)特征圖像中,將圖像的顏色、形狀和運(yùn)動(dòng)信息結(jié)合起來用于后續(xù)顯著目標(biāo)抽取,同時(shí)該算法利用四元數(shù)特征圖像頻率域的相位信息作為原圖像序列顯著圖獲取的依據(jù),能快速準(zhǔn)確的得到圖像中人眼感興趣的注意力選擇區(qū)域,從中可以進(jìn)一步提取出圖像中的顯著物體。實(shí)驗(yàn)表明本發(fā)明在自然視頻流場(chǎng)景中有著較高的運(yùn)算效率和很好的顯著目標(biāo)抽取結(jié)果。同時(shí),方法本身復(fù)雜度較低,易于硬件實(shí)現(xiàn),在機(jī)器人視覺,目標(biāo)跟蹤以及圖像分割,視頻壓縮、編碼、傳輸?shù)阮I(lǐng)域內(nèi)有很好的應(yīng)用前景。文檔編號(hào)G06K9/62GK101271525SQ20081003586公開日2008年9月24日申請(qǐng)日期2008年4月10日優(yōu)先權(quán)日2008年4月10日發(fā)明者張立明,過晨雷,奇馬申請(qǐng)人:復(fù)旦大學(xué)