本發(fā)明屬于數(shù)字圖像處理領域,具體設計一種通過學習來預測人臉圖像顯著性的方法,并基于檢測到的人臉顯著性,提出了一種圖像壓縮方法。
背景技術:
基于對人類視覺系統(tǒng)的研究,人們發(fā)現(xiàn)當人看一個場景時,關注點往往會集中于一小塊區(qū)域,我們稱之為ROI(感興趣區(qū)域),而更少的關注于其他的區(qū)域,我們稱之為邊緣區(qū)域,正因如此研究視覺顯著性可以幫助理解人是如何感知這個世界的。顯著性的檢測是一種通過計算圖像和視頻的特征,有效預測人類視覺會被不同場景中的那些區(qū)域所吸引的方法。同時,顯著性檢測的結果也可以運用到物體檢測、模式識別、圖像質(zhì)量評估、圖像的壓縮技術等多個領域。
現(xiàn)有的顯著性檢測方法可以大致分為兩類:bottom-up(自底向上)和top-down(自頂向下)。一種典型的bottom-up的方法是來自Itti的模型,他包含了顏色、對比度、方向等多個核心特征。事實上,top-down的視覺特征在決定一個場景的顯著度上扮演著更主要的角色,而且對于這種方法的研究顯示臉部是吸引注意力的重要特征。基于這個發(fā)現(xiàn),又有很多種顯著性檢測方法在近幾年被提出。最近,一種對有多個人臉場景的顯著性檢測的方法被提出,多核學習應用于這種方法,它有助于學習多臉場景中顯著區(qū)域與非顯著區(qū)域的不同。盡管現(xiàn)有的方法已經(jīng)在顯著性檢測中,考慮到了多臉,也取得一定的成功,但關注點在人臉上是如何的分布,人們并不十分清楚,目前已有的研究假設的簡單同向高斯模型對于顯著性的預測有著一定的局限。對于一些人臉較小的圖片,非同向的高斯模型往往更加準確。然而,對于人臉較大的圖,單一的高斯模型又并不是很有效。因此,對于顯著性分布來說,一個從關注點分布所學習得到的一個混合高斯模型就更為必要。具體來說,一個非同向高斯分布應該應用于小臉圖像中,而多個非同向高斯分布的組合可以用于大臉圖像中。
技術實現(xiàn)要素:
本發(fā)明針對目前并不完善的顯著性檢測方法以及顯著性分布不準確的問題,提出了一種基于學習混合高斯模型和不同人臉大小的權重的顯著性檢測方法,提出了一個顯著性檢測的圖像壓縮方法。
具體步驟如下:
步驟一、建立數(shù)據(jù)庫。
步驟101、通過眼球追蹤實驗,記錄觀測者在自由觀看模式下對人臉圖片的關注點,建立對人臉圖像的視覺關注點分布的數(shù)據(jù)庫。
步驟102、通過分析在人臉以及臉部特征的視覺關注度,建立關注度與人臉、臉部特征之間的關系;
步驟(1)、運用已有算法自動檢測我們數(shù)據(jù)庫中人臉圖像的人臉及臉部特征(五官)。
步驟(2)、通過分析若干張圖片,建立關注度與人臉之間的關系。
步驟(3)、通過分析若干張圖片,建立關注度與臉部特征之間的關系。
步驟二、根據(jù)所建立的數(shù)據(jù)庫以及對數(shù)據(jù)的分析,建立并訓練顯著度檢測模型。
步驟201、通過對人臉區(qū)域關注點的預處理,為下面對混合高斯模型的學習做準備
步驟(1)、為解決每張圖片中人臉位置的不同所帶來的差異,建立以人臉右臉第一個特征點為原點的固定的坐標系,通過坐標變換,對每張圖像中的關注點進行校正。
步驟(2)、為了解決人臉大小不同的問題,基于人臉的寬度來對關注點進行歸一化。通過校正和歸一化,就可以將所有圖像的關注點的位置集中在同一個坐標系中。
步驟202、用預處理后的關注點數(shù)據(jù),基于訓練圖片,訓練并學習混合高斯模型。
步驟(1)、定義混合高斯模型,即多個高斯分量的混合疊加
步驟(2)、通過最大期望算法,學習得到臉部特征通道關注點與人臉通道(兩個top-down通道)的混合高斯模型顯著性分布。
步驟203、利用得到的混合高斯模型,對圖像的各個特征通道的顯著性進行預測
步驟(1)、通過混合高斯模型,利用訓練圖片學習得到的高斯參數(shù),生成兩個top-down顯著圖,人臉和臉部特征。
步驟(2)、通過Itti的模型,得到顏色、對比度、方向三個bottom-up通道的顯著性圖譜
步驟(3)、定義五通道的顯著性預測模型,即人臉、臉部特征、顏色、對比度、方向。
步驟204、通過得到的五個顯著性圖譜,并學習訓練圖片的關注點數(shù)據(jù),得到每個通道的顯著圖選擇最佳權重,以取得最佳的結果。
步驟(1)、通過求解方程argminw||Vw-mh||2,學習得到每個通道的權重系數(shù),方程中V是一個矩陣,這個矩陣的每一列是一個通道的顯著圖,mh為向量化的每幅圖像的關注點圖。
步驟(2)、利用學習得到的最佳權重ωC,ωI,ωO,ωF,ωG,采用多項式擬合方法,建立人臉尺度大小(即人臉占整張圖片的像素比例)和最佳權重的關系。
步驟205、利用之前得到的五個通道的顯著性圖譜以及關于最佳權重函數(shù),計算得到最終的顯著性圖譜。
步驟三、基于本發(fā)明提出的顯著性檢測方法設計一種圖像壓縮方法。
步驟301、利用本發(fā)明所得到的圖片顯著性對JPGE圖像壓縮方法進行改進。
步驟302、對本發(fā)明所提出的圖片壓縮方法的結果進行檢驗與評估。
本發(fā)明的優(yōu)點在于:
(1)一種基于人臉顯著性的圖片壓縮方法,建立了一個龐大的視覺顯著性數(shù)據(jù)庫,為后續(xù)研究提供幫助。
(2)一種基于人臉顯著性的圖片壓縮方法,提出了一種檢測人臉圖像顯著性的模型。
(3)一種基于人臉顯著性的圖片壓縮方法,可以根據(jù)顯著性改變比特率,有效地減小壓縮圖像的比特率,同時提高壓縮圖像的質(zhì)量。
附圖說明
圖1為基于顯著性的圖片壓縮的方法流程圖;
圖2為本發(fā)明建立數(shù)據(jù)庫的方法流程圖;
圖3為本發(fā)明提出的人臉圖像顯著性檢測的方法流程圖;
圖4為關注點坐標的校正與歸一化示意圖;
圖5為不同分量個數(shù)學習得到的GMM分布;
圖6為本發(fā)明顯著性檢測方法模型;
圖7為由實驗結果繪制出的ROC曲線;
圖8為由本發(fā)明提出的顯著性檢測方法所得的顯著性圖譜;
圖9為本發(fā)明的基于顯著性的圖像壓縮的方法流程圖;
圖10為本發(fā)明的圖像壓縮方法的結果圖示。
具體實施方式
下面將結合附圖和實施例對本發(fā)明作進一步的詳細說明。
一種基于人臉顯著性的圖片壓縮方法,包括視覺顯著性數(shù)據(jù)庫的建立與分析、建立顯著性檢測模型、通過實驗對本發(fā)明的有效性進行檢驗、基于所檢測到的人臉顯著性,建立本發(fā)明的圖片壓縮方法。
首先,通過眼球追蹤實驗,建立一個對人臉圖像的視覺關注點分布的數(shù)據(jù)庫,并自動檢測圖像中的人臉以及臉部特征。然后,由實驗所得到的關注點的數(shù)據(jù),通過對這些數(shù)據(jù)的分析得到人臉與關注點分布的關系,以及臉部特這與關注點分布的關系。
接著,根據(jù)對數(shù)據(jù)的分析,建立顯著性檢測模型,由5個通道構成:人臉、臉部特征、顏色、對比度、方向。其中人臉與臉部特征,通過最大期望算法學習混合高斯分布得到,而其余三個由Itti的模型得到。每個通達的權重,則通過訓練數(shù)據(jù)庫中的關注點分布得到。同時,用本發(fā)明建立的數(shù)據(jù)庫和其它公開數(shù)據(jù)庫,對顯著性檢測的結果進行評估與分析。
最后,利用得到的圖像顯著性,對傳統(tǒng)的JPGE編碼之前加入預處理步驟,使得不同顯著性區(qū)域有不同的比特率,達到保持圖像質(zhì)量不下降的同時減小比特率。
具體步驟如下,如圖1所示:
步驟一、建立本發(fā)明所要用的數(shù)據(jù)庫,并對數(shù)據(jù)進行必要的分析
具體步驟如下,如圖2所示:
步驟101、通過眼球追蹤實驗,記錄觀測者在自由觀看模式下對人臉圖片的關注點,建立對人臉圖像的視覺關注點分布的數(shù)據(jù)庫。
數(shù)據(jù)庫中的510張圖片按以下原則隨機挑選出來:(1)每張圖片的大小為1920×1080(2)所有圖片只包含一個人的正臉(3)510張圖片中的人臉尺度(人臉區(qū)域所占像素占圖片總像素的比例)大小變化區(qū)間為0.0016~0.3018。共有24人參與到眼球跟蹤實驗中,其中2位實驗者有相關背景知識,每張圖片大致可以得到300個關注點。利用point distribution model(PDM,點分布模型)得到66個特征點,來提取每張圖片中的人臉及臉部特征。
步驟102、通過分析在人臉以及臉部特征的視覺關注度,建立關注度與人臉、臉部特征之間的關系,本發(fā)明可以采用以下方法但不限于以下方法。
通過每張圖像的關注點分布計算并繪制了圖片中人臉和背景部分的關注點分布圖,得到結論—人臉相比背景更夠吸引人的關注。接著,繪制人臉大小與關注點分布的散點圖并擬合曲線,得到結論—人臉越大越能吸引人的關注。其次,按照相似的方法,擬合人臉大小與右眼中分布點、左眼中分布點、鼻子中分布點和嘴巴分布點的關系曲線,得到結論—隨著人臉增大,人臉特征中的眼睛和嘴巴更能吸引人的關注。
步驟二、根據(jù)所建立的數(shù)據(jù)庫以及對數(shù)據(jù)的分析,建立并訓練此發(fā)明所提出的顯著度檢測模型。
具體步驟如下,如圖3所示。
步驟201、通過對人臉區(qū)域關注點的預處理,為下面對混合高斯模型的學習做準備
步驟(1)、為解決人臉尺寸的不同帶來的差異,建立固定的坐標系,通過坐標變換,對每張圖像中的關注點進行校正。
由于每張圖片中人臉的位置不一樣,為了能夠?qū)⑺袌D片人臉區(qū)域關注點等同考慮,規(guī)定PDM圖中的右臉的第一個特征點記做坐標原點,將每個關注點的(x,y),按式(1)進行坐標變換,實現(xiàn)對關注點的校正.
其中:(xA,yA)是圖4中A點的坐標,(x*,y*)是校正后的坐標。
步驟(2)、為了解決人臉大小不同的問題,基于人臉的寬度來對關注點進行歸一化。
為了解決人臉大小不同所帶來的差異,利用式(2),對關注點進行歸一化處理。
其中:l為兩點之間的歐式距離,即兩點之間的橫向距離,(x’,y’)是歸一化處理后的坐標。
通過校正和歸一化,就可以將所有圖像的關注點的位置集中在同一個坐標系中,如圖4所示。
步驟202、用預處理后的關注點數(shù)據(jù),基于訓練圖片,訓練并學習混合高斯模型,本發(fā)明可以采用以下方法但不限于以下方法。
步驟(1)、定義混合高斯模型,即多個高斯分量的混合疊加
通過之前的分析,人臉與臉部特征和顯著性有很大關系,因此用GMM來建立這兩個通道的模型。
假設經(jīng)過校正和歸一化的關注點的坐標為x=(x′,y′),建立如下GMM模型:
其中:πk,μk,∑k分別為第k個高斯分量的混合比例、均值以及方差,K為混合高斯模型中分量的個數(shù)。
步驟(2)、通過最大期望算法,學習得到臉部特征通道關注點與人臉通道(兩個top-down通道)的混合高斯模型分布。
對于臉部特征通道來說,首先需要確定GMM分量的個數(shù),可以繪制不同分量個數(shù)的GMM分布,如圖5所示。從圖中可以發(fā)現(xiàn),分量個數(shù)大于3時的輪廓都比較相似,因此選定4個GMM分量,分別對應左眼、右眼、鼻子、嘴巴四個臉部特征。此時假設均值為臉部特征的中心點。經(jīng)過學習得到的各項參數(shù)數(shù)值,如下表1所示。
表1 GMM各項參數(shù)數(shù)值
步驟203、利用得到的混合高斯模型,基于測試圖片,分別預測圖像的各個特征通道的顯著性,本發(fā)明可以采用以下方法但不限于以下方法。
步驟(1)、通過混合高斯模型,利用訓練圖片學習高斯分布的參數(shù),得到兩個top-down顯著圖,人臉和臉部特征。
通過步驟202,得到測試圖像的人臉及臉部特征兩個通道的顯著性圖譜,記做如圖5所示
步驟(2)、通過Itti的模型,得到顏色、對比度、方向三個bottom-up的顯著性圖譜。
利用Itts的模型,構造顏色(C),對比度(I),方向性(O)三個顯著性圖譜,分別記為同時構造最終顯著性圖譜的模型,如圖6所示,即
步驟204、得到五個通道不同的顯著性圖譜后,通過學習關注點數(shù)據(jù),得到每個通道的顯著性的最佳權重ωC,ωI,ωO,ωF,ωG,以取得最佳結果。
步驟(1)、通過求解方程(6)學習得到每個通道的權重系數(shù),
方程中V是一個矩陣,這個矩陣的每一列是一個通道的顯著圖,w=(ωc,ωI,ωO,ωF,ωG),mh為向量化的每幅圖像的關注點圖。使用凸線性回歸來求解方程,這樣就得到每張圖片的最佳權重。
步驟(2)再得到每個通道最佳權重ωC,ωI,ωO,ωF,ωG后,采用高階多項式擬合方法建立人臉尺寸大小和最佳權重系數(shù)的函數(shù)關系。
通過之前對數(shù)據(jù)的分析,已經(jīng)發(fā)現(xiàn)人臉與臉部特征都與人臉的大小有關,因此十分有必要找到ωF,ωG與人臉大小的關系。采用多項式擬合得到這個關系:
其中s為人臉大小尺度,即人臉區(qū)域像素占圖片總像素的比例,為擬合ωF,ωG的多項式的系數(shù)。Pearson’s correlation coefficient(PCC)用來評估擬合效果,如圖7所示??梢园l(fā)現(xiàn)在3次擬合之后,PCC系數(shù)基本收斂,因此采用4次多項式進行擬合。多項式系數(shù)如下表2所示
表2 多項式系數(shù)a,b數(shù)值
在得到ωF,ωG之后,將權重ωC,ωI,ωO在所有圖像中做平均,得到它們之間的比例關系ωC∶ωI:ωO=8∶3∶30,再由||ω||I=1,求解得到ωC,ωI,ωO。
步驟205、利用202—204步驟得到的每個通道的顯著性圖譜以及關于最佳權重系數(shù)的函數(shù),計算得到最終的顯著性圖譜。
首先,利用202、203步驟得到圖像的五個通道的顯著性圖譜,接著利用204步驟求得的最佳權重系數(shù)的函數(shù)關系,最后通過(5)式的模型,得到最終的顯著性圖譜。繪制ROC曲線如圖7所示,本發(fā)明提出的顯著性檢測方法的結果與已有的幾種方法對比效果如圖8所示。
步驟三、基于本發(fā)明提出的顯著性檢測方法設計一種圖像壓縮方法,方法框架如圖9所示。
具體方法如下,如圖10所示。
步驟301、利用本發(fā)明所得到的圖片顯著性對JPGE圖像壓縮方法進行改進。
在傳統(tǒng)的圖像壓縮方法的基礎上,在編碼之前加入一步—預處理。在預處理中,先本發(fā)明提出的顯著性檢測方法得到輸入圖像的顯著性圖譜。然后輸入圖像通過一個截止頻率由顯著性圖譜決定的低通濾波器,以去除非顯著區(qū)域的部分。此低通濾波器(LPF)可表示為類似于傳統(tǒng)JPEG壓縮方法,輸入圖片先分割成8×8像素的相互不重合的塊,即每個小圖塊的預處理可表示為最后將低通濾波器處理后的圖片,經(jīng)過JPEG(國際圖像壓縮標準)編碼,后續(xù)步驟與傳統(tǒng)JPEG壓縮方法相同。
這樣非顯著性區(qū)域的一些細節(jié)就會被濾除,但由于這些區(qū)域并不會吸引人們的注意,所以并不會影響圖片壓縮后的質(zhì)量,同時在濾除這些細節(jié)的同時可以減少編碼后的比特率。
步驟302、對本發(fā)明所提出的圖片壓縮方法的結果進行檢驗與評估。
在相同比特率的情況下,比較本發(fā)明的圖片壓縮方法與傳統(tǒng)JPEG方法的DMOS之前差異。DMOS越小說明壓縮圖像的質(zhì)量越高。通過比較可以發(fā)現(xiàn),在相同低比特率的條件下,本發(fā)明的壓縮方法可以得到更好的DMOS。同樣的,通過比較相同DMOS下,兩種壓縮方法所用的比特率可以發(fā)現(xiàn),本發(fā)明的方法可以節(jié)約大約19%的比特率。由本發(fā)明的方法得到的壓縮圖像與傳統(tǒng)JPEG壓縮方法后的圖片結果如圖10所示。
一種基于人臉顯著性的圖片壓縮方法,特點在于具有基于人臉顯著性的壓縮編碼控制機制,能夠按照區(qū)域的視覺顯著性來判斷是否進行編碼,在一定程度上減小了對非顯著信息壓縮所帶來的冗余。這是通過建立一種全新的顯著性檢測模型實現(xiàn)的。本發(fā)明中,通過對顯著性的檢測,可以準確地得到圖片的顯著性圖譜,并且通過保證關鍵區(qū)域的圖片質(zhì)量,降低非顯著性區(qū)域的質(zhì)量,來保證圖片整體的感知質(zhì)量不變的情況下,盡量減少壓縮后的比特率,即在將壓縮圖片的比特率降低到一定水平的前提下,最大程度地保證視頻感知質(zhì)量。
本發(fā)明通過對圖片顯著性的檢測,對圖片的壓縮過程進行控制,適用于對圖片質(zhì)量有要求但設備無法傳輸或存儲較大比特率圖像的情況下。盡管本發(fā)明已參照具體實施方式進行描述和舉例說明,但是并不意味著本發(fā)明限于這些描述的實施方式。