本發(fā)明屬于人臉圖像檢索技術(shù)領(lǐng)域,特別是涉及一種基于視覺詞袋模型的人臉圖像檢索方法。
背景技術(shù):
近年來隨著網(wǎng)絡(luò)帶寬技術(shù)和物聯(lián)網(wǎng)行業(yè)的進(jìn)步,智能手機(jī)等智能終端設(shè)備和應(yīng)用迅速普及,圍繞圖像檢索技術(shù)的相關(guān)研究越來越深入。傳統(tǒng)的BoVW(Bag of Visual Words)視覺詞袋檢索模型在目標(biāo)檢索方面獲得了廣泛應(yīng)用,其技術(shù)要點在于,借鑒了文本檢索技術(shù)中的詞袋模型,通過提取圖像中的視覺特征描述符(descriptor,也稱特征點)并加以聚類形成視覺詞匯表,對于一個待檢索的圖像,通過檢測出的一組視覺單詞來表示,從視覺詞匯表中找到相關(guān)的單詞,計算擁有這些視覺單詞的圖像跟檢索圖像的相似度并以此排序,從而得到檢索結(jié)果。這種方法已經(jīng)被廣泛應(yīng)用于基于目標(biāo)的圖像檢索中,但是對于基于人臉的檢索,這種方法有諸多局限性,主要包括以下幾點:
第一,傳統(tǒng)的視覺詞袋模型在建立索引階段進(jìn)行特征點檢測的時候,是對整幅圖片進(jìn)行檢測,而對于人臉圖像檢索場景來說,只關(guān)注圖像中的人臉部分,檢測圖像其余部分會導(dǎo)致大量的視覺單詞噪點。
第二,傳統(tǒng)方法在生成視覺詞匯表時是對所有視覺特征描述符進(jìn)行k-means(k均值)聚類,在海量圖像的場景下會導(dǎo)致非常低的運(yùn)行效率。
第三,傳統(tǒng)方法在計算檢索圖像和候選圖像的相似度時,采用的是TF-IDF(Term Frequency-Inverse Document Frequency,詞項頻率-文檔頻率)相似度權(quán)重計算方式,僅僅考慮到視覺特征點的信息,而沒有考慮人臉的五官特征信息,會導(dǎo)致檢索結(jié)果準(zhǔn)確率低等問題。
鑒于此,有必要提供一種新的基于視覺詞袋模型的人臉圖像檢索方法用于解決上述技術(shù)問題。
技術(shù)實現(xiàn)要素:
鑒于以上所述現(xiàn)有技術(shù)的缺點,本發(fā)明的目的在于提供一種基于視覺詞袋模型的人臉圖像檢索方法,用于解決現(xiàn)有檢索方法存在的視覺單詞噪點、運(yùn)行效率低、及檢索結(jié)果準(zhǔn)確率低的問題。
為實現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種基于視覺詞袋模型的人臉圖像檢索方法,所述檢索方法包括:索引階段和檢索階段;其中,所述索引階段包括:
1.1)通過特征分類器對訓(xùn)練圖像中的任一張圖像提取出人臉部位,并從人臉部位中提取出局部區(qū)域圖像;
1.2)根據(jù)劃分的局部區(qū)域,分別計算每個局部區(qū)域內(nèi)的任一張局部區(qū)域圖像,得到對應(yīng)的視覺特征描述符向量;
1.3)采用聚類算法對每個局部區(qū)域內(nèi)的視覺特征描述符向量進(jìn)行聚類,得到視覺單詞詞匯表,然后再根據(jù)所述視覺單詞詞匯表中的視覺單詞對視覺特征描述符向量進(jìn)行歸類統(tǒng)計,生成倒排索引表,其中,所述倒排索引表以key-value鍵值對的形式表示;
所述檢索階段包括:
2.1)通過特征分類器提取出待檢索圖像,并從待檢索圖像中提取出局部區(qū)域圖像,然后分別計算每個局部區(qū)域圖像,得到對應(yīng)的視覺特征描述符向量;
2.2)利用索引階段生成的視覺單詞詞匯表對2.1)中所述的視覺特征描述符向量進(jìn)行歸類統(tǒng)計,得到相應(yīng)的key-value鍵值對;
2.3)采用分布式并行計算方式將2.2)中得到的key-value鍵值對與倒排索引表進(jìn)行匹配,得到相似圖像列表;
2.4)通過對相似圖像進(jìn)行相似度分?jǐn)?shù)計算,得到相似圖像的相似度排序。
優(yōu)選地,所述局部區(qū)域圖像包括額頭、左部眼睛區(qū)域、右部眼睛區(qū)域、鼻子、左嘴角及右嘴角。
優(yōu)選地,所述局部區(qū)域圖像還包括左眉毛、右眉毛、左耳朵、右耳朵、下頜、左臉頰、或右臉頰中的一種或多種。
優(yōu)選地,1.2)中還包括采用主成分分析法對所述視覺特征描述符向量進(jìn)行降維處理,使所述視覺特征描述符向量從128維降到64維。
優(yōu)選地,1.3)中key-value鍵值對包括key和value兩部分,其中,
所述key包括<局部區(qū)域ID_視覺單詞ID>;
所述value包括視覺單詞t的idf值,其中,N為訓(xùn)練圖像中所有人臉部位的總數(shù),dft為出現(xiàn)視覺單詞t的人臉部位個數(shù);
所述value還包括視覺單詞t出現(xiàn)過的人臉部位列表及記錄所述視覺單詞t在相似圖像d中的權(quán)重wft,d,其中,d為相似圖像,tft,d為視覺單詞t在相似圖像中出現(xiàn)的次數(shù)。
優(yōu)選地,所述相似度分?jǐn)?shù)是通過以視覺單詞為粒度的特征點相似度和以劃分的局部區(qū)域為粒度的區(qū)域相似度相結(jié)合的方式計算得到,其中,所述相似度分?jǐn)?shù)score(q,d)=λ·S(q,d)+(1-λ)·J(q,d),其中,S(q,d)為相似圖像d和待檢索圖像q在特征點粒度上的相似度權(quán)重,J(q,d)為待檢索圖像q和相似圖像d在局部區(qū)域粒度上的相似度權(quán)重,λ為平滑參數(shù),且0≤λ≤1。
優(yōu)選地,所述相似圖像d和待檢索圖像q在特征點粒度上的相似度權(quán)重其中,n為待檢索圖像q所有局部區(qū)域上的視覺單詞總數(shù),wft,d為視覺單詞t在相似圖像d中的權(quán)重,wt,q為視覺單詞t在待檢索圖像q中的權(quán)重。
優(yōu)選地,通過WF-IDF權(quán)重計算wt,q,公式為wt,q=wft,q·idf(t),其中,wft,d為視覺單詞t在相似圖像d中的權(quán)重,idf(t)為視覺單詞t的idf值。
優(yōu)選地,視覺單詞t在相似圖像d中的權(quán)重其中,d為相似圖像,tft,d為視覺單詞t在相似圖像d中出現(xiàn)的次數(shù)。
優(yōu)選地,視覺單詞t的idf值其中,N為訓(xùn)練圖像中所有人臉部位的總數(shù),dft為出現(xiàn)視覺單詞t的人臉部位個數(shù)。
優(yōu)選地,所述待檢索圖像q和相似圖像d在局部區(qū)域粒度上的相似度權(quán)重其中,P為局部區(qū)域的總數(shù),wj(q,d,k)為待檢索圖像q和相似圖像d在局部區(qū)域k中是否有相同的視覺單詞,如果有,wj(q,d,k)=1,否則wj(q,d,k)=0。
優(yōu)選地,0.6≤λ≤0.8。
如上所述,本發(fā)明的基于視覺詞袋模型的人臉圖像檢索方法,具有以下有益效果:
1.本發(fā)明所述檢索方法通過采用局部區(qū)域劃分方法將人臉部位劃分成多個局部區(qū)域圖像,在進(jìn)行人臉檢索時,不僅減少了視覺單詞噪點,還提高了檢索速度;而且劃分的局部區(qū)域數(shù)量越多,檢索速度提升越大。
2.本發(fā)明所述檢索方法通過對每個局部區(qū)域內(nèi)的視覺特征描述符向量進(jìn)行聚類,生成視覺單詞詞匯表,提高了運(yùn)行效率。
3.本發(fā)明所述檢索方法通過以視覺單詞為粒度的特征點相似度和以劃分的局部區(qū)域為粒度的區(qū)域相似度相結(jié)合的方式計算得到相似度分?jǐn)?shù),不僅考慮到特征點粒度的相似度,還考慮了局部區(qū)域粒度的相似度,大大提高了檢索結(jié)果的準(zhǔn)確率。
附圖說明
圖1顯示為本發(fā)明所述檢索方法中索引階段的流程圖。
圖2顯示為本發(fā)明所述檢索方法中檢索階段的流程圖。
圖3顯示為對兩張人臉圖像進(jìn)行局部區(qū)域粒度上的相似度權(quán)重計算結(jié)果示意圖。
元件標(biāo)號說明
1.1)~1.3) 步驟
2.1)~2.4) 步驟
具體實施方式
以下通過特定的具體實例說明本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實施方式加以實施或應(yīng)用,本說明書中的各項細(xì)節(jié)也可以基于不同觀點與應(yīng)用,在沒有背離本發(fā)明的精神下進(jìn)行各種修飾或改變。
請參閱圖1至圖3。需要說明的是,本實施例中所提供的圖示僅以示意方式說明本發(fā)明的基本構(gòu)想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。
如圖1和圖2所示,本實施例提供一種基于視覺詞袋模型的人臉圖像檢索方法,所述檢索方法包括:索引階段和檢索階段;其中,所述索引階段包括:
1.1)通過特征分類器對訓(xùn)練圖像中的任一張圖像提取出人臉部位,并從人臉部位中提取出局部區(qū)域圖像;
1.2)根據(jù)劃分的局部區(qū)域,分別計算每個局部區(qū)域內(nèi)的任一張局部區(qū)域圖像,得到對應(yīng)的視覺特征描述符向量;
1.3)采用聚類算法對每個局部區(qū)域內(nèi)的視覺特征描述符向量進(jìn)行聚類,得到視覺單詞詞匯表,然后再根據(jù)所述視覺單詞詞匯表中的視覺單詞對視覺特征描述符向量進(jìn)行歸類統(tǒng)計,生成倒排索引表,其中,所述倒排索引表以key-value鍵值對的形式表示;
所述檢索階段包括:
2.1)通過特征分類器提取出待檢索圖像,并從待檢索圖像中提取出局部區(qū)域圖像,然后分別計算每個局部區(qū)域圖像,得到對應(yīng)的視覺特征描述符向量;
2.2)利用索引階段生成的視覺單詞詞匯表對2.1)中所述的視覺特征描述符向量進(jìn)行歸類統(tǒng)計,得到相應(yīng)的key-value鍵值對;
2.3)采用分布式并行計算方式將2.2)中得到的key-value鍵值對與倒排索引表進(jìn)行匹配,得到相似圖像列表;
2.4)通過對相似圖像進(jìn)行相似度分?jǐn)?shù)計算,得到相似圖像的相似度排序。
作為示例,1.1)中所述特征分類器為任一種能實現(xiàn)對訓(xùn)練圖像提取出人臉部位的分類器,優(yōu)選地,在本實施例中,所述特征分類器為Haar特征分類器。
作為示例,所述局部區(qū)域圖像包括額頭、左部眼睛區(qū)域、右部眼睛區(qū)域、鼻子、左嘴角及右嘴角。
作為示例,所述局部區(qū)域圖像還包括左眉毛、右眉毛、左耳朵、右耳朵、下頜、左臉頰、或右臉頰中的一種或多種。
優(yōu)選地,在本實施例中,所述局部區(qū)域圖像包括額頭、左部眼睛區(qū)域、右部眼睛區(qū)域、鼻子、左嘴角、及右嘴角。
具體為通過Haar特征分類器對訓(xùn)練圖像中的每張圖像提取出人臉部位,然后在提取出的人臉部位上檢測出左部眼睛區(qū)域和右部眼睛區(qū)域,基于眼睛區(qū)域在人臉部位上的相對位置,根據(jù)普遍的人臉五官比例劃分出額頭、鼻子、左嘴角及右嘴角6個局部區(qū)域圖像。
作為示例,1.2)中處理局部區(qū)域圖像的方法為任一種能夠得到視覺特征描述符向量的方法,優(yōu)選地,在本實施例中,采用尺度不變特征轉(zhuǎn)換算子(SIFT:Scale-invariant feature transform)計算得到每張局部區(qū)域圖像對應(yīng)的視覺特征描述符向量,其中,所述視覺特征描述符向量為128維。
作為示例,1.2)中還包括采用主成分分析法(PCA:Principal components analysis)對所述視覺特征描述符向量進(jìn)行降維處理,使所述視覺特征描述符向量從128維降到64維。
需要說明的是,通過對所述視覺特征描述符向量進(jìn)行降維處理,大大提高了后續(xù)對視覺特征描述符向量處理的速度。
具體為根據(jù)1.1)中劃分的6個局部區(qū)域,采用SIFT算子分別計算出每個局部區(qū)域內(nèi)的所有局部區(qū)域圖像,得到對應(yīng)的視覺特征描述符向量,然后再通過PCA方法對128維的視覺特征描述符向量進(jìn)行降維,得到64維的視覺特征描述符向量。
作為示例,1.3)中所述聚類算法為任一種能實現(xiàn)對所述視覺特征描述符向量進(jìn)行聚類的算法,優(yōu)選地,在本實施例中,所述聚類算法為k-means(k-平均算法)聚類算法。
具體為采用k-means聚類算法對每個局部區(qū)域內(nèi)的視覺特征描述符向量進(jìn)行聚類,得到6個局部區(qū)域內(nèi)的視覺單詞詞匯表,然后再根據(jù)所述視覺單詞詞匯表中的視覺單詞對視覺特征描述符向量進(jìn)行歸類統(tǒng)計,生成倒排索引表,其中,所述倒排索引表以key-value鍵值對的形式表示,所述key-value鍵值對包括key和value兩部分,其中,
所述key包括<局部區(qū)域ID_視覺單詞ID>;
所述value包括視覺單詞t的idf值,其中,N為訓(xùn)練圖像中所有人臉部位的總數(shù),dft為出現(xiàn)視覺單詞t的人臉部位個數(shù);
所述value還包括視覺單詞t出現(xiàn)過的人臉部位列表及記錄所述視覺單詞t在相似圖像d中的權(quán)重wft,d,其中,d為相似圖像,tft,d為視覺單詞t在相似圖像中出現(xiàn)的次數(shù)。
需要說明的是,dft為出現(xiàn)視覺單詞t的人臉部位個數(shù),對于在所有人臉部位中極少出現(xiàn)的視覺單詞,其權(quán)重更高;而對于在所有人臉部位中普遍出現(xiàn)的視覺單詞,其權(quán)重更低。
需要說明的是,tft,d為視覺單詞t在相似圖像中出現(xiàn)的次數(shù),由于視覺單詞t所攜帶的信息量不應(yīng)該以次數(shù)成倍增減,因此,通過log函數(shù)降低次數(shù)的影響權(quán)重。
對于檢索階段,在進(jìn)行相似圖像檢索時,首先通過和索引階段的1.1)和1.2)相同的方法獲得與待檢索圖像的6個局部區(qū)域圖像對應(yīng)的視覺特征描述符向量;然后再利用索引階段生成的視覺單詞詞匯表,對待檢索圖像的6個視覺特征描述符向量進(jìn)行歸類統(tǒng)計,得到相應(yīng)的key-value鍵值對;再采用分布式并行計算方式將得到的key-value鍵值對與倒排索引表進(jìn)行匹配,得到相似圖像列表。
需要說明的是,通過分布式并行計算方式對倒排索引表進(jìn)行匹配,大大提高了檢索效率。
作為示例,2.4)中所述相似度分?jǐn)?shù)是通過以視覺單詞為粒度的特征點相似度和以劃分的局部區(qū)域為粒度的區(qū)域相似度相結(jié)合的方式計算得到,其中,所述相似度分?jǐn)?shù)score(q,d)=λ·S(q,d)+(1-λ)·J(q,d),其中,S(q,d)為相似圖像d和待檢索圖像q在特征點粒度上的相似度權(quán)重,J(q,d)為待檢索圖像q和相似圖像d在局部區(qū)域粒度上的相似度權(quán)重,λ為平滑參數(shù),且0≤λ≤1。
需要說明的是,所述相似度分?jǐn)?shù)越高,則說明相似圖像d與待檢索圖像q兩張人臉圖像的相似度越大,即兩張人臉圖像越相似;反之,則說明兩張人臉圖像的相似度越小。
需要說明的是,為了平衡S(q,d)和J(q,d)的相似得分權(quán)重,采用平滑參數(shù)λ對S(q,d)和J(q,d)兩部分的得分進(jìn)行平滑結(jié)合,其中,0.6≤λ≤0.8。
進(jìn)一步需要說明的是,根據(jù)相似度分?jǐn)?shù)計算公式,通過設(shè)計檢索樣本對訓(xùn)練圖像進(jìn)行檢索訓(xùn)練,調(diào)整S(q,d)和J(q,d)兩部分的得分權(quán)重,進(jìn)而得到接近最優(yōu)值的λ取值。
具體為采用LFW(Labeled Faces in the Wild Home)人臉數(shù)據(jù)庫作為有標(biāo)注的驗證集,并通過網(wǎng)絡(luò)爬蟲獲取網(wǎng)絡(luò)人臉圖像,獲得10萬張人臉圖像基礎(chǔ)數(shù)據(jù)集進(jìn)行實驗,再訓(xùn)練得到合適的λ值。
作為示例,所述相似圖像d和待檢索圖像q在特征點粒度上的相似度權(quán)重其中,n為待檢索圖像q所有局部區(qū)域上的視覺單詞總數(shù),wft,d為視覺單詞t在相似圖像d中的權(quán)重,wt,q為視覺單詞t在待檢索圖像q中的權(quán)重。
具體為通過WF-IDF權(quán)重計算wt,q,公式為wt,q=wft,q·idf(t),其中,wft,d為視覺單詞t在相似圖像d中的權(quán)重,idf(t)為視覺單詞t的idf值;所述視覺單詞t在相似圖像d中的權(quán)重其中,d為相似圖像,tft,d為視覺單詞t在相似圖像d中出現(xiàn)的次數(shù);所述視覺單詞t的idf值其中,N為訓(xùn)練圖像中所有人臉部位的總數(shù),dft為出現(xiàn)視覺單詞t的人臉部位個數(shù)。
需要說明的是,tft,d為視覺單詞t在相似圖像d中出現(xiàn)的次數(shù),由于視覺單詞t所攜帶的信息量不應(yīng)該以次數(shù)成倍增減,因此,通過log函數(shù)降低次數(shù)的影響權(quán)重。
需要說明的是,dft為出現(xiàn)視覺單詞t的人臉部位個數(shù),對于在所有人臉部位中極少出現(xiàn)的視覺單詞,其權(quán)重更高;而對于在所有人臉部位中普遍出現(xiàn)的視覺單詞,其權(quán)重更低。
作為示例,所述待檢索圖像q和相似圖像d在局部區(qū)域粒度上的相似度權(quán)重其中,P為局部區(qū)域的總數(shù),wj(q,d,k)為待檢索圖像q和相似圖像d在局部區(qū)域k中是否有相同的視覺單詞,如果有,wj(q,d,k)=1,否則wj(q,d,k)=0。
優(yōu)選地,在本實施例中,P=6。
如圖3所示,通過本實施例所述方法對兩張人臉圖像進(jìn)行局部區(qū)域粒度上的相似度權(quán)重計算,得到的J(q,d)值為2/6;其中,第一張人臉圖像和第二張人臉圖像中相同的局部區(qū)域圖像為鼻子和右部眼睛區(qū)域(即正視圖3時,從左往右的第一個眼睛)。
綜上所述,本發(fā)明的基于視覺詞袋模型的人臉圖像檢索方法,具有以下有益效果:
1.本發(fā)明所述檢索方法通過采用局部區(qū)域劃分方法將人臉部位劃分成多個局部區(qū)域圖像,在進(jìn)行人臉檢索時,不僅減少了視覺單詞噪點,還提高了檢索速度;而且劃分的局部區(qū)域數(shù)量越多,檢索速度提升越大。
2.本發(fā)明所述檢索方法通過對每個局部區(qū)域內(nèi)的視覺特征描述符向量進(jìn)行聚類,生成視覺單詞詞匯表,提高了運(yùn)行效率。
3.本發(fā)明所述檢索方法通過以視覺單詞為粒度的特征點相似度和以劃分的局部區(qū)域為粒度的區(qū)域相似度相結(jié)合的方式計算得到相似度分?jǐn)?shù),不僅考慮到特征點粒度的相似度,還考慮了局部區(qū)域粒度的相似度,大大提高了檢索結(jié)果的準(zhǔn)確率。
所以,本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點而具高度產(chǎn)業(yè)利用價值。
上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進(jìn)行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。