本發(fā)明涉及圖像識(shí)別技術(shù)領(lǐng)域,具體涉及一種人臉表情識(shí)別方法和人臉表情識(shí)別裝置。
背景技術(shù):
人臉表情識(shí)別技術(shù)是指對(duì)給定的人臉圖像指定一個(gè)表情類別,包括:憤怒,厭惡,開心,傷心,恐懼,驚訝等。目前,人臉表情識(shí)別技術(shù)在人機(jī)交互、臨床診斷、遠(yuǎn)程教育和偵查審訊等領(lǐng)域逐漸顯現(xiàn)廣闊的應(yīng)用前景,是計(jì)算機(jī)視覺和人工智能的熱門研究方向。
目前存在一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別方法,該人臉表情識(shí)別方法通過人臉圖像檢測(cè)、校準(zhǔn)后,將校準(zhǔn)后的人臉圖像輸入已訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行表情識(shí)別。在上述人臉表情識(shí)別方法中,深度卷積神經(jīng)網(wǎng)絡(luò)通過單幀圖像訓(xùn)練得到,而由于人臉的表情與場(chǎng)景上下文聯(lián)系緊密,且與對(duì)象的中性表情十分相關(guān),因此,通過上述人臉表情識(shí)別方法難以對(duì)中性表情進(jìn)行準(zhǔn)確識(shí)別,人臉表情的識(shí)別性能較差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種人臉表情識(shí)別方法和人臉表情識(shí)別裝置,用于提升人臉表情的識(shí)別性能。
本發(fā)明第一方面提供一種人臉表情識(shí)別方法,包括:
獲取待識(shí)別的人臉圖像序列,所述人臉圖像序列包含單幀或兩幀以上人臉圖像;
分別對(duì)所述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理;
將預(yù)處理后的各幀人臉圖像輸入已訓(xùn)練好的訓(xùn)練模型進(jìn)行表情識(shí)別,得到所述人臉圖像序列的表情識(shí)別結(jié)果;
其中,所述訓(xùn)練模型的輸入端到輸出端依次由卷積神經(jīng)網(wǎng)絡(luò)模型、長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型、第一池化層和邏輯回歸模型構(gòu)建,且所述訓(xùn)練模型通過標(biāo)注表情類別的連續(xù)幀圖像集合訓(xùn)練得到。
本發(fā)明第二方面提供一種人臉表情識(shí)別裝置,包括:
圖像獲取單元,用于獲取待識(shí)別的人臉圖像序列,所述人臉圖像序列包含單幀或兩幀以上人臉圖像;
圖像預(yù)處理單元,用于分別對(duì)所述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理;
識(shí)別處理單元,用于將預(yù)處理后的各幀人臉圖像輸入已訓(xùn)練好的訓(xùn)練模型進(jìn)行表情識(shí)別,得到所述人臉圖像序列的表情識(shí)別結(jié)果;
其中,所述訓(xùn)練模型的輸入端到輸出端依次由卷積神經(jīng)網(wǎng)絡(luò)模型、長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型、第一池化層和邏輯回歸模型構(gòu)建,且所述訓(xùn)練模型通過標(biāo)注表情類別的連續(xù)幀圖像集合訓(xùn)練得到。
由上可見,本發(fā)明中基于長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(lstm-rnn,longshorttermmemory-recurrentneuralnetworks)模型構(gòu)建訓(xùn)練模型,并將連續(xù)幀圖像集合(例如視頻)作為該訓(xùn)練模型的訓(xùn)練輸入,能夠使該訓(xùn)練模型充分利用臉部表情變化的動(dòng)態(tài)信息自動(dòng)學(xué)習(xí)識(shí)別對(duì)象的中性表情以及不同姿態(tài)表情特征之間的映射關(guān)系,從而提高該訓(xùn)練模型的預(yù)測(cè)精度和魯棒性,進(jìn)而提升人臉表情的識(shí)別性能。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1-a為本發(fā)明提供的一種人臉表情識(shí)別方法一個(gè)實(shí)施例流程示意圖;
圖1-b為本發(fā)明提供的應(yīng)用于圖1-a所示人臉表情識(shí)別方法的一種訓(xùn)練模型實(shí)施例結(jié)構(gòu)示意圖;
圖1-c為本發(fā)明提供的圖1-b所示的訓(xùn)練模型在一種應(yīng)用場(chǎng)景下的時(shí)序處理流向示意圖;
圖1-d為本發(fā)明提供的圖1-b所示的訓(xùn)練模型在另一種應(yīng)用場(chǎng)景下的時(shí)序處理流向示意圖;
圖1-e為本發(fā)明提供的應(yīng)用于圖1-b所示的訓(xùn)練模型的一種lstm-rnn模型結(jié)構(gòu)示意圖;
圖1-f為本發(fā)明提供的應(yīng)用于圖1-b所示的訓(xùn)練模型的一種cnn模型結(jié)構(gòu)示意圖;
圖2為本發(fā)明提供的一種人臉表情識(shí)別裝置一個(gè)實(shí)施例結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而非全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例一
本發(fā)明實(shí)例提供一種人臉表情識(shí)別方法。如圖1-a所示,本發(fā)明實(shí)施例中的人臉表情識(shí)別方法包括:
步驟101、獲取待識(shí)別的人臉圖像序列;
其中,上述人臉圖像序列包含單幀或兩幀以上人臉圖像。也即,本發(fā)明實(shí)施例中的人臉表情識(shí)別方法可以對(duì)連續(xù)的多幀人臉圖像(例如視頻)進(jìn)行識(shí)別,同時(shí),也兼容對(duì)單幀人臉圖像的識(shí)別。
在步驟101中,可以通過攝像頭實(shí)時(shí)獲取待識(shí)別的人臉圖像序列,或者,也可以通過接收來自外部設(shè)備的人臉圖像序列的方式,獲取待識(shí)別的人臉圖像序列,或者,也可以基于用戶在已有圖像數(shù)據(jù)庫(kù)或視頻數(shù)據(jù)庫(kù)中的選取來獲取待識(shí)別的人臉圖像序列,此處不作限定。
步驟102、分別對(duì)上述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理;
在步驟101獲取待識(shí)別的人臉圖像序列之后,分別對(duì)上述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理,以使得預(yù)處理后的人臉圖像能夠更適用于后續(xù)的表情識(shí)別,具體地,在不同的應(yīng)用場(chǎng)景下,對(duì)人臉圖像的預(yù)處理也可以采用相應(yīng)的處理方法。
例如,在一種實(shí)施例中,上述分別對(duì)上述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理具體可以包括如下兩個(gè)步驟:
步驟1、針對(duì)上述各幀人臉圖像中的每幀人臉圖像進(jìn)行人臉檢測(cè),確定人臉區(qū)域。上述人臉檢測(cè)的過程可以采用多種人臉檢測(cè)算法進(jìn)行實(shí)現(xiàn),例如基于haar-like特征的adaboost人臉檢測(cè)算法等?;谌四槞z測(cè)算法,可以以適當(dāng)大小的窗口和適當(dāng)?shù)牟介L(zhǎng)掃描輸入圖像(也即上述每幀人臉圖像),直到確定出該人臉圖像中的人臉區(qū)域(人臉區(qū)域也即人臉?biāo)诘膮^(qū)域)。
步驟2、檢測(cè)上述人臉區(qū)域中的關(guān)鍵特征點(diǎn),并基于檢測(cè)到的關(guān)鍵特征點(diǎn)對(duì)相應(yīng)的人臉圖像進(jìn)行對(duì)齊校準(zhǔn)。在人臉檢測(cè)的基礎(chǔ)上,進(jìn)一步確定人臉區(qū)域中的關(guān)鍵特征點(diǎn)(例如眼睛、眉毛、鼻子、嘴巴、臉部外輪廓等)的位置。根據(jù)在人臉區(qū)域中檢測(cè)到的關(guān)鍵特征點(diǎn),可通過剛體變換對(duì)相應(yīng)的人臉圖像進(jìn)行對(duì)齊校準(zhǔn),使得人臉在圖像中各關(guān)鍵特征點(diǎn)的位置基本一致。在本發(fā)明實(shí)施例中,具體可以采用landmark方法來進(jìn)行人臉圖像的對(duì)齊校準(zhǔn)。另外,在對(duì)人臉圖像進(jìn)行對(duì)齊校準(zhǔn)的過程中,還可以根據(jù)預(yù)置的人臉模型進(jìn)行關(guān)鍵特征點(diǎn)的定位調(diào)整。
進(jìn)一步,為了避免圖像大小不統(tǒng)一影響識(shí)別的結(jié)果,上述分別對(duì)上述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理還可以包括如下步驟:將步驟2對(duì)齊校準(zhǔn)后的人臉圖像按照預(yù)設(shè)的模板進(jìn)行編輯處理,以獲得統(tǒng)一大小的人臉圖像,其中,上述編輯處理包括如下一種或兩種以上:剪切處理、縮放處理。例如,在上述編輯處理過程中,基于檢測(cè)到的人臉區(qū)域中的關(guān)鍵特征點(diǎn),將相應(yīng)的人臉圖像按統(tǒng)一模板剪切出來,并將人臉圖像縮放到統(tǒng)一大小。
需要說明的是,若上述人臉圖像序列包含單幀人臉圖像,則上述分別對(duì)上述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理實(shí)際表現(xiàn)為對(duì)該單幀人臉圖像進(jìn)行預(yù)處理;若上述人臉圖像序列包含兩幀以上人臉圖像,則上述分別對(duì)上述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理實(shí)際表現(xiàn)為對(duì)上述兩幀以上人臉圖像中的各幀人臉圖像分別進(jìn)行預(yù)處理。
步驟103、將預(yù)處理后的各幀人臉圖像輸入已訓(xùn)練好的訓(xùn)練模型進(jìn)行表情識(shí)別,得到上述人臉圖像序列的表情識(shí)別結(jié)果;
在步驟103中,將步驟102預(yù)處理后的各幀人臉圖像輸入已訓(xùn)練好的訓(xùn)練模型進(jìn)行表情識(shí)別,獲得上述人臉圖像序列的表情識(shí)別結(jié)果。上述表情識(shí)別結(jié)果可指示上述人臉圖像序列所屬的表情類別,其中,存在的表情類別可包括但不限于:生氣、平靜、困惑、厭惡、快樂、難過、害怕、驚訝、斜眼和尖叫。
本發(fā)明實(shí)施中,如圖1-b所示,上述訓(xùn)練模型的輸入端到輸出端依次由卷積神經(jīng)網(wǎng)絡(luò)(cnn,convolutionalneuralnetwork)模型、長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型(即lstm-rnn模型)、第一池化層和邏輯回歸模型構(gòu)建。并且,上述訓(xùn)練模型通過標(biāo)注表情類別的連續(xù)幀圖像集合訓(xùn)練得到。由于上述訓(xùn)練模型是通過標(biāo)注表情類別的連續(xù)幀圖像集合訓(xùn)練得到,因此,一方面,上述訓(xùn)練模型可自動(dòng)學(xué)習(xí)時(shí)間尺度的依賴關(guān)系,充分利用臉部表情變化的動(dòng)態(tài)信息,聯(lián)系表情當(dāng)前幀的前后幀信息,使得表情識(shí)別更具魯棒性;另一方面,可以精確界定中性表情以消除不同對(duì)象之間表情張力與強(qiáng)度等不同所帶來的影響,提升識(shí)別準(zhǔn)確率;再一方面,由于連續(xù)幀圖像集合中的各幀圖像與所標(biāo)注的表情類別具有強(qiáng)相關(guān)性,因此,即使輸入的圖像序列存在扭曲失真也能夠?qū)崿F(xiàn)表情識(shí)別。
可選的,上述第一池化層可以為平均池化層或者最大值池化層或其它類型的池化層,此處不作限定。
可選的,若上述人臉圖像序列包含兩幀以上人臉圖像,則,上述將預(yù)處理后的各幀人臉圖像輸入已訓(xùn)練好的訓(xùn)練模型進(jìn)行人臉識(shí)別,包括:通過上述第一池化層對(duì)上述長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型輸入的上述各幀人臉圖像的人臉特征向量統(tǒng)一進(jìn)行降維處理,得到降維處理后的人臉特征向量;向上述邏輯回歸模型輸出上述降維處理后的人臉特征向量。下面以連續(xù)幀圖像(即輸入的人臉圖像序列包含兩幀以上人臉圖像)為例對(duì)該訓(xùn)練模型的時(shí)序處理流向進(jìn)行描述,如圖1-c所示的訓(xùn)練模型的時(shí)序處理流向示意圖,其中,x0,x1,...,xn是長(zhǎng)度為n幀的視頻的每個(gè)幀圖像,將各幀圖像經(jīng)cnn模塊提取的人臉特征向量按照時(shí)間順序依次輸入lstm模塊,將經(jīng)lstm模塊處理得到的不同時(shí)刻輸出的人臉特征向量h0,h1,...,hn經(jīng)過第一池化層統(tǒng)一進(jìn)行降維處理,得到用于表情分類的人臉特征向量h,最后將人臉特征向量h輸入邏輯回歸模型進(jìn)行邏輯回歸處理,得到該連續(xù)幀圖像的表情識(shí)別結(jié)果。當(dāng)輸入的人臉圖像序列為單幀人臉圖像(即上述n=1)時(shí),圖1-c所示的訓(xùn)練模型的時(shí)序處理流向示意圖可簡(jiǎn)化為如圖1-d所示的訓(xùn)練模型的時(shí)序處理流向示意圖。
本發(fā)明實(shí)施例中,上述訓(xùn)練模型所包含的lstm-rnn模型的結(jié)構(gòu)可以如圖1-e所示,包括:輸入門(即inputgate)、遺忘門(即forgetgate)、輸出門(即outputgate)、狀態(tài)單元(即cell)和lstm-rnn模型輸出結(jié)果。
對(duì)于輸入的人臉圖像序列包含兩幀以上人臉圖像的情況,上述輸入門、上述遺忘門、上述輸出門、上述狀態(tài)單元和上述lstm-rnn模型輸出結(jié)果的處理過程可以分別通過以下公式實(shí)現(xiàn):
it=σ(wixxt+wimmt-1+wicct-1+bi);
ft=σ(wfxxt+wfmmt-1+wfcct-1+bf);
ct=ft⊙ct-1+it⊙σ(wcxxt+wcmmt-1+bc);
ot=σ(woxxt+wommt-1+wocct-1+bo);
mt=ot⊙h(ct)。
其中,在上述公式中,xt表示為t時(shí)刻輸入的人臉特征向量;w(即wix、wim、wic、wfx、wfm、wfc、wcx、wcm、wox、wom和woc)為預(yù)設(shè)的權(quán)重矩陣,表示每個(gè)門的元素都是由對(duì)應(yīng)維數(shù)的數(shù)據(jù)得到,也就是說不同維數(shù)的節(jié)點(diǎn)之間互不干擾;b(即bi、bf、bc、bo)表示預(yù)設(shè)的偏置向量,it、ft、ot、ct、mt分別表示t時(shí)刻的上述輸入門、上述遺忘門、上述輸出門、上述狀態(tài)單元和上述lstm-rnn模型輸出結(jié)果的狀態(tài),⊙為點(diǎn)積,σ()為sigmoid函數(shù),h()為上述狀態(tài)單元的輸出激活函數(shù),該輸出激活函數(shù)具體可以為tanh函數(shù)。
可選的,對(duì)于輸入的人臉圖像序列包含單幀人臉圖像的情況,上述輸入門、上述遺忘門、上述輸出門、上述狀態(tài)單元和上述lstm-rnn模型輸出結(jié)果的處理過程還可以簡(jiǎn)化為如下公式實(shí)現(xiàn):
it=σ(wixxt+consatant1);
ft=σ(wfxxt+consatant2);
ct=ft⊙ct-1+it⊙σ(wcxxt+consatant3);
ot=σ(woxxt+wommt-1+consatant4);
mt=ot⊙h(ct)。
其中,在上述公式中,xt表示為t時(shí)刻輸入的人臉特征向量;w(即wix、wim、wic、wfx、wfm、wfc、wcx、wcm、wox、wom和woc)為預(yù)設(shè)的權(quán)重矩陣,表示每個(gè)門的元素都是由對(duì)應(yīng)維數(shù)的數(shù)據(jù)得到,也就是說不同維數(shù)的節(jié)點(diǎn)之間互不干擾;consatant(即consatant1、consatant2、consatant3和consatant4)為預(yù)設(shè)的常量,it、ft、ot、ct、mt分別表示t時(shí)刻的上述輸入門、上述遺忘門、上述輸出門、上述狀態(tài)單元和上述lstm-rnn模型輸出結(jié)果的狀態(tài),⊙為點(diǎn)積,σ()為sigmoid函數(shù),h()為上述狀態(tài)單元的輸出激活函數(shù),該輸出激活函數(shù)具體可以為tanh函數(shù)。
可選的,如圖1-f所示,上述cnn模型的輸入端到輸出端依次由第一卷積層、第二池化層、第二卷積層和第三池化層構(gòu)建。上述將預(yù)處理后的各幀人臉圖像輸入已訓(xùn)練好的訓(xùn)練模型進(jìn)行人臉識(shí)別,包括:向上述lstm-rnn模型輸出經(jīng)上述第三池化層處理后得到的人臉特征向量。其中,上述第二池化層和第三池化層可以為平均池化層或最大值池化層或其它類型的池化層,此處不作限定。當(dāng)然,在其它實(shí)施例中,上述cnn模型也可以參照已有的cnn模型構(gòu)建,此處不作限定。
下面對(duì)上述通過標(biāo)注表情類別的連續(xù)幀圖像集合對(duì)上述訓(xùn)練模型進(jìn)行訓(xùn)練的過程經(jīng)說明,具體可如下:1、收集一個(gè)或多個(gè)連續(xù)幀圖像集合(上述連續(xù)幀圖像集合可包含連續(xù)的幀圖像(例如視頻))以及每個(gè)連續(xù)幀圖像集合所屬的表情類別(同一連續(xù)幀圖像集合中的各個(gè)圖像所屬的表情類別相同),將各個(gè)連續(xù)幀圖像集合所屬的表情類別標(biāo)注為期望通過上述訓(xùn)練模型輸出的表情類別。本發(fā)明實(shí)施例中,可以預(yù)先設(shè)定多種表情類別(例如生氣、平靜、困惑、厭惡、快樂、難過、害怕、驚訝、斜眼和尖叫等),每種表情類別對(duì)應(yīng)一映射值。2、對(duì)上述連續(xù)幀圖像集合中的圖像進(jìn)行預(yù)處理(預(yù)處理的過程可以參照步驟102中的描述,此處不再贅述)。3、將預(yù)處理后的圖像輸入上述訓(xùn)練模型中,并基于反向傳播算法對(duì)該訓(xùn)練模型進(jìn)行訓(xùn)練,以使得輸入的圖像經(jīng)上述訓(xùn)練模型處理后輸出的值與該圖像所屬表情類別的映射值的偏差在預(yù)設(shè)的允許范圍內(nèi)。當(dāng)然,對(duì)訓(xùn)練模型的訓(xùn)練過程也可以參照其它已有的技術(shù)方案實(shí)現(xiàn),此處不作限定。
需要說明的是,本發(fā)明實(shí)施例中的人臉表情識(shí)別方法可以由人臉表情識(shí)別裝置執(zhí)行,上述人臉表情識(shí)別裝置可以集成在機(jī)器人、監(jiān)控終端或其它終端中,此處不作限定。
由上可見,本發(fā)明實(shí)施例中的人臉表情識(shí)別方法基于lstm-rnn模型構(gòu)建訓(xùn)練模型,并將連續(xù)幀圖像集合(例如視頻)作為該訓(xùn)練模型的訓(xùn)練輸入,能夠使該訓(xùn)練模型充分利用臉部表情變化的動(dòng)態(tài)信息自動(dòng)學(xué)習(xí)識(shí)別對(duì)象的中性表情以及不同姿態(tài)表情特征之間的映射關(guān)系,從而提高該訓(xùn)練模型的預(yù)測(cè)精度和魯棒性,進(jìn)而提升人臉表情的識(shí)別性能。
實(shí)施例二
本發(fā)明實(shí)例提供一種人臉表情識(shí)別裝置,如圖2所示,本發(fā)明實(shí)施例中的人臉表情識(shí)別裝置200包括:
圖像獲取單元201,用于獲取待識(shí)別的人臉圖像序列,所述人臉圖像序列包含單幀或兩幀以上人臉圖像;
圖像預(yù)處理單元202,用于分別對(duì)所述人臉圖像序列中的各幀人臉圖像進(jìn)行預(yù)處理;
識(shí)別處理單元203,用于將預(yù)處理后的各幀人臉圖像輸入已訓(xùn)練好的訓(xùn)練模型進(jìn)行表情識(shí)別,得到所述人臉圖像序列的表情識(shí)別結(jié)果;
其中,所述訓(xùn)練模型的輸入端到輸出端依次由卷積神經(jīng)網(wǎng)絡(luò)模型、長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型、第一池化層和邏輯回歸模型構(gòu)建,且所述訓(xùn)練模型通過標(biāo)注表情類別的連續(xù)幀圖像集合訓(xùn)練得到。
可選的,識(shí)別處理單元203具體用于:當(dāng)所述人臉圖像序列包含兩幀以上人臉圖像時(shí),通過所述第一池化層對(duì)所述長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型輸入的所述各幀人臉圖像的人臉特征向量統(tǒng)一進(jìn)行降維處理,得到降維處理后的人臉特征向量;向所述邏輯回歸模型輸出所述降維處理后的人臉特征向量。
可選的,所述卷積神經(jīng)網(wǎng)絡(luò)模型的輸入端到輸出端依次由第一卷積層、第二池化層、第二卷積層和第三池化層構(gòu)建;識(shí)別處理單元203具體用于:向所述長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型輸出經(jīng)所述第三池化層處理后得到的人臉特征向量。
可選的,圖像預(yù)處理單元202具體用于:針對(duì)所述各幀人臉圖像中的每幀人臉圖像進(jìn)行人臉檢測(cè),確定人臉區(qū)域;檢測(cè)所述人臉區(qū)域中的關(guān)鍵特征點(diǎn),并基于檢測(cè)到的關(guān)鍵特征點(diǎn)對(duì)相應(yīng)的人臉圖像進(jìn)行對(duì)齊校準(zhǔn)。
可選的,圖像預(yù)處理單元202具體還用于:將對(duì)齊校準(zhǔn)后的人臉圖像按照預(yù)設(shè)的模板進(jìn)行編輯處理,以獲得統(tǒng)一大小的人臉圖像,其中,所述編輯處理包括如下一種或兩種以上:剪切處理、縮放處理。
需要說明的是,本發(fā)明實(shí)施例中的人臉表情識(shí)別裝置可以集成在機(jī)器人、監(jiān)控終端或其它終端中。該人臉表情識(shí)別裝置的各個(gè)功能模塊的功能可以參照上述方法實(shí)施例中的描述,其具體實(shí)現(xiàn)過程可參照上述方法實(shí)施例中的相關(guān)描述,此處不再贅述。
由上可見,本發(fā)明實(shí)施例中的人臉表情識(shí)別裝置基于lstm-rnn模型構(gòu)建訓(xùn)練模型,并將連續(xù)幀圖像集合(例如視頻)作為該訓(xùn)練模型的訓(xùn)練輸入,能夠使該訓(xùn)練模型充分利用臉部表情變化的動(dòng)態(tài)信息自動(dòng)學(xué)習(xí)識(shí)別對(duì)象的中性表情以及不同姿態(tài)表情特征之間的映射關(guān)系,從而提高該訓(xùn)練模型的預(yù)測(cè)精度和魯棒性,進(jìn)而提升人臉表情的識(shí)別性能。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實(shí)現(xiàn)。
需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)便描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其它順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定都是本發(fā)明所必須的。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其它實(shí)施例的相關(guān)描述。
以上為對(duì)本發(fā)明所提供的一種人臉表情識(shí)別方法和人臉表情識(shí)別裝置的描述,對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實(shí)施例的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。