一種基于視頻信息的情緒識別與跟蹤方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于人機(jī)交互領(lǐng)域,具體涉及一種通用的基于視頻信息的情緒識別與跟蹤 方法。
【背景技術(shù)】
[0002] 隨著人機(jī)交互技術(shù)的發(fā)展,傳統(tǒng)的人機(jī)交互技術(shù)已經(jīng)逐漸向著智能交互和自然交 互等方向轉(zhuǎn)變。人機(jī)交互關(guān)注的重點(diǎn)也從定義交互方式,設(shè)計(jì)交互語義等發(fā)展為關(guān)注用戶 內(nèi)心情感,進(jìn)而挖掘用戶隱式需求等。實(shí)現(xiàn)自然人機(jī)交互的主要任務(wù)之一在于使計(jì)算機(jī)能 夠在與用戶交互的過程中自然地感知用戶的情感,追蹤其情感變化,進(jìn)而更主觀地與其進(jìn) 行思想上的交流及互動(dòng),或者推測用戶內(nèi)心的基本意愿等。由此可以看出,情緒識別在自然 人機(jī)交互中具有十分重要的意義。
[0003] 研宄表明,使用視覺信息進(jìn)行情感識別與分析比使用音頻或者其他輸入信息更加 準(zhǔn)確,穩(wěn)定。并且隨著網(wǎng)絡(luò)攝像頭的普及以及當(dāng)前處理器對于圖像處理能力的增強(qiáng),基于 視覺信息進(jìn)行準(zhǔn)確的情感識別已經(jīng)變得可行。目前,已經(jīng)有很多基于計(jì)算機(jī)視覺通道的自 然情緒識別方法。這些方法中的大部分致力于將情緒按類別進(jìn)行描述(如喜悅,悲傷,輕蔑 等),并取得了較高的準(zhǔn)確率,但是這些分類方法卻很難在連續(xù)情緒空間(如PAD情感空間 等)中對情緒進(jìn)行準(zhǔn)確的分析與跟蹤。除此之外,很多現(xiàn)有的方法可以在實(shí)驗(yàn)室中采集的 人工表演的表情數(shù)據(jù)上取得較高的識別效果,然而對于人機(jī)交互過程中的自然表情數(shù)據(jù), 這些方法卻很難達(dá)到與人工表演的表情數(shù)據(jù)相等同的識別精度。因此,有必要設(shè)計(jì)一個(gè)基 于視頻信息的情緒識別與跟蹤方法,使其能夠同時(shí)適應(yīng)離散情緒識別與連續(xù)情緒識別的要 求,并且使其能夠在處理自然表情時(shí)具有和處理人工表演的表情時(shí)相同的情感分析能力。
[0004] 基于視覺信息的情緒識別方法主要依靠的是從二維圖像中提取出來的視覺特征。 在日常交互過程中,用戶常常會出現(xiàn)頭部大幅度剛體變換,面外翻轉(zhuǎn),面部局部遮擋,以及 外部光照變化等情況。對于這些情況,二維圖像特征具有較弱的魯棒性,常常會造成情緒識 別的錯(cuò)誤。為了解決上述問題,部分方法采用深度攝像機(jī)進(jìn)行圖像采樣,并使用獲得的三維 視覺特征進(jìn)行情緒識別。這種方式增強(qiáng)了方法的穩(wěn)定性和準(zhǔn)確性,但是三維攝像機(jī)價(jià)格昂 貴而且體積較大,會對交互操作增加一定限制,大大降低用戶的使用體驗(yàn)。除此之外,相比 于已經(jīng)在各類終端完全普及的二維網(wǎng)絡(luò)攝像頭,三維攝像機(jī)并沒有完全普及,這也在一定 程度上限制了使用深度圖像特征提取設(shè)備的方法的普及與發(fā)展。因此,如何確定一種方式, 使其可以通過二維圖像恢復(fù)其對應(yīng)的三維特征,進(jìn)而使用恢復(fù)的三維特征對情緒進(jìn)行更加 魯棒的識別,同時(shí)不受到視頻采集設(shè)備的限制,也是當(dāng)前情緒識別領(lǐng)域亟待解決的問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明針對上述問題,提出一種基于視頻信息的情緒識別與跟蹤方法。該方法使 用普通二維攝像頭或者三維攝像頭對圖像信息進(jìn)行采集,借助三維頭部數(shù)據(jù)庫恢復(fù)個(gè)性化 的三維頭部模型,并使用機(jī)器學(xué)習(xí)模型同時(shí)對三維頭部關(guān)鍵點(diǎn)的位置以及用戶情緒進(jìn)行實(shí) 時(shí)估計(jì)與跟蹤。其特點(diǎn)在于,在同時(shí)不受到任何設(shè)備的制約的前提下,將三維信息引入到情 緒的識別與計(jì)算之中。該方法在離散情緒表達(dá)與連續(xù)情緒表達(dá)的場景下都有較好的識別效 果,同時(shí)可以很好地克服頭部大角度快速運(yùn)動(dòng),頭部面外翻轉(zhuǎn),以及外部光照變化等情況, 識別效果較為穩(wěn)定,并且可以在各種終端,各類場景中通用,甚至在移動(dòng)終端的交互場景中 也可以正常工作。
[0006] 本發(fā)明采用的技術(shù)方案如下:
[0007] -種基于視頻信息的情緒識別與跟蹤方法,該方法包括情緒識別模型的訓(xùn)練與在 線情緒估計(jì)與跟蹤兩部分,其中情緒識別模型的訓(xùn)練可以分為三維頭部建模,圖像融合情 感表達(dá),以及情緒識別模型構(gòu)建等內(nèi)容。下面進(jìn)行具體說明。
[0008] 1.三維頭部建模
[0009] 該步驟對獲取的二維或三維訓(xùn)練圖像進(jìn)行個(gè)性化三維頭部建模,具體步驟包括:
[0010] 1)對所選訓(xùn)練圖像的面部關(guān)鍵點(diǎn)進(jìn)行標(biāo)定;
[0011] 2)針對標(biāo)定后的圖像選擇二維頭部基本表情t吳型;
[0012] 3)在所選的三維頭部基本表情模型的輔助下,重建訓(xùn)練樣本的三維頭部模型。
[0013] 進(jìn)一步地,用于構(gòu)建情緒識別模型的圖像應(yīng)該能夠覆蓋大部分的情緒狀態(tài),包含 大角度的頭部剛體運(yùn)動(dòng)以及面外翻轉(zhuǎn)情況,以及包含光照變化,部分面部遮擋等情況。
[0014] 2.圖像融合情感表達(dá)
[0015] 為了充分排除其他特殊因素對于情緒的影響,該步驟使用合成的三維頭部模型作 為輔助,進(jìn)行圖像的融合,進(jìn)而獲取相應(yīng)情緒的動(dòng)態(tài)視覺特征。針對融合對象以及融合目的 的不同,融合的結(jié)果可以分為連續(xù)情感表達(dá)(Continuous Emotion Presentation,CEP)以 及與人無關(guān)的情感表達(dá)(User Independent Emotion Presentation,UIEP)兩種。其中,連 續(xù)情感表達(dá)旨在包含情緒在時(shí)序上的上下文信息,與人無關(guān)的情感表達(dá)旨在構(gòu)造與用戶個(gè) 性化特征無關(guān)的情緒特征。圖像融合的具體步驟包括:
[0016] 1)恢復(fù)每幅圖像的三維頭部模型;
[0017] 2)將恢復(fù)的三維頭部模型置于三維相機(jī)坐標(biāo)系的正交位置,并將位于正交位置的 頭部模型的三維關(guān)鍵點(diǎn)投影至攝像機(jī)的二維成像面坐標(biāo)系;
[0018] 3)計(jì)算投影后的關(guān)鍵點(diǎn)與原來圖像關(guān)鍵點(diǎn)對之間的單應(yīng)變換矩陣;
[0019] 4)通過計(jì)算得到的單應(yīng)變換矩陣,將訓(xùn)練樣本中的每幅二維圖像與其相鄰幀的頭 部區(qū)域變換至面部區(qū)域坐標(biāo)系的正交位置,這里的面部區(qū)域坐標(biāo)系以鼻尖點(diǎn)為坐標(biāo)原點(diǎn)。 隨后對得到的圖像進(jìn)行疊加,構(gòu)成融合情緒圖像。
[0020] 進(jìn)一步地,上述操作中圖像的疊加操作即為將不同圖像相同位置的圖像特征值疊 加,并取均值。對于頭部面外翻轉(zhuǎn)的情況,其進(jìn)行單應(yīng)性變化之后可能會對應(yīng)至原圖像中不 存在的區(qū)域,此時(shí)將對應(yīng)區(qū)域的圖像特征統(tǒng)一設(shè)定為某一定值。
[0021] 3.情緒識別模型構(gòu)建
[0022] 借助于重構(gòu)的三維頭部模型以及通過圖像融合得到的動(dòng)態(tài)視覺特征,一個(gè)可以同 時(shí)執(zhí)行三維關(guān)鍵點(diǎn)位置估計(jì)以及自然情緒估計(jì)的情緒識別模型得以被設(shè)計(jì)并實(shí)現(xiàn),其構(gòu)建 步驟為:
[0023] 1)對三維頭部模型進(jìn)行平移、旋轉(zhuǎn)等剛體變換,用以模擬其前后時(shí)刻可能出現(xiàn)的 位置區(qū)域,同時(shí)擴(kuò)充訓(xùn)練樣本的數(shù)量,進(jìn)而構(gòu)建出數(shù)量足夠的訓(xùn)練樣本集合;
[0024] 2)提取訓(xùn)練情緒識別模型所需的視覺特征;
[0025] 3)使用步驟1)生成的訓(xùn)練樣本集合以及步驟2)中提取的視覺特征訓(xùn)練情緒識別 模型。
[0026] 進(jìn)一步地,步驟2)中對應(yīng)的視覺特征不局限于融合圖像上的特征,也包括恢復(fù)的 三維頭部模型中對應(yīng)的一系列高維特征,如深度信息,三維頭部曲面參數(shù)等。
[0027] 進(jìn)一步地,步驟3)中對應(yīng)的情緒識別模型采用機(jī)器學(xué)習(xí)中的回歸模型。模型采 用多重回歸模式,在運(yùn)行過程中同時(shí)對三維頭部關(guān)鍵點(diǎn)的位置以及用戶情緒進(jìn)行估計(jì)和跟 蹤。為保證機(jī)器學(xué)習(xí)模型的準(zhǔn)確性與健壯性,隨機(jī)選取全部訓(xùn)練樣本中的一部分對情緒識 別模型進(jìn)行構(gòu)建以避免過擬合現(xiàn)象的發(fā)生。
[0028] 4.在線情緒估計(jì)與跟蹤
[0029] 基于構(gòu)造的情緒識別模型,用戶在交互行為中的情緒可以以一種回歸的方式被在 線地計(jì)算出來,即可實(shí)現(xiàn)在線情緒的識別與跟蹤。其步驟為:
[0030] 1)必要時(shí),進(jìn)行測試前的一系列預(yù)處理操作,如生成三維頭部模型恢復(fù)集,情緒恢 復(fù)集以及計(jì)算第一幀對應(yīng)的三維頭部模型及其情緒值等;
[0031] 2)結(jié)合當(dāng)前輸入幀圖像與其前面若干幀圖像及其對應(yīng)的三維頭部模型,計(jì)算當(dāng)前 時(shí)刻的連續(xù)情感表達(dá)圖像(CEP);
[0032] 3)在當(dāng)前時(shí)刻的連續(xù)情感表達(dá)圖像上提取測試特征;
[0033] 4)將測試特征置于回歸模型中,得到備選結(jié)果;
[0034] 5)將所有備選結(jié)果進(jìn)行篩選,排除不符合備選條件的結(jié)果。如果存在可以接受的 結(jié)果,則使用符合條件的所有備選結(jié)果計(jì)算三維關(guān)鍵點(diǎn)位置回歸量以及平均情緒回歸量, 否則執(zhí)行恢復(fù)操作;
[0035] 6)使用步驟5)計(jì)算得到的三維關(guān)鍵點(diǎn)位置回歸量以及情緒回歸量計(jì)算當(dāng)前時(shí)刻 的三維頭部模型以及當(dāng)前時(shí)刻的情緒值。將得到的當(dāng)前時(shí)刻的三維頭部模型以及情緒值作 為下一時(shí)刻的輸入,如此循環(huán)計(jì)算每一時(shí)刻的三維頭部模型及情緒值。
[0036] 進(jìn)一步地,步驟5)中篩選備選結(jié)果的目的在于拋棄對結(jié)果會產(chǎn)生負(fù)面影響的錯(cuò) 誤估計(jì)結(jié)果,只保留相對正確的備選結(jié)果。其中,可能出現(xiàn)沒有符合條件的備選結(jié)果或者出 現(xiàn)相鄰兩個(gè)時(shí)刻的情緒相差較大的情況,此時(shí)將會被認(rèn)為是跟蹤失敗。對于跟蹤失敗的情 況,需要執(zhí)行恢復(fù)操作,重新矯正當(dāng)前圖像對應(yīng)的三維頭部模型并使用校正后的三維模型 估算其情緒值。
[0037] 進(jìn)一步地,對于不同