本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音處理方法及裝置。
背景技術(shù):
隨著語音識別技術(shù)的發(fā)展,可以向具有語音識別功能的語音識別設(shè)備發(fā)送音頻信號。語音識別設(shè)備可以識別接收到的音頻信號,進(jìn)而根據(jù)識別結(jié)果進(jìn)行相應(yīng)的操作。
現(xiàn)有技術(shù)中,語音識別設(shè)備難以辨別用戶發(fā)出的音頻信號和非用戶發(fā)出的音頻信號,例如語音識別設(shè)備難以辨別用戶發(fā)出的音頻信號和電視中的人聲、歌曲等音頻信號。因此,如果語音識別設(shè)備接收到非用戶發(fā)出的音頻信號,也會識別接收到的音頻信號,從而導(dǎo)致音頻信號誤識別。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的多個方面提供一種語音處理方法及裝置,用以解決現(xiàn)有技術(shù)中,對非用戶發(fā)出的音頻信號進(jìn)行識別的技術(shù)問題。
本發(fā)明實(shí)施例提供一種語音處理方法,包括:
在采集音頻信號的過程中,對所述音頻信號所在方向上的用戶拍攝多張圖像;
從所述多張圖像中,識別所述用戶的唇部動作頻率;
根據(jù)所述唇部動作頻率,處理所述音頻信號。
可選地,所述根據(jù)所述唇部動作頻率,處理所述音頻信號,包括:
若所述唇部動作頻率在吐字頻率范圍之內(nèi),對所述音頻信號進(jìn)行語音識別;或者
若所述唇部動作頻率在吐字頻率范圍之外,丟棄所述音頻信號。
可選地,所述在采集音頻信號的過程中,對所述音頻信號所在方向上的用戶拍攝多張圖像,包括:
在采集音頻信號的過程中,在所述音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像;
根據(jù)所述初始圖像確定所述音頻信號所在方向上存在所述用戶;
對所述音頻信號所在方向上的所述用戶拍攝所述多張圖像。
可選地,所述從所述多張圖像中,識別所述用戶的唇部動作頻率,包括:
識別所述多張圖像中每張圖像里面所述用戶的唇部動作狀態(tài);
根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài)以及所述多張圖像的拍攝時間,計算所述用戶的唇部動作頻率。
可選地,所述用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài);
所述根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài)以及所述多張圖像的拍攝時間,計算所述用戶的唇部動作頻率,包括:
根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài),統(tǒng)計所述用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù);
根據(jù)所述變化次數(shù)和所述多張圖像的拍攝時間,計算所述用戶的唇部開合頻率。
可選地,所述識別所述多張圖像中每張圖像里面所述用戶的唇部動作狀態(tài),包括:
通過預(yù)先訓(xùn)練的圖像分類器,識別出每張圖像的狀態(tài)類別,所述狀態(tài)類別包括張開態(tài)或閉合態(tài);
根據(jù)每張圖像的狀態(tài)類別,確定每張圖像中所述用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài);
其中,所述張開態(tài)是指圖像中所述用戶的唇部特征點(diǎn)符合張開條件的圖像狀態(tài),所述閉合態(tài)是指圖像中所述用戶的唇部特征點(diǎn)符合閉合條件的圖像狀態(tài)。
本發(fā)明實(shí)施例還提供一種語音處理裝置,包括:
拍攝模塊,用于在采集音頻信號的過程中,對所述音頻信號所在方向上的用戶拍攝多張圖像;
識別模塊,用于從所述多張圖像中,識別所述用戶的唇部動作頻率;
處理模塊,用于根據(jù)所述唇部動作頻率,處理所述音頻信號。
可選地,所述處理模塊,具體用于:
若所述唇部動作頻率在吐字頻率范圍之內(nèi),對所述音頻信號進(jìn)行語音識別;或者
若所述唇部動作頻率在吐字頻率范圍之外,丟棄所述音頻信號。
可選地,所述拍攝模塊,具體用于:
在采集音頻信號的過程中,在所述音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像;
根據(jù)所述初始圖像確定所述音頻信號所在方向上存在所述用戶;
對所述音頻信號所在方向上的所述用戶拍攝所述多張圖像。
可選地,所述識別模塊包括:
狀態(tài)識別單元,用于識別所述多張圖像中每張圖像里面所述用戶的唇部動作狀態(tài);
頻率計算單元,用于根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài)以及所述多張圖像的拍攝時間,計算所述用戶的唇部動作頻率。
在本發(fā)明實(shí)施例中,通過在采集音頻信號的過程中,對音頻信號所在方向上的用戶拍攝多張圖像;再根據(jù)多張圖像中用戶的唇部動作頻率,處理音頻信號,使得在采集音頻信號的過程中,能夠根據(jù)用戶的唇部動作頻率判斷音頻信號所在方向上的用戶是否處于發(fā)聲狀態(tài),從而可以準(zhǔn)確辨別音頻信號為用戶發(fā)出的音頻信號還是非用戶發(fā)出的音頻信號,進(jìn)而對音頻信號進(jìn)行相應(yīng)地處理,解決了現(xiàn)有技術(shù)中音頻信號誤識別的技術(shù)問題。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1為本發(fā)明一實(shí)施例提供的語音處理方法的流程示意圖;
圖2為本發(fā)明又一實(shí)施例提供的語音處理方法的流程示意圖;
圖3為本發(fā)明又一實(shí)施例提供的語音處理裝置的模塊結(jié)構(gòu)圖;
圖4為本發(fā)明又一實(shí)施例提供的語音處理裝置的模塊結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明具體實(shí)施例及相應(yīng)的附圖對本發(fā)明技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
以下結(jié)合附圖,詳細(xì)說明本發(fā)明各實(shí)施例提供的技術(shù)方案。
圖1為本發(fā)明一實(shí)施例提供的語音處理方法的流程示意圖。如圖1所示,該方法包括以下步驟。
s101:在采集音頻信號的過程中,對音頻信號所在方向上的用戶拍攝多張圖像。
s102:從多張圖像中,識別用戶的唇部動作頻率。
s103:根據(jù)唇部動作頻率,處理音頻信號。
在步驟s101中,通過音頻信號采集設(shè)備監(jiān)聽音頻信號,當(dāng)監(jiān)聽到音頻信號時,對音頻信號進(jìn)行采集。在采集音頻信號的過程中,可以對音頻信號所在方向上的用戶拍攝多張圖像。其中,多張圖像可以指至少兩張圖像。
可選地,音頻信號采集設(shè)備可以獨(dú)立存在,也可以集成到其他設(shè)備中。例如,環(huán)形麥克分陣列屬于獨(dú)立存在的音頻信號采集設(shè)備,具備語音識別功能的機(jī)器人、手機(jī)等設(shè)備則集成了音頻信號采集設(shè)備?;诖?,可以在獨(dú)立的音頻信號采集設(shè)備上,或者具有語音識別功能的設(shè)備上安裝圖像拍攝設(shè)備,進(jìn)而通過圖像拍攝設(shè)備對音頻信號所在方向上的用戶拍攝多張圖像。
可選地,圖像拍攝設(shè)備包括但不限于攝像頭、相機(jī)、圖像掃描器等。
可選地,在音頻信號采集設(shè)備開始采集音頻信號時,通過圖像采集設(shè)備對音頻信號所在方向上的用戶拍攝多張圖像。在音頻信號采集設(shè)備停止采集音頻信號時,停止拍攝操作。這樣,可以實(shí)現(xiàn)在同一時間段采集音頻信號和拍攝多張圖像。
為了對音頻信號所在方向上的用戶拍攝圖像,可以采用聲源定位技術(shù),定位出音頻信號所在方向,進(jìn)而對音頻信號所在方向上的用戶拍攝多張圖像。其中,聲源定位技術(shù)包括但不限于基于可控波束形成器的源定位技術(shù)、基于高分辨率譜估計的源定位技術(shù)、基于時延估計的源定位技術(shù)等。
其中,多張圖像是識別用戶的唇部動作頻率的依據(jù)。為了準(zhǔn)確識別用戶的唇部動作頻率,優(yōu)選地,可以在采集音頻信號的過程中,連續(xù)拍攝多張圖像。也可以在采集音頻信號的過程中,間隔指定時間,對音頻信號所在方向上的用戶拍攝多張圖像。
人在發(fā)聲時與人不發(fā)聲時,唇部的動作頻率是不同的。例如,人在說“點(diǎn)歌”、“我在上班路上”時唇部的動作頻率較快,人在閉嘴或者打哈欠時,唇部的動作頻率較慢或者幾乎為零。基于此,可以從多張圖像中,識別用戶的唇部動作頻率;進(jìn)而根據(jù)唇部動作頻率,處理音頻信號。
可選地,可以根據(jù)唇部動作頻率判斷用戶是否處于發(fā)聲狀態(tài)。若判斷出用戶處于發(fā)聲狀態(tài),則音頻信號為用戶的語音信號,進(jìn)而對音頻信號進(jìn)行語音識別;
若根據(jù)唇部動作頻率判斷出用戶不處于發(fā)聲狀態(tài),則音頻信號不是用戶的語音信號,進(jìn)而不對音頻信號進(jìn)行語音識別。
本實(shí)施例中,通過在采集音頻信號的過程中,對音頻信號所在方向上的用戶拍攝多張圖像;再根據(jù)多張圖像中用戶的唇部動作頻率,處理音頻信號,使得在采集音頻信號的過程中,能夠根據(jù)用戶的唇部動作頻率判斷音頻信號所在方向上的用戶是否處于發(fā)聲狀態(tài),從而可以準(zhǔn)確辨別音頻信號為用戶發(fā)出的音頻信號還是非用戶發(fā)出的音頻信號,進(jìn)而對音頻信號進(jìn)行相應(yīng)地處理,解決了現(xiàn)有技術(shù)中音頻信號誤識別的技術(shù)問題。
在上述實(shí)施例或下述實(shí)施例中,根據(jù)唇部動作頻率,處理音頻信號,包括以下兩種實(shí)施方式。
第一種實(shí)施方式:若唇部動作頻率在吐字頻率范圍之內(nèi),對音頻信號進(jìn)行語音識別。
第二種實(shí)施方式:若唇部動作頻率在吐字頻率范圍之外,丟棄音頻信號。
可選地,吐字頻率可以指人們在說話時,發(fā)出單音節(jié)或者單字的頻率。以中文為例,一秒鐘的時間內(nèi)發(fā)出2個單字,則吐字頻率為2個/秒。考慮到有的人吐字頻率快、有的人吐字頻率慢,可以設(shè)置一吐字頻率范圍,例如0.5個/秒~4個/秒。吐字頻率范圍為人們處于發(fā)聲狀態(tài)時最大的吐字頻率與最小的吐字頻率之間的頻率范圍。
一般來說,人們每發(fā)出一個字,唇部就會動作一次。基于此,可以比較唇部動作頻率和吐字頻率范圍。若唇部動作頻率在吐字頻率范圍之內(nèi),意味著用戶處于發(fā)聲狀態(tài)。此時,采集的音頻信號可以認(rèn)為是用戶發(fā)出的音頻信號,則對音頻信號進(jìn)行語音識別。
若唇部動作頻率在吐字頻率范圍之外,也就是唇部動作頻率小于吐字頻率范圍的最小值,或者唇部動作頻率大于吐字頻率范圍的最大值時,意味著用戶在打哈欠或唇部抽搐,不處于發(fā)聲狀態(tài),進(jìn)而音頻信號為非用戶發(fā)出的音頻信號,則丟棄音頻信號,不對音頻信號進(jìn)行語音識別。
本實(shí)施例中,通過將唇部動作頻率與吐字頻率范圍相比,進(jìn)而能夠準(zhǔn)確辨別音頻信號是否為用戶發(fā)出的音頻信號,進(jìn)而識別或丟棄音頻信號。
在上述實(shí)施例或下述實(shí)施例中,在采集音頻信號的過程中,可以首先判定音頻信號所在方向上存在用戶,進(jìn)而對音頻信號所在方向上的用戶拍攝多張圖像。
首先,在采集音頻信號的過程中,在音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像;根據(jù)初始圖像確定音頻信號所在方向上存在用戶;對音頻信號所在方向上的用戶拍攝多張圖像。
在圖像拍攝設(shè)備來說,有些可以360度全景拍攝,但大部分的圖像拍攝設(shè)備的視角小于360度,只能拍攝到部分空間圖像。為了能夠拍攝到用戶,可以定位音頻信號所在方向,進(jìn)而對音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像。
可選地,音頻信號所在方向所屬的區(qū)域范圍可以指以音頻信號所在方向?yàn)橹行?,以指定距離為半徑的球體區(qū)域。
初始圖像用于判斷該區(qū)域范圍內(nèi)是否存在用戶??蛇x地,通過圖像識別技術(shù),識別初始圖像中是否存在用戶圖像。若存在,則判定音頻信號所在方向上存在用戶;若不存在,則判定音頻信號所在方向上不存在用戶。
當(dāng)音頻信號所在方向上存在用戶時,根據(jù)用戶圖像在初始圖像上的位置,確定用戶在音頻信號所在方向所屬的區(qū)域范圍內(nèi)的位置,進(jìn)而對音頻信號所在方向上的用戶拍攝多張圖像。
當(dāng)音頻信號所在方向上不存在用戶時,可以認(rèn)為采集到的音頻信號為非用戶發(fā)出的音頻信號,并丟棄該音頻信號。進(jìn)一步地,可以停止拍攝圖像。當(dāng)然,考慮到用戶可能暫時離開或者不久后出現(xiàn)在音頻信號所在方向上,則可以以低于拍攝多張圖像的頻率繼續(xù)拍攝音頻信號所在方向所屬的區(qū)域范圍內(nèi)的初始圖像,直到停止采集音頻信號。
在上述實(shí)施例或下述實(shí)施例中,唇部的動作頻率可以為唇部的動作狀態(tài)變化的頻率?;诖?,從多張圖像中,識別用戶的唇部動作頻率包括:識別多張圖像中每張圖像里面用戶的唇部動作狀態(tài);根據(jù)每張圖像里面用戶的唇部動作狀態(tài)以及多張圖像的拍攝時間,計算用戶的唇部動作頻率。
可選地,可以通過人臉識別技術(shù)從每張圖像里面識別出正面面部圖像,進(jìn)而分析正面面部圖像,以得到用戶的唇部特征點(diǎn)。然后,從唇部特征點(diǎn)中,提取唇部的形狀、輪廓等信息。再根據(jù)唇部的形狀、輪廓等信息確定唇部運(yùn)動狀態(tài)。
可選地,唇部運(yùn)動狀態(tài)包括但不限于抿嘴狀態(tài)、打開狀態(tài)、縮起狀態(tài)、撅起狀態(tài)等。
然后,根據(jù)每張圖像里面用戶的唇部動作狀態(tài),統(tǒng)計唇部動作狀態(tài)之間的變化次數(shù)。在一示例中,在采集音頻的過程中,共拍攝3張圖像。第1張圖像中用戶的唇部動作狀態(tài)為抿嘴狀態(tài),第二張圖像中用戶的唇部動作狀態(tài)為撅起狀態(tài),第三張圖像中用戶的唇部動作狀態(tài)為打開狀態(tài)。經(jīng)統(tǒng)計,在采集音頻的過程中,唇部動作狀態(tài)變化了兩次。
在統(tǒng)計出多張圖像中,唇部動作狀態(tài)之間的變化次數(shù)后,結(jié)合多張圖像的拍攝時間,計算用戶的唇部動作頻率。在一示例中,在采集音頻的過程中,拍攝3張圖像。唇部動作狀態(tài)之間的變化次數(shù)為3次,3張圖像的拍攝時間為1秒。則唇部動作頻率為3次/秒。
在上述實(shí)施例或下述實(shí)施例中,唇部動作狀態(tài)可以大體歸納為張開狀態(tài)或閉合狀態(tài)?;诖?,可以識別多張圖像中每張圖像里面用戶唇部的張開狀態(tài)或閉合狀態(tài);然后,根據(jù)每張圖像里面用戶唇部的張開狀態(tài)或閉合狀態(tài),以及多張圖像的拍攝時間,計算用戶的唇部動作頻率。
圖2為本發(fā)明又一實(shí)施例提供的語音處理方法的流程示意圖。如圖2所示,該方法包括以下步驟:
s201:在采集音頻信號的過程中,對音頻信號所在方向上的用戶拍攝多張圖像。
s202:通過預(yù)先訓(xùn)練的圖像分類器,識別出每張圖像的狀態(tài)類別,狀態(tài)類別包括張開態(tài)或閉合態(tài)。
s203:根據(jù)每張圖像的狀態(tài)類別,確定每張圖像中用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)。
s204:根據(jù)每張圖像里面用戶的唇部動作狀態(tài),統(tǒng)計用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)。
s205:根據(jù)變化次數(shù)和多張圖像的拍攝時間,計算用戶的唇部開合頻率。
s206:根據(jù)唇部動作頻率,處理音頻信號。
步驟s201與步驟s101相同,此處不再贅述。
在拍攝多張圖像之后,可以通過預(yù)先訓(xùn)練的圖像分類器識別出每張圖像的狀態(tài)類別,狀態(tài)類別包括張開態(tài)或閉合態(tài)(即步驟時s202)。其中,張開態(tài)是指圖像中用戶的唇部特征點(diǎn)符合張開條件的圖像狀態(tài),閉合態(tài)是指圖像中用戶的唇部特征點(diǎn)符合閉合條件的圖像狀態(tài)。
可選地,張開條件指唇部的開合幅度大于張開閾值;閉合條件指唇部的開合幅度小于閉合閾值。其中,可以根據(jù)唇部特征點(diǎn)確定唇部輪廓,進(jìn)而根據(jù)唇部輪廓得到唇部的開合幅度。
在使用圖像分類器識別每張圖像的狀態(tài)類別之前,可以先訓(xùn)練圖像分類器??蛇x地,可以將唇部特征點(diǎn)符合張開條件的圖像標(biāo)記為張開態(tài),將唇部特征點(diǎn)符合閉合條件的圖像標(biāo)記為閉合態(tài)。
然后,將張開態(tài)和閉合態(tài)的圖像作為訓(xùn)練集,訓(xùn)練圖像分類器,直到圖像分類器對圖像狀態(tài)進(jìn)行識別的準(zhǔn)確率達(dá)到指定比率,例如95%。
其中,圖像分類器可以包括但不限于支持向量機(jī)(supportvectormachine,svm)分類器、深度神經(jīng)網(wǎng)絡(luò)分類器、樸素貝葉斯分類器等。開發(fā)人員可以根據(jù)拍攝圖像的數(shù)據(jù)量、分類的實(shí)時性要求、硬件性能等因素綜合選擇合適的圖像分類器。
在使用圖像分類器識別每張圖像的狀態(tài)類別時,可以首先識別用戶的正面面部圖像;然后從正面面部圖像中,提取唇部特征點(diǎn);再根據(jù)唇部特征點(diǎn),將每張圖像的狀態(tài)類別分類為張開態(tài)或閉合態(tài)。
接著,根據(jù)每張圖像的狀態(tài)類別,確定每張圖像中用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)(即步驟s203)。也就是,若圖像的狀態(tài)類別為張開態(tài),則該圖像中用戶的唇部動作狀態(tài)為張開狀態(tài);若圖像的狀態(tài)類別為閉合態(tài),則該圖像中用戶的唇部動作狀態(tài)為閉合狀態(tài)。
接著,根據(jù)每張圖像里面用戶的唇部動作狀態(tài),統(tǒng)計用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)(即步驟s204),進(jìn)而,根據(jù)變化次數(shù)和多張圖像的拍攝時間,計算用戶的唇部開合頻率(即步驟s205)。
在一示例中,在采集音頻信號的過程中,拍攝4張圖像。每張圖像的用戶的唇部動作狀態(tài)依次為張開狀態(tài)、張開狀態(tài)、閉合狀態(tài)、張開狀態(tài)。經(jīng)統(tǒng)計,用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)為2次。結(jié)合4張圖像的拍攝時間1秒,計算出用戶的唇部開合頻率為2次/秒。
接著,根據(jù)唇部動作頻率,處理音頻信號(即步驟s206)。步驟s206與步驟s203相同,此處不再贅述。
本發(fā)明實(shí)施例還提供一種語音處理裝置300,如圖3所示,包括:拍攝模塊301、識別模塊302以及處理模塊303。
拍攝模塊301,用于在采集音頻信號的過程中,對音頻信號所在方向上的用戶拍攝多張圖像。
識別模塊302,用于從拍攝模塊301拍攝的多張圖像中,識別用戶的唇部動作頻率。
處理模塊303,用于根據(jù)識別模塊302識別出的唇部動作頻率,處理音頻信號。
本實(shí)施例中,通過在采集音頻信號的過程中,對音頻信號所在方向上的用戶拍攝多張圖像;再根據(jù)多張圖像中用戶的唇部動作頻率,處理音頻信號,使得在采集音頻信號的過程中,能夠根據(jù)用戶的唇部動作頻率判斷音頻信號所在方向上的用戶是否處于發(fā)聲狀態(tài),從而可以準(zhǔn)確辨別音頻信號為用戶發(fā)出的音頻信號還是非用戶發(fā)出的音頻信號,進(jìn)而對音頻信號進(jìn)行相應(yīng)地處理,解決了現(xiàn)有技術(shù)中音頻信號誤識別的技術(shù)問題。
可選地,處理模塊303在根據(jù)識別模塊302識別出的唇部動作頻率,處理音頻信號時,具體用于:若唇部動作頻率在吐字頻率范圍之內(nèi),對音頻信號進(jìn)行語音識別;或者若唇部動作頻率在吐字頻率范圍之外,丟棄音頻信號。
本實(shí)施例中,通過將唇部動作頻率與吐字頻率范圍相比,進(jìn)而能夠準(zhǔn)確辨別音頻信號是否為用戶發(fā)出的音頻信號,進(jìn)而識別或丟棄音頻信號。
可選地,拍攝模塊301在在采集音頻信號的過程中,對音頻信號所在方向上的用戶拍攝多張圖像時,具體用于:在采集音頻信號的過程中,在音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像;根據(jù)初始圖像確定音頻信號所在方向上存在用戶;對音頻信號所在方向上的用戶拍攝多張圖像。
可選地,如圖4所示,識別模塊302包括狀態(tài)識別單元3021和頻率計算單元3022。
其中,狀態(tài)識別單元3021,用于識別多張圖像中每張圖像里面用戶的唇部動作狀態(tài);
頻率計算單元3022,用于根據(jù)每張圖像里面用戶的唇部動作狀態(tài)以及多張圖像的拍攝時間,計算用戶的唇部動作頻率。
可選地,頻率計算單元3022具體用于根據(jù)每張圖像里面用戶的唇部動作狀態(tài),統(tǒng)計用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù);根據(jù)變化次數(shù)和多張圖像的拍攝時間,計算用戶的唇部開合頻率。其中,用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)。
可選地,狀態(tài)識別單元3021,具體用于通過預(yù)先訓(xùn)練的圖像分類器,識別出每張圖像的狀態(tài)類別,狀態(tài)類別包括張開態(tài)或閉合態(tài);根據(jù)每張圖像的狀態(tài)類別,確定每張圖像中用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài);其中,張開態(tài)是指圖像中用戶的唇部特征點(diǎn)符合張開條件的圖像狀態(tài),閉合態(tài)是指圖像中用戶的唇部特征點(diǎn)符合閉合條件的圖像狀態(tài)。
以上所述僅為本發(fā)明的實(shí)施例而已,并不用于限制本發(fā)明。對于本領(lǐng)域技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。