語音處理方法及裝置與流程

文檔序號：11202343閱讀：425來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識別技術(shù)領(lǐng)域，尤其涉及一種語音處理方法及裝置。

背景技術(shù)：

隨著語音識別技術(shù)的發(fā)展，可以向具有語音識別功能的語音識別設(shè)備發(fā)送音頻信號。語音識別設(shè)備可以識別接收到的音頻信號，進(jìn)而根據(jù)識別結(jié)果進(jìn)行相應(yīng)的操作。

現(xiàn)有技術(shù)中，語音識別設(shè)備難以辨別用戶發(fā)出的音頻信號和非用戶發(fā)出的音頻信號，例如語音識別設(shè)備難以辨別用戶發(fā)出的音頻信號和電視中的人聲、歌曲等音頻信號。因此，如果語音識別設(shè)備接收到非用戶發(fā)出的音頻信號，也會識別接收到的音頻信號，從而導(dǎo)致音頻信號誤識別。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的多個方面提供一種語音處理方法及裝置，用以解決現(xiàn)有技術(shù)中，對非用戶發(fā)出的音頻信號進(jìn)行識別的技術(shù)問題。

本發(fā)明實(shí)施例提供一種語音處理方法，包括：

在采集音頻信號的過程中，對所述音頻信號所在方向上的用戶拍攝多張圖像；

從所述多張圖像中，識別所述用戶的唇部動作頻率；

根據(jù)所述唇部動作頻率，處理所述音頻信號。

可選地，所述根據(jù)所述唇部動作頻率，處理所述音頻信號，包括：

若所述唇部動作頻率在吐字頻率范圍之內(nèi)，對所述音頻信號進(jìn)行語音識別；或者

若所述唇部動作頻率在吐字頻率范圍之外，丟棄所述音頻信號。

可選地，所述在采集音頻信號的過程中，對所述音頻信號所在方向上的用戶拍攝多張圖像，包括：

在采集音頻信號的過程中，在所述音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像；

根據(jù)所述初始圖像確定所述音頻信號所在方向上存在所述用戶；

對所述音頻信號所在方向上的所述用戶拍攝所述多張圖像。

可選地，所述從所述多張圖像中，識別所述用戶的唇部動作頻率，包括：

識別所述多張圖像中每張圖像里面所述用戶的唇部動作狀態(tài)；

根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài)以及所述多張圖像的拍攝時間，計算所述用戶的唇部動作頻率。

可選地，所述用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)；

所述根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài)以及所述多張圖像的拍攝時間，計算所述用戶的唇部動作頻率，包括：

根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài)，統(tǒng)計所述用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)；

根據(jù)所述變化次數(shù)和所述多張圖像的拍攝時間，計算所述用戶的唇部開合頻率。

可選地，所述識別所述多張圖像中每張圖像里面所述用戶的唇部動作狀態(tài)，包括：

通過預(yù)先訓(xùn)練的圖像分類器，識別出每張圖像的狀態(tài)類別，所述狀態(tài)類別包括張開態(tài)或閉合態(tài)；

根據(jù)每張圖像的狀態(tài)類別，確定每張圖像中所述用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)；

其中，所述張開態(tài)是指圖像中所述用戶的唇部特征點(diǎn)符合張開條件的圖像狀態(tài)，所述閉合態(tài)是指圖像中所述用戶的唇部特征點(diǎn)符合閉合條件的圖像狀態(tài)。

本發(fā)明實(shí)施例還提供一種語音處理裝置，包括：

拍攝模塊，用于在采集音頻信號的過程中，對所述音頻信號所在方向上的用戶拍攝多張圖像；

識別模塊，用于從所述多張圖像中，識別所述用戶的唇部動作頻率；

處理模塊，用于根據(jù)所述唇部動作頻率，處理所述音頻信號。

可選地，所述處理模塊，具體用于：

若所述唇部動作頻率在吐字頻率范圍之內(nèi)，對所述音頻信號進(jìn)行語音識別；或者

若所述唇部動作頻率在吐字頻率范圍之外，丟棄所述音頻信號。

可選地，所述拍攝模塊，具體用于：

在采集音頻信號的過程中，在所述音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像；

根據(jù)所述初始圖像確定所述音頻信號所在方向上存在所述用戶；

對所述音頻信號所在方向上的所述用戶拍攝所述多張圖像。

可選地，所述識別模塊包括：

狀態(tài)識別單元，用于識別所述多張圖像中每張圖像里面所述用戶的唇部動作狀態(tài)；

頻率計算單元，用于根據(jù)每張圖像里面所述用戶的唇部動作狀態(tài)以及所述多張圖像的拍攝時間，計算所述用戶的唇部動作頻率。

在本發(fā)明實(shí)施例中，通過在采集音頻信號的過程中，對音頻信號所在方向上的用戶拍攝多張圖像；再根據(jù)多張圖像中用戶的唇部動作頻率，處理音頻信號，使得在采集音頻信號的過程中，能夠根據(jù)用戶的唇部動作頻率判斷音頻信號所在方向上的用戶是否處于發(fā)聲狀態(tài)，從而可以準(zhǔn)確辨別音頻信號為用戶發(fā)出的音頻信號還是非用戶發(fā)出的音頻信號，進(jìn)而對音頻信號進(jìn)行相應(yīng)地處理，解決了現(xiàn)有技術(shù)中音頻信號誤識別的技術(shù)問題。

附圖說明

此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解，構(gòu)成本發(fā)明的一部分，本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中：

圖1為本發(fā)明一實(shí)施例提供的語音處理方法的流程示意圖；

圖2為本發(fā)明又一實(shí)施例提供的語音處理方法的流程示意圖；

圖3為本發(fā)明又一實(shí)施例提供的語音處理裝置的模塊結(jié)構(gòu)圖；

圖4為本發(fā)明又一實(shí)施例提供的語音處理裝置的模塊結(jié)構(gòu)圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明具體實(shí)施例及相應(yīng)的附圖對本發(fā)明技術(shù)方案進(jìn)行清楚、完整地描述。顯然，所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

以下結(jié)合附圖，詳細(xì)說明本發(fā)明各實(shí)施例提供的技術(shù)方案。

圖1為本發(fā)明一實(shí)施例提供的語音處理方法的流程示意圖。如圖1所示，該方法包括以下步驟。

s101：在采集音頻信號的過程中，對音頻信號所在方向上的用戶拍攝多張圖像。

s102：從多張圖像中，識別用戶的唇部動作頻率。

s103：根據(jù)唇部動作頻率，處理音頻信號。

在步驟s101中，通過音頻信號采集設(shè)備監(jiān)聽音頻信號，當(dāng)監(jiān)聽到音頻信號時，對音頻信號進(jìn)行采集。在采集音頻信號的過程中，可以對音頻信號所在方向上的用戶拍攝多張圖像。其中，多張圖像可以指至少兩張圖像。

可選地，音頻信號采集設(shè)備可以獨(dú)立存在，也可以集成到其他設(shè)備中。例如，環(huán)形麥克分陣列屬于獨(dú)立存在的音頻信號采集設(shè)備，具備語音識別功能的機(jī)器人、手機(jī)等設(shè)備則集成了音頻信號采集設(shè)備?；诖?，可以在獨(dú)立的音頻信號采集設(shè)備上，或者具有語音識別功能的設(shè)備上安裝圖像拍攝設(shè)備，進(jìn)而通過圖像拍攝設(shè)備對音頻信號所在方向上的用戶拍攝多張圖像。

可選地，圖像拍攝設(shè)備包括但不限于攝像頭、相機(jī)、圖像掃描器等。

可選地，在音頻信號采集設(shè)備開始采集音頻信號時，通過圖像采集設(shè)備對音頻信號所在方向上的用戶拍攝多張圖像。在音頻信號采集設(shè)備停止采集音頻信號時，停止拍攝操作。這樣，可以實(shí)現(xiàn)在同一時間段采集音頻信號和拍攝多張圖像。

為了對音頻信號所在方向上的用戶拍攝圖像，可以采用聲源定位技術(shù)，定位出音頻信號所在方向，進(jìn)而對音頻信號所在方向上的用戶拍攝多張圖像。其中，聲源定位技術(shù)包括但不限于基于可控波束形成器的源定位技術(shù)、基于高分辨率譜估計的源定位技術(shù)、基于時延估計的源定位技術(shù)等。

其中，多張圖像是識別用戶的唇部動作頻率的依據(jù)。為了準(zhǔn)確識別用戶的唇部動作頻率，優(yōu)選地，可以在采集音頻信號的過程中，連續(xù)拍攝多張圖像。也可以在采集音頻信號的過程中，間隔指定時間，對音頻信號所在方向上的用戶拍攝多張圖像。

人在發(fā)聲時與人不發(fā)聲時，唇部的動作頻率是不同的。例如，人在說“點(diǎn)歌”、“我在上班路上”時唇部的動作頻率較快，人在閉嘴或者打哈欠時，唇部的動作頻率較慢或者幾乎為零。基于此，可以從多張圖像中，識別用戶的唇部動作頻率；進(jìn)而根據(jù)唇部動作頻率，處理音頻信號。

可選地，可以根據(jù)唇部動作頻率判斷用戶是否處于發(fā)聲狀態(tài)。若判斷出用戶處于發(fā)聲狀態(tài)，則音頻信號為用戶的語音信號，進(jìn)而對音頻信號進(jìn)行語音識別；

若根據(jù)唇部動作頻率判斷出用戶不處于發(fā)聲狀態(tài)，則音頻信號不是用戶的語音信號，進(jìn)而不對音頻信號進(jìn)行語音識別。

本實(shí)施例中，通過在采集音頻信號的過程中，對音頻信號所在方向上的用戶拍攝多張圖像；再根據(jù)多張圖像中用戶的唇部動作頻率，處理音頻信號，使得在采集音頻信號的過程中，能夠根據(jù)用戶的唇部動作頻率判斷音頻信號所在方向上的用戶是否處于發(fā)聲狀態(tài)，從而可以準(zhǔn)確辨別音頻信號為用戶發(fā)出的音頻信號還是非用戶發(fā)出的音頻信號，進(jìn)而對音頻信號進(jìn)行相應(yīng)地處理，解決了現(xiàn)有技術(shù)中音頻信號誤識別的技術(shù)問題。

在上述實(shí)施例或下述實(shí)施例中，根據(jù)唇部動作頻率，處理音頻信號，包括以下兩種實(shí)施方式。

第一種實(shí)施方式：若唇部動作頻率在吐字頻率范圍之內(nèi)，對音頻信號進(jìn)行語音識別。

第二種實(shí)施方式：若唇部動作頻率在吐字頻率范圍之外，丟棄音頻信號。

可選地，吐字頻率可以指人們在說話時，發(fā)出單音節(jié)或者單字的頻率。以中文為例，一秒鐘的時間內(nèi)發(fā)出2個單字，則吐字頻率為2個/秒。考慮到有的人吐字頻率快、有的人吐字頻率慢，可以設(shè)置一吐字頻率范圍，例如0.5個/秒～4個/秒。吐字頻率范圍為人們處于發(fā)聲狀態(tài)時最大的吐字頻率與最小的吐字頻率之間的頻率范圍。

一般來說，人們每發(fā)出一個字，唇部就會動作一次。基于此，可以比較唇部動作頻率和吐字頻率范圍。若唇部動作頻率在吐字頻率范圍之內(nèi)，意味著用戶處于發(fā)聲狀態(tài)。此時，采集的音頻信號可以認(rèn)為是用戶發(fā)出的音頻信號，則對音頻信號進(jìn)行語音識別。

若唇部動作頻率在吐字頻率范圍之外，也就是唇部動作頻率小于吐字頻率范圍的最小值，或者唇部動作頻率大于吐字頻率范圍的最大值時，意味著用戶在打哈欠或唇部抽搐，不處于發(fā)聲狀態(tài)，進(jìn)而音頻信號為非用戶發(fā)出的音頻信號，則丟棄音頻信號，不對音頻信號進(jìn)行語音識別。

本實(shí)施例中，通過將唇部動作頻率與吐字頻率范圍相比，進(jìn)而能夠準(zhǔn)確辨別音頻信號是否為用戶發(fā)出的音頻信號，進(jìn)而識別或丟棄音頻信號。

在上述實(shí)施例或下述實(shí)施例中，在采集音頻信號的過程中，可以首先判定音頻信號所在方向上存在用戶，進(jìn)而對音頻信號所在方向上的用戶拍攝多張圖像。

首先，在采集音頻信號的過程中，在音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像；根據(jù)初始圖像確定音頻信號所在方向上存在用戶；對音頻信號所在方向上的用戶拍攝多張圖像。

在圖像拍攝設(shè)備來說，有些可以360度全景拍攝，但大部分的圖像拍攝設(shè)備的視角小于360度，只能拍攝到部分空間圖像。為了能夠拍攝到用戶，可以定位音頻信號所在方向，進(jìn)而對音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像。

可選地，音頻信號所在方向所屬的區(qū)域范圍可以指以音頻信號所在方向?yàn)橹行?，以指定距離為半徑的球體區(qū)域。

初始圖像用于判斷該區(qū)域范圍內(nèi)是否存在用戶?？蛇x地，通過圖像識別技術(shù)，識別初始圖像中是否存在用戶圖像。若存在，則判定音頻信號所在方向上存在用戶；若不存在，則判定音頻信號所在方向上不存在用戶。

當(dāng)音頻信號所在方向上存在用戶時，根據(jù)用戶圖像在初始圖像上的位置，確定用戶在音頻信號所在方向所屬的區(qū)域范圍內(nèi)的位置，進(jìn)而對音頻信號所在方向上的用戶拍攝多張圖像。

當(dāng)音頻信號所在方向上不存在用戶時，可以認(rèn)為采集到的音頻信號為非用戶發(fā)出的音頻信號，并丟棄該音頻信號。進(jìn)一步地，可以停止拍攝圖像。當(dāng)然，考慮到用戶可能暫時離開或者不久后出現(xiàn)在音頻信號所在方向上，則可以以低于拍攝多張圖像的頻率繼續(xù)拍攝音頻信號所在方向所屬的區(qū)域范圍內(nèi)的初始圖像，直到停止采集音頻信號。

在上述實(shí)施例或下述實(shí)施例中，唇部的動作頻率可以為唇部的動作狀態(tài)變化的頻率?；诖?，從多張圖像中，識別用戶的唇部動作頻率包括：識別多張圖像中每張圖像里面用戶的唇部動作狀態(tài)；根據(jù)每張圖像里面用戶的唇部動作狀態(tài)以及多張圖像的拍攝時間，計算用戶的唇部動作頻率。

可選地，可以通過人臉識別技術(shù)從每張圖像里面識別出正面面部圖像，進(jìn)而分析正面面部圖像，以得到用戶的唇部特征點(diǎn)。然后，從唇部特征點(diǎn)中，提取唇部的形狀、輪廓等信息。再根據(jù)唇部的形狀、輪廓等信息確定唇部運(yùn)動狀態(tài)。

可選地，唇部運(yùn)動狀態(tài)包括但不限于抿嘴狀態(tài)、打開狀態(tài)、縮起狀態(tài)、撅起狀態(tài)等。

然后，根據(jù)每張圖像里面用戶的唇部動作狀態(tài)，統(tǒng)計唇部動作狀態(tài)之間的變化次數(shù)。在一示例中，在采集音頻的過程中，共拍攝3張圖像。第1張圖像中用戶的唇部動作狀態(tài)為抿嘴狀態(tài)，第二張圖像中用戶的唇部動作狀態(tài)為撅起狀態(tài)，第三張圖像中用戶的唇部動作狀態(tài)為打開狀態(tài)。經(jīng)統(tǒng)計，在采集音頻的過程中，唇部動作狀態(tài)變化了兩次。

在統(tǒng)計出多張圖像中，唇部動作狀態(tài)之間的變化次數(shù)后，結(jié)合多張圖像的拍攝時間，計算用戶的唇部動作頻率。在一示例中，在采集音頻的過程中，拍攝3張圖像。唇部動作狀態(tài)之間的變化次數(shù)為3次，3張圖像的拍攝時間為1秒。則唇部動作頻率為3次/秒。

在上述實(shí)施例或下述實(shí)施例中，唇部動作狀態(tài)可以大體歸納為張開狀態(tài)或閉合狀態(tài)?；诖?，可以識別多張圖像中每張圖像里面用戶唇部的張開狀態(tài)或閉合狀態(tài)；然后，根據(jù)每張圖像里面用戶唇部的張開狀態(tài)或閉合狀態(tài)，以及多張圖像的拍攝時間，計算用戶的唇部動作頻率。

圖2為本發(fā)明又一實(shí)施例提供的語音處理方法的流程示意圖。如圖2所示，該方法包括以下步驟：

s201：在采集音頻信號的過程中，對音頻信號所在方向上的用戶拍攝多張圖像。

s202：通過預(yù)先訓(xùn)練的圖像分類器，識別出每張圖像的狀態(tài)類別，狀態(tài)類別包括張開態(tài)或閉合態(tài)。

s203：根據(jù)每張圖像的狀態(tài)類別，確定每張圖像中用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)。

s204：根據(jù)每張圖像里面用戶的唇部動作狀態(tài)，統(tǒng)計用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)。

s205：根據(jù)變化次數(shù)和多張圖像的拍攝時間，計算用戶的唇部開合頻率。

s206：根據(jù)唇部動作頻率，處理音頻信號。

步驟s201與步驟s101相同，此處不再贅述。

在拍攝多張圖像之后，可以通過預(yù)先訓(xùn)練的圖像分類器識別出每張圖像的狀態(tài)類別，狀態(tài)類別包括張開態(tài)或閉合態(tài)(即步驟時s202)。其中，張開態(tài)是指圖像中用戶的唇部特征點(diǎn)符合張開條件的圖像狀態(tài)，閉合態(tài)是指圖像中用戶的唇部特征點(diǎn)符合閉合條件的圖像狀態(tài)。

可選地，張開條件指唇部的開合幅度大于張開閾值；閉合條件指唇部的開合幅度小于閉合閾值。其中，可以根據(jù)唇部特征點(diǎn)確定唇部輪廓，進(jìn)而根據(jù)唇部輪廓得到唇部的開合幅度。

在使用圖像分類器識別每張圖像的狀態(tài)類別之前，可以先訓(xùn)練圖像分類器?？蛇x地，可以將唇部特征點(diǎn)符合張開條件的圖像標(biāo)記為張開態(tài)，將唇部特征點(diǎn)符合閉合條件的圖像標(biāo)記為閉合態(tài)。

然后，將張開態(tài)和閉合態(tài)的圖像作為訓(xùn)練集，訓(xùn)練圖像分類器，直到圖像分類器對圖像狀態(tài)進(jìn)行識別的準(zhǔn)確率達(dá)到指定比率，例如95％。

其中，圖像分類器可以包括但不限于支持向量機(jī)(supportvectormachine，svm)分類器、深度神經(jīng)網(wǎng)絡(luò)分類器、樸素貝葉斯分類器等。開發(fā)人員可以根據(jù)拍攝圖像的數(shù)據(jù)量、分類的實(shí)時性要求、硬件性能等因素綜合選擇合適的圖像分類器。

在使用圖像分類器識別每張圖像的狀態(tài)類別時，可以首先識別用戶的正面面部圖像；然后從正面面部圖像中，提取唇部特征點(diǎn)；再根據(jù)唇部特征點(diǎn)，將每張圖像的狀態(tài)類別分類為張開態(tài)或閉合態(tài)。

接著，根據(jù)每張圖像的狀態(tài)類別，確定每張圖像中用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)(即步驟s203)。也就是，若圖像的狀態(tài)類別為張開態(tài)，則該圖像中用戶的唇部動作狀態(tài)為張開狀態(tài)；若圖像的狀態(tài)類別為閉合態(tài)，則該圖像中用戶的唇部動作狀態(tài)為閉合狀態(tài)。

接著，根據(jù)每張圖像里面用戶的唇部動作狀態(tài)，統(tǒng)計用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)(即步驟s204)，進(jìn)而，根據(jù)變化次數(shù)和多張圖像的拍攝時間，計算用戶的唇部開合頻率(即步驟s205)。

在一示例中，在采集音頻信號的過程中，拍攝4張圖像。每張圖像的用戶的唇部動作狀態(tài)依次為張開狀態(tài)、張開狀態(tài)、閉合狀態(tài)、張開狀態(tài)。經(jīng)統(tǒng)計，用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)為2次。結(jié)合4張圖像的拍攝時間1秒，計算出用戶的唇部開合頻率為2次/秒。

接著，根據(jù)唇部動作頻率，處理音頻信號(即步驟s206)。步驟s206與步驟s203相同，此處不再贅述。

本發(fā)明實(shí)施例還提供一種語音處理裝置300，如圖3所示，包括：拍攝模塊301、識別模塊302以及處理模塊303。

拍攝模塊301，用于在采集音頻信號的過程中，對音頻信號所在方向上的用戶拍攝多張圖像。

識別模塊302，用于從拍攝模塊301拍攝的多張圖像中，識別用戶的唇部動作頻率。

處理模塊303，用于根據(jù)識別模塊302識別出的唇部動作頻率，處理音頻信號。

可選地，處理模塊303在根據(jù)識別模塊302識別出的唇部動作頻率，處理音頻信號時，具體用于：若唇部動作頻率在吐字頻率范圍之內(nèi)，對音頻信號進(jìn)行語音識別；或者若唇部動作頻率在吐字頻率范圍之外，丟棄音頻信號。

可選地，拍攝模塊301在在采集音頻信號的過程中，對音頻信號所在方向上的用戶拍攝多張圖像時，具體用于：在采集音頻信號的過程中，在音頻信號所在方向所屬的區(qū)域范圍內(nèi)拍攝初始圖像；根據(jù)初始圖像確定音頻信號所在方向上存在用戶；對音頻信號所在方向上的用戶拍攝多張圖像。

可選地，如圖4所示，識別模塊302包括狀態(tài)識別單元3021和頻率計算單元3022。

其中，狀態(tài)識別單元3021，用于識別多張圖像中每張圖像里面用戶的唇部動作狀態(tài)；

頻率計算單元3022，用于根據(jù)每張圖像里面用戶的唇部動作狀態(tài)以及多張圖像的拍攝時間，計算用戶的唇部動作頻率。

可選地，頻率計算單元3022具體用于根據(jù)每張圖像里面用戶的唇部動作狀態(tài)，統(tǒng)計用戶的唇部在張開狀態(tài)和閉合狀態(tài)之間的變化次數(shù)；根據(jù)變化次數(shù)和多張圖像的拍攝時間，計算用戶的唇部開合頻率。其中，用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)。

可選地，狀態(tài)識別單元3021，具體用于通過預(yù)先訓(xùn)練的圖像分類器，識別出每張圖像的狀態(tài)類別，狀態(tài)類別包括張開態(tài)或閉合態(tài)；根據(jù)每張圖像的狀態(tài)類別，確定每張圖像中用戶的唇部動作狀態(tài)為張開狀態(tài)或閉合狀態(tài)；其中，張開態(tài)是指圖像中用戶的唇部特征點(diǎn)符合張開條件的圖像狀態(tài)，閉合態(tài)是指圖像中用戶的唇部特征點(diǎn)符合閉合條件的圖像狀態(tài)。

以上所述僅為本發(fā)明的實(shí)施例而已，并不用于限制本發(fā)明。對于本領(lǐng)域技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2