一種語音信息識別的方法及終端設(shè)備的制作方法
【專利摘要】本發(fā)明涉及信息識別領(lǐng)域,尤其涉及一種語音信息識別的方法及終端設(shè)備,以解決現(xiàn)有技術(shù)中存在當(dāng)待識別語音信息的聲音來源不穩(wěn)定,或聲音傳輸設(shè)備產(chǎn)生干擾時,確定的特征信息容易出現(xiàn)偏差的問題。本發(fā)明實施例采用從待識別語音信息中提取濁音信息,從濁音信息中提取基音頻率參數(shù)和MFCC,對基音頻率參數(shù)進(jìn)行處理獲得基音頻率參數(shù)匹配值;對MFCC進(jìn)行處理獲得獲得MFCC參數(shù)匹配值;根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息。由于語音信息中的濁音具有語音基音的周期性;并且濁音信息一般有相對固定的頻率,其特性可以看作是一個準(zhǔn)穩(wěn)態(tài)過程,因此根據(jù)濁音信息確定的語音信息的特征信息出現(xiàn)差錯的概率較低。
【專利說明】一種語音信息識別的方法及終端設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息識別領(lǐng)域,尤其涉及一種語音信息識別的方法及終端設(shè)備。
【背景技術(shù)】
[0002]隨著電子技術(shù)的發(fā)展,電子設(shè)備升級換代使其具備越來越多的功能,其中,語音控制功能備受關(guān)注,各種語音助手類應(yīng)用隨著出現(xiàn),語音助手類應(yīng)用使得用戶可以通過電子設(shè)備閱讀短信、介紹餐廳、詢問天氣,推薦節(jié)目等。實現(xiàn)語音助手類應(yīng)用中的關(guān)鍵為語音識別系統(tǒng),語音信號不僅包含說話人的語義信息,而且包含了說話人的特征信息,人們從不同說話人的語音信號中可以提取說話人的性別等身份信息。
[0003]目前的語音信息識別方法主要是通過對樣本語音信號進(jìn)行處理,獲得Mel頻譜倒譜系數(shù)MFCC,根據(jù)MFCC對高斯混合模型進(jìn)行訓(xùn)練,獲得MFCC對應(yīng)的高斯混合模型。提取待識別語音信息中的MFCC參數(shù),根據(jù)MFCC與訓(xùn)練后的高斯混合模型的匹配度確定待識別語音信息對應(yīng)的特征信息。但是,說話人的語音信息與其他生物特征相比穩(wěn)定性較差,如人臉、指紋、掌紋、虹膜等,常常與環(huán)境、情緒、健康狀態(tài)有關(guān);其次,聲音的傳輸需要通過通訊線路或其他錄音設(shè)備進(jìn)行采集,不可避免地帶來線路噪聲,而且噪聲性能會隨著時間的變化而變化;并且由于地域的不同,方言的種類繁多,說話語調(diào)的差異等后天發(fā)音習(xí)慣也會影響識別結(jié)果。
[0004]因此,現(xiàn)有技術(shù)中直接提取待識別語音信息中的語音特征參數(shù)確定特征信息時,當(dāng)待識別語音信息的聲音來源不穩(wěn)定,或聲音傳輸設(shè)備產(chǎn)生干擾時,確定的特征信息容易出現(xiàn)偏差。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例提供一種語音信息識別的方法,用以解決現(xiàn)有技術(shù)中存在當(dāng)待識別語音信息的聲音來源不穩(wěn)定,或聲音傳輸設(shè)備產(chǎn)生干擾時,確定的特征信息容易出現(xiàn)偏差的問題。
[0006]本發(fā)明實施例提供了一種語音信息識別方法,該方法包括:
[0007]從待識別語音信息中提取濁音信息;
[0008]從所述濁音信息中提取基音頻率參數(shù),將所述基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值;
[0009]根據(jù)所述濁音信息確定濁音信息對應(yīng)的Mel頻率倒譜系數(shù)MFCC,將所述MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值;
[0010]根據(jù)所述基音頻率參數(shù)匹配值及所述MFCC參數(shù)匹配值確定待識別語音信息的特征信息。
[0011 ] 上述實施例中從待識別語音信息中提取濁音信息,從濁音信息中提取基音頻率參數(shù)和MFCC,對基音頻率參數(shù)進(jìn)行處理獲得基音頻率參數(shù)匹配值;對MFCC進(jìn)行處理獲得獲得MFCC參數(shù)匹配值;根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息。人類的語音大致可以分為清音和濁音兩部分,濁音的聲音段以相對高的能量分布為特征,具有語音基音的周期性。清音的振幅比較小,波形隨機變化,沒有規(guī)律性,非常類似于白噪聲的時域波形;考慮到濁音中包含很多語音信息,根據(jù)語音信號本身的特點,其特性可以看作是一個準(zhǔn)穩(wěn)態(tài)過程,即具有短時性,因此根據(jù)濁音信號確定的說話人的特征信息出現(xiàn)差錯的概率較低。
[0012]本發(fā)明實施例中所述從待識別語音信息中提取濁音信息,具體包括:
[0013]對待識別語音信息進(jìn)行分幀處理,確定每一幀語音信息的短時能量值,若一幀語音信息的短時能量值小于設(shè)定的短時能量閾值,則去除該幀語音信息,得到無背景聲音的待識別語首?目息;
[0014]確定每一幀無背景聲音的待識別語音信息的信號波形過零率,若一幀語音信息的過零率小于設(shè)定的過零率閾值,則去除該幀語音信息,得到待識別語音信息的濁音信息。
[0015]上述實施例中通過短時能量值和短時過零率對語音信息進(jìn)行提取,獲得濁音信息,通過濁音信息確定對應(yīng)的特征信息,提高語音信息對應(yīng)的特征信息識別的準(zhǔn)確率。
[0016]本發(fā)明實施例中將所述基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值,具體包括:
[0017]將基音頻率參數(shù)代入所述基音頻率匹配模型,得到第一匹配概率值,將得到的第一匹配概率值作為 基音頻率參數(shù)匹配值;
[0018]將所述MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值,具體包括:
[0019]將所述MFCC代入所述MFCC參數(shù)匹配模型,得到第二匹配概率值,將得到的第二匹配概率值作為MFCC參數(shù)匹配值。
[0020]上述實施例中分別獲得基音頻率參數(shù)匹配值,MFCC參數(shù)匹配值,根據(jù)獲得的匹配值確定待識別語首息對應(yīng)的性別信息。
[0021]本發(fā)明實施例中所述特征信息為待識別語音信息對應(yīng)的性別信息;
[0022]所述基音頻率匹配模型包括男性基音頻率匹配模型,女性基音頻率匹配模型;
[0023]所述MFCC參數(shù)匹配模型包括男性MFCC參數(shù)匹配模型,女性MFCC參數(shù)匹配模型。
[0024]本發(fā)明實施例中所述將基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值,具體包括:
[0025]將所述基音頻率參數(shù)分別與男性基音頻率匹配模型和女性基音頻率匹配模型進(jìn)行匹配,分別獲得男性基音頻率參數(shù)匹配值,女性基音頻率參數(shù)匹配值;
[0026]所述將MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值,具體包括:
[0027]將所述MFCC分別與男性MFCC參數(shù)匹配模型和女性MFCC參數(shù)匹配模型進(jìn)行匹配,分別獲得男性MFCC參數(shù)匹配值,女性MFCC參數(shù)匹配值。
[0028]上述實施例中分別獲得男性基音頻率參數(shù)匹配值,女性基音頻率參數(shù)匹配值,男性MFCC參數(shù)匹配值,女性MFCC參數(shù)匹配值,根據(jù)獲得的匹配值確定待識別語音信息對應(yīng)的性別信息。
[0029]本發(fā)明實施例中所述根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息,具體包括:
[0030]為基音頻率參數(shù)匹配值分配基音頻率參數(shù)權(quán)重值,為MFCC參數(shù)匹配值分配MFCC參數(shù)權(quán)重值,且基音頻率參數(shù)權(quán)重值與MFCC參數(shù)權(quán)重值之和等于I ;[0031]將所述男性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與男性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到男性特征參數(shù)值;
[0032]將所述女性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與女性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到女性特征參數(shù)值;
[0033]判斷男性特征參數(shù)值與女性特征參數(shù)值的大小,若男性特征參數(shù)值大于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為男性;若男性特征參數(shù)值小于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為女性。
[0034]上述實施例中根據(jù)基音頻率參數(shù)權(quán)重值和MFCC參數(shù)權(quán)重值,確定待識別語音信息對應(yīng)的性別信息,提高了性別識別的準(zhǔn)確率。[0035]本發(fā)明實施例中該方法還包括:
[0036]根據(jù)確定的性別信息為用戶推薦該性別對應(yīng)的推薦信息。
[0037]記錄用戶的觀影記錄,根據(jù)所述用戶的性別信息將所述觀影記錄添加至對應(yīng)的推薦信息中,根據(jù)影片的實時數(shù)據(jù)更新推薦信息。
[0038]上述實施例中根據(jù)確定的性別信息,確定對應(yīng)的推薦信息,如果性別識別結(jié)果是男性,則進(jìn)入男版推薦信息界面,根據(jù)男性觀眾的喜好進(jìn)行相應(yīng)的電視節(jié)目,廣告以及影片的推薦等;若判別為女性,會顯示女版的推薦信息界面,根據(jù)女性觀眾比較熱衷的節(jié)目類型,廣告種類及相應(yīng)影片推薦等個性化內(nèi)容,實現(xiàn)電視根據(jù)用戶性別差異的個性化推薦功能;并根據(jù)用戶喜好,實時更新推薦信息。
[0039]本發(fā)明實施例提供了一種語音信息識別的終端設(shè)備,所述終端設(shè)備包括:
[0040]濁音信息提取模塊,用于從待識別語音信息中提取濁音信息;
[0041]基頻參數(shù)處理模塊,用于從所述濁音信息中提取基音頻率參數(shù),將所述基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值;
[0042]MFCC參數(shù)處理模塊,用于根據(jù)所述濁音信息確定濁音信息對應(yīng)的Mel頻率倒譜系數(shù)MFCC,將所述MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值;
[0043]特征信息確定模塊,用于根據(jù)所述基音頻率參數(shù)匹配值及所述MFCC參數(shù)匹配值確定待識別語首/[目息的特征/[目息。
[0044]上述實施例中從待識別語音信息中提取濁音信息,從濁音信息中提取基音頻率參數(shù)和MFCC,對基音頻率參數(shù)進(jìn)行處理獲得基音頻率參數(shù)匹配值;對MFCC進(jìn)行處理獲得獲得MFCC參數(shù)匹配值;根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息。人類的語音大致可以分為清音和濁音兩部分,濁音的聲音段以相對高的能量分布為特征,具有語音基音的周期性。清音的振幅比較小,波形隨機變化,沒有規(guī)律性,非常類似于白噪聲的時域波形;考慮到濁音中包含很多語音信息,根據(jù)語音信號本身的特點,其特性可以看作是一個準(zhǔn)穩(wěn)態(tài)過程,即具有短時性,因此根據(jù)濁音信號確定的說話人的特征信息出現(xiàn)差錯的概率較低。
[0045]所述濁音信息提取模塊,具體用于:
[0046]對待識別語音信息進(jìn)行分幀處理,確定每一幀語音信息的短時能量值,若一幀語音信息的短時能量值小于設(shè)定的短時能量閾值,則去除該幀語音信息,得到無背景聲音的待識別語首?目息;
[0047]確定每一幀無背景聲音的待識別語音信息的信號波形的過零率,若一幀語音信息的過零率小于設(shè)定的過零率閾值,則去除該幀語音信息,得到待識別語音信息的濁音信息。
[0048]上述實施例中通過短時能量值和短時過零率對語音信息進(jìn)行提取,獲得濁音信息,通過濁音信息確定對應(yīng)的特征信息,提高語音信息對應(yīng)的特征信息識別的準(zhǔn)確率。
[0049]所述基頻參數(shù)處理模塊,具體用于:
[0050]將基音頻率參數(shù)代入所述基音頻率匹配模型,得到第一匹配概率值,將得到的第一匹配概率值作為基音頻率參數(shù)匹配值;
[0051 ] 所述MFCC參數(shù)處理模塊,具體用于:
[0052]將所述MFCC代入所述MFCC參數(shù)匹配模型,得到第二匹配概率值,將得到的第二匹配概率值作為MFCC參數(shù)匹配值。
[0053]上述實施例中分別獲得基音頻率參數(shù)匹配值,MFCC參數(shù)匹配值,根據(jù)獲得的匹配值確定待識別語首息對應(yīng)的性別信息。
[0054]本發(fā)明實施例中述特征信息為待識別語音信息對應(yīng)的性別信息;
[0055]所述基音頻率匹配模型包括男性基音頻率匹配模型,女性基音頻率匹配模型;
[0056]所述MFCC參數(shù)匹配模型包括男性MFCC參數(shù)匹配模型,女性MFCC參數(shù)匹配模型。
[0057]本發(fā)明實施例中所述基頻參數(shù)處理模塊具體用于:
[0058]將所述基音頻率參數(shù)分別與男性基音頻率匹配模型和女性基音頻率匹配模型進(jìn)行匹配,分別獲得男性基音頻率參數(shù)匹配值,女性基音頻率參數(shù)匹配值;
[0059]所述MFCC參數(shù)處理模塊具體用于:
[0060]將所述MFCC分別與男性MFCC參數(shù)匹配模型和女性MFCC參數(shù)匹配模型進(jìn)行匹配,分別獲得男性MFCC參數(shù)匹配值,女性MFCC參數(shù)匹配值。
[0061]上述實施例中分別獲得男性基音頻率參數(shù)匹配值,女性基音頻率參數(shù)匹配值,男性MFCC參數(shù)匹配值,女性MFCC參數(shù)匹配值,根據(jù)獲得的匹配值確定待識別語音信息對應(yīng)的性別信息。
[0062]本發(fā)明實施例中所述特征信息確定模塊具體用于:
[0063]為基音頻率參數(shù)匹配值分配基音頻率參數(shù)權(quán)重值,為MFCC參數(shù)匹配值分配MFCC參數(shù)權(quán)重值,且基音頻率參數(shù)權(quán)重值與MFCC參數(shù)權(quán)重值之和等于I ;將所述男性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與男性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到男性特征參數(shù)值;將所述女性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與女性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到女性特征參數(shù)值;判斷男性特征參數(shù)值與女性特征參數(shù)值的大小,若男性特征參數(shù)值大于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為男性;若男性特征參數(shù)值小于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為女性。
[0064]上述實施例中根據(jù)基音頻率參數(shù)權(quán)重值和MFCC參數(shù)權(quán)重值,確定待識別語音信息對應(yīng)的性別信息,提高了性別識別的準(zhǔn)確率。
[0065]本發(fā)明實施例中所述終端設(shè)備還包括信息推薦模塊,用于:
[0066]根據(jù)確定的性別信息為用戶推薦該性別對應(yīng)的推薦信息。
[0067]所述信息推薦模塊,還用于:
[0068]記錄用戶的觀影記錄,根據(jù)所述用戶的性別信息將所述觀影記錄添加至對應(yīng)的推薦信息中,根據(jù)影片的實時數(shù)據(jù)更新推薦信息。[0069]上述實施例中根據(jù)確定的性別信息,確定對應(yīng)的推薦信息,如果性別識別結(jié)果是男性,則進(jìn)入男版推薦信息界面,根據(jù)男性觀眾的喜好進(jìn)行相應(yīng)的電視節(jié)目,廣告以及影片的推薦等;若判別為女性,會顯示女版的推薦信息界面,根據(jù)女性觀眾比較熱衷的節(jié)目類型,廣告種類及相應(yīng)影片推薦等個性化內(nèi)容,實現(xiàn)電視根據(jù)用戶性別差異的個性化推薦功能;并根據(jù)用戶喜好,實時更新推薦信息。
[0070]本發(fā)明實施例采用從待識別語音信息中提取濁音信息,從濁音信息中提取基音頻率參數(shù)和MFCC,對基音頻率參數(shù)進(jìn)行處理獲得基音頻率參數(shù)匹配值;對MFCC進(jìn)行處理獲得獲得MFCC參數(shù)匹配值;根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息。由于語音信息中的濁音的聲音段以相對高的能量分布為特征,具有語音基音的周期性,而且能量大部分集中在低頻段內(nèi);并且濁音信息一般有相對固定的頻率,其特性可以看作是一個準(zhǔn)穩(wěn)態(tài)過程,即具有短時性,因此根據(jù)濁音信號確定的說話人的特征信息出現(xiàn)差錯的概率較低。
【專利附圖】
【附圖說明】
[0071]圖1為本發(fā)明實施例中一種語音信息識別的方法的流程示意圖;
[0072]圖2為本發(fā)明實施例對語音信息識別設(shè)備進(jìn)行訓(xùn)練的方法的流程示意圖;
[0073]圖3為本發(fā)明實施例中提取濁音信息的具體方法的流程示意圖;
[0074]圖4為本發(fā)明實施例中確定基音頻率參數(shù)的具體方法的流程示意圖;
[0075]圖5為本發(fā)明實施例中確定濁音信息對應(yīng)的Mel頻率倒譜系數(shù)MFCC的方法的流程不意圖;
[0076]圖6為本發(fā)明實施例中語音信息識別訓(xùn)練的方法的流程示意圖;
[0077]圖7為本發(fā)明實施例中語音信息識別的方法的流程示意圖;
[0078]圖8為本發(fā)明實施例中根據(jù)待識別語音的性別信息推薦信息的方法的流程示意圖;
[0079]圖9為本發(fā)明實施例中一種語音信息識別的終端設(shè)備的示意圖;
[0080]圖10為本發(fā)明實施例中包含信息推薦模塊的終端設(shè)備的示意圖;
[0081]圖11為本發(fā)明實施例中包含訓(xùn)練模塊的終端設(shè)備的示意圖。
【具體實施方式】
[0082]本發(fā)明實施例提供了一種語音信息識別方法及終端設(shè)備,從待識別語音信息中提取濁音信息,從濁音信息中提取基音頻率參數(shù)和MFCC,對基音頻率參數(shù)進(jìn)行處理獲得基音頻率參數(shù)匹配值;對MFCC進(jìn)行處理獲得獲得MFCC參數(shù)匹配值;根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息。
[0083]人類的語音大致可以分為清音和濁音兩部分,濁音的聲音段以相對高的能量分布為特征,具有語音基音的周期性,在頻域上有共振峰結(jié)構(gòu),而且能量大部分集中在低頻段內(nèi)。清音的振幅比較小,波形隨機變化,沒有規(guī)律性,非常類似于白噪聲的時域波形;并且濁音信息一般有相對固定的頻率,即基音頻率,基音頻率與說話人以及發(fā)音有很大關(guān)系,考慮到濁音中包含很多語音信息,根據(jù)語音信號本身的特點,在10?30ms的短時間范圍內(nèi),其特性可以看作是一個準(zhǔn)穩(wěn)態(tài)過程,即具有短時性,因此根據(jù)濁音信號確定的說話人的特征信息出現(xiàn)差錯的概率較低。
[0084]下面結(jié)合說明書附圖對本發(fā)明實施例進(jìn)行進(jìn)一步說明。
[0085]如圖1所示,為本發(fā)明實施例中一種語音信息識別的方法,該方法包括:
[0086]步驟101:從待識別語音信息中提取濁音信息;
[0087]步驟102:從濁音信息中提取基音頻率參數(shù),將基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值;
[0088]步驟103:根 據(jù)濁音信息確定濁音信息對應(yīng)的Mel頻率倒譜系數(shù)MFCC,將MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值;
[0089]步驟104:根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息。
[0090]其中,步驟101中,從待識別語音信息中提取濁音信息,具體包括:對待識別語音信息進(jìn)行預(yù)處理,預(yù)處理的方法包括但不限于以下方法:分幀,加窗和預(yù)加重。語音信號是一個非平穩(wěn)隨機過程,但在一個短時范圍內(nèi)(10~30ms)其特性基本保持不變,即語音信號的“短時平穩(wěn)性”;因此對語音信號的分析處理必須建立在短時平穩(wěn)的基礎(chǔ)上,需要對語音信號進(jìn)行分幀處理。此外,語音信號的平均功率譜受到生門激勵和口鼻輻射的影響,高頻段大約在8000Hz以上按6dB/倍程跌落,通過預(yù)加重提升語音信號的高頻部分,使信號的頻譜變得平坦。
[0091]待識別語首彳目息包括清首/[目息,池首/[目息和背景聲首/[目息;背景聲首?目息中包括:靜音信息和噪聲信息;對待識別語音信息進(jìn)行分幀,加窗處理,如式1-1所不,為分幀,加窗處理后的第η幀語音信號值Xn(m)的表達(dá)式:
[0092]xn(m) =w (m).x (n+m),(O ≤m ≤N_l) (1-1)
[0093]其中^坤’^一^…’階州為幀長^為幀移長度,“!!!)為可移動的有限長度的窗函數(shù),m為該幀語音信號的采樣點數(shù)。
[0094]對分幀,加窗處理后的語音信號進(jìn)行短時能量處理,分別求出每一幀語音信號的能量;由于語音信號的清音段,濁音段和靜音段的能量不同,濁音段的短時能量最大,清音段的短時能量次之,靜音段的短時能量最小;將能量值小于設(shè)定的能量閾值的語音段確定為靜音段,將待識別語音信息中的靜音段去除。如式1-2為語音信號的短時能量值En的計算公式:
【權(quán)利要求】
1.一種語音信息識別的方法,其特征在于,該方法包括: 從待識別語首?目息中提取池首?目息; 從所述濁音信息中提取基音頻率參數(shù),將所述基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值; 根據(jù)所述濁音信息確定濁音信息對應(yīng)的Mel頻率倒譜系數(shù)MFCC,將所述MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值; 根據(jù)所述基音頻率參數(shù)匹配值及所述MFCC參數(shù)匹配值確定待識別語音信息的特征信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述從待識別語音信息中提取濁音信息,具體包括: 對待識別語音信息進(jìn)行分幀處理,確定每一幀語音信息的短時能量值,若一幀語音信息的短時能量值小于設(shè)定的短時能量閾值,則去除該幀語音信息,得到無背景聲音的待識別語首?目息; 確定每一幀無背景聲音的待識別語音信息的信號波形過零率,若一幀語音信息過零率小于設(shè)定的過零率閾值,則去除該幀語音信息,得到待識別語音信息的濁音信息。
3.如權(quán)利要求1所述的方法,其特征在于,將所述基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值,具體包括: 將基音頻率參數(shù)代入所述基音頻率匹配模型,得到第一匹配概率值,將得到的第一匹配概率值作為基音頻率參數(shù)匹配值; 將所述MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值,具體包括: 將所述MFCC代入所述MFCC參數(shù)匹配模型,得到第二匹配概率值,將得到的第二匹配概率值作為MFCC參數(shù)匹配值。
4.如權(quán)利要求1所述的方法,其特征在于,所述特征信息為待識別語音信息對應(yīng)的性另1Ji目息; 所述基音頻率匹配模型包括男性基音頻率匹配模型,女性基音頻率匹配模型; 所述MFCC參數(shù)匹配模型包括男性MFCC參數(shù)匹配模型,女性MFCC參數(shù)匹配模型。
5.如權(quán)利要求4所述的方法,其特征在于,所述將基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值,具體包括: 將所述基音頻率參數(shù)分別與男性基音頻率匹配模型和女性頻率基音頻率匹配模型進(jìn)行匹配,分別獲得男性基音頻率參數(shù)匹配值,女性基音頻率參數(shù)匹配值; 所述將MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值,具體包括: 將所述MFCC分別與男性MFCC參數(shù)匹配模型和女性MFCC參數(shù)匹配模型進(jìn)行匹配,分別獲得男性MFCC參數(shù)匹配值,女性MFCC參數(shù)匹配值。
6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)基音頻率參數(shù)匹配值及MFCC參數(shù)匹配值確定待識別語音信息的特征信息,具體包括: 為基音頻率參數(shù)匹配值分配基音頻率參數(shù)權(quán)重值,為MFCC參數(shù)匹配值分配MFCC參數(shù)權(quán)重值,且基音頻率參數(shù)權(quán)重值與MFCC參數(shù)權(quán)重值之和等于I ; 將所述男性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與男性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到男性特征參數(shù)值;將所述女性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與女性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到女性特征參數(shù)值; 判斷男性特征參數(shù)值與女性特征參數(shù)值的大小,若男性特征參數(shù)值大于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為男性;若男性特征參數(shù)值小于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為女性。
7. 如權(quán)利要求6所述的方法,其特征在于,該方法還包括: 根據(jù)確定的性別信息為用戶推薦該性別對應(yīng)的推薦信息。
8.如權(quán)利要求7所述的方法,其特征在于,該方法還包括: 記錄用戶的觀影記錄,根據(jù)所述用戶的性別信息將所述觀影記錄添加至對應(yīng)的推薦信息中,并根據(jù)影片的實時數(shù)據(jù)更新推薦信息。
9.一種語音信息識別的終端設(shè)備,其特征在于,所述終端設(shè)備包括: 濁音信息提取模塊,用于從待識別語音信息中提取濁音信息; 基頻參數(shù)處理模塊,用于從所述濁音信息中提取基音頻率參數(shù),將所述基音頻率參數(shù)與基音頻率匹配模型進(jìn)行匹配獲得基音頻率參數(shù)匹配值; MFCC參數(shù)處理模塊,用于根據(jù)所述濁音信息確定濁音信息對應(yīng)的Mel頻率倒譜系數(shù)MFCC,將所述MFCC與MFCC參數(shù)匹配模型進(jìn)行匹配獲得MFCC參數(shù)匹配值; 特征信息確定模塊,用于根據(jù)所述基音頻率參數(shù)匹配值及所述MFCC參數(shù)匹配值確定待識別語首/[目息的特征彳目息。
10.如權(quán)利要求9所述的終端設(shè)備,其特征在于,所述濁音信息提取模塊,具體用于: 對待識別語音信息進(jìn)行分幀處理,確定每一幀語音信息的短時能量值,若一幀語音信息的短時能量值小于設(shè)定的短時能量閾值,則去除該幀語音信息,得到無背景聲音的待識別語首?目息; 確定每一幀無背景聲音的待識別語音信息的信號波形過零率,若一幀語音信息過零率小于設(shè)定的過零率閾值,則去除該幀語音信息,得到待識別語音信息的濁音信息。
11.如權(quán)利要求9所述的終端設(shè)備,其特征在于,所述基頻參數(shù)處理模塊,具體用于: 將基音頻率參數(shù)代入所述基音頻率匹配模型,得到第一匹配概率值,將得到的第一匹配概率值作為基音頻率參數(shù)匹配值; 所述MFCC參數(shù)處理模塊,具體用于: 將所述MFCC代入所述MFCC參數(shù)匹配模型,得到第二匹配概率值,將得到的第二匹配概率值作為MFCC參數(shù)匹配值。
12.如權(quán)利要求9所述的終端設(shè)備,其特征在于,所述特征信息為待識別語音信息對應(yīng)的性別信息; 所述基音頻率匹配模型包括男性基音頻率匹配模型,女性基音頻率匹配模型; 所述MFCC參數(shù)匹配模型包括男性MFCC參數(shù)匹配模型,女性MFCC參數(shù)匹配模型。
13.如權(quán)利要求12所述的終端設(shè)備,其特征在于,所述基頻參數(shù)處理模塊具體用于: 將所述基音頻率參數(shù)分別與男性基音頻率匹配模型和女性基音頻率匹配模型進(jìn)行匹配,分別獲得男性基音頻率參數(shù)匹配值,女性基音頻率參數(shù)匹配值; 所述MFCC參數(shù)處理模塊具體用于: 將所述MFCC分別與男性MFCC參數(shù)匹配模型和女性MFCC參數(shù)匹配模型進(jìn)行匹配,分別獲得男性MFCC參數(shù)匹配值,女性MFCC參數(shù)匹配值。
14.如權(quán)利要求13所述的終端設(shè)備,其特征在于,所述特征信息確定模塊具體用于: 為基音頻率參數(shù)匹配值分配基音頻率參數(shù)權(quán)重值,為MFCC參數(shù)匹配值分配MFCC參數(shù)權(quán)重值,且基音頻率參數(shù)權(quán)重值與MFCC參數(shù)權(quán)重值之和等于I ;將所述男性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與男性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到男性特征參數(shù)值;將所述女性基音頻率參數(shù)匹配值和基音頻率參數(shù)權(quán)重值的乘積,與女性MFCC參數(shù)匹配值和MFCC參數(shù)權(quán)重值的乘積相加,得到女性特征參數(shù)值;判斷男性特征參數(shù)值與女性特征參數(shù)值的大小,若男性特征參數(shù)值大于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為男性;若男性特征參數(shù)值小于女性特征參數(shù)值,則確定待識別語音信息對應(yīng)的性別信息為女性。
15.如權(quán)利要求14所述的終端設(shè)備,其特征在于,所述終端設(shè)備還包括信息推薦模塊,用于: 根據(jù)確定的性別信息為用戶推薦該性別對應(yīng)的推薦信息。
16.如權(quán)利要求15所述的終端設(shè)備,其特征在于,所述信息推薦模塊,還用于: 記錄用戶的觀影記錄,根據(jù)所述用戶的性別信息將所述觀影記錄添加至對應(yīng)的推薦信息中,并根據(jù)影片的實時數(shù)據(jù)更新推薦信息。
【文檔編號】G10L15/02GK103943104SQ201410151266
【公開日】2014年7月23日 申請日期:2014年4月15日 優(yōu)先權(quán)日:2014年4月15日
【發(fā)明者】匡濤, 賈魁, 王勇進(jìn), 任曉楠 申請人:海信集團有限公司