專利名稱:一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法、裝置及一種Mel濾波方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,特別是涉及一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法、裝置及一種Mel濾波方法。
背景技術(shù):
在語(yǔ)音識(shí)別處理過(guò)程中,梅爾倒頻譜系數(shù)(Mel-scale Frequency CepstralCoefficients,簡(jiǎn)稱MFCC)是常用的特征參數(shù)之一。MFCC模擬了人耳的聽(tīng)覺(jué)特性,能夠反映人對(duì)語(yǔ)音的感知特性,從說(shuō)話人的語(yǔ)音信號(hào)中提取出說(shuō)話人的個(gè)性特征,在語(yǔ)音識(shí)別實(shí)際應(yīng)用中取得了較高的識(shí)別率。標(biāo)準(zhǔn)的MFCC系數(shù)提取過(guò)程包括預(yù)加重、加窗、FFT變換(Fast Fourier Transform,快速傅里葉變換)、功率譜估計(jì)、Mel濾波、非線性變換(計(jì)算對(duì)數(shù)Log)和DCT變換(Discrete Cosine Transform,離散余弦變換)。
通常,語(yǔ)音信號(hào)處理都是在16kHz的采樣率下進(jìn)行,因?yàn)?6kHz的寬帶信號(hào)基本能滿足語(yǔ)音識(shí)別所需要的特征信息,而更高的采樣頻率并不能帶來(lái)更多有用的特征信息,并且更容易受到噪聲的干擾,同時(shí)增加了算法復(fù)雜度。
現(xiàn)有的一種MFCC系數(shù)提取方法是基于HTK(Hidden Markov ModelToolkit)工具的提取方法。HTK是目前一個(gè)高質(zhì)量的語(yǔ)音識(shí)別工具,可以進(jìn)行語(yǔ)音特征提取、語(yǔ)音建模、訓(xùn)練以及識(shí)別等。在HTK的MFCC系數(shù)提取方法中,信號(hào)處理在16kHz的采樣率下進(jìn)行(即16kHz的寬帶信號(hào)),采用的Mel濾波器子帶數(shù)量為26(經(jīng)驗(yàn)值),其中19條子帶在0-8k的低頻范圍,其余7條子帶在8k-16k的高頻范圍。所述子帶是指在Mel域上,信號(hào)頻帶被劃分為多個(gè)頻段,每個(gè)頻段稱為一條子帶,子帶的數(shù)量就表示Mel濾波器的維數(shù)。
這種子帶分布方法存在以下問(wèn)題一方面,低頻范圍的子帶數(shù)量(19個(gè))太少,無(wú)法保證低頻信號(hào)足夠的分辨率;另一方面,高頻范圍的子帶數(shù)量(7個(gè))又太多,使得每條子帶的頻率范圍太小,由于高頻信號(hào)容易受到噪聲干擾,因此每條子帶的抗干擾能力會(huì)降低,反而影響識(shí)別率。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法及裝置,以解決HTK的MFCC系數(shù)提取方法存在的問(wèn)題。
為了解決上述問(wèn)題,本發(fā)明公開(kāi)了一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法,包括預(yù)加重、加窗、快速傅里葉變換、功率譜估計(jì)、Mel濾波、非線性變換和離散余弦變換,其中 在進(jìn)行Mel濾波時(shí),增加Mel濾波器組的子帶數(shù)量,在頻率范圍內(nèi)進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出; 然后,將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出; 繼續(xù)對(duì)所述低頻范圍和聚合后高頻范圍的Mel濾波輸出進(jìn)行非線性變換和離散余弦變換,最終提取出MFCC系數(shù)。
優(yōu)選的,所述將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出,具體包括將高頻范圍內(nèi)多條子帶的Mel濾波輸出,通過(guò)加權(quán)平均進(jìn)行合并,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出。
優(yōu)選的,針對(duì)16kHz的寬帶信號(hào),將Mel濾波器組的子帶數(shù)量增加到32,其中所述低頻范圍的子帶數(shù)量為23,所述高頻范圍的子帶數(shù)量為9;然后將高頻范圍內(nèi)的9條子帶聚合為3條子帶。
其中,所述將高頻范圍內(nèi)的9條子帶通過(guò)加權(quán)平均聚合為3條子帶,具體包括 其中,EFB(i)表示聚合前的Mel濾波輸出,E′FB(i)表示聚合后的Mel濾波輸出,i表示子帶序號(hào),α、β、γ表示加權(quán)系數(shù)。
優(yōu)選的,所述預(yù)加重之前還包括對(duì)頻率范圍內(nèi)的信號(hào)都進(jìn)行語(yǔ)音增強(qiáng)處理。
本發(fā)明還提供了一種Mel濾波方法,包括 設(shè)定Mel濾波器組的子帶數(shù)量,在16kHz的線性頻帶上進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出; 根據(jù)Mel頻率與線性頻率之間的映射關(guān)系,得到每條子帶映射到線性頻帶上的頻率范圍,進(jìn)而得出0-8kHz的低頻范圍的子帶數(shù)量密集,8-16kHz的高頻范圍的子帶數(shù)量稀疏; 將所述高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出; 將所述低頻范圍的Mel濾波輸出和所述高頻范圍聚合后的Mel濾波輸出,共同作為16kHz線性頻帶的Mel濾波輸出。
優(yōu)選的,若設(shè)定Mel濾波器組的子帶數(shù)量為32,則0-8kHz的低頻范圍的子帶數(shù)量為23,8-16kHz的高頻范圍的子帶數(shù)量為9;所述高頻范圍內(nèi)的子帶數(shù)量聚合為3。
本發(fā)明還提供了一種語(yǔ)音信號(hào)的MFCC系數(shù)提取裝置,包括預(yù)加重單元、加窗單元、快速傅里葉變換單元、功率譜估計(jì)單元、Mel濾波單元、非線性變換單元和離散余弦變換單元,其中 所述Mel濾波單元用于在進(jìn)行Mel濾波時(shí),增加Mel濾波器組的子帶數(shù)量,在頻范圍內(nèi)進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出; 所述裝置還包括高頻聚合單元,用于將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出; 所述非線性變換單元和離散余弦變換單元,用于對(duì)所述低頻范圍和聚合后高頻范圍的Mel濾波輸出,進(jìn)行非線性變換和離散余弦變換,最終提取出MFCC系數(shù)。
優(yōu)選的,所述高頻聚合單元通過(guò)以下方式將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合將高頻范圍內(nèi)多條子帶的Mel濾波輸出,通過(guò)加權(quán)平均進(jìn)行合并,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出。
優(yōu)選的,針對(duì)16kHz的寬帶信號(hào),所述Mel濾波單元將Mel濾波器組的子帶數(shù)量增加到32,其中低頻范圍的子帶數(shù)量為23,高頻范圍的子帶數(shù)量為9;則所述高頻聚合單元將高頻范圍內(nèi)的9條子帶聚合為3條子帶。
其中,所述高頻聚合單元通過(guò)以下方式將高頻范圍內(nèi)的9條子帶通過(guò)加權(quán)平均聚合為3條子帶 其中,EFB(i)表示聚合前的Mel濾波輸出,E′FB(i)表示聚合后的Mel濾波輸出,i表示子帶序號(hào),α、β、γ表示加權(quán)系數(shù)。
優(yōu)選的,所述裝置還包括語(yǔ)音增強(qiáng)單元,用于對(duì)頻率范圍的信號(hào)都進(jìn)行語(yǔ)音增強(qiáng)處理,然后觸發(fā)所述預(yù)加重單元。
本發(fā)明還提供了一種Mel濾波裝置,包括 參數(shù)設(shè)置單元,用于設(shè)定Mel濾波器組的子帶數(shù)量; Mel濾波單元,用于根據(jù)所述Mel濾波器組的子帶數(shù)量,在16kHz的線性頻帶上進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出; 子帶映射單元,用于根據(jù)Mel頻率與線性頻率之間的映射關(guān)系,得到每條子帶映射到線性頻帶上的頻率范圍,進(jìn)而得出0-8kHz的低頻范圍的子帶數(shù)量密集,8-16kHz的高頻范圍的子帶數(shù)量稀疏; 高頻聚合單元,用于將所述高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出; 輸出單元,用于將所述低頻范圍的Mel濾波輸出和所述高頻范圍聚合后的Mel濾波輸出,共同作為16kHz線性頻帶的Mel濾波輸出。
優(yōu)選的,若設(shè)定Mel濾波器組的子帶數(shù)量為32,則0-8kHz的低頻范圍的子帶數(shù)量為23,8-16kHz的高頻范圍的子帶數(shù)量為9;所述高頻范圍內(nèi)的子帶數(shù)量聚合為3。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn) 本發(fā)明在進(jìn)行Mel濾波時(shí),提高了信號(hào)頻帶上Mel濾波器組的子帶數(shù)量,這樣,信號(hào)頻帶上低頻范圍的子帶數(shù)量也相應(yīng)增加,從而保證了低頻信號(hào)有足夠的頻率分辨精度。同時(shí),信號(hào)頻帶上高頻范圍的子帶數(shù)量也相應(yīng)增加,本發(fā)明又將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,由于子帶數(shù)目減少,使得每條子帶的頻率范圍增大,因此抗干擾能力大大增加,保證了容易受到噪聲干擾的高頻參數(shù)的魯棒性,從而優(yōu)化了提取的MFCC系數(shù)。經(jīng)過(guò)實(shí)驗(yàn)表明,這種方法提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
圖1是本發(fā)明實(shí)施例一所述一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法流程圖; 圖2是本發(fā)明實(shí)施例二所述一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法流程圖; 圖3是圖2實(shí)施例中線性頻率和Mel頻率的映射關(guān)系圖; 圖4是本發(fā)明裝置實(shí)施例所述一種語(yǔ)音信號(hào)的MFCC系數(shù)提取裝置結(jié)構(gòu)圖; 圖5是本發(fā)明裝置實(shí)施例所述一種Mel濾波裝置的結(jié)構(gòu)圖。
具體實(shí)施例方式 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
如前所述,標(biāo)準(zhǔn)的MFCC系數(shù)提取過(guò)程包括預(yù)加重、加窗、FFT變換、功率譜估計(jì)、Mel濾波、非線性變換(計(jì)算對(duì)數(shù)Log)和DCT變換,本發(fā)明在此基礎(chǔ)上提出一種改進(jìn)的語(yǔ)音信號(hào)MFCC系數(shù)提取方法,主要對(duì)其中的Mel濾波進(jìn)行了改進(jìn)。
Mel濾波就是將用線性頻率表示的頻譜表示為Mel刻度表示的頻譜,Mel頻率和線性頻率之間具有一定的映射關(guān)系。在Mel濾波過(guò)程中,當(dāng)Mel濾波器組的子帶數(shù)量(即維數(shù))確定后,根據(jù)所述映射關(guān)系,就可以得出每個(gè)子帶映射到線性頻帶上的頻率范圍,從而可以得出線性頻帶的低頻范圍的子帶數(shù)量以及高頻范圍的子帶數(shù)量。而且,低頻范圍的子帶數(shù)量較多,子帶比較密集;而高頻范圍的子帶數(shù)量較少,子帶比較稀疏。例如,在16kHz的寬帶上,Mel濾波器組的子帶數(shù)量若為26,則根據(jù)映射關(guān)系可以得出0-8k的低頻范圍的子帶數(shù)量是19,8k-16k的高頻范圍的子帶數(shù)量是7。
本發(fā)明正是利用上述原理,通過(guò)提高M(jìn)el濾波器組的子帶數(shù)量,可以相應(yīng)增加低頻范圍和高頻范圍的子帶數(shù)量,使得低頻的子帶數(shù)量能夠保證低頻信號(hào)有足夠的頻率分辨精度;同時(shí),通過(guò)對(duì)高頻的子帶數(shù)量進(jìn)行聚合,來(lái)減少高頻的子帶數(shù)量,從而增強(qiáng)高頻的抗干擾能力。
實(shí)施例一 參照?qǐng)D1,是實(shí)施例一所述一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法流程圖。
S101,在進(jìn)行Mel濾波時(shí),增加Mel濾波器組的子帶數(shù)量,在頻率范圍內(nèi)進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出; 即將Mel濾波器原來(lái)的維數(shù)(即子帶數(shù)量)進(jìn)行擴(kuò)展,然后對(duì)全頻帶范圍內(nèi)的信號(hào)進(jìn)行濾波。這樣,根據(jù)Mel頻率與線性頻率的映射關(guān)系,信號(hào)頻帶(即線性頻帶)上低頻范圍的子帶數(shù)量也相應(yīng)增加,從而保證了低頻信號(hào)有足夠的頻率分辨精度。但同時(shí),高頻范圍的子帶數(shù)量也相應(yīng)增加,由于高頻信號(hào)容易受到噪聲干擾,因此每條子帶的抗干擾能力會(huì)降低,影響識(shí)別率,所以還需要繼續(xù)下面的處理。
S102,將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出;但低頻范圍內(nèi)的子帶數(shù)量保持不變; 所述聚合是指將高頻較多的子帶合并成較少的子帶,由于子帶數(shù)目減少,使得每條子帶的頻率范圍增大,因此抗干擾能力大大增加,從而增強(qiáng)了容易受到噪聲干擾的高頻參數(shù)的魯棒性。其中,所述魯棒性即是指穩(wěn)定性,魯棒性好就是指算法或者系統(tǒng)在各種可能的環(huán)境或者干擾下仍然能夠表現(xiàn)出穩(wěn)定的性能。
可采用的聚合方法有多種,但聚合的目的都是將高頻范圍內(nèi)多條子帶的Mel濾波輸出進(jìn)行合并,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出。
本實(shí)施例采用一種簡(jiǎn)單常用的聚合方法是加權(quán)平均法,計(jì)算公式如下 其中,EFB表示聚合后的Mel濾波輸出,EFB(i)、EFB(j)、......、EFB(k)表示聚合前高頻子帶的Mel濾波輸出,α、β、γ表示加權(quán)系數(shù)。上述公式(1)即將高頻的多條子帶i、j、......、k聚合為一條子帶,如果聚合后的子帶數(shù)量為多個(gè),則將得到多個(gè)EFB。
當(dāng)然,本實(shí)施例不限定其它的聚合方法。
S103,繼續(xù)對(duì)所述低頻范圍和聚合后高頻范圍的Mel濾波輸出進(jìn)行非線性變換和DCT變換,最終提取出MFCC系數(shù)。
經(jīng)過(guò)S101和S102得出的低頻范圍和高頻范圍的子帶數(shù)量,與現(xiàn)有技術(shù)相比,即能保證低頻信號(hào)的分辨率,又能保證高頻信號(hào)的抗干擾能力。這樣,經(jīng)過(guò)Mel濾波步驟得出的Mel濾波輸出,就可以繼續(xù)下面的非線性變換和DCT變換。
綜上所述,上述方法優(yōu)化了提取的MFCC系數(shù),進(jìn)一步提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
實(shí)施例二 本發(fā)明主要應(yīng)用于頻率范圍為0-16kHz的寬帶信號(hào)處理,因?yàn)?6kHz的寬帶信號(hào)基本能滿足語(yǔ)音識(shí)別所需要的特征信息。下面將以16kHz的寬帶信號(hào)為例進(jìn)行詳細(xì)說(shuō)明。其中,0-8k為低頻范圍,8k-16k為高頻范圍。當(dāng)然,本發(fā)明并不限定于0-16kHz的頻率范圍。
參照?qǐng)D2,是實(shí)施例二所述一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法流程圖。
S201,語(yǔ)音增強(qiáng)處理; 本實(shí)施例對(duì)16kHz范圍內(nèi)的信號(hào)同時(shí)進(jìn)行語(yǔ)音增強(qiáng)處理。語(yǔ)音增強(qiáng)的目的是從有噪聲的語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音,目前常用的增強(qiáng)算法很多,如減譜法或維納濾波算法等,本實(shí)施例不作詳細(xì)說(shuō)明。
S202,預(yù)加重; 信號(hào)在傳輸過(guò)程中,由于衰減原因會(huì)產(chǎn)生一定的失真,預(yù)加重就是模擬這個(gè)衰減曲線事先在發(fā)送端對(duì)信號(hào)進(jìn)行補(bǔ)償,這樣在接收端就可以得到較理想的波形。
預(yù)加重濾波器處理語(yǔ)音增強(qiáng)后的信號(hào)SEn SEn_pe(n)=SEn(n)-0.9SEn(n-1); 其中SEn_pe(-1)為上一幀的最后一個(gè)樣本,如果是第一幀,則其值為0。
S203,加窗; 對(duì)預(yù)加重處理輸出的信號(hào)進(jìn)行加窗處理,窗類型為長(zhǎng)度Nin=400的Hamming窗函數(shù)為 0≤n≤Nin-1; S204,F(xiàn)FT變換; 通過(guò)后面補(bǔ)0將Nin個(gè)樣本擴(kuò)展為512個(gè)樣本。用長(zhǎng)度NFFT=512的FFT計(jì)算出信號(hào)頻譜XEn(bin) XEn(bin)=FFT{SEn_w(n)}; S205,功率譜估計(jì); 相應(yīng)的功率譜為 PEn(bin)=|XEn(bin)|2,0≤bin≤NFFT/2; S206,超維數(shù)Mel濾波; Mel濾波就是將用線性頻率表示的頻譜表示為Mel刻度表示的頻譜,信號(hào)有效頻帶位于fstart與fsamp/2之間,在Mel域分為KFB個(gè)子帶,每個(gè)子帶對(duì)應(yīng)一個(gè)三角形頻率窗,相鄰子帶有50%重疊。
線性頻率和Mel頻率的映射關(guān)系如下,可參照?qǐng)D3所示 1≤k≤KFB 在上式中,相關(guān)參數(shù)取值如下 fstart=64Hz fsamp=16kHz μ=700 Λ=2595 λ=1127 KFB=32 fcentr表示線性頻帶的中心頻率。
Mel濾波器的輸出為每個(gè)子帶的功率譜值PEn(bin)的加權(quán)和EFB。
針對(duì)16kHz的寬帶信號(hào),本實(shí)施例采用的Mel濾波器維數(shù)擴(kuò)展為32維,這個(gè)維數(shù)要超過(guò)HTK的26維,但本實(shí)施例并不是最終要采用32個(gè)子帶參數(shù),這將在后面的高頻聚合里說(shuō)明。
當(dāng)Mel濾波器組的子帶數(shù)量為32時(shí),由于Mel域的頻帶是等間隔劃分,所以根據(jù)線性頻率和Mel頻率的映射關(guān)系,可以將Mel濾波器每個(gè)子帶的頻率范圍映射到線性頻帶上,正好得到0-8k的低頻范圍(指線性頻帶上)的子帶數(shù)量為23,8k-16k的高頻范圍的子帶數(shù)量為9。
此處采用32維的原因是,在16kHz采樣率下用32維Mel濾波器劃分的子帶頻率范圍,與在8kHz采樣率下用23維Mel濾波器劃分的子帶頻率范圍,在0-8kHz的低頻范圍內(nèi)是一致的;而在8kHz采樣率下采用23維Mel濾波器是經(jīng)過(guò)檢驗(yàn)的一個(gè)較好的設(shè)置。當(dāng)然,Mel濾波器組的子帶數(shù)量也可以擴(kuò)展為其他數(shù)值,可以根據(jù)實(shí)際需要進(jìn)行調(diào)整,本實(shí)施例在此并不僅限于32。例如,如果將Mel濾波器組的子帶數(shù)量增加為35,根據(jù)上述映射關(guān)系,相應(yīng)的低頻范圍的子帶數(shù)量則為25,高頻范圍的子帶數(shù)量則為10。
針對(duì)HTK的子帶分布方式,本實(shí)施例在0-16k的頻率范圍上共32條子帶,其中低頻范圍的子帶數(shù)量由HTK的19條增加到23條,剩余的9條子帶在高頻范圍。與HTK的子帶劃分相比,本實(shí)施例低頻的子帶數(shù)量能夠保證低頻信號(hào)足夠的分辨率。
S207,高頻聚合; 在信號(hào)的高頻部分,由于高頻信號(hào)容易受到噪聲的干擾,較多的子帶劃分影響了參數(shù)的魯棒性,因此需要將較多的子帶數(shù)量聚合為較少的子帶。
本實(shí)施例將高頻的9個(gè)子帶聚合成3個(gè)子帶,聚合方法采用加權(quán)平均的方法,如下 其中,EFB(i)表示聚合前的Mel濾波輸出,E′FB(i)表示聚合后的Mel濾波輸出,i表示子帶序號(hào),α、β、γ表示加權(quán)系數(shù),可以取0-1之間的數(shù)值。
聚合后KFB=26。
當(dāng)然,上述將9個(gè)子帶聚合成3個(gè)子帶僅作為舉例說(shuō)明,聚合后的子帶數(shù)量需要根據(jù)實(shí)際應(yīng)用來(lái)確定。而且,聚合前與聚合后的子帶數(shù)量并不一定是整除關(guān)系,如可以將9個(gè)子帶聚合為4個(gè)子帶,聚合方法有多種,其中一種是將每2個(gè)子帶聚合為1個(gè)子帶,而聚合的第4個(gè)子帶是由3個(gè)子帶聚合而成;或者,每2個(gè)子帶聚合為1個(gè)子帶,共聚合為4個(gè)子帶,最后將剩余的一個(gè)子帶丟棄。本實(shí)施例不一一列舉各種聚合方法,總之,可以將任意數(shù)量的高頻子帶聚合為實(shí)際需要的子帶數(shù)量。
S208,非線性變換(計(jì)算對(duì)數(shù)Log); 對(duì)Mel濾波器的輸出取對(duì)數(shù) SFB(k)=ln(EFB(k)),for 1≤k≤KFB 限制對(duì)數(shù)濾波器組的輸出不能小于-10。
S209,DCT變換。
對(duì)非線性變換的輸出作離散余弦轉(zhuǎn)換(DCT),得到13個(gè)MFCC系數(shù) 0≤i≤12 上述改進(jìn)的語(yǔ)音信號(hào)MFCC系數(shù)提取方法,信號(hào)處理在16kHz的采樣率下進(jìn)行時(shí),能夠優(yōu)化提取的MFCC系數(shù),從而提高語(yǔ)音識(shí)別的準(zhǔn)確度。
針對(duì)上述方法實(shí)施例的說(shuō)明,本發(fā)明還提供了相應(yīng)的裝置實(shí)施例。
參照?qǐng)D4,是實(shí)施例所述一種語(yǔ)音信號(hào)的MFCC系數(shù)提取裝置結(jié)構(gòu)圖。
所述裝置主要包括預(yù)加重單元U41、加窗單元U42、快速傅里葉變換單元U43、功率譜估計(jì)單元U44、Mel濾波單元U45、高頻聚合單元U46、非線性變換單元U47和離散余弦變換單元U48,其中, 所述Mel濾波單元U45用于在進(jìn)行Mel濾波時(shí),增加Mel濾波器組的子帶數(shù)量,在頻率范圍內(nèi)進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出; 高頻聚合單元U46用于將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出; 所述非線性變換單元U47和離散余弦變換單元U48,用于對(duì)所述低頻范圍和聚合后高頻范圍的Mel濾波輸出,進(jìn)行非線性變換和離散余弦變換,最終提取出MFCC系數(shù)。
其中,所述高頻聚合單元U46通過(guò)以下方式將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合將高頻范圍內(nèi)多條子帶的Mel濾波輸出,通過(guò)加權(quán)平均進(jìn)行合并,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出。
針對(duì)16kHz的寬帶信號(hào),所述Mel濾波單元U45將Mel濾波器組的子帶數(shù)量增加到32,其中低頻范圍的子帶數(shù)量為23,高頻范圍的子帶數(shù)量為9;則所述高頻聚合單元U46將高頻范圍內(nèi)的9條子帶聚合為3條子帶。
具體的,所述高頻聚合U46單元通過(guò)以下方式將高頻范圍內(nèi)的9條子帶通過(guò)加權(quán)平均聚合為3條子帶 其中,EFB(i)表示聚合前的Mel濾波輸出,E′FB(i)表示聚合后的Mel濾波輸出,i表示子帶序號(hào),α、β、γ表示加權(quán)系數(shù)。
優(yōu)選的,所述裝置還可以包括 語(yǔ)音增強(qiáng)單元,用于對(duì)頻率范圍內(nèi)的信號(hào)都進(jìn)行語(yǔ)音增強(qiáng)處理,然后觸發(fā)所述預(yù)加重單元U41。
所述裝置能夠優(yōu)化提取的MFCC系數(shù),從而提高語(yǔ)音識(shí)別的準(zhǔn)確度。
參照?qǐng)D5,本發(fā)明裝置實(shí)施例還提供了一種Mel濾波裝置的結(jié)構(gòu)圖,該裝置主要應(yīng)用于頻率范圍為0-16kHz的寬帶信號(hào)處理。
所述Mel濾波裝置主要包括 參數(shù)設(shè)置單元U51,用于設(shè)定Mel濾波器組的子帶數(shù)量; Mel濾波單元U52,用于根據(jù)所述Mel濾波器組的子帶數(shù)量,在16kHz的線性頻帶上進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出; 子帶映射單元U53,用于根據(jù)Mel頻率與線性頻率之間的映射關(guān)系,得到每條子帶映射到線性頻帶上的頻率范圍,進(jìn)而得出0-8kHz的低頻范圍的子帶數(shù)量密集,8-16kHz的高頻范圍的子帶數(shù)量稀疏; 高頻聚合單元U54,用于將所述高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出; 輸出單元U55,用于將所述低頻范圍的Mel濾波輸出和所述高頻范圍聚合后的Mel濾波輸出,共同作為16kHz線性頻帶的Mel濾波輸出。
優(yōu)選的,若設(shè)定Mel濾波器組的子帶數(shù)量為32,則0-8kHz的低頻范圍的子帶數(shù)量為23,8-16kHz的高頻范圍的子帶數(shù)量為9;所述高頻范圍內(nèi)的子帶數(shù)量聚合為3。經(jīng)實(shí)驗(yàn)證明,這樣的取值能提取出較好的MFCC系數(shù)。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
以上對(duì)本發(fā)明所提供的一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法、裝置及一種Mel濾波方法、裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法,包括預(yù)加重、加窗、快速傅里葉變換、功率譜估計(jì)、Mel濾波、非線性變換和離散余弦變換,其特征在于
在進(jìn)行Mel濾波時(shí),增加Mel濾波器組的子帶數(shù)量,在頻率范圍內(nèi)進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出;
然后,將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出;
繼續(xù)對(duì)所述低頻范圍和聚合后高頻范圍的Mel濾波輸出進(jìn)行非線性變換和離散余弦變換,最終提取出MFCC系數(shù)。
2、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出,具體包括
將高頻范圍內(nèi)多條子帶的Mel濾波輸出,通過(guò)加權(quán)平均進(jìn)行合并,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出。
3、根據(jù)權(quán)利要求2所述的方法,其特征在于
針對(duì)16kHz的寬帶信號(hào),將Mel濾波器組的子帶數(shù)量增加到32,其中所述低頻范圍的子帶數(shù)量為23,所述高頻范圍的子帶數(shù)量為9;然后將高頻范圍內(nèi)的9條子帶聚合為3條子帶。
4、根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將高頻范圍內(nèi)的9條子帶通過(guò)加權(quán)平均聚合為3條子帶,具體包括
其中,EFB(i)表示聚合前的Mel濾波輸出,E′FB(i)表示聚合后的Mel濾波輸出,i表示子帶序號(hào),α、β、γ表示加權(quán)系數(shù)。
5、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)加重之前還包括
對(duì)頻率范圍內(nèi)的信號(hào)都進(jìn)行語(yǔ)音增強(qiáng)處理。
6、一種Mel濾波方法,其特征在于,包括
設(shè)定Mel濾波器組的子帶數(shù)量,在16kHz的線性頻帶上進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出;
根據(jù)Mel頻率與線性頻率之間的映射關(guān)系,得到每條子帶映射到線性頻帶上的頻率范圍,進(jìn)而得出0-8kHz的低頻范圍的子帶數(shù)量密集,8-16kHz的高頻范圍的子帶數(shù)量稀疏;
將所述高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出;
將所述低頻范圍的Mel濾波輸出和所述高頻范圍聚合后的Mel濾波輸出,共同作為16kHz線性頻帶的Mel濾波輸出。
7、根據(jù)權(quán)利要求6所述的方法,其特征在于
若設(shè)定Mel濾波器組的子帶數(shù)量為32,則0-8kHz的低頻范圍的子帶數(shù)量為23,8-16kHz的高頻范圍的子帶數(shù)量為9;所述高頻范圍內(nèi)的子帶數(shù)量聚合為3。
8、一種語(yǔ)音信號(hào)的MFCC系數(shù)提取裝置,包括預(yù)加重單元、加窗單元、快速傅里葉變換單元、功率譜估計(jì)單元、Mel濾波單元、非線性變換單元和離散余弦變換單元,其特征在于
所述Mel濾波單元用于在進(jìn)行Mel濾波時(shí),增加Mel濾波器組的子帶數(shù)量,在頻范圍內(nèi)進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出;
所述裝置還包括高頻聚合單元,用于將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出;
所述非線性變換單元和離散余弦變換單元,用于對(duì)所述低頻范圍和聚合后高頻范圍的Mel濾波輸出,進(jìn)行非線性變換和離散余弦變換,最終提取出MFCC系數(shù)。
9、根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述高頻聚合單元通過(guò)以下方式將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合
將高頻范圍內(nèi)多條子帶的Mel濾波輸出,通過(guò)加權(quán)平均進(jìn)行合并,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出。
10、根據(jù)權(quán)利要求9所述的裝置,其特征在于
針對(duì)16kHz的寬帶信號(hào),所述Mel濾波單元將Mel濾波器組的子帶數(shù)量增加到32,其中低頻范圍的子帶數(shù)量為23,高頻范圍的子帶數(shù)量為9;
則所述高頻聚合單元將高頻范圍內(nèi)的9條子帶聚合為3條子帶。
11、根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述高頻聚合單元通過(guò)以下方式將高頻范圍內(nèi)的9條子帶通過(guò)加權(quán)平均聚合為3條子帶
其中,EFB(i)表示聚合前的Mel濾波輸出,E′FB(i)表示聚合后的Mel濾波輸出,i表示子帶序號(hào),α、β、γ表示加權(quán)系數(shù)。
12、根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括
語(yǔ)音增強(qiáng)單元,用于對(duì)頻率范圍的信號(hào)都進(jìn)行語(yǔ)音增強(qiáng)處理,然后觸發(fā)所述預(yù)加重單元。
13、一種Mel濾波裝置,其特征在于,包括
參數(shù)設(shè)置單元,用于設(shè)定Mel濾波器組的子帶數(shù)量;
Mel濾波單元,用于根據(jù)所述Mel濾波器組的子帶數(shù)量,在16kHz的線性頻帶上進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出;
子帶映射單元,用于根據(jù)Mel頻率與線性頻率之間的映射關(guān)系,得到每條子帶映射到線性頻帶上的頻率范圍,進(jìn)而得出0-8kHz的低頻范圍的子帶數(shù)量密集,8-16kHz的高頻范圍的子帶數(shù)量稀疏;
高頻聚合單元,用于將所述高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出;
輸出單元,用于將所述低頻范圍的Mel濾波輸出和所述高頻范圍聚合后的Mel濾波輸出,共同作為16kHz線性頻帶的Mel濾波輸出。
14、根據(jù)權(quán)利要求13所述的裝置,其特征在于
若設(shè)定Mel濾波器組的子帶數(shù)量為32,則0-8kHz的低頻范圍的子帶數(shù)量為23,8-16kHz的高頻范圍的子帶數(shù)量為9;所述高頻范圍內(nèi)的子帶數(shù)量聚合為3。
全文摘要
本發(fā)明提供了一種語(yǔ)音信號(hào)的MFCC系數(shù)提取方法及裝置,以解決HTK的MFCC系數(shù)提取方法存在的問(wèn)題。所述方法包括預(yù)加重、加窗、快速傅里葉變換、功率譜估計(jì)、Mel濾波、非線性變換和離散余弦變換,其中,在進(jìn)行Mel濾波時(shí),增加Mel濾波器組的子帶數(shù)量,在頻率范圍內(nèi)進(jìn)行Mel濾波,得到對(duì)應(yīng)每條子帶的Mel濾波輸出;然后,將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,得到聚合后相應(yīng)子帶數(shù)量的Mel濾波輸出;繼續(xù)對(duì)所述低頻范圍和聚合后高頻范圍的Mel濾波輸出進(jìn)行非線性變換和離散余弦變換,最終提取出MFCC系數(shù)。本發(fā)明既保證了低頻信號(hào)有足夠的頻率分辨精度,同時(shí),又將高頻范圍內(nèi)的子帶數(shù)量進(jìn)行聚合,提高了高頻的抗干擾能力,從而優(yōu)化了提取的MFCC系數(shù),提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
文檔編號(hào)G10L15/00GK101577116SQ20091007862
公開(kāi)日2009年11月11日 申請(qǐng)日期2009年2月27日 優(yōu)先權(quán)日2009年2月27日
發(fā)明者晨 張, 馮宇紅 申請(qǐng)人:北京中星微電子有限公司