基于基音周期混合特征參數(shù)的聲紋識別方法
【技術領域】
[0001] 本發(fā)明涉及語音信號處理領域,具體涉及一種基于基音周期混合特征參數(shù)的聲紋 識別方法。
【背景技術】
[0002] 在當今信息時代的前提下,作為信息安全的重要組成部分之一的身份識別技術引 來了新的挑戰(zhàn)。傳統(tǒng)的密碼識別由于算法的局限性與硬軟件解密技術的上升已經(jīng)展現(xiàn)出了 它的弊端。作為身份識別的新技術之一,聲紋識別技術,因其獨特的方便性、經(jīng)濟性及準確 性等優(yōu)點,受到人們越來越多的重視。
[0003] 聲紋識別,就是從說話人的一段語音中提取出說話人的個性特征,通過對個人特 征的分析與識別,從而達到對說話人進行辨認或者確認的目的。說話人識別并不注意語音 信號的內(nèi)容,而是希望從語音信號中提取個人的特征,由于每個人獨特的聲道特性和發(fā)音 特點,使得說話人的語音信號具有區(qū)別于其他說話人的特征,這就是聲紋識別的基本依據(jù)。
[0004] 聲紋識別的關鍵技術,主要是語音信號的特征參數(shù)提取和識別模型的建立。最常 用的語音信號的特征參數(shù)有兩種:一種是根據(jù)語音信號的檢測周期,基音周期是語音信號 處理中最重要的參數(shù)之一,它攜帶著非常重要的語音信息在噪聲環(huán)境中能體現(xiàn)優(yōu)勢;另一 種是根據(jù)語音信號的全極點模型得到的線性預測倒譜系數(shù)(LPCC),反映了說話人聲道的生 理結(jié)構差異。LPCC特征參數(shù)的提取,是基于語音信號為自回歸信號的假設,利用線性預測分 析從而獲得倒譜參數(shù)。LPCC參數(shù)的最大優(yōu)點是它能夠極為精確地估計語音參數(shù),用很少的 參數(shù)有效而又正確地表現(xiàn)語音波形機器頻譜的性質(zhì),而且計算效率高,且對元音有較好的 表示能力,它缺點在于不能體現(xiàn)輔音的個性特征,抗噪聲性能較差,識別率容易受環(huán)境的影 響。GFCC參數(shù)是根據(jù)人耳耳蝸的聽覺響應特性模擬而來,通過Gammatone濾波器模擬人耳 處理聲音的過程,即Gammatone濾波器倒譜系數(shù),在說話人識別系統(tǒng)中的表現(xiàn)要優(yōu)于LPCC。 因此,采用基音周期、LPCC、GFCC組合特征參數(shù),能夠有效地取長補短,使得聲紋識別系統(tǒng)具 有較好的識別率和穩(wěn)定性。
[0005] 目前聲紋識別系統(tǒng)中的模式匹配方法主要有概率統(tǒng)計方法、動態(tài)時間規(guī)整(DTW)、 矢量量化(VQ)、隱馬爾可夫模型(HMM)、人工神經(jīng)網(wǎng)絡方法(ANN)、支持向量機(SVM)、動態(tài) 貝葉斯網(wǎng)絡(DBN)技術以及這些方法的組合技術等。
[0006] 目前在文本無關說話人識別中,概率統(tǒng)計方法使用較為普遍,特別是高斯組合模 型(GMM),利用語音中的說話人信息在短時間內(nèi)較為平穩(wěn),通過對穩(wěn)態(tài)特征如基音、聲門增 益等的統(tǒng)計分析,可以利用均值、方差等統(tǒng)計量和概率密度函數(shù)進行分類判決。但是訓練語 音不足時,基于GMM的聲紋識別系統(tǒng)的識別率急劇下降。為了克服因訓練語音不夠的而不 能夠很好的刻畫說話人的語音特征的缺陷,而引入了通用背景模型(UBM),從而產(chǎn)生了基于 GMM-UBM的說話人識別。
【發(fā)明內(nèi)容】
[0007] 本申請通過提供一種基于基音周期混合特征參數(shù)的聲紋識別方法,包括以下步 驟:語音信號的采集輸入、語音信號預處理、語音信號組合特征參數(shù)提?。杭刺崛』糁?期、LPCC、ALPCC、能量、能量的一階差分、GFCC特征參數(shù)共同組合成多維特征向量、采用離 散二進制粒子群優(yōu)化算法BPS0對語音信號組合特征參數(shù)進行篩選、引入通用背景模型UBM 訓練得到說話人的聲音模型、最后利用GMM-UBM模型對測試語音進行識別,以解決現(xiàn)有技 術中利用單一語音參數(shù)進行聲紋識別的識別準確率不高以及聲紋識別系統(tǒng)不穩(wěn)定的技術 問題。
[0008] 為解決上述技術問題,本申請采用以下技術方案予以實現(xiàn):
[0009] 一種基于基音周期混合特征參數(shù)的聲紋識別方法,包括如下步驟:
[0010] S1 :語音信號的采集輸入;
[0011] S2 :語音信號的預處理,主要包括預加重、分幀和加窗處理;
[0012] S3 :語音信號組合特征參數(shù)提?。禾崛』糁芷凇PCC、ALPCC、能量、能量的一 階差分以及GFCC特征參數(shù)共同組合成多維特征向量,其中:LPCC為線性預測倒譜系數(shù), ALPCC為LPCC的一階差分,GFCC為Gammatone濾波器倒譜系數(shù);
[0013] S4 :利用離散二進制粒子群優(yōu)化算法對步驟S3中的多維特征向量進行篩選,將 GMM-UBM識別過程中等錯誤率作為評價函數(shù),選取使得等錯誤率最小的特征向量作為聲紋 識別的特征向量,其中所述GMM-UBM為高斯混合模型與通用背景模型相結(jié)合的說話人識別 模型;
[0014] S5 :使用GMM-UBM訓練得到說話人的聲音模型,即將語音庫隨機選取相應數(shù)量的 語音訓練得到通用背景模型UBM,然后利用最大后驗準則自適應得到不同說話人的聲音模 型;
[0015] S6 :提取經(jīng)粒子群優(yōu)化算法篩選后的測試語音的特征參數(shù),利用步驟S5訓練得到 的GMM-UBM模型,計算出對數(shù)概率得分,選擇概率得分最大者,即為目標說話人。
[0016] 其中步驟S1中利用錄音軟件CoolEdit錄制小語音庫,去除靜音段,并將噪聲衰 減10dB,其中采用頻率為16KHz,量化比特為16bit的wav文件,語音與文本無關的連續(xù)語 音。
[0017] 步驟S2中的語音信號的預處理,主要包括預加重、分幀和加窗處理。
[0018] 1、預加重:由于語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高倍頻大 約在800Hz以上按6dB/倍頻跌落,所以求語音信號頻譜,頻率越高對應的成分越小,高頻部 分的頻譜也越難求,為此要進行預加重處理。其目的是要提升高頻部分,使信號的頻譜變得 平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜。預加重一般在語音信 號數(shù)字化之后,且預加重濾波器是一階的,其濾波器的實現(xiàn)形式:H(z) = 其中u- 般在(〇.9,1)之間。截取一段語音信號,其中采樣頻率為16Khz,量化比特位為16,隨意選 取256個采樣值。
[0019] 2、分幀、加窗:由于語音信號具有短時平穩(wěn)性,預處理完成后需對語音信號進行分 幀、加窗處理,便于用短時分析技術對語音信號進行處理。通常情況下,每秒鐘的幀數(shù)約為 33~100幀,分幀既可采用連續(xù)分段的方法,也可采用交疊分段的方法,但后者可以使幀與 幀之間平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移和幀長的比值 一般取為(〇~1/2)。一邊將語音信號用可移動有限長度的窗口進行截取即分幀,通常采用 的窗函數(shù)有矩形窗(Rectangular)、漢明窗(Hamming)和漢寧窗(Hanning)等。
[0020] 語音信號經(jīng)過預處理之后,將提取特征參數(shù),特征參數(shù)的選擇應當滿足幾個原則: 第一,易于從語音信號中提取特征參數(shù);第二,不容易被模仿;第三,不隨時間和空間變化, 具有相對的穩(wěn)定性;第四,能夠有效識別不同的說話人。目前說話人確認系統(tǒng)主要依靠語音 的低層次聲學特征來進行識別,這些特征可分為時域特征和變換域特征。在本發(fā)明的步驟 S3中,語音信號組合特征參數(shù)提?。杭刺崛√崛?維基音周期,12維LPCC,12維ALPCC,1 維能量參數(shù),1維一階差分能量參數(shù),22維GFCC參數(shù),共同組成的49維特征向量。
[0021] 1、基音周期特征參數(shù)提取的具體步驟如下:
[0022] (1)令語音信號表示為s(n),語音的歸一化自相關函數(shù)的表示為
[0024] (2)去均值
[0025] 當語音信號在分析窗里有非零均值或有非常低的低頻噪聲出現(xiàn)時,歸一化自相 關函數(shù)在所要求的所有延遲上都產(chǎn)生高的相關。于是,在計算P(T)時首先減掉均值,減 去均值的信號為s'(n) =s(n) -y (2)
[0027] (3)時域基音周期粗估計及基音平滑
[0028] 由于語音信號呈現(xiàn)準周期性,在與該幀波形具有較強相似性的地方,R(t)會出現(xiàn) 峰值,但是這些峰值中還需要進一步判斷才能確定基音周期。于是獲得的語音幀的點數(shù)為 m,以m/N為步長對語音幀抽樣,同時以生成在[1,2]之間的隨機數(shù)作為抽樣點值的倍數(shù)矩 陣K相乘,獲得新的語音幀,對語音信號的每一幀作相應的處理。
[0029] 由于語音信號的平穩(wěn)性,基音周期曲線也是平滑的,相鄰之間的基音周期也是連 續(xù)的。由于基音周期一般不會發(fā)生突變,在度量轉(zhuǎn)移時,周期的值越接近,轉(zhuǎn)移的概率就越 大。兩個備選基音周期之間的路徑轉(zhuǎn)移權值為
[0031] 采用遺傳算法,使得兩個備選基音周期之間的路徑轉(zhuǎn)移權值作為適應度值,通過 不斷的