欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于小波包變換的聲紋特征提取算法的制作方法

文檔序號:11459425閱讀:728來源:國知局
一種基于小波包變換的聲紋特征提取算法的制造方法與工藝

本發(fā)明涉及語音特征參數(shù)提取和識別領(lǐng)域,具體是一種利用小波包的變換將聲紋特征進行提取的設(shè)計系統(tǒng)。



背景技術(shù):

在生物學和信息科學高度發(fā)展的今天,生物認證技術(shù)作為一種便捷、先進的信息安全技術(shù)開始在全球電子商務(wù)時代嶄露頭角;這是一種根據(jù)人自身的生理特征如:指紋、手形、臉部、虹膜、視網(wǎng)膜、氣味等和行為特征:聲音、簽名、擊鍵方式等來識別身份的技術(shù);它是集光學、傳感技術(shù)、紅外掃描和計算機技術(shù)于一身的第三代身份驗證技術(shù),能滿足現(xiàn)代社會對于身份鑒別的準確性、安全性與實用性的更高要求;在生物認證技術(shù)中,說話人識別技術(shù)以其獨特的方便性、經(jīng)濟性、和準確性受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩炞C方式。

在眾多的生物技術(shù)中,說話人識別技術(shù)表現(xiàn)出很多應(yīng)用上的優(yōu)勢;首先,說話人識別技術(shù)有著天然的優(yōu)點:以聲音作為識別特征,因其不接觸性和自然性,用戶很容易接受,不存在心理上的障礙;在說話人識別過程中,用戶不用刻意的去將手指放在傳感器上,或者把眼睛靠上攝像頭,只需隨意的說幾句話即可完成識別;其次,說話人識別所用的設(shè)備成本低廉;如:輸入設(shè)備麥克風、電話送話機等沒有特征別的要求;聲音采樣與量化對芯片的要求也很低;特征提取、模型訓練和匹配只需普通的計算機即可;另外,現(xiàn)在的電子設(shè)備很多都是集麥克風,計算機為一體,所以識別系統(tǒng)所需的硬件成本會很低。

語音特征提取方面:從1963年到1973年的十年間,研究人員先后采用帶通濾波器組、基因頻率、倒譜特征、共振峰、線性預測系數(shù)、語音對數(shù)域比例、時域音栓配合法的語音響度、mel頻率倒譜系數(shù)、小波變換系數(shù)、mel頻率倒譜系數(shù)與pca混合參數(shù)、mel頻率倒譜系數(shù)與delta混合參數(shù)等特征參數(shù)進行說話人識別;1974年,阿爾塔通過對線性預測系數(shù)、自相關(guān)系數(shù)、聲道的沖激響應(yīng)和面積函數(shù)以及倒譜系數(shù)的比較,得出在當時實驗條件下倒譜系數(shù)的識別效果最好的結(jié)論,從七十年代末起,研究人員對識別方法和匹配度等方面展開了深入研究。



技術(shù)實現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題是提出一種語音特征參數(shù)提取的算法,具有良好的魯棒性和低復雜度,且識別出的結(jié)果很好。

一種基于小波包的變換將聲紋特征進行提取的算法,具體步驟:

(1)、將采樣頻率為8000hz的一幀語音信號x(n)進行5層小波包分解,但只取其中的17個節(jié)點,17個節(jié)點分別為(5,i),i=1,2,3,4,5,6,7,12,13,(3,j),j=4,5,6,7,(4,k),k=4,5,7,(i,j)代表第i層第j+1節(jié)點處的小波包系數(shù),取這17個節(jié)點處的小波包系數(shù)的原則是根據(jù)語音的頻譜能量集中區(qū)間劃分;

(2)、計算一幀語音信號所取各節(jié)點處的小波包系數(shù),分別為:

wpcn=[cb,m(0),cb,m(1),…,cb,m(k)](1)

式(1)中wpcn表示在節(jié)點(b,m)節(jié)點下的小波包系數(shù),k表示在節(jié)點(b,m)下的小波包系數(shù)維數(shù)(或長度),n為第幾個小波包系數(shù),且n=1,2,3,…,17;當b=3時,m=4,5,6,7;k=257,n=1,2,3,4。當b=4時,m=4,5,7;k=133;n=5,6,7。當b=5時,m=1,2,3,4,5,6,7,12,13;k=66;n=8到17;

(3)、對第二步所求出的各小波包系數(shù)進行求能量之和,公式為:

en=∑[wpcn2(1),wpcn2(2),…,wpcn2(k)](2)

式中n=1,2,3,…,17;

(4)、第三步得到的en進行取對數(shù),得:

q(n)=log(en)(3)

(5)、求一幀語音的dwpt參數(shù):

dwpt=dct[q(0),q(1),…,q(n)](4)

本發(fā)明與現(xiàn)有的聲紋提取技術(shù)相比,采用了最近幾年研究最火的小波變換,將時間序列的語音信息進行高頻和低頻信息的5層分解,在通過對分解的具體節(jié)點處的語音信息進行能量求和,取對數(shù)計算,形成聲紋特征提取的算法;該算法的優(yōu)勢在于小波包對語音信息分解的頻帶能很好的模擬人耳的聽覺特性,提取出的特征在lbg-vq識別模型下識別效果很好。

附圖說明

圖1為本發(fā)明的系統(tǒng)框圖;

圖2為本發(fā)明的識別框圖;

圖3為小波包分解的結(jié)構(gòu)和17處節(jié)點代表的頻帶帶寬圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例;基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍;

如圖2所示,該基于小波包變換的聲紋特征提取算法的識別系統(tǒng),主要分為以下幾部分:

語音信號的采集,預處理,dwpt特征參數(shù)提取,識別模型測試和訓練,說話人聲紋匹配;

基于小波包變換的聲紋特征提取的識別方法具體步驟如下:

1語音信號的采集:語音信號是由audacity軟件錄制,信號的采樣頻率為8000hz,單通道,16bit;

2語音信號的預處理:預加重,其加重權(quán)系數(shù)為0.96;分幀,256個采樣點為一幀,且?guī)茷?4個采樣點;加窗,窗函數(shù)用的是漢明窗;端點檢測,端點檢測利用的是頻帶方差法;

(1)加漢明窗

k為窗口長度

(2)頻帶方差的端點檢測

設(shè)帶噪語音信號為x(n),然后經(jīng)過加窗分幀處理,得到第i幀語音信號為xi(m),對得到的該語音信號進行fft變換,如下:

其中n為幀長,讓xi={xi(1),xi(1),…,xi(n)},為求第i幀的語音信號的頻帶方差,先求出第i幀語音信號的均值和方差di如下:

將上式中的求得的多幀前導無話語音信號的均值和方差di進行取平均值,作為2個閾值,將此閾值取代雙門限語音端點檢測中的短時能量和短時過零率的閾值,便得到基于頻帶方差的端點檢測方法。

3如圖1所示的小波包變換的聲紋特征提取算法框圖,具體文字表述為:

(1)、將采樣頻率為8000hz的一幀語音信號x(n)進行5層小波包分解,但只取其中的17個節(jié)點,17個節(jié)點分別為(5,i),i=1,2,3,4,5,6,7,12,13,(3,j),j=4,5,6,7,(4,k),k=4,5,7,(i,j)代表第i層第j+1節(jié)點處的小波包系數(shù),取這17個節(jié)點處的小波包系數(shù)的原則是根據(jù)語音的頻譜能量集中區(qū)間劃分;

(2)、計算一幀語音信號所取各節(jié)點處的小波包系數(shù),分別為:

wpcn=[cb,m(0),cb,m(1),…,cb,m(k)](8)

式(1)中wpcn表示在節(jié)點(b,m)節(jié)點下的小波包系數(shù),k表示在節(jié)點(b,m)下的小波包系數(shù)維數(shù)(或長度),n為第幾個小波包系數(shù),且n=1,2,3,…,17;當b=3時,m=4,5,6,7;k=257,n=1,2,3,4。當b=4時,m=4,5,7;k=133;n=5,6,7。當b=5時,m=1,2,3,4,5,6,7,12,13;k=66;n=8到17;

(3)、對第二步所求出的各小波包系數(shù)進行求能量之和,公式為:

en=∑[wpcn2(1),wpcn2(2),…,wpcn2(k)](9)

式中n=1,2,3,…,17;

(4)、第三步得到的en進行取對數(shù),得:

q(n)=log(en)(10)

(5)、求一幀語音的dwpt參數(shù):

dwpt=dct[q(0),q(1),…,q(n)](11)

4lbg-vq訓練樣本

有m個語音信號訓練樣本的訓練序列t={x1,x2,x3,…xm},源矢量是k=17維的:xm=(xm,1,xm,2,…,xm,k)m=1,2…m;碼矢的數(shù)目是n=16,碼書表示為:c={c1,c2,…,cn};每一個碼矢是個k維向量cn=(xn,1,xn,2,…,xn,k)n=1,2…n:與碼矢cn對應(yīng)的編碼區(qū)域表示為sn,然后將空間的劃分表示為:

p={s1,s2,…,sn};如果源矢量xm在sn內(nèi),其近似是cn,即q(xm)=cn,如果xm屬于sn假設(shè)我們采用平均均方差失真度量,那么平均失測度表示如下:

其中||…||表示歐式距離。

lbg算法:

(1)確定測試集t和正數(shù)ξ,本發(fā)明為0.01;

(2)令n=1,將這一個碼矢設(shè)置為所有訓練樣本的平均值:

總失真度為:

(3)進行分裂算法:對i=1,2…n,其碼矢按照下式進行分裂:

由上可知碼矢是按原碼矢的2倍增長;

(4)開始迭代:初始失真測度確定為:dave(q)=dave*,其中q為迭代次數(shù)索引,初次令q=0;

1)對于訓練集t中的每一個訓練樣本m=1,2…m,在訓練樣本和哪個碼矢距離最近所有碼矢中尋找的,即min||xm-cn(q)||2,令n*表示該最小值的標記,用此碼矢來近似這個訓練樣本:

2)更新碼矢:

n=1,2…n,也就是將所有屬于cn所在的編碼區(qū)域sn的訓練樣本取平均作為這個編碼區(qū)域的新的碼矢。

3)迭代計數(shù)器加1:q=q+1.

4)計算在現(xiàn)階段的c和p基礎(chǔ)上的總失真度:

5)如果失真度相比上一次的失真度(相對失真改進量)還大于可以接受的失真閾值ε,那么繼續(xù)迭代,返回步驟1),否則轉(zhuǎn)入6)步

6)最終失真度為對n=1,2…n,最終碼矢為:

(5)重復步驟(3)和(4)到n=16停止。

5說話人識別

對說話人語音樣本進行步驟1-3步驟得到說話人的聲紋特征,將其與步驟4所取得到的多個訓練人語音信息得到的碼本進行匹配,將匹配距離最小的作為識別結(jié)果,本發(fā)明采用的是歐氏距離的平均距離測度。

對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明;因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi),不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求;

此外,應(yīng)當理解,雖然本說明書按照實施方式加以描述,但并非每個實施方式僅包含一個獨立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當將說明書作為一個整體,各實施例中的技術(shù)方案也可以經(jīng)適當組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實施方式。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乌拉特中旗| 繁昌县| 泽州县| 筠连县| 池州市| 京山县| 赤壁市| 黄梅县| 北安市| 东乌珠穆沁旗| 共和县| 衢州市| 吐鲁番市| 眉山市| 平安县| 山东| 罗江县| 乡宁县| 惠水县| 鸡泽县| 土默特右旗| 六安市| 湛江市| 慈利县| 罗山县| 肇庆市| 蚌埠市| 博湖县| 澄江县| 旌德县| 延安市| 肇源县| 个旧市| 楚雄市| 紫阳县| 宿州市| 正宁县| 益阳市| 武清区| 德江县| 荆门市|