專(zhuān)利名稱(chēng):聲紋識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲紋識(shí)別領(lǐng)域。
背景技術(shù):
說(shuō)話(huà)人識(shí)別和指紋,虹膜,人臉識(shí)別等一樣,屬于生物識(shí)別的一種,被認(rèn)為是最自然的生物特征識(shí)別身份鑒定方式,又稱(chēng)“聲紋”識(shí)別。說(shuō)話(huà)人識(shí)別具有采集設(shè)備簡(jiǎn)單,系統(tǒng)價(jià)格低廉,容易被人們接受等優(yōu)點(diǎn)。門(mén)禁系統(tǒng)、保險(xiǎn)柜、個(gè)人設(shè)備(汽車(chē)、電腦、手機(jī)、PDA等)使用權(quán)限控制等使用場(chǎng)合,文本相關(guān)的說(shuō)話(huà)人確認(rèn)方法,可以通過(guò)說(shuō)話(huà)人語(yǔ)音生物特征和語(yǔ)音內(nèi)容雙方面進(jìn)行驗(yàn)證,同時(shí)短語(yǔ)音即可實(shí)現(xiàn)學(xué)習(xí)和測(cè)試過(guò)程,具有突出的應(yīng)用優(yōu)勢(shì)。說(shuō)話(huà)人識(shí)別的基本過(guò)程為語(yǔ)音采集,特征提取,分類(lèi)模型。常見(jiàn)的語(yǔ)音特征提取方法是利用語(yǔ)音的短時(shí)平穩(wěn)特性,采用美倒譜變換(MFCC)方法將語(yǔ)音轉(zhuǎn)換為語(yǔ)音特征點(diǎn)集。之后經(jīng)過(guò)學(xué)習(xí)過(guò)程對(duì)說(shuō)話(huà)人語(yǔ)音進(jìn)行建模得到說(shuō)話(huà)人的分類(lèi)模型。隱馬爾可夫模型(HMM)是目前公認(rèn)的在文本相關(guān)的說(shuō)話(huà)人識(shí)別中效果最好的建模方法。HMM—方面用隱含的狀態(tài)對(duì)應(yīng)于聲學(xué)層相對(duì)穩(wěn)定的發(fā)音單位,并通過(guò)狀態(tài)轉(zhuǎn)移和狀態(tài)駐留來(lái)描述發(fā)音的變化;另一方面它引入了概率統(tǒng)計(jì)模型,用概率密度函數(shù)計(jì)算語(yǔ)音參數(shù)對(duì)HMM模型的輸出概率,通過(guò)搜索最佳狀態(tài)序列,以最大后驗(yàn)概率為準(zhǔn)則找到識(shí)別結(jié)果。但其存在幾個(gè)問(wèn)題(1)需要更多學(xué)習(xí)樣本。(2)計(jì)算復(fù)雜度高。(3)得到的模型數(shù)據(jù)量大。對(duì)于資源有限的嵌入式系統(tǒng),以上問(wèn)題,限制了算法的使用。因此需要一種新的方法解決上述問(wèn)題。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種計(jì)算量小、識(shí)別率好、數(shù)據(jù)量小的聲紋識(shí)別方法。為達(dá)到以上目的,本發(fā)明提供了一種聲紋識(shí)別方法,包括如下步驟
1)語(yǔ)音特征空間建立步驟,將不同背景、不同人聲的語(yǔ)音分割為特定長(zhǎng)度的語(yǔ)音段,每個(gè)語(yǔ)音段做特征變換后得到語(yǔ)音特征點(diǎn),所有語(yǔ)音段的語(yǔ)音特征點(diǎn)構(gòu)成語(yǔ)音特征空間;
2)子空間劃分步驟,將語(yǔ)音特征空間劃分成復(fù)數(shù)個(gè)子空間,劃分后的子空間用數(shù)據(jù)描述,并對(duì)各個(gè)子空間進(jìn)行編號(hào),記錄每個(gè)子空間的數(shù)據(jù)描述和其對(duì)應(yīng)的序號(hào);
3)訓(xùn)練語(yǔ)句特征提取步驟,將語(yǔ)句經(jīng)過(guò)特征變換得到時(shí)序特征點(diǎn)集,每個(gè)特征點(diǎn)按照最近鄰原則分配入各個(gè)子空間,記錄每個(gè)特征點(diǎn)對(duì)應(yīng)子空間的序號(hào),記錄該序號(hào)組成的序列,該序列記錄為訓(xùn)練語(yǔ)句特征;
4)測(cè)試語(yǔ)句特征提取步驟,將語(yǔ)句經(jīng)過(guò)特征變換得到時(shí)序特征點(diǎn)集,每個(gè)特征點(diǎn)按照最近鄰原則分配入各個(gè)子空間,記錄每個(gè)特征點(diǎn)對(duì)應(yīng)子空間的序號(hào),記錄該序號(hào)組成的序列,該序列記錄為測(cè)試語(yǔ)句特征; 5)聲紋識(shí)別步驟,對(duì)比訓(xùn)練語(yǔ)句特征與測(cè)試語(yǔ)句特征是否相似。本發(fā)明的進(jìn)一步改進(jìn)在于,所述的特征變換為美倒譜變換。本發(fā)明的進(jìn)一步改進(jìn)在于,所述的美倒譜變換中將語(yǔ)音分割為20ms —幀,IOms幀移取出語(yǔ)音幀,以幀為單位去掉靜音,對(duì)語(yǔ)音幀作美倒譜變換后,每幀留12個(gè)系數(shù),該12個(gè)系數(shù)構(gòu)成語(yǔ)音特征點(diǎn)。本發(fā)明的進(jìn)一步改進(jìn)在于,所述的步驟2)中采用“K-均值”算法將語(yǔ)音特征空間劃分成數(shù)個(gè)子空間,劃分后的數(shù)個(gè)子空間分別以“K-均值”的中心點(diǎn)記錄為該子空間的數(shù)據(jù)描述。本發(fā)明的進(jìn)一步改進(jìn)在于,所述的步驟3)和步驟4)還包括語(yǔ)句特征壓縮步驟,將訓(xùn)練語(yǔ)句特征以及測(cè)試語(yǔ)句特征的數(shù)據(jù)進(jìn)行壓縮。
本發(fā)明的進(jìn)一步改進(jìn)在于,所述的語(yǔ)句特征壓縮步驟為記錄子空間的序號(hào)以及相同序號(hào)的數(shù)量,將序號(hào)和相同序號(hào)的數(shù)量作為一組數(shù)據(jù)進(jìn)行排列,當(dāng)相同序號(hào)的數(shù)量為I時(shí),去掉該組數(shù)據(jù),當(dāng)去掉該組數(shù)據(jù)后,該數(shù)據(jù)前方一組數(shù)據(jù)中的序號(hào)和后方一組數(shù)據(jù)中的序號(hào)相同時(shí),則將兩組合并,新形成的數(shù)據(jù)組中,序號(hào)為與合并前相同的序號(hào),相同序號(hào)的數(shù)量為前方一組數(shù)據(jù)的數(shù)量與后方一組數(shù)據(jù)數(shù)量之和。本發(fā)明的有益效果是經(jīng)過(guò)上述方法將語(yǔ)音的連續(xù)性信息對(duì)應(yīng)為空間標(biāo)號(hào)序列,利用數(shù)據(jù)量較少的標(biāo)號(hào)序列作為說(shuō)話(huà)人的相似性特征,通過(guò)該方法獲得的特征數(shù)據(jù)量小,具有代表性,只需要進(jìn)行數(shù)字序列比對(duì)即可得到確認(rèn)結(jié)果,具有計(jì)算量小,節(jié)省存儲(chǔ)資源等優(yōu)點(diǎn),克服了基于概率統(tǒng)計(jì)的建模方法存在的問(wèn)題,適合于系統(tǒng)資源有限的嵌入式系統(tǒng)使用。
圖I本發(fā)明一種聲紋識(shí)別方法語(yǔ)音特征空間建立的流程示意 圖2本發(fā)明一種聲紋識(shí)別方法特征空間劃分流程示意 圖3本發(fā)明一種聲紋識(shí)別方法中語(yǔ)句特征提取的流程示意 圖4本發(fā)明一種聲紋識(shí)別方法中數(shù)字序列壓縮流程示意 圖5本發(fā)明一種聲紋識(shí)別方法的流程示意圖。
具體實(shí)施例方式下面對(duì)本發(fā)明的較佳實(shí)施例進(jìn)行詳細(xì)闡述,以使本發(fā)明的優(yōu)點(diǎn)和特征能更易于被本領(lǐng)域技術(shù)人員理解,從而對(duì)本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。參見(jiàn)附圖5,一種聲紋識(shí)別方法,包括如下步驟
I)參見(jiàn)附圖1,語(yǔ)音特征空間建立步驟,將不同背景、不同人聲的語(yǔ)音分割為20ms為一幀,IOms幀移取出語(yǔ)音幀(語(yǔ)音段),以幀為單位去掉靜音,對(duì)語(yǔ)音幀作美倒譜變換,每幀留12個(gè)系數(shù),該12個(gè)系數(shù)構(gòu)成語(yǔ)音特征點(diǎn)。所有語(yǔ)音段的語(yǔ)音特征點(diǎn)構(gòu)成構(gòu)成語(yǔ)音特征點(diǎn)集,也就是語(yǔ)首特征空間。2)參見(jiàn)附圖2,子空間劃分步驟,采用“K-均值”算法將語(yǔ)音特征空間劃分成數(shù)個(gè)子空間,劃分后的數(shù)個(gè)子空間分別以“K-均值”的中心點(diǎn)記錄為該子空間的數(shù)據(jù)描述,并對(duì)各個(gè)子空間進(jìn)行編號(hào),記錄每個(gè)子空間的數(shù)據(jù)描述和其對(duì)應(yīng)的序號(hào);
3)參見(jiàn)附圖3,訓(xùn)練語(yǔ)句特征提取步驟,將語(yǔ)句經(jīng)過(guò)美倒譜變換得到時(shí)序特征點(diǎn)集,每個(gè)特征點(diǎn)按照最近鄰原則分配入各個(gè)子空間,記錄每個(gè)特征點(diǎn)對(duì)應(yīng)子空間的序號(hào),記錄該序號(hào)組成的序列(2、2、4、8、8、8、5、5、5、5、5),該序列記錄為訓(xùn)練語(yǔ)句特征;4)參見(jiàn)附圖4,語(yǔ)句特征壓縮步驟,記錄子空間的序號(hào)以及相同序號(hào)的數(shù)量,將序號(hào)和相同序號(hào)的數(shù)量作為一組數(shù)據(jù)進(jìn)行排列,當(dāng)相同序號(hào)的數(shù)量為I時(shí),去掉該組數(shù)據(jù),在本實(shí)施例中序號(hào)為4的數(shù)據(jù)只有I個(gè),在數(shù)據(jù)壓縮的過(guò)程中,我們刪掉改組數(shù)據(jù)。如果當(dāng)去掉該組數(shù)據(jù)后,該數(shù)據(jù)前方一組數(shù)據(jù)中的序號(hào)和后方一組數(shù)據(jù)中的序號(hào)相同時(shí),則將兩組合并,新形成的數(shù)據(jù)組中,序號(hào)為與合并前相同的序號(hào),相同序號(hào)的數(shù)量為前方一組數(shù)據(jù)的數(shù)量與后方一組數(shù)據(jù)數(shù)量之和。在本實(shí)施中,當(dāng)序號(hào)為4的數(shù)據(jù)組被去除后,位于該組數(shù)據(jù)前一組的數(shù)據(jù)的序號(hào)為2,位于該組數(shù)據(jù)后一組的數(shù)據(jù)的序號(hào)為8,2和8不相同,所以保留原數(shù)據(jù)組。5)測(cè)試語(yǔ)句特征提取步驟,將語(yǔ)句經(jīng)過(guò)美倒譜變換得到時(shí)序特征點(diǎn)集,每個(gè)特征點(diǎn)按照最近鄰原則分配入各個(gè)子空間,記錄每個(gè)特征點(diǎn)對(duì)應(yīng)子空間的序號(hào),記錄該序號(hào)組成的序列,該序列記錄為測(cè)試語(yǔ)句特征;
所述的語(yǔ)句特征壓縮步驟為記錄子空間的序號(hào)以及相同序號(hào)的數(shù)量,將序號(hào)和相同序號(hào)的數(shù)量作為一組數(shù)據(jù)進(jìn)行排列,當(dāng)相同序號(hào)的數(shù)量為I時(shí),去掉該組數(shù)據(jù),當(dāng)去掉該組 數(shù)據(jù)后,該數(shù)據(jù)前方一組數(shù)據(jù)中的序號(hào)和后方一組數(shù)據(jù)中的序號(hào)相同時(shí),則將兩組合并,新形成的數(shù)據(jù)組中,序號(hào)為與合并前相同的序號(hào),相同序號(hào)的數(shù)量為前方一組數(shù)據(jù)的數(shù)量與后方一組數(shù)據(jù)數(shù)量之和。6)聲紋識(shí)別步驟,對(duì)比訓(xùn)練語(yǔ)句特征與測(cè)試語(yǔ)句特征是否相似。通過(guò)以上實(shí)施例可以看出,本發(fā)明是一種計(jì)算量小、識(shí)別率好、數(shù)據(jù)量小的聲紋識(shí)別方法。以上實(shí)施方式只為說(shuō)明本發(fā)明的技術(shù)構(gòu)思及特點(diǎn),其目的在于讓熟悉此項(xiàng)技術(shù)的人了解本發(fā)明的內(nèi)容并加以實(shí)施,并不能以此限制本發(fā)明的保護(hù)范圍,凡根據(jù)本發(fā)明精神實(shí)質(zhì)所做的等效變化或修飾均涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種聲紋識(shí)別方法,其特征在于包括如下步驟. 1)語(yǔ)音特征空間建立步驟,將不同背景、不同人聲的語(yǔ)音分割為特定長(zhǎng)度的語(yǔ)音段,每個(gè)語(yǔ)音段做特征變換后得到語(yǔ)音特征點(diǎn),所有語(yǔ)音段的語(yǔ)音特征點(diǎn)構(gòu)成語(yǔ)音特征空間; . 2)子空間劃分步驟,將語(yǔ)音特征空間劃分成復(fù)數(shù)個(gè)子空間,劃分后的子空間用數(shù)據(jù)描述,并對(duì)各個(gè)子空間進(jìn)行編號(hào),記錄每個(gè)子空間的數(shù)據(jù)描述和其對(duì)應(yīng)的序號(hào); . 3)訓(xùn)練語(yǔ)句特征提取步驟,將語(yǔ)句經(jīng)過(guò)特征變換得到時(shí)序特征點(diǎn)集,每個(gè)特征點(diǎn)按照最近鄰原則分配入各個(gè)子空間,記錄每個(gè)特征點(diǎn)對(duì)應(yīng)子空間的序號(hào),記錄該序號(hào)組成的序列,該序列記錄為訓(xùn)練語(yǔ)句特征; 4)測(cè)試語(yǔ)句特征提取步驟,將語(yǔ)句經(jīng)過(guò)特征變換得到時(shí)序特征點(diǎn)集,每個(gè)特征點(diǎn)按照最近鄰原則分配入各個(gè)子空間,記錄每個(gè)特征點(diǎn)對(duì)應(yīng)子空間的序號(hào),記錄該序號(hào)組成的序列,該序列記錄為測(cè)試語(yǔ)句特征; .5)聲紋識(shí)別步驟,對(duì)比訓(xùn)練語(yǔ)句特征與測(cè)試語(yǔ)句特征是否相似。
2.如權(quán)利要求I所述的聲紋識(shí)別方法,其特征在于所述的特征變換為美倒譜變換。
3.如權(quán)利要求2所述的聲紋識(shí)別方法,其特征在于所述的美倒譜變換中將語(yǔ)音分割為20ms —幀,IOms幀移取出語(yǔ)音幀,以幀為單位去掉靜音,對(duì)語(yǔ)音幀作美倒譜變換后,每幀留12個(gè)系數(shù),該12個(gè)系數(shù)構(gòu)成語(yǔ)音特征點(diǎn)。
4.如權(quán)利要求I所述的聲紋識(shí)別方法,其特征在于所述的步驟2)中采用“K-均值”算法將語(yǔ)音特征空間劃分成數(shù)個(gè)子空間,劃分后的數(shù)個(gè)子空間分別以“K-均值”的中心點(diǎn)記錄為該子空間的數(shù)據(jù)描述。
5.如權(quán)利要求I所述的聲紋識(shí)別方法,其特征在于所述的步驟3)和步驟4)還包括語(yǔ)句特征壓縮步驟,將訓(xùn)練語(yǔ)句特征以及測(cè)試語(yǔ)句特征的數(shù)據(jù)進(jìn)行壓縮。
6.如權(quán)利要求4所述的聲紋識(shí)別方法,其特征在于所述的語(yǔ)句特征壓縮步驟為記錄子空間的序號(hào)以及相同序號(hào)的數(shù)量,將序號(hào)和相同序號(hào)的數(shù)量作為一組數(shù)據(jù)進(jìn)行排列,當(dāng)相同序號(hào)的數(shù)量為I時(shí),去掉該組數(shù)據(jù),當(dāng)去掉該組數(shù)據(jù)后,該數(shù)據(jù)前方一組數(shù)據(jù)中的序號(hào)和后方一組數(shù)據(jù)中的序號(hào)相同時(shí),則將兩組合并,新形成的數(shù)據(jù)組中,序號(hào)為與合并前相同的序號(hào),相同序號(hào)的數(shù)量為前方一組數(shù)據(jù)的數(shù)量與后方一組數(shù)據(jù)數(shù)量之和。
全文摘要
本發(fā)明公開(kāi)了一種聲紋識(shí)別方法,包括如下步驟1)將大量語(yǔ)音經(jīng)過(guò)特征變換,得到的特征點(diǎn)構(gòu)成語(yǔ)音特征空間;2)將該特征空間劃分成數(shù)塊子空間,分別進(jìn)行編號(hào),記錄空間序號(hào)和數(shù)據(jù)描述;3)某一訓(xùn)練語(yǔ)音經(jīng)過(guò)特征變換得到時(shí)序特征點(diǎn)集,每個(gè)特征點(diǎn)按照最近鄰原則都將得到一個(gè)對(duì)應(yīng)的空間序號(hào);一段語(yǔ)音被轉(zhuǎn)換成了一串?dāng)?shù)字序列;4)經(jīng)過(guò)特征變換得到測(cè)試語(yǔ)音的數(shù)字序列;5)訓(xùn)練語(yǔ)音特征與測(cè)試語(yǔ)音特征對(duì)比。本發(fā)明解決了現(xiàn)有技術(shù)的缺點(diǎn),提供了一種計(jì)算量小、識(shí)別率好、數(shù)據(jù)量小的聲紋識(shí)別方法。
文檔編號(hào)G10L15/02GK102623008SQ20111016714
公開(kāi)日2012年8月1日 申請(qǐng)日期2011年6月21日 優(yōu)先權(quán)日2011年6月21日
發(fā)明者吳麗麗 申請(qǐng)人:中國(guó)科學(xué)院蘇州納米技術(shù)與納米仿生研究所