本發(fā)明涉及信號處理技術(shù)領(lǐng)域,特別涉及一種基于聲紋識別的智能鎖的語音識別方法。本發(fā)明還涉及一種基于聲紋識別的智能鎖的語音識別系統(tǒng)。本發(fā)明還涉及一種包括上述語音識別系統(tǒng)的基于聲紋識別的智能鎖。
背景技術(shù):
隨著入室盜竊事件時常發(fā)生,如何升級家居門鎖,確保室內(nèi)的安全,是人們不得不應(yīng)對的新挑戰(zhàn)。
目前,市面上傳統(tǒng)的家居門鎖基本采用鑰匙解鎖、密碼解鎖,由于鑰匙易丟失、易復(fù)制、特征性不強(qiáng)等特點(diǎn),同樣的,密碼解鎖存在易遺忘密碼,密碼易泄露的缺點(diǎn),容易造成資源浪費(fèi)的同時給用戶帶來安全隱患。另外,現(xiàn)有采用其他生物認(rèn)證技術(shù)的智能化設(shè)備如指紋識別,虹膜識別等,成本高,具有接觸性的不便性、不衛(wèi)生,例如指紋識別需要將手指放在傳感器上、虹膜識別需要將眼睛湊近攝像頭,不能提供很好的用戶體驗(yàn)且給用戶造成經(jīng)濟(jì)負(fù)擔(dān)。
在現(xiàn)有技術(shù)中,已經(jīng)出現(xiàn)了基于聲紋識別的智能門鎖。聲紋鎖是基于聲音的模式識別,跟指紋鎖有異曲同工之用。只要主人說出事先設(shè)定的暗語就能把鎖打開,別人即使說出暗語也打不開,這種聲紋鎖辨別聲音的主要依據(jù)是音色。但是,由于大多數(shù)聲紋鎖對聲音的識別和驗(yàn)證往往只采用gmm模型(gaussianmixturemodel,高斯混合模型)方法訓(xùn)練方法,實(shí)驗(yàn)表明,只采用gmm說話人識別模型,在訓(xùn)練和測試時的語音上下文內(nèi)容對識別結(jié)果有很大的影響。當(dāng)非目標(biāo)說話人的識別語音上下文和目標(biāo)說話人識別語音上下文較接近的時候,用該語音進(jìn)行目標(biāo)說話人測試時,錯誤接受的概率會大大的提高。
因此,如何提高聲紋鎖對目標(biāo)說話人的識別率,降低錯誤接受概率,保證門鎖安全性能,是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于聲紋識別的智能鎖的語音識別方法,能夠提高聲紋鎖對目標(biāo)說話人的識別率,降低錯誤接受概率,保證門鎖安全性能。本發(fā)明的另一目的是提供一種基于聲紋識別的智能鎖的語音識別系統(tǒng)和一種包括上述語音識別系統(tǒng)的基于聲紋識別的智能鎖。
為解決上述技術(shù)問題,本發(fā)明提供一種基于聲紋識別的智能鎖的語音識別方法,包括:
提取待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù);
將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為所述梅爾倒譜系數(shù)的特征向量;
將所述特征向量與各個注冊語音信號預(yù)先構(gòu)建的高斯混合模型進(jìn)行對比,并計(jì)算所述特征向量分別與各個注冊語音信號相匹配的后驗(yàn)概率;
判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語音信號通過驗(yàn)證,并對鎖具進(jìn)行開鎖操作;反之則使鎖具保持鎖定狀態(tài)。
優(yōu)選地,在提取待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù)之前,還包括:
對智能鎖的注冊人進(jìn)行注冊語音錄入,并對輸入的各個注冊語音信號構(gòu)建高斯混合模型。
優(yōu)選地,對輸入的各個注冊語音信號構(gòu)建高斯混合模型,具體包括:
提取各個注冊語音信號對應(yīng)的梅爾倒譜系數(shù),并對輸入的各個所述注冊語音信號進(jìn)行預(yù)設(shè)編號綁定;
將各個所述注冊語音信號對應(yīng)的梅爾倒譜系數(shù)作為輸入層,同時將各個所述注冊語音信號綁定的編號作為輸出層,進(jìn)行區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練,并獲得所述區(qū)分深度置信網(wǎng)絡(luò)的參數(shù)空間;
將各個所述注冊語音信號對應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為各個所述注冊語音信號對應(yīng)的梅爾倒譜系數(shù)的特征向量;
將各所述特征向量作為輸入,并以最大期望算法為準(zhǔn)構(gòu)建高斯混合模型。
優(yōu)選地,提取待驗(yàn)證語音信號或各個注冊語音信號對應(yīng)的梅爾倒譜系數(shù),具體包括:對待驗(yàn)證語音信號或各個注冊語音信號依次進(jìn)行預(yù)加重、加漢明窗、通過維納濾波法進(jìn)行去噪、進(jìn)行快速傅里葉變換、通過三角帶通濾波器進(jìn)行濾波和離散余弦轉(zhuǎn)換。
優(yōu)選地,在將各個所述注冊語音信號對應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出后,還包括:
通過公式:
校核所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出質(zhì)量,若d的值大于預(yù)設(shè)閾值,則隱層輸出質(zhì)量滿足預(yù)設(shè)要求;
其中,d為區(qū)分度,li為各注冊語音信號對應(yīng)的特征向量的對應(yīng)權(quán)值,si為矩陣s中的元素,s=sb-sw,sb為類內(nèi)離散度矩陣,sw為類間離散度矩陣。
優(yōu)選地,在提取待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù)之前,對智能鎖的注冊人進(jìn)行注冊語音錄入之后,還包括:
采集若干個未訓(xùn)練的注音信號;
若當(dāng)前未訓(xùn)練的語音信號的數(shù)量小于預(yù)設(shè)閾值,則將各未訓(xùn)練的語音信號所對應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò),以修正其參數(shù)空間;
若當(dāng)前未訓(xùn)練的語音信號的數(shù)量超過預(yù)設(shè)閾值,則將各未訓(xùn)練的語音信號所對應(yīng)的梅爾倒譜系數(shù)輸入已修正后的區(qū)分深度置信網(wǎng)絡(luò),以獲取對應(yīng)的修正特征向量,并利用所述修正特征向量對所述高斯混合模型進(jìn)行修正。
優(yōu)選地,對所述高斯混合模型進(jìn)行修正,具體包括:
設(shè)各個未訓(xùn)練的語音信號分別對應(yīng)t個修正特征向量:
且各個修正特征向量分別對應(yīng)的似然比為:
{k1,k2,k3,...,kt}
則通過公式:
修正高斯混合模型的均值和方差。
本發(fā)明還提供一種基于聲紋識別的智能鎖的語音識別系統(tǒng),包括:
提取模塊,用于待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù);
矯正模塊,用于將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為所述梅爾倒譜系數(shù)的特征向量;
計(jì)算模塊,用于將所述特征向量與各個注冊語音信號預(yù)先構(gòu)建的高斯混合模型進(jìn)行對比,并計(jì)算所述特征向量分別與各個注冊語音信號相匹配的后驗(yàn)概率;
驗(yàn)證模塊,用于判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語音信號通過驗(yàn)證,并對鎖具進(jìn)行開鎖操作;反之則使鎖具保持鎖定狀態(tài)。
優(yōu)選地,還包括:
注冊模塊,用于對智能鎖的注冊人進(jìn)行注冊語音錄入;
訓(xùn)練模塊,用于對輸入的各個注冊語音信號構(gòu)建高斯混合模型。
本發(fā)明還提供一種基于聲紋識別的智能鎖,包括聲音采集器、鎖具和如上述兩項(xiàng)中任一項(xiàng)所述的語音識別系統(tǒng)。
本發(fā)明所提供的基于聲紋識別的智能鎖的語音識別方法,主要包括四個步驟,其中,在第一步中,待驗(yàn)證語音信號輸入后,首先對其進(jìn)行預(yù)處理,將待驗(yàn)證語音信號所對應(yīng)的梅爾倒譜系數(shù)提取出來;在第二步中,再聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)對待驗(yàn)證語音信號的梅爾倒譜系數(shù)進(jìn)行深度處理,將該梅爾倒譜系數(shù)作為輸入層輸入到區(qū)分深度置信網(wǎng)絡(luò)中,該區(qū)分深度置信網(wǎng)絡(luò)具有預(yù)設(shè)參數(shù)空間,可以直接獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并且將該隱層輸出作為待驗(yàn)證語音信號的梅爾倒譜系數(shù)的特征向量;在第三步中,一般在智能鎖內(nèi)儲存有預(yù)設(shè)的若干個注冊語音信號,并且為了精確分析各個注冊語音信號,各個注冊語音信號均預(yù)先構(gòu)建好了高斯混合模型,如此,在本步驟中,將經(jīng)過預(yù)處理和深度處理后的待驗(yàn)證語音信號與各個注冊語音信號進(jìn)行對比,具體的,即將第二步中獲得的特征向量與各個注冊語音信號對應(yīng)的高斯混合模型進(jìn)行對比,在對比過程中可計(jì)算出該特征向量與各個注冊語音信號相匹配的后驗(yàn)概率;在第四步中,計(jì)算出待驗(yàn)證語音信號與各個注冊語音信號相匹配的后驗(yàn)概率后,為提高識別速率和質(zhì)量,可選擇各個后驗(yàn)概率中的最大值與預(yù)設(shè)閾值相比較,若其中的最大值大于(含等于)預(yù)設(shè)閾值,則說明該后驗(yàn)概率的可信度較高,并且該后驗(yàn)概率所對應(yīng)的待驗(yàn)證語音信號與其相比較的注冊語音信號相匹配的可信度較高,此時,待驗(yàn)證語音信號通過識別驗(yàn)證,可對鎖具進(jìn)行正常開鎖操作,反之,則待驗(yàn)證語音信號未通過識別驗(yàn)證,鎖具保持鎖定狀態(tài)。綜上所述,本發(fā)明所提供的語音識別方法,通過對待驗(yàn)證語音信號的預(yù)處理,獲得其梅爾倒譜系數(shù),再對該梅爾倒譜系數(shù)導(dǎo)入?yún)^(qū)分深度置信網(wǎng)絡(luò)進(jìn)行深度處理,獲取其特征向量,再將該特征向量與各個注冊語音信號對應(yīng)的高斯混合模型進(jìn)行對比,計(jì)算待驗(yàn)證語音信號的識別概率,相比于現(xiàn)有技術(shù),本發(fā)明通過區(qū)分深度置信網(wǎng)絡(luò)對待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正,改善了現(xiàn)有技術(shù)中僅使用高斯混合模型對語音文本的依賴性,提高了聲紋鎖對目標(biāo)說話人的識別率,降低錯誤接受概率,保證門鎖安全性能。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明所提供的一種具體實(shí)施方式的流程圖;
圖2為本發(fā)明所提供的一種具體實(shí)施方式的模塊圖;
圖3為本發(fā)明所提供的一種具體實(shí)施方式的結(jié)構(gòu)圖;
圖4為圖3的內(nèi)部結(jié)構(gòu)示意圖。
其中,圖2—4中:
提取模塊—1,矯正模塊—2,計(jì)算模塊—3,驗(yàn)證模塊—4,注冊模塊—5,訓(xùn)練模塊—6,聲音采集器—7,按鍵—8,顯示屏—9,語音提示器—10,存儲器—11,鎖具—12,控制器—13。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請參考圖1,圖1為本發(fā)明所提供的一種具體實(shí)施方式的流程圖。
在本發(fā)明所提供的一種具體實(shí)施方式中,基于聲紋識別的智能鎖的語音識別方法,主要包括四個步驟,分別為:提取待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù);將梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為梅爾倒譜系數(shù)的特征向量;將特征向量與各個注冊語音信號預(yù)先構(gòu)建的高斯混合模型進(jìn)行對比,并計(jì)算特征向量分別與各個注冊語音信號相匹配的后驗(yàn)概率;判斷各后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語音信號通過驗(yàn)證,并對鎖具進(jìn)行開鎖操作;反之則使鎖具保持鎖定狀態(tài)。
其中,在第一步中,待驗(yàn)證語音信號輸入后,首先對其進(jìn)行預(yù)處理,將待驗(yàn)證語音信號所對應(yīng)的梅爾倒譜系數(shù)提取出來。具體的,該本步驟中,對待驗(yàn)證語音信號的預(yù)處理具體包括:依次對待驗(yàn)證語音信號進(jìn)行預(yù)加重、加漢明窗、通過維納濾波法進(jìn)行去噪、進(jìn)行快速傅里葉變換、通過三角帶通濾波器進(jìn)行濾波和離散余弦轉(zhuǎn)換操作,之后即可獲得梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients,mfcc)。
在第二步中,再聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)對待驗(yàn)證語音信號的梅爾倒譜系數(shù)進(jìn)行深度處理,將該梅爾倒譜系數(shù)作為輸入層輸入到區(qū)分深度置信網(wǎng)絡(luò)中,該區(qū)分深度置信網(wǎng)絡(luò)具有預(yù)設(shè)參數(shù)空間,可以直接獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并且將該隱層輸出作為待驗(yàn)證語音信號的梅爾倒譜系數(shù)的特征向量。
在第三步中,一般在智能鎖內(nèi)儲存有預(yù)設(shè)的若干個注冊語音信號,并且為了精確分析各個注冊語音信號,各個注冊語音信號均預(yù)先構(gòu)建好了高斯混合模型,如此,在本步驟中,將經(jīng)過預(yù)處理和深度處理后的待驗(yàn)證語音信號與各個注冊語音信號進(jìn)行對比,具體的,即將第二步中獲得的特征向量與各個注冊語音信號對應(yīng)的高斯混合模型進(jìn)行對比,在對比過程中可計(jì)算出該特征向量與各個注冊語音信號相匹配的后驗(yàn)概率。
在第四步中,計(jì)算出待驗(yàn)證語音信號與各個注冊語音信號相匹配的后驗(yàn)概率后,為提高識別速率和質(zhì)量,可選擇各個后驗(yàn)概率中的最大值與預(yù)設(shè)閾值相比較,若其中的最大值大于(含等于)預(yù)設(shè)閾值,則說明該后驗(yàn)概率的可信度較高,并且該后驗(yàn)概率所對應(yīng)的待驗(yàn)證語音信號與其相比較的注冊語音信號相匹配的可信度較高,此時,待驗(yàn)證語音信號通過識別驗(yàn)證,可對鎖具進(jìn)行正常開鎖操作,反之,則待驗(yàn)證語音信號未通過識別驗(yàn)證,鎖具保持鎖定狀態(tài)。
綜上所述,本實(shí)施例所提供的語音識別方法,通過對待驗(yàn)證語音信號的預(yù)處理,獲得其梅爾倒譜系數(shù),再對該梅爾倒譜系數(shù)導(dǎo)入?yún)^(qū)分深度置信網(wǎng)絡(luò)進(jìn)行深度處理,獲取其特征向量,再將該特征向量與各個注冊語音信號對應(yīng)的高斯混合模型進(jìn)行對比,計(jì)算待驗(yàn)證語音信號的識別概率,相比于現(xiàn)有技術(shù),本實(shí)施例通過區(qū)分深度置信網(wǎng)絡(luò)對待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正,改善了現(xiàn)有技術(shù)中僅使用高斯混合模型對語音文本的依賴性,提高了聲紋鎖對目標(biāo)說話人的識別率,降低錯誤接受概率,保證門鎖安全性能。
為方便待驗(yàn)證語音信號與注冊語音信號的對比,在進(jìn)行驗(yàn)證步驟之前,還需首先進(jìn)行注冊步驟。如此,在提取待驗(yàn)證語音對應(yīng)的梅爾倒譜系數(shù)之前,還包括步驟:對智能鎖的注冊人進(jìn)行注冊語音錄入,并對輸入的各個注冊語音信號構(gòu)建高斯混合模型。
具體的,注冊人(即智能鎖的擁有者)可對智能鎖按照提示文本說出若干段語音,比如兩段對應(yīng)同一文本的語音等,然后智能鎖將其錄入并保存,錄入之后,首先可按照與待驗(yàn)證識別信號的相同處理方法進(jìn)行處理,即提取各個注冊語音信號對應(yīng)的梅爾倒譜系數(shù),然后可對各個注冊語音信號所對應(yīng)的梅爾倒譜系數(shù)與預(yù)設(shè)編號進(jìn)行綁定,以便后續(xù)步驟中的辨識和匹配。優(yōu)選地,該編號可由注冊人進(jìn)行手動輸入,若輸入的編號已經(jīng)存在,則智能鎖提醒用戶重新輸入新的編號。
之后,在注冊語音信號的編號綁定結(jié)束后,可對各個注冊語音信號進(jìn)行深度處理和矯正,以提高信號質(zhì)量和高清晰辨識度。具體的,可聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)模式(ddbn,divisiondeepbeliefnetwork,dbn),將各個注冊語音信號所對應(yīng)的梅爾倒譜系數(shù)作為輸入層,同時將各個注冊語音信號所綁定的編號作為輸出層,以此進(jìn)行區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練完成后即可獲得該區(qū)分深度置信網(wǎng)絡(luò)的參數(shù)空間。
接著,在區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練完成后,即可將各個注冊語音信號所對應(yīng)的梅爾倒譜系數(shù)輸入到該區(qū)分深度置信網(wǎng)絡(luò),以獲得該區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,同時可將該隱層輸出作為各個注冊語音信號所對應(yīng)的梅爾倒譜系數(shù)的特征向量。如此,通過區(qū)分深度置信網(wǎng)絡(luò)對各個注冊語音信號進(jìn)行深度處理,對其對應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正,提高各個注冊語音信號的高清晰度和高辨識度。
最后,即可將各個注冊語音信號經(jīng)過區(qū)分深度置信網(wǎng)絡(luò)矯正后獲得的特征向量作為輸入,以此構(gòu)建高斯混合模型,同時,為提高精確性和分析質(zhì)量,在構(gòu)建高斯混合模型時,可以最大期望算法為準(zhǔn)則進(jìn)行構(gòu)建。同時,在高斯混合模型構(gòu)建完成之后,智能鎖還可將高斯混合模型與對應(yīng)編號進(jìn)行綁定,并且將訓(xùn)練好的高斯混合模型進(jìn)行存儲。
另外,在驗(yàn)證階段,計(jì)算待驗(yàn)證語音信號與各個注冊語音信號相匹配的后驗(yàn)概率時,具體的,可設(shè)待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù)的特征向量為
其中,p(λn)為第n個注冊語音信號輸入的先驗(yàn)概率,
最后識別結(jié)果由最大后驗(yàn)概率準(zhǔn)則給出識別結(jié)果,即:
一般的,由于各個語音信號的先驗(yàn)概率都是未知的,可設(shè)其相等,即:
另外,對于一個確定的觀察特征矢量
為了使模型更具備一般性,可采用對數(shù)似然比作為判斷標(biāo)準(zhǔn)。設(shè)選取注冊語音信號n*時待驗(yàn)證語音信號取得最大后驗(yàn)概率,對應(yīng)的高斯混合模型為
其中,
進(jìn)一步的,若對數(shù)似然比大于k*,其中k*>k,說明該段語音信號為優(yōu)質(zhì)語音信號,將對應(yīng)的梅爾倒譜系數(shù)標(biāo)注未訓(xùn)練標(biāo)志,綁定注冊人編號和對數(shù)似然比,并且,智能鎖將待驗(yàn)證語音信號的梅爾倒譜系數(shù)進(jìn)行儲存。
另外,考慮到高斯混合模型對訓(xùn)練數(shù)據(jù)量往往存在較高要求,若數(shù)據(jù)量不足的話,會大幅影響系統(tǒng)性能和精確度。為此,本實(shí)施例在提取待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù)之前,以及智能鎖的注冊人進(jìn)行注冊語音錄入之后,增設(shè)了訓(xùn)練數(shù)據(jù)量采集步驟。
具體的,在智能鎖處于非注冊階段和非驗(yàn)證階段時,采集注冊人的若干個未訓(xùn)練的語音信號,當(dāng)前未訓(xùn)練的語音信號的數(shù)量小于預(yù)設(shè)閾值,比如小于50個時,可將各個未訓(xùn)練的語音信號所對應(yīng)的梅爾倒譜系數(shù)直接作為訓(xùn)練數(shù)據(jù)輸入?yún)^(qū)分深度置信網(wǎng)絡(luò),對其參數(shù)空間進(jìn)行修正,以提高區(qū)分深度置信網(wǎng)絡(luò)對待驗(yàn)證語音信號和注冊語音信號的梅爾倒譜系數(shù)的矯正精確度。同時,若采集了足夠的未訓(xùn)練的語音信號時,比如超過50個時,可將各個未訓(xùn)練的語音信號所對應(yīng)的梅爾倒譜系數(shù)輸入已修正后的區(qū)分深度置信網(wǎng)絡(luò),以獲取各個未訓(xùn)練的語音信號的梅爾倒譜系數(shù)所對應(yīng)的特征向量,同時利用該特征向量對前述已經(jīng)構(gòu)建好的高斯混合模型進(jìn)行修正。
具體的,在對高斯混合模型進(jìn)行修正時,可設(shè)各個未訓(xùn)練的語音信號分別t個修正特征向量:
同時,可各個修正特征向量分別對應(yīng)的似然比為:
{k1,k2,k3,...,kt}
最后,可通過公式:
對已經(jīng)構(gòu)建好的高斯混合模型進(jìn)行均值和方差修正,其中,li為各個特征向量或修正特征向量所對應(yīng)的權(quán)值。
不僅如此,考慮到無論是待驗(yàn)證語音信號還是注冊語音信號,在聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)進(jìn)行對應(yīng)的梅爾倒譜系數(shù)矯正時,區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出直接影響到特征向量的精確性,為此,本實(shí)施例中增設(shè)了對區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出的質(zhì)量檢測步驟。
具體的,可通過公式:
校核區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出質(zhì)量。
具體的,可以類間距離最大,類內(nèi)距離最小為衡量標(biāo)準(zhǔn),定義區(qū)分度d。設(shè)注冊語音信號有k個,以注冊語音信號n為例,該注冊語音信號擁有特征向量c個,每個特征向量對應(yīng)的權(quán)值為li,則注冊語音信號n特征向量的平均權(quán)值為:
定義矩陣s=sb-sw,si為矩陣s中元素,其中,sb為類內(nèi)離散度矩陣,sw是類間離散度矩陣。如此,d越大,說明隱含層所提取的特征分量質(zhì)量越好,反之則越小。若d的值大于預(yù)設(shè)閾值,則說明隱層輸出質(zhì)量滿足預(yù)設(shè)要求。
如圖2所示,圖2為本發(fā)明所提供的一種具體實(shí)施方式的模塊圖。
本實(shí)施例還提供一種基于聲紋識別的智能鎖的語音識別系統(tǒng),主要包括提取模塊1、矯正模塊2、計(jì)算模塊3和驗(yàn)證模塊4。其中,提取模塊1主要用于待驗(yàn)證語音信號對應(yīng)的梅爾倒譜系數(shù)。矯正模塊2主要用于將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為所述梅爾倒譜系數(shù)的特征向量。計(jì)算模塊3主要用于將所述特征向量與各個注冊語音信號預(yù)先構(gòu)建的高斯混合模型進(jìn)行對比,并計(jì)算所述特征向量分別與各個注冊語音信號相匹配的后驗(yàn)概率。驗(yàn)證模塊4主要用于判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語音信號通過驗(yàn)證,并對鎖具12進(jìn)行開鎖操作;反之則使鎖具12保持鎖定狀態(tài)。
該語音識別系統(tǒng)的語音識別方法與前述相關(guān)內(nèi)容相同,此處不再贅述。
另外,本實(shí)施例中還增設(shè)了注冊模塊5和訓(xùn)練模塊6。其中,注冊模塊5主要用于對智能鎖的注冊人進(jìn)行注冊語音錄入,而訓(xùn)練模塊6與注冊模塊5信號連接,主要用于對輸入的各個注冊語音信號構(gòu)建高斯混合模型。
如圖3和圖4所示,圖3為本發(fā)明所提供的一種具體實(shí)施方式的結(jié)構(gòu)圖,圖4為圖3的內(nèi)部結(jié)構(gòu)示意圖。
本實(shí)施例還提供一種基于聲紋識別的智能鎖,主要包括聲音采集器7、鎖具12、按鍵8、顯示屏9、語音提示器10、存儲器11、控制器13和語音識別系統(tǒng)。其中,語音識別系統(tǒng)與上述相關(guān)內(nèi)容相同,此處不再贅述。而聲音采集器7主要用于收集語音信號,鎖具12可為電磁鎖,而按鍵8主要用于供用戶輸入數(shù)字編號等,顯示屏9主要用于為用戶提供反饋信息,比如語音文本、編號重新輸入等,語音提示器10主要用于為用戶提供反饋信息,比如語音文本聲音信息等,存儲器11主要用于存儲注冊語音信號或待驗(yàn)證語音信號的梅爾倒譜系數(shù)所對應(yīng)的編號等,控制器13主要用于在識別系統(tǒng)的識別結(jié)果的控制下,控制鎖具12進(jìn)行解鎖操作或保持鎖定操作。
對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。