專(zhuān)利名稱(chēng):語(yǔ)音信號(hào)處理方法、語(yǔ)音和聲紋識(shí)別方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別和聲紋識(shí)別技術(shù),更為具體地,涉及一種基于頻譜增強(qiáng)的語(yǔ)音信號(hào)處理方法、語(yǔ)音識(shí)別方法及裝置以及基于頻譜增強(qiáng)和倒頻系數(shù)選擇性均值歸一化的聲紋識(shí)別方法及裝置。
背景技術(shù):
隨著現(xiàn)代科學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展,在進(jìn)行人機(jī)信息交互時(shí),需要一種方便且快捷的方式,由此提出了語(yǔ)音識(shí)別技術(shù)。利用語(yǔ)音識(shí)別技術(shù),可以準(zhǔn)確地識(shí)別人們發(fā)出的語(yǔ)音信號(hào),并且將所識(shí)別出的語(yǔ)音信號(hào)轉(zhuǎn)換為機(jī)器的文本輸入,由此進(jìn)行隨后的信息處理。在現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)中,如圖I所示,通常,首先通過(guò)比如麥克風(fēng)等的語(yǔ)音輸入設(shè)備來(lái)輸入音頻信號(hào)(即,音頻波形)(步驟S110)。然后,對(duì)所輸入的音頻信號(hào)進(jìn)行分幀處理(在短時(shí)階段,假設(shè)語(yǔ)音信號(hào)為平穩(wěn)的),即根據(jù)音頻信號(hào)的短時(shí)平穩(wěn)特性,對(duì)所輸入的音頻信號(hào)進(jìn)行短時(shí)音框化(例如,采用漢明窗對(duì)所輸入的音頻信號(hào)進(jìn)行處理),從而以幀為單位,將所輸入的音頻信號(hào)處理為多幀音頻信號(hào),其中相鄰兩幀之間存在重疊,通常語(yǔ)音幀長(zhǎng)被設(shè)置為25ms,兩幀之間的重疊部分時(shí)長(zhǎng)為15ms (步驟S120)。接著,針對(duì)每幀音頻信號(hào)進(jìn)行傅立葉變換計(jì)算以得到短時(shí)頻譜(步驟S130),并且利用梅爾頻率將所述短時(shí)頻譜轉(zhuǎn)換成濾波器組輸出(步驟S140)。然后,對(duì)所述濾波器組輸出進(jìn)行離散余弦變換,獲得倒譜系數(shù)(步驟S150),并對(duì)所獲得的倒譜系數(shù)進(jìn)行均值歸一化計(jì)算,得到與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量(S160)。在步驟S170,判斷是否針對(duì)所有幀得到對(duì)應(yīng)的前端特征向量。如果沒(méi)有,則返回到步驟S130。否則,禁止到步驟S180。在訓(xùn)練階段,利用所得到的前端特征向量訓(xùn)練依賴于上下文的子音素模型(或者稱(chēng)為三音素模型);然后,在測(cè)試階段,與聲學(xué)模型、語(yǔ)言模型和字典一起識(shí)別用戶輸入的語(yǔ)音信號(hào)(S180)。在現(xiàn)有應(yīng)用中,除了識(shí)別用戶所說(shuō)語(yǔ)音信號(hào)的內(nèi)容之外,有時(shí)還需要識(shí)別用戶本身的身份(即,說(shuō)話人的身份),這通常也稱(chēng)為聲紋識(shí)別。聲紋識(shí)別的過(guò)程與上述語(yǔ)音識(shí)別過(guò)程基本類(lèi)似。不同之處在于,在聲紋識(shí)別的訓(xùn)練階段,獲得的前端特征向量是用來(lái)為每個(gè)說(shuō)話人訓(xùn)練聲紋模型;一旦獲得訓(xùn)練好的聲紋模型,該聲紋模型就可用來(lái)識(shí)別說(shuō)話人的身份。無(wú)論是語(yǔ)音識(shí)別技術(shù)(S卩電腦自動(dòng)識(shí)別說(shuō)話人所說(shuō)的內(nèi)容)還是聲紋識(shí)別(即電腦自動(dòng)識(shí)別說(shuō)話人的身份)都有缺陷,以至于各自的識(shí)別率都還不能達(dá)到百分之百。最重要的缺陷在于抗噪音干擾性不強(qiáng),尤其是當(dāng)干擾噪音的頻譜特性與語(yǔ)音相似時(shí)。不少語(yǔ)音識(shí)別或聲紋識(shí)別的算法在安靜的實(shí)驗(yàn)室狀況下,識(shí)別準(zhǔn)確率都相當(dāng)高。但一旦在實(shí)際環(huán)境下使用時(shí)(real-world deployment),由于總是存在周?chē)胍?識(shí)別率因而明顯下降,有時(shí)甚至 低于50%。頻譜相減(Spectrum subtraction)是一種抗噪音干擾的技術(shù),試驗(yàn)證明,它能夠有效地提高噪音環(huán)境下的識(shí)別率。另外信道失真(channel distortion),也就是訓(xùn)練時(shí)所用的通信信道與測(cè)試時(shí)所用的通信信道不匹配(mismatch),也會(huì)嚴(yán)重地影響識(shí)別率。
對(duì)語(yǔ)音識(shí)別來(lái)說(shuō),其技術(shù)缺陷還包括(I)處理說(shuō)話人之間的差異的能力有限(如方言,男女聲,大人小孩)和(2)有無(wú)說(shuō)話內(nèi)容的限制(如以句法為基礎(chǔ)的指令識(shí)別還是不受限制的聽(tīng)寫(xiě)-dictation)。另一方面,聲紋識(shí)別的其他缺陷包括所說(shuō)的內(nèi)容對(duì)識(shí)別率有影響。人們通常是視具體的應(yīng)用,采用固定文本(text-dependent),提示文本(text-prompted),或可變文本(text-independent)來(lái)解決這個(gè)問(wèn)題。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,本發(fā)明的一個(gè)目的是提供一種基于頻譜增強(qiáng)的語(yǔ)音信號(hào)處理方法及裝置。本發(fā)明的另一目的是提供一種基于頻譜增強(qiáng)的語(yǔ)音信號(hào)處理方法及裝置,以及基 于頻譜增強(qiáng)和倒頻系數(shù)選擇性均值歸一化的聲紋識(shí)別方法及裝置。根據(jù)本發(fā)明的一個(gè)方面,提供了一種語(yǔ)音信號(hào)處理方法,包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化;將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀;針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào);基于所得到的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;以及基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量。在上述方面的一個(gè)或多個(gè)示例中,基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量可以包括為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重;以及基于所分配的加權(quán)權(quán)重,對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量,其中,分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。在上述方面的一個(gè)或多個(gè)示例中,在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量之前或之后,所述方法還包括針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量,對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),還對(duì)該倒譜系數(shù)進(jìn)行均值歸一化,并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新;以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變。在上述方面的一個(gè)或多個(gè)示例中,對(duì)倒譜系數(shù)進(jìn)行均值歸一化可以包括從該倒譜系數(shù)中減去針對(duì)所獲得的語(yǔ)音信號(hào)的所有短時(shí)語(yǔ)音幀的倒譜系數(shù)均值,或者從該倒譜系數(shù)中減去前一短時(shí)語(yǔ)音幀的倒譜系數(shù)與預(yù)定系數(shù)a之積,其中a是0和I之間的小數(shù)。在上述方面的一個(gè)或多個(gè)示例中,所述衍生頻譜信號(hào)是使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出的。根據(jù)本發(fā)明的另一方面,提供了一種語(yǔ)音信號(hào)處理裝置,包括語(yǔ)音信號(hào)獲取單元,用于獲取用戶的語(yǔ)音信號(hào);數(shù)字化單元,用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化;分幀單元,用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀;傅立葉變換單元,用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào);衍生頻譜信號(hào)生成單元,用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);離散余弦變換單元,用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;以及前端特征向量導(dǎo)出單元,用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。在上述方面的一個(gè)或多個(gè)示例中,所述前端特征向量導(dǎo)出單元可以包括加權(quán)權(quán)重分配模塊,用于為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重;以及求和模塊,用于基于所分配的加權(quán)權(quán)重,對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和,其中,分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。在上述方面的一個(gè)或多個(gè)示例中,所述語(yǔ)音信號(hào)處理裝置還可以包括均值歸一化單元,用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量,對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),對(duì)該倒譜系數(shù)進(jìn)行均值歸一化;以及倒譜系數(shù)處理單元,用于針對(duì)每個(gè)倒譜系數(shù)向量,對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變,以及對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新。在上述方面的一個(gè)或多個(gè)示例中,所述衍生頻譜信號(hào)生成單元被配置為使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理而生成。根據(jù)本發(fā)明的另一方面,提供了一種語(yǔ)音識(shí)別方法,包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化;將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀;針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào);基于所得到的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量;以及利用所導(dǎo)出的前端特征向量,對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào)進(jìn)行識(shí)別。根據(jù)本發(fā)明的另一方面,提供了一種語(yǔ)音識(shí)別裝置,包括語(yǔ)音信號(hào)獲取單元,用于獲取用戶的語(yǔ)音信號(hào);數(shù)字化單元,用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化;分幀單元,用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀;傅立葉變換單元,用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào);衍生頻譜信號(hào)生成單元,用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);離散余弦變換單元,用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;前端特征向量導(dǎo)出單元,用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量;以及語(yǔ)音信號(hào)識(shí)別單元,用于基于所導(dǎo)出的前端特征向量,對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào) 進(jìn)行識(shí)別。根據(jù)本發(fā)明的另一方面,提供了一種聲紋識(shí)別方法,包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化;將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀;針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào);基于所得到的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;基于第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出該短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量;以及利用所導(dǎo)出的前端特征向量集,對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別,其中,在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量之前或之后,所述方法還包括針對(duì)所計(jì)算出或所導(dǎo)出的倒譜系數(shù)向量,對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),還對(duì)該倒譜系數(shù)進(jìn)行均值歸一化,并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新;以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變。根據(jù)本發(fā)明的另一方面,提供了一種聲紋識(shí)別裝置,包括語(yǔ)音信號(hào)獲取單元,用于獲取用戶的語(yǔ)音信號(hào);數(shù)字化單元,用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化;分幀單元,用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀;傅立葉變換單元,用于針對(duì)每個(gè)短 時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào);衍生頻譜信號(hào)生成單元,用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);離散余弦變換單元,用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;前端特征向量導(dǎo)出單元,用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量;均值歸一化單元,用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量,對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),對(duì)該倒譜系數(shù)進(jìn)行均值歸一化;以及倒譜系數(shù)處理單元,用于在經(jīng)過(guò)均值歸一化單元處理后,針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量,對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變,以及對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新;以及聲紋識(shí)別單元,用于基于所導(dǎo)出的前端特征向量,對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別。利用上述方法和裝置,可以克服現(xiàn)有技術(shù)中在現(xiàn)實(shí)應(yīng)用的包含噪音的環(huán)境下語(yǔ)音識(shí)別率或說(shuō)話人識(shí)別率不高的問(wèn)題。特別是,本發(fā)明提出使用至少一個(gè)衍生的頻譜,使之能夠充分綜合利用多個(gè)魯棒性的算法的優(yōu)點(diǎn),相互彌補(bǔ)各自的缺陷,進(jìn)而能提高識(shí)別率。為了實(shí)現(xiàn)上述以及相關(guān)目的,本發(fā)明的一個(gè)或多個(gè)方面包括后面將詳細(xì)說(shuō)明并在權(quán)利要求中特別指出的特征。下面的說(shuō)明以及附圖詳細(xì)說(shuō)明了本發(fā)明的某些示例性方面。然而,這些方面指示的僅僅是可使用本發(fā)明的原理的各種方式中的一些方式。此外,本發(fā)明旨在包括所有這些方面以及它們的等同物。
根據(jù)下述參照附圖進(jìn)行的詳細(xì)描述,本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)將變得更加顯而易見(jiàn)。在附圖中圖I示出了現(xiàn)有技術(shù)中的語(yǔ)音識(shí)別過(guò)程的流程圖2示出了根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理過(guò)程的流程圖;圖3示出了經(jīng)過(guò)FFT變換后的幅值頻譜示意圖;圖4示出了前端特征向量導(dǎo)出過(guò)程的一個(gè)示例的示意圖;圖5示出了前端特征向量導(dǎo)出過(guò)程的一個(gè)示例的流程圖;圖6示出了根據(jù)本發(fā)明的第一實(shí)施例的用于執(zhí)行圖2中示出的語(yǔ)音信號(hào)處理過(guò)程的語(yǔ)音信號(hào)處理裝置的方框示意圖;
圖7示出了圖6中的前端特征向量導(dǎo)出單元的一個(gè)示例的方框示意圖;圖8示出了根據(jù)本發(fā)明的第二實(shí)施例的語(yǔ)音信號(hào)處理過(guò)程的流程圖;圖9示出了根據(jù)本發(fā)明的第二實(shí)施例的用于執(zhí)行圖6中示出的語(yǔ)音信號(hào)處理過(guò)程的語(yǔ)音信號(hào)處理裝置的方框示意圖;圖10示出了根據(jù)本發(fā)明的語(yǔ)音識(shí)別過(guò)程的流程圖;圖11示出了根據(jù)本發(fā)明的語(yǔ)音識(shí)別裝置的方框示意圖;圖12示出了根據(jù)本發(fā)明的聲紋識(shí)別過(guò)程的流程圖;和圖13示出了根據(jù)本發(fā)明的聲紋識(shí)別裝置的方框示意圖。在所有附圖中相同的標(biāo)號(hào)指示相似或相應(yīng)的特征或功能。
具體實(shí)施例方式下面描述本發(fā)明的各個(gè)方面。應(yīng)該明白的是,本文的教導(dǎo)可以以多種多樣形式具體體現(xiàn),并且在本文中公開(kāi)的任何具體結(jié)構(gòu)、功能或兩者僅僅是代表性的?;诒疚牡慕虒?dǎo),本領(lǐng)域技術(shù)人員應(yīng)該明白的是,本文所公開(kāi)的一個(gè)方面可以獨(dú)立于任何其它方面實(shí)現(xiàn),并且這些方面中的兩個(gè)或多個(gè)方面可以按照各種方式組合。例如,可以使用本文所闡述的任何數(shù)目的方面,實(shí)現(xiàn)裝置或?qū)嵺`方法。另外,可以使用其它結(jié)構(gòu)、功能、或除了本文所闡述的一個(gè)或多個(gè)方面之外或不是本文所闡述的一個(gè)或多個(gè)方面的結(jié)構(gòu)和功能,實(shí)現(xiàn)這種裝置或?qū)嵺`這種方法。此外,本文所描述的任何方面可以包括權(quán)利要求的至少一個(gè)元素。以下將結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例進(jìn)行詳細(xì)描述。(第一實(shí)施例)下面參照?qǐng)D2到圖7對(duì)根據(jù)本發(fā)明的第一實(shí)施例進(jìn)行說(shuō)明。圖2示出了根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理過(guò)程的流程圖。如圖2所示,首先,在步驟S210,對(duì)通過(guò)麥克風(fēng)等的語(yǔ)音信號(hào)獲取單元(語(yǔ)音信號(hào)輸入單元)獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化,將所獲取的模擬語(yǔ)音信號(hào)變換為數(shù)字語(yǔ)音信號(hào),例如利用A/D變換器將所獲取的模擬語(yǔ)音信號(hào)變換為數(shù)字語(yǔ)音信號(hào)。這里,語(yǔ)音信號(hào)獲取單元也可以是本領(lǐng)域公知的其它設(shè)備,例如錄音筆等。在進(jìn)行數(shù)字化處理時(shí),也可以采用其它已知的數(shù)字化處理設(shè)備。在對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化處理后,將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀處理為多個(gè)短時(shí)語(yǔ)音幀(步驟S220)。例如,利用漢明窗,對(duì)所述輸入的語(yǔ)音信號(hào)進(jìn)行短時(shí)音框化,其中相鄰兩幀之間有重疊。在本發(fā)明的一個(gè)實(shí)施例中,每幀語(yǔ)音信號(hào)為25毫秒,相鄰兩幀之間存在15毫秒重疊。此外,在每幀里,還假設(shè)語(yǔ)音信號(hào)平穩(wěn)。然后,在步驟S230,針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)。也就是,利用傅立葉變化,將短時(shí)語(yǔ)音幀從時(shí)域變換到頻域,從而到短時(shí)語(yǔ)音幀的振幅譜。圖3示出了短時(shí)信號(hào)x(t)的傅立葉變換振幅譜,其中Fs是以Hz為單位的采樣頻率,并且有用的頻譜信息包含在從O到Fs/2的頻率范圍內(nèi)。這里,針對(duì)人類(lèi)語(yǔ)音的特點(diǎn),每個(gè)短時(shí)語(yǔ)音幀通常為25毫秒長(zhǎng),同時(shí)幀與幀之間有15毫秒的重疊。如果是8000Hz,那么每一幀有0. 025*8000=200個(gè)采樣點(diǎn)。為了能利用FFT來(lái)計(jì)算頻譜,這200個(gè)要進(jìn)行補(bǔ)零(zero-padding)處理,從而使得采樣點(diǎn)數(shù)目正好是2的整數(shù)次冪(即256)。另外一個(gè)常用的采樣頻率是16000Hz。對(duì)應(yīng)的幀長(zhǎng)是0. 025*16000=400點(diǎn),補(bǔ)零后取512點(diǎn)的FFT。FFT的一個(gè)特征是N個(gè)時(shí)域的點(diǎn)將對(duì)應(yīng)著N個(gè)頻域點(diǎn)。這N個(gè)頻域點(diǎn)的數(shù)據(jù)可以直接用來(lái)表征語(yǔ)音的頻譜。接著,在步驟S240,基于所得到的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信 號(hào)的變型的衍生頻譜信號(hào)。這里,第一頻譜信號(hào)是利用FFT變換后得到的原始振幅譜。所述衍生頻譜信號(hào)例如可以使用頻譜相減、頻帶限制和/或頻帶衰減等方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出。也就是,假設(shè)|X(f) I代表原始傅立葉變換振幅譜,即,|X(0) (f) I = |X(f) |,則可以經(jīng)過(guò)頻譜均值相減來(lái)減少加性噪聲,或者通過(guò)頻率限制或頻帶衰減來(lái)去除或衰減易于受到聲音變化影響且包含少量發(fā)出語(yǔ)音信號(hào)的用戶的信息的頻譜區(qū)域,得到|X(f)|的不同變型。這里,要說(shuō)明的是,在本發(fā)明的另一示例中,在如上得到衍生頻譜信號(hào)后,還可以使用梅爾頻率將短時(shí)頻譜轉(zhuǎn)換成濾波器輸出。梅爾頻率是根據(jù)對(duì)人類(lèi)聽(tīng)力系統(tǒng)作分析后得到的。它把高頻部分的頻譜進(jìn)行壓縮,將短時(shí)頻譜轉(zhuǎn)換成濾波器輸出。在如上處理后,在步驟S250,對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量。每個(gè)倒譜系數(shù)向量所含有的元素個(gè)數(shù)取決于算FFT的點(diǎn)數(shù)以及是否采用濾波器方式的輸出。通常在語(yǔ)音/聲紋識(shí)別中,只取該向量的前13個(gè)系數(shù),即圖2中的Q等于13。也就是說(shuō),針對(duì)每個(gè)幀計(jì)算出對(duì)應(yīng)的倒譜系數(shù),例如圖4中的C(°)(q),C(1)(q),……,C(k)(q)等。這里,C(°)(q)表示短時(shí)語(yǔ)音幀對(duì)應(yīng)的第一頻譜信號(hào)的倒譜系數(shù)向量的第q個(gè)標(biāo)量系數(shù),以及C(k) (q)表示第k個(gè)衍生頻譜信號(hào)的倒譜系數(shù)的第q個(gè)標(biāo)量系數(shù)。然后,在步驟S260,基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。接著,在步驟S270,判斷是否針對(duì)所有短時(shí)語(yǔ)音幀導(dǎo)出對(duì)應(yīng)的前端特征向量。如果沒(méi)有,即步驟S270中為否,則返回到步驟S230,針對(duì)下一短時(shí)語(yǔ)音幀進(jìn)行處理。如果已經(jīng)導(dǎo)出,即步驟S270中為是,則流程結(jié)束。圖5示出了前端特征向量導(dǎo)出過(guò)程的一個(gè)示例的流程圖。如圖5所示,在步驟S250中得到第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的各自的倒譜系數(shù)向量后,為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重(步驟S261),其中,分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。這些加權(quán)權(quán)重可以簡(jiǎn)單地在各種頻譜中平分。例如,當(dāng)使用兩個(gè)頻譜時(shí),這些加權(quán)權(quán)重各為0. 5,而當(dāng)使用三個(gè)頻譜時(shí),這些加權(quán)權(quán)重各為1/3?;蛘?,可以利用預(yù)先確定的條件(例如,用于存儲(chǔ)預(yù)先確定的條件的條件數(shù)據(jù)庫(kù))來(lái)為各個(gè)倒譜系數(shù)向量分配這些加權(quán)權(quán)重,使得基于如此分配的加權(quán)權(quán)重所得到的識(shí)別率最好。然后,基于所分配的加權(quán)權(quán)重,對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量(步驟S263)。例如,如圖4中所示,分別為C(°)(q),C(1)(q),……,C(k) (q)分配加權(quán)權(quán)重3 (°)、運(yùn)⑴、……、
^ (k),其中,=1,則短時(shí)語(yǔ)音幀q的倒譜系數(shù)向量為亡⑷=;!#^⑷。
i=0 /=0圖6示出了根據(jù)本發(fā)明的第一實(shí)施例的用于執(zhí)行圖2中示出的語(yǔ)音信號(hào)處理過(guò)程的語(yǔ)音信號(hào)處理裝置600的方框示意圖。如圖6所示,語(yǔ)音信號(hào)處理裝置600包括語(yǔ)音信號(hào)獲取單元610、數(shù)字化單元620、分中貞單元630、FFT單元640、衍生頻譜信號(hào)生成單元650、離散余弦變換單元660以及前端特征向量導(dǎo)出單元670。語(yǔ)音信號(hào)獲取單元610用于獲取用戶的語(yǔ)音信號(hào),比如麥克風(fēng)、錄音筆等。數(shù)字化 單元620用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化。這里,數(shù)字化單元620可以采用本領(lǐng)域中公知的A/D變換器。分幀單元630用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀。傅立葉變換單元640用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該語(yǔ)音信號(hào)的第一頻譜信號(hào)。衍生頻譜信號(hào)生成單元650用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)。優(yōu)選地,衍生頻譜信號(hào)生成單元650使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出至少一個(gè)衍生頻譜信號(hào)。在圖4中示出了 k個(gè)衍生頻譜信號(hào)。離散余弦變換單元660用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量。前端特征向量導(dǎo)出單元670用于基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出該短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。圖7示出了圖6中的前端特征向量導(dǎo)出單元670的一個(gè)示例的方框示意圖。在本發(fā)明的一個(gè)示例中,如圖7所示,前端特征向量導(dǎo)出單元670可以包括加權(quán)權(quán)重分配模塊671和求和模塊673。加權(quán)權(quán)重分配模塊671用于分別為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重,其中分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。求和模塊673用于基于所分配的加權(quán)權(quán)重,對(duì)所計(jì)算出的各個(gè)倒譜系數(shù)向量進(jìn)行加權(quán)求和。如上參照?qǐng)D2到圖7對(duì)根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理方法及裝置進(jìn)行了說(shuō)明。利用根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理方法,可以通過(guò)使用至少一個(gè)衍生的頻譜,使之能夠充分綜合利用多個(gè)魯棒性的算法的優(yōu)點(diǎn),相互彌補(bǔ)各自的缺陷,進(jìn)而能提高語(yǔ)音識(shí)別的準(zhǔn)確率。(第二實(shí)施例)下面參照?qǐng)D8和圖9描述根據(jù)本發(fā)明的第二實(shí)施例的語(yǔ)音信號(hào)處理方法及裝置。圖8示出了根據(jù)本發(fā)明的第二實(shí)施例的語(yǔ)音處理方法的流程圖。通過(guò)比較圖8中示出的流程和圖2中示出的流程圖可知,圖8中的步驟S810到S850與圖2中的步驟S210到S250基本上完全相同,在此不再重復(fù)描述。下面僅僅對(duì)圖8中的步驟S860到S895進(jìn)行說(shuō)明。
如圖8所示,在計(jì)算出倒譜系數(shù)向量后,在步驟S860,針對(duì)各個(gè)倒譜系數(shù)向量中的倒譜系數(shù),判斷該倒譜系數(shù)是否對(duì)聲紋識(shí)別不敏感,例如,對(duì)用于示出說(shuō)話人之間的區(qū)別的聲道不敏感。如果在步驟S860中判斷該倒譜系數(shù)對(duì)聲紋識(shí)別不敏感(例如,對(duì)聲道不敏感),即步驟S860中的判斷結(jié)果為是,則進(jìn)行到步驟S870。在步驟S870,對(duì)該倒譜系數(shù)進(jìn)行均值歸一化,并且利用該均值歸一化后的倒譜系數(shù)對(duì)倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新(步驟S875)。對(duì)這類(lèi)倒譜系數(shù)實(shí)現(xiàn)均值歸一化,能減少信道失真對(duì)識(shí)別率的影響。在本發(fā)明的一個(gè)示例中,對(duì)倒譜系數(shù)進(jìn)行均值歸一化可以包括從該倒譜系數(shù)中減去針對(duì)語(yǔ)音信號(hào)的所有幀的倒譜系數(shù)均值。倒譜系數(shù)均值由下述公式(I)表示,其中總共存在Q+1個(gè)倒譜系數(shù),為0,1,2, ,Q。
權(quán)利要求
1.一種語(yǔ)音信號(hào)處理方法,包括 對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化; 將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理 進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào); 基于所得到的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;以及 基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。
2.如權(quán)利要求I所述的語(yǔ)音信號(hào)處理方法,其中,基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量包括 為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重;以及 基于所分配的加權(quán)權(quán)重,對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量, 其中,分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。
3.如權(quán)利要求I或2所述的語(yǔ)音信號(hào)處理方法,其中,在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量之前或之后,所述方法還包括 針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量, 對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),對(duì)該倒譜系數(shù)進(jìn)行均值歸一化,并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新;以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變。
4.如權(quán)利要求3所述的語(yǔ)音處理方法,其中,對(duì)倒譜系數(shù)進(jìn)行均值歸一化包括從該倒譜系數(shù)中減去針對(duì)所獲得的語(yǔ)音信號(hào)的所有短時(shí)語(yǔ)音幀的倒譜系數(shù)均值,或者從該倒譜系數(shù)中減去前一短時(shí)語(yǔ)音幀的倒譜系數(shù)與預(yù)定系數(shù)a之積,其中a是O和I之間的小數(shù)。
5.如權(quán)利要求I所述的語(yǔ)音處理方法,其中,所述衍生頻譜信號(hào)是使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出的。
6.一種語(yǔ)音信號(hào)處理裝置,包括 語(yǔ)音信號(hào)獲取單元,用于獲取用戶的語(yǔ)音信號(hào); 數(shù)字化單元,用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化; 分中貞單兀,用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 傅立葉變換單元,用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào); 衍生頻譜信號(hào)生成單元,用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 離散余弦變換單元,用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量; 前端特征向量導(dǎo)出單元,用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量。
7.如權(quán)利要求6所述的語(yǔ)音信號(hào)處理裝置,其中,所述前端特征向量導(dǎo)出單元包括 加權(quán)權(quán)重分配模塊,用于為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重; 求和模塊,用于基于所分配的加權(quán)權(quán)重,對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和, 其中,分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。
8.如權(quán)利要求6或7所述的語(yǔ)音信號(hào)處理裝置,還包括 均值歸一化單元,用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量,對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),對(duì)該倒譜系數(shù)進(jìn)行均值歸一化;以及 倒譜系數(shù)處理單元,用于針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量,對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變,以及對(duì)于聲道不敏感的倒譜系數(shù),利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新。
9.如權(quán)利要求6所述的語(yǔ)音處理裝置,其中,所述衍生頻譜信號(hào)生成單元被配置為使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理而生成。
10.一種語(yǔ)音識(shí)別方法,包括 對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化; 將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理 進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào); 基于所得到的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量; 基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量;以及利用所導(dǎo)出的前端特征向量,對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào)進(jìn)行識(shí)別。
11.一種語(yǔ)音識(shí)別裝置,包括 語(yǔ)音信號(hào)獲取單元,用于獲取用戶的語(yǔ)音信號(hào); 數(shù)字化單元,用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化; 分中貞單兀,用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 傅立葉變換單元,用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào); 衍生頻譜信號(hào)生成單元,用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);離散余弦變換單元,用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量; 前端特征向量導(dǎo)出單元,用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量;以及 語(yǔ)音信號(hào)識(shí)別單元,用于基于所導(dǎo)出的前端特征向量,對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào)進(jìn)行識(shí)別。
12.—種聲紋識(shí)別方法,包括 對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化; 將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理 進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào); 基于所得到的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量; 基于第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出該短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量; 以及 利用所導(dǎo)出的前端特征向量集,對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別, 其中,在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量之前或之后,所述方法還包括 針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量, 對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),對(duì)該倒譜系數(shù)進(jìn)行均值歸一化,并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新;以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變。
13.一種聲紋識(shí)別裝置,包括 語(yǔ)音信號(hào)獲取單元,用于獲取用戶的語(yǔ)音信號(hào); 數(shù)字化單元,用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化; 分中貞單兀,用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 傅立葉變換單元,用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換,得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào); 衍生頻譜信號(hào)生成單元,用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào),導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 離散余弦變換單元,用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量; 前端特征向量導(dǎo)出單元,用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量;均值歸一化單元,用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量,對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),對(duì)該倒譜系數(shù)進(jìn)行均值歸一化;以及 倒譜系數(shù)處理單元,用于在經(jīng)過(guò)均值歸一化單元處理后,針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量,對(duì)于聲紋識(shí)別敏感的倒譜系數(shù),將該倒譜系數(shù)保持為原樣不變,以及對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù),利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新;以及 聲紋識(shí)別單元,用于基于所導(dǎo)出的前端特征向量,對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別。
全文摘要
本發(fā)明提出了一種語(yǔ)音信號(hào)處理方法,包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化、加窗分幀和傅立葉變換后得到第一頻譜信號(hào);基于第一頻譜信號(hào)導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào);對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換,計(jì)算各自的倒譜系數(shù)向量;以及基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量,導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量,作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。
文檔編號(hào)G10L21/02GK102723081SQ20121017365
公開(kāi)日2012年10月10日 申請(qǐng)日期2012年5月30日 優(yōu)先權(quán)日2012年5月30日
發(fā)明者林其光 申請(qǐng)人:林其燦