語(yǔ)音信號(hào)處理方法、語(yǔ)音和聲紋識(shí)別方法及其裝置的制作方法

文檔序號(hào)：2833156閱讀：281來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：語(yǔ)音信號(hào)處理方法、語(yǔ)音和聲紋識(shí)別方法及其裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音識(shí)別和聲紋識(shí)別技術(shù)，更為具體地，涉及一種基于頻譜增強(qiáng)的語(yǔ)音信號(hào)處理方法、語(yǔ)音識(shí)別方法及裝置以及基于頻譜增強(qiáng)和倒頻系數(shù)選擇性均值歸一化的聲紋識(shí)別方法及裝置。
背景技術(shù)：
隨著現(xiàn)代科學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展，在進(jìn)行人機(jī)信息交互時(shí)，需要一種方便且快捷的方式，由此提出了語(yǔ)音識(shí)別技術(shù)。利用語(yǔ)音識(shí)別技術(shù)，可以準(zhǔn)確地識(shí)別人們發(fā)出的語(yǔ)音信號(hào)，并且將所識(shí)別出的語(yǔ)音信號(hào)轉(zhuǎn)換為機(jī)器的文本輸入，由此進(jìn)行隨后的信息處理。在現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)中，如圖I所示，通常，首先通過(guò)比如麥克風(fēng)等的語(yǔ)音輸入設(shè)備來(lái)輸入音頻信號(hào)(即，音頻波形)(步驟S110)。然后，對(duì)所輸入的音頻信號(hào)進(jìn)行分幀處理(在短時(shí)階段，假設(shè)語(yǔ)音信號(hào)為平穩(wěn)的)，即根據(jù)音頻信號(hào)的短時(shí)平穩(wěn)特性，對(duì)所輸入的音頻信號(hào)進(jìn)行短時(shí)音框化(例如，采用漢明窗對(duì)所輸入的音頻信號(hào)進(jìn)行處理)，從而以幀為單位，將所輸入的音頻信號(hào)處理為多幀音頻信號(hào)，其中相鄰兩幀之間存在重疊，通常語(yǔ)音幀長(zhǎng)被設(shè)置為25ms，兩幀之間的重疊部分時(shí)長(zhǎng)為15ms (步驟S120)。接著，針對(duì)每幀音頻信號(hào)進(jìn)行傅立葉變換計(jì)算以得到短時(shí)頻譜(步驟S130)，并且利用梅爾頻率將所述短時(shí)頻譜轉(zhuǎn)換成濾波器組輸出(步驟S140)。然后，對(duì)所述濾波器組輸出進(jìn)行離散余弦變換，獲得倒譜系數(shù)(步驟S150)，并對(duì)所獲得的倒譜系數(shù)進(jìn)行均值歸一化計(jì)算，得到與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量(S160)。在步驟S170，判斷是否針對(duì)所有幀得到對(duì)應(yīng)的前端特征向量。如果沒(méi)有，則返回到步驟S130。否則，禁止到步驟S180。在訓(xùn)練階段，利用所得到的前端特征向量訓(xùn)練依賴于上下文的子音素模型(或者稱(chēng)為三音素模型)；然后，在測(cè)試階段，與聲學(xué)模型、語(yǔ)言模型和字典一起識(shí)別用戶輸入的語(yǔ)音信號(hào)(S180)。在現(xiàn)有應(yīng)用中，除了識(shí)別用戶所說(shuō)語(yǔ)音信號(hào)的內(nèi)容之外，有時(shí)還需要識(shí)別用戶本身的身份(即，說(shuō)話人的身份)，這通常也稱(chēng)為聲紋識(shí)別。聲紋識(shí)別的過(guò)程與上述語(yǔ)音識(shí)別過(guò)程基本類(lèi)似。不同之處在于，在聲紋識(shí)別的訓(xùn)練階段，獲得的前端特征向量是用來(lái)為每個(gè)說(shuō)話人訓(xùn)練聲紋模型；一旦獲得訓(xùn)練好的聲紋模型，該聲紋模型就可用來(lái)識(shí)別說(shuō)話人的身份。無(wú)論是語(yǔ)音識(shí)別技術(shù)(S卩電腦自動(dòng)識(shí)別說(shuō)話人所說(shuō)的內(nèi)容)還是聲紋識(shí)別(即電腦自動(dòng)識(shí)別說(shuō)話人的身份)都有缺陷，以至于各自的識(shí)別率都還不能達(dá)到百分之百。最重要的缺陷在于抗噪音干擾性不強(qiáng)，尤其是當(dāng)干擾噪音的頻譜特性與語(yǔ)音相似時(shí)。不少語(yǔ)音識(shí)別或聲紋識(shí)別的算法在安靜的實(shí)驗(yàn)室狀況下，識(shí)別準(zhǔn)確率都相當(dāng)高。但一旦在實(shí)際環(huán)境下使用時(shí)(real-world deployment),由于總是存在周?chē)胍?識(shí)別率因而明顯下降,有時(shí)甚至低于50%。頻譜相減(Spectrum subtraction)是一種抗噪音干擾的技術(shù),試驗(yàn)證明，它能夠有效地提高噪音環(huán)境下的識(shí)別率。另外信道失真(channel distortion),也就是訓(xùn)練時(shí)所用的通信信道與測(cè)試時(shí)所用的通信信道不匹配(mismatch)，也會(huì)嚴(yán)重地影響識(shí)別率。
對(duì)語(yǔ)音識(shí)別來(lái)說(shuō)，其技術(shù)缺陷還包括(I)處理說(shuō)話人之間的差異的能力有限(如方言，男女聲，大人小孩)和(2)有無(wú)說(shuō)話內(nèi)容的限制(如以句法為基礎(chǔ)的指令識(shí)別還是不受限制的聽(tīng)寫(xiě)-dictation)。另一方面，聲紋識(shí)別的其他缺陷包括所說(shuō)的內(nèi)容對(duì)識(shí)別率有影響。人們通常是視具體的應(yīng)用，采用固定文本(text-dependent),提示文本(text-prompted),或可變文本(text-independent)來(lái)解決這個(gè)問(wèn)題。

發(fā)明內(nèi)容
鑒于上述問(wèn)題，本發(fā)明的一個(gè)目的是提供一種基于頻譜增強(qiáng)的語(yǔ)音信號(hào)處理方法及裝置。本發(fā)明的另一目的是提供一種基于頻譜增強(qiáng)的語(yǔ)音信號(hào)處理方法及裝置，以及基于頻譜增強(qiáng)和倒頻系數(shù)選擇性均值歸一化的聲紋識(shí)別方法及裝置。根據(jù)本發(fā)明的一個(gè)方面，提供了一種語(yǔ)音信號(hào)處理方法，包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀；針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；基于所得到的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；以及基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量。在上述方面的一個(gè)或多個(gè)示例中，基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量可以包括為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重；以及基于所分配的加權(quán)權(quán)重，對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量，其中，分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。在上述方面的一個(gè)或多個(gè)示例中，在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量之前或之后，所述方法還包括針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，還對(duì)該倒譜系數(shù)進(jìn)行均值歸一化，并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新；以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變。在上述方面的一個(gè)或多個(gè)示例中，對(duì)倒譜系數(shù)進(jìn)行均值歸一化可以包括從該倒譜系數(shù)中減去針對(duì)所獲得的語(yǔ)音信號(hào)的所有短時(shí)語(yǔ)音幀的倒譜系數(shù)均值，或者從該倒譜系數(shù)中減去前一短時(shí)語(yǔ)音幀的倒譜系數(shù)與預(yù)定系數(shù)a之積，其中a是0和I之間的小數(shù)。在上述方面的一個(gè)或多個(gè)示例中，所述衍生頻譜信號(hào)是使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出的。根據(jù)本發(fā)明的另一方面，提供了一種語(yǔ)音信號(hào)處理裝置，包括語(yǔ)音信號(hào)獲取單元，用于獲取用戶的語(yǔ)音信號(hào)；數(shù)字化單元，用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；分幀單元，用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀；傅立葉變換單元，用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；衍生頻譜信號(hào)生成單元，用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；離散余弦變換單元，用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；以及前端特征向量導(dǎo)出單元，用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。在上述方面的一個(gè)或多個(gè)示例中，所述前端特征向量導(dǎo)出單元可以包括加權(quán)權(quán)重分配模塊，用于為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重；以及求和模塊，用于基于所分配的加權(quán)權(quán)重，對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和，其中，分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。在上述方面的一個(gè)或多個(gè)示例中，所述語(yǔ)音信號(hào)處理裝置還可以包括均值歸一化單元，用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，對(duì)該倒譜系數(shù)進(jìn)行均值歸一化；以及倒譜系數(shù)處理單元，用于針對(duì)每個(gè)倒譜系數(shù)向量，對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變，以及對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新。在上述方面的一個(gè)或多個(gè)示例中，所述衍生頻譜信號(hào)生成單元被配置為使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理而生成。根據(jù)本發(fā)明的另一方面，提供了一種語(yǔ)音識(shí)別方法，包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀；針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；基于所得到的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量；以及利用所導(dǎo)出的前端特征向量，對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào)進(jìn)行識(shí)別。根據(jù)本發(fā)明的另一方面，提供了一種語(yǔ)音識(shí)別裝置，包括語(yǔ)音信號(hào)獲取單元，用于獲取用戶的語(yǔ)音信號(hào)；數(shù)字化單元，用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；分幀單元，用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀；傅立葉變換單元，用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；衍生頻譜信號(hào)生成單元，用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；離散余弦變換單元，用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；前端特征向量導(dǎo)出單元，用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量；以及語(yǔ)音信號(hào)識(shí)別單元，用于基于所導(dǎo)出的前端特征向量，對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào) 進(jìn)行識(shí)別。根據(jù)本發(fā)明的另一方面，提供了一種聲紋識(shí)別方法，包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀；針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；基于所得到的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；基于第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出該短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量；以及利用所導(dǎo)出的前端特征向量集，對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別，其中，在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量之前或之后，所述方法還包括針對(duì)所計(jì)算出或所導(dǎo)出的倒譜系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，還對(duì)該倒譜系數(shù)進(jìn)行均值歸一化，并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新；以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變。根據(jù)本發(fā)明的另一方面，提供了一種聲紋識(shí)別裝置，包括語(yǔ)音信號(hào)獲取單元，用于獲取用戶的語(yǔ)音信號(hào)；數(shù)字化單元，用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；分幀單元，用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀；傅立葉變換單元，用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；衍生頻譜信號(hào)生成單元，用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；離散余弦變換單元，用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；前端特征向量導(dǎo)出單元，用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量；均值歸一化單元，用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，對(duì)該倒譜系數(shù)進(jìn)行均值歸一化；以及倒譜系數(shù)處理單元，用于在經(jīng)過(guò)均值歸一化單元處理后，針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量，對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變，以及對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新；以及聲紋識(shí)別單元，用于基于所導(dǎo)出的前端特征向量，對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別。利用上述方法和裝置，可以克服現(xiàn)有技術(shù)中在現(xiàn)實(shí)應(yīng)用的包含噪音的環(huán)境下語(yǔ)音識(shí)別率或說(shuō)話人識(shí)別率不高的問(wèn)題。特別是，本發(fā)明提出使用至少一個(gè)衍生的頻譜，使之能夠充分綜合利用多個(gè)魯棒性的算法的優(yōu)點(diǎn)，相互彌補(bǔ)各自的缺陷，進(jìn)而能提高識(shí)別率。為了實(shí)現(xiàn)上述以及相關(guān)目的，本發(fā)明的一個(gè)或多個(gè)方面包括后面將詳細(xì)說(shuō)明并在權(quán)利要求中特別指出的特征。下面的說(shuō)明以及附圖詳細(xì)說(shuō)明了本發(fā)明的某些示例性方面。然而，這些方面指示的僅僅是可使用本發(fā)明的原理的各種方式中的一些方式。此外，本發(fā)明旨在包括所有這些方面以及它們的等同物。

根據(jù)下述參照附圖進(jìn)行的詳細(xì)描述，本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)將變得更加顯而易見(jiàn)。在附圖中圖I示出了現(xiàn)有技術(shù)中的語(yǔ)音識(shí)別過(guò)程的流程圖2示出了根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理過(guò)程的流程圖；圖3示出了經(jīng)過(guò)FFT變換后的幅值頻譜示意圖；圖4示出了前端特征向量導(dǎo)出過(guò)程的一個(gè)示例的示意圖；圖5示出了前端特征向量導(dǎo)出過(guò)程的一個(gè)示例的流程圖；圖6示出了根據(jù)本發(fā)明的第一實(shí)施例的用于執(zhí)行圖2中示出的語(yǔ)音信號(hào)處理過(guò)程的語(yǔ)音信號(hào)處理裝置的方框示意圖；
圖7示出了圖6中的前端特征向量導(dǎo)出單元的一個(gè)示例的方框示意圖；圖8示出了根據(jù)本發(fā)明的第二實(shí)施例的語(yǔ)音信號(hào)處理過(guò)程的流程圖；圖9示出了根據(jù)本發(fā)明的第二實(shí)施例的用于執(zhí)行圖6中示出的語(yǔ)音信號(hào)處理過(guò)程的語(yǔ)音信號(hào)處理裝置的方框示意圖；圖10示出了根據(jù)本發(fā)明的語(yǔ)音識(shí)別過(guò)程的流程圖；圖11示出了根據(jù)本發(fā)明的語(yǔ)音識(shí)別裝置的方框示意圖；圖12示出了根據(jù)本發(fā)明的聲紋識(shí)別過(guò)程的流程圖；和圖13示出了根據(jù)本發(fā)明的聲紋識(shí)別裝置的方框示意圖。在所有附圖中相同的標(biāo)號(hào)指示相似或相應(yīng)的特征或功能。
具體實(shí)施例方式下面描述本發(fā)明的各個(gè)方面。應(yīng)該明白的是，本文的教導(dǎo)可以以多種多樣形式具體體現(xiàn)，并且在本文中公開(kāi)的任何具體結(jié)構(gòu)、功能或兩者僅僅是代表性的?；诒疚牡慕虒?dǎo)，本領(lǐng)域技術(shù)人員應(yīng)該明白的是，本文所公開(kāi)的一個(gè)方面可以獨(dú)立于任何其它方面實(shí)現(xiàn)，并且這些方面中的兩個(gè)或多個(gè)方面可以按照各種方式組合。例如，可以使用本文所闡述的任何數(shù)目的方面，實(shí)現(xiàn)裝置或?qū)嵺`方法。另外，可以使用其它結(jié)構(gòu)、功能、或除了本文所闡述的一個(gè)或多個(gè)方面之外或不是本文所闡述的一個(gè)或多個(gè)方面的結(jié)構(gòu)和功能，實(shí)現(xiàn)這種裝置或?qū)嵺`這種方法。此外，本文所描述的任何方面可以包括權(quán)利要求的至少一個(gè)元素。以下將結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例進(jìn)行詳細(xì)描述。(第一實(shí)施例)下面參照?qǐng)D2到圖7對(duì)根據(jù)本發(fā)明的第一實(shí)施例進(jìn)行說(shuō)明。圖2示出了根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理過(guò)程的流程圖。如圖2所示，首先，在步驟S210，對(duì)通過(guò)麥克風(fēng)等的語(yǔ)音信號(hào)獲取單元(語(yǔ)音信號(hào)輸入單元)獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化，將所獲取的模擬語(yǔ)音信號(hào)變換為數(shù)字語(yǔ)音信號(hào)，例如利用A/D變換器將所獲取的模擬語(yǔ)音信號(hào)變換為數(shù)字語(yǔ)音信號(hào)。這里，語(yǔ)音信號(hào)獲取單元也可以是本領(lǐng)域公知的其它設(shè)備，例如錄音筆等。在進(jìn)行數(shù)字化處理時(shí)，也可以采用其它已知的數(shù)字化處理設(shè)備。在對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化處理后，將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀處理為多個(gè)短時(shí)語(yǔ)音幀(步驟S220)。例如，利用漢明窗，對(duì)所述輸入的語(yǔ)音信號(hào)進(jìn)行短時(shí)音框化，其中相鄰兩幀之間有重疊。在本發(fā)明的一個(gè)實(shí)施例中，每幀語(yǔ)音信號(hào)為25毫秒，相鄰兩幀之間存在15毫秒重疊。此外，在每幀里，還假設(shè)語(yǔ)音信號(hào)平穩(wěn)。然后，在步驟S230，針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)。也就是，利用傅立葉變化，將短時(shí)語(yǔ)音幀從時(shí)域變換到頻域，從而到短時(shí)語(yǔ)音幀的振幅譜。圖3示出了短時(shí)信號(hào)x(t)的傅立葉變換振幅譜，其中Fs是以Hz為單位的采樣頻率，并且有用的頻譜信息包含在從O到Fs/2的頻率范圍內(nèi)。這里，針對(duì)人類(lèi)語(yǔ)音的特點(diǎn)，每個(gè)短時(shí)語(yǔ)音幀通常為25毫秒長(zhǎng)，同時(shí)幀與幀之間有15毫秒的重疊。如果是8000Hz，那么每一幀有0. 025*8000=200個(gè)采樣點(diǎn)。為了能利用FFT來(lái)計(jì)算頻譜，這200個(gè)要進(jìn)行補(bǔ)零(zero-padding)處理，從而使得采樣點(diǎn)數(shù)目正好是2的整數(shù)次冪(即256)。另外一個(gè)常用的采樣頻率是16000Hz。對(duì)應(yīng)的幀長(zhǎng)是0. 025*16000=400點(diǎn)，補(bǔ)零后取512點(diǎn)的FFT。FFT的一個(gè)特征是N個(gè)時(shí)域的點(diǎn)將對(duì)應(yīng)著N個(gè)頻域點(diǎn)。這N個(gè)頻域點(diǎn)的數(shù)據(jù)可以直接用來(lái)表征語(yǔ)音的頻譜。接著，在步驟S240，基于所得到的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)。這里，第一頻譜信號(hào)是利用FFT變換后得到的原始振幅譜。所述衍生頻譜信號(hào)例如可以使用頻譜相減、頻帶限制和/或頻帶衰減等方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出。也就是，假設(shè)|X(f) I代表原始傅立葉變換振幅譜，即，|X(0) (f) I = |X(f) |，則可以經(jīng)過(guò)頻譜均值相減來(lái)減少加性噪聲，或者通過(guò)頻率限制或頻帶衰減來(lái)去除或衰減易于受到聲音變化影響且包含少量發(fā)出語(yǔ)音信號(hào)的用戶的信息的頻譜區(qū)域，得到|X(f)|的不同變型。這里，要說(shuō)明的是，在本發(fā)明的另一示例中，在如上得到衍生頻譜信號(hào)后，還可以使用梅爾頻率將短時(shí)頻譜轉(zhuǎn)換成濾波器輸出。梅爾頻率是根據(jù)對(duì)人類(lèi)聽(tīng)力系統(tǒng)作分析后得到的。它把高頻部分的頻譜進(jìn)行壓縮，將短時(shí)頻譜轉(zhuǎn)換成濾波器輸出。在如上處理后，在步驟S250，對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量。每個(gè)倒譜系數(shù)向量所含有的元素個(gè)數(shù)取決于算FFT的點(diǎn)數(shù)以及是否采用濾波器方式的輸出。通常在語(yǔ)音/聲紋識(shí)別中，只取該向量的前13個(gè)系數(shù)，即圖2中的Q等于13。也就是說(shuō)，針對(duì)每個(gè)幀計(jì)算出對(duì)應(yīng)的倒譜系數(shù)，例如圖4中的C(°)(q)，C(1)(q)，……，C(k)(q)等。這里，C(°)(q)表示短時(shí)語(yǔ)音幀對(duì)應(yīng)的第一頻譜信號(hào)的倒譜系數(shù)向量的第q個(gè)標(biāo)量系數(shù)，以及C(k) (q)表示第k個(gè)衍生頻譜信號(hào)的倒譜系數(shù)的第q個(gè)標(biāo)量系數(shù)。然后，在步驟S260，基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。接著，在步驟S270，判斷是否針對(duì)所有短時(shí)語(yǔ)音幀導(dǎo)出對(duì)應(yīng)的前端特征向量。如果沒(méi)有，即步驟S270中為否，則返回到步驟S230，針對(duì)下一短時(shí)語(yǔ)音幀進(jìn)行處理。如果已經(jīng)導(dǎo)出，即步驟S270中為是，則流程結(jié)束。圖5示出了前端特征向量導(dǎo)出過(guò)程的一個(gè)示例的流程圖。如圖5所示，在步驟S250中得到第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的各自的倒譜系數(shù)向量后，為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重(步驟S261)，其中，分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。這些加權(quán)權(quán)重可以簡(jiǎn)單地在各種頻譜中平分。例如，當(dāng)使用兩個(gè)頻譜時(shí)，這些加權(quán)權(quán)重各為0. 5，而當(dāng)使用三個(gè)頻譜時(shí)，這些加權(quán)權(quán)重各為1/3?；蛘?，可以利用預(yù)先確定的條件(例如，用于存儲(chǔ)預(yù)先確定的條件的條件數(shù)據(jù)庫(kù))來(lái)為各個(gè)倒譜系數(shù)向量分配這些加權(quán)權(quán)重，使得基于如此分配的加權(quán)權(quán)重所得到的識(shí)別率最好。然后，基于所分配的加權(quán)權(quán)重，對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量(步驟S263)。例如，如圖4中所示，分別為C(°)(q)，C(1)(q)，……，C(k) (q)分配加權(quán)權(quán)重3 (°)、運(yùn)⑴、……、
^ (k)，其中，=1，則短時(shí)語(yǔ)音幀q的倒譜系數(shù)向量為亡⑷=；!#^⑷。
i=0 /=0圖6示出了根據(jù)本發(fā)明的第一實(shí)施例的用于執(zhí)行圖2中示出的語(yǔ)音信號(hào)處理過(guò)程的語(yǔ)音信號(hào)處理裝置600的方框示意圖。如圖6所示,語(yǔ)音信號(hào)處理裝置600包括語(yǔ)音信號(hào)獲取單元610、數(shù)字化單元620、分中貞單元630、FFT單元640、衍生頻譜信號(hào)生成單元650、離散余弦變換單元660以及前端特征向量導(dǎo)出單元670。語(yǔ)音信號(hào)獲取單元610用于獲取用戶的語(yǔ)音信號(hào)，比如麥克風(fēng)、錄音筆等。數(shù)字化單元620用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化。這里，數(shù)字化單元620可以采用本領(lǐng)域中公知的A/D變換器。分幀單元630用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分幀為多個(gè)短時(shí)語(yǔ)音幀。傅立葉變換單元640用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該語(yǔ)音信號(hào)的第一頻譜信號(hào)。衍生頻譜信號(hào)生成單元650用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)。優(yōu)選地，衍生頻譜信號(hào)生成單元650使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出至少一個(gè)衍生頻譜信號(hào)。在圖4中示出了 k個(gè)衍生頻譜信號(hào)。離散余弦變換單元660用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量。前端特征向量導(dǎo)出單元670用于基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出該短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。圖7示出了圖6中的前端特征向量導(dǎo)出單元670的一個(gè)示例的方框示意圖。在本發(fā)明的一個(gè)示例中，如圖7所示，前端特征向量導(dǎo)出單元670可以包括加權(quán)權(quán)重分配模塊671和求和模塊673。加權(quán)權(quán)重分配模塊671用于分別為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重，其中分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。求和模塊673用于基于所分配的加權(quán)權(quán)重，對(duì)所計(jì)算出的各個(gè)倒譜系數(shù)向量進(jìn)行加權(quán)求和。如上參照?qǐng)D2到圖7對(duì)根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理方法及裝置進(jìn)行了說(shuō)明。利用根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音信號(hào)處理方法，可以通過(guò)使用至少一個(gè)衍生的頻譜，使之能夠充分綜合利用多個(gè)魯棒性的算法的優(yōu)點(diǎn)，相互彌補(bǔ)各自的缺陷，進(jìn)而能提高語(yǔ)音識(shí)別的準(zhǔn)確率。(第二實(shí)施例)下面參照?qǐng)D8和圖9描述根據(jù)本發(fā)明的第二實(shí)施例的語(yǔ)音信號(hào)處理方法及裝置。圖8示出了根據(jù)本發(fā)明的第二實(shí)施例的語(yǔ)音處理方法的流程圖。通過(guò)比較圖8中示出的流程和圖2中示出的流程圖可知，圖8中的步驟S810到S850與圖2中的步驟S210到S250基本上完全相同，在此不再重復(fù)描述。下面僅僅對(duì)圖8中的步驟S860到S895進(jìn)行說(shuō)明。
如圖8所示，在計(jì)算出倒譜系數(shù)向量后，在步驟S860，針對(duì)各個(gè)倒譜系數(shù)向量中的倒譜系數(shù)，判斷該倒譜系數(shù)是否對(duì)聲紋識(shí)別不敏感，例如，對(duì)用于示出說(shuō)話人之間的區(qū)別的聲道不敏感。如果在步驟S860中判斷該倒譜系數(shù)對(duì)聲紋識(shí)別不敏感(例如，對(duì)聲道不敏感)，即步驟S860中的判斷結(jié)果為是，則進(jìn)行到步驟S870。在步驟S870，對(duì)該倒譜系數(shù)進(jìn)行均值歸一化，并且利用該均值歸一化后的倒譜系數(shù)對(duì)倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新(步驟S875)。對(duì)這類(lèi)倒譜系數(shù)實(shí)現(xiàn)均值歸一化，能減少信道失真對(duì)識(shí)別率的影響。在本發(fā)明的一個(gè)示例中，對(duì)倒譜系數(shù)進(jìn)行均值歸一化可以包括從該倒譜系數(shù)中減去針對(duì)語(yǔ)音信號(hào)的所有幀的倒譜系數(shù)均值。倒譜系數(shù)均值由下述公式(I)表示，其中總共存在Q+1個(gè)倒譜系數(shù)，為0，1，2，，Q。
權(quán)利要求
1.一種語(yǔ)音信號(hào)處理方法，包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；基于所得到的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；以及基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。
2.如權(quán)利要求I所述的語(yǔ)音信號(hào)處理方法，其中，基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量包括為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重；以及基于所分配的加權(quán)權(quán)重，對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量，其中，分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。
3.如權(quán)利要求I或2所述的語(yǔ)音信號(hào)處理方法，其中，在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量之前或之后，所述方法還包括針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，對(duì)該倒譜系數(shù)進(jìn)行均值歸一化，并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新；以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變。
4.如權(quán)利要求3所述的語(yǔ)音處理方法，其中，對(duì)倒譜系數(shù)進(jìn)行均值歸一化包括從該倒譜系數(shù)中減去針對(duì)所獲得的語(yǔ)音信號(hào)的所有短時(shí)語(yǔ)音幀的倒譜系數(shù)均值，或者從該倒譜系數(shù)中減去前一短時(shí)語(yǔ)音幀的倒譜系數(shù)與預(yù)定系數(shù)a之積，其中a是O和I之間的小數(shù)。
5.如權(quán)利要求I所述的語(yǔ)音處理方法，其中，所述衍生頻譜信號(hào)是使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理后導(dǎo)出的。
6.一種語(yǔ)音信號(hào)處理裝置，包括語(yǔ)音信號(hào)獲取單元，用于獲取用戶的語(yǔ)音信號(hào)；數(shù)字化單元，用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；分中貞單兀，用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞；傅立葉變換單元，用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；衍生頻譜信號(hào)生成單元，用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；離散余弦變換單元，用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；前端特征向量導(dǎo)出單元，用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量。
7.如權(quán)利要求6所述的語(yǔ)音信號(hào)處理裝置，其中，所述前端特征向量導(dǎo)出單元包括加權(quán)權(quán)重分配模塊，用于為所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量分配加權(quán)權(quán)重；求和模塊，用于基于所分配的加權(quán)權(quán)重，對(duì)所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量進(jìn)行加權(quán)求和，其中，分配給各個(gè)倒譜系數(shù)向量的加權(quán)權(quán)重之和等于I。
8.如權(quán)利要求6或7所述的語(yǔ)音信號(hào)處理裝置，還包括均值歸一化單元，用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，對(duì)該倒譜系數(shù)進(jìn)行均值歸一化；以及倒譜系數(shù)處理單元，用于針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量，對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變，以及對(duì)于聲道不敏感的倒譜系數(shù)，利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新。
9.如權(quán)利要求6所述的語(yǔ)音處理裝置，其中，所述衍生頻譜信號(hào)生成單元被配置為使用頻譜相減、頻帶限制和/或頻帶衰減方法對(duì)第一頻譜信號(hào)進(jìn)行處理而生成。
10.一種語(yǔ)音識(shí)別方法，包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；基于所得到的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量; 基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量；以及利用所導(dǎo)出的前端特征向量，對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào)進(jìn)行識(shí)別。
11.一種語(yǔ)音識(shí)別裝置，包括語(yǔ)音信號(hào)獲取單元，用于獲取用戶的語(yǔ)音信號(hào)；數(shù)字化單元，用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；分中貞單兀，用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞；傅立葉變換單元，用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；衍生頻譜信號(hào)生成單元，用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；離散余弦變換單元，用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；前端特征向量導(dǎo)出單元，用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量；以及語(yǔ)音信號(hào)識(shí)別單元，用于基于所導(dǎo)出的前端特征向量，對(duì)用戶后續(xù)發(fā)出的語(yǔ)音信號(hào)進(jìn)行識(shí)別。
12.—種聲紋識(shí)別方法，包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞; 針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行下述處理進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；基于所得到的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào); 對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量; 基于第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出該短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量；以及利用所導(dǎo)出的前端特征向量集，對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別，其中，在基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量之前或之后，所述方法還包括針對(duì)每個(gè)所計(jì)算出或?qū)С龅牡棺V系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，對(duì)該倒譜系數(shù)進(jìn)行均值歸一化，并且利用均值歸一化后的倒譜系數(shù)對(duì)該倒譜系數(shù)向量中的對(duì)應(yīng)倒譜系數(shù)進(jìn)行更新；以及對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變。
13.一種聲紋識(shí)別裝置，包括語(yǔ)音信號(hào)獲取單元，用于獲取用戶的語(yǔ)音信號(hào)；數(shù)字化單元，用于對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化；分中貞單兀，用于將數(shù)字化后的語(yǔ)音信號(hào)加窗分巾貞為多個(gè)短時(shí)語(yǔ)音巾貞；傅立葉變換單元，用于針對(duì)每個(gè)短時(shí)語(yǔ)音幀進(jìn)行傅立葉變換，得到該短時(shí)語(yǔ)音幀的第一頻譜信號(hào)；衍生頻譜信號(hào)生成單元，用于基于所得到的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)，導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；離散余弦變換單元，用于對(duì)每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；前端特征向量導(dǎo)出單元，用于基于所計(jì)算出的每個(gè)短時(shí)語(yǔ)音幀的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音巾貞對(duì)應(yīng)的前端特征向量；均值歸一化單元，用于針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量，對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，對(duì)該倒譜系數(shù)進(jìn)行均值歸一化；以及倒譜系數(shù)處理單元，用于在經(jīng)過(guò)均值歸一化單元處理后，針對(duì)離散余弦變換單元計(jì)算出或者前端特征向量導(dǎo)出單元導(dǎo)出的每個(gè)倒譜系數(shù)向量，對(duì)于聲紋識(shí)別敏感的倒譜系數(shù)，將該倒譜系數(shù)保持為原樣不變，以及對(duì)于聲紋識(shí)別不敏感的倒譜系數(shù)，利用所述均值歸一化單元輸出的倒譜系數(shù)進(jìn)行更新；以及聲紋識(shí)別單元，用于基于所導(dǎo)出的前端特征向量，對(duì)發(fā)出語(yǔ)音信號(hào)的用戶進(jìn)行聲紋識(shí)別。
全文摘要
本發(fā)明提出了一種語(yǔ)音信號(hào)處理方法，包括對(duì)所獲取的語(yǔ)音信號(hào)進(jìn)行數(shù)字化、加窗分幀和傅立葉變換后得到第一頻譜信號(hào)；基于第一頻譜信號(hào)導(dǎo)出至少一個(gè)作為該第一頻譜信號(hào)的變型的衍生頻譜信號(hào)；對(duì)第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)進(jìn)行離散余弦變換，計(jì)算各自的倒譜系數(shù)向量；以及基于所計(jì)算出的第一頻譜信號(hào)和至少一個(gè)衍生頻譜信號(hào)的倒譜系數(shù)向量，導(dǎo)出每個(gè)短時(shí)語(yǔ)音幀的倒譜系數(shù)向量，作為與該短時(shí)語(yǔ)音幀對(duì)應(yīng)的前端特征向量。
文檔編號(hào)G10L21/02GK102723081SQ20121017365
公開(kāi)日2012年10月10日申請(qǐng)日期2012年5月30日優(yōu)先權(quán)日2012年5月30日
發(fā)明者林其光申請(qǐng)人:林其燦

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林其光
技術(shù)所有人：林其燦
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音識(shí)別和聲紋識(shí)別相關(guān)技術(shù)

聲紋識(shí)別與語(yǔ)音識(shí)別相關(guān)技術(shù)

全時(shí)聲紋語(yǔ)音識(shí)別相關(guān)技術(shù)

聲紋識(shí)別相關(guān)技術(shù)

聲紋識(shí)別軟件相關(guān)技術(shù)

聲紋識(shí)別技術(shù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語(yǔ)音信號(hào)處理方法、語(yǔ)音和聲紋識(shí)別方法及其裝置的制作方法