欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于張量分解的語音信號(hào)特征提取方法

文檔序號(hào):2833742閱讀:1385來源:國(guó)知局
專利名稱:一種基于張量分解的語音信號(hào)特征提取方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種語音信號(hào)特征提取方法,尤其是一種基于張量分解的語音信號(hào)特征提取方法,屬于語音信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù)
語音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),它攜帶著各種信息。在語音編碼、語音合成、語音識(shí)別和語音增強(qiáng)等語音信號(hào)處理中都需要提取語音中包含的各種信息。一般而言語音處理的目的是要得到某些語音特征參數(shù)以便高效的傳輸或存儲(chǔ);或者是通過某種處理運(yùn)算以達(dá)到某種用途的要求,例如識(shí)別出講話的內(nèi)容,辨識(shí)出講話的人,合成語音等,簡(jiǎn)單說就是要方便有效的提取并表示語音信號(hào)所攜帶的信息。隨著現(xiàn)代科學(xué)技術(shù)的不斷進(jìn)步,語音信號(hào)處理也隨著語音學(xué)和數(shù)字信號(hào)處理兩個(gè)學(xué)科的發(fā)展而發(fā)展。其中,語音信號(hào)的特征提取就是語音信號(hào)處理中的一個(gè)研究熱點(diǎn)。特征提取是尋找語音信號(hào)的內(nèi)在特點(diǎn),經(jīng)過數(shù)字信號(hào)處理提取表征語音信息的特征參數(shù)。語音信號(hào)的特征主要有時(shí)域和頻域兩種提取方式。語音信號(hào)的時(shí)域特征主要包括短時(shí)平均能量、短時(shí)平均過零率、基音周期等。語音信號(hào)雖然是一種隨時(shí)間而變化的信號(hào),但濁音的基音周期、清濁音信號(hào)幅度和聲道參數(shù)等都隨時(shí)間緩慢變化。由于發(fā)聲器官的慣性運(yùn)動(dòng),可以認(rèn)為在一個(gè)小段時(shí)間里(一般為10-30毫秒)語音信號(hào)近似平穩(wěn),即語音信號(hào)具有短時(shí)平穩(wěn)性。根據(jù)該特性,語音的時(shí)域特征都需要進(jìn)行加窗分幀處理。當(dāng)然,在此之前,為了對(duì)語音信號(hào)的高頻部分進(jìn)行加重,去除口唇輻射的影響,增加語音的高頻分辨率,也可以對(duì)語音信號(hào)進(jìn)行預(yù)加重。分幀后的語音信號(hào)在一幀內(nèi)抽樣點(diǎn)值的加權(quán)平方和就是短時(shí)平均能量,其主要用于區(qū)分清濁音。短時(shí)平均過零率定義為每幀內(nèi)信號(hào)通過零值的次數(shù),其在一定程度上可以反映信號(hào)的頻率信息,獲得譜特性的一種粗略估計(jì)?;糁芷谑潜碚髡Z音信號(hào)本質(zhì)特征的參數(shù),定義為濁音信號(hào)振動(dòng)頻率的倒數(shù),其往往通過短時(shí)自相關(guān)法或者短時(shí)平均幅度差函數(shù)法獲得。語音信號(hào)的頻域特征主要包括從人的發(fā)聲模型角度出發(fā),利用線性預(yù)測(cè)編碼(LPC)技術(shù)在頻域得到的線性預(yù)測(cè)倒譜系數(shù)(LPCC),及其一階二階差分;在頻域構(gòu)造人的聽覺模型,以語音通過該模型(濾波器組)的輸出為聲學(xué)特征,直接通過離散傅立葉變換(DFT)進(jìn)行變換而得到的美爾頻譜倒譜系數(shù)(MFCC),及其一階二階差分,MFCC是語音識(shí)別、合成等語音信號(hào)處理場(chǎng)合效果較佳也應(yīng)用廣泛的一類參數(shù);基于聽覺模型的感知加權(quán)線性預(yù)測(cè)系數(shù)(PLPC),是根據(jù)人類聽覺生理學(xué)和聽覺心理學(xué)的一些知識(shí)進(jìn)行模擬處理而提取出來的仿人類聽覺的語音特征,人類的聽覺系統(tǒng)對(duì)頻率的分辨率是非均勻的,對(duì)低頻率比高頻率有更好的分辨率,提取過程中先對(duì)語音信號(hào)的頻譜進(jìn)行一系列的修正,再用一個(gè)自回歸全極點(diǎn)模型來逼近,在對(duì)語音信號(hào)的功率譜修正時(shí)綜合應(yīng)用了掩蔽效應(yīng)及臨界帶、人耳的等響曲線、強(qiáng)度-響度功率律等。語音信號(hào)的頻域特征比較徹底的去除了語音生成過程中的激勵(lì)信息,主要反映了聲道響應(yīng),所以在語音信號(hào)處理過程中被廣泛使用。語音信號(hào)在時(shí)域是一維信號(hào),當(dāng)進(jìn)行信號(hào)處理時(shí),上述特征參數(shù)僅僅包含了語音的部分信息。為了充分展現(xiàn)語音信號(hào)的特征,往往通過綜合提取多個(gè)特征參數(shù),把語音信號(hào)表示為一個(gè)高維矢量的辦法,這樣處理取得了一定的效果。但是由于目前語音信號(hào)的數(shù)學(xué)模型的局限性,特征的變換和取舍、特征時(shí)序信息的使用都沒有形成最佳體系,所以仍然是研究的重點(diǎn)課題之一。近期一些新的模型和算法也應(yīng)用到提取語音信號(hào)的特征。Jeong等人提出了利用張量分析對(duì)語音信號(hào)的訓(xùn)練模型狀態(tài)、特征維度、說話人、噪聲空間進(jìn)行多線性奇異值分析的方法;MeSgarani等人提出了聲音信號(hào)從耳蝸到大腦皮層階段產(chǎn)生的多尺度暫態(tài)語譜圖特征,利用多線性降維技術(shù)進(jìn)行處理,可以在低信噪比或者高回響的環(huán)境下或得較高的分辨率;我國(guó)公開號(hào)為CN102592593A (
公開日為2012年7月18日)的專利“一種考慮語音中多線性群組稀疏性的情緒特征提取方法”考慮了語音信號(hào)中包括的時(shí)間、頻率、尺度、方向信息的多重因素,利用多線性群組稀疏分解的方法進(jìn)行特征提取。另外,經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)也被用于語音信號(hào)的特征提取,該方法利用信號(hào)的局部特征時(shí)間尺度,從原信號(hào)中提取出若干個(gè)內(nèi)稟模態(tài)函數(shù)(IMF)和一個(gè)殘余量,分解出的各個(gè)IMF分量突出了數(shù)據(jù)的局部特征,殘余分量體現(xiàn)了信號(hào)中的緩慢變化量,對(duì)它們進(jìn)行分析,該方法可以更準(zhǔn)確有效地把握原數(shù)據(jù)的特征信息??傊诮档驼Z音信號(hào)冗余度的特征提取過程中,不光要考慮特征是否能完全、準(zhǔn)確地表達(dá)語音信號(hào),同時(shí)要求各特征參數(shù)之間耦合應(yīng)該盡可能的小,在噪聲環(huán)境下具有較強(qiáng)的魯棒性。

發(fā)明內(nèi)容
本發(fā)明的目的是為了充分表征語音信號(hào),提出了一種基于張量分解的語音信號(hào)特征提取方法,解決了傳統(tǒng)語音特征只包含語音信號(hào)部分信息的問題。為了實(shí)現(xiàn)上述目的,本發(fā)明方法的基本思路是:語音信號(hào)通過預(yù)處理后進(jìn)行多層小波分解,對(duì)小波分解后得到的多個(gè)分量信息分別提取特征參數(shù),然后根據(jù)不同幀語音信號(hào)各分量信息的特征建立語音張量,并對(duì)其進(jìn)行張量分解得到投影矩陣,最后計(jì)算得到分量信息階、特征參數(shù)階上的特征投影。本發(fā)明所述一種基于張量分解的語音信號(hào)特征提取方法,包括以下步驟:步驟一:對(duì)待處理的語音信號(hào)采用漢明窗進(jìn)行分幀,幀長(zhǎng)為L(zhǎng),幀移為M,從而把語音信號(hào)分成N幀,順序排列后得到幀序列;步驟二:對(duì)分幀后的每幀語音信號(hào)分別進(jìn)行R層小波分解,每幀語音信號(hào)R層小波分解后得到(R+1)個(gè)分量信息;步驟三:對(duì)每幀語音信號(hào)的各個(gè)分量信息分別進(jìn)行短時(shí)傅里葉變換,獲得每個(gè)分量信息的頻譜;求出每個(gè)分量信息頻譜幅度的平方即得到各分量信息的能量譜,使各分量信息的能量譜通過美爾頻率濾波器組得到各分量信息的Mel頻譜;對(duì)得到的Mel頻譜分別取自然對(duì)數(shù),得到各分量信息的對(duì)數(shù)頻譜;對(duì)每個(gè)分量信息的對(duì)數(shù)頻譜再經(jīng)過離散余弦變換到倒頻譜域,從而獲得每個(gè)分量信息的長(zhǎng)度為B的美爾頻譜倒譜系數(shù),即MFCC ;所述B為預(yù)設(shè)值;求出各分量信息的MFCC所對(duì)應(yīng)的一階差分系數(shù)和二階差分系數(shù),它們的長(zhǎng)度分別也是B ;
對(duì)每個(gè)分量信息,將其MFCC、MFCC的一階差分系數(shù)、MFCC的二階差分系數(shù)相接組成一維矢量,即組成該分量信息的長(zhǎng)度為S=B+B+B的特征參數(shù)矢量;步驟四:對(duì)每幀語音信號(hào),將其每個(gè)分量信息的特征參數(shù)矢量排列成一個(gè)大小為(R+l) XS的矩陣,該矩陣的行數(shù)對(duì)應(yīng)步驟二中R層小波分解后得到的分量個(gè)數(shù),矩陣的列數(shù)對(duì)應(yīng)為步驟三中得到的特征參數(shù)矢量的長(zhǎng)度S,即矩陣每行表示該幀語音信號(hào)一個(gè)分量信息的長(zhǎng)度為S的特征參數(shù)矢量,那么按照語音信號(hào)的幀順序,就構(gòu)成了一個(gè)幀序列個(gè)數(shù)NX每幀分量信息個(gè)數(shù)(R+l)X特征參數(shù)長(zhǎng)度S的三階語音張量X,所述的三階分別稱為幀序列階、分量信息階、特征參數(shù)階;步驟五:對(duì)步驟四構(gòu)造的三階語音張量X進(jìn)行張量分解,分解后表示為:GX WwX2M2) X3U03),其中G為核張量;U(1)、U⑵、U⑶彼此之間正交,U(1)、U⑵、U⑶代表語音張量分別在幀序列、分量信息、特征參數(shù)對(duì)應(yīng)各階上的主分量;即U(1)為該語音張量分解時(shí)在幀序列階的投影矩陣,且本方法不對(duì)幀序列階進(jìn)行低秩近似,U(2)為該語音張量分解時(shí)在分量信息階進(jìn)行秩為P的低秩投影矩陣,其中參數(shù)P應(yīng)滿足I≤ P≤ R+l,U(3)為語音張量分解時(shí)在特征參數(shù)階進(jìn)行的秩為Q的低秩投影矩陣,其中參數(shù)Q應(yīng)滿足I ≤ Q ≤S ;Xp X2、X3分別表示張量第一階、第二階、第三階的張量矩陣乘,張量矩陣乘定義如下:設(shè)有一個(gè)大小為I1X I2X…X In的N階張量H,一個(gè)大小為JX In的矩陣A,則張量的n階(I≤n≤N)矩陣乘為HXnA的結(jié)果是一個(gè)大小為I1X I2X…X IlriX JX In+1 X…X In的N階張量;作為優(yōu)選,步驟五中,所述張量分解進(jìn)行低秩近似的過程采用交替最小二乘法。步驟六:計(jì)算語音張量X在分量信息階上的特征投影Y = XX2U(2),U(2)為步驟五中語音張量X分解時(shí)在分量信息階進(jìn)行秩為P的低秩投影矩陣,Y為語音張量X在第二階即分量信息階進(jìn)行張量矩陣乘XX2U 的結(jié)果,即是X在分量信息階上進(jìn)行秩為P的低秩投影的結(jié)果;步驟七:計(jì)算語音張量X在特征參數(shù)階的特征投影Z = YX3U⑶,U(3)為步驟五中語音張量X分解時(shí)在特征參數(shù)階進(jìn)行的秩為Q的低秩投影矩陣,Z為步驟六中得到的特征投影Y在第三階即特征參數(shù)階進(jìn)行張量矩陣乘YX3Uw的結(jié)果,即語音張量X在分量信息階上進(jìn)行秩為P的低秩投影后,又在特征參數(shù)階上進(jìn)行秩為Q的低秩投影的結(jié)果;步驟八:對(duì)步驟七獲得的張量Z進(jìn)行張量的矩陣化,得到大小為NXW的矩陣,W為P與Q的乘積;即矩陣的行數(shù)為語音信號(hào)幀的個(gè)數(shù)N,矩陣的列數(shù)為語音張量X分解時(shí)在分量信息階低秩投影的秩P和在特征參數(shù)階低秩投影的秩Q的乘積;步驟八中的張量Z矩陣化后的結(jié)果就是基于張量分解在兩個(gè)不同階即分量信息階和特征參數(shù)階上提取降秩后的語音信號(hào)各幀攜帶的特征。作為優(yōu)選,步驟八中,所述張量Z的矩陣化包括如下步驟:將大小為NXPXQ的三階張量Z,表示為Z(:,:,1)、Z (:,:,2),…、Z (:,:,Q),其
中“:”代表所有元素;即有Q個(gè)大小為NXP的矩陣,現(xiàn)在以N為基礎(chǔ)進(jìn)行張量的矩陣化:①?gòu)牡谝粋€(gè)矩陣Z(:,:,1)的第一行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z(:,:,2)的第一行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z (:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量;
②從第一個(gè)矩陣Z(:,:,1)的第二行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z(:,:,2)的第二行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z (:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量;③以此類推,直到從第一個(gè)矩陣Z(:,:,1)的第N行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z (:,:,2)的第N行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z(:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量;④把上述得到的每個(gè)行向量依次作為最終矩陣的每一行,即得到三階張量Z以N為基礎(chǔ)矩陣化的結(jié)果,是一個(gè)NXW的矩陣。對(duì)比現(xiàn)有技術(shù),本發(fā)明的有益效果在于:本發(fā)明考慮了語音信號(hào)在多層小波分解后得到不同分量信息的特征,并且利用張量分解得到了投影矩陣,進(jìn)而獲取攜帶較全面語音信號(hào)的特征。本發(fā)明結(jié)合小波變換和張量分解得到投影后的語音信號(hào)特征,相比傳統(tǒng)特征參數(shù)增強(qiáng)了對(duì)語音信號(hào)的表征能力,能夠提高語音識(shí)別、說話人識(shí)別等語音信號(hào)處理系統(tǒng)的效果。


圖1是利用張量分解提取語音信號(hào)特征的流程圖;圖2是語音張量構(gòu)造示意圖;圖3是語音識(shí)別系統(tǒng)的原理框圖;圖4是本發(fā)明方法提取出的特征參數(shù)與傳統(tǒng)方法提取出的MFCC分別利用隱馬爾科夫模型進(jìn)行無人車控制命令語音識(shí)別率的比較圖。
具體實(shí)施例方式下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明加以詳細(xì)說明,同時(shí)也敘述了本發(fā)明技術(shù)方案解決的技術(shù)問題及有益效果,需要指出的是,所描述的實(shí)施例僅旨在便于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。如圖1所示,本發(fā)明的基于張量分解的語音信號(hào)特征提取方法具體包括以下步驟:步驟一:對(duì)待處理的語音信號(hào)采用漢明窗進(jìn)行分幀,幀長(zhǎng)為L(zhǎng),幀移為M,從而把語音信號(hào)分成N幀,順序排列后得到幀序列;步驟二:對(duì)分幀后的每幀語音信號(hào)分別進(jìn)行R層小波分解,因?yàn)檎Z音信號(hào)是一維信號(hào),所以每幀語音信號(hào)R層小波分解后得到(R+1)個(gè)分量信息;作為優(yōu)選,R的取值為3。步驟三:對(duì)每幀語音信號(hào)的各個(gè)分量信息分別進(jìn)行短時(shí)傅里葉變換,獲得每個(gè)分量信息的頻譜;求出每個(gè)分量信息頻譜幅度的平方即得到各分量信息的能量譜,使各分量信息的能量譜通過美爾(Mel)頻率濾波器組得到各分量信息的Mel頻譜,此處美爾頻率濾波器組的定義可以參照張雪英在《數(shù)字語音處理及MATLAB仿真》第191頁(yè)的描述;對(duì)得到的Mel頻譜分別取自然對(duì)數(shù)(取In),得到各分量信息的對(duì)數(shù)頻譜,每個(gè)分量信息的對(duì)數(shù)頻譜再經(jīng)過離散余弦變換(DCT)到倒頻譜域,從而獲得每個(gè)分量信息的長(zhǎng)度為B的美爾頻譜倒譜系數(shù),即MFCC ;所述B為預(yù)設(shè)值;求出各分量信息的MFCC所對(duì)應(yīng)的一階差分系數(shù)和二階差分系數(shù),它們的長(zhǎng)度分別也是B ;對(duì)每個(gè)分量信息,將其MFCC、MFCC的一階差分系數(shù)、MFCC的二階差分系數(shù)相接組成一維矢量,即組成該分量信息的長(zhǎng)度為S=B+B+B的特征參數(shù)矢量;作為優(yōu)選,對(duì)每個(gè)分量信息,將其MFCC、MFCC的一階差分系數(shù)、MFCC的二階差分系數(shù)依次首尾相接,組成該分量信息的長(zhǎng)度為S=B+B+B的特征參數(shù)矢量;;作為優(yōu)選,B取值為10或32或39。步驟四:對(duì)每幀語音信號(hào),將其每個(gè)分量信息的特征參數(shù)矢量排列成一個(gè)大小為(R+l) XS的矩陣,該矩陣的行數(shù)對(duì)應(yīng)步驟二中R層小波分解后得到的分量個(gè)數(shù),矩陣的列數(shù)對(duì)應(yīng)為步驟三中得到的特征參數(shù)矢量的長(zhǎng)度S,即矩陣每行表示該幀語音信號(hào)一個(gè)分量信息的長(zhǎng)度為S的特征參數(shù)矢量,那么按照語音信號(hào)的幀順序,就構(gòu)成了一個(gè)幀序列個(gè)數(shù)NX每幀分量信息個(gè)數(shù)(R+l)X特征參數(shù)長(zhǎng)度S的三階語音張量X,所述的三階分別稱為幀序列階、分量信息階、特征參數(shù)階,該三階語音張量X如圖2所示;步驟五:對(duì)步驟四構(gòu)造的三階語音張量X進(jìn)行張量分解,張量分解是一個(gè)低秩近似的過程,分解后表示為=GX1UwX2Ura X3U(3),其中G為核張量,核張量G保留了原語音張量X的主要信息;U(1)、U(2)、U(3)彼此之間正交,U(1)、U⑵、U 代表了語音張量分別在幀序列、分量信息、特征參數(shù)對(duì)應(yīng)各階上的主分量;即U(1)為該語音張量分解時(shí)在幀序列階的投影矩陣,本方法不對(duì)幀序列階進(jìn)行低秩 近似(張量分解可以在每一階上進(jìn)行低秩投影,但是本方法沒有在幀序列上進(jìn)行低秩近似,以前是多少維,分解后仍然是多少維,而對(duì)其他二階都進(jìn)行了低秩近似,例如原來是100維,張量分解后變成了 10維),妒為該語音張量分解時(shí)在分量信息階進(jìn)行秩為P的低秩投影矩陣,其中參數(shù)P應(yīng)滿足I < P < R+l,U(3)為語音張量分解時(shí)在特征參數(shù)階進(jìn)行的秩為Q的低秩投影矩陣,其中參數(shù)Q應(yīng)滿足I < Q < S ;作為優(yōu)選,上述張量分解進(jìn)行低秩近似的過程采用Evrim Acar等人在文獻(xiàn)《AnOptimization Approach for Fitting Canonical Tensor Decompositions》中 13-14 頁(yè)所提出的交替最小二乘法獲得,但此處不限于采用交替最小二乘法。Xp X2、X3分別表示張量第一階、第二階、第三階的張量矩陣乘,張量矩陣乘定義如下:設(shè)有一個(gè)大小為I1X I2X…X In的N階張量H,一個(gè)大小為JX In的矩陣A,則張量的n階(I彡n彡N)矩陣乘為HXnA的結(jié)果是一個(gè)大小為I1X I2X…X IlriX JX In+1 X…X In的N階張量;步驟六:計(jì)算語音張量X在分量信息階上的特征投影Y = XX2U⑵,U(2)為步驟五中語音張量X分解時(shí)在分量信息階進(jìn)行秩為P的低秩投影矩陣,Y為語音張量X在第二階即分量信息階進(jìn)行張量矩陣乘XX2U 的結(jié)果,即是X在分量信息階上進(jìn)行秩為P的低秩投影的結(jié)果;步驟七:計(jì)算語音張量X在特征參數(shù)階的特征投影Z = YX3U⑶,U(3)為步驟五中語音張量X分解時(shí)在特征參數(shù)階進(jìn)行的秩為Q的低秩投影矩陣,Z為步驟六中得到的特征投影Y在第三階即特征參數(shù)階進(jìn)行張量矩陣乘YX3Uw的結(jié)果,即語音張量X在分量信息階上進(jìn)行秩為P的低秩投影后,又在特征參數(shù)階上進(jìn)行秩為Q的低秩投影的結(jié)果;步驟八:對(duì)步驟七獲得的張量Z進(jìn)行張量的矩陣化,得到大小為NXW的矩陣,W為P與Q的乘積;即矩陣的行數(shù)為語音信號(hào)幀的個(gè)數(shù)N,矩陣的列數(shù)為語音張量X分解時(shí)在分量信息階低秩投影的秩P和在特征參數(shù)階低秩投影的秩Q的乘積;作為優(yōu)選,所述張量Z的矩陣化步驟如下:將大小為NXPXQ的三階張量Z,表示為Z(:,:,1)、Z (:,:,2),…、Z (:,:,Q),其中“:”代表所有元素;即有Q個(gè)大小為NXP的矩陣,現(xiàn)在以N為基礎(chǔ)進(jìn)行張量的矩陣化:①?gòu)牡谝粋€(gè)矩陣Z(:,:,1)的第一行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z(:,:,2)的第一行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z (:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量;②從第一個(gè)矩陣Z(:,:,1)的第二行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z(:,:,2)的第二行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z (:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量;③以此類推,直到從第一個(gè)矩陣Z(:,:,1)的第N行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z (:,:,2)的第N行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z(:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量;④把上述得到的每個(gè)行向量依次作為最終矩陣的每一行,即得到三階張量Z以N為基礎(chǔ)矩陣化的結(jié)果,是一個(gè)NXW的矩陣。步驟八中的張量Z以幀為基礎(chǔ)進(jìn)行矩陣化,矩陣化后的結(jié)果就是基于張量分解在兩個(gè)不同階即分量信息階和特征參數(shù)階上提取降秩后的語音信號(hào)各幀攜帶的特征。為了進(jìn)一步說明步驟四-步驟八,舉例說明各參數(shù)的關(guān)系;例如三階張量X的大小為90X4X 117 (巾貞序列X分量信息X特征參數(shù)),張量X分解時(shí)分量信息進(jìn)行秩1近似,特征參數(shù)進(jìn)行秩39近似,語音張量X在分量信息階上的特征投影Y為90 X 1 X 117的張量,語音張量X在分量信息階上投影之后,又在特征參數(shù)階的特征投影Z為90 X 1 X 39的張量,那以幀為基礎(chǔ)進(jìn)行張量的矩陣化,矩陣化后的矩陣大小為90X (1X39=39),表示把語音信號(hào)分為90幀,每幀信號(hào)最后有39個(gè)參數(shù),具體張量矩陣化的過程可以參考Brett ff.Bader等人的文獻(xiàn)〈〈Efficient MATLAB computations with Sparse and factored tensors〉〉第12頁(yè)2.3小結(jié)內(nèi)容;步驟八中的張量Z以幀為基礎(chǔ)進(jìn)行矩陣化,矩陣化后的結(jié)果就是基于張量分解在兩個(gè)不同階(分量信息和特征參數(shù))上提取降秩后的語音信號(hào)各幀攜帶的特征。本發(fā)明方法所提取的語音信號(hào)特征可以應(yīng)用到無人車控制命令識(shí)別、門禁聲紋識(shí)另O、計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)等語音識(shí)別、說話人識(shí)別或語種識(shí)別等人機(jī)交互領(lǐng)域,下面以無人車控制命令識(shí)別為實(shí)例,利用本發(fā)明方法提取語音信號(hào)特征,然后通過圖3所示框圖進(jìn)行語音控制命令識(shí)別效果的驗(yàn)證。在驗(yàn)證過程中,采用隱馬爾科夫模型(HMM)完成模型庫(kù)的訓(xùn)練和待測(cè)語音的識(shí)別,訓(xùn)練和測(cè)試語音采用自建無人車控制命令數(shù)據(jù)庫(kù),語音信號(hào)的采樣率為8000Hz,采用漢明窗進(jìn)行分幀,幀長(zhǎng)為20ms,幀移為1Oms,每巾貞包括160個(gè)米樣點(diǎn)。本驗(yàn)證過程使用db3小波對(duì)分幀后的每幀語音信號(hào)進(jìn)行3層小波分解,把小波分解后得到的分量信息進(jìn)行短時(shí)傅立葉變換得到頻譜,求出每個(gè)分量信息的能量譜,能量譜通過Mel頻率濾波器組得到Mel頻譜,對(duì)Mel頻譜取1n,得到對(duì)數(shù)頻譜,每個(gè)分量信息的對(duì)數(shù)頻譜經(jīng)過DCT變換到倒頻譜域,提取39個(gè)MFCC (包括O階譜系數(shù)),并求出每個(gè)分量信息的MFCC對(duì)應(yīng)的39個(gè)一階差分系數(shù)和39個(gè)二階差分系數(shù),順序排列后得到117個(gè)特征參數(shù);根據(jù)語音信號(hào)的幀數(shù)、3層小波變換得到的4個(gè)分量信息、從每個(gè)分量信息提取的117個(gè)特征參數(shù),就可以構(gòu)造一個(gè)幀數(shù)X4X117的三階語音張量;利用交替最小二乘法對(duì)語音張量進(jìn)行分解得到投影矩陣Uu)(幀序列不進(jìn)行低秩近似)、U(2)(分量信息進(jìn)行秩I近似)、U(3)(特征參數(shù)進(jìn)行秩39近似);計(jì)算語音張量X在分量信息階上的特征投影Y = XX2U(2),此時(shí)張量Y的大小為幀數(shù)X I X 117 ;計(jì)算語音張量X在分量信息階上投影之后,又在特征參數(shù)階的特征投影Z = YX3U(3),此時(shí)張量Z的大小為幀數(shù)X 1X39 ;張量Z以幀為依據(jù)進(jìn)行矩陣化,最終得到每幀39個(gè)特征參數(shù)。把獲取的特征參數(shù)通過圖3所示系統(tǒng)進(jìn)行建模,通過學(xué)習(xí)訓(xùn)練,可以得到無人車控制命令的模型,當(dāng)給定測(cè)試控制命令,利用該模型分別計(jì)算概率,得到最大概率的控制命令就是識(shí)別結(jié)果。本發(fā)明方法與已有的特征參數(shù)提取方法(例如MFCC,同樣提取39個(gè)特征參數(shù))利用圖3系統(tǒng)在無人車控制命令識(shí)別的比較結(jié)果如圖4,從圖4中可見,采用本發(fā)明方法得到的控制命令的識(shí)別率為94.7%,已有傳統(tǒng)方法的識(shí)別率為92.1%,識(shí)別率提升了 2.6%。以上所述,僅為本發(fā)明的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換和替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種基于張量分解的語音信號(hào)特征提取方法,其特征在于,包含如下步驟: 步驟一:對(duì)待處理的語音信號(hào)采用漢明窗進(jìn)行分幀,幀長(zhǎng)為L(zhǎng),幀移為M,從而把語音信號(hào)分成N幀,順序排列后得到幀序列; 步驟二:對(duì)分幀后的每幀語音信號(hào)分別進(jìn)行R層小波分解,每幀語音信號(hào)R層小波分解后得到(R+1)個(gè)分量信息; 步驟三:對(duì)每幀語音信號(hào)的各個(gè)分量信息分別進(jìn)行短時(shí)傅里葉變換,獲得每個(gè)分量信息的頻譜; 求出每個(gè)分量信息頻譜幅度的平方即得到各分量信息的能量譜,使各分量信息的能量譜通過美爾頻率濾波器組得到各分量信息的Mel頻譜; 對(duì)得到的Mel頻譜分別取自然對(duì)數(shù),得到各分量信息的對(duì)數(shù)頻譜; 對(duì)每個(gè)分量信息的對(duì)數(shù)頻譜再經(jīng)過離散余弦變換到倒頻譜域,從而獲得每個(gè)分量信息的長(zhǎng)度為B的美爾頻譜倒譜系數(shù),即MFCC ;所述B為預(yù)設(shè)值; 求出各分量信息的MFCC所對(duì)應(yīng)的一階差分系數(shù)和二階差分系數(shù),它們的長(zhǎng)度分別也是B ; 對(duì)每個(gè)分量信息,將其MFCC、MFCC的一階差分系數(shù)、MFCC的二階差分系數(shù)相接組成一維矢量,即組成該分量信息的長(zhǎng)度為S=B+B+B的特征參數(shù)矢量; 步驟四:對(duì)每幀語音信號(hào),將其每個(gè)分量信息的特征參數(shù)矢量排列成一個(gè)大小為(R+1) XS的矩陣,該矩陣的行數(shù)對(duì)應(yīng)步驟二中R層小波分解后得到的分量個(gè)數(shù),矩陣的列數(shù)對(duì)應(yīng)為步驟三中得到的特征參數(shù)矢量的長(zhǎng)度S,即矩陣每行表示該幀語音信號(hào)一個(gè)分量信息的長(zhǎng)度為S的特征參數(shù)矢量 ,那么按照語音信號(hào)的幀順序,就構(gòu)成了一個(gè)幀序列個(gè)數(shù)NX每幀分量信息個(gè)數(shù)(R+1) X特征參數(shù)長(zhǎng)度S的三階語音張量X,所述的三階分別稱為幀序列階、分量信息階、特征參數(shù)階; 步驟五:對(duì)步驟四構(gòu)造的三階語音張量X進(jìn)行張量分解,分解后表示為:GX WwX2M2) X3U03),其中G為核張量;U(1)、U⑵、U⑶彼此之間正交,U(1)、U⑵、U⑶代表語音張量分別在幀序列、分量信息、特征參數(shù)對(duì)應(yīng)各階上的主分量;即U(1)為該語音張量分解時(shí)在幀序列階的投影矩陣,且本方法不對(duì)幀序列階進(jìn)行低秩近似,U(2)為該語音張量分解時(shí)在分量信息階進(jìn)行秩為P的低秩投影矩陣,其中參數(shù)P應(yīng)滿足KPS R+1,U(3)為語音張量分解時(shí)在特征參數(shù)階進(jìn)行的秩為Q的低秩投影矩陣,其中參數(shù)Q應(yīng)滿足I < Q < S ; X1, X2, X3分別表示張量第一階、第二階、第三階的張量矩陣乘,張量矩陣乘定義如下:設(shè)有一個(gè)大小為I1X I2X…X In的N階張量H,一個(gè)大小為JX In的矩陣A,則張量的n階(I彡n彡N)矩陣乘為HXnA的結(jié)果是一個(gè)大小為I1X I2 X…X Ilri X JX In+1 X…X In的N階張量; 步驟六:計(jì)算語音張量X在分量信息階上的特征投影Y = XX2U⑵,U(2)為步驟五中語音張量X分解時(shí)在分量信息階進(jìn)行秩為P的低秩投影矩陣,Y為語音張量X在第二階即分量信息階進(jìn)行張量矩陣乘XX2U 的結(jié)果,即是X在分量信息階上進(jìn)行秩為P的低秩投影的結(jié)果; 步驟七:計(jì)算語音張量X在特征參數(shù)階的特征投影Z = YX3U⑶,U(3)為步驟五中語音張量X分解時(shí)在特征參數(shù)階進(jìn)行的秩為Q的低秩投影矩陣,Z為步驟六中得到的特征投影Y在第三階即特征參數(shù)階進(jìn)行張量矩陣乘YX3Uw的結(jié)果,即語音張量X在分量信息階上進(jìn)行秩為P的低秩投影后,又在特征參數(shù)階上進(jìn)行秩為Q的低秩投影的結(jié)果; 步驟八:對(duì)步驟七獲得的張量Z進(jìn)行張量的矩陣化,得到大小為NXW的矩陣,W為P與Q的乘積;即矩陣的行數(shù)為語音信號(hào)幀的個(gè)數(shù)N,矩陣的列數(shù)為語音張量X分解時(shí)在分量信息階低秩投影的秩P和在特征參數(shù)階低秩投影的秩Q的乘積; 步驟八中的張量Z矩陣化后的結(jié)果就是基于張量分解在兩個(gè)不同階即分量信息階和特征參數(shù)階上提取降秩后的語音信號(hào)各幀攜帶的特征。
2.根據(jù)權(quán)利要求1所述一種基于張量分解的語音信號(hào)特征提取方法,其特征在于,步驟一中,R的取值為3。
3.根據(jù)權(quán)利要求1所述一種基于張量分解的語音信號(hào)特征提取方法,其特征在于,步驟三中,對(duì)每個(gè)分量信息,將其MFCC、MFCC的一階差分系數(shù)、MFCC的二階差分系數(shù)依次首尾相接組成一維矢量,即組成該分量信息的長(zhǎng)度為S=B+B+B的特征參數(shù)矢量。
4.根據(jù)權(quán)利要求 1所述一種基于張量分解的語音信號(hào)特征提取方法,其特征在于,步驟三中,B取值為10或32或39。
5.根據(jù)權(quán)利要求1所述一種基于張量分解的語音信號(hào)特征提取方法,其特征在于,步驟五中,所述張量分解進(jìn)行低秩近似的過程采用交替最小二乘法。
6.根據(jù)權(quán)利要求1所述一種基于張量分解的語音信號(hào)特征提取方法,其特征在于,步驟八中,所述張量Z的矩陣化包括如下步驟: 將大小為NXPXQ的三階張量Z,表示為Z(:,:,1)、Z (:,:,2),…、I (:,:,Q),其中“:”代表所有元素;即有Q個(gè)大小為NXP的矩陣,現(xiàn)在以N為基礎(chǔ)進(jìn)行張量的矩陣化: ①?gòu)牡谝粋€(gè)矩陣Z(:,:,1)的第一行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z(:,:,2)的第一行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z (:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量; ②從第一個(gè)矩陣Z(:,:,1)的第二行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z(:,:,2)的第二行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z (..,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量; ③以此類推,直到從第一個(gè)矩陣Z(:,:,I)的第N行順序取出P個(gè)元素,然后再?gòu)牡诙€(gè)矩陣Z (:,:,2)的第N行順序取出P個(gè)元素,同樣的操作一直到最后一個(gè)矩陣Z (:,:,Q),把取出的元素首尾相接排列,得到一個(gè)長(zhǎng)度為W的行向量;④把上述得到的每個(gè)行向量依次作為最終矩陣的每一行,即得到三階張量Z以N為基礎(chǔ)矩陣化的結(jié)果,是一個(gè)NXW的矩陣。
全文摘要
本發(fā)明公開了一種基于張量分解的語音信號(hào)特征提取方法,屬于語音信號(hào)處理技術(shù)領(lǐng)域。將分幀后的語音信號(hào)進(jìn)行多層小波分解,對(duì)小波分解后得到的多個(gè)分量信息分別提取美爾頻譜倒譜系數(shù)及所對(duì)應(yīng)的一階差分系數(shù)和二階差分系數(shù)組成特征參數(shù)矢量,建立三階語音張量,并對(duì)其進(jìn)行張量分解,計(jì)算分量信息階、特征參數(shù)階上的特征投影,矩陣化后的結(jié)果就是語音信號(hào)各幀攜帶的特征。本方法相比傳統(tǒng)特征參數(shù)增強(qiáng)了對(duì)語音信號(hào)的表征能力,獲取攜帶較全面語音信號(hào)的特征,能夠提高語音識(shí)別、說話人識(shí)別等語音信號(hào)處理系統(tǒng)的效果。
文檔編號(hào)G10L15/02GK103117059SQ20121057949
公開日2013年5月22日 申請(qǐng)日期2012年12月27日 優(yōu)先權(quán)日2012年12月27日
發(fā)明者楊立東, 王晶 申請(qǐng)人:北京理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黄陵县| 通化市| 谷城县| 淮安市| 丹阳市| 美姑县| 文昌市| 平乡县| 建昌县| 扶沟县| 娄烦县| 闸北区| 苍南县| 沂源县| 肇源县| 陕西省| 楚雄市| 根河市| 喀喇沁旗| 普宁市| 平乡县| 紫云| 平顶山市| 桐城市| 太和县| 武隆县| 天水市| 闵行区| 宜川县| 尚志市| 安国市| 恩平市| 木兰县| 乳山市| 葵青区| 金山区| 那曲县| 通海县| 赤壁市| 黑河市| 广南县|