欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于共振峰曲線的語音信號動態(tài)特征提取方法

文檔序號:10654552閱讀:583來源:國知局
一種基于共振峰曲線的語音信號動態(tài)特征提取方法
【專利摘要】本發(fā)明提出一種基于共振峰曲線的語音信號動態(tài)特征提取方法,屬于漢語音信號動態(tài)特征提取技術(shù)領(lǐng)域。步驟為:采集語音信號;對語音信號進(jìn)行預(yù)處理;提取語音信號共振峰頻率特征;按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第一共振峰頻率特征值進(jìn)行組合獲得第一共振峰曲線,依此類推,獲得第二共振峰曲線、第三共振峰曲線及第四共振峰曲線;對獲得的每條共振峰曲線進(jìn)行快速傅里葉變換獲得線性頻譜;根據(jù)線性頻譜獲得能量譜;根據(jù)能量譜獲得對數(shù)能量;對對數(shù)能量進(jìn)行離散余弦變換。與現(xiàn)有方法相比,本發(fā)明提取的是語音信號動態(tài)特征,它具有時間相關(guān)性,揭示了語音信號前后以及相鄰之間存在的密切關(guān)聯(lián),提高了語音識別的性能。
【專利說明】
一種基于共振峰曲線的語音信號動態(tài)特征提取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于漢語音信號動態(tài)特征提取技術(shù)領(lǐng)域,具體涉及一種基于共振峰曲線的 語音信號動態(tài)特征提取方法。
【背景技術(shù)】
[0002] 我國語音識別研究工作起步于50年代,但直到70年代才開始迅速發(fā)展。中國科學(xué) 院、清華大學(xué)、北京大學(xué)等多家研究單位在從事漢語語音識別系統(tǒng)的開發(fā),目前對大詞匯量 連續(xù)語音識別系統(tǒng)的研究已經(jīng)接近國外最高水平;在我國的"八五"計劃和"863"計劃中,漢 語語音識別的研究得到了大力支持,國家863《智能計算機(jī)主題》專家組專門為語音識別研 究立項,同時由于中國在國際上地位與日倶增,以及在經(jīng)濟(jì)和市場方面所處的重要地位,漢 語語音識別也越來越被國外研究機(jī)構(gòu)和公司重視,IBM、Microsoft、APPLE、Motorola、 Intel、L&H等公司都在國內(nèi)設(shè)立研究機(jī)構(gòu),相繼投入到漢語語音識別系統(tǒng)的開發(fā)中,強有力 地推動了漢語語音識別研究的發(fā)展;
[0003] 盡管如此,距離真正的人機(jī)自由交流的境界還很遙遠(yuǎn);現(xiàn)在已有的商用系統(tǒng)都存 在著一些問題,比如對于噪聲環(huán)境下的語音識別率和穩(wěn)健性等都不盡如人意;
[0004] 語音識別最基礎(chǔ)最重要的開發(fā)環(huán)節(jié)是語音信號特征參數(shù)的提取;早在上世紀(jì)40年 代,R.K.Potter等人提出了 "Visible Speech"的概念,指出語譜圖對語音信號有很強的描 述能力,并且試著用語譜信息進(jìn)行語音識別,這就形成了最早的語音特征。到了50年代,人 們發(fā)現(xiàn)要對語音信號進(jìn)行識別就必須從語音波形中提取能夠反映語音特性的某些參數(shù),這 樣不僅可以減小模板數(shù)目、運算量及存儲量,而且可以濾除語音信號中無用的冗余信息,于 是就出現(xiàn)了幅度、短時幀平均能量、短時幀過零率、短時自相關(guān)系數(shù)等。隨著識別技術(shù)的發(fā) 展,人們發(fā)現(xiàn)時域中的特征參數(shù)其穩(wěn)定性和區(qū)分能力都不是很好,于是開始利用頻域參數(shù) 作為語音信號的特征,比如基音周期、共振峰頻率、線性預(yù)測系數(shù)(LPC)、線譜對(LSP)、倒譜 系數(shù)等,目前使用最為廣泛的特征參數(shù)是基于人耳聽覺模型的美爾倒譜系數(shù)(MFCC);但是 這些參數(shù)一旦應(yīng)用于噪聲環(huán)境時,其性能會急劇下降;
[0005] 而且上面所提出的特征參數(shù)都反映語音的靜態(tài)特征,語音信號的動態(tài)特性是指從 連續(xù)幾幀語音中提取的特征參數(shù),比如可以通過靜態(tài)特征的差分參數(shù)和加速度參數(shù)來獲 取,但差分參數(shù)和加速度參數(shù)并不能將動態(tài)信息挖掘得很充分,所以它們尚不能很好地反 映語音信號的動態(tài)特性。

【發(fā)明內(nèi)容】

[0006] 針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于共振峰曲線的語音信號動態(tài)特征提取 方法,以達(dá)到擴(kuò)大應(yīng)用領(lǐng)域、提高語音識別的性能、實現(xiàn)快速有效地掌握信號的動態(tài)特征和 實現(xiàn)在強噪聲環(huán)境下應(yīng)用語音識別技術(shù)的目的。
[0007] -種基于共振峰曲線的語音信號動態(tài)特征提取方法,包括以下步驟:
[0008] 步驟1、采集語音信號;
[0009]步驟2、對語音信號進(jìn)行預(yù)處理,包括預(yù)加重、分幀加窗和端點檢測;
[00?0] 步驟3、采用基于Hibert-Huang變換的方法,對預(yù)處理后語音信號的共振峰頻率特 征進(jìn)行估算,獲得每幀語音信號的第一共振峰特征值、第二共振峰特征值、第三共振峰特征 值和第四共振峰特征值;
[0011] 步驟4、構(gòu)成共振峰曲線,具體為:
[0012] 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第一共振峰特征 值進(jìn)行組合獲得第一共振峰曲線;
[0013] 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第二共振峰特征 值進(jìn)行組合獲得第二共振峰曲線;
[0014] 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第三共振峰特征 值進(jìn)行組合獲得第三共振峰曲線;
[0015] 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第四共振峰特征 值進(jìn)行組合獲得第四共振峰曲線;
[0016] 步驟5、對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振 峰曲線進(jìn)行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜;
[0017] 步驟6、根據(jù)線性頻譜獲得每條共振峰曲線的能量譜;
[0018] 步驟7、根據(jù)能量譜獲得每條共振峰曲線的對數(shù)能量;
[0019] 步驟8、對上述對數(shù)能量進(jìn)行離散余弦變換獲得倒頻譜域,即獲得語音信號動態(tài)特 征參數(shù)。
[0020] 步驟2所述的對語音信號進(jìn)行預(yù)處理,包括預(yù)加重、分幀加窗和端點檢測,其中,
[0021] 所述的預(yù)加重:通過一階數(shù)字預(yù)加重濾波器實現(xiàn),預(yù)加重濾波器的系數(shù)取值范圍 為0.93~0.97;
[0022] 所述的分幀加窗:以幀長256點進(jìn)行分幀,并對分幀后的語音信號加漢明窗;
[0023] 所述的端點檢測:采用短時能零積法進(jìn)行檢測。
[0024] 步驟5所述的對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四 共振峰曲線進(jìn)行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜;
[0025] 具體公式如下:
[0027]其中,Xjk)表示第i個共振峰曲線進(jìn)行快速傅里葉變換后得到的線性頻譜;i = l, 2,3,4Α = 0,1,2,···,Ν-1,Ν為語音信號的幀數(shù);Xl(n)表示第i個共振峰曲線;j是虛數(shù)單位, e為常數(shù)。
[0028]步驟8所述的對上述對數(shù)能量進(jìn)行離散余弦變換獲得倒頻譜域,即獲得語音信號 動態(tài)特征參數(shù);
[0029] 具體公示如下:
[0031 ] 其中,Ci (t)表示第i個共振峰曲線的動態(tài)特征參數(shù);i = l,2,3,4;t = l,2,~,T,T 表示設(shè)定的倒譜系數(shù)個數(shù),取值范圍為12~16;U(k)表示第i個共振峰曲線的對數(shù)能量;k = 0,1,2,···,Ν-1,Ν為語音信號的幀數(shù)。
[0032] 本發(fā)明優(yōu)點:
[0033] 1、本發(fā)明獲得的語音信號動態(tài)特征參數(shù)主要應(yīng)用于計算機(jī)的聽寫機(jī),以及與電話 網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務(wù)系統(tǒng),另外還可應(yīng)用在小型化、便攜式的語音產(chǎn) 品中,如無線手機(jī)上的撥號、汽車設(shè)備的語音控制、智能玩具、家電遙控等方面;
[0034] 2、本發(fā)明提取的是語音信號動態(tài)特征,它具有時間相關(guān)性,揭示了語音信號前后 以及相鄰之間存在的密切關(guān)聯(lián),相比于傳統(tǒng)的MFCC方法,大大提高了語音識別的性能; [0035] 3、本發(fā)明采用基于Hibert-Huang變換的方法來估算預(yù)處理后的語音信號共振峰 頻率特征,其中用經(jīng)驗?zāi)B(tài)分解法(EMD)將信號分解成一組含有不同尺度的固有模態(tài)函數(shù) QMF)分量,經(jīng)分解得到的每一個頂F分量都代表了一個頻率成分,這些頻率成分可以有效 突出信號的局部特性和細(xì)節(jié)變化,這將有助于快速有效地掌握信號的動態(tài)特征;
[0036] 4、本發(fā)明構(gòu)成的共振峰曲線具有時間相關(guān)性,揭示了語音信號前后以及相鄰之間 存在著的密切關(guān)聯(lián);這一特性,使得在強噪聲環(huán)境下應(yīng)用語音識別技術(shù)成為了可能。
【附圖說明】
[0037] 圖1為本發(fā)明一種實施例的基于共振峰曲線的語音信號動態(tài)特征提取方法流程 圖;
[0038] 圖2為本發(fā)明一種實施例的白噪聲情況下參數(shù)識別性能曲線比較圖;
[0039] 圖3為本發(fā)明一種實施例的粉噪聲情況下參數(shù)識別性能曲線比較圖;
[0040] 圖4為本發(fā)明一種實施例的街道噪聲情況下參數(shù)識別性能曲線比較圖;
[0041] 圖5為本發(fā)明一種實施例的坦克噪聲情況下參數(shù)識別性能曲線比較圖。
【具體實施方式】
[0042] 下面結(jié)合附圖對本發(fā)明一種實施例做進(jìn)一步說明。
[0043] -種基于共振峰曲線的語音信號動態(tài)特征提取方法,方法流程圖如圖1所示,包括 以下步驟:
[0044] 步驟1、采集語音信號;
[0045]本發(fā)明實施例中,利用麥克風(fēng)輸入語音數(shù)據(jù),并由計算機(jī)、單片機(jī)或DSP芯片等處 理單元以11.025KHZ的采樣頻率、16bit的量化精度進(jìn)行采樣量化,獲得相應(yīng)的語音信號;本 發(fā)明實施例中采用計算機(jī)作為處理單元;
[0046] 步驟2、對語音信號進(jìn)行預(yù)處理,包括預(yù)加重、分幀加窗和端點檢測;
[0047] 本發(fā)明實施例中,所述的預(yù)加重:通過一階數(shù)字預(yù)加重濾波器實現(xiàn),預(yù)加重濾波器 的系數(shù)取值范圍為0.93~0.97,本發(fā)明實施例中,取值為0.9375;所述的分幀加窗:以幀長 256點進(jìn)行分幀,并對分幀后的語音信號加漢明窗;所述的端點檢測:采用短時能零積法進(jìn) 行檢測;
[0048] 步驟3、采用基于Hibert-Huang變換的方法,對預(yù)處理后語音信號的共振峰頻率特 征進(jìn)行估算,獲得每幀語音信號的第一共振峰特征值F1、第二共振峰特征值F2、第三共振峰 特征值F3和第四共振峰特征值F4;
[0049]本發(fā)明實施例中,由快速傅里葉變換(FFT)初步估計出的語音信號的各階共振峰 頻率確定相應(yīng)帶通濾波器的參數(shù),并用該參數(shù)對語音信號作濾波處理,對濾波后的信號進(jìn) 行經(jīng)驗?zāi)B(tài)分解(EMD)得到一族固有模態(tài)函數(shù)aMF),按能量最大原則確定出含有共振峰頻 率的IMF,計算出該IMF的瞬時頻率和Hi lbert譜即得到語音信號的共振峰頻率參數(shù);
[0050] 步驟4、構(gòu)成共振峰曲線,具體為:
[0051] 本發(fā)明實施例中,按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號 的第一共振峰頻率特征值F1進(jìn)行組合獲得第一共振峰曲線^(1〇,11 = 0,1,2,一小-1小為語 音信號的幀數(shù);按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第二共振 峰頻率特征值F2進(jìn)行組合獲得第二共振峰曲線 X2(n);按照從第一幀到最后一幀的幀序,將 預(yù)處理后的每幀語音信號的第三共振峰頻率特征值F3進(jìn)行組合獲得第三共振峰曲線 X3 (η);按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第四共振峰頻率特征 值F4進(jìn)行組合獲得第四共振峰曲線χ 4(η);
[0052] 步驟5、對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振 峰曲線進(jìn)行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜;
[0053]本發(fā)明實施例中,具體公式如下:
[0055] 其中,Xdk)表示第i個共振峰曲線進(jìn)行快速傅里葉變換后得到的線性頻譜;i = l, 2,3,4Α = 0,1,2,···,Ν-1,Ν為語音信號的幀數(shù);Xl(n)表示第i個共振峰曲線;j是虛數(shù)單位, e為常數(shù),近似值為2.7;
[0056] 步驟6、根據(jù)線性頻譜獲得每條共振峰曲線的能量譜;
[0057] 本發(fā)明實施例中,取上述線性頻譜Xi(k)模的平方來獲得相應(yīng)的能量譜Si(k),公式 如下:
[0058] Si(k)= |Xi(k) |2 (3)
[0059] 其中,SKk)表示第i個共振峰曲線的能量譜;
[0060] 步驟7、根據(jù)能量譜獲得每條共振峰曲線的對數(shù)能量;
[0061]本發(fā)明實施例中,為了使結(jié)果對噪聲有更好的魯棒性,將上述獲得的能量譜31(1〇 取對數(shù),即可獲得對數(shù)能量U(k),公式如下:
[0062] Li(k) =Log(Si(k)) (4)
[0063] 其中,U(k)是第i個共振峰曲線的對數(shù)能量;
[0064]步驟8、對上述對數(shù)能量進(jìn)行離散余弦變換獲得倒頻譜域,即獲得語音信號動態(tài)特 征參數(shù)。
[0065] 具體公示如下:
[0067] 其中,Ci (t)表示第i個共振峰曲線的動態(tài)特征參數(shù);i = l,2,3,4;t = l,2,~,T,T 表示設(shè)定的倒譜系數(shù)個數(shù),取值范圍為12~16,本發(fā)明實施例取T = 12;
[0068] 本發(fā)明實施例中,采用50個典型的漢語詞匯來進(jìn)行實驗;由于考慮識別系統(tǒng)容易 受環(huán)境噪聲、信道變化和說話人變化等因素的影響,因此,本發(fā)明實施例的訓(xùn)練集采用安靜 環(huán)境下的語音數(shù)據(jù),而測試集采用含有噪聲的數(shù)據(jù);
[0069] 為了驗證該特征參數(shù)對不同說話人變化的魯棒性,訓(xùn)練集數(shù)據(jù)由前后兩次錄成, 共50人,每人每詞發(fā)音一遍,共獲得5000個數(shù)據(jù),測試集數(shù)據(jù)也是分兩次錄成,共30人,每人 每詞發(fā)音一遍,共3000個數(shù)據(jù);為了驗證該特征參數(shù)對不同信道變化的魯棒性,每次使用不 同的麥克風(fēng)來錄音;為了驗證該特征參數(shù)對不同環(huán)境噪聲變化的魯棒性,本發(fā)明實施例在 測試集的每個語音中手工加入了四種噪聲,包括:白噪聲、粉噪聲、街道噪聲、坦克噪聲,構(gòu) 成信噪比為15dB,1 OdB,5dB,OdB,-5dB的含噪語音信號。
[0070] 本發(fā)明實施例中采用基于遺傳算法改進(jìn)的小波神經(jīng)網(wǎng)絡(luò)來作為分類器,網(wǎng)絡(luò)輸入 層有48個神經(jīng)元,輸出層有50個神經(jīng)元,隱含層結(jié)點個數(shù)通過遺傳算法確定;
[0071 ]本發(fā)明實施例中,圖2、圖3、圖4和圖5為采用與本發(fā)明實施例相同條件的MFCC方法 和本發(fā)明實施例方法分別在白噪聲、粉噪聲、街道噪聲和坦克噪聲干擾下的系統(tǒng)識別性能 曲線;從圖中可以看出,在信噪比較低的時候,本發(fā)明實施例方法與MFCC方法相比識別率提 1? 了很多。
【主權(quán)項】
1. 一種基于共振峰曲線的語音信號動態(tài)特征提取方法,其特征在于,包括以下步驟: 步驟1、采集語音信號; 步驟2、對語音信號進(jìn)行預(yù)處理,包括預(yù)加重、分幀加窗和端點檢測; 步驟3、采用基于Hibert-Huang變換的方法,對預(yù)處理后語音信號的共振峰頻率特征進(jìn) 行估算,獲得每幀語音信號的第一共振峰特征值、第二共振峰特征值、第三共振峰特征值和 第四共振峰特征值; 步驟4、構(gòu)成共振峰曲線,具體為: 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第一共振峰特征值進(jìn) 行組合獲得第一共振峰曲線; 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第二共振峰特征值進(jìn) 行組合獲得第二共振峰曲線; 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第三共振峰特征值進(jìn) 行組合獲得第三共振峰曲線; 按照從第一幀到最后一幀的幀序,將預(yù)處理后的每幀語音信號的第四共振峰特征值進(jìn) 行組合獲得第四共振峰曲線; 步驟5、對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振峰曲 線進(jìn)行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜; 步驟6、根據(jù)線性頻譜獲得每條共振峰曲線的能量譜; 步驟7、根據(jù)能量譜獲得每條共振峰曲線的對數(shù)能量; 步驟8、對上述對數(shù)能量進(jìn)行離散余弦變換獲得倒頻譜域,即獲得語音信號動態(tài)特征參 數(shù)。2. 根據(jù)權(quán)利要求1所述的基于共振峰曲線的語音信號動態(tài)特征提取方法,其特征在于, 步驟2所述的對語音信號進(jìn)行預(yù)處理,包括預(yù)加重、分幀加窗和端點檢測,其中, 所述的預(yù)加重:通過一階數(shù)字預(yù)加重濾波器實現(xiàn),預(yù)加重濾波器的系數(shù)取值范圍為 0.93 ~0.97; 所述的分幀加窗:以幀長256點進(jìn)行分幀,并對分幀后的語音信號加漢明窗; 所述的端點檢測:采用短時能零積法進(jìn)行檢測。3. 根據(jù)權(quán)利要求1所述的基于共振峰曲線的語音信號動態(tài)特征提取方法,其特征在于, 步驟5所述的對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振峰曲 線進(jìn)行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜; 具體公式如下:? 1) 其中,Xdk)表示第i個共振峰曲線進(jìn)行快速傅里葉變換后得到的線性頻譜;i = l,2,3, 4;k = 0,l,2,…,N-1,N為語音信號的幀數(shù);Xi(n)表示第i個共振峰曲線,η = 0,1,2,···,Ν-1; j是虛數(shù)單位,e為常數(shù)。4. 根據(jù)權(quán)利要求1所述的基于共振峰曲線的語音信號動態(tài)特征提取方法,其特征在于, 步驟8所述的對上述對數(shù)能量進(jìn)行離散余弦變換獲得倒頻譜域,即獲得語音信號動態(tài)特征 參數(shù); 具體公元.α) 其中,Ci (t)表示第i個共振峰曲線的動態(tài)特征參數(shù);1 = 1,2,3,44 = 1,2,一,1',1'表示設(shè) 定的倒譜系數(shù)個數(shù),取值范圍為12~16; Li (k)表示第i個共振峰曲線的對數(shù)能量;k = O,1, 2,…,N-I,N為語音信號的幀數(shù)。
【文檔編號】G10L25/24GK106024010SQ201610340935
【公開日】2016年10月12日
【申請日】2016年5月19日
【發(fā)明人】韓志艷, 王健, 王東, 周建壯, 郭繼寧, 劉繼行, 曹麗
【申請人】渤海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
肥西县| 北川| 阳江市| 北碚区| 海南省| 临城县| 乌苏市| 石阡县| 康保县| 荆门市| 安泽县| 塔河县| 章丘市| 延安市| 正蓝旗| 古田县| 竹山县| 天台县| 卫辉市| 五台县| 兴业县| 长春市| 任丘市| 安化县| 黄石市| 石柱| 类乌齐县| 晴隆县| 新河县| 五常市| 崇仁县| 新巴尔虎左旗| 司法| 澄城县| 沙田区| 津市市| 陇西县| 兴义市| 阜南县| 莱芜市| 铅山县|