本發(fā)明涉及聲學(xué)特征動(dòng)態(tài)提取,具體地說(shuō),涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法。
背景技術(shù):
1、深度神經(jīng)網(wǎng)絡(luò)對(duì)局部區(qū)域進(jìn)行特征提取,通過(guò)池化層降低維度,提取出語(yǔ)音信號(hào)中的局部特征,這些方法可以自動(dòng)地學(xué)習(xí)特征表達(dá),提高識(shí)別準(zhǔn)確率,現(xiàn)有的技術(shù)中對(duì)原始音頻信號(hào)中只提取出能夠表征聲音本質(zhì)特性的參數(shù)或特征向量,對(duì)聲學(xué)特征的提取有一定的局限性,提取準(zhǔn)確度不高,深度神經(jīng)網(wǎng)絡(luò)不僅能夠自動(dòng)提取聲學(xué)特征,還能捕捉這些特征在時(shí)間序列上的動(dòng)態(tài)變化,有利于對(duì)聲學(xué)場(chǎng)景的理解和分類(lèi)準(zhǔn)確,鑒于此,提供一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法,以解決上述背景技術(shù)中提出對(duì)聲學(xué)特征提取有局限性,提取準(zhǔn)確度不高,分類(lèi)準(zhǔn)確度較低的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明目的在于提供了一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法,包括以下步驟:
3、s1、對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理,將音頻數(shù)據(jù)分幀;
4、s2、將分幀后的音頻信號(hào)進(jìn)行傅里葉變換,使其從時(shí)域信號(hào)轉(zhuǎn)換到頻域信號(hào)并得到頻譜圖;
5、s3、對(duì)頻譜圖進(jìn)行預(yù)處理,將預(yù)處理后頻譜圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入;
6、s4、在深度神經(jīng)網(wǎng)絡(luò)中使用一階和二階差分參數(shù)實(shí)現(xiàn)動(dòng)態(tài)特征提取,再將一階和二階差分參數(shù)組合成特征向量輸入深度神經(jīng)網(wǎng)絡(luò);
7、s5、將提取的特征序列通過(guò)序列標(biāo)注的方法輸出音頻信號(hào)中的時(shí)間變化信息。
8、2.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s1中,對(duì)音頻數(shù)據(jù)需要進(jìn)行預(yù)處理,涉及以下步驟:
9、s2.1、采用a/d轉(zhuǎn)換器將連續(xù)的模擬信號(hào)轉(zhuǎn)換為離散的數(shù)字信號(hào);
10、s2.2、進(jìn)行預(yù)加重處理,增加高頻成分。
11、3.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,將音頻數(shù)據(jù)分幀涉及以下步驟:
12、s3.1、確定分幀參數(shù);
13、s3.2、加載音頻數(shù)據(jù);
14、s3.3、計(jì)算幀數(shù),根據(jù)幀長(zhǎng)度和音頻的總采樣點(diǎn)數(shù)計(jì)算出總的幀數(shù);
15、s3.4、分幀處理,對(duì)音頻信號(hào)進(jìn)行遍歷,每次取出一個(gè)幀長(zhǎng)度的數(shù)據(jù),保存每幀數(shù)據(jù)到一個(gè)矩陣或數(shù)組中,形成二維數(shù)據(jù)結(jié)構(gòu),每一行代表一幀數(shù)據(jù);
16、s3.5、進(jìn)行重疊處理,除了首尾幀外,各幀之間會(huì)有重疊部分。
17、4.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,將分幀后的音頻信號(hào)進(jìn)行傅里葉變換,使其從時(shí)域轉(zhuǎn)換到頻域,涉及以下步驟:
18、s4.1、從音頻中獲得需要分析的時(shí)域信號(hào);
19、s4.2、使用傅里葉變換算法將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào);
20、其中,傅里葉變換的主要優(yōu)勢(shì)在于其能夠?qū)?fù)雜的時(shí)域信號(hào)轉(zhuǎn)換為易于分析的頻域信號(hào),在頻域中,信號(hào)的各個(gè)頻率成分可以清晰地展現(xiàn)出來(lái),便于研究者進(jìn)行進(jìn)一步的分析和處理,此外,傅里葉變換還可以揭示信號(hào)的周期性和非周期性特征,這對(duì)于理解聲音信號(hào)的本質(zhì)非常重要;
21、s4.3、從傅里葉變換結(jié)果中提取幅度譜,即頻譜的振幅信息;
22、s4.4、根據(jù)采樣率和傅里葉變換長(zhǎng)度,將頻率軸轉(zhuǎn)換為常規(guī)單位;
23、s4.5、將頻譜數(shù)據(jù)可視化為圖形。
24、5.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4.3中,傅里葉變換算法的計(jì)算公式為
25、快速傅里葉變換
26、
27、其中,x(k)表示頻域中的復(fù)數(shù)值,k表示頻域的離散頻率,x(n)表示時(shí)域的復(fù)數(shù)值,n表示時(shí)域的離散時(shí)間,n表示時(shí)域采樣點(diǎn)數(shù),wn是一個(gè)長(zhǎng)為n的主值為1的復(fù)數(shù)根。
28、6.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,將分幀后的音頻信號(hào)進(jìn)行傅里葉變換得到頻譜圖涉及以下步驟:
29、s6.1、對(duì)于一維信號(hào),使用快速傅里葉變換,對(duì)于二維圖像信號(hào),使用二維快速傅里葉變換;
30、s6.2、調(diào)整頻譜圖中心,將直流分量移到中心;
31、s6.3、計(jì)算幅度譜和相位譜,幅度譜是頻譜的強(qiáng)度部分,可以通過(guò)計(jì)算復(fù)數(shù)快速傅里葉變換結(jié)果的絕對(duì)值獲得;相位譜反映了信號(hào)各頻率成分的相位信息,通過(guò)計(jì)算復(fù)數(shù)的幅角獲得;
32、s6.4、確定采樣頻率和信號(hào)長(zhǎng)度,計(jì)算頻率軸的值;根據(jù)是否進(jìn)行了頻譜移位,調(diào)整頻率軸的起始點(diǎn)和步長(zhǎng);
33、s6.5、繪制頻譜圖。
34、7.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s3中,對(duì)頻譜圖進(jìn)行預(yù)處理,將預(yù)處理后頻譜圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入,涉及以下步驟:
35、s7.1、對(duì)分幀之后的音頻數(shù)據(jù)里的每個(gè)幀進(jìn)行加窗;
36、s7.2、每一幀音頻應(yīng)用快速傅里葉變換得到頻譜;
37、s7.3、對(duì)得到的頻譜圖進(jìn)行;
38、s7.4、對(duì)頻譜圖進(jìn)行歸一化處理,使其數(shù)據(jù)分布在一個(gè)統(tǒng)一的范圍內(nèi);
39、s7.5、將處理過(guò)的頻譜圖與分類(lèi)標(biāo)簽配對(duì),作為訓(xùn)練集;
40、s7.6、將預(yù)處理好的頻譜圖和分類(lèi)標(biāo)簽輸入深度神經(jīng)網(wǎng)絡(luò),使用訓(xùn)練集進(jìn)行多次迭代,通過(guò)前向傳播計(jì)算預(yù)測(cè)輸出,然后通過(guò)反向傳播更新權(quán)重。
41、8.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4中,在深度神經(jīng)網(wǎng)絡(luò)中使用一階和二階差分參數(shù),特征向量對(duì)音頻信號(hào)進(jìn)行動(dòng)態(tài)特征提取,涉及以下步驟:
42、s8.1、對(duì)每個(gè)音頻樣本序列的連續(xù)性進(jìn)行差分計(jì)算,將計(jì)算出的一階差分序列作為原始特征的補(bǔ)充,與原始特征一同輸入深度神經(jīng)網(wǎng)絡(luò);
43、s8.2、對(duì)一階差分序列再做一次差分計(jì)算,得到二階差分序列;
44、s8.3、設(shè)計(jì)網(wǎng)絡(luò)輸入層,將原始特征、一階差分特征和二階差分特征組合成一個(gè)新的特征向量;
45、s8.4、使用帶標(biāo)簽的數(shù)據(jù)集對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
46、9.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4中,一階和二階差分參數(shù)進(jìn)行動(dòng)態(tài)特征提取并將原始特征輸入深度神經(jīng)網(wǎng)絡(luò)計(jì)算公式為:
47、s9.1、對(duì)于一個(gè)時(shí)間序列x=[x1,x2,…,xn],一階差分d1可以通過(guò)以下公式計(jì)算
48、d1=[x2-x1,x3-x2,…,xn-xn-1]
49、s9.2、基于一階差分序列d1,二階差分d2可以進(jìn)一步計(jì)算為:
50、d2=[d1[2]-d1[1],d1[3]-d1[2],…,d1[n-1]-d1[n-2]]
51、s9.3、將原始特征x、一階差分特征d1和二階差分特征d2拼接起來(lái),形成增強(qiáng)特征向量f;
52、s9.4、將構(gòu)造好的特征向量f作為深度神經(jīng)網(wǎng)絡(luò)的輸入層輸入。
53、10.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s5中,通過(guò)序列標(biāo)注的方法輸出音頻信號(hào)中的時(shí)間變化信息,涉及以下步驟:
54、s10.1、在神經(jīng)網(wǎng)絡(luò)模型的輸出層中,設(shè)計(jì)輸出維度;
55、s10.2、將提取的特征序列作為模型的輸入,為每幀音頻對(duì)應(yīng)的標(biāo)簽準(zhǔn)備訓(xùn)練目標(biāo);
56、s10.3、給定一個(gè)新的音頻信號(hào),重復(fù)預(yù)處理步驟并輸入到訓(xùn)練好的模型中,模型會(huì)為每一幀音頻輸出一個(gè)或一組概率分布,表示該時(shí)間點(diǎn)最可能的標(biāo)簽或狀態(tài),得到的序列標(biāo)簽反映了音頻信號(hào)隨時(shí)間的變化信息。
57、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
58、1、該一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法中,通過(guò)利用神經(jīng)網(wǎng)絡(luò)對(duì)局部區(qū)域進(jìn)行特征提取,通過(guò)池化層降低維度,提取出語(yǔ)音信號(hào)中的局部特征;這些方法可以自動(dòng)地學(xué)習(xí)特征表達(dá),提高識(shí)別準(zhǔn)確率,深度神經(jīng)網(wǎng)絡(luò)不僅能夠自動(dòng)提取聲學(xué)特征,還能捕捉這些特征在時(shí)間序列上的動(dòng)態(tài)變化。
59、2、該一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法中,通過(guò)聲學(xué)特征動(dòng)態(tài)提取是語(yǔ)音識(shí)別和處理中的一個(gè)關(guān)鍵步驟,它涉及到從語(yǔ)音信號(hào)中提取出能夠反映語(yǔ)音內(nèi)容的特征,并描述這些特征隨時(shí)間的變化,聲學(xué)特征動(dòng)態(tài)提取是指在處理時(shí)序音頻數(shù)據(jù)時(shí),不僅從單個(gè)固定長(zhǎng)度的音頻片段中提取特征,而是考慮整個(gè)音頻流隨時(shí)間變化的特征表示。