一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法與流程

文檔序號(hào)：40642691發(fā)布日期：2025-01-10 18:48閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法與流程

本發(fā)明涉及聲學(xué)特征動(dòng)態(tài)提取，具體地說(shuō)，涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法。

背景技術(shù)：

1、深度神經(jīng)網(wǎng)絡(luò)對(duì)局部區(qū)域進(jìn)行特征提取，通過(guò)池化層降低維度，提取出語(yǔ)音信號(hào)中的局部特征，這些方法可以自動(dòng)地學(xué)習(xí)特征表達(dá)，提高識(shí)別準(zhǔn)確率，現(xiàn)有的技術(shù)中對(duì)原始音頻信號(hào)中只提取出能夠表征聲音本質(zhì)特性的參數(shù)或特征向量，對(duì)聲學(xué)特征的提取有一定的局限性，提取準(zhǔn)確度不高，深度神經(jīng)網(wǎng)絡(luò)不僅能夠自動(dòng)提取聲學(xué)特征，還能捕捉這些特征在時(shí)間序列上的動(dòng)態(tài)變化，有利于對(duì)聲學(xué)場(chǎng)景的理解和分類(lèi)準(zhǔn)確，鑒于此，提供一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法，以解決上述背景技術(shù)中提出對(duì)聲學(xué)特征提取有局限性，提取準(zhǔn)確度不高，分類(lèi)準(zhǔn)確度較低的問(wèn)題。

2、為實(shí)現(xiàn)上述目的，本發(fā)明目的在于提供了一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法，包括以下步驟：

3、s1、對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理，將音頻數(shù)據(jù)分幀；

4、s2、將分幀后的音頻信號(hào)進(jìn)行傅里葉變換，使其從時(shí)域信號(hào)轉(zhuǎn)換到頻域信號(hào)并得到頻譜圖；

5、s3、對(duì)頻譜圖進(jìn)行預(yù)處理，將預(yù)處理后頻譜圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入；

6、s4、在深度神經(jīng)網(wǎng)絡(luò)中使用一階和二階差分參數(shù)實(shí)現(xiàn)動(dòng)態(tài)特征提取，再將一階和二階差分參數(shù)組合成特征向量輸入深度神經(jīng)網(wǎng)絡(luò)；

7、s5、將提取的特征序列通過(guò)序列標(biāo)注的方法輸出音頻信號(hào)中的時(shí)間變化信息。

8、2.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s1中，對(duì)音頻數(shù)據(jù)需要進(jìn)行預(yù)處理，涉及以下步驟：

9、s2.1、采用a/d轉(zhuǎn)換器將連續(xù)的模擬信號(hào)轉(zhuǎn)換為離散的數(shù)字信號(hào)；

10、s2.2、進(jìn)行預(yù)加重處理，增加高頻成分。

11、3.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s2中，將音頻數(shù)據(jù)分幀涉及以下步驟：

12、s3.1、確定分幀參數(shù)；

13、s3.2、加載音頻數(shù)據(jù)；

14、s3.3、計(jì)算幀數(shù)，根據(jù)幀長(zhǎng)度和音頻的總采樣點(diǎn)數(shù)計(jì)算出總的幀數(shù)；

15、s3.4、分幀處理，對(duì)音頻信號(hào)進(jìn)行遍歷，每次取出一個(gè)幀長(zhǎng)度的數(shù)據(jù)，保存每幀數(shù)據(jù)到一個(gè)矩陣或數(shù)組中，形成二維數(shù)據(jù)結(jié)構(gòu)，每一行代表一幀數(shù)據(jù)；

16、s3.5、進(jìn)行重疊處理，除了首尾幀外，各幀之間會(huì)有重疊部分。

17、4.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s2中，將分幀后的音頻信號(hào)進(jìn)行傅里葉變換，使其從時(shí)域轉(zhuǎn)換到頻域，涉及以下步驟：

18、s4.1、從音頻中獲得需要分析的時(shí)域信號(hào)；

19、s4.2、使用傅里葉變換算法將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào)；

20、其中，傅里葉變換的主要優(yōu)勢(shì)在于其能夠?qū)?fù)雜的時(shí)域信號(hào)轉(zhuǎn)換為易于分析的頻域信號(hào)，在頻域中，信號(hào)的各個(gè)頻率成分可以清晰地展現(xiàn)出來(lái)，便于研究者進(jìn)行進(jìn)一步的分析和處理，此外，傅里葉變換還可以揭示信號(hào)的周期性和非周期性特征，這對(duì)于理解聲音信號(hào)的本質(zhì)非常重要；

21、s4.3、從傅里葉變換結(jié)果中提取幅度譜，即頻譜的振幅信息；

22、s4.4、根據(jù)采樣率和傅里葉變換長(zhǎng)度，將頻率軸轉(zhuǎn)換為常規(guī)單位；

23、s4.5、將頻譜數(shù)據(jù)可視化為圖形。

24、5.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s4.3中，傅里葉變換算法的計(jì)算公式為

25、快速傅里葉變換

26、

27、其中，x(k)表示頻域中的復(fù)數(shù)值，k表示頻域的離散頻率，x(n)表示時(shí)域的復(fù)數(shù)值，n表示時(shí)域的離散時(shí)間，n表示時(shí)域采樣點(diǎn)數(shù)，wn是一個(gè)長(zhǎng)為n的主值為1的復(fù)數(shù)根。

28、6.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s2中，將分幀后的音頻信號(hào)進(jìn)行傅里葉變換得到頻譜圖涉及以下步驟：

29、s6.1、對(duì)于一維信號(hào)，使用快速傅里葉變換，對(duì)于二維圖像信號(hào)，使用二維快速傅里葉變換；

30、s6.2、調(diào)整頻譜圖中心，將直流分量移到中心；

31、s6.3、計(jì)算幅度譜和相位譜，幅度譜是頻譜的強(qiáng)度部分，可以通過(guò)計(jì)算復(fù)數(shù)快速傅里葉變換結(jié)果的絕對(duì)值獲得；相位譜反映了信號(hào)各頻率成分的相位信息，通過(guò)計(jì)算復(fù)數(shù)的幅角獲得；

32、s6.4、確定采樣頻率和信號(hào)長(zhǎng)度，計(jì)算頻率軸的值；根據(jù)是否進(jìn)行了頻譜移位，調(diào)整頻率軸的起始點(diǎn)和步長(zhǎng)；

33、s6.5、繪制頻譜圖。

34、7.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s3中，對(duì)頻譜圖進(jìn)行預(yù)處理，將預(yù)處理后頻譜圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入，涉及以下步驟：

35、s7.1、對(duì)分幀之后的音頻數(shù)據(jù)里的每個(gè)幀進(jìn)行加窗；

36、s7.2、每一幀音頻應(yīng)用快速傅里葉變換得到頻譜；

37、s7.3、對(duì)得到的頻譜圖進(jìn)行；

38、s7.4、對(duì)頻譜圖進(jìn)行歸一化處理，使其數(shù)據(jù)分布在一個(gè)統(tǒng)一的范圍內(nèi)；

39、s7.5、將處理過(guò)的頻譜圖與分類(lèi)標(biāo)簽配對(duì)，作為訓(xùn)練集；

40、s7.6、將預(yù)處理好的頻譜圖和分類(lèi)標(biāo)簽輸入深度神經(jīng)網(wǎng)絡(luò)，使用訓(xùn)練集進(jìn)行多次迭代，通過(guò)前向傳播計(jì)算預(yù)測(cè)輸出，然后通過(guò)反向傳播更新權(quán)重。

41、8.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s4中，在深度神經(jīng)網(wǎng)絡(luò)中使用一階和二階差分參數(shù)，特征向量對(duì)音頻信號(hào)進(jìn)行動(dòng)態(tài)特征提取，涉及以下步驟：

42、s8.1、對(duì)每個(gè)音頻樣本序列的連續(xù)性進(jìn)行差分計(jì)算，將計(jì)算出的一階差分序列作為原始特征的補(bǔ)充，與原始特征一同輸入深度神經(jīng)網(wǎng)絡(luò)；

43、s8.2、對(duì)一階差分序列再做一次差分計(jì)算，得到二階差分序列；

44、s8.3、設(shè)計(jì)網(wǎng)絡(luò)輸入層，將原始特征、一階差分特征和二階差分特征組合成一個(gè)新的特征向量；

45、s8.4、使用帶標(biāo)簽的數(shù)據(jù)集對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

46、9.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s4中，一階和二階差分參數(shù)進(jìn)行動(dòng)態(tài)特征提取并將原始特征輸入深度神經(jīng)網(wǎng)絡(luò)計(jì)算公式為：

47、s9.1、對(duì)于一個(gè)時(shí)間序列x＝[x1，x2，…，xn]，一階差分d1可以通過(guò)以下公式計(jì)算

48、d1＝[x2-x1，x3-x2，…，xn-xn-1]

49、s9.2、基于一階差分序列d1，二階差分d2可以進(jìn)一步計(jì)算為：

50、d2＝[d1[2]-d1[1]，d1[3]-d1[2]，…，d1[n-1]-d1[n-2]]

51、s9.3、將原始特征x、一階差分特征d1和二階差分特征d2拼接起來(lái)，形成增強(qiáng)特征向量f；

52、s9.4、將構(gòu)造好的特征向量f作為深度神經(jīng)網(wǎng)絡(luò)的輸入層輸入。

53、10.作為本技術(shù)方案的進(jìn)一步改進(jìn)，所述s5中，通過(guò)序列標(biāo)注的方法輸出音頻信號(hào)中的時(shí)間變化信息，涉及以下步驟：

54、s10.1、在神經(jīng)網(wǎng)絡(luò)模型的輸出層中，設(shè)計(jì)輸出維度；

55、s10.2、將提取的特征序列作為模型的輸入，為每幀音頻對(duì)應(yīng)的標(biāo)簽準(zhǔn)備訓(xùn)練目標(biāo)；

56、s10.3、給定一個(gè)新的音頻信號(hào)，重復(fù)預(yù)處理步驟并輸入到訓(xùn)練好的模型中，模型會(huì)為每一幀音頻輸出一個(gè)或一組概率分布，表示該時(shí)間點(diǎn)最可能的標(biāo)簽或狀態(tài)，得到的序列標(biāo)簽反映了音頻信號(hào)隨時(shí)間的變化信息。

57、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果：

58、1、該一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法中，通過(guò)利用神經(jīng)網(wǎng)絡(luò)對(duì)局部區(qū)域進(jìn)行特征提取，通過(guò)池化層降低維度，提取出語(yǔ)音信號(hào)中的局部特征；這些方法可以自動(dòng)地學(xué)習(xí)特征表達(dá)，提高識(shí)別準(zhǔn)確率，深度神經(jīng)網(wǎng)絡(luò)不僅能夠自動(dòng)提取聲學(xué)特征，還能捕捉這些特征在時(shí)間序列上的動(dòng)態(tài)變化。

59、2、該一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法中，通過(guò)聲學(xué)特征動(dòng)態(tài)提取是語(yǔ)音識(shí)別和處理中的一個(gè)關(guān)鍵步驟，它涉及到從語(yǔ)音信號(hào)中提取出能夠反映語(yǔ)音內(nèi)容的特征，并描述這些特征隨時(shí)間的變化，聲學(xué)特征動(dòng)態(tài)提取是指在處理時(shí)序音頻數(shù)據(jù)時(shí)，不僅從單個(gè)固定長(zhǎng)度的音頻片段中提取特征，而是考慮整個(gè)音頻流隨時(shí)間變化的特征表示。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王立強(qiáng),萬(wàn)辛,呂東,劉睿霖,李藝濤,王海洋,初杰
技術(shù)所有人：國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心
我是此專(zhuān)利的發(fā)明人

上一篇：一種穩(wěn)定型管道支吊架的制作方法
上一篇：一種便于維護(hù)的污水處理裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法與流程