欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法與流程

文檔序號(hào):40642691發(fā)布日期:2025-01-10 18:48閱讀:9來(lái)源:國(guó)知局
一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法與流程

本發(fā)明涉及聲學(xué)特征動(dòng)態(tài)提取,具體地說(shuō),涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法。


背景技術(shù):

1、深度神經(jīng)網(wǎng)絡(luò)對(duì)局部區(qū)域進(jìn)行特征提取,通過(guò)池化層降低維度,提取出語(yǔ)音信號(hào)中的局部特征,這些方法可以自動(dòng)地學(xué)習(xí)特征表達(dá),提高識(shí)別準(zhǔn)確率,現(xiàn)有的技術(shù)中對(duì)原始音頻信號(hào)中只提取出能夠表征聲音本質(zhì)特性的參數(shù)或特征向量,對(duì)聲學(xué)特征的提取有一定的局限性,提取準(zhǔn)確度不高,深度神經(jīng)網(wǎng)絡(luò)不僅能夠自動(dòng)提取聲學(xué)特征,還能捕捉這些特征在時(shí)間序列上的動(dòng)態(tài)變化,有利于對(duì)聲學(xué)場(chǎng)景的理解和分類(lèi)準(zhǔn)確,鑒于此,提供一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法,以解決上述背景技術(shù)中提出對(duì)聲學(xué)特征提取有局限性,提取準(zhǔn)確度不高,分類(lèi)準(zhǔn)確度較低的問(wèn)題。

2、為實(shí)現(xiàn)上述目的,本發(fā)明目的在于提供了一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法,包括以下步驟:

3、s1、對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理,將音頻數(shù)據(jù)分幀;

4、s2、將分幀后的音頻信號(hào)進(jìn)行傅里葉變換,使其從時(shí)域信號(hào)轉(zhuǎn)換到頻域信號(hào)并得到頻譜圖;

5、s3、對(duì)頻譜圖進(jìn)行預(yù)處理,將預(yù)處理后頻譜圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入;

6、s4、在深度神經(jīng)網(wǎng)絡(luò)中使用一階和二階差分參數(shù)實(shí)現(xiàn)動(dòng)態(tài)特征提取,再將一階和二階差分參數(shù)組合成特征向量輸入深度神經(jīng)網(wǎng)絡(luò);

7、s5、將提取的特征序列通過(guò)序列標(biāo)注的方法輸出音頻信號(hào)中的時(shí)間變化信息。

8、2.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s1中,對(duì)音頻數(shù)據(jù)需要進(jìn)行預(yù)處理,涉及以下步驟:

9、s2.1、采用a/d轉(zhuǎn)換器將連續(xù)的模擬信號(hào)轉(zhuǎn)換為離散的數(shù)字信號(hào);

10、s2.2、進(jìn)行預(yù)加重處理,增加高頻成分。

11、3.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,將音頻數(shù)據(jù)分幀涉及以下步驟:

12、s3.1、確定分幀參數(shù);

13、s3.2、加載音頻數(shù)據(jù);

14、s3.3、計(jì)算幀數(shù),根據(jù)幀長(zhǎng)度和音頻的總采樣點(diǎn)數(shù)計(jì)算出總的幀數(shù);

15、s3.4、分幀處理,對(duì)音頻信號(hào)進(jìn)行遍歷,每次取出一個(gè)幀長(zhǎng)度的數(shù)據(jù),保存每幀數(shù)據(jù)到一個(gè)矩陣或數(shù)組中,形成二維數(shù)據(jù)結(jié)構(gòu),每一行代表一幀數(shù)據(jù);

16、s3.5、進(jìn)行重疊處理,除了首尾幀外,各幀之間會(huì)有重疊部分。

17、4.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,將分幀后的音頻信號(hào)進(jìn)行傅里葉變換,使其從時(shí)域轉(zhuǎn)換到頻域,涉及以下步驟:

18、s4.1、從音頻中獲得需要分析的時(shí)域信號(hào);

19、s4.2、使用傅里葉變換算法將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào);

20、其中,傅里葉變換的主要優(yōu)勢(shì)在于其能夠?qū)?fù)雜的時(shí)域信號(hào)轉(zhuǎn)換為易于分析的頻域信號(hào),在頻域中,信號(hào)的各個(gè)頻率成分可以清晰地展現(xiàn)出來(lái),便于研究者進(jìn)行進(jìn)一步的分析和處理,此外,傅里葉變換還可以揭示信號(hào)的周期性和非周期性特征,這對(duì)于理解聲音信號(hào)的本質(zhì)非常重要;

21、s4.3、從傅里葉變換結(jié)果中提取幅度譜,即頻譜的振幅信息;

22、s4.4、根據(jù)采樣率和傅里葉變換長(zhǎng)度,將頻率軸轉(zhuǎn)換為常規(guī)單位;

23、s4.5、將頻譜數(shù)據(jù)可視化為圖形。

24、5.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4.3中,傅里葉變換算法的計(jì)算公式為

25、快速傅里葉變換

26、

27、其中,x(k)表示頻域中的復(fù)數(shù)值,k表示頻域的離散頻率,x(n)表示時(shí)域的復(fù)數(shù)值,n表示時(shí)域的離散時(shí)間,n表示時(shí)域采樣點(diǎn)數(shù),wn是一個(gè)長(zhǎng)為n的主值為1的復(fù)數(shù)根。

28、6.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s2中,將分幀后的音頻信號(hào)進(jìn)行傅里葉變換得到頻譜圖涉及以下步驟:

29、s6.1、對(duì)于一維信號(hào),使用快速傅里葉變換,對(duì)于二維圖像信號(hào),使用二維快速傅里葉變換;

30、s6.2、調(diào)整頻譜圖中心,將直流分量移到中心;

31、s6.3、計(jì)算幅度譜和相位譜,幅度譜是頻譜的強(qiáng)度部分,可以通過(guò)計(jì)算復(fù)數(shù)快速傅里葉變換結(jié)果的絕對(duì)值獲得;相位譜反映了信號(hào)各頻率成分的相位信息,通過(guò)計(jì)算復(fù)數(shù)的幅角獲得;

32、s6.4、確定采樣頻率和信號(hào)長(zhǎng)度,計(jì)算頻率軸的值;根據(jù)是否進(jìn)行了頻譜移位,調(diào)整頻率軸的起始點(diǎn)和步長(zhǎng);

33、s6.5、繪制頻譜圖。

34、7.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s3中,對(duì)頻譜圖進(jìn)行預(yù)處理,將預(yù)處理后頻譜圖作為深度神經(jīng)網(wǎng)絡(luò)的輸入,涉及以下步驟:

35、s7.1、對(duì)分幀之后的音頻數(shù)據(jù)里的每個(gè)幀進(jìn)行加窗;

36、s7.2、每一幀音頻應(yīng)用快速傅里葉變換得到頻譜;

37、s7.3、對(duì)得到的頻譜圖進(jìn)行;

38、s7.4、對(duì)頻譜圖進(jìn)行歸一化處理,使其數(shù)據(jù)分布在一個(gè)統(tǒng)一的范圍內(nèi);

39、s7.5、將處理過(guò)的頻譜圖與分類(lèi)標(biāo)簽配對(duì),作為訓(xùn)練集;

40、s7.6、將預(yù)處理好的頻譜圖和分類(lèi)標(biāo)簽輸入深度神經(jīng)網(wǎng)絡(luò),使用訓(xùn)練集進(jìn)行多次迭代,通過(guò)前向傳播計(jì)算預(yù)測(cè)輸出,然后通過(guò)反向傳播更新權(quán)重。

41、8.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4中,在深度神經(jīng)網(wǎng)絡(luò)中使用一階和二階差分參數(shù),特征向量對(duì)音頻信號(hào)進(jìn)行動(dòng)態(tài)特征提取,涉及以下步驟:

42、s8.1、對(duì)每個(gè)音頻樣本序列的連續(xù)性進(jìn)行差分計(jì)算,將計(jì)算出的一階差分序列作為原始特征的補(bǔ)充,與原始特征一同輸入深度神經(jīng)網(wǎng)絡(luò);

43、s8.2、對(duì)一階差分序列再做一次差分計(jì)算,得到二階差分序列;

44、s8.3、設(shè)計(jì)網(wǎng)絡(luò)輸入層,將原始特征、一階差分特征和二階差分特征組合成一個(gè)新的特征向量;

45、s8.4、使用帶標(biāo)簽的數(shù)據(jù)集對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

46、9.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s4中,一階和二階差分參數(shù)進(jìn)行動(dòng)態(tài)特征提取并將原始特征輸入深度神經(jīng)網(wǎng)絡(luò)計(jì)算公式為:

47、s9.1、對(duì)于一個(gè)時(shí)間序列x=[x1,x2,…,xn],一階差分d1可以通過(guò)以下公式計(jì)算

48、d1=[x2-x1,x3-x2,…,xn-xn-1]

49、s9.2、基于一階差分序列d1,二階差分d2可以進(jìn)一步計(jì)算為:

50、d2=[d1[2]-d1[1],d1[3]-d1[2],…,d1[n-1]-d1[n-2]]

51、s9.3、將原始特征x、一階差分特征d1和二階差分特征d2拼接起來(lái),形成增強(qiáng)特征向量f;

52、s9.4、將構(gòu)造好的特征向量f作為深度神經(jīng)網(wǎng)絡(luò)的輸入層輸入。

53、10.作為本技術(shù)方案的進(jìn)一步改進(jìn),所述s5中,通過(guò)序列標(biāo)注的方法輸出音頻信號(hào)中的時(shí)間變化信息,涉及以下步驟:

54、s10.1、在神經(jīng)網(wǎng)絡(luò)模型的輸出層中,設(shè)計(jì)輸出維度;

55、s10.2、將提取的特征序列作為模型的輸入,為每幀音頻對(duì)應(yīng)的標(biāo)簽準(zhǔn)備訓(xùn)練目標(biāo);

56、s10.3、給定一個(gè)新的音頻信號(hào),重復(fù)預(yù)處理步驟并輸入到訓(xùn)練好的模型中,模型會(huì)為每一幀音頻輸出一個(gè)或一組概率分布,表示該時(shí)間點(diǎn)最可能的標(biāo)簽或狀態(tài),得到的序列標(biāo)簽反映了音頻信號(hào)隨時(shí)間的變化信息。

57、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:

58、1、該一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法中,通過(guò)利用神經(jīng)網(wǎng)絡(luò)對(duì)局部區(qū)域進(jìn)行特征提取,通過(guò)池化層降低維度,提取出語(yǔ)音信號(hào)中的局部特征;這些方法可以自動(dòng)地學(xué)習(xí)特征表達(dá),提高識(shí)別準(zhǔn)確率,深度神經(jīng)網(wǎng)絡(luò)不僅能夠自動(dòng)提取聲學(xué)特征,還能捕捉這些特征在時(shí)間序列上的動(dòng)態(tài)變化。

59、2、該一種基于深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)特征動(dòng)態(tài)提取方法中,通過(guò)聲學(xué)特征動(dòng)態(tài)提取是語(yǔ)音識(shí)別和處理中的一個(gè)關(guān)鍵步驟,它涉及到從語(yǔ)音信號(hào)中提取出能夠反映語(yǔ)音內(nèi)容的特征,并描述這些特征隨時(shí)間的變化,聲學(xué)特征動(dòng)態(tài)提取是指在處理時(shí)序音頻數(shù)據(jù)時(shí),不僅從單個(gè)固定長(zhǎng)度的音頻片段中提取特征,而是考慮整個(gè)音頻流隨時(shí)間變化的特征表示。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
秀山| 尼木县| 县级市| 金堂县| 鹤庆县| 新兴县| 溧水县| 腾冲县| 广灵县| 武功县| 黄陵县| 通化县| 张家口市| 定州市| 衡阳市| 通许县| 河西区| 贵南县| 永仁县| 泗阳县| 枣阳市| 通河县| 保山市| 水富县| 石门县| 浑源县| 拜城县| 西安市| 民县| 贡嘎县| 广昌县| 扎赉特旗| 浙江省| 都匀市| 菏泽市| 廉江市| 金沙县| 杭锦旗| 昭苏县| 若尔盖县| 英山县|