一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法

文檔序號(hào)：40547252發(fā)布日期：2025-01-03 11:06閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音處理技術(shù)，特別涉及一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法。

背景技術(shù)：

1、語音增強(qiáng)是一種消除語音傳播過程中受到的背景噪聲或方向性干擾，以提高語音質(zhì)量的技術(shù)。其中，多通道波束形成技術(shù)可以充分利用時(shí)間和空間信息，有效降低語音失真?；谏疃葘W(xué)習(xí)(deep?learning,dl)的語音增強(qiáng)方法利用深度神經(jīng)網(wǎng)絡(luò)(deep?neuralnetwork,dnn)的復(fù)雜結(jié)構(gòu)和較強(qiáng)的表達(dá)能力，學(xué)習(xí)麥克風(fēng)接收信號(hào)與期望信號(hào)及其特征之間的關(guān)系，在各種背景噪聲下均適用，是一種高效的技術(shù)手段。

2、現(xiàn)有的基于dl的頻域波束形成方法主要是對(duì)信號(hào)的協(xié)方差矩陣進(jìn)行估計(jì)，然后用于最小方差無失真響應(yīng)(minimum?variance?distortionless?response,mvdr)的波束形成中，該類方法對(duì)語音質(zhì)量有一定提升，但是殘留噪聲大，同時(shí)為了保證頻域分辨率幀長較長，在訓(xùn)練過程中還需提取信號(hào)的上下文信息豐富特征，所以系統(tǒng)時(shí)延也較大。

3、現(xiàn)有的時(shí)域?yàn)V波求和網(wǎng)絡(luò)(filter-and-sum?network,fasnet)在時(shí)域?qū)Σㄊ纬善鳈?quán)值進(jìn)行自適應(yīng)估計(jì)，可以處理幀長較短的語音信號(hào)，保證系統(tǒng)的實(shí)時(shí)性，降噪效果也更好；但是fasnet時(shí)延和濾波器長度有關(guān)，需設(shè)置較長的濾波器長度才能達(dá)到良好的濾波效果，從而增加了網(wǎng)絡(luò)時(shí)延。

技術(shù)實(shí)現(xiàn)思路

1、發(fā)明目的：針對(duì)以上問題，本發(fā)明目的是提供一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法，通過在麥克風(fēng)陣列各通道中使用obf濾波器，以提升自由度，在濾波器長度較短情況下達(dá)到良好的語音增強(qiáng)性能，采用人工神經(jīng)網(wǎng)絡(luò)的方式實(shí)現(xiàn)整個(gè)波束形成框架，同時(shí)降低網(wǎng)絡(luò)時(shí)延。

2、技術(shù)方案：本發(fā)明的一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法，包括如下步驟：

3、步驟1，設(shè)置一組初始極點(diǎn)參數(shù)，利用人工神經(jīng)網(wǎng)絡(luò)優(yōu)化初始極點(diǎn)參數(shù)，得到實(shí)數(shù)極點(diǎn)，將該實(shí)數(shù)極點(diǎn)作為麥克風(fēng)陣列各通道多極點(diǎn)正交基函數(shù)模型的參數(shù)；

4、步驟2，利用實(shí)數(shù)極點(diǎn)構(gòu)建麥克風(fēng)陣列各通道的正交基函數(shù)模型，并計(jì)算各階濾波器響應(yīng)；

5、步驟3，對(duì)麥克風(fēng)陣列接收信號(hào)進(jìn)行分幀和時(shí)域特征提取，并利用改進(jìn)的時(shí)序網(wǎng)絡(luò)估計(jì)正交基函數(shù)模型構(gòu)成的自適應(yīng)波束形成器權(quán)值；

6、步驟4，根據(jù)濾波器響應(yīng)和波束形成器權(quán)值計(jì)算波束形成網(wǎng)絡(luò)各通道系統(tǒng)響應(yīng)，并對(duì)麥克風(fēng)陣列接收信號(hào)進(jìn)行濾波求和，得到增強(qiáng)后的幀級(jí)語音信號(hào)，對(duì)增強(qiáng)后的幀級(jí)語音信號(hào)進(jìn)行重疊相加操作，獲得增強(qiáng)后的完整語音信號(hào)。

7、進(jìn)一步地，步驟1包括：

8、對(duì)于麥克風(fēng)陣列通道m(xù)，m＝1,2,…,m，采用一個(gè)輸入通道數(shù)為1、輸出通道數(shù)為l的無偏置一維卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練初始極點(diǎn)參數(shù)m為麥克風(fēng)的個(gè)數(shù)，l為濾波器長度，設(shè)置一維卷積神經(jīng)網(wǎng)絡(luò)核大小和步長均為1，將值恒為1的數(shù)據(jù)作為輸入項(xiàng)，輸出項(xiàng)即為該一維卷積神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)權(quán)值，表示為：

9、

10、式中，conv1d表示一維卷積神經(jīng)網(wǎng)絡(luò)；l表示濾波器階數(shù)的序號(hào)；

11、將每次訓(xùn)練得到的極點(diǎn)進(jìn)行邊界處理，將處理之后的極點(diǎn)aml作為正交基函數(shù)模型的極點(diǎn)；其中邊界處理表示為：

12、

13、式中，hardtanh(·)為激活函數(shù)，表示為：

14、

15、式中，amax和amin分別表示hardtanh(·)函數(shù)線性范圍的最大值和最小值。

16、進(jìn)一步地，步驟2包括：

17、麥克風(fēng)陣列第m個(gè)通道的正交基函數(shù)模型的狀態(tài)空間方程為：

18、xm(t)＝amxm(t-1)+bmum(t)

19、

20、式中，為第t個(gè)離散時(shí)間點(diǎn)的狀態(tài)向量，為狀態(tài)矩陣，為輸入-狀態(tài)向量，um(t)為麥克風(fēng)接收信號(hào)，wm為狀態(tài)-輸出向量，即正交基函數(shù)模型的權(quán)值，為正交基函數(shù)模型輸出，[·]t表示矩陣或向量的轉(zhuǎn)置；

21、根據(jù)正交基函數(shù)模型的狀態(tài)空間方程計(jì)算狀態(tài)矩陣am的(j,l)元和輸入-狀態(tài)向量bm的第l個(gè)元素，分別為：

22、

23、其中，為組成第m個(gè)通道正交基函數(shù)模型的第l個(gè)一階全通濾波器的正交狀態(tài)空間實(shí)現(xiàn)矩陣，且矩陣中元素與極點(diǎn)aml的關(guān)系為：dml＝-aml；

24、設(shè)置初始狀態(tài)向量xm(0)＝0，則正交基函數(shù)模型的狀態(tài)空間方程為：

25、

26、式中，i表示離散時(shí)間索引，表示狀態(tài)矩陣am的i-1次冪；

27、由此得到長度為lh的l階濾波器響應(yīng)為：

28、

29、其中，表示第i個(gè)時(shí)間點(diǎn)l階濾波器響應(yīng)向量，i＝1,2,…,lh，lh≥l。

30、進(jìn)一步地，步驟3包括：

31、對(duì)麥克風(fēng)接收信號(hào)進(jìn)行分幀，幀長為w，幀移j＝w/2，則麥克風(fēng)陣列的第m個(gè)通道的第k幀信號(hào)表示為：

32、um(k)＝[um((k-1)j+1),…,um((k-1)j+w)]t

33、非因果特征提取和濾波情況下，拼接當(dāng)前幀信號(hào)和其上下文信息，得到拼接信號(hào)為：

34、vm(k)＝[um((k-1)j-c+1),…,um((k-1)j+w+c)]t

35、式中，c表示上文或下文拼接信息的長度；

36、通過參考麥克風(fēng)接收信號(hào)uref(k)和vm(k)提取麥克風(fēng)陣列各通道的特征向量ξm(k)，并將特征向量ξm(k)輸入到改進(jìn)的時(shí)序網(wǎng)絡(luò)seqnet(·)中，得到自適應(yīng)波速形成器的權(quán)值。

37、進(jìn)一步地，改進(jìn)的時(shí)序網(wǎng)絡(luò)seqnet(·)開始位置包括一個(gè)輸出通道數(shù)為b的線性瓶頸層，則狀態(tài)空間方程對(duì)應(yīng)的幀級(jí)各通道自適應(yīng)波速形成器的權(quán)值被估計(jì)為：

38、wm(k)＝outputlayer(seqnet(ξm(k)))

39、式中，wm(k)＝[wm,1(k),…,wm,l(k)]t為自適應(yīng)波速形成器權(quán)值的組成向量；

40、改進(jìn)的時(shí)序網(wǎng)絡(luò)seqnet(·)的輸出層outputlayer(·)由一維卷積神經(jīng)網(wǎng)絡(luò)和激活函數(shù)組成，具體設(shè)置如下：

41、outputlayer(p)＝prelu(η(wp+q))

42、式中，為時(shí)序網(wǎng)絡(luò)的輸出，和分別為一維卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值和偏置，η為控制一維卷積神經(jīng)網(wǎng)絡(luò)輸出的尺度因子，prelu(·)為參數(shù)矯正線性單元激活函數(shù)。

43、進(jìn)一步地，在步驟4中波束形成網(wǎng)絡(luò)各通道系統(tǒng)響應(yīng)為：

44、

45、當(dāng)lh＞l時(shí)，在被卷積拼接信號(hào)之前補(bǔ)lh-l個(gè)零以保證卷積后的信號(hào)長度和期望信號(hào)長度相等，則補(bǔ)零后的拼接信息為：

46、

47、采用一維卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)波束形成網(wǎng)絡(luò)對(duì)各通道接收信號(hào)的濾波，并對(duì)所有通道輸出信號(hào)求和，得到增強(qiáng)后的第k幀語音信號(hào)為：

48、

49、式中，*表示一維卷積神經(jīng)網(wǎng)絡(luò)的卷積操作，濾波器長度和上下文信號(hào)長度的關(guān)系為l＝2c+1。

50、有益效果：本發(fā)明與現(xiàn)有技術(shù)相比，其顯著優(yōu)點(diǎn)是：

51、1、本發(fā)明中將極點(diǎn)全為零的fasnet拓展為正交基結(jié)構(gòu)波束形成網(wǎng)絡(luò)，可以靈活調(diào)節(jié)極點(diǎn)，提升網(wǎng)絡(luò)自由度。

52、2、通過訓(xùn)練一維卷積神經(jīng)網(wǎng)絡(luò)解決了obf模型非凸的多極點(diǎn)尋優(yōu)問題，針對(duì)不同條件下的語音給出了統(tǒng)一的正交基拓展結(jié)果，并將極點(diǎn)求解和波束形成器權(quán)值估計(jì)進(jìn)行解耦，更加靈活，適用于實(shí)際情況下的自適應(yīng)波束形成。

53、3、相比于頻域方法，本發(fā)明降噪效果更好；相比于時(shí)域?yàn)V波求和方法，本發(fā)明在濾波器長度較短時(shí)，能夠獲得更好的語音增強(qiáng)性能。

54、4、本發(fā)明提出的語音增強(qiáng)方法具有通用性，不受時(shí)序網(wǎng)絡(luò)模塊類型的影響，在不同類型網(wǎng)絡(luò)下均有良好提升效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳華偉,李妍文
技術(shù)所有人：南京航空航天大學(xué)
我是此專利的發(fā)明人

上一篇：一種具有防水功能的心電血壓記錄儀的制作方法
上一篇：一種用于燒結(jié)塊一級(jí)粉碎的裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法