本發(fā)明涉及語音處理技術(shù),特別涉及一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法。
背景技術(shù):
1、語音增強(qiáng)是一種消除語音傳播過程中受到的背景噪聲或方向性干擾,以提高語音質(zhì)量的技術(shù)。其中,多通道波束形成技術(shù)可以充分利用時(shí)間和空間信息,有效降低語音失真?;谏疃葘W(xué)習(xí)(deep?learning,dl)的語音增強(qiáng)方法利用深度神經(jīng)網(wǎng)絡(luò)(deep?neuralnetwork,dnn)的復(fù)雜結(jié)構(gòu)和較強(qiáng)的表達(dá)能力,學(xué)習(xí)麥克風(fēng)接收信號(hào)與期望信號(hào)及其特征之間的關(guān)系,在各種背景噪聲下均適用,是一種高效的技術(shù)手段。
2、現(xiàn)有的基于dl的頻域波束形成方法主要是對(duì)信號(hào)的協(xié)方差矩陣進(jìn)行估計(jì),然后用于最小方差無失真響應(yīng)(minimum?variance?distortionless?response,mvdr)的波束形成中,該類方法對(duì)語音質(zhì)量有一定提升,但是殘留噪聲大,同時(shí)為了保證頻域分辨率幀長較長,在訓(xùn)練過程中還需提取信號(hào)的上下文信息豐富特征,所以系統(tǒng)時(shí)延也較大。
3、現(xiàn)有的時(shí)域?yàn)V波求和網(wǎng)絡(luò)(filter-and-sum?network,fasnet)在時(shí)域?qū)Σㄊ纬善鳈?quán)值進(jìn)行自適應(yīng)估計(jì),可以處理幀長較短的語音信號(hào),保證系統(tǒng)的實(shí)時(shí)性,降噪效果也更好;但是fasnet時(shí)延和濾波器長度有關(guān),需設(shè)置較長的濾波器長度才能達(dá)到良好的濾波效果,從而增加了網(wǎng)絡(luò)時(shí)延。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:針對(duì)以上問題,本發(fā)明目的是提供一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法,通過在麥克風(fēng)陣列各通道中使用obf濾波器,以提升自由度,在濾波器長度較短情況下達(dá)到良好的語音增強(qiáng)性能,采用人工神經(jīng)網(wǎng)絡(luò)的方式實(shí)現(xiàn)整個(gè)波束形成框架,同時(shí)降低網(wǎng)絡(luò)時(shí)延。
2、技術(shù)方案:本發(fā)明的一種基于麥克風(fēng)陣列的低時(shí)延語音增強(qiáng)方法,包括如下步驟:
3、步驟1,設(shè)置一組初始極點(diǎn)參數(shù),利用人工神經(jīng)網(wǎng)絡(luò)優(yōu)化初始極點(diǎn)參數(shù),得到實(shí)數(shù)極點(diǎn),將該實(shí)數(shù)極點(diǎn)作為麥克風(fēng)陣列各通道多極點(diǎn)正交基函數(shù)模型的參數(shù);
4、步驟2,利用實(shí)數(shù)極點(diǎn)構(gòu)建麥克風(fēng)陣列各通道的正交基函數(shù)模型,并計(jì)算各階濾波器響應(yīng);
5、步驟3,對(duì)麥克風(fēng)陣列接收信號(hào)進(jìn)行分幀和時(shí)域特征提取,并利用改進(jìn)的時(shí)序網(wǎng)絡(luò)估計(jì)正交基函數(shù)模型構(gòu)成的自適應(yīng)波束形成器權(quán)值;
6、步驟4,根據(jù)濾波器響應(yīng)和波束形成器權(quán)值計(jì)算波束形成網(wǎng)絡(luò)各通道系統(tǒng)響應(yīng),并對(duì)麥克風(fēng)陣列接收信號(hào)進(jìn)行濾波求和,得到增強(qiáng)后的幀級(jí)語音信號(hào),對(duì)增強(qiáng)后的幀級(jí)語音信號(hào)進(jìn)行重疊相加操作,獲得增強(qiáng)后的完整語音信號(hào)。
7、進(jìn)一步地,步驟1包括:
8、對(duì)于麥克風(fēng)陣列通道m(xù),m=1,2,…,m,采用一個(gè)輸入通道數(shù)為1、輸出通道數(shù)為l的無偏置一維卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練初始極點(diǎn)參數(shù)m為麥克風(fēng)的個(gè)數(shù),l為濾波器長度,設(shè)置一維卷積神經(jīng)網(wǎng)絡(luò)核大小和步長均為1,將值恒為1的數(shù)據(jù)作為輸入項(xiàng),輸出項(xiàng)即為該一維卷積神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)權(quán)值,表示為:
9、
10、式中,conv1d表示一維卷積神經(jīng)網(wǎng)絡(luò);l表示濾波器階數(shù)的序號(hào);
11、將每次訓(xùn)練得到的極點(diǎn)進(jìn)行邊界處理,將處理之后的極點(diǎn)aml作為正交基函數(shù)模型的極點(diǎn);其中邊界處理表示為:
12、
13、式中,hardtanh(·)為激活函數(shù),表示為:
14、
15、式中,amax和amin分別表示hardtanh(·)函數(shù)線性范圍的最大值和最小值。
16、進(jìn)一步地,步驟2包括:
17、麥克風(fēng)陣列第m個(gè)通道的正交基函數(shù)模型的狀態(tài)空間方程為:
18、xm(t)=amxm(t-1)+bmum(t)
19、
20、式中,為第t個(gè)離散時(shí)間點(diǎn)的狀態(tài)向量,為狀態(tài)矩陣,為輸入-狀態(tài)向量,um(t)為麥克風(fēng)接收信號(hào),wm為狀態(tài)-輸出向量,即正交基函數(shù)模型的權(quán)值,為正交基函數(shù)模型輸出,[·]t表示矩陣或向量的轉(zhuǎn)置;
21、根據(jù)正交基函數(shù)模型的狀態(tài)空間方程計(jì)算狀態(tài)矩陣am的(j,l)元和輸入-狀態(tài)向量bm的第l個(gè)元素,分別為:
22、
23、其中,為組成第m個(gè)通道正交基函數(shù)模型的第l個(gè)一階全通濾波器的正交狀態(tài)空間實(shí)現(xiàn)矩陣,且矩陣中元素與極點(diǎn)aml的關(guān)系為:dml=-aml;
24、設(shè)置初始狀態(tài)向量xm(0)=0,則正交基函數(shù)模型的狀態(tài)空間方程為:
25、
26、式中,i表示離散時(shí)間索引,表示狀態(tài)矩陣am的i-1次冪;
27、由此得到長度為lh的l階濾波器響應(yīng)為:
28、
29、其中,表示第i個(gè)時(shí)間點(diǎn)l階濾波器響應(yīng)向量,i=1,2,…,lh,lh≥l。
30、進(jìn)一步地,步驟3包括:
31、對(duì)麥克風(fēng)接收信號(hào)進(jìn)行分幀,幀長為w,幀移j=w/2,則麥克風(fēng)陣列的第m個(gè)通道的第k幀信號(hào)表示為:
32、um(k)=[um((k-1)j+1),…,um((k-1)j+w)]t
33、非因果特征提取和濾波情況下,拼接當(dāng)前幀信號(hào)和其上下文信息,得到拼接信號(hào)為:
34、vm(k)=[um((k-1)j-c+1),…,um((k-1)j+w+c)]t
35、式中,c表示上文或下文拼接信息的長度;
36、通過參考麥克風(fēng)接收信號(hào)uref(k)和vm(k)提取麥克風(fēng)陣列各通道的特征向量ξm(k),并將特征向量ξm(k)輸入到改進(jìn)的時(shí)序網(wǎng)絡(luò)seqnet(·)中,得到自適應(yīng)波速形成器的權(quán)值。
37、進(jìn)一步地,改進(jìn)的時(shí)序網(wǎng)絡(luò)seqnet(·)開始位置包括一個(gè)輸出通道數(shù)為b的線性瓶頸層,則狀態(tài)空間方程對(duì)應(yīng)的幀級(jí)各通道自適應(yīng)波速形成器的權(quán)值被估計(jì)為:
38、wm(k)=outputlayer(seqnet(ξm(k)))
39、式中,wm(k)=[wm,1(k),…,wm,l(k)]t為自適應(yīng)波速形成器權(quán)值的組成向量;
40、改進(jìn)的時(shí)序網(wǎng)絡(luò)seqnet(·)的輸出層outputlayer(·)由一維卷積神經(jīng)網(wǎng)絡(luò)和激活函數(shù)組成,具體設(shè)置如下:
41、outputlayer(p)=prelu(η(wp+q))
42、式中,為時(shí)序網(wǎng)絡(luò)的輸出,和分別為一維卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值和偏置,η為控制一維卷積神經(jīng)網(wǎng)絡(luò)輸出的尺度因子,prelu(·)為參數(shù)矯正線性單元激活函數(shù)。
43、進(jìn)一步地,在步驟4中波束形成網(wǎng)絡(luò)各通道系統(tǒng)響應(yīng)為:
44、
45、當(dāng)lh>l時(shí),在被卷積拼接信號(hào)之前補(bǔ)lh-l個(gè)零以保證卷積后的信號(hào)長度和期望信號(hào)長度相等,則補(bǔ)零后的拼接信息為:
46、
47、采用一維卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)波束形成網(wǎng)絡(luò)對(duì)各通道接收信號(hào)的濾波,并對(duì)所有通道輸出信號(hào)求和,得到增強(qiáng)后的第k幀語音信號(hào)為:
48、
49、式中,*表示一維卷積神經(jīng)網(wǎng)絡(luò)的卷積操作,濾波器長度和上下文信號(hào)長度的關(guān)系為l=2c+1。
50、有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)是:
51、1、本發(fā)明中將極點(diǎn)全為零的fasnet拓展為正交基結(jié)構(gòu)波束形成網(wǎng)絡(luò),可以靈活調(diào)節(jié)極點(diǎn),提升網(wǎng)絡(luò)自由度。
52、2、通過訓(xùn)練一維卷積神經(jīng)網(wǎng)絡(luò)解決了obf模型非凸的多極點(diǎn)尋優(yōu)問題,針對(duì)不同條件下的語音給出了統(tǒng)一的正交基拓展結(jié)果,并將極點(diǎn)求解和波束形成器權(quán)值估計(jì)進(jìn)行解耦,更加靈活,適用于實(shí)際情況下的自適應(yīng)波束形成。
53、3、相比于頻域方法,本發(fā)明降噪效果更好;相比于時(shí)域?yàn)V波求和方法,本發(fā)明在濾波器長度較短時(shí),能夠獲得更好的語音增強(qiáng)性能。
54、4、本發(fā)明提出的語音增強(qiáng)方法具有通用性,不受時(shí)序網(wǎng)絡(luò)模塊類型的影響,在不同類型網(wǎng)絡(luò)下均有良好提升效果。