專利名稱:基于傳聲器陣列的語音信號(hào)處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號(hào)處理技術(shù),尤其涉及一種基于傳聲器陣列的語音信號(hào)處理方 法及裝置。
背景技術(shù):
在會(huì)議場所,各種干擾源的存在以及混響等噪音干擾著語音信號(hào),會(huì)使語音處理 系統(tǒng)的性能急劇下降,因此語音增強(qiáng)技術(shù)頗為重要。基于傳聲器陣列的多通道語音增強(qiáng)算 法融合了信號(hào)的時(shí)空域信息,利用噪聲同語音的相關(guān)性差異進(jìn)行消噪,近幾年已經(jīng)成為多 媒體會(huì)議、通信、聲控等系統(tǒng)所依賴的重要技術(shù)。音質(zhì)和性能的好壞會(huì)嚴(yán)重影響音頻會(huì)議系 統(tǒng)的整體效果與市場競爭力,因此,針對(duì)噪聲,目前常通過傳聲器陣列技術(shù)實(shí)現(xiàn)消噪,這使 得音頻會(huì)議系統(tǒng)的參與人員徹底擺脫手持傳聲器并定向到傳聲器的束縛,大大提高了音頻 會(huì)議系統(tǒng)的實(shí)用性。對(duì)語音信號(hào)處理而言,要爭取使進(jìn)入編碼器的語音音質(zhì)就比較好如低 混響、低噪聲等,傳聲器陣列就是保證語音信號(hào)的低混響、低噪聲。公開號(hào)為CN101496417A
公開日為2009年7月29日的中國專利申請(qǐng)公開了一種 “語音會(huì)議系統(tǒng)”,在不同方向上的多個(gè)單向傳聲器拾取的語音采集信號(hào)形成多個(gè)語音采集 束信號(hào),其后,與語音到達(dá)方向相對(duì)應(yīng)的語音采集束信號(hào)的信號(hào)電平變高,語音采集部分選 擇信號(hào)電平超過設(shè)定閾值的語音采集束信號(hào),并將該信號(hào)送到通信部分。該技術(shù)方案中,超 過閾值的語音采集束信號(hào)可能有多個(gè),這樣在小房間就會(huì)增加混響,使聲音清晰度降低。公開號(hào)為US20050195988A
公開日為2005年9月8日的美國專利申請(qǐng)公開了一 ft "System and method for beamforming using a microphone array,,,i亥技術(shù)方案是使 用傳聲器陣列聚束的系統(tǒng)和方法,其技術(shù)方案的實(shí)質(zhì)是設(shè)計(jì)了一個(gè)聚束器,該聚束器首先 利用描述傳聲器陣列的特性和結(jié)構(gòu)的參數(shù)信息來計(jì)算頻域相關(guān)的權(quán)值矩陣,與一個(gè)或多個(gè) 為傳聲器陣列周圍環(huán)境自動(dòng)生成或計(jì)算得到的噪聲模型相結(jié)合,來對(duì)傳聲器陣列的最優(yōu)固 定波束進(jìn)行設(shè)計(jì),然后,在對(duì)傳聲器陣列接收的音頻信號(hào)進(jìn)行頻域聚束處理時(shí),利用此權(quán)值 矩陣對(duì)傳聲器陣列中的每個(gè)傳聲器的輸出進(jìn)行頻域加權(quán)。該方法需要根據(jù)陣列的特性和結(jié) 構(gòu)在頻域計(jì)算加權(quán)矩陣,以達(dá)到形成波束的目的,增加了系統(tǒng)的復(fù)雜度,加大了系統(tǒng)的開發(fā) 難度并且降低了系統(tǒng)的可靠性。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于傳聲器陣列的語音信號(hào)處理方法 及裝置,利用強(qiáng)指向性傳聲器陣列能將距發(fā)言人最近的語音信號(hào)進(jìn)行放大,從而能動(dòng)態(tài)跟 蹤發(fā)目人。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的—種基于傳聲器陣列的語音信號(hào)處理方法,所述傳聲器陣列由兩個(gè)以上的指向性 傳聲器構(gòu)成;所述方法包括確定各指向性傳聲器接收的相同幀的語音信號(hào)的能量值;
4
根據(jù)所述能量值確定所述相同幀的各語音信號(hào)的調(diào)整參數(shù);根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值,將各語音信號(hào) 中各取樣點(diǎn)信號(hào)與各自的權(quán)值相乘,并對(duì)各語音信號(hào)的對(duì)應(yīng)取樣點(diǎn)信號(hào)的乘積值進(jìn)行累 加,將累加后的取樣點(diǎn)信號(hào)依次輸出。優(yōu)選地,所述根據(jù)所述能量值確定所述相同幀的各語音信號(hào)的調(diào)整參數(shù),為將所述相同幀的各語音信號(hào)的能量值分別與最大的能量值作商;對(duì)各商值進(jìn)行指數(shù)調(diào)整處理,并作為各語音信號(hào)的調(diào)整參數(shù)。優(yōu)選地,所述對(duì)各商值進(jìn)行指數(shù)調(diào)整處理,并作為各語音信號(hào)的調(diào)整參數(shù),為將各商值的E次方作為各語音信號(hào)的調(diào)整參數(shù);其中,E為大于等于2小于等于10 的正數(shù)。優(yōu)選地,所述根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值, 具體按下式計(jì)算Wi(n) = AWi(n-l) + (l-A)C;^^, w, (n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n 個(gè)取樣點(diǎn)信號(hào)的權(quán)值,Wi(n-l)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n-1個(gè)取樣點(diǎn)信號(hào)的權(quán) 值八為預(yù)先設(shè)定的遺忘因子,0< A < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù)。優(yōu)選地,所述根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值, 為Wi(n) = AWi(n-l) + (l-A)C;^^, w, (n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n 個(gè)取樣點(diǎn)信號(hào)的初始權(quán)值,Wi(n-1)為傳聲器i中的當(dāng)前語音信號(hào)幀中第個(gè)取樣點(diǎn)信號(hào) 的初始權(quán)值;、為預(yù)先設(shè)定的遺忘因子,0 < A < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù);按下式對(duì)&(11)進(jìn)行處理,將成(功作為傳聲器i中的當(dāng)前語音信號(hào)幀中第n個(gè)取
樣點(diǎn)信號(hào)的最終權(quán)值
其中,max()為取最大值計(jì)算。 優(yōu)選地,所述傳聲器陣列為圓形陣列或球形陣列;所述傳聲器陣列中的傳聲器數(shù) 量為4至16個(gè)。一種基于傳聲器陣列的語音信號(hào)處理裝置,所述傳聲器陣列由兩個(gè)以上的指向性 傳聲器構(gòu)成;所述裝置包括第一確定單元、第二確定單元、計(jì)算單元和輸出單元;其中,第一確定單元,用于確定各指向性傳聲器接收的相同幀的語音信號(hào)的能量值;第二確定單元,用于根據(jù)所述能量值確定所述相同幀的各語音信號(hào)的調(diào)整參數(shù);計(jì)算單元,用于根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán) 值,將各語音信號(hào)中各取樣點(diǎn)信號(hào)與各自的權(quán)值相乘,并對(duì)各語音信號(hào)的對(duì)應(yīng)取樣點(diǎn)信號(hào) 的乘積值進(jìn)行累加;輸出單元,用于將累加后的取樣點(diǎn)信號(hào)依次輸出。優(yōu)選地,所述第二確定單元進(jìn)一步將所述相同幀的各語音信號(hào)的能量值分別與最 大的能量值作商;并對(duì)各商值進(jìn)行指數(shù)調(diào)整處理,作為各語音信號(hào)的調(diào)整參數(shù)。優(yōu)選地,所述第二確定單元進(jìn)一步將各商值的E次方作為各語音信號(hào)的調(diào)整參 數(shù);其中,E為大于等于2小于等于10的正數(shù)。優(yōu)選地,所述計(jì)算單元進(jìn)一步按下式計(jì)算語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值
Wi(n) = AWi(n-l) + (l-A)C;^^, w, (n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n 個(gè)取樣點(diǎn)信號(hào)的權(quán)值,Wi(n-l)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n-1個(gè)取樣點(diǎn)信號(hào)的權(quán) 值八為預(yù)先設(shè)定的遺忘因子,0< A < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù)。優(yōu)選地,所述計(jì)算單元進(jìn)一步按下述方式計(jì)算語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值Wi(n) = AWi(n-l) + (l-A)C;^^, w, (n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n 個(gè)取樣點(diǎn)信號(hào)的初始權(quán)值,Wi(n-1)為傳聲器i中的當(dāng)前語音信號(hào)幀中第個(gè)取樣點(diǎn)信號(hào) 的初始權(quán)值;、為預(yù)先設(shè)定的遺忘因子,0 < A < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù);按下式對(duì)&(11)進(jìn)行處理,將戌…)作為傳聲器i中的當(dāng)前語音信號(hào)幀中第n個(gè)取 樣點(diǎn)信號(hào)的最終權(quán)值
其中,maxO為取最大值計(jì)算。 優(yōu)選地,所述傳聲器陣列為圓形陣列或球形陣列;所述傳聲器陣列中的傳聲器數(shù) 量為3至16個(gè)。本發(fā)明中,采用N個(gè)強(qiáng)指向性傳聲器構(gòu)成圓形陣列,陣列的拾音覆蓋360度方位; 首先對(duì)強(qiáng)指向性傳聲器陣列中各傳聲器接收到的語音信號(hào)的能量值,通過語音信號(hào)的能量 值信息,確定出各傳聲器接收到的當(dāng)前語音幀的語音信號(hào)的調(diào)整參數(shù),并利用該調(diào)整參數(shù) 計(jì)算當(dāng)前語音幀的各采樣點(diǎn)信號(hào)的權(quán)值,將所計(jì)算出的權(quán)值與對(duì)應(yīng)的采樣點(diǎn)信號(hào)相乘,對(duì) 相同位置的采樣點(diǎn)信號(hào)的乘積進(jìn)行累加,并按采樣點(diǎn)的順序依次輸出。本發(fā)明利用傳聲器 陣列中各傳聲器所接收語音信號(hào)的能量值來確定各路語音信號(hào)的調(diào)整參數(shù),并利用遺忘因 子對(duì)各采樣點(diǎn)信號(hào)進(jìn)行平滑處理,使得所輸出的語音信號(hào)更連貫。本發(fā)明計(jì)算方式簡單,不 需要復(fù)雜的計(jì)算和電路,具有良好的抗混響和定向拾音功能。
圖1為本發(fā)明基于傳聲器陣列的語音信號(hào)處理方法的流程圖;圖2為在混響室兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音信 號(hào)語音幀的歸一化能量變化關(guān)系的示意圖;圖3為在混響室兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語音 幀所占的平均權(quán)重變化關(guān)系的示意圖;圖4為在混響室兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音信號(hào)語 音幀的歸一化能量變化關(guān)系的示意圖;圖5為在混響室兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語音幀所 占的平均權(quán)重變化關(guān)系的示意圖;圖6為在普通房間兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音 信號(hào)語音幀的歸一化能量變化關(guān)系的示意圖;圖7為在普通房間兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語 音幀所占的平均權(quán)重變化關(guān)系的示意圖;圖8為在普通房間兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音信號(hào) 語音幀的歸一化能量變化關(guān)系的示意圖;圖9為在普通房間兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語音幀所占的平均權(quán)重變化關(guān)系的示意圖;圖10為本發(fā)明基于傳聲器陣列的語音信號(hào)處理裝置的組成結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明的基本思想為,采用N個(gè)強(qiáng)指向性傳聲器構(gòu)成圓形陣列,陣列的拾音覆蓋 360度方位;對(duì)各傳聲器拾取的信號(hào)分幀計(jì)算能量,通過能量的比較,保持能量最大通道的 語音信號(hào)幅度不變,而弱化其它通道的語音信號(hào);語音信號(hào)的弱化程度受調(diào)整參數(shù)的控制; 并且,為保證基于能量比較在各通道間進(jìn)行切換時(shí)語音信號(hào)平穩(wěn)自然無切換噪聲,引入平 滑機(jī)制-遺忘因子,將當(dāng)前采樣點(diǎn)和以前采樣點(diǎn)的信號(hào)相結(jié)合來進(jìn)行切換。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下舉實(shí)施例并參照附圖,對(duì) 本發(fā)明進(jìn)一步詳細(xì)說明。本發(fā)明的方法中,傳聲器陣列中的傳聲器均為強(qiáng)指向性傳聲器,而非全向性傳聲 器。所謂強(qiáng)指向性傳聲器,即該傳聲器能按指向進(jìn)行語音信號(hào)的采集。強(qiáng)指向性傳聲器能 有效降低進(jìn)入各個(gè)傳聲器的混響強(qiáng)度;本發(fā)明正是利用強(qiáng)指向性傳聲器的指向性拾音特 點(diǎn),利用各傳聲器所拾取的相同語音幀的能量來確定各該相同語音幀中各語音信號(hào)中各采 樣點(diǎn)信號(hào)的權(quán)值,從而輸出較佳的語音信號(hào)。本發(fā)明的傳聲器陣列采用圓周或球面布局,以 對(duì)各方位的語音信號(hào)進(jìn)行采集。本發(fā)明中,傳聲器陣列中的強(qiáng)指向性傳聲器的數(shù)量一般為3 至16個(gè),以在設(shè)定的圓周或球面上均勻分布,達(dá)到各個(gè)指向均有相應(yīng)的傳聲器進(jìn)行語音采 集。圓周或球面的半徑一般為3至20cm,各傳聲器振膜沿圓周或圓球的徑向朝外。基于傳聲器陣列,上述傳聲器陣列中第i(i = 1,2,...,N)個(gè)傳聲器接收的第k幀 (幀長為L毫秒)采樣信號(hào)如(1)式所示Xi(n) = Xi((k_l)L+j),j = 1,2, ,L (1)圖1為本發(fā)明基于傳聲器陣列的語音信號(hào)處理方法的流程圖,如圖1所示,本發(fā)明 基于傳聲器陣列的語音信號(hào)處理方法具體包括如下步驟步驟101,計(jì)算第i(i = 1,2,. . .,N)個(gè)傳聲器接收的第k幀信號(hào)的能量。因正對(duì) 聲源的傳聲器所采集到的語音信號(hào)相對(duì)來說能量要強(qiáng),通過語音信號(hào)的能量能進(jìn)行聲源方 位的初步判斷;所計(jì)算出的語音信號(hào)的能量值,同時(shí)也作為確定該傳聲器的語音信號(hào)處理 的權(quán)重值的依據(jù),將在以下步驟中對(duì)如何確定相應(yīng)的權(quán)重值。第i(i = 1,2,...,N)個(gè)傳聲 器接收的第k幀信號(hào)的能量值£310如式(2)所示本發(fā)明中,用于計(jì)算能量的各通道語音幀長度可取為400ms ;通道間自適應(yīng)切換 的系統(tǒng)響應(yīng)時(shí)間取為400ms。上述幀長由處理器的處理速度決定,也可以取其他的長度,如 450ms 或 500ms 等。步驟102,以N個(gè)通道的第k幀信號(hào)的能量的最大值為基準(zhǔn),對(duì)式(2)所確定的能 量值進(jìn)行歸一化處理。本步驟中,歸一化處理即是將各個(gè)通道的第k幀信號(hào)的能量值轉(zhuǎn)換 到0至1之間的數(shù)值,以便于后續(xù)處理。歸一化處理方式如式(3)所示,其中£ i(k)為對(duì) Ejk)的歸一化處理結(jié)果。 其中,maxO為取最大值計(jì)算。步驟103,根據(jù)第i(i = 1,2, ...,N)個(gè)傳聲器接收的第k幀信號(hào)的歸一化能量 計(jì)算調(diào)整參數(shù)。確定調(diào)整參數(shù)的目的是使能量數(shù)值大的通道上的語音信號(hào)變得更大,而使 能量數(shù)值小的通道上的語音信號(hào)變得更小,并依此拉大能量值較大語音信號(hào)與能量值較小 語音信號(hào)之間的差異,這樣可以更突出聲源方向的信號(hào),抑制其它方向的信號(hào),使聲音更清 晰,混響更小。具體的,對(duì)于歸一化后的能量值,對(duì)其分別進(jìn)行冪運(yùn)算。本步驟中,所選用的 調(diào)整指數(shù)值為大于等于2小于等于10的正數(shù)。為方便運(yùn)算及考慮到語音信號(hào)的差異量,調(diào) 整指數(shù)一般選用4、5、6。調(diào)整參數(shù)、(10的確定方式如式(4)所示
(4)其中a稱為調(diào)整指數(shù),根據(jù)各通道語音幀的能量大小關(guān)系調(diào)整各通道信號(hào)在輸 出信號(hào)中所占的比重。步驟104,計(jì)算陣列輸出信號(hào)中第i(i = 1,2,. . .,N)個(gè)傳聲器采集的第n個(gè)采樣 點(diǎn)信號(hào)的權(quán)值;該權(quán)值的變化是根據(jù)每個(gè)采樣點(diǎn)信號(hào)逐步計(jì)算得到的,具體的,第n個(gè)采樣 點(diǎn)信號(hào)的權(quán)值Wi(n)的確定方式如式(5)所示W(wǎng)i (n) = A Wi (n-1) + (1-A ) hj (k) (5)其中\(zhòng)為遺忘因子,以平滑切換前后語音幀音量,避免語音信號(hào)的忽大忽小,并 抑制切換時(shí)通道的語音幀能量變化太大所導(dǎo)致的切換噪聲。X為事先設(shè)定的參數(shù),X為 大于0小于1的數(shù),為保證語音信號(hào)的平滑性,\為近于1的數(shù),本發(fā)明中可設(shè)定\ = 0.9998;入也可設(shè)定為其他值,如0. 9996、0. 9992、0. 9990等值。具體取值由用戶希望的平 滑性來確定。步驟105,對(duì)第i(i = 1,2,.. .,N)個(gè)傳聲器采集的信號(hào)的每個(gè)采樣點(diǎn)的權(quán)值按其 中的最大值進(jìn)行歸一化處理。這主要是為了使傳聲器陣列輸出的能量最大通道的信號(hào)音量 與能量最大的通道傳聲器采集的信號(hào)音量相等。對(duì)第i (i = 1,2,. . .,N)個(gè)傳聲器采集的 信號(hào)的每個(gè)采樣點(diǎn)信號(hào)的權(quán)值的歸一化處理如式(6)所示 其中,maxO為取最大值計(jì)算。步驟106,計(jì)算傳聲器陣列的輸出采樣點(diǎn)信號(hào),并依次輸出。所輸出的各采樣點(diǎn)信 號(hào)如式(7)所示
Ns(n) = [ Wj {n)xi {n)
i=l式(7)是將傳聲器陣列中各傳聲器相同幀的語音信號(hào)中的各采樣點(diǎn)依次與所確 定的對(duì)應(yīng)權(quán)值進(jìn)行相乘,并對(duì)各傳聲器的對(duì)應(yīng)采樣點(diǎn)信號(hào)進(jìn)行累加,作為輸出的采樣點(diǎn)信號(hào)。本發(fā)明中,實(shí)際工作中在進(jìn)入本算法處理前的典型前端處理為,通過傳聲器將語 音信號(hào)轉(zhuǎn)化為電信號(hào),經(jīng)過放大以及模數(shù)轉(zhuǎn)換進(jìn)入數(shù)字信號(hào)處理器(DSP,Digital Signal Processor)處理。
8
以下以傳聲器陣列由4個(gè)傳聲器沿圓周均勻分布為例,說明各應(yīng)用環(huán)境下語音信 號(hào)處理結(jié)果。其中,圓周的半徑為5cm,遺忘因子\ = 0.9998,調(diào)整指數(shù)a =5.0。圖2為在混響室兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音信 號(hào)語音幀的歸一化能量變化關(guān)系的示意圖,如圖2所示,示出了在混響室兩個(gè)聲源相互切 換發(fā)聲時(shí),采用本發(fā)明方法計(jì)算各傳聲器拾取的語音幀的能量后,傳聲器陣列中各傳聲器 拾取的語音信號(hào)語音幀的歸一化能量變化關(guān)系。圖3為在混響室兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語音 幀所占的平均權(quán)重變化關(guān)系的示意圖,如圖3所示,在混響室兩個(gè)聲源相互切換發(fā)聲時(shí),采 用本發(fā)明方法計(jì)算各傳聲器拾取的語音幀能量后,傳聲器陣列的輸出信號(hào)中各通道語音幀 所占的平均權(quán)值變化關(guān)系,可以看出,本發(fā)明能根據(jù)各傳聲器拾音的語音幀能量大小而自 動(dòng)切換,并且切換過程自然穩(wěn)定,各傳聲器拾取的語音信號(hào)經(jīng)過本發(fā)明方法處理后,傳聲器 陣列的輸出語音信號(hào)音質(zhì)流暢自然,混響大大降低。圖4為在混響室兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音信號(hào)語 音幀的歸一化能量變化關(guān)系的示意圖,如圖4所示,示出了在混響室兩個(gè)聲源同時(shí)發(fā)聲時(shí), 采用本發(fā)明方法計(jì)算各傳聲器拾取的語音幀能量,傳聲器陣列中各傳聲器拾取的語音信號(hào) 語音幀的歸一化能量變化關(guān)系。圖5為在混響室兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語音幀所 占的平均權(quán)重變化關(guān)系的示意圖,如圖5所示,在混響室兩個(gè)聲源同時(shí)發(fā)聲時(shí),采用本發(fā)明 方法計(jì)算各傳聲器拾取的語音幀能量,傳聲器陣列的輸出信號(hào)中各通道語音幀所占的平均 權(quán)重變化關(guān)系。可以看出,本發(fā)明能根據(jù)各傳聲器拾音的語音幀能量大小自動(dòng)切換,并且切 換過程自然穩(wěn)定,各傳聲器拾取的語音信號(hào)經(jīng)過本發(fā)明方法處理后,傳聲器陣列的輸出語 音信號(hào)音質(zhì)流暢自然。圖6為在普通房間兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音 信號(hào)語音幀的歸一化能量變化關(guān)系的示意圖,如圖6所示,示出了在普通房間兩個(gè)聲源相 互切換發(fā)聲時(shí),采用本發(fā)明方法計(jì)算各傳聲器拾取的語音幀能量,傳聲器陣列中各傳聲器 拾取的語音信號(hào)語音幀的歸一化能量變化關(guān)系。圖7為在普通房間兩個(gè)聲源相互切換發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語 音幀所占的平均權(quán)重變化關(guān)系的示意圖,如圖7所示,在普通房間兩個(gè)聲源相互切換發(fā)聲 時(shí),采用本發(fā)明方法計(jì)算各傳聲器拾取的語音幀能量,傳聲器陣列的輸出信號(hào)中各通道語 音幀所占的平均權(quán)重變化關(guān)系??梢钥闯?,本發(fā)明能根據(jù)各傳聲器拾音的語音幀能量大小 而自動(dòng)切換,并且切換過程自然穩(wěn)定,各傳聲器拾取的語音信號(hào)經(jīng)過本發(fā)明方法處理后,傳 聲器陣列的輸出語音信號(hào)音質(zhì)流暢自然,混響降低。圖8為在普通房間兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列中各傳聲器拾取的語音信號(hào) 語音幀的歸一化能量變化關(guān)系的示意圖,如圖8所示,在普通房間兩個(gè)聲源同時(shí)發(fā)聲時(shí),采 用本發(fā)明計(jì)算各傳聲器拾取的語音幀能量,傳聲器陣列中各傳聲器拾取的語音信號(hào)語音幀 的歸一化能量變化關(guān)系;圖9為在普通房間兩個(gè)聲源同時(shí)發(fā)聲時(shí),傳聲器陣列的輸出信號(hào)中各通道語音幀 所占的平均權(quán)重變化關(guān)系的示意圖,如圖9所示,在普通房間兩個(gè)聲源同時(shí)發(fā)聲時(shí),采用本 發(fā)明計(jì)算各傳聲器拾取的語音幀能量,傳聲器陣列的輸出信號(hào)中各通道語音幀所占的平均
9權(quán)重變化關(guān)系??梢钥闯觯景l(fā)明能根據(jù)各傳聲器拾音的語音幀能量大小自動(dòng)切換,并且切 換過程自然穩(wěn)定,各傳聲器拾取的語音信號(hào)經(jīng)過本發(fā)明的方法處理后,傳聲器陣列的輸出 語音信號(hào)音質(zhì)流暢自然。通過以上步驟處理的語音信號(hào)可以以數(shù)字信號(hào)的方式輸出,也可以數(shù)模轉(zhuǎn)換后模 擬信號(hào)輸出。圖10為本發(fā)明基于傳聲器陣列的語音信號(hào)處理裝置的組成結(jié)構(gòu)示意圖,如圖10 所示,所述裝置包括第一確定單元100、第二確定單元101、計(jì)算單元102和輸出單元103 ; 其中,第一確定單元100,用于確定各指向性傳聲器接收的相同幀的語音信號(hào)的能量 值;第二確定單元101,用于根據(jù)所述能量值確定所述相同幀的各語音信號(hào)的調(diào)整參 數(shù);計(jì)算單元102,用于根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的 權(quán)值,將各語音信號(hào)中各取樣點(diǎn)信號(hào)與各自的權(quán)值相乘,并對(duì)各語音信號(hào)的對(duì)應(yīng)取樣點(diǎn)信 號(hào)的乘積值進(jìn)行累加;輸出單元103,用于將累加后的取樣點(diǎn)信號(hào)依次輸出。本發(fā)明中,傳聲器陣列由兩個(gè)以上的指向性傳聲器構(gòu)成。上述第二確定單元101進(jìn)一步將所述相同幀的各語音信號(hào)的能量值分別與最大 的能量值作商;并對(duì)各商值進(jìn)行指數(shù)調(diào)整處理,作為各語音信號(hào)的調(diào)整參數(shù)。上述第二確定單元101進(jìn)一步將各商值的E次方作為各語音信號(hào)的調(diào)整參數(shù);其 中,E為大于等于2小于等于10的正數(shù)。上述計(jì)算單元102進(jìn)一步按下式計(jì)算語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值Wi(n) = AWi(n-l) + (l-A)C;^^, w, (n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n 個(gè)取樣點(diǎn)信號(hào)的權(quán)值,Wi(n-l)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n-1個(gè)取樣點(diǎn)信號(hào)的權(quán) 值八為預(yù)先設(shè)定的遺忘因子,0< A < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù)。上述計(jì)算單元102進(jìn)一步按下述方式計(jì)算語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值Wi(n) = AWi(n-l) + (l-A)C;^^, w, (n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n 個(gè)取樣點(diǎn)信號(hào)的初始權(quán)值,Wi(n-1)為傳聲器i中的當(dāng)前語音信號(hào)幀中第個(gè)取樣點(diǎn)信號(hào) 的初始權(quán)值;、為預(yù)先設(shè)定的遺忘因子,0 < A < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù);按下式對(duì)&(11)進(jìn)行處理,將成0)作為傳聲器i中的當(dāng)前語音信號(hào)幀中第n個(gè)取 樣點(diǎn)信號(hào)的最終權(quán)值 上述傳聲器陣列為圓形陣列或球形陣列;所述傳聲器陣列中的傳聲器數(shù)量為3至 16個(gè)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,圖10所示的基于傳聲器陣列的語音信號(hào)處理裝置是 為實(shí)現(xiàn)前述的基于傳聲器陣列的語音信號(hào)處理方法而設(shè)計(jì)的,圖10所示裝置中各處理單 元的功能可參照前述方法的描述而理解,各處理單元的功能可通過運(yùn)行于處理器上的程序 而實(shí)現(xiàn),也可通過具體的邏輯電路而實(shí)現(xiàn)。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種基于傳聲器陣列的語音信號(hào)處理方法,其特征在于,所述傳聲器陣列由兩個(gè)以上的指向性傳聲器構(gòu)成;所述方法包括確定各指向性傳聲器接收的相同幀的語音信號(hào)的能量值;根據(jù)所述能量值確定所述相同幀的各語音信號(hào)的調(diào)整參數(shù);根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值,將各語音信號(hào)中各取樣點(diǎn)信號(hào)與各自的權(quán)值相乘,并對(duì)各語音信號(hào)的對(duì)應(yīng)取樣點(diǎn)信號(hào)的乘積值進(jìn)行累加,將累加后的取樣點(diǎn)信號(hào)依次輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述能量值確定所述相同幀的 各語音信號(hào)的調(diào)整參數(shù),為將所述相同幀的各語音信號(hào)的能量值分別與最大的能量值作商;對(duì)各商值進(jìn)行指數(shù)調(diào)整處理,并作為各語音信號(hào)的調(diào)整參數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對(duì)各商值進(jìn)行指數(shù)調(diào)整處理,并作為 各語音信號(hào)的調(diào)整參數(shù),為將各商值的E次方作為各語音信號(hào)的調(diào)整參數(shù);其中,E為大于等于2小于等于10的 正數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語 音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值,具體按下式計(jì)算Wi (n) = XWi(n-l) + (l-X)C;其中,Wi(n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第η個(gè)取 樣點(diǎn)信號(hào)的權(quán)值,Wi(H-I)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n-1個(gè)取樣點(diǎn)信號(hào)的權(quán)值; λ為預(yù)先設(shè)定的遺忘因子,0 < λ < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語 音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值,為Wi (n) = XWi(n-l) + (l-X)C;其中,Wi(n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第η個(gè)取 樣點(diǎn)信號(hào)的初始權(quán)值,Wi (n-1)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n-1個(gè)取樣點(diǎn)信號(hào)的初 始權(quán)值;λ為預(yù)先設(shè)定的遺忘因子,0 < λ < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù);按下式對(duì)Wi (η)進(jìn)行處理,并將戌(《)作為傳聲器i中的當(dāng)前語音信號(hào)幀中第η個(gè)取樣 點(diǎn)信號(hào)的最終權(quán)值 Wi (η)=wi(n)/max(w1(n),w2(n),……wn(n)),其中,maxO為取最大值計(jì)算。
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述傳聲器陣列為圓形陣列或 球形陣列;所述傳聲器陣列中的傳聲器數(shù)量為3至16個(gè)。
7.一種基于傳聲器陣列的語音信號(hào)處理裝置,其特征在于,所述傳聲器陣列由兩個(gè)以 上的指向性傳聲器構(gòu)成;所述裝置包括第一確定單元、第二確定單元、計(jì)算單元和輸出單 元;其中,第一確定單元,用于確定各指向性傳聲器接收的相同幀的語音信號(hào)的能量值;第二確定單元,用于根據(jù)所述能量值確定所述相同幀的各語音信號(hào)的調(diào)整參數(shù);計(jì)算單元,用于根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值,將 各語音信號(hào)中各取樣點(diǎn)信號(hào)與各自的權(quán)值相乘,并對(duì)各語音信號(hào)的對(duì)應(yīng)取樣點(diǎn)信號(hào)的乘積 值進(jìn)行累加;輸出單元,用于將累加后的取樣點(diǎn)信號(hào)依次輸出。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二確定單元進(jìn)一步將所述相同幀 的各語音信號(hào)的能量值分別與最大的能量值作商;并對(duì)各商值進(jìn)行指數(shù)調(diào)整處理,作為各 語音信號(hào)的調(diào)整參數(shù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第二確定單元進(jìn)一步將各商值的E次 方作為各語音信號(hào)的調(diào)整參數(shù);其中,E為大于等于2小于等于10的正數(shù)。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述計(jì)算單元進(jìn)一步按下式計(jì)算語音信 號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值Wi (n) = XWi(n-l) + (l-X)C;其中,Wi(n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第η個(gè)取 樣點(diǎn)信號(hào)的權(quán)值,Wi(H-I)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n-1個(gè)取樣點(diǎn)信號(hào)的權(quán)值; λ為預(yù)先設(shè)定的遺忘因子,0 < λ < 1 ;C為當(dāng)前語音信號(hào)幀的調(diào)整參數(shù)。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述計(jì)算單元進(jìn)一步按下述方式計(jì)算語 音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值Wi (n) = XWi(n-l) + (l-X)C;其中,Wi(n)為傳聲器i中的當(dāng)前語音信號(hào)幀中第η個(gè)取 樣點(diǎn)信號(hào)的初始權(quán)值,Wi (n-1)為傳聲器i中的當(dāng)前語音信號(hào)幀中第n-1個(gè)取樣點(diǎn)信號(hào)的初 始權(quán)值;λ為預(yù)先設(shè)定的遺忘因子,0 < λ < 1 ;C為當(dāng)前語音信的調(diào)整參數(shù);按下式對(duì)&(11)進(jìn)行處理,將成…)作為傳聲器i中的當(dāng)前語音信號(hào)幀中第η個(gè)取樣點(diǎn) 信號(hào)的最終權(quán)值
12.根據(jù)權(quán)利要求7至11任一項(xiàng)所述的裝置,其特征在于,所述傳聲器陣列為圓形陣列 或球形陣列;所述傳聲器陣列中的傳聲器數(shù)量為3至16個(gè)。
全文摘要
本發(fā)明公開了一種基于傳聲器陣列的語音信號(hào)處理方法,所述傳聲器陣列由兩個(gè)以上的指向性傳聲器構(gòu)成;所述方法包括確定各指向性傳聲器接收的相同幀的語音信號(hào)的能量值;根據(jù)所述能量值確定所述相同幀的各語音信號(hào)的調(diào)整參數(shù);根據(jù)各語音信號(hào)的調(diào)整參數(shù)確定語音信號(hào)中各取樣點(diǎn)信號(hào)的權(quán)值,將各語音信號(hào)中各取樣點(diǎn)信號(hào)與各自的權(quán)值相乘,并對(duì)各語音信號(hào)的對(duì)應(yīng)取樣點(diǎn)信號(hào)的乘積值進(jìn)行累加,將累加后的取樣點(diǎn)信號(hào)依次輸出。本發(fā)明同時(shí)公開了一種基于傳聲器陣列的語音信號(hào)處理裝置。本發(fā)明計(jì)算方式簡單,不需要復(fù)雜的計(jì)算和電路,具有良好的抗混響和定向拾音功能。
文檔編號(hào)G10L21/0216GK101867853SQ201010197159
公開日2010年10月20日 申請(qǐng)日期2010年6月8日 優(yōu)先權(quán)日2010年6月8日
發(fā)明者何宏森, 袁浩, 邱小軍, 黃志宏 申請(qǐng)人:中興通訊股份有限公司