一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法

文檔序號：2826183閱讀：529來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法
【專利摘要】本發(fā)明涉及一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，所述方法包括如下步驟：步驟一、對輸入的混疊語音進(jìn)行前端處理；步驟二、對經(jīng)過步驟一處理的混疊語音進(jìn)行聽覺特征提?。徊襟E三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進(jìn)行聽覺分割；步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進(jìn)行聽覺重組；步驟五、對經(jīng)過步驟四處理的混疊語音進(jìn)行目標(biāo)語音重構(gòu)。本發(fā)明在噪聲存在的情況下，可以很好地解決單通道混疊語音分離問題，分離的語音可以應(yīng)用于語音識別的前端，在人工智能、語音通信，聲音信號增強(qiáng)領(lǐng)域都將有著廣闊的應(yīng)用前景。
【專利說明】一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，屬于語音信號處理領(lǐng)域。
【背景技術(shù)】
[0002]語音信號處理是近年來信號處理中最引人注目的研究領(lǐng)域之一，在語音信號處理領(lǐng)域，ー個重要的問題是如何從未知信號隨機(jī)混合得到的混疊語音中分離出原始語音，混疊語音分離在噪聲消除、語音合成、語音通信等方面有重要的研究意義和實(shí)用價(jià)值。由于混疊語音在時(shí)域和頻域的重疊性，常用的語音增強(qiáng)方法難以實(shí)現(xiàn)語音分離。目前，混疊語音分離最常采用的方法是盲源分離方法即獨(dú)立分量分析方法，但獨(dú)立分量分析方法有一些假設(shè)條件，例如要求觀測信號的個數(shù)大于或等于源信號的個數(shù)、假定沒有噪聲等，這些條件限制了盲源分離的應(yīng)用，因此，盲源分離不能應(yīng)用于源信號個數(shù)大于觀測信號個數(shù)的單通道混疊語音分離問題，尤其是在噪聲存在的情況下，盲源分離方法應(yīng)用于混疊語音分離效果明顯惡化。
[0003]人工智能領(lǐng)域的發(fā)展需要新一代計(jì)算機(jī)的人機(jī)接ロ能自如地用語言和人類交流。語音和人類的聽覺系統(tǒng)是密切相關(guān)的，在研究語音信號本身的特性及其處理方法的同吋，研究人類聽覺系統(tǒng)感知語音信息的機(jī)理將能進(jìn)ー步促進(jìn)語音信號處理的研究。事實(shí)上，人類聽覺系統(tǒng)對語音信號的感知能力大大地超過了目前的信號處理水平，由于人的聽覺系統(tǒng)是ー個很強(qiáng)大的音頻信號處理器，特別是在強(qiáng)噪聲干擾下，人類能有選擇地聽取所需的內(nèi)容，能夠從雜亂的聲音信號中分辨并跟蹤其感興趣的某一路目標(biāo)信號，感知其相關(guān)信息，即所謂的“雞尾酒會效應(yīng)”。利用聽覺感知的研究成果建立模型，并用計(jì)算機(jī)來實(shí)現(xiàn)它，使聽覺場景分析應(yīng)用到機(jī)器智能中，讓機(jī)器具有智能的聽覺，這就是計(jì)算聽覺場景分析。用計(jì)算聽覺場景分析方法進(jìn)行混疊語音信號分離，不僅符合人的感知特性，而且不受盲源分離方法的那些假設(shè)條件限制。計(jì)算聽覺場景分析從心理模型的角度，把聽覺組織過程看作是ー個具有層次性的加工過程，豐富了聽覺組織的理論，聽覺場景分析還用生態(tài)學(xué)的觀點(diǎn)來分析聽覺組織過程，從而增加了理論的外部效應(yīng)，使之更加易于實(shí)際應(yīng)用。計(jì)算聽覺場景分析由于其不需要假設(shè)信號的統(tǒng)計(jì)特性和單通道條件下的可實(shí)現(xiàn)性，所以特別適合應(yīng)用于噪聲存在時(shí)的單通道混疊語音分離問題。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是克服現(xiàn)有技術(shù)的缺點(diǎn)，解決如何從存在噪聲的單通道混疊語音中分離出目標(biāo)語音的方法，提出一種基于能量和諧波特性的計(jì)算聽覺場景分析單通道混疊語音分離方法。
[0005]本發(fā)明提出一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，其特征在于:
[0006]所述方法包括如下步驟:
[0007]步驟一、對輸入的混疊語音進(jìn)行前端處理；[0008]步驟二、對經(jīng)過步驟ー處理的混疊語音進(jìn)行聽覺特征提??；
[0009]步驟三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進(jìn)行聽覺分割；
[0010]步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進(jìn)行聽覺重組；
[0011]步驟五、對經(jīng)過步驟四處理的混疊語音進(jìn)行目標(biāo)語音重構(gòu)。
[0012]進(jìn)ー步地，步驟一中:所述前端處理是將輸入的混合時(shí)域信號轉(zhuǎn)化成相應(yīng)的時(shí)頻域表示形式；根據(jù)人耳的感知機(jī)理，將輸入混合聲音信號通過128個信道的Gammatone濾波器組進(jìn)行帶通濾波，該濾波器的中心頻率按照等距寬(Equivalent RectangularBandwidth,ERB)在80~5kHz之間準(zhǔn)對數(shù)分布；將時(shí)頻分解后的姆一個Gammatone濾波器的輸出送入Meddis內(nèi)耳毛細(xì)胞模型；得到神經(jīng)發(fā)放率；然后，在時(shí)域上對每個毛細(xì)胞的輸出以幀長20ms，50%重疊為幀移進(jìn)行分幀處理；將輸入的混合語音信號分解成為一系列時(shí)頻單元，即T-F単元；同時(shí)，為了高頻部分的特征提取和聽覺重組，對毛細(xì)胞輸出進(jìn)行半波整流和低通濾波，從而得到每個通道的包絡(luò)特征。
[0013]進(jìn)ー步地，步驟二中:經(jīng)過前端處理過程，混合語音信號在時(shí)域和頻域上被分解成一系列的T-F単元，在每個T-F単元中，計(jì)算下列特征函數(shù):自相關(guān)函數(shù)(Ah)、包絡(luò)自相關(guān)函數(shù)(AE)、主基音周期(P(m))、相鄰信道互相關(guān)(CH)、相鄰信道包絡(luò)互相關(guān)(CE)，式(4)、式
(5)、式(6)、式(7、式⑶為其計(jì)算公式:
【權(quán)利要求】
1.一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，其特征在于: 所述方法包括如下步驟: 步驟一、對輸入的混疊語音進(jìn)行前端處理；步驟二、對經(jīng)過步驟ー處理的混疊語音進(jìn)行聽覺特征提??；步驟三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進(jìn)行聽覺分割；步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進(jìn)行聽覺重組；步驟五、對經(jīng)過步驟四處理的混疊語音進(jìn)行目標(biāo)語音重構(gòu)。
2.如權(quán)利要求1所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，其特征在于: 步驟一中:所述前端處理是將輸入的混合時(shí)域信號轉(zhuǎn)化成相應(yīng)的時(shí)頻域表示形式；根據(jù)人耳的感知機(jī)理，將輸入混合聲音信號通過128個信道的Gammatone濾波器組進(jìn)行帶通濾波，該濾波器的中心頻率按照等距寬(Equivalent Rectangular Bandwidth, ERB)在80~5kHz之間準(zhǔn)對數(shù)分布；將時(shí)頻分解后的姆ー個Gammatone濾波器的輸出送入Meddis內(nèi)耳毛細(xì)胞模型；得到神經(jīng)發(fā)放率；然后，在時(shí)域上對每個毛細(xì)胞的輸出以幀長20mS，50%重疊為幀移進(jìn)行分幀處理；將輸入的混合語音信號分解成為一系列時(shí)頻單元，即T-F単元；同時(shí)，為了高頻部分的特征提取和聽覺重組，對毛細(xì)胞輸出進(jìn)行半波整流和低通濾波，從而得到每個通道的包絡(luò)特征。
3.如權(quán)利要求1或2所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，其特征在于: 步驟二中:經(jīng)過前端處理過程，混合語音信號在時(shí)域和頻域上被分解成一系列的T-F単元，在每個T-F単元中，計(jì)算下列特征函數(shù):自相關(guān)函數(shù)(AH)、包絡(luò)自相關(guān)函數(shù)(AE)、主基音周期(P(m))、相鄰信道互相關(guān)(CH)、相鄰信道包絡(luò)互相關(guān)(CE)，式(4)、式(5)、式(6)、式(7、式(8)為其計(jì)算公式:

4.如權(quán)利要求3所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，其特征在于: 步驟三中:根據(jù)聽覺特征提取的提取特征，混合語音信號經(jīng)過聽覺前端處理后的那些T-F単元，合并成對應(yīng)的聽覺片段；在時(shí)頻域中，屬于某一個聲源的連續(xù)T-F単元的片段區(qū)域，定義為段，它是介于時(shí)頻単元和語音聽覺流的中間表示； (1)類型"1"聽覺片段對于頻率信道上的兩個相鄰T-F単元u(c，m)，u(c+l, m)，如果其相鄰信道互相關(guān)(CH)滿足式(9)，則將這兩個T-F単元都標(biāo)記為"1"；

5.如權(quán)利要求4所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，其特征在于: 步驟四中:將上ー階段來自同一個聲源的那些聽覺片段分別重組到對應(yīng)的目標(biāo)語音流和干擾噪聲流中，從而實(shí)現(xiàn)目標(biāo)語音分離； (I)T-F單元標(biāo)記對于類型"1"聽覺片段中的T-F単元，利用該T-F単元的自相關(guān)函數(shù)和目標(biāo)語音基音頻率來刻畫諧波關(guān)系，即周期性準(zhǔn)則；如果片段"1"中的時(shí)頻單元u(c，m)滿足:AH\c,m,P\m)) >Q

6.如權(quán)利要求5所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法，其特征在于: 步驟五中:利用二值模和Gammatone濾波器結(jié)構(gòu)來合成目標(biāo)語音信號的時(shí)域波形圖，從而實(shí)現(xiàn)語音信號的分離；目標(biāo)語音重構(gòu)的具體步驟如下: (1)各個Ga_atone濾波器信道的輸出信號先進(jìn)行時(shí)間反轉(zhuǎn)，并將其結(jié)果再次送入Gammatone 濾波器； (2)由于濾波器頻率信道間存在相位延遲，需要將上ー階段每個濾波輸出的信號再一次時(shí)間反轉(zhuǎn)，來消除濾波器本身的時(shí)延； (3)利用每幀20ms，幀移10ms的分幀原則，采用升余弦函數(shù)作為窗函數(shù)，對各個濾波信道的輸出信號分幀處理； (4)以ニ值模為權(quán)值，即權(quán)值1和0，在頻率軸上對T-F單元濾波響應(yīng)進(jìn)行加權(quán)求和，其輸出結(jié)果即為重構(gòu)后的目標(biāo)語音信號。
【文檔編號】G10L21/0272GK103456312SQ201310384413
【公開日】2013年12月18日申請日期:2013年8月29日優(yōu)先權(quán)日:2013年8月29日
【發(fā)明者】李鴻燕, 賈海蓉, 張雪英, 任光龍, 屈俊玲申請人:太原理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李鴻燕;賈海蓉;張雪英;任光龍;屈俊玲
技術(shù)所有人：太原理工大學(xué)
我是此專利的發(fā)明人

上一篇：演奏信息處理裝置、演奏信息處理方法
上一篇：一種基于流形的語音情感識別方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

單通道語音增強(qiáng)相關(guān)技術(shù)

聽覺場景分析相關(guān)技術(shù)

語音識別應(yīng)用場景相關(guān)技術(shù)

智能語音應(yīng)用場景相關(guān)技術(shù)

語音交互場景相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法