欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法

文檔序號:2826183閱讀:529來源:國知局
一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法
【專利摘要】本發(fā)明涉及一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,所述方法包括如下步驟:步驟一、對輸入的混疊語音進(jìn)行前端處理;步驟二、對經(jīng)過步驟一處理的混疊語音進(jìn)行聽覺特征提?。徊襟E三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進(jìn)行聽覺分割;步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進(jìn)行聽覺重組;步驟五、對經(jīng)過步驟四處理的混疊語音進(jìn)行目標(biāo)語音重構(gòu)。本發(fā)明在噪聲存在的情況下,可以很好地解決單通道混疊語音分離問題,分離的語音可以應(yīng)用于語音識別的前端,在人工智能、語音通信,聲音信號增強(qiáng)領(lǐng)域都將有著廣闊的應(yīng)用前景。
【專利說明】一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,屬于語音信號處理領(lǐng)域。
【背景技術(shù)】
[0002]語音信號處理是近年來信號處理中最引人注目的研究領(lǐng)域之一,在語音信號處理領(lǐng)域,ー個重要的問題是如何從未知信號隨機(jī)混合得到的混疊語音中分離出原始語音,混疊語音分離在噪聲消除、語音合成、語音通信等方面有重要的研究意義和實(shí)用價(jià)值。由于混疊語音在時(shí)域和頻域的重疊性,常用的語音增強(qiáng)方法難以實(shí)現(xiàn)語音分離。目前,混疊語音分離最常采用的方法是盲源分離方法即獨(dú)立分量分析方法,但獨(dú)立分量分析方法有一些假設(shè)條件,例如要求觀測信號的個數(shù)大于或等于源信號的個數(shù)、假定沒有噪聲等,這些條件限制了盲源分離的應(yīng)用,因此,盲源分離不能應(yīng)用于源信號個數(shù)大于觀測信號個數(shù)的單通道混疊語音分離問題,尤其是在噪聲存在的情況下,盲源分離方法應(yīng)用于混疊語音分離效果明顯惡化。
[0003]人工智能領(lǐng)域的發(fā)展需要新一代計(jì)算機(jī)的人機(jī)接ロ能自如地用語言和人類交流。語音和人類的聽覺系統(tǒng)是密切相關(guān)的,在研究語音信號本身的特性及其處理方法的同吋,研究人類聽覺系統(tǒng)感知語音信息的機(jī)理將能進(jìn)ー步促進(jìn)語音信號處理的研究。事實(shí)上,人類聽覺系統(tǒng)對語音信號的感知能力大大地超過了目前的信號處理水平,由于人的聽覺系統(tǒng)是ー個很強(qiáng)大的音頻信號處理器,特別是在強(qiáng)噪聲干擾下,人類能有選擇地聽取所需的內(nèi)容,能夠從雜亂的聲音信號中分辨并跟蹤其感興趣的某一路目標(biāo)信號,感知其相關(guān)信息,即所謂的“雞尾酒會效應(yīng)”。利用聽覺感知的研究成果建立模型,并用計(jì)算機(jī)來實(shí)現(xiàn)它,使聽覺場景分析應(yīng)用到機(jī)器智能中,讓機(jī)器具有智能的聽覺,這就是計(jì)算聽覺場景分析。用計(jì)算聽覺場景分析方法進(jìn)行混疊語音信號分離,不僅符合人的感知特性,而且不受盲源分離方法的那些假設(shè)條件限制。計(jì)算聽覺場景分析從心理模型的角度,把聽覺組織過程看作是ー個具有層次性的加工過程,豐富了聽覺組織的理論,聽覺場景分析還用生態(tài)學(xué)的觀點(diǎn)來分析聽覺組織過程,從而增加了理論的外部效應(yīng),使之更加易于實(shí)際應(yīng)用。計(jì)算聽覺場景分析由于其不需要假設(shè)信號的統(tǒng)計(jì)特性和單通道條件下的可實(shí)現(xiàn)性,所以特別適合應(yīng)用于噪聲存在時(shí)的單通道混疊語音分離問題。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是克服現(xiàn)有技術(shù)的缺點(diǎn),解決如何從存在噪聲的單通道混疊語音中分離出目標(biāo)語音的方法,提出一種基于能量和諧波特性的計(jì)算聽覺場景分析單通道混疊語音分離方法。
[0005]本發(fā)明提出一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,其特征在于:
[0006]所述方法包括如下步驟:
[0007]步驟一、對輸入的混疊語音進(jìn)行前端處理;[0008]步驟二、對經(jīng)過步驟ー處理的混疊語音進(jìn)行聽覺特征提??;
[0009]步驟三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進(jìn)行聽覺分割;
[0010]步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進(jìn)行聽覺重組;
[0011]步驟五、對經(jīng)過步驟四處理的混疊語音進(jìn)行目標(biāo)語音重構(gòu)。
[0012]進(jìn)ー步地,步驟一中:所述前端處理是將輸入的混合時(shí)域信號轉(zhuǎn)化成相應(yīng)的時(shí)頻域表示形式;根據(jù)人耳的感知機(jī)理,將輸入混合聲音信號通過128個信道的Gammatone濾波器組進(jìn)行帶通濾波,該濾波器的中心頻率按照等距寬(Equivalent RectangularBandwidth,ERB)在80~5kHz之間準(zhǔn)對數(shù)分布;將時(shí)頻分解后的姆一個Gammatone濾波器的輸出送入Meddis內(nèi)耳毛細(xì)胞模型;得到神經(jīng)發(fā)放率;然后,在時(shí)域上對每個毛細(xì)胞的輸出以幀長20ms,50%重疊為幀移進(jìn)行分幀處理;將輸入的混合語音信號分解成為一系列時(shí)頻單元,即T-F単元;同時(shí),為了高頻部分的特征提取和聽覺重組,對毛細(xì)胞輸出進(jìn)行半波整流和低通濾波,從而得到每個通道的包絡(luò)特征。
[0013]進(jìn)ー步地,步驟二中:經(jīng)過前端處理過程,混合語音信號在時(shí)域和頻域上被分解成一系列的T-F単元,在每個T-F単元中,計(jì)算下列特征函數(shù):自相關(guān)函數(shù)(Ah)、包絡(luò)自相關(guān)函數(shù)(AE)、主基音周期(P(m))、相鄰信道互相關(guān)(CH)、相鄰信道包絡(luò)互相關(guān)(CE),式(4)、式
(5)、式(6)、式(7、式⑶為其計(jì)算公式:
【權(quán)利要求】
1.一種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,其特征在于: 所述方法包括如下步驟: 步驟一、對輸入的混疊語音進(jìn)行前端處理; 步驟二、對經(jīng)過步驟ー處理的混疊語音進(jìn)行聽覺特征提??; 步驟三、對經(jīng)過步驟二處理的混疊語音基于諧波特性進(jìn)行聽覺分割; 步驟四、對經(jīng)過步驟三處理的混疊語音基于能量特征進(jìn)行聽覺重組; 步驟五、對經(jīng)過步驟四處理的混疊語音進(jìn)行目標(biāo)語音重構(gòu)。
2.如權(quán)利要求1所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟一中:所述前端處理是將輸入的混合時(shí)域信號轉(zhuǎn)化成相應(yīng)的時(shí)頻域表示形式;根據(jù)人耳的感知機(jī)理,將輸入混合聲音信號通過128個信道的Gammatone濾波器組進(jìn)行帶通濾波,該濾波器的中心頻率按照等距寬(Equivalent Rectangular Bandwidth, ERB)在80~5kHz之間準(zhǔn)對數(shù)分布;將時(shí)頻分解后的姆ー個Gammatone濾波器的輸出送入Meddis內(nèi)耳毛細(xì)胞模型;得到神經(jīng)發(fā)放率;然后,在時(shí)域上對每個毛細(xì)胞的輸出以幀長20mS,50%重疊為幀移進(jìn)行分幀處理;將輸入的混合語音信號分解成為一系列時(shí)頻單元,即T-F単元;同時(shí),為了高頻部分的特征提取和聽覺重組,對毛細(xì)胞輸出進(jìn)行半波整流和低通濾波,從而得到每個通道的包絡(luò)特征。
3.如權(quán)利要求1或2所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟二中:經(jīng)過前端處理過程,混合語音信號在時(shí)域和頻域上被分解成一系列的T-F単元,在每個T-F単元中,計(jì)算下列特征函數(shù):自相關(guān)函數(shù)(AH)、包絡(luò)自相關(guān)函數(shù)(AE)、主基音周期(P(m))、相鄰信道互相關(guān)(CH)、相鄰信道包絡(luò)互相關(guān)(CE),式(4)、式(5)、式(6)、式(7、式(8)為其計(jì)算公式:


4.如權(quán)利要求3所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟三中:根據(jù)聽覺特征提取的提取特征,混合語音信號經(jīng)過聽覺前端處理后的那些T-F単元,合并成對應(yīng)的聽覺片段;在時(shí)頻域中,屬于某一個聲源的連續(xù)T-F単元的片段區(qū)域,定義為段,它是介于時(shí)頻単元和語音聽覺流的中間表示; (1)類型"1"聽覺片段 對于頻率信道上的兩個相鄰T-F単元u(c,m),u(c+l, m),如果其相鄰信道互相關(guān)(CH)滿足式(9),則將這兩個T-F単元都標(biāo)記為"1";

5.如權(quán)利要求4所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟四中:將上ー階段來自同一個聲源的那些聽覺片段分別重組到對應(yīng)的目標(biāo)語音流和干擾噪聲流中,從而實(shí)現(xiàn)目標(biāo)語音分離; (I)T-F單元標(biāo)記 對于類型"1"聽覺片段中的T-F単元,利用該T-F単元的自相關(guān)函數(shù)和目標(biāo)語音基音頻率來刻畫諧波關(guān)系,即周期性準(zhǔn)則;如果片段"1"中的時(shí)頻單元u(c,m)滿足:AH\c,m,P\m)) >Q

6.如權(quán)利要求5所述的ー種基于計(jì)算聽覺場景分析的單通道語音盲分離方法,其特征在于: 步驟五中:利用二值模和Gammatone濾波器結(jié)構(gòu)來合成目標(biāo)語音信號的時(shí)域波形圖,從而實(shí)現(xiàn)語音信號的分離;目標(biāo)語音重構(gòu)的具體步驟如下: (1)各個Ga_atone濾波器信道的輸出信號先進(jìn)行時(shí)間反轉(zhuǎn),并將其結(jié)果再次送入Gammatone 濾波器; (2)由于濾波器頻率信道間存在相位延遲,需要將上ー階段每個濾波輸出的信號再一次時(shí)間反轉(zhuǎn),來消除濾波器本身的時(shí)延; (3)利用每幀20ms, 幀移10ms的分幀原則,采用升余弦函數(shù)作為窗函數(shù),對各個濾波信道的輸出信號分幀處理; (4)以ニ值模為權(quán)值,即權(quán)值1和0,在頻率軸上對T-F單元濾波響應(yīng)進(jìn)行加權(quán)求和,其輸出結(jié)果即為重構(gòu)后的目標(biāo)語音信號。
【文檔編號】G10L21/0272GK103456312SQ201310384413
【公開日】2013年12月18日 申請日期:2013年8月29日 優(yōu)先權(quán)日:2013年8月29日
【發(fā)明者】李鴻燕, 賈海蓉, 張雪英, 任光龍, 屈俊玲 申請人:太原理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
蒙自县| 成武县| 桂林市| 天气| 运城市| 义乌市| 鄱阳县| 东兰县| 浮山县| 彰化县| 马尔康县| 宁海县| 阳新县| 淮南市| 阿克陶县| 桃园县| 林口县| 灵宝市| 天峻县| 博爱县| 廉江市| 桂阳县| 礼泉县| 海原县| 浮梁县| 府谷县| 常山县| 辽阳县| 柳河县| 沂源县| 登封市| 苏尼特右旗| 南郑县| 宣威市| 马龙县| 鹤岗市| 仲巴县| 廊坊市| 茌平县| 嵩明县| 南召县|