一種基于雙耳聲源定位的語音分離方法

文檔序號(hào)：6245473閱讀：407來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

一種基于雙耳聲源定位的語音分離方法
【專利摘要】本發(fā)明公開了一種基于雙耳聲源定位的語音分離方法通過數(shù)據(jù)訓(xùn)練、多聲源定位和根據(jù)聲源方位的語音分離對(duì)多聲源進(jìn)行分離，獲得每個(gè)聲源的分離語音。本發(fā)明基于人耳的“雞尾酒會(huì)效應(yīng)”，模擬人耳的聽覺特征，可以準(zhǔn)確定位聲源個(gè)數(shù)和聲源方位，利用定位后的聲源方位信息獲取準(zhǔn)確的混合矩陣，從而進(jìn)行語音分離過程，其分離性能獲得有效提升。
【專利說明】一種基于雙耳聲源定位的語音分離方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音分離技術(shù)，具體涉及一種基于雙耳聲源定位的語音分離方法。

【背景技術(shù)】
[0002] 語音分離是一類特殊的語音增強(qiáng)方法，這種方法是在源語音信號(hào)和傳輸信道參數(shù)（即混合過程）未知的情況下，僅根據(jù)從雙耳麥克風(fēng)采集到的觀測數(shù)據(jù)（即混合語音信號(hào)），來恢復(fù)或分離出獨(dú)立的源語音信號(hào)的過程。
[0003] 目前，盲源語音分離技術(shù)估計(jì)出的混合矩陣需要手動(dòng)選取峰值點(diǎn)，與真實(shí)值存在誤差，其實(shí)施條件也難以滿足雙耳語音分離的模型。而多麥克風(fēng)陣列的語音分離算法存在計(jì)算量大、麥克風(fēng)陣列尺寸大等問題。

【發(fā)明內(nèi)容】

[0004] 發(fā)明目的：為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明提供一種基于雙耳聲源定位的語音分離方法，利用人耳的雞尾酒會(huì)效應(yīng)，模擬人耳的聽覺特征，可以準(zhǔn)確定位聲源個(gè)數(shù) 和聲源方位，利用定位到的聲源方位信息獲取準(zhǔn)確的混合矩陣進(jìn)行語音分離，改進(jìn)了現(xiàn)有技術(shù)的不足。
[0005] 技術(shù)方案：一種基于雙耳聲源定位的語音分離方法，其特征在于，該方法包括以下步驟：
[0006] 步驟1)數(shù)據(jù)訓(xùn)練：
[0007] I. 1)使用虛擬聲進(jìn)行訓(xùn)練，所述虛擬聲為頭相關(guān)脈沖響應(yīng)函數(shù)HRIR數(shù)據(jù)與白噪聲卷積生成方位已知的虛擬聲，聲源位置坐標(biāo)為（r，Θ)， r為聲源與原點(diǎn)的直線距離，方位角Θ為方向矢量在水平面的投影與中垂面的夾角；方位Θ角的范圍為[-180° ,180° ]，其中，前向方位角范圍為[-90° ,90° ]，間隔為5° ;
[0008] 1. 2)對(duì)虛擬聲進(jìn)行預(yù)處理，獲得平穩(wěn)的單幀信號(hào)；所述預(yù)處理包括幅度歸一化、分幀和加窗；
[0009] 1. 3)對(duì)步驟1. 2)所得單幀信號(hào)進(jìn)行計(jì)算，分別計(jì)算每一個(gè)幀信號(hào)的耳間時(shí)間差 ITD特征參數(shù)和耳間強(qiáng)度差I(lǐng)ID特征參數(shù)，獲得不同方位虛擬聲聲源的多幀ITD和多幀IID 訓(xùn)練樣本；
[0010] 1. 4)根據(jù)步驟1. 3)所得ITD和IID訓(xùn)練樣本，建立方位映射模型：將相同方位虛擬聲信號(hào)的多幀ITD和多幀IID訓(xùn)練樣本值的均值作為訓(xùn)練ITD參數(shù)和訓(xùn)練IID參數(shù)模型： δ ( Θ )和α ( θ，ω)，其中δ ( Θ )表示角度Θ對(duì)應(yīng)的訓(xùn)練ITD參數(shù)；α ( θ，ω)表示頻譜為ω，角度為Θ對(duì)應(yīng)的訓(xùn)練IID參數(shù)；其中，ω為角頻率矢量；ω的范圍為[0, 2 π ]，間隔為 2π/512 ;
[0011] 步驟2)多聲源定位：
[0012] 2. 1)對(duì)雙通道的采集聲信號(hào)進(jìn)行預(yù)處理，按幀獲得雙通道多幀的時(shí)域信號(hào)；所述預(yù)處理包括幅度歸一化、分幀和加窗；
[0013] 2. 2)對(duì)步驟2. 1)中分幀后所得的分幀信號(hào)進(jìn)行短時(shí)傅里葉變換，轉(zhuǎn)換到時(shí)頻域，獲得雙通道時(shí)頻域的分幀信號(hào)；
[0014] 2. 3)對(duì)步驟2. 2)所得的時(shí)頻域信號(hào)按幀計(jì)算每一幀測量ITD參數(shù)和測量IID參數(shù)；
[0015] 2. 4)對(duì)步驟2. 3)中的測量ITD參數(shù)進(jìn)行閾值篩選，獲得多個(gè)候選測量ITD參數(shù)
[0016]

【權(quán)利要求】
1. 一種基于雙耳聲源定位的語音分離方法，其特征在于，該方法包括以下步驟： 1) 數(shù)據(jù)訓(xùn)練： I. 1)使用虛擬聲進(jìn)行訓(xùn)練，所述虛擬聲為頭相關(guān)脈沖響應(yīng)函數(shù)HRIR數(shù)據(jù)與白噪聲卷積生成方位已知的虛擬聲，聲源位置坐標(biāo)為（r，Θ)，Γ為聲源與原點(diǎn)的直線距離，方位角Θ 為方向矢量在水平面的投影與中垂面的夾角；方位Θ角的范圍為[-180°，180° ]，其中，前向方位角范圍為[-90° ,90° ]，間隔為5° ; 1.2) 對(duì)虛擬聲進(jìn)行預(yù)處理，獲得平穩(wěn)的單幀信號(hào)；所述預(yù)處理包括幅度歸一化、分幀和加窗； 1. 3)對(duì)步驟1. 2)所得單幀信號(hào)進(jìn)行計(jì)算，分別計(jì)算每一個(gè)幀信號(hào)的耳間時(shí)間差I(lǐng)TD特征參數(shù)和耳間強(qiáng)度差I(lǐng)ID特征參數(shù)，獲得不同方位虛擬聲聲源的多幀ITD和多幀IID訓(xùn)練樣本； 1. 4)根據(jù)步驟1. 3)所得ITD和IID訓(xùn)練樣本，建立方位映射模型：將相同方位虛擬聲信號(hào)的多幀ITD和多幀IID訓(xùn)練樣本值的均值作為訓(xùn)練ITD參數(shù)和訓(xùn)練IID參數(shù)模型： δ(Θ)和α(θ，ω)，其中δ(Θ)表示角度Θ對(duì)應(yīng)的訓(xùn)練ITD參數(shù)；α(θ，ω)表示頻譜為ω，角度為Θ對(duì)應(yīng)的訓(xùn)練IID參數(shù)；其中，ω為角頻率矢量；ω的范圍為[〇, 2π]，間隔為 2π/512 ; 2) 多聲源定位： 2. 1)對(duì)雙通道的采集聲信號(hào)進(jìn)行預(yù)處理，按幀獲得雙通道多幀的時(shí)域信號(hào)；所述預(yù)處理包括幅度歸一化、分幀和加窗； 2.2) 對(duì)步驟2. 1)中分幀后所得的分幀信號(hào)進(jìn)行短時(shí)傅里葉變換，轉(zhuǎn)換到時(shí)頻域，獲得雙通道時(shí)頻域的分幀信號(hào)； 2. 3)對(duì)步驟2. 2)所得的時(shí)頻域信號(hào)按幀計(jì)算每一幀測量ITD參數(shù)和測量IID參數(shù)； 2. 4)對(duì)步驟2. 3)中的測量ITD參數(shù)進(jìn)行閾值篩選，獲得多個(gè)候選測量ITD參數(shù) …，4} 其中，$為候選的測量ITD參數(shù)，1為候選參數(shù)的個(gè)數(shù)；i和1的取值范圍滿足：I^i^ 1 ； 2. 5)對(duì)步驟2. 4)所得的候選測量ITD參數(shù)與步驟1. 4)中獲得的方位映射模型中規(guī)定前向方位角的訓(xùn)練ITD參數(shù)值進(jìn)行逐一距離匹配，并進(jìn)行篩選，獲得篩選后的k個(gè)前向候選方位，其中，k< = 1 ;由對(duì)稱性，得到前后向?qū)ΨQ的候選方位集合： {θη, 9f2. 9fk. 9bi. 9b2. 9bJ 其中，下標(biāo)f和b表示前向和后向；得到測量ITD參數(shù)丨4,4，·丨對(duì)應(yīng)的候選方位，即每個(gè)$對(duì)應(yīng)兩個(gè)前后對(duì)稱的0fj和Θbj，其中0fj和Θbj表示候選的前向方位和后向方位；i、1、j和k的取值范圍滿足1彡i彡1，1彡j彡k; 2. 6)根據(jù)步驟2. 5)得到的每個(gè)測量ITD參數(shù)對(duì)應(yīng)的候選方位，將測量ITD所在幀的IID值根據(jù)其對(duì)應(yīng)的候選方位，歸為相應(yīng)候選角度的測量IID參數(shù)集合； 2. 7)對(duì)于每個(gè)候選角度，就步驟2. 6)所得的測量IID參數(shù)集合與步驟1. 4)所得的方位映射模型中的IID模型值計(jì)算歐氏距離，并進(jìn)行距離閾值判決，獲得最終判定的聲源個(gè) 數(shù)η和聲源的方位JQ1,θ2，…，θη};其中，η彡k; 3)根據(jù)聲源方位的語音分離對(duì)多聲源進(jìn)行分離，獲得每個(gè)聲源的分離語音： 3. 1)根據(jù)步驟2. 7)所得聲源個(gè)數(shù)和聲源方位，獲得其對(duì)應(yīng)于步驟1. 4)中訓(xùn)練ITD參數(shù)和訓(xùn)練IID參數(shù)的參數(shù)對(duì)，組成多聲源的方位混合矩陣； 3. 2)對(duì)步驟2. 1)所得雙通道多幀的時(shí)頻域信號(hào)中的每對(duì)時(shí)頻點(diǎn)與步驟3. 1)獲得的混合矩陣中每個(gè)訓(xùn)練ITD參數(shù)和訓(xùn)練IID參數(shù)對(duì)進(jìn)行歐氏距離計(jì)算，根據(jù)最大似然準(zhǔn)則，對(duì)每個(gè)聲源所對(duì)應(yīng)的時(shí)頻點(diǎn)進(jìn)行二進(jìn)制掩碼標(biāo)記； 3. 3)對(duì)步驟3. 2)所得的掩碼標(biāo)記與步驟2. 1)中獲得的雙通道多幀的時(shí)頻信號(hào)相乘，獲得每個(gè)聲源所對(duì)應(yīng)的時(shí)頻域信號(hào)； 3.4)對(duì)步驟3. 3)所得的每個(gè)聲源對(duì)應(yīng)的時(shí)頻域信號(hào)進(jìn)行傅里葉逆變換，轉(zhuǎn)換為時(shí)域信號(hào)，進(jìn)行去加窗，合成為每個(gè)聲源的分離語音。
【文檔編號(hào)】G01S5/18GK104464750SQ201410579458
【公開日】2015年3月25日申請日期:2014年10月24日優(yōu)先權(quán)日:2014年10月24日
【發(fā)明者】周琳, 李梟雄, 吳鎮(zhèn)揚(yáng), 郭海燕申請人:東南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周琳;李梟雄;吳鎮(zhèn)揚(yáng);郭海燕;
技術(shù)所有人：東南大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分離式雙耳藍(lán)牙耳機(jī)相關(guān)技術(shù)

雙耳定位相關(guān)技術(shù)

語音分離器相關(guān)技術(shù)

語音分離相關(guān)技術(shù)

matlab語音信號(hào)盲分離相關(guān)技術(shù)

局端語音分離器相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于雙耳聲源定位的語音分離方法