專利名稱:基于壓縮感知和k-svd的單通道混合語音分離方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一類特殊的語音增強范疇一語音分離,尤其涉及一種基于壓縮感知和 K-SVD的單通道混合語音分離方法,屬于語音信號處理的技術(shù)領(lǐng)域,
背景技術(shù):
語音是人類最方便最直接也最常用的交流方式。然而,在實際環(huán)境中,人們在獲取 語音信號的同時不可避免地會受到周圍環(huán)境噪聲的干擾,這些干擾一方面會影響語音處理 系統(tǒng)(例如語音識別系統(tǒng))的性能,另一方面會影響人耳對語音的感知和理解。因此,語音 增強顯得尤為必要。語音分離是一類特殊的語音增強方法,其噪聲對象一般為難以處理的 類語音噪聲,是在源語音信號和傳輸信道參數(shù)(即混合過程)未知的情況下,僅根據(jù)從麥克 風采集到的觀測數(shù)據(jù)(即混合語音信號),來恢復或分離出獨立的源語音信號的過程。其目 的是增強目標語音,抑制干擾語音。目標語音和干擾語音性質(zhì)的相似性,決定了語音分離在 各類語音增強方法中難度是最大的。單通道混合語音分離要求從一個麥克風采集得到的混 合語音信號中,分離出彼此獨立的多個源語音信號,因已知條件最少而難度更大。但由于一 個麥克風是最容易布設(shè)也是最常用的,所以單通道混合語音分離技術(shù)如果可以突破,則具 有的實際應用價值最大。目前單通道混合語音分離主要有三類主要方法基于統(tǒng)計模型的單通道混合語音 分離方法,計算機聽覺場景分析和基于投影分解的單通道混合語音分離方法?;诮y(tǒng)計模 型的單通道混合語音分離方法是建立在對信號訓練建模基礎(chǔ)上的,通常分為三步第一步, 對各源語音信號或其特征參數(shù)建模,通過訓練確立各源語音信號模型的參數(shù);第二步,以混 合語音信號和源語音信號模型為已知條件,根據(jù)合適的準則,選擇源語音信號中的若干成 分來最優(yōu)地組成混合語音信號;第三步,由選取的各源語音信號成分直接組成分離后的各 源語音,或者先形成相應的濾波器,再預測出各源語音信號。計算機聽覺場景分析方法通過 模仿人耳聽覺系統(tǒng)來進行語音分離,核心為分離,由分段和組合兩部分組成。分段是將混合 語音分解為一系列的感覺段,各分離語音信號的每個感覺段要求來自于同個源語音信號。 組合是把來自于相同源信號的感覺段合并起來,形成對應源信號的流?;谕队胺纸獾膯?通道混合語音分離方法,一般是先通過機器學習構(gòu)造合適的基函數(shù)或字典,再由概率方法 或最優(yōu)化方法,預測出源語音信號在某基函數(shù)或某字典下的投影向量,最后由預測的投影 向量和相應的基函數(shù)或字典重構(gòu)得到分離后的語音信號。從分離方法上看基于概率統(tǒng)計模型的單通道混合語音分離算法側(cè)重于概率方 法,在概率建模的基礎(chǔ)上實現(xiàn)混合語音的分離,需要預先訓練;計算機聽覺場景分析方法 (CASA)側(cè)重于生物模擬方法,通過模擬人耳聽覺實現(xiàn)混合語音的分離,不需要預先訓練; 基于投影分解的單通道混合語音分離算法側(cè)重于機器學習,通過機器學習構(gòu)造合適的基函 數(shù)或字典,在此基礎(chǔ)上實現(xiàn)混合語音的分離,需要預先訓練。從分離性能上看整體而言,基 于投影分解的單通道混合語音分離算法的分離性能最好,基于概率統(tǒng)計模型的單通道混合 語音分離算法的分離性能次之,CASA的分離性能最差。從算法復雜度上看CASA通過模擬人耳聽覺來進行語音分離,并需要對語音的分段重組進行多次調(diào)整,復雜度最高。基于投影 分解的單通道混合語音分離算法與基于概率統(tǒng)計模型的單通道混合語音分離算法,都基于 數(shù)學概率模型或優(yōu)化方法,故總體而言,復雜度相差不大。從發(fā)展?jié)摿ι峡?,三者各有?yōu)缺 點,都有自己的發(fā)展空間。雖然目前單通道混合語音分離的研究取得了一定的成果,但總體 都算法復雜度偏高,且性能雖源語音信號的不同而差別較大,另外在訓練階段對訓練數(shù)據(jù) 有特殊的要求,故整體而言,實用性不強,有待改進,以便具體應用。
發(fā)明內(nèi)容
本發(fā)明提供一種基于壓縮感知和K-SVD的單通道混合語音分離方法,其目的重在 考慮實用性,設(shè)計對訓練數(shù)據(jù)沒有特殊要求,且性能穩(wěn)定的單通道混合語音分離方法,以能 增強目標語音,降低干擾語音。本方法利用語音信號在K-SVD字典下的稀疏性,根據(jù)壓縮感 知觀測和單通道混合語音在表達式上的相似性,采用壓縮感知理論中的信號重構(gòu)方法,來 進行單通道混合語音的分離,以達到增強目標語音抑制干擾語音的目的。為實現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案一種基于壓縮感知和K-SVD的單通道混合語音分離方法,其特征在于本方法利 用語音信號在K-SVD字典下的稀疏性,根據(jù)壓縮感知觀測和單通道混合語音在表達式上的 相似性,采用壓縮感知理論中的信號重構(gòu)方法,進行單通道混合語音的分離,以達到增強目 標語音抑制干擾語音的目的,采取的步驟是1)采用K-SVD算法,對男男、男女及女女三類混合訓練語音分幀,由混合訓練語音 幀對每類混合訓練語音各構(gòu)造一個普遍適用的過完備字典即K-SVD字典;2)將單通道混合語音分幀,逐幀分離單通道混合語音;基于所構(gòu)造的K-SVD字典 和各單通道混合語音幀的表達式,從壓縮感知觀測和單通道混合語音表達式的相似性出 發(fā),采用壓縮感知理論中基于IcT范數(shù)優(yōu)化的信號重構(gòu)算法,求取各源語音幀在K-SVD字典 下稀疏表示的估計,由該稀疏表示的估計和K-SVD字典的乘積,重構(gòu)得到各分離語音幀;3)將各分離語音幀順序連接,得到分離后的語音信號。上述中1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法可以是a.記χ = 為已知的單通道混合語音,其中Si(i = 1,2)為未知的源語音信 號;假設(shè)S1和S2所對應的說話人已知,將S1和S2所對應的說話人的訓練語音分幀,幀長
為L樣點/幀,取L = 128,幀間不重疊,分別記各源語音信號幀為^trailJ二Γ"和·, 將‘序連接,得到混合訓練語音巾貞·K^Cii",其中=(Cn^u)1, =IXttain(I),⑵,...,<_仏)『表示S1所對應說話人的第i幀訓練語音,
^Un = -⑴,_(2),...,4,train(L)]T表示&所對應的說話人的第i幀訓練語音,Nteain表
示各說話人的訓練語音幀數(shù),兩說話人的訓練語音幀數(shù)相同;b.采用K-SVD算法訓練構(gòu)造過完備字典Q,使各混合訓練語音幀信號在Q下滿足 重構(gòu)誤差在設(shè)定范圍的同時信號盡可能在該字典下稀疏,具體可用下面的數(shù)學式表示V/: tnin||rj|0s.t. ^ttaitli||2 ^^
其中γ i為Xtrainj在字典Q下的稀疏表示,ε表示設(shè)定的重構(gòu)誤差閾值,值為0. 1 ;2)將單通道混合語音分幀,逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀,幀長為為L樣點/幀,同樣取L = 128,幀間不重疊,逐幀 分離單通道混合語音,各幀分離單通道混合語音的方法相同;下面以第j幀單通道混合語 音分離為例,來說明分離各單通道混合語音幀的方法a.記第j幀單通道混合語音為V =S/+與,其中S/為源信號Si (i = 1,2)號的第j
幀,分+與用矩陣形式表示如下
權(quán)利要求
1.一種基于壓縮感知和K-SVD的單通道混合語音分離方法,其特征在于本方法利用 語音信號在K-SVD字典下的稀疏性,根據(jù)壓縮感知觀測和單通道混合語音在表達式上的相 似性,采用壓縮感知理論中的信號重構(gòu)方法,進行單通道混合語音的分離,以達到增強目標 語音抑制干擾語音的目的,采取的步驟是1)采用K-SVD算法,對男男、男女及女女三類混合訓練語音分幀,由混合訓練語音幀對 每類混合訓練語音各構(gòu)造一個普遍適用的過完備字典即K-SVD字典;2)將單通道混合語音分幀,逐幀分離單通道混合語音;基于所構(gòu)造的K-SVD字典和各 單通道混合語音幀的表達式,從壓縮感知觀測和單通道混合語音表達式的相似性出發(fā),采 用壓縮感知理論中基于Icr范數(shù)優(yōu)化的信號重構(gòu)算法,求取各源語音幀在K-SVD字典下稀 疏表示的估計,由該稀疏表示的估計和K-SVD字典的乘積,重構(gòu)得到各分離語音幀;3)將各分離語音幀順序連接,得到分離后的語音信號。
2.根據(jù)權(quán)利要求1所述的基于壓縮感知和K-SVD的單通道混合語音分離方法,其特征 在于1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法是a.記χ= 為已知的單通道混合語音,其中Si (i = 1,2)為未知的源語音信 號;設(shè)S1和&所對應的說話人已知,將S1和&所對應的說話人的訓練語音分幀,幀長為L樣點/幀,取L = 128,幀間不重疊,分別記各源語音信號幀為RtrainIiIr1和, 將和順序連接,得到混合訓練語音巾貞{^Xr,其中‘,=(c^u)T, =[<^ (1),<^(2),·.-,^train(L)J表示S1所對應說話人的第i幀訓練語音,=OU1⑴,4-(2),·.·,■<,_(L^f表示&所對應的說話人的第i巾貞訓練語音,Ntrain表示各說話人的訓練語音幀數(shù),兩說話人的訓練語音幀數(shù)相同;b.采用K-SVD算法訓練構(gòu)造過完備字典Q,使各混合訓練語音幀信號在Q下滿足重構(gòu) 誤差在設(shè)定范圍的同時信號盡可能在該字典下稀疏,用下面的數(shù)學式表示其中YiSAaini在字典Q下的稀疏表示,ε表示設(shè)定的重構(gòu)誤差閾值,值為0.1;2)將單通道混合語音分幀,逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀,幀長為L樣點/幀,同樣取L = 128,幀間不重疊,逐幀分離單 通道混合語音,各幀分離單通道混合語音的方法相同,對于其中第J幀a.記第j幀單通道混合語音為Y 與,其中i/為源信號Si(i = 1,2)號的第j中貞, 分二<用矩陣形式表示如下練的過程中,保證全體混合訓練語音幀在Q下具有稀疏性,故可認為
全文摘要
一種基于壓縮感知和K-SVD的單通道混合語音分離方法,采用K-SVD算法,對包括男男、男女及女女三類混合訓練語音,由混合訓練語音幀對每類混合訓練語音各構(gòu)造一個普遍適用的過完備字典即K-SVD字典,滿足重構(gòu)誤差在某一范圍的同時信號在該字典下稀疏,基于所構(gòu)造的K-SVD字典,從壓縮感知觀測和單通道混合語音表達式的相似性出發(fā),采用壓縮感知理論中基于l0-范數(shù)優(yōu)化的信號重構(gòu)算法,分離單通道混合語音,基于各單通道混合語音幀的表達式,求取各源語音幀在K-SVD字典下稀疏表示的估計,再由該稀疏表示的估計和K-SVD字典,重構(gòu)得到各分離語音幀,最后將各分離語音幀順序連接,得到分離后的語音信號。
文檔編號G10L19/00GK102081928SQ20101055669
公開日2011年6月1日 申請日期2010年11月24日 優(yōu)先權(quán)日2010年11月24日
發(fā)明者楊震, 郭海燕 申請人:南京郵電大學