基于壓縮感知和k-svd的單通道混合語音分離方法

文檔序號：2830204閱讀：592來源：國知局

專利名稱：基于壓縮感知和k-svd的單通道混合語音分離方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一類特殊的語音增強范疇一語音分離，尤其涉及一種基于壓縮感知和 K-SVD的單通道混合語音分離方法，屬于語音信號處理的技術(shù)領(lǐng)域，
背景技術(shù)：
語音是人類最方便最直接也最常用的交流方式。然而，在實際環(huán)境中，人們在獲取語音信號的同時不可避免地會受到周圍環(huán)境噪聲的干擾，這些干擾一方面會影響語音處理系統(tǒng)(例如語音識別系統(tǒng))的性能，另一方面會影響人耳對語音的感知和理解。因此，語音增強顯得尤為必要。語音分離是一類特殊的語音增強方法，其噪聲對象一般為難以處理的類語音噪聲，是在源語音信號和傳輸信道參數(shù)(即混合過程)未知的情況下，僅根據(jù)從麥克風采集到的觀測數(shù)據(jù)(即混合語音信號)，來恢復或分離出獨立的源語音信號的過程。其目的是增強目標語音，抑制干擾語音。目標語音和干擾語音性質(zhì)的相似性，決定了語音分離在各類語音增強方法中難度是最大的。單通道混合語音分離要求從一個麥克風采集得到的混合語音信號中，分離出彼此獨立的多個源語音信號，因已知條件最少而難度更大。但由于一個麥克風是最容易布設(shè)也是最常用的，所以單通道混合語音分離技術(shù)如果可以突破，則具有的實際應用價值最大。目前單通道混合語音分離主要有三類主要方法基于統(tǒng)計模型的單通道混合語音分離方法，計算機聽覺場景分析和基于投影分解的單通道混合語音分離方法?；诮y(tǒng)計模型的單通道混合語音分離方法是建立在對信號訓練建模基礎(chǔ)上的，通常分為三步第一步，對各源語音信號或其特征參數(shù)建模，通過訓練確立各源語音信號模型的參數(shù)；第二步，以混合語音信號和源語音信號模型為已知條件，根據(jù)合適的準則，選擇源語音信號中的若干成分來最優(yōu)地組成混合語音信號；第三步，由選取的各源語音信號成分直接組成分離后的各源語音，或者先形成相應的濾波器，再預測出各源語音信號。計算機聽覺場景分析方法通過模仿人耳聽覺系統(tǒng)來進行語音分離，核心為分離，由分段和組合兩部分組成。分段是將混合語音分解為一系列的感覺段，各分離語音信號的每個感覺段要求來自于同個源語音信號。組合是把來自于相同源信號的感覺段合并起來，形成對應源信號的流?；谕队胺纸獾膯?通道混合語音分離方法，一般是先通過機器學習構(gòu)造合適的基函數(shù)或字典，再由概率方法或最優(yōu)化方法，預測出源語音信號在某基函數(shù)或某字典下的投影向量，最后由預測的投影向量和相應的基函數(shù)或字典重構(gòu)得到分離后的語音信號。從分離方法上看基于概率統(tǒng)計模型的單通道混合語音分離算法側(cè)重于概率方法，在概率建模的基礎(chǔ)上實現(xiàn)混合語音的分離，需要預先訓練；計算機聽覺場景分析方法 (CASA)側(cè)重于生物模擬方法，通過模擬人耳聽覺實現(xiàn)混合語音的分離，不需要預先訓練；基于投影分解的單通道混合語音分離算法側(cè)重于機器學習，通過機器學習構(gòu)造合適的基函數(shù)或字典，在此基礎(chǔ)上實現(xiàn)混合語音的分離，需要預先訓練。從分離性能上看整體而言，基于投影分解的單通道混合語音分離算法的分離性能最好，基于概率統(tǒng)計模型的單通道混合語音分離算法的分離性能次之，CASA的分離性能最差。從算法復雜度上看CASA通過模擬人耳聽覺來進行語音分離，并需要對語音的分段重組進行多次調(diào)整，復雜度最高。基于投影分解的單通道混合語音分離算法與基于概率統(tǒng)計模型的單通道混合語音分離算法，都基于數(shù)學概率模型或優(yōu)化方法，故總體而言，復雜度相差不大。從發(fā)展?jié)摿ι峡?，三者各有?yōu)缺點，都有自己的發(fā)展空間。雖然目前單通道混合語音分離的研究取得了一定的成果，但總體都算法復雜度偏高，且性能雖源語音信號的不同而差別較大，另外在訓練階段對訓練數(shù)據(jù) 有特殊的要求，故整體而言，實用性不強，有待改進，以便具體應用。

發(fā)明內(nèi)容
本發(fā)明提供一種基于壓縮感知和K-SVD的單通道混合語音分離方法，其目的重在考慮實用性，設(shè)計對訓練數(shù)據(jù)沒有特殊要求，且性能穩(wěn)定的單通道混合語音分離方法，以能增強目標語音，降低干擾語音。本方法利用語音信號在K-SVD字典下的稀疏性，根據(jù)壓縮感知觀測和單通道混合語音在表達式上的相似性，采用壓縮感知理論中的信號重構(gòu)方法，來進行單通道混合語音的分離，以達到增強目標語音抑制干擾語音的目的。為實現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案一種基于壓縮感知和K-SVD的單通道混合語音分離方法，其特征在于本方法利用語音信號在K-SVD字典下的稀疏性，根據(jù)壓縮感知觀測和單通道混合語音在表達式上的相似性，采用壓縮感知理論中的信號重構(gòu)方法，進行單通道混合語音的分離，以達到增強目標語音抑制干擾語音的目的，采取的步驟是1)采用K-SVD算法，對男男、男女及女女三類混合訓練語音分幀，由混合訓練語音幀對每類混合訓練語音各構(gòu)造一個普遍適用的過完備字典即K-SVD字典；2)將單通道混合語音分幀，逐幀分離單通道混合語音；基于所構(gòu)造的K-SVD字典和各單通道混合語音幀的表達式，從壓縮感知觀測和單通道混合語音表達式的相似性出發(fā)，采用壓縮感知理論中基于IcT范數(shù)優(yōu)化的信號重構(gòu)算法，求取各源語音幀在K-SVD字典下稀疏表示的估計，由該稀疏表示的估計和K-SVD字典的乘積，重構(gòu)得到各分離語音幀；3)將各分離語音幀順序連接，得到分離后的語音信號。上述中1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法可以是a.記χ = 為已知的單通道混合語音，其中Si(i = 1，2)為未知的源語音信號；假設(shè)S1和S2所對應的說話人已知，將S1和S2所對應的說話人的訓練語音分幀，幀長
為L樣點/幀，取L = 128，幀間不重疊，分別記各源語音信號幀為^trailJ二Γ"和·，將‘序連接，得到混合訓練語音巾貞·K^Cii"，其中=(Cn^u)1， =IXttain(I),⑵,...，<_仏)『表示S1所對應說話人的第i幀訓練語音，
^Un = -⑴，_(2),...,4,train(L)]T表示&所對應的說話人的第i幀訓練語音，Nteain表
示各說話人的訓練語音幀數(shù)，兩說話人的訓練語音幀數(shù)相同；b.采用K-SVD算法訓練構(gòu)造過完備字典Q，使各混合訓練語音幀信號在Q下滿足重構(gòu)誤差在設(shè)定范圍的同時信號盡可能在該字典下稀疏，具體可用下面的數(shù)學式表示V/: tnin||rj|0s.t. ^ttaitli||2 ^^
其中γ i為Xtrainj在字典Q下的稀疏表示，ε表示設(shè)定的重構(gòu)誤差閾值，值為0. 1 ；2)將單通道混合語音分幀，逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀，幀長為為L樣點/幀，同樣取L = 128，幀間不重疊，逐幀分離單通道混合語音，各幀分離單通道混合語音的方法相同；下面以第j幀單通道混合語音分離為例，來說明分離各單通道混合語音幀的方法a.記第j幀單通道混合語音為V =S/+與，其中S/為源信號Si (i = 1,2)號的第j
幀，分+與用矩陣形式表示如下
權(quán)利要求
1.一種基于壓縮感知和K-SVD的單通道混合語音分離方法，其特征在于本方法利用語音信號在K-SVD字典下的稀疏性，根據(jù)壓縮感知觀測和單通道混合語音在表達式上的相似性，采用壓縮感知理論中的信號重構(gòu)方法，進行單通道混合語音的分離，以達到增強目標語音抑制干擾語音的目的，采取的步驟是1)采用K-SVD算法，對男男、男女及女女三類混合訓練語音分幀，由混合訓練語音幀對每類混合訓練語音各構(gòu)造一個普遍適用的過完備字典即K-SVD字典；2)將單通道混合語音分幀，逐幀分離單通道混合語音；基于所構(gòu)造的K-SVD字典和各單通道混合語音幀的表達式，從壓縮感知觀測和單通道混合語音表達式的相似性出發(fā)，采用壓縮感知理論中基于Icr范數(shù)優(yōu)化的信號重構(gòu)算法，求取各源語音幀在K-SVD字典下稀疏表示的估計，由該稀疏表示的估計和K-SVD字典的乘積，重構(gòu)得到各分離語音幀；3)將各分離語音幀順序連接，得到分離后的語音信號。
2.根據(jù)權(quán)利要求1所述的基于壓縮感知和K-SVD的單通道混合語音分離方法，其特征在于1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法是a.記χ= 為已知的單通道混合語音，其中Si (i = 1,2)為未知的源語音信號；設(shè)S1和&所對應的說話人已知，將S1和&所對應的說話人的訓練語音分幀，幀長為L樣點/幀，取L = 128，幀間不重疊，分別記各源語音信號幀為RtrainIiIr1和，將和順序連接，得到混合訓練語音巾貞{^Xr，其中‘,=(c^u)T， =[<^ (1),<^(2),·.-,^train(L)J表示S1所對應說話人的第i幀訓練語音，=OU1⑴，4-(2),·.·，■<,_(L^f表示&所對應的說話人的第i巾貞訓練語音，Ntrain表示各說話人的訓練語音幀數(shù)，兩說話人的訓練語音幀數(shù)相同；b.采用K-SVD算法訓練構(gòu)造過完備字典Q，使各混合訓練語音幀信號在Q下滿足重構(gòu) 誤差在設(shè)定范圍的同時信號盡可能在該字典下稀疏，用下面的數(shù)學式表示其中YiSAaini在字典Q下的稀疏表示，ε表示設(shè)定的重構(gòu)誤差閾值，值為0.1;2)將單通道混合語音分幀，逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀，幀長為L樣點/幀，同樣取L = 128，幀間不重疊，逐幀分離單通道混合語音，各幀分離單通道混合語音的方法相同，對于其中第J幀a.記第j幀單通道混合語音為Y 與，其中i/為源信號Si(i = 1,2)號的第j中貞，分二<用矩陣形式表示如下練的過程中，保證全體混合訓練語音幀在Q下具有稀疏性，故可認為
全文摘要
一種基于壓縮感知和K-SVD的單通道混合語音分離方法，采用K-SVD算法，對包括男男、男女及女女三類混合訓練語音，由混合訓練語音幀對每類混合訓練語音各構(gòu)造一個普遍適用的過完備字典即K-SVD字典，滿足重構(gòu)誤差在某一范圍的同時信號在該字典下稀疏，基于所構(gòu)造的K-SVD字典，從壓縮感知觀測和單通道混合語音表達式的相似性出發(fā)，采用壓縮感知理論中基于l0-范數(shù)優(yōu)化的信號重構(gòu)算法，分離單通道混合語音，基于各單通道混合語音幀的表達式，求取各源語音幀在K-SVD字典下稀疏表示的估計，再由該稀疏表示的估計和K-SVD字典，重構(gòu)得到各分離語音幀，最后將各分離語音幀順序連接，得到分離后的語音信號。
文檔編號G10L19/00GK102081928SQ20101055669
公開日2011年6月1日申請日期2010年11月24日優(yōu)先權(quán)日2010年11月24日
發(fā)明者楊震, 郭海燕申請人:南京郵電大學

完整全部詳細技術(shù)資料下載