專利名稱:一種基于分數階傅立葉變換的單聲道混疊語音分離方法
技術領域:
本發(fā)明涉及一種利用分數階傅立葉變換進行單聲道混疊語音分離的方法,屬于音 頻信號處理技術領域。
背景技術:
在語音和聽覺信號處理領域中,有一個重要的問題是如何從混疊語音信號中分離 出人們感興趣的語音?;殳B語音分離在語音通信、聲學目標檢測、聲音信號增強等方面都有 重要的理論意義和使用價值,但由于構成混疊語音的各個源語音信號在時域和頻域上完全 重疊,常用的語音增強方法難以將人們所感興趣的語音(稱為目標語音)從干擾語音中分 1 出來。分數階傅立葉變換(Fractional Fourier Transform, FrFT)對于分析某些非平 穩(wěn)信號具有十分優(yōu)良的特性,成為一種近年來引起信號處理界廣泛關注的工具。作為非平 穩(wěn)信號的語音,F(xiàn)rFT或者類似的變換在語音信號處理中的應用目前主要集中在以下幾個方 面語音分析,可以給出比傳統(tǒng)的傅立葉變換方法更高的時頻分辨率;基音估計,可以給出 比傳統(tǒng)方法更精確的基音估計;語音增強;語音識別;以及說話人識別等。在混疊語音分離方面的研究,主要分為聽覺場景分析(Auditory Scene Analysis,ASA)和盲源分離(Blind Source Separation,BSS)兩類。聽覺場景分析的研究 有兩種方法一種是從人的聽覺生理及心理特性出發(fā),研究人在聲音識別過程中的規(guī)律,即 聽覺場景分析;另一種是利用對人聽覺感知的研究成果建立模型,對模型進行數學分析并 用計算機來實現(xiàn)它,這是計算聽覺場景分析(Computational Auditory Scene Analysis, CASA)所要研究的內容。盲源分離是指在源信號、傳輸通道特性未知的情況下,僅由觀測信 號和源信號的一些先驗知識(如概率密度)來估計出源信號各個分量的過程。盲源分離的 獨立分量分析方法首先是由P. Comon提出,它是基于神經網絡和統(tǒng)計學的基礎發(fā)展起來的 一種技術,是一個十分活躍的前沿領域?,F(xiàn)有的混疊語音分離方法主要存在以下不足(1)聽覺場景分析和計算聽覺場景分析的研究還處于起步階段。特別是在計算聽 覺場景分析研究中,所建立的模型只能用于驗證聽覺場景分析研究中的一些不夠明了的理 論,即人腦處理聽覺信號的機制。針對盲源分離方法的研究非?;钴S,但對這個問題還沒有得到很好的解決,其涉 及到多通道卷積混疊系統(tǒng)和盲反卷積系統(tǒng)的穩(wěn)定性及相位不確定性問題,尤其是當源的數 目未知時盲反卷積問題以及帶噪聲的情況。(2)混疊語音的基頻分離提取是聽覺場景分析中實現(xiàn)混疊語音分離的關鍵,但現(xiàn) 有的混疊語音基頻分離提取方法只考慮濁音與濁音的混疊,不考慮清音與濁音的混疊。這 是因為在語音信號的清音幀中,激勵信號是無周期性的,因此估計清音幀的基頻并沒有實 際意義。不僅如此,清音幀估計出來的基頻通常隨機性強,不具有連續(xù)性,而從混疊語音中 分離提取出的基頻是以基頻的連續(xù)性來判斷其歸屬,所以,清音幀估計出的基頻會影響基音歸屬判斷,進而影響基頻的平滑處理效果。
發(fā)明內容
本發(fā)明的目的是為克服現(xiàn)有技術的缺陷,解決如何從單聲道混疊語音信號中分離 出目標語音的問題,提出一種新的基于分數階傅立葉變換的單聲道混疊語音分離方法。本發(fā)明所采用的技術方案如下一種基于分數階傅立葉變換的單聲道混疊語音分離方法,包括以下步驟步驟一、對混疊語音信號進行預處理,去除其靜音段信號,找出濁音幀。首先,對混疊語音信號進行端點檢測,去除其靜音段信號,把剩余的混疊段信號作 為處理對象。然后,對剩余混疊段信號進行分幀處理,并進行清濁音判斷,標出濁音幀。步驟二、基于分數階傅立葉變換,對經步驟一處理后的濁音幀信號進行基音檢測, 分離出混疊語音的基音軌跡,也就是每個源信號的基頻,過程如下首先,根據每幀信號的連續(xù)性計算出FrFT的階數。然后,對濁音幀信號重新進行 FrFT變換,求得諧波積譜,再用動態(tài)規(guī)劃方法提取出其中一個人的基頻,即一個源信號的基 頻。當搜出一個人的基頻之后,在諧波積譜中減去此人的基頻和諧波所對應的譜成 分,然后再使用一次動態(tài)規(guī)劃,即可得到另一個人的基頻,,即另一個源信號的基頻;重復上述過程,即可得到每個源信號的基頻。步驟三、由于語音信號能夠用一組正弦信號的疊加表示,因此,根據經步驟二得到 的各條基頻,結合語音信號的正弦模型來合成語音,從而得到分離后的各個語音信號。本發(fā)明的積極效果和優(yōu)點在于1.使用本發(fā)明方法,可有效的分離并提取出多個混疊語音的基頻,從而實現(xiàn)混疊 語音的有效分離。2.采用基于FrFT代替?zhèn)鹘y(tǒng)的FFT (短時傅立葉變換)來提取基音頻率,減少了諧 波頻譜的延展。3.由于每幀信號都有其固有的調制頻率,使用FrFT可以選擇合適的階數使其符 合信號固有的調頻率,從而得到更為準確的原始信號的基頻。本發(fā)明尤其適用于分離含有兩個人語音的單聲道混疊語音。
圖1為本發(fā)明方法的實現(xiàn)流程框圖。圖2為本發(fā)明方法中的基于分數階傅立葉變換的混疊語音基音檢測流程圖。
具體實施例方式下面結合附圖對本發(fā)明的優(yōu)選實施方式作進一步說明。一種基于分數階傅立葉變換的單聲道混疊語音分離方法,其實現(xiàn)流程如圖1所 示,包括以下步驟步驟一、對混疊語音信號進行預處理,去除其靜音段信號,找出濁音幀。
首先,對混疊語音信號進行端點檢測,去除其靜音段信號,把剩余的混疊段信號作 為處理對象。端點檢測可采用短時能量和過零率相結合的方法。然后,對剩余混疊段信號進行分幀處理,分幀時的幀長為20ms,幀移為10ms。此 時,進行清濁音判斷,并標出濁音幀?;殳B語音信號的清濁音判斷與單個語音的判斷稍有不 同,兩個混疊語音的清濁情況有3種雙濁音、一清一濁、雙清音?;殳B語音的清濁音判斷分 為兩步先判斷兩個混疊信號是否為雙清音,若是,判斷結束,若不是,再判斷兩混疊信號是 一清一濁還是雙濁音。對于一清一濁,只對濁音幀進行后續(xù)處理,不處理清音幀。對于雙清 音信號,同樣不對其進行處理。步驟二、采用基于分數階傅立葉變換方式,對經步驟一處理后的濁音幀進行基音 檢測,分離出混疊語音的基音軌跡,也就是分離出每個源信號的基頻。其實現(xiàn)流程如圖2所7J\ ο首先,根據每幀信號的連續(xù)性,計算出FrFT的階數??紤]到目的是求解語音信號 的基頻,而且是用幀問連續(xù)的特性來搜索基頻,F(xiàn)rFT的階數α ,與前后兩幀的基頻密切相 關,因此用下式表示
權利要求
1.一種基于分數階傅立葉變換的單聲道混疊語音分離方法,其特征在于包括以下步驟步驟一、對混疊語音信號進行預處理,去除其靜音段信號,找出濁音幀; 步驟二、基于分數階傅立葉變換,對經步驟一處理后的濁音幀信號進行基音檢測,分離 出混疊語音的基音軌跡,也就是每個源信號的基頻,過程如下首先,根據每幀信號的連續(xù)性計算出FrFT的階數,然后,對濁音幀信號重新進行FrFT 變換,求得諧波積譜,再用動態(tài)規(guī)劃方法提取出其中一個人的基頻,即一個源信號的基頻;當搜出一個人的基頻之后,在諧波積譜中減去此人的基頻和諧波所對應的譜成分,然 后再使用一次動態(tài)規(guī)劃,可得到另一個人的基頻,即另一個源信號的基頻; 重復上述過程,即可得到每個源信號的基頻;步驟三、根據經步驟二得到的各條基頻,結合語音信號的正弦模型來合成語音,從而得 到分離后的各個語音信號。
2.如權利要求1所述的一種基于分數階傅立葉變換的單聲道混疊語音分離方法,其 特征在于,所述步驟一中,當去除靜音段信號后,對剩余混疊段信號進行分幀處理的方法如 下分幀時的幀長為20ms,幀移為10ms,此時,進行清濁音判斷,并標出濁音幀;混疊語音 的清濁音判斷分為兩步先判斷兩個混疊信號是否為雙清音,若是,判斷結束,若不是,再判 斷兩混疊信號是一清一濁還是雙濁音;對于一清一濁,只對濁音幀進行后續(xù)處理,不處理清 音幀;對于雙清音信號,同樣不對其進行處理。
3.如權利要求1或2所述的一種基于分數階傅立葉變換的單聲道混疊語音分離方法, 其特征在于,在步驟二中,當計算FrFT的階數時,F(xiàn)rFT的階數α ,與前后兩幀的基頻用下式 表不
4.如權利要求1或2所述的一種基于分數階傅立葉變換的單聲道混疊語音分離方法, 其特征在于,當計算出FrFT的階數后,對經步驟一處理后得到的濁音幀信號重新進行FrFT 變換,求得諧波積譜,再用動態(tài)規(guī)劃方法提取出其中一條基音軌跡,也就是基頻,其具體過 程如下(1)對濁音幀信號x(n),采用下式進行N點的分數階傅立葉變換,得到其幅度譜Χ(α,k)
全文摘要
本發(fā)明涉及一種基于分數階傅立葉變換的單聲道混疊語音分離方法,屬于音頻信號處理技術領域。首先對混疊語音信號進行預處理,去除其靜音段信號,找出濁音幀。然后,基于分數階傅立葉變換,濁音幀信號進行基音檢測,分離出混疊語音的基頻,最后各條基頻結合語音信號的正弦模型來合成語音,從而得到分離后的各個語音信號。本發(fā)明可有效的分離并提取出多個混疊語音的基頻,最終實現(xiàn)混疊語音的有效分離;采用基于FrFT代替?zhèn)鹘y(tǒng)的FFT來提取基音頻率,減少了諧波頻譜的延展,得到更為準確的原始信號的基頻。本發(fā)明尤其適用于分離含有兩個人語音的單聲道混疊語音。
文檔編號G10L11/00GK102054480SQ20091023590
公開日2011年5月11日 申請日期2009年10月29日 優(yōu)先權日2009年10月29日
發(fā)明者匡鏡明, 茹婷婷, 謝湘 申請人:北京理工大學