本發(fā)明涉及語(yǔ)音信號(hào)處理領(lǐng)域,尤其是一種基于室內(nèi)多移動(dòng)源實(shí)時(shí)處理的語(yǔ)音信號(hào)增強(qiáng)技術(shù)方法。
背景技術(shù):
語(yǔ)音信號(hào)是人類傳播信息和交流情感的重要媒體,是聽(tīng)覺(jué)器官對(duì)聲音傳媒介質(zhì)機(jī)械振動(dòng)的感知。在現(xiàn)實(shí)生活中,室內(nèi)語(yǔ)音信號(hào)經(jīng)常會(huì)受到噪聲和房間混響的干擾,這不僅影響人們的聽(tīng)覺(jué)質(zhì)量,而且對(duì)語(yǔ)音處理的其它環(huán)節(jié)也會(huì)產(chǎn)生影響,因此必須采用信號(hào)處理技術(shù)對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行增強(qiáng)處理。語(yǔ)音分離是從得到的混合信號(hào)中分離出所有的信號(hào)分量,語(yǔ)音增強(qiáng)是要從混合信號(hào)中得到其中一路語(yǔ)音信號(hào),而將其它成分看作背景噪聲,語(yǔ)音增強(qiáng)可以看作是語(yǔ)音分離的特殊情況。盲源分離是指在不知道語(yǔ)音源信號(hào)分布和混合方式的情況下,僅根據(jù)觀測(cè)到的多路混合信號(hào)恢復(fù)語(yǔ)音源信號(hào)的過(guò)程。由于盲源分離無(wú)需知道語(yǔ)音源信號(hào)的先驗(yàn)信息,從而在語(yǔ)音信號(hào)處理領(lǐng)域中得到了廣泛的應(yīng)用。
基于室內(nèi)的移動(dòng)語(yǔ)音源是指在幾平米到幾十平米范圍內(nèi),以低于10m/s的速度自由移動(dòng)的人所產(chǎn)生的語(yǔ)音。室內(nèi)移動(dòng)語(yǔ)音增強(qiáng)的主要目標(biāo)是在多人所產(chǎn)生的混合語(yǔ)音信號(hào)中,盡可能地分離并提取出所需的某一路純凈移動(dòng)語(yǔ)音源信號(hào)。這里有兩個(gè)度量標(biāo)準(zhǔn):一個(gè)是主觀度量,以改進(jìn)語(yǔ)音質(zhì)量、消除背景噪聲,使聽(tīng)者不感覺(jué)疲勞為目的;二是客觀度量,以提高語(yǔ)音可懂度和信噪比為目的。然而,一般情況下,室內(nèi)噪聲干擾包括多路移動(dòng)語(yǔ)音源之間的相互串?dāng)_、房間混響、語(yǔ)音延遲,這些都是隨機(jī)事件因素,要完全消除室內(nèi)噪聲幾乎是不可能的,所以語(yǔ)音增強(qiáng)的目標(biāo)對(duì)收聽(tīng)人而言主要是改善語(yǔ)音質(zhì)量,提高語(yǔ)音可懂度,減少疲勞感;對(duì)語(yǔ)音處理系統(tǒng)而言是提高系統(tǒng)的識(shí)別率和抗干擾能力,提高系統(tǒng)的穩(wěn)定性?,F(xiàn)有的某些語(yǔ)音增強(qiáng)算法,能顯著降低背景噪聲,提高信噪比,改善語(yǔ)音質(zhì)量,但一般都不能提高語(yǔ)音可懂度,在很多情況下處理后雖然信噪比提高了,但可懂度卻下降了。所以改善語(yǔ)音質(zhì)量和提高語(yǔ)音可懂度是難以同時(shí)達(dá)到的兩個(gè)目標(biāo),需要根據(jù)語(yǔ)音增強(qiáng)的具體應(yīng)用場(chǎng)合做出不同的選擇。
室內(nèi)移動(dòng)語(yǔ)音增強(qiáng)的主要目標(biāo)是在多人所產(chǎn)生的混合語(yǔ)音信號(hào)中,盡可能地分離并提取出所需的某一路純凈移動(dòng)語(yǔ)音源信號(hào)。這里有兩個(gè)度量標(biāo)準(zhǔn):一個(gè)是主觀度量,以改進(jìn)語(yǔ)音質(zhì)量、消除背景噪聲,使聽(tīng)者不感覺(jué)疲勞為目的;二是客觀度量,以提高語(yǔ)音可懂度和信噪比為目的。然而,一般情況下,室內(nèi)噪聲干擾包括多路移動(dòng)語(yǔ)音源之間的相互串?dāng)_、房間混響、語(yǔ)音延遲,這些都是隨機(jī)事件因素,要完全消除室內(nèi)噪聲幾乎是不可能的,所以語(yǔ)音增強(qiáng)的目標(biāo)對(duì)收聽(tīng)人而言主要是改善語(yǔ)音質(zhì)量,提高語(yǔ)音可懂度,減少疲勞感;對(duì)語(yǔ)音處理系統(tǒng)而言是提高系統(tǒng)的識(shí)別率和抗干擾能力,提高系統(tǒng)的穩(wěn)定性。現(xiàn)有的某些語(yǔ)音增強(qiáng)算法,能顯著降低背景噪聲,提高信噪比,改善語(yǔ)音質(zhì)量,但一般都不能提高語(yǔ)音可懂度,在很多情況下處理后雖然信噪比提高了,但可懂度卻下降了。所以改善語(yǔ)音質(zhì)量和提高語(yǔ)音可懂度是難以同時(shí)達(dá)到的兩個(gè)目標(biāo),需要根據(jù)語(yǔ)音增強(qiáng)的具體應(yīng)用場(chǎng)合做出不同的選擇。
由于噪聲來(lái)源眾多,隨應(yīng)用場(chǎng)合而異,特性各不相同,增加了室內(nèi)移動(dòng)語(yǔ)音增強(qiáng)的復(fù)雜性。而且語(yǔ)音增強(qiáng)不僅僅是一個(gè)數(shù)字信號(hào)處理技術(shù)方面的問(wèn)題,還涉及到人的聽(tīng)覺(jué)感知和語(yǔ)音學(xué),所以是一個(gè)多領(lǐng)域交叉的復(fù)雜技術(shù)。要想理想地設(shè)計(jì)出一種算法來(lái)解決所有的噪聲是不現(xiàn)實(shí)的,只能針對(duì)不同的噪聲情況,采取不同的語(yǔ)音增強(qiáng)算法。盡管目前有了很多較好的語(yǔ)音分離算法,但是大多數(shù)盲信號(hào)分離算法是基于瞬時(shí)、線性混合模型的,而在實(shí)際語(yǔ)音信號(hào)處理中,系統(tǒng)接收到的混合輸入信號(hào)是語(yǔ)音源信號(hào)經(jīng)不同的傳播途徑到達(dá)拾音器,經(jīng)拾音器的聲電轉(zhuǎn)換、模擬變換形成系統(tǒng)的數(shù)字信號(hào)輸入,故而不可避免地存在時(shí)延和濾波效應(yīng),需要進(jìn)一步研究新的算法。如在安防系統(tǒng)中室內(nèi)拾音器記錄下來(lái)的語(yǔ)音信號(hào),有多人說(shuō)話、位置不固定,存在房間多途徑反射混響等特點(diǎn),不易辨識(shí),為了更好的對(duì)記錄下的數(shù)據(jù)進(jìn)行分析,有必要先將混疊的聲信號(hào)進(jìn)行盲分離,得到多路聲源,再對(duì)各路源信號(hào)進(jìn)行具體分析,以便找到更適合、更有效的語(yǔ)音增強(qiáng)后處理方法。
目前國(guó)際、國(guó)內(nèi)對(duì)BSS算法的研究工作仍處在不斷發(fā)展的階段,新的理論和新的方法還在源源不斷地涌現(xiàn)。到目前為止,對(duì)盲源分離的研究主要分為兩個(gè)類別,即線性盲源分離算法和非線性盲源分離算法。其中,以獨(dú)立分量分析(ICA)算法為代表的線性盲源分離技術(shù)已經(jīng)相對(duì)較為成熟,但分離估計(jì)出的語(yǔ)音波形存在以下問(wèn)題:⑴無(wú)法確定獨(dú)立分量的幅值;⑵無(wú)法確定獨(dú)立分量的次序。
線性BSS算法大部分是基于平穩(wěn)環(huán)境、統(tǒng)計(jì)獨(dú)立和線性混疊等假設(shè)條件,而實(shí)際的源信號(hào)通過(guò)傳感器時(shí),很可能會(huì)發(fā)生非線性畸變或混合,觀測(cè)信號(hào)常常是非線性或者弱非線性的,如果應(yīng)用線性語(yǔ)音BSS算法,對(duì)于充分描述觀測(cè)數(shù)據(jù)來(lái)說(shuō)過(guò)于簡(jiǎn)單,對(duì)于非線性混合問(wèn)題可能失效或者導(dǎo)致完全錯(cuò)誤的結(jié)論。文獻(xiàn)中,指出如果在混合過(guò)程中存在噪聲,那么意味著觀測(cè)數(shù)據(jù)和源信號(hào)的關(guān)系存在非線性,則帶噪聲混合可近似看成一種非線性混合過(guò)程,故非線性的情況是廣泛存在的。但是,由于非線性語(yǔ)音BSS的隨機(jī)性、復(fù)雜性,目前的研究瓶頸是:
⑴對(duì)于源信號(hào)數(shù)目未知、源信號(hào)數(shù)目大于觀測(cè)信號(hào)數(shù)目及存在系統(tǒng)噪聲情況下的非線性語(yǔ)音BSS算法模型的設(shè)計(jì);⑵由于非線性BSS是一個(gè)“病態(tài)”問(wèn)題,所以對(duì)于它的可分離性還需更進(jìn)一步的驗(yàn)證研究;⑶尋找源信號(hào)和觀測(cè)信號(hào)之間的聯(lián)系,用于指導(dǎo)如何選擇適當(dāng)?shù)姆蛛x算法,降低BSS的復(fù)雜度;⑷由于非線性語(yǔ)音BSS的解的不確定性,如何充分利用某些源信號(hào)的先驗(yàn)信息,來(lái)解決非線性BSS問(wèn)題。
針對(duì)線性與非線性盲源分離算法中存在的問(wèn)題,本發(fā)明采用了盲源分離與后處理相結(jié)合的語(yǔ)音增強(qiáng)算法,解決室內(nèi)移動(dòng)源語(yǔ)音實(shí)時(shí)去噪問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供一種基于室內(nèi)多移動(dòng)源實(shí)時(shí)處理的語(yǔ)音信號(hào)增強(qiáng)技術(shù)方法。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:
一種基于室內(nèi)多移動(dòng)源實(shí)時(shí)處理的語(yǔ)音信號(hào)增強(qiáng)技術(shù)方法,其步驟包括有數(shù)學(xué)建模,仿真平臺(tái),盲源分離,語(yǔ)音后處理,算法優(yōu)化,算法移植現(xiàn)場(chǎng)檢測(cè)和提交應(yīng)用。
本發(fā)明還具有以下附加技術(shù)特征:
進(jìn)一步具體優(yōu)化的,所述盲源分離對(duì)源信號(hào)及其系統(tǒng)的先驗(yàn)假設(shè)較少,利用信號(hào)的統(tǒng)計(jì)獨(dú)立性、概率分布特性、二階統(tǒng)計(jì)量、高階統(tǒng)計(jì)量或者信號(hào)的頻域特性以及時(shí)頻特性,建立目標(biāo)函數(shù),得到分離算法;應(yīng)用盲源分離算法實(shí)現(xiàn)移動(dòng)語(yǔ)音增強(qiáng),由于源信號(hào)處于不斷移動(dòng)的過(guò)程,該盲源分離系統(tǒng)中對(duì)應(yīng)的混合系統(tǒng)也是時(shí)變的;基本的時(shí)變系統(tǒng)跟蹤方法是在線算法,該算法根據(jù)源信號(hào)所處位置的不同來(lái)不斷更新分離系統(tǒng)。
進(jìn)一步具體優(yōu)化的,所述語(yǔ)音后處理采用傳統(tǒng)的譜減法或采用語(yǔ)音增強(qiáng)其它算法,傳統(tǒng)譜減法語(yǔ)音增強(qiáng)在估計(jì)噪聲譜時(shí),需假定平穩(wěn)噪聲和信號(hào)源統(tǒng)計(jì)獨(dú)立。
進(jìn)一步具體優(yōu)化的,所述算法優(yōu)化在線性BSS串?dāng)_成分系統(tǒng)的脈沖響應(yīng)中,線性干擾通過(guò)BSS完全清除,剩余的非線性串?dāng)_成分源自混響,自適應(yīng)建模,根據(jù)移動(dòng)語(yǔ)音實(shí)時(shí)更新算法,消除非線性的殘留串?dāng)_。
進(jìn)一步具體優(yōu)化的,具體研究方法步驟如下:
⑴研究與移動(dòng)語(yǔ)音源自適應(yīng)的盲源分離算法;
在這一階段需要研究基于頻域的獨(dú)立分量分析在這一階段需要研究基于頻域的獨(dú)立分量分析(ICA)與矩陣更新算法;一個(gè)混合系統(tǒng)當(dāng)源信號(hào)移動(dòng)時(shí)是時(shí)變的,由于室內(nèi)語(yǔ)音源信號(hào)處于不斷移動(dòng)的過(guò)程,因此該盲源分離系統(tǒng)中對(duì)應(yīng)的混合系統(tǒng)也是時(shí)變的。根據(jù)源信號(hào)所處位置不同來(lái)不斷自適應(yīng)更新盲源分離系統(tǒng)參數(shù),建立動(dòng)態(tài)的分離矩陣,實(shí)現(xiàn)移動(dòng)語(yǔ)音的實(shí)時(shí)盲分離;
⑵研究移動(dòng)語(yǔ)音增強(qiáng)的后處理算法;
本階段需要研究完成串?dāng)_成分估計(jì)的后處理;為了補(bǔ)償室內(nèi)干擾信號(hào)移動(dòng)時(shí)對(duì)系統(tǒng)的影響,需要對(duì)盲源分離后語(yǔ)音進(jìn)行后置處理;通過(guò)采用自適應(yīng)波束形成的算法,模擬室內(nèi)空間各向的干擾信號(hào),作為干擾移動(dòng)源的魯棒性信號(hào),或估算出剩余串?dāng)_成分,提高算法精度;
⑶研究語(yǔ)音混響的殘留串?dāng)_消除算法;
本階段需要研究在先前語(yǔ)音處理的基礎(chǔ)上進(jìn)行混響的消除;通過(guò)后處理算法,將移動(dòng)語(yǔ)音中的線性干擾脈沖去除,剩余的非線性殘留串?dāng)_成分源自房間混響,需要根據(jù)房間的面積不同及反射情況實(shí)時(shí)更新算法,獲取實(shí)時(shí)參數(shù)、自適應(yīng)建模及利用譜減法經(jīng)典語(yǔ)音增強(qiáng)算法,實(shí)現(xiàn)串?dāng)_濾除。
本發(fā)明和現(xiàn)有技術(shù)相比,其優(yōu)點(diǎn)在于:本發(fā)明的完成,可為建筑物內(nèi)安防系統(tǒng)監(jiān)聽(tīng)中的多話音辨識(shí)等類似特殊場(chǎng)合的語(yǔ)音增強(qiáng)技術(shù)奠定更為堅(jiān)實(shí)的理論基礎(chǔ),豐富當(dāng)前語(yǔ)音增強(qiáng)技術(shù),并有可能激發(fā)新的研究方向。理論方面,盲源分離可以為實(shí)際環(huán)境中各種語(yǔ)音分離、弱信號(hào)檢測(cè)帶來(lái)新的啟示。在應(yīng)用層面,一方面最大程度改善了對(duì)高質(zhì)量移動(dòng)源語(yǔ)音信號(hào)的處理時(shí)間,實(shí)現(xiàn)了寺廟、監(jiān)舍等特殊建筑物內(nèi)多種類似特殊場(chǎng)合中的多人語(yǔ)音實(shí)時(shí)監(jiān)聽(tīng),維護(hù)了社會(huì)治安穩(wěn)定;另一方面使得許多原來(lái)需要大量耗費(fèi)人力物力資源的語(yǔ)音監(jiān)聽(tīng)工作以及事后取證工作,得以在更多場(chǎng)合、便捷地展開(kāi),從而拓寬了應(yīng)用的場(chǎng)景和可能性,為數(shù)字化語(yǔ)音的諸多應(yīng)用場(chǎng)景提供了更強(qiáng)有力的支持和幫助。綜上所述,基于室內(nèi)移動(dòng)語(yǔ)音源盲源分離語(yǔ)音增強(qiáng)算法的研究,是一項(xiàng)具有重要理論價(jià)值和廣泛應(yīng)用前景的工作。
本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1總體研究目標(biāo)系統(tǒng)模型示意圖;
圖2盲源分離系統(tǒng)模型示意圖;
圖3移動(dòng)語(yǔ)音線性后處理系統(tǒng)模型示意圖;
圖4非線性混響殘留串?dāng)_消除模型示意圖;
圖5發(fā)明技術(shù)路線示意示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
一種基于室內(nèi)多移動(dòng)源實(shí)時(shí)處理的語(yǔ)音信號(hào)增強(qiáng)技術(shù)方法,其步驟包括有數(shù)學(xué)建模,系統(tǒng)仿真,盲源分離,語(yǔ)音后處理,算法優(yōu)化,算法移植現(xiàn)場(chǎng)檢測(cè)和提交應(yīng)用。
本發(fā)明針對(duì)室內(nèi)移動(dòng)源語(yǔ)音的盲源分離,以盲源分離算法為主要工作對(duì)象,研究與移動(dòng)語(yǔ)音自適應(yīng)的盲源分離算法、語(yǔ)音后處理增強(qiáng)算法、室內(nèi)混響環(huán)境中殘留串?dāng)_的消除算法。
盲源分離算法研究。應(yīng)用盲源分離算法實(shí)現(xiàn)移動(dòng)語(yǔ)音增強(qiáng),由于源信號(hào)處于不斷移動(dòng)的過(guò)程,因此該盲源分離系統(tǒng)中對(duì)應(yīng)的混合系統(tǒng)也是時(shí)變的?;镜臅r(shí)變系統(tǒng)跟蹤方法是在線算法,用于實(shí)現(xiàn)盲源分離、話者識(shí)別。該算法根據(jù)源信號(hào)所處位置不同來(lái)不斷更新分離系統(tǒng),首先采用基于頻域的獨(dú)立分量分析(ICA)與批量算法,采用基于頻域ICA時(shí),需要對(duì)每一個(gè)數(shù)據(jù)塊(尤其是當(dāng)塊的長(zhǎng)度較短時(shí))進(jìn)行排列,可使用鄰頻幅角比排序法和自適應(yīng)耦合法,解決排序和頻點(diǎn)不確定問(wèn)題。批量算法的另一個(gè)內(nèi)在的問(wèn)題是輸入輸出延遲,為了減少這種延遲,無(wú)須等分離系統(tǒng)的計(jì)算全部完成,可采用一些語(yǔ)音信號(hào)處理技術(shù)來(lái)計(jì)算輸出信號(hào),這些技術(shù)有助于低時(shí)延、實(shí)時(shí)BSS的實(shí)現(xiàn)。
此外,移動(dòng)語(yǔ)音信號(hào)可看成是由獨(dú)立的高階統(tǒng)計(jì)信息組成的,獨(dú)立分量分析提取出的基函數(shù)是建立在高階統(tǒng)計(jì)信息之上的,可準(zhǔn)確的描述信號(hào)某一時(shí)段的二階及高階統(tǒng)計(jì)信息,反映出信號(hào)的內(nèi)在變化特征,從而較二階信息具有較高的編碼效率;另一方面,人腦能夠在聽(tīng)到任意幾個(gè)字的發(fā)音后即可判斷出說(shuō)話人,可見(jiàn)語(yǔ)音信號(hào)中包含了語(yǔ)義及聲學(xué)兩方面的信息,并且在一定程度上可認(rèn)為聲學(xué)信息是獨(dú)立于語(yǔ)義信息的,正好與人腦能夠在聽(tīng)到任意幾個(gè)字的發(fā)音后即可判斷出說(shuō)話人,可見(jiàn)語(yǔ)音信號(hào)中包含了語(yǔ)義及聲學(xué)兩方面的信息,并且在一定程度上可認(rèn)為聲學(xué)信息是獨(dú)立于語(yǔ)義信息的,正好與ICA的思想相吻合,因此采用ICA的方法來(lái)提取特征,通過(guò)足夠的語(yǔ)音信息即可獲取反映話者聲學(xué)信息的特征,用于話者識(shí)別及確認(rèn)。
該算法中,過(guò)完備描述是將信號(hào)表示成基函數(shù)的線性組合,通過(guò)指定基函數(shù)系數(shù)的概率分布函數(shù),使其系數(shù)近可能的稀疏,由于基函數(shù)之間可以不正交,使得基函數(shù)具有準(zhǔn)確描述信號(hào)結(jié)構(gòu)信息的功能。利用該特征,我們可以利用一段待識(shí)別的說(shuō)話者的語(yǔ)音信號(hào),通過(guò)訓(xùn)練獲得描述該說(shuō)話人的特征基函數(shù),進(jìn)而實(shí)現(xiàn)多個(gè)移動(dòng)語(yǔ)音源之間的盲分離。
本部分的核心研究?jī)?nèi)容為:⑴研究適合移動(dòng)源語(yǔ)音混合信號(hào)的BSS算法;⑵研究分離信號(hào)輸出后的排列和縮放比例問(wèn)題;⑶研究實(shí)時(shí)批量算法的最小延遲問(wèn)題;⑷研究室內(nèi)最佳拾音器數(shù)量和位置分布問(wèn)題。
語(yǔ)音后處理增強(qiáng)算法研究。
ICA法類似于一個(gè)自適應(yīng)波束形成,形成一種空間各向的干擾信號(hào),作為干擾移動(dòng)源的魯棒性信號(hào),即使干擾信號(hào)移動(dòng),也可以估算剩余串?dāng)_成分,為了補(bǔ)償干擾信號(hào)移動(dòng)時(shí)對(duì)系統(tǒng)的影響,在這一階段使用了后置處理算法,可利用分離信號(hào)的特征值來(lái)估計(jì)串?dāng)_成分,其研究?jī)?nèi)容如下:⑴研究語(yǔ)音源移動(dòng)速度和方位對(duì)線性BSS的串?dāng)_成分的影響;⑵研究移動(dòng)語(yǔ)音源信號(hào)剩余串?dāng)_成分估計(jì)的模型;⑶研究不同室內(nèi)環(huán)境下后處理語(yǔ)音增強(qiáng)算法的適應(yīng)性。
室內(nèi)混響非平穩(wěn)串?dāng)_的消除。傳統(tǒng)語(yǔ)音增強(qiáng)算法估計(jì)噪聲是基于平穩(wěn)環(huán)境、統(tǒng)計(jì)獨(dú)立的前提假設(shè),而移動(dòng)語(yǔ)音盲源分離更廣泛地應(yīng)用于非線性環(huán)境,需要通過(guò)非線性建模仿真實(shí)際環(huán)境中的室內(nèi)混響非平穩(wěn)串?dāng)_,以此進(jìn)一步去除噪聲,使得接收語(yǔ)音的清晰度和可懂度更高,其研究?jī)?nèi)容主要有:⑴研究不同房間面積和多說(shuō)話人條件下聲音反射所引起混響時(shí)間變化的數(shù)學(xué)模型;⑵研究最佳混響消除的非線性頻譜估計(jì)和自適應(yīng)算法。
研究目標(biāo):本發(fā)明旨在針對(duì)室內(nèi)移動(dòng)源語(yǔ)音,研究切實(shí)可行且具有理論依據(jù)的盲源分離算法、語(yǔ)音后處理算法、室內(nèi)混響殘留串?dāng)_消除算法,實(shí)現(xiàn)室內(nèi)移動(dòng)語(yǔ)音性能最優(yōu)化,以滿足特定用戶的需求為最終目標(biāo),總體研究目標(biāo)思路見(jiàn)圖1所示。
研究與移動(dòng)語(yǔ)音自適應(yīng)的盲源分離算法。盲源分離對(duì)源信號(hào)及其系統(tǒng)的先驗(yàn)假設(shè)較少,可以利用信號(hào)的統(tǒng)計(jì)獨(dú)立性、概率分布特性、二階統(tǒng)計(jì)量、高階統(tǒng)計(jì)量或者信號(hào)的頻域特性以及時(shí)頻特性,建立目標(biāo)函數(shù),得到分離算法。應(yīng)用盲源分離算法實(shí)現(xiàn)移動(dòng)語(yǔ)音增強(qiáng),由于源信號(hào)處于不斷移動(dòng)的過(guò)程,因此該盲源分離系統(tǒng)中對(duì)應(yīng)的混合系統(tǒng)也是時(shí)變的?;镜臅r(shí)變系統(tǒng)跟蹤方法是在線算法,該算法根據(jù)源信號(hào)所處位置的不同來(lái)不斷更新分離系統(tǒng),即利用自適應(yīng)的盲源分離算法對(duì)移動(dòng)語(yǔ)音進(jìn)行實(shí)時(shí)處理。在研究時(shí)把源信號(hào)的混合信號(hào)稱為觀測(cè)信號(hào)或陣列接收信號(hào),源信號(hào)的混合模型稱為混合系統(tǒng)或混迭系統(tǒng),盲源分離系統(tǒng)模型如圖2所示。
研究移動(dòng)語(yǔ)音增強(qiáng)的線性后處理算法。語(yǔ)音后處理算法可以采用傳統(tǒng)的譜減法,也可以采用語(yǔ)音增強(qiáng)其它算法,如自適應(yīng)濾波法和小波變換法等估計(jì)噪聲,圖3為移動(dòng)源語(yǔ)音增強(qiáng)線性系統(tǒng)后處理系統(tǒng)模型,傳統(tǒng)譜減法語(yǔ)音增強(qiáng)在估計(jì)噪聲譜時(shí),需假定平穩(wěn)噪聲和信號(hào)源統(tǒng)計(jì)獨(dú)立。圖3移動(dòng)語(yǔ)音線性后處理系統(tǒng)模型。
研究語(yǔ)音混響的非線性殘留串?dāng)_消除算法。在線性BSS串?dāng)_成分系統(tǒng)的脈沖響應(yīng)中,線性干擾幾乎可以通過(guò)BSS完全清除,而剩余的非線性串?dāng)_成分源自混響,需要自適應(yīng)建模,根據(jù)移動(dòng)語(yǔ)音實(shí)時(shí)更新算法,來(lái)消除非線性的殘留串?dāng)_,圖4為非線性混響殘留串?dāng)_消除實(shí)現(xiàn)模型。
擬解決的關(guān)鍵技術(shù)問(wèn)題。移動(dòng)語(yǔ)音狀態(tài)的不確定性和盲源分離算法的自適應(yīng)性、后處理算法和語(yǔ)音混響的非線性殘留串?dāng)_建模消除是本發(fā)明所面臨的主要挑戰(zhàn),本發(fā)明擬解決的關(guān)鍵問(wèn)題包括:⑴研究自適應(yīng)盲源分離算法實(shí)現(xiàn)多路移動(dòng)源語(yǔ)音分離算法;⑵研究語(yǔ)音后處理算法實(shí)現(xiàn)移動(dòng)源環(huán)境下線性串?dāng)_消除;⑶研究室內(nèi)混響非線性殘留串?dāng)_的建模與消除;⑷相關(guān)算法的復(fù)雜性和實(shí)時(shí)性研究;⑸基于ARMCortexTM-A8內(nèi)核DSP和TMS320C64x+TM內(nèi)核的OMAP3530平臺(tái)的實(shí)時(shí)系統(tǒng)的處理算法優(yōu)化及移植。
擬采取的研究方案及可行性分析,包括有關(guān)方法、技術(shù)路線、實(shí)驗(yàn)手段、關(guān)鍵技術(shù)等說(shuō)明。
擬采取的研究方案,研究思路及技術(shù)路線,發(fā)明組以發(fā)明組成員已有的研究成果為基礎(chǔ),以從現(xiàn)場(chǎng)采集到的室內(nèi)移動(dòng)源語(yǔ)音據(jù)為切入點(diǎn)開(kāi)展研究。發(fā)明組提出了首先采用軟件仿真平臺(tái)進(jìn)行數(shù)學(xué)建模、理論分析論證、算法仿真與優(yōu)化,其次再將最優(yōu)算法移植到高速語(yǔ)音信號(hào)處理芯片中,最后將研究成果轉(zhuǎn)化為具有一般的普適性的理論模型,針對(duì)室內(nèi)移動(dòng)源語(yǔ)音的不同應(yīng)用場(chǎng)景進(jìn)行適應(yīng)性推廣的研究思路,其具體技術(shù)路線如圖5所示。
主要研究方法,發(fā)明研究從盲源分離算法入手,以自適應(yīng)盲源分離算法更新作為研究主要內(nèi)容,將語(yǔ)音后處理和非線性殘留串?dāng)_消除作為研究突破點(diǎn),以提高采集語(yǔ)音的清晰度和自然度作為性能度量標(biāo)準(zhǔn)。在現(xiàn)有盲源分離模型的基礎(chǔ)上,引入自適應(yīng)技術(shù),結(jié)合語(yǔ)音后處理技術(shù)、非線性殘留串?dāng)_技術(shù)進(jìn)行實(shí)時(shí)語(yǔ)音增強(qiáng),在理論分析和實(shí)驗(yàn)測(cè)試的指導(dǎo)下,進(jìn)行室內(nèi)移動(dòng)源語(yǔ)音增強(qiáng)算法的優(yōu)化研究,并力圖將新技術(shù)融合到研究方法中去,其具體研究方法步驟如下:
⑴研究與移動(dòng)語(yǔ)音源自適應(yīng)的盲源分離算法。不同來(lái)不斷自適應(yīng)更新盲源在這一階段需要研究基于頻域的獨(dú)立分量分析(ICA)與矩陣更新算法;一個(gè)混合系統(tǒng)當(dāng)源信號(hào)移動(dòng)時(shí)是時(shí)變的,由于室內(nèi)語(yǔ)音源信號(hào)處于不斷移動(dòng)的過(guò)程,因此該盲源分離系統(tǒng)中對(duì)應(yīng)的混合系統(tǒng)也是時(shí)變的。根據(jù)源信號(hào)所處位置不同來(lái)不斷自適應(yīng)更新盲源分離系統(tǒng)參數(shù),建立動(dòng)態(tài)的分離矩陣,實(shí)現(xiàn)移動(dòng)語(yǔ)音的實(shí)時(shí)盲分離。
⑵研究移動(dòng)語(yǔ)音增強(qiáng)的后處理算法。本階段需要研究完成串?dāng)_成分估計(jì)的后處理;為了補(bǔ)償室內(nèi)干擾信號(hào)移動(dòng)時(shí)對(duì)系統(tǒng)的影響,需要對(duì)盲源分離后語(yǔ)音進(jìn)行后置處理。通過(guò)采用一種類似自適應(yīng)波束形成的算法,模擬室內(nèi)空間各向的干擾信號(hào),并作為干擾移動(dòng)源的魯棒性信號(hào),即使干擾信號(hào)移動(dòng),也可估算出剩余串?dāng)_成分,以此提高算法精度。
⑶研究語(yǔ)音混響的殘留串?dāng)_消除算法。本階段需要研究在先前語(yǔ)音處理的基礎(chǔ)上進(jìn)行混響的消除;通過(guò)后處理算法,可將移動(dòng)語(yǔ)音中的線性干擾脈沖幾乎完全去除,而剩余的非線性殘留串?dāng)_成分源自房間混響,需要根據(jù)房間的面積不同及反射情況實(shí)時(shí)更新算法,獲取實(shí)時(shí)參數(shù)、自適應(yīng)建模及利用譜減法等經(jīng)典語(yǔ)音增強(qiáng)算法,實(shí)現(xiàn)串?dāng)_濾除。
可行性分析。本申請(qǐng)發(fā)明經(jīng)多方論證具有以下可行性。本發(fā)明的立項(xiàng)具有充足的實(shí)踐依據(jù)和理論基礎(chǔ)。
本發(fā)明的立項(xiàng)是在基于參與甘南拉卜楞寺安全防范系統(tǒng)工程驗(yàn)收過(guò)程中對(duì)寺院殿堂等區(qū)域進(jìn)行語(yǔ)音提取后無(wú)法辨別說(shuō)話人聲音內(nèi)容而提出的,通過(guò)大量采集現(xiàn)場(chǎng)語(yǔ)音數(shù)據(jù)及參閱大量國(guó)內(nèi)外相關(guān)資料,經(jīng)反復(fù)分析和對(duì)比認(rèn)為造成這種結(jié)果的原因是多方面的,不可能只采取單一的語(yǔ)音增強(qiáng)方法就可以解決問(wèn)題。本發(fā)明是發(fā)明組在以往語(yǔ)音增強(qiáng)領(lǐng)域長(zhǎng)期、大量基礎(chǔ)性研究及實(shí)踐工作的基礎(chǔ)上提出了首先采用軟件仿真平臺(tái)進(jìn)行數(shù)學(xué)建模、理論分析論證、算法仿真與優(yōu)化,其次再將最優(yōu)算法移植到高速語(yǔ)音信號(hào)處理芯片中的研究思路,使得發(fā)明在實(shí)踐上和理論上均具有可靠的基礎(chǔ)。
發(fā)明組有扎實(shí)的前期工作基礎(chǔ)。發(fā)明申請(qǐng)人長(zhǎng)期從事語(yǔ)音增強(qiáng)領(lǐng)域的教學(xué)和研究工作,先后主持研發(fā)過(guò)各類科研發(fā)明10多項(xiàng),領(lǐng)導(dǎo)的團(tuán)隊(duì)具有較強(qiáng)的科研能力,本團(tuán)隊(duì)多年來(lái)在語(yǔ)音信息處理方面發(fā)表論文20余篇,其中被EI和ISTP檢索10余篇。主要研究人員承擔(dān)了甘肅省自然科學(xué)基金發(fā)明“語(yǔ)音信號(hào)增強(qiáng)算法綜合仿真研究(3ZS061-A25-056)”,“基于GIS及分?jǐn)?shù)階Fourier的空間譜估計(jì)及聯(lián)合測(cè)向技術(shù)研究(1010RJZA065)”,甘肅省科技支撐發(fā)明“基于分布式虛擬環(huán)境的數(shù)字博物館關(guān)鍵技術(shù)研究(1104KFCA012)”等的研究工作,尤其是2014年初由科學(xué)出版社出版的《語(yǔ)音信號(hào)增強(qiáng)技術(shù)及其應(yīng)用》專著是國(guó)內(nèi)第一部對(duì)語(yǔ)音增強(qiáng)技術(shù)進(jìn)行全面和系統(tǒng)論述的著作,此書出版后得到了多位相關(guān)專家的肯定,所有這些都為本發(fā)明的研究奠定了良好的理論及實(shí)踐基礎(chǔ)。
本發(fā)明的主要?jiǎng)?chuàng)新在于提出了基于自適應(yīng)盲源分離、移動(dòng)話音語(yǔ)音增強(qiáng)、室內(nèi)混響非線性串?dāng)_消除相結(jié)合的研究方法及適應(yīng)性算法研究,并優(yōu)化算法用嵌入式雙核DSP高速處理平臺(tái)加以實(shí)時(shí)實(shí)現(xiàn)。
⑴到目前為止,還沒(méi)有一種語(yǔ)音增強(qiáng)算法能夠適應(yīng)所有場(chǎng)合的語(yǔ)音信號(hào),而且該算法又不能夠太復(fù)雜,否則無(wú)法滿足實(shí)時(shí)性要求。本發(fā)明所需解決的問(wèn)題主要針對(duì)特定場(chǎng)合,即移動(dòng)混合語(yǔ)音的盲分離及室內(nèi)混響嚴(yán)重影響語(yǔ)音辨識(shí)清晰度的問(wèn)題所提出的,是現(xiàn)有的算法無(wú)法從根本上有效解決的實(shí)際問(wèn)題,根據(jù)發(fā)明組發(fā)明立項(xiàng)前期的調(diào)查和相關(guān)文獻(xiàn)檢索,在國(guó)內(nèi)、外還沒(méi)有找到類似的解決方法;
⑵本發(fā)明是基于參與甘南拉卜楞寺安全防范系統(tǒng)綜合視頻監(jiān)控子系統(tǒng)工程中對(duì)寺院殿堂內(nèi)語(yǔ)音提取后無(wú)法辨別說(shuō)話人內(nèi)容而提出的,前期課題組曾使用過(guò)多種語(yǔ)音增強(qiáng)處理方法進(jìn)行嘗試,都沒(méi)有得到令人滿意的效果,因此必須克服常規(guī)思想,解決特殊環(huán)境下移動(dòng)語(yǔ)音的位置不確定性及房間多路徑反射混響造成的清晰度下降這兩個(gè)核心問(wèn)題。
預(yù)期研究成果。本發(fā)明的研究將致力于研究室內(nèi)移動(dòng)源語(yǔ)音增強(qiáng)的新方法,以滿足特定用戶的需求為最終目標(biāo),研究切實(shí)可行的盲源分離算法、語(yǔ)音后處理算法、殘留串?dāng)_消除算法,實(shí)現(xiàn)室內(nèi)移動(dòng)源語(yǔ)音增強(qiáng)性能的最優(yōu)化。
盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。