專利名稱:檢測和產(chǎn)生聽覺信號中的瞬態(tài)條件的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信號處理的方法和系統(tǒng),利用該方法和系統(tǒng)從聽覺信號的瞬態(tài)現(xiàn)象中提取表示這些聽覺信號的獨(dú)特聲描述(audio picture)的特征。處理的結(jié)果可用于聲音或語音信號的識別,或者可用于音響產(chǎn)品或系統(tǒng)、例如揚(yáng)聲器、助聽器和遠(yuǎn)程通信系統(tǒng)的質(zhì)量測定,或者可用于聲學(xué)條件的質(zhì)量測定。還可以在窄帶無線電通信的語音壓縮和解壓縮方面采用本發(fā)明的方法。
在已有技術(shù)的聽覺信號的信號分析方法中,信號在短的時間間隔內(nèi)被看作處于穩(wěn)態(tài),在這一假定的條件下采用某種形式的快速頻譜分析。
人耳具有同時捕捉快速的聲音信號、極精確地檢測聲頻和在復(fù)雜的聲音環(huán)境中區(qū)別聲信號的能力。例如能夠理解歌唱者在樂器的伴奏下正在唱些什么。
在已有技術(shù)的信號分析方法和在本發(fā)明的方法中均假定可將人耳中的耳蝸(cochlea)看作是在人耳的頻率范圍內(nèi)的有限個數(shù)的帶通濾波器IBP。
由于激勵一個帶通濾波器而得的時間響應(yīng)f(t)可以分成兩部分,瞬態(tài)響應(yīng)ft(t)和穩(wěn)態(tài)響應(yīng)fs(t),(1)f(t)=ft(t)+fs(t)。傳統(tǒng)的信號分析以穩(wěn)態(tài)響應(yīng)fs(t)為基礎(chǔ),假定瞬態(tài)響應(yīng)ft(t)消失非???,對于感知不具有重要性,例如參看McGraw-Hill出版社1959年出版的Ernest S.Huh和Donald O.Pederson所著的“電路綜合原理(Principles of circuit Synthesis)”第12頁的9至15行,書中這樣說“在忽略由網(wǎng)絡(luò)的初始狀態(tài)產(chǎn)生的響應(yīng)的情況下只考慮受迫響應(yīng)”。
因此,當(dāng)學(xué)生們被領(lǐng)進(jìn)信號分析的領(lǐng)域時,在最初的階段他們認(rèn)識到因?yàn)榫W(wǎng)絡(luò)的初始狀態(tài)在非常短的時間間隔內(nèi)消失,所以應(yīng)當(dāng)忽略瞬態(tài)響應(yīng),即網(wǎng)絡(luò)的初始狀態(tài)產(chǎn)生的響應(yīng)。此外,利用傳統(tǒng)的線性分析方法來分析這些瞬態(tài)信號是相當(dāng)困難的。
人耳聽見非常短的聲音和與此同時極精確地檢測頻率的能力是與傳統(tǒng)的基于濾波器的頻譜分析相矛盾的。帶通濾波器的時間窗口(兩倍于上升時間)與帶寬成反比,(2)tw=2/(fu-fl)其中fl是頻率下限而fu是頻率上限。
因此,如果要求5毫秒的上升時間,結(jié)果就是頻率分辨率不優(yōu)于400Hz。
由于這些瞬態(tài)現(xiàn)象的檢測與高的頻率分辨率相矛盾,所以人耳必須用另外的方式對這些瞬態(tài)現(xiàn)象進(jìn)行檢測。尚未考慮過人耳如何能夠檢測這些信號,但可以假定耳蝸在不接收聲音時處于靜止的位置,耳蝸在這一位置將是非常寬帶的。當(dāng)耳蝸接收聲音信號時,它可以開始將自己鎖定到該信號內(nèi)的某一頻率分量或某些頻率分量。因此,耳蝸在其開始位置處可以是寬帶的,但如果接收了一個或多個穩(wěn)定的頻率,耳蝸就可以極精確地將自己鎖定到這一頻率或這些頻率。
現(xiàn)在已知如果一個音調(diào)頻率低于約1.4KHz,則從耳蝸發(fā)出的神經(jīng)脈沖就被音調(diào)頻率同步。如果該頻率高于1.4KHz,脈沖就隨機(jī)地發(fā)出并小于該頻率的每周期。
在描述音素識別系統(tǒng)的GB2213623中公開了以濾波器組頻譜分析為基礎(chǔ)的信號分析。該系統(tǒng)包括檢測語音信號的瞬態(tài)部分的檢測裝置,瞬態(tài)檢測的主要目的是檢測語音頻譜變化最劇烈的時刻,即峰值點(diǎn)。峰值點(diǎn)的檢測用來對音素進(jìn)行更準(zhǔn)確的分割。GB213623的瞬態(tài)分析以頻譜分析和頻譜的變化為基礎(chǔ),這與本發(fā)明的以時域的直接瞬態(tài)檢測為基礎(chǔ)的瞬態(tài)分析的區(qū)別是非常大的。
本發(fā)明以在原理上與所有已知的分析聽覺信號的方法不同的方案為基礎(chǔ)。根據(jù)本發(fā)明,已發(fā)現(xiàn)與聽覺信號的識別有關(guān)的信號信息存在于信號的瞬態(tài)分量之中。因此,本發(fā)明的方法涉及到聽覺信號的瞬態(tài)分量或響應(yīng)的分離、相應(yīng)于該瞬態(tài)分量的瞬態(tài)脈沖的產(chǎn)生以及該脈沖開關(guān)的分析。在聽覺信號中,相應(yīng)的瞬態(tài)脈沖可以有時間間隔地重復(fù),通常還分析或確定這些周期瞬態(tài)脈沖的時間間隔。
在實(shí)際生活中,人耳以很高的頻率對能量變化作出反應(yīng),以便識別音素或聲描述。在本方法中,按照這些很高的頻率來提取相應(yīng)于被人耳覺察的能量變化的瞬態(tài)脈沖,然后最好將瞬態(tài)脈沖變換到仍然保留聲描述或音素的獨(dú)特特征的低頻范圍。因此,根據(jù)本發(fā)明的原理,通過分析被變換的低頻信號就能夠獲得聽覺信號的獨(dú)特特征。
如將從本發(fā)明的方法的以下描述中所了解的那樣,提取脈沖的瞬態(tài)波形或形狀的思想使得能夠采用比當(dāng)前所用最好的設(shè)計簡單得多的預(yù)處理方法,同時相對于聽覺輸入信號獲得了多得多的有價值的信息。
本發(fā)明在其最廣泛的方面涉及到用聽覺信號的能量變化的形狀來識別或表示可被例如人耳這樣的動物耳朵覺察為表示獨(dú)特的聲描述的特征。
在對本發(fā)明的方法的特點(diǎn)進(jìn)行更詳細(xì)的描述之前將給出一些定義在快速分析方面,信號的瞬態(tài)分量是要加以定義的事情。其目的是獲得給出相應(yīng)于在耳蝸中對于信號能量的突然變化的響應(yīng)的響應(yīng)的表達(dá)式。因此,在這里,術(shù)語“瞬態(tài)分量”表示相應(yīng)于聽覺信號中的突然的能量變化的任何信號。瞬態(tài)分量含有要被分析的信號信息,為了分析這一信息,可將這瞬態(tài)分量變換成為具有獨(dú)特形狀的相應(yīng)瞬態(tài)脈沖。因此,在這里術(shù)語“瞬態(tài)脈沖”指的是具有獨(dú)特形狀的脈沖,該脈沖基本上包含了聽覺信號瞬態(tài)分量的信息,因此與該聽覺信號能量的突然變化相對應(yīng)。如上所述,音頻信號的瞬態(tài)部分可以帶有時間間隔地重復(fù),因此,在這里當(dāng)術(shù)語“周期的”與瞬態(tài)分量、響應(yīng)或脈沖合起來使用時,就表示按時間間隔重復(fù)的任何瞬態(tài)分量、響應(yīng)或脈沖。
術(shù)語“形狀”表示任意的時變函數(shù)(時限的或非時限的),在給定的時間間隔Tp內(nèi),與在該間隔外的幅值電平相比,它具有明顯不同的幅值電平。因此,當(dāng)形狀函數(shù)為時限的時候,Tp是該形狀函數(shù)的持續(xù)時間,或者與在該間隔外的幅值電平相比時,是具有明顯不同的幅值電平的函數(shù)部分的持續(xù)時間。如將看到的那樣,通過沿脈沖的時間軸觀測脈沖的振幅就適當(dāng)?shù)刈R別了脈沖的形狀。
為了從能量變化的形狀中提取信息,本發(fā)明一廣泛的方面涉及到用信號的瞬態(tài)脈沖的形狀來表示能量變化的形狀。雖然,可以采用若干種方法來獲得相應(yīng)于能量變化的瞬態(tài)脈沖,但最好采用包絡(luò)檢波的方法,在該方法中,最好應(yīng)根據(jù)聽覺信號能量變化的瞬態(tài)響應(yīng)來檢測包絡(luò)。
表示獨(dú)特聲描述的能量變化可以是在聽覺信號中產(chǎn)生突現(xiàn)的能量變化的音素、元音或任何其它聲音。
本發(fā)明的另一個方面是提供識別聽覺信號中的能量變化的方法,該能量變化可被例如人耳這樣的動物耳朵覺察為表示獨(dú)特的聲描述,該方法將信號的能量變化形狀與表示獨(dú)特聲描述的預(yù)定的能量變化形狀進(jìn)行比較。為了進(jìn)行這一識別,最好用信號的瞬態(tài)脈沖的形狀來表示能量變化的形狀,另外最好用對聽覺信號能量變化的瞬態(tài)響應(yīng)的包絡(luò)檢波來獲得該瞬態(tài)脈沖的形狀。
本發(fā)明還涉及在基本上保留信號信息的條件下對聽覺信號進(jìn)行處理以便減小信號帶寬的方法,該方法提取聽覺信號的瞬態(tài)分量并對該瞬態(tài)分量的包絡(luò)進(jìn)行檢波。最好可對被例如人耳這樣的動物耳朵覺察為表示獨(dú)特聲描述的信號的瞬態(tài)脈沖形狀進(jìn)行識別。
應(yīng)當(dāng)指出,脈沖上升時間或前沿的形狀、脈沖寬度和下降時間或后沿的形狀對于脈沖識別都是重要的特征。在本發(fā)明的最佳實(shí)施例中,對脈沖的前沿的形狀進(jìn)行識別,通過確定至少部分前沿的上升時間、斜率和/或斜率變化來確定該前沿的形狀也是優(yōu)選的。
由于脈沖的上部應(yīng)當(dāng)包含必不可少的信息,所以在本發(fā)明的最佳實(shí)施例中,確定至少前沿頂部部分的上升時間、斜率和/或斜率變化。頂部部分可被定義為大體上的斜率為最大的時刻開始的部分。頂部部分還可以是相應(yīng)于脈沖振幅上部的50%。
可以采用若干種方法來確定脈沖的形狀,但在最佳實(shí)施例中,在至少5次取樣的基礎(chǔ)上確定前沿的上升時間、斜率和/或斜率變化。但是,可以采用任何合適的取樣次數(shù)??梢岳门c基準(zhǔn)庫的比較來實(shí)現(xiàn)前沿形狀識別的另一最佳方法??梢愿鶕?jù)前沿的上升時間來選擇進(jìn)行比較的基準(zhǔn)。
對脈沖寬度進(jìn)行識別也是優(yōu)選的,可以將脈沖寬度確定為在預(yù)定振幅處從前沿至后沿的間距。
應(yīng)當(dāng)理解,對瞬態(tài)脈沖后沿形狀進(jìn)行識別也是優(yōu)選的。
本發(fā)明的方法為聽覺信號的瞬態(tài)條件提供了一種表示。該方法包括在人耳的頻率范圍內(nèi)對聽覺信號進(jìn)行帶通濾波并對低通濾波的包絡(luò)進(jìn)行檢波,然后用已知的信號分析方法對該包絡(luò)進(jìn)行分析。該包絡(luò)就是信號瞬態(tài)部分的表示。
在分析包絡(luò)時應(yīng)采用的已知的信號分析方法和應(yīng)選擇的帶通濾波器的特性將取決于分析的目的。該目的可以是語音識別、音響產(chǎn)品或聲學(xué)條件的質(zhì)量監(jiān)測以及窄帶無線電通信。
本發(fā)明還涉及在基本上保留信號信息的情況下對聽覺信號進(jìn)行處理以便減少信號帶寬的系統(tǒng),該系統(tǒng)包括提取聽覺信號的瞬態(tài)分量的裝置,以及對該瞬態(tài)分量的包絡(luò)進(jìn)行檢波的裝置。
權(quán)利要求與系統(tǒng)的一實(shí)施例以及圖示和數(shù)學(xué)描述一起給出的系統(tǒng)實(shí)施例的詳細(xì)討論揭露了系統(tǒng)的實(shí)施例和細(xì)節(jié)。
現(xiàn)在根據(jù)本發(fā)明的數(shù)學(xué)描述和附圖更詳細(xì)的描述本發(fā)明。
圖1表示帶通濾波器F(ω)和低通濾波器H(ω)的頻譜;圖2表示具有相同帶寬的有限個數(shù)帶通濾波器IBP在S平面上的零點(diǎn)和極點(diǎn);圖3表示具有相同Q值的有限個數(shù)帶通濾波器IBP在S平面上的零點(diǎn)和極點(diǎn);圖4表示在S平面上不同的根定位(root locations)的脈沖響應(yīng);圖5表示短語“l(fā)inear prediction”(“線性預(yù)測”)的頻譜圖;圖6說明如何用一次帶通濾波來實(shí)現(xiàn)有限個數(shù)帶通濾波器IBP的總和;圖7說明本發(fā)明的瞬態(tài)檢波系統(tǒng)的原理;圖8表示本發(fā)明的瞬態(tài)檢波系統(tǒng)的方框圖;圖9表示在圖8的系統(tǒng)中使用的優(yōu)選高通濾波器的特性;圖10表示在圖8的系統(tǒng)中使用的優(yōu)選低通濾波器的特性;圖11說明人耳的靈敏度;圖12表示美國元音/i()/、/()、/a()/和/u()/的平均共振峰頻率;圖13表示圖12元音的第一次瞬態(tài)分析的實(shí)驗(yàn)結(jié)果;圖14表示在“heat”中的元音“i”的被處理曲線;圖15表示在“hop”中的元音“o”的類似于圖14的曲線;圖16表示在“heat”中的元音“i”的被處理曲線的歸一化時間窗口;
圖17表示在“hop”中的元音“o”的歸一化時間窗口;圖18表示在“have”中的元音“a”的歸一化時間窗口;圖19表示本發(fā)明的語音識別系統(tǒng)的方框圖;圖20-25分別表示在“heat”中的音素“i”、“hop”中的“o”、“ongaonga”中的“o”、丹麥字“hus”中的“u”、丹麥字“Φse”中的“Φ”和丹麥字“l(fā)ys”中的“y”的語音合成的瞬態(tài)脈沖。
首先給出本發(fā)明原理的數(shù)學(xué)說明。
可以在時域中用脈沖響應(yīng)將帶通濾波器表示如下(3)f(t)=h(t)cos(ωct)其中h(t)是低通濾波器的脈沖響應(yīng)而ωc是帶通濾波器f(t)的中心頻率。項(xiàng)cos(ωct)可被看作表示低通濾波器向中心頻率在ωc處的帶通濾波器的頻移。圖1說明了這一點(diǎn),其中的F(ω)和H(ω)是f(t)和h(t)的相應(yīng)頻率特性。
該IBP濾波器由簡單帶通濾波器BP組成,其中,一零點(diǎn)位于原點(diǎn)而兩復(fù)極點(diǎn)(互補(bǔ)的)在復(fù)S平面的左半平面中,并且IBP濾波器的極點(diǎn)在一直線上排列,則1)如果全部IBP濾波器的帶寬都相同,則全部濾波器的上升時間和延遲時間將都相同,但Q=fc/(fu-fl)將與中心頻率fc成反比。零點(diǎn)和極點(diǎn)如圖2所示。
2)如果全部濾波器的Q值都相同,則上升時間和延遲時間將與中心頻率成反比,而帶寬將與中心頻率成正比。零點(diǎn)和極點(diǎn)如圖3所示。
假定在瞬態(tài)條件分析感興趣的頻率范圍內(nèi)IBP濾波器的上升時間和延遲時間相同。如果情況不是這樣,就假設(shè)大腦將對其進(jìn)行補(bǔ)償。效果只是由于下降頻率的上升時間將較慢而延遲時間將較長(如果Q值相同)。瞬態(tài)現(xiàn)象的節(jié)奏和形狀將是一樣的。
在快速分析方面,信號的瞬態(tài)分量是要加以定義的事情。其目的是獲得給出相應(yīng)于在耳蝸中對于信號能量的突現(xiàn)變化的響應(yīng)的響應(yīng)的表達(dá)式。信號能量的突現(xiàn)變化相應(yīng)于聽覺信號中的瞬態(tài)分量。
信號的瞬態(tài)和穩(wěn)態(tài)分量的組成可由包絡(luò)檢波來識別,其中穩(wěn)態(tài)分量是被檢波的包絡(luò)的直流分量,而瞬態(tài)分量則被識別成包絡(luò)的電平變化。
瞬態(tài)響應(yīng)可利用包絡(luò)檢波來識別。
脈沖響應(yīng)的包絡(luò)可表示為 其中 是f(t)的希爾伯特變換。將(3)代入(4),得到 對于希爾伯特變換,如果u(t)和v(t)的頻譜不重疊,就有 因此得到(7)ft(t)={[h(t)cos(ωct)]2+[h(t)sin(ωct)]2}1/2以及(8)ft(t)=|h(t)|假定h(t)的頻譜不與中心頻率ωc重疊。在這一條件下,脈沖響應(yīng)的包絡(luò)與中心頻率無關(guān)。圖4說明了這一點(diǎn),該圖表示不同的脈沖響應(yīng)如何產(chǎn)生相同的包絡(luò)。
(8)所得的結(jié)果使IBP濾波器的總包絡(luò)是各個帶通濾波器的包絡(luò)的和。
因此通過求和ft(t),就可以表示累加瞬態(tài)響應(yīng)ftt(t)。這一總和可表示為(9)ftt(t)=∫ωclωcuft(t,ωc)d(ωc)]]>以及(10)ftt(t)=|h(t)|(ωcu-ωcl)其中ωcl是下IBP濾波器的中心頻率而ωcu是上IBP濾波器的中心頻率。
圖5表示當(dāng)人發(fā)短語“l(fā)inear prediction”的音時的頻譜圖。該頻譜圖是用帶寬為300Hz、中心頻率在從約150Hz到約4KHz范圍內(nèi)的帶通濾波器來記錄的。縱坐標(biāo)是頻率,橫坐標(biāo)是時間,黑的印色是信號能量的等級。水平取向的黑帶是話音中的主頻帶,稱為共振峰。垂直細(xì)線相應(yīng)于突然的能量變化,因此相應(yīng)于該信號的瞬態(tài)分量。頻譜圖通常被用于共振峰的分析,300Hz的帶寬對于瞬態(tài)分析是不夠的,但細(xì)線的形狀證實(shí)了瞬態(tài)信號與帶通濾波器的中心頻率無關(guān)。
如上所述,可將耳蝸看作具有有限個數(shù)的帶通濾波器,但如果不使用大量的帶通濾波器就能夠檢測瞬態(tài)信號將是更好不過的。
圖6說明如何用具有覆蓋了上和下IBP濾波器IBPl和IBPu的截止頻率的帶寬的一帶通濾波器BP來實(shí)現(xiàn)有限個數(shù)帶通濾波器IBP的總和。帶通濾波器BP最好應(yīng)當(dāng)是最大平坦延遲型的,這種類型的濾波器特別適合于保持瞬態(tài)條件的形狀。
實(shí)現(xiàn)上檢測包絡(luò)的最簡單的方法是使用整流器和低通濾波器例如參看McGraw-Hill Kogakusha出版社1968出版的A.Bruce Carlson所著的《通信系統(tǒng),電通信中的信號和噪聲介紹》。由公式(10)可見,可以通過執(zhí)行覆蓋在包絡(luò)檢波前需要被累加的IBP的范圍的高通濾波BP來對累加瞬態(tài)分量進(jìn)行檢測。包絡(luò)檢波相應(yīng)于帶通濾波器的中心頻率ωc至具有該帶通濾波器一半帶寬的低通濾波器的頻移。這意味著低通濾波器的截止頻率確定了被BP覆蓋的全部IBP的帶寬。這一原理示于圖7。
圖7中,數(shù)字化聲音信號S(t)進(jìn)入帶通或高通濾波器BP,10,該帶通濾波器的輸出是整流單元11的輸入,該整流單元11的輸出是低通濾波器LP,12的輸入。該低通濾波器12的輸出就是所稱的ftt(t),代表了對包絡(luò)的檢波,因此代表了對聲音信號S(t)瞬態(tài)響應(yīng)的檢測。
根據(jù)信號的瞬態(tài)部分的數(shù)學(xué)定義可以得出這樣的結(jié)論,即h(t)的極點(diǎn)將位于s平面的負(fù)實(shí)軸上。這意味著脈沖響應(yīng)將不在零附近振蕩(瞬態(tài)響應(yīng)是非振蕩信號)。由公式(10)可見,IBP濾波器的界限ωcu和ωcl只是ftt(t)數(shù)量的問題。
帶通濾波器BP設(shè)定了IBP濾波器瞬態(tài)響應(yīng)總和的界限,振幅特性對各IBP濾波器的貢獻(xiàn)進(jìn)行加權(quán)。如果使用了低通濾波器而不是BP,則h(t)的頻譜和下IBP濾波器的中心頻率就有重疊。帶通濾波器BP應(yīng)具有至少等于低通濾波器LP截止頻率的兩倍的帶寬。當(dāng)采用本發(fā)明的方法時,該帶寬和振幅特性可用來最佳化不同信號的分析。
對于數(shù)學(xué)上的瞬態(tài)檢測系統(tǒng),低通濾波器LP的極點(diǎn)應(yīng)當(dāng)位于負(fù)實(shí)軸上。但是,當(dāng)處理聽覺信號時,它是決定性的耳蝸的特性;而在脈沖響應(yīng)內(nèi)最好應(yīng)當(dāng)沒有明顯的振蕩,因?yàn)檎袷帟孤犛X信號的瞬態(tài)條件更加模糊。
低通濾波器LP的截止頻率是信號的瞬態(tài)條件的表述,這一頻率應(yīng)當(dāng)與聽覺信號一起產(chǎn)生出相應(yīng)于耳蝸的上升時間的上升時間。該截止頻率可被看作是瞬態(tài)現(xiàn)象的指標(biāo),即低的截止頻率將只對那些具有慢上升時間的信號成分導(dǎo)致瞬態(tài)檢測,而高的截止頻率也將對具有快上升時間的信號成分導(dǎo)致檢測。
耳朵的神經(jīng)脈沖與低于約1.4KHz而不與高于1.4KHz的頻率同步的事實(shí)說明了耳朵在低于1.4KHz時是與音調(diào)有關(guān)的,高于1.4KHz時是與瞬態(tài)現(xiàn)象有關(guān)的。在與瞬態(tài)現(xiàn)象有關(guān)的區(qū)域中,神經(jīng)脈沖與相應(yīng)于信號中的突現(xiàn)的能量變化的瞬態(tài)現(xiàn)象同步。
BP的截止頻率應(yīng)相應(yīng)于耳蝸的瞬態(tài)靈敏范圍(理論上它應(yīng)具有相應(yīng)于耳朵的靈敏曲線的振幅特性)。人耳的靈敏度曲線指出下截止頻率必須約為2KHz而上截止頻率必須約為5KHz。BP濾波器的振幅特性將對各單個IBP濾波器的貢獻(xiàn)進(jìn)行加權(quán)。
根據(jù)以上的討論,可以如圖8的方框圖所示地構(gòu)成本發(fā)明的瞬態(tài)檢測和分析系統(tǒng)。在圖8中,聲音信號輸入麥克風(fēng)13,麥克風(fēng)13的輸出在被A/D轉(zhuǎn)換器15數(shù)字化之前通過低通濾波器14。A/D轉(zhuǎn)換器的輸出S(t)輸入高通或帶通濾波器BP,10,該帶通濾波器的輸出輸入整流單元11,該整流單元11的輸出被輸入低通濾波器LP,12,見圖7。低通濾波器12的輸出就是所述的ftt(t),代表了輸入信號的瞬態(tài)分量。為了分析該瞬態(tài)分量,低通濾波器12的輸出信號最好應(yīng)輸入用于信號分析或識別的設(shè)備16。
圖9和圖10表示將要在圖7或圖8的系統(tǒng)中使用的優(yōu)選高通濾波器和低通濾波器的特性。要被用作圖7或圖8中的高通濾波器10的帶通濾波器BP應(yīng)具有至少2000Hz、最好約為3000Hz的下截止頻率。上截止頻率應(yīng)當(dāng)在45000和7000Hz之間的范圍內(nèi),最好約為6000Hz。圖9所示特性的下截止頻率為3014Hz。要在圖7或圖8中使用的低通濾波器LP應(yīng)當(dāng)具有在400-1200Hz范圍內(nèi)的、最好約為700Hz的上截止頻率。圖10所示特性的上截止頻率為732Hz。還能夠用全波整流器來構(gòu)成根據(jù)圖7或圖8的瞬態(tài)檢測系統(tǒng)。但是,最好使用如圖7和圖8所示的單向整流器。
圖11說明了人耳的靈敏度被表示成為耳蝸對音調(diào)的聽覺信號的響應(yīng)。如上所述,感覺作用在直到約1.4KHz之前是與音調(diào)有關(guān)的,在約1.4KHz以上是與瞬態(tài)現(xiàn)象有關(guān)的。
如上所述并如圖6所示,利用各單個帶通濾波器的包絡(luò)的總和獲得了IBP濾波器的總包絡(luò),并且可以用一個帶通濾波器BP來實(shí)現(xiàn)有限個數(shù)或大量帶通濾波器IBP的總和。圖7說明了這一原理。但是,還可以用濾波器組的方法來實(shí)現(xiàn)若干帶通濾波器的總和,在該方法中,對若干單個帶通濾波器的包絡(luò)進(jìn)行檢波和求和。因此,該濾波器組內(nèi)的每一分支由具有特定中心頻率的帶通濾波器、整流單元和低通濾波器組成,低通濾波器的輸出被求和以便獲得總包絡(luò)。
現(xiàn)在討論圖12和圖13所示的一些介紹性的實(shí)驗(yàn)。
進(jìn)行了兩個實(shí)驗(yàn),以便測定BP和LP濾波器的截止頻率和估算語音識別方法的適用性。
1.監(jiān)聽調(diào)幅信號的實(shí)驗(yàn)為了首先測定在受控條件下LP濾波器的截止頻率,在對耳朵靈敏的頻率范圍內(nèi)利用調(diào)幅信號進(jìn)行監(jiān)聽實(shí)驗(yàn)。因?yàn)樵谠摲秶鷥?nèi)信號通常沒有那么集中和因?yàn)榉浅4潭荒軌蚪ㄗh對該實(shí)驗(yàn)進(jìn)行驗(yàn)證,所以該實(shí)驗(yàn)多少是模擬的。
載頻選為3.5KHz,從幾赫茲開始向上調(diào)諧調(diào)制音頻。包絡(luò)信號在350-400Hz之前發(fā)出嗡嗡聲。此后包絡(luò)信號首次發(fā)出不真實(shí)的/u()/的聲音,在800Hz時發(fā)出尖銳的/i()/的聲音。高于800Hz就聽不到包絡(luò)信號了。如果在給定的測試點(diǎn),處進(jìn)一步增高音頻,就將聽到不同的混合音頻。
聲音當(dāng)然受到載頻的支配,但已指出了LP濾波器的截止頻率很可能必須小于1-1.2KHz。
調(diào)制度約為0.75。當(dāng)其大于1時,就可以感覺到泛音的出現(xiàn)。
2.四個元音的瞬態(tài)信號的分析元音的選擇圖12表示男人、女人和兒童發(fā)音的在heed、had、hod和who中的美國元音/i()/、/()/、/a()/和/u()/的平均共振峰頻率。這些元音代表了元音之間良好的分散性,所以選它們來做實(shí)驗(yàn)。
用普通的盒式錄音機(jī)記錄男人、女人和兒童(有丹麥口音)發(fā)音的這些元音。
實(shí)驗(yàn)的配置按照圖7設(shè)計模擬TSD(瞬態(tài)信號檢測器)。該設(shè)計以運(yùn)算放大器LM833為基礎(chǔ)。
濾波器的指標(biāo)是BP濾波器是4階切比雪夫(chebyshev)濾波器,有1d的波紋。上截止頻率約為6.5KHz,下截止頻率可調(diào),從約550Hz至2.6KHz。
整流器是全波整流器,對負(fù)信號進(jìn)行變換并將其與正信號相加。
LP濾波器是2階巴特沃斯(Butterworth)濾波器,截止頻率定1.5Hz(3db截止頻率被測定為1.2KHz)。
記錄元音和檢測瞬態(tài)信號用普通的無線電盒式錄音機(jī)記錄男人、女人和兒童發(fā)音的4個元音。瞬態(tài)信號用TSD進(jìn)行檢測、用8位A/D轉(zhuǎn)換器進(jìn)行轉(zhuǎn)換并存儲在PC中。記錄時的取樣速率是10KHz,但當(dāng)對記錄信號進(jìn)行分析時,只考慮每一第二組值,取樣速率成為5KHz。8位A/D轉(zhuǎn)換器的動態(tài)范圍不寬,因此必須記錄孤立的元音(指不在字中的元音),這就使發(fā)音更加模糊。
圖13a-13p表示圖12的元音的第一次瞬態(tài)分析的實(shí)驗(yàn)結(jié)果。
可以通過監(jiān)聽瞬態(tài)信號來區(qū)分元音。盡管發(fā)現(xiàn)基音有不同,但用眼睛觀察結(jié)果的時間變化就會發(fā)現(xiàn)分別由男人、女人和兒童發(fā)音的同一元音具有幾乎相同的特性。當(dāng)記錄丹麥字“OP”中的元音/a()/時,從瞬態(tài)信號的時間變化清楚地看出也記錄了P聲音。
瞬態(tài)信號的分析
瞬態(tài)信號中的功率在各元音之間變化很大。元音/a()/和/u()/的信號的功率非常低(特別對于男聲),因而需要提高無線電盒式錄音機(jī)的音量,這就產(chǎn)生了許多噪聲。
首先在元音的不同的開始時刻進(jìn)行若干20毫秒持續(xù)時間和5KHz取樣速率的FFT分析。頻譜顯得非常突出并對整個元音都是相同的。這就強(qiáng)烈地指出在信號中有重要信息。
為了分析共同的特征,對每一元音隨機(jī)地選取20毫秒(101個樣值)。用Hamming(漢明)窗口來平滑時間信號并計算FFT。圖13a-13d表示功率譜,同一幅圖中表示了每一元音的3種聲音,當(dāng)由女人發(fā)音時相應(yīng)的瞬態(tài)信號分別示于圖13e-13h,當(dāng)由男人發(fā)音時示于圖13i-13I,由兒童發(fā)音時示于圖13m-13p。
預(yù)期頻譜具有以下特性由三種不同聲音發(fā)音的同一元音的頻譜將具有與該元音相關(guān)的某些共同特征和與聲音有關(guān)的某些特征。
由同一聲音發(fā)音的不同元音的頻譜將具有與該不同聲音相關(guān)的某些特征和來自該聲音的某些共同特征。
此外,必須預(yù)期到頻譜的形狀比絕對頻率所起的作用大。
由功率譜可見/i()/(圖13a)最顯著的特征是全部三種聲音的頻譜在300-400Hz的頻率范圍內(nèi)都具有明顯的尖頂,它們寬50Hz,在200-250Hz處有明顯的裂縫。此外,在50Hz處具有影響。男聲在150Hz處有必然由低音造成的影響。
/a()/(圖13b)
女聲和男聲在350Hz處有明顯的裂縫(深過50db)。男聲在這一情形中在150Hz處也有影響。兒童音聲不是很好地符合模式,這也許是由于不確定的發(fā)音的緣故。
/a()/(圖13c)所有三種聲音在250-300Hz處有尖頂。頻率范圍稍低一些并且不如/i()/的那么明顯。另外,對于所有三種聲音,在50Hz處都有主要影響。
/u()/(圖13d)音聲和女聲實(shí)在相象,它們在300和350Hz處有尖峰,在100Hz處有深寬的凹部。男聲也有尖峰,凹部與女聲和音聲的凹部一樣寬,但沒有那么深。之所以如此的理由可能是低的聲音和在由無線電盒式錄音機(jī)產(chǎn)生的信號中有許多噪聲。
可以將產(chǎn)生圖13a-p的結(jié)果的實(shí)驗(yàn)看作是介紹性的,但特別是當(dāng)考慮到存在許多噪聲和僅用8位A/D轉(zhuǎn)換器進(jìn)行的簡單實(shí)驗(yàn)時,結(jié)果是非常有意義的。盡管如此,結(jié)果是引人注意的。不需要選擇特定的數(shù)據(jù)來改進(jìn)結(jié)果,因此瞬態(tài)條件對于語音識別具有決定性的重要性是毫無疑問的。
全部信息看起來可以處在低于500Hz的頻率范圍內(nèi)。如果情況如此,則對取樣頻率的要求將低于1.5KHz,并且將能夠利用更多的并行過程來非常廣泛地對語音信號進(jìn)行分析。能夠有更多的例如5、20和40毫秒的時間窗口并利用頻譜分析(FFT、LPC、CEPSTRUM或其它)來檢測某些音素和利用時間分析(相關(guān)法或其他法)來檢測其它音素。
一種將AGC放大器作為前置放大器和將對數(shù)或AGC放大器在BP放大器之后以便補(bǔ)償帶通濾波的音素的能量變化的更加復(fù)雜的TSD設(shè)計,將很可能能夠獲得非常好的結(jié)果并導(dǎo)致非常強(qiáng)有力的與發(fā)音者無關(guān)的語音識別。如果使用12或16位A/D轉(zhuǎn)換器而不是8位A/D轉(zhuǎn)換器就可以獲得更好的結(jié)果。
以下將討論圖14-18所示的其它實(shí)驗(yàn)結(jié)果本發(fā)明的提取瞬態(tài)信號分量的方法還可被看作是聽覺輸入信號的預(yù)處理。為了能夠更好地理解和/或確定該預(yù)處理的參數(shù),開發(fā)了軟件程序,利用軟件程序能夠表示輸出信號并在預(yù)處理的每一處理步驟后監(jiān)聽結(jié)果。
已利用在Compaq Deskpro 4/66i PC上運(yùn)行的這一軟件程序進(jìn)行了圖14和圖15所示的語音信號的分析。這種PC配備了Microsoft Windows sound System(微軟視窗聲音系統(tǒng)),麥克風(fēng)和Analog Devices的編碼譯碼器芯片(AD1848)。編碼譯碼器芯片執(zhí)行取樣、抗混淆濾波和A/D轉(zhuǎn)換。
圖14a和圖15a所示語音信號用這一“聲音系統(tǒng)”進(jìn)行記錄。用11025KHz和16位線性PCM取樣語音信號。通帶大于4.9KHz。
前瞬態(tài)信號如圖14b和圖15b所示。這些信號是被截止頻率為3.0KHz的3階IIR數(shù)字高通濾波器濾波的語音信號。該濾波器是3階巴特沃斯濾波器的雙線性變換。
選擇了3.0KHz的截止頻率來獲得在耳蝸的最靈敏區(qū)域范圍內(nèi)的帶通。在這一情況下它意味著從3.0KHz至4.9KHz,4.9KHz由編碼譯碼器芯片來給出。如果高通或帶通濾波器具有符合公式(10)的最大平坦延遲特性,則將是最佳的。
圖14c和圖15c所示瞬態(tài)信號是被截止頻率約為700Hz的二階IIR數(shù)字低通濾波器整流和濾波的前瞬態(tài)信號。該濾波器是二階巴特沃斯濾波器的雙線性變換。
低通濾波器應(yīng)當(dāng)保留相應(yīng)于耳蝸中的瞬態(tài)響應(yīng)的瞬態(tài)脈沖的形狀,因此能夠這樣做的濾波器將是最佳的濾波器。耳蝸中的神經(jīng)能夠發(fā)出頻率高達(dá)約1.4KHz的神經(jīng)脈沖。在與瞬態(tài)有關(guān)的區(qū)域中1.4KHz的IBP濾波器的帶寬被包絡(luò)檢波變換成為700Hz的低通濾波器的截止頻率,這就是為什么選取了約700Hz的截止頻率的緣故。
瞬態(tài)信號可被看作是信號能量變化的表示。
圖14和圖15表示的全部信號被歸一化成為最大信號電平,這意味著最大的絕對信號值等于32766。圖14和圖15中的橫坐標(biāo)代表50毫秒的時間間隔,圖14a、15a和圖14b、15b的縱坐標(biāo)代表相應(yīng)語音信號的聲壓,圖14c、15c的縱坐標(biāo)代表相應(yīng)瞬態(tài)語音信號的能量。
能夠監(jiān)聽分別相應(yīng)于圖14a、15a、14b、15b和14c、15c的語音、前瞬態(tài)和瞬態(tài)信號。對濾波器特性選擇的主要要求之一是當(dāng)監(jiān)聽上述信號時,各信號必須保持接近原始語音信號的聲音。
參看圖7所示系統(tǒng),圖14表示當(dāng)由男人發(fā)音時“heat”中的元音“i”的曲線,其中(a)表示相應(yīng)于圖7中數(shù)字化輸入信號S(t)的濾波前的語音信號,(b)表示相應(yīng)于圖7中的帶通濾波器10的輸出信號的高通濾波后的信號,(c)表示相應(yīng)于圖7中的低通濾波器12的輸出信號的整流和低通濾波后的信號。
圖15表示類似圖14的“hop”中的元音“o”的曲線。
注意到瞬態(tài)脈沖的上升和下降時間以及寬度或持續(xù)時間對于元音的聲音很重要。圖16-18給出被測瞬態(tài)脈沖的例子。圖16a所示的當(dāng)由男人發(fā)音時“heat”中的元音“i”的時間窗口相當(dāng)于圖14c所示的被處理信號。當(dāng)“heat”中的元音“i”由兒童發(fā)音時相應(yīng)的時間窗口如圖16b所示。由圖16a和圖16b可見,最占優(yōu)脈沖的上升沿和下降沿很陡,上升和下降時間約為0.4毫秒或更短,當(dāng)在約50%的電平處測量時最占優(yōu)脈沖的寬度約為0.8毫秒。
圖17a所示的當(dāng)由男人發(fā)音時“hop”中的元音“o”的時間窗口相當(dāng)于圖15c所示的被處理信號。當(dāng)“hop”中的元音“o”由兒童發(fā)音時相應(yīng)的時間窗口如圖17b所示。由圖17a和圖17b可見,最占優(yōu)脈沖的上升沿和下降沿很陡,上升和下降時間約為0.5毫秒,但當(dāng)在約50%的電平處測量時最占優(yōu)脈沖的寬度約為1.5毫秒。圖17b的最占優(yōu)脈沖中的凹陷的深度尚未能影響感知。應(yīng)當(dāng)指出,“hop”中的元音“o”是尖銳的元音,較圓滑的元音的下降沿將較平緩。
圖18表示當(dāng)由男人發(fā)音時“have”中的元音“a”的被處理信號的時間窗口。應(yīng)注意到該瞬態(tài)脈沖的形狀具有比圖16-17所示脈沖平緩的上升和下降沿。
因此,根據(jù)以上的結(jié)果,可以得出元音的感知是由瞬態(tài)脈沖的形狀來給出的結(jié)論。還可以得出這樣的結(jié)論,即通過利用上述信號處理方法分析已從聽覺信號提取的瞬態(tài)分量或脈沖,就可以通過區(qū)分瞬態(tài)脈沖或一些瞬態(tài)脈沖的形狀來識別語音信號的元音或音素。
在元音或音素中,瞬態(tài)脈沖被重復(fù),重復(fù)頻率給出對音調(diào)的感知。在圖16a中,兩個接連的脈沖之間的時間間隔約是相應(yīng)于170Hz的男人音調(diào)的6毫秒,在圖16b中,兩個接連的脈沖之間的時間間隔約是相應(yīng)于280Hz的兒童音調(diào)的3.5毫秒。
因此,還可以得出這樣的結(jié)論,即通過利用上述信號處理方法分析已從聽覺信號提取的瞬態(tài)分量或脈沖,就可以通過確定瞬態(tài)脈沖之間的時間間隔來確定語音信號的音調(diào)。
因此,當(dāng)按照本發(fā)明的最佳實(shí)施例對聽覺信號進(jìn)行分析時,就考慮了在包括高通濾波和隨后是輸入信號的整流和低通濾波的信號處理期間保持聲信號的被識別為一致。
由以上討論應(yīng)當(dāng)認(rèn)識到本發(fā)明提供了非常適合于語音識別的方法。
圖19表示本發(fā)明的語音識別系統(tǒng)的方框圖。在該系統(tǒng)中設(shè)置了包括圖7的帶通濾波器10、整流電路11和低通濾波器12的預(yù)處理單元20。因此,可以最方便地集成在一塊集成電路或芯片內(nèi)的該預(yù)處理單元就是與本發(fā)明的方法相適應(yīng)的瞬態(tài)檢測單元。該系統(tǒng)還包括通常在語音識別系統(tǒng)中使用的單元,例如與基準(zhǔn)庫22連接的模式識別單元21、音素確定單元23和單詞/句子確定單元24。圖19所示系統(tǒng)采用了模型匹配(template matching),但在識別系統(tǒng)中還可以采用其它方法。
圖19的基準(zhǔn)庫22應(yīng)存儲相應(yīng)于可由預(yù)處理單元20產(chǎn)生的形狀的庫。
應(yīng)當(dāng)認(rèn)識到單片預(yù)處理單元還可以包括如圖8所示的低通濾波器14和/或A/D轉(zhuǎn)換器15。
應(yīng)當(dāng)認(rèn)識到本發(fā)明的預(yù)處理可以在需要語音或聲音分析、識別、編碼和/或譯碼的許多其它電子系統(tǒng)中應(yīng)用,例如象揚(yáng)聲器、助聽器和遠(yuǎn)程通信系統(tǒng)這樣的音響產(chǎn)品或系統(tǒng)的質(zhì)量測定,或用于聲學(xué)條件的質(zhì)量測定。還可以在窄帶無線電通信的語音壓縮和解壓縮方面采用該預(yù)處理。
如圖10所示,在預(yù)處理單元中使用的低通濾波器12的最佳截止頻率應(yīng)低于1KHz。因此,聽覺信號的全部必要信號信息被表示在1KHz的相當(dāng)窄的頻率范圍內(nèi)。應(yīng)當(dāng)將這一頻率范圍與在語音信號傳送的GSM移動無線電通信系統(tǒng)中使用的每秒約9000位的頻帶相比。通過采用本發(fā)明的預(yù)處理方法或單元,能夠?qū)o線電通信用的頻率減少到每秒約1000位,這樣的頻帶將在這一通信領(lǐng)域內(nèi)節(jié)省了許多頻率資源。
因此,應(yīng)當(dāng)認(rèn)識到本方法非常適合于最佳化窄帶無線電通信內(nèi)的帶寬,當(dāng)在無線電通信系統(tǒng)內(nèi)傳送聽覺信號時,應(yīng)當(dāng)在信號被傳送以及在被接收機(jī)接收之前用在此描述的預(yù)處理對信號進(jìn)行處理,而這是落在本發(fā)明的范圍內(nèi)的。最好是在被處理信號的傳送之前將信號編碼成為數(shù)字表示并在接收機(jī)中譯碼該編碼信號,以便將被例如人耳這樣的動物耳朵感知的瞬態(tài)脈沖形狀恢復(fù)為表示聽覺信號的獨(dú)特的聲描述。
在上述數(shù)字傳輸期間,可以選擇帶寬來滿足對被接收、被譯碼和被恢復(fù)的瞬態(tài)脈沖的質(zhì)量的不同要求。因此,可以選擇最寬為每秒4000倍的帶寬,但應(yīng)當(dāng)能夠利用每秒約2000位的帶寬來獲得被恢復(fù)脈沖的良好質(zhì)量。然而,帶寬最好是在每秒800-2000位的范圍內(nèi)。應(yīng)當(dāng)指出,與考慮重建信號的高質(zhì)量相反,對于優(yōu)先考慮高的系統(tǒng)性能的無線電通信系統(tǒng)、例如軍用系統(tǒng)而言,可以選擇每秒約400倍的帶寬。
在傳送數(shù)字信號時,數(shù)字信息最好包括有關(guān)代表了被處理聽覺信號的瞬態(tài)脈沖的上升沿、下降沿和持續(xù)時間的信息。在一系列相同脈沖中的第二個和其它的脈沖最好用表示被傳送時的重復(fù)的數(shù)字符號來表示。
提供用于語音合成的方法也是本發(fā)明的目的。
從圖14-18的實(shí)驗(yàn)結(jié)果的討論應(yīng)當(dāng)認(rèn)識到,每一元音或音素的聲音可以由特定地與該音素相應(yīng)的占優(yōu)瞬態(tài)脈沖的形狀來給出。由實(shí)驗(yàn)已得出這樣的結(jié)論,即與圖16-18的被處理脈沖類似的瞬態(tài)脈沖包含了產(chǎn)生音素的聲音的必要信息。
利用為圖14-18所示瞬態(tài)分析而開發(fā)的軟件,就能夠通過在縱坐標(biāo)是振幅和橫坐標(biāo)是以毫秒為單位的時間的坐標(biāo)系統(tǒng)中對點(diǎn)進(jìn)行排列來產(chǎn)生簡單的瞬態(tài)信號。通過排列一個或若干個點(diǎn)、用直線或正弦曲線在各點(diǎn)之間內(nèi)插線段并確定時間間隔就可以產(chǎn)生一個瞬態(tài)脈沖。該信號重復(fù)300毫秒,當(dāng)該信號在編碼譯碼器芯片的D/A轉(zhuǎn)換器中被轉(zhuǎn)換時就能夠?qū)ζ溥M(jìn)行監(jiān)聽。
應(yīng)當(dāng)指出,脈沖上升時間或上升沿的形狀、脈沖的持續(xù)時間和下降時間或下降沿的形狀都是對在語音識別和/或合成中使用的瞬態(tài)脈沖進(jìn)行區(qū)分、表示和/或產(chǎn)生的重要特征。這些特征還可以應(yīng)用在語音壓縮方面。
這方面的應(yīng)用如圖20-25所示,圖20-25分別表示了對于“heat”中的元音“i”、“hop”中的“o”、“ongaonga”或丹麥字“Ole”中的“o”、字“who”中的“u”、丹麥字“Φse”中的“Φ”以及丹麥字“1ys”中的“y”,應(yīng)如何形成用于語音合成或識別的瞬態(tài)脈沖。這些脈沖以5毫秒的周期重復(fù)。
由圖20可見,“heat”中的音素“i”可以由持續(xù)時間在0.3-1.1毫秒時間內(nèi)、上升沿的上升時間在0.3-0.5毫秒范圍內(nèi)的非常窄的脈沖來形成。下降沿的下降時間也應(yīng)在0.3-0.5毫秒范圍內(nèi)。
同樣地由圖21可見,“hop”中的音素“o”可以由持續(xù)時間在1.3-1.8毫秒范圍內(nèi)、上升沿的上升時間在0.3-0.5毫秒范圍內(nèi)的脈沖來形成。下降沿的下降時間也應(yīng)在0.3-0.5毫秒范圍內(nèi)。
由圖22可見,丹麥字“Ole”中的音素“o”可以由脈沖上部的持續(xù)時間在1.3-1.8毫秒范圍內(nèi)、上升沿的上升時間在0.3-0.5毫秒范圍內(nèi)的脈沖來形成。這一音素的下降沿的下降時間可以變化,但應(yīng)在1.0-2.0毫秒的范圍內(nèi)。
由圖23可見,字“who”中的音素“u”可以通過產(chǎn)生具有正弦曲線內(nèi)插和在1.0-2.0毫秒范圍內(nèi)的持續(xù)時間的瞬態(tài)脈沖來形成。最佳持續(xù)時間應(yīng)為約1.5毫秒。
圖24表示在丹麥字“Φse”中的音素“Φ”的脈沖。該脈沖的上升沿可以具有在0.4-0.6毫秒范圍內(nèi)的上升時間。下降沿的下降時間應(yīng)在1.0-2.0毫秒范圍內(nèi)。
圖25表示在丹麥字“l(fā)ys”中的音素“y”的脈沖。該脈沖的上升沿可以具有在1.0-2.0毫秒范圍內(nèi)的上升時間。下降沿的下降時間也應(yīng)在1.0-2.0毫秒范圍內(nèi)。
當(dāng)根據(jù)本發(fā)明的上述原理合成人的語音時,最好產(chǎn)生一系列瞬態(tài)脈沖,這一系列瞬態(tài)脈沖相應(yīng)于組成要被合成的語音的音素序列。另外最好利用基于規(guī)則的變換從一系列字母恢復(fù)該音素序列。
應(yīng)當(dāng)認(rèn)識到本發(fā)明的原理還應(yīng)可應(yīng)用于音響產(chǎn)品的質(zhì)量測定。在進(jìn)行這種測定時,應(yīng)當(dāng)將明確定義的瞬態(tài)信號傳送給音響產(chǎn)品,然后測定響應(yīng)的失真??梢圆捎门c圖7所示原理一致的預(yù)處理來測定該失真。
本發(fā)明的原理還可應(yīng)用于助聽器,以便改善語音信號的噪音抑制。
表示瞬態(tài)脈沖的特征形狀的特征庫可用來識別語音信號并使語音信號與噪聲背景分離。
提供的實(shí)驗(yàn)已首次描述了可以被非常簡單地識別和產(chǎn)生的音素的某些共同特征,但這些特征在語音或聽覺信號的識別和產(chǎn)生的整個領(lǐng)域內(nèi)可以具有極大的意義。
在時域內(nèi)描述了本發(fā)明的方法和系統(tǒng)的性能。但應(yīng)認(rèn)識到也可以對在時域內(nèi)描述的瞬態(tài)信號、分量和/或脈沖給出在頻域內(nèi)相應(yīng)的描述,這自然將在本發(fā)明的范圍之內(nèi)。
還應(yīng)當(dāng)指出,上述信號處理方法可以按照數(shù)字方式、采用模擬部件的電子方式、機(jī)械的方式或者它們之間的任何組合的方式來實(shí)現(xiàn),這種處理方法也將來本發(fā)明的范圍之內(nèi)。
權(quán)利要求
1.應(yīng)用聽覺信號能量變化的形狀,以便來識別或表示可被例如人耳這樣的動物耳朵感知為代表獨(dú)特的聲描述的特征。
2.權(quán)利要求1的應(yīng)用,其中聽覺信號能量變化的形狀由該信號的瞬態(tài)脈沖的形狀來表示。
3.權(quán)利要求2的應(yīng)用,其中瞬態(tài)脈沖的形狀利用包絡(luò)檢波來獲得。
4.根據(jù)上述任一權(quán)利要求的應(yīng)用,其中獨(dú)特的聲描述是音素。
5.一種識別聽覺信號中可被例如人耳這樣的動物耳朵感知為代表獨(dú)特的聲描述的能量變化的方法,該方法將該信號能量變化的形狀與代表獨(dú)特的聲描述的預(yù)定的能量變化形狀進(jìn)行比較。
6.權(quán)利要求5的方法,其中能量變化的形狀由信號的瞬態(tài)脈沖的形狀來表示。
7.權(quán)利要求6的方法,其中瞬態(tài)脈沖的形狀利用聽覺信號能量變化的瞬態(tài)響應(yīng)的包絡(luò)檢波來獲得。
8.一種對聽覺信號進(jìn)行處理以便在基本保持信號的信息的情況下減小該信號的帶寬的方法,該方法包括提取聽覺信號的瞬態(tài)分量并對該瞬態(tài)分量的包絡(luò)進(jìn)行檢波。
9.權(quán)利要求8的方法,該方法對可被例如人耳這樣的動物耳朵感知為代表獨(dú)特的聲描述的信號的瞬態(tài)脈沖形狀進(jìn)行識別。
10.權(quán)利要求9的方法,其中獨(dú)特的聲描述是音素。
11.權(quán)利要求6或9的方法,該方法對脈沖上升沿的形狀進(jìn)行識別。
12.權(quán)利要求11的方法,其中上升沿的形狀通過確定至少部分上升沿的上升時間、斜率和/或斜率變化來確定。
13.權(quán)利要求12的方法,該方法確定至少上升沿的頂部的上升時間、斜率和/或斜率變化。
14.權(quán)利要求13的方法,其中頂部是大體上在斜率為最大的時刻開始的部分。
15.權(quán)利要求12的方法,其中上升沿的上升時間、斜率和/或斜率變化在至少5次取樣的基礎(chǔ)上來確定。
16.根據(jù)權(quán)利要求11-15中任一權(quán)利要求的方法,該方法通過與基準(zhǔn)庫作比較來實(shí)現(xiàn)上升沿的形狀的識別。
17.權(quán)利要求16的方法,其中進(jìn)行比較的基準(zhǔn)是根據(jù)上升沿的上升時間來選擇的。
18.權(quán)利要求6或9的方法,該方法對脈沖的持續(xù)時間進(jìn)行識別。
19.權(quán)利要求18的方法,其中脈沖的持續(xù)時間被確定為在預(yù)定振幅處從上升沿至下降沿的間距。
20.權(quán)利要求19的方法,其中預(yù)定振幅是脈沖最大振幅的至多50%的振幅。
21.根據(jù)權(quán)利要求11-20中任一權(quán)利要求的方法,該方法對不能夠被動物耳朵感知的脈沖不進(jìn)行識別。
22.權(quán)利要求21的方法,該方法不考慮其上升沿具有小于前一脈沖振幅的50%的振幅和小于3.5毫秒約開始時間的脈沖。
23.根據(jù)權(quán)利要求11-22中任一權(quán)利要求的方法,該方法對脈沖下降沿的形狀進(jìn)行識別。
24.權(quán)利要求23的方法,其中下降沿約形狀通過確定至少部分下降沿的下降時間、斜率和/或斜率變化來確定。
25.根據(jù)權(quán)利要求11-23中任一權(quán)利要求的方法,該方法確定可被動物耳朵感知的各脈沖的上升沿之間的時間間隔。
26.權(quán)利要求25的方法,該方法確定相互之間具有至少3毫秒間距的各上升沿之間的時間間隔。
27.對聽覺信號進(jìn)行無線電傳送的方法,該方法包括利用根據(jù)權(quán)利要求8-26中任一權(quán)利要求的方法對信號進(jìn)行處理,傳輸被處理的信號,并用接收機(jī)接收被處理的信號。
28.權(quán)利要求27的方法,該方法在傳送被處理信號之前將該信號編碼成為數(shù)字表示,并在接收機(jī)中譯碼該編碼信號,以便恢復(fù)被例如人耳這樣的動物耳朵感知為代表聽覺信號的獨(dú)特的聲描述的瞬態(tài)脈沖形狀。
29.權(quán)利要求28的方法,其中數(shù)字傳輸是以每秒至多4000位的帶寬來進(jìn)行的。
30.權(quán)利要求29的方法,其中帶寬至多為每秒2000位。
31.權(quán)利要求30的方法,其中帶寬在每秒800-2000位范圍之內(nèi)。
32.根據(jù)權(quán)利要求28-31中任一權(quán)利要求的方法,其中數(shù)字信息包括有關(guān)瞬態(tài)脈沖的上升沿、下降沿和持續(xù)時間的信息。
33.根據(jù)權(quán)利要求28-32中任一權(quán)利要求的方法,其中在一系列相同脈沖中的第二個和其它脈沖用表示重復(fù)的數(shù)字符號來表示。
34.根據(jù)權(quán)利要求8-26中任一權(quán)利要求的方法,其中瞬態(tài)分置的提取包括帶通濾波或高通濾波。
35.根據(jù)權(quán)利要求8-26中任一權(quán)利要求或權(quán)利要求34的方法,其中包絡(luò)檢波包括整流和低通濾波。
36.權(quán)利要求34的方法,其中帶通或高通濾波的下截止頻率至少為2KHz,例如約為3KHz。
37.權(quán)利要求34或36的方法,其中上截止頻率在4.5和7KHz之間的范圍內(nèi),最好約為6KHz。
38.權(quán)利要求35的方法,其中整流是單向整流。
39.權(quán)利要求35或38的方法,其中低通濾波的截止頻率在400-1000Hz的范圍內(nèi),最好約為700Hz。
40.根據(jù)權(quán)利要求8-26中的任一權(quán)利要求或權(quán)利要求34的方法,其中包絡(luò)檢波包括利用濾波器組的帶通濾波。
41.一種識別或表示“heat”中的音素“i”的方法,該方法識別或產(chǎn)生上升沿的上升時間至多為0.5毫秒、持續(xù)時間至多為1.1毫秒的瞬態(tài)脈沖。
42.權(quán)利要求41的方法,其中上升沿的上升時間至多為0.4毫秒,最好至多為0.3毫秒。
43.權(quán)利要求41或42的方法,其中持續(xù)時間至多為1.0毫秒,最好約為0.8毫秒。
44.識別或表示“hop”中的音素“o”的方法,該方法識別或產(chǎn)生上升沿的上升時間至多為0.5毫秒、持續(xù)時間為1.3-1.8毫秒的瞬態(tài)脈沖。
45.權(quán)利要求44的方法,其中上升沿的上升時間至多為0.4毫秒,最好至多為0.3毫秒。
46.權(quán)利要求41或42的方法,其中下降沿的下降時間至多為0.5毫秒,至多0.4毫秒更好,至多0.3毫秒最好。
47.識別或表示英文字“ongaonga”或丹麥字“Ole”中的音素“o”的方法,該方法包括識別或產(chǎn)生上升沿的上升時間至多為0.5毫秒、持續(xù)時間為1.3-1.8毫秒瞬態(tài)脈沖。
48.識別或表示英文字“who”中的音素“u”的方法,該方法包括識別或產(chǎn)生具有正弦曲線內(nèi)插和1.0-2.0毫秒、最好約為1.5毫秒持續(xù)時間的瞬態(tài)脈沖。
49.根據(jù)權(quán)利要求1-26或41-48中任一權(quán)利要求的方法,該方法用于語音識別。
50.根據(jù)權(quán)利要求1-7或41-48中任一權(quán)利要求的方法,該方法用于語音壓縮。
51.權(quán)利權(quán)利要求1-7或41-48中任一權(quán)利要求的方法,當(dāng)用于合成人的語音時,該方法包括產(chǎn)生一系列瞬態(tài)脈沖,這一系列瞬態(tài)脈沖相應(yīng)于組成要被合成的語音的音素序列。
52.權(quán)利要求51的方法,該方法利用基于規(guī)則的變換從一系列字母恢復(fù)音素序列。
53.根據(jù)權(quán)利要求1-7或41-48中任一權(quán)利要求的方法,該方法用于音響產(chǎn)品的質(zhì)量測定,音響產(chǎn)品最好是揚(yáng)聲器、助聽器或電信系統(tǒng)。
54.根據(jù)權(quán)利要求1-7或41-48中任一權(quán)利要求的方法,該方法用于室內(nèi)或室外聲學(xué)條件的質(zhì)量測定。
55.一種對聽覺信號進(jìn)行處理以便在基本保持信號的信息的條件下減小該信號的帶寬的系統(tǒng),該系統(tǒng)包括提取聽覺信號的瞬態(tài)分量的裝置,以及檢測該瞬態(tài)分量的包絡(luò)的裝置。
56.權(quán)利要求55的系統(tǒng),還包括根據(jù)瞬態(tài)脈沖的形狀識別或表示能量變化的裝置。
57.權(quán)利要求55或56的系統(tǒng),其中用于瞬態(tài)分量提取的裝置包括帶通濾波器或高通濾波器。
58.根據(jù)權(quán)利要求55-57中任一權(quán)利要求的系統(tǒng),其中包絡(luò)檢波裝置包括整流器和低通濾波器。
59.權(quán)利要求57或58的系統(tǒng),其中帶通或高通濾波器的下截止頻率至少是2KHz,例如約為3KHz。
60.根據(jù)權(quán)利要求57-59中任一權(quán)利要求的系統(tǒng),其中帶通濾波器的上截止頻率在4.5和7KHz之間的范圍內(nèi),最好約為6KHz。
61.根據(jù)權(quán)利要求58-60中任一權(quán)利要求的系統(tǒng),其中整流器是單向整流器。
62.根據(jù)權(quán)利要求58-61中任一權(quán)利要求的系統(tǒng),其中低通濾波器的截止頻率在400-1000Hz范圍內(nèi),最好約為700Hz。
63.權(quán)利要求55或56的系統(tǒng),其中包絡(luò)檢波裝置包括濾波器組。
全文摘要
聽覺信號能量變化的形狀被用來識別或表示可被人耳感知為代表獨(dú)特的聲描述的特征。為了從能量變化的形狀中提取信息,該形狀最好用信號的瞬態(tài)脈沖的形狀為表示。為了獲得瞬態(tài)信號脈沖,最好使用包絡(luò)檢波。代表獨(dú)特聲描述的能量變化可以是音素或元音。本發(fā)明還涉及通過將可被表示為瞬態(tài)脈沖的形狀的信號的能量變化的形狀與代表獨(dú)特的聲描述的預(yù)定能量變化形狀進(jìn)行比較來識別聽覺信號中的能量變化的方法。本發(fā)明還涉及產(chǎn)生一系列相應(yīng)于待合成的音素序列的瞬態(tài)脈沖的語音合成的方法。還涉及對聽覺信號進(jìn)行處理以便在基本保持信號信息的情況下減小該信號帶寬的系統(tǒng),該系統(tǒng)包括提取聽覺信號的瞬態(tài)分量的裝置,以及檢波該瞬態(tài)分量的包絡(luò)的裝置。這種系統(tǒng)可用作用于語音或聲音分析的電子系統(tǒng)中的預(yù)處理系統(tǒng)。本發(fā)明的方法和系統(tǒng)可應(yīng)用于語音識別、語音合成、窄帶無線電通信、助聽器和音響產(chǎn)品質(zhì)量監(jiān)測的領(lǐng)域。
文檔編號G10L15/02GK1125010SQ9419235
公開日1996年6月19日 申請日期1994年4月22日 優(yōu)先權(quán)日1993年4月22日
發(fā)明者弗蘭克·烏達(dá)爾·萊昂哈德 申請人:弗蘭克·烏達(dá)爾·萊昂哈德