欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于分析-合成celp型語音編碼的自適應(yīng)窗的制作方法

文檔序號:2822020閱讀:382來源:國知局
專利名稱:用于分析-合成celp型語音編碼的自適應(yīng)窗的制作方法
技術(shù)領(lǐng)域
本發(fā)明總的涉及數(shù)字通信,具體地,涉及語音或話音編碼(聲碼器)和譯碼方法和設(shè)備。
對本發(fā)明的教導(dǎo)所關(guān)心的一種話音通信系統(tǒng)使用碼分多址(CDMA)技術(shù),諸如由EIA過渡性標準IS-95A原先規(guī)定的這種技術(shù),以及它的后來的修訂本和對它的改進。這種CDMA系統(tǒng)是基于數(shù)字擴頻技術(shù),它在單個1.25MHz射頻頻譜段上發(fā)送多個獨立的用戶信號。在CDMA中,每個用戶信號包括不同的正交碼和偽隨機二進制序列,它調(diào)制一個載波,擴展波形的頻譜,因此允許很大數(shù)目的用戶信號共享同一個頻譜。用戶信號在接收機中通過相關(guān)器被分開,只允許來自選擇的正交碼的能量被解擴頻。其代碼不匹配的、其它用戶信號沒有被解擴頻,這樣,它只貢獻噪聲,因此給出了由系統(tǒng)產(chǎn)生的自干擾。系統(tǒng)的SNR由想要的信號功率對所有的干擾信號的功率總和的比值來確定,通過系統(tǒng)處理增益或?qū)鶐?shù)據(jù)速率的擴頻帶寬而被改善。
如在IS-95A中所規(guī)定的CDMA系統(tǒng)使用可變速率話音編碼算法,其中數(shù)據(jù)速率可以作為語音圖案(話音活動性)的函數(shù)在20毫秒幀上逐幀地動態(tài)地改變。該業(yè)務(wù)信道幀可以以全部、1/2、1/4或1/8速率(分別為9600、4800、2400和1200bps)發(fā)送。對于每個較低的比特速率,發(fā)射機功率(Es)按比例降低,因此,使得能夠增加信道中的用戶信號的數(shù)目。
在低的比特速率下[例如,每秒約4000比特(4kb/s)和更低,諸如4,2和0.8kb/s]長途電話質(zhì)量語音重現(xiàn)已證明是一個困難的任務(wù)。盡管許多語音研究者作出努力,在低的比特速率下編碼的語音的質(zhì)量一般不適合于無線和網(wǎng)絡(luò)應(yīng)用。在傳統(tǒng)的CELP(代碼激勵的線性預(yù)測)算法中,不能有效地產(chǎn)生激勵,以及在話音時間間隔期間在剩余信號中存在的周期性沒有被適當?shù)乩?。而且,CELP編碼器和它們的派生物沒有顯示在低的比特速率時滿意的主觀上的性能。
在傳統(tǒng)的分析-合成(“AbS”)語音編碼中,將語音波形劃分成一系列接連的幀。每個幀具有固定的長度,并被劃分成整數(shù)個相等長度的子幀。編碼器通過試驗和誤差搜索過程產(chǎn)生激勵信號,由此每個用于子幀的候選激勵被加到合成濾波器,將所得的合成語音段與想要的目標語音段進行比較。計算失真量度,搜索機制識別在允許的候選者集合中間的對于每個子幀的激勵的最佳(或接近最佳)選擇。因為這些候選者有時作為矢量被存儲在代碼本中,將該編碼方法稱為代碼激勵線性預(yù)測(CELP)。在其它時間,在需要它們用于搜索時通過預(yù)定的產(chǎn)生機制產(chǎn)生這些候選者。這種情形具體地包括,多脈沖線性預(yù)測編碼(MP-LPC)或代數(shù)代碼激勵線性預(yù)測(ACELP)。對于規(guī)定選擇的激勵子幀所需要的比特是在每個幀中、被發(fā)送到接收機的數(shù)據(jù)分組的一部分。
通常激勵在兩級中形成,其中激勵子幀的第一近似是從包含過去的激勵矢量的自適應(yīng)代碼本中選擇的,然后修正的目標信號被形成為用于第二AbS搜索運行的新的目標,它使用上述的程序。
在增強的變量速率編碼器(TIA/EIA/IS-127)里的松弛CELP(RCELP)中,輸入的語音信號通過時間曲折(time warping)處理過程被修正,以便確保它與簡化的(線性)音調(diào)(pitch)輪廓一致。該修正如下執(zhí)行。
將語音信號劃分成幀,并進行線性預(yù)測來產(chǎn)生剩余信號。然后執(zhí)行剩余信號的音調(diào)分析,并將整數(shù)個音調(diào)值(每個幀計算一次)發(fā)送到該譯碼器。將該發(fā)送的音調(diào)值內(nèi)插,得出逐個樣本的音調(diào)估值,正如音調(diào)輪廓所規(guī)定的。接著,在編碼器中修正剩余信號,產(chǎn)生修正的剩余信號,它在感覺上類似于原先的剩余信號。此外,該修正的剩余信號在間隔一個音調(diào)周期(由間距輪廓規(guī)定)的樣本之間呈現(xiàn)很強的相關(guān)性(如該音調(diào)輪廓所定義的)。將該修正的剩余信號通過從線性預(yù)測系數(shù)得出的合成濾波器進行濾波,以便得到修正的語音信號。剩余信號的修正可以按美國專利No.5,704,003中描述的方式來完成。
對于RCELP的標準編碼(搜索)程序,除了兩個重要的差別以外,類似于常規(guī)的CELP。第一,該RCELP自適應(yīng)激勵是通過使用音調(diào)輪廓對過去的編碼激勵信號進行時間曲折而得到的。第二,RCELP中的分析-合成目的是得出在合成的語音與修正的語音信號之間的最好的可能一致。
本發(fā)明的第一目的和優(yōu)點是提供實施自適應(yīng)地修正子幀邊界和自適應(yīng)地確定子幀內(nèi)的窗口尺寸和位置的分析-合成(AbS)型聲碼器的方法和電路。
本發(fā)明的第二目的和優(yōu)點是提供時域?qū)崟r語音編碼/譯碼系統(tǒng),至少部分基于代碼激勵線性預(yù)測(CELP)型算法,該語音編碼/譯碼系統(tǒng)使用自適應(yīng)窗口。
本發(fā)明的再一個目的和優(yōu)點是提供一種算法和相應(yīng)的裝置,通過利用具有CELP或松弛的CELP(RCELP)模型的新的激勵編碼方案,克服許多上述的許多問題,其中將圖案分類器用于確定一種最好地描述在每幀中的語音信號的字符的分類,然后通過使用類別特定結(jié)構(gòu)的代碼本來編碼該固定的激勵。
本發(fā)明的另一個目的和優(yōu)點是提供用來實施分析-合成(AbS)型語音編碼器的方法和電路,其中該自適應(yīng)窗口的使用使得能夠更有效地分配相當有限數(shù)目的比特來描述激勵信號。這導(dǎo)致在低到4kpbs或更低的比特速率時,與傳統(tǒng)上使用CEPL型的編碼器相比較改進了語音質(zhì)量。
通過提供一種改進的時域的、CELP型話音編碼器/音碼器的方法和設(shè)備,克服上述的和其它的問題并實現(xiàn)了本發(fā)明的目的和優(yōu)點。
當前優(yōu)選的語音編碼方案模型使用用于產(chǎn)生和編碼該固定代碼本激勵的新的類別相關(guān)的方法。該模型保留了RCELP方法,以便有效地產(chǎn)生和編碼用于話音幀的該自適應(yīng)代碼本貢獻。然而,該模型對于每個多個剩余信號類別的每個,諸如話音,過渡,和非話音,或?qū)τ趶娭芷谛?,弱周期性,不穩(wěn)定的(過渡),和非話音,引用不同的激勵編碼策略。該模型利用提供用于閉環(huán)過渡/話音選擇的分類器。對于話音幀的固定代碼本激勵是基于增強的自適應(yīng)窗方法,它被證明在4kb/s和更低的速率下得到高質(zhì)量的語音方面是有效的。
按照本發(fā)明的一個方面,將子幀內(nèi)的激勵信號限制為在子幀內(nèi)的選擇間隔以外為零。將這些間隔在這里稱為窗。
按照本發(fā)明的另一個方面,揭示了用于確定這些窗的位置和尺寸并識別對于給出脈沖幅度的適當選擇是特別重要的、那些激勵信號的關(guān)鍵段的技術(shù)。子幀和幀的尺寸允許改變(以控制的方式),以便適應(yīng)語音信號的本地特性。這提供了有效的窗編碼,而該窗口不用跨越在兩個相鄰的子幀之間的邊界。通常,按照輸入或目標語音信號的本地特性來調(diào)整這些窗口的尺寸和它們的位置。正如這里所采用的,定位窗口是指根據(jù)短期能量圖案,把窗口放置在與該剩余信號有關(guān)的能量峰值附近。
按照本發(fā)明的再一個方面,激勵幀的高效率編碼是通過對這些窗口本身進行處理,并分配全部或幾乎全部可提供的比特以編碼在這些窗口內(nèi)的區(qū)域來達到的。
再按照本發(fā)明的教導(dǎo),用于編碼在窗口內(nèi)的信號的減小復(fù)雜性的方法是基于三進制數(shù)值幅度1,-1,和+1的使用。該減小復(fù)雜性的方法也是基于利用在周期性語音段中在接連的窗口之間的相關(guān)性。
按照本發(fā)明的長途電話質(zhì)量語音編碼技術(shù)是時域方案,它利用取決于包含在短時間的語音信號段中的信息的性質(zhì)和信息量,以不同的數(shù)據(jù)速率給出和編碼語音信號的新的方式。
本發(fā)明針對用于編碼輸入語音信號的方法和設(shè)備的各種實施例。該語音信號可以直接從被用來進行話音電話呼叫的語音換能器,諸如話筒,的輸出得出的。可替換地,該輸入語音信號可作為通過通信電纜或網(wǎng)絡(luò)的數(shù)字數(shù)據(jù)流被接收,它們首先在某個遠端位置被采樣并從模擬變換成數(shù)字數(shù)據(jù)。作為一個例子,在用于無線電話系統(tǒng)的固定的臺址或基站中,基站處的輸入語音信號典型地可以從地面線路電話電纜到達。
總之,該方法具有以下步驟(a)把語音信號樣本劃分成幀;(b)確定在幀內(nèi)的至少一個窗口位置;以及(c)編碼對于該幀的激勵,由此全部或幾乎全部非零激勵幅度位于該至少一個窗內(nèi)。在當前的優(yōu)選實施例中,該方法還包括步驟對于每個幀得出剩余信號,以及通過檢驗該得出的剩余信號來確定該至少一個窗的位置。在更優(yōu)選的實施例中,該得出的步驟包括平滑該剩余信號的能量輪廓,以及通過檢驗剩余信號的平滑的能量輪廓來確定該至少一個窗的位置的步驟。該至少一個窗可被定位,以便具有與子幀邊界或幀邊界中的至少一個相一致的邊緣。
同時按照本發(fā)明,提供了用于編碼語音信號的方法,包括以下步驟(a)把語音信號樣本劃分成幀;(b)對于每個幀得出剩余信號;(c)把每個幀中的語音信號分類到成多種類別中的一種類別;(d)通過檢驗幀的該剩余信號來識別在該幀中的至少一個窗口位置;(e)通過使用按照幀的類別選擇的多個激勵編碼技術(shù)之一,編碼該幀的一個激勵;并對于至少一個類別,(f)把全部或幾乎全部非零激勵幅度限制在窗口內(nèi)。
在一個實施例中,這些類別包括話音幀,非話音幀,和過渡幀,而在另一個實施例中,這些類別包括強周期性幀,弱周期性幀,不穩(wěn)定幀,和非話音幀。
在優(yōu)選實施例中,該分類語音信號的步驟包括從該剩余信號形成平滑的能量輪廓的步驟,以及考慮在該平滑的能量輪廓中的峰值位置的步驟。
該多個代碼本之一可以是自適應(yīng)代碼本,和/或該多個代碼本之一可以是固定的三進制脈沖編碼代碼本。
在本發(fā)明的該優(yōu)選實施例中,該分類的步驟使用開環(huán)分類器,后面跟隨閉環(huán)分類器。
在本發(fā)明的優(yōu)選實施例中,該分類的步驟使用第一分類器,把一個幀分類為非話音幀或不是非話音幀之一,第二分類器,用于把不是非話音幀分類為話音幀或過渡幀之一。
在本方法中,該編碼的步驟包括以下步驟把幀劃分成多個子幀;以及在每個子幀內(nèi)放置至少一個窗口,其中該放置至少一個窗口的步驟把第一窗口放置在一個作為該幀的音調(diào)的函數(shù)的位置處,以及放置隨后的窗口,作為該幀的音調(diào)的函數(shù)和作為第一窗口的該位置的函數(shù)。
識別至少一個窗口的位置的步驟最好包括平滑該剩余信號的步驟,且該識別步驟考慮在該剩余信號的該平滑的輪廓中能量峰值的存在。
在本發(fā)明的實踐方面,子幀或幀的邊界可被修正,以使得窗口整個地位于該修正的子幀或幀內(nèi),并定位該子幀或幀的邊界,使之該修正的幀或子幀的邊緣與窗口的邊界一致。
概括地,本發(fā)明是針對語音編碼器和用于語音編碼的方法,其中該語音信號由加到合成濾波器的激勵信號代表。將該語音信號劃分成幀和子幀。分類器識別語音幀屬于幾種類別的哪個類別,并應(yīng)用不同的編碼方法來表示用于每種類別的激勵。對于某些類別,將一個或多個窗口識別為用于其中全部或幾乎全部激勵信號樣本由一個編碼方案分配的幀。通過更精確地編碼重要的激勵段,來改進了性能。通過識別該平滑的剩余能量輪廓的峰值,從線性預(yù)測剩余確定這些窗口位置。該方法調(diào)整該幀和子幀的邊界,以使得每個窗口整個地位于一個修正的子幀或幀內(nèi)。這消除了當單獨地編碼幀或子幀時引起的人為限制,而不管在幀或子幀邊界上該語音信號的局部特性。
當結(jié)合附圖閱讀本發(fā)明的詳細說明時更明白本發(fā)明的上述和其它的特征,其中

圖1是具有適合于實踐本發(fā)明的電路的無線電話的一個實施例的方框圖;圖2是顯示被劃分成多個(3)基本子幀的基本幀的圖,以及也顯示一個搜索子幀;圖3是用于得出語音剩余信號的平滑能量輪廓的電路的簡化方框圖;圖4是顯示輸出幀類型指示到語音譯碼器的幀分類器的簡化方框圖;圖5顯示具有自適應(yīng)代碼本第一級和三進制脈沖編碼器第二級的二級編碼器;圖6是示例性窗口采樣圖;圖7是按照本發(fā)明的方法的邏輯流程圖;圖8是按照本發(fā)明的當前的優(yōu)選實施例的語音編碼器的方框圖;圖9是圖8所示的激勵編碼器和語音合成塊的方框圖;圖10是顯示圖8的編碼器的運行的簡化邏輯流程圖;圖11-13是顯示圖8的編碼器的運行的邏輯流程圖,具體地,分別用于話音幀,過渡幀,和非話音幀的激勵編碼器和語音合成塊;以及圖14是結(jié)合圖8和圖9所示的語音編碼器運行的語音編碼器的方框圖。
參照圖1,圖上顯示按照本發(fā)明的話音編碼方法和設(shè)備運行的擴頻無線電話60。對于其中可實施本發(fā)明的可變速率無線電話的說明,也參考1998年8月18日公布的、共同授權(quán)的美國專利No.5,796,757。美國專利No.5,796,757的揭示內(nèi)容作為整體在此引用。
應(yīng)當首先看到,無線電話60的某些塊可以用分立電路元件實施,或被實施為由適當?shù)臄?shù)字數(shù)據(jù)處理器,諸如高速信號處理器,執(zhí)行的軟件子程序。替換地,可以采用電路元件和軟件子程序的組合。因此,隨后的說明不打算將本發(fā)明的應(yīng)用限制在任何一個特定的技術(shù)實施例。
擴頻電話60可以按照TIA/EIA臨時標準,用于雙模寬帶擴頻蜂窩系統(tǒng)的移動臺-基站兼容性標準,TIA/EIA/IS-95(1993年7月),和/或按照這個標準的以后的改進和修訂本來運行。然而,與任何特定的標準或空中接口技術(shù)說明的兼容性并不認為是對本發(fā)明的實施的限制。
也應(yīng)當首先指出,本發(fā)明的教導(dǎo)并不限于使用于碼分多址(CDMA)技術(shù),或擴頻技術(shù),但也可在時分多址(TDMA)技術(shù)中,或某些其它多用戶接入技術(shù)中(或在單用戶接入技術(shù)中)被實施。
無線電話60包括天線62,用于接收來自蜂窩站點(可被稱為基站(未示出))的RF信號,和用于發(fā)送RF信號到基站。當運行在數(shù)字(擴頻或CDMA)模式時,RF信號被相位調(diào)制,以便傳送語音和信令信息。用于分別接收和發(fā)送相位調(diào)制信號的增益控制的接收機64和增益控制的發(fā)射機66被耦合到天線62。頻率綜合器68在控制器70的引導(dǎo)下把需要的頻率提供給接收機和發(fā)射機??刂破?0包括較慢速度微處理器控制單元(MCU),用于通過編碼譯碼器72接口到揚聲器72A和話筒72B,以及鍵盤和顯示器74。話筒72B通??杀徽J為輸入語音換能器,它的輸出被采樣和被數(shù)字化,以及按照本發(fā)明的一個實施例形成加到語音編碼器的輸入。
通常,MCU負責(zé)無線電話60的總的控制和運行??刂破?0優(yōu)選地包括較高速度的數(shù)字信號處理器(DSP),適合于實時處理接收的信號和發(fā)送的信號,以及包括語音譯碼器10(見圖14)用于按照本發(fā)明譯碼語音,和語音編碼器12,用于按照本發(fā)明編碼語音,它可被稱為語音處理器。
接收的RF信號在接收機中被變換成基帶,并被加到相位解調(diào)器76,它從該接收信號得出同相(I)和正交(Q)信號。I和Q信號由適當?shù)腁/D變換器被變換成數(shù)字代表,以及被加到多指(例如三個指F1-F3)解調(diào)器78,每個指包括一個偽隨機碼(PN)產(chǎn)生器。解調(diào)器78的輸出被加到組合器80,它通過去交織器和譯碼器81A以及速率確定單元81B把一個信號輸出到控制器70。被輸入到控制器70的數(shù)字信號表示接收的編碼語音樣本或信令信息。
加到發(fā)射機66的輸入,是按照本發(fā)明編碼的語音和/或信令信息,是從控制器70通過卷積編碼器,交織器,Walsh(沃爾什)調(diào)制器,PN調(diào)制器和IQ調(diào)制器(它們合一起被顯示為方塊82)而得出的。
在描述可被構(gòu)建成按照本發(fā)明編碼和譯碼語音的語音通信設(shè)備的一個適當?shù)膶嵤├?,現(xiàn)在參照圖2-13給出語音編碼器和相應(yīng)的譯碼器的當前的優(yōu)選實施例的詳細說明。
參照圖2,為了執(zhí)行對輸入語音的LP分析,以及為了把要被發(fā)送的數(shù)據(jù)打包成對于每個固定的幀的間隔的固定數(shù)目的比特,語音編碼器12具有固定的幀結(jié)構(gòu),在這里被稱為基本幀結(jié)構(gòu)。每個基本幀被劃分成M個相等(或幾乎相等)長度的子幀,在這里被稱為基本子幀。M的一個適當?shù)?但不是限制的)數(shù)值是3。
在傳統(tǒng)的AS編碼方案中,用于每個子幀的激勵信號通過搜索操作被選擇。然而,為了達到高的有效的、低比特速率的語音編碼,對于編碼每個子幀可提供的低數(shù)目的比特使得很困難或不可能得到激勵段的適當?shù)木_代表。
本發(fā)明人看到在激勵信號中重要的活動性是隨時間不均勻地分布的。而是,激勵信號有某些自然出現(xiàn)的間隔,它們包含大多數(shù)重要的活動性,在這里稱為活動性間隔,在活動性間隔以外,把激勵信號設(shè)置為零,幾乎很少或沒有丟失信息。發(fā)明人也發(fā)現(xiàn)通過檢驗線性預(yù)測剩余的平滑的能量輪廓來識別活動性間隔的位置的技術(shù)。因此,發(fā)明人確定人們可以找到活動性間隔的實際時間位置,在這里稱為窗口,以及人們可以把編碼工作集中在相應(yīng)于活動性間隔的窗口內(nèi)。這樣,可提供用于編碼激勵信號的有限的比特速率可被用來有效地代表激勵的重要的時間段或激勵的子間隔。
應(yīng)當指出,雖然在某些實施例中,可以希望所有的非零激勵幅度位于窗口內(nèi),但在其它實施例中,為了增強的靈活性,可以希望允許至少一個或幾個非零激勵幅度處在窗口以外。
子間隔不需要與幀或子幀速率同步,因此,希望調(diào)整每個窗口的位置(持續(xù)時間)適合于語音的本地特性。為了避免引入大量比特附加開銷用于規(guī)定窗口位置,發(fā)明人利用在激勵段窗口位置中存在的相關(guān)性,因此限制了可允許的窗口位置的范圍。已發(fā)現(xiàn)一種避免擴展比特用于規(guī)定窗口持續(xù)時間的適當?shù)姆椒ㄊ鞘沟么翱诔掷m(xù)時間取決于話音的語音的間距,以及對于非話音的語音保持窗口持續(xù)時間固定不變。項目將更詳細地描述本發(fā)明的這些方面。
由于每個窗口是要被編碼的重要的實體,希望每個基本子幀包含整數(shù)個窗。如果不是這種情況,則一個窗可能被分裂在兩個子幀之間,以及不能利用在窗口內(nèi)存在的相關(guān)性。所以,對于AbS搜索處理過程,希望自適應(yīng)地修正子幀尺寸(持續(xù)時間),以便確保在要被編碼的激勵段中存在整數(shù)個窗。
相應(yīng)于每個基本子幀,有一個搜索子幀與它有關(guān),它是相鄰的時刻集合,具有與基本幀的相偏離的起始點和結(jié)束點。仍舊參照圖2,因此,如果基本子幀從時間n1擴展到n2,相關(guān)的搜索子幀從時間n1+d1擴展到n2+d2,其中d1和d2具有數(shù)值零或某個小的正的或負的整數(shù)。d1和d2的大小被規(guī)定為總是小于一半的窗口尺寸,以及它們的數(shù)值被選擇為使得每個搜索子幀將包含整數(shù)個窗。
如果一個窗跨越在基本子幀邊界上,則子幀或者被縮短或者被伸長,以使得該窗被整體地包含在下一個基本子幀或當前的基本子幀中。如果窗的中心位于當前的基本子幀內(nèi),則子幀被伸長,以便子幀邊界與窗的結(jié)束點相一致。如果窗的中心位于當前的基本子幀以外,則窗被縮短,以便子幀邊界與窗的開始點相一致。下一個搜索子幀的開始點因此被修正為緊接在先前的搜索子幀的結(jié)束點之后。
對于每個基本幀,按照本發(fā)明的方法產(chǎn)生M個相鄰的搜索子幀,它們一起構(gòu)成在這里被稱為的搜索幀。搜索幀的結(jié)束點根據(jù)基本幀的結(jié)束點被修正,以使得它與相應(yīng)的基本幀有關(guān)的最后的搜索子幀的結(jié)束點相一致。被使用來規(guī)定用于整個搜索幀的激勵信號的比特,最終被打包成用于每個基本幀的數(shù)據(jù)分組。所以,到接收機的數(shù)據(jù)的傳輸符合大多數(shù)語音編碼系統(tǒng)的慣用的固定幀結(jié)構(gòu)。
發(fā)明人發(fā)現(xiàn)自適應(yīng)窗和自適應(yīng)搜索子幀的引入大大地改進AbS語音編碼的效率?,F(xiàn)在給出進一步的細節(jié),有助于了解本發(fā)明的語音編碼方法和設(shè)備。
首先將給出用于定位窗口的方法的討論。語音剩余信號的平滑能量輪廓被得出和被處理,以便識別能量峰值。參照圖3,剩余信號是通過線性預(yù)測(LP)加白濾波器14濾波語音而形成的,其中線性預(yù)測參量被定期地更新,以便跟蹤語音統(tǒng)計特性的改變。剩余信號能量函數(shù)是通過區(qū)剩余樣本信號的非負函數(shù),諸如平方值或絕對值,而形成的。例如,剩余信號能量函數(shù)在平方塊16中被形成。方法然后通過線性或非線性平滑運算,諸如低通濾波運算或中值平滑運算,來平滑信號。例如,在平方塊16中形成的剩余信號能量函數(shù)在低通濾波器18中受到低通濾波,得出平滑的能量輪廓。
本優(yōu)選的方法使用在方塊20中實行的三點滑動窗平均運算。平滑剩余輪廓的能量峰值(P)通過使用自適應(yīng)能量門限值被定位。對于定位已知窗的合理的選擇是,把它的中心放置在平滑能量輪廓的峰值處。這個位置然后規(guī)定一個間隔,其中最重要的是對具有非零脈沖幅度的激勵建立模型,即規(guī)定上述的活動間隔的中心。
在描述用于定位窗口的優(yōu)選的方法后,現(xiàn)在將討論用于分類幀的方法以及用于找出窗口中的激勵信號的類別有關(guān)的方法。
對于編碼在各個窗口內(nèi)的激勵所需要的比特的數(shù)目是重要的。因為在給定的搜索子幀中可以出現(xiàn)多個窗口,如果每個窗口被獨立地編碼,則將需要對于每個搜索子幀的過量的比特的數(shù)目。幸運地,發(fā)明人確定,對于周期性語音段在同一個子幀中不同的窗口之間有很大的相關(guān)性。取決于語音的周期性或非周期性特性,可以采用不同的編碼策略。為了在編碼對于每個搜索子幀的激勵信號時利用盡可能多的冗余度,所以希望把基本幀分類為類別。編碼方法然后可對于每個類別被定做和/或被選擇。
在話音語音中,平滑的剩余能量輪廓的峰值通常以間距周期間隔出現(xiàn),以及相應(yīng)于間距脈沖。在本上下文中,“間距”是指在話音的語音段中周期性的基頻,以及“間距周期”是指該周期性的基本周期。在語音信號的模型過渡區(qū),它在這里是指不穩(wěn)定區(qū)域,波形沒有具有周期性或平穩(wěn)隨機的字符,以及通常它包含一個或多個孤立的能量突發(fā)(如在破裂音中)。對于周期性語音,窗口的持續(xù)時間或?qū)挾瓤杀贿x擇為間距周期的某種函數(shù)。例如,窗口持續(xù)時間可被做成間距周期的固定的分數(shù)。
在本發(fā)明的一個實施例中,如下面描述的,用于每個基本幀的四類分類法提供滿意的解決方案。在這個第一實施例中,基本幀被分類為強周期的,弱周期的,不穩(wěn)定的,或非話音的幀。然而,正如下面參照另一個實施例描述的,可以使用三類分類法,其中基本幀被分類為話音的、過渡的、或非話音的幀之一。使用兩種分類(例如,話音的和非話音的)以及四種以上的類別,也屬于本發(fā)明的范圍內(nèi)。
在本優(yōu)選實施例中,采樣速率是每秒8000樣本(8ks/s),基本幀的尺寸是160個樣本,子幀的數(shù)目是M=3,以及三個基本子幀的尺寸是53個樣本,53個樣本,和54個樣本。每個基本幀被分類為以下四個類別之一強周期的,弱周期的,不穩(wěn)定的,以及非話音的。
參照圖4,幀分類器22把每個基本幀兩個比特發(fā)送到接收機的語音譯碼器10(見圖14),以便標識類別(00,01,10,11)。下面描述四個基本幀類別的每個類別,連同它們各自的編碼方案。然而,正如上面提到的,應(yīng)當指出,帶有不同數(shù)目的類別的替換的分類方案在模型情形和應(yīng)用項中甚至是更有效的,很有可能進一步優(yōu)化編碼策略。這樣,以下對當前的優(yōu)選的分類和編碼策略的說明,不應(yīng)當在對本發(fā)明的實踐的限制的意義上進行閱讀。
強周期性幀這個第一類別包含在字符上具有高的周期性的語音的基本幀。搜索幀中的第一窗口與間距脈沖有關(guān)。因此,人們可合理地假定,接連的窗大約位于接連的間距周期間隔。
第一窗在話音語音的每個基本幀中的位置被發(fā)送到譯碼器10。在搜索幀內(nèi)隨后的窗被放置在離第一窗的接連的間距周期間隔。如果間距周期在基本幀內(nèi)變化,則每個基本子幀的、計算的或內(nèi)插的間距值被使用來定位在相應(yīng)的搜索子幀中接連的窗。當間距周期小于32個樣本時,使用16個樣本的窗口尺寸,以及當間距周期等于或大于32個樣本時,使用24個樣本的窗口尺寸。在接連的周期幀序列的第一幀中窗的開始點使用四個比特被規(guī)定。在同一個搜索幀內(nèi)隨后的窗在先前的窗的開始以后一個間距周期處開始。在每個隨后的話音搜索幀中的第一窗位于通過把一個間距周期加到先前的窗的開始點而預(yù)測的開始點的相鄰處。然后,搜索處理過程確定精確的開始點。例如,兩個比特被使用來規(guī)定開始點與預(yù)測值的偏差。這個偏差可以稱為“抖動”。
應(yīng)當指出,對于各個代表所使用的特定的數(shù)目的比特是隨應(yīng)用項特定的,以及可以很大地變化。例如,本發(fā)明的教導(dǎo)肯定不限于當前優(yōu)選地使用四個比特,用來規(guī)定第一幀中的窗的開始點,或使用兩個比特,用來規(guī)定開始點與預(yù)測值的偏差。
參照圖5,兩級AbS編碼技術(shù)被使用于每個搜索子幀。第一級24是基于“自適應(yīng)代碼本”技術(shù),其中激勵信號的過去的段被選擇為對子幀中激勵信號的第一近似。第二級26是基于三進制脈沖編碼方法。參照圖6,對于尺寸為24個樣本的窗,三進制脈沖編碼器26識別三個非零脈沖,從樣本位置0,3,6,9,12,15,18,21中一個;第二脈沖位置從1,4,7,10,13,16,19,22中進行選擇;以及第三脈沖從2,5,8,11,14,17,20,23中選擇。因此,對于規(guī)定三個脈沖位置的每個位置需要三個比特,以及對于每個脈沖的極性需要一個比特。類似的方法被使用于尺寸為16的窗。重復(fù)進行與在搜索子幀的第一窗中相同的脈沖圖案,代表在同一個搜索子幀中以后的窗。所以,對于這些以后的窗不需要附加比特。
弱周期性幀這個第二類別包含呈現(xiàn)一定程度的周期性、但缺乏第一類別的強的規(guī)則的周期性字符的語音的基本幀。因此,人們不能假定接連的窗位于接連的間距周期間隔。
在話音語音的每個基本幀中每個窗的位置由能量輪廓峰值確定,以及被發(fā)送到譯碼器。如果通過對于每個候選位置執(zhí)行AbS搜索處理過程而找出該位置,可以得出改進的性能,但這個技術(shù)導(dǎo)致較高的復(fù)雜性。對于每個搜索子幀僅僅一個窗,使用24個樣本的、固定的窗尺寸。三個比特被使用來通過使用量化的時間柵格規(guī)定每個窗的開始點,即,允許窗的開始點出現(xiàn)在8個樣本的倍數(shù)。實際上,窗位置被“量化”,由此減小時間分辨率,連同比特速率上相應(yīng)的減小。
正如第一分類那樣,使用兩級分析-合成編碼方法。再次參照圖5,第一級24是基于自適應(yīng)代碼本方法以及第二級26是基于三進制脈沖編碼方法。
不穩(wěn)定的幀這個第三類別包含其中語音既不是周期的也不是隨機的基本幀,其中剩余信號包含一個或多個不同的能量峰值。對于不穩(wěn)定的語音幀的激勵信號是通過識別相應(yīng)于平滑的能量輪廓的峰值的位置的、每個子幀的窗內(nèi)的一個激勵,來代表的。在這種情形下,每個窗的位置被發(fā)送。
在話音的語音的每個基本幀中每個窗的位置由能量輪廓峰值確定,以及被發(fā)送到譯碼器10。正如弱周期性情形那樣,如果通過對于每個候選位置執(zhí)行AbS搜索處理過程而找出其位置,則可得到改進的性能,但是以較高的復(fù)雜性為代價。優(yōu)選地使用32個樣本的固定的窗尺寸以及每個搜索子幀僅僅一個窗。另外,正如弱周期性情形那樣,通過采用量化的時間柵格規(guī)定每個窗的開始點,即,允許窗的開始點出現(xiàn)在8個樣本的倍數(shù),由此減小時間分辨率,以便減小比特速率。
單個AbS編碼級被使用,因為自適應(yīng)代碼本對于這種類別不總是有用的。
非話音的幀這個第四類別包含不是周期性的、和其中語音在字符上呈現(xiàn)為像隨機那樣的基本幀,而沒有強的孤立的能量峰值。激勵是通過使用對于每個基本幀的稀疏的激勵矢量隨機代碼本按傳統(tǒng)的方式被編碼的。
由于所需要的激勵信號的隨機字符,所以不需要窗口。搜索幀與子幀總是分布與基本幀和子幀相一致。單個AbS編碼級可被使用于包含被隨機放置的三進制脈沖的固定代碼本。
如前所述,以上的說明不應(yīng)當認為是用來限制本發(fā)明的教導(dǎo)和實踐。例如,如上所述,對于每個窗,脈沖位置和極性用三進制脈沖編碼法被編碼,以使得對于三個脈沖和尺寸為12的窗,需要12個比特。一個替換的實施例,被稱為窗口脈沖的矢量量化,利用預(yù)先設(shè)計的脈沖圖案的代碼本,以使得,每個代碼本項目代表一個特定的窗口脈沖序列。這樣,有可能使得窗口包含三個以上的非零脈沖,然后,需要具有256項目的代碼本。代碼本優(yōu)選地表示窗口圖案,它們是在非常大量的、所有可能的脈沖組合中在統(tǒng)計上最有用的代表。相同的技術(shù)當然可被加到其它尺寸的窗。更具體地,最有用的脈沖圖案的選擇是通過計算感覺上加權(quán)的費用函數(shù);即與每個圖案有關(guān)的失真度量,以及選擇具有最高的費用的圖案或相應(yīng)地最低的失真,而完成的。
在強周期性的類別中,或在三種類別的系統(tǒng)的周期的類別中(下面描述),如上所述,在每個話音的搜索幀中第一窗口位于通過把一個間距周期加到先前的窗的開始點而預(yù)測的開始點的相鄰處。然后,搜索處理過程確定精確的開始點。四個比特被利用來規(guī)定開始點與預(yù)測值的偏差(稱為“抖動”)。其窗口位置被這樣確定的幀可被稱為“抖動的幀”。
已發(fā)現(xiàn),由于出現(xiàn)啟動,或先前的幀的間距的主要改變,對于抖動的正常比特分配有時是不適合的。為了更大地控制窗口位置,可以作為替換例引入具有“復(fù)位幀”的任選項,其中更大的比特分配被用來規(guī)定窗口位置。對于每個周期幀,執(zhí)行分開的搜索,用于規(guī)定窗口位置的兩個任選項的每個任選項,以及判決處理過程比較兩種情形下的剩余能量圖案的峰值,以便選擇處理該幀作為抖動幀還是作為復(fù)位幀。如果選擇復(fù)位幀,則稱為出現(xiàn)“復(fù)位條件”,以及大的數(shù)目的比特被使用來更精確地規(guī)定所需要的窗口位置。
對于音調(diào)值或窗口位置的某些組合,有可能子幀完全不包含窗。然而,對于這樣的子幀不采用具有全零的固定的激勵,發(fā)現(xiàn)分配比特得出用于子幀的激勵信號,即使沒有窗,也是有幫助的。這可被認為與把激勵限制在窗口內(nèi)的通用原理的偏差。兩種脈沖方法只搜索在子幀中的偶數(shù)樣本位置,找出一個脈沖的最好位置,以及搜索奇數(shù)樣本位置,找出第二個脈沖的最好位置。
按照本發(fā)明再一個方面的另一個方法使用自適應(yīng)代碼本(ACB)引導(dǎo)的窗口,其中額外的窗口被包括在其它的無窗口的子幀中。
在ACB-引導(dǎo)的窗口方法中,編碼器檢驗用于當前的無窗口子幀的自適應(yīng)代碼本(ACB)信號段。這是從早一個間距周期的復(fù)合激勵中取的一個子幀的持續(xù)時間段。這個段的峰值被找出和被選擇為當前的子幀的特定的窗口的中心。不需要比特來識別這個窗口的位置。在這個窗口中的脈沖激勵然后按照對于不是無窗口的子幀的有用的程序被找出。與用于任何其它“正常的”子幀相同數(shù)目的比特可被使用于這個子幀,除非不需要比特來編碼窗口位置。
現(xiàn)在參照圖7,圖上給出按照本發(fā)明的方法的邏輯流程圖。在步驟A,方法計算LP剩余信號的能量圖案。在步驟B,方法設(shè)置窗口長度等于24(對于間距周期≥32);以及設(shè)置為等于16(對于間距周期<32)。在步驟B后,可以執(zhí)行步驟C和步驟D。在步驟C,方法使用先前的幀窗口和間距來計算窗口位置,以及計算窗內(nèi)的能量E,找出最大值Ep,它給出最好的抖動。在步驟D,方法找出窗口位置,它對于復(fù)位幀情形獲取LP剩余信號的最大的能量Em。
如上所述,抖動是窗口位置相對于由先前的幀給出的位置的漂移加上間距間隔。在同一個幀中的窗口之間的距離對于間距間隔。對于復(fù)位幀,第一窗口的位置被發(fā)送,以及幀中所有其它的窗口被考慮為離先前的窗口的距離等于間距間隔。
對于不穩(wěn)定的幀和弱周期幀,每個子幀有一個窗口,窗口位置由能量峰值確定。對于每個窗口,窗口位置被發(fā)送。對于周期(話音)幀,只有第一窗口的位置被發(fā)送(相對于先前的幀,用于“抖動的”幀,以及絕對地用于復(fù)位幀)。在給定第一窗口位置后,其余的窗口按間距間隔進行放置。
參照圖7,在步驟E,方法把Ep和Em進行比較,如果Em>>Ep,聲稱是一個復(fù)位幀,否則,方法使用抖動幀。在步驟F,方法確定搜索幀和搜索子幀,以使得每個子幀具有整數(shù)個窗。在步驟G,方法搜索窗內(nèi)的最佳激勵。在窗外面,激勵被設(shè)置為零。在同一個子幀中的兩個窗被限制為具有同一個激勵。最后,在步驟H,方法把窗位置、間距,和每個子幀的激勵矢量的索引號發(fā)送到譯碼器10,它使用這些數(shù)值重新構(gòu)建原先的語音信號。
應(yīng)當看到,圖7的邏輯流程圖也可被看作為按照本發(fā)明的教導(dǎo)的、用于編碼語音的電路的方框圖。
現(xiàn)在討論上面概略地提到的那種三類別分類的實施例。在這個實施例中,基本幀被分類為話音的、過渡的(不穩(wěn)定的)、或非話音的。現(xiàn)在結(jié)合圖8-10給出對這個實施例的詳細討論。本領(lǐng)域技術(shù)人員將會注意到所涉及的內(nèi)容與前面描述的基本幀分類實施例的四種類型有某些重疊。
通常,在非話音幀中,固定代碼本包含一組隨機矢量。每個隨機矢量是一段三進制(-1,0,或+1)數(shù)的偽隨機序列。幀被劃分成四個子幀,以及在每個子幀中使用AbS確定最佳隨機矢量和相應(yīng)的增益。在非話音幀中,自適應(yīng)代碼本的貢獻被忽略。固定代碼本貢獻代表該幀中的總的激勵。
為了得到有效的激勵代表,以及按照前面描述的、本發(fā)明的一個方面,話音幀中固定代碼本貢獻在該幀內(nèi)的選擇的間隔(窗口)以外被限制為零。在話音幀中兩個接連的窗之間的間隔被限制為對于一個間距周期。窗口的位置和尺寸被選擇為使得它們聯(lián)合代表理想的固定代碼本貢獻的最關(guān)鍵段。這個技術(shù)把編碼器的注意力集中在感覺上重要的語音信號段,確保有效的編碼。
話音幀典型地被劃分成三個子幀,在另一個實施例中,發(fā)現(xiàn)每幀兩個子幀是可行的實施方案。幀和子幀的長度可以變化(在控制的方式下)。用于確定這些長度的程序確保窗口決不跨在兩個相鄰的子幀上。
窗口內(nèi)的激勵信號通過使用矢量代碼本被編碼,該矢量的分量是三進制數(shù)值。對于更高的編碼效率,位于同一個子幀內(nèi)的多個窗被限制為具有相同的固定代碼本貢獻(即使在時間上平移)。在每個子幀中通過使用AbS來確定最好的代碼矢量和相應(yīng)的增益。也使用通過CELP型方法從過去編碼的激勵導(dǎo)出的自適應(yīng)激勵。
在過渡類別的幀中固定代碼本激勵的編碼方案也是基于具有窗的系統(tǒng)。允許有六個窗,每個子幀中兩個。這些窗可被放置在子幀中任何地方,可能互相重疊,以及不需要相隔一個間距周期。然而,在一個子幀中的窗不可以與另一個子幀中的窗重疊。幀和子幀的長度像話音幀中一樣是可以調(diào)節(jié)的,以及AbS被使用來確定在每個子幀中的最佳固定代碼本(FCB)矢量和增益。然而,不像話音幀中的程序,它不使用自適應(yīng)激勵。
關(guān)于幀的分類,當前有效的語音編碼模型采用兩級分類器,來確定幀的類別(即,話音的、非話音的或過渡的)。分類器的第一階段確定當前的幀是否非話音的。第一階段的判決被送到通過特性組的分析,這些特性是從修正的剩余信號中提取的。如果分類器的第一階段聲稱該幀為“不是非話音的”,則第二階段在“閉環(huán)”中進行,即,該幀按照用于過渡的和話音幀的編碼方案被處理,以及選擇導(dǎo)致較低的加權(quán)的平均平方誤差的類別。
圖8是實施上述工作原理的語音編碼模型12的高級別的方框圖。
輸入的采樣語音在方塊30中被高通濾波。在優(yōu)選實施例中使用由三個雙二次(bi-quadratic)濾波段實施的巴特沃斯(Butterworth)濾波器,雖然也可以采用其它類型的濾波器或多個濾波器段。濾波器截止頻率是80Hz,濾波器30的轉(zhuǎn)移函數(shù)是Hkpl(Z)=Πj=13Hj(Z)1]]>其中每個部分Hj(z)被給出為Hj(Z)=αj0+αj1z-1+αj2z-2bj0+bj1z-1+bj2z-2.2]]>高通濾波的語音被分成非重疊的“幀”,每個160樣本。
對于每個幀m,在模型參量估算和倒相濾波單元32中考慮320樣本的“塊”(來自幀“m-1”的后80個樣本,來自幀“m”的160個樣本,和來自幀“m+1”的頭80個樣本,)。在本發(fā)明的當前的優(yōu)選實施例中,樣本塊是通過使用在描述增強的可變速率編碼器(EVRC)語音編碼算法的TIA/EIA/IS-127文件的4.2節(jié)(模型參量估值)中描述的程序進行分析的,得出以下的參量對于當前的幀的未量化的線性預(yù)測系數(shù),(a);當前的幀的未量化的LSP,Ω(m);LPC預(yù)測增益,γlpc(m);預(yù)測剩余,ε(n),n=0,...319相應(yīng)于在當前決中的樣本;間距延時估值,τ;當前決的兩半部分中長期預(yù)測增益,β,β1;和帶寬擴展相關(guān)系數(shù),Rw。
靜默檢測塊36做成關(guān)于在當前幀中存在或不存在語音的二進制判決。判決進行過程如下(A)利用在TIA/EIA/IS-127EVRC文件的4.3節(jié)(確定數(shù)據(jù)速率)中的“速率確定算法”。加到這個算法的輸入是在先前步驟中計算的模型參量,以及輸出是速率變量,Rate(m),它可以取1,3或4的數(shù)值,取決于當前幀中話音活動性。
(B)如果Rate(m)=1,則當前幀被聲稱為靜默幀。如果不是(即,如果Rate(m)=3或4),則當前幀被聲稱為活動幀。
應(yīng)當指出,本發(fā)明的實施例使用EVRC的速率變量僅僅為了檢測靜默。也就是,Rate(m)并不像傳統(tǒng)的EVRC那樣確定編碼器12的比特速率。
通過以下的步驟內(nèi)插該幀延時,在延時輪廓估值單元40中對于當前幀計算延時輪廓。
(A)通過使用在TIA/EIA/IS-127文件的4.5.4.5節(jié)(內(nèi)插延時估值計算)中的內(nèi)插公式,對于每個子幀計算三個內(nèi)插的延時估值,d(m’,j),j=0,1,2。
(B)然后通過使用在TIA/EIA/IS-127文件的4.5.4.1節(jié)(延時輪廓計算)中的公式,對于當前幀中三個子幀的每個子幀計算延時輪廓,Tc(n)。
在剩余修正單元38中,按照RCELP剩余修正算法被修正。修正的目的是確保修正的剩余顯示在相隔一個間距周期的樣本之間的強的相關(guān)性。修正處理過程的適當?shù)牟襟E列在TIA/EIA/IS-127文件的4.5.6節(jié)(剩余的修正)中。
本領(lǐng)域技術(shù)人員將會看到,在標準EVRC中,子幀中剩余修正后面跟隨在該子幀中激勵的編碼。然而,在本發(fā)明的話音編碼中,對于整個當前幀(所有三個子幀)的剩余的修正是在編碼該幀中的激勵信號之前執(zhí)行的。
應(yīng)當再次指出,在當前的優(yōu)選實施例方面,參考了RCELP,以及任何CELP型技術(shù)可以代替RCELP技術(shù)而被利用。
開環(huán)分類器單元34代表在分類器的兩級中的第一級,它確定每幀中的語音的性質(zhì)(話音的。非話音的或過渡)。幀m中分類器的輸出是OCL(m),它的數(shù)值可以是UNVOICED(非話音的)或NOT UNVOICED(不是非話音的)。這個判決是通過分析一個320個樣本的被高通濾波的語音的塊而作出的。這個塊x(k),k=0,1...319是在幀“m”中得出的,正如在模型參量估值中,來自幀“m-1”的后80個樣本,來自幀“m”的160個樣本,和來自幀“m+1”的頭80個樣本。接著,該塊被劃分成四個等長度的子幀(每個80個樣本)j=0,1,2,3。然后從每個子幀j中的樣本計算四個參量能量E(j),峰值Pe(j),零交叉率ZCR(j),和長期預(yù)測增益TPG(j)。這些參量接著被使用來得出一組分類判決,每個子幀一個判決。然后組合子幀級別分類器判決,以便產(chǎn)生幀級別判決,作為開環(huán)分類器單元34的輸出。
關(guān)于子幀參量的計算方面,給出以下公式。
能量該子幀能量被規(guī)定為E(j)=10log10(Σk=10j80j+79x(k)2)3]]>j=0,1,2,3.
峰值子幀中該信號的峰值被規(guī)定為Pe(j)=(Σk=80j80j+79x(k)2)0.5Σk=80j80j+79|x(k)|4]]>零交叉率通過以下步驟對于每個子幀計算零交叉率在每個子幀j中計算樣本的平均值A(chǔ)v(j)Av(j)=180Σk=80j80j+79x(k)5]]>從子幀的所有的樣本中減去平均值y(k)=x(k)-Av(j)k=80j...80j+79該子幀的零交叉率被規(guī)定為ZCR(j)=179Σk=80j80j+78δ(y(k)*y(k+1)<0)6]]>其中如果Q是真實,則δ(Q)=1,如果Q是虛假,則δ(Q)=0。
長期預(yù)測增益從在模型參量估值處理過程中得出的數(shù)值β和β1,計算長期預(yù)測增益(LTPG)LTPG(0)=LTPG(3)(LTPG(3)在這里是在先前的幀中分配的數(shù)值)LTPG(1)=(β1+LTPG(0))/2LTPG(2)=(β1+β)/2LTPG(3)=β子幀級別分類以上計算的四個子幀參量然后被利用來對當前塊中每個子幀j作出分類判決。對于子幀j,計算分類變量CLASS(j),其數(shù)值可以是UNVOICED或NOT UNVOICED。CLASS(j)的數(shù)值是通過執(zhí)行下面詳細描述的步驟序列而得出的。在以下的步驟中,數(shù)量“話音能量”Vo(j),“靜默能量”Si(j)和“差值能量”Di(j)=Vo(j)-Si(j)代表話音子幀,靜默子幀的平均能量的編碼器的估值,以及這兩個數(shù)量之間的差值。這些能量估值通過使用下面描述的程序在每個幀的結(jié)尾時被更新。
程序<pre listing-type="program-listing"><![CDATA[IfE(j)<30,CLASS(j)=UNVOICEDElse if the E(j)<0.4*Vo(m)if E|(j-1mod3)-E(j)|<25,CLASS(j)=UNVOICED Else CLASS(j)=NOT UNVOICEDElse if ZCR(j)<0.2 if E(j)<Si(m)+0.3*Di(m)AND Pe(j)<2.2 AND|E(j-1mod3)-E(j)|<20,CLASS(j)=UNVOICEDElse if LTPG(j)<0.3 AND Pe(j)<1.3 AND E(j)<Si(m)+0.5*Di(m)CLASS(j)=UNVOICED; Else CLASS(j)=NOT UNVOICEDElse if ZCR(j)<0.5if E(j)<Si(m)+0.3*Di(m)AND Pe(j)<2.2 AND|E(j-1mod3)-E(j)|<20 CLASS(j)=UNVOICEDElse if LTPG(j)>0.6 OR Pe(j)>1.4 CLASS(j)=NOT UNVOICEDElse if LTPG(j)<0.4 AND Pe(j)<1.3 AND E(j)<Si(mj)+0.6*Di(m)CLASS(j)=UNVOICED Else if ZCR(j)>0.4 AND LTPG(j)<0.4 CLASS(j)=UNVOICED Else if ZCR(j)>0.3 AND LTPG(j)<0.3 AND Pe(j)<1.3CLASS(j)=UNVOICEDElse CLASS(j)=UNVOICEDElse if ZCR(j)<0.7If E(j)<Si(m)+0.3*Di(m)AND Pe(j)<2.2 AND|E(j-1mod3)-E(j)|<20 CLASS(j)=UNVOICEDElse if LTPG(j)>0.7 CLASS(j)=NOT UNVOICED Else if LTPG(j)<0.3 AND Pe(j)>1.5 CLASS(j)= NOT UNVOICED Else if LTPG(j)<0.3 AND Pe(j)>1.5 CLASS(j)=UNVOICEDElse if LTPG(j)>0.5If Pe(j)>1.4 CLASS(j)=NOT UNVOICEDElse if E(j)>Si(m)+0.7Di(m),CLASS(j)=UNVOICEDElse CLASS(j)=UNVOICEDElse if Pe(j)>1.4 CLASS(j)=NOT UNVOICEDElse CLASS(j)=UNVOICEDElseIf Pe(j)>1.7 OR LTPG(j)>0.85 CLASS(j)=NOT UNVOICEDElse CLASS(j)=UNVOICED]]></pre>幀級別分類然后,對于每個子幀所得到的類別判決被使用來作出對于整個幀的類別判決OLC(m)。這個判決如下地進行程序<pre listing-type="program-listing"><![CDATA[If CLASS(0)=CLASS(2)=UNVOICED AND CLASS(1)=NOT UNVOICEDIf E(1)<Si(m)+0.6Di(m)AND Pe(1)<1.5AND|E(1)-E(0)|<10AND|E(1)-E(2)|<10AND ZCR(1)>0.4OLC(m)=UNVOICEDElse OLC(m)=NOT UNVOICEDElse if CLASS(0)=CLASS(1)=UNVOICED AND CLASS(2)= NOT UNVOICEDIf E(2)<Si(m)+0.6Di(m)AND Pe(2)<1.5 AND|E(2)-E(1)| <10 AND ZCR(2)>0.4 OLC(M)=UNVOICED Else OLC(m)=NOT UNVOICED.Else if CLASS(0)=CLASS(1)=CLASS(2)=UNVOICED OLC(m)= UNVOICED.Else if CLASS(0)=UNVOICED,CLASS(1)=CLASS(2)=NOT UNVOICED,OLC(m)=NOT UNVOICEDElse if CLASS(0)=NOT UNVOICED,CLASS(1)=CLASS(2)=UNVOICED OLC(m)=UNVOICEDElse OLC(m)=NOT UNVOICED.]]></pre>話音能量、靜默能量和差值能量的更新如果當前幀是第三接連的話音幀,則話音能量被如下地更新。
程序<pre listing-type="program-listing"><![CDATA[If OLC(m)=OLC(m-1)=OLC(m-2)=VOICED,THENVo(M)=10log10(O.94*100.1Vo(m)+0.06*100.1E(0))Vo(m)=MAX(Vo(m),E(1),E(2))Else Vo(m)=Vo(m-1)(No update of Voice Energy)]]></pre>如果當前幀被聲稱為靜默幀,則靜默能量被更新。
程序<pre listing-type="program-listing"><![CDATA[If SILENCE(m)=TRUE,Si(M)=[e(0)+(1)]/2.0]]></pre>差值能量被如下地更新。
程序<pre listing-type="program-listing"><![CDATA[Di(m)=Vo(m)-Si(m)If Di(m)<10.0Di(m)=10,Vo(m)=Si(m)+10]]></pre>
圖8的激勵編碼和語音合成塊42按圖9所示地被組織。首先,開環(huán)分類器34的判決被使用來把每個幀中的修正的剩余引導(dǎo)到適用于該幀的編碼器。如果OLC(m)=UNVOICED,則非話音編碼器42a被利用。如果OLC(m)=NOT UNVOICED,則過渡編碼器42b和話音編碼器42c被引用,以及閉環(huán)分類器42d作出判決CLC(m),它的數(shù)值可以是TRANSITION(過渡)或VOICED(話音的)。閉環(huán)分類器42d的判決取決于通過使用過渡和話音編碼器42b和42c由語音的合成引起的加權(quán)的誤差。閉環(huán)分類器42d選擇兩種編碼方案中的一種方案(過渡或話音的),以及所選擇的方案被使用來產(chǎn)生合成的語音。每種編碼系統(tǒng)42a-42c和閉環(huán)分類器42d的運行在下面詳細地描述。
首先參照圖9的話音編碼器42c,首先指出,編碼處理過程被概述為以下的一系列步驟,其中每個步驟在下面更詳細地描述,以及如圖11所示。
(A)確定窗邊界(B)確定搜索子幀邊界(C)確定每個子幀中FCB矢量和增益(A)對于話音幀的窗邊界的確定輸入先前的搜索幀的結(jié)束點;在先前的搜索幀中最后的“信號出現(xiàn)時間(epoch)”的位置;“信號出現(xiàn)時間”代表在當前幀中重要的活動性的窗的中心;以及對于樣本索引號從-16到175(相對于當前基本幀的開始點)的修正的剩余。
輸出當前幀中窗的位置。
程序一組以“信號出現(xiàn)時間(epochs)”為中心的窗在話音幀中通過使用在圖10的流程圖上描述的程序被識別,圖10的流程圖在某些方面類似于圖7的流程圖。在話音幀中,修正剩余中的強活動性的間隔通常以周期性方式重現(xiàn)的。當前的優(yōu)選的話音編碼器12通過強制話音幀中的“信號出現(xiàn)時間”必須互相隔開一個間距周期的約束條件,而利用這個性質(zhì)。為了允許設(shè)置“信號出現(xiàn)時間”時的某些靈活性,許可有“抖動”,即,在當前搜索幀的第一信號出現(xiàn)時間與在先前幀的最后的信號出現(xiàn)時間之間的距離可被選擇為間距-8與間距+7之間。抖動的數(shù)值(在-8與+7之間的整數(shù))被發(fā)送到接收機中的譯碼器(應(yīng)當指出,可以使用量化的數(shù)值,諸如通過把抖動限制為偶數(shù)而得出的數(shù)值)。
然而,在某些話音幀中,即使使用抖動的窗也不允許足夠的靈活性來獲得所有重要信號的活動性。在那些情形下,如果“復(fù)位”條件是允許的,該幀被稱為VOICED RESET(話音復(fù)位)幀。在話音復(fù)位幀中,當前幀中的“信號出現(xiàn)時間”互相相隔一個間距周期,但第一“信號出現(xiàn)時間”可以被放置在當前幀中的任何位置。如果話音幀不是復(fù)位幀,則該幀被稱為非復(fù)位話音幀或抖動話音幀。
現(xiàn)在將更詳細地描述圖10的流程圖的各個方塊。
(方塊A)窗長度和能量圖案的確定根據(jù)當前幀中間距周期選擇話音幀中使用的窗的長度。首先,間距周期被規(guī)定為在傳統(tǒng)的EVRC中對于每個子幀所作出的。如果在當前幀的所有子幀中間距周期的最大值大于32,則選擇窗長度為24,如果不是的話,窗長度被設(shè)置為16。
將窗口如下地規(guī)定為圍繞每個信號出現(xiàn)時間(epoch)。如果信號出現(xiàn)時間位于位置e處,則相應(yīng)的、長度為L的窗從樣本索引號e-L/2延伸到樣本索引號e+L/2。
然后將“試探的搜索幀”規(guī)定為從當前搜索幀的起始點開始到當前基本幀的結(jié)尾的樣本組。另外,“信號出現(xiàn)時間搜索幀”被規(guī)定為在搜索幀起始點以后的L/2樣本開始,以及在當前基本幀的結(jié)尾處結(jié)束(L是當前幀中的窗長度)。在試探搜索幀中修正的剩余信號的樣本被規(guī)定為e(n),n=0,...N-1,其中N是試探搜索幀的長度。在試探搜索幀中每個樣本的間距值被規(guī)定為該樣本位于的子幀的間距值,以及被規(guī)定為pitch(n),n=0,...N-1。
兩個“能量圖案”的組在該試探搜索幀中每個樣本位置處被計算。第一個、局部能量圖案,LE_Profile,被規(guī)定為修正的剩余能量的局部平均值
LE_Profile(n)=[e(n-1)2+e(n)2+e(n+1)2]/3.
第二個、音調(diào)濾波的能量圖案,PFE_Profile,被規(guī)定為如下如果n+pitch(n)<N(作為在當前樣本位于試探搜索幀內(nèi)后的間距周期的樣本)<pre listing-type="program-listing"><![CDATA[PFE_Proile(n)=0.5*[LE_Profile(n)+ LE_Profile(n+pitch(n))]Else PFE_Profile(n)=LE_Profile(n+)]]></pre>(方處B)最好的抖動的信號出現(xiàn)時間的確定確定抖動(在-8與7之間)的最好的數(shù)值以估算將當前幀表示為JITTERED VOICED(抖動話音的)幀的有效性。
對于每個候選的抖動值,j1.被規(guī)定為由該候選的抖動值的選擇引起的信號出現(xiàn)時間的集合的軌跡通過下面的遞歸來確定初始化epoch
=LastEpoch+j+pitch[subframe
]只要epoch[n]處在信號出現(xiàn)時間搜索范圍中,就對于n=1,2...重復(fù)進行,epoch[n]=epoch[n-1]+Pitch(epoch[n-1]])2.然后計算該軌跡峰值的位置和幅度,即在該軌跡上具有本地能量圖案的最大值的信號出現(xiàn)時間。
最佳抖動值,j*,被規(guī)定為具有最大軌跡峰值的候選的抖動。以下的數(shù)量以后被使用于進行復(fù)位判決J_TRACK_MAX_AMP,相應(yīng)于最佳抖動的軌跡峰值的幅度,J_TRACK_MAX_POS,相應(yīng)于最佳抖動的軌跡峰值的位置。
(方塊C)最好的復(fù)位信號出現(xiàn)時間的確定確定用于把信號出現(xiàn)時間復(fù)位到的最好的位置,reset_epoch,以便估算將當前幀表示為RESET VOICED(復(fù)位話音的)幀的有效性。該確定如下地進行。
reset_epoch的數(shù)值被初始化為信號出現(xiàn)時間搜索范圍中局部能量圖案LE_Profile(n)的最大值的位置。
規(guī)定初始的“復(fù)位軌跡”,它是從reset_epoch開始的、周期地放置的信號出現(xiàn)時間位置序列。軌跡是通過遞歸得出的。
初始化epoch
=reset_epoch只要epoch[n]處在信號出現(xiàn)時間搜索范圍中,就對于n=1,2...重復(fù)進行,epoch[n]=epoch[n-1]+Pitch(epoch[n-1]])reset_epoch的數(shù)值如下地重現(xiàn)計算。在信號出現(xiàn)時間搜索范圍中的所有樣本索引號k中間,選擇滿足以下條件(a)-(e)的、最早的(k的最小值)樣本(a)樣本k處在復(fù)位軌跡上的信號出現(xiàn)時間的5個樣本內(nèi)。
(b)間距濾波的能量圖案,PFE_Profile,在k處具有本地最大值,被規(guī)定為如下PFE_Profile(k)>PFE_Profile(k+j),對于j=-2,-1,1,2(c)間距濾波的能量圖案在k處的數(shù)值,比起它在reset_epoch處的數(shù)值是很大的PFE_Profile(k)>0.3*PFE_Profile(reset_epoch)(d)局部能量圖案在k處的數(shù)值,比起間距濾波的能量圖案的數(shù)值是很大的LE_Profile(k)>0.5*PFE_Profile(k)(e)k的位置離開上一個信號出現(xiàn)時間足夠遠(例如,0.7*pitch(k)個樣本)。
如果找到滿足以上條件的樣本k,則reset_epoch的值被改變到k。
最后的復(fù)位軌跡被確定為從reset_epoch開始的、周期地放置的信號出現(xiàn)時間位置的序列,以及通過遞歸被得到初始化epoch
=reset_epoch只要epoch[n]處在信號出現(xiàn)時間搜索范圍中,就對于n=1,2...重復(fù)進行,
epoch[n]=epoch[n-1]+Pitch(epoch[n-1]])得出“復(fù)位軌跡峰值”的位置和大小,它是在復(fù)位軌跡上間距濾波的能量圖案的最高值。以下的數(shù)量被使用來作出對于復(fù)位該幀的判決R_TRACK_MAX_AMP,復(fù)位軌跡峰值的幅度,R_TRACK_MAX_POS,復(fù)位軌跡峰值的位置。
(方塊D)復(fù)位幀的判決對復(fù)位當前幀的判決如下地進行IF{(J_TRACK_MAX_AMP/R_TRACK_MAX_AMP<0.8)OR先前幀是UNVOICED}AND{(|J_TRACK_MAX_POS-R_TRACK_MAX_POS|>4)}THAN當前幀被聲稱為RESET VOICED幀;否則當前幀被聲稱為NON-RESET VOICED幀。
(方塊E)信號出現(xiàn)時間位置的確定數(shù)量FIRST_EPOCH,是指在當前搜索幀中第一信號出現(xiàn)時間的探索位置,它被規(guī)定為如下如果當前幀是RESET幀F(xiàn)IRST_EPOCH=R_TRACK_MAX_POS否則FIRST_EPOCH=J_TRACK_MAX_POS給定FIRST_EPOCH,第一信號出現(xiàn)時間的探索位置后,緊接在這個信號出現(xiàn)時間后面的一組信號出現(xiàn)時間位置被確定為如下初始化epoch
=FIRST_EPOCH只要epoch[n]處在信號出現(xiàn)時間搜索范圍中,就對于n=1,2...重復(fù)進行,epoch[n]=epoch[n-1]+Pitch(epoch[n-1]])如果先前幀是話音的和當前幀是復(fù)位話音幀,則通過使用下面的程序,信號出現(xiàn)時間可被引入到FIRST_EPOCH的左面
程序只要epoch[-n]處在信號出現(xiàn)時間搜索范圍中,就對于n=1,2...重復(fù)進行,epoch[-n]=epoch[-n+1]-Pitch(epoch[-n]])刪除不滿足以下條件的所有的信號出現(xiàn)時間k>0.1*pitch(subframe
)以及k-LastEpoch>0.5*pitch(subframe
)給信號出現(xiàn)時間重新加索引號,以使得最左面(最早先)的信號出現(xiàn)時間是epoch
。
如果當前幀是復(fù)位話音幀,則通過使用以下的程序,信號出現(xiàn)時間的位置被平滑化程序?qū)τ趎=1,2...K重復(fù)進行,epoch[n]=epoch[n]-(K-n)*[epoch
-LastEpoch]/(K+1)其中LastEpoch是先前搜索幀中的最后的信號出現(xiàn)時間。
平滑信號出現(xiàn)時間位置的目的是阻止信號周期性中突然的改變。
如果先前幀不是話音幀以及當前幀是復(fù)位話音幀,則通過使用以下的程序,把信號出現(xiàn)時間引入到First_Epoch的左面確定AV_FRAME和PK_FRAME,分別是當前基本幀中樣本的能量圖案的平均值和峰值。
接著,如下地把信號出現(xiàn)時間引入到START_EPOCH的左面只要epoch[-n]處在信號出現(xiàn)時間搜索范圍中,就對于n=1,2...重復(fù)進行,epoch[-n]=epoch[-n+1]-Pitch(epoch[-n]])直至到達信號出現(xiàn)時間搜索范圍的開始端為止。
定義WIN_MAX[n]為由每個重新引入的信號出現(xiàn)時間 epoch[-n],n=1,2...K規(guī)定的窗內(nèi)樣本的局部能量輪廓的最大值。驗證所有重新引入的信號出現(xiàn)時間滿足以下條件(WIN_MAX>0.13PK_FRAME)以及(WIN_MAX>1.5AV_FRAME)如果任何重新引入的信號出現(xiàn)時間不滿足以上條件,則消除該信號出現(xiàn)時間和它的左面的所有信號出現(xiàn)時間。
給信號出現(xiàn)時間重新加索引號,以使得在信號出現(xiàn)時間搜索范圍中最早先的信號出現(xiàn)時間是epoch
。
這樣確定話音幀的窗口邊界后,仍舊參照圖9的話音編碼器42c,現(xiàn)在描述用于確定話音幀的搜索子幀邊界的當前優(yōu)選的技術(shù)(圖11,方?jīng)QB)。
輸入先前搜索幀的結(jié)束點;以及當前幀中窗的位置。
輸出當前幀中搜索子幀的位置。
程序?qū)τ诿總€子幀(0,1,2)進行設(shè)置當前搜索子幀的開始點等于跟隨在上一個搜索子幀的結(jié)尾后面的樣本。
設(shè)置當前搜索子幀的最后樣本等于當前基本子幀的最后的樣本。
如果當前基本子幀中最后樣本處在窗內(nèi),則當前搜索子幀被重新規(guī)定為如下如果該窗的中心處在當前基本子幀內(nèi),則擴展當前搜索子幀,直至窗的末尾端,即設(shè)置當前搜索子幀的末尾端為窗的最后的樣本,該窗跨在基本子幀的末尾端(重疊窗)。
否則(窗的中心落在下一個基本子幀中)如果當前幀的索引號是0和1(頭兩個子幀),則設(shè)置當前搜索子幀的末尾端在重疊窗(不包括來自當前搜索子幀的窗)的開始點的前面的樣本處。
否則(如果只是最后子幀),設(shè)置當前搜索子幀的末尾端為在重疊窗(不包括來自這個搜索子幀的窗以及在窗前面留下附加的空間,以便允許調(diào)節(jié)這個窗在下一個幀中的位置)的開始點的前面、樣本索引號,它是八個樣本。
對于其余子幀重復(fù)這個程序。
確定搜索子幀后,下一個步驟是識別每個子幀中固定代碼本(FCB)的貢獻(圖11的方塊C)。由于窗口位置取決于間距周期,有可能(特別是對于男性講話者),某些搜索子幀可能沒有窗。這樣的子幀通過下面描述的特別的程序被處理。然而,在大多數(shù)情形下,子幀包含窗,以及對于這些子幀的FCB貢獻通過以下的程序被確定。
現(xiàn)在詳細描述圖11,方塊C,帶有窗口的話音子幀的FCB矢量和增益的確定。
輸入當前搜索子幀中修正的剩余;當前搜索子幀中窗的位置;當前搜索子幀中加權(quán)的合成濾波器的零輸入響應(yīng)(ZIR);當前搜索子幀中的ACB貢獻;以及當前搜索子幀中加權(quán)的合成濾波器的沖擊響應(yīng)。
輸出所選擇的FCB矢量的索引號;相應(yīng)于所選擇的FCB矢量的最佳增益;合成的語音信號;以及相應(yīng)于最佳FCB矢量的加權(quán)的平方誤差。
程序在話音幀中,對于子幀中窗口內(nèi)的樣本,選擇從固定代碼本得出的激勵信號。如果在同一個搜索子幀中出現(xiàn)多個窗口,則在該子幀中所有的窗口被限制為具有相同的激勵。這個限制對得出信息的有效編碼是想要的。
最佳FCB激勵通過分析-合成(AbS)程序被確定。首先,通過從修正剩余減去加權(quán)的合成濾波器的ZIR(零輸入響應(yīng))和ACB貢獻得出FCB目標。固定代碼本FCB_V隨間距的數(shù)值而改變,以及通過以下的程序而被得出。
如果窗口長度(L)等于24,則在FCB_V中的24維矢量如下地得出(A)通過把零放置在窗口中除了24位置中的3個位置以外的所有位置上,得出每個代碼矢量。三個位置是通過在每個以下的軌跡中取一個位置而被選擇的軌跡0位置0 3 6 9 15 18 21軌跡1位置1 4 7 10 13 16 19 22
軌跡2位置2 5 8 11 14 17 20 23(B)在所選擇的位置上的每個非零脈沖可以是+1或-1,導(dǎo)致4096個代碼矢量(即,脈沖位置組合乘以8個正負號組合)。
如果窗口長度(L)等于16,則16維的代碼本如下地得出(A)把零放置在除了16位置中的4個位置以外的所有位置上。非零脈沖被放置,每一個在以下的軌跡上軌跡0位置0 4 8 12軌跡1位置1 5 9 13軌跡2位置2 6 10 14軌跡3位置3 7 11 15(B)每個非零脈沖可以是+1或-1,再次導(dǎo)致4096個候選矢量(即,256個位置組合,16個正負號組合)。
相應(yīng)于每個代碼矢量,在當前搜索子幀中產(chǎn)生未縮放的激勵。這個激勵是通過把代碼矢量復(fù)制到當前子幀中所有的窗口以及把零放置在其它樣本位置而得出的。這個激勵的最佳標量增益連同加權(quán)的合成費用一起可通過使用標準的分析-合成,而被確定。由于在所有4096個代碼矢量上的搜索是很花計算的,所有搜索在整個代碼本子集上進行。
在第一子幀上,搜索被限制于這樣的代碼矢量,即,其非零脈沖在正負號上與在搜索子幀的第一窗口中相應(yīng)的位置處的后-濾波目標信號的正負號相一致。本領(lǐng)域技術(shù)人員可以把這個技術(shù)看作為多少類似于在EVRC中所使用的、用于減小復(fù)雜性的程序的一種方法。
在第二和第三子幀中,在所有軌跡中脈沖的正負號被限制于或者等同于對于在第一子幀中相應(yīng)的軌跡所選擇的正負號,或者在每個軌跡上的相反者。為說明在每個第二和第三子幀中的脈沖的正負號只需要一個比特,以及有效的代碼本具有1024個矢量,如果L=24;以及15個矢量,如果L=16。
最佳候選者被確定,以及相應(yīng)于這個候選者的合成的語音被計算。
現(xiàn)在描述用來確定無窗口的話音幀的FCB矢量和增益的當前的優(yōu)選技術(shù)。
輸入當前搜索子幀中修正的剩余;當前搜索子幀中加權(quán)的合成濾波器的ZIR;當前搜索子幀中的ACB貢獻;以及當前搜索子幀中加權(quán)的合成濾波器的沖擊響應(yīng)。
輸出所選擇的FCB矢量的索引號;相應(yīng)于所選擇的FCB矢量的最佳增益;合成的語音信號;以及相應(yīng)于最佳FCB矢量的加權(quán)的平方誤差。
程序在無窗口話音子幀中,通過使用以下的程序得出固定激勵。
通過從修正剩余減去加權(quán)的合成濾波器的ZIR和ACB貢獻得出FCB目標。代碼本FCB_V是通過以下的程序而被得出的通過把零放置在搜索子幀中除了兩個位置以外的所有位置上,得出每個代碼矢量。兩個位置是通過在每個以下的軌跡中取一個位置而被選擇的軌跡0位置0 2 4 6 8 10...(奇數(shù)索引號)軌跡1位置1 3 5 7 9...(偶數(shù)索引號)在所選擇的位置上的每個非零脈沖可以是+1或-1。由于搜索子幀可以是64樣本那樣長,所有蛋白酶可以包含多到4096個代碼矢量。
對于每個代碼矢量的最佳標量增益連同加權(quán)的合成費用一起,可通過使用標準的分析-合成,而被確定。最佳候選者被確定,以及相應(yīng)于這個候選者的合成的語音被計算。
現(xiàn)在參照圖9的過渡編碼器42b,在本發(fā)明的當前的優(yōu)選實施例中,在編碼過渡幀時有兩個步驟。第一步驟是作為由圖8的閉環(huán)分類器34實行的閉環(huán)分類處理過程的一部分被完成的,以及過渡的目標速率保持在4kb/s,避免分類時速率偏向(如果速率較高。分類器會偏向過渡)。在這個第一步驟中,固定代碼本采用每個子幀一個窗。相應(yīng)的窗口組在下面被稱為“第一組”窗口。在第二步驟,在每個子幀中引入額外的窗口,產(chǎn)生“第二組”窗口。這個程序使得只增加用于過渡的速率,而不使得分類器有偏向。
用于過渡幀的編碼程序可被概述為以下的步驟序列,如圖12所示。
(A)確定“第一組”窗口邊界。
(B)選擇搜索子幀長度。
(C)確定對于在每個子幀中的第一窗口的FCB矢量和增益,以及在“第二組”窗口中用于引入激勵的目標信號。
(D)確定“第二組”窗口邊界。
(E)確定對于在每個子幀中的第二窗口的FCB矢量和增益。
步驟A確定對于過渡子幀的“第一組”窗口邊界。
輸入先前搜索幀的末尾點;以及對于從-16到175的樣本索引號的修正剩余;相對于當前基本幀的開始點。
輸出在當前幀中的窗口的位置。
程序確定頭三個信號出現(xiàn)時間,每個基本子幀中一個。接著規(guī)定中心在信號出現(xiàn)時間處的長度為24的窗口,正如在上面所討論的話音幀中那樣。雖然沒有對信號出現(xiàn)時間的相對位置加以限制,但希望滿足以下的四個條件(C1-C4)(C1)如果信號出現(xiàn)時間在位置n處,相對于搜索幀的開始點,則n必須滿足n=8*k+4(k是整數(shù))。
(C2)由信號出現(xiàn)時間規(guī)定的窗口不可互相重疊。
(C3)由第一信號出現(xiàn)時間規(guī)定的窗口不可延伸到先前的搜索幀中。
(C4)信號出現(xiàn)時間位置使得被包括在由那些信號出現(xiàn)時間規(guī)定的窗口中的修正剩余的樣本的平均能量最大化。
步驟B確定對于過渡幀的搜索子幀邊界。
這個程序可以等同于先前描述的、用于確定話音幀中搜索子幀的邊界的程序。
步驟C確定對于在過渡子幀中的第一窗口的FCB矢量和增益。
這個程序,除了以下方面以外,等同于在話音幀中使用的程序。
(i)在每個搜索子幀中只有一個窗口;以及(ii)除了執(zhí)行AbS的傳統(tǒng)步驟以外,從FCB目標中減去最佳FCB貢獻,以便確定新的目標,用于把激勵引入到附加窗口(第二組窗口)。
在把激勵引入到第一組窗口(如這里描述的)后,引入附加的組的窗口(每個搜索子幀一個),以便接納目標激勵中其它重大的能量窗口。第二組窗口的脈沖通過下面描述的程序被引入。
步驟D確定對于過渡子幀的“第二組”窗口邊界。
輸入先前搜索幀的末尾點;用于在過渡子幀中引入附加窗口的目標信號;以及搜索子幀在當前幀中的位置。
輸出在當前幀中的第二組窗口的位置。
程序把三個附加信號出現(xiàn)時間放置在當前幀中,以及規(guī)定其中心在這些信號出現(xiàn)時間處的、長度為24的窗口。附加信號出現(xiàn)時間滿足以下的四個條件(C1-C4)(C1)在每個搜索子幀中只引入一個附加信號出現(xiàn)時間。
(C2)由任何附加信號出現(xiàn)時間規(guī)定的窗口不可延伸到搜索子幀的邊界以外。
(C3)如果信號出現(xiàn)時間在位置n處,相對于搜索幀的開始點,則n必須滿足方程n=8*k+4(k是整數(shù))。
(C4)在滿足以上條件的所有可能的信號出現(xiàn)時間位置中間,選擇的信號出現(xiàn)時間使得被包括在由那些信號出現(xiàn)時間規(guī)定的窗口中的目標信號的平均能量最大化。
步驟E確定對于在過渡子幀中第二窗口的FCB矢量和增益。
輸入用于把附加窗口包括最早當前搜索子幀中的目標;以及在當前子幀中加權(quán)的合成濾波器的沖擊響應(yīng)。
輸出所選擇的FCB矢量的索引號;
相應(yīng)于所選擇的FCB矢量的最佳增益;以及合成的語音信號。
程序利用早先對于長度為24的窗口規(guī)定的固定代碼本。搜索被限制于這樣的代碼矢量,即,其非零脈沖在正負號上與相應(yīng)的位置處的目標信號的正負號相一致。AbS程序被使用來確定最好的代碼矢量和相應(yīng)的增益。最好的激勵通過合成濾波器進行濾波,以及被加到從第一組窗口中的激勵合成的語音上,因此得出在當前搜索子幀中完整的合成語音。
現(xiàn)在參照圖9的非話音編碼器42a和圖13的流程圖,對于非話音幀,在搜索子幀中的FCB貢獻從其分量是偽隨機三進制數(shù)(-1,0或+1)的矢量的代碼本被得出。最佳代碼矢量和相應(yīng)的增益然后在每個子幀中通過使用分析-合成而被確定。自適應(yīng)代碼本不被使用。搜索子幀邊界通過使用下面描述的程序被確定。
步驟A確定對于非話音幀的搜索子幀邊界。
輸入先前搜索幀的末尾點。
輸出在當前幀中的搜索子幀的位置。
程序第一搜索子幀從跟隨在上一個搜索幀的末尾端后面的樣本延伸到樣本號53(相對于當前基本幀的開始點)。第二和第三子幀被分別選擇為具有長度53和54。非話音搜索幀和基本幀在同一個位置結(jié)束。
步驟B確定對于非話音子幀的FCB矢量和增益。
輸入當前搜索子幀中修正的剩余矢量;在當前子幀中加權(quán)的合成濾波器的ZIR;以及在當前子幀中加權(quán)的合成濾波器的沖擊響應(yīng)。
輸出所選擇的FCB矢量的索引號;相應(yīng)于所選擇的FCB矢量的最佳增益;以及合成的語音信號。
程序通過AbS(分析-合成)程序確定最佳FCB矢量及其增益。激勵矢量FCB_UV
,...FCB_UV[511]的代碼本FCB_UV從三進制數(shù)的序列,RAN_SEQ[k]k=0,...605,按以下的方式被得出FCB_UV[i],{RAN_SEQ[i],RAN_SEQ[i+1],...,RAN_SEQ[i+L-1]}其中L是當前搜索子幀的長度。相應(yīng)于最佳激勵的合成的語音信號也被計算。
再次參照圖9,閉環(huán)分類器42d代表幀的級別分類器的第二級,它確定在一幀中的語音信號的性質(zhì)(話音的,非話音的或過渡的)。
在以下的公式中,數(shù)量Dt被規(guī)定為在引入第一組窗口以后過渡假設(shè)的加權(quán)平方誤差,以及Dv被規(guī)定為在話音假設(shè)時的加權(quán)平方誤差。閉環(huán)分類器42d如下地產(chǎn)生在每個幀m中的輸出,CLC(m)IfDt<0.8 Dvthen CLC(m)=TRANSITIONElse if β<0.7 and Dt<Dvthen CLC(m)=TRANSITIONElse CLC(m)=VOICED閉環(huán)分類器42d通過比較Dt和Dv,而比較使用話音假設(shè)和過渡假設(shè)的相對優(yōu)點。應(yīng)當指出,Dt不是過渡假設(shè)的最后加權(quán)的平方誤差,而只是在第一組窗口中引入FCB貢獻后得出的中間誤差度量。這個方法是寧愿要的,因為過渡編碼器42b比起話音編碼器42c來說,可以使用更高的比特速率,所以加權(quán)平方誤差的直接比較是不適當?shù)?。?shù)量,Dt和Dv,另一方面相應(yīng)于相同的比特速率,所以在閉環(huán)分類期間,它們的比較是適當?shù)?。?yīng)當指出,對于過渡幀的目標比特速率是4kb/s。
在圖9上,SW1-SW3代表邏輯開關(guān)。SW1和SW2的切換狀態(tài)由從開環(huán)分類器34輸出的OLC(m)信號的狀態(tài)控制,而SW3的切換狀態(tài)由從閉環(huán)分類器42d輸出CLC(m)信號的狀態(tài)控制。SW1在作用時把修正剩余切換到分話音編碼器42a的輸入端,或切換到過渡編碼器42b的輸入端以及同時到話音編碼器42c的輸入端。SW2在作用時選擇基于非話音編碼器模型42a的合成信號,或選擇從過渡編碼器42b輸出的、基于過渡假設(shè)的合成信號或從話音編碼器42c輸出的、基于話音假設(shè)的合成信號中的一個合成信號,正如由CLC(m)和SW3選擇的。
圖14是相應(yīng)的譯碼器10的方框圖。開關(guān)SW1和SW2代表邏輯開關(guān),其狀態(tài)由從如前面所述的、相應(yīng)的語音編碼器發(fā)送的分類指示(例如,2比特)控制。而且,在這方面,來自無論哪個源的輸入比特流被加到類別譯碼器10a(它控制SW1和SW2的切換狀態(tài)),以及加到LSP譯碼器10d,它具有被耦合到合成濾波器10b和后濾波器10c的輸出端。合成濾波器10b的輸入端被耦合到SW2的輸出,因此代表被選擇為幀的類別的函數(shù)的、多個激勵產(chǎn)生器之一的輸出。更具體地,在本實施例中,非話音的激勵產(chǎn)生器10e和相關(guān)的增益單元10f被布置在SW1與SW2之間。在另一個開關(guān)位置處可找到話音激勵固定代碼本10g和增益單元10j,連同相關(guān)的間距譯碼器10h和窗產(chǎn)生器10i,以及自適應(yīng)代碼本10k,增益單元101,和相加交匯點10m。在再一個開關(guān)位置處可找到過渡激勵固定代碼本10o和增益單元10p,以及相關(guān)的窗譯碼器10q。自適應(yīng)代碼本反饋路徑10從SW2的輸出節(jié)點處出現(xiàn)。
現(xiàn)在更詳細地描述譯碼器10,類別譯碼器10a從輸入比特流檢索載送類別信息的比特,以及由此譯碼該類別。在圖14的方框圖上給出的實施例中,有三個類別非話音,話音和過渡。本發(fā)明的其它實施例可包括不同數(shù)目的類別,正如上面描述的。
類別譯碼器啟動開關(guān)SW1,它把輸入比特流引導(dǎo)到相應(yīng)于每個類別的激勵產(chǎn)生器(每個類別具有分開的激勵產(chǎn)生器)。對于話音類別,比特流包含間距信息,它首先在方塊10h中被譯碼,以及在方塊10i被使用來產(chǎn)生窗。根據(jù)間距信息,從代碼本10g檢索自適應(yīng)代碼本矢量,以便產(chǎn)生激勵矢量,它被乘以增益10j,以及被加法器10m加到自適應(yīng)代碼本激勵,給出話音幀的總的激勵。用于固定和自適應(yīng)代碼本的增益值可以根據(jù)比特流中的信息從增益代碼本被檢索。
對于非話音類別,激勵是通過從代碼本10e檢索隨機矢量和把矢量乘以增益單元10f,而得到的。
對于過渡類別,窗口位置在窗口譯碼器10q中被譯碼。代碼本矢量是通過使用來自窗口譯碼器10q的、關(guān)于窗口位置的信息和來自比特流的附加信息,而從過渡激勵固定的代碼本10o被檢索。所選擇的代碼本矢量與增益單元10p相乘,導(dǎo)致對于過渡的總的激勵。
由類別譯碼器10a啟動的第二開關(guān)SW2選擇相應(yīng)于當前類別的激勵。激勵被加到LP合成器濾波器10b。該激勵通過連接10n也被反饋到自適應(yīng)代碼本10k。合成器濾波器被傳送到后濾波器10c,它被使用來改進語音質(zhì)量。合成器濾波器和后濾波器參量是基于由LSP譯碼器10d從輸入比特流中被譯碼的LPC參量。
雖然以上是依據(jù)在幀和子幀中的特定的樣本數(shù)、特定的窗口尺寸、特定的參量、以及與其進行比較的門限值等描述的,但將會看到,已經(jīng)揭示了本發(fā)明的當前的優(yōu)選實施例。其它的數(shù)值可被使用,以及各種算法和程序隨之被調(diào)整。
而且,正如先前指出的,本發(fā)明的教導(dǎo)并不限于僅僅使用三個或四個幀分類,而是可以利用大于或小于這個數(shù)目的幀分類。
因此假定,本領(lǐng)域技術(shù)人員可導(dǎo)出對本發(fā)明的這些和其它的揭示的實施例的多種修正方案和變例。然而,所有這樣的修正方案和變例假定屬于本發(fā)明的教導(dǎo)的范圍內(nèi),以及被包括在后面的權(quán)利要求的范圍內(nèi)。
也應(yīng)當指出,本發(fā)明的話音編碼器不限于使用于無線電話,或在這方面的無線應(yīng)用。例如,按照本發(fā)明的教導(dǎo)編碼的話音信號可僅僅被記錄用于以后的重復(fù),和/或可以在使用光纖和/或電線來輸送數(shù)字信號的通信網(wǎng)上傳輸。
而且,正如先前指出的,本發(fā)明的教導(dǎo)并不限于使用與碼分多址(CDMA)技術(shù)或擴頻技術(shù),而是也可被實施于時分多址(TDMA)技術(shù),或某些其它多用戶接入技術(shù)(或也用于單用戶接入技術(shù))。
因此,雖然看到本發(fā)明是參照優(yōu)選實施例具體地顯示和描述的,但本領(lǐng)域技術(shù)人員將進一步看到,其中可以作出在形式和細節(jié)上的改變,而不背離本發(fā)明的范圍和精神。
權(quán)利要求
1.編碼語音信號的方法,包括以下步驟把語音信號的樣本劃分成幀;確定在該幀內(nèi)的至少一個窗口的位置;以及對于該幀的激勵進行編碼,由此使全部或幾乎全部非零激勵幅度位于該至少一個窗內(nèi)。
2.如權(quán)利要求1中的方法,還包括對于每個幀得出剩余信號的步驟;以及通過檢驗該得出的剩余信號來確定該至少一個窗的位置。
3.如權(quán)利要求1的方法,還包括以下步驟對于每個幀得出剩余信號;平滑該剩余信號的能量輪廓;以及其中通過檢驗該剩余信號的平滑的能量輪廓來確定該至少一個窗的位置。
4.如權(quán)利要求1到3的任一項的方法,其中可定位該至少一個窗的位置,以使得它具有一個與子幀邊界或幀邊界中至少一個邊界相一致的邊緣。
5.一種編碼語音信號的方法,包括以下步驟把該語音信號的樣本劃分成幀;對于每個幀得出剩余信號;通過考慮對于該幀的剩余信號,確定其中心位于該幀內(nèi)的至少一個窗口的位置;以及編碼對于該幀的激勵,由此使全部或幾乎全部非零激勵幅度位于該至少一個窗內(nèi)。
6.如權(quán)利要求5的方法,其中得出對于每個幀的剩余信號的步驟包括平滑該剩余信號的能量輪廓;以及其中通過檢驗該剩余信號的平滑的能量輪廓來確定該至少一個窗的位置。
7.如權(quán)利要求5或權(quán)利要求6的方法,其中修正子幀或幀的邊界,以使得該窗口整體地位于該修正的子幀或幀內(nèi),并定位該邊界,使得修正的幀或子幀的邊緣與窗邊界相一致。
8.一種編碼語音信號的方法,包括以下步驟把語音信號的樣本劃分成幀;對于每個幀得出剩余信號;把每個幀中的該語音信號分類為多種類別中的一種類別;通過檢驗該幀的剩余信號來識別在該幀中的至少一個窗口的位置;通過使用按照幀的類別選擇的多個激勵編碼技術(shù)之一,來編碼該幀的一個激勵;以及對于至少一個類別,把全部或幾乎全部非零激勵幅度限制在窗口內(nèi)。
9.如權(quán)利要求8的方法,其中這些類別包括話音幀,非話音幀,和過渡幀。
10.如權(quán)利要求8的方法,其中這些類別包括強周期性幀,弱周期性幀,不穩(wěn)定幀,和非話音幀。
11.如權(quán)利要求8到10的任一項的方法,其中分類該語音信號的步驟包括以下步驟從該剩余信號形成平滑的能量輪廓;以及考慮在該平滑的能量輪廓中峰值的位置。
12.如權(quán)利要求8到11的任一項的方法,其中該多個編碼技術(shù)之一是自適應(yīng)代碼本。
13.如權(quán)利要求8到12的任一項的方法,其中該多個編碼技術(shù)之一是固定三進制脈沖編碼代碼本。
14.如權(quán)利要求8到13的任一項的方法,其中該分類的步驟使用開環(huán)分類器,后面跟隨閉環(huán)分類器。
15.如權(quán)利要求8到14的任一項的方法,其中該分類的步驟使用第一分類器,把一個幀分類為非話音幀或不是非話音幀之一,以及第二分類器,用于把一個不是非話音幀分類為話音幀或過渡幀之一。
16.如權(quán)利要求8到15的任一項的方法,其中該編碼的步驟包括以下步驟把該幀劃分成多個子幀;以及在每個子幀內(nèi)放置至少一個窗。
17.如權(quán)利要求16的方法,其中放置至少一個窗的步驟把第一窗放置在一個作為該幀的音調(diào)的函數(shù)的位置,并放置隨后的窗作為該幀的音調(diào)的函數(shù)和作為第一窗的位置的函數(shù)。
18.如權(quán)利要求8到17的任一項的方法,其中識別該至少一個窗的位置的步驟包括平滑該剩余信號的步驟,并且其中該識別步驟考慮在該剩余信號的平滑輪廓中能量峰值的存在。
19.一種語音編碼設(shè)備,包括編幀單元,用于把輸入語音信號樣本劃分成幀;窗口形成單元,用于確定在幀內(nèi)至少一個窗口的位置;以及編碼器,用于編碼對于該幀的激勵,由此使全部或幾乎全部非零激勵幅度位于該至少一個窗內(nèi)。
20.如權(quán)利要求19的設(shè)備,還包括用于對于每個幀得出剩余信號的單元;其中所述窗口形成單元通過檢驗該得出的剩余信號來確定該至少一個窗的位置。
21.如權(quán)利要求19的設(shè)備,還包括用于得出對于每個幀的剩余信號的單元;以及用于平滑該剩余信號的能量輪廓的單元;其中所述窗口形成單元通過檢驗該剩余信號的平滑的能量輪廓來確定該至少一個窗的位置。
22.如權(quán)利要求19到21的任一項的設(shè)備,其中所述窗口形成單元用來定位所述至少一個窗,以使得它具有一個與子幀邊界或幀邊界中至少一個邊界相一致的邊緣。
23.編碼語音信號的方法,包括以下步驟把該語音信號的樣本劃分成幀;通過考慮對于該幀的語音或剩余信號,修正一個幀或子幀的持續(xù)時間和邊界;以及通過使用分析-合成編碼技術(shù)來編碼對于該幀的激勵。
24.如權(quán)利要求23的方法,其中將每個幀中的語音信號分類為多個類別中的一個類別,以及通過使用按照幀的類別所選擇的多種分析-合成編碼技術(shù)之一來編碼對于該幀的激勵。
25.一種編碼語音信號的方法,包括以下步驟把該語音信號樣本劃分成幀;對于每個幀得出剩余信號;把每個幀中的語音信號分類為多種類別中的一種類別,其中該分類的步驟使用開環(huán)分類器,后面跟隨閉環(huán)分類器;以及通過使用按照幀的類別所選擇的多種分析-合成激勵編碼技術(shù)之一來編碼對于該幀的激勵。
26.如權(quán)利要求25的方法,其中該分類的步驟使用第一分類器,把一個幀分類為非話音幀或不是非話音幀之一,以及第二分類器,用于把一個不是非話音幀分類為話音幀或過渡幀之一。
27.一種無線通信器,包括無線收發(fā)信機,包括發(fā)射機和接收機;輸入語音換能器和輸出語音換能器;以及語音處理器,包括采樣和編幀單元,具有輸入端,被耦合到所述輸入語音換能器的輸出端,用于把輸入語音信號樣本劃分成幀;窗口形成單元,用于確定在幀內(nèi)至少一個窗口的位置;以及編碼器,用于提供編碼的語音信號,其中在對于該幀的激勵中,全部或幾乎全部非零激勵幅度位于該至少一個窗內(nèi)。所述無線通信器還包括調(diào)制器,用于以編碼的語音信號調(diào)制載波,所述調(diào)制器具有輸出端,被耦合到所述發(fā)射機的輸入端;以及解調(diào)器,具有輸入端,被耦合到所述接收機的輸出端,用于解調(diào)用語音信號編碼的、并從遠端發(fā)射機發(fā)送的載波;以及所述語音處理器還包括譯碼器,具有輸入端,被耦合到所述解調(diào)器的輸出端,用于譯碼來自一個幀的激勵,其中全部或幾乎全部非零激勵幅度位于至少一個窗內(nèi),所述譯碼器具有輸出端,被耦合到所述輸出語音換能器的輸入端。
28.如權(quán)利要求27的無線通信器,其中所述語音處理器還包括用于得出對于每個幀的剩余信號的單元;以及其中所述窗口形成單元通過檢驗該得出的剩余信號來確定該至少一個窗的位置。
29.如權(quán)利要求27的無線通信器,還包括用于得出對于每個幀的剩余信號的單元;以及用于平滑該剩余信號的能量輪廓的單元;其中所述窗口形成單元通過檢驗該剩余信號的平滑的能量輪廓來確定該至少一個窗的位置。
30.如權(quán)利要求27到29的任一項的無線通信器,其中所述窗口形成單元用來定位所述至少一個窗,以使得它具有一個與子幀邊界或幀邊界中至少一個邊界相一致的邊緣。
31.如權(quán)利要求27到30的任一項的無線通信器,其中所述語音處理器還包括用于修正的單元,通過考慮對于該幀的語音或剩余信號而修正一個幀或子幀的持續(xù)時間和邊界的單元;以及其中所述編碼器通過使用分析-合成編碼技術(shù)來編碼對于該幀的激勵。
32.如權(quán)利要求27到31的任一項的無線通信器,其中所述語音處理器還包括分類器,用于把每個幀中的語音信號分類為多種類別中的一種類別,以及其中所述編碼器通過使用按照幀的類別所選擇的、多種分析-合成激勵編碼技術(shù)之一來編碼對于該幀的激勵。
33.如權(quán)利要求32的無線通信器,其中所述調(diào)制器還用該幀的類別的指示來調(diào)制所述載波,其中所述解調(diào)器還解調(diào)接收的載波,以得出該接收幀的類別的指示。
34.如權(quán)利要求33的無線通信器,其中該指示包括兩個比特。
35.如權(quán)利要求32到34的任一項的無線通信器,其中所述分類器包括開環(huán)分類器,后面跟隨閉環(huán)分類器。
36.如權(quán)利要求27的無線通信器,其中所述語音處理器還包括第一分類器,用于把一個幀分類為非話音幀或不是非話音幀之一,以及第二分類器,用于把一個不是非話音幀分類為話音幀或過渡幀之一。
37.如權(quán)利要求27的無線通信器,其中一個幀包括至少兩個子幀,其中所述窗口形成單元運行使得子幀邊界或幀的邊界被修正成使窗口整體地位于修正的子幀或幀內(nèi),并定位該邊界使得該修正的幀或子幀的邊緣與窗口邊界相一致。
38.如權(quán)利要求27的無線通信器,其中所述窗口形成單元運行使得窗口中心位于信號出現(xiàn)時間處,其中話音幀的信號出現(xiàn)時間由預(yù)定距離加上或減去抖動值隔開,其中所述調(diào)制器還用該抖動值的指示調(diào)制所述載波,以及其中所述解調(diào)器還解調(diào)該接收的載波,以得出對于接收幀的抖動值。
39.如權(quán)利要求38的無線通信器,其中該預(yù)定距離是一個音調(diào)周期,以及其中該抖動值是在大約-8和大約+7之間的整數(shù)。
40.如權(quán)利要求27到39的任一項的無線通信器,其中所述編碼器和所述譯碼器以小于大約4kb/s的數(shù)據(jù)速率運行。
41.一種語音譯碼器,包括類別譯碼器,具有輸入端,被耦合到所述語音譯碼器的輸入節(jié)點,用于從輸入比特流提取,對于編碼語音信號幀的類別信息進行編碼的預(yù)定比特,并對該類別信息譯碼,其中有多個預(yù)定的類別,其中的一個類別是話音類別;以及其中所述輸入比特流也被耦合到LSP譯碼器的輸入端;以及第一多位置開關(guān)單元,由所述類別譯碼器的輸出控制,用于把所述輸入比特流引導(dǎo)到多個激勵產(chǎn)生器中選擇的一個激勵產(chǎn)生器的輸入端,所述激勵產(chǎn)生器的各個相應(yīng)于所述多個預(yù)定的類別的一個類別;其中對于所述話音類別,輸入比特流編碼對于編碼語音信號幀的音調(diào)信息,它在音調(diào)譯碼器塊中被譯碼,該譯碼器塊具有輸出端,被耦合到窗口產(chǎn)生器塊,后者根據(jù)譯碼的音調(diào)信息產(chǎn)生至少一個窗口,所述至少一個窗口被使用來從自適應(yīng)代碼本檢索用于產(chǎn)生激勵矢量的自適應(yīng)代碼本矢量,它被乘以增益單元和被加到自適應(yīng)代碼本激勵,以給出對于話音幀的總激勵。
42.如權(quán)利要求41的語音譯碼器,還包括第二多位置開關(guān)單元,由所述類別譯碼器的輸出控制,用于把所述多個激勵產(chǎn)生器的選擇的一個激勵產(chǎn)生器的輸出端耦合到合成器濾波器的輸入端,以及通過反饋路徑,也耦合到所述自適應(yīng)代碼本。
43.如權(quán)利要求42的語音譯碼器,其中所述多個預(yù)定的類別還包括非話音類別和過渡類別,以及其中還提供被耦合在所述第一和第二多位置開關(guān)單元之間的非話音類別激勵產(chǎn)生器和過渡類別激勵產(chǎn)生器。
44.如權(quán)利要求43的語音譯碼器,其中對于所述非話音類別,提供從非話音代碼本中檢索隨機矢量并乘以矢量,而得出該激勵。
45.如權(quán)利要求43或44的語音譯碼器,其中對于所述過渡類別,至少一個窗口位置在具有被耦合到所述輸入比特流的輸入端的窗口譯碼器中被譯碼;以及其中通過使用關(guān)于從所述窗口譯碼器輸出的至少一個窗口位置的信息,而從過渡激勵固定的代碼本中檢索代碼本矢量,并乘以檢索的代碼本矢量。
46.如權(quán)利要求41到45的任一項的語音譯碼器,其中全部或幾乎全部非零激勵幅度位于該至少一個窗口內(nèi)。
47.如權(quán)利要求42和從屬于它的任何權(quán)利要求的語音譯碼器,其中所述合成器濾波器的輸出被耦合到后置濾波器的輸入端,該后置濾波器具有被耦合到所述譯碼器的輸出節(jié)點的輸出端;其中所述合成濾波器和所述后置濾波器的參量是基于由所述LSP譯碼器從所述輸入比特流所譯碼的參量。
48.一種對劃分成一組幀的的語音信號進行譯碼的方法,包括確定在一幀中的窗口位置的步驟,其中全部或幾乎全部非零激勵幅度位于所述窗口內(nèi),以及通過參考所述窗口從所述幀產(chǎn)生激勵。
49.如權(quán)利要求48的方法,其中組成該語音信號的幀,每個被分配一個類別,其中激勵的產(chǎn)生是按照相應(yīng)于所述類別的譯碼方法進行的。
50.如權(quán)利要求49的方法,其中每個幀具有一個分配給它的類別,從以下類型中所選擇的一個類型,即話音的、非話音的或過渡的幀類型。
51.如權(quán)利要求49或權(quán)利要求50的方法,其中該類別被用來輔助確定在幀中窗口的位置。
52.一種語音譯碼設(shè)備,包括輸入裝置,在使用時,接收由一組幀組成的語音信號;窗口形成單元,用于確定在幀內(nèi)至少一個窗口的位置;其中全部或幾乎全部非零激勵幅度位于該窗內(nèi),以及激勵產(chǎn)生器,由此參照所述窗口從所述幀產(chǎn)生激勵。
53.如權(quán)利要求52的設(shè)備,包括多個激勵產(chǎn)生器,每個按照由類別譯碼器從所述語音信號提取的信息可選擇地運行,其中按照與其有關(guān)的類別對于每個幀產(chǎn)生激勵。
全文摘要
語音編碼器(12)和用于語音編碼的方法,其中語音信號由被加到合成濾波器的激勵信號代表。語音信號被劃分成幀和子幀。分類器(22)識別語音幀屬于幾種類別的哪個類別,以及不同的編碼方法被應(yīng)用來構(gòu)成用于每種類別的激勵。對于某些類別,一個或多個窗口被識別為用于其中全部或幾乎全部激勵信號樣本由編碼方案被分配的幀。通過更精確地編碼重要的激勵段,改進了性能。通過識別平滑的剩余能量輪廓的峰值,窗口位置從線性預(yù)測剩余被確定。方法調(diào)整幀和子幀的邊界,以使得每個窗口整體地位于修正的子幀或幀內(nèi)。這消除了當隔離地編碼幀或子幀時引起的人為限制,而不管在幀或子幀邊界上語音信號的局部特性。
文檔編號G10L19/14GK1338096SQ99816396
公開日2002年2月27日 申請日期1999年12月23日 優(yōu)先權(quán)日1998年12月30日
發(fā)明者A·格爾索, V·庫珀曼, A·V·勞, T·-C·楊, S·阿馬迪, F·劉 申請人:諾基亞移動電話有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
句容市| 临漳县| 延边| 平江县| 绩溪县| 海盐县| 九龙县| 泸西县| 凤凰县| 黄梅县| 北碚区| 綦江县| 伊宁县| 封开县| 乌海市| 洪雅县| 福海县| 黎川县| 乌恰县| 随州市| 洱源县| 汾西县| 黄山市| 双城市| 呼玛县| 诏安县| 江阴市| 稷山县| 霍林郭勒市| 昌都县| 施甸县| 广水市| 高碑店市| 明星| 化州市| 紫阳县| 安新县| 孟村| 基隆市| 读书| 元朗区|