語音中非話音部分的低數(shù)據(jù)位速率編碼的制作方法

文檔序號：2822017閱讀：180來源：國知局

專利名稱：語音中非話音部分的低數(shù)據(jù)位速率編碼的制作方法
背景技術(shù)：
I.發(fā)明領(lǐng)域本發(fā)明總的涉及語音處理領(lǐng)域，本發(fā)明尤其涉及語音中非話音部分的低數(shù)據(jù)位速率編碼的方法和裝置。
II.技術(shù)背景采用數(shù)字技術(shù)進行話音傳輸已經(jīng)非常廣泛，尤其是在長途和數(shù)字無線電話應用領(lǐng)域更是這樣。接著，這又在確定可以在信道上發(fā)送的最少信息量并同時保持重新構(gòu)筑的語音感覺質(zhì)量方面，引起了人們的興趣。如果發(fā)送信息是通過簡單地進行取樣和數(shù)字化來進行的，則為實現(xiàn)傳統(tǒng)的模擬電話語音質(zhì)量時需要每秒64千位(kbps)數(shù)量級的數(shù)據(jù)速率。然而，通過采用語音分析，隨后采用適當?shù)木幋a、傳輸，再在接收機處重新合成，可以大大減小數(shù)據(jù)速率。
我們把采用獲取與人的語音發(fā)生模型有關(guān)的參數(shù)對語音進行壓縮的技術(shù)的裝置稱為語音編碼器。語音編碼器將輸入的語音信號分為一些時間段，或者是一些分析幀。語音編碼器通常包括編碼器或譯碼器，或編碼譯碼器。編碼器對輸入的語音幀進行分析，并獲取某些相關(guān)的參數(shù)，隨后將這些參數(shù)量化成二進制表述，即，量化成一組數(shù)據(jù)位或二進制的數(shù)據(jù)包。這些數(shù)據(jù)包在通信信道上傳送到接收機和譯碼器。譯碼器對數(shù)據(jù)包進行處理，并將它們解量化，產(chǎn)生參數(shù)，隨后再用這些解量化的參數(shù)，對這些語音幀進行重新合成。
語音編碼器的作用是通過去除語音中所有固有的自然冗余，將數(shù)字化的語音信號壓縮成低數(shù)據(jù)位速率的信號。數(shù)字壓縮是通過用一組參數(shù)來代表輸入的語音幀并用量化來代表具有一組數(shù)據(jù)位的參數(shù)來實現(xiàn)的。如果輸入的語音幀的數(shù)據(jù)位數(shù)是Ni，而由語音編碼器所產(chǎn)生的數(shù)據(jù)包的數(shù)據(jù)位數(shù)是No，那么由語音編碼器所實現(xiàn)的壓縮倍數(shù)是Cr＝Ni/No。我們所面臨的挑戰(zhàn)是在實現(xiàn)目標壓縮倍數(shù)的同時，保持高話音質(zhì)量的譯碼語音。語音編碼器的性能取決于(1)上述語音模型或分析及合成處理過程的組合的良好程度，以及(2)在每幀的目標數(shù)據(jù)位速率No時，參數(shù)量化過程進行的量化程度。所以，語音模型的目標是用每幀較少的一組參數(shù)，來捕獲語音信號的基本部分或目標話音質(zhì)量。
在低數(shù)據(jù)位速率下有效地對語音進行編碼的一種有效的技術(shù)是多模式編碼。多模式編碼對不同類型的輸入語音幀實施不同的模式規(guī)則或編譯碼規(guī)則。每一種模式或編譯碼過程以最有效的方式來表達某種類型的語音段(即，發(fā)聲的、不發(fā)聲的，或者是背景噪聲)。采用一種外部模式?jīng)Q定機構(gòu)來檢查輸入的語音幀，并對采用什么模式用于該幀作出決定。通常，通過從輸入的幀中取出幾個參數(shù)，并對它們進行評估，而作出采用哪一種模式的決定，以開環(huán)方式?jīng)Q定所采用的模式。所以，模式?jīng)Q定是在事先不知道輸出語音的準確情況即按照語音質(zhì)量或其他的特性測量來說輸出語音與輸入的語音有多大的相似程度而作出的。語音編譯碼器的一種典型的開環(huán)模式?jīng)Q定見美國專利5,414,796，該專利已轉(zhuǎn)讓給本發(fā)明的受讓人。
多模式編碼可以是固定速率的，對每一幀采用相同數(shù)量的數(shù)據(jù)位No；也可以采用變速率的，這時，不同的模式采用不同的數(shù)據(jù)位速率。變速率編碼僅采用將編譯碼器參數(shù)編碼成適合獲得目標質(zhì)量水平的數(shù)據(jù)位數(shù)。因此，采用變數(shù)據(jù)位速率(VBR)技術(shù)，在明顯較低的平均速率下，可以得到與固定速率、更高速率編碼器相同的目標話音質(zhì)量。典型的變速率語音編碼器見美國專利5,414,796，該專利已轉(zhuǎn)讓給本發(fā)明的受讓人。
目前，人們無論是在商業(yè)上還是在研究興趣上都強烈地希望開發(fā)一種能在中等的到較低數(shù)據(jù)位速率(在2.4到4kbps或以下的范圍內(nèi))下工作的高質(zhì)量的語音編碼器。其應用范圍包括無線電話、衛(wèi)星通信、互聯(lián)網(wǎng)電話、各種多媒體和話音流應用、話音郵件以及其他的話音儲存系統(tǒng)。其驅(qū)動力是在數(shù)據(jù)包丟失的情況下，需要具有高容量，以及對較強性能的要求。近來建立各種語音編碼標準的努力是推動低速語音編碼規(guī)則的研究和開發(fā)的另一直接的驅(qū)動力。低速語音編碼器在每一許可的應用帶寬下生成更多的信道或用戶，并且與合適信道編碼附加層耦合的低速語音編碼器可以適合編碼器技術(shù)規(guī)范的整個數(shù)據(jù)位預算，并在信道出現(xiàn)差錯的情況下，仍具有較強的性能。
所以，多模式VBR語音編碼是一種在低數(shù)據(jù)位速率下對語音進行編碼的有效的機制。傳統(tǒng)的多模式技術(shù)需要對各個語音段(如，非話音的、話音的以及過渡部分)設(shè)計有效的編碼方案或模式以及用于背景噪聲或無聲的模式。語音編碼器的全部性能取決于每一種模式工作的良好程度，而編碼器的平均速率取決于用于非話音的、話音的、以及語音其他部分不同模式的數(shù)據(jù)位速率。為了實現(xiàn)低平均速率下的目標質(zhì)量，必須設(shè)計一些有效的、高性能的模式，并且其中的某些模式必須在較低的數(shù)據(jù)位速率下工作。通常，話音的和非話音的語音段是在高數(shù)據(jù)速率下捕獲的，而背景噪聲和無聲部分是用在明顯較低的速率下工作的模式來代表的。所以，需要有一種低數(shù)據(jù)速率的編碼技術(shù)，在采用每一幀最少數(shù)量的數(shù)據(jù)位的時候能夠捕獲語音的非話音部分。
發(fā)明概述本發(fā)明是一種采用每一幀最少數(shù)量的數(shù)據(jù)位準確捕獲語音的非話音部分的低數(shù)據(jù)速率編碼技術(shù)。因此，按照本發(fā)明對語音的非話音部分進行編碼的方法最好包括這樣一些步驟，即，從一個語音幀中獲取高時間分辨率的能量系數(shù)；對高時間分辨率的能量系數(shù)進行量化處理；從經(jīng)量化的能量系數(shù)中產(chǎn)生高時間分辨率的能量包；并且通過使隨機生成的噪聲矢量具有能量包絡(luò)的量化值來重新構(gòu)筑剩余的信號。
本發(fā)明還提供了一種對語音的非話音部分進行編碼的語音編碼器，它包括從一個幀的語音中獲取高時間分辨率的能量系數(shù)的裝置；使高時間分辨率的能量系數(shù)量化的裝置；從量化的能量系數(shù)中產(chǎn)生高時間分辨率的能量包絡(luò)的裝置；以及通過使隨機產(chǎn)生的噪聲矢量具有量化的能量包絡(luò)值來重新構(gòu)筑殘留信號的裝置。
本發(fā)明還提供了對語音的非話音部分進行編碼的語音編碼器，它最好包括從一個幀的語音中獲取高時間分辨率的能量系數(shù)的模塊；使高時間分辨率的能量系數(shù)量化的模塊；從量化的能量系數(shù)中產(chǎn)生高時間分辨率的能量包絡(luò)的模塊；以及通過使隨機產(chǎn)生的噪聲矢量具有量化的能量包絡(luò)值來重新構(gòu)筑殘留信號的模塊。
附圖簡述

圖1是由語音編碼器在每一端處終斷的通信信道的方框圖。
圖2是一編碼器的方框圖。
圖3是一譯碼器的方框圖。
圖4是描述對用于語音的非話音部分進行低數(shù)據(jù)速率編碼的技術(shù)的步驟的流程圖。
圖5A-E給出的是信號幅度對于離散時間的關(guān)系。
圖6是描繪錐形進位矢量量化編碼過程的功能方框圖。
較佳實施例的詳細描述圖1中，第一編碼器10接收數(shù)字化的語音取樣s(n)，并對取樣信號s(n)進行編碼，用于在傳輸介質(zhì)12或通信信道12上傳輸?shù)降谝蛔g碼器14。譯碼器14對經(jīng)編碼的語音取樣信號進行譯碼，并合成輸出語音信號s合成(n)。對于沿相反方向上進行的傳輸，第二編碼器16對數(shù)字化的語音取樣信號s(n)進行編碼，而該取樣信號是在通信信道18上傳輸?shù)?。第二譯碼器20接收經(jīng)編碼的語音取樣信號，并對其進行譯碼，產(chǎn)生經(jīng)合成的輸出語音信號s合成(n)。
語音取樣信號S(n)代表已經(jīng)按照本領(lǐng)域方法(如，脈沖編碼調(diào)制(PCM)、壓擴μ律或A律)中的任何一種方法數(shù)字化和量化的語音信號。
正如本領(lǐng)域中人們所知道的那樣，語音取樣信號S(n)被組織成輸入數(shù)據(jù)幀，其中，每一幀包含預定數(shù)量的數(shù)字化語音取樣信號s(n)。在一種典型的實施例中，采用8kHz的取樣速率，這時，每一20毫秒的幀包含160個取樣信號。在下面描述的實施例中，從8kbps(全速率)到4kbps(二分之一速率)到2kbps(四分之一速率)到1kbps(八分之一)，數(shù)據(jù)傳輸?shù)乃俾试谥饌€幀的基礎(chǔ)上是可變的。最好數(shù)據(jù)傳輸速率是可變的，這是因為對于包含相對較少語音信息的數(shù)據(jù)幀來說，可以有選擇地采用較低的數(shù)據(jù)速率。正如本領(lǐng)域中的普通技術(shù)人員所了解的那樣，也可以采用其他的取樣速率、幀大小和數(shù)據(jù)傳輸速率。
第一編碼器10和第二譯碼器20一起包含一個第一語音編碼器或語音編譯碼器。同樣，第二編碼器16和第一譯碼器14一起包含一個第二語音編碼器。本領(lǐng)域中的技術(shù)人員能夠理解，語音編碼器能夠用數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、離散電路的邏輯門電路、固件或傳統(tǒng)的可編程軟件模塊和微處理器來構(gòu)成。軟件模塊可以做在RAM存儲器、按塊擦除存儲器、寄存器、或本領(lǐng)域中已知的其他形式的可寫儲存介質(zhì)。也可以用任何一種傳統(tǒng)的處理器、控制器或狀態(tài)機來代替微處理器。特別設(shè)計用于語音編碼的專用集成電路見美國專利5,727,123和申請日為1994年2月16日、標題為“聲碼器專用集成電路”的美國專利申請08/197,417，二者均已轉(zhuǎn)讓給本發(fā)明的受讓人。
圖2中，可以用在語音編碼器中的編碼器100包括模式?jīng)Q定模塊102、基音估計模塊104、LP分析模塊106、LP分析濾波器108、LP量化模塊110和殘留量化模塊112。輸入語音幀s(n)被提供到模塊決定模塊102、基音估計模塊104、LP分析模塊106以及LP分析濾波器108。模式?jīng)Q定模塊102根據(jù)每一輸入語音幀s(n)的周期性，產(chǎn)生模式索引IM和模式M。按照周期性對語音幀進行分類的各種方法見申請日為1997年3月11日、標題是“METHOD AND APPARATUS FOR PERFORMING REDUCEDRATE VARIABLE RATE VOCODING”的美國專利申請08/815,354，該專利申請已轉(zhuǎn)讓給本發(fā)明的受讓人。這些方法也已并入電信行業(yè)協(xié)會行業(yè)暫行標準TIA/EIA IS-127和TIA/EIA IS-733。
基音估計模塊104根據(jù)每一輸入的語音幀s(n)產(chǎn)生基音索引IP和滯后值P0。LP分析模塊106對每一輸入的語音幀s(n)執(zhí)行線性預告分析，產(chǎn)生LP參數(shù)a。LP參數(shù)a被提供到LP量化模塊110。LP量化模塊110還接收模式M。LP量化模塊110產(chǎn)生LP索引ILP以及經(jīng)量化的參數(shù)。LP分析濾波器108除了輸入語音幀s(n)以外還接收經(jīng)量化的LP參數(shù)。LP分析濾波器108產(chǎn)生LP殘留信號R[n]，它代表輸入語音幀s(n)和量化的線性預告參數(shù)之間的誤差。LP殘留R[n]、模式M和量化LP參數(shù)被提供到殘留量化模塊112。根據(jù)這些值，殘留量化模塊112產(chǎn)生殘留索引IR和經(jīng)量化的殘留信號圖3中，語音編碼器中可以使用的譯碼器200包括LP參數(shù)譯碼模塊202、剩余譯碼模塊204、模式譯碼模塊206以及LP合成濾波器208。模式譯碼模塊206接收模式索引IM并對其進行譯碼，由此產(chǎn)生模式M。LP參數(shù)譯碼模塊202接收模式M，和LP索引ILP。LP參數(shù)譯碼模塊202對接收值進行譯碼，以產(chǎn)生經(jīng)量化的LP參數(shù)。剩余譯碼模塊204接收剩余索引IR、基音索引IP和模式索引IM。剩余譯碼模塊204對接收值進行譯碼，產(chǎn)生量化的殘留信號。經(jīng)量化的殘留信號和經(jīng)量化的LP參數(shù)被提供到LP合成濾波器208，由它來合成經(jīng)譯碼的輸出語音信號[n]。
圖2所示編碼器100各種模塊的操作和構(gòu)成以及圖3中所示譯碼器是本領(lǐng)域中已知的，其詳細描述見L.B Rabiner和R.W.Schafer的Digital Processing ofSpeech Signal，396-453(1978)。典型的編碼器和典型的譯碼器見美國專利5,414,796。
圖4中的流程圖描述了一種按照一種實施例用于語音的非話音段低數(shù)據(jù)速率編碼技術(shù)。圖4中所示的低速率非話音編碼模式提供了一種在更低平均數(shù)據(jù)速率下的多模式語音編碼器，通過準確捕獲每一幀數(shù)量較少的數(shù)據(jù)位的非話音部分，它保留了整體較高的話音質(zhì)量。
在步驟300，編碼器對非話音的以及不是非話音的輸入語音幀執(zhí)行外部數(shù)量確定和識別。速率的確定是通過考慮到從語音幀S[n]獲取的幾個參數(shù)來完成的，這里，n＝1，2，3，…，N，比如，幀的能量(E)、幀的周期(Rp)以及頻譜傾斜(Ts)。將這些參數(shù)與一組預定的閾值比較。根據(jù)比較的結(jié)果，判斷當前幀是否是非話音的。如下所述，如果當前幀是非話音的，則將其編碼為非話音的幀。
按照下面的等式，可以確定幀的能量E=1N*Σm=1NS[m]*S[m]]]>按照下面的等式，可以決定幀的周期Rp＝所有k中的最大值{R(S[n]，S[n+k])}，k＝1，2，…，N這里，R(x[n]，x[n+k])是x的自相關(guān)函數(shù)。按照下面的等式，可以確定頻譜傾斜Ts＝(Eh/El)這里，Eh和El是Sl[n]和Sh[n]的能量值，Sl和Sh是原始語音幀S[n]的低通和高通分量，它們可以由一組低通濾波器和高通濾波器來產(chǎn)生。
在步驟302，進行LP分析，產(chǎn)生非話音幀的線性預告剩余。線性預告(LP)是采用本領(lǐng)域中眾所周知的技術(shù)來完成的，詳見美國專利5,414,796，和L.B.Rabiner與R.W.Schafer的Digital Processing of Speech Signals 396-458(1978)。N取樣的非話音LP剩余R[n]是從輸入語音幀S[n]中產(chǎn)生的，這里，n＝1，2，…，N。正如在上面對比文獻中所描述的那樣，采用已知的LSP量化技術(shù)，在線性頻譜對(LSP)域中使LP參數(shù)量化。原始語音信號幅度與離散時間索引之間的關(guān)系見圖5A中所示。經(jīng)量化的非話音語音信號幅度與離散時間索引之間的關(guān)系見圖5B所示。原始非話音剩余信號幅度與離散時間索引之間的關(guān)系見圖5C所示。能量包絡(luò)幅度與離散時間索引之間的關(guān)系見圖5D所示。經(jīng)量化的非話音殘留信號幅度與離散時間索引之間的關(guān)系見圖5E所示。
在步驟304，獲取非話音殘留信號的精細時間分辨率能量參數(shù)。執(zhí)行下面的步驟，從非話音剩余R[n]中獲取幾個(M)本地能量參數(shù)Ei，這里，i＝1，2，…，M。將N個取樣剩余R[n]分成(M-2)子塊Xi，這里，i＝1，2，3，…，M-1，每一塊Xi的長度是L＝N/(M-2)。從前一幀的過去(past)量化剩余中得到L個取樣的過去剩余塊X1。(L個取樣的過去剩余塊X1含有最后語音幀N個取樣剩余的最后L個取樣)。從下一個幀的LP剩余中得到L個取樣的將來剩余塊XM。(L個取樣的將來剩余塊XM含有下一個語音幀N取樣LP剩余開頭的L個取樣。)按照下面的等式，從M個塊Xi中的每一個中產(chǎn)生M個本地能量參數(shù)Ei，這里，i＝1，2，…，M。E=1L*Σm=1NXi[m]*Xi[m]]]>
在步驟306，按照錐形進位矢量量化(PVQ)方法，用Nr個數(shù)據(jù)位，對M個能量參數(shù)進行編碼。所以，用Nr個數(shù)據(jù)位對M-1個本地能量值Ei進行編碼，形成量化的能量值Wi，這里，i＝2，3，…，M。采用數(shù)據(jù)位N1，N2，…，NK的K個步驟的PVQ編碼方案，從而N1＋N2＋…＋NK＝Nr，即，用于量化非話音剩余R[n]的數(shù)據(jù)位總數(shù)。對于k個級(stage)中的每一個級，執(zhí)行下面的步驟(這里，k＝1，2，…，K)。對于第一級(即，k＝1)，將頻帶數(shù)設(shè)置在Bk＝Bl＝1，并且頻帶長度設(shè)置在Lk＝1。對于每一頻帶Bk，按照下面的等式，設(shè)置平均值meanj，這里，j＝1，2，…，Bkmeanj=1Lj*Σm=1LjEm]]>用Nk＝Nl將Bk平均值meanj量化，而形成平均值qmeanj的量化組，這里，j＝1，2，…，Bk。將屬于每一頻帶Bk的能量除以相關(guān)量化的平均值qmeanj，而產(chǎn)生新的一組能量值{Ek，i}＝{El，i}，這里，i＝1，2，…，M。在第一級的情況下(即，對于k＝1)，對于每一i，(i＝1，2，…，M)El，I＝Ei/qmeansl分成子頻帶、獲取每一頻帶的平均值、用每一級的數(shù)據(jù)位使平均值量化，并且隨后將子頻帶的分量除以子帶的量化平均值，對于每一以后的級k，重復這一過程，這里k＝2，3，…，K-1。
在第k級，采用全部Nk個數(shù)據(jù)位，用為每一頻帶而設(shè)計的各個VQ，使Bk子頻帶中每一個的分矢量量化。M＝8以及級＝4的PVQ編碼過程是通過圖6中所示的例子來描述的。
在步驟308，形成M個量化的能量矢量。通過用最終剩余的分矢量和量化平均值最終使上述PVQ編碼過程反向，從編碼簿(codebook)和代表PVQ信息的Nr個數(shù)據(jù)位中形成M個量化的能量矢量。圖7中通過舉例，描述了M＝3以及級k＝3時的PVQ譯碼過程。正如本領(lǐng)域中的普通技術(shù)人員能夠理解的那樣，非話音的(UV)增益可以用任何一種傳統(tǒng)的編碼技術(shù)來量化。編碼技術(shù)方案并非僅限于圖4-7中所描述的實施例的PVQ方案。
在步驟310，形成高分辨率的能量包絡(luò)。按照下面計算，從經(jīng)譯碼的能量值Wi，形成N個取樣(即，語音幀的長度)，高時間分辨率的能量包絡(luò)ENV[n]，這里，n＝1，2，3，…，N，i＝1，2，3，…，M。M個能量值代表語音當前剩余M-2個子幀的能量，每一子幀的長度L＝N/M。Wl和WM的值分別代表最后的剩余幀的過去的L個取樣，和下一個剩余幀未來L個取樣的能量。
如果Wm-1、Wm和Wm+1分別代表第m-1個、第m個和第m+1個子帶的能量，那么對于n＝m*L－L/2至n＝m*L＋L/2，代表第m個子幀的能量包絡(luò)ENV[n]的采樣計算如下對于n＝m*L－L/2，一直到n＝m*L，ENV[n]=Wm-1+(1/L)*(n-m*L+L)*(Wm-Wm-1)]]>并且對于n＝m*L，一直到n＝m*L＋L/2，ENV[n]=Wm+(1/L)*(n-m*L)*(Wm+1-Wm)]]>假設(shè)m＝2，3，4，…，M，對于M-1個頻帶中的每一個頻帶，重復對能量包絡(luò)ENV[n]進行計算的步驟，以計算整個能量包絡(luò)ENV[n]，這里，對于當前剩余幀，n＝1，2，…，N。
在步驟312，通過使能量包絡(luò)ENV[n]對隨機噪聲進行著色，形成量化后的非話音殘留信號。按照下面的等式，形成量化后的非話音剩余qR[n]qR[n]＝噪聲[n]*ENV[n]，n＝1，2，…，N這里，噪聲[n]是具有單位方差的隨機白噪聲信號，它是由與編碼器和譯碼器同步的隨機數(shù)發(fā)生器模擬產(chǎn)生的。
在步驟314，形成量化的非話音語音幀。正如在本領(lǐng)域中以及在上述美國專利5,414,796中以及L.B.Rabiner與R.W.Schafer在Digital Processing of SpeechSignal，396-458(1978)中所描述的那樣，采用傳統(tǒng)的LP合成技術(shù)，通過將量化后的非話音語音進行逆向LP濾波，產(chǎn)生量化的非話音剩余qS[n]。
在一種實施例中，通過測量感測的(perceptual))誤差測量如感測的信噪比(PSNR)，可以執(zhí)行質(zhì)量控制步驟，而PSNR定義如下PSNR=10*log10Σn=1N(x[n]-e[n])2Σn=1Ne[n]*e[n]]]>這里，x[n]＝h[n]*R[n]，而e(n)＝h[n]*qR[n]，“*”表示卷積或濾波操作，h(n)是感測的加權(quán)LP濾波器，而R[n]和qR[n]分別是原始的和量化的非話音剩余。將PSNR與一預定的閾值比較。如果PSNR小于該閾值，則非話音編碼方案就不會進行恰當?shù)氐玫綀?zhí)行，并且可以執(zhí)行更高速率的編碼方式，代替更精確地捕獲當前幀。另一方面，如果PSNR超過預定的閾值，則非話音的編碼方案就得到了很好的執(zhí)行，并保留該模式判斷。
上文中已經(jīng)描述了本發(fā)明的較佳實施例。然而，對本領(lǐng)域中普通技術(shù)人員而言，在不偏離本發(fā)明的精神和范圍的情況下，還可以對這些實施例作各種各樣的修正。所以，本發(fā)明并非僅限于這些實施例，而應當以權(quán)利要求書來限定本發(fā)明。
權(quán)利要求
1.一種對語音的非話音部分進行編碼的方法，其特征在于，它包含下述步驟從語音幀中獲取高時間分辨率能量系數(shù)；使高時間分辨率能量系數(shù)量化；從量化的能量系數(shù)，產(chǎn)生高時間分辨率能量包絡(luò)；以及通過用能量包絡(luò)的量化值形成隨機產(chǎn)生的噪聲矢量，重新構(gòu)成殘留信號。
2.如權(quán)利要求1所述的方法，其特征在于，按照錐形進位矢量量化方案，執(zhí)行所述量化步驟。
3.如權(quán)利要求1所述的方法，其特征在于，所述產(chǎn)生步驟是用線性插入的方法來完成的。
4.如權(quán)利要求1所述的方法，其特征在于，它還包含這樣一個步驟，即，獲得后處理性能測量，并且將所述后處理性能測量與一預定的閾值比較。
5.如權(quán)利要求1所述的方法，其特征在于，所述產(chǎn)生步驟包含產(chǎn)生高時間分辨率能量包絡(luò)，包括前一幀剩余預定個數(shù)的過去取樣的能量表述。
6.如權(quán)利要求1所述的方法，其特征在于，所述產(chǎn)生步驟包含產(chǎn)生高時間分辨率能量包絡(luò)，包括下一幀剩余預定個數(shù)的未來取樣的能量表述。
7.一種對語音的非話音部分進行編碼的語音編碼器，其特征在于，它包含從一個語音幀獲取高時間分辨率能量系數(shù)的裝置；將所述高時間分辨率能量系數(shù)進行量化處理的裝置；從量化的能量系數(shù)中產(chǎn)生高時間分辨率能量包絡(luò)的裝置；以及用能量包絡(luò)的量化值隨機產(chǎn)生噪聲矢量從而重新構(gòu)筑殘留信號的裝置。
8.如權(quán)利要求7所述的語音編碼器，其特征在于，所述量化裝置包含按照錐形進位矢量量化方案進行量化的裝置。
9.如權(quán)利要求7所述的語音編碼器，其特征在于，所述產(chǎn)生的裝置包含一個線性插入模塊。
10.如權(quán)利要求7所述的語音編碼器，其特征在于，它還包含獲得后處理性能測量的裝置和將所述后處理性能測量與一預定閾值比較的裝置。
11.如權(quán)利要求7所述的語音編碼器，其特征在于，所述產(chǎn)生的裝置包含產(chǎn)生高時間分辨率能量包絡(luò)的裝置，所述能量包絡(luò)包括前一剩余幀的預定數(shù)量的過去取樣的能量表述。
12.如權(quán)利要求7所述的語音編碼器，其特征在于，所述產(chǎn)生的裝置包含產(chǎn)生高時間分辨率能量包絡(luò)的裝置，所述能量包絡(luò)包括下一個剩余幀的預定數(shù)量的未來取樣的能量表述。
13.一種對語音的非話音部分進行編碼的語音編碼器，其特征在于，它包含從一個語音幀獲取高時間分辨率能量系數(shù)的模塊；使所述高時間分辨率能量系數(shù)量化的模塊；從所述量化的能量系數(shù)中產(chǎn)生高時間分辨率的能量包絡(luò)的模塊；以及用所述能量包絡(luò)的量化值形成隨機產(chǎn)生的噪聲矢量從而重新構(gòu)筑一殘留信號的模塊。
14.如權(quán)利要求13所述的語音編碼器，其特征在于，所述量化是按照一錐形進位矢量量化方案來進行的。
15.如權(quán)利要求13所述的語音編碼器，其特征在于，所述產(chǎn)生是以線性插入的方法進行的。
16.如權(quán)利要求13所述的語音編碼器，其特征在于，它還包含獲得以及將一后處理性能測量與一預定的閾值進行比較的裝置。
17.如權(quán)利要求13所述的語音編碼器，其特征在于，所述高時間分辨率能量包絡(luò)包括前一剩余幀的預定數(shù)量的過去取樣的能量表述。
18.如權(quán)利要求13所述的語音編碼器，其特征在于，所述高時間分辨率能量包絡(luò)包括下一剩余幀的預定數(shù)量的未來取樣的能量表述。
全文摘要
一種用于語音的非話音部分的低數(shù)據(jù)速率編碼方案,它包括這樣一些步驟:從語音幀獲取高時間分辨率能量系數(shù)、使能量系數(shù)量化、從量化的能量系數(shù)中產(chǎn)生高時間分辨率的能量包絡(luò),以及用能量包絡(luò)的量化值形成隨機產(chǎn)生的噪聲矢量從而重新構(gòu)筑殘留信號。能量包絡(luò)可以采用線性插入技術(shù)來產(chǎn)生?？梢垣@得后處理測量,并將其與預定的閾值比較,以確定編碼規(guī)則是否執(zhí)行恰當。
文檔編號G10L19/14GK1342309SQ99815573
公開日2002年3月27日申請日期1999年11月12日優(yōu)先權(quán)日1998年11月13日
發(fā)明者A·達斯, S·曼朱那什申請人:高通股份有限公司

完整全部詳細技術(shù)資料下載