音頻信號(hào)的分類的制作方法

文檔序號(hào)：2828974閱讀：504來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻信號(hào)的分類的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音和音頻編碼，其中編碼模式根據(jù)輸入信號(hào)是類語(yǔ)音還是類音樂(lè)信號(hào)而改變。本發(fā)明涉及一種編碼器，該編碼器包括一個(gè)輸入，用來(lái)輸入在一個(gè)頻帶中的音頻信號(hào)的幀，包括至少第一激勵(lì)塊，用來(lái)對(duì)類語(yǔ)音音頻信號(hào)執(zhí)行第一激勵(lì)，以及第二激勵(lì)塊，用來(lái)對(duì)非類語(yǔ)音音頻信號(hào)執(zhí)行第二激勵(lì)。本發(fā)明還涉及一種設(shè)備，該設(shè)備包括一個(gè)編碼器，該編碼器包括一個(gè)輸入，用來(lái)輸入在一個(gè)頻帶中音頻信號(hào)的幀，包括至少第一激勵(lì)塊，用來(lái)對(duì)類語(yǔ)音音頻信號(hào)執(zhí)行第一激勵(lì)，以及第二激勵(lì)塊，用來(lái)對(duì)非類語(yǔ)音音頻信號(hào)執(zhí)行第二激勵(lì)。本發(fā)明還涉及一種系統(tǒng)，該系統(tǒng)包括一個(gè)編碼器，該編碼器包括一個(gè)輸入，用來(lái)輸入在一個(gè)頻帶中的音頻信號(hào)的幀，包括至少第一激勵(lì)塊，用來(lái)對(duì)類語(yǔ)音音頻信號(hào)執(zhí)行第一激勵(lì)，以及第二激勵(lì)塊，用來(lái)對(duì)非類語(yǔ)音音頻信號(hào)執(zhí)行第二激勵(lì)。本發(fā)明還包括一種方法，用來(lái)壓縮在一個(gè)頻帶中的音頻信號(hào)，其中第一激勵(lì)用于類語(yǔ)音音頻信號(hào)，第二激勵(lì)用于非類語(yǔ)音音頻信號(hào)。本發(fā)明涉及一種模塊，用來(lái)對(duì)在一個(gè)頻帶中的音頻信號(hào)的幀進(jìn)行分類，用于在至少用于類語(yǔ)音音頻信號(hào)的第一激勵(lì)和用于非類語(yǔ)音音頻信號(hào)的第二激勵(lì)中選擇一個(gè)激勵(lì)。本發(fā)明涉及一種計(jì)算機(jī)程序產(chǎn)品，該計(jì)算機(jī)程序產(chǎn)品包括一些機(jī)器可執(zhí)行的步驟，用來(lái)壓縮在一個(gè)頻帶中的音頻信號(hào)，其中第一激勵(lì)用于類語(yǔ)音音頻信號(hào)，第二激勵(lì)用于非類語(yǔ)音音頻信號(hào)。
背景技術(shù)：
在許多音頻信號(hào)處理應(yīng)用中，壓縮音頻信號(hào)，來(lái)減少在處理音頻信號(hào)時(shí)的處理能力需求。例如，在數(shù)字通信系統(tǒng)中，在例如移動(dòng)臺(tái)的用戶設(shè)備和基站之間的無(wú)線空中接口上傳輸之前，捕獲一般是模擬信號(hào)的音頻信號(hào)，在模-數(shù)(A/D)轉(zhuǎn)換器中進(jìn)行數(shù)字化，然后編碼。編碼的目的是壓縮數(shù)字化信號(hào)，在空中接口上以最小量的數(shù)據(jù)傳輸它，同時(shí)保持可接受的信號(hào)質(zhì)量水平。在蜂窩通信網(wǎng)絡(luò)中無(wú)線空中接口上的無(wú)線信道容量有限的情況下，這尤為重要。還有一些應(yīng)用，其中數(shù)字化音頻信號(hào)存儲(chǔ)在存儲(chǔ)介質(zhì)中，用于以后重現(xiàn)這些音頻信號(hào)。
壓縮可以是有損的，也可以是無(wú)損的。在有損壓縮中，在壓縮期間損失了一些信息，其中無(wú)法從壓縮的信號(hào)完全重構(gòu)原始信號(hào)。在無(wú)損壓縮中，通常不損失信息。因此，一般可以從壓縮的信號(hào)完全重構(gòu)原始信號(hào)。
術(shù)語(yǔ)音頻信號(hào)一般被理解為包含語(yǔ)音、音樂(lè)(非語(yǔ)音)或同時(shí)包含這兩者的信號(hào)。語(yǔ)音和音樂(lè)的不同特性使得設(shè)計(jì)一種對(duì)語(yǔ)音和音樂(lè)都能工作的很好的壓縮算法相當(dāng)困難。因此，這個(gè)問(wèn)題通常通過(guò)對(duì)音樂(lè)和語(yǔ)音設(shè)計(jì)不同的算法，并且利用某種形式的識(shí)別算法識(shí)別該音頻信號(hào)是類語(yǔ)音還是類音樂(lè)，以及根據(jù)識(shí)別的結(jié)果選擇適當(dāng)?shù)乃惴▉?lái)解決。
總之，在語(yǔ)音和音樂(lè)或非語(yǔ)音信號(hào)之間進(jìn)行完全的分類是一項(xiàng)困難的任務(wù)。所需的精確性很大程度上依賴于應(yīng)用。在一些應(yīng)用中，例如在語(yǔ)音識(shí)別，或者在用于存儲(chǔ)和檢索目的的精確存檔中，精確性是非常重要的。但是如果分類是用于為輸入信號(hào)選擇最優(yōu)壓縮方法，那么情況就有些不一樣。在這種情況下，可能會(huì)發(fā)生不存在一種壓縮方法，其對(duì)于語(yǔ)音總是最優(yōu)的，以及另一種壓縮方法，其對(duì)于音樂(lè)或非語(yǔ)音信號(hào)總是最優(yōu)的。實(shí)際上，對(duì)于語(yǔ)音瞬變的壓縮方法也可以對(duì)于音樂(lè)瞬變非常有效。也可能對(duì)強(qiáng)音調(diào)分量的音樂(lè)壓縮同樣適應(yīng)于濁音段。因此在這些情況下，用于僅完全針對(duì)語(yǔ)音和音樂(lè)進(jìn)行分類的方法并不會(huì)生成選擇最佳壓縮方法的最優(yōu)算法。
通常可以認(rèn)為語(yǔ)音的帶寬限制在約200赫茲至3400赫茲之間。A/D轉(zhuǎn)換器在將模擬語(yǔ)音信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)時(shí)所用的采樣率一般為8k赫茲或16k赫茲。音樂(lè)或非語(yǔ)音信號(hào)可能包含遠(yuǎn)在一般語(yǔ)音帶寬之上的頻率分量。在一些應(yīng)用中，音頻系統(tǒng)應(yīng)當(dāng)能夠處理在大約20赫茲至20000k赫茲之間的頻帶。這類信號(hào)的采樣率應(yīng)當(dāng)至少在40000k赫茲左右，以避免混疊。這里應(yīng)當(dāng)注意上面提到的這些值只是非限制性的例子。例如在一些系統(tǒng)中，音樂(lè)信號(hào)的上限可以是約10000k赫茲甚至比它還小。
采樣的數(shù)字信號(hào)隨后被編碼，通常逐幀進(jìn)行，從而產(chǎn)生數(shù)字?jǐn)?shù)據(jù)流，其比特率由用于編碼的編解碼器決定。比特率越高就有更多的數(shù)據(jù)被編碼，使得輸入幀的表示更為準(zhǔn)確。編碼的音頻信號(hào)隨后被解碼，并通過(guò)一個(gè)數(shù)模(D/A)轉(zhuǎn)換器以重構(gòu)信號(hào)，該信號(hào)盡可能接近原始信號(hào)。
理想的編解碼器會(huì)用盡可能少的比特來(lái)編碼音頻信號(hào)從而優(yōu)化信道容量，同時(shí)產(chǎn)生聽(tīng)起來(lái)與原始音頻信號(hào)盡可能接近的解碼的音頻信號(hào)。實(shí)際上，這通常是在編解碼器的比特率和解碼的音頻的質(zhì)量之間的一種平衡。
目前，存在許多不同的編解碼器，例如，自適應(yīng)多速率(AMR)編解碼器和自適應(yīng)多速率寬帶(AMR-WB)編解碼器，它們被開(kāi)發(fā)為用來(lái)壓縮和編碼音頻信號(hào)。AMR由第三代合作項(xiàng)目(3GPP)為GSM/EDGE和WCDMA通信網(wǎng)絡(luò)開(kāi)發(fā)。此外，已經(jīng)可以設(shè)想AMR將會(huì)用于分組交換網(wǎng)絡(luò)。AMR基于代數(shù)碼激勵(lì)線性預(yù)測(cè)(ACELP)編碼。AMR和AMR WB編解碼器分別包括8和9活躍(active)比特率，還包括話音活動(dòng)檢測(cè)(VAD)和非連續(xù)傳輸(DTX)功能。目前，AMR編解碼器的采樣速率是8k赫茲，AMR WB編解碼器的采樣速率是16k赫茲。顯然，上述編解碼器和采樣速率只是非限制性的例子。
ACELP編碼采用信號(hào)源是怎樣產(chǎn)生的模型而操作，并且從信號(hào)中提取模型參數(shù)。更具體的說(shuō)，ACELP編碼基于人類發(fā)聲系統(tǒng)的模型，其中喉嚨和嘴巴被建模為線性濾波器，以及語(yǔ)音由空氣定期振動(dòng)激勵(lì)濾波器產(chǎn)生。編碼器逐幀分析語(yǔ)音，并且編碼器對(duì)每一幀產(chǎn)生并輸出一組代表建模的語(yǔ)音的參數(shù)。該組參數(shù)可以包括濾波器的激勵(lì)參數(shù)和系數(shù)以及其他參數(shù)。語(yǔ)音編碼器的輸出通常稱為輸入語(yǔ)音信號(hào)的參數(shù)表示。該組參數(shù)隨后由一個(gè)適當(dāng)?shù)嘏渲玫慕獯a器進(jìn)行使用，以重新生成輸入語(yǔ)音信號(hào)。
對(duì)于一些輸入信號(hào)而言，類脈沖ACELP-激勵(lì)產(chǎn)生了更高的質(zhì)量，并且對(duì)于一些輸入信號(hào)而言，變換編碼激勵(lì)(TCX)更為最優(yōu)。這里假設(shè)ACELP-激勵(lì)最常作為用于典型的語(yǔ)音內(nèi)容的輸入信號(hào)，TCX-激勵(lì)最常作為用于典型的音樂(lè)的輸入信號(hào)。但是，并不總是這樣，也就是說(shuō)有時(shí)候，語(yǔ)音信號(hào)具有類音樂(lè)的部分，而音樂(lè)信號(hào)具有類語(yǔ)音的部分。在本申請(qǐng)中，類語(yǔ)音信號(hào)的定義是語(yǔ)音的大部分屬于該類別，并且音樂(lè)的一部分也可能屬于這個(gè)類別。對(duì)于類音樂(lè)信號(hào)而言，定義正好相反。此外，存在一些在某種意義上是中性的語(yǔ)音信號(hào)部分和音樂(lè)信號(hào)部分，它們可以屬于這兩種分類。
激勵(lì)的選擇可以以多種方式進(jìn)行最復(fù)雜和相當(dāng)好的方法是同時(shí)編碼ACELP和TCX-激勵(lì)，然后基于合成的語(yǔ)音信號(hào)選擇最佳激勵(lì)。這種分析綜合類型的方法會(huì)提供較好的效果，但是在一些應(yīng)用中，由于該方法過(guò)于復(fù)雜而不實(shí)際。在該方法中，可以采用例如SNR類型的算法來(lái)度量由這兩種激勵(lì)所產(chǎn)生的質(zhì)量。這種方法可以稱為“強(qiáng)力”方法，因?yàn)樗鼑L試了不同激勵(lì)的所有組合，并且之后才選擇最佳的一個(gè)。復(fù)雜性較低的方法將只是通過(guò)事先分析信號(hào)特性，執(zhí)行一次綜合，隨后選擇最佳激勵(lì)。該方法也可以是預(yù)選擇和“強(qiáng)力”的組合，以在質(zhì)量和復(fù)雜性之間進(jìn)行折衷。
圖1給出了具有現(xiàn)有技術(shù)高復(fù)雜性分類的簡(jiǎn)化的編碼器100。音頻信號(hào)被輸入到輸入信號(hào)塊101，其中對(duì)信號(hào)進(jìn)行數(shù)字化和濾波。輸入信號(hào)塊101還從數(shù)字化和濾波后的信號(hào)生成幀。這些幀被輸入到線性預(yù)測(cè)編碼(LPC)分析塊102。它對(duì)數(shù)字化輸入信號(hào)進(jìn)行逐幀的LPC分析，以找到與輸入信號(hào)匹配最好的參數(shù)集合。確定的參數(shù)(LPC參數(shù))被量化并從編碼器100輸出109。編碼器100還用LPC合成塊103、104產(chǎn)生兩個(gè)輸出信號(hào)。第一LPC合成塊103采用由TCX激勵(lì)塊105產(chǎn)生的信號(hào)，來(lái)合成音頻信號(hào)以發(fā)現(xiàn)產(chǎn)生針對(duì)TCX激勵(lì)的最佳結(jié)果的碼矢量。第二LPC合成塊104采用由ACELP激勵(lì)塊106產(chǎn)生的信號(hào)，來(lái)合成音頻信號(hào)以發(fā)現(xiàn)產(chǎn)生ACELP激勵(lì)最佳結(jié)果的碼矢量。在激勵(lì)選擇塊107中，比較由LPC合成塊103、104所產(chǎn)生的信號(hào)，以確定哪個(gè)激勵(lì)方法給出了最佳(最優(yōu))激勵(lì)。選定的激勵(lì)信號(hào)的參數(shù)和選定的激勵(lì)方法的信息例如被量化和被信道編碼108，隨后從編碼器100中輸出109這些信號(hào)以進(jìn)行傳輸。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供一種改進(jìn)的方法，用于利用信號(hào)的頻率信息對(duì)類語(yǔ)音和類音樂(lè)信號(hào)進(jìn)行分類。存在類音樂(lè)語(yǔ)音信號(hào)段以及類語(yǔ)音音樂(lè)信號(hào)段，并且在語(yǔ)音和音樂(lè)中，有些信號(hào)段可以屬于任意一種類型。換句話說(shuō)，本發(fā)明并不完全在語(yǔ)音和音樂(lè)之間分類。但是本發(fā)明定義了根據(jù)某些條件將輸入信號(hào)劃分成類音樂(lè)和類語(yǔ)音分量的手段。分類信息可以在例如多模式編碼器中使用，用來(lái)選擇編碼模式。
本發(fā)明的基本思想是將輸入信號(hào)劃分成若干頻帶，分析這些頻帶中低頻帶和高頻帶之間的關(guān)系和能量水平變化，并且基于這兩種計(jì)算度量或者那些度量的若干不同組合，利用不同的分析窗口或決定閾值，將信號(hào)分類為類音樂(lè)和類語(yǔ)音。該信息可以用于，例如為所分析的信號(hào)選擇壓縮方法。
根據(jù)本發(fā)明的編碼器的主要特征在于，該編碼器還包括一個(gè)濾波器，用來(lái)將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，該編碼器還包括一個(gè)激勵(lì)選擇塊，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)塊和所述第二激勵(lì)塊之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
根據(jù)本發(fā)明的設(shè)備的主要特征在于，所述編碼器還包括一個(gè)濾波器，用來(lái)將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，該設(shè)備還包括一個(gè)激勵(lì)選擇塊，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)塊和所述第二激勵(lì)塊之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
根據(jù)本發(fā)明的系統(tǒng)的主要特征在于，所述編碼器還包括一個(gè)濾波器，用來(lái)將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，該系統(tǒng)還包括一個(gè)激勵(lì)選擇塊，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)塊和所述第二激勵(lì)塊之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
根據(jù)本發(fā)明的方法的主要特征在于，將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，以及根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)和所述第二激勵(lì)之中選擇一個(gè)激勵(lì)，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
根據(jù)本發(fā)明的模塊的主要特征在于，該模塊還包括一個(gè)輸入，用來(lái)輸入指示該頻帶被劃分成多個(gè)子帶的信息，其中每個(gè)子帶的帶寬比所述頻帶更窄，該模塊還包括一個(gè)激勵(lì)選擇塊，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)塊和所述第二激勵(lì)塊之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
根據(jù)本發(fā)明的計(jì)算機(jī)程序產(chǎn)品的主要特征在于，該計(jì)算機(jī)程序產(chǎn)品還包括這樣的機(jī)器可執(zhí)行步驟將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，以及這樣的機(jī)器可執(zhí)行步驟根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)在所述至少第一激勵(lì)和所述第二激勵(lì)之中選擇一個(gè)激勵(lì)，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
在本申請(qǐng)中，定義術(shù)語(yǔ)“類語(yǔ)音”和“類音樂(lè)”來(lái)將本發(fā)明與典型的語(yǔ)音和音樂(lè)分類相區(qū)分。即使約90％的語(yǔ)音在根據(jù)本發(fā)明的系統(tǒng)中被分類成類語(yǔ)音，其余的語(yǔ)音信號(hào)仍可以定義成類音樂(lè)信號(hào)，如果壓縮算法的選擇基于這種分類，則可以提高音頻質(zhì)量。此外，典型的音樂(lè)信號(hào)在80％-90％的情況下可以被分類成類音樂(lè)信號(hào)，但是將部分音樂(lè)信號(hào)劃入類語(yǔ)音類別會(huì)提高壓縮系統(tǒng)的聲音信號(hào)質(zhì)量。因此，在與現(xiàn)有技術(shù)和系統(tǒng)比較時(shí)，本發(fā)明具有明顯優(yōu)勢(shì)。通過(guò)利用根據(jù)本發(fā)明的分類方法，可以提高重現(xiàn)的聲音質(zhì)量，而不會(huì)大幅度影響壓縮效率。
與前面提到的強(qiáng)力方法比較，本發(fā)明提供了一種復(fù)雜性小得多的預(yù)選擇類型方法，來(lái)在兩種激勵(lì)類型之間作出選擇。本發(fā)明將輸入信號(hào)劃分成頻帶，并分析低頻帶和高頻帶之間的關(guān)系，并且還可以使用例如那些頻帶中的能量水平變化，并將信號(hào)分類成類音樂(lè)或類語(yǔ)音。

圖1給出了具有現(xiàn)有技術(shù)高復(fù)雜性分類的簡(jiǎn)化的編碼器，圖2給出了具有按照本發(fā)明分類的編碼器的示例性實(shí)施例，圖3舉例說(shuō)明了AMR-WB VAD算法中VAD濾波器組結(jié)構(gòu)的一個(gè)例子，圖4示出了VAD濾波器組中能量水平標(biāo)準(zhǔn)偏差隨音樂(lè)信號(hào)中低能量分量和高能量分量的關(guān)系而變化的圖示的一個(gè)例子，圖5示出了VAD濾波器組中能量水平標(biāo)準(zhǔn)偏差隨語(yǔ)音信號(hào)中低能量分量和高能量分量的關(guān)系而變化的圖示的一個(gè)例子，圖6示出了音樂(lè)和語(yǔ)音信號(hào)組合圖示的一個(gè)例子，以及圖7示出了根據(jù)本發(fā)明的系統(tǒng)的一個(gè)例子。
具體實(shí)施例方式
下面將參考圖2詳細(xì)描述按照本發(fā)明示例性實(shí)施例的編碼器200。編碼器200包括一個(gè)輸入塊201，用于在需要時(shí)對(duì)輸入信號(hào)進(jìn)行數(shù)字化、濾波和成幀。這里應(yīng)當(dāng)注意，輸入信號(hào)可能已經(jīng)處于適合編碼處理的形式。例如，輸入信號(hào)可能在較早階段已經(jīng)進(jìn)行了數(shù)字化，并且存儲(chǔ)在存儲(chǔ)介質(zhì)中(未示出)。輸入信號(hào)幀被輸入到話音活動(dòng)檢測(cè)塊202。話音活動(dòng)檢測(cè)塊202輸出多個(gè)窄帶信號(hào)，它們被輸入到激勵(lì)選擇塊203中。激勵(lì)選擇塊203分析該信號(hào)，決定哪一種激勵(lì)方法最適合編碼該輸入信號(hào)。激勵(lì)選擇塊203產(chǎn)生一個(gè)控制信號(hào)204，用于根據(jù)激勵(lì)方法的確定，控制選擇裝置205。如果確定用于編碼輸入信號(hào)的當(dāng)前幀的最佳激勵(lì)方法是第一激勵(lì)方法，控制選擇裝置205選擇第一激勵(lì)塊206的信號(hào)。如果確定用于編碼輸入信號(hào)的當(dāng)前幀的最佳激勵(lì)方法是第二激勵(lì)方法，控制選擇裝置205選擇第二激勵(lì)塊207的信號(hào)。盡管圖2的編碼器只有第一激勵(lì)塊206和第二激勵(lì)塊207用于編碼處理，顯然編碼器200中也可以有多于兩種用于不同的激勵(lì)方法的不同的激勵(lì)塊，用于對(duì)輸入信號(hào)進(jìn)行編碼。
第一激勵(lì)塊206產(chǎn)生例如TCX激勵(lì)信號(hào)，并且第二激勵(lì)塊207產(chǎn)生例如ACELP激勵(lì)信號(hào)。
LPC分析塊208對(duì)數(shù)字化的輸入信號(hào)逐幀進(jìn)行LPC分析，以找到最匹配輸入信號(hào)的參數(shù)集合。
LPC參數(shù)210和激勵(lì)參數(shù)211，例如在量化和編碼塊212中進(jìn)行量化和編碼，然后傳送例如到通信網(wǎng)絡(luò)704(圖7)。但是，不一定需要傳送這些參數(shù)，它們可以例如存儲(chǔ)在存儲(chǔ)介質(zhì)中，并且在下一階段被檢索，以進(jìn)行傳輸或者解碼。
圖3描繪了濾波器300的一個(gè)例子，它可以用于編碼器200中用于信號(hào)分析。濾波器300是例如AMR-WB編解碼器的話音活動(dòng)檢測(cè)塊的濾波器組，其中不需要一個(gè)單獨(dú)的濾波器，但是也可以使用其他濾波器用于該目的。濾波器300包括兩個(gè)或多個(gè)濾波器塊301，以將輸入信號(hào)劃分成不同頻率上的兩個(gè)或多個(gè)子帶信號(hào)。換句話說(shuō)，濾波器300的每個(gè)輸出信號(hào)代表了輸入信號(hào)的特定頻帶。濾波器300的輸出信號(hào)可以用于激勵(lì)選擇塊203，用來(lái)確定輸入信號(hào)的頻率內(nèi)容。
激勵(lì)選擇塊203評(píng)估濾波器組300的每個(gè)輸出的能量水平，分析低頻和高頻子帶之間的關(guān)系，以及這些子帶中的能量水平變化，并且將信號(hào)劃分成類音樂(lè)和類語(yǔ)音。
本發(fā)明基于檢查輸入信號(hào)的頻率內(nèi)容，為輸入信號(hào)幀選擇激勵(lì)方法。以下采用AMR-WB擴(kuò)展(AMR-WB+)作為用來(lái)將輸入信號(hào)分類成類語(yǔ)音和類音樂(lè)，以及分別為這些信號(hào)選擇ACELP或者TCX激勵(lì)的實(shí)際例子。但是，本發(fā)明并不局限于AMR-WB編解碼器或者ACELP和TCX激勵(lì)方法。
在擴(kuò)展的AMR-WB(AMR-WB+)編解碼器中，有兩種激勵(lì)類型用于LP合成類ACELP脈沖激勵(lì)和變換編碼激勵(lì)(TCX)。ACELP激勵(lì)與原始3GPP AMR-WB標(biāo)準(zhǔn)(3GPP TS 26.190)中已經(jīng)采用的相同，TCX是在擴(kuò)展AMR-WB中實(shí)施的一種改進(jìn)。
AMR-WB擴(kuò)展例子基于AMR-WB VAD濾波器組，后者為每個(gè)20毫秒輸入幀在頻率范圍從0-6400赫茲上產(chǎn)生12個(gè)子帶中的信號(hào)能量E(n)，如圖3所示。濾波器組的帶寬通常并不相等，而是可以在不同頻帶上有所變化，這點(diǎn)可以在圖3中看出。此外，子帶的數(shù)目也可以有所變化，并且子帶可以部分重疊。隨后，如下對(duì)每個(gè)子帶的能量水平進(jìn)行歸一化將每個(gè)子帶能量水平E(n)除以該子帶的寬度(以赫茲為單位)，來(lái)產(chǎn)生每個(gè)頻帶的歸一化EN(n)能量水平，其中n是頻帶號(hào)，范圍從0-11。序號(hào)0是指圖3所示的最低子帶。
在激勵(lì)選擇塊203中，利用例如兩個(gè)窗口短窗口stdshort(n)和長(zhǎng)窗口stdlong(n)，對(duì)12個(gè)子帶的每一個(gè)計(jì)算能量水平的標(biāo)準(zhǔn)偏差。對(duì)AMR-WB+情況而言，短窗口的長(zhǎng)度是4幀，長(zhǎng)窗口的長(zhǎng)度是16幀。在這些計(jì)算中，利用過(guò)去的3或者15幀和當(dāng)前幀的12個(gè)能量水平得出這兩個(gè)標(biāo)準(zhǔn)偏差值。該計(jì)算的特殊特征是，只有在話音活動(dòng)檢測(cè)塊202表明213活躍語(yǔ)音時(shí)才執(zhí)行。這會(huì)使算法反應(yīng)更快，尤其是在長(zhǎng)語(yǔ)音停頓之后。
隨后，對(duì)每一個(gè)幀，為長(zhǎng)和短窗口二者，取所有12個(gè)濾波器組上的平均標(biāo)準(zhǔn)偏差，并且生成平均標(biāo)準(zhǔn)偏差值stdashort和stdalong。
對(duì)于音頻信號(hào)幀，還計(jì)算低頻帶和高頻帶之間的關(guān)系。在AMR-WB+中，取從1到7的低頻率子帶的能量，將其除以這些子頻帶的長(zhǎng)度(帶寬)(以赫茲為單位)，來(lái)進(jìn)行歸一化以生成LevL。對(duì)從8到11的高頻帶，取它們能量，并且分別歸一化以生成LevH。注意在該示例性實(shí)施例中，這些計(jì)算中沒(méi)有采用最低子頻帶0，因?yàn)樗ǔ０颂嗟哪芰?，?huì)使計(jì)算失真，并使其他子頻帶的貢獻(xiàn)太小。根據(jù)這些度量定義關(guān)系LPH＝LevL/LevH。此外，利用當(dāng)前和過(guò)去的3個(gè)LPH值，為每一個(gè)幀計(jì)算移動(dòng)平均LPHa。在這些計(jì)算之后，利用當(dāng)前和過(guò)去的7個(gè)移動(dòng)平均LPHa值的加權(quán)和，計(jì)算當(dāng)前幀的低頻和高頻關(guān)系LPHaF的度量，在權(quán)重設(shè)置中，最近的值權(quán)重稍高。
也可以這樣實(shí)現(xiàn)本發(fā)明，使得只分析一個(gè)或幾個(gè)可用子帶。
此外，當(dāng)前幀的濾波器塊301的平均水平AVL通過(guò)如下計(jì)算從每個(gè)濾波器塊輸出中減去背景噪聲的估計(jì)水平，并且將這些乘有對(duì)應(yīng)的濾波器塊301的最高頻率的水平進(jìn)行累加，以平衡包含的能量少于較低頻率子帶的較高頻率子帶。
此外，通過(guò)從所有濾波器塊301減去每個(gè)濾波器組301的背景噪聲估計(jì)來(lái)計(jì)算當(dāng)前幀的總能量TotE0。
在計(jì)算這些度量之后，通過(guò)例如利用以下方法進(jìn)行ACELP或TCX激勵(lì)的選擇。下面假定在設(shè)置一個(gè)標(biāo)記時(shí)，清除其他標(biāo)記以防止沖突。首先，將長(zhǎng)窗口的平均標(biāo)準(zhǔn)偏差值stdalong與第一閾值TH1，例如0.4相比較。如果標(biāo)準(zhǔn)偏差值stdalong小于第一閾值TH1，設(shè)置TCX模式標(biāo)記。否則，將低頻和高頻關(guān)系LPHaF的計(jì)算度量與第二閾值TH2，例如280相比較。
如果低頻和高頻關(guān)系LPHaF的計(jì)算度量大于第二閾值TH2，設(shè)置TCX模式標(biāo)記。否則，計(jì)算標(biāo)準(zhǔn)偏差值stdalong減去第一閾值TH1的倒數(shù)，并且在算出的倒數(shù)值上加上第一常量C1，例如5。將該和與低頻和高頻關(guān)系LPHaF的計(jì)算度量相比較C1+(1/(Stdalong-TH1))＞LPHaF(1)如果比較的結(jié)果成立，則設(shè)置TCX模式標(biāo)記。如果比較的結(jié)果不成立，將標(biāo)準(zhǔn)偏差值stdalong乘以第一被乘數(shù)M1(例如-90)，在相乘之后加上第二常量C2(例如120)。將該和與低頻和高頻關(guān)系LPHaF的計(jì)算度量相比較M1*stdalong+C2＜LPHaF (2)如果該和小于低頻和高頻關(guān)系LPHaF的計(jì)算度量，則設(shè)置ACELP模式標(biāo)記。否則設(shè)置一個(gè)未定模式標(biāo)記，表明還不能為當(dāng)前幀選擇激勵(lì)方法。
在上述步驟之后，執(zhí)行另外的檢查，然后才選擇用于當(dāng)前幀的激勵(lì)方法。首先，檢查是設(shè)置了ACELP模式標(biāo)記，還是未定模式標(biāo)記，以及如果當(dāng)前幀的濾波器組301的計(jì)算平均水平AVL大于第三閾值TH3(例如2000)，在那點(diǎn)上設(shè)置TCX模式標(biāo)記，清除ACELP模式標(biāo)記和未定模式標(biāo)記。
接著，如果設(shè)置了未定模式標(biāo)記，則對(duì)短窗口的平均標(biāo)準(zhǔn)偏差值stdashort執(zhí)行類似于以上針對(duì)長(zhǎng)窗口的平均標(biāo)準(zhǔn)偏差值stdalong所進(jìn)行的評(píng)估，但是，在比較中采用的常量和閾值略有不同。如果短窗口的平均標(biāo)準(zhǔn)偏差值stdashort小于第四閾值TH4(例如0.2)，設(shè)置TCX模式標(biāo)記。否則，計(jì)算短窗口的標(biāo)準(zhǔn)偏差值stdashort減去第四閾值TH4的倒數(shù)，并且在算出的倒數(shù)值上加上第三常量C3(例如2.5)。將該和與低頻和高頻關(guān)系LPHaF的計(jì)算度量作比較C3+(1/(stdashort-TH4))＞LPHaF (3)如果比較的結(jié)果成立，則設(shè)置TCX模式標(biāo)記。如果比較的結(jié)果不成立，將標(biāo)準(zhǔn)偏差值stdashort乘以第二被乘數(shù)M2(例如-90)，并且在相乘之后加上第四常量C4(例如140)。將該和與低頻和高頻關(guān)系LPHaF的計(jì)算度量作比較M2*stdashort+C4＜LPHaF (4)
如果該和小于低頻和高頻關(guān)系LPHaF的計(jì)算度量，設(shè)置ACELP模式標(biāo)記。否則設(shè)置一個(gè)未定模式標(biāo)記，表明還不能為當(dāng)前幀選擇激勵(lì)方法。
在下一階段，檢查當(dāng)前幀和前一幀的能量水平。如果當(dāng)前幀的總能量TotE0和前一幀的總能量TotE-1的比值大于第五閾值TH5(例如25)，設(shè)置ACELP模式標(biāo)記，清除TCX模式標(biāo)記和未定模式標(biāo)記。
最后，如果設(shè)置了TCX模式標(biāo)記或者未定模式標(biāo)記，并且如果當(dāng)前幀的濾波器組301的計(jì)算平均水平AVL大于第三閾值TH3，并且當(dāng)前幀的總能量TotE0小于第六閾值TH6(例如60)，設(shè)置ACELP模式標(biāo)記。
在執(zhí)行上述評(píng)估方法時(shí)，如果設(shè)置了TCX模式標(biāo)記則選擇第一激勵(lì)方法和第一激勵(lì)塊206，或者如果設(shè)置了ACELP模式標(biāo)記，則選擇第二激勵(lì)方法和第二激勵(lì)塊207。但是，如果設(shè)置了未定模式標(biāo)記，評(píng)估方法無(wú)法進(jìn)行選擇。在這種情況下，可以選擇ACELP或TCX，或者必須執(zhí)行進(jìn)一步的分析來(lái)進(jìn)行區(qū)分。
該方法還可以描述成以下偽碼如果(stdalong＜TH1)設(shè)置TCX模式否則如果(LPHaF＞TH2)設(shè)置TCX模式否則如果((C1+(1/(stdalong-TH1)))＞LPHaF)設(shè)置TCX模式否則如果((M1*stdalong+C2)＜LPHaF)設(shè)置ACELP模式否則設(shè)置未定模式如果(ACELP模式或未定模式)和(AVL＞TH3)設(shè)置TCX模式如果(未定模式)如果(stdashort＜TH4)設(shè)置TCX模式否則如果((C3+(1/(stdashort-TH4)))＞LPHaF)設(shè)置TCX模式否則如果((M2*stdashort+C4＜LPHaF)設(shè)置ACELP模塊否則設(shè)置未定模式如果(未定模式)如果((TotE0/TotE-1)＞TH5)設(shè)置ACELP模式如果(TCX模式‖未定模式)如果(AVL＞TH3和TotE0＜TH6)設(shè)置ACELP模式分類后面的基本思想在圖4、5和6中舉例說(shuō)明。圖4示出了VAD濾波器組中能量水平標(biāo)準(zhǔn)偏差隨音樂(lè)信號(hào)中低和高能量分量的關(guān)系而變化的圖示的一個(gè)例子。每個(gè)點(diǎn)對(duì)應(yīng)于從包含不同音樂(lè)變化的長(zhǎng)音樂(lè)信號(hào)中所取的20毫秒幀。線A擬合為近似對(duì)應(yīng)于音樂(lè)信號(hào)區(qū)域的上邊界，也就是在根據(jù)本發(fā)明的方法中，不認(rèn)為該線右側(cè)的點(diǎn)是類音樂(lè)信號(hào)。
相應(yīng)地，圖5則示出了VAD濾波器組中能量水平標(biāo)準(zhǔn)偏差隨語(yǔ)音信號(hào)中低能量分量和高能量分量的關(guān)系而變化的圖示的一個(gè)例子。每個(gè)點(diǎn)對(duì)應(yīng)于從包含不同語(yǔ)音變化和不同發(fā)言者的長(zhǎng)語(yǔ)音信號(hào)中所取的20毫秒幀。曲線B擬合為近似指示語(yǔ)音信號(hào)區(qū)域的下邊界，也就是在根據(jù)本發(fā)明的方法中，不認(rèn)為曲線B左側(cè)的點(diǎn)是類語(yǔ)音信號(hào)。
圖4中可以看出，大多數(shù)音樂(lè)信號(hào)具有較小的標(biāo)準(zhǔn)偏差，并且在分析的頻率上有著相對(duì)均勻的頻率分布。對(duì)圖5中描繪的語(yǔ)音信號(hào)，趨勢(shì)則正好相反，更高的標(biāo)準(zhǔn)偏差，更低的頻率分量。將這兩種信號(hào)都放入圖6中的相同圖示，并擬合曲線A和B來(lái)匹配音樂(lè)和語(yǔ)音信號(hào)區(qū)域的邊界，很容易將大多數(shù)音樂(lè)信號(hào)和大多數(shù)語(yǔ)音信號(hào)劃分成不同類別。這些圖中擬合的曲線A和B與上述偽碼中給出的相同。這些圖只呈現(xiàn)了通過(guò)長(zhǎng)窗口所計(jì)算的低對(duì)高頻率值以及單個(gè)標(biāo)準(zhǔn)偏差。該偽碼包含一種算法，其使用了兩種不同的開(kāi)窗術(shù)，從而利用了圖4、5和6中給出的映射算法的兩種不同版本。
圖6中由曲線A、B所限定的區(qū)域C表明了這樣一個(gè)重疊區(qū)域，其通常需要進(jìn)一步手段來(lái)區(qū)分類音樂(lè)和類語(yǔ)音信號(hào)。通過(guò)為信號(hào)變化使用不同長(zhǎng)度的分析窗口，并且組合這些不同的度量，就像在偽碼例子中所做的那樣，可以讓區(qū)域C變得更小?？梢栽试S一些重疊，因?yàn)橐恍┮魳?lè)信號(hào)可以利用針對(duì)語(yǔ)音最優(yōu)化的壓縮來(lái)進(jìn)行有效地編碼，而一些語(yǔ)音信號(hào)可以利用針對(duì)音樂(lè)最優(yōu)化的壓縮來(lái)進(jìn)行有效地編碼。
在上述例子中，通過(guò)利用分析綜合來(lái)選擇最優(yōu)化的ACELP激勵(lì)，并且通過(guò)預(yù)選擇來(lái)完成最佳ACELP激勵(lì)和TCX激勵(lì)之間的選擇。
盡管以上通過(guò)使用兩種不同的激勵(lì)方法給出了本發(fā)明，但也可以采用多于兩種的不同激勵(lì)方法，并且可以在這些方法中進(jìn)行選擇，以壓縮音頻信號(hào)。顯然，濾波器300可以將輸入信號(hào)劃分成與上述不同的頻帶，并且頻帶的數(shù)目也可以不同于12。
圖7描繪了在其中可以應(yīng)用本發(fā)明的系統(tǒng)的一個(gè)例子。該系統(tǒng)包括一個(gè)或多個(gè)產(chǎn)生語(yǔ)音和/或非語(yǔ)音音頻信號(hào)的音頻源701。在需要時(shí)，這些音頻信號(hào)被A/D轉(zhuǎn)換器702轉(zhuǎn)換成數(shù)字信號(hào)。這些數(shù)字化的信號(hào)被輸入到發(fā)送設(shè)備700的編碼器200，在其中根據(jù)本發(fā)明進(jìn)行壓縮。在需要時(shí)，壓縮信號(hào)在編碼器200中進(jìn)行量化和編碼，以進(jìn)行傳輸。發(fā)送器703，例如是移動(dòng)通信設(shè)備700的發(fā)送器，向通信網(wǎng)絡(luò)704發(fā)送壓縮并編碼的信號(hào)。接收設(shè)備706的接收機(jī)705從通信網(wǎng)絡(luò)704接收這些信號(hào)。接收的信號(hào)從接收機(jī)705傳送到解碼器707，用于進(jìn)行解碼、去量化和解壓縮。解碼器707包括檢測(cè)裝置708，用于確定編碼器200中為當(dāng)前幀采用的壓縮算法。解碼器707根據(jù)確定結(jié)果，選擇第一解壓縮裝置709或者第二解壓縮裝置710來(lái)解壓縮當(dāng)前幀。解壓縮的信號(hào)從解壓縮裝置709、710傳送到濾波器711和D/A轉(zhuǎn)換器712，用于將數(shù)字信號(hào)轉(zhuǎn)換成模擬信號(hào)。該模擬信號(hào)隨后可以在例如揚(yáng)聲器713中轉(zhuǎn)換成音頻。
本發(fā)明可以在不同類型的系統(tǒng)中實(shí)現(xiàn)，尤其在低速率傳輸中實(shí)現(xiàn)，用以取得較現(xiàn)有技術(shù)系統(tǒng)更為高效的壓縮。根據(jù)本發(fā)明的編碼器200可以在通信系統(tǒng)的不同部分中實(shí)現(xiàn)。例如，編碼器200可以在具有有限處理能力的移動(dòng)通信設(shè)備中實(shí)現(xiàn)。
顯然，本發(fā)明并非僅限于上述實(shí)施例，而是可以在后附權(quán)利要求書范圍內(nèi)加以修改。
權(quán)利要求
1.一種編碼器(200)，該編碼器包括一個(gè)輸入(201)，用來(lái)輸入在一個(gè)頻帶中的音頻信號(hào)的幀，包括至少第一激勵(lì)塊(206)，用來(lái)對(duì)類語(yǔ)音音頻信號(hào)執(zhí)行第一激勵(lì)，以及第二激勵(lì)塊(207)，用來(lái)對(duì)非類語(yǔ)音音頻信號(hào)執(zhí)行第二激勵(lì)，其特征在于，該編碼器(200)還包括濾波器(300)，用來(lái)將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，該編碼器(200)還包括激勵(lì)選擇塊(203)，用于根據(jù)至少在一個(gè)所述子帶中的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)塊(206)和所述第二激勵(lì)塊(207)之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
2.根據(jù)權(quán)利要求1的編碼器(200)，其特征在于，所述濾波器(300)包括濾波器塊(301)，用于產(chǎn)生指示至少在一個(gè)子帶處的該音頻信號(hào)的當(dāng)前幀的信號(hào)能量(E(n))的信息，以及所述激勵(lì)選擇塊(203)包括能量確定裝置，用于確定至少一個(gè)子帶的信號(hào)能量信息。
3.根據(jù)權(quán)利要求2的編碼器(200)，其特征在于，定義了至少第一和第二子帶組，所述第二組包含的子帶的頻率高于所述第一組，為該音頻信號(hào)的幀定義所述第一子帶組的歸一化信號(hào)能量(LevL)和所述第二子帶組的歸一化信號(hào)能量(LevH)之間的關(guān)系(LPH)，并且所述關(guān)系(LPH)安排為用于選擇激勵(lì)塊(206、207)。
4.根據(jù)權(quán)利要求3的編碼器(200)，其特征在于，可用子帶中的一個(gè)或多個(gè)子帶在所述第一和所述第二子帶組之外。
5.根據(jù)權(quán)利要求4的編碼器(200)，其特征在于，最低頻率子帶在所述第一和所述第二子帶組之外。
6.根據(jù)權(quán)利要求3、4或5的編碼器(200)，其特征在于，定義了第一數(shù)目幀和第二數(shù)目幀，所述第二數(shù)目大于所述第一數(shù)目，所述激勵(lì)選擇塊(203)包括計(jì)算裝置，用于使用包括在每個(gè)子帶處的當(dāng)前幀的第一數(shù)目幀的信號(hào)能量，計(jì)算第一平均標(biāo)準(zhǔn)偏差值(stdashort)，以及用于使用包括在每個(gè)子帶處的當(dāng)前幀的第二數(shù)目幀的信號(hào)能量，計(jì)算第二平均標(biāo)準(zhǔn)偏差值(stdalong)。
7.根據(jù)權(quán)利要求1到6中任意一項(xiàng)的編碼器(200)，其特征在于，所述濾波器(300)是話音活動(dòng)檢測(cè)器(202)的濾波器組。
8.根據(jù)權(quán)利要求1到7中任意一項(xiàng)的編碼器(200)，其特征在于，所述編碼器(200)是自適應(yīng)多速率寬帶編解碼器(AMR-WB)。
9.根據(jù)權(quán)利要求1到8中任意一項(xiàng)的編碼器(200)，其特征在于，所述第一激勵(lì)是代數(shù)碼激勵(lì)線性預(yù)測(cè)激勵(lì)(ACELP)，以及所述第二激勵(lì)是變換編碼激勵(lì)(TCX)。
10.一種設(shè)備(700)，包括一個(gè)編碼器(200)，該編碼器包括一個(gè)輸入(201)，用來(lái)輸入在一個(gè)頻帶中的音頻信號(hào)的幀，包括至少第一激勵(lì)塊(206)，用來(lái)對(duì)類語(yǔ)音音頻信號(hào)執(zhí)行第一激勵(lì)，以及第二激勵(lì)塊(207)，用來(lái)對(duì)非類語(yǔ)音音頻信號(hào)執(zhí)行第二激勵(lì)，其特征在于，該編碼器(200)包括濾波器(300)，用來(lái)將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，該設(shè)備(700)還包括激勵(lì)選擇塊(203)，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)在所述至少第一激勵(lì)塊(206)和所述第二激勵(lì)塊(207)之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
11.根據(jù)權(quán)利要求10的設(shè)備(700)，其特征在于，所述濾波器(300)包括濾波器塊(301)，用于產(chǎn)生指示了至少在一個(gè)子帶處的該音頻信號(hào)的當(dāng)前幀的信號(hào)能量(E(n))的信息，以及所述激勵(lì)選擇塊(203)包括能量確定裝置，用于確定至少一個(gè)子帶的信號(hào)能量信息。
12.根據(jù)權(quán)利要求11的設(shè)備(700)，其特征在于，定義了至少第一和第二子帶組，所述第二組包含的子帶的頻率高于所述第一組，為該音頻信號(hào)的幀定義所述第一子帶組的歸一化信號(hào)能量(LevL)和所述第二子帶組的歸一化信號(hào)能量(LevH)之間的關(guān)系(LPH)，并且所述關(guān)系(LPH)安排為用于選擇激勵(lì)塊(206、207)。
13.根據(jù)權(quán)利要求12的設(shè)備(700)，其特征在于，可用子帶中的一個(gè)或多個(gè)子帶在所述第一和所述第二子帶組之外。
14.根據(jù)權(quán)利要求13的設(shè)備(700)，其特征在于，最低頻率子帶在所述第一和所述第二子帶組之外。
15.根據(jù)權(quán)利要求12、13或14的設(shè)備(700)，其特征在于，定義了第一數(shù)目幀和第二數(shù)目幀，所述第二數(shù)目大于所述第一數(shù)目，所述激勵(lì)選擇塊(203)包括計(jì)算裝置，用于使用包括在每個(gè)子帶處的當(dāng)前幀的第一數(shù)目幀的信號(hào)能量，計(jì)算第一平均標(biāo)準(zhǔn)偏差值(stdashort)，以及用于使用包括在每個(gè)子帶處的當(dāng)前幀的第二數(shù)目幀的信號(hào)能量，計(jì)算第二平均標(biāo)準(zhǔn)偏差值(stdalong)。
16.根據(jù)權(quán)利要求10到15中任意一項(xiàng)的設(shè)備(700)，其特征在于，所述濾波器(300)是話音活動(dòng)檢測(cè)器(202)的濾波器組。
17.根據(jù)權(quán)利要求10到16中任意一項(xiàng)的設(shè)備(700)，其特征在于，所述編碼器(200)是自適應(yīng)多速率寬帶編解碼器(AMR-WB)。
18.根據(jù)權(quán)利要求10到17中任意一項(xiàng)的設(shè)備(700)，其特征在于，所述第一激勵(lì)是代數(shù)碼激勵(lì)線性預(yù)測(cè)激勵(lì)(ACELP)，以及所述第二激勵(lì)是變換編碼激勵(lì)(TCX)。
19.根據(jù)權(quán)利要求10到18中任意一項(xiàng)的設(shè)備(700)，其特征在于，它是一個(gè)移動(dòng)通信設(shè)備。
20.根據(jù)權(quán)利要求10到19中任意一項(xiàng)的設(shè)備(700)，其特征在于，它包括一個(gè)發(fā)送器，用于通過(guò)低比特率信道發(fā)送包括由選定的激勵(lì)塊(206、207)所產(chǎn)生的參數(shù)的幀。
21.一種系統(tǒng)，包括一個(gè)編碼器(200)，該編碼器包括一個(gè)輸入(201)，用來(lái)輸入在一個(gè)頻帶中的音頻信號(hào)的幀，包括至少第一激勵(lì)塊(206)，用來(lái)對(duì)類語(yǔ)音音頻信號(hào)執(zhí)行第一激勵(lì)，以及第二激勵(lì)塊(207)，用來(lái)對(duì)非類語(yǔ)音音頻信號(hào)執(zhí)行第二激勵(lì)，其特征在于，該編碼器(200)還包括濾波器(300)，用來(lái)將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，該系統(tǒng)還包括激勵(lì)選擇塊(203)，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)塊(206)和所述第二激勵(lì)塊(207)之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
22.根據(jù)權(quán)利要求21的系統(tǒng)，其特征在于，所述濾波器(300)包括濾波器塊(301)，用于產(chǎn)生指示了至少在一個(gè)子帶處的該音頻信號(hào)的當(dāng)前幀的信號(hào)能量(E(n))的信息，以及所述激勵(lì)選擇塊(203)包括能量確定裝置，用于確定至少一個(gè)子帶的信號(hào)能量信息。
23.根據(jù)權(quán)利要求22的系統(tǒng)，其特征在于，定義了至少第一和第二子帶組，所述第二組包含的子帶的頻率高于所述第一組，為該音頻信號(hào)的幀定義所述第一子帶組的歸一化信號(hào)能量(LevL)和所述第二子帶組的歸一化信號(hào)能量(LevH)之間的關(guān)系(LPH)，并且所述關(guān)系(LPH)安排為用于選擇激勵(lì)塊(206、207)。
24.根據(jù)權(quán)利要求23的系統(tǒng)，其特征在于，可用子帶中的一個(gè)或多個(gè)子帶在所述第一和所述第二子帶組之外。
25.根據(jù)權(quán)利要求24的系統(tǒng)，其特征在于，最低頻率子帶在所述第一和所述第二子帶組之外。
26.根據(jù)權(quán)利要求23、24或25的系統(tǒng)，其特征在于，定義了第一數(shù)目幀和第二數(shù)目幀，所述第二數(shù)目大于所述第一數(shù)目，所述激勵(lì)選擇塊(203)包括計(jì)算裝置，用于使用包括在每個(gè)子帶處的當(dāng)前幀的第一數(shù)目幀的信號(hào)能量，計(jì)算第一平均標(biāo)準(zhǔn)偏差值(stdashort)，以及用于使用包括在每個(gè)子帶處的當(dāng)前幀的第二數(shù)目幀的信號(hào)能量，計(jì)算第二平均標(biāo)準(zhǔn)偏差值(stdalong)。
27.根據(jù)權(quán)利要求21到26中任意一項(xiàng)的系統(tǒng)，其特征在于，所述濾波器(300、)是話音活動(dòng)檢測(cè)器(202)的濾波器組。
28.根據(jù)權(quán)利要求21到27中任意一項(xiàng)的系統(tǒng)，其特征在于，所述編碼器(200)是自適應(yīng)多速率寬帶編解碼器(AMR-WB)。
29.根據(jù)權(quán)利要求21到28中任意一項(xiàng)的系統(tǒng)，其特征在于，所述第一激勵(lì)是代數(shù)碼激勵(lì)線性預(yù)測(cè)激勵(lì)(ACELP)，以及所述第二激勵(lì)是變換編碼激勵(lì)(TCX)。
30.根據(jù)權(quán)利要求21到29中任意一項(xiàng)的系統(tǒng)，其特征在于，它是一個(gè)移動(dòng)通信設(shè)備。
31.根據(jù)權(quán)利要求21到30中任意一項(xiàng)的系統(tǒng)，其特征在于，它包括一個(gè)發(fā)送器，用于通過(guò)低比特率信道發(fā)送包括由選定的激勵(lì)塊(206、207)所產(chǎn)生的參數(shù)的幀。
32.一種壓縮在一個(gè)頻帶中的音頻信號(hào)的方法，其中第一激勵(lì)用于類語(yǔ)音音頻信號(hào)，以及第二激勵(lì)用于非類語(yǔ)音音頻信號(hào)，其特征在于，將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)在所述至少第一激勵(lì)和所述第二激勵(lì)之中選擇一個(gè)激勵(lì)，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
33.根據(jù)權(quán)利要求32的方法，其特征在于，所述濾波器(300)包括濾波器塊(301)，用于產(chǎn)生指示了至少在一個(gè)子帶處的該音頻信號(hào)的當(dāng)前幀的信號(hào)能量(E(n))的信息，以及所述激勵(lì)選擇塊(203)包括能量確定裝置，用于確定至少一個(gè)子帶的信號(hào)能量信息。
34.根據(jù)權(quán)利要求33的方法，其特征在于，定義至少第一和第二子帶組，所述第二組包含的子帶的頻率高于所述第一組，為該音頻信號(hào)的幀定義所述第一子帶組的歸一化信號(hào)能量(LevL)和所述第二子帶組的歸一化信號(hào)能量(LevH)之間的關(guān)系(LPH)，并且所述關(guān)系(LPH)安排為用于選擇激勵(lì)塊(206、207)。
35.根據(jù)權(quán)利要求34的方法，其特征在于，可用子帶中的一個(gè)或多個(gè)子帶在所述第一和所述第二子帶組之外。
36.根據(jù)權(quán)利要求35的方法，其特征在于，最低頻率子帶在所述第一和所述第二子帶組之外。
37.根據(jù)權(quán)利要求34、35或36的方法，其特征在于，定義第一數(shù)目幀和第二數(shù)目幀，所述第二數(shù)目大于所述第一數(shù)目，所述激勵(lì)選擇塊(203)包括計(jì)算裝置，用于使用包括在每個(gè)子帶處的當(dāng)前幀的第一數(shù)目幀的信號(hào)能量，計(jì)算第一平均標(biāo)準(zhǔn)偏差值(stdashort)，以及用于使用包括在每個(gè)子帶處的當(dāng)前幀的第二數(shù)目幀的信號(hào)能量，計(jì)算第二平均標(biāo)準(zhǔn)偏差值(stdalong)。
38.根據(jù)權(quán)利要求32到37中任意一項(xiàng)的方法，其特征在于，所述濾波器(300)是話音活動(dòng)檢測(cè)器(202)的濾波器組。
39.根據(jù)權(quán)利要求32到38中任意一項(xiàng)的系統(tǒng)，其特征在于，所述編碼器(200)是自適應(yīng)多速率寬帶編解碼器(AMR-WB)。
40.根據(jù)權(quán)利要求32到39中任意一項(xiàng)的方法，其特征在于，所述第一激勵(lì)是代數(shù)碼激勵(lì)線性預(yù)測(cè)激勵(lì)(ACELP)，以及所述第二激勵(lì)是變換編碼激勵(lì)(TCX)。
41.根據(jù)權(quán)利要求32到40中任意一項(xiàng)的方法，其特征在于包括由選定的激勵(lì)所產(chǎn)生的參數(shù)的所述幀通過(guò)低比特率信道發(fā)送。
42.一種對(duì)在一個(gè)頻帶中的音頻信號(hào)的幀進(jìn)行分類的模塊，用于在用于類語(yǔ)音音頻信號(hào)的第一激勵(lì)和用于非類語(yǔ)音音頻信號(hào)的第二激勵(lì)之間選擇激勵(lì)，其特征在于，該模塊還包括一個(gè)輸入，用來(lái)輸入指示了該頻帶被劃分成多個(gè)子帶的信息，其中每個(gè)子帶的帶寬比所述頻帶更窄，該模塊還包括一個(gè)激勵(lì)選擇塊(203)，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)塊(206)和所述第二激勵(lì)塊(207)之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
43.根據(jù)權(quán)利要求42的模塊，其特征在于，定義了至少第一和第二子帶組，所述第二組包含的子帶的頻率高于所述第一組，為該音頻信號(hào)的幀定義所述第一子帶組的歸一化信號(hào)能量(LevL)和所述第二子帶組的歸一化信號(hào)能量(LevH)之間的關(guān)系(LPH)，并且所述關(guān)系(LPH)安排為用于選擇激勵(lì)塊(206、207)。
44.根據(jù)權(quán)利要求43的模塊，其特征在于，可用子帶中的一個(gè)或多個(gè)子帶在所述第一和所述第二子帶組之外。
45.根據(jù)權(quán)利要求44的模塊，其特征在于，最低頻率子帶在所述第一和所述第二子帶組之外。
46.根據(jù)權(quán)利要求43、44或45的模塊，其特征在于，定義了第一數(shù)目幀和第二數(shù)目幀，所述第二數(shù)目大于所述第一數(shù)目，所述激勵(lì)選擇塊(203)包括計(jì)算裝置，用于使用包括在每個(gè)子帶處的當(dāng)前幀的第一數(shù)目幀的信號(hào)能量，計(jì)算第一平均標(biāo)準(zhǔn)偏差值(stdashort)，以及用于使用包括在每個(gè)子帶處的當(dāng)前幀的第二數(shù)目幀的信號(hào)能量，計(jì)算第二平均標(biāo)準(zhǔn)偏差值(stdalong)。
47.一種計(jì)算機(jī)程序產(chǎn)品，包括用于壓縮在一個(gè)頻帶中的音頻信號(hào)的機(jī)器可執(zhí)行步驟，其中第一激勵(lì)用于類語(yǔ)音音頻信號(hào)，第二激勵(lì)用于非類語(yǔ)音音頻信號(hào)，其特征在于，該計(jì)算機(jī)程序產(chǎn)品還包括這樣的機(jī)器可執(zhí)行步驟將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄，以及這樣的機(jī)器可執(zhí)行步驟根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)，在所述至少第一激勵(lì)和所述第二激勵(lì)之中選擇一個(gè)激勵(lì)，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。
48.根據(jù)權(quán)利要求47的計(jì)算機(jī)程序產(chǎn)品，其特征在于，它還包括機(jī)器可執(zhí)行步驟，用于產(chǎn)生指示了至少在一個(gè)子帶處的該音頻信號(hào)的當(dāng)前幀的信號(hào)能量(E(n))的信息的，以及機(jī)器可執(zhí)行步驟，用于確定至少一個(gè)子帶的信號(hào)能量信息。
49.根據(jù)權(quán)利要求48的計(jì)算機(jī)程序產(chǎn)品，其特征在于，定義第一數(shù)目幀和第二數(shù)目幀，所述第二數(shù)目大于所述第一數(shù)目，所述計(jì)算機(jī)程序產(chǎn)品還包括用于計(jì)算裝置的機(jī)器可執(zhí)行步驟，該計(jì)算裝置用于使用包括在每個(gè)子帶處的當(dāng)前幀的第一數(shù)目幀的信號(hào)能量，計(jì)算第一平均標(biāo)準(zhǔn)偏差值(stdashort)，以及用于使用包括在每個(gè)子帶處的當(dāng)前幀的第二數(shù)目幀的信號(hào)能量，計(jì)算第二平均標(biāo)準(zhǔn)偏差值(stdalong)。
50.根據(jù)權(quán)利要求47到49中任意一項(xiàng)的計(jì)算機(jī)程序產(chǎn)品，其特征在于，它還包括機(jī)器可執(zhí)行步驟，用于執(zhí)行代數(shù)碼激勵(lì)線性預(yù)測(cè)激勵(lì)(ACELP)作為所述第一激勵(lì)的機(jī)器可執(zhí)行步驟，以及用于執(zhí)行變換編碼激勵(lì)(TCX)作為所述第二激勵(lì)。
全文摘要
本發(fā)明涉及一種編碼器(200)，該編碼器包括一個(gè)輸入(201)，用來(lái)輸入在一個(gè)頻帶中的音頻信號(hào)的幀，包括至少第一激勵(lì)塊(206)，用來(lái)對(duì)類語(yǔ)音音頻信號(hào)執(zhí)行第一激勵(lì)，以及第二激勵(lì)塊(207)，用來(lái)對(duì)非類語(yǔ)音音頻信號(hào)執(zhí)行第二激勵(lì)。該編碼器(200)還包括濾波器(300)，用來(lái)將該頻帶劃分成多個(gè)子帶，每個(gè)子帶的帶寬比所述頻帶更窄。該編碼器(200)還包括激勵(lì)選擇塊(203)，用于根據(jù)至少在一個(gè)所述子帶處的所述音頻信號(hào)的性質(zhì)在所述至少第一激勵(lì)塊(206)和所述第二激勵(lì)塊(207)之中選擇一個(gè)激勵(lì)塊，用來(lái)為該音頻信號(hào)的幀執(zhí)行激勵(lì)。本發(fā)明還涉及一種設(shè)備、一種系統(tǒng)、一種方法和一種計(jì)算機(jī)程序的存儲(chǔ)介質(zhì)。
文檔編號(hào)G10L19/20GK1922658SQ200580005608
公開(kāi)日2007年2月28日申請(qǐng)日期2005年2月16日優(yōu)先權(quán)日2004年2月23日
發(fā)明者雅納·韋尼奧, 阿尼·米克科拉, 帕西·奧雅拉, 雅里·馬基南申請(qǐng)人:諾基亞公司

完整全部詳細(xì)技術(shù)資料下載