一種低比特變速率語(yǔ)言編碼器的制作方法

文檔序號(hào)：2831326閱讀：246來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：一種低比特變速率語(yǔ)言編碼器的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語(yǔ)音編碼器，特別涉及一種適合于要求低比特變速率語(yǔ)音編碼的通信系統(tǒng)中的語(yǔ)音編碼器。
背景技術(shù)：
可變速率(Variable Bit Rate，VBR)編碼技術(shù)是近年來(lái)發(fā)展起來(lái)的，其核心思想是對(duì)語(yǔ)音的躍變、平穩(wěn)、無(wú)聲段采用不同的速率進(jìn)行編碼，以便VBR編碼平均速率將比同等語(yǔ)音質(zhì)量的FBR編碼低得多。
真正能更好地發(fā)揮VBR技術(shù)優(yōu)勢(shì)的應(yīng)用領(lǐng)域是對(duì)語(yǔ)音編碼速率無(wú)嚴(yán)格速率限制、而又要求有速率“彈性”的場(chǎng)合，如CDMA、VoIP、ATM等。目前，無(wú)線通信系統(tǒng)和IP技術(shù)正在迅猛發(fā)展，即將在全球通信系統(tǒng)中占據(jù)越來(lái)越重要的地位。為此，國(guó)際電聯(lián)ITU-T SG16正在制定新的可變速率編碼標(biāo)準(zhǔn)，以適應(yīng)將來(lái)的分組語(yǔ)音通信網(wǎng)(如VoIP)、IMT-2000語(yǔ)音編碼及高質(zhì)量低比特率語(yǔ)音壓縮應(yīng)用。在這些應(yīng)用中，用戶(hù)可以在語(yǔ)音質(zhì)量和編碼速率(信道容量)之間折衷考慮，實(shí)現(xiàn)具有“軟”控制的能力。
變比特率的一個(gè)眾所周知的例子是QCELP，其是由CTIA制定的稱(chēng)為IS-95的一個(gè)變比特率語(yǔ)音編碼器。到目前為止，基于CELP的變比特率語(yǔ)音編碼方法的研究相對(duì)較多。
在語(yǔ)音激活檢測(cè)中，采用眾所周知的VAD方法的例子包括在IS-95標(biāo)準(zhǔn)中的QCELP語(yǔ)音編碼器、IS-127標(biāo)準(zhǔn)中的EVRC、GSM標(biāo)準(zhǔn)中采用DTX模式和由ITU-T提出的G.729附件B(G.729B)的VAD方法。
在過(guò)去的幾年里，已經(jīng)呈現(xiàn)出對(duì)支持向量機(jī)(Support Vector Machines，SVM)濃厚的興趣。經(jīng)驗(yàn)表明，SVM在如手寫(xiě)體識(shí)別、面孔識(shí)別、文本分類(lèi)等大量應(yīng)用中普遍具有較好的性能。但是，該方法在語(yǔ)音激活檢測(cè)中的應(yīng)用很少報(bào)導(dǎo)。
低比特率語(yǔ)音編碼在過(guò)去20年已成為一個(gè)主要研究主題，結(jié)果導(dǎo)致已經(jīng)將比特率從16kb/s到2.4kb/s范圍的很多語(yǔ)音編碼算法標(biāo)準(zhǔn)化。目前語(yǔ)音編碼器研究重點(diǎn)在4kb/s及更低的高質(zhì)量語(yǔ)音編碼，并且最近的研究顯示在頻域進(jìn)行語(yǔ)音編碼比已存在的基于CELP編碼器具有更好質(zhì)量的潛力。譜編碼器的特點(diǎn)是試圖重構(gòu)語(yǔ)音振幅譜而不是精確地恢復(fù)語(yǔ)音波形。盡管以上基于CELP及參數(shù)編碼的編碼器廣泛應(yīng)用于低比特率語(yǔ)音編碼，它們大多受假設(shè)的模型精度的限制，還有它們主要依賴(lài)于正確的參數(shù)估計(jì)，往往這些要求很難得到保證。所以，這些編碼方法的魯棒性在特殊環(huán)境下是很差的，導(dǎo)致編碼后的語(yǔ)音質(zhì)量有一定的局限性。
由Coifman和Meyer(1991)及Auscher等(1992)先后構(gòu)造的局部余弦基是由平滑、緊支撐鐘函數(shù)與余弦函數(shù)乘積構(gòu)成的。這些局部化的余弦函數(shù)仍保留著正交性，并且具有較小的Heisenberg乘積。近些年來(lái)，局部余弦變換理論得到廣泛深入的研究，該方法在語(yǔ)音信號(hào)處理方面的研究相對(duì)較少，特別是應(yīng)用在語(yǔ)音編碼中更少。但在Malvar H.S.于1990年發(fā)表的文章中證明了在語(yǔ)音編碼中LCT方法的編碼增益優(yōu)于DCT編碼，并且十分接近KL變換編碼。特別是與DCT編碼方法相比，明顯減少了幀之間的“喀嚓”聲。
鑒于低比特變速率語(yǔ)音編碼方法在目前實(shí)際應(yīng)用中的強(qiáng)烈需求，以及以前其它一些建立在模型基礎(chǔ)上的編碼方法由于受到假設(shè)的模型精度和估計(jì)的參數(shù)精度的限制往往影響編碼效果及編碼器的應(yīng)用范圍。

發(fā)明內(nèi)容
本發(fā)明的目的是利用局部余弦變換具有較高的編碼增益的特點(diǎn)，提供一個(gè)實(shí)用的、性能優(yōu)良的低比特變速率語(yǔ)音編碼器。
為達(dá)到上述目的，本發(fā)明采用的技術(shù)方案是一種低比特變速率語(yǔ)音編碼器，它基于局部余弦變換，所述的語(yǔ)音編碼器將輸入的原始語(yǔ)音信號(hào)經(jīng)過(guò)高通濾波器預(yù)處理后，輸入到語(yǔ)音激活檢測(cè)器檢測(cè)判別激活語(yǔ)音與非激活語(yǔ)，再分別經(jīng)LCT變換器處理，完成語(yǔ)音編碼，其中所述的語(yǔ)音激活檢測(cè)器采用SVM-VAD語(yǔ)音激活檢測(cè)模塊，其工作流程如下①對(duì)輸入的語(yǔ)音數(shù)據(jù)進(jìn)行參數(shù)提取，得到當(dāng)前幀的線譜頻率(Line SpectralFrequencies)、全帶能量、低帶能量、過(guò)零率四個(gè)分類(lèi)特征參數(shù)；②初始化處理根據(jù)背景噪聲的改變隨時(shí)計(jì)算更新在只有背景噪聲時(shí)上述四個(gè)特征參數(shù)；③差分處理將上述當(dāng)前幀的四個(gè)特征參數(shù)分別減去初始化時(shí)表示當(dāng)前狀態(tài)只有背景噪聲的情況下相應(yīng)的這四個(gè)特征參數(shù)，生成語(yǔ)音激活檢測(cè)分類(lèi)需要的相應(yīng)的四個(gè)差分特征參數(shù)；④采用SVM算法進(jìn)行語(yǔ)音激活性檢測(cè)，訓(xùn)練支持向量機(jī)采用的是序列最小最優(yōu)化(Sequential Minimal Optimization，SMO)方法，最終將語(yǔ)音劃分成激活和非激活兩種語(yǔ)音類(lèi)型；⑤采用四步平滑和校正算法進(jìn)行VAD判別平滑處理；⑥在每一幀進(jìn)行VAD處理后，輸出非激活或激活語(yǔ)音幀信號(hào)，如果估計(jì)該幀的背景噪聲能量大于背景噪聲能量門(mén)限的，則需要重新在進(jìn)行修正平均背景噪聲參數(shù)處理；所述的LCT變換器處理，其方法是①對(duì)經(jīng)SVM-VAD語(yǔ)音激活檢測(cè)模塊檢測(cè)為非激活語(yǔ)音幀，按無(wú)聲/背景噪聲語(yǔ)音模式的分維矢量維數(shù)進(jìn)行分維處理，然后將該分維矢量分別按照無(wú)聲/背景噪聲語(yǔ)音模式的相應(yīng)分維矢量的碼書(shū)進(jìn)行分維矢量量化，得到與該語(yǔ)音模式相對(duì)應(yīng)的兩個(gè)比特位長(zhǎng)度都是7位的分維矢量量化結(jié)果，同時(shí)對(duì)該模式語(yǔ)音幀的增益進(jìn)行標(biāo)量量化，將按照表示語(yǔ)音模式的2個(gè)比特位、表示增益的8個(gè)比特位、表示第一分維矢量和第二分維矢量的都為7比特位的順序，組成3個(gè)字節(jié)輸出，表示該幀語(yǔ)音編碼結(jié)束；②對(duì)經(jīng)SVM-VAD模塊檢測(cè)為激活語(yǔ)音幀，按清音(模式0)、清濁音(模式1)、中強(qiáng)濁音(模式2)的方法分成三種語(yǔ)音模式，按照相應(yīng)的三種語(yǔ)音模式的分維矢量維數(shù)進(jìn)行分維處理，然后將相應(yīng)的四個(gè)分維矢量分別按照對(duì)應(yīng)的語(yǔ)音模式的相應(yīng)分維矢量的碼書(shū)進(jìn)行分維矢量量化，得到與該語(yǔ)音模式相對(duì)應(yīng)的四個(gè)不同長(zhǎng)度比特位分別表示對(duì)應(yīng)的分維矢量的量化結(jié)果；同時(shí)對(duì)該語(yǔ)音幀的增益進(jìn)行標(biāo)量量化，將按照表示語(yǔ)音模式的兩個(gè)比特位、表示增益的8個(gè)比特位及按照從表示該語(yǔ)音模式的第一分維矢量的比特位至第四分維矢量的比特位的順序?qū)⑦@些比特位組成整數(shù)個(gè)字節(jié)輸出，表示該幀語(yǔ)音編碼結(jié)束。
所述的無(wú)聲/背景噪聲語(yǔ)音模式的第一分維矢量維數(shù)、第二分維矢量維數(shù)均為40；所述的清音、清濁音和中強(qiáng)濁音語(yǔ)音模式的第一分維矢量維數(shù)、第二分維矢量維數(shù)和第三分維矢量維數(shù)均為40，而第四分維矢量維數(shù)均為20。
所述的無(wú)聲/背景噪聲語(yǔ)音模式第一、第二分維矢量比特分配均為7比特，第三、第四分維矢量比特分配均為0比特，增益模式為8、2比特；所述的清音語(yǔ)音模式第一、第二分維矢量比特分配均為7比特，第三、第四分維矢量比特分配均為8比特，增益模式為8、2比特；所述的清濁音語(yǔ)音模式第一、第二分維矢量比特分配均為11比特，第三、第四分維矢量比特分配均為8比特，增益模式為8、2比特；所述的中強(qiáng)濁音語(yǔ)音模式第一、第二分維矢量比特分配均為8比特，第三、第四分維矢量比特分配均為8和6比特，增益模式為8、2比特。
本發(fā)明由于充分利用了SVM方法的特點(diǎn)，將SVM應(yīng)用于VAD檢測(cè)中，提高了語(yǔ)音編碼器對(duì)語(yǔ)音檢測(cè)的正確識(shí)別率；采用GSM的語(yǔ)音模式分類(lèi)方法，并將原來(lái)的四種語(yǔ)音模式合并為三種語(yǔ)音模式，使最終只采用兩個(gè)比特表示整個(gè)語(yǔ)音模式。

圖1是本發(fā)明實(shí)施例提供的SVM-VAD語(yǔ)音激活模塊工作運(yùn)行流程2是本發(fā)明實(shí)施例提供的VBR-LCT語(yǔ)音編碼器的框架結(jié)構(gòu)示意圖具體實(shí)施方式
下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述實(shí)施例1、激活語(yǔ)音模式劃分在GSM系統(tǒng)中語(yǔ)音模式選擇的準(zhǔn)則如下Mode＝0，Pv＜1.7(清音)。
Mode＝1，Pv≥1.7，Pm＜3.5對(duì)于所有的m，(輕濁音)。
Mode＝2，3.5≤Pm＜7.0，對(duì)于所有的m，(中濁音)。
Mode＝3，Pm＞7.0，對(duì)于所有的m，(強(qiáng)濁音)。
其中m＝1，2，3，4表示某一幀中的子幀，其中Pm表示第m子幀開(kāi)環(huán)LTP預(yù)測(cè)增益(dB)，Pv表示整個(gè)幀開(kāi)環(huán)LPT預(yù)測(cè)增益(dB)。
強(qiáng)濁音和中濁音具有較強(qiáng)的周期性和較高的語(yǔ)音能量，根據(jù)語(yǔ)音生成模型，這兩種語(yǔ)音模式的共振峰很強(qiáng)，很好地表示它們有利于產(chǎn)生較清晰的濁音。對(duì)于頻率域編碼，強(qiáng)濁音和中濁音之間的譜成分差別不大，所以，在本發(fā)明的實(shí)施例中，采用把強(qiáng)濁音模式和中濁音模式合并為一個(gè)稱(chēng)為中強(qiáng)濁音模式的方法。合并為一個(gè)中強(qiáng)濁音模式的另一原因是由于VAD檢測(cè)到的無(wú)聲幀類(lèi)型加上上面三種語(yǔ)音模式，可以只利用2個(gè)比特表示編碼模式之間的轉(zhuǎn)換。因此，本實(shí)施例對(duì)于激活語(yǔ)音只有三種模式，即模式0、模式1、模式2，分別代表清音模式、輕濁音模式和中強(qiáng)濁音模式。
2、分維矢量量化方法粗略地講，成年人語(yǔ)音信號(hào)前四個(gè)共振峰分別位于500Hz、1500Hz、2500Hz和3500Hz。這實(shí)際上將語(yǔ)音信號(hào)劃分成四個(gè)重要區(qū)域，在編碼時(shí)要求對(duì)這四個(gè)區(qū)域的譜區(qū)別對(duì)待。所以，本發(fā)明實(shí)施例在設(shè)計(jì)編碼器時(shí)將局部余弦變換的系數(shù)采取分維量化的方法。對(duì)于每一維矢量分別采用1980年由Linde、Buzo和Gray三人提出的矢量量化方法(LGB算法)進(jìn)行碼書(shū)訓(xùn)練。當(dāng)利用LGB算法生成碼書(shū)后，為了提高編解碼時(shí)碼書(shū)的搜索速度采用樹(shù)形碼書(shū)搜索方法。
在本發(fā)明實(shí)施例采用的分維量化中，對(duì)于激活語(yǔ)音幀的各個(gè)模式的局部余弦變換系數(shù)數(shù)目劃分從低頻到高頻分別為40、40、40、20。而對(duì)于無(wú)聲或背景噪聲幀只取前兩個(gè)低頻段的系數(shù)，分別為40。把這四個(gè)矢量分別稱(chēng)為第一維矢量、第二維矢量、第三維矢量和第四維矢量。由于對(duì)采樣率為8kHz的語(yǔ)音信號(hào)，只保留3500Hz以下的譜成分就足以較好地恢復(fù)出滿(mǎn)意質(zhì)量的語(yǔ)音信號(hào)。為了降低計(jì)算復(fù)雜度，激活語(yǔ)音模式幀的第四維矢量只用20個(gè)系數(shù)，而無(wú)聲或背景噪聲幀卻不利用高半頻段的系數(shù)，表1是各種模式語(yǔ)音幀的分維矢量維數(shù)。在解碼器中的反變換合成語(yǔ)音信號(hào)時(shí)，將激活語(yǔ)音幀的剩余最高頻成分的20個(gè)系數(shù)和無(wú)聲(背景噪聲)的高半頻中的80個(gè)系數(shù)填充為0。
3、比特位分配根據(jù)各類(lèi)激活語(yǔ)音幀和無(wú)聲(背景噪聲)幀的特點(diǎn)采取不同比特率分配策略，表2是本發(fā)明實(shí)施例提供的VBR-LCT編碼器的比特分配表。
中強(qiáng)濁音模式語(yǔ)音具有較強(qiáng)的周期性，且語(yǔ)音能量多集中在中低頻帶內(nèi)，所以需要給中低頻帶分配較多的比特。將此類(lèi)語(yǔ)音模式分配中等比特位數(shù)就能較好地得到表示。
對(duì)于輕濁音的模式語(yǔ)音，因?yàn)樗谀撤N程度上是濁音和清音以一定比例的混合，它的周期性沒(méi)有中強(qiáng)濁音模式語(yǔ)音的強(qiáng)，但其中卻包含著語(yǔ)音中的躍變部分。其中的突變幀雖然在語(yǔ)音中所占的比例較少，但它卻包含了大量的信息，所以能否有效地表示它將直接影響語(yǔ)音質(zhì)量。為此，本實(shí)施例對(duì)這種模式的語(yǔ)音幀采用分配較高的比特位數(shù)的策略。
清音模式語(yǔ)音可以說(shuō)是完全由清音組成的，所以應(yīng)該認(rèn)為清音的局部余弦變換譜是平坦的。在比特分配中各個(gè)頻帶上基本分配相同的比特，但為了增強(qiáng)高頻部分的清音特性只給高半頻上的兩個(gè)頻段各增加一個(gè)比特。
為了得到自然度較好的語(yǔ)音，在本實(shí)施例中，沒(méi)有采用將無(wú)聲或背景噪聲幀的語(yǔ)音全部充0處理。如果進(jìn)行這樣的處理將會(huì)導(dǎo)致有聲幀和無(wú)聲幀之間的能量產(chǎn)生突變，形成不舒適現(xiàn)象。為此，對(duì)無(wú)聲或噪聲幀也分配一定的比特位來(lái)對(duì)其進(jìn)行表示。對(duì)于強(qiáng)背景噪聲或在特殊的環(huán)境下，如果出現(xiàn)將有聲誤判為無(wú)聲，那么利用這個(gè)有限的比特位也能在某些程度上表示有聲語(yǔ)音的信息，這是基于局部余弦變換編碼方法所特有的優(yōu)勢(shì)。
各個(gè)模式的語(yǔ)音幀編碼器的增益是通過(guò)采用將輸入信號(hào)譜能量與編碼時(shí)搜索的碼矢量的譜能量和之比計(jì)算得來(lái)的。增益的量化采用8比特標(biāo)量量化方法。對(duì)各種模式的語(yǔ)音幀分配的總的比特?cái)?shù)都是整數(shù)個(gè)字節(jié)，所以對(duì)于各個(gè)模式語(yǔ)音幀的編碼，傳輸中出現(xiàn)幀內(nèi)部的比特位誤差不會(huì)引起后續(xù)語(yǔ)音幀的解碼，具有一定的抗誤碼和糾錯(cuò)能力。
4、SVM-VAD方法VAD的作用是在有聲和無(wú)聲之間進(jìn)行區(qū)分，這是一個(gè)眾所周知的分類(lèi)問(wèn)題。對(duì)于任何分類(lèi)問(wèn)題，不得不選擇用于分類(lèi)的參數(shù)，以及不得不設(shè)計(jì)一個(gè)判別函數(shù)。我們選取的是VAD應(yīng)用中通常習(xí)慣采用的一組描述信號(hào)能量和譜成分的參數(shù)。參數(shù)的選擇是受每個(gè)參數(shù)對(duì)分類(lèi)結(jié)果的貢獻(xiàn)、其魯棒性和其計(jì)算復(fù)雜度支配的。這里選擇的參數(shù)為當(dāng)前幀參數(shù)與背景噪聲滑動(dòng)平均參數(shù)差得到的四個(gè)差分測(cè)量參數(shù)，即譜失真、全帶能量差、低帶能量差、過(guò)零率差。
VAD算法和非激活語(yǔ)音編碼器都是以數(shù)字化語(yǔ)音幀形式操作的。為了兼容性，對(duì)所有方法使用相等的幀長(zhǎng)。如圖1為對(duì)于每一幀的VAD算法的一般運(yùn)行流程圖。使用SVM方法進(jìn)行VAD判別的結(jié)果是局部的，也就是其沒(méi)有考慮語(yǔ)音和噪聲的短時(shí)平穩(wěn)特性。需要使用前面相鄰幀，采用四步平滑和校正算法。如果噪聲電平突然改變，在一個(gè)長(zhǎng)時(shí)期內(nèi)使用最小能量估計(jì)，設(shè)計(jì)一個(gè)特殊重置算法防止算法鎖定在有聲模式。
圖2為本發(fā)明實(shí)施例提供的VBR-LCT語(yǔ)音編碼器的框架結(jié)構(gòu)示意圖。圖2中預(yù)處理模塊是為了減少低頻噪聲和直流分量的高通濾波處理。語(yǔ)音編碼器輸入語(yǔ)音信號(hào)是采樣率為8kHz 16比特PCM格式的語(yǔ)音信號(hào)。本實(shí)施例中采用的是wav格式的語(yǔ)音數(shù)據(jù)，所以電平幅值是歸一化了的。
對(duì)信號(hào)進(jìn)行變換分析通常采用短時(shí)處理的方法。短時(shí)信號(hào)段的長(zhǎng)度選取對(duì)分析結(jié)果影響較大。語(yǔ)音信號(hào)變換編碼方法同樣涉及到分析窗長(zhǎng)度選擇的問(wèn)題。我們知道語(yǔ)音信號(hào)總體來(lái)講是弱非平穩(wěn)的信號(hào)，但它在短時(shí)間內(nèi)可以近似地認(rèn)為是平穩(wěn)的，如20ms的間隔。所以，為了提高壓縮比，在編碼中盡可能選擇長(zhǎng)窗來(lái)降低比特率，但與此同時(shí)也會(huì)增加編解碼器的延遲。所以，在幀長(zhǎng)選取上，根據(jù)語(yǔ)音信號(hào)的特點(diǎn)，要求對(duì)編碼器的延遲和比特率進(jìn)行折衷處理。本發(fā)明實(shí)施例所提供的低比特變速率編碼器，要求幀長(zhǎng)度不能小于20ms，再者，20ms幀長(zhǎng)是絕大多數(shù)編碼器所采用的，屬于中低延遲的編碼策略。在幀長(zhǎng)為20ms內(nèi)的語(yǔ)音段，語(yǔ)音信號(hào)可以近似地被認(rèn)為是平穩(wěn)的，有利于語(yǔ)音信號(hào)的正交表示，所以在本實(shí)施例中幀長(zhǎng)選用20ms，即160個(gè)采樣點(diǎn)。
編碼器的評(píng)價(jià)1、客觀評(píng)價(jià)表3所列數(shù)據(jù)為本實(shí)施例提供的VBR-LCT語(yǔ)音編碼器與G.729B、GSMHalf-Rate、FS1016和FS1015編碼標(biāo)準(zhǔn)進(jìn)行對(duì)比的結(jié)果。該結(jié)果也說(shuō)明了客觀評(píng)價(jià)方法在語(yǔ)音編碼器性能評(píng)價(jià)的可靠性。G.729B、GSM Half-Rate和FS1016都屬于中低比特率的編碼標(biāo)準(zhǔn)，它們編碼的語(yǔ)音質(zhì)量遠(yuǎn)遠(yuǎn)超過(guò)FS1015、VBR-LCT方法，但從這兩個(gè)指標(biāo)看，相比較而言VBR-LCT方法具有相當(dāng)大的優(yōu)勢(shì)。與相近比特率的FS1015編碼器進(jìn)行比較，從幾個(gè)類(lèi)型語(yǔ)音數(shù)據(jù)的SNR和PSNR表明本實(shí)施例提供的VBR-LCT編碼方法明顯比FS1015標(biāo)準(zhǔn)的SNR和PSNR最多高出近5dB。
從語(yǔ)音編碼器的實(shí)質(zhì)分析，本發(fā)明采用的VBR-LCT編碼方法是在變換域內(nèi)進(jìn)行的，其實(shí)質(zhì)是波形編碼的范疇。所以利用SNR和PSNR兩個(gè)評(píng)價(jià)指標(biāo)來(lái)進(jìn)行客觀評(píng)價(jià)，對(duì)其是有利的，客觀指標(biāo)對(duì)編碼器進(jìn)行評(píng)價(jià)可以作為一個(gè)參考。
2、主觀評(píng)價(jià)語(yǔ)音編碼器產(chǎn)生的語(yǔ)音最終的接受對(duì)象是人的耳朵，所以編碼后的語(yǔ)音質(zhì)量好壞主要是接受人的聽(tīng)覺(jué)感知評(píng)價(jià)。這里我們采用非正式語(yǔ)音聽(tīng)力測(cè)試進(jìn)行語(yǔ)音質(zhì)量的評(píng)價(jià)。
在對(duì)雙向?qū)υ?huà)的語(yǔ)音進(jìn)行編碼，本發(fā)明本實(shí)施例提供的VBR-LCT的編碼器平均比特率接近1.6kb/s。對(duì)于無(wú)噪聲清晰語(yǔ)音，VBR-LCT編碼器得到的重構(gòu)語(yǔ)音也同樣具有輕微的模糊，所以聽(tīng)不到象LPC-10e重構(gòu)的語(yǔ)音洪亮。沒(méi)有G.729B、GSM Half-Rate和FS1016編碼標(biāo)準(zhǔn)產(chǎn)生的語(yǔ)音清晰度高，但是它的理解性和自然度是好的，且明顯比相近比特率的LPC-10e方法要好。VBR-LCT編碼方法對(duì)環(huán)境噪聲具有較強(qiáng)的魯棒性，它的編碼失真隨著信號(hào)的改變不敏感，甚至于對(duì)G.729B、GSM Half-Rate、FS1016和LPC-10e方法無(wú)效的信號(hào)仍然很穩(wěn)定。當(dāng)使用背景音樂(lè)或其它非語(yǔ)音信號(hào)時(shí)，VBR-LCT編碼方法比LPC-10e方法明顯好。這些完全是由于VBR-LCT編碼方法屬于在變換域內(nèi)的波形編碼，所以它不依賴(lài)于如基音等語(yǔ)音特征參數(shù)。
表1分維矢量語(yǔ)音模式第一維矢量第二維矢量第三維矢量第四維矢量無(wú)聲/背景噪聲 40 40 0 0Mode 0(清音)40 40 4020Mode 1(輕濁音) 40 40 4020Mode 2(中強(qiáng)濁音)40 40 4020表2分維矢量增模語(yǔ)音模式比特/第一維第二維第三維第四維幀益式矢量矢量矢量矢量無(wú)聲/背景噪聲 7 7 0 082 24Mode 0(清音) 7 7 8 882 40Mode 1(輕濁音)11118 882 48Mode 2(中強(qiáng)濁音) 8 8 8 682 40
表3比特率編碼器類(lèi)型 SNR(dB) PSNR(dB)(kb/s)G.729 Annex B -0.95 15.08 8GSM Half-Rate 1.24 14.81 5.6FS1016 0.71 16.74 4.8FS1015(LPC-10e) -3.59 12.47 2.4VBR-LCT -0.96 15.08 1.權(quán)利要求
1.一種低比特變速率語(yǔ)音編碼器，將輸入的原始語(yǔ)音信號(hào)經(jīng)過(guò)高通濾波器預(yù)處理后，輸入到語(yǔ)音激活檢測(cè)器檢測(cè)判別激活語(yǔ)音與非激活語(yǔ)，再分別經(jīng)局部余弦變換器處理，完成語(yǔ)音編碼，其特征在于所述的語(yǔ)音激活檢測(cè)器采用支持向量機(jī)—語(yǔ)音激活檢測(cè)模塊，其工作流程如下①對(duì)輸入的語(yǔ)音數(shù)據(jù)進(jìn)行參數(shù)提取，得到當(dāng)前幀的線譜頻率、全帶能量、低帶能量、過(guò)零率四個(gè)分類(lèi)特征參數(shù)；②初始化處理根據(jù)背景噪聲的改變隨時(shí)計(jì)算更新在只有背景噪聲時(shí)上述四個(gè)特征參數(shù)；③差分處理將上述當(dāng)前幀的四個(gè)特征參數(shù)分別減去初始化時(shí)表示當(dāng)前狀態(tài)只有背景噪聲的情況下相應(yīng)的這四個(gè)特征參數(shù)，生成語(yǔ)音激活檢測(cè)分類(lèi)需要的相應(yīng)的四個(gè)差分特征參數(shù)；④采用支持向量機(jī)算法進(jìn)行語(yǔ)音激活性檢測(cè)，訓(xùn)練支持向量機(jī)采用的是序列最小最優(yōu)化方法，最終將語(yǔ)音劃分成激活和非激活兩種語(yǔ)音類(lèi)型；⑤采用四步平滑和校正算法進(jìn)行語(yǔ)音激活檢測(cè)判別平滑處理；⑥在每一幀進(jìn)行語(yǔ)音激活檢測(cè)處理后，輸出非激活或激活語(yǔ)音幀信號(hào)，如果對(duì)估計(jì)該幀的背景噪聲能量大于背景噪聲能量門(mén)限的，則需要重新再進(jìn)行修正平均背景噪聲參數(shù)處理；所述的局部余弦變換器處理，其方法是①對(duì)經(jīng)支持向量機(jī)—語(yǔ)音激活檢測(cè)模塊檢測(cè)為非激活語(yǔ)音幀，按無(wú)聲/背景噪聲語(yǔ)音模式的分維矢量維數(shù)進(jìn)行分維處理，然后將該分維矢量分別按照無(wú)聲/背景噪聲語(yǔ)音模式的相應(yīng)分維矢量的碼書(shū)進(jìn)行分維矢量量化，得到與該語(yǔ)音模式相對(duì)應(yīng)的兩個(gè)比特位長(zhǎng)度都是7位的分維矢量量化結(jié)果，同時(shí)對(duì)該模式語(yǔ)音幀的增益進(jìn)行標(biāo)量量化，將按照表示語(yǔ)音模式的2個(gè)比特位、表示增益的8個(gè)比特位、表示第一分維矢量和第二分維矢量的都為7比特位的順序，組成3個(gè)字節(jié)輸出，表示該幀語(yǔ)音編碼結(jié)束；②對(duì)經(jīng)支持向量機(jī)—語(yǔ)音激活檢測(cè)模塊檢測(cè)為激活語(yǔ)音幀，按清音、清濁音、中強(qiáng)濁音的方法分成三種語(yǔ)音模式，按照相應(yīng)的三種語(yǔ)音模式的分維矢量維數(shù)進(jìn)行分維處理，然后將相應(yīng)的四個(gè)分維矢量分別按照對(duì)應(yīng)的語(yǔ)音模式的相應(yīng)分維矢量的碼書(shū)進(jìn)行分維矢量量化，得到與該語(yǔ)音模式相對(duì)應(yīng)的四個(gè)不同長(zhǎng)度比特位分別表示對(duì)應(yīng)的分維矢量的量化結(jié)果；同時(shí)對(duì)該語(yǔ)音幀的增益進(jìn)行標(biāo)量量化，將按照表示語(yǔ)音模式的兩個(gè)比特位、表示增益的8個(gè)比特位及按照從表示該語(yǔ)音模式的第一分維矢量的比特位至第四分維矢量的比特位的順序?qū)⑦@些比特位組成整數(shù)個(gè)字節(jié)輸出，表示該幀語(yǔ)音編碼結(jié)束。
2.根據(jù)權(quán)利要求1所述的低比特變速率語(yǔ)音編碼器，其特征在于所述的無(wú)聲/背景噪聲語(yǔ)音模式的第一分維矢量維數(shù)、第二分維矢量維數(shù)均為40，第三、第四分維矢量維數(shù)均為0；所述的清音、清濁音和中強(qiáng)濁音語(yǔ)音模式的第一分維矢量維數(shù)、第二分維矢量維數(shù)和第三分維矢量維數(shù)均為40，第四分維矢量維數(shù)均為20。
3.根據(jù)權(quán)利要求1所述的低比特變速率語(yǔ)音編碼器，其特征在于所述的無(wú)聲/背景噪聲語(yǔ)音模式第一、第二分維矢量比特分配均為7比特，第三、第四分維矢量比特分配均為0比特，增益模式為8、2比特；所述的清音語(yǔ)音模式第一、第二分維矢量比特分配均為7比特，第三、第四分維矢量比特分配均為8比特，增益模式為8、2比特；所述的清濁音語(yǔ)音模式第一、第二分維矢量比特分配均為11比特，第三、第四分維矢量比特分配均為8比特，增益模式為8、2比特；所述的中強(qiáng)濁音語(yǔ)音模式第一、第二分維矢量比特分配均為8比特，第三、第四分維矢量比特分配均為8和6比特，增益模式為8、2比特。
全文摘要
本發(fā)明公開(kāi)了一種適合于要求低比特變速率語(yǔ)音編碼的通信系統(tǒng)中的語(yǔ)音編碼器。它將SVM方法應(yīng)用于VAD語(yǔ)音激活檢測(cè)中，提高了語(yǔ)音編碼器對(duì)語(yǔ)音檢測(cè)的正確識(shí)別率；采用GSM的語(yǔ)音模式分類(lèi)方法，將原來(lái)的四種語(yǔ)音模式合并為三種語(yǔ)音模式，使最終只采用兩個(gè)比特表示整個(gè)語(yǔ)音模式。它還充分利用局部余弦變換具有較高的編碼增益的特點(diǎn)，采用LCT和SVM－VAD進(jìn)行低比特變速率語(yǔ)音編碼，提供了一個(gè)實(shí)用的、性能優(yōu)良的低比特變速率語(yǔ)音編碼器。
文檔編號(hào)G10L19/02GK1632862SQ200410103220
公開(kāi)日2005年6月29日申請(qǐng)日期2004年12月31日優(yōu)先權(quán)日2004年12月31日
發(fā)明者董恩清申請(qǐng)人:蘇州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董恩清
技術(shù)所有人：蘇州大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：具有琴皮的胡琴的制作方法
上一篇：一種低比特率語(yǔ)音編碼器的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

旋變編碼器相關(guān)技術(shù)

變分自動(dòng)編碼器相關(guān)技術(shù)

變分自編碼器相關(guān)技術(shù)

變頻器編碼器閉環(huán)控制相關(guān)技術(shù)

變頻器編碼器如何定位相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種低比特變速率語(yǔ)言編碼器的制作方法