專利名稱:一種語(yǔ)音數(shù)據(jù)的編碼及解碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及智能信息處理領(lǐng)域,尤其涉及一種語(yǔ)音數(shù)據(jù)的編碼及解碼方法。
背景技術(shù):
語(yǔ)音作為人類交流信息的主要手段之一,語(yǔ)音編碼一直在通信系統(tǒng)中占據(jù)重要的地位。語(yǔ)音的數(shù)據(jù)量非常龐大,不便于直接進(jìn)行傳輸和存儲(chǔ)處理,同時(shí)很多領(lǐng)域?qū)φZ(yǔ)音的壓縮傳輸率要求很高,因此必須對(duì)語(yǔ)音進(jìn)行合理有效的處理,以減少語(yǔ)音信號(hào)的傳輸速率和存儲(chǔ)量,即進(jìn)行語(yǔ)音壓縮編碼,因此極低速率語(yǔ)音編碼已經(jīng)越來(lái)越受到關(guān)注,語(yǔ)音信號(hào)中有很大的信息冗余,壓縮的每一個(gè)比特都意味著節(jié)省開支,低速率數(shù)字語(yǔ)音傳輸具有重大的實(shí)用價(jià)值,高質(zhì)量的低速率語(yǔ)音編碼技術(shù)在移動(dòng)通信、衛(wèi)星通信、多媒體技術(shù)以及IP電話通信中得到了普遍應(yīng)用。目前已有的極低速率語(yǔ)音編碼大部分采用參數(shù)語(yǔ)音編碼的方法實(shí)現(xiàn)極低速率下的語(yǔ)音傳輸。將多幀聯(lián)合編碼和內(nèi)插等技術(shù)引入到經(jīng)典的參數(shù)編碼方法后,可以使語(yǔ)音在600bps速率下傳輸,接收端生成的語(yǔ)音仍具有可懂性。如果進(jìn)一步降低語(yǔ)音傳輸速率,語(yǔ)音的音質(zhì)將明顯降低,這種方法將難以適用。通過(guò)傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)識(shí)別出對(duì)應(yīng)的文本信息后進(jìn)行傳輸,可以將傳輸速率降至200bps以下,但是采用這種方法識(shí)別出的文本難以保證較高的準(zhǔn)確率,同時(shí)說(shuō)話人的特征難以保留。
發(fā)明內(nèi)容
(一 )要解決的技術(shù)問(wèn)題為解決上述的一個(gè)或多個(gè)問(wèn)題,本發(fā)明提供了一種語(yǔ)音數(shù)據(jù)的編碼方法及解碼方法,以在極低編碼速率的情況下,保持較高的語(yǔ)音音質(zhì)。
( 二 )技術(shù)方案根據(jù)本發(fā)明的一個(gè)方面,提出了一種語(yǔ)音數(shù)據(jù)的編碼方法,該方法包括步驟:步驟S100,獲取原始音頻,剔除原始音頻中的非語(yǔ)音數(shù)據(jù),獲得語(yǔ)音段數(shù)據(jù),后續(xù)只對(duì)語(yǔ)音段數(shù)據(jù)進(jìn)行量化、編碼和傳輸;步驟S200,對(duì)輸入的語(yǔ)音段數(shù)據(jù)進(jìn)行特征參數(shù)提取,提取的特征參數(shù)包括線譜對(duì)、基音周期和增益均值,然后對(duì)上述參數(shù)進(jìn)行參數(shù)變換,轉(zhuǎn)成參數(shù)量化時(shí)所需要的格式;步驟S300,對(duì)各種語(yǔ)音參數(shù)進(jìn)行量化和編碼,生成語(yǔ)音數(shù)據(jù)包。根據(jù)本發(fā)明的另一方面,還提出了一種語(yǔ)音數(shù)據(jù)的解碼方法,該方法對(duì)接收到的語(yǔ)音數(shù)據(jù)包進(jìn)行解碼,提取譜參數(shù)、基音周期、增益均值和清濁狀態(tài)參數(shù),通過(guò)上述參數(shù)對(duì)激勵(lì)參數(shù)和增益變化軌跡進(jìn)行預(yù)測(cè),然后通過(guò)聲碼器合成語(yǔ)音,其中采用高斯混合模型對(duì)增益變化軌跡進(jìn)行預(yù)測(cè),模型的輸入?yún)?shù)是譜參數(shù)差分、基音周期差分和增益均值,模型的輸出參數(shù)是增益變化軌跡。(三)有益效果從上述技術(shù)方案可以看出,本發(fā)明語(yǔ)音數(shù)據(jù)的編碼方法及解碼方法具有以下有益效果:
(I)發(fā)送端只需對(duì)譜參數(shù)、基音周期、清濁狀態(tài)和多幀增益的均值進(jìn)行編碼。通過(guò)定量的分析可以確定其編碼速率可低于500bpS,能夠?qū)崿F(xiàn)語(yǔ)音數(shù)據(jù)在極低碼率下的有效傳輸。(2)發(fā)送端在對(duì)語(yǔ)音參數(shù)進(jìn)行量化時(shí),充分考慮了聽覺感知特性,將有損壓縮放到對(duì)人耳聽感不敏感處,在實(shí)現(xiàn)對(duì)語(yǔ)音數(shù)據(jù)的有效壓縮的同時(shí)盡可能保證語(yǔ)音的音質(zhì)。(3)接收端在完成對(duì)譜參數(shù)、基音周期、清濁狀態(tài)和多幀增益的均值解碼后,利用不同類別語(yǔ)音參數(shù)的相關(guān)性對(duì)激勵(lì)參數(shù)和增益變化軌跡進(jìn)行預(yù)測(cè),最后通過(guò)聲碼器生成語(yǔ)
曰 (4)傳輸?shù)恼Z(yǔ)音數(shù)據(jù)不受說(shuō)話人、文本內(nèi)容、聲音采集環(huán)境的限制,因此系統(tǒng)具有高魯棒性,便于實(shí)際應(yīng)用。
圖1為根據(jù)本發(fā)明實(shí)施例的語(yǔ)音數(shù)據(jù)的編碼方法及解碼方法的整體結(jié)構(gòu)示意圖;圖2為圖1所示語(yǔ)音數(shù)據(jù)的編碼方法中端點(diǎn)檢測(cè)模塊的結(jié)構(gòu)示意圖;圖3為圖1所示語(yǔ)音數(shù)據(jù)的編碼方法中參數(shù)提取模塊的結(jié)構(gòu)示意圖;圖4為圖1所示語(yǔ)音數(shù)據(jù)的編碼方法中參數(shù)編碼模塊的結(jié)構(gòu)示意圖;圖5為圖1所示語(yǔ)音數(shù)據(jù)的解碼方法中參數(shù)解碼模塊的結(jié)構(gòu)示意圖;圖6為圖1所示語(yǔ)音數(shù)據(jù)的解碼方法中參數(shù)預(yù)測(cè)模塊的結(jié)構(gòu)示意圖;圖7為圖1所示語(yǔ)音數(shù)據(jù)的解碼方法中語(yǔ)音生成模塊的結(jié)構(gòu)示意圖;圖8為本發(fā)明實(shí)施例的語(yǔ)音數(shù)據(jù)的編碼/解碼方法中譜參數(shù)矢量碼本的離線訓(xùn)練過(guò)程的示意圖;圖9為本發(fā)明實(shí)施例的語(yǔ)音數(shù)據(jù)的編碼/解碼方法中端點(diǎn)檢測(cè)模塊中高斯混合模型離線訓(xùn)練過(guò)程的示意圖;圖10為本發(fā)明實(shí)施例的語(yǔ)音數(shù)據(jù)的編碼/解碼方法中參數(shù)預(yù)測(cè)模塊中高斯混合模型/隱馬爾科夫模型離線訓(xùn)練過(guò)程的示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。需要說(shuō)明的是,在附圖或說(shuō)明書描述中,相似或相同的部分都使用相同的圖號(hào)。附圖中未繪示或描述的實(shí)現(xiàn)方式,為所屬技術(shù)領(lǐng)域中普通技術(shù)人員所知的形式。另外,雖然本文可提供包含特定值的參數(shù)的示范,但應(yīng)了解,參數(shù)無(wú)需確切等于相應(yīng)的值,而是可在可接受的誤差容限或設(shè)計(jì)約束內(nèi)近似于相應(yīng)的值。本發(fā)明提出了一種基于參數(shù)的語(yǔ)音數(shù)據(jù)編解碼機(jī)制。該機(jī)制分為編碼方法和解碼方法。編碼方法將采集到的語(yǔ)音提取特征參數(shù)并對(duì)各種參數(shù)進(jìn)行量化和編碼組成語(yǔ)音數(shù)據(jù)包,通過(guò)信道進(jìn)行傳輸,具體包括:獲取原始音頻,通過(guò)端點(diǎn)檢測(cè)剔除原始音頻中的非語(yǔ)音數(shù)據(jù),獲得語(yǔ)音段數(shù)據(jù);對(duì)每幀語(yǔ)音數(shù)據(jù)提取譜參數(shù)、基音周期、清濁狀態(tài)等參數(shù),并計(jì)算連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益均值,通過(guò)矢量碼本對(duì)譜參數(shù)進(jìn)行聯(lián)合矢量量化,對(duì)基音周期和增益均值進(jìn)行非線性量化, 在對(duì)語(yǔ)音參數(shù)進(jìn)行量化的過(guò)程中,充分考慮聽覺感知特性,將有損壓縮盡可能放到對(duì)人耳聽覺不敏感處;對(duì)量化后的參數(shù)進(jìn)行編碼,生成語(yǔ)音數(shù)據(jù)包。解碼方法從信道中獲取語(yǔ)音數(shù)據(jù)包,對(duì)語(yǔ)音數(shù)據(jù)包進(jìn)行解析,重構(gòu)語(yǔ)音參數(shù),恢復(fù)原始的語(yǔ)音,實(shí)現(xiàn)了語(yǔ)音數(shù)據(jù)在極低碼率下的傳輸。具體包括:對(duì)接收到的語(yǔ)音數(shù)據(jù)包進(jìn)行解碼,重構(gòu)譜參數(shù)、基音周期、增益均值和清濁狀態(tài),通過(guò)上述參數(shù)對(duì)激勵(lì)參數(shù)和增益變化軌跡進(jìn)行預(yù)測(cè),然后通過(guò)聲碼器合成語(yǔ)音。圖1為本發(fā)明提出的語(yǔ)音數(shù)據(jù)的編碼方法和解碼方法的原理圖。如圖1所示,本編碼方法包括:獲取原始音頻,通過(guò)端點(diǎn)檢測(cè)模塊剔除原始音頻中的非語(yǔ)音數(shù)據(jù),獲得語(yǔ)音段數(shù)據(jù);對(duì)每幀語(yǔ)音數(shù)據(jù)提取譜參數(shù)、基音周期、清濁狀態(tài)等參數(shù),并計(jì)算連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益均值,通過(guò)矢量碼本對(duì)譜參數(shù)進(jìn)行矢量量化,對(duì)基音周期和增益均值進(jìn)行非線性量化,在對(duì)語(yǔ)音參數(shù)進(jìn)行量化的過(guò)程中,充分考慮聽覺感知特性,將有損壓縮盡可能放到對(duì)人耳聽覺不敏感處;對(duì)量化后的譜參數(shù)、基音周期、增益均值和清濁狀態(tài)進(jìn)行編碼,生成語(yǔ)音數(shù)據(jù)包并加載到通信系統(tǒng)中進(jìn)行傳輸。該編碼方法包括端點(diǎn)檢測(cè)步驟、參數(shù)提取步驟、參數(shù)編碼步驟。下面對(duì)各個(gè)功能步驟采用的方法進(jìn)行詳細(xì)介紹。步驟S110,獲取原始音頻,利用時(shí)域和變換域上的不同參數(shù)進(jìn)行端點(diǎn)檢測(cè),剔除原始音頻中的非語(yǔ)音數(shù)據(jù),獲得語(yǔ)音段數(shù)據(jù),后續(xù)只對(duì)語(yǔ)音段數(shù)據(jù)進(jìn)行量化、編碼和傳輸,可以進(jìn)一步降低系統(tǒng)對(duì)數(shù)據(jù)的傳輸速率。利用短時(shí)能量和短時(shí)過(guò)零率可以有效的從原始音頻中檢測(cè)出靜音段數(shù)據(jù)和寬帶噪聲;通過(guò)分析音頻數(shù)據(jù)中各頻帶能量的比重可以有效的從原始音頻中檢測(cè)出周期噪聲和沖擊性噪聲;通過(guò)對(duì)比不同段音頻數(shù)據(jù)的梅爾頻率倒譜系數(shù)可以對(duì)語(yǔ)音信號(hào)和音樂信號(hào)進(jìn)行區(qū)分。利用上述各參數(shù)可以有效的從原始音頻中保留語(yǔ)音數(shù)據(jù),拒絕非語(yǔ)音數(shù)據(jù)。如圖2所示,端點(diǎn)檢測(cè)步驟如下:子步驟S111,將原始音頻等間隔分成若干子段,計(jì)算每段原始音頻的短時(shí)能量、短時(shí)過(guò)零率和各頻帶能量,通過(guò)各頻帶能量計(jì)算100Hz-2000Hz頻段能量的比重;子步驟S112, 將每段原始音頻的短時(shí)能量、短時(shí)過(guò)零率和100Hz-2000Hz頻段能量的比重分別與預(yù)先設(shè)定的取值范圍進(jìn)行比較;如果三個(gè)參數(shù)都在取值范圍內(nèi),則判定為待甄別數(shù)據(jù);如果三個(gè)參數(shù)都超出取值范圍,則判定為非語(yǔ)音段數(shù)據(jù);如果其中一個(gè)或兩個(gè)參數(shù)在取值范圍內(nèi)并且相鄰兩段音頻為待甄別數(shù)據(jù),則判定為待甄別數(shù)據(jù)否則判定為非語(yǔ)音數(shù)據(jù);通過(guò)上述判定可將采集的音頻數(shù)據(jù)分為非語(yǔ)音段數(shù)據(jù)和待甄別段數(shù)據(jù),后續(xù)步驟只對(duì)待甄別數(shù)據(jù)進(jìn)行處理;子步驟S113,對(duì)待甄別數(shù)據(jù)以幀為單位提取梅爾倒譜系數(shù),先提取13階靜態(tài)參數(shù),然后分別計(jì)算它們的一階差分和二階差分,最終提取的參數(shù)是39維,利用這39維屬性進(jìn)行語(yǔ)音檢測(cè)。將參數(shù)分別輸入到語(yǔ)音數(shù)據(jù)的高斯混合模型和各種非語(yǔ)音數(shù)據(jù)的高斯混合模型中,如果當(dāng)前幀輸入到語(yǔ)音數(shù)據(jù)的高斯混合模型時(shí)輸出概率最大則判定為語(yǔ)音數(shù)據(jù),否則判定為非語(yǔ)音數(shù)據(jù);對(duì)于判定結(jié)果需要進(jìn)行后處理,如果當(dāng)前幀判為非語(yǔ)音數(shù)據(jù)但相鄰兩幀判為語(yǔ)音數(shù)據(jù),則將當(dāng)前幀改判成語(yǔ)音數(shù)據(jù)。綜上分析,端點(diǎn)檢測(cè)模塊首先通過(guò)短時(shí)能量、短時(shí)過(guò)零率和各頻帶能量分布將原始音頻分為非語(yǔ)音數(shù)據(jù)和待甄別數(shù)據(jù),對(duì)于待甄別數(shù)據(jù)通過(guò)語(yǔ)音數(shù)據(jù)的高斯混合模型和非語(yǔ)音數(shù)據(jù)的高斯混合模型判斷是否為語(yǔ)音數(shù)據(jù)。在端點(diǎn)檢測(cè)過(guò)程中,需要對(duì)語(yǔ)音數(shù)據(jù)的高斯混合模型和非語(yǔ)音數(shù)據(jù)的高斯混合模型進(jìn)行訓(xùn)練,以下對(duì)上述模型的訓(xùn)練步驟進(jìn)行說(shuō)明。模型訓(xùn)練步驟需要選擇各種類型的音頻進(jìn)行高斯混合模型的訓(xùn)練,這樣可以保證模型的魯棒性,提高語(yǔ)音檢測(cè)的準(zhǔn)確率。每個(gè)音頻文件需要對(duì)其類別進(jìn)行標(biāo)注。模型訓(xùn)練過(guò)程如圖9所不。步驟S310,對(duì)全部訓(xùn)練音庫(kù)進(jìn)行音頻過(guò)濾;采用步驟Slll中的方法計(jì)算各段音頻的短時(shí)能量、短時(shí)過(guò)零率和各頻帶能量,然后采用步驟S112中的方法剔除部分非語(yǔ)音數(shù)據(jù),后續(xù)步驟只對(duì)剩余的數(shù)據(jù)進(jìn)行訓(xùn)練。步驟S320,根據(jù)音頻標(biāo)注對(duì)過(guò)濾后的音頻進(jìn)行分類,將原始音頻分為語(yǔ)音數(shù)據(jù)和非語(yǔ)音數(shù)據(jù),對(duì)于非語(yǔ)音數(shù)據(jù)需要根據(jù)音頻信號(hào)的特點(diǎn)對(duì)它們進(jìn)行進(jìn)一步分類。步驟S330,對(duì)分類后的音頻以幀為單位提取梅爾倒譜系數(shù)。先提取13階靜態(tài)參數(shù),然后分別計(jì)算它們的一階差分和二階差分,最終提取的參數(shù)是39維,利用這39維屬性進(jìn)行高斯混合模型訓(xùn)練。步驟S340,對(duì)語(yǔ)音數(shù)據(jù)和不同類別的非語(yǔ)音數(shù)據(jù)采用39階的梅爾倒譜系數(shù)分別進(jìn)行高斯混合模型的訓(xùn)練,通過(guò)EM迭代訓(xùn)練確定不同高斯混合模型中各個(gè)高斯成分的權(quán)重、均值和方差。即完成對(duì)高斯混合模型的訓(xùn)練。至此,語(yǔ)音檢測(cè)模塊中使用的高斯混合模型訓(xùn)練結(jié)束。步驟S130,對(duì)輸入的語(yǔ)音段數(shù)據(jù)進(jìn)行特征參數(shù)提取,提取的特征參數(shù)包括線譜對(duì)、基音周期和增益均值,然后對(duì)上述參數(shù)進(jìn)行參數(shù)變換,轉(zhuǎn)成參數(shù)量化時(shí)所需要的格式。如圖3所示,參數(shù)提取步驟的具體實(shí)現(xiàn)方法如下:子步驟S131,對(duì)于每幀語(yǔ)音數(shù)據(jù)進(jìn)行高通濾波,消除語(yǔ)音采集過(guò)程中帶來(lái)的工頻干擾;子步驟S132,計(jì)算每幀語(yǔ)音數(shù)據(jù)的線譜對(duì)、基音周期和連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益均值;通過(guò)自相關(guān)法計(jì)算每幀語(yǔ)音參數(shù)的線性預(yù)測(cè)系數(shù),然后對(duì)線性預(yù)測(cè)系數(shù)進(jìn)行帶寬擴(kuò)展,最后將線性預(yù)測(cè)系數(shù)轉(zhuǎn)換成線譜對(duì)參數(shù)。采用自相關(guān)法計(jì)算每幀語(yǔ)音數(shù)據(jù)的基音周期,分別進(jìn)行整數(shù)基音周期的粗估算、分?jǐn)?shù)基音的提取、基音周期的倍頻檢測(cè)、基音周期的平滑,最后利用線性預(yù)測(cè)系數(shù)計(jì)算每幀語(yǔ)音的殘差信號(hào)并通過(guò)殘差信號(hào)進(jìn)行基音周期的最終估計(jì)。在計(jì)算每幀語(yǔ)音數(shù)據(jù)的增益時(shí),需要根據(jù)基音周期確定參與計(jì)算的采樣點(diǎn);最后計(jì)算連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益均值。子步驟S133,對(duì)每幀語(yǔ)音的譜參數(shù)、基音周期和連續(xù)多幀語(yǔ)音的增益均值進(jìn)行參數(shù)變換。在對(duì)譜參數(shù)進(jìn)行矢量量化的過(guò)程中所使用的特征參數(shù)是線譜對(duì)參數(shù)和相鄰階線譜對(duì)參數(shù)的差分。對(duì)各階線譜對(duì)參數(shù),需要計(jì)算它與后一階線譜對(duì)參數(shù)的差分。對(duì)于基音周期和增益均值需要將它們變換到對(duì)數(shù)域進(jìn)行后續(xù)處理。步驟S140,對(duì)各種語(yǔ)音參數(shù)進(jìn)行量化和編碼,生成語(yǔ)音數(shù)據(jù)包。參數(shù)編碼步驟如圖5所示,具體實(shí)現(xiàn)方法如下:子步驟S14 1,采用多幀聯(lián)合的方式對(duì)譜參數(shù)進(jìn)行矢量量化,在對(duì)譜參數(shù)進(jìn)行矢量量化的過(guò)程中,計(jì)算輸入的譜參數(shù)與全部矢量碼本的計(jì)權(quán)距離,保留與輸入譜參數(shù)距離最近的前N個(gè)碼本作為次優(yōu)碼本進(jìn)行后續(xù)處理。然后使用前幾階線譜對(duì)參數(shù)作為特征參數(shù)從次優(yōu)碼本中選擇最佳碼本對(duì)譜參數(shù)進(jìn)行矢量量化。對(duì)于連續(xù)多幀語(yǔ)音數(shù)據(jù),只需對(duì)關(guān)鍵幀的基音周期進(jìn)行量化和編碼,由于清音幀不存在基音周期,因此只在濁音幀中確定關(guān)鍵幀;人耳對(duì)與清音幀相鄰濁音幀的基音周期量化誤差不敏感,對(duì)穩(wěn)態(tài)濁音幀的基音周期量化誤差比較敏感;因此從穩(wěn)態(tài)濁音幀中選取關(guān)鍵幀進(jìn)行量化和編碼,由于穩(wěn)態(tài)的濁音幀基音周期變化平緩,可以隔幀抽取語(yǔ)音幀作為關(guān)鍵中貞。子步驟S142,從N個(gè)次優(yōu)碼本中選擇最佳碼本對(duì)譜參數(shù)進(jìn)行聯(lián)合矢量量化,由于線譜對(duì)參數(shù)中的前幾階參數(shù)對(duì)人耳的聽感影響較大,因此在從次優(yōu)碼本中搜索最佳碼本時(shí)只考慮前幾階線譜對(duì)參數(shù),次優(yōu)碼本中前幾階計(jì)權(quán)誤差最小的碼本為最優(yōu)碼本。對(duì)基音周期和增益均值進(jìn)行非線性量化。對(duì)基音周期進(jìn)行非線性量化時(shí),根據(jù)基音周期的取值范圍將其等分成若干個(gè)區(qū)間,由于語(yǔ)音數(shù)據(jù)基音周期的統(tǒng)計(jì)分布不均勻,集中分布在部分區(qū)間內(nèi),因此可以對(duì)分布較稀疏的相鄰區(qū)間進(jìn)行合并,減少基音周期的量級(jí),從而降低對(duì)基音周期編碼的比特?cái)?shù)。對(duì)增益均值進(jìn)行非線性量化時(shí),根據(jù)增益的取值范圍將其分成若干個(gè)區(qū)間,利用語(yǔ)音數(shù)據(jù)增益的統(tǒng)計(jì)分布不均勻這一特性,對(duì)分布較稀疏的相鄰區(qū)間進(jìn)行合并,減少增益的量級(jí),實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效壓縮。子步驟S143,將量化后的譜參數(shù)、基音周期、增益均值和語(yǔ)音幀的清濁組合情況組成數(shù)據(jù)包,其中,數(shù)據(jù)包第一位作為同步頭,語(yǔ)音參數(shù)按照清濁組合情況、譜參數(shù)、增益均值和基音周期的順序依次排列,數(shù)據(jù)包最后一位作為奇偶校驗(yàn)位。采用上述方法進(jìn)行語(yǔ)音編碼,通過(guò)定量的分析可以確定傳輸速率可降到低于500bps。在發(fā)送端完成數(shù)據(jù)編碼后,將數(shù)據(jù)包加載到信道中進(jìn)行傳輸。
本發(fā)明中提供了一種語(yǔ)音數(shù)據(jù)的解碼方法,如圖1所示。該解碼方法包括:對(duì)接收到的語(yǔ)音數(shù)據(jù)包進(jìn)行解碼,提取譜參數(shù)、基音周期、增益均值和清濁狀態(tài)等參數(shù),通過(guò)上述參數(shù)對(duì)激勵(lì)參數(shù)和增益變化軌跡進(jìn)行預(yù)測(cè),然后通過(guò)聲碼器合成語(yǔ)音。該解碼方法還包括:數(shù)據(jù)解碼步驟、參數(shù)預(yù)測(cè)步驟和語(yǔ)音生成步驟。步驟S210,對(duì)接收到的語(yǔ)音數(shù)據(jù)包進(jìn)行解碼,對(duì)各語(yǔ)音幀的清濁狀態(tài)、譜參數(shù)、基音周期和增益均值進(jìn)行解析。如圖5所示,數(shù)據(jù)解碼步驟的具體實(shí)現(xiàn)方法如下:子步驟S211,對(duì)語(yǔ)音數(shù)據(jù)包的校驗(yàn)信息進(jìn)行檢驗(yàn),判斷同步頭和奇偶校驗(yàn)位的正確性。子步驟S212,在確定數(shù)據(jù)包在通信系統(tǒng)中正確傳輸后,對(duì)各語(yǔ)音幀的清濁狀態(tài)進(jìn)行解析,確定語(yǔ)音幀的清濁組合情況。子步驟S213,對(duì)譜參數(shù)、基音周期和增益均值進(jìn)行解析;根據(jù)語(yǔ)音幀的清濁組合情況,選擇相應(yīng)的矢量碼本對(duì)譜參數(shù)進(jìn)行解析;根據(jù)語(yǔ)音幀的清濁組合情況確定關(guān)鍵幀的位置并對(duì)關(guān)鍵幀的基音周期進(jìn)行解析,然后通過(guò)內(nèi)插、差分等方式計(jì)算其余濁音幀的基音周期;最后對(duì)多幀語(yǔ)音數(shù)據(jù)的增益均值進(jìn)行解析。無(wú)論在編碼方法,還是在解碼方法中,都需要用到矢量碼本,以下對(duì)矢量碼本的訓(xùn)練步驟進(jìn)行說(shuō)明。矢量碼本的訓(xùn)練步驟需要選擇覆蓋不同說(shuō)話人、不同主題的音庫(kù)進(jìn)行訓(xùn)練,這樣可以保證矢量碼本的魯棒性。矢量碼本的訓(xùn)練過(guò)程如圖8所示。
步驟S410,對(duì)每個(gè)訓(xùn)練音頻采用步驟SllO中的方法進(jìn)行端點(diǎn)檢測(cè),剔除訓(xùn)練音庫(kù)中的非語(yǔ)音數(shù)據(jù),保留語(yǔ)音數(shù)據(jù)進(jìn)行后續(xù)處理。步驟S420,對(duì)訓(xùn)練音庫(kù)中的語(yǔ)音數(shù)據(jù)提取線譜對(duì)參數(shù),并計(jì)算各階線譜對(duì)參數(shù)與其后一階線譜對(duì)參數(shù)的差分。步驟S430,利用線譜對(duì)參數(shù)的升序特性,剔除不穩(wěn)定的數(shù)據(jù),如果線譜對(duì)參數(shù)不滿足升序特性或者相鄰兩階譜參數(shù)的距離小于閾值,則將其從訓(xùn)練數(shù)據(jù)中剔除。步驟S440,對(duì)每幀語(yǔ)音數(shù)據(jù)進(jìn)行清濁判斷,根據(jù)語(yǔ)音幀清濁組合的不同對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類,生成相應(yīng)模式下的訓(xùn)練數(shù)據(jù),分別進(jìn)行碼本訓(xùn)練。步驟S450,對(duì)訓(xùn)練碼本進(jìn)行初始訓(xùn)練,確定初始化碼本;設(shè)定初始閾值T,設(shè)初選碼本集中目標(biāo)碼本個(gè)數(shù)為N ;從訓(xùn)練碼本中隨機(jī)選擇一個(gè)碼本加入到初選碼本集,遍歷其余訓(xùn)練碼本計(jì)算各訓(xùn)練樣本與初選碼本集中各碼本的計(jì)權(quán)距離,如果某訓(xùn)練樣本與初選碼本集中各碼本的計(jì)權(quán)距離均大于T,則將該訓(xùn)練樣本加入到初選碼本集中;如果遍歷訓(xùn)練樣本結(jié)束時(shí)初選碼本集的樣本個(gè)數(shù)不等于N,則對(duì)閾值進(jìn)行調(diào)整后重新進(jìn)行碼本初始訓(xùn)練直到遍歷結(jié)束時(shí)初選碼本集中的樣本個(gè)數(shù)為N。步驟S460,將步驟S450中得到的N個(gè)初選碼本作為N個(gè)類別的初始質(zhì)心,計(jì)算訓(xùn)練碼本中各樣本與N個(gè)質(zhì)心的計(jì)權(quán)距離,將各樣本分到與其距離最小的類別中,完成對(duì)訓(xùn)練樣本的遍歷后累計(jì)計(jì)算各訓(xùn)練樣本與其類別質(zhì)心的計(jì)權(quán)距離作為訓(xùn)練誤差,然后利用各類別中包含的樣本重新計(jì)算各類別的質(zhì)心,根據(jù)更新后的質(zhì)心重新對(duì)訓(xùn)練樣本進(jìn)行分類并計(jì)算訓(xùn)練誤差,根據(jù)當(dāng)前訓(xùn)練誤差和上一次訓(xùn)練誤差計(jì)算相對(duì)誤差,如果大于0.0001則繼續(xù)迭代,否則停止迭代并當(dāng)前各類別的質(zhì)心作為最終的矢量碼本。步驟S220,通過(guò)重構(gòu)的譜參數(shù)、基音周期和增益均值對(duì)增益變化軌跡和激勵(lì)參數(shù)進(jìn)行預(yù)測(cè);
`
如圖6所示,參數(shù)預(yù)測(cè)步驟具體實(shí)現(xiàn)方法如下:對(duì)輸入的連續(xù)多幀語(yǔ)音數(shù)據(jù),提取重構(gòu)的譜參數(shù)、基音周期和增益均值,計(jì)算多幀語(yǔ)音數(shù)據(jù)中相鄰幀譜參數(shù)和基音周期的差值將其作為譜參數(shù)和基音周期的差分特征,將譜參數(shù)差分特征、基音周期差分特征和增益均值作為參數(shù)預(yù)測(cè)模型的輸入?yún)?shù),通過(guò)參數(shù)預(yù)測(cè)模型對(duì)連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益變化軌跡和每幀語(yǔ)音數(shù)據(jù)的激勵(lì)參數(shù)進(jìn)行預(yù)測(cè)。采用高斯混合模型對(duì)增益變化軌跡進(jìn)行預(yù)測(cè),模型的輸入?yún)?shù)是譜參數(shù)差分、基音周期差分和增益均值,模型的輸出參數(shù)是增益變化軌跡。將模型輸入?yún)?shù)和模型輸出參數(shù)組成聯(lián)合矢量進(jìn)行高斯混合模型訓(xùn)練,由此可以得到輸入?yún)?shù)和輸出參數(shù)的聯(lián)合概率分布,然后在最小均方差原則下,通過(guò)聯(lián)合概率分布可以計(jì)算在已知輸入?yún)?shù)的條件下輸出參數(shù)的條件概率分布。在已知譜參數(shù)差分特征、基音周期差分特征、增益均值的條件下通過(guò)條件概率分布公式對(duì)增益變化軌跡進(jìn)行預(yù)測(cè)。采用隱馬爾科夫模型對(duì)激勵(lì)參數(shù)進(jìn)行預(yù)測(cè)。模型的輸入?yún)?shù)是譜參數(shù)差分、基音周期差分和增益均值,模型的輸出參數(shù)是各子帶的清濁狀態(tài)和濁音幀脈沖激勵(lì)的形式。將每幀語(yǔ)音與相鄰兩幀譜參數(shù)的差分特征、與相鄰兩幀基音周期的差分特征和增益均值作為觀測(cè)序列,將每幀語(yǔ)音數(shù)據(jù)各子帶的清濁狀態(tài)、濁音幀脈沖激勵(lì)的形式等激勵(lì)參數(shù)進(jìn)行編碼后作為狀態(tài)序列,進(jìn)行隱馬爾科夫模型的訓(xùn)練。對(duì)于輸入的連續(xù)多幀語(yǔ)音數(shù)據(jù),通過(guò)隱馬爾科夫模型可以對(duì)每幀語(yǔ)音數(shù)據(jù)各子帶的清濁狀態(tài)和濁音幀脈沖激勵(lì)的形式等激勵(lì)參數(shù)進(jìn)行預(yù)測(cè)。在進(jìn)行參數(shù)預(yù)測(cè)時(shí)用到了高斯混合模型和隱馬爾科夫模型,以下對(duì)它們的訓(xùn)練步驟進(jìn)行說(shuō)明。模型訓(xùn)練步驟需要選擇覆蓋不同說(shuō)話人、不同主題的音庫(kù)進(jìn)行訓(xùn)練,這樣可以保證訓(xùn)練模型的魯棒性。模型訓(xùn)練過(guò)程如圖10所示。步驟S510,對(duì)每個(gè)訓(xùn)練音頻采用步驟SllO中的方法進(jìn)行端點(diǎn)檢測(cè),剔除訓(xùn)練音庫(kù)中的非語(yǔ)音數(shù)據(jù),保留語(yǔ)音數(shù)據(jù)進(jìn)行后續(xù)處理。步驟S520,提取每幀語(yǔ)音數(shù)據(jù)的線譜對(duì)參數(shù)、基音周期、增益、各子帶的清濁狀態(tài)、濁音幀脈沖激勵(lì)的形式等語(yǔ)音參數(shù)。步驟S530,利用線譜對(duì)參數(shù)的升序特性,剔除不穩(wěn)定的數(shù)據(jù),如果線譜對(duì)參數(shù)不滿足升序特性或者相鄰兩階譜參數(shù)的距離小于閾值,則將其從訓(xùn)練數(shù)據(jù)中剔除。步驟S540,將提取的語(yǔ)音參數(shù)變換成訓(xùn)練高斯混合模型和隱馬爾科夫模型所需要的形式,對(duì)于譜參數(shù)和基音周期需要計(jì)算相鄰幀的差分特征,對(duì)于增益參數(shù)需要計(jì)算連續(xù)多幀的均值以及各幀增益與均值的差值,對(duì)于各子帶的清濁狀態(tài)和濁音幀脈沖激勵(lì)的形式需要根據(jù)不同組合進(jìn)行編碼。步驟S550,進(jìn)行高斯混合模型訓(xùn)練和隱馬爾科夫模型訓(xùn)練。利用譜參數(shù)的差分特征、基音周期的差分特征、增益均值和增益變化軌跡進(jìn)行高斯混合模型訓(xùn)練,通過(guò)EM迭代訓(xùn)練確定高斯混合模型中各個(gè)高斯成分的權(quán)重、均值和方差,得到多個(gè)參數(shù)的聯(lián)合概率分布。即完成對(duì)高斯混合模型的訓(xùn)練。
將每幀語(yǔ)音與相鄰兩幀譜參數(shù)的差分特征、基音周期的差分特征和增益均值作為觀測(cè)序列,將各子帶的清濁狀態(tài)和濁音幀脈沖激勵(lì)的形式進(jìn)行編碼后作為狀態(tài)序列,進(jìn)行隱馬爾科夫模型的訓(xùn)練。經(jīng)過(guò)多次迭代確定模型的初始概率、觀測(cè)概率和轉(zhuǎn)移概率。即完成對(duì)隱馬爾科夫模型的訓(xùn)練。步驟S230,根據(jù)解碼后重構(gòu)的語(yǔ)音參數(shù)以幀為單位合成語(yǔ)音。如圖7所示,語(yǔ)音生成步驟具體實(shí)現(xiàn)方法如下:子步驟S231,激勵(lì)信號(hào)是由脈沖激勵(lì)和噪聲激勵(lì)疊加而生成的,其中脈沖激勵(lì)是周期脈沖或非周期脈沖,噪聲激勵(lì)是各種隨機(jī)噪聲模型;將語(yǔ)音信號(hào)分成若干個(gè)子帶,每個(gè)子帶對(duì)應(yīng)一個(gè)脈沖激勵(lì)或噪聲激勵(lì),將各個(gè)子帶的激勵(lì)疊加作為合成語(yǔ)音的激勵(lì)源。各個(gè)子帶的激勵(lì)形式通過(guò)步驟S220計(jì)算得到。子步驟S232,為了使合成語(yǔ)音和原始語(yǔ)音在共振區(qū)有很好的匹配,引入了自適應(yīng)譜增強(qiáng)技術(shù),自適應(yīng)譜增強(qiáng)模塊通過(guò)突出激勵(lì)譜中共振峰頻率處的幅度譜,達(dá)到提高整個(gè)短時(shí)譜在共振峰處信噪比的目的,可以有效的彌補(bǔ)線性預(yù)測(cè)型濾波器只是極點(diǎn)濾波器的缺點(diǎn),增強(qiáng)合成語(yǔ)音共振峰的結(jié)構(gòu),防止合成語(yǔ)音聽起來(lái)發(fā)悶;子步驟S233,采用參數(shù)合成法利用語(yǔ)音的激勵(lì)參數(shù)和線性預(yù)測(cè)參數(shù)進(jìn)行語(yǔ)音合成;將激勵(lì)信號(hào)通過(guò)自適應(yīng)譜增強(qiáng)后的濾波器輸出合成后的語(yǔ)音,其中濾波器的系數(shù)是通過(guò)線譜對(duì)參數(shù)計(jì)算得到的線性預(yù)測(cè)系數(shù)。子步驟S234,以每個(gè)基音同步周期為單元,對(duì)增益進(jìn)行調(diào)節(jié);子步驟S235,通過(guò)脈沖擴(kuò)散濾波器,將激勵(lì)信號(hào)的能量在一個(gè)基音周期中進(jìn)行擴(kuò)散,減弱某些頻帶處周期性作用,從而減少在合成語(yǔ)音中的刺耳的成分,使合成語(yǔ)音的蜂鳴效果降低,變得更為連貫和自然;子步驟S236,對(duì)編解碼后的語(yǔ)音進(jìn)行均衡處理,調(diào)整各頻段的增益值,使低碼率下合成的語(yǔ)音明亮透徹。分析人耳的聽感特性,2-4kHz頻段對(duì)聲音的亮度影響很大,這段聲音不宜衰減,適當(dāng)?shù)奶嵘梢蕴岣呗曇舻拿髁炼群颓逦龋虼藢?duì)解碼后合成的語(yǔ)音適當(dāng)增加這一頻段的強(qiáng)度。綜上所述,本發(fā)明提出了一種語(yǔ)音編碼及解碼方法,對(duì)每幀語(yǔ)音數(shù)據(jù)提取譜參數(shù)、基音周期、增益均值等參數(shù),通過(guò)矢量碼本對(duì)譜參數(shù)進(jìn)行矢量量化,對(duì)基音周期和增益均值進(jìn)行非線性量化;對(duì)量化后的參數(shù)進(jìn)行編碼,生成語(yǔ)音數(shù)據(jù)包。對(duì)接收到的語(yǔ)音數(shù)據(jù)包進(jìn)行解碼,提取譜參數(shù)、基音周期、增益均值等參數(shù),通過(guò)上述參數(shù)對(duì)激勵(lì)參數(shù)和增益變化軌跡進(jìn)行預(yù)測(cè),然后通過(guò)聲碼器合成語(yǔ)音。解碼后的語(yǔ)音保持較高的可懂度,同時(shí)系統(tǒng)具有高魯棒性,不受說(shuō)話人、文本內(nèi)容、聲音采集環(huán)境的限制,便于實(shí)際應(yīng)用。需要說(shuō)明的是,上述對(duì)各部件的實(shí)現(xiàn)方式并不僅限于實(shí)施方式中提到的各種實(shí)現(xiàn)方式,本領(lǐng)域的普通技術(shù)人員可對(duì)其進(jìn)行簡(jiǎn)單地熟知地替換,例如:(I)語(yǔ)音編碼和解碼中用到的譜參數(shù)是線譜對(duì)參數(shù),可以用其它參數(shù)替代,如使用不同階數(shù)的梅爾倒譜系數(shù)。(2)對(duì)增益軌跡進(jìn)行預(yù)測(cè)時(shí)輸入?yún)?shù)進(jìn)行調(diào)整,如通過(guò)線譜對(duì)參數(shù)、基音周期和增益均值對(duì)增益變化軌跡進(jìn)行預(yù)測(cè)。以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)?!?br>
權(quán)利要求
1.一種語(yǔ)音數(shù)據(jù)的編碼方法,其特征在于,包括: 步驟S100,獲取原始音頻,剔除原始音頻中的非語(yǔ)音數(shù)據(jù),獲得語(yǔ)音段數(shù)據(jù),后續(xù)只對(duì)語(yǔ)音段數(shù)據(jù)進(jìn)行量化、編碼和傳輸; 步驟S200,對(duì)輸入的語(yǔ)音段數(shù)據(jù)進(jìn)行特征參數(shù)提取,提取的特征參數(shù)包括線譜對(duì)、基音周期和增益均值,對(duì)上述參數(shù)進(jìn)行參數(shù)變換,轉(zhuǎn)成參數(shù)量化時(shí)所需要的格式; 步驟S300,對(duì)各種語(yǔ)音參數(shù)進(jìn)行量化和編碼,生成語(yǔ)音數(shù)據(jù)包。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟SlOO進(jìn)一步包括步驟: 步驟S111,將原始音頻等間隔分成若干子段,計(jì)算每段原始音頻的短時(shí)能量、短時(shí)過(guò)零率和各頻帶能量,通過(guò)各頻帶能量計(jì)算100Hz-2000Hz頻段能量的比重; 步驟S112,將每段原始音頻的短時(shí)能量、短時(shí)過(guò)零率和100Hz-2000Hz頻段能量的比重分別與預(yù)先設(shè)定的取值范圍進(jìn)行比較,如果三個(gè)參數(shù)都在取值范圍內(nèi),則判定為待甄別數(shù)據(jù),如果三個(gè)參數(shù)都超出取值范圍,則判定為非語(yǔ)音段數(shù)據(jù),如果其中一個(gè)或兩個(gè)參數(shù)在取值范圍內(nèi)并且相鄰兩段音頻為待甄別數(shù)據(jù),則判定為待甄別數(shù)據(jù)否則判定為非語(yǔ)音數(shù)據(jù);通過(guò)上述判定可將采 集的音頻數(shù)據(jù)分為非語(yǔ)音段數(shù)據(jù)和待甄別段數(shù)據(jù),后續(xù)步驟只對(duì)待甄別數(shù)據(jù)進(jìn)行處理; 步驟S113,對(duì)待甄別數(shù)據(jù)以幀為單位提取梅爾倒譜系數(shù),先提取13階靜態(tài)參數(shù),然后分別計(jì)算它們的一階差分和二階差分,最終提取的參數(shù)是39維,利用這39維屬性進(jìn)行語(yǔ)音檢測(cè),將參數(shù)分別輸入到語(yǔ)音數(shù)據(jù)的高斯混合模型和各種非語(yǔ)音數(shù)據(jù)的高斯混合模型中,如果當(dāng)前幀輸入到語(yǔ)音數(shù)據(jù)的高斯混合模型時(shí)輸出概率最大則判定為語(yǔ)音數(shù)據(jù),否則判定為非語(yǔ)音數(shù)據(jù),對(duì)于判定結(jié)果需要進(jìn)行后處理,如果當(dāng)前幀判為非語(yǔ)音數(shù)據(jù)但相鄰兩幀判為語(yǔ)音數(shù)據(jù),則將當(dāng)前幀改判成語(yǔ)音數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟SlOO進(jìn)一步包括對(duì)高斯混合模型和非語(yǔ)音數(shù)據(jù)的高斯混合模型進(jìn)行訓(xùn)練,選擇各種類型的音頻進(jìn)行訓(xùn)練,該步驟進(jìn)一步包括: 步驟a,對(duì)全部訓(xùn)練音庫(kù)進(jìn)行音頻過(guò)濾,采用步驟Slll中的方法計(jì)算各段音頻的短時(shí)能量、短時(shí)過(guò)零率和各頻帶能量,然后采用步驟S112中的方法剔除部分非語(yǔ)音數(shù)據(jù),后續(xù)步驟只對(duì)剩余的數(shù)據(jù)進(jìn)行訓(xùn)練, 步驟b,根據(jù)音頻標(biāo)注對(duì)過(guò)濾后的音頻進(jìn)行分類,將原始音頻分為語(yǔ)音數(shù)據(jù)和非語(yǔ)音數(shù)據(jù),對(duì)于非語(yǔ)音數(shù)據(jù)需要根據(jù)音頻信號(hào)的特點(diǎn)對(duì)它們進(jìn)行進(jìn)一步分類。
步驟c,對(duì)分類后的音頻以幀為單位提取梅爾倒譜系數(shù),先提取13階靜態(tài)參數(shù),然后分別計(jì)算它們的一階差分和二階差分,最終提取的參數(shù)是39維,利用這39維屬性進(jìn)行高斯混合模型訓(xùn)練; 步驟d,對(duì)語(yǔ)音數(shù)據(jù)和不同類別的非語(yǔ)音數(shù)據(jù)采用39階的梅爾倒譜系數(shù)分別進(jìn)行高斯混合模型的訓(xùn)練,通過(guò)EM迭代訓(xùn)練確定不同高斯混合模型中各個(gè)高斯成分的權(quán)重、均值和方差,即完成對(duì)高斯混合模型的訓(xùn)練。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟S200進(jìn)一步包括: 步驟S211,對(duì)于每幀語(yǔ)音數(shù)據(jù)進(jìn)行高通濾波,消除語(yǔ)音采集過(guò)程中帶來(lái)的工頻干擾; 步驟S212,計(jì)算每幀語(yǔ)音數(shù)據(jù)的線譜對(duì)、基音周期和連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益均值; 子步驟S213,對(duì)每幀語(yǔ)音的譜參數(shù)、基音周期和連續(xù)多幀語(yǔ)音的增益均值進(jìn)行參數(shù)變換。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟S212進(jìn)一步包括:通過(guò)自相關(guān)法計(jì)算每幀語(yǔ)音參數(shù)的線性預(yù)測(cè)系數(shù),然后對(duì)線性預(yù)測(cè)系數(shù)進(jìn)行帶寬擴(kuò)展,最后將線性預(yù)測(cè)系數(shù)轉(zhuǎn)換成線譜對(duì)參數(shù);采用自相關(guān)法計(jì)算每幀語(yǔ)音數(shù)據(jù)的基音周期,分別進(jìn)行整數(shù)基音周期的粗估算、分?jǐn)?shù)基音的提取、基音周期的倍頻檢測(cè)、基音周期的平滑,最后利用線性預(yù)測(cè)系數(shù)計(jì)算每幀語(yǔ)音的殘差信號(hào)并通過(guò)殘差信號(hào)進(jìn)行基音周期的最終估計(jì);在計(jì)算每幀語(yǔ)音數(shù)據(jù)的增益時(shí),根據(jù)基音周期確定參與計(jì)算的采樣點(diǎn),最后計(jì)算連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益均值。
6.根 據(jù)權(quán)利要求4所述的方法,其特征在于,步驟S300進(jìn)一步包括:在對(duì)譜參數(shù)進(jìn)行矢量量化的過(guò)程中所使用的特征參數(shù)是線譜對(duì)參數(shù)和相鄰階線譜對(duì)參數(shù)的差分,對(duì)各階線譜對(duì)參數(shù),計(jì)算它與后一階線譜對(duì)參數(shù)的差分,對(duì)于基音周期和增益均值則將它們變換到對(duì)數(shù)域進(jìn)行后續(xù)處理。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,步驟S300進(jìn)一步包括: 在對(duì)譜參數(shù)進(jìn)行矢量量化的過(guò)程中,計(jì)算輸入譜參數(shù)與全部矢量碼本的距離,保留與輸入譜參數(shù)距離最近的前N個(gè)碼本作為次優(yōu)碼本進(jìn)行后續(xù)處理,然后使用前幾階線譜對(duì)參數(shù)作為特征參數(shù)從次優(yōu)碼本中選擇最佳碼本對(duì)譜參數(shù)進(jìn)行矢量量化。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,步驟S300進(jìn)一步包括:對(duì)基音周期進(jìn)行非線性量化時(shí),根據(jù)基音周期的取值范圍將其等分成若干個(gè)區(qū)間,對(duì)分布較稀疏的相鄰區(qū)間進(jìn)行合并,減少基音周期的量級(jí),從而降低對(duì)基音周期編碼的比特?cái)?shù)。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,步驟S300進(jìn)一步包括:對(duì)增益均值進(jìn)行非線性量化時(shí),根據(jù)增益的取值范圍將其分成若干個(gè)區(qū)間,利用語(yǔ)音數(shù)據(jù)增益的統(tǒng)計(jì)分布不均勻這一特性,對(duì)分布較稀疏的相鄰區(qū)間進(jìn)行合并,減少增益的量級(jí),實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效壓縮。
10.一種語(yǔ)音數(shù)據(jù)的解碼方法,所述語(yǔ)音數(shù)據(jù)是根據(jù)權(quán)利要求1-9任一項(xiàng)所述的編碼方法進(jìn)行編碼的語(yǔ)音數(shù)據(jù),其特征在于,該解碼方法包括:對(duì)接收到的語(yǔ)音數(shù)據(jù)包進(jìn)行解碼,提取譜參數(shù)、基音周期、增益均值和清濁狀態(tài)參數(shù),通過(guò)上述參數(shù)對(duì)激勵(lì)參數(shù)和增益變化軌跡進(jìn)行預(yù)測(cè),然后通過(guò)聲碼器合成語(yǔ)音,其中采用高斯混合模型對(duì)增益變化軌跡進(jìn)行預(yù)測(cè),模型的輸入?yún)?shù)是譜參數(shù)差分、基音周期差分和增益均值,模型的輸出參數(shù)是增益變化軌跡。
11.根據(jù)權(quán)利要求10所述的解碼方法,其特征在于,包括: 采用隱馬爾科夫模型對(duì)激勵(lì)參數(shù)進(jìn)行預(yù)測(cè),模型的輸入?yún)?shù)是譜參數(shù)差分、基音周期差分和增益均值,模型的輸出參數(shù)是各子帶的清濁狀態(tài)和濁音幀脈沖激勵(lì)的形式。
全文摘要
本發(fā)明提供了一種語(yǔ)音數(shù)據(jù)的編碼方法和解碼方法。該編碼方法包括獲取原始音頻,通過(guò)端點(diǎn)檢測(cè)剔除原始音頻中的非語(yǔ)音數(shù)據(jù),獲得語(yǔ)音段數(shù)據(jù);對(duì)每幀語(yǔ)音數(shù)據(jù)提取譜參數(shù)、基音周期等參數(shù),并計(jì)算連續(xù)多幀語(yǔ)音數(shù)據(jù)的增益均值,通過(guò)矢量碼本對(duì)譜參數(shù)進(jìn)行矢量量化,對(duì)基音周期和增益均值進(jìn)行非線性量化;對(duì)量化后的各種語(yǔ)音參數(shù)進(jìn)行編碼,生成語(yǔ)音數(shù)據(jù)包。該解碼方法包括對(duì)接收到的語(yǔ)音數(shù)據(jù)包進(jìn)行解碼,提取譜參數(shù)、基音周期、增益均值等參數(shù),通過(guò)上述參數(shù)對(duì)激勵(lì)參數(shù)和能量變化軌跡進(jìn)行預(yù)測(cè),最后通過(guò)聲碼器合成語(yǔ)音。本發(fā)明可以在極低編碼速率的情況下,保持較高的語(yǔ)音音質(zhì)。
文檔編號(hào)G10L19/032GK103247293SQ20131017670
公開日2013年8月14日 申請(qǐng)日期2013年5月14日 優(yōu)先權(quán)日2013年5月14日
發(fā)明者陶建華, 劉斌, 莫福源 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所