專利名稱:語音編碼方法及語音編碼裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及將數(shù)字語音信號(hào)壓縮到很少的信息量的語音編碼方法及語音編碼裝置,尤其是,涉及語音編碼方法及語音編碼裝置中的聲源的編碼方法。
圖8是表示特開平3-156498號(hào)公報(bào)中公開的現(xiàn)有的語音編碼裝置的結(jié)構(gòu)的框圖。在圖中,1是輸入語音,2是線性預(yù)測(cè)分析裝置,3是線性預(yù)測(cè)系數(shù)編碼裝置,7是多路復(fù)用裝置,8是語音代碼,47是聲源編碼部。此外,在聲源編碼部47內(nèi),48是分類裝置,49、50是切換裝置,51是多脈沖聲源編碼裝置,52是元音部聲源編碼裝置。
以下,說明該特開平3-156498號(hào)公報(bào)中公開的現(xiàn)有的語音編碼裝置的動(dòng)作。
這里,在結(jié)構(gòu)如圖所示的現(xiàn)有的語音編碼裝置中,將預(yù)先規(guī)定的區(qū)間長度、例如10ms作為1幀而以幀為單位進(jìn)行處理。
首先,將輸入語音1輸入到線性預(yù)測(cè)分析裝置2、分類裝置48和切換裝置49。線性預(yù)測(cè)分析裝置2,對(duì)該輸入語音1進(jìn)行分析,并抽出作為語音的聲譜包絡(luò)信息的線性預(yù)測(cè)系數(shù)。線性預(yù)測(cè)系數(shù)編碼裝置3,對(duì)所抽出的該線性預(yù)測(cè)系數(shù)進(jìn)行編碼,并將其代碼輸出到多路復(fù)用裝置7,同時(shí)輸出為進(jìn)行聲源的編碼而被量化了的線性預(yù)測(cè)系數(shù)。
分類裝置48,通過分析輸入語音1的音響特征而將其分類為元音性信號(hào)和其他信號(hào),并將分類結(jié)果輸出到切換裝置49和切換裝置50。切換裝置49,當(dāng)分類裝置48的分類結(jié)果為元音性信號(hào)時(shí),將輸入語音1連接于元音部聲源編碼裝置52,當(dāng)分類裝置48的分類結(jié)果不是元音性信號(hào)時(shí),將輸入語音1連接于多脈沖聲源編碼裝置51。
多脈沖聲源編碼裝置51,根據(jù)多個(gè)脈沖串的組合對(duì)聲源進(jìn)行編碼,并將編碼結(jié)果輸出到切換裝置50。元音部聲源編碼裝置52,計(jì)算可變時(shí)間長度的區(qū)段長度,同時(shí)例如用改進(jìn)的基音插補(bǔ)多脈沖聲源模型對(duì)該區(qū)段的聲源信號(hào)進(jìn)行編碼,并將其編碼結(jié)果輸出到切換裝置50。
切換裝置50,當(dāng)分類裝置48的分類結(jié)果為元音性信號(hào)時(shí),將元音部聲源編碼裝置52輸出的編碼結(jié)果連接于多路復(fù)用裝置7,當(dāng)分類裝置48的分類結(jié)果不是元音性信號(hào)時(shí),將多脈沖聲源編碼裝置51輸出的編碼結(jié)果連接于多路復(fù)用裝置7。多路復(fù)用裝置7,對(duì)從線性預(yù)測(cè)系數(shù)編碼裝置3輸入的代碼及從切換裝置50輸入的編碼結(jié)果進(jìn)行多路復(fù)用,并輸出所求得的語音代碼8。
如上所述,在特開平3-156498號(hào)公報(bào)所公開的現(xiàn)有的語音編碼裝置中,報(bào)告了根據(jù)輸入語音1的音響特征從預(yù)先準(zhǔn)備好的多種聲源模型中選擇一種并用所選定的聲源模型進(jìn)行編碼從而能以較少的信息量良好地表示語音信號(hào)。
另外,圖9是表示國際公開WO98/40877號(hào)公報(bào)中公開的現(xiàn)有的語音編碼裝置的結(jié)構(gòu)的框圖。在圖中,1是輸入語音,2是線性預(yù)測(cè)分析裝置,3是線性預(yù)測(cè)系數(shù)編碼裝置,4是自適應(yīng)聲源編碼裝置,7是多路復(fù)用裝置,8是語音代碼,53、54是驅(qū)動(dòng)聲源編碼裝置,55、56是增益編碼裝置,57是最小失真選擇裝置。
以下,說明該國際公開WO98/40877號(hào)公報(bào)中公開的現(xiàn)有的語音編碼裝置的動(dòng)作。
這里,在結(jié)構(gòu)如圖所示的現(xiàn)有的語音編碼裝置中,將長度為5~50ms左右的語音作為1幀而以幀為單位進(jìn)行處理。對(duì)于聲源的編碼,按將1幀分為2半后的每個(gè)子幀進(jìn)行處理。而為易于理解說明,在以下的說明中,不再特意地區(qū)別幀和子幀而只簡(jiǎn)單地記作幀。
首先,將輸入語音1輸入到線性預(yù)測(cè)分析裝置2、自適應(yīng)聲源編碼裝置4及驅(qū)動(dòng)聲源編碼裝置53。線性預(yù)測(cè)分析裝置2,對(duì)輸入語音1進(jìn)行分析,并抽出作為語音的聲譜包絡(luò)信息的線性預(yù)測(cè)系數(shù)。線性預(yù)測(cè)系數(shù)編碼裝置3,對(duì)該線性預(yù)測(cè)系數(shù)進(jìn)行編碼,并將其代碼輸出到多路復(fù)用裝置7,同時(shí)輸出為進(jìn)行聲源的編碼而被量化了的線性預(yù)測(cè)系數(shù)。
在自適應(yīng)聲源編碼裝置4中,以自適應(yīng)聲源代碼簿的形式存儲(chǔ)著過去的規(guī)定長度的聲源(信號(hào))。該自適應(yīng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的自適應(yīng)聲源代碼時(shí),從該自適應(yīng)聲源代碼計(jì)算重復(fù)周期,并利用該重復(fù)周期生成和輸出使過去的聲源周期反復(fù)的時(shí)間序列向量。自適應(yīng)聲源編碼裝置4,使通過將各自適應(yīng)聲源代碼輸入該自適應(yīng)聲源代碼簿而得到的時(shí)間序列向量通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器,從而求得臨時(shí)合成音。然后,檢查使該臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與輸入語音1之間的失真。對(duì)所有的自適應(yīng)聲源代碼進(jìn)行上述處理,并選擇給出最小失真的自適應(yīng)聲源代碼,同時(shí)將與所選定的自適應(yīng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為自適應(yīng)聲源輸出。另外,將從輸入語音1減去使自適應(yīng)聲源產(chǎn)生的合成音乘以適當(dāng)增益的信號(hào)后所得到的信號(hào)作為編碼對(duì)象信號(hào)輸出。
在驅(qū)動(dòng)聲源編碼裝置54中,以驅(qū)動(dòng)聲源代碼簿的形式存儲(chǔ)著多個(gè)時(shí)間序列向量。該驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),將存儲(chǔ)在與該驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的位置上的時(shí)間序列向量讀出后輸出。驅(qū)動(dòng)聲源編碼裝置54,通過將各自適應(yīng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而求出各時(shí)間序列向量,并使其通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器,從而求得臨時(shí)合成音。然后,檢查使該臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)之間的失真。對(duì)所有的驅(qū)動(dòng)聲源代碼進(jìn)行上述處理,并選擇給出最小失真的驅(qū)動(dòng)聲源代碼,同時(shí)將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源輸出。
在增益編碼裝置56中,以增益代碼簿的形式存儲(chǔ)著表示與自適應(yīng)聲源和驅(qū)動(dòng)聲源對(duì)應(yīng)的2個(gè)增益值的多個(gè)增益向量。該增益代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的增益代碼時(shí),將存儲(chǔ)在與該增益代碼對(duì)應(yīng)的位置上的增益向量讀出后輸出。增益編碼裝置56,通過將各增益代碼輸入該增益代碼簿而求出增益向量,并使從自適應(yīng)聲源編碼裝置4輸出的自適應(yīng)聲源乘以其第一要素,使從驅(qū)動(dòng)聲源編碼裝置54輸出的驅(qū)動(dòng)聲源乘以第二要素,并將所得到的2個(gè)信號(hào)相加,從而生成臨時(shí)聲源。接著,使該臨時(shí)聲源通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器,從而求得臨時(shí)合成音,并檢查該臨時(shí)合成音與通過驅(qū)動(dòng)聲源編碼裝置54輸入的輸入語音1之間的失真。對(duì)所有的增益代碼進(jìn)行上述處理,并選擇給出最小失真的增益代碼。然后,將由所選定的增益代碼、從自適應(yīng)聲源編碼裝置4通過驅(qū)動(dòng)聲源編碼裝置54輸入的自適應(yīng)聲源代碼及從驅(qū)動(dòng)聲源編碼裝置54輸入的驅(qū)動(dòng)聲源代碼構(gòu)成的聲源代碼、最小失真、與所選定的增益代碼對(duì)應(yīng)的臨時(shí)聲源輸出到最小失真選擇裝置57。
另一方面,在驅(qū)動(dòng)聲源編碼裝置53中,以驅(qū)動(dòng)聲源代碼簿的形式存儲(chǔ)著多個(gè)時(shí)間序列向量。該驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),將存儲(chǔ)在與該驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的位置上的時(shí)間序列向量讀出后輸出。驅(qū)動(dòng)聲源編碼裝置53,通過將各自適應(yīng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而求出各時(shí)間序列向量,并使其通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器,從而求得臨時(shí)合成音。然后,檢查使該臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與輸入語音1之間的失真。對(duì)所有的驅(qū)動(dòng)聲源代碼進(jìn)行上述處理,并選擇給出最小失真的驅(qū)動(dòng)聲源代碼,同時(shí)將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源輸出。
在增益編碼裝置55中,以第一增益代碼簿的形式存儲(chǔ)著與驅(qū)動(dòng)聲源對(duì)應(yīng)的對(duì)應(yīng)多個(gè)增益值。該增益代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的增益代碼時(shí),將存儲(chǔ)在與該增益代碼對(duì)應(yīng)的位置上的增益值讀出后輸出。增益編碼裝置55,通過將各增益代碼輸入該增益代碼簿而求得增益值,使從驅(qū)動(dòng)聲源編碼裝置53輸出的驅(qū)動(dòng)聲源乘以該增益值,并將所得到的信號(hào)作為臨時(shí)聲源。接著,使該臨時(shí)聲源通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器,從而求得臨時(shí)合成音,并檢查該臨時(shí)合成音與通過驅(qū)動(dòng)聲源編碼裝置53輸入的輸入語音1之間的失真。對(duì)所有的增益代碼進(jìn)行上述處理,并選擇給出最小失真的增益代碼。然后,將由所選定的增益代碼、從驅(qū)動(dòng)聲源編碼裝置53輸入的驅(qū)動(dòng)聲源代碼構(gòu)成的聲源代碼、最小失真、與所選定的增益代碼對(duì)應(yīng)的臨時(shí)聲源輸出到最小失真選擇裝置57。
最小失真選擇裝置57,將從增益編碼裝置55輸入的最小失真與從增益編碼裝置56輸入的最小失真進(jìn)行比較,選擇輸出較小失真的增益編碼裝置55或56,并將所選定的增益編碼裝置55、56輸出的聲源代碼輸出到多路復(fù)用裝置7。此外,還將從所選定的增益編碼裝置55、56輸出的聲源作為最終的聲源輸出到自適應(yīng)聲源編碼裝置4。自適應(yīng)聲源編碼裝置4,利用從最小失真選擇裝置57輸入的聲源對(duì)內(nèi)部的自適應(yīng)聲源代碼簿進(jìn)行更新。
在這之后,多路復(fù)用裝置7,對(duì)從線性預(yù)測(cè)系數(shù)編碼裝置3輸出的線性預(yù)測(cè)系數(shù)的代碼及從最小失真選擇裝置57輸出的聲源代碼進(jìn)行多路復(fù)用,并輸出所求得的語音代碼8。
如上所述,在國際公開WO98/40877號(hào)公報(bào)所公開的現(xiàn)有的語音編碼裝置中,報(bào)告了以兩種聲源模式分兩路進(jìn)行編碼并選擇給出較小失真的聲源模式從而可以進(jìn)行提供最佳編碼特性的模式選擇并能改善編碼質(zhì)量。
另外,作為這種進(jìn)行與語音編碼裝置有關(guān)的記述的文獻(xiàn),例如還有從輸入語音生成其長度與延遲參數(shù)對(duì)應(yīng)的目標(biāo)語音向量并進(jìn)行自適應(yīng)聲源搜索及驅(qū)動(dòng)聲源搜索的特開平9-319396號(hào)公報(bào)、根據(jù)自適應(yīng)聲源信號(hào)的信號(hào)功率從多個(gè)增益量化表中選擇與驅(qū)動(dòng)聲源對(duì)應(yīng)的增益量化表的特開2000-175598號(hào)公報(bào)等。
由于現(xiàn)有的語音編碼裝置具有如上所述的結(jié)構(gòu),所以分別存在著如下所述的課題。
在特開平3-156498號(hào)公報(bào)所公開的現(xiàn)有的語音編碼裝置中,根據(jù)輸入語音1的音響特征從預(yù)先準(zhǔn)備好的聲源模型中選擇一種,所以存在著由語音譯碼裝置將所求得的語音代碼譯碼后得到的譯碼音的主觀質(zhì)量即音質(zhì)不一定是最佳的課題。即,在基于輸入語音1的音響特征的分類中,必然存在著分類錯(cuò)誤,所以有時(shí)將會(huì)選擇出對(duì)輸入語音并不適合的聲源模型。此外,即使輸入語音1的分類正確,但有時(shí)在選定的聲源模型中不能進(jìn)行正常的編碼,反而在未被選擇的聲源模型中由語音譯碼裝置譯碼后得到的譯碼音卻具有很好的音質(zhì)。例如,當(dāng)在元音區(qū)間也存在著很多的過渡部等波形的紊亂時(shí),有時(shí)使元音部聲源編碼裝置52中的編碼結(jié)果惡化,但采用多脈沖方式反而可以對(duì)變化進(jìn)行良好的處理。
另外,在國際公開WO98/40877號(hào)公報(bào)所公開的現(xiàn)有的語音編碼裝置中,以兩種聲源模式分兩路分別進(jìn)行編碼并選擇給出較小失真的聲源模式,所以存在著由語音譯碼裝置將所求得的語音代碼譯碼后得到的譯碼音的主觀質(zhì)量(音質(zhì))不一定是最佳的課題。以下,邊參照?qǐng)D7邊對(duì)其進(jìn)行詳細(xì)說明。
圖7(a)示出輸入語音,圖7(b)示出選擇了為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音(由語音譯碼裝置將語音代碼譯碼后的結(jié)果),圖7(c)示出選擇了為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音。此外,圖7(a)中示出的輸入語音,為具有噪聲特征的區(qū)間的語音,如圖所示,有噪聲的輸入語音,其振幅大的部分和小的部分經(jīng)?;旌显谝粋€(gè)幀中。
在圖7的情況下,圖7(a)和圖7(b)的信號(hào)的作為信號(hào)差值的功率求得的失真值,大于圖7(a)和圖7(c)的失真。這是因?yàn)樵趫D7(a)所示的輸入語音的振幅大的部分上與圖7(c)的差值小。但是,當(dāng)人們聽取了圖7(b)和圖7(c)時(shí),一般認(rèn)為在圖7(c)的情況下聽起來是有脈沖的惡化音,而圖7(b)卻很好。因此,在選擇失真最小的聲源模式的現(xiàn)有的語音編碼裝置中,在由語音譯碼裝置將所求得的語音代碼譯碼后得到的譯碼音的主觀質(zhì)量(音質(zhì))上,有時(shí)不一定是最佳的選擇。
按照本發(fā)明,第1,提供一種語音編碼方法,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼方法的特征在于在編碼步驟中,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出,在比較步驟中,將由上述編碼步驟編碼后的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較,在選擇步驟中,根據(jù)由上述編碼步驟編碼后的編碼失真及上述比較步驟的比較結(jié)果進(jìn)行上述聲源模式的選擇。
按照本發(fā)明,第2,提供一種語音編碼方法,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼方法的特征在于在編碼步驟中,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出,在選擇步驟中,對(duì)由上述編碼步驟編碼后的編碼失真進(jìn)行相互比較,并根據(jù)該比較結(jié)果選擇一種聲源模式,在比較步驟中,將與由上述選擇步驟選定的聲源模式對(duì)應(yīng)的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較,在置換步驟中,根據(jù)上述比較步驟的比較結(jié)果對(duì)由上述選擇步驟選定的聲源模式進(jìn)行置換。
在選擇步驟中,也可以對(duì)所得到的比較結(jié)果為編碼失真超過閾值的聲源模式的選擇進(jìn)行抑制。
也可以按每種聲源模式準(zhǔn)備閾值。
在進(jìn)行編碼失真的輸出變換的變換步驟中,當(dāng)比較步驟的編碼失真與閾值的比較結(jié)果為上述編碼失真超過上述閾值時(shí),可以用上述閾值的值置換該編碼失真,在選擇步驟中,也可以從包含著由上述變換步驟輸出的編碼失真的所有聲源模式的編碼失真中選擇與最小編碼失真對(duì)應(yīng)的聲源模式。
在置換步驟中,當(dāng)與選擇步驟選定的聲源模式對(duì)應(yīng)的編碼失真超過閾值時(shí),也可以選擇預(yù)先決定的聲源模式。
也可以將閾值設(shè)定為對(duì)輸入語音或編碼對(duì)象信號(hào)規(guī)定的失真系數(shù)。
也可以設(shè)置判定步驟,通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài),并僅當(dāng)上述判定步驟輸出規(guī)定的判定結(jié)果時(shí),由選擇步驟進(jìn)行聲源模式的選擇而不使用比較步驟的比較結(jié)果。
也可以設(shè)置判定步驟,通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài),并設(shè)置閾值計(jì)算步驟,根據(jù)上述判定步驟的判定結(jié)果進(jìn)行閾值的決定,在比較步驟中,利用由上述閾值計(jì)算步驟決定的閾值進(jìn)行比較。
判定步驟,也可以至少進(jìn)行是否是語音的開始的判定。
也可以由生成有噪聲聲源的聲源模式及生成無噪聲聲源的聲源模式形成多種聲源模式。
也可以由使用有噪聲的聲源代碼字的聲源模式及使用無噪聲的聲源代碼字的聲源模式形成多種聲源模式。
按照本發(fā)明,第3,提供一種語音編碼裝置,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼裝置的特征在于,備有編碼裝置,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出;比較裝置,將由上述編碼裝置編碼后的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較;選擇裝置,根據(jù)由上述編碼裝置編碼后的編碼失真及上述比較裝置的比較結(jié)果進(jìn)行上述聲源模式的選擇。
按照本發(fā)明,第4,提供一種語音編碼裝置,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼裝置的特征在于,備有編碼裝置,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出;選擇裝置,對(duì)由上述編碼裝置編碼后的編碼失真進(jìn)行相互比較,并根據(jù)該比較結(jié)果選擇一種聲源模式;比較裝置,將與由上述選擇裝置選定的聲源模式對(duì)應(yīng)的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較;置換裝置,根據(jù)上述比較裝置的比較結(jié)果對(duì)由上述選擇裝置選定的聲源模式進(jìn)行置換。
比較裝置,也可以將用于與由編碼裝置輸出的編碼失真進(jìn)行比較的閾值設(shè)定為對(duì)輸入語音或編碼對(duì)象信號(hào)規(guī)定的失真系數(shù)。
也可以備有通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài)的判定裝置,選擇裝置,僅當(dāng)上述判定裝置輸出規(guī)定的判定結(jié)果時(shí),進(jìn)行聲源模式的選擇而不使用比較裝置的比較結(jié)果。
也可以由生成有噪聲聲源的聲源模式及生成無噪聲聲源的聲源模式形成多種聲源模式。
圖2是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)2的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。
圖3是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)3的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。
圖4是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)4的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。
圖5是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)5的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。
圖6是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)6的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。
圖7是用于說明使由語音譯碼裝置將語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的情況的波形圖。
圖8是表示現(xiàn)有的語音編碼裝置的結(jié)構(gòu)一例的框圖。
圖9是表示現(xiàn)有的語音編碼裝置的結(jié)構(gòu)的另一例的框圖。用于實(shí)施本發(fā)明的最佳形態(tài)以下,說明本發(fā)明的一實(shí)施形態(tài)。實(shí)施形態(tài)1
圖1是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)1的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。在圖中,1是輸入語音,2是從該輸入語音1抽出線性預(yù)測(cè)系數(shù)的線性預(yù)測(cè)系數(shù)分析裝置,3是為進(jìn)行編碼而對(duì)所抽出的線性預(yù)測(cè)系數(shù)進(jìn)行量化的線性預(yù)測(cè)系數(shù)編碼裝置。4是根據(jù)輸入語音1及來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)輸出自適應(yīng)聲源和編碼對(duì)象信號(hào)的自適應(yīng)聲源編碼裝置。5是根據(jù)輸入語音1、來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)及來自自適應(yīng)聲源編碼裝置4信號(hào)輸出驅(qū)動(dòng)聲源、驅(qū)動(dòng)聲源代碼及模式選擇信息的驅(qū)動(dòng)聲源編碼部。6是將輸入語音1、來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)及來自驅(qū)動(dòng)聲源編碼部5的信號(hào)作為輸入而選擇增益代碼并將與該增益代碼對(duì)應(yīng)的聲源輸入到自適應(yīng)聲源編碼裝置4的增益編碼裝置。7是對(duì)來自線性預(yù)測(cè)系數(shù)編碼裝置3、自適應(yīng)聲源編碼裝置4、驅(qū)動(dòng)聲源編碼部5及增益編碼裝置6的信號(hào)進(jìn)行多路復(fù)用的多路復(fù)用裝置,8是從該多路復(fù)用裝置7輸出的由該語音編碼裝置編碼后的語音代碼。
另外,在驅(qū)動(dòng)聲源編碼部5內(nèi),9是備有由隨機(jī)數(shù)生成的時(shí)間序列向量所構(gòu)成的驅(qū)動(dòng)聲源代碼簿并根據(jù)來自線性預(yù)測(cè)系數(shù)編碼裝置3及自適應(yīng)聲源編碼裝置4的信號(hào)檢查臨時(shí)合成音與編碼對(duì)象信號(hào)之間的失真從而輸出驅(qū)動(dòng)聲源代碼、失真及驅(qū)動(dòng)聲源的作為編碼裝置的驅(qū)動(dòng)聲源編碼裝置。10、11是備有包含著各自不同的脈沖位置表的驅(qū)動(dòng)聲源代碼簿并根據(jù)來自線性預(yù)測(cè)系數(shù)編碼裝置3及自適應(yīng)聲源編碼裝置4的信號(hào)檢查臨時(shí)合成音與編碼對(duì)象信號(hào)之間的失真從而輸出驅(qū)動(dòng)聲源代碼、失真及驅(qū)動(dòng)聲源的作為編碼裝置的驅(qū)動(dòng)聲源編碼裝置。12是計(jì)算輸入語音1的信號(hào)功率的功率計(jì)算裝置,13是根據(jù)來自功率計(jì)算裝置12的信號(hào)計(jì)算與失真有關(guān)的閾值的閾值計(jì)算裝置。14是分析輸入語音1并進(jìn)行是否是語音的開始部分的判定的判定裝置。15是將來自驅(qū)動(dòng)聲源編碼裝置9的信號(hào)與來自閾值計(jì)算裝置13的閾值進(jìn)行比較的比較裝置,16是根據(jù)判定裝置14的判定結(jié)果及比較裝置15的比較結(jié)果進(jìn)行驅(qū)動(dòng)聲源編碼裝置9的輸出變換的變換裝置。17是根據(jù)來自變換裝置16的信號(hào)及來自驅(qū)動(dòng)聲源編碼裝置10和11的信號(hào)將驅(qū)動(dòng)聲源、驅(qū)動(dòng)聲源代碼及模式選擇信息輸出到多路復(fù)用裝置7的作為選擇裝置的最小失真選擇裝置。
以下,對(duì)動(dòng)作進(jìn)行說明。
在本實(shí)施形態(tài)1的語音編碼裝置中,例如將20ms作為1幀并以幀為單位進(jìn)行處理。在聲源的編碼處理、即自適應(yīng)聲源編碼裝置4、驅(qū)動(dòng)聲源編碼部5及增益編碼裝置6的處理中,按將1幀分為2半后的每個(gè)子幀進(jìn)行處理。而為易于理解說明,在以下的說明中,與現(xiàn)有技術(shù)的情況一樣,不再特意地區(qū)別幀和子幀而只簡(jiǎn)單地記作幀。
首先,將輸入語音1輸入到線性預(yù)測(cè)分析裝置2、自適應(yīng)聲源編碼裝置4、驅(qū)動(dòng)聲源編碼部5及增益編碼裝置6。輸入到驅(qū)動(dòng)聲源編碼部5的輸入語音1,被傳送到其功率計(jì)算裝置12和判定裝置14。線性預(yù)測(cè)分析裝置2,當(dāng)輸入語音1時(shí)對(duì)其進(jìn)行分析,并在抽出作為語音的聲譜包絡(luò)信息的線性預(yù)測(cè)系數(shù)后,將其傳送到線性預(yù)測(cè)系數(shù)編碼裝置3。線性預(yù)測(cè)系數(shù)編碼裝置3,對(duì)從線性預(yù)測(cè)分析裝置2接收到的線性預(yù)測(cè)系數(shù)進(jìn)行編碼并輸出到多路復(fù)用裝置7,同時(shí)將為進(jìn)行聲源的編碼而被量化了的線性預(yù)測(cè)系數(shù)輸出到自適應(yīng)聲源編碼裝置4、驅(qū)動(dòng)聲源編碼部5及增益編碼裝置6。在驅(qū)動(dòng)聲源編碼部5中,將來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)輸入到驅(qū)動(dòng)聲源編碼裝置9~11。
另外,在本實(shí)施形態(tài)1中,將線性預(yù)測(cè)系數(shù)用作聲譜包絡(luò)信息,但并不限定于此,也可以使用LSP(Line Spectrum Pairs線譜對(duì))等其他參數(shù)。
在自適應(yīng)聲源編碼裝置4中,備有存儲(chǔ)了過去的規(guī)定長度的聲源(信號(hào))的自適應(yīng)聲源代碼簿。該自適應(yīng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的自適應(yīng)聲源代碼時(shí),求出與該自適應(yīng)聲源代碼對(duì)應(yīng)的過去的聲源的重復(fù)周期,并利用該重復(fù)周期生成和輸出使過去的聲源周期反復(fù)的時(shí)間序列向量。自適應(yīng)聲源編碼裝置4,使通過將各自適應(yīng)聲源代碼輸入該自適應(yīng)聲源代碼簿而得到的時(shí)間序列向量通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,根據(jù)使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與輸入語音1的差值檢查其兩者之間的失真。
自適應(yīng)聲源編碼裝置4,對(duì)所有的自適應(yīng)聲源代碼進(jìn)行上述處理,選擇給出最小失真的自適應(yīng)聲源代碼,并將與所選定的自適應(yīng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為自適應(yīng)聲源輸出到驅(qū)動(dòng)聲源編碼裝置9及驅(qū)動(dòng)聲源編碼裝置10、11。另外,還將從輸入語音1減去使自適應(yīng)聲源產(chǎn)生的合成音乘以適當(dāng)增益的信號(hào)后所得到的信號(hào)(兩者間的失真)作為編碼對(duì)象信號(hào)輸出到驅(qū)動(dòng)聲源編碼裝置9及驅(qū)動(dòng)聲源編碼裝置10、11。
在驅(qū)動(dòng)聲源編碼裝置9中,將由隨機(jī)數(shù)生成的多個(gè)時(shí)間序列向量作為有噪聲的聲源代碼字存儲(chǔ)在驅(qū)動(dòng)聲源代碼簿內(nèi)。該驅(qū)動(dòng)聲源編碼裝置9的驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),從與該驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的位置讀出并輸出其中存儲(chǔ)著的時(shí)間序列向量。在這種情況下,所輸出的時(shí)間序列向量生成有噪聲的聲源。驅(qū)動(dòng)聲源編碼裝置9,使通過將各驅(qū)動(dòng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而得到的時(shí)間序列向量通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,根據(jù)使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)之間的差值檢查失真。這里,如設(shè)編碼對(duì)象信號(hào)為x、臨時(shí)合成音為y,則兩者間的失真D可按以下的式(1)計(jì)算。D=Σixi2-(Σixiyi)2Σiyi2----(1)]]>驅(qū)動(dòng)聲源編碼裝置9,對(duì)所有的驅(qū)動(dòng)聲源代碼進(jìn)行上述處理,并選擇給出最小失真的驅(qū)動(dòng)聲源代碼,同時(shí)將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源,并輸出到比較裝置15和變換裝置16。這時(shí),將上述最小失真及驅(qū)動(dòng)聲源代碼也與該驅(qū)動(dòng)聲源一起輸出到比較裝置15和變換裝置16。
在驅(qū)動(dòng)聲源編碼裝置10中,存儲(chǔ)著包含脈沖位置表的驅(qū)動(dòng)聲源代碼簿。該驅(qū)動(dòng)聲源編碼裝置10的驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),將該驅(qū)動(dòng)聲源代碼分離為多個(gè)脈沖位置代碼和極性,讀出存儲(chǔ)在與脈沖位置表中的各脈沖位置代碼對(duì)應(yīng)的位置上的脈沖位置,并根據(jù)該脈沖位置和極性生成并輸出具有多個(gè)脈沖的時(shí)間序列向量。就是說,所輸出的時(shí)間序列向量,生成由多個(gè)脈沖構(gòu)成的無噪聲的聲源。此外,可以看作是在該驅(qū)動(dòng)聲源編碼裝置10的驅(qū)動(dòng)聲源代碼簿內(nèi)以上述脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字。
驅(qū)動(dòng)聲源編碼裝置10,利用與由自適應(yīng)聲源編碼裝置4選定的自適應(yīng)聲源代碼對(duì)應(yīng)的重復(fù)周期使通過將各自適應(yīng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而求得的各時(shí)間序列向量的基音周期化,并進(jìn)一步使其通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,根據(jù)使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)的差值檢查兩者之間的失真。
驅(qū)動(dòng)聲源編碼裝置10,對(duì)所有的驅(qū)動(dòng)聲源代碼進(jìn)行上述處理,并選擇給出最小失真的驅(qū)動(dòng)聲源代碼,同時(shí)將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源。然后,將該驅(qū)動(dòng)聲源與上述最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置17。
在驅(qū)動(dòng)聲源編碼裝置11中,存儲(chǔ)著包含與驅(qū)動(dòng)聲源編碼裝置10不同的脈沖位置表的驅(qū)動(dòng)聲源代碼簿。該驅(qū)動(dòng)聲源編碼裝置11的驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),將該驅(qū)動(dòng)聲源代碼分離為多個(gè)脈沖位置代碼和極性,讀出存儲(chǔ)在與脈沖位置表中的各脈沖位置代碼對(duì)應(yīng)的位置上的脈沖位置,并根據(jù)該脈沖位置和極性生成并輸出具有多個(gè)脈沖的時(shí)間序列向量。在這種情況下,與驅(qū)動(dòng)聲源編碼裝置10一樣,也由時(shí)間序列向量生成由多個(gè)脈沖構(gòu)成的無噪聲的聲源,并可以看作是在該驅(qū)動(dòng)聲源代碼簿內(nèi)以上述脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字。
驅(qū)動(dòng)聲源編碼裝置11,利用與由自適應(yīng)聲源編碼裝置4選定的自適應(yīng)聲源代碼對(duì)應(yīng)的重復(fù)周期使通過將各自適應(yīng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而求得的各時(shí)間序列向量的基音周期化,并進(jìn)一步使其通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)的差值,并根據(jù)該差值檢查兩者之間的失真。
驅(qū)動(dòng)聲源編碼裝置11,對(duì)所有的驅(qū)動(dòng)聲源代碼進(jìn)行上述處理,并選擇給出最小失真的驅(qū)動(dòng)聲源代碼,同時(shí)將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源。然后,將該驅(qū)動(dòng)聲源與上述最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置17。
功率計(jì)算裝置12,計(jì)算接收到的輸入語音1的幀內(nèi)的信號(hào)功率,并將所求得的信號(hào)功率輸出到閾計(jì)算裝置13。閾值計(jì)算裝置13,使從功率計(jì)算裝置12輸入的信號(hào)功率乘以預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的常數(shù),并將該計(jì)算結(jié)果作為與失真有關(guān)的閾值輸出到比較裝置15和變換裝置16。
這里,如設(shè)預(yù)先準(zhǔn)備好的常數(shù)為R、信號(hào)功率為P,則與失真有關(guān)的閾值Dth可按以下的式(2)求得。
Dth=R·P …(2)另外,常數(shù)R是功率領(lǐng)域內(nèi)的與失真系數(shù)有關(guān)的常數(shù),在本實(shí)施形態(tài)1中設(shè)定為0.7。此外,使輸入語音1的信號(hào)功率P乘以與失真系數(shù)有關(guān)的常數(shù)R而求得的與失真有關(guān)的閾值Dth,具有在式(1)所示的失真領(lǐng)域內(nèi)定義的值。
另一方面,判定裝置14,通過對(duì)接收到的輸入語音1進(jìn)行分析而判定語音形態(tài)。其結(jié)果是,當(dāng)為語音的開始部分時(shí),作為判定結(jié)果輸出“0”,而當(dāng)為其他部分時(shí),作為判定結(jié)果輸出“1”。是否是語音的開始,可以根據(jù)使輸入語音1的信號(hào)功率除以前一幀的信號(hào)功率所得的商是否超過規(guī)定的閾值進(jìn)行粗略的判定。
比較裝置15,將從驅(qū)動(dòng)聲源編碼裝置9輸入的失真D與從閾值計(jì)算裝置13輸入的與失真有關(guān)的閾值Dth進(jìn)行比較,作為其比較結(jié)果,當(dāng)失真D較大時(shí)輸出“1”,在其他情況下輸出“0”。變換裝置16,接收從判定裝置14輸出的判定結(jié)果及從比較裝置15輸出的比較結(jié)果,當(dāng)兩者都為“1”時(shí),將從驅(qū)動(dòng)聲源編碼裝置9輸入的失真D置換為從閾值計(jì)算裝置13輸入的閾值Dth的值。而當(dāng)從判定裝置14輸出的判定結(jié)果或從比較裝置15輸出的比較結(jié)果中的任何一方為“0”時(shí),該變換裝置16不進(jìn)行上述置換處理。該變換裝置16的置換處理結(jié)果,輸出到最小失真選擇裝置17。
最小失真選擇裝置17,對(duì)從該變換裝置16輸入的失真、從驅(qū)動(dòng)聲源編碼裝置10輸入的失真、從驅(qū)動(dòng)聲源編碼裝置11輸入的失真進(jìn)行比較,并從其中選擇最小的失真。然后,將從輸出該選定的失真的變換裝置16或驅(qū)動(dòng)聲源編碼裝置10、11輸出的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。進(jìn)一步,將指示選擇了上述3個(gè)失真中的哪一個(gè)的信息作為模式選擇信息輸出到多路復(fù)用裝置7。
另外,由于式(1)的第一項(xiàng)與臨時(shí)合成音y無關(guān),所以對(duì)使失真D為最小的y的搜索,相當(dāng)于對(duì)使如以下的式(3)所示的上述式(1)的第二項(xiàng)為最大的y的搜索。d=(Σixiyi)2Σiyi2---(3)]]>因此,對(duì)多個(gè)臨時(shí)合成音y計(jì)算由該式(3)示出的評(píng)價(jià)值d并選擇可以提供使其為最大的臨時(shí)合成音y的驅(qū)動(dòng)聲源代碼,也能取得同樣的結(jié)果。但是,當(dāng)各驅(qū)動(dòng)聲源編碼裝置搜索使由式(3)示出的評(píng)價(jià)值d為最大的驅(qū)動(dòng)聲源代碼并代替失真D而輸出評(píng)價(jià)值d時(shí),必須使閾值計(jì)算裝置13、變換裝置16、最小失真選擇裝置17中的處理進(jìn)行如下的變更。
即,在閾值計(jì)算裝置13中,設(shè)編碼對(duì)象信號(hào)x的信號(hào)功率為P’,并按以下的式(4)計(jì)算與評(píng)價(jià)值d對(duì)應(yīng)的閾值dth。
dth=P’-R·P …(4)這里,該式(4),可以通過將式(1)與式(3)合并以求得以下的式(5)并將式(2)代入所求得的式(5)的第二項(xiàng)而導(dǎo)出。而式(5)的第一項(xiàng)是編碼對(duì)象信號(hào)的信號(hào)功率P’。這時(shí),作為對(duì)閾值計(jì)算裝置13的輸入,必須追加從自適應(yīng)聲源編碼裝置4輸出的編碼對(duì)象信號(hào)。dth=Σixi2-Dth----(5)]]>另外,在比較裝置15中,將從驅(qū)動(dòng)聲源編碼裝置9輸入的評(píng)價(jià)值d與從閾值計(jì)算裝置13輸入的閾值dth進(jìn)行比較,作為其比較結(jié)果,當(dāng)評(píng)價(jià)值d較小時(shí)輸出“1”,在其他情況下輸出“0”。將從比較裝置15輸出的比較結(jié)果及從判定裝置14輸出的判定結(jié)果輸出到變換裝置16,如兩者都為“1”,則將從驅(qū)動(dòng)聲源編碼裝置9輸出的結(jié)果中的評(píng)價(jià)值d置換為從閾值計(jì)算裝置13輸入的閾值dth的值。而在其他情況下不進(jìn)行評(píng)價(jià)值d的置換處理。
將評(píng)價(jià)值d從變換裝置16及驅(qū)動(dòng)聲源編碼裝置10和11輸入到最小失真選擇裝置17。最小失真選擇裝置17,對(duì)上述3個(gè)評(píng)價(jià)值d進(jìn)行比較,并從其中選擇最大的評(píng)價(jià)值。然后,將從輸出所選定的評(píng)價(jià)值的變換裝置16或驅(qū)動(dòng)聲源編碼裝置10或驅(qū)動(dòng)聲源編碼裝置11輸出的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。進(jìn)一步,將指示選擇了上述3個(gè)評(píng)價(jià)值中的哪一個(gè)的信息作為模式選擇信息輸出到多路復(fù)用裝置7。
在增益編碼裝置6中,以增益代碼簿的形式存儲(chǔ)著表示與自適應(yīng)聲源和驅(qū)動(dòng)聲源對(duì)應(yīng)的2個(gè)增益值的多個(gè)時(shí)間序列向量。該增益代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的增益代碼時(shí),將存儲(chǔ)在與該增益代碼對(duì)應(yīng)的位置上的增益向量讀出后輸出。增益編碼裝置6,通過將各增益代碼輸入該增益代碼簿而求出增益向量,使自適應(yīng)聲源編碼裝置4輸出的自適應(yīng)聲源乘以其第一要素,使最小失真選擇裝置17輸出的驅(qū)動(dòng)聲源乘以第二要素,并將所得到的2個(gè)信號(hào)相加,從而生成臨時(shí)聲源。接著,使該臨時(shí)聲源通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取所求得的臨時(shí)合成音與輸入語音1的差值,并根據(jù)該差值檢查兩者之間的失真。
增益編碼裝置6,對(duì)所有的增益代碼進(jìn)行上述處理,并選擇給出最小失真的增益代碼,同時(shí)將所選定的該增益代碼輸出到多路復(fù)用裝置7,并將與所選定的增益代碼對(duì)應(yīng)的臨時(shí)聲源作為最終的聲源輸出到自適應(yīng)聲源編碼裝置4。
自適應(yīng)聲源編碼裝置4,當(dāng)接收從該增益編碼裝置6輸出的最終的聲源時(shí),根據(jù)該最終的聲源對(duì)存儲(chǔ)在內(nèi)部的自適應(yīng)聲源代碼部進(jìn)行更新。
在這之后,多路復(fù)用裝置7,對(duì)從線性預(yù)測(cè)系數(shù)編碼裝置3輸出的線性預(yù)測(cè)系數(shù)的代碼、從自適應(yīng)聲源編碼裝置4輸出的自適應(yīng)聲源代碼、從驅(qū)動(dòng)聲源編碼部5的最小失真選擇裝置17輸出的驅(qū)動(dòng)聲源代碼和模式選擇信息及從增益編碼裝置6輸出的增益代碼進(jìn)行多路復(fù)用,并輸出所求得的語音代碼8。
以下,邊參照?qǐng)D7邊對(duì)按照本實(shí)施形態(tài)1而使由語音譯碼裝置將所求得的語音代碼8譯碼后得到的譯碼音的主觀質(zhì)量即音質(zhì)得到改善的情況進(jìn)行說明。圖7是表示用于對(duì)使編碼失真為最小的聲源模式的選擇進(jìn)行說明的各波形的示意圖,圖7(a)示出輸入語音,圖7(b)示出選擇了為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音(由語音譯碼裝置將語音代碼譯碼后的結(jié)果),圖7(c)示出選擇了為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音。此外,由于圖7(a)中示出的輸入語音為具有噪聲特征的區(qū)間的語音,如圖所示,有噪聲的輸入語音,其振幅大的部分和小的部分經(jīng)常混合在一個(gè)幀中。
當(dāng)輸入語音1為圖7(a)所示的有噪聲的語音時(shí),使其模型化一般起不到任何作用,所以,無論在圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式(使用有噪聲的聲源代碼字的聲源模式)的情況下,還是在圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式(使用無噪聲的聲源代碼字的聲源模式)的情況下,編碼時(shí)的失真系數(shù)都是較大的值。
這里,驅(qū)動(dòng)聲源編碼裝置9,使用由隨機(jī)數(shù)生成的時(shí)間序列向量,并對(duì)應(yīng)于圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式。而驅(qū)動(dòng)聲源編碼裝置10和11,使用脈沖聲源及基音周期性,并對(duì)應(yīng)于圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式。
如上所述,雖然從各驅(qū)動(dòng)聲源編碼裝置9~11輸出的失真D都具有較大的值,但只有從驅(qū)動(dòng)聲源編碼裝置9輸出的失真D由變換裝置16裝置置換為比失真D小的閾值Dth。其結(jié)果是,由最小失真選擇裝置17選擇從驅(qū)動(dòng)聲源編碼裝置9輸出的驅(qū)動(dòng)聲源代碼,并產(chǎn)生圖7(b)所示的譯碼音。因此,即使當(dāng)圖7(b)所示的譯碼音的失真大于圖7(c)所示的譯碼音的失真時(shí),在有噪聲的區(qū)間等編碼時(shí)的失真系數(shù)大的區(qū)間內(nèi),也仍能穩(wěn)定地選擇圖7(b)所示的譯碼音。
另外,在本實(shí)施形態(tài)1中,僅當(dāng)由判定裝置14判定為不是語音的開始部分時(shí),進(jìn)行變換裝置16的置換處理。即,如果當(dāng)判定為語音的開始部分時(shí)也進(jìn)行變換裝置16的換處理從而產(chǎn)生圖7(b)所示的譯碼音,則將失去破裂音的脈沖特征,或使元音的開始部分惡化成刺耳的音質(zhì)。
另外,在本實(shí)施形態(tài)1中,由功率計(jì)算裝置12計(jì)算輸入語音1的信號(hào)功率,并由閾值計(jì)算裝置13利用該信號(hào)功率進(jìn)行閾值的計(jì)算。即,通過使輸入語音1的信號(hào)功率乘以與失真系數(shù)有關(guān)的常數(shù),計(jì)算具有一定的失真系數(shù)(SN比等)的失真值作為閾值。當(dāng)驅(qū)動(dòng)聲源編碼裝置9的失真超過一定的失真系數(shù)(SN比等)時(shí),使用該閾值置換該失真值,從而可以很容易地選擇驅(qū)動(dòng)聲源編碼裝置9輸出的失真。
另外,對(duì)于閾值計(jì)算裝置13,在結(jié)構(gòu)上也可以變形為不使用輸入語音1的信號(hào)功率而直接輸出固定閾值R。在這種情況下,變形為將各驅(qū)動(dòng)聲源編碼裝置9~11輸出的失真作為除以輸入語音1的信號(hào)功率P的值即失真系數(shù)輸出,從而即使利用不同的結(jié)構(gòu)也可以取得與上述實(shí)施形態(tài)1的情況相同的結(jié)果。
另外,在本實(shí)施形態(tài)1中,由功率計(jì)算裝置12計(jì)算輸入語音1的信號(hào)功率,但也可以變更為計(jì)算自適應(yīng)聲源編碼裝置4輸出的編碼對(duì)象信號(hào)的信號(hào)功率。在這種情況下,閾值計(jì)算裝置13輸出的閾值,不是與上述輸入語音1所對(duì)應(yīng)的失真有關(guān)的閾值,而是與編碼對(duì)象信號(hào)所對(duì)應(yīng)的失真有關(guān)的閾值。
另外,在穩(wěn)態(tài)元音區(qū)間內(nèi)可以用自適應(yīng)聲源進(jìn)行良好的編碼,因而編碼對(duì)象信號(hào)有時(shí)具有振幅低于輸入語音的噪聲。如上所述,當(dāng)結(jié)構(gòu)為由功率計(jì)算裝置12計(jì)算編碼對(duì)象信號(hào)的信號(hào)功率時(shí),閾值也變得較小,因而很容易引起由變換裝置16進(jìn)行的置換。但是,在穩(wěn)態(tài)元音區(qū)間內(nèi),最好選擇使失真為最小的驅(qū)動(dòng)聲源編碼裝置9~11,而不進(jìn)行置換,所以,為使置換停止就必須修改判定裝置14的判定處理。具體地說,判定裝置14,只需當(dāng)檢測(cè)到語音的開始或元音區(qū)間時(shí)作為判定結(jié)果輸出“0”而當(dāng)為其他部分時(shí)作為判定結(jié)果輸出“1”即可。元音區(qū)間的檢測(cè),可以利用輸入語音1的基音周期性的大小、自適應(yīng)聲源編碼裝置4的編碼處理中的中間參數(shù)等進(jìn)行。
另外,在本實(shí)施形態(tài)1中,由功率計(jì)算裝置12計(jì)算輸入語音1的信號(hào)功率,并由閾值計(jì)算裝置13利用該信號(hào)功率進(jìn)行閾值的計(jì)算,但通過改變閾值計(jì)算裝置13的計(jì)算式而使用振幅或?qū)?shù)功率等代替信號(hào)功率,也可以取得同樣的結(jié)果。
另外,在本實(shí)施形態(tài)1中,在結(jié)構(gòu)上,作為生成有噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有一個(gè)驅(qū)動(dòng)聲源編碼裝置9,而作為生成無噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有2個(gè)驅(qū)動(dòng)聲源編碼裝置10、11,但當(dāng)然可以使前者為2個(gè)以上并使后者為1個(gè)或3個(gè)以上。
另外,在本實(shí)施形態(tài)1中,根據(jù)閾值Dth與失真D的比較結(jié)果將失真D置換為閾值Dth,但也可以準(zhǔn)備將閾值Dth和失真D作為輸入變量的函數(shù),并將其輸出值與失真D進(jìn)行置換。
另外,在本實(shí)施形態(tài)1中,簡(jiǎn)單地將信號(hào)間的平方距離作為失真,但當(dāng)然也可以是在語音編碼裝置中經(jīng)常使用的聽覺加權(quán)失真。
如上所述,按照本實(shí)施形態(tài)1,當(dāng)從多種聲源模式中選擇一種并使用該聲源模式按每個(gè)被稱為幀的規(guī)定長度的區(qū)間對(duì)輸入語音1進(jìn)行編碼時(shí),按每種聲源模式對(duì)從輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真與固定的閾值或根據(jù)編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較,從而根據(jù)該比較結(jié)果進(jìn)行聲源模式的選擇,所以,即使當(dāng)編碼失真較大時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量即音質(zhì)得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)1,對(duì)預(yù)先決定的聲源模式進(jìn)行編碼失真與閾值的比較,當(dāng)編碼失真超過閾值時(shí),將該編碼失真置換為閾值的值,并從所有聲源模式的編碼失真中選擇與最小編碼失真對(duì)應(yīng)的聲源模式,所以,當(dāng)編碼失真較大時(shí),可以很容易地選擇將編碼失真置換后的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)1,將閾值設(shè)定為對(duì)輸入語音或編碼對(duì)象信號(hào)規(guī)定的失真系數(shù),所以,當(dāng)編碼時(shí)的失真系數(shù)大于規(guī)定值時(shí),可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)1,通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài),并僅當(dāng)為規(guī)定的判定結(jié)果時(shí),進(jìn)行聲源模式的選擇而不使用編碼失真與閾值的比較結(jié)果,所以,對(duì)于即使編碼失真較大也很難引起譯碼音的質(zhì)量惡化的輸入語音,可以進(jìn)行與以往的情況相同的聲源模式選擇,因而能更為精細(xì)地進(jìn)行聲源模式選擇,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)1,在語音形態(tài)的判定中,至少要判定是否是語音的開始,所以,在語音開始部分這樣的編碼失真往往較大的區(qū)間及其以外的區(qū)間內(nèi),可以根據(jù)編碼失真改變聲源模式選擇的控制,因而可以消除語音開始部分的惡化,并能改善其他部分的語音模式選擇,從而可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善,此外,對(duì)于上述語音開始的區(qū)間,脈沖聲源通常比破裂音等有噪聲的聲源更為適合,因此,盡管編碼失真較大也要優(yōu)先選擇特定的聲源模式的控制,有時(shí)將引起惡化,但通過對(duì)語音的開始進(jìn)行判定,能取得可以避免這種情況等的效果。
進(jìn)一步,按照本實(shí)施形態(tài)1,由生成無噪聲聲源的聲源模式及生成有噪聲聲源的聲源模式構(gòu)成多種聲源模式,所以,當(dāng)編碼失真較大時(shí),可以很容易地選擇生成有噪聲聲源的聲源模式,因而可以避免因選擇生成無噪聲聲源的聲源模式而引起的惡化,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)1,由使用無噪聲的聲源代碼字的聲源模式及使用有噪聲的聲源代碼字的聲源模式構(gòu)成多種聲源模式,所以,當(dāng)編碼失真較大時(shí),可以很容易地地選擇使用有噪聲的聲源代碼字的聲源模式,因而可以避免因選擇使用無噪聲的聲源代碼字的聲源模式而引起的惡化,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。實(shí)施形態(tài)2圖2是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)2的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。在圖中,1是輸入語音,2是線性預(yù)測(cè)系數(shù)分析裝置,3是線性預(yù)測(cè)系數(shù)編碼裝置。6是增益編碼裝置,7是多路復(fù)用裝置,8是語音代碼,這些都是與圖1中示出的標(biāo)以相同符號(hào)的實(shí)施形態(tài)1的各部相同的部分。
另外,18是根據(jù)輸入語音1及來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)輸出自適應(yīng)聲源、驅(qū)動(dòng)聲源、聲源代碼及模式選擇信息的聲源編碼部。
在該聲源編碼部18內(nèi),19是備有由隨機(jī)數(shù)生成的時(shí)間序列向量所構(gòu)成的驅(qū)動(dòng)聲源代碼簿并根據(jù)輸入語音1及來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)檢查臨時(shí)合成音與輸入語音1之間的失真從而輸出聲源代碼、失真及驅(qū)動(dòng)聲源的作為編碼裝置的聲源編碼裝置。20是備有包含著脈沖位置表的驅(qū)動(dòng)聲源代碼簿并根據(jù)輸入語音1及來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)檢查臨時(shí)合成音與輸入語音1之間的失真從而輸出聲源代碼、失真及驅(qū)動(dòng)聲源的作為編碼裝置的聲源編碼裝置。21是由備有自適應(yīng)聲源代碼部的自適應(yīng)聲源編碼裝置及備有驅(qū)動(dòng)聲源代碼簿的驅(qū)動(dòng)聲源編碼裝置構(gòu)成并根據(jù)輸入語音1及來自線性預(yù)測(cè)系數(shù)編碼裝置3信號(hào)輸出聲源代碼、失真、自適應(yīng)聲源及驅(qū)動(dòng)聲源的作為編碼裝置的聲源編碼裝置。
22是計(jì)算輸入語音的信號(hào)功率的功率計(jì)算裝置,23是根據(jù)來自功率計(jì)算裝置22的信號(hào)計(jì)算與失真有關(guān)的閾值的閾值計(jì)算裝置,24是分析輸入語音1并判定是否是語音的開始部分的判定裝置。25是將來自聲源編碼裝置19的信號(hào)與來自閾值計(jì)算裝置23的閾值進(jìn)行比較的比較裝置,26是根據(jù)判定裝置24的判定結(jié)果及比較裝置25的比較結(jié)果進(jìn)行聲源編碼裝置19的輸出變換的變換裝置。27是根據(jù)來自變換裝置26的信號(hào)及來自聲源編碼裝置20和21的信號(hào)將自適應(yīng)聲源及驅(qū)動(dòng)聲源輸出到增益編碼裝置6并將聲源代碼及模式選擇信息輸出到多路復(fù)用裝置7的作為選擇裝置的最小失真選擇裝置。
如上所述,在上述實(shí)施形態(tài)2中,在結(jié)構(gòu)為從聲源編碼裝置19~21中選擇一個(gè)的這一點(diǎn)上,與結(jié)構(gòu)為選擇驅(qū)動(dòng)聲源編碼裝置9~11中的一個(gè)的實(shí)施形態(tài)1不同。就是說,將本發(fā)明應(yīng)用于除驅(qū)動(dòng)聲源編碼裝置外還包含自適應(yīng)聲源編碼裝置的高一級(jí)的聲源編碼裝置19~21的選擇。
以下,對(duì)動(dòng)作進(jìn)行說明。這里,以與上述實(shí)施形態(tài)1不同的部分為中心,根據(jù)圖2進(jìn)行說明。
首先,將輸入語音1輸入到線性預(yù)測(cè)系數(shù)分析裝置2、增益編碼裝置6及聲源編碼部18。線性預(yù)測(cè)分析裝置2,當(dāng)輸入語音1時(shí)對(duì)其進(jìn)行分析,并在抽出作為語音的聲譜包絡(luò)信息的線性預(yù)測(cè)系數(shù)后,將其傳送到線性預(yù)測(cè)系數(shù)編碼裝置3。線性預(yù)測(cè)系數(shù)編碼裝置3,對(duì)從線性預(yù)測(cè)分析裝置2接收到的線性預(yù)測(cè)系數(shù)進(jìn)行編碼并輸出到多路復(fù)用裝置7,同時(shí)將為進(jìn)行聲源的編碼而被量化了的線性預(yù)測(cè)系數(shù)輸出到聲源編碼部18及增益編碼裝置6。另外,在聲源編碼部18中,將輸入語音1輸入到聲源編碼裝置19~21、功率計(jì)算裝置22及判定裝置24,并將來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)輸入到聲源編碼裝置19~21。
在聲源編碼裝置19中,將由隨機(jī)數(shù)生成的多個(gè)時(shí)間序列向量作為有噪聲的聲源代碼字存儲(chǔ)在驅(qū)動(dòng)聲源代碼簿內(nèi)。該聲源編碼裝置19的驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的聲源代碼時(shí),從與該聲源代碼對(duì)應(yīng)的位置讀出并輸出其中存儲(chǔ)著的時(shí)間序列向量。此外,所輸出的該時(shí)間序列向量生成有噪聲的聲源。聲源編碼裝置19,使通過將各聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而得到的時(shí)間序列向量通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與輸入語音1的差值,并根據(jù)該差值檢查兩者之間的失真。
聲源編碼裝置19,對(duì)所有的聲源代碼進(jìn)行上述處理,并選擇給出最小失真的聲源代碼,同時(shí)將與所選定的聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源。然后,將該驅(qū)動(dòng)聲源與上述最小失真及聲源代碼一起輸出到比較裝置25和變換裝置26。
在聲源編碼裝置20中,存儲(chǔ)著包含脈沖位置表的驅(qū)動(dòng)聲源代碼簿。該聲源編碼裝置20的驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的聲源代碼時(shí),將該聲源代碼分離為多個(gè)脈沖位置代碼和極性,讀出存儲(chǔ)在與脈沖位置表中的各脈沖位置代碼對(duì)應(yīng)的位置上的脈沖位置,并根據(jù)該脈沖位置和極性生成并輸出具有多個(gè)脈沖的時(shí)間序列向量。該時(shí)間序列向量,生成由多個(gè)脈沖構(gòu)成的無噪聲聲源,并可以看作是該驅(qū)動(dòng)聲源代碼簿以脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字。
聲源編碼裝置20,使通過將各聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而求得的各時(shí)間序列向量通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與輸入語音1的差值,并根據(jù)該差值檢查兩者之間的失真。
聲源編碼裝置20,對(duì)所有的聲源代碼進(jìn)行上述處理,并選擇給出最小失真的聲源代碼,同時(shí)將與所選定的聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源。然后,將該驅(qū)動(dòng)聲源與上述最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置27。
聲源編碼裝置21,由以自適應(yīng)聲源代碼簿的形式存儲(chǔ)著過去的規(guī)定長度的聲源(信號(hào))的自適應(yīng)聲源編碼裝置及存儲(chǔ)著包含脈沖位置表的驅(qū)動(dòng)聲源代碼簿的驅(qū)動(dòng)聲源編碼裝置構(gòu)成。該聲源編碼裝置21中的自適應(yīng)聲源編碼裝置具有的自適應(yīng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的自適應(yīng)聲源代碼時(shí),根據(jù)該自適應(yīng)聲源代碼計(jì)算重復(fù)周期,并利用該重復(fù)周期生成和輸出使過去的聲源周期反復(fù)的時(shí)間序列向量。此外,該聲源編碼裝置21中的驅(qū)動(dòng)聲源編碼裝置具有的驅(qū)動(dòng)聲源代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),將存儲(chǔ)在與該驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的位置上的時(shí)間序列向量讀出后輸出。該時(shí)間序列向量,生成由多個(gè)脈沖構(gòu)成的無噪聲聲源,并可以看作是該驅(qū)動(dòng)聲源代碼簿以脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字。
該聲源編碼裝置21中的自適應(yīng)聲源編碼裝置,使通過將各自適應(yīng)聲源代碼輸入該自適應(yīng)聲源代碼簿而得到的時(shí)間序列向量通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與輸入語音1的差值,并根據(jù)該差值檢查兩者之間的失真。聲源編碼裝置21中的自適應(yīng)聲源編碼裝置,對(duì)所有的聲源代碼進(jìn)行上述處理,并選擇給出最小失真的自適應(yīng)聲源代碼,同時(shí)將與所選定的自適應(yīng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為自適應(yīng)聲源輸出。另外,計(jì)算輸入語音1與使自適應(yīng)聲源產(chǎn)生的合成音乘以適當(dāng)增益后的信號(hào)的差值,并將其作為編碼對(duì)象信號(hào)輸出。
另外,聲源編碼裝置21的驅(qū)動(dòng)聲源編碼裝置,利用與由上述聲源編碼裝置21的自適應(yīng)聲源編碼裝置選定的自適應(yīng)聲源代碼對(duì)應(yīng)的重復(fù)周期使通過將驅(qū)動(dòng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿而求得的各時(shí)間序列向量的基音周期化,并進(jìn)一步使其通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與從自適應(yīng)聲源編碼裝置輸入的編碼對(duì)象信號(hào)的差值,并根據(jù)該差值檢查兩者之間的失真。聲源編碼裝置21的驅(qū)動(dòng)聲源編碼裝置,對(duì)所有的驅(qū)動(dòng)聲源代碼進(jìn)行上述處理,并選擇給出最小失真的驅(qū)動(dòng)聲源代碼,然后將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源,并將該驅(qū)動(dòng)聲源與上述最小失真及驅(qū)動(dòng)聲源代碼一起輸出。
最后,聲源編碼裝置21,對(duì)該自適應(yīng)聲源代碼及驅(qū)動(dòng)聲源代碼進(jìn)行多路復(fù)用,并將所得到的結(jié)果作為聲源代碼而與上述自適應(yīng)聲源、驅(qū)動(dòng)聲源一起輸出到最小失真選擇裝置27。
功率計(jì)算裝置22,計(jì)算接收到的輸入語音1的幀內(nèi)的信號(hào)功率,并將所求得的信號(hào)功率輸出到閾計(jì)算裝置23。閾值計(jì)算裝置23,使從功率計(jì)算裝置22輸入的信號(hào)功率乘以預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的常數(shù),并將該計(jì)算結(jié)果作為與失真有關(guān)的閾值輸出到比較裝置25和變換裝置26。判定裝置24,通過對(duì)接收到的輸入語音1進(jìn)行分析而判定語音形態(tài)。作為判定結(jié)果,當(dāng)為語音的開始部分時(shí)輸出“0”,而當(dāng)為其他部分時(shí)輸出 “1”。
比較裝置25,將從聲源編碼裝置19輸入的失真與從閾值計(jì)算裝置23輸入的與失真有關(guān)的閾值進(jìn)行比較,作為其比較結(jié)果,當(dāng)失真較大時(shí)輸出“1”,在其他情況下輸出“0”。變換裝置26,接收從判定裝置24輸出的判定結(jié)果及從比較裝置25輸出的比較結(jié)果,當(dāng)兩者都為“1”時(shí),將從聲源編碼裝置19輸入的失真置換為從閾值計(jì)算裝置23輸入的閾值的值。而當(dāng)從判定裝置14的判定結(jié)果或從比較裝置25的比較結(jié)果中的任何一方為“0”時(shí),該變換裝置26不進(jìn)行上述置換處理。該變換裝置26的置換處理結(jié)果,輸出到最小失真選擇裝置27。
最小失真選擇裝置27,對(duì)從該變換裝置26輸入的失真、從聲源編碼裝置20輸入的失真、從聲源編碼裝置21輸入的失真進(jìn)行比較,并從其中選擇最小的失真。當(dāng)選擇了從變換裝置26輸入的失真時(shí),將作為自適應(yīng)聲源的所有要素具有零值的信號(hào)及從變換裝置26輸入的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將從變換裝置26輸入的聲源代碼輸出到多路復(fù)用裝置7。而當(dāng)選擇了從聲源編碼裝置20輸入的失真時(shí),將作為自適應(yīng)聲源的所有要素具有零值的信號(hào)及從聲源編碼裝置20輸入的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將從聲源編碼裝置20輸入的聲源代碼輸出到多路復(fù)用裝置7。另外,當(dāng)選擇了從聲源編碼裝置21輸入的失真時(shí),將從聲源編碼裝置21輸入的自適應(yīng)聲源及驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將從聲源編碼裝置21輸入的聲源代碼輸出到多路復(fù)用裝置7。進(jìn)一步,將指示選擇了上述3個(gè)失真中的哪一個(gè)的信息作為模式選擇信息輸出到多路復(fù)用裝置7。
在增益編碼裝置6中,以增益代碼簿的形式存儲(chǔ)著表示與自適應(yīng)聲源和驅(qū)動(dòng)聲源對(duì)應(yīng)的2個(gè)增益值的多個(gè)時(shí)間序列向量。該增益代碼簿,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的增益代碼時(shí),將存儲(chǔ)在與該增益代碼對(duì)應(yīng)的位置上的增益向量讀出后輸出。增益編碼裝置6,通過將各增益代碼輸入該增益代碼簿而求出增益向量,使聲源編碼部18輸出的自適應(yīng)聲源乘以其第一要素,使聲源編碼部18輸出的驅(qū)動(dòng)聲源乘以第二要素,并將所得到的2個(gè)信號(hào)相加,從而生成臨時(shí)聲源。接著,使該臨時(shí)聲源通過采用了來自線性預(yù)測(cè)系數(shù)編碼裝置3的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取所求得的臨時(shí)合成音與輸入語音1的差值,并根據(jù)該差值檢查兩者之間的失真。
增益編碼裝置6,對(duì)所有的增益代碼進(jìn)行上述處理,并選擇給出最小失真的增益代碼,同時(shí)將所選定的該增益代碼輸出到多路復(fù)用裝置7,并將與所選定的增益代碼對(duì)應(yīng)的臨時(shí)聲源作為最終的聲源輸出到聲源編碼裝置21內(nèi)的自適應(yīng)聲源編碼裝置。
聲源編碼裝置21內(nèi)的自適應(yīng)聲源編碼裝置,當(dāng)接收從該增益編碼裝置6輸出的最終的聲源時(shí),根據(jù)該最終的聲源對(duì)存儲(chǔ)在內(nèi)部的自適應(yīng)聲源代碼部進(jìn)行更新。
在這之后,多路復(fù)用裝置7,對(duì)從線性預(yù)測(cè)系數(shù)編碼裝置3輸出的線性預(yù)測(cè)系數(shù)的代碼、從聲源編碼部18輸出的聲源代碼和模式選擇信息及從增益編碼裝置6輸出的增益代碼進(jìn)行多路復(fù)用,并輸出所求得的語音代碼8。
另外,作為本發(fā)明的實(shí)施形態(tài)2,說明了圖2所示的備有多個(gè)還包含著自適應(yīng)聲源編碼裝置的高一級(jí)的聲源編碼裝置并從其中選擇一個(gè)的結(jié)構(gòu),但也可以是構(gòu)成為使聲源編碼裝置備有多個(gè)驅(qū)動(dòng)聲源編碼裝置并從其中選擇一個(gè)的與上述實(shí)施形態(tài)相同的各種變形。
如上所述,按照本實(shí)施形態(tài)2,備有多個(gè)還包含著自適應(yīng)聲源編碼裝置的高一級(jí)的聲源編碼裝置并從其中選擇一個(gè),所以,在該聲源編碼裝置的選擇中,也可以取得與上述實(shí)施形態(tài)1的情況相同的效果。實(shí)施形態(tài)3圖3是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)3的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。圖中,對(duì)與圖1的各部分相同的部分標(biāo)以相同的符號(hào)而將其說明省略。在圖中,28是根據(jù)輸入語音1、來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)及來自自適應(yīng)聲源編碼裝置4的信號(hào)輸出驅(qū)動(dòng)聲源、驅(qū)動(dòng)聲源代碼及模式選擇信息的驅(qū)動(dòng)聲源編碼部。
另外,29是根據(jù)來自功率計(jì)算裝置12的信號(hào)計(jì)算與失真有關(guān)的第一閾值及第二閾值的閾值計(jì)算裝置。30是將來自驅(qū)動(dòng)聲源編碼裝置10的信號(hào)與第一閾值進(jìn)行比較的比較裝置,31是根據(jù)該比較裝置30和判定裝置14的判定結(jié)果對(duì)驅(qū)動(dòng)聲源編碼裝置10的輸出進(jìn)行校正的作為變換裝置的校正裝置。32是將來自驅(qū)動(dòng)聲源編碼裝置11的信號(hào)與第二閾值進(jìn)行比較的比較裝置,33是根據(jù)該比較裝置32和判定裝置14的判定結(jié)果對(duì)驅(qū)動(dòng)聲源編碼裝置11的輸出進(jìn)行校正的作為變換裝置的校正裝置。此外,上述驅(qū)動(dòng)聲源編碼部28,由閾值計(jì)算裝置29、比較裝置30、32、校正裝置31、33、驅(qū)動(dòng)聲源編碼裝置9、10、11、功率計(jì)算裝置12、判定裝置14及最小失真選擇裝置17構(gòu)成。
以下,對(duì)動(dòng)作進(jìn)行說明。這里,以與上述實(shí)施形態(tài)1不同的部分為中心,根據(jù)圖3進(jìn)行說明。
在這種情況下,也是將由線性預(yù)測(cè)系數(shù)編碼裝置3量化后的線性預(yù)測(cè)系數(shù)及來自自適應(yīng)聲源編碼裝置4的編碼對(duì)象信號(hào)輸入到驅(qū)動(dòng)聲源編碼裝置9~11。在該驅(qū)動(dòng)聲源編碼裝置9中,以驅(qū)動(dòng)聲源代碼簿的形式存儲(chǔ)著由隨機(jī)數(shù)生成的多個(gè)時(shí)間序列向量。驅(qū)動(dòng)聲源編碼裝置9,與實(shí)施形態(tài)1的情況一樣,利用該驅(qū)動(dòng)聲源代碼簿選擇使對(duì)從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置17。
另外,在驅(qū)動(dòng)聲源編碼裝置10中,存儲(chǔ)著包含脈沖位置表的驅(qū)動(dòng)聲源代碼簿。該驅(qū)動(dòng)聲源編碼裝置10,與實(shí)施形態(tài)1的情況一樣,利用該驅(qū)動(dòng)聲源代碼簿選擇使對(duì)從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到比較裝置30和校正裝置31。同樣,在驅(qū)動(dòng)聲源編碼裝置11中,存儲(chǔ)著包含與驅(qū)動(dòng)聲源編碼裝置10不同的脈沖位置表的驅(qū)動(dòng)聲源代碼簿。驅(qū)動(dòng)聲源編碼裝置11,利用該驅(qū)動(dòng)聲源代碼簿選擇使對(duì)從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到比較裝置32和校正裝置33。
另外,在這種情況下,在驅(qū)動(dòng)聲源編碼裝置9的驅(qū)動(dòng)聲源代碼簿內(nèi),也存儲(chǔ)著由隨機(jī)數(shù)生成的有噪聲的聲源代碼字,在驅(qū)動(dòng)聲源編碼裝置10、11的驅(qū)動(dòng)聲源代碼簿內(nèi),以脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字,此外,由驅(qū)動(dòng)聲源編碼裝置9輸出的時(shí)間序列向量,生成有噪聲的聲源,由驅(qū)動(dòng)聲源編碼裝置10、11輸出的時(shí)間序列向量,生成無噪聲的聲源。
另一方面,閾值計(jì)算裝置29,通過使由功率計(jì)算裝置12計(jì)算出的信號(hào)功率乘以預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的第一常數(shù)而求得與失真有關(guān)的第一閾值,通過乘以預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的第二常數(shù)而求得與失真有關(guān)的第二閾值。將所求得的與失真有關(guān)的第一閾值輸出到比較裝置30和校正裝置31,并將與失真有關(guān)的第二閾值輸出到比較裝置32和校正裝置33。此外,這里,對(duì)于預(yù)先準(zhǔn)備好的第一和第二與失真系數(shù)有關(guān)的常數(shù),當(dāng)編碼失真較大時(shí),將驅(qū)動(dòng)聲源編碼裝置10和11中的譯碼音的惡化程度更大的一方的常數(shù)設(shè)定得較小。與該失真系數(shù)有關(guān)的常數(shù)越小,編碼失真越大,在這種情況下,使將在后文中說明的比較裝置30、32中的比較結(jié)果為“1”。
判定裝置14,與實(shí)施形態(tài)1的情況一樣,通過對(duì)輸入語音1進(jìn)行分析而判定語音形態(tài)。作為判定的結(jié)果,當(dāng)為語音的開始部分時(shí)輸出“0”,而當(dāng)為其他部分時(shí)輸出“1”。
比較裝置30,將從驅(qū)動(dòng)聲源編碼裝置10輸入的失真與從閾值計(jì)算裝置29輸入的第一閾值進(jìn)行比較,當(dāng)失真較大時(shí),輸出“1”作為其比較結(jié)果,在其他情況下輸出“0”作為其比較結(jié)果。校正裝置31,當(dāng)從判定裝置14輸出的判定結(jié)果及從比較裝置30輸出的比較結(jié)果都為“1”時(shí),利用從閾值計(jì)算裝置29輸入的第一閾值對(duì)從驅(qū)動(dòng)聲源編碼裝置10輸出的結(jié)果中的失真進(jìn)行校正,并將校正后的值作為新的失真輸出到最小失真選擇裝置17。在其他起情況下不進(jìn)行上述校正,而是將從驅(qū)動(dòng)聲源編碼裝置10輸出的失真直接輸出到最小失真選擇裝置17。關(guān)于該校正裝置31的校正,如設(shè)失真為D、閾值為Dth,例如可以用以下的式(6)進(jìn)行。
D’=D+α(D-Dth)…(6)式中,D’為校正后的失真,α為正的常數(shù)。
另外,校正裝置31的校正,當(dāng)然也可以利用采用指數(shù)函數(shù)等的比式(6)復(fù)雜的校正,并可以校正為非常大的固定值。當(dāng)校正為非常大的固定值時(shí),最小失真選擇裝置17,基本上不選擇驅(qū)動(dòng)聲源編碼裝置10。
另外,比較裝置32,將從驅(qū)動(dòng)聲源編碼裝置11輸入的失真與從閾值計(jì)算裝置29輸入的第二閾值進(jìn)行比較,當(dāng)失真較大時(shí),輸出“1”作為其比較結(jié)果,在其他情況下輸出“0” 作為其比較結(jié)果。校正裝置33,當(dāng)從判定裝置14輸出的判定結(jié)果及從比較裝置30輸出的比較結(jié)果都為“1”時(shí),利用從閾值計(jì)算裝置29輸入的第二閾值對(duì)從驅(qū)動(dòng)聲源編碼裝置11輸出的結(jié)果中的失真進(jìn)行校正,并將校正后的值作為新的失真輸出到最小失真選擇裝置17。在其他起情況下不進(jìn)行校正,而是將從驅(qū)動(dòng)聲源編碼裝置11輸出的失真直接輸出到最小失真選擇裝置17。另外,關(guān)于其校正,可以按與校正裝置31相同的方式進(jìn)行。
最小失真選擇裝置17,對(duì)從驅(qū)動(dòng)聲源編碼裝置9、校正裝置31及校正裝置33輸入的各失真進(jìn)行比較,并從其中選擇最小的失真。其結(jié)果是,當(dāng)選擇了從驅(qū)動(dòng)聲源編碼裝置9輸入的失真時(shí),將從驅(qū)動(dòng)聲源編碼裝置9輸入的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。而當(dāng)選擇了從校正裝置31輸入的失真時(shí),將從驅(qū)動(dòng)聲源編碼裝置10通過校正裝置31輸入的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。同樣,當(dāng)選擇了從校正裝置33輸入的失真時(shí),將從驅(qū)動(dòng)聲源編碼裝置11通過校正裝置33輸入的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。進(jìn)一步,將指示選擇了上述3個(gè)失真中的哪一個(gè)的信息作為模式選擇信息輸出到多路復(fù)用裝置7。
以下,邊參照?qǐng)D7邊對(duì)按照本實(shí)施形態(tài)3而使由語音譯碼裝置將所求得的語音代碼8譯碼后得到的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的情況進(jìn)行說明。
圖7是表示用于對(duì)使編碼失真為最小的聲源模式的選擇進(jìn)行說明的各波形的示意圖,圖7(a)示出輸入語音,圖7(b)示出選擇了為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音,圖7(c)示出選擇了為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音。當(dāng)輸入語音1為圖7(a)所示的有噪聲的語音時(shí),使其模型化一般起不到任何作用,所以,無論在圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式的情況下,還是在圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式的情況下,編碼時(shí)的失真系數(shù)都是較大的值。
這里,驅(qū)動(dòng)聲源編碼裝置9,使用由隨機(jī)數(shù)生成的時(shí)間序列向量,并對(duì)應(yīng)于圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式。而驅(qū)動(dòng)聲源編碼裝置10和11,使用脈沖聲源及基音周期性,并對(duì)應(yīng)于圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式。雖然從各驅(qū)動(dòng)聲源編碼裝置9~11輸出的失真D都具有較大的值,但從驅(qū)動(dòng)聲源編碼裝置10和11輸出的失真D由校正裝置31或33校正為比失真D大的值。其結(jié)果是,由最小失真選擇裝置17選擇從驅(qū)動(dòng)聲源編碼裝置9輸出的驅(qū)動(dòng)聲源代碼,并產(chǎn)生圖7(b)所示的譯碼音。因此,即使當(dāng)圖7(b)的失真大于圖7(c)的失真,在有噪聲的區(qū)間等編碼時(shí)的失真系數(shù)大的區(qū)間內(nèi),也仍能穩(wěn)定地選擇圖7(b)所示的譯碼音。
另外,在本實(shí)施形態(tài)3中,說明了由驅(qū)動(dòng)聲源編碼裝置9~11搜索使式(1)所示的失真D為最小的驅(qū)動(dòng)聲源代碼并輸出最小失真D的結(jié)構(gòu),但與實(shí)施形態(tài)1的情況一樣,也可以構(gòu)成為搜索使式(3)所示的評(píng)價(jià)值d為最大的驅(qū)動(dòng)聲源代碼并代替失真D而輸出評(píng)價(jià)值d。
另外,在本實(shí)施形態(tài)3中,可以變形為使閾值計(jì)算裝置29直接輸出2個(gè)固定閾值并將各驅(qū)動(dòng)聲源編碼裝置9~11輸出的失真作為除以輸入語音1的信號(hào)功率的值即失真系數(shù)輸出,也可以變更為由功率計(jì)算裝置12計(jì)算自適應(yīng)聲源編碼裝置4輸出的編碼對(duì)象信號(hào)的信號(hào)功率,還可以變更為代替信號(hào)功率而計(jì)算振幅或?qū)?shù)功率等。
另外,在本實(shí)施形態(tài)3中,在結(jié)構(gòu)上,作為生成有噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有一個(gè)驅(qū)動(dòng)聲源編碼裝置9,而作為生成無噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有2個(gè)驅(qū)動(dòng)聲源編碼裝置10、11,但當(dāng)然可以使前者為2個(gè)以上并使后者為1個(gè)或3個(gè)以上。
另外,在本實(shí)施形態(tài)3中,簡(jiǎn)單地將信號(hào)間的平方距離作為失真,但當(dāng)然也可以是在語音編碼裝置中經(jīng)常使用的聽覺加權(quán)失真。
如上所述,按照本實(shí)施形態(tài)3,與實(shí)施形態(tài)1的情況一樣,即使當(dāng)編碼失真較大時(shí),或當(dāng)編碼時(shí)的失真系數(shù)大于規(guī)定值時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,另外,對(duì)于即使編碼失真較大也很難引起譯碼音的質(zhì)量惡化的輸入語音,可以進(jìn)行與以往的情況相同的聲源模式選擇,因而能更為精細(xì)地進(jìn)行聲源模式選擇,此外,在編碼失真往往較大的區(qū)間及其以外的區(qū)間內(nèi),可以根據(jù)編碼失真改變聲源模式選擇的控制,因而可以消除語音開始部分的惡化,并能改善其他部分的語音模式選擇,進(jìn)一步,當(dāng)編碼失真較大時(shí),可以很容易地選擇生成有噪聲聲源的聲源模式或使用有噪聲的聲源代碼字的聲源模式,因而可以避免因選擇生成無噪聲聲源的聲源模式或使用無噪聲的聲源代碼字的聲源模式而引起的惡化,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。
另外,按照本實(shí)施形態(tài)3,可以對(duì)所得到的比較結(jié)果為編碼失真超過閾值的聲源模式的選擇進(jìn)行抑制,所以,當(dāng)編碼失真較大時(shí),可以很容易地選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)3,按每種聲源模式準(zhǔn)備了閾值,所以,通過按每種聲源模式對(duì)用于檢測(cè)引起譯碼音質(zhì)量惡化的情況的閾值進(jìn)行適當(dāng)?shù)恼{(diào)整,可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。實(shí)施形態(tài)4圖4是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)4的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。圖中,對(duì)與圖1的各部分相同的部分標(biāo)以相同的符號(hào)而將其說明省略。在圖中,34是根據(jù)輸入語音1、來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)及來自自適應(yīng)聲源編碼裝置4的信號(hào)輸出驅(qū)動(dòng)聲源、驅(qū)動(dòng)聲源代碼及模式選擇信息的驅(qū)動(dòng)聲源編碼部。
另外,35是根據(jù)來自驅(qū)動(dòng)聲源編碼裝置9~11的信號(hào)輸出最小失真、與該最小失真對(duì)應(yīng)的驅(qū)動(dòng)聲源、驅(qū)動(dòng)聲源代碼、模式選擇信息的作為選擇裝置的最小失真選擇裝置。36是將來自最小失真選擇裝置35的最小失真與來自閾值計(jì)算裝置13的閾值進(jìn)行比較的比較裝置,37是根據(jù)該比較裝置36及判定裝置14的判定結(jié)果用驅(qū)動(dòng)聲源編碼裝置9的輸出置換來自最小失真選擇裝置35的驅(qū)動(dòng)聲源和驅(qū)動(dòng)聲源代碼的置換裝置。此外,上述驅(qū)動(dòng)聲源編碼部34,由最小失真選擇裝置35、比較裝置36、置換裝置37、驅(qū)動(dòng)聲源編碼裝置9、10、11、功率計(jì)算裝置12、閾值計(jì)算裝置13及判定裝置14構(gòu)成。
以下,對(duì)動(dòng)作進(jìn)行說明。這里,以與上述實(shí)施形態(tài)1不同的部分為中心,根據(jù)圖4進(jìn)行說明。
在這種情況下,也是將由線性預(yù)測(cè)系數(shù)編碼裝置3量化后的線性預(yù)測(cè)系數(shù)及來自自適應(yīng)聲源編碼裝置4的編碼對(duì)象信號(hào)輸入到驅(qū)動(dòng)聲源編碼裝置9~11。在該驅(qū)動(dòng)聲源編碼裝置9中,以驅(qū)動(dòng)聲源代碼簿的形式存儲(chǔ)著由隨機(jī)數(shù)生成的多個(gè)時(shí)間序列向量。驅(qū)動(dòng)聲源編碼裝置9,與實(shí)施形態(tài)1的情況一樣,利用該驅(qū)動(dòng)聲源代碼簿選擇使對(duì)從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置35和置換裝置37。
另外,在驅(qū)動(dòng)聲源編碼裝置10中,存儲(chǔ)著包含脈沖位置表的驅(qū)動(dòng)聲源代碼簿。驅(qū)動(dòng)聲源編碼裝置10,利用該驅(qū)動(dòng)聲源代碼簿選擇使對(duì)從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置35。同樣,在驅(qū)動(dòng)聲源編碼裝置11中,存儲(chǔ)著包含與驅(qū)動(dòng)聲源編碼裝置10不同的脈沖位置表的驅(qū)動(dòng)聲源代碼簿。驅(qū)動(dòng)聲源編碼裝置11,利用該驅(qū)動(dòng)聲源代碼簿選擇使對(duì)從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置35。
另外,在這種情況下,在驅(qū)動(dòng)聲源編碼裝置9的驅(qū)動(dòng)聲源代碼簿內(nèi),也存儲(chǔ)著由隨機(jī)數(shù)生成的有噪聲的聲源代碼字,在驅(qū)動(dòng)聲源編碼裝置10、11的驅(qū)動(dòng)聲源代碼簿內(nèi),以脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字,此外,由驅(qū)動(dòng)聲源編碼裝置9輸出的時(shí)間序列向量,生成有噪聲的聲源,由驅(qū)動(dòng)聲源編碼裝置10、11輸出的時(shí)間序列向量,生成無噪聲的聲源。
最小失真選擇裝置35,對(duì)從上述各驅(qū)動(dòng)聲源編碼裝置9~11輸入的各失真進(jìn)行比較,從其中選擇最小的失真,并將該最小失真輸出到比較裝置36。此外,將驅(qū)動(dòng)聲源編碼裝置9~11中的與最小失真對(duì)應(yīng)的一個(gè)輸入的驅(qū)動(dòng)聲源和驅(qū)動(dòng)聲源代碼輸出到置換裝置37,并進(jìn)一步將指示選擇了上述3個(gè)失真中的哪一個(gè)的信息作為模式選擇信息輸出到置換裝置37。另外,判定裝置14,通過對(duì)輸入語音1進(jìn)行分析而判定語音形態(tài),作為判定結(jié)果,當(dāng)為語音的開始部分時(shí),將“0”輸出到置換裝置37,而當(dāng)為其他部分時(shí),將“1”輸出到置換裝置37。
另一方面,將由閾值計(jì)算裝置13根據(jù)來自功率計(jì)算裝置12的信號(hào)功率計(jì)算出的與失真有關(guān)的閾值由上述最小失真選擇裝置35選定的失真一起輸出到比較裝置36。而比較裝置36則將從最小失真選擇裝置35輸入的失真與從閾值計(jì)算裝置13輸入的閾值進(jìn)行比較,作為比較結(jié)果,當(dāng)失真較大時(shí),將“1”輸出到置換裝置37,在其他情況下將“0”輸出到置換裝置37。
置換裝置37,接收從判定裝置14輸出的判定結(jié)果及從比較裝置36輸出的比較結(jié)果,當(dāng)兩者都為“1”時(shí),將從最小失真選擇裝置35輸出的驅(qū)動(dòng)聲源和驅(qū)動(dòng)聲源代碼置換為從驅(qū)動(dòng)聲源編碼裝置9輸出的驅(qū)動(dòng)聲源和驅(qū)動(dòng)聲源代碼。而在其他情況下不進(jìn)行上述置換。將作為該置換裝置37的置換處理結(jié)果的最終的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。以下,邊參照?qǐng)D7邊對(duì)按照本實(shí)施形態(tài)4而使由語音譯碼裝置將所求得的語音代碼8譯碼后得到的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的情況進(jìn)行說明。
圖7是表示用于對(duì)使編碼失真為最小的聲源模式的選擇進(jìn)行說明的各波形的示意圖,圖7(a)示出輸入語音,圖7(b)示出選擇了為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音,圖7(c)示出選擇了為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式時(shí)的譯碼音。當(dāng)輸入語音1為圖7(a)所示的有噪聲的語音時(shí),使其模型化一般起不到任何作用,所以,無論在圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式的情況下,還是在圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式的情況下,編碼時(shí)的失真系數(shù)都是較大的值。
這里,驅(qū)動(dòng)聲源編碼裝置9,使用由隨機(jī)數(shù)生成的時(shí)間序列向量,并對(duì)應(yīng)于圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式。而驅(qū)動(dòng)聲源編碼裝置10和11,使用脈沖聲源及基音周期性,并對(duì)應(yīng)于圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式。雖然從各驅(qū)動(dòng)聲源編碼裝置9~11輸出的失真D都具有較大的值,但由最小失真選擇裝置35選擇從因其振幅大的部分上的編碼失真較小所以其失真D往往較小的驅(qū)動(dòng)聲源編碼裝置10和11輸出的失真。由于所選定的最小失真D還是大于來自閾值計(jì)算裝置13的閾值Dth,所以由置換裝置37將從最小失真選擇裝置35輸出的驅(qū)動(dòng)聲源編碼裝置10或11的驅(qū)動(dòng)聲源代碼置換為從驅(qū)動(dòng)聲源編碼裝置9輸出的驅(qū)動(dòng)聲源代碼,從而產(chǎn)生圖7(b)所示的譯碼音。因此,即使當(dāng)圖7(b)的失真大于圖7(c)的失真,在有噪聲的區(qū)間等編碼時(shí)的失真系數(shù)大的區(qū)間內(nèi),也仍能穩(wěn)定地選擇圖7(b)所示的譯碼音。
另外,在本實(shí)施形態(tài)4中,與實(shí)施形態(tài)1一樣,也可以構(gòu)成為由各驅(qū)動(dòng)聲源編碼裝置9~11搜索使式(3)所示的評(píng)價(jià)值d為最大的驅(qū)動(dòng)聲源代碼并代替失真D而輸出評(píng)價(jià)值d。在這種情況下,由最小失真選擇裝置35選擇最大的評(píng)價(jià)值,并在比較裝置36中使大小的比較關(guān)系與輸出結(jié)果的關(guān)系反轉(zhuǎn)。此外,還必須由閾值計(jì)算裝置13計(jì)算與評(píng)價(jià)值d對(duì)應(yīng)的dth。
另外,在本實(shí)施形態(tài)4中,可以變形為使閾值計(jì)算裝置13直接輸出固定的閾值并將各驅(qū)動(dòng)聲源編碼裝置9~11輸出的失真作為除以輸入語音1的信號(hào)功率的值即失真系數(shù)輸出,也可以變更為由功率計(jì)算裝置12計(jì)算自適應(yīng)聲源編碼裝置4輸出的編碼對(duì)象信號(hào)的信號(hào)功率,還可以變更為代替信號(hào)功率而計(jì)算振幅或?qū)?shù)功率等。
另外,在本實(shí)施形態(tài)4中,在結(jié)構(gòu)上,作為生成有噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有一個(gè)驅(qū)動(dòng)聲源編碼裝置9,而作為生成無噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有2個(gè)驅(qū)動(dòng)聲源編碼裝置10、11,但當(dāng)然可以使前者為2個(gè)以上并使后者為1個(gè)或3個(gè)以上。
另外,在本實(shí)施形態(tài)4中,簡(jiǎn)單地將信號(hào)間的平方距離作為失真,但當(dāng)然也可以是在語音編碼裝置中經(jīng)常使用的聽覺加權(quán)失真。
如上所述,按照本實(shí)施形態(tài)4,當(dāng)從多種聲源模式中選擇一種并使用該聲源模式按每個(gè)被稱為幀的規(guī)定長度的區(qū)間對(duì)輸入語音1進(jìn)行編碼時(shí),按每種聲源模式對(duì)從輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,然后從中選擇一個(gè)并將其和編碼時(shí)的編碼失真與固定的閾值或根據(jù)編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較,從而根據(jù)該比較結(jié)果進(jìn)行編碼失真的輸出變換,所以,即使當(dāng)編碼失真較大時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)4,與實(shí)施形態(tài)1的情況一樣,即使當(dāng)編碼時(shí)的失真系數(shù)大于規(guī)定值時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,另外,對(duì)于即使編碼失真較大也很難引起譯碼音的質(zhì)量惡化的輸入語音,可以進(jìn)行與以往的情況相同的聲源模式選擇,因而能更為精細(xì)地進(jìn)行聲源模式選擇,此外,在編碼失真往往較大的區(qū)間及其以外的區(qū)間內(nèi),可以根據(jù)編碼失真改變聲源模式選擇的控制,因而可以消除語音開始部分的惡化,并能改善其他部分的語音模式選擇,進(jìn)一步,當(dāng)編碼失真較大時(shí),可以很容易地選擇生成有噪聲聲源的聲源模式或使用有噪聲的聲源代碼字的聲源模式,因而可以避免因選擇生成無噪聲聲源的聲源模式或使用無噪聲的聲源代碼字的聲源模式而引起的惡化,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)4,從編碼失真中選擇最小的一個(gè),將所選定的編碼失真與閾值進(jìn)行比較,并根據(jù)該其比較結(jié)果進(jìn)行聲源模式的選擇,所以,當(dāng)編碼失真較大時(shí),可以強(qiáng)制性地選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)4,從編碼失真中選擇最小的一個(gè),并當(dāng)所選定的編碼失真超過閾值時(shí),選擇預(yù)先決定的聲源模式,所以,可以強(qiáng)制性地選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。實(shí)施形態(tài)5圖5是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)5的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。圖中,對(duì)與圖1的各部分相同的部分標(biāo)以相同的符號(hào)而將其說明省略。在圖中,38是根據(jù)輸入語音1、來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)及來自自適應(yīng)聲源編碼裝置4的信號(hào)輸出驅(qū)動(dòng)聲源、驅(qū)動(dòng)聲源代碼及模式選擇信息的驅(qū)動(dòng)聲源編碼部。
另外,39是分析輸入語音1并進(jìn)行是否是語音的開始部分的判定的判定裝置,但在將判定結(jié)果輸出到閾值計(jì)算裝置而不是輸出到變換裝置這一點(diǎn)上,與圖1中標(biāo)以符號(hào)14的裝置不同。40是根據(jù)該判定裝置39的判定結(jié)果及來自功率計(jì)算裝置12的信號(hào)功率計(jì)算閾值的閾值計(jì)算裝置。41是根據(jù)比較裝置15的比較結(jié)果進(jìn)行驅(qū)動(dòng)聲源編碼裝置9的輸出變換的變換裝置。此外,上述驅(qū)動(dòng)聲源編碼部38,由判定裝置39、閾值計(jì)算裝置40、變換裝置41、驅(qū)動(dòng)聲源編碼裝置9~11、功率計(jì)算裝置12、比較裝置15及最小失真選擇裝置17構(gòu)成。
以下,對(duì)動(dòng)作進(jìn)行說明。這里,以與上述實(shí)施形態(tài)1不同的部分為中心,根據(jù)圖5進(jìn)行說明。
在這種情況下,也是將由線性預(yù)測(cè)系數(shù)編碼裝置3量化后的線性預(yù)測(cè)系數(shù)及來自自適應(yīng)聲源編碼裝置4的編碼對(duì)象信號(hào)輸入到驅(qū)動(dòng)聲源編碼部38內(nèi)的驅(qū)動(dòng)聲源編碼裝置9~11。驅(qū)動(dòng)聲源編碼裝置9,利用存儲(chǔ)了由隨機(jī)數(shù)生成的多個(gè)時(shí)間序列向量的驅(qū)動(dòng)聲源代碼簿,選擇使對(duì)編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到變換裝置41和比較裝置15。此外,驅(qū)動(dòng)聲源編碼裝置10和11,利用包含著各自不同的脈沖位置表的驅(qū)動(dòng)聲源代碼簿,選擇使對(duì)編碼對(duì)象信號(hào)進(jìn)行編碼時(shí)的失真為最小的驅(qū)動(dòng)聲源代碼,并將與所選定的該聲源代碼對(duì)應(yīng)的時(shí)間序列作為驅(qū)動(dòng)聲源而與最小失真及驅(qū)動(dòng)聲源代碼一起輸出到最小失真選擇裝置17。
另外,在這種情況下,在驅(qū)動(dòng)聲源編碼裝置9的驅(qū)動(dòng)聲源代碼簿內(nèi),也存儲(chǔ)著由隨機(jī)數(shù)生成的有噪聲的聲源代碼字,在驅(qū)動(dòng)聲源編碼裝置10、11的驅(qū)動(dòng)聲源代碼簿內(nèi),以脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字,此外,由驅(qū)動(dòng)聲源編碼裝置9輸出的時(shí)間序列向量,生成有噪聲的聲源,由驅(qū)動(dòng)聲源編碼裝置10、11輸出的時(shí)間序列向量,生成無噪聲的聲源。
另一方面,功率計(jì)算裝置12,計(jì)算輸入語音1的幀內(nèi)的信號(hào)功率,并將所求得的信號(hào)功率輸出到閾計(jì)算裝置40。此外,判定裝置39,通過對(duì)輸入語音1進(jìn)行分析而判定語音形態(tài),作為判定結(jié)果,當(dāng)為語音的開始部分時(shí),將“0”輸出到閾計(jì)算裝置40,而當(dāng)為其他部分時(shí),將“1”輸出到閾計(jì)算裝置40。
閾計(jì)算裝置40,當(dāng)判定裝置39的判定結(jié)果為“0”時(shí),使來自功率計(jì)算裝置12的信號(hào)功率乘以預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的第一常數(shù),當(dāng)判定裝置39的判定結(jié)果為“1”時(shí),使從功率計(jì)算裝置12輸入的信號(hào)功率乘以預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的第二常數(shù)。將通過該乘法運(yùn)算求得的結(jié)果作為與失真系數(shù)有關(guān)的閾值而分別輸出到比較裝置15和變換裝置41。另外,將上述第一常數(shù)設(shè)定為大于第二常數(shù)。例如,將第一常數(shù)設(shè)定為0.9,將第二常數(shù)設(shè)定為0.7。
比較裝置15,將從驅(qū)動(dòng)聲源編碼裝置9輸入的失真與從閾值計(jì)算裝置40輸入的閾值進(jìn)行比較,作為比較結(jié)果,當(dāng)失真較大時(shí)將“1”輸出到變換裝置41,在其他情況下將“0”輸出到變換裝置41。變換裝置41,當(dāng)從該比較裝置15輸出的比較結(jié)果為“1”時(shí),將從驅(qū)動(dòng)聲源編碼裝置9輸出的結(jié)果中的失真置換為從閾值計(jì)算裝置40輸入的閾值的值,并輸出到最小失真選擇裝置17。在其他情況下不進(jìn)行上述置換處理,而是將從驅(qū)動(dòng)聲源編碼裝置9輸出的結(jié)果中的失真直接輸出到最小失真選擇裝置17。
最小失真選擇裝置17,對(duì)從該變換裝置41輸入的失真及從驅(qū)動(dòng)聲源編碼裝置10和11輸入的失真進(jìn)行比較,并從其中選擇最小的失真。然后,將從輸出該選定的最小失真的變換裝置41或驅(qū)動(dòng)聲源編碼裝置10或驅(qū)動(dòng)聲源編碼裝置11輸出的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。進(jìn)一步,將指示選擇了上述3個(gè)失真中的哪一個(gè)的信息作為模式選擇信息輸出到多路復(fù)用裝置7。
以下,邊參照?qǐng)D7邊對(duì)按照本實(shí)施形態(tài)5而使由語音譯碼裝置將所求得的語音代碼8譯碼后得到的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的情況進(jìn)行說明。
圖7是表示用于對(duì)使編碼失真為最小的聲源模式的選擇進(jìn)行說明的各波形的示意圖,當(dāng)輸入語音1為圖7(a)所示的有噪聲的語音時(shí),使其模型化一般起不到任何作用,所以,無論在圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式的情況下,還是在圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式的情況下,編碼時(shí)的失真系數(shù)都是較大的值。
這里,驅(qū)動(dòng)聲源編碼裝置9,使用由隨機(jī)數(shù)生成的時(shí)間序列向量,并對(duì)應(yīng)于圖7(b)所示的為表現(xiàn)有噪聲的語音而準(zhǔn)備好的聲源模式。而驅(qū)動(dòng)聲源編碼裝置10和11,使用脈沖聲源及基音周期性,并對(duì)應(yīng)于圖7(c)所示的為表現(xiàn)元音的語音而準(zhǔn)備好的聲源模式。當(dāng)判定裝置39判定為是語音的開始并輸出判定結(jié)果“0”時(shí),在閾計(jì)算裝置40中計(jì)算出較大的閾值。因此,雖然從驅(qū)動(dòng)聲源編碼裝置9輸出的失真D是較大的值,但尚未超過閾值,因而不進(jìn)行變換裝置41中的置換處理。其結(jié)果是,由最小失真選擇裝置17選擇因其振幅大的部分上的編碼失真較小所以其失真D往往較小的驅(qū)動(dòng)聲源編碼裝置10和11,從而產(chǎn)生圖7(c)所示的譯碼音。當(dāng)判定裝置39判定為不是語音的開始部分并輸出判定結(jié)果“1”時(shí),在閾計(jì)算裝置40中計(jì)算出較小的閾值。因此,使從驅(qū)動(dòng)聲源編碼裝置9輸出的失真D超過閾值,因而由變換裝置41置換為比失真D小的閾值Dth。其結(jié)果是,由最小失真選擇裝置17選擇從驅(qū)動(dòng)聲源編碼裝置9輸出的驅(qū)動(dòng)聲源代碼,從而產(chǎn)生圖7(b)所示的譯碼音。因此,即使當(dāng)圖7(b)的失真大于圖7(c)的失真,在有噪聲的區(qū)間等編碼時(shí)的失真系數(shù)大的區(qū)間內(nèi),也仍能穩(wěn)定地選擇圖7(b)所示的譯碼音。
另外,如果在語音的開始部分也采用較小的閾值而產(chǎn)生圖7(b)所示的譯碼音,則將失去破裂音的脈沖特征,或使元音的開始部分惡化成刺耳的音質(zhì)。在本實(shí)施形態(tài)5中,根據(jù)判定裝置39的判定結(jié)果決定閾值,從而可以避免開始部分的惡化。
另外,在本實(shí)施形態(tài)5中,與實(shí)施形態(tài)1一樣,也可以構(gòu)成為由各驅(qū)動(dòng)聲源編碼裝置9~11搜索使式(3)所示的評(píng)價(jià)值d為最大的驅(qū)動(dòng)聲源代碼并代替失真D而輸出評(píng)價(jià)值d。在這種情況下,由最小失真選擇裝置17選擇最大的評(píng)價(jià)值,并在比較裝置15中使大小的比較關(guān)系與輸出結(jié)果的關(guān)系反轉(zhuǎn)。此外,還必須由閾值計(jì)算裝置40計(jì)算與評(píng)價(jià)值d對(duì)應(yīng)的dth。
另外,在本實(shí)施形態(tài)5中,可以變形為使閾值計(jì)算裝置40將第一常數(shù)或第二常數(shù)直接作為閾值輸出,并將各驅(qū)動(dòng)聲源編碼裝置9~11輸出的失真作為除以輸入語音1的信號(hào)功率的值即失真系數(shù)輸出,也可以變更為由功率計(jì)算裝置12計(jì)算自適應(yīng)聲源編碼裝置4輸出的編碼對(duì)象信號(hào)的信號(hào)功率,還可以變更為代替信號(hào)功率而計(jì)算振幅或?qū)?shù)功率等。
另外,在本實(shí)施形態(tài)5中,在結(jié)構(gòu)上,作為生成有噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有一個(gè)驅(qū)動(dòng)聲源編碼裝置9,而作為生成無噪聲聲源的驅(qū)動(dòng)聲源編碼裝置備有2個(gè)驅(qū)動(dòng)聲源編碼裝置10、11,但當(dāng)然可以使前者為2個(gè)以上并使后者為1個(gè)或3個(gè)以上。
另外,在本實(shí)施形態(tài)5中,簡(jiǎn)單地將信號(hào)間的平方距離作為失真,但當(dāng)然也可以是在語音編碼裝置中經(jīng)常使用的聽覺加權(quán)失真。
另外,在本實(shí)施形態(tài)5中,由閾值計(jì)算裝置40根據(jù)判定裝置39的判定結(jié)果選擇和使用預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的2個(gè)常數(shù)之一,但如判定結(jié)果為3個(gè)以上,則也可以使對(duì)應(yīng)的常數(shù)為3個(gè)以上,因而能進(jìn)行更為精細(xì)的控制。進(jìn)一步,也可以由判定裝置39通過分析輸入語音1而計(jì)算連續(xù)值的判定參數(shù),并由閾值計(jì)算裝置40根據(jù)該判定參數(shù)計(jì)算由連續(xù)值構(gòu)成的閾值。
如上所述,按照本實(shí)施形態(tài)5,與實(shí)施形態(tài)1的情況一樣,即使當(dāng)編碼失真較大時(shí),或當(dāng)編碼時(shí)的失真系數(shù)大于規(guī)定值時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,另外,即使當(dāng)編碼失真較大時(shí),也可以很容易地選擇將編碼失真置換后的聲源模式,此外,在編碼失真往往較大的區(qū)間及其以外的區(qū)間內(nèi),可以根據(jù)編碼失真改變聲源模式選擇的控制,因而可以消除語音開始部分的惡化,并能改善其他部分的語音模式選擇,進(jìn)一步,當(dāng)編碼失真較大時(shí),可以很容易地選擇生成有噪聲聲源的聲源模式或使用有噪聲的聲源代碼字的聲源模式,因而可以避免因選擇生成無噪聲聲源的聲源模式或使用無噪聲的聲源代碼字的聲源模式而引起的惡化,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
進(jìn)一步,按照本實(shí)施形態(tài)5,通過對(duì)輸入語音1或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài),并利用根據(jù)該判定結(jié)果決定的閾值進(jìn)行比較,所以,可以利用根據(jù)語音形態(tài)適當(dāng)決定的閾值進(jìn)行聲源模式的選擇,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。實(shí)施形態(tài)6圖6是表示應(yīng)用了本發(fā)明實(shí)施形態(tài)6的語音編碼方法的語音編碼裝置的結(jié)構(gòu)的框圖。圖中,對(duì)與圖1的各部分相同的部分標(biāo)以相同的符號(hào)而將其說明省略。在圖中,42是根據(jù)輸入語音1、來自線性預(yù)測(cè)系數(shù)編碼裝置3的信號(hào)及來自自適應(yīng)聲源編碼裝置4的信號(hào)輸出驅(qū)動(dòng)聲源、驅(qū)動(dòng)聲源代碼及模式選擇信息的驅(qū)動(dòng)聲源編碼部。
另外,43是由隨機(jī)數(shù)生成的時(shí)間序列向量構(gòu)成的驅(qū)動(dòng)聲源代碼簿,44是利用該驅(qū)動(dòng)聲源代碼簿43并根據(jù)來自線性預(yù)測(cè)系數(shù)編碼裝置3及自適應(yīng)聲源編碼裝置4的信號(hào)檢查臨時(shí)合成音與編碼對(duì)象信號(hào)之間的失真從而輸出驅(qū)動(dòng)聲源的作為編碼裝置的驅(qū)動(dòng)聲源編碼裝置。45是包含著脈沖位置表的驅(qū)動(dòng)聲源代碼簿,46是利用該驅(qū)動(dòng)聲源代碼簿45并根據(jù)來自線性預(yù)測(cè)系數(shù)編碼裝置3及自適應(yīng)聲源編碼裝置4的信號(hào)檢查臨時(shí)合成音與編碼對(duì)象信號(hào)之間的失真從而輸出驅(qū)動(dòng)聲源代碼的作為編碼裝置的驅(qū)動(dòng)聲源編碼裝置。此外,上述驅(qū)動(dòng)聲源編碼部42,由功率計(jì)算裝置12、閾值計(jì)算裝置13、判定裝置14、比較裝置15、變換裝置16、最小失真選擇裝置17、驅(qū)動(dòng)聲源代碼簿43、45、驅(qū)動(dòng)聲源編碼裝置44、46構(gòu)成。
以下,對(duì)動(dòng)作進(jìn)行說明。這里,以與上述實(shí)施形態(tài)1不同的部分為中心,根據(jù)圖6進(jìn)行說明。
在驅(qū)動(dòng)聲源代碼簿43內(nèi),存儲(chǔ)著由隨機(jī)數(shù)生成的多個(gè)時(shí)間序列向量。該驅(qū)動(dòng)聲源代碼簿43,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),將存儲(chǔ)在與該驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的位置上的時(shí)間序列向量讀出后輸出。驅(qū)動(dòng)聲源編碼裝置44,使通過將各驅(qū)動(dòng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿43而得到的時(shí)間序列向量通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)的差值,并根據(jù)該差值檢查兩者之間的失真。
驅(qū)動(dòng)聲源編碼裝置44,對(duì)所有的聲源代碼進(jìn)行上述處理,選擇給出最小失真的驅(qū)動(dòng)聲源代碼,并將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源而與上述最小失真及聲源代碼一起輸出到比較裝置15和變換裝置16。
另外,在驅(qū)動(dòng)聲源代碼簿45內(nèi),存儲(chǔ)著包含著脈沖位置表的代碼簿。驅(qū)動(dòng)聲源代碼簿45,當(dāng)輸入以幾位的二進(jìn)數(shù)值表示的驅(qū)動(dòng)聲源代碼時(shí),將該驅(qū)動(dòng)聲源代碼分離為多個(gè)脈沖位置代碼和極性,讀出存儲(chǔ)在與脈沖位置表中的各脈沖位置代碼對(duì)應(yīng)的位置上的脈沖位置,并根據(jù)該脈沖位置和極性生成并輸出具有多個(gè)脈沖的時(shí)間序列向量。進(jìn)一步,驅(qū)動(dòng)聲源代碼簿45,利用與由自適應(yīng)聲源編碼裝置4選定的自適應(yīng)聲源代碼對(duì)應(yīng)的重復(fù)周期使所生成的該時(shí)間序列向量的基音周期化,并輸出到驅(qū)動(dòng)聲源編碼裝置46。
驅(qū)動(dòng)聲源編碼裝置46,使通過將各驅(qū)動(dòng)聲源代碼輸入該驅(qū)動(dòng)聲源代碼簿45而得到的各時(shí)間序列向量通過采用了線性預(yù)測(cè)系數(shù)編碼裝置3輸出的量化后的線性預(yù)測(cè)系數(shù)的合成濾波器進(jìn)行濾波,從而求得臨時(shí)合成音。然后,求取使所求得的臨時(shí)合成音乘以適當(dāng)增益后的信號(hào)與從自適應(yīng)聲源編碼裝置4輸入的編碼對(duì)象信號(hào)的差值,并根據(jù)該差值檢查兩者之間的失真。驅(qū)動(dòng)聲源編碼裝置46,對(duì)所有的聲源代碼進(jìn)行上述處理,選擇給出最小失真的驅(qū)動(dòng)聲源代碼,并將與所選定的驅(qū)動(dòng)聲源代碼對(duì)應(yīng)的時(shí)間序列向量作為驅(qū)動(dòng)聲源而與上述最小失真及聲源代碼一起輸出到最小失真選擇裝置17。
另外,在這種情況下,在驅(qū)動(dòng)聲源編碼裝置44的驅(qū)動(dòng)聲源代碼簿43內(nèi),也存儲(chǔ)著由隨機(jī)數(shù)生成的有噪聲的聲源代碼字,在驅(qū)動(dòng)聲源編碼裝置46的驅(qū)動(dòng)聲源代碼簿45內(nèi),以脈沖位置表等形式存儲(chǔ)著無噪聲的聲源代碼字,此外,由驅(qū)動(dòng)聲源編碼裝置44輸出的時(shí)間序列向量,生成有噪聲的聲源,由驅(qū)動(dòng)聲源編碼裝置46輸出的時(shí)間序列向量,生成無噪聲的聲源。
另一方面,功率計(jì)算裝置12,計(jì)算接收到的輸入語音1的幀內(nèi)的信號(hào)功率并將其輸出到閾計(jì)算裝置13。閾值計(jì)算裝置13,使從功率計(jì)算裝置12輸入的信號(hào)功率乘以預(yù)先準(zhǔn)備好的與失真系數(shù)有關(guān)的常數(shù),并將所求得的結(jié)果作為與失真有關(guān)的閾值輸出到比較裝置15和變換裝置16。另外,判定裝置14,通過對(duì)輸入語音1進(jìn)行分析而判定語音形態(tài),作為判定結(jié)果,當(dāng)為語音的開始部分時(shí),將“0”輸出到閾值計(jì)算裝置13,而當(dāng)為其他部分時(shí),將“1”輸出到閾值計(jì)算裝置13。
比較裝置15,將從驅(qū)動(dòng)聲源編碼裝置44輸入的失真與從閾值計(jì)算裝置13輸入的閾值進(jìn)行比較,作為比較結(jié)果,當(dāng)失真較大時(shí)將“1”輸出到變換裝置16,在其他情況下將“0”輸出到變換裝置16。當(dāng)從該判定裝置14輸出的判定結(jié)果及從比較裝置15輸出的比較結(jié)果都為“1”時(shí),變換裝置16,將從驅(qū)動(dòng)聲源編碼裝置44輸入的結(jié)果中失真置換為從閾值計(jì)算裝置13輸入的閾值的值并輸出到最小失真選擇裝置17。在其他情況下不進(jìn)行上述置換,而是將從驅(qū)動(dòng)聲源編碼裝置44輸入的失真直接輸出到最小失真選擇裝置17。
最小失真選擇裝置17,對(duì)從該變換裝置16輸入的失真及從驅(qū)動(dòng)聲源編碼裝置46輸入的失真進(jìn)行比較,并從其中選擇最小的失真。然后,將從輸出該選定的最小失真的變換裝置16或驅(qū)動(dòng)聲源編碼裝置46輸出的驅(qū)動(dòng)聲源輸出到增益編碼裝置6,并將驅(qū)動(dòng)聲源代碼輸出到多路復(fù)用裝置7。進(jìn)一步,將指示選擇了上述2個(gè)失真中的哪一個(gè)的信息作為模式選擇信息輸出到多路復(fù)用裝置7。
這里,該驅(qū)動(dòng)聲源編碼裝置44與驅(qū)動(dòng)聲源編碼裝置46中的編碼處理的差異,僅僅是所訪問的驅(qū)動(dòng)聲源代碼簿43、45的不同。在這種情況下,可以變形為使驅(qū)動(dòng)聲源代碼簿43與驅(qū)動(dòng)聲源代碼簿45合為一體并由一個(gè)驅(qū)動(dòng)聲源編碼裝置進(jìn)行搜索。這時(shí),通過分別獨(dú)立地計(jì)算與驅(qū)動(dòng)聲源代碼簿43對(duì)應(yīng)的驅(qū)動(dòng)聲源的失真及與驅(qū)動(dòng)聲源代碼簿45對(duì)應(yīng)的失真并將前者的失真輸入到變換裝置16,可以取得同樣的效果。就是說,如果將與一個(gè)驅(qū)動(dòng)聲源代碼簿對(duì)應(yīng)的驅(qū)動(dòng)聲源代碼分成與有噪聲的代碼字對(duì)應(yīng)的和與無噪聲的代碼字對(duì)應(yīng)的2組并將前者看作是驅(qū)動(dòng)聲源代碼簿43而將后者看作是驅(qū)動(dòng)聲源代碼簿45,則可以應(yīng)用本實(shí)施形態(tài)6。
另外,在本實(shí)施形態(tài)6中,與實(shí)施形態(tài)1一樣,也可以構(gòu)成為由驅(qū)動(dòng)聲源編碼裝置44、46搜索使式(3)所示的評(píng)價(jià)值d為最大的驅(qū)動(dòng)聲源代碼并代替失真D而輸出評(píng)價(jià)值d。在這種情況下,由最小失真選擇裝置17選擇最大的評(píng)價(jià)值,并在比較裝置15中使大小的比較關(guān)系與輸出結(jié)果的關(guān)系反轉(zhuǎn)。此外,還必須由閾值計(jì)算裝置13計(jì)算與評(píng)價(jià)值d對(duì)應(yīng)的dth。
另外,在本實(shí)施形態(tài)6中,可以變形為使閾值計(jì)算裝置13將與失真系數(shù)有關(guān)的常數(shù)直接作為閾值輸出,并將驅(qū)動(dòng)聲源編碼裝置44、46輸出的失真作為除以輸入語音1的信號(hào)功率的值即失真系數(shù)輸出,也可以變更為由功率計(jì)算裝置12計(jì)算自適應(yīng)聲源編碼裝置4輸出的編碼對(duì)象信號(hào)的信號(hào)功率,還可以變更為代替信號(hào)功率而計(jì)算振幅或?qū)?shù)功率等。
另外,在本實(shí)施形態(tài)6中,在結(jié)構(gòu)上,作為生成有噪聲聲源的驅(qū)動(dòng)聲源編碼裝置的驅(qū)動(dòng)聲源編碼裝置44及作為生成無噪聲聲源的驅(qū)動(dòng)聲源編碼裝置的驅(qū)動(dòng)聲源編碼裝置46,各備有1個(gè),但當(dāng)然可以使其分別為2個(gè)以上。
另外,在本實(shí)施形態(tài)6中,簡(jiǎn)單地將信號(hào)間的平方距離作為失真,但當(dāng)然也可以是在語音編碼裝置中經(jīng)常使用的聽覺加權(quán)失真。
如上所述,按照本實(shí)施形態(tài)6,與實(shí)施形態(tài)1的情況一樣,即使當(dāng)編碼失真較大時(shí),或當(dāng)編碼時(shí)的失真系數(shù)大于規(guī)定值時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,另外,即使當(dāng)編碼失真較大時(shí),也可以很容易地選擇將編碼失真置換后的聲源模式,此外,對(duì)于即使編碼失真較大也很難引起譯碼音的質(zhì)量惡化的輸入語音,可以進(jìn)行與以往的情況相同的聲源模式選擇,因而能更為精細(xì)地進(jìn)行聲源模式選擇,此外,在編碼失真往往較大的區(qū)間及其以外的區(qū)間內(nèi),可以根據(jù)編碼失真改變聲源模式選擇的控制,因而可以消除語音開始部分的惡化,并能改善其他部分的語音模式選擇,進(jìn)一步,當(dāng)編碼失真較大時(shí),可以很容易地選擇生成有噪聲聲源的聲源模式或使用有噪聲的聲源代碼字的聲源模式,因而可以避免因選擇生成無噪聲聲源的聲源模式或使用無噪聲的聲源代碼字的聲源模式而引起的惡化,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。實(shí)施形態(tài)7在上述實(shí)施形態(tài)2中,說明了備有由自適應(yīng)聲源編碼裝置及驅(qū)動(dòng)聲源編碼裝置構(gòu)成的多個(gè)聲源編碼裝置19~21并從中選擇一個(gè)的結(jié)構(gòu),但也可以備有多個(gè)還包含著增益編碼裝置6的更高一級(jí)的多個(gè)聲源編碼裝置,并從中選擇一個(gè)。
另外,在實(shí)施形態(tài)3~實(shí)施形態(tài)6中,也都可以構(gòu)成為備有由自適應(yīng)聲源編碼裝置4及驅(qū)動(dòng)聲源編碼裝置9~11或44、46構(gòu)成的多個(gè)聲源編碼裝置,并從中選擇一個(gè),也可以構(gòu)成為備有多個(gè)還包含著增益編碼裝置6的更高一級(jí)的聲源編碼裝置,并從中選擇一個(gè)。
在這種備有多個(gè)高一級(jí)的聲源模式并使用該聲源模式按每個(gè)被稱為幀的規(guī)定長度的區(qū)間對(duì)輸入語音進(jìn)行編碼的語音編碼方法中,按每種聲源模式對(duì)從輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真與固定的閾值或根據(jù)編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較,從而根據(jù)該比較結(jié)果進(jìn)行聲源模式的選擇,所以,當(dāng)編碼失真較大時(shí),可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量即音質(zhì)得到改善的效果。
發(fā)明的效果如上所述,按照本發(fā)明,構(gòu)成為在多個(gè)聲源模式的每一個(gè)中對(duì)從輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼并根據(jù)編碼時(shí)的編碼失真與固定的閾值或由編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值的比較結(jié)果選擇聲源模式從而利用所選定的模式按每個(gè)幀對(duì)輸入語音進(jìn)行編碼,所以,即使當(dāng)編碼失真較大時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量即音質(zhì)得到改善的效果。
按照本發(fā)明,構(gòu)成為在多個(gè)聲源模式的每一個(gè)中在對(duì)從輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼后根據(jù)編碼時(shí)的編碼失真的相互比較結(jié)果選擇一種聲源模式并將與該聲源模式對(duì)應(yīng)的編碼失真與固定的閾值或根據(jù)編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較從而根據(jù)該比較結(jié)果進(jìn)行聲源模式的置換并利用所選定的模式按每個(gè)幀對(duì)輸入語音進(jìn)行編碼,所以,即使當(dāng)編碼失真較大時(shí),也可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量(音質(zhì))得到改善的效果。
按照本發(fā)明,構(gòu)成為當(dāng)編碼失真超過閾值時(shí)可以對(duì)得到該比較結(jié)果的聲源模式的選擇進(jìn)行抑制,所以,當(dāng)編碼失真較大時(shí),可以很容易地選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為按每種聲源模式準(zhǔn)備閾值,所以,可以按每種聲源模式對(duì)用于檢測(cè)引起譯碼音質(zhì)量惡化的情況的閾值進(jìn)行適當(dāng)?shù)恼{(diào)整,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為在預(yù)先決定的聲源模式中進(jìn)行編碼失真與閾值的比較并當(dāng)編碼失真超過閾值時(shí)將該編碼失真置換為閾值的值從而選擇與所有聲源模式的編碼失真中的最小編碼失真對(duì)應(yīng)的聲源模式,所以,當(dāng)編碼失真較大時(shí),可以很容易地選擇將編碼失真置換后的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為選擇與所選定的聲源模式對(duì)應(yīng)的編碼失真后與閾值進(jìn)行比較并當(dāng)編碼失真超過閾值時(shí)選擇預(yù)先決定的聲源模式,所以,當(dāng)編碼失真較大時(shí),可以強(qiáng)制性地選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為將閾值設(shè)定為對(duì)輸入語音或編碼對(duì)象信號(hào)規(guī)定的失真系數(shù),所以,當(dāng)編碼時(shí)的失真系數(shù)大于規(guī)定值時(shí),可以選擇譯碼音的質(zhì)量很少惡化的聲源模式,因而可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源模式,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài)并僅當(dāng)為規(guī)定的判定結(jié)果時(shí)進(jìn)行聲源模式的選擇而不使用編碼失真與閾值的比較結(jié)果,所以,對(duì)于即使編碼失真較大也很難引起譯碼音的質(zhì)量惡化的輸入語音,可以進(jìn)行與以往的情況相同的聲源模式選擇,因而能更為精細(xì)地進(jìn)行聲源模式選擇,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為利用根據(jù)對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而得到的語音形態(tài)判定結(jié)果決定的閾值進(jìn)行比較,所以,可以利用根據(jù)語音形態(tài)適當(dāng)設(shè)定的閾值進(jìn)行聲源模式的選擇,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為在語音形態(tài)的判定中至少要判定是否是語音的開始,所以,在編碼失真往往較大的區(qū)間及其以外的區(qū)間內(nèi),可以根據(jù)編碼失真改變聲源模式選擇的控制,因而可以消除語音開始部分的惡化,并能改善其他部分的語音模式選擇,從而可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善,此外,對(duì)于語音開始的區(qū)間,脈沖聲源通常比破裂音等有噪聲的聲源更為適合,因此,盡管編碼失真較大也要優(yōu)先選擇特定的聲源模式的控制,有時(shí)將引起惡化,但通過對(duì)語音的開始進(jìn)行判定,能取得可以避免這種情況等的效果。
按照本發(fā)明,構(gòu)成為由生成無噪聲聲源的聲源模式及生成有噪聲聲源的聲源模式構(gòu)成多種聲源模式,所以,當(dāng)編碼失真較大時(shí),可以很容易地選擇生成有噪聲聲源的聲源模式,因而可以避免因選擇生成無噪聲聲源的聲源模式而引起的惡化,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
按照本發(fā)明,構(gòu)成為由使用無噪聲的聲源代碼字的聲源模式及使用有噪聲的聲源代碼字的聲源模式構(gòu)成多種聲源模式,所以,當(dāng)編碼失真較大時(shí),可以很容易地地選擇使用有噪聲的聲源代碼字的聲源模式,因而可以避免因選擇使用無噪聲的聲源代碼字的聲源模式而引起的惡化,從而能取得可以使由語音譯碼裝置將所求得的語音代碼譯碼后的譯碼音的主觀質(zhì)量得到改善的效果。
權(quán)利要求
1.一種語音編碼方法,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼方法的特征在于在編碼步驟中,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出,在比較步驟中,將由上述編碼步驟編碼后的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較,在選擇步驟中,根據(jù)由上述編碼步驟編碼后的編碼失真及上述比較步驟的比較結(jié)果進(jìn)行上述聲源模式的選擇。
2.一種語音編碼方法,一種語音編碼方法,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼方法的特征在于在編碼步驟中,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出,在選擇步驟中,對(duì)由上述編碼步驟編碼后的編碼失真進(jìn)行相互比較,并根據(jù)該比較結(jié)果選擇一種聲源模式,在比較步驟中,將與由上述選擇步驟選定的聲源模式對(duì)應(yīng)的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較,在置換步驟中,根據(jù)上述比較步驟的比較結(jié)果對(duì)由上述選擇步驟選定的聲源模式進(jìn)行置換。
3.根據(jù)權(quán)利要求1所述的語音編碼方法,其特征在于在選擇步驟中,對(duì)所得到的比較結(jié)果為編碼失真超過閾值的聲源模式的選擇進(jìn)行抑制。
4.根據(jù)權(quán)利要求1所述的語音編碼方法,其特征在于按每種聲源模式準(zhǔn)備閾值。
5.根據(jù)權(quán)利要求1所述的語音編碼方法,其特征在于在進(jìn)行編碼失真的輸出變換的變換步驟中,當(dāng)比較步驟的編碼失真與閾值的比較結(jié)果為上述編碼失真超過上述閾值時(shí),可以用上述閾值的值置換該編碼失真,在選擇步驟中,從包含著由上述變換步驟輸出的編碼失真的所有聲源模式的編碼失真中選擇與最小編碼失真對(duì)應(yīng)的聲源模式。
6.根據(jù)權(quán)利要求2所述的語音編碼方法,其特征在于在置換步驟中,當(dāng)與選擇步驟選定的聲源模式對(duì)應(yīng)的編碼失真超過閾值時(shí),選擇預(yù)先決定的聲源模式。
7.根據(jù)權(quán)利要求1或2所述的語音編碼方法,其特征在于將閾值設(shè)定為對(duì)輸入語音或編碼對(duì)象信號(hào)規(guī)定的失真系數(shù)。
8.根據(jù)權(quán)利要求1所述的語音編碼方法,其特征在于設(shè)置判定步驟,通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài),并僅當(dāng)上述判定步驟輸出規(guī)定的判定結(jié)果時(shí),由選擇步驟進(jìn)行聲源模式的選擇而不使用比較步驟的比較結(jié)果。
9.根據(jù)權(quán)利要求1或2所述的語音編碼方法,其特征在于設(shè)置判定步驟,通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài),并設(shè)置閾值計(jì)算步驟,根據(jù)上述判定步驟的判定結(jié)果進(jìn)行閾值的決定,在比較步驟中,利用由上述閾值計(jì)算步驟決定的閾值進(jìn)行比較。
10.根據(jù)權(quán)利要求8所述的語音編碼方法,其特征在于判定步驟,至少進(jìn)行是否是語音的開始的判定。
11.根據(jù)權(quán)利要求1所述的語音編碼方法,其特征在于由生成有噪聲聲源的聲源模式及生成無噪聲聲源的聲源模式形成多種聲源模式。
12.一種語音編碼裝置,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼裝置的特征在于,備有編碼裝置,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出;比較裝置,將由上述編碼裝置編碼后的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較;選擇裝置,根據(jù)由上述編碼裝置編碼后的編碼失真及上述比較裝置的比較結(jié)果進(jìn)行上述聲源模式的選擇。
13.一種語音編碼裝置,從多種聲源模式中選擇一種聲源模式,并使用該聲源模式按每個(gè)由規(guī)定長度區(qū)間構(gòu)成的幀對(duì)輸入語音進(jìn)行編碼,該語音編碼裝置的特征在于,備有編碼裝置,按上述每種聲源模式對(duì)從上述輸入語音求得的編碼對(duì)象信號(hào)進(jìn)行編碼,并將編碼時(shí)的編碼失真輸出;選擇裝置,對(duì)由上述編碼裝置編碼后的編碼失真進(jìn)行相互比較,并根據(jù)該比較結(jié)果選擇一種聲源模式;比較裝置,將與由上述選擇裝置選定的聲源模式對(duì)應(yīng)的編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)上述編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較;置換裝置,根據(jù)上述比較裝置的比較結(jié)果對(duì)由上述選擇裝置選定的聲源模式進(jìn)行置換。
14.根據(jù)權(quán)利要求12或13所述的語音編碼方法,其特征在于比較裝置,將用于與由編碼裝置輸出的編碼失真進(jìn)行比較的閾值設(shè)定為對(duì)輸入語音或編碼對(duì)象信號(hào)規(guī)定的失真系數(shù)。
15.根據(jù)權(quán)利要求12所述的語音編碼方法,其特征在于備有通過對(duì)輸入語音或編碼對(duì)象信號(hào)進(jìn)行分析而判定語音形態(tài)的判定裝置,選擇裝置,僅當(dāng)上述判定裝置輸出規(guī)定的判定結(jié)果時(shí),進(jìn)行聲源模式的選擇而不使用比較裝置的比較結(jié)果。
全文摘要
提供一種可以適當(dāng)?shù)剡x擇給出較好音質(zhì)的聲源并能使由語音譯碼裝置將所求得的語音代碼譯碼后得到的譯碼音的主觀質(zhì)量即音質(zhì)得到改善的語音編碼方法及語音編碼裝置。備有按每種聲源模式對(duì)從輸入語音1求得的編碼對(duì)象信號(hào)進(jìn)行編碼并將編碼時(shí)的編碼失真輸出的驅(qū)動(dòng)聲源編碼裝置9~11、將編碼失真與固定的閾值或根據(jù)上述輸入語音的信號(hào)功率決定的閾值或根據(jù)編碼對(duì)象信號(hào)的信號(hào)功率決定的閾值進(jìn)行比較的比較裝置15、及根據(jù)編碼失真及比較裝置的比較結(jié)果進(jìn)行聲源模式的選擇的最小失真選擇裝置17。
文檔編號(hào)G10L19/00GK1372247SQ0210535
公開日2002年10月2日 申請(qǐng)日期2002年2月26日 優(yōu)先權(quán)日2001年2月27日
發(fā)明者田崎裕久 申請(qǐng)人:三菱電機(jī)株式會(huì)社