專利名稱:音頻數(shù)據(jù)內(nèi)插裝置及方法、音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置及方法、音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝 ...的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻數(shù)據(jù)內(nèi)插裝置及方法、音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置及方法、音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置及方法、以及它們的程序和記錄媒體。
對于考慮傳輸誤差的編碼,在ISO/IEC MPEG-4 Audio中已經(jīng)標(biāo)準(zhǔn)化了,但是,對于補(bǔ)償殘留誤差的音頻內(nèi)插技術(shù)尚未進(jìn)行規(guī)定(例如,參照ISO/IEC 14496-3,“Information technology Coding of ardio-visual objectsPart 3Audio Amendment 1Audio extensions”,2000)。
在現(xiàn)有技術(shù)中,對于在線路轉(zhuǎn)接網(wǎng)的情況下誤差產(chǎn)生以及在信息分組交換網(wǎng)的情況下分組損失產(chǎn)生的幀數(shù)據(jù),進(jìn)行與誤差模型相對應(yīng)的內(nèi)插。作為內(nèi)插法,具有例如稱為靜音(muting)、重復(fù)(repetition)、噪聲置換(noise substitution)和預(yù)測(prediction)的方法。
圖1A、1B、1C是表示內(nèi)插的例子的圖。圖1A、1B、1C所示的波形是過渡(transient)的波形的例子,音源是響板。圖1A表示沒有誤差時的波形。在此,設(shè)在圖1A的虛線圍繞的部分中發(fā)生了誤差。圖1B是通過重復(fù)來內(nèi)插該部分的例子,圖1C是通過噪聲置換來內(nèi)插該部分的例子。
圖2A、2B、2C是表示內(nèi)插的另一個例子的圖。圖2A、2B、2C所示的波形是穩(wěn)態(tài)(steady)的波形的例子,音源是風(fēng)笛。圖2A表示沒有誤差時的波形。在此,設(shè)在圖2A的虛線圍繞的部分中發(fā)生了誤差。圖2B是通過重復(fù)來內(nèi)插該部分的例子,圖2C是通過噪聲置換來內(nèi)插該部分的例子。
雖然存在以上那樣的內(nèi)插法,但是,哪個內(nèi)插法最佳,即使是相同誤差模型,也取決于音源(聲音的特性)。這是基于沒有適合于全部音源的內(nèi)插法的認(rèn)識。特別是,哪個內(nèi)插法最佳,即使是相同誤差模型,取決于聲音的瞬時特性。例如,在圖1A、1B、1C的例子中,雖圖1C的的噪聲置換這一方優(yōu)于圖1B的重復(fù),但是,在圖2A、2B、2C的例子中,圖2B的重復(fù)這一方優(yōu)于圖2C的噪聲置換。
因此,在現(xiàn)有技術(shù)中,提出了對應(yīng)于誤差模型的各種音頻內(nèi)插法,但沒有適應(yīng)于音源模型的內(nèi)插法(例如參照J(rèn).Herre and E.Eberlein,“Evaluation of Concealment Techniques for Compressed Digital Audio”,94th AES Convention,1993,preprint 3460)。
而且,本發(fā)明的另一個目的是提供某個音頻幀和與該音頻幀相關(guān)的輔助信息不會一起損失的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置及方法、以及它們的程序和記錄媒體。
本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插裝置,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);檢測裝置,檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;推定裝置,推定上述誤差或者損失被檢出的幀的內(nèi)插信息;內(nèi)插裝置,使用通過上述推定裝置對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
而且,在本發(fā)明中,其特征在于,上述幀的各個都具有參數(shù),上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)來判別上述誤差或者損失被檢出的幀的參數(shù),根據(jù)該幀的參數(shù)來推定上述誤差或者損失被檢出的幀的聲音狀況。
而且,在本發(fā)明中,其特征在于,上述參數(shù)的過渡狀態(tài)被預(yù)先決定,上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)以及上述過渡狀態(tài)來判別上述誤差或者損失被檢出的幀的參數(shù)。
而且,在本發(fā)明中,其特征在于,上述推定裝置根據(jù)上述誤差或者損失被檢出的幀的能量和該幀的前和/或后的幀的能量的相似性,來推定上述誤差或者損失被檢出的幀的聲音狀況。
而且,在本發(fā)明中,其特征在于,上述推定裝置,通過比較以時間區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以時間區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量,來求出上述相似性。
而且,在本發(fā)明中,其特征在于,上述推定裝置,通過比較以頻率區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以頻率區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量,來求出上述相似性。
而且,在本發(fā)明中,其特征在于,上述推定裝置,根據(jù)與上述誤差或者損失被檢出的幀有關(guān)的、基于該幀的前和/或后的幀的可預(yù)測性,來推定上述誤差或者損失被檢出的幀的聲音狀況。
而且,在本發(fā)明中,其特征在于,上述推定裝置,根據(jù)上述音頻數(shù)據(jù)的頻率區(qū)域中的分布偏移,來求出上述可預(yù)測性。
而且,在本發(fā)明中,其特征在于,上述推定裝置,根據(jù)該幀前的幀的聲音狀況,來推定上述誤差或者損失被檢出的幀的聲音狀況。
再有,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插裝置,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括音頻數(shù)據(jù)輸入裝置,輸入上述音頻數(shù)據(jù);內(nèi)插信息輸入裝置,與上述音頻數(shù)據(jù)的各幀相關(guān),輸入該幀的內(nèi)插信息;檢測裝置,檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;內(nèi)插裝置,使用通過上述內(nèi)插信息輸入裝置對該幀所輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插裝置,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括音頻數(shù)據(jù)輸入裝置,輸入上述音頻數(shù)據(jù);檢測裝置,檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;內(nèi)插信息輸入/推定裝置,輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息;內(nèi)插裝置,使用通過上述內(nèi)插信息輸入/推定裝置對該幀所輸入或推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置,制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);制作裝置,與上述音頻數(shù)據(jù)的各幀相關(guān),制作該幀的內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述制作裝置,制作與上述音頻數(shù)據(jù)的各幀相關(guān)的,包含該幀的能量和該幀的前和/或后的幀的能量的相似性的上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述制作裝置,制作與上述音頻數(shù)據(jù)的各幀相關(guān)的,包含與該幀有關(guān)的、基于與該幀的前和/或后的幀的可預(yù)測性的上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述制作裝置,制作與上述音頻數(shù)據(jù)的各幀相關(guān)的,包含該幀的聲音狀況的上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述制作裝置,制作與上述音頻數(shù)據(jù)的各幀相關(guān)的,包含該幀的內(nèi)插法的上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述制作裝置,對于上述音頻數(shù)據(jù)的各幀,使誤差發(fā)生,在誤差發(fā)生的數(shù)據(jù)中使用多個內(nèi)插法,根據(jù)該多個內(nèi)插法的使用結(jié)果,來從該多個內(nèi)插法中選擇包含上述內(nèi)插信息的內(nèi)插法。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插方法,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù);檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;推定上述誤差或者損失被檢出的幀的內(nèi)插信息;使用通過上述推定步驟對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
而且,在本發(fā)明中,還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且,在本發(fā)明中,還提供一種計(jì)算機(jī)可讀的記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插方法,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù);與上述音頻數(shù)據(jù)的各幀相關(guān),輸入該幀的內(nèi)插信息;檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;使用通過對該幀輸入上述內(nèi)插信息的步驟而輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
而且,在本發(fā)明中,還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且,在本發(fā)明中,還提供一種計(jì)算機(jī)可讀的記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插方法,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù);檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息;使用通過上述輸入/推定上述內(nèi)插信息的步驟對該幀所輸入或者推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
而且,在本發(fā)明中,還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且,在本發(fā)明中,還提供一種計(jì)算機(jī)可讀的記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法,制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù);與上述音頻數(shù)據(jù)的各幀相關(guān),制作該幀的內(nèi)插信息。
而且,在本發(fā)明中,還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
而且,在本發(fā)明中,還提供一種計(jì)算機(jī)可讀的記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);時間差附加裝置,給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差;發(fā)送裝置,把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置,僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時,與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置通過把上述內(nèi)插信息埋入音頻數(shù)據(jù)中來進(jìn)行發(fā)送。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置根據(jù)再發(fā)送要求,僅對上述內(nèi)插信息進(jìn)行再發(fā)送。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);發(fā)送裝置,把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置,僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時,與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置根據(jù)再發(fā)送要求,僅對上述內(nèi)插信息進(jìn)行再發(fā)送。
而且,在本發(fā)明中,其特征在于,上述發(fā)送裝置,用與發(fā)送上述音頻數(shù)據(jù)的信道不同的可靠的其他信道來發(fā)送上述內(nèi)插信息。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù);給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差;把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送。
而且,在本發(fā)明中,還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且,在本發(fā)明中,還提供一種計(jì)算機(jī)可讀的記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
進(jìn)而,本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù);把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送的步驟。
而且,在本發(fā)明中,還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且,在本發(fā)明中,還提供一種計(jì)算機(jī)可讀的記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
圖9是表示本發(fā)明的第二實(shí)施例的編碼/內(nèi)插信息制作裝置的構(gòu)成例子的方框圖;圖10是表示本發(fā)明的第二實(shí)施例的內(nèi)插裝置的另一個構(gòu)成例子的方框圖;圖11是表示本發(fā)明的第二實(shí)施例的編碼/內(nèi)插信息制作裝置的另一個構(gòu)成例子的方框圖;圖12是表示本發(fā)明的第四實(shí)施例的信息分組傳輸模型圖;圖13是表示本發(fā)明的第四實(shí)施例的發(fā)送裝置的構(gòu)成例子的方框圖;圖14是表示本發(fā)明的第五實(shí)施例的信息分組傳輸模型圖;圖15是表示本發(fā)明的第六實(shí)施例的信息分組傳輸模型圖;圖16是表示本發(fā)明的第七實(shí)施例的信息分組傳輸模型圖。
第一實(shí)施例圖3表示本發(fā)明的第一實(shí)施例的內(nèi)插裝置的構(gòu)成例子。內(nèi)插裝置10的結(jié)構(gòu)既可以做成接收音頻數(shù)據(jù)的接收裝置的一部分,也可以做成獨(dú)立的部件。內(nèi)插裝置10包括誤差或者損失檢測部14、解碼部16、狀況判別部18和內(nèi)插法選擇部20。
內(nèi)插裝置10對所輸入的由多個幀組成的音頻數(shù)據(jù)(在本實(shí)施例中為比特流),由解碼部16進(jìn)行解碼,生成解碼音。但是,由于在音頻數(shù)據(jù)中存在誤差或者損失,因此,音頻數(shù)據(jù)還被輸入誤差或者損失檢測部14,檢測各幀的誤差或者損失。對于誤差或者損失被檢測出的幀,在狀況判別部18中判別該幀的聲音狀況(在本實(shí)施例中,是過渡的或者穩(wěn)態(tài)的)。在內(nèi)插法選擇部20中,根據(jù)所判別的聲音狀況,選擇該幀的內(nèi)插法。而且,在解碼部16中,用所選擇的內(nèi)插法,來進(jìn)行該幀(誤差或者損失被檢出的幀)的內(nèi)插。
在本實(shí)施例中,根據(jù)該幀的前和/或后的幀的參數(shù)以及預(yù)定的參數(shù)的過渡狀態(tài)來判別誤差或者損失被檢出的幀的參數(shù)。而且,根據(jù)該幀的參數(shù)來判別誤差或者損失被檢出的幀的聲音狀況。但是,當(dāng)判別誤差或者損失被檢出的幀的參數(shù)時,可以不考慮參數(shù)的過渡狀態(tài),僅根據(jù)該幀的前和/或后的幀的參數(shù)來進(jìn)行判別。
在本實(shí)施例中,當(dāng)在送信側(cè)對音頻數(shù)據(jù)進(jìn)行AAC(高級聲言編碼)編碼時,在過渡的幀中使用short窗,在除此之外的幀中使用long窗。為了連接long窗和short窗,具有start窗和stop窗。在發(fā)送側(cè),在各幀上作為window_sequence信息(參數(shù))而附加short、long、start和stop的任一個,來進(jìn)行發(fā)送。
在接收(內(nèi)插)側(cè),誤差或者損失被檢出的幀的window_sequence信息能夠根據(jù)該幀的前和/或后的幀的window_sequence信息以及預(yù)定的window_sequence信息的過渡狀態(tài)進(jìn)行判別。
圖4是表示預(yù)定的參數(shù)(window_sequence信息)的過渡狀態(tài)的例子圖。根據(jù)圖4的過渡狀態(tài)可知,如果前一個幀的window_sequence信息是stop,后一個幀的window_sequence信息是start,則自己的幀(誤差或者損失被檢出的幀)的window_sequence信息是long。而且,如果前一個幀的window_sequence信息是start,則自己的幀的window_sequence信息是short。而且,如果后一個幀的window_sequence信息是stop,則自己的幀的window_sequence信息是short。
根據(jù)這樣判別的,誤差或者損失被檢出的幀的window_sequence信息,來判別該幀的聲音狀況。例如,如果所判別的window_sequence信息是short,該幀可判別為過渡的。
作為與聲音狀況相對應(yīng)的內(nèi)插法的選擇方法,例如,可考慮在過渡狀態(tài)中使用噪聲置換法,在其他情況下使用重復(fù)或者預(yù)測法。
第二實(shí)施例下面對本發(fā)明的第二實(shí)施例進(jìn)行說明。在第二實(shí)施例中,能夠使用與圖1所示的第一實(shí)施例的內(nèi)插裝置相同的內(nèi)插裝置。
在本實(shí)施例中,根據(jù)誤差或者損失被檢出的幀的能量和該幀前的幀的能量的相似性,來判別誤差或者損失被檢出的幀的聲音狀況。進(jìn)而,根據(jù)對誤差或者損失被檢出的幀的、及該幀前的幀的可預(yù)測性,來判別誤差或者損失被檢出的幀的聲音狀況。而且,在本實(shí)施例中,根據(jù)相似性和可預(yù)測性來判別聲音狀況,但是,也可以根據(jù)一方來判別聲音狀況。
首先,對相似性進(jìn)行更具體的說明。在本實(shí)施例中,通過比較以時間區(qū)域分割誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以時間區(qū)域分割該幀前的幀時的各個分割區(qū)域的能量,來求出相似性。
圖5是用于說明能量的比較例子圖。在本實(shí)施例中,把幀分割為短的時間間隙,比較與下一幀的相同時間間隙的能量。而且,例如,如果各時間間隙的能量差(的合計(jì))為閾值以下,就判斷為「相類似」。對于相似性,可以用是否相類似(標(biāo)志)來表示,也可以根據(jù)能量差而用類似度(程度)來表示。而且,進(jìn)行比較的時間間隙可以是幀內(nèi)的全部時間間隙,也可以是一部分時間間隙。
在本實(shí)施例中,雖可以用時間區(qū)域來分割幀進(jìn)行能量的比較,但是,也可以代之以用頻率區(qū)域來分割幀進(jìn)行能量的比較。
圖6是用于說明能量比較例子的另一圖。在圖6中,用頻率區(qū)域把幀分割為子帶,比較與下一幀相同子帶的能量。例如,如果各子帶的能量差(的合計(jì))為閾值以下,就判斷為「相類似」。
在以上的說明中,是將所關(guān)注的幀的能量與其前一個幀的能量進(jìn)行比較,來求出相似性;但是,也可以與前兩個以上的幀的能量進(jìn)行比較,來求出相似性;也可以與后面的幀的能量進(jìn)行比較,來求出相似性;也可以與前和后的幀的能量進(jìn)行比較,來求出相似性。
接著,對可預(yù)測性進(jìn)行具體說明。在本實(shí)施例中,可預(yù)測性根據(jù)音頻數(shù)據(jù)的頻率區(qū)域中的分布的偏移來求出。
圖7A、7B是用于說明可預(yù)測性的計(jì)算方法的例子圖。在圖7A、7B中,音頻數(shù)據(jù)的波形表示在時間區(qū)域和頻率區(qū)域中。如圖7A所示的那樣,預(yù)測有效的情況可認(rèn)為是時間區(qū)域中的相關(guān)性強(qiáng),而頻率區(qū)域中出現(xiàn)頻譜偏移。另一方面,如圖7B所示的那樣,預(yù)測無效的情況可認(rèn)為是時間區(qū)域中的相關(guān)性弱(或者無關(guān)),而頻率區(qū)域中,頻譜是平坦的。作為可預(yù)測性的值,例如,可以使用GP=相加平均/相乘平均。例如,在頻譜偏移為25,1的情況下(如圖7A的情況),GP如以下所示變大
另一方面,例如,在頻譜為5,5的平坦的情況下(如圖7B的情況),GP如以下所示變小而且,可預(yù)測性可以通過預(yù)測是否有效(標(biāo)志)來表示。
根據(jù)如以上所求出的相似性和可預(yù)測性,來判別誤差或者損失被檢出的幀的聲音狀況。
圖8是用于說明聲音狀況的判別方法的例子圖。在圖8的例子中,在大于具有相似性的值時,判別為是穩(wěn)態(tài)的。另一方面,當(dāng)小于具有相似性的值時,判別為過渡的或者其他情況。
作為與聲音狀況相對應(yīng)的內(nèi)插法的選擇方法,可考慮例如,在過渡的情況下使用噪聲置換法,在穩(wěn)態(tài)的情況下使用重復(fù)法,在其他的情況下使用預(yù)測法。而且,例如,根據(jù)內(nèi)插裝置的解碼器的能力(運(yùn)算能力),一般還可考慮改變成為進(jìn)行運(yùn)算量多的預(yù)測法(圖8的)「其他」的領(lǐng)域。
相似性和可預(yù)測性存在能夠在接收側(cè)(內(nèi)插裝置側(cè))進(jìn)行計(jì)算的情況,也存在不能計(jì)算的情況。例如,根據(jù)可擴(kuò)縮編碼,如果芯層能夠正確接收,在該芯層與前一幀的芯層中,可以視為具有相似性??紤]在接收側(cè)不能計(jì)算的情況,在發(fā)送側(cè)求出相似性和可預(yù)測性,與音頻數(shù)據(jù)一起進(jìn)行發(fā)送。在接收側(cè),可以與音頻數(shù)據(jù)一起接收相似性和可預(yù)測性。
圖9表示本實(shí)施例的編碼/內(nèi)插信息制作裝置的構(gòu)成例子。編碼/內(nèi)插信息制作裝置60可以作為發(fā)送音頻數(shù)據(jù)的發(fā)送裝置的一部分構(gòu)成,也可以作為獨(dú)立的部分構(gòu)成。編碼/內(nèi)插信息制作裝置60包括編碼部62和內(nèi)插信息制作部64。
在編碼部62進(jìn)行編碼對象聲音的編碼,生成音頻數(shù)據(jù)(比特流)。而且,在內(nèi)插信息制作部64中,求出相似性和可預(yù)測性,作為音頻數(shù)據(jù)的各幀的內(nèi)插信息(關(guān)聯(lián)信息)。
內(nèi)插信息可以從原始聲音(編碼對象聲音)或者編碼過程中的值/參數(shù)來求出??梢耘c音頻數(shù)據(jù)一起發(fā)送這樣求出的內(nèi)插信息(與音頻數(shù)據(jù)不同,也可考慮僅將內(nèi)插信息事先發(fā)送)。在此,例如,(1)以時間差來發(fā)送內(nèi)插信息,(2)對內(nèi)插信息進(jìn)行強(qiáng)力糾錯(編碼)發(fā)送,(3)把內(nèi)插信息發(fā)送多次,由此,幾乎不會使傳輸信息量增加,能夠進(jìn)一步謀求品質(zhì)的提高。
圖10表示本實(shí)施例的內(nèi)插裝置的另一個構(gòu)成例子。內(nèi)插裝置10’可以作為接收音頻數(shù)據(jù)的接收裝置的一部分構(gòu)成,也可以作為獨(dú)立的部件構(gòu)成。內(nèi)插裝置10’包括誤差或者損失檢測部14、解碼部16、狀況判別部18和內(nèi)插法選擇部20。
內(nèi)插裝置10’除了音頻數(shù)據(jù)(比特流)之外還接收內(nèi)插信息的輸入。所輸入的內(nèi)插信息(相似性和可預(yù)測性)用于狀況判別部18中。即,根據(jù)內(nèi)插信息,來判別誤差或者損失被檢出的幀的聲音狀況。
狀況判別部18可以僅依賴于所輸入的內(nèi)插信息來判別聲音狀況,也可以在具有內(nèi)插信息的情況下,根據(jù)該內(nèi)插信息來判別聲音狀況,在沒有內(nèi)插信息的情況下,可求出自己的相似性和可預(yù)測性,來判別聲音狀況。
在上述圖9和圖10的例子中,在發(fā)送側(cè)(編碼/內(nèi)插信息制作裝置60側(cè)),求出各幀的相似性和可預(yù)測性,進(jìn)行發(fā)送,但是,也可以在發(fā)送側(cè)根據(jù)相似性和可預(yù)測性,判別各幀的聲音狀況,把該判別的聲音狀況作為內(nèi)插信息來進(jìn)行發(fā)送。內(nèi)插裝置10’可以將接收的內(nèi)插信息輸入內(nèi)插法選擇部20。內(nèi)插裝置10’可以僅依賴于內(nèi)插信息,也可以僅在內(nèi)插信息存在的情況下,使用內(nèi)插信息。在僅依賴于內(nèi)插信息的情況下,可以沒有狀況判別部18,也可以將誤差/損失檢測結(jié)果輸入內(nèi)插法選擇部20。
而且,可以在發(fā)送側(cè)根據(jù)相似性和可預(yù)測性來判別聲音狀況,決定各幀的內(nèi)插法,把該決定的內(nèi)插法作為內(nèi)插信息來發(fā)送。內(nèi)插裝置10’可以把接收的內(nèi)插信息輸入解碼部16。內(nèi)插裝置10’可以僅依賴于內(nèi)插信息,也可以僅在內(nèi)插信息存在的情況下使用內(nèi)插信息。在僅依賴于內(nèi)插信息的情況下,可以沒有狀況判別部18和內(nèi)插法選擇部20,也可以把誤差/損失檢測結(jié)果輸入解碼部16。
而且,內(nèi)插法可以是在發(fā)送側(cè)使誤差發(fā)生后,嘗試多個內(nèi)插法,根據(jù)其結(jié)果來進(jìn)行選擇。
圖11表示本實(shí)施例的編碼/內(nèi)插信息制作裝置的另一個構(gòu)成例子。編碼/內(nèi)插信息制作裝置60’可以作為發(fā)送音頻數(shù)據(jù)的發(fā)送裝置的一部分構(gòu)成,也可以作為獨(dú)立的部分構(gòu)成。編碼/內(nèi)插信息制作裝置60’包括編碼部62、內(nèi)插信息制作部64、模擬誤差生成部66和內(nèi)插部68。
對于音頻數(shù)據(jù)(比特流)的各幀的數(shù)據(jù),由模擬誤差生成部66所生成的模擬誤差由加法部67相加。對于這樣使誤差發(fā)生的各幀的數(shù)據(jù),在內(nèi)插部68中使用多個內(nèi)插法(內(nèi)插法A、B、C、D、…)。各個內(nèi)插法的使用結(jié)果被送入內(nèi)插信息制作部64。在內(nèi)插信息制作部64中,進(jìn)行各內(nèi)插法的使用結(jié)果(數(shù)據(jù))的解碼,與原來的編碼對象聲音進(jìn)行比較。而且,根據(jù)該比較結(jié)果來選擇最佳的內(nèi)插法,作為對應(yīng)幀的內(nèi)插信息來發(fā)送。
而且,在內(nèi)插信息制作部64中,進(jìn)行各個內(nèi)插法的使用結(jié)果的解碼,與編碼對象聲音進(jìn)行比較,也可以代之以把各個內(nèi)插法的使用結(jié)果與誤差發(fā)生前的音頻數(shù)據(jù)(比特流)進(jìn)行比較,選擇內(nèi)插法。
而且,在第一實(shí)施例中,與上述相同,在發(fā)送側(cè)根據(jù)該幀的參數(shù)來判別各幀的聲音狀況,把該判別的聲音狀況作為內(nèi)插信息進(jìn)行發(fā)送。而且,在發(fā)送側(cè),根據(jù)該幀的參數(shù)來判別各幀的聲音狀況,根據(jù)該判別的聲音狀況來決定各幀的內(nèi)插法,把該決定的內(nèi)插法作為內(nèi)插信息進(jìn)行發(fā)送。內(nèi)插法可以是在發(fā)送側(cè)使誤差發(fā)生后,嘗試多個內(nèi)插法,根據(jù)其結(jié)果來進(jìn)行選擇。
第三實(shí)施例下面對本發(fā)明的第三實(shí)施例進(jìn)行說明。在第三實(shí)施例中,可以使用與圖1所示的第一實(shí)施例的內(nèi)插裝置相同的內(nèi)插裝置。
在本實(shí)施例中,根據(jù)該幀前的幀的聲音狀況來判別誤差或者損失被檢出的幀的聲音狀況。但是,也可考慮根據(jù)后面的幀的聲音狀況,來進(jìn)行判別。
例如,可以考慮預(yù)先保持幀的聲音狀況的履歷,如果穩(wěn)態(tài)長期持續(xù),則下一幀也判別為穩(wěn)態(tài)的。對于過渡的也是同樣進(jìn)行。
而且,例如,可以考慮預(yù)先保持幀的聲音狀況的過渡履歷,根據(jù)該履歷,來判別誤差或者損失被檢出的幀的聲音狀況。例如,根據(jù)聲音狀況的過渡的n次帶條件的概率(例如,當(dāng)三次過渡連續(xù)時,下一次成為過渡的概率,成為穩(wěn)態(tài)的概率等)來進(jìn)行判別。n次帶條件的概率隨時更新。
而且,在本實(shí)施例中,也與第二實(shí)施例相同,在發(fā)送側(cè),可根據(jù)該幀前的幀的聲音狀況來判別各幀的聲音狀況,把該判別的聲音狀況作為內(nèi)插信息進(jìn)行發(fā)送。而且,在發(fā)送側(cè),可根據(jù)該幀前的幀的聲音狀況,來判別各幀的聲音狀況,根據(jù)該判別的聲音狀況,來決定各幀的內(nèi)插法,把該決定的內(nèi)插法作為內(nèi)插信息進(jìn)行發(fā)送。
而且,聲音狀況的判別還可以把上述第一~第三實(shí)施例中的判別方法進(jìn)行組合來進(jìn)行。進(jìn)行組合的情況下,可以對各判別方法進(jìn)行加權(quán)來進(jìn)行綜合的判斷。
下面,參照圖12~圖16來對本發(fā)明的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置及方法的實(shí)施例進(jìn)行詳細(xì)說明。
上述第一~第三實(shí)施例的音頻數(shù)據(jù)內(nèi)插裝置,作為音頻數(shù)據(jù)的誤差補(bǔ)償技術(shù),使用誤差內(nèi)插信息來切換內(nèi)插法,以傳輸前的沒有誤差的音源為基礎(chǔ),通過制作內(nèi)插信息,對音頻數(shù)據(jù)的損失進(jìn)行最佳的內(nèi)插的方法;在減少因內(nèi)插信息所產(chǎn)生的冗余度這點(diǎn)上雖具有優(yōu)良的效果,但是,在不涉及內(nèi)插信息的傳輸方法,與損失的音頻幀相關(guān)的內(nèi)插信息也都損失的傳輸方法中,存在不能適當(dāng)?shù)厍袚Q內(nèi)插法的問題。
因此,在以下的第四~第七實(shí)施例中,使其內(nèi)插信息或者音頻數(shù)據(jù)任何一方存在的可能性變高,在損失了音頻數(shù)據(jù)的情況下,能夠使用適當(dāng)?shù)膬?nèi)插法。而且,通過把內(nèi)插信息埋入音頻數(shù)據(jù)中,即使在與內(nèi)插信息不對應(yīng)的解碼器中,也能進(jìn)行音頻數(shù)據(jù)的解碼。而且,內(nèi)插法僅在與前幀不同的情況下進(jìn)行傳輸,由此,能夠抑制冗余度。而且,在以下的各個實(shí)施例中,對于音頻數(shù)據(jù)的各幀AD(n)、AD(n+1)、AD(n+2)、…,具有表示該幀損失時的最佳內(nèi)插法的內(nèi)插信息CI(n)、CI(n+1)、CI(n+2)、…。
第四實(shí)施例圖12表示在音頻幀和內(nèi)插信息中具有2幀的時間差來進(jìn)行傳輸時的信息分組傳輸模型。在信息分組P(n)中包含幀AD(n)和內(nèi)插信息CI(n+2),在信息分組P(n+2)中包含幀AD(n+2)和內(nèi)插信息CI(n+4)。在信息分組P(n+2)損失的情況下,如果能夠接收信息分組P(n),損失的幀AD(n+2)部分能夠使用內(nèi)插信息CI(n+2)來進(jìn)行最佳的內(nèi)插,可抑制解碼音質(zhì)的劣化。
時間差x可以是固定的,也可以對每個音頻數(shù)據(jù)和每個幀是可變的。例如,通過對每個幀取為隨機(jī)的,可以對突發(fā)誤差具有耐性,也可以根據(jù)傳輸路徑的錯誤狀況來適當(dāng)?shù)刈兏?。而且,可以對一個幀AD一起傳輸多個內(nèi)插信息CI。在圖12中,表示了對于一個幀AD,以x=2的固定來傳輸一個內(nèi)插信息CI的情況。
圖13表示本實(shí)施例的發(fā)送裝置的構(gòu)成例子。發(fā)送裝置80包括編碼部82、時間差附加部84、內(nèi)插信息制作部86以及復(fù)用部88。
如果時間差信息“x”在發(fā)送側(cè)和接收側(cè)事先進(jìn)行協(xié)商或者從特定的參數(shù)通過計(jì)算而求出等,在發(fā)送側(cè)和接收側(cè)雙方是已知的,表示是哪個幀的內(nèi)插信息的信息(以下稱為“指示信息”)可以不進(jìn)行傳輸。當(dāng)需要表示是哪個幀的內(nèi)插信息時,可考慮把時間差信息“x”或者幀ID“n+x”或者稱為該幀的絕對重放時間的指示信息與內(nèi)插信息CI(n+x)一起進(jìn)行傳輸。
內(nèi)插信息CI和指示信息可考慮例如作為IP信息分組的填充比特(パデインゲビツト)而含有。而且,當(dāng)音頻數(shù)據(jù)以(MPEG標(biāo)準(zhǔn)規(guī)格文件ISO/IEC 13818-7或者ISO/IEC 14496-3中所公開的那樣)MPEG-2或者M(jìn)PEG-4的AAC進(jìn)行編碼時,也能夠包含在data_stream_element內(nèi),如果在霍夫曼編碼之前的MDCT(Modified Discrete Cosine Transform)系數(shù)中使用(Proceedings ofthe IEEE,Vol.87,No.7,July 1999,PP.1062-1078,“Information Hiding-A Survey”中所揭示的那樣)數(shù)據(jù)埋入技術(shù)預(yù)先埋入,由于霍夫曼編碼是可逆壓縮,在接收側(cè)能夠完全地取出內(nèi)插信息CI和指示信息。
作為埋入MDCT系數(shù)中的方法,例如,可考慮操作系數(shù),以使特定的MDCT系數(shù)的最后位比特與內(nèi)插信息相一致。埋入系數(shù)希望位于通過操作系數(shù)而引起的品質(zhì)劣化極小,而通過操作系數(shù)、改變霍夫曼編碼增加的總開銷極少的位置。
作為公知的在接收側(cè)進(jìn)行數(shù)據(jù)埋入的方法,例如可考慮使用(IEEE標(biāo)準(zhǔn)規(guī)格文件RFC1889中所揭示那樣的)RTP(Realtime TransportProtocol)的標(biāo)題(ヘツダ)的標(biāo)記位。而且,在數(shù)據(jù)埋入的情況下,而且僅對于內(nèi)插法變化的幀傳輸內(nèi)插信息時,在該幀中是否埋入內(nèi)插信息的標(biāo)志雖對每幀都是必要的,但可考慮將該標(biāo)志本身也埋入音頻數(shù)據(jù)中。
第五實(shí)施例在第五實(shí)施例中,與第四實(shí)施例相同,在與幀AD具有時間差來傳輸內(nèi)插信息CI的方法中,僅當(dāng)內(nèi)插法變化時,即僅在CI(n)≠CI(n+1)的情況下,發(fā)送內(nèi)插信息CI(n+1)。
本實(shí)施例的發(fā)送裝置可以具有與上述圖13的發(fā)送裝置相同的構(gòu)成。
圖14表示僅對內(nèi)插法變化的幀來傳輸內(nèi)插信息、并且將指示信息也一起傳輸時的信息分組傳輸模型。在發(fā)送側(cè)和接收側(cè)兩方,如果時間差信息“x”是已知的,可以不傳輸指示信息。
僅在變化的情況下傳輸內(nèi)插信息CI時,希望的是當(dāng)該內(nèi)插信息CI損失時,由于直到下一個內(nèi)插信息CI變化之前成為錯誤傳輸,因此,與時間差一起,對內(nèi)插信息CI使用損失補(bǔ)償技術(shù)。
例子之一是僅對內(nèi)插信息多次發(fā)送。在圖14中,第五實(shí)施例的CI(n+3)雖僅包含在信息分組P(n+1)中,但是,通過又包含在信息分組P(n)或信息分組P(n+2)中,即使信息分組P(n+1)損失了,由于內(nèi)插信息CI(n+3)存在,能夠切換內(nèi)插法。
再一個例子是僅對內(nèi)插信息進(jìn)行強(qiáng)力糾錯。例如,可考慮僅在內(nèi)插信息CI中使用FEC(Forward Error Correction),F(xiàn)EC數(shù)據(jù)包含在其他的信息分組中。包含F(xiàn)EC數(shù)據(jù)的信息分組在發(fā)送側(cè)和接收側(cè)兩方是已知的,也可以用指示信息來表示是FEC數(shù)據(jù)。
另外,也可考慮僅對內(nèi)插信息進(jìn)行再發(fā)送。例如,使用ARQ(Automatic Repeat Request),通過僅對內(nèi)插信息CI進(jìn)行自動再發(fā)送的請求,由此,可提高內(nèi)插信息CI被接收的可能性,音頻數(shù)據(jù)不使用ARQ,由此能夠抑制由再發(fā)送所產(chǎn)生的冗余度。
而且,在第四實(shí)施例中也與上述相同,對內(nèi)插信息CI可使用損失補(bǔ)償技術(shù)。
第六實(shí)施例在第六實(shí)施例中,分別傳輸音頻數(shù)據(jù)和內(nèi)插信息。在此情況下,可以使RTP標(biāo)題(ヘツダ)的有效負(fù)荷類型在音頻數(shù)據(jù)和內(nèi)插信息中是不同的。內(nèi)插信息可以在一個信息分組中包含多幀。
本實(shí)施例中的發(fā)送裝置可以具有與上述圖9或者圖11的編碼/內(nèi)插信息制作裝置相同的構(gòu)成。
圖15表示僅把內(nèi)插信息發(fā)送四次的情況下的信息分組傳輸模型。包含在一個信息分組中的多幀的內(nèi)插信息可以不是連續(xù)的幀。如果需要指示信息也與內(nèi)插信息CI一起進(jìn)行傳輸。
第七實(shí)施例在第七實(shí)施例中,在與第六實(shí)施例相同地發(fā)送幀AD和內(nèi)插信息CI的方法中,與第五實(shí)施例相同,僅在內(nèi)插法變化的情況下,傳輸內(nèi)插信息CI。在此情況下,指示信息也可以與內(nèi)插信息CI一起傳輸。
本實(shí)施例的發(fā)送裝置可以具有與上述圖9或者圖11的編碼/內(nèi)插信息制作裝置相同的構(gòu)成。
當(dāng)僅在變化的情況下發(fā)送內(nèi)插信息CI時,希望的是當(dāng)該內(nèi)插信息CI損失時,直到下一個內(nèi)插信息CI變化之前成為錯誤傳輸,因此,對內(nèi)插信息CI使用損失補(bǔ)償技術(shù)。在僅對內(nèi)插信息進(jìn)行強(qiáng)力糾錯的情況下,與第五實(shí)施例相同,可考慮使用FEC。
圖16表示僅對內(nèi)插信息進(jìn)行FEC、并且僅對內(nèi)插法變化的幀傳輸內(nèi)插信息時的信息分組傳輸模型。內(nèi)插信息在一個信息分組中包含多幀,可以分別生成(IETF標(biāo)準(zhǔn)規(guī)格文件RFC2733中所揭示那樣的)FEC信息分組(PCI_FEC),與內(nèi)插信息CI(n)和內(nèi)插信息CI(n+1)相關(guān)的FEC信息可以包含在不含內(nèi)插信息CI(n)和內(nèi)插信息CI(n+1)的其他CI信息分組(PCI)中進(jìn)行傳輸。FEC的速率,對于內(nèi)插信息CI,每2 PCI施加1 PCI_FEC的強(qiáng)弱;對于幀AD,每5PAD施加1 PCI_FEC的強(qiáng)弱,也可以對幀AD都不施加FEC。
在僅再次發(fā)送內(nèi)插信息的情況下,也與第五實(shí)施例相同,可考慮僅對內(nèi)插信息的信息分組使用ARQ。在線路交換中,可考慮僅把內(nèi)插信息預(yù)先集中起來使用ARQ發(fā)送。而且,在僅把內(nèi)插信息用可靠的其他信道來傳輸?shù)那闆r下,可考慮例如,內(nèi)插信息用TCP/IP進(jìn)行傳輸,音頻數(shù)據(jù)用RTP/UDP/IP進(jìn)行傳輸。
而且,在第六實(shí)施例中,與上述相同,可以對內(nèi)插信息CI使用損失補(bǔ)償技術(shù)。
而且,上述第四~第七實(shí)施例雖以信息分組交換網(wǎng)進(jìn)行了說明,但是,本發(fā)明在線路交換網(wǎng)中,如果也與幀取得同步,也同樣能夠?qū)崿F(xiàn)。
如上述那樣,使用本發(fā)明,能夠判別音頻數(shù)據(jù)中的誤差或者損失產(chǎn)生的幀的聲音狀況,進(jìn)行與該狀況相對應(yīng)的內(nèi)插。由此,能夠提高解碼音質(zhì)。
而且,根據(jù)本發(fā)明,某個音頻幀或者與該幀相關(guān)的輔助信息存在的可能性提高,當(dāng)音頻數(shù)據(jù)損失時,能夠使用適當(dāng)?shù)膬?nèi)插法,能夠以較少的冗余度提高解碼品質(zhì)。
而且,上述第一~第七實(shí)施例的內(nèi)插裝置或編碼/內(nèi)插信息制作裝置或發(fā)送裝置能夠按照在自己的存儲器等中所存儲的程序,來進(jìn)行如上所述的內(nèi)插、編碼、內(nèi)插信息制作等動作。而且,可考慮將程序?qū)懭胗涗浢襟w(例如,CD-ROM、磁盤),或者,從記錄媒體中讀出。
而且,本發(fā)明并不僅限于上述各個實(shí)施例,可以在不脫離其精神的范圍內(nèi),進(jìn)行各種變形來實(shí)施。
權(quán)利要求
1.一種音頻數(shù)據(jù)內(nèi)插裝置,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);檢測裝置,檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;推定裝置,推定上述誤差或者損失被檢出的幀的內(nèi)插信息;內(nèi)插裝置,使用通過上述推定裝置對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
2.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述幀的各個都具有參數(shù),上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)來判別上述誤差或者損失被檢出的幀的參數(shù),根據(jù)該幀的參數(shù)來推定上述誤差或者損失被檢出的幀的聲音狀況。
3.根據(jù)權(quán)利要求2所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述參數(shù)的過渡狀態(tài)被預(yù)先決定,上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)以及上述過渡狀態(tài)來判別上述誤差或者損失被檢出的幀的參數(shù)。
4.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述推定裝置根據(jù)上述誤差或者損失被檢出的幀的能量和該幀的前和/或后的幀的能量的相似性,來推定上述誤差或者損失被檢出的幀的聲音狀況。
5.根據(jù)權(quán)利要求4所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述推定裝置,通過比較以時間區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以時間區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量,來求出上述相似性。
6.根據(jù)權(quán)利要求4所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述推定裝置,通過比較以頻率區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以頻率區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量,來求出上述相似性。
7.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述推定裝置,根據(jù)與上述誤差或者損失被檢出的幀有關(guān)的、基于該幀的前和/或后的幀的可預(yù)測性,來推定上述誤差或者損失被檢出的幀的聲音狀況。
8.根據(jù)權(quán)利要求7所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述推定裝置,根據(jù)上述音頻數(shù)據(jù)的頻率區(qū)域的分布偏移,來求出上述可預(yù)測性。
9.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置,其特征在于,上述推定裝置,根據(jù)該幀前的幀的聲音狀況,來推定上述誤差或者損失被檢出的幀的聲音狀況。
10.一種音頻數(shù)據(jù)內(nèi)插裝置,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括音頻數(shù)據(jù)輸入裝置,輸入上述音頻數(shù)據(jù);內(nèi)插信息輸入裝置,與上述音頻數(shù)據(jù)的各幀相關(guān),輸入該幀的內(nèi)插信息;檢測裝置,檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;內(nèi)插裝置,使用通過上述內(nèi)插信息輸入裝置對該幀所輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
11.一種音頻數(shù)據(jù)內(nèi)插裝置,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括音頻數(shù)據(jù)輸入裝置,輸入上述音頻數(shù)據(jù);檢測裝置,檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失;內(nèi)插信息輸入/推定裝置,輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息;內(nèi)插裝置,使用通過上述內(nèi)插信息輸入/推定裝置對該幀所輸入或推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
12.一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置,制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);制作裝置,與上述音頻數(shù)據(jù)的各幀相關(guān),制作該幀的內(nèi)插信息。
13.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置,其特征在于,上述制作裝置,制作與上述音頻數(shù)據(jù)的各幀相關(guān)的,包含該幀的能量和該幀的前和/或后的幀的能量的相似性的上述內(nèi)插信息。
14.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置,其特征在于,上述制作裝置,制作與上述的音頻數(shù)據(jù)的各幀相關(guān)的,包含與該幀有關(guān)的、基于該幀的前和/或后的幀的可預(yù)測性的上述內(nèi)插信息。
15.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置,其特征在于,上述制作裝置,制作與上述音頻數(shù)據(jù)的各幀相關(guān)的,包含該幀的聲音狀況的上述內(nèi)插信息。
16.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置,其特征在于,上述制作裝置,制作與上述音頻數(shù)據(jù)的各幀相關(guān)的,包含該幀的內(nèi)插法的上述內(nèi)插信息。
17.根據(jù)權(quán)利要求16所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置,其特征在于,上述制作裝置,對于上述音頻數(shù)據(jù)的各幀,使誤差發(fā)生,在誤差發(fā)生的數(shù)據(jù)中使用多個內(nèi)插法,根據(jù)該多個內(nèi)插法的使用結(jié)果,來從該多個內(nèi)插法中選擇包含上述內(nèi)插信息的內(nèi)插法。
18.一種音頻數(shù)據(jù)內(nèi)插方法,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù)的步驟;檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失的步驟;推定上述誤差或者損失被檢出的幀的內(nèi)插信息的步驟;使用通過上述推定步驟對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
19.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求18所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
20.一種計(jì)算機(jī)可讀記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求18所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
21.一種音頻數(shù)據(jù)內(nèi)插方法,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù)的步驟;與上述音頻數(shù)據(jù)的各幀相關(guān),輸入該幀的內(nèi)插信息的步驟;檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失的步驟;使用通過對該幀輸入上述內(nèi)插信息的步驟而輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
22.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求21所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
23.一種計(jì)算機(jī)可讀記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求21所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
24.一種音頻數(shù)據(jù)內(nèi)插方法,進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù)的步驟;檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失的步驟;輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息的步驟;使用通過上述輸入/推定上述內(nèi)插信息的步驟對該幀所輸入或者推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
25.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求24所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
26.一種計(jì)算機(jī)可讀記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求24所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
27.一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法,制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù)的步驟;與上述音頻數(shù)據(jù)的各幀相關(guān),制作該幀的內(nèi)插信息的步驟。
28.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求27所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
29.一種計(jì)算機(jī)可讀記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求27所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
30.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);時間差附加裝置,給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差;發(fā)送裝置,把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送。
31.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置,僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時,與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
32.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置通過把上述內(nèi)插信息埋入音頻數(shù)據(jù)中來進(jìn)行發(fā)送。
33.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
34.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
35.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置根據(jù)再發(fā)送要求,僅對上述內(nèi)插信息進(jìn)行再發(fā)送。
36.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括輸入裝置,輸入上述音頻數(shù)據(jù);發(fā)送裝置,把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送。
37.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置,僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時,與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
38.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
39.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
40.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置根據(jù)再發(fā)送要求,對僅上述內(nèi)插信息進(jìn)行再發(fā)送。
41.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置,其特征在于,上述發(fā)送裝置,用與發(fā)送上述音頻數(shù)據(jù)的信道不同的可靠的其他信道來發(fā)送上述內(nèi)插信息。
42.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù)的步驟;給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差的步驟;把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送的步驟。
43.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求42所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
44.一種計(jì)算機(jī)可讀記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求42所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
45.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法,發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息,其特征在于,包括下列步驟輸入上述音頻數(shù)據(jù)的步驟;把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送的步驟。
46.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求45所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
47.一種計(jì)算機(jī)可讀記錄媒體,記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求45所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
全文摘要
本發(fā)明通過以下部分來構(gòu)成判別音頻數(shù)據(jù)中的誤差或者損失發(fā)生的幀的聲音狀況并進(jìn)行與該狀況相對應(yīng)的內(nèi)插的內(nèi)插裝置輸入部,輸入音頻數(shù)據(jù);檢測部,檢測音頻數(shù)據(jù)的各幀的誤差或者損失;推定部,推定誤差或者損失被檢出的幀的內(nèi)插信息;內(nèi)插部,使用通過推定部對該幀所推定的內(nèi)插信息,來對誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
文檔編號G10L19/005GK1457484SQ02800545
公開日2003年11月19日 申請日期2002年3月6日 優(yōu)先權(quán)日2001年3月6日
發(fā)明者安田泰代, 大矢智之, 保谷早苗 申請人:株式會社Ntt都科摩