音頻數(shù)據(jù)內(nèi)插裝置及方法、音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置及方法、音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝...的制作方法

文檔序號：2834403閱讀：286來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：音頻數(shù)據(jù)內(nèi)插裝置及方法、音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置及方法、音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝 ...的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻數(shù)據(jù)內(nèi)插裝置及方法、音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置及方法、音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置及方法、以及它們的程序和記錄媒體。
對于考慮傳輸誤差的編碼，在ISO/IEC MPEG-4 Audio中已經(jīng)標(biāo)準(zhǔn)化了，但是，對于補(bǔ)償殘留誤差的音頻內(nèi)插技術(shù)尚未進(jìn)行規(guī)定(例如，參照ISO/IEC 14496-3，“Information technology Coding of ardio-visual objectsPart 3Audio Amendment 1Audio extensions”，2000)。
在現(xiàn)有技術(shù)中，對于在線路轉(zhuǎn)接網(wǎng)的情況下誤差產(chǎn)生以及在信息分組交換網(wǎng)的情況下分組損失產(chǎn)生的幀數(shù)據(jù)，進(jìn)行與誤差模型相對應(yīng)的內(nèi)插。作為內(nèi)插法，具有例如稱為靜音(muting)、重復(fù)(repetition)、噪聲置換(noise substitution)和預(yù)測(prediction)的方法。

圖1A、1B、1C是表示內(nèi)插的例子的圖。圖1A、1B、1C所示的波形是過渡(transient)的波形的例子，音源是響板。圖1A表示沒有誤差時的波形。在此，設(shè)在圖1A的虛線圍繞的部分中發(fā)生了誤差。圖1B是通過重復(fù)來內(nèi)插該部分的例子，圖1C是通過噪聲置換來內(nèi)插該部分的例子。
圖2A、2B、2C是表示內(nèi)插的另一個例子的圖。圖2A、2B、2C所示的波形是穩(wěn)態(tài)(steady)的波形的例子，音源是風(fēng)笛。圖2A表示沒有誤差時的波形。在此，設(shè)在圖2A的虛線圍繞的部分中發(fā)生了誤差。圖2B是通過重復(fù)來內(nèi)插該部分的例子，圖2C是通過噪聲置換來內(nèi)插該部分的例子。
雖然存在以上那樣的內(nèi)插法，但是，哪個內(nèi)插法最佳，即使是相同誤差模型，也取決于音源(聲音的特性)。這是基于沒有適合于全部音源的內(nèi)插法的認(rèn)識。特別是，哪個內(nèi)插法最佳，即使是相同誤差模型，取決于聲音的瞬時特性。例如，在圖1A、1B、1C的例子中，雖圖1C的的噪聲置換這一方優(yōu)于圖1B的重復(fù)，但是，在圖2A、2B、2C的例子中，圖2B的重復(fù)這一方優(yōu)于圖2C的噪聲置換。
因此，在現(xiàn)有技術(shù)中，提出了對應(yīng)于誤差模型的各種音頻內(nèi)插法，但沒有適應(yīng)于音源模型的內(nèi)插法(例如參照J(rèn).Herre and E.Eberlein，“Evaluation of Concealment Techniques for Compressed Digital Audio”，94th AES Convention，1993，preprint 3460)。
而且，本發(fā)明的另一個目的是提供某個音頻幀和與該音頻幀相關(guān)的輔助信息不會一起損失的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置及方法、以及它們的程序和記錄媒體。
本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插裝置，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；檢測裝置，檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；推定裝置，推定上述誤差或者損失被檢出的幀的內(nèi)插信息；內(nèi)插裝置，使用通過上述推定裝置對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
而且，在本發(fā)明中，其特征在于，上述幀的各個都具有參數(shù)，上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)來判別上述誤差或者損失被檢出的幀的參數(shù)，根據(jù)該幀的參數(shù)來推定上述誤差或者損失被檢出的幀的聲音狀況。
而且，在本發(fā)明中，其特征在于，上述參數(shù)的過渡狀態(tài)被預(yù)先決定，上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)以及上述過渡狀態(tài)來判別上述誤差或者損失被檢出的幀的參數(shù)。
而且，在本發(fā)明中，其特征在于，上述推定裝置根據(jù)上述誤差或者損失被檢出的幀的能量和該幀的前和/或后的幀的能量的相似性，來推定上述誤差或者損失被檢出的幀的聲音狀況。
而且，在本發(fā)明中，其特征在于，上述推定裝置，通過比較以時間區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以時間區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量，來求出上述相似性。
而且，在本發(fā)明中，其特征在于，上述推定裝置，通過比較以頻率區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以頻率區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量，來求出上述相似性。
而且，在本發(fā)明中，其特征在于，上述推定裝置，根據(jù)與上述誤差或者損失被檢出的幀有關(guān)的、基于該幀的前和/或后的幀的可預(yù)測性，來推定上述誤差或者損失被檢出的幀的聲音狀況。
而且，在本發(fā)明中，其特征在于，上述推定裝置，根據(jù)上述音頻數(shù)據(jù)的頻率區(qū)域中的分布偏移，來求出上述可預(yù)測性。
而且，在本發(fā)明中，其特征在于，上述推定裝置，根據(jù)該幀前的幀的聲音狀況，來推定上述誤差或者損失被檢出的幀的聲音狀況。
再有，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插裝置，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括音頻數(shù)據(jù)輸入裝置，輸入上述音頻數(shù)據(jù)；內(nèi)插信息輸入裝置，與上述音頻數(shù)據(jù)的各幀相關(guān)，輸入該幀的內(nèi)插信息；檢測裝置，檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；內(nèi)插裝置，使用通過上述內(nèi)插信息輸入裝置對該幀所輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插裝置，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括音頻數(shù)據(jù)輸入裝置，輸入上述音頻數(shù)據(jù)；檢測裝置，檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；內(nèi)插信息輸入/推定裝置，輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息；內(nèi)插裝置，使用通過上述內(nèi)插信息輸入/推定裝置對該幀所輸入或推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置，制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；制作裝置，與上述音頻數(shù)據(jù)的各幀相關(guān)，制作該幀的內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述制作裝置，制作與上述音頻數(shù)據(jù)的各幀相關(guān)的，包含該幀的能量和該幀的前和/或后的幀的能量的相似性的上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述制作裝置，制作與上述音頻數(shù)據(jù)的各幀相關(guān)的，包含與該幀有關(guān)的、基于與該幀的前和/或后的幀的可預(yù)測性的上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述制作裝置，制作與上述音頻數(shù)據(jù)的各幀相關(guān)的，包含該幀的聲音狀況的上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述制作裝置，制作與上述音頻數(shù)據(jù)的各幀相關(guān)的，包含該幀的內(nèi)插法的上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述制作裝置，對于上述音頻數(shù)據(jù)的各幀，使誤差發(fā)生，在誤差發(fā)生的數(shù)據(jù)中使用多個內(nèi)插法，根據(jù)該多個內(nèi)插法的使用結(jié)果，來從該多個內(nèi)插法中選擇包含上述內(nèi)插信息的內(nèi)插法。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插方法，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)；檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；推定上述誤差或者損失被檢出的幀的內(nèi)插信息；使用通過上述推定步驟對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
而且，在本發(fā)明中，還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且，在本發(fā)明中，還提供一種計(jì)算機(jī)可讀的記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插方法，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)；與上述音頻數(shù)據(jù)的各幀相關(guān)，輸入該幀的內(nèi)插信息；檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；使用通過對該幀輸入上述內(nèi)插信息的步驟而輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
而且，在本發(fā)明中，還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且，在本發(fā)明中，還提供一種計(jì)算機(jī)可讀的記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插方法，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)；檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息；使用通過上述輸入/推定上述內(nèi)插信息的步驟對該幀所輸入或者推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
而且，在本發(fā)明中，還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且，在本發(fā)明中，還提供一種計(jì)算機(jī)可讀的記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法，制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)；與上述音頻數(shù)據(jù)的各幀相關(guān)，制作該幀的內(nèi)插信息。
而且，在本發(fā)明中，還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
而且，在本發(fā)明中，還提供一種計(jì)算機(jī)可讀的記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；時間差附加裝置，給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差；發(fā)送裝置，把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置，僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時，與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置通過把上述內(nèi)插信息埋入音頻數(shù)據(jù)中來進(jìn)行發(fā)送。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置根據(jù)再發(fā)送要求，僅對上述內(nèi)插信息進(jìn)行再發(fā)送。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；發(fā)送裝置，把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置，僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時，與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置根據(jù)再發(fā)送要求，僅對上述內(nèi)插信息進(jìn)行再發(fā)送。
而且，在本發(fā)明中，其特征在于，上述發(fā)送裝置，用與發(fā)送上述音頻數(shù)據(jù)的信道不同的可靠的其他信道來發(fā)送上述內(nèi)插信息。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)；給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差；把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送。
而且，在本發(fā)明中，還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且，在本發(fā)明中，還提供一種計(jì)算機(jī)可讀的記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
進(jìn)而，本發(fā)明提供一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)；把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送的步驟。
而且，在本發(fā)明中，還提供一種用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插方法的程序。
而且，在本發(fā)明中，還提供一種計(jì)算機(jī)可讀的記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行上述音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
圖9是表示本發(fā)明的第二實(shí)施例的編碼/內(nèi)插信息制作裝置的構(gòu)成例子的方框圖；圖10是表示本發(fā)明的第二實(shí)施例的內(nèi)插裝置的另一個構(gòu)成例子的方框圖；圖11是表示本發(fā)明的第二實(shí)施例的編碼/內(nèi)插信息制作裝置的另一個構(gòu)成例子的方框圖；圖12是表示本發(fā)明的第四實(shí)施例的信息分組傳輸模型圖；圖13是表示本發(fā)明的第四實(shí)施例的發(fā)送裝置的構(gòu)成例子的方框圖；圖14是表示本發(fā)明的第五實(shí)施例的信息分組傳輸模型圖；圖15是表示本發(fā)明的第六實(shí)施例的信息分組傳輸模型圖；圖16是表示本發(fā)明的第七實(shí)施例的信息分組傳輸模型圖。
第一實(shí)施例圖3表示本發(fā)明的第一實(shí)施例的內(nèi)插裝置的構(gòu)成例子。內(nèi)插裝置10的結(jié)構(gòu)既可以做成接收音頻數(shù)據(jù)的接收裝置的一部分，也可以做成獨(dú)立的部件。內(nèi)插裝置10包括誤差或者損失檢測部14、解碼部16、狀況判別部18和內(nèi)插法選擇部20。
內(nèi)插裝置10對所輸入的由多個幀組成的音頻數(shù)據(jù)(在本實(shí)施例中為比特流)，由解碼部16進(jìn)行解碼，生成解碼音。但是，由于在音頻數(shù)據(jù)中存在誤差或者損失，因此，音頻數(shù)據(jù)還被輸入誤差或者損失檢測部14，檢測各幀的誤差或者損失。對于誤差或者損失被檢測出的幀，在狀況判別部18中判別該幀的聲音狀況(在本實(shí)施例中，是過渡的或者穩(wěn)態(tài)的)。在內(nèi)插法選擇部20中，根據(jù)所判別的聲音狀況，選擇該幀的內(nèi)插法。而且，在解碼部16中，用所選擇的內(nèi)插法，來進(jìn)行該幀(誤差或者損失被檢出的幀)的內(nèi)插。
在本實(shí)施例中，根據(jù)該幀的前和/或后的幀的參數(shù)以及預(yù)定的參數(shù)的過渡狀態(tài)來判別誤差或者損失被檢出的幀的參數(shù)。而且，根據(jù)該幀的參數(shù)來判別誤差或者損失被檢出的幀的聲音狀況。但是，當(dāng)判別誤差或者損失被檢出的幀的參數(shù)時，可以不考慮參數(shù)的過渡狀態(tài)，僅根據(jù)該幀的前和/或后的幀的參數(shù)來進(jìn)行判別。
在本實(shí)施例中，當(dāng)在送信側(cè)對音頻數(shù)據(jù)進(jìn)行AAC(高級聲言編碼)編碼時，在過渡的幀中使用short窗，在除此之外的幀中使用long窗。為了連接long窗和short窗，具有start窗和stop窗。在發(fā)送側(cè)，在各幀上作為window_sequence信息(參數(shù))而附加short、long、start和stop的任一個，來進(jìn)行發(fā)送。
在接收(內(nèi)插)側(cè)，誤差或者損失被檢出的幀的window_sequence信息能夠根據(jù)該幀的前和/或后的幀的window_sequence信息以及預(yù)定的window_sequence信息的過渡狀態(tài)進(jìn)行判別。
圖4是表示預(yù)定的參數(shù)(window_sequence信息)的過渡狀態(tài)的例子圖。根據(jù)圖4的過渡狀態(tài)可知，如果前一個幀的window_sequence信息是stop，后一個幀的window_sequence信息是start，則自己的幀(誤差或者損失被檢出的幀)的window_sequence信息是long。而且，如果前一個幀的window_sequence信息是start，則自己的幀的window_sequence信息是short。而且，如果后一個幀的window_sequence信息是stop，則自己的幀的window_sequence信息是short。
根據(jù)這樣判別的，誤差或者損失被檢出的幀的window_sequence信息，來判別該幀的聲音狀況。例如，如果所判別的window_sequence信息是short，該幀可判別為過渡的。
作為與聲音狀況相對應(yīng)的內(nèi)插法的選擇方法，例如，可考慮在過渡狀態(tài)中使用噪聲置換法，在其他情況下使用重復(fù)或者預(yù)測法。
第二實(shí)施例下面對本發(fā)明的第二實(shí)施例進(jìn)行說明。在第二實(shí)施例中，能夠使用與圖1所示的第一實(shí)施例的內(nèi)插裝置相同的內(nèi)插裝置。
在本實(shí)施例中，根據(jù)誤差或者損失被檢出的幀的能量和該幀前的幀的能量的相似性，來判別誤差或者損失被檢出的幀的聲音狀況。進(jìn)而，根據(jù)對誤差或者損失被檢出的幀的、及該幀前的幀的可預(yù)測性，來判別誤差或者損失被檢出的幀的聲音狀況。而且，在本實(shí)施例中，根據(jù)相似性和可預(yù)測性來判別聲音狀況，但是，也可以根據(jù)一方來判別聲音狀況。
首先，對相似性進(jìn)行更具體的說明。在本實(shí)施例中，通過比較以時間區(qū)域分割誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以時間區(qū)域分割該幀前的幀時的各個分割區(qū)域的能量，來求出相似性。
圖5是用于說明能量的比較例子圖。在本實(shí)施例中，把幀分割為短的時間間隙，比較與下一幀的相同時間間隙的能量。而且，例如，如果各時間間隙的能量差(的合計(jì))為閾值以下，就判斷為「相類似」。對于相似性，可以用是否相類似(標(biāo)志)來表示，也可以根據(jù)能量差而用類似度(程度)來表示。而且，進(jìn)行比較的時間間隙可以是幀內(nèi)的全部時間間隙，也可以是一部分時間間隙。
在本實(shí)施例中，雖可以用時間區(qū)域來分割幀進(jìn)行能量的比較，但是，也可以代之以用頻率區(qū)域來分割幀進(jìn)行能量的比較。
圖6是用于說明能量比較例子的另一圖。在圖6中，用頻率區(qū)域把幀分割為子帶，比較與下一幀相同子帶的能量。例如，如果各子帶的能量差(的合計(jì))為閾值以下，就判斷為「相類似」。
在以上的說明中，是將所關(guān)注的幀的能量與其前一個幀的能量進(jìn)行比較，來求出相似性；但是，也可以與前兩個以上的幀的能量進(jìn)行比較，來求出相似性；也可以與后面的幀的能量進(jìn)行比較，來求出相似性；也可以與前和后的幀的能量進(jìn)行比較，來求出相似性。
接著，對可預(yù)測性進(jìn)行具體說明。在本實(shí)施例中，可預(yù)測性根據(jù)音頻數(shù)據(jù)的頻率區(qū)域中的分布的偏移來求出。
圖7A、7B是用于說明可預(yù)測性的計(jì)算方法的例子圖。在圖7A、7B中，音頻數(shù)據(jù)的波形表示在時間區(qū)域和頻率區(qū)域中。如圖7A所示的那樣，預(yù)測有效的情況可認(rèn)為是時間區(qū)域中的相關(guān)性強(qiáng)，而頻率區(qū)域中出現(xiàn)頻譜偏移。另一方面，如圖7B所示的那樣，預(yù)測無效的情況可認(rèn)為是時間區(qū)域中的相關(guān)性弱(或者無關(guān))，而頻率區(qū)域中，頻譜是平坦的。作為可預(yù)測性的值，例如，可以使用GP＝相加平均/相乘平均。例如，在頻譜偏移為25，1的情況下(如圖7A的情況)，GP如以下所示變大
另一方面，例如，在頻譜為5，5的平坦的情況下(如圖7B的情況)，GP如以下所示變小而且，可預(yù)測性可以通過預(yù)測是否有效(標(biāo)志)來表示。
根據(jù)如以上所求出的相似性和可預(yù)測性，來判別誤差或者損失被檢出的幀的聲音狀況。
圖8是用于說明聲音狀況的判別方法的例子圖。在圖8的例子中，在大于具有相似性的值時，判別為是穩(wěn)態(tài)的。另一方面，當(dāng)小于具有相似性的值時，判別為過渡的或者其他情況。
作為與聲音狀況相對應(yīng)的內(nèi)插法的選擇方法，可考慮例如，在過渡的情況下使用噪聲置換法，在穩(wěn)態(tài)的情況下使用重復(fù)法，在其他的情況下使用預(yù)測法。而且，例如，根據(jù)內(nèi)插裝置的解碼器的能力(運(yùn)算能力)，一般還可考慮改變成為進(jìn)行運(yùn)算量多的預(yù)測法(圖8的)「其他」的領(lǐng)域。
相似性和可預(yù)測性存在能夠在接收側(cè)(內(nèi)插裝置側(cè))進(jìn)行計(jì)算的情況，也存在不能計(jì)算的情況。例如，根據(jù)可擴(kuò)縮編碼，如果芯層能夠正確接收，在該芯層與前一幀的芯層中，可以視為具有相似性?？紤]在接收側(cè)不能計(jì)算的情況，在發(fā)送側(cè)求出相似性和可預(yù)測性，與音頻數(shù)據(jù)一起進(jìn)行發(fā)送。在接收側(cè)，可以與音頻數(shù)據(jù)一起接收相似性和可預(yù)測性。
圖9表示本實(shí)施例的編碼/內(nèi)插信息制作裝置的構(gòu)成例子。編碼/內(nèi)插信息制作裝置60可以作為發(fā)送音頻數(shù)據(jù)的發(fā)送裝置的一部分構(gòu)成，也可以作為獨(dú)立的部分構(gòu)成。編碼/內(nèi)插信息制作裝置60包括編碼部62和內(nèi)插信息制作部64。
在編碼部62進(jìn)行編碼對象聲音的編碼，生成音頻數(shù)據(jù)(比特流)。而且，在內(nèi)插信息制作部64中，求出相似性和可預(yù)測性，作為音頻數(shù)據(jù)的各幀的內(nèi)插信息(關(guān)聯(lián)信息)。
內(nèi)插信息可以從原始聲音(編碼對象聲音)或者編碼過程中的值/參數(shù)來求出?？梢耘c音頻數(shù)據(jù)一起發(fā)送這樣求出的內(nèi)插信息(與音頻數(shù)據(jù)不同，也可考慮僅將內(nèi)插信息事先發(fā)送)。在此，例如，(1)以時間差來發(fā)送內(nèi)插信息，(2)對內(nèi)插信息進(jìn)行強(qiáng)力糾錯(編碼)發(fā)送，(3)把內(nèi)插信息發(fā)送多次，由此，幾乎不會使傳輸信息量增加，能夠進(jìn)一步謀求品質(zhì)的提高。
圖10表示本實(shí)施例的內(nèi)插裝置的另一個構(gòu)成例子。內(nèi)插裝置10’可以作為接收音頻數(shù)據(jù)的接收裝置的一部分構(gòu)成，也可以作為獨(dú)立的部件構(gòu)成。內(nèi)插裝置10’包括誤差或者損失檢測部14、解碼部16、狀況判別部18和內(nèi)插法選擇部20。
內(nèi)插裝置10’除了音頻數(shù)據(jù)(比特流)之外還接收內(nèi)插信息的輸入。所輸入的內(nèi)插信息(相似性和可預(yù)測性)用于狀況判別部18中。即，根據(jù)內(nèi)插信息，來判別誤差或者損失被檢出的幀的聲音狀況。
狀況判別部18可以僅依賴于所輸入的內(nèi)插信息來判別聲音狀況，也可以在具有內(nèi)插信息的情況下，根據(jù)該內(nèi)插信息來判別聲音狀況，在沒有內(nèi)插信息的情況下，可求出自己的相似性和可預(yù)測性，來判別聲音狀況。
在上述圖9和圖10的例子中，在發(fā)送側(cè)(編碼/內(nèi)插信息制作裝置60側(cè))，求出各幀的相似性和可預(yù)測性，進(jìn)行發(fā)送，但是，也可以在發(fā)送側(cè)根據(jù)相似性和可預(yù)測性，判別各幀的聲音狀況，把該判別的聲音狀況作為內(nèi)插信息來進(jìn)行發(fā)送。內(nèi)插裝置10’可以將接收的內(nèi)插信息輸入內(nèi)插法選擇部20。內(nèi)插裝置10’可以僅依賴于內(nèi)插信息，也可以僅在內(nèi)插信息存在的情況下，使用內(nèi)插信息。在僅依賴于內(nèi)插信息的情況下，可以沒有狀況判別部18，也可以將誤差/損失檢測結(jié)果輸入內(nèi)插法選擇部20。
而且，可以在發(fā)送側(cè)根據(jù)相似性和可預(yù)測性來判別聲音狀況，決定各幀的內(nèi)插法，把該決定的內(nèi)插法作為內(nèi)插信息來發(fā)送。內(nèi)插裝置10’可以把接收的內(nèi)插信息輸入解碼部16。內(nèi)插裝置10’可以僅依賴于內(nèi)插信息，也可以僅在內(nèi)插信息存在的情況下使用內(nèi)插信息。在僅依賴于內(nèi)插信息的情況下，可以沒有狀況判別部18和內(nèi)插法選擇部20，也可以把誤差/損失檢測結(jié)果輸入解碼部16。
而且，內(nèi)插法可以是在發(fā)送側(cè)使誤差發(fā)生后，嘗試多個內(nèi)插法，根據(jù)其結(jié)果來進(jìn)行選擇。
圖11表示本實(shí)施例的編碼/內(nèi)插信息制作裝置的另一個構(gòu)成例子。編碼/內(nèi)插信息制作裝置60’可以作為發(fā)送音頻數(shù)據(jù)的發(fā)送裝置的一部分構(gòu)成，也可以作為獨(dú)立的部分構(gòu)成。編碼/內(nèi)插信息制作裝置60’包括編碼部62、內(nèi)插信息制作部64、模擬誤差生成部66和內(nèi)插部68。
對于音頻數(shù)據(jù)(比特流)的各幀的數(shù)據(jù)，由模擬誤差生成部66所生成的模擬誤差由加法部67相加。對于這樣使誤差發(fā)生的各幀的數(shù)據(jù)，在內(nèi)插部68中使用多個內(nèi)插法(內(nèi)插法A、B、C、D、…)。各個內(nèi)插法的使用結(jié)果被送入內(nèi)插信息制作部64。在內(nèi)插信息制作部64中，進(jìn)行各內(nèi)插法的使用結(jié)果(數(shù)據(jù))的解碼，與原來的編碼對象聲音進(jìn)行比較。而且，根據(jù)該比較結(jié)果來選擇最佳的內(nèi)插法，作為對應(yīng)幀的內(nèi)插信息來發(fā)送。
而且，在內(nèi)插信息制作部64中，進(jìn)行各個內(nèi)插法的使用結(jié)果的解碼，與編碼對象聲音進(jìn)行比較，也可以代之以把各個內(nèi)插法的使用結(jié)果與誤差發(fā)生前的音頻數(shù)據(jù)(比特流)進(jìn)行比較，選擇內(nèi)插法。
而且，在第一實(shí)施例中，與上述相同，在發(fā)送側(cè)根據(jù)該幀的參數(shù)來判別各幀的聲音狀況，把該判別的聲音狀況作為內(nèi)插信息進(jìn)行發(fā)送。而且，在發(fā)送側(cè)，根據(jù)該幀的參數(shù)來判別各幀的聲音狀況，根據(jù)該判別的聲音狀況來決定各幀的內(nèi)插法，把該決定的內(nèi)插法作為內(nèi)插信息進(jìn)行發(fā)送。內(nèi)插法可以是在發(fā)送側(cè)使誤差發(fā)生后，嘗試多個內(nèi)插法，根據(jù)其結(jié)果來進(jìn)行選擇。
第三實(shí)施例下面對本發(fā)明的第三實(shí)施例進(jìn)行說明。在第三實(shí)施例中，可以使用與圖1所示的第一實(shí)施例的內(nèi)插裝置相同的內(nèi)插裝置。
在本實(shí)施例中，根據(jù)該幀前的幀的聲音狀況來判別誤差或者損失被檢出的幀的聲音狀況。但是，也可考慮根據(jù)后面的幀的聲音狀況，來進(jìn)行判別。
例如，可以考慮預(yù)先保持幀的聲音狀況的履歷，如果穩(wěn)態(tài)長期持續(xù)，則下一幀也判別為穩(wěn)態(tài)的。對于過渡的也是同樣進(jìn)行。
而且，例如，可以考慮預(yù)先保持幀的聲音狀況的過渡履歷，根據(jù)該履歷，來判別誤差或者損失被檢出的幀的聲音狀況。例如，根據(jù)聲音狀況的過渡的n次帶條件的概率(例如，當(dāng)三次過渡連續(xù)時，下一次成為過渡的概率，成為穩(wěn)態(tài)的概率等)來進(jìn)行判別。n次帶條件的概率隨時更新。
而且，在本實(shí)施例中，也與第二實(shí)施例相同，在發(fā)送側(cè)，可根據(jù)該幀前的幀的聲音狀況來判別各幀的聲音狀況，把該判別的聲音狀況作為內(nèi)插信息進(jìn)行發(fā)送。而且，在發(fā)送側(cè)，可根據(jù)該幀前的幀的聲音狀況，來判別各幀的聲音狀況，根據(jù)該判別的聲音狀況，來決定各幀的內(nèi)插法，把該決定的內(nèi)插法作為內(nèi)插信息進(jìn)行發(fā)送。
而且，聲音狀況的判別還可以把上述第一～第三實(shí)施例中的判別方法進(jìn)行組合來進(jìn)行。進(jìn)行組合的情況下，可以對各判別方法進(jìn)行加權(quán)來進(jìn)行綜合的判斷。
下面，參照圖12～圖16來對本發(fā)明的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置及方法的實(shí)施例進(jìn)行詳細(xì)說明。
上述第一～第三實(shí)施例的音頻數(shù)據(jù)內(nèi)插裝置，作為音頻數(shù)據(jù)的誤差補(bǔ)償技術(shù)，使用誤差內(nèi)插信息來切換內(nèi)插法，以傳輸前的沒有誤差的音源為基礎(chǔ)，通過制作內(nèi)插信息，對音頻數(shù)據(jù)的損失進(jìn)行最佳的內(nèi)插的方法；在減少因內(nèi)插信息所產(chǎn)生的冗余度這點(diǎn)上雖具有優(yōu)良的效果，但是，在不涉及內(nèi)插信息的傳輸方法，與損失的音頻幀相關(guān)的內(nèi)插信息也都損失的傳輸方法中，存在不能適當(dāng)?shù)厍袚Q內(nèi)插法的問題。
因此，在以下的第四～第七實(shí)施例中，使其內(nèi)插信息或者音頻數(shù)據(jù)任何一方存在的可能性變高，在損失了音頻數(shù)據(jù)的情況下，能夠使用適當(dāng)?shù)膬?nèi)插法。而且，通過把內(nèi)插信息埋入音頻數(shù)據(jù)中，即使在與內(nèi)插信息不對應(yīng)的解碼器中，也能進(jìn)行音頻數(shù)據(jù)的解碼。而且，內(nèi)插法僅在與前幀不同的情況下進(jìn)行傳輸，由此，能夠抑制冗余度。而且，在以下的各個實(shí)施例中，對于音頻數(shù)據(jù)的各幀AD(n)、AD(n+1)、AD(n+2)、…，具有表示該幀損失時的最佳內(nèi)插法的內(nèi)插信息CI(n)、CI(n+1)、CI(n+2)、…。
第四實(shí)施例圖12表示在音頻幀和內(nèi)插信息中具有2幀的時間差來進(jìn)行傳輸時的信息分組傳輸模型。在信息分組P(n)中包含幀AD(n)和內(nèi)插信息CI(n+2)，在信息分組P(n+2)中包含幀AD(n+2)和內(nèi)插信息CI(n+4)。在信息分組P(n+2)損失的情況下，如果能夠接收信息分組P(n)，損失的幀AD(n+2)部分能夠使用內(nèi)插信息CI(n+2)來進(jìn)行最佳的內(nèi)插，可抑制解碼音質(zhì)的劣化。
時間差x可以是固定的，也可以對每個音頻數(shù)據(jù)和每個幀是可變的。例如，通過對每個幀取為隨機(jī)的，可以對突發(fā)誤差具有耐性，也可以根據(jù)傳輸路徑的錯誤狀況來適當(dāng)?shù)刈兏?。而且，可以對一個幀AD一起傳輸多個內(nèi)插信息CI。在圖12中，表示了對于一個幀AD，以x＝2的固定來傳輸一個內(nèi)插信息CI的情況。
圖13表示本實(shí)施例的發(fā)送裝置的構(gòu)成例子。發(fā)送裝置80包括編碼部82、時間差附加部84、內(nèi)插信息制作部86以及復(fù)用部88。
如果時間差信息“x”在發(fā)送側(cè)和接收側(cè)事先進(jìn)行協(xié)商或者從特定的參數(shù)通過計(jì)算而求出等，在發(fā)送側(cè)和接收側(cè)雙方是已知的，表示是哪個幀的內(nèi)插信息的信息(以下稱為“指示信息”)可以不進(jìn)行傳輸。當(dāng)需要表示是哪個幀的內(nèi)插信息時，可考慮把時間差信息“x”或者幀ID“n+x”或者稱為該幀的絕對重放時間的指示信息與內(nèi)插信息CI(n+x)一起進(jìn)行傳輸。
內(nèi)插信息CI和指示信息可考慮例如作為IP信息分組的填充比特(パデインゲビツト)而含有。而且，當(dāng)音頻數(shù)據(jù)以(MPEG標(biāo)準(zhǔn)規(guī)格文件ISO/IEC 13818-7或者ISO/IEC 14496-3中所公開的那樣)MPEG-2或者M(jìn)PEG-4的AAC進(jìn)行編碼時，也能夠包含在data_stream_element內(nèi)，如果在霍夫曼編碼之前的MDCT(Modified Discrete Cosine Transform)系數(shù)中使用(Proceedings ofthe IEEE，Vol.87，No.7，July 1999，PP.1062-1078，“Information Hiding-A Survey”中所揭示的那樣)數(shù)據(jù)埋入技術(shù)預(yù)先埋入，由于霍夫曼編碼是可逆壓縮，在接收側(cè)能夠完全地取出內(nèi)插信息CI和指示信息。
作為埋入MDCT系數(shù)中的方法，例如，可考慮操作系數(shù)，以使特定的MDCT系數(shù)的最后位比特與內(nèi)插信息相一致。埋入系數(shù)希望位于通過操作系數(shù)而引起的品質(zhì)劣化極小，而通過操作系數(shù)、改變霍夫曼編碼增加的總開銷極少的位置。
作為公知的在接收側(cè)進(jìn)行數(shù)據(jù)埋入的方法，例如可考慮使用(IEEE標(biāo)準(zhǔn)規(guī)格文件RFC1889中所揭示那樣的)RTP(Realtime TransportProtocol)的標(biāo)題(ヘツダ)的標(biāo)記位。而且，在數(shù)據(jù)埋入的情況下，而且僅對于內(nèi)插法變化的幀傳輸內(nèi)插信息時，在該幀中是否埋入內(nèi)插信息的標(biāo)志雖對每幀都是必要的，但可考慮將該標(biāo)志本身也埋入音頻數(shù)據(jù)中。
第五實(shí)施例在第五實(shí)施例中，與第四實(shí)施例相同，在與幀AD具有時間差來傳輸內(nèi)插信息CI的方法中，僅當(dāng)內(nèi)插法變化時，即僅在CI(n)≠CI(n+1)的情況下，發(fā)送內(nèi)插信息CI(n+1)。
本實(shí)施例的發(fā)送裝置可以具有與上述圖13的發(fā)送裝置相同的構(gòu)成。
圖14表示僅對內(nèi)插法變化的幀來傳輸內(nèi)插信息、并且將指示信息也一起傳輸時的信息分組傳輸模型。在發(fā)送側(cè)和接收側(cè)兩方，如果時間差信息“x”是已知的，可以不傳輸指示信息。
僅在變化的情況下傳輸內(nèi)插信息CI時，希望的是當(dāng)該內(nèi)插信息CI損失時，由于直到下一個內(nèi)插信息CI變化之前成為錯誤傳輸，因此，與時間差一起，對內(nèi)插信息CI使用損失補(bǔ)償技術(shù)。
例子之一是僅對內(nèi)插信息多次發(fā)送。在圖14中，第五實(shí)施例的CI(n+3)雖僅包含在信息分組P(n+1)中，但是，通過又包含在信息分組P(n)或信息分組P(n+2)中，即使信息分組P(n+1)損失了，由于內(nèi)插信息CI(n+3)存在，能夠切換內(nèi)插法。
再一個例子是僅對內(nèi)插信息進(jìn)行強(qiáng)力糾錯。例如，可考慮僅在內(nèi)插信息CI中使用FEC(Forward Error Correction)，F(xiàn)EC數(shù)據(jù)包含在其他的信息分組中。包含F(xiàn)EC數(shù)據(jù)的信息分組在發(fā)送側(cè)和接收側(cè)兩方是已知的，也可以用指示信息來表示是FEC數(shù)據(jù)。
另外，也可考慮僅對內(nèi)插信息進(jìn)行再發(fā)送。例如，使用ARQ(Automatic Repeat Request)，通過僅對內(nèi)插信息CI進(jìn)行自動再發(fā)送的請求，由此，可提高內(nèi)插信息CI被接收的可能性，音頻數(shù)據(jù)不使用ARQ，由此能夠抑制由再發(fā)送所產(chǎn)生的冗余度。
而且，在第四實(shí)施例中也與上述相同，對內(nèi)插信息CI可使用損失補(bǔ)償技術(shù)。
第六實(shí)施例在第六實(shí)施例中，分別傳輸音頻數(shù)據(jù)和內(nèi)插信息。在此情況下，可以使RTP標(biāo)題(ヘツダ)的有效負(fù)荷類型在音頻數(shù)據(jù)和內(nèi)插信息中是不同的。內(nèi)插信息可以在一個信息分組中包含多幀。
本實(shí)施例中的發(fā)送裝置可以具有與上述圖9或者圖11的編碼/內(nèi)插信息制作裝置相同的構(gòu)成。
圖15表示僅把內(nèi)插信息發(fā)送四次的情況下的信息分組傳輸模型。包含在一個信息分組中的多幀的內(nèi)插信息可以不是連續(xù)的幀。如果需要指示信息也與內(nèi)插信息CI一起進(jìn)行傳輸。
第七實(shí)施例在第七實(shí)施例中，在與第六實(shí)施例相同地發(fā)送幀AD和內(nèi)插信息CI的方法中，與第五實(shí)施例相同，僅在內(nèi)插法變化的情況下，傳輸內(nèi)插信息CI。在此情況下，指示信息也可以與內(nèi)插信息CI一起傳輸。
本實(shí)施例的發(fā)送裝置可以具有與上述圖9或者圖11的編碼/內(nèi)插信息制作裝置相同的構(gòu)成。
當(dāng)僅在變化的情況下發(fā)送內(nèi)插信息CI時，希望的是當(dāng)該內(nèi)插信息CI損失時，直到下一個內(nèi)插信息CI變化之前成為錯誤傳輸，因此，對內(nèi)插信息CI使用損失補(bǔ)償技術(shù)。在僅對內(nèi)插信息進(jìn)行強(qiáng)力糾錯的情況下，與第五實(shí)施例相同，可考慮使用FEC。
圖16表示僅對內(nèi)插信息進(jìn)行FEC、并且僅對內(nèi)插法變化的幀傳輸內(nèi)插信息時的信息分組傳輸模型。內(nèi)插信息在一個信息分組中包含多幀，可以分別生成(IETF標(biāo)準(zhǔn)規(guī)格文件RFC2733中所揭示那樣的)FEC信息分組(PCI_FEC)，與內(nèi)插信息CI(n)和內(nèi)插信息CI(n+1)相關(guān)的FEC信息可以包含在不含內(nèi)插信息CI(n)和內(nèi)插信息CI(n+1)的其他CI信息分組(PCI)中進(jìn)行傳輸。FEC的速率，對于內(nèi)插信息CI，每2 PCI施加1 PCI_FEC的強(qiáng)弱；對于幀AD，每5PAD施加1 PCI_FEC的強(qiáng)弱，也可以對幀AD都不施加FEC。
在僅再次發(fā)送內(nèi)插信息的情況下，也與第五實(shí)施例相同，可考慮僅對內(nèi)插信息的信息分組使用ARQ。在線路交換中，可考慮僅把內(nèi)插信息預(yù)先集中起來使用ARQ發(fā)送。而且，在僅把內(nèi)插信息用可靠的其他信道來傳輸?shù)那闆r下，可考慮例如，內(nèi)插信息用TCP/IP進(jìn)行傳輸，音頻數(shù)據(jù)用RTP/UDP/IP進(jìn)行傳輸。
而且，在第六實(shí)施例中，與上述相同，可以對內(nèi)插信息CI使用損失補(bǔ)償技術(shù)。
而且，上述第四～第七實(shí)施例雖以信息分組交換網(wǎng)進(jìn)行了說明，但是，本發(fā)明在線路交換網(wǎng)中，如果也與幀取得同步，也同樣能夠?qū)崿F(xiàn)。
如上述那樣，使用本發(fā)明，能夠判別音頻數(shù)據(jù)中的誤差或者損失產(chǎn)生的幀的聲音狀況，進(jìn)行與該狀況相對應(yīng)的內(nèi)插。由此，能夠提高解碼音質(zhì)。
而且，根據(jù)本發(fā)明，某個音頻幀或者與該幀相關(guān)的輔助信息存在的可能性提高，當(dāng)音頻數(shù)據(jù)損失時，能夠使用適當(dāng)?shù)膬?nèi)插法，能夠以較少的冗余度提高解碼品質(zhì)。
而且，上述第一～第七實(shí)施例的內(nèi)插裝置或編碼/內(nèi)插信息制作裝置或發(fā)送裝置能夠按照在自己的存儲器等中所存儲的程序，來進(jìn)行如上所述的內(nèi)插、編碼、內(nèi)插信息制作等動作。而且，可考慮將程序?qū)懭胗涗浢襟w(例如，CD-ROM、磁盤)，或者，從記錄媒體中讀出。
而且，本發(fā)明并不僅限于上述各個實(shí)施例，可以在不脫離其精神的范圍內(nèi)，進(jìn)行各種變形來實(shí)施。
權(quán)利要求
1.一種音頻數(shù)據(jù)內(nèi)插裝置，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；檢測裝置，檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；推定裝置，推定上述誤差或者損失被檢出的幀的內(nèi)插信息；內(nèi)插裝置，使用通過上述推定裝置對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
2.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述幀的各個都具有參數(shù)，上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)來判別上述誤差或者損失被檢出的幀的參數(shù)，根據(jù)該幀的參數(shù)來推定上述誤差或者損失被檢出的幀的聲音狀況。
3.根據(jù)權(quán)利要求2所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述參數(shù)的過渡狀態(tài)被預(yù)先決定，上述推定裝置根據(jù)該幀的前和/或后的幀的參數(shù)以及上述過渡狀態(tài)來判別上述誤差或者損失被檢出的幀的參數(shù)。
4.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述推定裝置根據(jù)上述誤差或者損失被檢出的幀的能量和該幀的前和/或后的幀的能量的相似性，來推定上述誤差或者損失被檢出的幀的聲音狀況。
5.根據(jù)權(quán)利要求4所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述推定裝置，通過比較以時間區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以時間區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量，來求出上述相似性。
6.根據(jù)權(quán)利要求4所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述推定裝置，通過比較以頻率區(qū)域來分割上述誤差或者損失被檢出的幀時的各個分割區(qū)域的能量和以頻率區(qū)域來分割該幀的前和/或后的幀時的各個分割區(qū)域的能量，來求出上述相似性。
7.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述推定裝置，根據(jù)與上述誤差或者損失被檢出的幀有關(guān)的、基于該幀的前和/或后的幀的可預(yù)測性，來推定上述誤差或者損失被檢出的幀的聲音狀況。
8.根據(jù)權(quán)利要求7所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述推定裝置，根據(jù)上述音頻數(shù)據(jù)的頻率區(qū)域的分布偏移，來求出上述可預(yù)測性。
9.根據(jù)權(quán)利要求1所述的音頻數(shù)據(jù)內(nèi)插裝置，其特征在于，上述推定裝置，根據(jù)該幀前的幀的聲音狀況，來推定上述誤差或者損失被檢出的幀的聲音狀況。
10.一種音頻數(shù)據(jù)內(nèi)插裝置，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括音頻數(shù)據(jù)輸入裝置，輸入上述音頻數(shù)據(jù)；內(nèi)插信息輸入裝置，與上述音頻數(shù)據(jù)的各幀相關(guān)，輸入該幀的內(nèi)插信息；檢測裝置，檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；內(nèi)插裝置，使用通過上述內(nèi)插信息輸入裝置對該幀所輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
11.一種音頻數(shù)據(jù)內(nèi)插裝置，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括音頻數(shù)據(jù)輸入裝置，輸入上述音頻數(shù)據(jù)；檢測裝置，檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失；內(nèi)插信息輸入/推定裝置，輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息；內(nèi)插裝置，使用通過上述內(nèi)插信息輸入/推定裝置對該幀所輸入或推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
12.一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置，制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；制作裝置，與上述音頻數(shù)據(jù)的各幀相關(guān)，制作該幀的內(nèi)插信息。
13.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置，其特征在于，上述制作裝置，制作與上述音頻數(shù)據(jù)的各幀相關(guān)的，包含該幀的能量和該幀的前和/或后的幀的能量的相似性的上述內(nèi)插信息。
14.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置，其特征在于，上述制作裝置，制作與上述的音頻數(shù)據(jù)的各幀相關(guān)的，包含與該幀有關(guān)的、基于該幀的前和/或后的幀的可預(yù)測性的上述內(nèi)插信息。
15.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置，其特征在于，上述制作裝置，制作與上述音頻數(shù)據(jù)的各幀相關(guān)的，包含該幀的聲音狀況的上述內(nèi)插信息。
16.根據(jù)權(quán)利要求12所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置，其特征在于，上述制作裝置，制作與上述音頻數(shù)據(jù)的各幀相關(guān)的，包含該幀的內(nèi)插法的上述內(nèi)插信息。
17.根據(jù)權(quán)利要求16所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作裝置，其特征在于，上述制作裝置，對于上述音頻數(shù)據(jù)的各幀，使誤差發(fā)生，在誤差發(fā)生的數(shù)據(jù)中使用多個內(nèi)插法，根據(jù)該多個內(nèi)插法的使用結(jié)果，來從該多個內(nèi)插法中選擇包含上述內(nèi)插信息的內(nèi)插法。
18.一種音頻數(shù)據(jù)內(nèi)插方法，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)的步驟；檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失的步驟；推定上述誤差或者損失被檢出的幀的內(nèi)插信息的步驟；使用通過上述推定步驟對該幀所推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
19.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求18所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
20.一種計(jì)算機(jī)可讀記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求18所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
21.一種音頻數(shù)據(jù)內(nèi)插方法，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)的步驟；與上述音頻數(shù)據(jù)的各幀相關(guān)，輸入該幀的內(nèi)插信息的步驟；檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失的步驟；使用通過對該幀輸入上述內(nèi)插信息的步驟而輸入的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
22.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求21所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
23.一種計(jì)算機(jī)可讀記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求21所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
24.一種音頻數(shù)據(jù)內(nèi)插方法，進(jìn)行由多個幀組成的音頻數(shù)據(jù)的內(nèi)插，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)的步驟；檢測上述音頻數(shù)據(jù)的各幀的誤差或者損失的步驟；輸入或者推定上述誤差或者損失被檢出的幀的內(nèi)插信息的步驟；使用通過上述輸入/推定上述內(nèi)插信息的步驟對該幀所輸入或者推定的上述內(nèi)插信息來對上述誤差或者損失被檢出的幀進(jìn)行內(nèi)插的步驟。
25.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求24所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
26.一種計(jì)算機(jī)可讀記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求24所述的音頻數(shù)據(jù)內(nèi)插方法的程序。
27.一種音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法，制作與由多個幀組成的音頻數(shù)據(jù)相關(guān)聯(lián)的信息，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)的步驟；與上述音頻數(shù)據(jù)的各幀相關(guān)，制作該幀的內(nèi)插信息的步驟。
28.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求27所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
29.一種計(jì)算機(jī)可讀記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求27所述的音頻數(shù)據(jù)關(guān)聯(lián)信息制作方法的程序。
30.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；時間差附加裝置，給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差；發(fā)送裝置，把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送。
31.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置，僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時，與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
32.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置通過把上述內(nèi)插信息埋入音頻數(shù)據(jù)中來進(jìn)行發(fā)送。
33.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
34.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
35.根據(jù)權(quán)利要求30所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置根據(jù)再發(fā)送要求，僅對上述內(nèi)插信息進(jìn)行再發(fā)送。
36.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括輸入裝置，輸入上述音頻數(shù)據(jù)；發(fā)送裝置，把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送。
37.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置，僅在上述內(nèi)插信息與之前的幀的內(nèi)插信息不同時，與上述音頻數(shù)據(jù)一起發(fā)送上述內(nèi)插信息。
38.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置僅多次發(fā)送上述內(nèi)插信息。
39.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置僅對上述內(nèi)插信息進(jìn)行強(qiáng)力糾錯的發(fā)送。
40.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置根據(jù)再發(fā)送要求，對僅上述內(nèi)插信息進(jìn)行再發(fā)送。
41.根據(jù)權(quán)利要求36所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送裝置，其特征在于，上述發(fā)送裝置，用與發(fā)送上述音頻數(shù)據(jù)的信道不同的可靠的其他信道來發(fā)送上述內(nèi)插信息。
42.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)的步驟；給與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息和該幀的音頻數(shù)據(jù)之間賦予時間差的步驟；把上述內(nèi)插信息與上述音頻數(shù)據(jù)一起進(jìn)行發(fā)送的步驟。
43.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求42所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
44.一種計(jì)算機(jī)可讀記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求42所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
45.一種音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法，發(fā)送由多個幀組成的音頻數(shù)據(jù)的內(nèi)插信息，其特征在于，包括下列步驟輸入上述音頻數(shù)據(jù)的步驟；把與上述音頻數(shù)據(jù)的各幀相對應(yīng)的內(nèi)插信息與上述音頻數(shù)據(jù)分別進(jìn)行發(fā)送的步驟。
46.一種用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求45所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
47.一種計(jì)算機(jī)可讀記錄媒體，記錄用于在計(jì)算機(jī)中執(zhí)行權(quán)利要求45所述的音頻數(shù)據(jù)內(nèi)插信息發(fā)送方法的程序。
全文摘要
本發(fā)明通過以下部分來構(gòu)成判別音頻數(shù)據(jù)中的誤差或者損失發(fā)生的幀的聲音狀況并進(jìn)行與該狀況相對應(yīng)的內(nèi)插的內(nèi)插裝置輸入部，輸入音頻數(shù)據(jù)；檢測部，檢測音頻數(shù)據(jù)的各幀的誤差或者損失；推定部，推定誤差或者損失被檢出的幀的內(nèi)插信息；內(nèi)插部，使用通過推定部對該幀所推定的內(nèi)插信息，來對誤差或者損失被檢出的幀進(jìn)行內(nèi)插。
文檔編號G10L19/005GK1457484SQ02800545
公開日2003年11月19日申請日期2002年3月6日優(yōu)先權(quán)日2001年3月6日
發(fā)明者安田泰代, 大矢智之, 保谷早苗申請人:株式會社Ntt都科摩

完整全部詳細(xì)技術(shù)資料下載