用于輸送對齊的多通道音頻的方法和設(shè)備的制作方法
【專利摘要】提供了一種將音頻編碼并將所述編碼音頻包括到數(shù)字傳輸流中的方法,其包括在編碼器輸入接收多個時間上處于同一位置的音頻信號,每單位時間將相同的時間戳指派到所述多個時間上處于同一位置的音頻信號的所有信號,以及將加有相同時間戳的音頻信號結(jié)合到數(shù)字傳輸流中。也提供了將所述編碼數(shù)據(jù)解碼的方法和編碼設(shè)備及解碼設(shè)備。
【專利說明】用于輸送對齊的多通道音頻的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般涉及音頻編碼,并且具體涉及用于輸送對齊的多通道(mult1-channel)音頻的方法和設(shè)備。
【背景技術(shù)】
[0002]諸如MPEG-1和MPEG-2等現(xiàn)代視聽編碼提供用于在單個傳輸流內(nèi)傳輸多個音頻和視頻分量的方式。單獨和分開的音頻分量與選定視頻分量是可對齊的。諸如環(huán)繞聲等同步多通道音頻只按照單個預(yù)混合的環(huán)繞聲音頻分量來提供,例如,單個Dolby 5.1音頻分量。然而,當(dāng)前未提供用于以同步形式來傳輸個體化多通道音頻分量的方式。
[0003]具體而言,MPEG-1和 MPEG-2 音頻規(guī)范(分別為 IS0/IEC 11172-3 和 IS0/IEC13818-3)描述將數(shù)字音頻信號編碼和封包的方式。這些方式包括指定用于支持使用單個MPEG-2傳輸流分量的各種形式的多通道聲音的方案。這些規(guī)定向后兼容以前的MPEG-1音頻系統(tǒng)。在現(xiàn)有技術(shù)中,只有通過將幾個音頻通道匯集到此類單個傳輸分量中,才可能確保通道的所要求的同步。這些方案均要求:
[a]使用環(huán)繞聲壓縮方法(例如,Dolby5.1)或者
[b]使用專有壓縮技術(shù),或者
[c]使用未壓縮音頻。
[0004]使用環(huán)繞聲壓縮方法通過利用幾個通道之間存在的冗余,并且還利用使聲音的某些空間特性變得不可檢測并因此在處理中可掩蔽的人耳聽覺系統(tǒng)的特征,降低了多通道所要求的比特率。這些復(fù)雜的方案提供了處理其中預(yù)期只有一個編碼和解碼操作的單編碼級的適當(dāng)方式,但對于傳送網(wǎng)絡(luò)中可能需要重新編碼幾次的信號,出于可行和操作原因(例如,源從遠(yuǎn)程位置饋送到中央編輯設(shè)施),它們不是理想的選擇。這是由于依次進行的多次編碼操作產(chǎn)生的級聯(lián)問題惡化了音頻質(zhì)量。尤其在容量受限的情況下是這樣,造成比特率大幅降低,留下很少的余量(headroom)來處理級聯(lián)編碼和傳送中的此類惡化。
[0005]使用專有壓縮技術(shù)一般要求使用另外的外部專用設(shè)備,導(dǎo)致更大的費用和操作復(fù)雜度。此方法也可能遭受多于一個編碼/解碼級的級聯(lián)產(chǎn)生的相同質(zhì)量惡化。
[0006]然而,如果音頻以未壓縮格式發(fā)送(例如,未壓縮線性PCM樣本),則要求的數(shù)據(jù)率是極高的數(shù)據(jù)率(例如,每雙通道對大約3Mbit/s)。
[0007]雖然在向消費者提供最終的視聽媒體時以上所述一般不是問題,但它確實提出了視聽媒體制作行業(yè)的問題,因為該行業(yè)越來越多地利用無處不在的現(xiàn)代高速數(shù)據(jù)網(wǎng)絡(luò)在制作設(shè)施之間即時發(fā)送壓縮格式中的“原始”視聽媒體(即,用于制作電視、電影和其它媒體的源材料),或者實際上從制作設(shè)施發(fā)送出去到電視或音頻網(wǎng)絡(luò)分發(fā)點,例如地面?zhèn)魉推?、衛(wèi)星上行鏈路或有線頭端。
[0008]例如,位置攝制組一般將視聽材料饋送到電視演播室,以便編輯和分發(fā)到下屬電視臺,并最終廣播到觀看者。上述視聽編碼標(biāo)準(zhǔn)不允許無預(yù)混合地發(fā)送同步多通道音頻,因此,增加了其現(xiàn)場設(shè)備的復(fù)雜性,或者阻止它們提供多通道音頻。[0009]存在一個特別的需要是能夠傳送具有對準(zhǔn)確的通道到通道對齊的要求的多通道音頻,使得在多通道的時間對齊是重要的情況下音頻信號隨后能夠編碼為環(huán)繞聲音頻,該編碼使用上述MPEG標(biāo)準(zhǔn),因為大多數(shù)制作設(shè)備已經(jīng)設(shè)置為與這些標(biāo)準(zhǔn)一起使用。
[0010]相應(yīng)地,本發(fā)明提議了方法和設(shè)備,這些提議的方法和設(shè)備在保持通道間準(zhǔn)確的時間對齊和聲音質(zhì)量的同時,提供了用于輸送多通道音頻的具成本效益且方便的機制。
【發(fā)明內(nèi)容】
[0011]本發(fā)明的實施例提供一種將音頻編碼并將所述編碼音頻包括到數(shù)字傳輸流中的方法,其包括在編碼器輸入接收多個時間上處于同一位置的音頻信號,每單位時間將相同的時間戳指派到所述多個時間上處于同一位置的音頻信號的所有信號,以及將加有相同時間戳的音頻信號結(jié)合到數(shù)字傳輸流中。
[0012]可選的是,接收的步驟還包括對時間上處于同一位置的音頻信號采樣以形成預(yù)定大小的音頻數(shù)據(jù)的幀,以及對齊音頻數(shù)據(jù)的所述幀以保持音頻信號在時間上處于同一位置,并且其中指派相同時間戳的步驟在音頻數(shù)據(jù)的對齊幀上執(zhí)行。
[0013]可選的是,該方法還包括在指派時間戳之前通過相同的音頻編碼器配置設(shè)置來壓縮音頻數(shù)據(jù)的對齊幀,以及將壓縮的和加有相同時間戳的音頻數(shù)據(jù)分配到傳輸流的多個單通道。
[0014]可選的是,多個單通道包括一個或多個常規(guī)的雙單(dual mono)音頻分量。
[0015]可選的是,預(yù)定大小是MPEG標(biāo)準(zhǔn)中訪問單元(Access Unit)的大小,并且視頻傳輸流是MPEG-1或MPEG-2傳輸流。
[0016]可選的是,時間戳是呈現(xiàn)時間戳。
[0017]可選的是,前面權(quán)利要求的任一項的方法中,將音頻結(jié)合到數(shù)字視頻流中的步驟包括將壓縮的且加有相同時間戳的音頻數(shù)據(jù)復(fù)用到傳輸流中。
[0018]本發(fā)明的實施例還提供一種將包括根據(jù)任何上述編碼方法編碼的音頻的數(shù)字傳輸流解碼的方法,其包括接收多個加有相同時間戳的音頻信號,表不多個時間上處于同一位置的各個音頻通道,檢測時間戳以確定共享的時間戳,以及根據(jù)檢測的時間戳,將多個時間上處于同一位置的各個音頻通道作為多個通道輸出。
[0019]可選的是,多個加有相同時間戳的音頻信號已被采樣和對齊以形成音頻數(shù)據(jù)的對齊幀,以及其中相同時間戳已被應(yīng)用到音頻數(shù)據(jù)的對齊幀。
[0020]可選的是,音頻數(shù)據(jù)的對齊幀在時間戳的指派前已被壓縮,并且該方法還包括將音頻數(shù)據(jù)的所述幀解壓縮以產(chǎn)生用于輸出的各個音頻信號。
[0021]可選的是,輸出多個時間上處于同一位置的各個音頻通道的步驟包括使用時間上處于同一位置的音頻信號的僅一個音頻信號的時間戳來呈現(xiàn)音頻。
[0022]可選的是,數(shù)字傳輸流是數(shù)字視頻傳輸流,并且音頻數(shù)據(jù)的對齊幀包括PES分組。
[0023]本發(fā)明的實施例還提供一種適合于執(zhí)行任何上述編碼方法的編碼設(shè)備。
[0024]本發(fā)明的實施例還提供一種適合于執(zhí)行任何上述解碼方法的解碼設(shè)備。
[0025]本發(fā)明的實施例還提供一種數(shù)字傳輸系統(tǒng),該系統(tǒng)包括至少一個所述編碼設(shè)備、至少一個所述解碼設(shè)備及在其之間的通信鏈路。
[0026]本發(fā)明的實施例還提供一種攜帶指令的計算機可讀媒體,所述指令在執(zhí)行時促使計算機邏輯執(zhí)行任何所述編碼、解碼或兩種方法。
[0027]本發(fā)明的實施例還提供一種用于編碼音頻并從多個時間上處于同一位置的音頻通道產(chǎn)生傳輸流的編碼設(shè)備,該編碼設(shè)備包括:用于根據(jù)預(yù)定壓縮來編碼音頻的至少一個編碼器;每編碼器一個封包功能,用于將編碼的音頻封包到音頻的預(yù)定部分中;匯集功能,適合于提供相同時間戳到封包功能以便包括在音頻數(shù)據(jù)的多個預(yù)定部分中,使得編碼的音頻指示音頻通道在時間上處于同一位置;以及用于一起復(fù)用至少一個編碼器和封包功能對的輸出的復(fù)用器。
【專利附圖】
【附圖說明】
[0028]現(xiàn)在將只通過示例,參照附圖來描述用于輸送對齊的多通道音頻的方法和設(shè)備,其中:
圖1示出根據(jù)現(xiàn)有技術(shù)的模擬或數(shù)字單編碼設(shè)備的一部分的示意框圖;
圖2示出根據(jù)現(xiàn)有技術(shù)的模擬或數(shù)字單解碼設(shè)備的一部分的示意框圖;
圖3示出根據(jù)現(xiàn)有技術(shù)的模擬或數(shù)字立體聲或雙單編碼設(shè)備的一部分的示意框圖;
圖4示出根據(jù)現(xiàn)有技術(shù)的模擬或數(shù)字立體聲或雙單解碼設(shè)備的一部分的示意框圖;
圖5示出根據(jù)本發(fā)明一實施例的用于輸送對齊的多通道音頻的方法的編碼部分的流程圖;
圖6示出根據(jù)本發(fā)明一實施例的用于輸送對齊的多通道音頻的方法的解碼部分的流程圖;
圖7示出根據(jù)本發(fā)明一實施例的多通道模擬或數(shù)字編碼設(shè)備的一部分的示意框圖;
圖8示出根據(jù)本發(fā)明一實施例的多通道模擬或數(shù)字解碼設(shè)備的一部分的示意框圖。
【具體實施方式】
[0029]現(xiàn)在將參照附圖描述本發(fā)明的一實施例,附圖中為相同或類似的部分或步驟提供了相同或類似的引用數(shù)字。
[0030]下述內(nèi)容將基于MPEG-2標(biāo)準(zhǔn)。然而,將明白,基礎(chǔ)發(fā)明同樣適用于支持雙單編碼的其它壓縮音頻標(biāo)準(zhǔn),如高級音頻編碼(AAC)或Dolby數(shù)字(Dolby Digital)。
[0031]MPEG-1和MPEG-2音頻規(guī)范描述編碼和封包數(shù)字音頻信號的方式。處理的音頻信號傳遞到MPEG系統(tǒng)層(IS0/IEC 13818-1)以便進一步封包到傳輸流(TS)中,然后通過諸如電信或廣播系統(tǒng)等通信網(wǎng)絡(luò)來傳送。這些MPEG封包規(guī)則定義對比特流給出結(jié)構(gòu)的語法。具體而言,比特流包含時間戳,時間戳由解碼器用于控制解碼和恢復(fù)的輸出音頻的時序。這些時間戳用于對音頻和視頻分量準(zhǔn)確定時序。
[0032]MPEG標(biāo)準(zhǔn)定義兩種類型的時間戳-定義接收的編碼數(shù)據(jù)要何時向解碼器呈現(xiàn)的解碼器時間戳(DTS)和定義解碼的音頻或視頻何時要由系統(tǒng)輸出以便分別聽到或看到的呈現(xiàn)時間戳(PTS)。最常使用的是后一類型的時間戳。
[0033]通過如下面更詳細(xì)描述的來管理這些時間戳,根據(jù)本發(fā)明的一實施列的視聽傳送系統(tǒng)能夠適當(dāng)?shù)赝瑫r呈現(xiàn)用于編碼或解碼的多通道集合的幾個單獨音頻信號,由此實現(xiàn)多通道集合之間要求的同步。
[0034]圖1示出根據(jù)現(xiàn)有技術(shù)的模擬或數(shù)字單編碼設(shè)備的一部分的示意框圖,它示出通過例如諸如MPEG-2的編碼過程的音頻數(shù)據(jù)的系統(tǒng)流程。解碼過程是其的逆過程,并且在圖2中示出。
[0035]圖中的所有示例示出雙模擬110和數(shù)字105輸入,模擬輸入在輸入編碼器130前通過模數(shù)(A/D)轉(zhuǎn)換器120以進行數(shù)字化。數(shù)字音頻105直接輸入編碼器130。各個通道由標(biāo)簽a-d表示。然而,將明白,本發(fā)明不限于任何設(shè)置數(shù)量的通道,并且完全可伸縮,以及音頻輸入可以是僅模擬格式、僅數(shù)字格式或如所示的雙格式。
[0036]在輸入是在模擬形式中的情況下,在模擬聲音輸入編碼器130之前,例如以線性脈沖碼調(diào)制(PCM)的形式對它進行數(shù)字采樣,其中它被轉(zhuǎn)換成比特減少的形式。
[0037]編碼器130將多個編碼的數(shù)字比特流(每個單獨的音頻通道一個比特流)輸出到封包功能140,封包功能140將音頻封包到音頻樣本中。音頻樣本的定義組按照稱為訪問單元的比特塊在編碼的域中匯集和關(guān)聯(lián)。每個訪問單元是音頻的封好包的部分,例如,1152個音頻樣本的幀。
[0038]隨后,通過復(fù)用器150將各個封包的通道復(fù)用在一起以形成傳輸流160。
[0039]解碼設(shè)備在圖2中示出,并且基本是逆過程。傳輸流160由解復(fù)用器250進行解復(fù)用,解復(fù)用器250提供封包的各個音頻通道以便由解包功能240解包,之后在解碼級235中解碼并且作為直接數(shù)字流105輸出,或者經(jīng)數(shù)模轉(zhuǎn)換器220輸出成模擬形式110。
[0040]圖3和4示出用于雙單或同步立體聲情況的編碼和解碼設(shè)備。多個立體聲或雙單對可添加到系統(tǒng),但這些對將不會鎖定在一起,因為MPEG規(guī)范未對其做明確規(guī)定(不同于遇到【背景技術(shù)】部分中所述問題的環(huán)繞聲選項),并且因此它們保持為帶有分開時間戳的分開實體,每個在解碼器的輸出單獨重新構(gòu)建。
[0041]例如不同語言聲軌等多個獨立音頻通道可存在以便包括任何給定傳輸流,每一個單獨編碼。
[0042]根據(jù)系統(tǒng)操作員選擇的用于每個通道的比特率分配和質(zhì)量準(zhǔn)則、要求的通道數(shù)量,在輸入音頻組與其編碼的對應(yīng)物之間存在多個不同關(guān)聯(lián)。普通操作模式是這些音頻通道獨立編碼,并且不存在特殊要求將它們鎖定在一起。
[0043]這些通道中的一些可與伴隨的視頻信號相關(guān)聯(lián)(S卩,在音頻是視頻或電視聲音的情況下),并且系統(tǒng)將使用對視頻和音頻流共同的時間戳,使這些信號與其相應(yīng)視頻適當(dāng)對齊。音頻對齊在此情況下不是很精確-它只需要確保滿足唇同步要求。此級別的對齊不如多通道環(huán)繞聲所需的那么精確。
[0044]因此,通常每個獨立的單聲道音頻信號、雙單聲道或立體聲對(參見圖3)在復(fù)用的輸出流內(nèi)具有單獨的身份(即,基本流),并且因此每個具有其自己的在封包階段期間由編碼設(shè)備獨立生成的時間戳,并且在解碼器單獨使用。
[0045]在簡要概述中,對上述現(xiàn)有技術(shù)的缺點的提議解決方案是通過利用為這些情況提供的時序控制并將它們擴展到多通道情況的時序控制,適應(yīng)用于標(biāo)準(zhǔn)單聲道或雙通道立體聲通道的普通MPEG-2傳送格式。因此,根據(jù)本發(fā)明的實施例的解碼器能夠呈現(xiàn)精確對齊的多個音頻通道,并且這因而解決了同步問題,以及避免了編碼系統(tǒng)的級聯(lián)和伴隨的質(zhì)量惡化。
[0046]該解決方案與現(xiàn)有MPEG-2語法完全兼容,并且因此普通相容的解碼器將能夠在常規(guī)時間關(guān)系中呈現(xiàn)多通道音頻,以及該方法能實現(xiàn)其在級聯(lián)系統(tǒng)中的重復(fù),而不擔(dān)心質(zhì)量惡化,即使沒有與根據(jù)本發(fā)明的一實施例的解碼器相同程度的對齊精度。
[0047]更詳細(xì)地說,在提議的多通道同步方法中,要求在單獨和同步方式中處理的幾個輸入音頻信號通過相同的時序控制來處理,使得在傳送語法中分配相同時間戳,以便解碼器將也保持對齊。
[0048]圖5示出根據(jù)本發(fā)明一實施例的編碼方法500的一部分。
[0049]在步驟510,要同步并通過單個傳輸流傳輸而不轉(zhuǎn)換成單個分量的預(yù)定數(shù)量(N)的獨立音頻通道被輸入編碼設(shè)備。編碼設(shè)備每單位時間形成K個對齊的音頻樣本,從每個輸入音頻通道取一個樣本,其中,樣本對應(yīng)于相同的時刻。
[0050]編碼設(shè)備每單位時間形成K個對齊音頻樣本的N/2個幀(步驟520),其中,每個幀對應(yīng)于相同的起始時間,但對于各個音頻通道,已準(zhǔn)備好使用在步驟530選擇的壓縮方法進行壓縮以形成訪問單元,一般為每對音頻通道使用雙單音頻壓縮。
[0051]隨后,在步驟540,為音頻樣本的壓縮幀(即訪問單元)指派相同的時間戳,一般以報頭字段的形式。
[0052]在步驟550,音頻樣本的加有時間戳的壓縮幀被封裝(S卩,封包)成PES分組,其包含例如MPEG-2標(biāo)準(zhǔn)的使用中的相應(yīng)標(biāo)準(zhǔn)的雙單對。剩余的編碼過程與正常情況下相同,即,封包的音頻與任何有關(guān)視頻(如果適用)和其它通道一起被傳輸封包和復(fù)用到輸出傳輸流160中。
[0053]圖6示出根據(jù)本發(fā)明一實施例的逆解碼過程。
[0054]具體而言,解碼方法包括接收N/2對單音頻通道610,檢測時間戳620,確定哪些對共享時間戳630,將那些對解壓縮成與相同呈現(xiàn)時間有關(guān)的單音頻樣本的N個訪問單元640,以及隨后輸出解壓縮的音頻以根據(jù)單個共同時間戳,精確地同時呈現(xiàn)N個樣本650。
[0055]將明白,對齊、壓縮和時間戳供應(yīng)可通過編碼設(shè)備的單個硬件組件來完成,并且逆過程可由解碼設(shè)備的單個硬件組件來完成。
[0056]根據(jù)本發(fā)明一實施例的用于執(zhí)行上述編碼方法的編碼設(shè)備在圖7中示出,其中,能夠看到,存在處理的附加級(即,多通道成幀級770),提供其以對齊幾個音頻信號以及安排和提供用于在封包級140在單獨但同步的音頻通道之間使用共同時間戳。
[0057]所述方法和設(shè)備優(yōu)選地通過使用雙單通道攜帶單獨但同步的音頻通道來操作。因此,圖7的編碼設(shè)備700 (及圖8的其對應(yīng)解碼設(shè)備800)示出為每對音頻通道具有單獨的編碼器/解碼器和封包/解包。
[0058]圖7示出具有要一起同步的四個單獨音頻通道的一示例,帶有雙(模擬/數(shù)字)輸入能力。模擬通道經(jīng)過A/D 120 (a-d)以便在提供到成幀級770前數(shù)字化。數(shù)字輸入直接被饋送到成巾貞級770中。
[0059]成幀級770從所有音頻通道創(chuàng)建時間上處于同一位置的音頻樣本的塊,并標(biāo)記它們以便與用于所有其它時間上處于同一位置的音頻樣本的相同時間戳一起處理。這一般采用時間戳同步信號780的形式,其傳遞到處理管線(pipeline)更下方的封包級140。
[0060]同時,音頻樣本作為如在成幀級770中形成的雙單采樣對的共同定時的(co-timed)幀,提供到標(biāo)準(zhǔn)編碼級730,標(biāo)準(zhǔn)編碼級730又將編碼的音頻樣本提供到封包級140,在該級中,根據(jù)成幀級770提供的時間戳同步信號780將它們封包。
[0061]一優(yōu)選實施例將使用訪問單元大小的樣本塊和相關(guān)聯(lián)的呈現(xiàn)時間戳(PTS),訪問單元屬于使用單個數(shù)字信號處理器壓縮的多通道對,產(chǎn)生帶有相同PTS值的PES分組的集合,包含與音頻數(shù)據(jù)精確共同定時的原樣本有關(guān)的壓縮音頻。
[0062]在有奇數(shù)個輸入通道并且雙單通道正在用作傳輸機制的情況下,則可簡單地為雙單通道之一填充靜音。
[0063]隨后,每個雙單鏈(編碼器和封包功能對)的輸出由復(fù)用器150以普通方式復(fù)用在一起,以提供輸出傳輸流160。
[0064]圖8中示出根據(jù)本發(fā)明一實施例的解碼設(shè)備800。
[0065]解碼操作將與多個雙單音頻分量有關(guān)的音頻的離散訪問單元解壓縮,保持其呈現(xiàn)時間戳835。隨后,根據(jù)它們之間共享的共同時間戳,在相同時間由幀呈現(xiàn)級870呈現(xiàn)解碼的樣本的幀。因此,與精確共同定時的樣本時間有關(guān)的多個樣本對在一起呈現(xiàn),因而實現(xiàn)了通過整個編碼/解碼處理鏈、跨多個通道對保持精確的通道到通道音頻對齊的目標(biāo)。
[0066]因此,用于同步音頻的幾個通道的完整方案在編碼設(shè)備使用以下特征:
.跨多個音頻通道的輸入處時間上處于同一位置的樣本被形成音頻樣本的對齊的幀以匹配壓縮的訪問單元大??;
.對齊的音頻幀通過相同的音頻編碼器配置進行壓縮,優(yōu)選的是分配兩個單聲道通道(作為一對)到每個壓縮的音頻分量。然而,也可使用立體聲通道或各個單通道,以及或轉(zhuǎn)而使用雙單對;
.壓縮的訪問單元優(yōu)選地指派有相同的呈現(xiàn)時間戳值或帶有預(yù)定時間延遲的解碼器時間戳(DTS);
.壓縮的音頻分量作為MPEG-2傳 輸流中多個常規(guī)雙通道單壓縮的音頻分量來傳送。
[0067]在解碼設(shè)備(B卩,接收位置):
.多個壓縮的音頻分量被解碼,結(jié)果是對于相應(yīng)流中的任何給定點,音頻樣本的解壓縮幀的多個集合(即,解碼的通道)跨通道具有相同的時間戳;
.通過使用僅一個分量的呈現(xiàn)時間戳,向輸出呈現(xiàn)用于多個通道的解壓縮的音頻幀,使得輸出音頻樣本在時間上處于同一位置(或在DTS后預(yù)定的時間時期)。
[0068]上述方法和設(shè)備提供了由其可通過通信系統(tǒng)來傳送音頻的幾個通道、使得它們始終相互保持同步到樣本準(zhǔn)確度的方式。實現(xiàn)此同步的以前方式受限于立體聲對和級聯(lián)編碼的多級時導(dǎo)致質(zhì)量惡化的環(huán)繞聲編碼。所述方法和設(shè)備避免了現(xiàn)有技術(shù)系統(tǒng)的質(zhì)量惡化,并且無需更復(fù)雜且有時專有的環(huán)繞聲解決方案。
[0069]因此,本發(fā)明的實施例提供了用于“原始”多通道音頻(即,尚未混合到環(huán)繞聲形式中)和與它相關(guān)的視頻跨相同的傳輸流來發(fā)送的方式,由此降低由于其它以前已知音頻傳輸方法有關(guān)的級聯(lián)或其它問題所造成的聲音質(zhì)量的惡化。這也避免了需要在傳送前使用有損環(huán)繞聲處理或使用極高帶寬未壓縮的線性PCM。
[0070]本發(fā)明特別適合利用多通道音頻而不將它轉(zhuǎn)換成單個分量(例如,5.1環(huán)繞聲)的廣播質(zhì)量視頻傳送。然而,將明白,本發(fā)明的實施例可同樣適用于僅音頻傳輸流,如用于輸送多通道無線電聲音或諸如此類的那些流。
[0071]在發(fā)送壓縮音頻以便在另一位置處理成環(huán)繞聲的系統(tǒng)中,本發(fā)明特別有益。這是因為在環(huán)繞混合中使用此類壓縮的源時,壓縮的音頻樣本的不對齊可造成壓縮的假象(artefact),這又可造成最終環(huán)繞音頻混合中不合需要的音頻損害。[0072]典型的實現(xiàn)將包括在通信鏈路的一端根據(jù)本發(fā)明的一實施例的編碼設(shè)備和在另一端根據(jù)本發(fā)明的一實施例的解碼設(shè)備。如果要求,此類系統(tǒng)對可跨多個通信鏈路重復(fù)。
[0073]上述方法可由任何適當(dāng)適應(yīng)或設(shè)計的硬件來執(zhí)行。方法的部分也可在計算機可讀媒體中存儲的指令集中實施,指令集在載入計算機、數(shù)字信號處理器(DSP)或類似裝置時,促使該計算機執(zhí)行上述方法。
[0074]同樣地,所述方法可實施為特殊編程的或硬件設(shè)計的集成電路,該電路操作以在加載到所述集成電路中的音頻數(shù)據(jù)上執(zhí)行所述方法。集成電路可形成為諸如PC及諸如此類的通用計算裝置的部分,或者它可形成為諸如游戲控制臺、移動電話、便攜式計算機裝置或硬件音頻/視頻編碼器/解碼器等更專門化的裝置的部分。
[0075]—個示范硬件實施例是編程為執(zhí)行所述方法和/或提供所述設(shè)備的現(xiàn)場可編程門陣列(FPGA)的實施例,F(xiàn)PGA位于數(shù)據(jù)中心中容納的機架安裝的視頻服務(wù)器的子板上以便例如在IPTV電視系統(tǒng)和/或電視演播室或支持現(xiàn)場新聞小組的位置視頻上行鏈路車(uplink van)中使用。
[0076]本發(fā)明的另一示范硬件實施例是包括傳送器和接收器對的音頻和視頻發(fā)送器的實施例,其中,傳送器包括編碼設(shè)備,并且接收器包括解碼設(shè)備,其中每個編碼設(shè)備實施為專用集成電路(ASIC)。
[0077]本領(lǐng)域技術(shù)人員將明白,本文所述方法中執(zhí)行的步驟的精確順序和內(nèi)容可根據(jù)如編碼的速度及諸如此類的執(zhí)行參數(shù)的特定集合的要求而改變。此外,將明白,公開的設(shè)備的不同實施例可根據(jù)本發(fā)明整體的特定實現(xiàn)的要求,選擇性地以不同組合實現(xiàn)本發(fā)明的某些特征。相應(yīng)地,不得將權(quán)利要求編號視為對在權(quán)利要求項之間移動特征的能力的嚴(yán)格限制,并且因此可自由利用從屬權(quán)利要求的部分。
【權(quán)利要求】
1.一種編碼音頻并將所述編碼的音頻包括到數(shù)字傳輸流中的方法,包括: 在編碼器輸入接收多個時間上處于同一位置的音頻信號; 采樣所述多個時間上處于同一位置的音頻信號以形成預(yù)定大小的音頻數(shù)據(jù)的多個對齊幀,其中音頻數(shù)據(jù)的對齊幀對應(yīng)于相同的時間時期; 壓縮音頻數(shù)據(jù)的所述多個對齊幀以創(chuàng)建壓縮幀; 每單位時間將相同時間戳指派到所述壓縮幀;以及 將所述壓縮幀結(jié)合到所述數(shù)字傳輸流的多個基本流中。
2.如權(quán)利要求1所述的方法,其中所述壓縮還包括: 在指派所述相同時間戳之前用相同音頻編碼器配置設(shè)置來壓縮音頻數(shù)據(jù)的所述多個對齊幀;以及 將所述多個對齊幀分配到所述數(shù)字傳輸流的多個單通道。
3.如權(quán)利要求2所述的方法,其中所述多個單通道包括一個或多個常規(guī)雙單音頻分量。
4.如權(quán)利要求1所述的方法,其中所述預(yù)定大小是MPEG標(biāo)準(zhǔn)中訪問單元的大小,并且所述視頻傳輸流是MPEG-1或MPEG-2傳輸流。
5.如權(quán)利要求1所述的方法,其中所述時間戳是呈現(xiàn)時間戳。
6.如權(quán)利要求1所 述的方法,其中結(jié)合的所述步驟還包括: 將加有相同時間戳的音頻數(shù)據(jù)復(fù)用到所述數(shù)字傳輸流中。
7.一種解碼數(shù)字傳輸流的方法,包括: 接收包括編碼的音頻的數(shù)字傳輸流; 從所述數(shù)字傳輸流的多個基本流獲得壓縮幀; 將所述壓縮幀解壓縮以創(chuàng)建表示多個時間上處于同一位置的各個音頻通道的預(yù)定大小的音頻數(shù)據(jù)的多個對齊幀,其中音頻數(shù)據(jù)的對齊幀對應(yīng)于相同的時間時期; 檢測音頻數(shù)據(jù)的所述多個幀中音頻數(shù)據(jù)的每個幀的時間戳,以確定音頻數(shù)據(jù)的加有相同時間戳的幀;以及 通過使用表示所述多個時間上處于同一位置的各個音頻通道中一個單獨音頻通道的音頻數(shù)據(jù)的所述多個幀中音頻數(shù)據(jù)的幀的時間戳而在相同時間呈現(xiàn)音頻數(shù)據(jù)的加有相同時間戳的幀。
8.如權(quán)利要求7所述的方法,其中所述編碼的音頻已被采樣和對齊以形成音頻數(shù)據(jù)的所述多個對齊幀,以及其中所述相同時間戳已被應(yīng)用到音頻數(shù)據(jù)的所述多個對齊幀。
9.如權(quán)利要求7所述的方法,其中所述視頻傳輸流是數(shù)字視頻傳輸流,并且音頻數(shù)據(jù)的所述多個對齊幀包括PES分組。
10.一種用于編碼音頻并將所述音頻包括到數(shù)字傳輸流中的編碼器,所述編碼器包括: 處理器; 非暫態(tài)計算機可讀存儲媒體,進一步包括計算機可讀指令,所述指令在由所述處理器執(zhí)行時配置成: 在輸入接收多個時間上處于同一位置的音頻信號; 采樣所述多個時間上處于同一位置的音頻信號以形成預(yù)定大小的音頻數(shù)據(jù)的多個對齊幀,其中音頻數(shù)據(jù)的對齊幀對應(yīng)于相同的時間時期; 壓縮音頻數(shù)據(jù)的所述多個對齊幀以創(chuàng)建壓縮幀; 每單位時間將相同時間戳指派到所述壓縮幀;以及 將所述壓縮幀結(jié)合到所述數(shù)字傳輸流的多個基本流中。
11.如權(quán)利要求10所述的編碼器,其中所述計算機可讀指令配置成壓縮,在由所述處理器執(zhí)行時還配置成: 在指派所述相同時間戳之前用相同音頻編碼器配置設(shè)置來壓縮音頻數(shù)據(jù)的所述多個對齊幀;以及 將音頻數(shù)據(jù)的所述多個對齊幀分配到所述數(shù)字傳輸流的多個單通道。
12.如權(quán)利要求11所述的編碼器,其中所述多個單通道包括一個或多個常規(guī)雙單音頻分量。
13.如權(quán)利要求10所述的編碼器,其中所述預(yù)定大小是MPEG標(biāo)準(zhǔn)中訪問單元的大小,并且所述視頻傳輸流是MPEG-1或MPEG-2傳輸流。
14.如權(quán)利要求10所述的編碼器,其中所述時間戳是呈現(xiàn)時間戳。
15.如權(quán)利要求10所述的編碼器,其中計算機可讀指令在由所述處理器執(zhí)行時還配置成通過以下步驟來將所述音頻結(jié)合到數(shù)字視頻流中: 將音頻數(shù)據(jù)的所述多個對齊幀復(fù)用到所述數(shù)字傳輸流中。
16.一種用于解碼數(shù)字傳 輸流的解碼器,包括: 處理器; 非暫態(tài)計算機可讀存儲媒體,進一步包括計算機可讀指令,所述指令在由所述處理器執(zhí)行時配置成: 接收包括編碼的音頻的數(shù)字傳輸流; 從所述數(shù)字傳輸流的多個基本流獲得壓縮幀; 將所述壓縮幀解壓縮以創(chuàng)建表示多個時間上處于同一位置的各個音頻通道的預(yù)定大小的音頻數(shù)據(jù)的多個對齊幀,其中音頻數(shù)據(jù)的對齊幀對應(yīng)于相同的時間時期; 檢測音頻數(shù)據(jù)的所述多個對齊幀中每個幀的時間戳,以確定音頻數(shù)據(jù)的加有相同時間戳的幀;以及 通過使用表示所述多個時間上處于同一位置的各個音頻通道中一個單獨音頻通道的音頻數(shù)據(jù)的所述多個幀中音頻數(shù)據(jù)的幀的時間戳而在相同時間呈現(xiàn)音頻數(shù)據(jù)的加有相同時間戳的幀。
17.如權(quán)利要求16所述的解碼器,其中所述視頻傳輸流是數(shù)字視頻傳輸流,并且音頻數(shù)據(jù)的所述多個對齊幀包括PES分組。
18.—種數(shù)字傳輸系統(tǒng),包括: 用于編碼音頻并將所述音頻包括到數(shù)字傳輸流中的編碼器,所述編碼器包括: 第一處理器; 第一非暫態(tài)計算機可讀存儲媒體,進一步包括計算機可讀指令,所述指令在由所述第一處理器執(zhí)行時配置成: 在輸入接收多個時間上處于同一位置的音頻信號; 采樣所述多個時間上處于同一位置的音頻信號以形成預(yù)定大小的音頻數(shù)據(jù)的多個對齊幀,其中音頻數(shù)據(jù)的對齊幀對應(yīng)于相同的時間時期; 壓縮音頻數(shù)據(jù)的所述多個對齊幀以創(chuàng)建壓縮幀; 每單位時間將相同時間戳指派到所述壓縮幀;以及 將所述壓縮幀結(jié)合到所述數(shù)字傳輸流的多個基本流中;以及 用于解碼所述數(shù)字傳輸流的解碼器,所述解碼器包括: 第二處理器; 第二非暫態(tài)計算機可讀存儲媒體,進一步包括計算機可讀指令,所述指令在由所述第二處理器執(zhí)行時配置成: 接收包括編碼的音頻的所述數(shù)字傳輸流; 從所述數(shù)字傳輸流的多個基本流獲得壓縮幀; 將所述壓縮幀解壓縮以創(chuàng)建表示多個時間上處于同一位置的各個音頻通道的預(yù)定大小的音頻數(shù)據(jù)的多個對齊幀,其中音頻數(shù)據(jù)的對齊幀對應(yīng)于相同的時間時期; 檢測音頻數(shù)據(jù)的所述多個對齊幀中音頻數(shù)據(jù)的每個幀的時間戳,以確定音頻數(shù)據(jù)的加有相同時間戳的幀,以及 通過使用表示所述多個時間上處于同一位置的各個音頻通道中一個單獨音頻通道的音頻數(shù)據(jù)的所述多個幀中音頻數(shù)據(jù)的幀的時間戳而在相同時間呈現(xiàn)音頻數(shù)據(jù)的加有相同時間戳的幀。
19.如權(quán)利要求1所述的方法,其中所述多個時間上處于同一位置的音頻信號還包括原始多通道音頻。
20.如權(quán)利要求1所述的方法,其中所述多個時間上處于同一位置的音頻信號適合于處理成環(huán)繞聲。
21.如權(quán)利要求20所述的方法,其中所述處理成環(huán)繞聲在另一個位置被執(zhí)行。
22.如權(quán)利要求1所述的方法,其中所述多個時間上處于同一位置的音頻信號是多通道環(huán)繞聲的分量。
23.如權(quán)利要求1所述的方法,其中所述多個時間上處于同一位置的音頻信號攜帶分開的但同步的音頻通道。
【文檔編號】G10L19/16GK103474076SQ201310356412
【公開日】2013年12月25日 申請日期:2008年10月6日 優(yōu)先權(quán)日:2008年10月6日
【發(fā)明者】A.R.瓊斯 申請人:愛立信電話股份有限公司