本公開總體涉及用于生成音頻內(nèi)容的方法和裝置。
背景技術(shù):
例如,存在以光盤(CD)、磁帶、可從互聯(lián)網(wǎng)下載的音頻數(shù)據(jù)文件的形式,還有以例如存儲在數(shù)字視頻磁盤等上的視頻的聲軌的形式等的許多可用的傳統(tǒng)音頻內(nèi)容。
通常,例如,針對單聲道或者立體聲設置,傳統(tǒng)音頻內(nèi)容已從原始音頻源信號混合而無需從用于產(chǎn)生音頻內(nèi)容的原始音頻源中保持原始音頻源信號。
然而,存在期望再混合或者上混合音頻內(nèi)容的情況或者應用。例如,在將在比提供的音頻內(nèi)容具有更多可用音頻信道的設備上播放音頻內(nèi)容的情況,例如,要在立體聲設備上播放單聲道音頻內(nèi)容、要在具有六個音頻信道的環(huán)繞聲設備上播放立體聲音頻內(nèi)容等。在其他情況下,將修正所感知的音頻源的空間位置或者將修正所感知的音頻源的響度。
雖然普遍存在用于再混合音頻內(nèi)容的技術(shù),但是,通常期望改進用于再混合音頻內(nèi)容的方法和裝置。
技術(shù)實現(xiàn)要素:
根據(jù)第一方面,本公開提供了如下方法,包括:接收表示混合音頻源的輸入音頻內(nèi)容;分離混合音頻源,從而獲得分離的音頻源信號和殘留信號;以及通過混合分離的音頻源信號和殘留信號,生成輸出音頻內(nèi)容。
根據(jù)第二方面,本公開提供了如下裝置,包括:音頻輸入,配置為接收表示混合音頻源的輸入音頻內(nèi)容;源分離器,配置為分離混合音頻源,從而獲得分離的音頻源信號和殘留信號;以及音頻輸出發(fā)生器,配置為通過混合分離的音頻源信號和殘留信號,生成輸出音頻內(nèi)容。
在獨立權(quán)利要求、以下描述以及附圖中闡述了另外的方面。
附圖說明
通過關(guān)于附圖的實例的方式解釋實施方式,其中:
圖1總體示出了音頻內(nèi)容的再混合;
圖2示意性地示出了用于再混合音頻內(nèi)容的裝置;以及
圖3是用于再混合音頻內(nèi)容的方法的流程圖。
具體實施方式
在參考圖2和圖3詳細描述實施方式之前,作出總體解釋。
如從一開始提到的,例如,存在以光盤(CD)、磁帶、可從互聯(lián)網(wǎng)下載的音頻數(shù)據(jù)文件的形式,還有以例如存儲在數(shù)字視頻磁盤等上的視頻的聲軌的形式等的許多可用的傳統(tǒng)音頻內(nèi)容,例如,針對單聲道或者立體聲設置,傳統(tǒng)音頻內(nèi)容已混合而無需從用于產(chǎn)生音頻內(nèi)容的原始音頻源中保持原始音頻源信號。
如上所述,存在期望再混合或者上混合音頻內(nèi)容的情況或者應用。例如:
·通過相應的上混合,例如單聲道->立體聲、立體聲->5.1環(huán)繞聲等,產(chǎn)生比原始音頻內(nèi)容更高的空間環(huán)繞聲;
·通過再混合(例如立體聲->立體聲)改變所感知的音頻源的空間位置;
·通過再混合(例如立體聲->立體聲)改變所感知的音頻源的響度;
或其任何組合等。
目前,由于不同音頻源的波重疊并且互相干涉,將混合的音頻內(nèi)容解混合(demixing)是困難的任務。在沒有每一個音頻源的聲波的原始信息的情況下,幾乎不可能針對音頻源中的每一個提取混合音頻源的原始波。
通常,存在用于分離源的技術(shù),但是通常,通過(再)混合利用這種技術(shù)分離的音頻源而產(chǎn)生的音頻內(nèi)容的質(zhì)量差。
在一些實施方式中,用于再混合、上混合和/或下混合音頻內(nèi)容中的混合音頻源的方法包括:接收表示混合音頻源的輸入音頻內(nèi)容;分離混合音頻源,從而獲得分離的音頻源信號和殘留信號;并且例如,基于空間信息、基于抑制音頻源(例如樂器)和/或基于增加/減小音頻源(例如樂器)的振幅,通過混合分離的音頻源信號和殘留信號生成輸出音頻內(nèi)容。
在下文中,術(shù)語再混合、上混合以及下混合可以指基于分離的音頻源信號生成輸出音頻內(nèi)容的整個處理,其中分離的音頻源信號來源于混合的輸入音頻內(nèi)容,而術(shù)語“混合”可以指混合分離的音頻源信號。因此,“混合”分離的音頻源信號可以導致“再混合”、“上混合”或者“下混合”輸入音頻內(nèi)容的混合音頻源。
在下文中,出于圖示的目的,方法還將參考圖1解釋。
輸入音頻內(nèi)容可以包括多個(一個、兩個及以上)音頻信號,其中,每一個音頻信號對應于一個信道。例如,圖1示出具有第一信道輸入音頻信號1a和第二信道輸入音頻信號1b的立體聲輸入音頻內(nèi)容1,而本公開不限于輸入音頻內(nèi)容具有兩個音頻信道,而是輸入音頻內(nèi)容可以包括任意數(shù)量的信道。在下文中,輸入音頻內(nèi)容的音頻信道的數(shù)量也稱為“Min”。因此,針對圖1的實例,輸入音頻內(nèi)容1具有兩個信道,Min=2。
輸入音頻內(nèi)容可以是任意類型。其可以是以模擬信號、數(shù)字信號的形式,其可以來源于光盤、數(shù)字視頻磁盤等,其可以是數(shù)據(jù)文件,諸如波文件、mp3文件等,并且本公開不限于輸入音頻內(nèi)容的具體格式。
如圖1中還示出,輸入音頻內(nèi)容表示多個混合音頻源,其中輸入音頻內(nèi)容1包括音頻源1、2、…、K,其中,K是整數(shù)并且表示音頻源的數(shù)量。
音頻源可以是產(chǎn)生聲波的任何實體,例如樂器、語音、歌聲(vocals)、(例如來源于合成器的)人工生成聲音等。音頻源由輸入音頻內(nèi)容(例如,通過其相應的記錄的聲波)表示。對于具有超過一個音頻信道的輸入音頻內(nèi)容,諸如立體聲輸入音頻內(nèi)容或者環(huán)繞聲輸入音頻內(nèi)容,音頻源的空間信息也可以包括在輸入音頻內(nèi)容內(nèi)或者通過輸入音頻內(nèi)容表示,例如通過包括在表示相應音頻信道的不同的音頻信號內(nèi)的每一個音頻源的不同聲波表示。
輸入音頻內(nèi)容表示或者包括混合音頻源,這意味著聲音信息并不是分離地可用于輸入音頻內(nèi)容的所有音頻源,而是例如,針對不同音頻源的聲音信息至少部分地重疊或者混合。
在圖1的圖片中,這意味著K個音頻源混合并且音頻信號1a和音頻信號1b中的每一個可以包括K個音頻源的混合,即K個音頻源中的每一個的聲波的混合。
混合音頻源(圖1中1、…、K)分離(也稱為“解混合”)為分離的音頻源信號,其中,例如,針對混合音頻源中的每一個音頻源生成分離的音頻源信號。例如,由于混合音頻源并且缺乏針對混合音頻源中的每一個音頻源的聲音信息,音頻源信號的分離是不完美的,因此,除了分離的音頻源信號之外生成殘留信號。
如本文中使用的術(shù)語“信號”不限于任何具體格式,并且其可以是模擬信號、數(shù)字信號或存儲在數(shù)據(jù)文件中的信號或任何其他格式。
殘留信號可以表示輸入音頻內(nèi)容與所有分離的音頻源信號的和之間的差值。
這在圖1中同樣可視,在圖1的具體實例中,其中輸入音頻內(nèi)容1的K個源分離為多個分離的音頻源信號1、…、L,其中,分離的音頻源信號1、…、L的全體由參考標號2表示并且第一個分離的音頻源信號1由參考標號2a表示、第二個分離的音頻源信號2由參考標號2b表示,以及第L個分離的音頻源信號L由參考標號2d表示。如所提到的,輸入音頻內(nèi)容的分離是不完美的,并且因此,除了L個分離的音頻源信號之外,生成在圖1中由參考標號3表示的殘留信號r(n)。
源的數(shù)量K和分離的音頻源信號的數(shù)量L可以不同。例如,這可以是當僅提取一個音頻源信號,而(所有)其他源由殘留信號表示時的情況。針對L小于K的情況的另一實例是其中提取的音頻源信號表示源組。例如,源組可以表示包括相同類型的樂器(例如小提琴組)的組。在這種情況下,可能不可能和/或不期望針對音頻源組的個體(例如小提琴組中的單個小提琴)提取音頻源信號,但是可能足以分離表示源組的一個音頻源信號。例如,在源組(例如,如果是小提琴組)位于一個空間位置的情況下,這對于輸入音頻內(nèi)容會是有用的。
可以基于己知的盲源分離(也稱為“BSS”)或者能夠分離音頻源的其他技術(shù),執(zhí)行將輸入音頻內(nèi)容分離為分離的音頻源信號。盲源分離允許在沒有關(guān)于(音頻)源信號或者混合處理的信息的幫助下,從混合的(音頻)信號分離(音頻)源信號。盡管一些實施方式使用盲源分離用于生成分離的音頻源信號,但是本公開不限于其中沒有另外的信息用于分離音頻源信號的實施方式,而是在一些實施方式中,另外的信息用于生成分離的音頻源信號。例如,這種另外的信息可以是關(guān)于混合處理的信息、關(guān)于輸入音頻內(nèi)容中包括的音頻源的類型的信息、關(guān)于輸入音頻內(nèi)容中包括的音頻源的空間位置的信息等。
在(盲)源分離中,搜索在概率意義或者信息論意義上最小相關(guān)或者最大獨立的源信號,或者基于音頻源信號上的非負矩陣分解結(jié)構(gòu)約束可以找到源信號。例如,己知的用于執(zhí)行(盲)源分離的方法基于主成分分析、奇異值分解、獨立分量分析、非負矩陣分解等。
基于分離的音頻源信號和殘留信號,基于空間信息、抑制音頻源(例如樂器)以及減小/增加音頻源(例如樂器)的振幅中的至少一個,通過混合分離的音頻源信號和殘留信號生成輸出音頻內(nèi)容。
在圖1中示例性示出輸出音頻內(nèi)容并且輸出音頻內(nèi)容由參考標號4表示。輸出音頻內(nèi)容表示基于分離的音頻源信號和殘留信號的音頻源1、2、…、K。如圖1所示,輸出音頻內(nèi)容可以包括多個音頻信道信號,其中輸出音頻內(nèi)容4包括五個音頻輸出信道信號4a至4d。在下文中,輸出音頻內(nèi)容中包括的音頻信道的數(shù)量也稱為“Mout”,并且因此,在圖1的示例性情況下,Mout=5。
在圖1的實例中,輸入音頻內(nèi)容1的音頻信道的數(shù)量Min=2小于輸出音頻內(nèi)容4的音頻信道的數(shù)量Mout=5,因此,從立體聲輸入音頻內(nèi)容1上混合至5.1環(huán)繞聲輸出音頻內(nèi)容4。
通常,在輸入音頻內(nèi)容的音頻信道的數(shù)量Min等于輸出音頻內(nèi)容的音頻信道的數(shù)量Mout(即Min=Mout)的情況下混合分離的音頻源信號的處理可以稱為“再混合”,而在輸入音頻內(nèi)容的音頻信道的數(shù)量Min小于輸出音頻內(nèi)容的音頻信道的數(shù)量Mout(即Min<Mout)的情況下混合分離的音頻源信號的處理可以稱為“上混合”,并且在輸入音頻內(nèi)容的音頻信道的數(shù)量Min大于輸出音頻內(nèi)容的音頻信道的數(shù)量Mout(即Min>Mout)的情況下混合分離的音頻源信號的處理可以稱為“下混合”。本公開不限于音頻信道的具體數(shù)量;各種再混合、上混合以及下混合可以實現(xiàn)。
如所提到的,基于空間信息(圖1和圖2中,也稱為“SI”)生成輸出音頻內(nèi)容。例如,空間信息可以包括由分離的音頻源信號表示的相應音頻源的位置信息。位置信息可以指收聽音頻內(nèi)容的虛擬用戶的位置。本領(lǐng)域內(nèi)這種虛擬用戶的位置也稱為“最佳聽音位置”。在一些實施方式中,空間信息也可以從輸入音頻內(nèi)容推導。例如,輸入音頻內(nèi)容中包括的平移信息可以用作空間信息。此外,在一些實施方式中,用戶可以經(jīng)由界面例如圖形用戶界面選擇位置信息。然后例如,用戶可以在具體位置放置音頻源(例如,在左前方位置放置小提琴等)。
例如,作為技術(shù)人員通常己知的,第一音頻源可以位于這種最佳聽音位置的前方,第二音頻源可以位于左角落,第三音頻源位于右角落等。因此,在一些實施方式中,生成輸出音頻內(nèi)容包括將空間位置分配至分離的音頻源信號中的每一個,使得當在最佳聽音位置收聽輸出音頻內(nèi)容時,在所分配的空間位置處感知相應的音頻源。
為了基于空間信息生成輸出音頻內(nèi)容,可以實現(xiàn)任何己知的空間渲染方法,例如,矢量基振幅平移(“VBAP”)、波場合成、高保真度立體聲響復制(ambisonics)等。
同樣如上所示,在一些實施方式中,輸入音頻內(nèi)容包括多個輸入音頻信號(例如圖1中,Min=2的音頻信號1a和音頻信號1b),每一個輸入音頻信號表示一個音頻信道。生成輸出音頻內(nèi)容可以包括混合分離的音頻源信號(例如圖1中,分離的音頻源信號2a至2d),使得輸出音頻內(nèi)容包括多個輸出音頻信號,每一個輸出音頻信號表示一個音頻信道(諸如圖1中,輸出音頻信號4a至4d),其中,輸出音頻信號的數(shù)量Mout大于或等于輸入音頻信號的數(shù)量Min。輸出音頻信號的數(shù)量Mout也可以低于輸入音頻信號的數(shù)量Min。
如以下將更加詳細解釋,在一些實施方式中,調(diào)節(jié)分離的音頻源信號中的每一個的振幅,從而最小化殘留信號的能量或者振幅。
在一些實施方式中,生成輸出音頻內(nèi)容包括將空間位置分配至殘留信號,使得,例如,輸出音頻內(nèi)容包括關(guān)于最佳聽音位置在預定空間位置處的混合殘留信號。例如,空間位置可以是虛擬房間的中心或者任何其他位置。在一些實施方式中,殘留信號也可以視為又一個分離的音頻源信號。
在一些實施方式中,生成輸出音頻內(nèi)容包括,基于分離的音頻源信號的數(shù)量將殘留信號劃分為多個分頻殘留信號并且將分頻殘留信號分別添加至分離的音頻源信號。因此,殘留信號可以均等地分布至分離的音頻源信號。
例如,在分離的源信號數(shù)量為L的情況下,權(quán)重可以計算為
從而獲得數(shù)量為L的分頻殘留信號r1(n)、r2(n)、…、rL(n),每一個信號具有權(quán)重因子
因此,在這個實施方式中,分頻殘留信號具有相同的權(quán)重。
由于殘留信號分布至所有分離的音頻源信號,在利用距最佳聽音位置有不同距離的揚聲器播放輸出音頻內(nèi)容的情況下,殘留信號的時間延遲將不明顯。在這種實施方式中,殘留信號以時間變量方式由所有分離的音頻源信號共享。
在一些實施方式中,分頻殘留信號中的每一個具有可變權(quán)重,例如時間依賴。在一些實施方式中,分頻殘留信號中的每一個具有一個可變權(quán)重,其中,不同的分頻殘留信號的權(quán)重彼此不同。
可變權(quán)重中的每一個可以取決于如下中的至少一個:相關(guān)的分離的音頻源信號的當前內(nèi)容,相關(guān)的分離的音頻信號的先前內(nèi)容以及相關(guān)的分離的音頻信號的未來內(nèi)容。
每一個可變權(quán)重與要添加相應的分頻殘留信號的相應的分離的音頻源信號相關(guān)聯(lián)。例如,分離的音頻源信號可以以時間幀或者任何其他時間依賴塊劃分。因此,分離的音頻源信號的當前內(nèi)容可以是分離的音頻源信號的當前時間幀的內(nèi)容,分離的音頻源信號的先前內(nèi)容可以是分離的音頻源信號的一個或多個先前時間幀的內(nèi)容(時間幀不需要彼此連續(xù)),并且分離的音頻源信號的未來內(nèi)容可以是在分離的音頻源信號的當前幀之后的一個或多個未來時間幀的內(nèi)容(時間幀不需要彼此連續(xù))。
在可變權(quán)重取決于相關(guān)的分離的音頻信號的未來內(nèi)容的實施方式中,可以以非實時方式進行生成輸出音頻內(nèi)容,并且例如,分離的音頻源信號存儲在用于處理的存儲器中。
此外,可變權(quán)重也可以以模擬方式取決于殘留信號的當前內(nèi)容、殘留信號的先前內(nèi)容以及殘留信號的未來內(nèi)容中的至少一個。
可以對可變權(quán)重和/或加權(quán)的分頻殘留信號進行低通濾波以避免由于時變權(quán)重而造成的明顯的失真。
因此,在一些實施方式中,能夠添加更多殘留信號至其最可能屬于的相應的分離的音頻源信號。
例如,可變權(quán)重可以與相關(guān)的分離的音頻源信號的能量(例如振幅)成比例。因此,能量(或者振幅)隨相關(guān)的分離的音頻源信號的能量(例如振幅)相應地變化,即相關(guān)的分離的音頻源信號“越強”,相關(guān)的可變權(quán)重就越大。換言之,殘留信號基本上屬于具有最高能量的分離的音頻源信號。
可變權(quán)重還可取決于殘留信號與相關(guān)的分離的音頻源信號之間的相關(guān)性。例如,可變權(quán)重可以取決于當前時間幀的殘留信號與先前時間幀或未來時間幀的相關(guān)的分離的音頻源信號之間的相關(guān)性??勺儥?quán)重可以與通過當前時間幀的殘留信號與先前時間幀或未來時間幀的相關(guān)的分離的音頻源信號之間的相關(guān)而獲得的平均相關(guān)值或者最大相關(guān)值成比例。在計算與相關(guān)的分離的音頻源信號的未來時間幀的相關(guān)性的情況下,例如,計算可以基于存儲的殘留信號和音頻源信號以非實時方式執(zhí)行。
在其他實施方式中,還可以實時地執(zhí)行(可變)權(quán)重的計算。
參考圖1,現(xiàn)在針對具體的數(shù)學辦法解釋以上描述的方法,而本公開不限于這個具體辦法。
如所提到的,輸入音頻內(nèi)容(1,圖1)可以分離為或者解混合為數(shù)量為“L”的分離的音頻源在下文中也稱為從原始輸入音頻內(nèi)容中“分離”,其中“M”表示分離s1(n)的音頻信道的數(shù)量并且n表示離散時間。通常,分離s1(n)的音頻信道的數(shù)量M將等于輸入音頻內(nèi)容x(n)的音頻信道的數(shù)量Min。當音頻信道的數(shù)量大于一時分離s1(n)和輸入音頻內(nèi)容x(n)是矢量。
如所討論的,可以利用任何合適的源分離方法完成將輸入音頻內(nèi)容1分離為L個分離的音頻源信號2a至2d,并且其可以利用任意種分離法則完成。
出于清晰和簡單而不限制本公開于這方面的目的,在下文中假設樂器作為音頻源完成分離(其中,歌聲視為樂器),使得例如,s1(n)可以是吉他、s2(n)可以是鍵盤等。
接下來,如果需要的話,即在Min和/或M大于一的情況下,輸入音頻內(nèi)容還有分離的音頻源信號可以通過任何己知技術(shù)轉(zhuǎn)換為單信道格式即單聲道。在一些實施方式中,通常,輸入音頻內(nèi)容和分離的音頻源信號轉(zhuǎn)換為單聲道格式用于進一步處理。
因此,矢量“分離的音頻源”s1(n)和“輸入音頻內(nèi)容”x(n)轉(zhuǎn)換為標量:
因此,例如,獲得如圖1所示的L個分離的音頻源信號2a至2d。
接下來,同樣如以上提到的,調(diào)節(jié)分離的音頻源信號s1(n)(現(xiàn)在是單聲道格式)中的每一個的平均振幅以最小化殘留信號的能量。在一些實施方式中,這通過解以下最小平方問題完成:
為了取消不同的分離sl(n)之間的時間延遲,在一些實施方式中可以估計時移使得
最小化。
因此,可以通過從單聲道型輸入音頻信號x(n)中減去所有的L個分離的音頻源信號sl(n)(l=1、…、L)計算殘留信號r(n),其中,分離的音頻源信號中的每一個利用與其相關(guān)的調(diào)節(jié)的平均振幅加權(quán):
然后,例如,通過將其添加至調(diào)幅的分離的音頻源信號或者如上所述的任何其他方法,殘留信號r(n)可以結(jié)合(混合)到輸出音頻內(nèi)容中。
這同樣在圖1中示出,其中殘留信號r(n)和調(diào)幅的分離的音頻源信號基于空間信息“SI”利用己知的空間渲染方法混合,以便生成針對每一個音頻信道包含多個Mout音頻信號4a至4d的輸出音頻內(nèi)容4,其中,輸出音頻內(nèi)容4中的每一個音頻信號4a至4d包括如上所述混合的分離的音頻源信號2a至2d。因此,輸出音頻內(nèi)容4表示輸入音頻內(nèi)容1的K個音頻源。
在一些實施方式中,裝置包括配置為執(zhí)行本文中所描述的方法(具體如上所述)的一個或多個處理器。
在一些實施方式中,配置為執(zhí)行本文中所描述的方法(具體如上所述)的裝置,包括:音頻輸入,配置為接收表示混合音頻源的輸入音頻內(nèi)容;源分離器,配置為分離混合音頻源,從而獲得分離的音頻源信號和殘留信號;以及音頻輸出發(fā)生器,配置為基于空間信息通過混合分離的音頻源信號和殘留信號生成輸出音頻內(nèi)容。
在一些實施方式中,同樣如上所述,輸入音頻內(nèi)容包括多個輸入音頻信號,每一個輸入音頻信號表示一個音頻信道,并且其中,音頻輸出發(fā)生器進一步配置為混合分離的音頻源信號使得輸出音頻內(nèi)容包括多個輸出音頻信號,每一個輸出音頻信號表示一個音頻信道,其中,輸出音頻信號的數(shù)量大于或等于輸入音頻信號的數(shù)量。
如上所述,裝置可以進一步包括配置為調(diào)節(jié)分離的音頻源信號的振幅調(diào)節(jié)器,從而最小化殘留信號的振幅。
如上所述,在一些實施方式中,音頻輸出發(fā)生器進一步配置為將空間位置分配至分離的音頻源信號和/或殘留信號中的每一個。
如上所述,音頻輸出發(fā)生器可以進一步配置為基于分離的音頻源信號的數(shù)量將殘留信號劃分為多個分頻殘留信號,并且將分頻殘留信號分別添加至分離的音頻源信號。
在一些實施方式中,如上所述,分頻殘留信號具有相同的權(quán)重和/或它們具有可變權(quán)重。
如上所述,可變權(quán)重和/或殘留信號可以取決于如下中的至少一個:相關(guān)的分離的音頻信號的當前內(nèi)容、相關(guān)的分離的音頻信號的先前內(nèi)容以及相關(guān)的分離的音頻信號的未來內(nèi)容,并且可變權(quán)重可以與相關(guān)的分離的音頻源信號的能量成比例,和/或與殘留信號及相關(guān)的分離的音頻源信號之間的相關(guān)性成比例。
裝置可以是環(huán)繞聲系統(tǒng)、音頻播放器、音頻視頻接收器、電視、計算機、便攜式設備(智能手機、膝上型電腦等)、游戲機等。
輸出音頻內(nèi)容可以是任何格式,即模擬/數(shù)字信號、數(shù)據(jù)文件等,并且其可以包括任何類型的音頻信道格式,諸如單聲道、立體聲、3.1、5.1、6.1、7.1、7.2環(huán)繞聲等。
在一些實施方式中,通過使用殘留信號,即使在分離為分離的音頻源信號導致聲音品質(zhì)劣化的情況下,與沒有殘留信號相比,輸出音頻內(nèi)容包含更少的偽影和/或至少被收聽者所感知的更少的偽影。
此外,在一些實施方式中,不需要另外的關(guān)于混合處理和/或輸入音頻內(nèi)容的源的信息。
返回至圖2,示出了以5.1環(huán)繞聲系統(tǒng)形式的裝置10,其在下文中稱為“聲音系統(tǒng)10”。
聲音系統(tǒng)10具有用于接收輸入音頻信號5的輸入11。在本實例中,輸入音頻信號是立體聲格式并且具有左信道輸入音頻信號5a和右信道輸入音頻信號5b,5a和5b各自包括示例性的四個源1至4,源是純用于圖示目的的歌聲源1、吉他源2、貝斯源3以及鼓源4。
輸入11實現(xiàn)為立體聲束帶插頭(cinch plug)輸入,并且例如,其從光盤播放器(未示出)接收輸入音頻內(nèi)容5。
輸入音頻內(nèi)容5的兩個輸入音頻信號5a和5b饋入到聲音系統(tǒng)10的源分離器12中,源分離器12執(zhí)行如以上討論的源分離。
源分離器12針對輸入音頻內(nèi)容的四個源中的每一個生成作為輸出的四個分離的音頻源信號6,即用針對歌聲的第一分離的音頻源信號6a、針對吉他的第二分離的音頻源信號6b、針對貝斯的第三分離的音頻源信號6c以及針對鼓的第四分離的音頻源信號6d。
如上所述,兩個輸入音頻源信號5a和5b還有分離的音頻源信號6饋入到聲音系統(tǒng)10的單聲道轉(zhuǎn)換器13中,單聲道轉(zhuǎn)換器13將兩個輸入音頻源信號5a和5b還有分離的音頻源信號6轉(zhuǎn)換為單信道(單聲道)格式。
為了將兩個輸入音頻源信號5a和5b饋送至單聲道轉(zhuǎn)換器13,輸入11耦接至單聲道轉(zhuǎn)換器,而本公開不限于這方面。例如,兩個輸入音頻源信號5a和5b還可以通過源分離器12饋入至單聲道轉(zhuǎn)換器13。
如上所述,單聲道型分離的音頻源信號饋入到聲音系統(tǒng)10的振幅調(diào)節(jié)器14中,振幅調(diào)節(jié)器14調(diào)節(jié)并且平均分離的音頻源信號的振幅。另外,如上所述,振幅調(diào)節(jié)器14取消分離的音頻源信號之間的任何時移。
如上所述,振幅調(diào)節(jié)器14還從單聲道型輸入音頻信號中減去所有的調(diào)幅的分離的音頻源信號,計算殘留信號7。
從而獲得的殘留信號7饋入到輸出音頻內(nèi)容發(fā)生器16的分頻器16中,并且調(diào)幅的分離的音頻源信號饋入到輸出音頻內(nèi)容發(fā)生器16的混合器18中。
分頻器16將殘留信號7劃分為對應于分離的源信號的數(shù)量的多個分頻殘留信號,在本情況下該數(shù)量是四。
分頻殘留信號饋入到輸出音頻內(nèi)容發(fā)生器16的權(quán)重單元17中,權(quán)重單元17針對分頻殘留信號計算權(quán)重并且將權(quán)重添加至分頻殘留信號。
在本實施方式中,權(quán)重單元17根據(jù)以上描述的公式即計算權(quán)重,當L=4時在本情況下權(quán)重結(jié)果是1/2。當然,在其他實施方式中,權(quán)重單元17和輸出音頻內(nèi)容發(fā)生器16可以分別適配為執(zhí)行用于計算權(quán)重(諸如以上討論的可變權(quán)重)的任何其他的方法。
如上所述,由此得到的權(quán)重分頻殘留信號也饋入混合器18中,混合器18基于空間信息SI并且基于己知的空間渲染方法,混合調(diào)幅的分離的音頻源信號和權(quán)重分頻殘留信號。
空間信息SI包括表示四個源歌聲、吉他、貝斯以及鼓的四個分離的音頻源信號中的每一個的空間位置。如所討論的,在其他實施方式中,空間信息SI還可以包括殘留信號的空間位置,例如,如以上討論的在殘留信號視為另一個源的情況下。
因此,輸出音頻內(nèi)容發(fā)生器16生成輸出音頻內(nèi)容8,輸出音頻內(nèi)容8經(jīng)由聲音系統(tǒng)10的輸出19輸出。
輸出音頻內(nèi)容8是以5.1環(huán)繞聲格式并且其具有五個音頻信道信號8a至8d,每一個音頻信道信號包括混合的源歌聲、吉他、貝斯以及鼓,音頻信道信號可以從輸出19饋入至相應的揚聲器(未示出)。
應當注意,將聲音系統(tǒng)10劃分為單元11至單元19僅用于圖示的目的并且本公開不限于具體單元中的功能的具體劃分。例如,聲音系統(tǒng)10可以至少部分通過相應的編程處理器、現(xiàn)場可編程門陣列(FPGA)等實現(xiàn)。
用于生成輸出音頻內(nèi)容的方法30,例如,其可以通過以上討論的聲音系統(tǒng)10執(zhí)行,在下文中并參考圖3描述該方法。該方法也可以實現(xiàn)為當在計算機和/或處理器上執(zhí)行時促使計算機和/或處理器執(zhí)行該方法的計算機程序。在一些實施方式中,還設置在其中存儲計算機程序產(chǎn)品的非瞬時性計算機可讀記錄介質(zhì),當通過處理器(諸如以上描述的處理器)執(zhí)行時,計算機程序產(chǎn)品促使執(zhí)行所描述的方法。
在31處,接收包括輸入音頻信號的輸入音頻內(nèi)容,諸如如上所述的輸入音頻內(nèi)容1或5。
如上所述,在32處,輸入音頻內(nèi)容中包括的混合音頻源分離為分離的音頻源信號。
如上所述,在33處,輸入音頻信號和分離的音頻源信號轉(zhuǎn)換為單信道格式即單聲道。
如上所述,在34處調(diào)節(jié)分離的音頻源信號的振幅,并且在35處通過從單聲道型輸入音頻信號中減去調(diào)幅的分離的音頻源信號的和,計算最終殘留信號。
如上所述,在36處最終殘留信號基于分離的音頻源信號的數(shù)量劃分為分頻殘留信號,并且在37處計算分頻殘留信號的權(quán)重。
如上所述,在38處,空間位置分配至分離的音頻源信號。
在39處基于權(quán)重分頻殘留信號、調(diào)幅的分離的音頻源信號以及空間信息,生成輸出音頻內(nèi)容諸如輸出音頻內(nèi)容4或輸出音頻內(nèi)容8(分別在圖1和圖2中)。
在一些實施方式中,如本文中所描述的方法也實現(xiàn)為當在計算機和/或處理器上執(zhí)行時促使計算機和/或處理器執(zhí)行該方法的計算機程序。在一些實施方式中,還設置在其中存儲計算機程序產(chǎn)品的非瞬時性計算機可讀記錄介質(zhì),當通過處理器(諸如以上描述的處理器)執(zhí)行時,計算機程序產(chǎn)品促使執(zhí)行本文中所描述的方法。
如果不另外陳述,例如,本說明書中描述的以及所附權(quán)利要求中要求保護的所有單元和實體可以在芯片上實現(xiàn)為集成電路邏輯,并且如果不另外陳述,由這樣的單元和實體提供的功能性可以通過軟件實現(xiàn)。
迄今為止,以上描述的本公開的實施方式至少部分使用軟件控制的數(shù)據(jù)處理裝置實現(xiàn),將認識到,設置這種軟件控制的計算機程序以及提供這種計算機程序的傳輸、存儲或者其他介質(zhì)設想為本公開的方面。
應當注意,本技術(shù)也可以如以下描述配置。
(1)一種方法,包括:
接收表示混合音頻源的輸入音頻內(nèi)容;
分離混合音頻源,從而獲得分離的音頻源信號和殘留信號;以及
通過混合分離的音頻源信號和殘留信號,生成輸出音頻內(nèi)容。
(2)根據(jù)(1)的方法,其中,基于空間信息執(zhí)行輸出音頻內(nèi)容的生成。
(3)根據(jù)(1)或(2)的方法,其中,輸入音頻內(nèi)容包括多個輸入音頻信號,每一個輸入音頻信號表示一個音頻信道,并且其中,生成輸出音頻內(nèi)容包括混合分離的音頻源信號使得輸出音頻內(nèi)容包括多個輸出音頻信號,每一個輸出音頻信號表示一個音頻信道,其中,輸出音頻信號的數(shù)量大于或等于輸入音頻信號的數(shù)量。
(4)根據(jù)(1)至(3)中任一項的方法,進一步包括調(diào)節(jié)分離的音頻源信號的振幅,從而最小化殘留信號的振幅。
(5)根據(jù)(1)至(4)中任一項的方法,其中,生成輸出音頻內(nèi)容包括將空間位置分配至分離的音頻源信號中的每一個。
(6)根據(jù)(1)至(5)中任一項的方法,其中,生成輸出音頻內(nèi)容包括將空間位置分配至殘留信號。
(7)根據(jù)(1)至(6)中任一項的方法,其中,生成輸出音頻內(nèi)容包括基于分離的音頻源信號的數(shù)量將殘留信號劃分為多個分頻殘留信號,并且將分頻殘留信號分別添加至分離的音頻源信號。
(8)根據(jù)(7)的方法,其中,分頻殘留信號具有相同的權(quán)重。
(9)根據(jù)(7)的方法,其中,分頻殘留信號具有可變權(quán)重。
(10)根據(jù)(9)的方法,其中,可變權(quán)重取決于如下中的至少一個:相關(guān)的分離的音頻源信號的當前內(nèi)容、相關(guān)的分離的音頻源信號的先前內(nèi)容以及相關(guān)的分離的音頻源信號的未來內(nèi)容。
(11)根據(jù)(9)或(10)的方法,其中,可變權(quán)重與相關(guān)的分離的音頻源信號的能量成比例。
(12)一種裝置,包括:
音頻輸入,配置為接收表示混合音頻源的輸入音頻內(nèi)容;
源分離器,配置為分離混合音頻源,從而獲得分離的音頻源信號和殘留信號;以及
音頻輸出發(fā)生器,配置為通過混合分離的音頻源信號和殘留信號生成輸出音頻內(nèi)容。
(13)根據(jù)(12)的裝置,其中,音頻輸出發(fā)生器配置為基于空間信息,通過混合分離的音頻源信號和殘留信號生成輸出音頻內(nèi)容。
(14)根據(jù)(12)或(13)的裝置,其中,輸入音頻內(nèi)容包括多個輸入音頻信號,每一個輸入音頻信號表示一個音頻信道,并且其中,音頻輸出發(fā)生器進一步配置為混合分離的音頻源信號使得輸出音頻內(nèi)容包括多個輸出音頻信號,每一個輸出音頻信號表示一個音頻信道,其中,輸出音頻信號的數(shù)量大于或等于輸入音頻信號的數(shù)量。
(15)根據(jù)(12)至(14)中任一項的裝置,進一步包括配置為調(diào)節(jié)分離的音頻源信號的振幅調(diào)節(jié)器,從而最小化殘留信號的振幅。
(16)根據(jù)(12)至(15)中任一項的裝置,其中,音頻輸出發(fā)生器進一步配置為將空間位置分配至分離的音頻源信號中的每一個。
(17)根據(jù)(12)至(16)中任一項的裝置,其中,音頻輸出發(fā)生器進一步配置為將空間位置分配至殘留信號。
(18)根據(jù)(12)至(17)中任一項的裝置,其中,音頻輸出發(fā)生器進一步配置為基于分離的音頻源信號的數(shù)量將殘留信號劃分為多個分頻殘留信號,并且將分頻殘留信號分別添加至分離的音頻源信號。
(19)根據(jù)(18)的裝置,其中,分頻殘留信號具有相同的權(quán)重。
(20)根據(jù)(18)的裝置,其中,分頻殘留信號具有可變權(quán)重。
(21)根據(jù)(20)的裝置,其中,可變權(quán)重取決于如下中的至少一個:相關(guān)的分離的音頻源信號的當前內(nèi)容、相關(guān)的分離的音頻源信號的先前內(nèi)容以及相關(guān)的分離的音頻源信號的未來內(nèi)容。
(22)根據(jù)(20)或(21)的裝置,其中,可變權(quán)重與相關(guān)的分離的音頻源信號的能量成比例。
(23)包括程序代碼的計算機程序,當在計算機上執(zhí)行時促使計算機執(zhí)行根據(jù)(1)至(11)中任一項的方法。
(24)在其中存儲計算機程序產(chǎn)品的非瞬時性計算機可讀記錄介質(zhì),當通過處理器執(zhí)行時,計算機程序產(chǎn)品促使執(zhí)行根據(jù)(1)至(11)中任一項的方法。
(25)包括至少一個處理器的裝置,處理器配置為執(zhí)行根據(jù)(1)至(11)中任一項的方法。