欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

處理音頻數(shù)據(jù)的設(shè)備和方法,計(jì)算機(jī)程序單元和計(jì)算機(jī)可讀介質(zhì)的制作方法

文檔序號(hào):7949684閱讀:219來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):處理音頻數(shù)據(jù)的設(shè)備和方法,計(jì)算機(jī)程序單元和計(jì)算機(jī)可讀介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種音頻數(shù)據(jù)處理設(shè)備。
本發(fā)明還涉及一種處理音頻數(shù)據(jù)的方法。
而且,本發(fā)明涉及一種程序單元。
本發(fā)明還涉及一種計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù)
當(dāng)前很多音頻記錄能夠以立體聲或以所謂的5.1-環(huán)繞聲格式獲得。為了重放這些記錄,在立體聲的情況下需要兩個(gè)揚(yáng)聲器,在5.1-環(huán)繞聲的情況下需要六個(gè)揚(yáng)聲器,除此之外還需要特定的標(biāo)準(zhǔn)揚(yáng)聲器設(shè)置(set-up)。
但是,在很多實(shí)際情況下,揚(yáng)聲器的數(shù)量或設(shè)置不符合實(shí)現(xiàn)高質(zhì)量音頻重放的要求。由于上述原因,已經(jīng)開(kāi)發(fā)了音頻再分配系統(tǒng)。這樣的音頻再分配系統(tǒng)具有N個(gè)輸入通道和M個(gè)輸出通道。這樣,就可能有三種情況在第一種情況下,M大于N。這意味著使用比保存的音頻通道更多的揚(yáng)聲器來(lái)重放。
在第二種情況下,M等于N。在這種情況下,存在相同數(shù)量的輸入和輸出通道。但是,用于重放輸出的揚(yáng)聲器設(shè)置與作為輸入提供的數(shù)據(jù)不一致,這時(shí)需要再分配。
按照第三種情形,M小于N。在這種情況下,可獲得的音頻通道比重放通道更多。
第一種情況的一個(gè)例子是從立體聲轉(zhuǎn)換到5.1-環(huán)繞聲。已知的這種類(lèi)型的系統(tǒng)是Dolby Pro LogicTM(見(jiàn)Gundry,Kenneth“A new activematrix decoder for surround sound”,In Proc.AES,19thInternational Conference on Surround Sound,2001年6月)和CircleSurroundTM(見(jiàn)US 6,198,8275-2-5矩陣系統(tǒng))。另一個(gè)這種類(lèi)型的技術(shù)在US 6,496,584中公開(kāi)。
第二種情況的一個(gè)例子是在5.1-系統(tǒng)中通過(guò)把中央信號(hào)加入到左和右通道中提高對(duì)中央揚(yáng)聲器的寬度。這在Dolby Pro Logic IITM的音樂(lè)模式中實(shí)現(xiàn)。另一個(gè)例子是立體聲-加寬,其中使用了小的揚(yáng)聲器基數(shù)(例如在電視系統(tǒng)中)。為此,在PhilipsTM公司內(nèi),已經(jīng)開(kāi)發(fā)了一種稱(chēng)為Incredible StereoTM的技術(shù)。
在第三種情況下,應(yīng)用了所謂的下-混合。這種下-混合能夠以一種智能的方式完成以盡可能地保持原始空間圖像。這種技術(shù)的一個(gè)例子是來(lái)自PhilipsTM公司的Incredible Surround SoundTM,其中在兩個(gè)揚(yáng)聲器上重放5.1-環(huán)繞聲音頻。
對(duì)于上述例子中提到的再分配已知兩種不同的方案。第一,再分配可以基于固定的矩陣。第二,再分配可以由諸如相關(guān)性的通道間特性來(lái)控制。
像Incredible StereoTM的技術(shù)是第一種情況的一個(gè)例子。這種方案的缺點(diǎn)是像語(yǔ)音信號(hào)這種在中央上掃調(diào)(pan)的某種音頻信號(hào)受到負(fù)面影響,即從而再現(xiàn)音頻的質(zhì)量可能不夠。為了防止音頻質(zhì)量的這種惡化,開(kāi)發(fā)了一種基于兩個(gè)通道之間的相關(guān)性的新技術(shù)(見(jiàn)WO03/049497A2)。這項(xiàng)技術(shù)假定在中央上掃調(diào)的語(yǔ)音在左和右通道之間具有強(qiáng)相關(guān)性。
Dolby Pro Logic IITM基于通道間特性再分配輸入信號(hào)。但是,DolbyPro Logic IITM具有兩種不同的模式,電影和音樂(lè)。取決于用戶選擇了哪種設(shè)置提供不同的再分配??梢允褂眠@些不同的模式,因?yàn)椴煌囊纛l內(nèi)容具有不同的優(yōu)化設(shè)置。例如,對(duì)于電影,通常希望只在中央通道具有語(yǔ)音,但是對(duì)于音樂(lè),不希望只在中央通道有聲樂(lè)(vocal);這里最好有一個(gè)錯(cuò)覺(jué)上的中央聲源。
這樣看來(lái),涉及再分配技術(shù)的論述的現(xiàn)有技術(shù)受到以下缺點(diǎn)的損害,即不同的設(shè)置對(duì)不同的音頻內(nèi)容各有優(yōu)勢(shì)。
JP-08037700公開(kāi)了一種聲場(chǎng)校正電路,它具有指定音樂(lè)信號(hào)的音樂(lè)類(lèi)別的音樂(lè)類(lèi)別區(qū)分部分?;谥付ǖ囊魳?lè)類(lèi)別,一模式-設(shè)置微控制器設(shè)置對(duì)應(yīng)的仿真模式。
US 2003/0210794 A1公開(kāi)了一種具有確定立體聲源的類(lèi)型的微型計(jì)算機(jī)的矩陣環(huán)繞聲解碼系統(tǒng),該微型計(jì)算機(jī)的輸出輸入到一矩陣環(huán)繞聲解碼器,用于將矩陣環(huán)繞聲解碼器的輸出模式切換到對(duì)應(yīng)于這樣確定的立體音響源的模式。
但是,按照J(rèn)P-08037700和US 2003/0210794 A1,通過(guò)一種二元型判定(“是”或“否”)評(píng)估一種音頻內(nèi)容的類(lèi)別,即考慮是否存在來(lái)自多個(gè)音頻流派中特定的一種,甚至在一個(gè)音頻剪輯具有來(lái)自不同音樂(lè)流派的元素的情況下也是這樣。這可能造成按照J(rèn)P-08037700和US 2003/0210794 A1中任一個(gè)處理的音頻數(shù)據(jù)具有較差的再現(xiàn)質(zhì)量。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供一種具有較高靈活性的音頻數(shù)據(jù)處理。
為了實(shí)現(xiàn)以上確定的目標(biāo),提供了根據(jù)獨(dú)立權(quán)利要求的一種音頻數(shù)據(jù)處理設(shè)備,一種處理音頻數(shù)據(jù)的方法,一種程序單元,和一種計(jì)算機(jī)可讀介質(zhì)。
音頻數(shù)據(jù)處理設(shè)備包括適合于基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)的音頻再分配器。而且,音頻數(shù)據(jù)處理設(shè)備包括適合于以逐步可調(diào)整(gradually sliding)取決于音頻內(nèi)容的類(lèi)型的方式產(chǎn)生逐步可調(diào)整控制信號(hào)的音頻分類(lèi)器,該控制信號(hào)用于控制音頻再分配器從第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào),第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)按照上述音頻內(nèi)容的類(lèi)型分類(lèi)。
而且,本發(fā)明提供一種處理音頻數(shù)據(jù)的方法,包括以下步驟,通過(guò)基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)來(lái)再分配音頻數(shù)據(jù)輸入信號(hào),以及將音頻數(shù)據(jù)輸入信號(hào)分類(lèi)從而以逐步可調(diào)整取決于音頻內(nèi)容的類(lèi)型的方式產(chǎn)生逐步可調(diào)整的控制信號(hào),用于控制從第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)的再分配,音頻數(shù)據(jù)輸入信號(hào)按照上述音頻內(nèi)容的類(lèi)型分類(lèi)。
除此之外,還提供一種程序單元,當(dāng)由處理器執(zhí)行該程序單元時(shí),適合于執(zhí)行包括以上提到的方法步驟的處理音頻數(shù)據(jù)的方法。
而且,提供一種其中保存了計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),當(dāng)由處理器執(zhí)行計(jì)算機(jī)程序時(shí),適合于執(zhí)行具有以上提到的方法步驟的處理音頻數(shù)據(jù)的方法。
按照本發(fā)明的音頻處理能夠通過(guò)計(jì)算機(jī)程序,即通過(guò)軟件,或通過(guò)使用一個(gè)或多個(gè)特殊的電子優(yōu)化電路,即用硬件,或以混合的方式,即借助于軟件和硬件成分實(shí)現(xiàn)。
本發(fā)明的典型特征尤其具有以下優(yōu)點(diǎn),即按照本發(fā)明的音頻再分配通過(guò)消除對(duì)特定的音頻剪輯(audio excerpt)是否具有這種分類(lèi)(例如,“古典”音樂(lè),“爵士樂(lè)”,“流行音樂(lè)”,“語(yǔ)音”)的不精確的二元類(lèi)型“是”-“否”判定,與現(xiàn)有技術(shù)相比較有很大的改善。代替它的是,音頻再分配器借助于逐步可調(diào)整控制信號(hào)來(lái)控制,該逐步可調(diào)整控制信號(hào)取決于音頻數(shù)據(jù)輸入信號(hào)精細(xì)的分類(lèi)。按照本發(fā)明的設(shè)備和方法不把音頻剪輯概括地分類(lèi)為多個(gè)固定類(lèi)型的音頻內(nèi)容(例如,流派)中最符合的精確的一種,而是考慮到音頻信號(hào)的不同方面和特性,例如古典音樂(lè)特點(diǎn)和流行音樂(lè)特點(diǎn)的貢獻(xiàn)。
因而,一個(gè)音頻剪輯可以分類(lèi)為多種不同類(lèi)型的音頻內(nèi)容(即不同的音頻分類(lèi)),其中加權(quán)因子可以限定該多種類(lèi)型的音頻內(nèi)容中每一個(gè)的定量貢獻(xiàn)。因而,一個(gè)音頻剪輯能夠按比例分配為多個(gè)音頻分類(lèi)。
從而控制信號(hào)反映出不同類(lèi)型的音頻內(nèi)容的兩個(gè)或多個(gè)這種貢獻(xiàn)并且也依賴(lài)于音頻信號(hào)屬于不同類(lèi)型內(nèi)容(例如不同的音頻流派)的程度。按照本發(fā)明,控制信號(hào)連續(xù)地/無(wú)限地可變,從而音頻輸入特性中的輕微變化總是造成控制信號(hào)值的小的改變。
換句話說(shuō),本發(fā)明不采用粗略的二元判定,二元判定中特定的內(nèi)容類(lèi)型或流派指定給現(xiàn)存的音頻數(shù)據(jù)輸入信號(hào)。代之以,在控制信號(hào)中逐步地考慮音頻輸入信號(hào)的不同特點(diǎn)。因此,具有“爵士”元素和“流行”元素的貢獻(xiàn)的音樂(lè)剪輯將不看作純“爵士”音樂(lè)或純“流行”音樂(lè),而是,取決于“流行”音樂(lè)元素貢獻(xiàn)和“爵士樂(lè)”音樂(lè)元素貢獻(xiàn)的程度,用于控制音頻再分配器的控制信號(hào)將同時(shí)反映輸入信號(hào)的“爵士”和“流行”音樂(lè)特點(diǎn)。擁有這種措施,控制信號(hào)將對(duì)應(yīng)于輸入音頻信號(hào)的特點(diǎn),從而音頻再分配器能夠精確地處理這些音頻信號(hào)。逐步衡量的控制信號(hào)的提供使得有可能把音頻再分配器的功能與將被處理的音頻輸入數(shù)據(jù)的詳細(xì)特點(diǎn)相匹配,這種匹配導(dǎo)致更好的控制靈敏度,甚至對(duì)于音頻信號(hào)特點(diǎn)中很小的變化也是如此。從而,按照本發(fā)明的措施提供了音頻輸入數(shù)據(jù)的很靈敏的實(shí)時(shí)分類(lèi),其中用于特征化音頻內(nèi)容的類(lèi)型的概率、百分比、加權(quán)因子或其他參數(shù)作為控制信息提供給音頻再分配器,從而音頻數(shù)據(jù)的再分配能夠?qū)υ擃?lèi)型音頻數(shù)據(jù)定制。
分類(lèi)器可以自動(dòng)分析音頻輸入信號(hào)(例如執(zhí)行頻譜分析)以確定目前的音頻剪輯的典型特征。預(yù)先確定的(例如基于一個(gè)工程師的專(zhuān)有知識(shí))或者特別的規(guī)則(例如行業(yè)內(nèi)規(guī)則)可以引入到音頻分類(lèi)器作為對(duì)音頻剪輯如何分類(lèi),即該音頻剪輯將分類(lèi)為哪種類(lèi)型的音頻內(nèi)容的判定基礎(chǔ)。
由于一段音頻的特點(diǎn)能夠在單個(gè)剪輯內(nèi)快速變化,因此逐步可調(diào)整控制信號(hào)能夠在音頻數(shù)據(jù)傳輸或流動(dòng)過(guò)程中連續(xù)地調(diào)整或更新,從而音樂(lè)特點(diǎn)中的變化導(dǎo)致控制信號(hào)的變化。按照本發(fā)明的系統(tǒng)不采用對(duì)音樂(lè)是否已經(jīng)分類(lèi)為流派A、流派B或流派C的明顯的選擇判定。取而代之的是,按照本發(fā)明評(píng)估概率值,該概率值反映了目前的音頻數(shù)據(jù)能夠分類(lèi)為特定流派(例如,“流行”音樂(lè)、“爵士”音樂(lè)、“古典”音樂(lè)、“語(yǔ)音”等)的程度。從而,控制信號(hào)能夠在“按比例”的基礎(chǔ)上產(chǎn)生,其中從一段音頻的不同特點(diǎn)中得出不同的貢獻(xiàn)。
因而,本發(fā)明提供了一種由音頻分類(lèi)器控制的音頻再分配系統(tǒng),其中不同的音頻內(nèi)容產(chǎn)生不同的設(shè)置,從而音頻分類(lèi)器按照音頻內(nèi)容中的區(qū)別來(lái)優(yōu)化音頻再分配器的功能。
由音頻分類(lèi)器,例如由McKinney、Martin、Breebaart、Jeroen在2003年Izmir的4thInternational Conference on MusicInfoemation Retfieval的“Features for Audio and MusicClassification”中公開(kāi)的音頻分類(lèi)器控制。這樣的分類(lèi)器可以借助于(在使用之前和/或在使用期間)參考音頻信號(hào)或音頻數(shù)據(jù)輸入信號(hào)進(jìn)行訓(xùn)練來(lái)區(qū)分不同類(lèi)型的音頻內(nèi)容。這樣的分類(lèi)例如包括“流行”音樂(lè)、“古典”音樂(lè)、“語(yǔ)音”等。換句話說(shuō),按照本發(fā)明的分類(lèi)器確定一個(gè)剪輯屬于不同類(lèi)型的概率。
這樣分類(lèi)器能夠執(zhí)行再分配使得對(duì)音頻數(shù)據(jù)輸入信號(hào)的內(nèi)容類(lèi)型為最優(yōu)。這是與按照相關(guān)技術(shù)的方案不同的,相關(guān)技術(shù)基于通道間特征和算法設(shè)計(jì)者的特別的選擇。這些特點(diǎn)是低等級(jí)特征的例子。按照本發(fā)明的分類(lèi)器也可以確定這些種類(lèi)的特征,但是它可以使用在分類(lèi)之間進(jìn)行區(qū)分的這些特征,針對(duì)大范圍各種內(nèi)容進(jìn)行訓(xùn)練。
發(fā)現(xiàn)本發(fā)明的一個(gè)方面在于提供一種音頻再分配器,它具有N輸入信號(hào)(該輸入信號(hào)可能是壓縮的,像MP3數(shù)據(jù)),在M個(gè)輸出上把這些輸入信號(hào)再分配,其中再分配取決于對(duì)音頻進(jìn)行分類(lèi)的音頻分類(lèi)器。該分類(lèi)應(yīng)當(dāng)以逐步可調(diào)整的方式執(zhí)行,從而避免對(duì)特定類(lèi)型內(nèi)容的不精確并且有時(shí)不正確的分配。代替的是,用于控制再分配器的控制信號(hào)逐步產(chǎn)生,在音頻內(nèi)容的不同特點(diǎn)之間進(jìn)行區(qū)分。這樣的音頻分類(lèi)器是依賴(lài)于音頻分類(lèi)(例如,音樂(lè),語(yǔ)音)之間的關(guān)系的系統(tǒng),這可以以自適應(yīng)的方式從內(nèi)容分析中學(xué)到。
可以構(gòu)造按照本發(fā)明的音頻分類(lèi)器用于從N個(gè)音頻輸入中產(chǎn)生分類(lèi)信息P,并且該N個(gè)音頻輸入在M個(gè)音頻輸出上的再分配取決于這樣的分類(lèi)信息P,其中分類(lèi)信息P可能是概率。
按照本發(fā)明的音頻再分配器可以適合于靈活地執(zhí)行轉(zhuǎn)換使得M>N、M<N或M=N。再分配器可能是有效矩陣系統(tǒng),并且再分配器可能是一個(gè)音頻解碼器。本發(fā)明可以進(jìn)一步實(shí)現(xiàn)為使用現(xiàn)有再分配器的下行數(shù)據(jù)流的改型單元。
例如,本發(fā)明的示例應(yīng)用涉及現(xiàn)有的像Dolby Pro LogicTM和CircleSurroundTM這樣的現(xiàn)有上-混合系統(tǒng)升級(jí)。按照本發(fā)明的系統(tǒng)能夠加入到現(xiàn)有系統(tǒng)以提高音頻數(shù)據(jù)處理能力和功能性。本發(fā)明的另一種應(yīng)用涉及與圖像屏幕組合使用的新的上-混合(up-mix)算法。另一種應(yīng)用涉及像Incredible Surround SoundTM這樣的現(xiàn)有的下-混合(down-mix)系統(tǒng)的改進(jìn)。除此之外,可以執(zhí)行本發(fā)明以改善現(xiàn)有的立體聲-加寬(stereo-widening)算法。
結(jié)果,音頻再分配能夠以對(duì)當(dāng)前內(nèi)容類(lèi)型最優(yōu)化的方式完成。
本發(fā)明的一個(gè)重要方面涉及系統(tǒng)的行為能夠依賴(lài)于時(shí)間的事實(shí),因?yàn)槔缁谌諒?fù)一日的內(nèi)容和元數(shù)據(jù)(例如圖文電視),它能夠繼續(xù)對(duì)它本身最優(yōu)化。音頻剪輯的不同部分(例如不同的數(shù)據(jù)幀)能夠單獨(dú)分類(lèi)用于以依賴(lài)于時(shí)間的方式更新控制信號(hào)。具有這樣的功能的音頻數(shù)據(jù)處理設(shè)備對(duì)每個(gè)用戶最優(yōu)化,并且新內(nèi)容能夠以?xún)?yōu)化的方式處理。
本發(fā)明的另一重要方面涉及這樣的事實(shí),那就是本發(fā)明的系統(tǒng)使用音頻內(nèi)容的分類(lèi)或類(lèi)型,例如以控制一個(gè)通道上-變換器,每個(gè)音頻內(nèi)容具有特定的物理或心理聲學(xué)(paychoaconstic)含義或特性(比如流派)。這樣的分類(lèi)可以包括例如音樂(lè)和語(yǔ)音之間的區(qū)別,或者甚至更精細(xì)的例如“流行”音樂(lè)、“古典”音樂(lè)、“爵士”音樂(lè)、“民間”音樂(lè)等之間的區(qū)別。
本發(fā)明的一個(gè)方面涉及執(zhí)行幀方式或塊方式分析的多通道音頻再現(xiàn)系統(tǒng)。由音頻分類(lèi)器產(chǎn)生的用于控制音頻再分配器的控制信息基于內(nèi)容類(lèi)型產(chǎn)生。這允許由音頻分類(lèi)/流派信息控制的音頻的自動(dòng)、優(yōu)化和特定分類(lèi)再分配。
參照從屬權(quán)利要求,以下將描述本發(fā)明的其他優(yōu)選實(shí)施例。
接著,將描述按照本發(fā)明的音頻數(shù)據(jù)處理設(shè)備的優(yōu)選實(shí)施例。這些實(shí)施例也用于處理音頻數(shù)據(jù)的方法、程序單元和計(jì)算機(jī)可讀介質(zhì)。
第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)和/或第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)可以大于一。換句話說(shuō),音頻數(shù)據(jù)處理設(shè)備可以執(zhí)行多通道輸入和/或多通道輸出處理。
按照一個(gè)實(shí)施例,第一數(shù)量可以大于或小于或等于第二數(shù)量。把第一數(shù)量表示為N,并且把第二數(shù)量表示為M,覆蓋所有三種情況M>N、M=N和M<N。在M>N的情況下,用于重放的輸出通道的數(shù)量大于輸入通道的數(shù)量。這種情形的一種例子是從立體聲轉(zhuǎn)換到5.1環(huán)繞聲。在M=N的情況下,存在相同數(shù)量的輸入和輸出通道。但是,在這種情況下,提供的內(nèi)容在各個(gè)通道之間再分配。在M<N的情況下,可獲得比重放通道更多的輸入通道。例如,5.1環(huán)繞聲音頻可以在兩個(gè)揚(yáng)聲器上重放。
音頻分類(lèi)器可以適合于以依賴(lài)于時(shí)間的方式產(chǎn)生逐步可調(diào)整的控制信號(hào)。按照該實(shí)施例,在音頻數(shù)據(jù)輸入信號(hào)傳輸期間,響應(yīng)于考慮中的音頻剪輯的不同部分的特點(diǎn)或特性中可能的變化控制信號(hào)能夠連續(xù)更新,或以步進(jìn)的方式更新??刂菩盘?hào)的這種依賴(lài)于時(shí)間的估計(jì)使得能夠進(jìn)行音頻再分配器更加精細(xì)的控制,這提高了處理和再現(xiàn)的音頻數(shù)據(jù)的質(zhì)量。而且,系統(tǒng)的行為通??梢砸蕾?lài)于時(shí)間來(lái)執(zhí)行,例如基于日復(fù)一日的內(nèi)容/或元數(shù)據(jù)(像圖文電視),從而它保持本身最優(yōu)化。
音頻分類(lèi)器可以適合于逐幀或逐塊地產(chǎn)生逐步可調(diào)整的控制信號(hào)。從而,在它們(部分)涉及的音頻內(nèi)容的類(lèi)型特點(diǎn)方面,音頻輸入數(shù)據(jù)的不同的連續(xù)塊或不同的連續(xù)幀可以分開(kāi)地對(duì)待,從而對(duì)音頻再分配器的控制進(jìn)行細(xì)化。
而且,音頻數(shù)據(jù)處理設(shè)備可以包括一加法單元,它適合于通過(guò)把音頻數(shù)據(jù)輸入信號(hào)相加產(chǎn)生一個(gè)輸入和信號(hào),并且它被連接以向音頻分類(lèi)器提供輸入和信號(hào)。加法單元可以簡(jiǎn)單地把來(lái)自不同音頻數(shù)據(jù)輸入通道的所有音頻輸入數(shù)據(jù)相加以產(chǎn)生一個(gè)具有平均音頻特性的信號(hào),從而分類(lèi)能夠在統(tǒng)計(jì)特性上更寬的基礎(chǔ)上以低計(jì)算負(fù)擔(dān)來(lái)進(jìn)行?;蛘撸總€(gè)音頻數(shù)據(jù)輸入通道可以單獨(dú)或聯(lián)合分類(lèi),導(dǎo)致高分辨率控制信號(hào)。
音頻分類(lèi)器可以適合于以逐步可調(diào)整的方式,依賴(lài)于音頻數(shù)據(jù)輸入信號(hào)的物理含義產(chǎn)生逐步可調(diào)整的控制信號(hào)。特別是,不同類(lèi)型的音頻內(nèi)容可以對(duì)應(yīng)于不同音頻流派。
按照這些實(shí)施例,能夠考慮音頻數(shù)據(jù)輸入信號(hào)的物理含義或心理聲學(xué)特征??梢灶A(yù)先選擇預(yù)定數(shù)量的音頻內(nèi)容類(lèi)型?;谀切┎煌囊纛l內(nèi)容類(lèi)型(例如“音樂(lè)或語(yǔ)音”或“流行”音樂(lè),“爵士”音樂(lè),“古典”音樂(lè)),例如能夠計(jì)算音頻剪輯中這些類(lèi)型的各個(gè)貢獻(xiàn),從而例如能夠基于當(dāng)前音頻剪輯具有60%“古典”音樂(lè),30%“爵士”和10%“語(yǔ)音”貢獻(xiàn)的信息來(lái)控制音頻再分配器。例如,可以執(zhí)行以下兩種示例類(lèi)型的分類(lèi)中的一種,一種類(lèi)型基于一組五個(gè)總體音頻分類(lèi),并且第二種類(lèi)型基于一組流行音樂(lè)流派??傮w音樂(lè)分類(lèi)是“古典”音樂(lè)、“流行”音樂(lè)(非古典流派),“語(yǔ)音”(男性或女性,英語(yǔ),荷蘭語(yǔ),德語(yǔ)和法語(yǔ)),“喧嘩噪聲”(掌聲和歡呼聲)和“噪聲”(包括交通、風(fēng)扇、飯店、自然界的背景噪聲)。流行音樂(lè)分類(lèi)可以包含來(lái)自七種流派的音樂(lè)“爵士”,“民間”,“電子”,“R&B”,“搖滾”,“雷蓋(reggae)”和“聲樂(lè)”。
物理含義或特性可以對(duì)應(yīng)于音頻數(shù)據(jù)輸入信號(hào)所屬于的不同類(lèi)型的音頻內(nèi)容,特別對(duì)應(yīng)于不同音頻流派。
音頻分類(lèi)器可以適合于產(chǎn)生作為控制信號(hào)的一個(gè)或更多的概率,這個(gè)概率可以具有在零和一之間的范圍內(nèi)的任意(無(wú)級(jí))值,其中每個(gè)值反映了音頻數(shù)據(jù)輸入信號(hào)屬于對(duì)應(yīng)類(lèi)型的音頻內(nèi)容的概率。相應(yīng)于現(xiàn)有技術(shù),其中只采用100%或0%的判定(例如音頻內(nèi)容涉及純“古典”音樂(lè)),按照本發(fā)明的系統(tǒng)更精確,因?yàn)樗诓煌?lèi)型的音頻內(nèi)容之間進(jìn)行區(qū)分(例如“當(dāng)前音頻剪輯以60%的概率涉及“古典”音樂(lè)和以40%的概率”涉及“爵士”音樂(lè))。
音頻分類(lèi)器可以適合于基于這些概率的線性組合產(chǎn)生音頻數(shù)據(jù)輸出信號(hào)。如果音頻分類(lèi)器已經(jīng)確定例如音頻內(nèi)容以概率P涉及第一流派和以1-p的概率涉及第二流派,則音頻再分配器以p和1-p的相應(yīng)概率線性組合第一和第二流派進(jìn)行控制。
音頻分類(lèi)器可以適合于產(chǎn)生逐步可調(diào)整控制信號(hào)作為矩陣,尤其是作為有效矩陣的。該矩陣的單元可以依賴(lài)于一個(gè)或多個(gè)概率值,它們是預(yù)先估計(jì)的。矩陣的單元也能夠直接依賴(lài)于音頻數(shù)據(jù)輸入信號(hào)。每個(gè)矩陣單元能夠單獨(dú)調(diào)整或計(jì)算以用作控制音頻分配器的控制信號(hào)。
音頻分類(lèi)器可以是自適應(yīng)音頻分類(lèi)器,在用于區(qū)分不同類(lèi)型的音頻內(nèi)容之前進(jìn)行訓(xùn)練,其中它已經(jīng)輸入了參考音頻數(shù)據(jù)。按照該實(shí)施例,在音頻數(shù)據(jù)處理設(shè)備投入市場(chǎng)之前,音頻分類(lèi)器輸入了足夠大量的參考音頻信號(hào)(例如來(lái)自不同流派的100小時(shí)的音頻內(nèi)容)。在輸入大量音頻數(shù)據(jù)期間,音頻分類(lèi)器學(xué)習(xí)怎樣例如通過(guò)檢測(cè)音頻數(shù)據(jù)特定(頻譜)特征來(lái)區(qū)分不同種類(lèi)的音頻內(nèi)容,這些音頻數(shù)據(jù)已知(或變成)為特定種類(lèi)內(nèi)容類(lèi)型的特性。該訓(xùn)練處理造成許多獲得的系數(shù),這些系數(shù)可以用于精確地區(qū)分和確定,即分類(lèi)音頻內(nèi)容。
另外的或者替換的,音頻分類(lèi)器可以是自適應(yīng)音頻分類(lèi)器,該分類(lèi)器在使用期間進(jìn)行訓(xùn)練以通過(guò)饋入音頻數(shù)據(jù)輸入信號(hào)區(qū)分不同類(lèi)型的音頻內(nèi)容。這意味著由音頻數(shù)據(jù)處理設(shè)備處理的音頻數(shù)據(jù)也用于在該音頻數(shù)據(jù)處理設(shè)備作為產(chǎn)品實(shí)際使用期間進(jìn)一步訓(xùn)練音頻分類(lèi)器,從而進(jìn)一步使它的分類(lèi)能力更精細(xì)。元數(shù)據(jù)(例如來(lái)自圖文電視)可以用于此,以例如支持自學(xué)。當(dāng)內(nèi)容已知為電影內(nèi)容時(shí),伴奏的多通道音頻能夠用于進(jìn)一步訓(xùn)練分類(lèi)器。
按照音頻數(shù)據(jù)處理設(shè)備的音頻再分類(lèi)器可以包括第一子單元和第二子單元。第一子單元可以適合于獨(dú)立于音頻分類(lèi)器的控制信號(hào)基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)中間信號(hào)。第二子單元可以適合于依賴(lài)于音頻分類(lèi)器的控制信號(hào)基于第一數(shù)量的音頻數(shù)據(jù)中間信號(hào)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)。這種設(shè)置使得有可能將為傳統(tǒng)音頻再分配器的已經(jīng)存在的第一子單元與第二子單元組合使用作為考慮到用于再分配音頻數(shù)據(jù)的控制信號(hào)的后處理單元。
按照本發(fā)明的音頻數(shù)據(jù)處理設(shè)備可以實(shí)現(xiàn)為集成電路,特別是實(shí)現(xiàn)為半導(dǎo)體集成電路。特別是,系統(tǒng)可以實(shí)現(xiàn)為能夠用硅技術(shù)生產(chǎn)的單片IC。
按照本發(fā)明的音頻數(shù)據(jù)處理設(shè)備可以實(shí)現(xiàn)為虛擬裝置(virtualizer)或便攜式音頻播放器或DVD播放器或MP3播放器或作為一個(gè)因特網(wǎng)無(wú)線電設(shè)備。
作為依賴(lài)于音頻內(nèi)容類(lèi)型產(chǎn)生控制信號(hào)的音頻分類(lèi)器的替換方式,其中音頻數(shù)據(jù)輸入信號(hào)基于符合以下特別規(guī)則的音頻信號(hào)的解釋(其間接依賴(lài)于工程師的知識(shí)或經(jīng)驗(yàn))被分類(lèi),也可以通過(guò)引入一系統(tǒng)行為全自動(dòng)地(不需要解釋或引入工程師的知識(shí))產(chǎn)生用于控制音頻再分配器的控制信號(hào),該系統(tǒng)行為可以是機(jī)器學(xué)習(xí)的而不是由工程師設(shè)計(jì)的,該控制信號(hào)全自動(dòng)地分析從一個(gè)聲音特征映射到該音頻屬于某一類(lèi)型的概率的很多參數(shù)的數(shù)量。為此,音頻分類(lèi)器可以提供有一些種類(lèi)的自適應(yīng)功能(例如神經(jīng)系統(tǒng)網(wǎng)絡(luò),神經(jīng)模糊機(jī)械(neuro-fuzzy machine)等),它們可以預(yù)先(例如幾百小時(shí))用參考音頻音樂(lè)進(jìn)行訓(xùn)練以允許音頻分類(lèi)器自動(dòng)找到優(yōu)化參數(shù)作為控制信號(hào)的基礎(chǔ)用于控制音頻再分配器??梢杂米骺刂菩盘?hào)基礎(chǔ)的參數(shù)能夠從進(jìn)入音頻數(shù)據(jù)輸入信號(hào)學(xué)到,該音頻數(shù)據(jù)輸入信號(hào)可以在使用之前和/或使用期間提供給系統(tǒng)。從而,音頻分類(lèi)器可以由它自身基于可以執(zhí)行哪種涉及其音頻內(nèi)容的音頻輸入數(shù)據(jù)的分類(lèi)得到分析信息。例如,可以預(yù)先訓(xùn)練用于把音頻數(shù)據(jù)輸入信號(hào)轉(zhuǎn)換到音頻數(shù)據(jù)輸出信號(hào)的轉(zhuǎn)換矩陣的矩陣系數(shù)。作為一個(gè)例子,DVD通常包含立體聲和5.1通道音頻混合。盡管從二到5.1通道的優(yōu)選轉(zhuǎn)換將通常不存在,但是當(dāng)一算法用于獨(dú)立在幾個(gè)頻帶工作時(shí)它被非常好地限定。對(duì)二和5.1通道音頻混合的分析揭示了這些關(guān)系。這些關(guān)系接著從二通道音頻的特性自動(dòng)學(xué)習(xí)。
從而,音頻數(shù)據(jù)輸入信號(hào)能夠不需要包括任意解釋步驟地自動(dòng)分類(lèi)。
例如,這樣的訓(xùn)練能夠在音頻數(shù)據(jù)處理設(shè)備投入市場(chǎng)之前在實(shí)驗(yàn)室中預(yù)先進(jìn)行。這意味著最終產(chǎn)品已經(jīng)具有組合多個(gè)使得音頻分類(lèi)器以精確的方式分類(lèi)進(jìn)入音頻數(shù)據(jù)的參數(shù)的訓(xùn)練過(guò)的音頻分類(lèi)器。但是,作為替代或附加地,包括在作為一現(xiàn)成產(chǎn)品投入市場(chǎng)的音頻數(shù)據(jù)處理設(shè)備的音頻分類(lèi)器中的參數(shù)已經(jīng)能夠通過(guò)在使用期間用音頻數(shù)據(jù)輸入信號(hào)進(jìn)行訓(xùn)練來(lái)改善。
這樣的訓(xùn)練可以包括音頻數(shù)據(jù)輸入信號(hào)的多個(gè)頻譜特征的分析,像光譜粗糙度/光譜平坦性,即波紋等的出現(xiàn)。從而,可以找到不同類(lèi)型內(nèi)容的特征特性,并且能夠在這些特征的基礎(chǔ)上表征當(dāng)前音頻段。
本發(fā)明的上述和其他方面將通過(guò)以下描述的實(shí)施例變得明顯并且參照這些實(shí)施例來(lái)解釋。


現(xiàn)在將參照實(shí)施方式的示例更詳細(xì)地描述本發(fā)明,但是本發(fā)明決不限于此。
圖1示出了按照本發(fā)明的第一實(shí)施例的音頻數(shù)據(jù)處理設(shè)備,圖2A示出了按照本發(fā)明的第二實(shí)施例的音頻數(shù)據(jù)處理設(shè)備,圖2B示出了按照第二實(shí)施例基于音頻數(shù)據(jù)輸入信號(hào)并基于控制信號(hào)計(jì)算音頻數(shù)據(jù)輸出信號(hào)的基于矩陣的計(jì)算方案,圖3A示出了按照本發(fā)明的第三實(shí)施例的音頻數(shù)據(jù)處理設(shè)備,圖3B示出了按照第三實(shí)施例基于音頻數(shù)據(jù)輸入信號(hào)并基于控制信號(hào)計(jì)算音頻數(shù)據(jù)輸出信號(hào)的基于矩陣的計(jì)算方案,圖4A示出了按照第四實(shí)施例的音頻數(shù)據(jù)處理設(shè)備,圖3B示出了按照第四實(shí)施例基于音頻數(shù)據(jù)輸入信號(hào)并基于控制信號(hào)計(jì)算音頻數(shù)據(jù)輸出信號(hào)的基于矩陣的計(jì)算方案。
具體實(shí)施例方式
附圖中的說(shuō)明是示意性的。在不同的圖中,類(lèi)似或相同的元件提供以相同的參考標(biāo)記。
接下來(lái),參照?qǐng)D1,將描述按照本發(fā)明的第一實(shí)施例的音頻數(shù)據(jù)處理設(shè)備100。
圖1示出了音頻數(shù)據(jù)處理設(shè)備100,包括適合于基于六個(gè)音頻數(shù)據(jù)輸入信號(hào)產(chǎn)生兩個(gè)音頻數(shù)據(jù)輸出信號(hào)的音頻再分配器101。音頻數(shù)據(jù)輸入信號(hào)在六個(gè)音頻輸入通道103提供,它們耦合到音頻再分配器101的六個(gè)數(shù)據(jù)信號(hào)輸入端105。音頻再分配器101的兩個(gè)數(shù)據(jù)信號(hào)輸出109與兩個(gè)音頻數(shù)據(jù)輸出通道102耦合以提供它們的音頻數(shù)據(jù)輸出信號(hào)。
而且,示出了音頻分類(lèi)器104,它適合于以逐步可調(diào)整的方式依賴(lài)于音頻內(nèi)容的類(lèi)型,在從六個(gè)音頻數(shù)據(jù)輸入信號(hào)產(chǎn)生兩個(gè)音頻數(shù)據(jù)輸出信號(hào)方面,來(lái)產(chǎn)生用于控制音頻再分配器101的逐步可調(diào)整控制信號(hào)P,音頻數(shù)據(jù)輸入信號(hào)(通過(guò)耦合到六個(gè)音頻數(shù)據(jù)輸入通道103的六個(gè)數(shù)據(jù)信號(hào)輸入端106提供到音頻分類(lèi)器104)按照音頻內(nèi)容的類(lèi)型進(jìn)行分類(lèi)。從而,在不同類(lèi)型的音頻內(nèi)容方面,音頻分類(lèi)器104確定進(jìn)入音頻輸入信號(hào)將被分類(lèi)到什么程度。
音頻分類(lèi)器104適合于以依賴(lài)于時(shí)間的方式產(chǎn)生逐步可調(diào)整的控制信號(hào)P,即作為函數(shù)P(t),其中t是時(shí)間。當(dāng)音頻信號(hào)的幀序列(每幀由塊構(gòu)成)在音頻數(shù)據(jù)輸入通道103應(yīng)用到系統(tǒng)100,輸入數(shù)據(jù)中變化的音頻特性導(dǎo)致變化的控制信號(hào)p。從而,系統(tǒng)100靈活地響應(yīng)于通過(guò)音頻數(shù)據(jù)輸入通道103提供的音頻內(nèi)容類(lèi)型中的變化。換句話說(shuō),在音頻數(shù)據(jù)輸入通道103提供的不同的幀或塊由音頻分類(lèi)器單獨(dú)對(duì)待,從而產(chǎn)生單獨(dú)的并且依賴(lài)于時(shí)間的音頻數(shù)據(jù)分類(lèi)控制信號(hào)P以控制音頻再分配器101來(lái)把在六個(gè)輸入通道103提供的音頻信號(hào)轉(zhuǎn)換為在兩個(gè)輸出通道102的音頻信號(hào)。音頻分類(lèi)器104適合于按照音頻數(shù)據(jù)輸入信號(hào)的不同類(lèi)型的音頻內(nèi)容(例如物理/心理聲學(xué)含義)以逐步可調(diào)整的方式產(chǎn)生逐步可調(diào)整的控制信號(hào)P。換句話說(shuō),用于區(qū)分不同類(lèi)型的音頻內(nèi)容,特別是不同的音頻流派的一組區(qū)分規(guī)則預(yù)先存儲(chǔ)在音頻分類(lèi)器104中?;谶@些區(qū)分規(guī)則(特別規(guī)則或?qū)<乙?guī)則),音頻分類(lèi)器104估計(jì)該音頻數(shù)據(jù)輸入信號(hào)屬于音頻內(nèi)容的每種不同流派到什么程度。
下面,將參照?qǐng)D2A描述按照本發(fā)明的第二實(shí)施例的音頻數(shù)據(jù)處理設(shè)備200。
音頻數(shù)據(jù)處理設(shè)備200包括一個(gè)用于把N音頻數(shù)據(jù)輸入信號(hào)x1,...,xN轉(zhuǎn)換為M音頻數(shù)據(jù)輸出信號(hào)z1,...,zM的音頻再分配器201。音頻再分配器201包括N-到-M再分配單元202和后處理單元203。N-到-M再分配單元適合于獨(dú)立于音頻分類(lèi)器104的控制信號(hào),基于N音頻數(shù)據(jù)輸入信號(hào)x1,...,xN產(chǎn)生M音頻數(shù)據(jù)中間信號(hào)y1,...,yM。后處理單元203適合于依賴(lài)于由音頻分類(lèi)器產(chǎn)生的控制信號(hào)P,基于音頻數(shù)據(jù)輸入信號(hào)x1,...,xN的分析從中間信號(hào)y1,...,yM產(chǎn)生M音頻數(shù)據(jù)輸出信號(hào)z1,...,zM。
音頻數(shù)據(jù)處理設(shè)備200包括一個(gè)加法單元204,它適合于通過(guò)把音頻數(shù)據(jù)輸入信號(hào)x1,......,xN加在一起產(chǎn)生的輸入和信號(hào)從而提供用于音頻分類(lèi)器104的輸入和信號(hào)。
圖2A、2B示出的實(shí)現(xiàn)方式使用了用分類(lèi)器104和后處理單元203升級(jí)的現(xiàn)存的再分配系統(tǒng),該后處理單元203能夠由分類(lèi)器104中執(zhí)行的計(jì)算的結(jié)果來(lái)控制。從而,音頻數(shù)據(jù)處理設(shè)備200用于升級(jí)現(xiàn)有的再分配系統(tǒng)202。
塊“N-到-M”202是現(xiàn)有的再分配系統(tǒng),例如Dolby Pro Logic IITM(在這種情況下N=2并且M=6)。N輸入通道由加法單元204相加并輸送到音頻分類(lèi)器104,該音頻分類(lèi)器104被訓(xùn)練以區(qū)分音頻內(nèi)容的理想分類(lèi)。分類(lèi)器104的輸出是音頻數(shù)據(jù)輸入信號(hào)x1,...,xN屬于音頻內(nèi)容某一分類(lèi)的概率P。這些概率用于修整“M-到-M”塊203,它是一個(gè)后處理塊。
這種情形的一種感興趣應(yīng)用能夠是以下的情況Dolby Pro LogicIITM具有兩種不同的模式,即電影和音樂(lè),它們具有不同的設(shè)置并進(jìn)行手工選擇。一個(gè)主要的區(qū)別是中央圖像的寬度。在電影模式中,在中央掃調(diào)的(音頻)源完全輸送到中央揚(yáng)聲器。在音樂(lè)模式中,中央信號(hào)也輸送到左和右揚(yáng)聲器以加寬立體聲圖像。但是,這必須是人為改變的。當(dāng)例如她或他正在觀看電視并且她或他從像MTV這樣的音樂(lè)頻道切換到像CNN這樣的新聞?lì)l道時(shí),這是不方便的。這樣。在電影包含音樂(lè)部分的情況下,電影/音樂(lè)模式的手動(dòng)選擇是不適宜的。MTV上的音樂(lè)視頻將需要一個(gè)音樂(lè)模式,但是CNN上的語(yǔ)音將需要一個(gè)電影設(shè)置。本發(fā)明應(yīng)用到這種情形時(shí)將自動(dòng)調(diào)整設(shè)置。
這樣,圖2A示出了用音頻分類(lèi)器104升級(jí)現(xiàn)有的再分配單元202的框圖。
具有傳統(tǒng)的N-到-M再分配單元202的本發(fā)明實(shí)現(xiàn)方式在所述實(shí)施例中執(zhí)行以下步驟。
N-到-M塊202包含電影模式的Dolby Pro Logic IITM解碼器。分類(lèi)器104包含兩種類(lèi)型,即音樂(lè)和電影。參數(shù)P是輸入音頻x1,...,xN是音樂(lè)的概率(P在
的整個(gè)范圍上連續(xù)可變)。
N-到-M塊203現(xiàn)在能夠?qū)崿F(xiàn)以執(zhí)行圖2B所示的函數(shù)。
在圖2B中,Lf是左前信號(hào),Rf是右前信號(hào),C是中央信號(hào),Ls是左環(huán)繞信號(hào),Rs是右環(huán)繞信號(hào)并且LFE是低頻效果信號(hào)(子低音揚(yáng)聲器)。參數(shù)α是一個(gè)常數(shù),具有例如0.5的值。參數(shù)α定義在音樂(lè)模式中的中央源寬度。
參數(shù)P以幀確定,所以它隨時(shí)間變化。當(dāng)音頻內(nèi)容隨著時(shí)間變化時(shí),中央信號(hào)的重放按照P來(lái)變化。從而,音頻分類(lèi)器104適合于以依賴(lài)于時(shí)間的方式產(chǎn)生逐步可調(diào)整的控制信號(hào),特別是參數(shù)P。而且,音頻分類(lèi)器104適合于一幀接一幀地或一塊接一塊地產(chǎn)生逐步可調(diào)整控制信號(hào)。這樣,音頻分類(lèi)器適合于產(chǎn)生概率P作為它的控制信號(hào),該概率P可以具有在零和一范圍內(nèi)的任意值,反映音頻數(shù)據(jù)輸入信號(hào)屬于音樂(lè)的似然性和音頻數(shù)據(jù)輸入信號(hào)屬于電影分類(lèi)的似然性1-P。
從圖2B中看更加明顯,音頻分類(lèi)器104適合于基于概率P和1-P的線性組合產(chǎn)生音頻數(shù)據(jù)輸出信號(hào)。
接下來(lái),將參照?qǐng)D3A和圖3B描述按照本發(fā)明的第三實(shí)施例的音頻數(shù)據(jù)處理設(shè)備300。
音頻數(shù)據(jù)處理設(shè)備300具有集成到一個(gè)構(gòu)建塊中的再分配單元202和后處理單元203,即N-到-M再分配器301。從而,音頻數(shù)據(jù)處理設(shè)備300集成了再分配和分類(lèi)。
N-到-M再分配器301能夠以如下方式實(shí)現(xiàn)。M輸出通道102是N輸入通道103的線性組合。矩陣 中的參數(shù)是來(lái)自于分類(lèi)器302的概率P的函數(shù)。這能夠在幀(它是信號(hào)采樣的塊)中實(shí)現(xiàn),因?yàn)楦怕蔖也在描述的實(shí)施例中在幀中確定。
圖3A所示的系統(tǒng)的實(shí)際應(yīng)用是立體聲到5.1-環(huán)繞聲轉(zhuǎn)換系統(tǒng)。當(dāng)應(yīng)用這樣的系統(tǒng)時(shí)獲得高質(zhì)量的結(jié)果,因?yàn)橐纛l混合是依賴(lài)于內(nèi)容的。例如,語(yǔ)音送到中央揚(yáng)聲器。聲音掃調(diào)到中央并分到左右揚(yáng)聲器。聲樂(lè)掃調(diào)到后揚(yáng)聲器。輸入信號(hào)x1,...,xN到輸出信號(hào)y1,...,yM的這種轉(zhuǎn)換在轉(zhuǎn)換矩陣 的基礎(chǔ)上執(zhí)行,這種轉(zhuǎn)換又依賴(lài)于概率P。
接著,將參照?qǐng)D4A和圖4B描述按照第四實(shí)施例的音頻數(shù)據(jù)處理設(shè)備400。
圖4A、圖4B示出了一種設(shè)置,其中由音頻分類(lèi)器401產(chǎn)生的矩陣 用作N-到-M再分配器301的控制信號(hào)的源。這樣,在音頻數(shù)據(jù)處理設(shè)備400的情況下,矩陣 的元素依賴(lài)于音頻數(shù)據(jù)輸入信號(hào)xi,其中i=1,...,N,所以是x1,...,xN。因此,沒(méi)有概率P(用作矩陣元素的隨后計(jì)算的基礎(chǔ))必須在第四實(shí)施例中計(jì)算。取而代之的是,按照第四實(shí)施例的音頻分類(lèi)器401實(shí)現(xiàn)為一個(gè)自適應(yīng)的音頻分類(lèi)器401,它們必須預(yù)先訓(xùn)練以自動(dòng)并直接來(lái)自于音頻數(shù)據(jù)輸入信號(hào)xi得到轉(zhuǎn)換矩陣 的元素。于是,可以從音頻數(shù)據(jù)輸入信號(hào)xi推出音頻特性。接著,可以學(xué)習(xí)映射函數(shù),它提供有效矩陣系數(shù)作為這些特征的(學(xué)習(xí))函數(shù)。換句話說(shuō),按照第四實(shí)施例,有源轉(zhuǎn)換矩陣的元素直接依賴(lài)于輸入信號(hào),而不是基于單獨(dú)確定的概率值P產(chǎn)生的。
應(yīng)當(dāng)注意到,術(shù)語(yǔ)“包括”不排除于那些規(guī)定的單元或步驟之外的單元或步驟并且詞語(yǔ)“一”或“一個(gè)”不排除多個(gè)。與不同實(shí)施例相關(guān)聯(lián)描述的單元可以組合。也應(yīng)當(dāng)注意到權(quán)利要求中的參考標(biāo)記不應(yīng)當(dāng)解釋為對(duì)權(quán)利要求范圍的限制。
權(quán)利要求
1.一種音頻數(shù)據(jù)處理設(shè)備(100),包括音頻再分配器(101),適合于基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM);和音頻分類(lèi)器(104),適合于以逐步可調(diào)整的方式取決于音頻內(nèi)容的類(lèi)型產(chǎn)生逐步可調(diào)整控制信號(hào)(P),該控制信號(hào)用于控制從第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)的音頻再分配器(101),第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)按照所述音頻內(nèi)容的類(lèi)型被分類(lèi)。
2.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻分類(lèi)器(104)是自適應(yīng)音頻分類(lèi)器,它在用于區(qū)分不同類(lèi)型的音頻內(nèi)容之前進(jìn)行訓(xùn)練,其中音頻分類(lèi)器(104)預(yù)先輸送有參考音頻數(shù)據(jù)。
3.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻分類(lèi)器(104)是自適應(yīng)音頻分類(lèi)器,它在用于區(qū)分不同類(lèi)型的音頻內(nèi)容期間通過(guò)給音頻分類(lèi)器(104)輸送音頻數(shù)據(jù)輸入信號(hào)來(lái)進(jìn)行訓(xùn)練。
4.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中第一數(shù)量和/或第二數(shù)量大于一。
5.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中第一數(shù)量大于第二數(shù)量。
6.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻分類(lèi)器(104)適合于以依賴(lài)于時(shí)間的方式產(chǎn)生逐步可調(diào)整的控制信號(hào)(P)。
7.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻分類(lèi)器(104)適合于逐幀或逐塊地產(chǎn)生逐步可調(diào)整的控制信號(hào)(P)。
8.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻分類(lèi)器(104)適合于以逐步可調(diào)整的方式依賴(lài)于音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)的物理含義產(chǎn)生逐步可調(diào)整的控制信號(hào)(P)。
9.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中不同類(lèi)型的音頻內(nèi)容對(duì)應(yīng)于不同的音頻流派。
10.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻分類(lèi)器(104)適合于產(chǎn)生作為控制信號(hào)(P)的一個(gè)或多個(gè)概率,它們可以具有在零和一之間的任意值,其中每個(gè)概率反映音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)屬于對(duì)應(yīng)類(lèi)型的音頻內(nèi)容的似然性。
11.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻再分配器(101)適合于基于概率的線性組合產(chǎn)生音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)。
12.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻分類(lèi)器(104)適合于以有效矩陣的形式產(chǎn)生逐步可調(diào)整的控制信號(hào)。
13.按照權(quán)利要求10和12的音頻數(shù)據(jù)處理設(shè)備(100),其中矩陣的元素取決于一個(gè)或多個(gè)概率。
14.按照權(quán)利要求12的音頻數(shù)據(jù)處理設(shè)備(100),其中矩陣的元素取決于音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)。
15.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),其中音頻再分配器(101)包括第一子單元(202)和第二子單元(203),其中第一子單元(202)適合于與音頻分類(lèi)器(104)的控制信號(hào)(P)無(wú)關(guān)地基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)中間信號(hào)(y1...yM);并且其中第二子單元(203)適合于根據(jù)音頻分類(lèi)器(104)的控制信號(hào)(P)基于第一數(shù)量的音頻數(shù)據(jù)中間信號(hào)(y1...yM)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(z1...xN)。
16.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),實(shí)現(xiàn)為集成電路。
17.按照權(quán)利要求1的音頻數(shù)據(jù)處理設(shè)備(100),實(shí)現(xiàn)為虛擬裝置或便攜音頻播放器或DVD播放器或MP3播放器或因特網(wǎng)無(wú)線電設(shè)備。
18.一種處理音頻數(shù)據(jù)的方法,該方法包括以下步驟通過(guò)基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)來(lái)再分配音頻數(shù)據(jù)輸入信號(hào);將音頻數(shù)據(jù)輸入信號(hào)分類(lèi)從而以逐步可調(diào)整的方式取決于音頻內(nèi)容的類(lèi)型產(chǎn)生逐步可調(diào)整的控制信號(hào)(P),該控制信號(hào)用于控制從第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)的再分配,音頻數(shù)據(jù)輸入信號(hào)按照音頻內(nèi)容的類(lèi)型被分類(lèi)。
19.一種程序單元,當(dāng)該程序單元由處理器執(zhí)行時(shí)適合于執(zhí)行處理音頻數(shù)據(jù)的方法,該方法包括以下步驟通過(guò)基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)來(lái)再分配音頻數(shù)據(jù)輸入信號(hào);將音頻數(shù)據(jù)輸入信號(hào)分類(lèi)從而以逐步可調(diào)整的方式取決于音頻內(nèi)容的類(lèi)型產(chǎn)生逐步可調(diào)整的控制信號(hào)(P),該控制信號(hào)用于控制從第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)的再分配,音頻數(shù)據(jù)輸入信號(hào)按照音頻內(nèi)容的類(lèi)型被分類(lèi)。
20.一種存儲(chǔ)了計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),當(dāng)該程序由處理器執(zhí)行時(shí)適合于執(zhí)行處理音頻數(shù)據(jù)的方法,該方法包括以下步驟通過(guò)基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)來(lái)再分配音頻數(shù)據(jù)輸入信號(hào);將音頻數(shù)據(jù)輸入信號(hào)分類(lèi)從而以逐步可調(diào)整的方式取決于音頻內(nèi)容的類(lèi)型產(chǎn)生逐步可調(diào)整的控制信號(hào)(P),該控制信號(hào)用于控制從第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x1...xN)產(chǎn)生第一數(shù)量的音頻數(shù)據(jù)輸出信號(hào)(102;z1...zM)的再分配,音頻數(shù)據(jù)輸入信號(hào)按照音頻內(nèi)容的類(lèi)型被分類(lèi)。
全文摘要
一種音頻數(shù)據(jù)處理設(shè)備(100)包括適合于基于第二數(shù)量的音頻數(shù)據(jù)輸入信號(hào)(103;x
文檔編號(hào)H04S3/02GK101065988SQ200580040171
公開(kāi)日2007年10月31日 申請(qǐng)日期2005年11月16日 優(yōu)先權(quán)日2004年11月23日
發(fā)明者D·肖本, M·盧恩, M·麥克金尼 申請(qǐng)人:皇家飛利浦電子股份有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
即墨市| 蒙山县| 徐州市| 诸城市| 湟源县| 故城县| 兴和县| 文化| 大洼县| 兴化市| 莫力| 绥中县| 抚宁县| 延安市| 清涧县| 瓦房店市| 广元市| 勐海县| 乌拉特前旗| 麻阳| 宁蒗| 林西县| 凌海市| 东港市| 莲花县| 罗山县| 万宁市| 钟山县| 册亨县| 泊头市| 金湖县| 长宁县| 文成县| 始兴县| 韶关市| 兰考县| 勐海县| 中江县| 阿瓦提县| 垦利县| 襄汾县|