復(fù)雜度可縮放的感知節(jié)拍估計的制作方法
【專利摘要】本發(fā)明公開了復(fù)雜度可縮放的感知節(jié)拍估計。本申請涉及用于估計諸如音頻或組合視頻/音頻信號之類的媒體信號的節(jié)奏的方法和系統(tǒng)。特別地,本申請涉及由人類聽眾感知的節(jié)奏的估計,以及涉及用于以可縮放的計算復(fù)雜度進(jìn)行節(jié)奏估計的方法和系統(tǒng)。一種用于從包括譜帶復(fù)制數(shù)據(jù)的音頻信號的編碼的比特流中提取該音頻信號的節(jié)奏信息的方法和系統(tǒng)。該方法包括以下步驟∶確定對于音頻信號的一時間間隔在該編碼的比特流中包含的譜帶復(fù)制數(shù)據(jù)量相關(guān)聯(lián)的有效載荷量;對于該音頻信號的編碼的比特流的連續(xù)的時間間隔,重復(fù)該確定步驟,從而確定有效載荷量的序列;識別該有效載荷量的序列的周期性;以及從識別的周期性提取音頻信號的節(jié)奏信息。
【專利說明】復(fù)雜度可縮放的感知節(jié)拍估計
[0001] 本申請是申請?zhí)枮?01080048994. 4、申請日為2010年10月26日、發(fā)明名稱為"復(fù) 雜度可縮放的感知節(jié)拍估計"的發(fā)明專利申請的分案申請。
【技術(shù)領(lǐng)域】
[0002] 本申請涉及用于估計諸如音頻或組合視頻/音頻信號之類的媒體信號的節(jié)奏 (tempo)的方法和系統(tǒng)。特別地,該申請涉及由人類聽眾感知的節(jié)奏的估計,以及用于以可 縮放的計算復(fù)雜度進(jìn)行節(jié)奏估計的方法和系統(tǒng)。
【背景技術(shù)】
[0003] 例如PDA、智能電話、移動電話和便攜式媒體播放器的便攜式手持設(shè)備通常包括音 頻和/或視頻再現(xiàn)(render)能力并且已經(jīng)變成重要的娛樂平臺。此發(fā)展由無線或有線傳 輸能力在這樣的設(shè)備中的逐漸滲透推進(jìn)。由于諸如HE-AAC格式之類的媒體傳輸和/或存 儲協(xié)議的支持,媒體內(nèi)容可以被連續(xù)下載并存儲到便攜式手持設(shè)備上,從而提供實際上無 限量的媒體內(nèi)容。
[0004] 但是,由于有限的計算功率和能量消耗是重要的約束,因此低復(fù)雜度的算法對于 移動/手持設(shè)備是關(guān)鍵性的。這些約束對于新興市場中的低端便攜式設(shè)備更加關(guān)鍵。考慮 到在通常的便攜式電子設(shè)備上可用的海量媒體文件,為了對媒體文件聚類(cluster)或分 類從而使得便攜式電子設(shè)備的用戶能夠識別例如音頻、音樂和/或視頻文件的合適的媒體 文件,MIR(音樂信息檢索)應(yīng)用是期望的工具。用于這樣的MIR應(yīng)用的低復(fù)雜度的計算方 案是期望的,這是因為否則,它們在具有有限計算和功率資源的便攜式電子設(shè)備上的可用 性將受到損害。
[0005] 用于各種MIR應(yīng)用(例如風(fēng)格(genre)和情感(mood)分類、音樂概括 (smnmarization)、音頻縮略化、自動播放列表生成和使用音樂相似性的音樂推薦系統(tǒng)等 等)的重要的音樂特征是音樂節(jié)奏。因而,具有低計算復(fù)雜度的用于節(jié)奏確定的過程將有 助于對于移動設(shè)備的所提到的MIR應(yīng)用的分散實施的發(fā)展。
[0006] 此外,雖然通常通過以BPM(每分鐘拍數(shù))計的活頁樂譜或樂譜上的標(biāo)記節(jié)奏 (notated tempo)來表征音樂節(jié)奏,但是此值通常不對應(yīng)于感知節(jié)奏(perceptual tempo)。 例如,如果一群聽眾(包括熟練的音樂家)被要求評注音樂選段的節(jié)奏,則他們通常給出不 同的答案,即他們通常以不同的度量水平(metrical level)拍擊。對于一些音樂選段,感 知的節(jié)奏較不含糊,并且所有聽眾通常以相同的度量水平拍擊,但是對于其它音樂選段,節(jié) 奏可能是含糊的,并且不同的聽眾識別不同的節(jié)奏。換句話說,感知實驗已經(jīng)顯示感知的節(jié) 奏可能不同于標(biāo)記節(jié)奏。一段音樂可能感覺比它的標(biāo)記節(jié)奏快或慢,因為占優(yōu)勢的感知的 律動(pulse)可能是比標(biāo)記節(jié)奏高或低的度量水平。鑒于MIR應(yīng)用應(yīng)當(dāng)優(yōu)選地考慮最有可 能被用戶感知的節(jié)奏這一事實,自動節(jié)奏提取器應(yīng)當(dāng)預(yù)測音頻信號的在感知上最突出的節(jié) 奏。
[0007] 已知的節(jié)奏估計方法和系統(tǒng)具有各種缺點。在很多情況下,它們限于特別的音頻 編解碼器,例如MP3,并且不能應(yīng)用于利用其他編解碼器編碼的音軌。此外,這樣的節(jié)奏估 計方法通常僅僅在應(yīng)用于具有簡單明了的旋律結(jié)構(gòu)的西方流行音樂上時才能正常工作。另 夕卜,已知的節(jié)奏估計方法沒有考慮感知方面,即它們沒有針對估計最有可能被聽眾感知的 節(jié)奏。最后,已知的節(jié)奏估計方案通常在未壓縮PCM域、變換域或壓縮域中的僅僅之一中工 作。
[0008] 期望的是提供克服已知節(jié)奏估計方案的上述缺點的節(jié)奏估計方法和系統(tǒng)。特別 地,期望的是提供編解碼器不可知的和/或可適用于任何類型的音樂風(fēng)格的節(jié)奏估計。此 夕卜,期望的是提供一種估計音頻信號的在感知上最突出的節(jié)奏的節(jié)奏估計方案。此外,期望 一種可應(yīng)用于上述域(即未壓縮的PCM域、變換域和壓縮域)中的任何一個中的音頻信號 的節(jié)奏估計方案。還期望提供具有低計算復(fù)雜度的節(jié)奏估計方案。
[0009] 節(jié)奏估計方案可以用于各種應(yīng)用中。由于節(jié)奏是音樂中的基礎(chǔ)語義信息,因此這 樣的節(jié)奏的可靠估計將提高例如自動的基于內(nèi)容的風(fēng)格分類、情感分類、音樂相似、音頻縮 略化和音樂概括之類的其他MIR應(yīng)用的性能。此外,感知節(jié)奏的可靠估計對于音樂選擇、t匕 較、混合和播放列表化是有用的統(tǒng)計。值得注意的是,對于自動播放列表生成器或音樂導(dǎo)航 儀或DJ裝置,感知節(jié)奏或感覺通常比標(biāo)記的或物理的節(jié)奏更相關(guān)(relevant)。此外,對于 感知的節(jié)奏的可靠估計可以對游戲應(yīng)用有用。舉例來說,音帶節(jié)奏可以用于控制相關(guān)的游 戲參數(shù),例如游戲的速度,反之亦然。這可以用于使用音頻來個性化游戲內(nèi)容并且用于為用 戶提供增強(qiáng)的體驗。進(jìn)一步的應(yīng)用領(lǐng)域可以是基于內(nèi)容的音頻/視頻同步,其中音樂節(jié)拍 (beat)或節(jié)奏是用作用于定時事件的錨標(biāo)(anchor)的首要信息源。
[0010] 應(yīng)當(dāng)注意,在本申請中,術(shù)語"節(jié)奏"被理解為觸覺律動(pulse)的速率。此觸覺 也被稱為腳拍擊速率,即聽眾在收聽例如音樂信號的音頻信號時拍擊他們的腳的速率。這 不同于定義音樂信號的層級結(jié)構(gòu)的音樂計量。
[0011] W02006/037366A1描述了用于基于音樂片段的時域PCM表示生成編碼的旋律圖案 的設(shè)備和方法。US7518053B1描述了用于從兩個音頻流提取節(jié)拍并且將這兩個音頻流的節(jié) 拍對齊的方法。
【發(fā)明內(nèi)容】
[0012] 根據(jù)一方面,描述了一種用于從音頻信號的編碼的比特流中提取音頻信號的節(jié)奏 信息的方法,其中該編碼的比特流包括譜帶復(fù)制數(shù)據(jù)。編碼的比特流可以是HE-AAC比特流 或mp3PR0比特流。該音頻信號可以包括音樂信號,并且提取節(jié)奏信息可以包括估計音樂信 號的節(jié)奏。
[0013] 該方法可以包括確定對于音頻信號的時間間隔編碼的比特流中所包含的譜帶復(fù) 制數(shù)據(jù)的量相關(guān)聯(lián)的有效載荷量的步驟。值得注意的是,在編碼的比特流是HE-AAC比特流 的情況下,后一步驟可以包括確定在該時間間隔中該編碼的比特流的一個或多個填充元素 字段中所包括的數(shù)據(jù)的量,以及基于在該時間間隔中包括在該編碼的比特流的該一個或多 個填充元素字段中的數(shù)據(jù)的量來確定有效載荷量。
[0014] 由于譜帶復(fù)制數(shù)據(jù)可以使用固定頭部被編碼這一事實,在提取節(jié)奏信息之前去除 這樣的頭部可能是有益的。特別地,該方法可以包括確定在該時間間隔中該編碼的比特流 的一個或多個填充元素字段中所包含的譜帶復(fù)制頭部數(shù)據(jù)的量的步驟。此外,在該時間間 隔中該編碼的比特流的該一個或多個填充元素字段中所包含的數(shù)據(jù)的凈量可以通過扣除 或減去在該時間間隔中該編碼的比特流的該一個或多個填充元素字段中所包含的譜帶復(fù) 制頭部數(shù)據(jù)的量來確定。因此,頭部比特已被去掉,并且可以基于數(shù)據(jù)的凈量確定有效載荷 量。應(yīng)當(dāng)注意,如果譜帶復(fù)制頭部具有固定長度,則該方法可以包括:對在一時間間隔中譜 帶復(fù)制頭部的數(shù)目X計數(shù),以及從在該時間間隔中該編碼的比特流的一個或多個填充元素 字段中所包含的譜帶復(fù)制頭部數(shù)據(jù)的量扣除或減去該頭部的長度的X倍。
[0015] 在一個實施例中,該有效載荷量與在該時間間隔中編碼的比特流的一個或多個填 充元素字段中所包含的譜帶復(fù)制數(shù)據(jù)的量或凈量對應(yīng)。可替換地或附加地,可以從該一個 或多個填充元素字段中去掉進(jìn)一步的開銷數(shù)據(jù),以便確定實際的譜帶復(fù)制數(shù)據(jù)。
[0016] 編碼的比特流可以包括多個幀,每個幀與預(yù)定時間長度的音頻信號的選段對應(yīng)。 舉例來說,幀可以包括音樂信號的幾毫秒的選段。時間間隔可以與由編碼的比特流的一幀 覆蓋的時間長度對應(yīng)。舉例來說,AAC幀通常包括1024個頻譜值,即MDCT系數(shù)。頻譜值是 音頻信號的特定時間實例或時間間隔的頻率表示。時間和頻率之間的關(guān)系可以被表示為下 式:
[0017]
【權(quán)利要求】
1. 一種用于估計音頻信號的感知突出的節(jié)奏的方法,該方法包括: 確定來自該音頻信號的調(diào)制譜,其中該調(diào)制譜包括指示該音頻信號中的周期性的多個 出現(xiàn)頻率和相應(yīng)的多個重要性值,其中該重要性值指示在該音頻信號中的相應(yīng)的出現(xiàn)頻率 的相對重要性; 將物理上突出的節(jié)奏確定為與該多個重要性值的最大值對應(yīng)的出現(xiàn)頻率; 從該調(diào)制譜確定音頻信號的節(jié)拍度量; 從該調(diào)制譜確定感知節(jié)奏指示符,其中該感知節(jié)奏指示符包含以下中的一個或多個: 該調(diào)制譜的矩心、該音頻信號的節(jié)拍強(qiáng)度、以及該調(diào)制譜的混亂程度;以及 通過根據(jù)該節(jié)拍度量修改該物理上突出的節(jié)奏來確定感知突出的節(jié)奏, 其中該修改步驟考慮了該感知節(jié)奏指示符和物理上突出的節(jié)奏之間的關(guān)系。
2. 如權(quán)利要求1所述的方法,其中該音頻信號由沿著時間軸的PCM樣本的序列表示,以 及其中確定調(diào)制譜包括: 從PCM樣本的序列中選擇多個接連的、部分重疊的子序列; 對于該多個接連的子序列確定具有譜分辨率的多個接連的功率譜; 利用感知非線性變換濃縮多個接連的功率譜的譜分辨率;以及 對該多個接連的濃縮的功率譜執(zhí)行沿著該時間軸的譜分析,從而得到多個重要性值和 它們的相應(yīng)的出現(xiàn)頻率。
3. 如權(quán)利要求1所述的方法,其中該音頻信號由沿著時間軸的接連的MDCT系數(shù)塊的序 列表示,以及其中確定調(diào)制譜包括: 利用感知非線性變換濃縮塊中的MDCT系數(shù)的數(shù)目;以及 對該接連的濃縮的MDCT系數(shù)塊的序列執(zhí)行沿著該時間軸的譜分析,從而得到多個重 要性值和它們的相應(yīng)的出現(xiàn)頻率。
4. 如權(quán)利要求1所述的方法,其中該音頻信號由包括譜帶復(fù)制數(shù)據(jù)和沿著時間軸的多 個接連的幀的編碼的比特流表示,以及其中確定調(diào)制譜包括: 確定在該編碼的比特流的幀序列中的譜帶復(fù)制數(shù)據(jù)量相關(guān)聯(lián)的有效載荷量的序列; 從該有效載荷量的序列中選擇多個接連的、部分重疊的子序列;以及 對該多個接連的子序列執(zhí)行沿著該時間軸的譜分析,從而輸出多個重要性值和它們的 相應(yīng)的出現(xiàn)頻率。
5. 如權(quán)利要求1到4中的任何一個所述的方法,其中確定調(diào)制譜包括: 將該多個重要性值乘以與它們的相應(yīng)出現(xiàn)頻率的人類感知偏好相關(guān)聯(lián)的權(quán)重。
6. 如權(quán)利要求1到4中的任何一個所述的方法,其中確定物理上突出的節(jié)奏包括: 將物理上突出的節(jié)奏確定為與多個重要性值的絕對最大值對應(yīng)的出現(xiàn)頻率。
7. 如權(quán)利要求1到4中的任何一個所述的方法,其中確定節(jié)拍度量包括: 確定對于多個非零的頻率滯后的調(diào)制譜的自相關(guān); 識別自相關(guān)的最大值和相應(yīng)的頻率滯后;以及 基于相應(yīng)的頻率滯后和物理上突出的節(jié)奏確定節(jié)拍度量。
8. 如權(quán)利要求1到4中的任何一個所述的方法,其中確定節(jié)拍度量包括: 確定調(diào)制譜和分別與多個節(jié)拍度量對應(yīng)的多個合成的拍擊函數(shù)之間的互相關(guān);以及 選擇得到最大互相關(guān)的節(jié)拍度量。
9. 如權(quán)利要求1到4中的任何一個所述的方法,其中該節(jié)拍度量是以下中的一個: 在3/4節(jié)拍的情況下,為3;或 在4/4節(jié)拍的情況下,為2。
10. 如權(quán)利要求1到4中的任何一個所述的方法,其中確定感知節(jié)奏指示符包括: 將第一感知節(jié)奏指示符確定為通過該多個重要性值的最大值規(guī)格化的該多個重要性 值的均值,其中該第一感知節(jié)奏指示符指示該調(diào)制譜的混亂程度。
11. 如權(quán)利要求10所述的方法,其中確定感知突出的節(jié)奏包括: 確定第一感知節(jié)奏指示符是否超過第一閾值;以及 只有當(dāng)?shù)谝婚撝当怀^時,才修改該物理上突出的節(jié)奏。
12. 如權(quán)利要求1到4中的任何一個所述的方法,其中確定感知節(jié)奏指示符包括: 將第二感知節(jié)奏指示符確定為多個重要性值的最大重要性值,其中該第二感知節(jié)奏指 示符指示該音頻信號的節(jié)拍強(qiáng)度。
13. 如權(quán)利要求12所述的方法,其中確定感知突出的節(jié)奏包括: 確定第二感知節(jié)奏指示符是否低于第二閾值;以及 如果第二感知節(jié)奏指示符低于第二閾值,則修改物理上突出的節(jié)奏。
14. 如權(quán)利要求1到4中的任何一個所述的方法,其中確定感知節(jié)奏指示符包括: 將第三感知節(jié)奏指示符確定為調(diào)制譜的矩心出現(xiàn)頻率。
15. 如權(quán)利要求14所述的方法,其中確定感知突出的節(jié)奏包括: 確定第三感知節(jié)奏指示符和物理上突出的節(jié)奏之間的失配;以及 如果失配被確定,則修改物理上突出的節(jié)奏。
16. 如權(quán)利要求15所述的方法,其中確定失配包括: 確定第三感知節(jié)奏指示符低于第三閾值并且物理上突出的節(jié)奏高于第四閾值;或 確定第三感知節(jié)奏指示符高于第五閾值并且物理上突出的節(jié)奏低于第六閾值; 其中該第三、第四、第五和第六閾值中的至少一個與人類感知節(jié)奏偏好相關(guān)聯(lián)。
17. 如權(quán)利要求1到4中的任何一個所述的方法,其中根據(jù)節(jié)拍度量修改物理上突出的 節(jié)奏包括: 將節(jié)拍水平增大到基礎(chǔ)節(jié)拍的下一較高的節(jié)拍水平;或 將節(jié)拍水平減小到基礎(chǔ)節(jié)拍的下一較低的節(jié)拍水平。
18. 如權(quán)利要求17所述的方法,其中增大或減小節(jié)拍水平包括: 在3/4節(jié)拍的情況下,將物理上突出的節(jié)奏乘以或除以3 ;以及 在4/4節(jié)拍的情況下,將物理上突出的節(jié)奏乘以或除以2。
19. 一種被配置為估計音頻信號的感知突出的節(jié)奏的系統(tǒng),該系統(tǒng)包括: 用于確定該音頻信號的調(diào)制譜的裝置,其中該調(diào)制譜包括指示該音頻信號中的周期性 的多個出現(xiàn)頻率和相應(yīng)的多個重要性值,其中該重要性值指示在該音頻信號中的相應(yīng)的出 現(xiàn)頻率的相對重要性; 用于將物理上突出的節(jié)奏確定為與該多個重要性值的最大值對應(yīng)的出現(xiàn)頻率的裝 置; 用于通過分析該調(diào)制譜確定音頻信號的節(jié)拍度量的裝置; 用于從該調(diào)制譜確定感知節(jié)奏指示符的裝置,其中該感知節(jié)奏指示符包含以下中的一 個或多個:該調(diào)制譜的矩心、該音頻信號的節(jié)拍強(qiáng)度、以及該調(diào)制譜的混亂程度;以及 用于通過根據(jù)該節(jié)拍度量修改該物理上突出的節(jié)奏來確定感知突出的節(jié)奏的裝置, 其中該修改考慮了該感知節(jié)奏指示符和物理上突出的節(jié)奏之間的關(guān)系。
20. 如權(quán)利要求19所述的系統(tǒng),其中該音頻信號由沿著時間軸的PCM樣本的序列表示, 以及其中用于確定調(diào)制譜的裝置包括: 用于從PCM樣本的序列中選擇多個接連的、部分重疊的子序列的裝置; 用于對于該多個接連的子序列確定具有譜分辨率的多個接連的功率譜的裝置; 用于利用感知非線性變換濃縮多個接連的功率譜的譜分辨率的裝置;以及 用于對該多個接連的濃縮的功率譜執(zhí)行沿著該時間軸的譜分析,從而得到多個重要性 值和它們的相應(yīng)的出現(xiàn)頻率的裝置。
21. 如權(quán)利要求19所述的系統(tǒng),其中該音頻信號由沿著時間軸的接連的MDCT系數(shù)塊的 序列表示,以及其中用于確定調(diào)制譜的裝置包括: 用于利用感知非線性變換濃縮塊中的MDCT系數(shù)的數(shù)目的裝置;以及 用于對該接連的濃縮的MDCT系數(shù)塊的序列執(zhí)行沿著該時間軸的譜分析,從而得到多 個重要性值和它們的相應(yīng)的出現(xiàn)頻率的裝置。
22. 如權(quán)利要求19所述的系統(tǒng),其中該音頻信號由包括譜帶復(fù)制數(shù)據(jù)和沿著時間軸的 多個接連的幀的編碼的比特流表示,以及其中用于確定調(diào)制譜的裝置包括: 用于確定在該編碼的比特流的幀序列中的譜帶復(fù)制數(shù)據(jù)量相關(guān)聯(lián)的有效載荷量的序 列的裝置; 用于從該有效載荷量的序列中選擇多個接連的、部分重疊的子序列的裝置;以及 用于對該多個接連的子序列執(zhí)行沿著該時間軸的譜分析,從而輸出多個重要性值和它 們的相應(yīng)的出現(xiàn)頻率的裝置。
23. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于確定調(diào)制譜的裝置包括: 用于將該多個重要性值乘以與它們的相應(yīng)出現(xiàn)頻率的人類感知偏好相關(guān)聯(lián)的權(quán)重的 裝直。
24. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于確定物理上突出的節(jié)奏的 裝置包括: 用于將物理上突出的節(jié)奏確定為與多個重要性值的絕對最大值對應(yīng)的出現(xiàn)頻率的裝 置。
25. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于確定節(jié)拍度量的裝置包 括: 用于確定對于多個非零的頻率滯后的調(diào)制譜的自相關(guān)的裝置; 用于識別自相關(guān)的最大值和相應(yīng)的頻率滯后的裝置;以及 用于基于相應(yīng)的頻率滯后和物理上突出的節(jié)奏確定節(jié)拍度量的裝置。
26. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于確定節(jié)拍度量的裝置包 括: 用于確定調(diào)制譜和分別與多個節(jié)拍度量對應(yīng)的多個合成的拍擊函數(shù)之間的互相關(guān)的 裝置;以及 用于選擇得到最大互相關(guān)的節(jié)拍度量的裝置。
27. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中該節(jié)拍度量是以下中的一個: 在3/4節(jié)拍的情況下,為3;或 在4/4節(jié)拍的情況下,為2。
28. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于確定感知節(jié)奏指示符的裝 置包括: 用于將第一感知節(jié)奏指示符確定為通過該多個重要性值的最大值規(guī)格化的該多個重 要性值的均值的裝置,其中該第一感知節(jié)奏指示符指示該調(diào)制譜的混亂程度。
29. 如權(quán)利要求28所述的系統(tǒng),其中用于確定感知突出的節(jié)奏的裝置包括: 用于確定第一感知節(jié)奏指示符是否超過第一閾值的裝置;以及 用于只有當(dāng)?shù)谝婚撝当怀^時,才修改該物理上突出的節(jié)奏的裝置。
30. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于確定感知節(jié)奏指示符的裝 置包括: 用于將第二感知節(jié)奏指示符確定為多個重要性值的最大重要性值的裝置,其中該第二 感知節(jié)奏指示符指示該音頻信號的節(jié)拍強(qiáng)度。
31. 如權(quán)利要求30所述的系統(tǒng),其中用于確定感知突出的節(jié)奏的裝置包括: 用于確定第二感知節(jié)奏指示符是否低于第二閾值的裝置;以及 用于如果第二感知節(jié)奏指示符低于第二閾值,則修改物理上突出的節(jié)奏的裝置。
32. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于確定感知節(jié)奏指示符的裝 置包括: 用于將第三感知節(jié)奏指示符確定為調(diào)制譜的矩心出現(xiàn)頻率的裝置。
33. 如權(quán)利要求32所述的系統(tǒng),其中用于確定感知突出的節(jié)奏的裝置包括: 用于確定第三感知節(jié)奏指示符和物理上突出的節(jié)奏之間的失配的裝置;以及 用于如果失配被確定,則修改物理上突出的節(jié)奏的裝置。
34. 如權(quán)利要求33所述的系統(tǒng),其中用于確定失配的裝置包括: 用于確定第三感知節(jié)奏指示符低于第三閾值并且物理上突出的節(jié)奏高于第四閾值的 裝置;或 用于確定第三感知節(jié)奏指示符高于第五閾值并且物理上突出的節(jié)奏低于第六閾值的 裝置; 其中,該第三、第四、第五和第六閾值中的至少一個與人類感知節(jié)奏偏好相關(guān)聯(lián)。
35. 如權(quán)利要求19到22中的任何一個所述的系統(tǒng),其中用于根據(jù)節(jié)拍度量修改物理上 突出的節(jié)奏的裝置包括: 用于將節(jié)拍水平增大到基礎(chǔ)節(jié)拍的下一較高的節(jié)拍水平的裝置;或 用于將節(jié)拍水平減小到基礎(chǔ)節(jié)拍的下一較低的節(jié)拍水平的裝置。
36. 如權(quán)利要求35所述的系統(tǒng),其中,用于增大或減小節(jié)拍水平的裝置包括: 用于在3/4節(jié)拍的情況下,將物理上突出的節(jié)奏乘以或除以3的裝置;以及 用于在4/4節(jié)拍的情況下,將物理上突出的節(jié)奏乘以或除以2的裝置。
37. -種用于產(chǎn)生包括音頻信號的元數(shù)據(jù)的編碼的比特流的方法,該方法包括: 確定與音頻信號的節(jié)奏相關(guān)聯(lián)的元數(shù)據(jù),其中該節(jié)奏根據(jù)如權(quán)利要求1 一 18中任一項 所述的方法確定;以及 將該元數(shù)據(jù)插入到編碼的比特流中。
38. 如權(quán)利要求37所述的方法,其中該元數(shù)據(jù)包括表示音頻信號的物理上突出的節(jié)奏 和/或感知突出的節(jié)奏的數(shù)據(jù)。
39. 如權(quán)利要求37和38中的任何一個所述的方法,其中該元數(shù)據(jù)包括代表來自該音頻 信號的調(diào)制譜的數(shù)據(jù),其中該調(diào)制譜包括多個出現(xiàn)頻率和相應(yīng)的多個重要性值,其中該重 要性值指示相應(yīng)的出現(xiàn)頻率在該音頻信號中的相對重要性。
40. 如權(quán)利要求37和38中的任何一個所述的方法,還包括: 利用 HE-AAC、MP3、AAC、Dolby Digital 或 Dolby Digital Plus 編碼器中的一個,將音 頻信號編碼成編碼的比特流的有效載荷數(shù)據(jù)的序列。
41. 一種音頻編碼器,被配置為產(chǎn)生包括音頻信號的元數(shù)據(jù)的編碼的比特流,該編碼器 包括: 用于確定與音頻信號的節(jié)奏相關(guān)聯(lián)的元數(shù)據(jù)的裝置,其中該節(jié)奏根據(jù)如權(quán)利要求1 一 18中任一項所述的方法步驟確定;和 用于將該元數(shù)據(jù)插入到編碼的比特流中的裝置。
42. 如權(quán)利要求41所述的音頻編碼器,其中該元數(shù)據(jù)包括表示音頻信號的物理上突出 的節(jié)奏和/或感知突出的節(jié)奏的數(shù)據(jù)。
43. 如權(quán)利要求41和42中的任何一個所述的音頻編碼器,其中該元數(shù)據(jù)包括代表來自 該音頻信號的調(diào)制譜的數(shù)據(jù),其中該調(diào)制譜包括多個出現(xiàn)頻率和相應(yīng)的多個重要性值,其 中該重要性值指示相應(yīng)的出現(xiàn)頻率在該音頻信號中的相對重要性。
44. 如權(quán)利要求41和42中的任何一個所述的音頻編碼器,還包括: 用于利用 HE-AAC、MP3、AAC、Dolby Digital 或 Dolby Digital Plus 編碼器中的一個, 將音頻信號編碼成編碼的比特流的有效載荷數(shù)據(jù)的序列的裝置。
【文檔編號】G10H1/40GK104157280SQ201410392507
【公開日】2014年11月19日 申請日期:2010年10月26日 優(yōu)先權(quán)日:2009年10月30日
【發(fā)明者】A·比斯沃斯, D·霍洛斯, M·舒格 申請人:杜比國際公司