一種音頻處理方法及裝置制造方法

文檔序號：2826334閱讀：263來源：國知局

一種音頻處理方法及裝置制造方法
【專利摘要】本發(fā)明實施例提供一種音頻處理方法及裝置，其中的方法可包括：從待處理的音頻文件中選取區(qū)間音頻數據；構建所述區(qū)間音頻數據的特征參數序列，所述特征參數序列包括能量序列和頻譜滾降序列；根據所述區(qū)間音頻數據的特征參數序列，定位所述音頻文件的副歌。本發(fā)明可以對音頻文件進行副歌定位，提升音頻處理的智能性。
【專利說明】一種音頻處理方法及裝置

【技術領域】
[0001] 本發(fā)明涉及互聯網【技術領域】，具體涉及音頻處理【技術領域】，尤其涉及一種音頻處理方法及裝置。

【背景技術】
[0002] 副歌，通常指音頻文件(如歌曲、音樂等等）的高潮部分。以歌曲為例，一首歌曲通常采用AA' BA' Form (音樂結構)，A代表主歌，而B代表副歌；也即時說，通常一首歌曲由 "前奏+兩段主歌+ -段副歌+過門音樂+ -段副歌+ -段主歌+結尾音樂"按順序連接構成。副歌定位對音頻文件的分析和處理起著重要作用，因此，如何在音頻文件中進行副歌定位，成為音頻處理領域的一個亟待解決的重要問題。

【發(fā)明內容】

[0003] 本發(fā)明實施例提供一種音頻處理方法及裝置，可以對音頻文件進行副歌定位，提升音頻處理的智能性。
[0004] 本發(fā)明第一方面提供一種音頻處理方法，可包括：
[0005] 從待處理的音頻文件中選取區(qū)間音頻數據；
[0006] 構建所述區(qū)間音頻數據的特征參數序列，所述特征參數序列包括能量序列和頻譜滾降序列；
[0007] 根據所述區(qū)間音頻數據的特征參數序列，定位所述音頻文件的副歌。
[0008] 本發(fā)明第二方面提供一種音頻處理裝置，可包括：
[0009] 選取模塊，用于從待處理的音頻文件中選取區(qū)間音頻數據；
[0010] 構建模塊，用于構建所述區(qū)間音頻數據的特征參數序列，所述特征參數序列包括能量序列和頻譜滾降序列；
[0011] 定位模塊，用于根據所述區(qū)間音頻數據的特征參數序列，定位所述音頻文件的副歌。
[0012] 實施本發(fā)明實施例，具有如下有益效果：
[0013] 本發(fā)明實施例可從待處理的音頻文件中選取區(qū)間音頻數據，構建區(qū)間音頻數據的特征參數序列，以實現音頻文件的副歌定位，提升了音頻處理的智能性；另外，由于僅需要從音頻文件中選取區(qū)間音頻數據進行音頻處理，可有效提升音頻處理的效率，進一步提升音頻處理的智能性。

【專利附圖】

【附圖說明】
[0014] 為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。
[0015] 圖1為本發(fā)明實施例提供的一種音頻處理方法的流程圖；
[0016] 圖2為本發(fā)明實施例提供的圖1所示的步驟S101的實施例的流程圖；
[0017] 圖3為本發(fā)明實施例提供的圖1所示的步驟S102的實施例的部分流程圖；
[0018] 圖4為本發(fā)明實施例提供的圖1所示的步驟S102的實施例的另一部分流程圖； [0019] 圖5為本發(fā)明實施例提供的圖1所示的步驟S103的實施例的流程圖；
[0020] 圖6為本發(fā)明實施例提供的一種音頻處理裝置的結構示意圖；
[0021] 圖7為本發(fā)明實施例提供的選取模塊的實施例的結構示意圖；
[0022] 圖8為本發(fā)明實施例提供的構建模塊的實施例的部分結構示意圖；
[0023] 圖9為本發(fā)明實施例提供的構建模塊的實施例的另一部分結構示意圖；
[0024] 圖10為本發(fā)明實施例提供的定位模塊的實施例的結構示意圖。

【具體實施方式】
[0025] 下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；?本發(fā)明中的實施例，本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0026] 本發(fā)明實施例中，音頻文件可以包括但不限于：歌曲、歌曲片段、音樂、音樂片段、演奏樂、演奏樂片段、哼唱歌曲、哼唱歌曲片段等文件。本發(fā)明實施例的音頻處理方案可以應用于互聯網領域的多個場景中，例如：可以應用于對互聯網音頻庫中的音頻文件進行分析處理的場景，包括：可應用于主音查找的場景中進行副歌的快速定位和準確提取，也可應用于哼唱搜索的場景中進行副歌的快速定位和準確提取，還可應用于樂曲識別的場景中進行副歌的快速定位和準確提取等等；或者，可以應用于對互聯網音頻庫中的音頻文件進行試聽的場景，包括：可提供副歌進行在線播放或音樂下載前的試聽；或者，可以應用于彩鈴下載或試聽場景，包括：快速定位和準確提取副歌，將副歌作為彩鈴提供給用戶進行下載或試聽，等等。
[0027] 下面將結合附圖1-附圖5,對本發(fā)明實施例提供的音頻處理方法進行詳細介紹。需要說明的是，附圖1-附圖5所示的音頻處理方法可以由本發(fā)明實施例提供的音頻處理裝置所執(zhí)行，該音頻處理裝置可運行于終端設備或服務器中，其中，終端設備可包括但不限于：PC (Personal Computer,個人計算機)、PAD (平板電腦)、手機、智能手機、筆記本電腦等設備。
[0028] 請參見圖1，為本發(fā)明實施例提供的一種音頻處理方法的流程圖；該方法可包括以下步驟S101-步驟S103。
[0029] S101，從待處理的音頻文件中選取區(qū)間音頻數據。
[0030] 本發(fā)明實施例中，區(qū)間音頻數據指從音頻文件中所選取的、某個時長區(qū)間范圍所確定的音頻數據，例如：假設音頻文件的時長為T，[T/5,3T/5]的時長區(qū)間范圍可確定一個區(qū)間音頻數據，[Τ/2，Τ]的時長區(qū)間范圍又可確定另一個區(qū)間音頻數據，等等。本步驟中，可根據實際情況從音頻文件中選取合理的區(qū)間音頻數據，例如：根據對大量音頻文件的統(tǒng) 計數據，從音頻文件中選取區(qū)間音頻數據；或者根據對音頻文件進行分析處理獲得的實驗數據，從音頻文件中選取區(qū)間音頻數據。
[0031] S102,構建所述區(qū)間音頻數據的特征參數序列，所述特征參數序列包括能量序列和頻譜滾降序列。
[0032] -個區(qū)間音頻數據可以表示為多幀音頻幀信號組成的一個幀序列，該區(qū)間音頻數據的每幀音頻幀信號均具備能量。頻譜滾降可表征連續(xù)的兩幀音頻幀信號的歸一化頻譜系數之間的關系。本步驟中，可以對該區(qū)間音頻數據的每一幀音頻幀信號進行能量計算，獲得該區(qū)間音頻數據的每一幀音頻幀信號的能量，從而構建該區(qū)間音頻數據的能量序列；可以檢測該區(qū)間音頻數據的連續(xù)兩幀音頻幀信號的歸一化頻譜系數之間的關系，構建該區(qū)間音頻數據的頻譜滾降序列。
[0033] S103,根據所述區(qū)間音頻數據的特征參數序列，定位所述音頻文件的副歌。
[0034] 副歌，通常指音頻文件的高潮部分。以歌曲為例，一首歌曲通常采用AA'BA'Form， A代表主歌，而B代表副歌；也即時說，通常一首歌曲由"前奏+兩段主歌+ -段副歌+過門音樂+ -段副歌+ -段主歌+結尾音樂"按順序連接構成。本步驟可基于所選取的區(qū)間音頻數據的特征參數序列，定位音頻文件的副歌。
[0035] 下面將結合附圖2-附圖5,對圖1所示的音頻處理方法中的各步驟進行詳細介紹。
[0036] 請參見圖2,為本發(fā)明實施例提供的圖1所示的步驟S101的實施例的流程圖；該步驟S101可包括以下步驟sllOl-步驟sll03。
[0037] si 101，獲取所述待處理的音頻文件的時長。本實施例可假設音頻文件的時長為T，即所述音頻文件的時長區(qū)間為[0, T]。
[0038] S1102,按照預設的時間比范圍，計算所選取的時長區(qū)間。
[0039] 時間比范圍可表示為[&，RH]，其中&和RH分別代表時間占比，[&，R H]的取值為 [0，1]，且&〈心。時間比范圍[&，RH]可以根據實際情況進行設定，例如：時間比范圍可根據對大量音頻文件的統(tǒng)計數據進行設定；或者時間比范圍可根據對音頻文件進行分析處理獲得的實驗數據進行設定。假設預設的時間比范圍為[1/5, 3/5]，即&=1/5, RH=3/5,本步驟計算獲得所選取的時長區(qū)間則為[T/5,3T/5]。
[0040] S1103,根據所述時長區(qū)間，從所述音頻文件中選取區(qū)間音頻數據。
[0041] 參照步驟S1102所示例子，本步驟可從音頻文件中選取[Τ/5,3Τ/5]這一時長區(qū)間所確定的區(qū)間音頻數據。
[0042] 下面將結合圖3-圖4,對圖1所示的步驟S102進行詳細介紹。需要說明的是，該步驟S102由兩個構建過程組成，其中一個構建過程為"構建所述區(qū)間音頻數據的能量序列"的過程，該構建過程具體可參見下述圖3所示實施例的描述；另一個構建過程為"構建所述區(qū)間音頻數據的頻譜滾降序列"的過程，該構建過程具體可參見下述圖4所示實施例的描述。
[0043] 請參見圖3,為本發(fā)明實施例提供的圖1所示的步驟S102的實施例的部分流程圖；該步驟S102可包括以下步驟sl201-步驟sl203。
[0044] S1201，對所述區(qū)間音頻數據進行分幀處理，獲得至少一幀音頻幀信號。
[0045] 一個區(qū)間音頻數據可以表示為多幀音頻幀信號組成的一個幀序列，本步驟中，假設該區(qū)間音頻數據包含的任一幀音頻幀信號可表示為 Xi (η)，每幀音頻幀信號的幀長為Ts，進行分幀處理可獲得的音頻幀信號的數量為FN。其中，i表示該區(qū)間音頻數據中該幀音頻幀信號的順序，i為正整數且i = 1，2,. . . FN-1 ;n為正整數且η = 0, 1，2, N-1，其中N為該幀音頻幀信號的長度，即Ν為該幀音頻幀信號的采樣點數。
[0046] S1202,計算所述至少一幀音頻幀信號中的各幀音頻幀信號的能量。
[0047] 本步驟可基于下述（1)所示的能量公式，計算FN幀音頻幀信號中的各幀音頻幀信號的能量。

【權利要求】
1. 一種音頻處理方法，其特征在于，包括：從待處理的音頻文件中選取區(qū)間音頻數據；構建所述區(qū)間音頻數據的特征參數序列，所述特征參數序列包括能量序列和頻譜滾降序列；根據所述區(qū)間音頻數據的特征參數序列，定位所述音頻文件的副歌。
2. 如權利要求1所述的方法，其特征在于，所述從待處理的音頻文件中選取區(qū)間音頻數據，包括：獲取所述待處理的音頻文件的時長；按照預設的時間比范圍，計算所選取的時長區(qū)間；根據所述時長區(qū)間，從所述音頻文件中選取區(qū)間音頻數據。
3. 如權利要求2所述的方法，其特征在于，所述構建所述區(qū)間音頻數據的特征參數序列，包括：對所述區(qū)間音頻數據進行分幀處理，獲得至少一幀音頻幀信號；計算所述至少一幀音頻幀信號中的各幀音頻幀信號的能量；按照所述至少一幀音頻幀信號中的各幀音頻幀信號的順序，對所述各幀音頻幀信號的能量進行排列，構建所述區(qū)間音頻數據的能量序列。
4. 如權利要求3所述的方法，其特征在于，所述構建所述區(qū)間音頻數據的特征參數序列，還包括：對所述至少一幀音頻幀信號中的各幀音頻幀信號的頻譜系數進行歸一化處理，獲得所述各幀音頻幀信號的歸一化頻譜系數；按照所述至少一幀音頻幀信號中的各幀音頻幀信號的順序，計算連續(xù)兩幀音頻幀信號的歸一化頻譜系數的差的平方和；對所述連續(xù)兩幀音頻幀信號的歸一化頻譜系數的差的平方和進行求和計算，獲得所述區(qū)間音頻數據的頻譜滾降序列。
5. 如權利要求2-4任一項所述的方法，其特征在于，所述根據所述區(qū)間音頻數據的特征參數序列，定位所述音頻文件的副歌，包括：分別對所述區(qū)間音頻數據的能量序列和頻譜滾降序列進行歸一化處理；根據所述歸一化后的能量序列、所述歸一化后的頻譜滾降序列以及預設的副歌時長，計算副歌在所述區(qū)間音頻數據中的位置；根據所述副歌在所述區(qū)間音頻數據中的位置，在所述音頻文件中定位所述副歌。
6. -種音頻處理裝置，其特征在于，包括：選取模塊，用于從待處理的音頻文件中選取區(qū)間音頻數據；構建模塊，用于構建所述區(qū)間音頻數據的特征參數序列，所述特征參數序列包括能量序列和頻譜滾降序列；定位模塊，用于根據所述區(qū)間音頻數據的特征參數序列，定位所述音頻文件的副歌。
7. 如權利要求6所述的裝置，其特征在于，所述選取模塊包括：時長獲取單元，用于獲取所述待處理的音頻文件的時長；區(qū)間計算單元，用于按照預設的時間比范圍，計算所選取的時長區(qū)間；選取單元，用于根據所述時長區(qū)間，從所述音頻文件中選取區(qū)間音頻數據。
8. 如權利要求7所述的裝置，其特征在于，所述構建模塊包括：分幀處理單元，用于對所述區(qū)間音頻數據進行分幀處理，獲得至少一幀音頻幀信號；能量計算單元，用于計算所述至少一幀音頻幀信號中的各幀音頻幀信號的能量；能量序列構建單元，用于按照所述至少一幀音頻幀信號中的各幀音頻幀信號的順序，對所述各幀音頻幀信號的能量進行排列，構建所述區(qū)間音頻數據的能量序列。
9. 如權利要求8所述的裝置，其特征在于，所述構建模塊還包括：系數歸一處理單元，用于對所述至少一幀音頻幀信號中的各幀音頻幀信號的頻譜系數進行歸一化處理，獲得所述各幀音頻幀信號的歸一化頻譜系數；頻譜系數計算單元，用于按照所述至少一幀音頻幀信號中的各幀音頻幀信號的順序，計算連續(xù)兩幀音頻幀信號的歸一化頻譜系數的差的平方和；頻譜滾降序列構建單元，用于對所述連續(xù)兩幀音頻幀信號的歸一化頻譜系數的差的平方和進行求和計算，獲得所述區(qū)間音頻數據的頻譜滾降序列。
10. 如權利要求7-9任一項所述的裝置，其特征在于，所述定位模塊包括：歸一化處理單元，用于分別對所述區(qū)間音頻數據的能量序列和頻譜滾降序列進行歸一化處理；位置計算單元，用于根據所述歸一化后的能量序列、所述歸一化后的頻譜滾降序列以及預設的副歌時長，計算副歌在所述區(qū)間音頻數據中的位置；定位單元，用于根據所述副歌在所述區(qū)間音頻數據中的位置，在所述音頻文件中定位所述副歌。
【文檔編號】G10L25/21GK104091591SQ201310481839
【公開日】2014年10月8日申請日期:2013年10月15日優(yōu)先權日:2013年10月15日
【發(fā)明者】趙偉峰申請人:騰訊科技（深圳）有限公司

完整全部詳細技術資料下載