專利名稱:一種基于音頻片段切分的數(shù)字音頻時域壓縮方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于音頻片段切分的數(shù)字音頻時域壓縮方法,屬于音頻處理技術(shù) 領(lǐng)域。
背景技術(shù):
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展,音樂已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡膴?樂形式。當(dāng)選用一首樂曲作為背景音樂的時候,通常會發(fā)生所選樂曲的播放時間長度與 所需要的播放時間長度不相符的情況。此時,需要壓縮和調(diào)整樂曲的內(nèi)容,同時保證樂曲 的播放效果?,F(xiàn)有的數(shù)字音頻時域壓縮方法可以分為均勻數(shù)字音頻時域壓縮方法和非均 勻數(shù)字音頻時域壓縮方法,如名稱為“一種基于歌詞的數(shù)字音頻時域壓縮方法”、申請?zhí)枮?CN200910235724. 3、公開號為CN101702321A的發(fā)明專利,上述兩類數(shù)字音頻時域壓縮方法 在處理用戶所要求的播放時間長度與樂曲的原始時間長度相差較大的情況時,會導(dǎo)致樂曲 的播放速率過快、聲音抖動等問題,無法達到理想的時域壓縮效果。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種基于音頻片段切分的數(shù)字音頻時域壓縮方法,通過提取 樂曲的數(shù)字音頻中的音頻特征,分析并獲得樂曲的結(jié)構(gòu)信息,根據(jù)樂曲的結(jié)構(gòu)信息選擇并 刪除若干個可刪除音頻片段序列,最后使用數(shù)字音頻時域壓縮方法對刪除后的數(shù)字音頻進 行時域壓縮,從而改變樂曲的播放時間長度。本發(fā)明提出的基于音頻片段切分的數(shù)字音頻時域壓縮方法,包括以下步驟(1)將原始樂曲數(shù)字音頻分為η個音頻片段,得到一個音頻片段序列,記為S1、S2、 S3........Sn_i、Sn,設(shè)音頻片段Si的原始時間長度為ti ;(2)根據(jù)用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度九和壓縮過程中的樂曲數(shù) 字音頻的當(dāng)前時間長度Tm,得到時域壓縮率P= Jl ;
1 m(3)對上述時域壓縮率ρ進行判斷,若ρ小于或者等于用戶設(shè)定的最小壓縮率Pmin, 則轉(zhuǎn)至步驟G),若時域壓縮率P大于用戶設(shè)定的最小壓縮率Pmin,則轉(zhuǎn)至步驟(8);(4)對上述η個音頻片段中的任意兩個音頻片段Si、Sj,使用音頻片段相似度量方 法計算音頻片段Si與音頻片段~之間的相似度值dM,對相似度值進行判斷,若相似度 值dy大于或者等于設(shè)定的相似度閾值I,則判斷音頻片段Si與音頻片段~為相似音頻片 段,若相似度值小于設(shè)定的相似度閾值I,則判斷音頻片段Si與音頻片段~為不相似音 頻片段,重復(fù)該步驟,遍歷η個音頻片段中的任意兩個音頻片段,得到所有任意兩個音頻片 段之間的相似關(guān)系,相似度閾值I為從正無窮到負(fù)無窮的實數(shù);(5)根據(jù)上述音頻片段之間的相似關(guān)系,將η個音頻片段分為w個音頻片段組,記
為&、G2.....Gx.....Gw,滿足音頻片段組&中的任意一個音頻片段Si,在&中至少存在
一個與音頻片段Si相似的音頻片段~,且在音頻片段組&以外的音頻片段組中不存在與音 頻片段Si相似的音頻片段;
(6)為每個音頻片段組Gi設(shè)置一個唯一的音頻片段組標(biāo)識符Ai,用一個音頻片段 組標(biāo)識符Ai對音頻片段組Gi中的所有音頻片段進行標(biāo)記;用音頻片段組標(biāo)識符Ai表達上
述音頻片段序列Sl、s2,s3........Slri、\,得到與樂曲的音頻片段序列相對應(yīng)的音頻片段
組標(biāo)識符序列;形成一個可刪除子序列%、sb+1........Sm、se,該可刪除子序列滿足在音
頻片段標(biāo)識符序列中存在兩個相鄰的音頻片段標(biāo)識符,該兩個音頻片段標(biāo)識符分別與音頻 片段Slri和音頻片段組標(biāo)識符與se+1相對應(yīng),其中,b和e為正整數(shù),l<b^e<n ;遍歷音 頻片段組標(biāo)識符序列,得到所有可刪除子序列;(7)從上述音頻片段序列中刪除一個可刪除子序列,使刪除可刪除子序列后的樂 曲數(shù)字音頻的時間長度T。與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差值 的絕對值最小,轉(zhuǎn)至步驟O);(8)根據(jù)步驟( 得到時域壓縮率P,使用數(shù)字音頻時域壓縮方法對上述數(shù)字音頻 文件進行時域壓縮。本發(fā)明提出的基于音頻片段切分的數(shù)字音頻時域壓縮方法,在數(shù)字音頻時域壓縮 前,根據(jù)樂曲的結(jié)構(gòu)信息找到滿足特定條件的音頻片段子序列,刪除音頻片段子序列后,可 以保證樂曲中剩下的音頻片段自然、平滑地連接,減少了數(shù)字音頻時域壓縮對數(shù)字音頻播 放質(zhì)量的影響,改善了時域壓縮后的數(shù)字音頻的播放效果。
圖1是本發(fā)明方法的原理框圖。圖2為本發(fā)明方法的時域壓縮過程中,各種不同音頻序列的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明提出的基于音頻片段切分的數(shù)字音頻時域壓縮方法,其原理框圖如圖1所 示,包括以下各步驟(1)將原始樂曲數(shù)字音頻分為η個音頻片段,得到一個音頻片段序列,記為si、s2、 S3........Slri^n,設(shè)音頻片段Si的原始時間長度為ti;如圖2(a)所示。在本發(fā)明的實施例中,上述數(shù)字音頻數(shù)據(jù)的音頻格式可以為WAV、MP3等音頻格 式。上述音頻片段的時間長度的單位為秒。對于存在歌詞的樂曲,每個音頻片段對應(yīng)于歌 詞文件中的一個歌詞句子,η為歌詞中的歌詞句子數(shù)。對于不存在歌詞的樂曲,采用通用的 基于內(nèi)容的數(shù)字音頻切分方法將樂曲的數(shù)字音頻切分為多個音頻片段,η為正整數(shù),由通用 的基于內(nèi)容的數(shù)字音頻切分方法確定。(2)根據(jù)用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度九和壓縮過程中的樂曲數(shù) 字音頻的當(dāng)前時間長度Tm,得到時域壓縮率φ = ,樂曲數(shù)字音頻的當(dāng)前時間長度Tm的初
1 m
始值為 Tm = t^t^+-+^,,在本發(fā)明的實施例中,上述時域壓縮率的取值范圍為0 < ρ < 1。(3)對上述時域壓縮率ρ進行判斷,若ρ小于或者等于用戶設(shè)定的最小壓縮率Pmin, 則轉(zhuǎn)至步驟G),若時域壓縮率P大于用戶設(shè)定的最小壓縮率Pmin,則轉(zhuǎn)至步驟(8)。在本發(fā)明的實施例中,最小壓縮率Pmin的取值范圍為0 < Pmin < 1。(4)對上述η個音頻片段中的任意兩個音頻片段Si、Sj,使用音頻片段相似度量方
4法計算音頻片段Si與音頻片段~之間的相似度值dM,對相似度值進行判斷,若相似度 值dy大于或者等于設(shè)定的相似度閾值I,則判斷音頻片段Si與音頻片段~為相似音頻片 段,若相似度值小于設(shè)定的相似度閾值I,則判斷音頻片段Si與音頻片段~為不相似音 頻片段,重復(fù)該步驟,遍歷η個音頻片段中的任意兩個音頻片段,得到所有任意兩個音頻片 段之間的相似關(guān)系,相似度閾值I為從正無窮到負(fù)無窮的實數(shù);在本發(fā)明的實施例中,上述音頻片段Si和音頻片段~之間的的相似度量方法采用 基于自相關(guān)的數(shù)字音頻相似度量方法。相似度值的取值范圍為-⑴<dM<⑴。相似度閾 值I的取值范圍為I<①。(5)根據(jù)上述音頻片段之間的相似關(guān)系,將η個音頻片段分為w個音頻片段組,記
為&、G2.....Gx.....Gw,滿足音頻片段組&中的任意一個音頻片段Si,在&中至少存在
一個與音頻片段Si相似的音頻片段~,且在音頻片段組&以外的音頻片段組中不存在與音 頻片段Si相似的音頻片段,如圖2 (b)所示音頻片段組G1中包含音頻片段si、s2和&等音 頻片段,其中音頻片段S1與音頻片段S2為相似音頻片段,音頻片段S1與音頻片段&為相似 音頻片段。音頻片段組&中包含音頻片段s2、s6和S8等音頻片段,其中音頻片段&與音頻 片段S6為相似音頻片段,音頻片段S6與音頻片段S8為相似音頻片段。音頻片段組Gw中包 含音頻片段s5、S7和^等音頻片段,其中音頻片段S5與音頻片段S7為相似音頻片段,音頻 片段S7與音頻片段^為相似音頻片段。(6)為每個音頻片段組Gi設(shè)置一個唯一的音頻片段組標(biāo)識符Ai,用一個音頻片段 組標(biāo)識符Ai對音頻片段組Gi中的所有音頻片段進行標(biāo)記;用音頻片段組標(biāo)識符Ai表達上
述音頻片段序列Sl、s2,s3........Slri、\,得到與樂曲的音頻片段序列相對應(yīng)的音頻片段
組標(biāo)識符序列,例如=A1A1A2A1AwA2AwA2-Aw,如圖2(c)中所示。形成一個可刪除子序列sb、
Sb+1........Sy、Se,該可刪除子序列Sb、Sb+1........Sm、Se滿足在音頻片段標(biāo)識符序列
中存在兩個相鄰的音頻片段標(biāo)識符,該兩個音頻片段標(biāo)識符分別與音頻片段^V1和音頻片 段組標(biāo)識符與相對應(yīng),其中,b和e為正整數(shù),l<b^e<n ;遍歷音頻片段組標(biāo)識符 序列,得到所有可刪除子序列,例如可刪除子序列s3、s4, s5,可刪除子序列s3、S4和可刪除 子序列S2、S3,如圖2(d)中所示。(7)從上述音頻片段序列中刪除一個可刪除子序列,使刪除可刪除子序列后的樂 曲數(shù)字音頻的時間長度T。與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差 值的絕對值最小,例如刪除可刪除子序列s3、s4, ^后的樂曲數(shù)字音頻的時間長度T。= Tm-t3-t4_t5與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差值的絕對值最小, 轉(zhuǎn)至步驟⑵。(8)根據(jù)步驟( 得到時域壓縮率P,使用數(shù)字音頻時域壓縮方法對上述數(shù)字音頻 文件進行時域壓縮。在本發(fā)明的實施例中,數(shù)字音頻時域壓縮方法采用基于歌詞的數(shù)字音頻時域壓縮 方法。
權(quán)利要求
1. 一種基于音頻片段切分的數(shù)字音頻時域壓縮方法,其特征在于該方法包括以下步驟(1)將原始樂曲數(shù)字音頻分為η個音頻片段,得到一個音頻片段序列,記為Sl、S2, S3........Sn_i、Sn,設(shè)音頻片段Si的原始時間長度為ti ;(2)根據(jù)用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu和壓縮過程中的樂曲數(shù)字音頻的當(dāng)前時間長度Tm,得到時域壓縮率P= ;1 m(3)對上述時域壓縮率ρ進行判斷,若ρ小于或者等于用戶設(shè)定的最小壓縮率Pmin,則 轉(zhuǎn)至步驟G),若時域壓縮率P大于用戶設(shè)定的最小壓縮率Pmin,則轉(zhuǎn)至步驟(8);(4)對上述η個音頻片段中的任意兩個音頻片段Si、~,使用音頻片段相似度量方法計 算音頻片段Si與音頻片段h之間的相似度值Cli, j,對相似度值Cli, j進行判斷,若相似度值 φ,j大于或者等于設(shè)定的相似度閾值I,則判斷音頻片段Si與音頻片段~為相似音頻片段, 若相似度值dy小于設(shè)定的相似度閾值I,則判斷音頻片段Si與音頻片段~為不相似音頻 片段,重復(fù)該步驟,遍歷η個音頻片段中的任意兩個音頻片段,得到所有任意兩個音頻片段 之間的相似關(guān)系,相似度閾值I為從正無窮到負(fù)無窮的實數(shù);(5)根據(jù)上述音頻片段之間的相似關(guān)系,將η個音頻片段分為w個音頻片段組,記為G1^G2.....Gx.....Gw,滿足音頻片段組&中的任意一個音頻片段Si,在&中至少存在一個與音頻片段Si相似的音頻片段~,且在音頻片段組&以外的音頻片段組中不存在與音頻片 段Si相似的音頻片段;(6)為每個音頻片段組Gi設(shè)置一個唯一的音頻片段組標(biāo)識符Ai,用一個音頻片段組標(biāo) 識符Ai對音頻片段組Gi中的所有音頻片段進行標(biāo)記;用音頻片段組標(biāo)識符Ai表達上述音頻片段序列Sl、s2,s3........Slri、\,得到與樂曲的音頻片段序列相對應(yīng)的音頻片段組標(biāo)識符序列;形成一個可刪除子序列%、sb+1........Sm、se,該可刪除子序列滿足在音頻片段標(biāo)識符序列中存在兩個相鄰的音頻片段標(biāo)識符,該兩個音頻片段標(biāo)識符分別與音頻片段 Sb^1和音頻片段組標(biāo)識符與se+1相對應(yīng),其中,b和e為正整數(shù),l<b^e<n ;遍歷音頻片 段組標(biāo)識符序列,得到所有可刪除子序列;(7)從上述音頻片段序列中刪除一個可刪除子序列,使刪除可刪除子序列后的樂曲數(shù) 字音頻的時間長度T。與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差值的絕 對值最小,轉(zhuǎn)至步驟O);(8)根據(jù)步驟( 得到時域壓縮率P,使用數(shù)字音頻時域壓縮方法對上述數(shù)字音頻文件 進行時域壓縮。
全文摘要
本發(fā)明涉及一種基于音頻片段切分的數(shù)字音頻時域壓縮方法,屬于音頻處理技術(shù)領(lǐng)域。本方法通過提取樂曲的數(shù)字音頻中的音頻特征,分析并獲得樂曲的結(jié)構(gòu)信息,根據(jù)樂曲的結(jié)構(gòu)信息選擇并刪除若干個可刪除音頻片段序列,最后使用數(shù)字音頻時域壓縮方法對刪除后的數(shù)字音頻進行時域壓縮,從而改變樂曲的播放時間長度。本發(fā)明方法在數(shù)字音頻時域壓縮前,根據(jù)樂曲的結(jié)構(gòu)信息找到滿足特定條件的音頻片段子序列,刪除音頻片段子序列后,可以保證樂曲中剩下的音頻片段自然、平滑地連接,減少了數(shù)字音頻時域壓縮對數(shù)字音頻播放質(zhì)量的影響,改善了時域壓縮后的數(shù)字音頻的播放效果。
文檔編號G11B20/14GK102063919SQ20101057022
公開日2011年5月18日 申請日期2010年11月26日 優(yōu)先權(quán)日2010年11月26日
發(fā)明者劉璋, 王建民, 王朝坤 申請人:清華大學(xué)