一種基于音頻片段切分的數(shù)字音頻時域壓縮方法

文檔序號：6773483閱讀：196來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>信息存儲應(yīng)用技術(shù)

專利名稱：一種基于音頻片段切分的數(shù)字音頻時域壓縮方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種基于音頻片段切分的數(shù)字音頻時域壓縮方法，屬于音頻處理技術(shù) 領(lǐng)域。
背景技術(shù)：
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展，音樂已經(jīng)成為人們?nèi)粘Ｉ钪胁豢苫蛉钡膴?樂形式。當(dāng)選用一首樂曲作為背景音樂的時候，通常會發(fā)生所選樂曲的播放時間長度與所需要的播放時間長度不相符的情況。此時，需要壓縮和調(diào)整樂曲的內(nèi)容，同時保證樂曲的播放效果?，F(xiàn)有的數(shù)字音頻時域壓縮方法可以分為均勻數(shù)字音頻時域壓縮方法和非均勻數(shù)字音頻時域壓縮方法，如名稱為“一種基于歌詞的數(shù)字音頻時域壓縮方法”、申請?zhí)枮?CN200910235724. 3、公開號為CN101702321A的發(fā)明專利，上述兩類數(shù)字音頻時域壓縮方法在處理用戶所要求的播放時間長度與樂曲的原始時間長度相差較大的情況時，會導(dǎo)致樂曲的播放速率過快、聲音抖動等問題，無法達到理想的時域壓縮效果。

發(fā)明內(nèi)容
本發(fā)明的目的是提出一種基于音頻片段切分的數(shù)字音頻時域壓縮方法，通過提取樂曲的數(shù)字音頻中的音頻特征，分析并獲得樂曲的結(jié)構(gòu)信息，根據(jù)樂曲的結(jié)構(gòu)信息選擇并刪除若干個可刪除音頻片段序列，最后使用數(shù)字音頻時域壓縮方法對刪除后的數(shù)字音頻進行時域壓縮，從而改變樂曲的播放時間長度。本發(fā)明提出的基于音頻片段切分的數(shù)字音頻時域壓縮方法，包括以下步驟(1)將原始樂曲數(shù)字音頻分為η個音頻片段，得到一個音頻片段序列，記為S1、S2、 S3........Sn_i、Sn，設(shè)音頻片段Si的原始時間長度為ti ；(2)根據(jù)用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度九和壓縮過程中的樂曲數(shù) 字音頻的當(dāng)前時間長度Tm，得到時域壓縮率P= Jl ；
1 m(3)對上述時域壓縮率ρ進行判斷，若ρ小于或者等于用戶設(shè)定的最小壓縮率Pmin，則轉(zhuǎn)至步驟G)，若時域壓縮率P大于用戶設(shè)定的最小壓縮率Pmin，則轉(zhuǎn)至步驟(8)；(4)對上述η個音頻片段中的任意兩個音頻片段Si、Sj,使用音頻片段相似度量方法計算音頻片段Si與音頻片段~之間的相似度值dM，對相似度值進行判斷，若相似度值dy大于或者等于設(shè)定的相似度閾值I，則判斷音頻片段Si與音頻片段~為相似音頻片段，若相似度值小于設(shè)定的相似度閾值I，則判斷音頻片段Si與音頻片段~為不相似音頻片段，重復(fù)該步驟，遍歷η個音頻片段中的任意兩個音頻片段，得到所有任意兩個音頻片段之間的相似關(guān)系，相似度閾值I為從正無窮到負(fù)無窮的實數(shù)；(5)根據(jù)上述音頻片段之間的相似關(guān)系，將η個音頻片段分為w個音頻片段組，記
為&、G2.....Gx.....Gw，滿足音頻片段組&中的任意一個音頻片段Si，在&中至少存在
一個與音頻片段Si相似的音頻片段~，且在音頻片段組&以外的音頻片段組中不存在與音頻片段Si相似的音頻片段；
(6)為每個音頻片段組Gi設(shè)置一個唯一的音頻片段組標(biāo)識符Ai,用一個音頻片段組標(biāo)識符Ai對音頻片段組Gi中的所有音頻片段進行標(biāo)記；用音頻片段組標(biāo)識符Ai表達上
述音頻片段序列Sl、s2,s3........Slri、\，得到與樂曲的音頻片段序列相對應(yīng)的音頻片段
組標(biāo)識符序列；形成一個可刪除子序列％、sb+1........Sm、se，該可刪除子序列滿足在音
頻片段標(biāo)識符序列中存在兩個相鄰的音頻片段標(biāo)識符，該兩個音頻片段標(biāo)識符分別與音頻片段Slri和音頻片段組標(biāo)識符與se+1相對應(yīng)，其中，b和e為正整數(shù)，l<b^e<n ；遍歷音頻片段組標(biāo)識符序列，得到所有可刪除子序列；(7)從上述音頻片段序列中刪除一個可刪除子序列，使刪除可刪除子序列后的樂曲數(shù)字音頻的時間長度T。與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差值的絕對值最小，轉(zhuǎn)至步驟O)；(8)根據(jù)步驟( 得到時域壓縮率P，使用數(shù)字音頻時域壓縮方法對上述數(shù)字音頻文件進行時域壓縮。本發(fā)明提出的基于音頻片段切分的數(shù)字音頻時域壓縮方法，在數(shù)字音頻時域壓縮前，根據(jù)樂曲的結(jié)構(gòu)信息找到滿足特定條件的音頻片段子序列，刪除音頻片段子序列后，可以保證樂曲中剩下的音頻片段自然、平滑地連接，減少了數(shù)字音頻時域壓縮對數(shù)字音頻播放質(zhì)量的影響，改善了時域壓縮后的數(shù)字音頻的播放效果。

圖1是本發(fā)明方法的原理框圖。圖2為本發(fā)明方法的時域壓縮過程中，各種不同音頻序列的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明提出的基于音頻片段切分的數(shù)字音頻時域壓縮方法，其原理框圖如圖1所示，包括以下各步驟(1)將原始樂曲數(shù)字音頻分為η個音頻片段，得到一個音頻片段序列，記為si、s2、 S3........Slri^n，設(shè)音頻片段Si的原始時間長度為ti;如圖2(a)所示。在本發(fā)明的實施例中，上述數(shù)字音頻數(shù)據(jù)的音頻格式可以為WAV、MP3等音頻格式。上述音頻片段的時間長度的單位為秒。對于存在歌詞的樂曲，每個音頻片段對應(yīng)于歌詞文件中的一個歌詞句子，η為歌詞中的歌詞句子數(shù)。對于不存在歌詞的樂曲，采用通用的基于內(nèi)容的數(shù)字音頻切分方法將樂曲的數(shù)字音頻切分為多個音頻片段，η為正整數(shù)，由通用的基于內(nèi)容的數(shù)字音頻切分方法確定。(2)根據(jù)用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度九和壓縮過程中的樂曲數(shù) 字音頻的當(dāng)前時間長度Tm，得到時域壓縮率φ = ，樂曲數(shù)字音頻的當(dāng)前時間長度Tm的初
1 m
始值為 Tm = t^t^+-+^,,在本發(fā)明的實施例中，上述時域壓縮率的取值范圍為0 < ρ < 1。(3)對上述時域壓縮率ρ進行判斷，若ρ小于或者等于用戶設(shè)定的最小壓縮率Pmin，則轉(zhuǎn)至步驟G)，若時域壓縮率P大于用戶設(shè)定的最小壓縮率Pmin，則轉(zhuǎn)至步驟(8)。在本發(fā)明的實施例中，最小壓縮率Pmin的取值范圍為0 < Pmin < 1。(4)對上述η個音頻片段中的任意兩個音頻片段Si、Sj,使用音頻片段相似度量方
4法計算音頻片段Si與音頻片段~之間的相似度值dM，對相似度值進行判斷，若相似度值dy大于或者等于設(shè)定的相似度閾值I，則判斷音頻片段Si與音頻片段~為相似音頻片段，若相似度值小于設(shè)定的相似度閾值I，則判斷音頻片段Si與音頻片段~為不相似音頻片段，重復(fù)該步驟，遍歷η個音頻片段中的任意兩個音頻片段，得到所有任意兩個音頻片段之間的相似關(guān)系，相似度閾值I為從正無窮到負(fù)無窮的實數(shù)；在本發(fā)明的實施例中，上述音頻片段Si和音頻片段~之間的的相似度量方法采用基于自相關(guān)的數(shù)字音頻相似度量方法。相似度值的取值范圍為-⑴<dM<⑴。相似度閾值I的取值范圍為I<①。(5)根據(jù)上述音頻片段之間的相似關(guān)系，將η個音頻片段分為w個音頻片段組，記
為&、G2.....Gx.....Gw，滿足音頻片段組&中的任意一個音頻片段Si，在&中至少存在
一個與音頻片段Si相似的音頻片段~，且在音頻片段組&以外的音頻片段組中不存在與音頻片段Si相似的音頻片段，如圖2 (b)所示音頻片段組G1中包含音頻片段si、s2和&等音頻片段，其中音頻片段S1與音頻片段S2為相似音頻片段，音頻片段S1與音頻片段&為相似音頻片段。音頻片段組&中包含音頻片段s2、s6和S8等音頻片段，其中音頻片段&與音頻片段S6為相似音頻片段，音頻片段S6與音頻片段S8為相似音頻片段。音頻片段組Gw中包含音頻片段s5、S7和^等音頻片段，其中音頻片段S5與音頻片段S7為相似音頻片段，音頻片段S7與音頻片段^為相似音頻片段。(6)為每個音頻片段組Gi設(shè)置一個唯一的音頻片段組標(biāo)識符Ai,用一個音頻片段組標(biāo)識符Ai對音頻片段組Gi中的所有音頻片段進行標(biāo)記；用音頻片段組標(biāo)識符Ai表達上
述音頻片段序列Sl、s2,s3........Slri、\，得到與樂曲的音頻片段序列相對應(yīng)的音頻片段
組標(biāo)識符序列，例如=A1A1A2A1AwA2AwA2-Aw，如圖2(c)中所示。形成一個可刪除子序列sb、
Sb+1........Sy、Se,該可刪除子序列Sb、Sb+1........Sm、Se滿足在音頻片段標(biāo)識符序列
中存在兩個相鄰的音頻片段標(biāo)識符，該兩個音頻片段標(biāo)識符分別與音頻片段^V1和音頻片段組標(biāo)識符與相對應(yīng)，其中，b和e為正整數(shù)，l<b^e<n ；遍歷音頻片段組標(biāo)識符序列，得到所有可刪除子序列，例如可刪除子序列s3、s4, s5，可刪除子序列s3、S4和可刪除子序列S2、S3，如圖2(d)中所示。(7)從上述音頻片段序列中刪除一個可刪除子序列，使刪除可刪除子序列后的樂曲數(shù)字音頻的時間長度T。與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差值的絕對值最小，例如刪除可刪除子序列s3、s4, ^后的樂曲數(shù)字音頻的時間長度T。= Tm-t3-t4_t5與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差值的絕對值最小，轉(zhuǎn)至步驟⑵。(8)根據(jù)步驟( 得到時域壓縮率P，使用數(shù)字音頻時域壓縮方法對上述數(shù)字音頻文件進行時域壓縮。在本發(fā)明的實施例中，數(shù)字音頻時域壓縮方法采用基于歌詞的數(shù)字音頻時域壓縮方法。
權(quán)利要求
1. 一種基于音頻片段切分的數(shù)字音頻時域壓縮方法，其特征在于該方法包括以下步驟(1)將原始樂曲數(shù)字音頻分為η個音頻片段，得到一個音頻片段序列，記為Sl、S2, S3........Sn_i、Sn，設(shè)音頻片段Si的原始時間長度為ti ；(2)根據(jù)用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu和壓縮過程中的樂曲數(shù)字音頻的當(dāng)前時間長度Tm，得到時域壓縮率P= ；1 m(3)對上述時域壓縮率ρ進行判斷，若ρ小于或者等于用戶設(shè)定的最小壓縮率Pmin，則轉(zhuǎn)至步驟G)，若時域壓縮率P大于用戶設(shè)定的最小壓縮率Pmin，則轉(zhuǎn)至步驟(8)；(4)對上述η個音頻片段中的任意兩個音頻片段Si、~，使用音頻片段相似度量方法計算音頻片段Si與音頻片段h之間的相似度值Cli, j,對相似度值Cli, j進行判斷，若相似度值 φ,j大于或者等于設(shè)定的相似度閾值I，則判斷音頻片段Si與音頻片段~為相似音頻片段，若相似度值dy小于設(shè)定的相似度閾值I，則判斷音頻片段Si與音頻片段~為不相似音頻片段，重復(fù)該步驟，遍歷η個音頻片段中的任意兩個音頻片段，得到所有任意兩個音頻片段之間的相似關(guān)系，相似度閾值I為從正無窮到負(fù)無窮的實數(shù)；(5)根據(jù)上述音頻片段之間的相似關(guān)系，將η個音頻片段分為w個音頻片段組，記為G1^G2.....Gx.....Gw，滿足音頻片段組&中的任意一個音頻片段Si，在&中至少存在一個與音頻片段Si相似的音頻片段~，且在音頻片段組&以外的音頻片段組中不存在與音頻片段Si相似的音頻片段；(6)為每個音頻片段組Gi設(shè)置一個唯一的音頻片段組標(biāo)識符Ai,用一個音頻片段組標(biāo) 識符Ai對音頻片段組Gi中的所有音頻片段進行標(biāo)記；用音頻片段組標(biāo)識符Ai表達上述音頻片段序列Sl、s2,s3........Slri、\，得到與樂曲的音頻片段序列相對應(yīng)的音頻片段組標(biāo)識符序列；形成一個可刪除子序列％、sb+1........Sm、se，該可刪除子序列滿足在音頻片段標(biāo)識符序列中存在兩個相鄰的音頻片段標(biāo)識符，該兩個音頻片段標(biāo)識符分別與音頻片段 Sb^1和音頻片段組標(biāo)識符與se+1相對應(yīng)，其中，b和e為正整數(shù)，l<b^e<n ；遍歷音頻片段組標(biāo)識符序列，得到所有可刪除子序列；(7)從上述音頻片段序列中刪除一個可刪除子序列，使刪除可刪除子序列后的樂曲數(shù) 字音頻的時間長度T。與用戶設(shè)定的壓縮后的樂曲數(shù)字音頻的時間長度Tu之間的差值的絕對值最小，轉(zhuǎn)至步驟O)；(8)根據(jù)步驟( 得到時域壓縮率P，使用數(shù)字音頻時域壓縮方法對上述數(shù)字音頻文件進行時域壓縮。
全文摘要
本發(fā)明涉及一種基于音頻片段切分的數(shù)字音頻時域壓縮方法，屬于音頻處理技術(shù)領(lǐng)域。本方法通過提取樂曲的數(shù)字音頻中的音頻特征，分析并獲得樂曲的結(jié)構(gòu)信息，根據(jù)樂曲的結(jié)構(gòu)信息選擇并刪除若干個可刪除音頻片段序列，最后使用數(shù)字音頻時域壓縮方法對刪除后的數(shù)字音頻進行時域壓縮，從而改變樂曲的播放時間長度。本發(fā)明方法在數(shù)字音頻時域壓縮前，根據(jù)樂曲的結(jié)構(gòu)信息找到滿足特定條件的音頻片段子序列，刪除音頻片段子序列后，可以保證樂曲中剩下的音頻片段自然、平滑地連接，減少了數(shù)字音頻時域壓縮對數(shù)字音頻播放質(zhì)量的影響，改善了時域壓縮后的數(shù)字音頻的播放效果。
文檔編號G11B20/14GK102063919SQ20101057022
公開日2011年5月18日申請日期2010年11月26日優(yōu)先權(quán)日2010年11月26日
發(fā)明者劉璋, 王建民, 王朝坤申請人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王朝坤;王建民;劉璋
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

上一篇：內(nèi)嵌式測試模組及其診斷方法
上一篇：具有可調(diào)整反偏壓的感測放大器電路及其操作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、畢老師：機構(gòu)動力學(xué)與控制
2、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
3、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
4、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
5、張老師：1.機械設(shè)計的應(yīng)力分析、強度校核的計算機仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)字音頻輸出相關(guān)技術(shù)

數(shù)字音頻相關(guān)技術(shù)

數(shù)字音頻技術(shù)相關(guān)技術(shù)

數(shù)字音頻矩陣相關(guān)技術(shù)

數(shù)字音頻接口相關(guān)技術(shù)

數(shù)字音頻廣播相關(guān)技術(shù)

數(shù)字音頻矩陣處理器相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于音頻片段切分的數(shù)字音頻時域壓縮方法