一種基于能量的音符切分方法

文檔序號：2823557閱讀：706來源：國知局

專利名稱：一種基于能量的音符切分方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種對單音進行音符切分的方法，更具體的說，本發(fā)明涉及一種基于能量的音符切分方法。
背景技術(shù)：
音符的切分一般都是根據(jù)能量的起伏變化進行切分的。當能量小于某個設(shè)定的閾值，則認為該位置處存在一個音符切分點。這種方法對于發(fā)音很連續(xù)而且音高不變的情況下，很難正確切分出音符。也有采用在語音識別中廣泛使用的隱馬爾可夫模型進行音符的切分(如HH Shih，SS Narayanan，and CCJ Kuo，″An HMM-basedapproach to humming transcription，″in 2002 IEEE International Conference on Multimedia andExpo(ICME2002)，August 2002)。這種方法將音符看作成一個個的隱馬爾可夫模型。隱馬爾可夫模型是一種統(tǒng)計模型，需要相當多的數(shù)據(jù)進行訓練，才能得到比較可靠的模型參數(shù)。此外，基于隱馬爾可夫模型的方法的計算量也比較大。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種簡單可靠的基于能量的音符切分方法。
為實現(xiàn)上述發(fā)明目的，本發(fā)明提供的基于能量的音符切分方法，包括如下步驟1)對語音信號進行分幀處理；2)計算出每一幀的諧波和能量；3)計算出每一幀的諧波和能量突出度δ，所述突出度δ＝SB/SD，其中SB=Σn=mm+k-1[H(n)-H(m)],]]>SD＝K(α-1)H(m)-0.5(α-1)H(m)(α-1)H(m)β；其中m為當前幀的序號，H(m)為第m幀的諧波和能量，K為整數(shù)，其取值范圍為10至30，α、β均為經(jīng)驗參數(shù)；4)通過比較判斷找出整個語音信號中突出度δ的極值點；5)判斷突出度δ極值點是否大于1，若判斷為是，則把該極值點所在幀作為音符分割點。
在上述技術(shù)方案中，所述步驟1)中，進行分幀處理時幀移的取值在8ms至12ms的范圍內(nèi)。
在上述技術(shù)方案中，所述步驟3)中，所述參數(shù)α、β的取值范圍是1.05＜α＜1.09，1.35＜β＜1.51。
在上述技術(shù)方案中，所述步驟1)中，幀移的取值為10ms，所述步驟3)中，參數(shù)α＝1.07，β＝1.43。
在上述技術(shù)方案中，所述步驟4)中，所述突出度δ的極值點比較判斷依據(jù)是當前幀的突出度大于其左右L幀的突出度，則當前幀為一極值點，其中3≤L≤7。
本發(fā)明的優(yōu)點本發(fā)明中無論曲線以何種方式到達極值點，只要突起部分的面積大于標準突起面積，就認為存在音符分割點，否則在該幀處不存在音符分割點。與現(xiàn)有技術(shù)相比，本發(fā)明提供的方法對于能量變化的各種情況有統(tǒng)一穩(wěn)定的計算方式，音符切分的判決簡單可靠。

圖1是計算第m幀諧波和能量突出面積的示意圖；圖2是計算第m幀諧波和能量標準突出面積的示意圖；圖3是本發(fā)明提供的基于能量的音符切分方法的流程圖。
具體實施例方式
下面結(jié)合附圖和具體實施例對本發(fā)明作進一步地描述。
實施例本發(fā)明是一種基于諧波和突出度的音符切分方法，包括如下步驟
語音信號每32毫秒作為一幀信號，相鄰幀之間間隔10毫秒，相鄰幀之間重疊22毫秒。
計算出每一幀語音的諧波和，諧波和是指信號基頻及其諧波的能量和。Hf0(n)=Σi=1Nhi-1Sn(if0)]]>其中，f0是第n幀的基頻值，S(.)為信號功率譜，h為壓縮因子，0＜h＜1，N為最大諧波次數(shù)，4≤N≤6。為方便起見，下文中用H(n)表示Hf0(n)。
圖1中橫軸為時間幀的幀序號n，縱軸為諧波和能量H(n)，圖中的實線是一段諧波和能量曲線(該曲線本應(yīng)為一系列的離散點，這里為直觀起見把它畫為一段曲線)。
下面以第m幀為例，對本發(fā)明中突出度計算方法進行描述圖1中A與B的面積和SA+B=Σn=mm+K-1H(n)]]>其中，K為一時間常數(shù)，其取值范圍一般在10到30的范圍內(nèi)，本實施例中令K＝15。
第m幀處諧波和的值為H(m)，圖1中A的面積SA＝KH(m)。
所以，突起部分B的面積SB＝SA+B-SA的，把突起部分B的面積作為第m幀的突出面積。
針對第m幀設(shè)計一個標準突出面積，如圖2(這里為直觀起見把一系列離散點畫成了一段曲線)中所示D的面積。
C與D的面積和SC+D＝K(α-1)H(m)其中，α為突出度系數(shù)，本發(fā)明取α＝1.07。
C部分的面積SC＝0.5(α-1)H(m)(α-1)H(m)β其中，β為三角形C斜邊斜率的倒數(shù)，也為一常數(shù)，本發(fā)明取1.43，α、β的取值都為經(jīng)驗值。
第m幀突出度δ定義為δ＝SB/SD按照上面的方法，求出發(fā)音段內(nèi)每一幀的突出度，找到發(fā)音段內(nèi)突出度的極值點(可能不止一個)，所述極值點的判斷依據(jù)是當前幀的突出度大于其左右L幀的突出度，則當前幀為一極值點。
如果極值點的突出度δ大于1，則判定該極值點處為音符分割點，否則就不是音符分割點。
該方法的優(yōu)點在于，對于能量變化的各種情況有統(tǒng)一穩(wěn)定的計算方式，音符切分的判決簡單可靠。
權(quán)利要求
1.一種基于能量的音符切分方法，包括步驟1)對語音信號進行分幀處理；2)計算出每一幀的諧波和能量；其特征在于，還包括如下步驟3)計算出每一幀的諧波和能量突出度δ，所述突出度δ＝SB/SD，其中SB=Σn=mm+k-1[H(n)-H(m)]]]>，SD＝K(α-1)H(m)-0.5(α-1)H(m)(α-1)H(m)β；其中m為當前幀的序號，H(m)為第m幀的諧波和能量，K為整數(shù)，其取值范圍為10至30，α、β均為經(jīng)驗參數(shù)；4)通過比較判斷找出整個語音信號中突出度δ的極值點；5)判斷突出度δ極值點是否大于1，若判斷為是，則把該極值點所在幀作為音符分割點。
2.按權(quán)利要求1所述的基于能量的音符切分方法，其特征在于，所述步驟1)中，進行分幀處理時幀移的取值在8ms至12ms的范圍內(nèi)。
3.按權(quán)利要求1所述的基于能量的音符切分方法，其特征在于，所述步驟3)中，所述參數(shù)α、β的取值范圍是1.05＜α＜1.09，1.35＜β＜1.51。
4.按權(quán)利要求1所述的基于能量的音符切分方法，其特征在于，所述步驟1)中，幀移的取值為10ms；所述步驟3)中，參數(shù)α＝1.07，β＝1.43。
5.按權(quán)利要求1所述的基于能量的音符切分方法，其特征在于，所述步驟4)中，所述突出度δ的極值點比較判斷依據(jù)是當前幀的突出度大于其左右L幀的突出度，則當前幀為一極值點，其中3≤L≤7。
全文摘要
本發(fā)明涉及一種對單音進行音符切分的方法，更具體的說，本發(fā)明涉及一種基于能量的音符切分方法，包括1)對語音信號進行分幀處理；2)計算出每一幀的諧波和能量。3)計算出每一幀的諧波和能量突出度δ；4)通過前后比較找出整個語音信號中突出度δ的極值點；5)判斷突出度δ極值點是否大于1，若判斷為是，則把該極值點所在幀作為音符分割點。與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點是對于能量變化的各種情況有統(tǒng)一穩(wěn)定的計算方式，音符切分的判決簡單可靠。
文檔編號G10L19/00GK1963919SQ200510117698
公開日2007年5月16日申請日期2005年11月8日優(yōu)先權(quán)日2005年11月8日
發(fā)明者李明, 劉建, 顏永紅申請人:中國科學院聲學研究所, 北京中科信利技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李明;劉建;顏永紅
技術(shù)所有人：中國科學院聲學研究所;北京中科信利技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種用聲碼器收發(fā)數(shù)字信號的方法
上一篇：具有語音合成及音樂前奏選擇功能的便攜式裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

切分音符相關(guān)技術(shù)

刷神器能量最快的方法相關(guān)技術(shù)

企業(yè)能量平衡統(tǒng)計方法相關(guān)技術(shù)

數(shù)字能量學計算方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于能量的音符切分方法