專利名稱:一種基于能量的音符切分方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對單音進行音符切分的方法,更具體的說,本發(fā)明涉及一種基于能量的音符切分方法。
背景技術(shù):
音符的切分一般都是根據(jù)能量的起伏變化進行切分的。當能量小于某個設(shè)定的閾值,則認為該位置處存在一個音符切分點。這種方法對于發(fā)音很連續(xù)而且音高不變的情況下,很難正確切分出音符。也有采用在語音識別中廣泛使用的隱馬爾可夫模型進行音符的切分(如HH Shih,SS Narayanan,and CCJ Kuo,″An HMM-basedapproach to humming transcription,″in 2002 IEEE International Conference on Multimedia andExpo(ICME2002),August 2002)。這種方法將音符看作成一個個的隱馬爾可夫模型。隱馬爾可夫模型是一種統(tǒng)計模型,需要相當多的數(shù)據(jù)進行訓練,才能得到比較可靠的模型參數(shù)。此外,基于隱馬爾可夫模型的方法的計算量也比較大。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種簡單可靠的基于能量的音符切分方法。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的基于能量的音符切分方法,包括如下步驟1)對語音信號進行分幀處理;2)計算出每一幀的諧波和能量;3)計算出每一幀的諧波和能量突出度δ,所述突出度δ=SB/SD,其中SB=Σn=mm+k-1[H(n)-H(m)],]]>SD=K(α-1)H(m)-0.5(α-1)H(m)(α-1)H(m)β;其中m為當前幀的序號,H(m)為第m幀的諧波和能量,K為整數(shù),其取值范圍為10至30,α、β均為經(jīng)驗參數(shù);4)通過比較判斷找出整個語音信號中突出度δ的極值點;5)判斷突出度δ極值點是否大于1,若判斷為是,則把該極值點所在幀作為音符分割點。
在上述技術(shù)方案中,所述步驟1)中,進行分幀處理時幀移的取值在8ms至12ms的范圍內(nèi)。
在上述技術(shù)方案中,所述步驟3)中,所述參數(shù)α、β的取值范圍是1.05<α<1.09,1.35<β<1.51。
在上述技術(shù)方案中,所述步驟1)中,幀移的取值為10ms,所述步驟3)中,參數(shù)α=1.07,β=1.43。
在上述技術(shù)方案中,所述步驟4)中,所述突出度δ的極值點比較判斷依據(jù)是當前幀的突出度大于其左右L幀的突出度,則當前幀為一極值點,其中3≤L≤7。
本發(fā)明的優(yōu)點本發(fā)明中無論曲線以何種方式到達極值點,只要突起部分的面積大于標準突起面積,就認為存在音符分割點,否則在該幀處不存在音符分割點。與現(xiàn)有技術(shù)相比,本發(fā)明提供的方法對于能量變化的各種情況有統(tǒng)一穩(wěn)定的計算方式,音符切分的判決簡單可靠。
圖1是計算第m幀諧波和能量突出面積的示意圖;圖2是計算第m幀諧波和能量標準突出面積的示意圖;圖3是本發(fā)明提供的基于能量的音符切分方法的流程圖。
具體實施例方式
下面結(jié)合附圖和具體實施例對本發(fā)明作進一步地描述。
實施例本發(fā)明是一種基于諧波和突出度的音符切分方法,包括如下步驟
語音信號每32毫秒作為一幀信號,相鄰幀之間間隔10毫秒,相鄰幀之間重疊22毫秒。
計算出每一幀語音的諧波和,諧波和是指信號基頻及其諧波的能量和。Hf0(n)=Σi=1Nhi-1Sn(if0)]]>其中,f0是第n幀的基頻值,S(.)為信號功率譜,h為壓縮因子,0<h<1,N為最大諧波次數(shù),4≤N≤6。為方便起見,下文中用H(n)表示Hf0(n)。
圖1中橫軸為時間幀的幀序號n,縱軸為諧波和能量H(n),圖中的實線是一段諧波和能量曲線(該曲線本應(yīng)為一系列的離散點,這里為直觀起見把它畫為一段曲線)。
下面以第m幀為例,對本發(fā)明中突出度計算方法進行描述圖1中A與B的面積和SA+B=Σn=mm+K-1H(n)]]>其中,K為一時間常數(shù),其取值范圍一般在10到30的范圍內(nèi),本實施例中令K=15。
第m幀處諧波和的值為H(m),圖1中A的面積SA=KH(m)。
所以,突起部分B的面積SB=SA+B-SA的,把突起部分B的面積作為第m幀的突出面積。
針對第m幀設(shè)計一個標準突出面積,如圖2(這里為直觀起見把一系列離散點畫成了一段曲線)中所示D的面積。
C與D的面積和SC+D=K(α-1)H(m)其中,α為突出度系數(shù),本發(fā)明取α=1.07。
C部分的面積SC=0.5(α-1)H(m)(α-1)H(m)β其中,β為三角形C斜邊斜率的倒數(shù),也為一常數(shù),本發(fā)明取1.43,α、β的取值都為經(jīng)驗值。
第m幀突出度δ定義為δ=SB/SD按照上面的方法,求出發(fā)音段內(nèi)每一幀的突出度,找到發(fā)音段內(nèi)突出度的極值點(可能不止一個),所述極值點的判斷依據(jù)是當前幀的突出度大于其左右L幀的突出度,則當前幀為一極值點。
如果極值點的突出度δ大于1,則判定該極值點處為音符分割點,否則就不是音符分割點。
該方法的優(yōu)點在于,對于能量變化的各種情況有統(tǒng)一穩(wěn)定的計算方式,音符切分的判決簡單可靠。
權(quán)利要求
1.一種基于能量的音符切分方法,包括步驟1)對語音信號進行分幀處理;2)計算出每一幀的諧波和能量;其特征在于,還包括如下步驟3)計算出每一幀的諧波和能量突出度δ,所述突出度δ=SB/SD,其中SB=Σn=mm+k-1[H(n)-H(m)]]]>,SD=K(α-1)H(m)-0.5(α-1)H(m)(α-1)H(m)β;其中m為當前幀的序號,H(m)為第m幀的諧波和能量,K為整數(shù),其取值范圍為10至30,α、β均為經(jīng)驗參數(shù);4)通過比較判斷找出整個語音信號中突出度δ的極值點;5)判斷突出度δ極值點是否大于1,若判斷為是,則把該極值點所在幀作為音符分割點。
2.按權(quán)利要求1所述的基于能量的音符切分方法,其特征在于,所述步驟1)中,進行分幀處理時幀移的取值在8ms至12ms的范圍內(nèi)。
3.按權(quán)利要求1所述的基于能量的音符切分方法,其特征在于,所述步驟3)中,所述參數(shù)α、β的取值范圍是1.05<α<1.09,1.35<β<1.51。
4.按權(quán)利要求1所述的基于能量的音符切分方法,其特征在于,所述步驟1)中,幀移的取值為10ms;所述步驟3)中,參數(shù)α=1.07,β=1.43。
5.按權(quán)利要求1所述的基于能量的音符切分方法,其特征在于,所述步驟4)中,所述突出度δ的極值點比較判斷依據(jù)是當前幀的突出度大于其左右L幀的突出度,則當前幀為一極值點,其中3≤L≤7。
全文摘要
本發(fā)明涉及一種對單音進行音符切分的方法,更具體的說,本發(fā)明涉及一種基于能量的音符切分方法,包括1)對語音信號進行分幀處理;2)計算出每一幀的諧波和能量。3)計算出每一幀的諧波和能量突出度δ;4)通過前后比較找出整個語音信號中突出度δ的極值點;5)判斷突出度δ極值點是否大于1,若判斷為是,則把該極值點所在幀作為音符分割點。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點是對于能量變化的各種情況有統(tǒng)一穩(wěn)定的計算方式,音符切分的判決簡單可靠。
文檔編號G10L19/00GK1963919SQ200510117698
公開日2007年5月16日 申請日期2005年11月8日 優(yōu)先權(quán)日2005年11月8日
發(fā)明者李明, 劉建, 顏永紅 申請人:中國科學院聲學研究所, 北京中科信利技術(shù)有限公司