專利名稱:一種動態(tài)歸一化數(shù)字特征的語音評分方法與裝置的制作方法
技術領域:
本發(fā)明涉及聲音信號處理,具體涉及利用動態(tài)歸一化數(shù)字特征對跟讀或模仿的語音進行評分的方法和裝置。
背景技術:
語音評分系統(tǒng)在實際生活中有許多應用。比如說某些KTV會裝有評分系統(tǒng),當用戶演唱完畢會給用戶打分。無論是怎樣的應用,基本上都是把用戶的信號輸入到系統(tǒng)后與原聲進行比較,根據(jù)某個準則判斷兩段語音信號的相似度,給用戶打分。實際應用中判斷準則有很多種。目前常見的比較準則有基于音量的方法(如CN 102110435A),基于能量的方法,還有基于音調(diào)的方法等等?;谝袅康姆椒ú杉繕寺曇舻哪M信號,將模擬信號轉(zhuǎn)變?yōu)閿?shù)字信號。然后計算用戶聲音數(shù)字信號與原音數(shù)字信號之間音量的差值,根據(jù)這個差值進行打分。差值越小則分數(shù)越高?;谀芰康姆椒▌t是比較數(shù)字化的目標聲音信號的能量與原唱能量之間的差距?;谝粽{(diào)的準則從頻域的角度來考慮,比較目標聲音的頻率與原音頻率之間的偏離程度。除此之外,還可以比較目標聲音與原唱之間的相關函數(shù)的差距(如CN 102103852A)。但是,從現(xiàn)實的角度上講,無論聲音的音量或是能量都是對原音和目標聲音之間的幅度進行比較,是從時域的角度進行比較,而語音的特性在頻域上體現(xiàn),因此從時域上進行比較誤差較大,不足以客觀地衡量原唱與目標聲音之間的相似度。圖I為三段相同語音不同人跟讀的基音變化圖,曲線I表示原音,曲線2和3表示兩個目標跟讀語音。若根據(jù)現(xiàn)有的音量、能量、頻率偏差等方法來進行評分,結(jié)果是曲線2較曲線3與曲線I的相似度較高。然而實際情況是曲線3與曲線I的讀音更接近,兩者的動態(tài)變化規(guī)律相似。因此,用常用的音量、能量、頻率偏差等靜態(tài)特征來評分就不夠客觀。本發(fā)明針對這些不足提出了一種利用原音與目標聲音的歸一化動態(tài)特征進行評分的技術。聲音的一個重要的聲學特征是共振峰。聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時起共鳴器的作用。當激勵進入聲道時會引起共振特性,產(chǎn)生一組共振頻率, 稱為共振峰頻率或簡稱為共振峰。如圖2所示一幀語音的頻譜圖,實線的局部最大值即是共振峰頻率,是共振峰語音的一個重要的特征參數(shù)。本發(fā)明從頻域的角度出發(fā),提取原音與目標聲音的歸一化共振峰動態(tài)特征,進行語音評分,來消除現(xiàn)有評分系統(tǒng)采用靜態(tài)特征評分帶來的不足。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有評分系統(tǒng)采用靜態(tài)特征評分帶來的不足,提出了一種動態(tài)歸一化數(shù)字特征的語音評分方法與裝置,使用語音的歸一化動態(tài)特征對目標聲音進行評分,提高了評分的科學性。本發(fā)明通過如下技術方案實現(xiàn)。一種動態(tài)歸一化數(shù)字特征的語音評分方法,包括以下步驟步驟I :對目標音進行數(shù)字化處理,處理結(jié)束后進行定位,確定目標音的最小評判單兀的起終點,分巾貞后目標音一共有K巾貞,原音以巾貞為單位一共有L巾貞;步驟2 :對原音和目標音分別使用共振峰檢測算法或頻率估計算法進行特征提取,得到原音和目標音的前N個共振峰頻率值,分別用ω β (i,n) (I彡i彡L,I彡η彡N) 和ω _ (i,η) (I彡i彡K,I彡η彡N)表示原音和目標音第i幀的第η個共振峰頻率值;步驟3 :判斷原音與目標音的幀數(shù)是否相同,若相同則跳過此步驟,若不同則進行抽取和內(nèi)插;取任意一個共振峰,則對于原音,這個共振峰對應一個長度為L的序列, 對于目標音則對應一個長度為K的序列,利用內(nèi)插和抽取消除幀數(shù)的不同,經(jīng)內(nèi)插和抽取之后的序列長度為Μ,對其它共振峰對應的序列進行相同的處理,分別用ω' g(i, η) (I彡i彡Μ,I彡η彡N)和ω '目標(i,η) (I彡i彡Μ,I彡η彡N)表示幀數(shù)歸一化后原音和目標音第i幀的第η個共振峰頻率值;步驟4 :由步驟3中幀數(shù)歸一化后的頻率值獲取原音和目標音的動態(tài)特征,用Λ ω g (i,η)和△ ω (i,n)分別表示原音和目標音共振峰的變化,計算原音和目標音前后兩個頻率之間的差值Δω原=原(i+l’rO — co'原(i,n)(公式I)Acow(Ln) = CO'目標(i,n)(公式 2)其中I≤i≤M-1,I≤η≤N ;步驟5:對頻率進行歸一化,對于原音的第η個共振峰,歸一化后的動態(tài)特征 Λω' g(i,η),對于目標音的第η個共振峰,歸一化的動態(tài)特征Λ ω' @#(i,n),同理,對原音和目標音的其它N-I個共振峰對應的動態(tài)特征序列進行頻率歸一化處理;步驟6 :計算原音與目標音第η個共振峰的相似度dn,并計算原音與目標音其他各個共振峰的相似度,當 <越小時說明原音與目標音的第η個共振峰的動態(tài)特征相似度越高;反之,當dn越大時動態(tài)特征相似度越低;步驟7 :由各個共振峰的誤差能判斷總體的誤差,實際情況下,各個共振峰的重要程度不一,不同共振峰的誤差對總體的誤差所造成的影響并不相等,根據(jù)各個共振峰的重要程度設置不同的權值,使用(公式6)計算總體誤差
權利要求
1.一種動態(tài)歸一化數(shù)字特征的語音評分方法,其特征在于包括以下步驟步驟I :對目標音進行數(shù)字化處理,處理結(jié)束后進行定位,確定目標音的最小評判單元的起終點,分巾貞后目標音一共有K巾貞,原音以巾貞為單位一共有L巾貞;步驟2 :對原音和目標音分別使用共振峰檢測算法或頻率估計算法進行特征提取,得到原音和目標音的前N個共振峰頻率值,分別用《 g (i,n) (I≤i≤L,I彡≤≤N)和《 @ 標(i,n) (I≤i≤K,I≤n≤N)表示原音和目標音第i幀的第n個共振峰頻率值;步驟3 :判斷原音與目標音的幀數(shù)是否相同,若相同則跳過此步驟,若不同則進行抽取和內(nèi)插;取任意一個共振峰,則對于原音,這個共振峰對應一個長度為L的序列,對于目標音則對應一個長度為K的序列,利用內(nèi)插和抽取消除幀數(shù)的不同,經(jīng)內(nèi)插和抽取之后的序列長度為M,對其它共振峰對應的序列進行相同的處理,分別用g(i,n)(l^i^M, I < n < N)和co '目標(i,n) (I < i < M, I < n < N)表不巾貞數(shù)歸一化后原音和目標音第i 幀的第n個共振峰頻率值;步驟4 :由步驟3中幀數(shù)歸一化后的頻率值獲取原音和目標音的動態(tài)特征,用△ g (i,n)和△ co @#(i,n)分別表示原音和目標音共振峰的變化,計算原音和目標音前后兩個頻率之間的差值A w 原(i, n) = w '原(i+l,n) - w '原(i, n)(公式I)八^巨標1^,11) = 03' _(i+l,n)_w'目標(i,n)(公式 2)其中 KiS M-I, I ≤n ≤N ;步驟5:對頻率進行歸一化,對于原音的第n個共振峰,歸一化后的動態(tài)特征Aco' g (i,n),對于目標音的第n個共振峰,歸一化的動態(tài)特征Aco' (i,n),同理,對原音和目標音的其它N-I個共振峰對應的動態(tài)特征序列進行頻率歸一化處理;步驟6 :計算原音與目標音第n個共振峰的相似度dn,并計算原音與目標音其他各個共振峰的相似度,當dn越小時說明原音與目標音的第n個共振峰的動態(tài)特征相似度越高;反之,當dn越大時動態(tài)特征相似度越低;步驟7 由各個共振峰的誤差能判斷總體的誤差,實際情況下,各個共振峰的重要程度不一,不同共振峰的誤差對總體的誤差所造成的影響并不相等,根據(jù)各個共振峰的重要程度設置不同的權值,使用(公式6)計算總體誤差
2.根據(jù)權利要求I所述一種動態(tài)歸一化數(shù)字特征的語音評分方法,其特征在于步驟2 中,采用倒譜法檢測峰值,由于倒譜會出現(xiàn)相位卷繞的情況,因此采用同態(tài)解卷技術,經(jīng)過同態(tài)濾波后得到平滑的譜,這樣簡單地檢測峰值就能直接提取共振峰參數(shù)。
3.根據(jù)權利要求I所述一種動態(tài)歸一化數(shù)字特征的語音評分方法,其特征在于步驟3 中,抽取與內(nèi)插的方法采用線性插值或高次樣條插值。
4.根據(jù)權利要求3所述一種動態(tài)歸一化數(shù)字特征的語音評分方法,其特征在于步驟3 中抽取與內(nèi)插的方法采用線性插值,對原音和目標音先進行內(nèi)插操作,取每一幀的第i個共振峰頻率,得到關于原音的一個長度為L的序列,根據(jù)目標音得到一個長度為K的序列; 在序列每兩個點之間插入M-I個點,則內(nèi)插后原音的第i個共振峰對應的序列長度為LXM, 目標音的長度為KXM,對內(nèi)插后的數(shù)據(jù)進行抽?。粚υ舻男蛄忻縇個點取一個值,對目標音每K個點取一個值;經(jīng)過內(nèi)插和抽取后原音和目標音的長度相同,均為M ;1 < i < M ;對每一個共振峰對應的序列都進行相同的操作。
5.根據(jù)權利要求I所述一種動態(tài)歸一化數(shù)字特征的語音評分方法,其特征在于步驟5 中所述歸一化的方法采用最大值歸一化、均值歸一化或能量歸一化。
6.根據(jù)權利要求5所述一種動態(tài)歸一化數(shù)字特征的語音評分方法,其特征在于步驟5 中所述歸一化的方法采用最大值歸一化,先對第η個共振峰的動態(tài)特征序列進行處理,選取原音的動態(tài)特征序列中的最大值 )},以這個最大值為基準,其它頻率值按其與最大頻率的比值取值
7.根據(jù)權利要求I所述一種動態(tài)歸一化數(shù)字特征的語音評分方法,其特征在于步驟6 中由于取前N個共振峰,故原音與目標音各有N個長度為M-I的歸一化動態(tài)特征序列,比較這N個序列之間的相似度即可給用戶打分,使用(公式5)進行相似度評判
8.實現(xiàn)權利要求I所述評分方法的評分裝置,其特征在于包括順次信號連接的數(shù)字化模塊、分幀模塊、計算模塊、比較模塊和顯示模塊,所述數(shù)字化模塊接收目標音信號,目標音經(jīng)過數(shù)字化模塊和分幀模塊后進入計算模塊,計算模塊接收原音信號,原音和目標音在計算模塊中分別提取歸一化的動態(tài)特征,將這些歸一化后的動態(tài)特征輸入到比較模塊進行比較,最終結(jié)果輸出到顯示模塊。
9.根據(jù)權利要求8所述的評分裝置,其特征在于還包括USB模塊和目標音輸入模塊,目標音從輸入模塊輸入,原音通過USB模塊輸入。
10.根據(jù)權利要求9所述的評分裝置,其特征在于所述分幀模塊、計算模塊、比較模塊采用DSP或ARM芯片實現(xiàn),所述輸入模塊包括麥克風,所述數(shù)字化模塊采用A/D轉(zhuǎn)換芯片, 原音通過USB模塊直接輸入到DSP或ARM芯片中,目標音則從麥克風輸入,先經(jīng)A/D轉(zhuǎn)換芯片輸入到DSP或ARM芯片中,經(jīng)DSP或ARM芯片對目標音分幀、特征提取、幀數(shù)歸一化、動態(tài)特征提取和頻率歸一化,得到兩組動態(tài)特征數(shù)據(jù)再進行誤差估計和評分,結(jié)果最終輸出到顯示模塊上。
全文摘要
本發(fā)明公開一種動態(tài)歸一化數(shù)字特征的語音評分方法與裝置,所述評分方法包括對目標音進行數(shù)字化處理后進行分幀;提取原音和目標音的動態(tài)特征,得到若干組動態(tài)特征序列,對這些序列進行歸一化操作得到歸一化的動態(tài)特征;計算原音與目標音各個共振峰的相似度,計算出原音與目標音之間的誤差,由各個共振峰的誤差能判斷總體的誤差,根據(jù)總體誤差進行評分。所述裝置包括順次信號連接的數(shù)字化模塊、分幀模塊、計算模塊、比較模塊和顯示模塊。本發(fā)明裝置結(jié)構(gòu)簡單,按照方便,從頻域的角度出發(fā),提取原音與目標聲音的歸一化共振峰動態(tài)特征,進行語音評分,來消除現(xiàn)有評分系統(tǒng)采用靜態(tài)特征評分帶來的不足,評分結(jié)果更為客觀。
文檔編號G10L25/90GK102592589SQ20121004264
公開日2012年7月18日 申請日期2012年2月23日 優(yōu)先權日2012年2月23日
發(fā)明者寧更新, 林廣超, 韋崗 申請人:華南理工大學