專利名稱:基于音頻頻譜特征分析的演唱音色明亮度客觀評測方法
技術領域:
本發(fā)明涉及一種度量演唱音色明亮度的客觀方法,更具體地說,本發(fā)明涉及一種基于音頻頻譜特征分析的演唱音色明亮度的客觀評測方法。
背景技術:
音色明亮度是指一種用于評價唱歌者演唱水平的主觀指標, 一般定義為對唱歌者歌聲的一種明亮、高昂、溫暖的主觀感知。主觀評價人感覺唱歌者的歌聲越明亮、高昂,則認為唱歌者的演唱音色明亮度越高,反之,則認為演唱音色明亮度越低。這里的主觀評價人, 一般指的是聲樂專家,比如聲樂老師和資深音樂家。而唱歌者可以是專業(yè)的歌手、聲樂系學生,也可以是普通人。
目前,演唱評價基本還是處于完全依靠專家主觀評價的階段,并沒有成熟的客觀評價系統(tǒng)能夠對演唱水平或演唱水平的某個方面進行度量和評價。演唱音色明亮程度的評價也完全依賴專家的主觀感知,目前還沒有客觀度量的方法或者輔助主觀評價的客觀指標。雖然國外一些研究調査發(fā)現(xiàn)音色明亮度的評價和頻譜能量分布、共振峰位置、能量等有關,但是并沒有具體的、定義明確的客觀度量方法出現(xiàn)。例如,文獻1提出音色明亮度與頻譜能量分布有關,但是并沒有給出具體的計算方法。另外,演唱水平的評價與旋律音高的準確性相關,演唱者音高的提取,我們采用了參考文獻2中提出的方法,該方法通過求取每幀數(shù)據(jù)頻譜諧波和最大值對應的基頻作為每幀的音高值。這里,需要說明的是,該方法得到的音高值僅僅作為計算音色的一個基本參數(shù)值,與本專利的獨特性無關。
另外,主觀演唱評價方法不可避免的具有以下幾個缺點第一,不可重復性。因為各種各樣因素的影響,對于同樣一個演唱片段,兩次主觀評價之間或多或少的都會出現(xiàn)差異,而這種差異在理想情況下是不應該存在的。第二,主觀偏向性。因為每個評價人都有各自不同的喜好,所以對于同一個演唱片段,每個評價人都有各自不同的評價,都有各自的偏向性。第三,費用昂貴,可獲得性差。對于一般的普通人來說(不是專業(yè)的聲樂學校的學生),要獲得聲樂專家的主觀評價,是很困難的或費用高昂的。
參考文獻1: E. Ekholm, G. Papagiannis, and F. Chagnon, "Relating ObjectiveMeasurements to Expert Evaluation of Voice Quality in Western Classical Singing:Critical Perceptual Parameters," Journal of Voice, vol.12, no.2, pp. 182—196, 1998.
參考文獻2: C. Cao, M. Li,丄Liu, and Y. Yan, "Singing Melody Extraction inPolyphonic Music by Harmonic Tracking," Proc.她International Conference on MusicInformation Retrieval (ISMIR), pp. 373—374, 2007.
發(fā)明內容
因此,鑒于上述現(xiàn)狀,本發(fā)明的目的在于提供一種基于音頻頻譜特征分析的演唱音色明亮度的客觀評測方法,通過對演唱片段的頻譜特征分析,給出可以量化的客觀評測參數(shù)指標。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的基于音頻頻譜特征分析的演唱音色明亮度的客觀評測方法,包括如下步驟-
1) 選取需要度量音色明亮度的演唱片段音頻信號;
2) 對上述所選取的演唱片段音頻信號進行"演唱/間隙"判斷;
3) 對上述步驟2)中得到的演唱片段,計算得到三種頻譜特征測度2K-3KHz能量和、頻譜能量總和以及頻率加權的譜能量和;
4) 根據(jù)上述步驟3)中得到的頻譜特征,計算得到最終的音色明亮度的客觀度量參數(shù)指標平均2K-3KHz能量比、平均譜重心,然后利用求出的參數(shù)指標對演唱音色的明亮度進行評測。
其中,上述步驟4)中,在利用求出的參數(shù)指標對演唱音色的明亮度進行評測時,可以單獨基于所述平均2K-3KHz能量比或者平均譜重心進行評價,也可以將所述平均2K-3KHz能量比和平均譜重心相結合來進行評價。
另外,所述步驟2)中的判斷方法包括基于能量的語音活動檢測算法以及基于基頻檢測算法的voice/nonvoice判斷機制。
與現(xiàn)有的主觀評價的方法相比,本發(fā)明提及的兩種客觀度量方法具有以下優(yōu)點穩(wěn)定性、客觀性、便利性。由于是基于音頻信號頻譜特征的客觀評價方法,只要輸入的演唱音頻信號一致,則度量結果保持不變,不受其他人為因素影響。同時,計算機算法的便利程度較聲樂專家主觀評價的方式有很大改進,只需將錄制的演唱片段輸入,算法即可以給出客觀度量參數(shù)。
圖1是本發(fā)明的音色明亮度客觀評測方法的流程圖。
具體實施例方式
下面結合附圖及具體實施方式
對本發(fā)明的基于音頻頻譜特征分析的演唱音色明亮度的客觀評測方法做進一步詳細描述。
圖1是本發(fā)明的音色明亮度客觀評測方法的流程圖。
如圖1所示,本發(fā)明提供的基于音頻頻譜特征分析的演唱音色明亮度客觀評測方法,包括如下步驟
1) 選取需要度量音色明亮度的演唱片段音頻信號該步驟l)中,首先輸入演唱片段的音頻數(shù)據(jù)。
在本發(fā)明的基于演唱頻譜特征分析的音色明亮度的客觀評測方法中,音頻數(shù)據(jù)
的格式可以采用16K 16Bit Windows PCM格式等任何一種采樣率來進行處理。作為一個實施例,我們采用16K采樣率的音頻數(shù)據(jù)格式,每個采樣點用16Bit數(shù)來表示。
2) 對上述所選取的演唱片段音頻信號進行"演唱/間隙"判斷
在該"演唱/間隙"判斷步驟中,可以采用多種方法,例如基于能量的語音活動檢測(VAD: Voice Activity Detection)算法等。這里,以采用基于基頻檢測算法的voice/nonvoice判斷機制為例進行說明。具體地說,使用基于諧波和的基頻提取算法,該方法通過計算歸一化諧波和譜對信號基頻/。序列進行估計,每個濁音幀輸出一個基頻估計值?;l的具體計算方法與參考文獻2中描述基本一致,通過求取每幀數(shù)據(jù)頻譜諧波和最大值對應的基頻獲得。將具有有效基頻值的幀視為"演唱"部分,而將其余部分視為"間隙"部分。
3) 對上述步驟2)中得到的演唱片段,計算得到三種頻譜特征測度2K-3KHz能量和、頻譜能量總和以及頻率加權的譜能量和
通過步驟2)確定了演唱部分位置之后,接著進行頻譜特征(2K-3KHz能量和、頻譜能量總和、頻率加權的譜能量和)的測度計算。
第一個特征2K-3KHz能量和。2K-3KHz能量和指的是每個"演唱"幀中
62KHz 3KHz部分頻譜能量的總和,其計算方法為-
3《
其中S(/)為該幀的快速傅立葉變換(FFT)能量譜。
第二個特征頻譜能量總和,即整個頻譜的能量總和,其計算公式為-
第三個特征頻率加權的譜能量和,即用頻率值來對頻譜能量值進行加權,其 計算方法為
4)根據(jù)上述步驟3)中得到的頻譜特征,計算得到最終的音色明亮度的客觀度 量參數(shù)指標平均2K-3KHz能量比以及平均譜重心。
在獲得了 "2K-3KHz能量和"、"頻譜能量總和"之后,計算出平均2K-3KHz能
量比作為演唱音色明亮度的客觀度量指標。
平均2K-3KHz能量比的計算
對于任何演唱幀,其2K-3KHz能量比的計算公式為
' 一五r —
平均2K-3KHz能量比》就是該演唱音頻信號中所有演唱幀2K-3KHz能量比《 的算術平均值。在本發(fā)明中,平均2K-3KHz能量比即可作為演唱音色明亮度的一個 客觀度量,取值范圍為0 1,平均2K-3KHz能量比越大,說明演唱片段音色明亮度 越高,反之,平均2K-3KHz能量比越小,說明音色明亮度越低。
或者,也可以在獲得了 "頻譜能量總和"、"頻率加權的譜能量和"之后,計算 出平均譜重心來作為演唱音色明亮度的客觀度量指標。
平均譜重心的計算對于任何演唱幀,其譜重心的計算公式為-
<formula>formula see original document page 8</formula>
平均譜重心5即是該演唱音頻信號中所有演唱幀譜重心c;的算術平均值。在本 發(fā)明中,平均譜重心也可作為演唱音色明亮度的另一個客觀度量,取值范圍為 0~8000,平均譜重心越大,說明演唱片段音色明亮度越高,反之,平均譜重心越小, 說明音色明亮度越低。
另外,本發(fā)明的基于演唱片段頻譜特征分析的音色明亮度客觀評測方法,還可 以將上述兩個度量指標結合起來對音色明亮度進行評測。即將兩種測度進行加權平 均后的值作為指標。至于加權的方式和具體數(shù)值我們不做具體限定,可以是線性加 權,也可以是指數(shù)加權。
8
權利要求
1、一種基于音頻頻譜特征分析的演唱音色明亮度的客觀評測方法,包括如下步驟1)選取需要度量音色明亮度的演唱片段音頻信號;2)對上述所選取的演唱片段音頻信號進行“演唱/間隙”判斷;3)對上述步驟2)中得到的演唱片段,計算得到三種頻譜特征測度2K-3KHz能量和、頻譜能量總和以及頻率加權的譜能量和;4)根據(jù)上述步驟3)中得到的頻譜特征,計算得到最終的音色明亮度的客觀度量參數(shù)指標平均2K-3KHz能量比、平均譜重心,然后利用求出的參數(shù)指標對演唱音色的明亮度進行評測。
2、 如權利要求1所述的基于音頻頻譜特征分析的演唱音色明亮度的客觀評測方 法,其特征在于,所述步驟4)中,在利用求出的參數(shù)指標對演唱音色的明亮度進行 評測時,單獨基于所述平均2K-3KHz能量比或者平均譜重心進行評價,或者將所述 平均2K-3KHz能量比和平均譜重心相結合進行評價。
3、 如權利要求1或2所述的基于音頻頻譜特征分析的演唱音色明亮度的客觀評 測方法,其特征在于,所述步驟2)中的判斷方法包括基于能量的語音活動檢測算 法以及基于基頻檢測算法的voice/nonvoice判斷機制。
4、 如權利要求1或2所述的基于音頻頻譜特征分析的演唱音色明亮度的客觀評 測方法,其特征在于,所述步驟3)中各頻譜特征測度的計算方法分別為1) 2K-3KHz能量和計算公式為五2緒=化,其中,S(/)為該幀的快速傅立葉變換能量譜;2) 頻譜能量總和計算公式為五r = ;3) 頻率加權的譜能量和用頻率值對頻譜能量值進行加權,其計算方法為,,4 = ;所述步驟4)中根據(jù)上述頻譜特征計算得到的最終的音色明亮度的客觀度量參數(shù)指標為1) 平均2K-3KHz能量比5:對于任何演唱幀,其2K-3KHz能量比的計算公式為,〃 J"柳"/'_五r —所述平均2K-3KHz能量比萬是該演唱音頻信號中所有演唱幀2K-3KHz能量比 i ,的算術平均值,該平均2K-3KHz能量比Z作為演唱音色明亮度的一個客觀度量時,取值范圍為0-l,平均2K-3KHz能量比》越大,則演唱片段音色明亮度越高;2) 平均譜重心5:對于任何演唱幀,其譜重心的計算公式為,'一 (平均譜重心5是該演唱音頻信號中所有演唱幀譜重心c,的算術平均值,該平均譜重心5作為演唱音色明亮度的另一個客觀度量時,取值范圍為0~8000,平均譜重 心5越大,則演唱片段音色明亮度越高;3) 當將上述平均2K-3KHz能量比5和平均譜重心5兩個度量指標結合起來對 音色明亮度進行評測時,將這兩種測度進行加權平均后的值作為指標,所述加權的 方式采用線性加權或者指數(shù)加權。
全文摘要
本發(fā)明提供一種基于音頻頻譜特征分析的演唱音色明亮度的客觀評測方法,包括如下步驟1)選取需要度量音色明亮度的演唱片段音頻信號;2)對所選取的演唱片段音頻信號進行“演唱/間隙”判斷;3)對步驟2)得到的演唱片段,計算得到三種頻譜特征測度2K-3KHz能量和、頻譜能量總和以及頻率加權的譜能量和;4)根據(jù)步驟3)得到的頻譜特征,計算得到最終的客觀度量參數(shù)指標平均2K-3KHz能量比、平均譜重心,利用求出的參數(shù)指標對演唱音色的明亮度進行評測。本發(fā)明的評測方法,通過對演唱片段的頻譜特征分析,利用計算機算法給出可以量化的客觀評測參數(shù)指標,不受其他人為因素影響,并且具有穩(wěn)定性、客觀性以及便利性等優(yōu)點。
文檔編號G10L11/00GK101650941SQ200810224790
公開日2010年2月17日 申請日期2008年12月26日 優(yōu)先權日2008年12月26日
發(fā)明者建 劉, 川 曹, 明 李, 潘接林, 顏永紅 申請人:中國科學院聲學研究所;北京中科信利技術有限公司