專利名稱:基于音頻頻譜特征分析的演唱音色純凈度的客觀評測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種度量演唱音色純凈度的客觀方法,更具體地說,本發(fā)明涉及一 種基于音頻頻譜特征分析的演唱音色純凈度的客觀評測方法。
背景技術(shù):
音色純凈度是指一種用于評價唱歌者演唱水平的主觀指標(biāo), 一般定義為一種清 晰、良好的演唱發(fā)聲的主觀感知。主觀評價人感覺唱歌者的聲音越清晰、純凈,則 認(rèn)為唱歌者的演唱音色純凈度越高,反之,則認(rèn)為演唱音色純凈度越低。這里的主 觀評價人, 一般指的是聲樂專家,比如聲樂老師和資深音樂家。而唱歌者可以是專 業(yè)的歌手、聲樂系學(xué)生,也可以是普通人。
目前,演唱評價基本還是處于完全依靠專家主觀評價的階段,并沒有成熟的客 觀評價系統(tǒng)能夠?qū)ρ莩交蜓莩降哪硞€方面進(jìn)行度量和評價。演唱音色純凈 度的評價也完全依賴專家的主觀感知,目前還沒有客觀度量的方法或者輔助主觀評 價的客觀指標(biāo)。雖然國外一些研究調(diào)査發(fā)現(xiàn)音色純凈度的評價和頻譜噪聲有一定的 關(guān)系,但是并沒有具體的、定義明確的客觀度量方法出現(xiàn)。例如,文獻(xiàn)1提出音色 明亮度與頻譜能量分布有關(guān),但是并沒有給出具體的的計(jì)算方法。另外,在對音色 純凈度進(jìn)行評價時,演唱者的音高是一個基本信息,我們采用參考文獻(xiàn)2中的方法 提取演唱者的音高,該方法通過求取每幀數(shù)據(jù)頻譜諧波和最大值對應(yīng)的基頻作為每 幀的音高值。這里,需要說明的是,該方法得到的音高值僅僅作為計(jì)算音色的一個 基本參數(shù)值,與本專利的獨(dú)特性無關(guān)。
另外,主觀演唱評價方法不可避免的具有以下幾個缺點(diǎn)第一,不可重復(fù)性。 因?yàn)楦鞣N各樣因素的影響,對于同樣一個演唱片段,兩次主觀評價之間或多或少的 都會出現(xiàn)差異,而這種差異在理想情況下是不應(yīng)該存在的。第二,主觀偏向性。因 為每個評價人都有各自不同的喜好,所以對于同一個演唱片段,每個評價人都有各 自不同的評價,都有各自的偏向性。第三,費(fèi)用昂貴,可獲得性差。對于一般的普 通人來說(不是專業(yè)的聲樂學(xué)校的學(xué)生),要獲得聲樂專家的主觀評價,是很困難的 或費(fèi)用高昂的。
參考文獻(xiàn)1: E. Ekholm, G. Papagiannis, and F. Chagnon, "Relating Objective
5Measurements to Expert Evaluation of Voice Quality in Western Classical Singing: Critical Perceptual Parameters," Journal of Voice, vol. 12, no.2, pp.182—196, 1998.
參考文獻(xiàn)2: C. Cao, M. Li, J. Liu, and Y. Yan, "Singing Melody Extraction in Polyphonic Music by Harmonic Tracking," Proc.8th International Conference on Music Information Retrieval (ISMIR), pp. 373-374, 2007.
發(fā)明內(nèi)容
因此,鑒于上述現(xiàn)狀,本發(fā)明的目的在于提供一種基于演唱片段的頻譜特征分 析的音色純凈度的客觀評測方法,通過對演唱片段的頻譜特征分析,給出可以量化 的客觀度量參數(shù)指標(biāo)。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明的基于演唱片段頻譜特征分析的音色純凈度客觀
評測方法,包括如下步驟
1) 選取需要度量音色純凈度的演唱片段音頻信號;
2) 對步驟l)的演唱信號進(jìn)行基頻提?。?br>
3) 用步驟2)中量化出的基頻序列,定位音頻信號中所有濁音段的諧波結(jié)構(gòu);
4) 對上述步驟3)中得到的諧波結(jié)構(gòu),計(jì)算得到四種頻譜特征測度諧波結(jié)構(gòu) 能量和、噪聲能量、寬帶能量和以及窄帶能量和;
5) 根據(jù)上述步驟4)中得到的頻譜特征,計(jì)算得到最終的音色純凈度的客觀度 量參數(shù)指標(biāo)。
與現(xiàn)有的主觀評價的方法相比,本發(fā)明提及的兩種客觀度量方法具有以下優(yōu)點(diǎn)
穩(wěn)定性、客觀性、便利性。由于是基于音頻信號頻譜特征的客觀評價方法,只要輸 入的演唱音頻信號一致,則度量結(jié)果保持不變,不受其他人為因素影響。同時,計(jì) 算機(jī)算法的便利程度較聲樂專家主觀評價的方式有很大改進(jìn),只需將錄制的演唱片 段輸入,算法即可以給出客觀度量參數(shù)。
圖1是本發(fā)明的基于音頻頻譜特征分析的演唱音色純凈度的客觀評測方法的流 程圖。
具體實(shí)施例方式
下面結(jié)合附圖及具體實(shí)施方式
對本發(fā)明的基于音頻頻譜特征分析的演唱音色純 凈度的客觀評測方法做進(jìn)一步詳細(xì)描述。
圖1是本發(fā)明的基于音頻頻譜特征分析的演唱音色純凈度的客觀評測方法的流 程圖。
如圖1所示,本發(fā)明提供的基于音頻頻譜特征分析的演唱音色純凈度的客觀評 測方法,包括如下步驟
1) 選取需要度量音色純凈度的演唱片段音頻信號; 該步驟l)中,首先輸入演唱片段的音頻數(shù)據(jù)。
在本發(fā)明的基于演唱頻譜特征分析的音色純凈度的客觀評測方法中,音頻數(shù)據(jù)的 格式可以采用16K 16Bit Windows PCM格式等任何一種采樣率來進(jìn)行處理。作為一 個實(shí)施例,我們采用16K采樣率的音頻數(shù)據(jù)格式,每個采樣點(diǎn)用16Bit數(shù)來表示。
2) 對步驟l)的演唱信號進(jìn)行基頻提?。?br>
在基頻提取步驟中,我們采用的是基于諧波和的基頻提取算法。簡要地說,該 方法通過計(jì)算歸一化諧波和譜對信號基頻/。序列進(jìn)行估計(jì),每個濁音幀輸出一個基 頻估計(jì)值?;l的具體計(jì)算方法與參考文獻(xiàn)2中描述基本一致,通過求取每幀數(shù)據(jù) 頻譜諧波和最大值對應(yīng)的基頻獲得。
3) 利用步驟2)中量化出的基頻序列,定位音頻信號中所有濁音段的諧波結(jié)構(gòu);
在演唱片段音頻基頻序列/。已確定的基礎(chǔ)上,下一步進(jìn)行演唱濁音段的諧波結(jié) 構(gòu)定位。諧波結(jié)構(gòu)&指的是濁音段(有真實(shí)基頻的幀)的基頻及其各次諧波構(gòu)成的 一簇頻譜分量以及各次諧波之間構(gòu)成的關(guān)系。在本發(fā)明中,我們只需要定位各次諧 波所在的位置乂;即可進(jìn)行之后的特征計(jì)算。具體的定位方法如下-
《=arg max & (/) , (D/ = (y. /。 — y. /。 + CT]
AO/
其中,/4旨的是第i幀的第j次諧波所在位置,S,CO為該幀的FFT能量譜,/。為該 幀的基頻值,(T為諧波位置的搜索范圍。簡單地說,在本發(fā)明中的諧波位置由基頻 整數(shù)倍局部范圍內(nèi)最大頻譜能量值所在位置確定的。74)對上述步驟3)中得到的諧波結(jié)構(gòu),計(jì)算得到四種頻譜特征測度諧波結(jié)構(gòu) 能量和、噪聲能量、寬帶能量和以及窄帶能量和;
該步驟是進(jìn)行各種頻譜特征測度的計(jì)算 第一頻譜特征諧波結(jié)構(gòu)能量和,其計(jì)算公式為
j"柳#
水
其中,c^為設(shè)定的諧波寬度參數(shù)。諧波結(jié)構(gòu)能量和^^主要度量的是該濁音幀整
諧波簇的能量總和。因?yàn)檠莩沃兄C波結(jié)構(gòu)是由規(guī)則、良好的聲帶振動產(chǎn)生的, 諧波結(jié)構(gòu)的能量和在一定程度上可以代表良好振動的程度。
第二頻譜特征噪聲能量和??砂颜麄€頻譜分為諧波分量和非諧波分量,在這里, 把非諧波分量認(rèn)為是由不規(guī)則的聲帶振動引起的"噪聲"部分,其計(jì)算方法為
「力、 '
其中,為整個頻譜能量和,減號后面是五H的展開形式。
第三個特征窄帶能量和,其定義為濁音幀各次諧波附近一個窄帶內(nèi)能量的總 和,在一定程度上也反映了規(guī)則聲帶振動的程度。其計(jì)算公式為
J柳#
乂. 、/"w ,
其中,C7為設(shè)定的窄帶帶寬。
第四特征寬帶能量和,其定義為濁音幀各次諧波附近一個寬帶內(nèi)能量的總和, 這其中包含規(guī)則振動的能量部分,也包含由于聲帶不規(guī)則振動引起的能量泄露部分。 其計(jì)算方法為
8<formula>formula see original document page 9</formula>其中,C7『為設(shè)定的寬帶帶寬。
5)根據(jù)上述步驟4)中得到的頻譜特征,計(jì)算得到最終的音色純凈度的客觀度
量參數(shù)指標(biāo)平均諧噪比以及平均窄帶寬帶能量比。
在獲得了 "諧波結(jié)構(gòu)能量和"、"噪聲能量和"的情況下,計(jì)算出平均諧噪比作為演唱音色純凈度的客觀度量參數(shù)指標(biāo)。
平均諧噪比的計(jì)算
對于任何濁音幀,其諧噪比的計(jì)算公式為
7/風(fēng)=&
y u、 ,
£ 「 、
乂. u" .
平均諧噪比i/iVi 就是該演唱音頻信號中所有濁音幀諧噪比/sv及,的算術(shù)平均值。在本發(fā)明中,平均諧噪比即可作為演唱音色純凈度的一個客觀度量,取值范圍為0~1 ,
平均諧噪比越大,說明演唱片段音色純凈度越高,反之,平均諧噪比越小,說明音色純凈度越低。
另外,也可以在獲得了 "窄帶能量和"、"寬帶能量和"的情況下,計(jì)算出平均窄帶寬帶能量比作為演唱音色純凈度的客觀度量參數(shù)指標(biāo)。
平均窄帶寬帶能量比的計(jì)算
對于任何濁音幀,其窄帶寬帶能量比的計(jì)算公式為:
9五
『5
q、 '
"、_^
J"柳#
平均窄帶寬帶能量比iV『i 就是該演唱音頻信號中所有濁音幀窄帶寬帶能量比
Af『《的算術(shù)平均值。在本發(fā)明中,平均窄帶寬帶能量比也可作為演唱音色純凈度的
另一個客觀度量,取值范圍為0 1,平均窄帶寬帶能量比越大,說明演唱片段音色純凈度越高,反之,平均窄帶寬帶能量比越小,說明音色純凈度越低。
另外,本發(fā)明的基于演唱片段頻譜特征分析的音色純凈度客觀評測方法,還可以將上述兩個度量指標(biāo)結(jié)合起來對音色純凈度進(jìn)行評測。即將兩種測度進(jìn)行加權(quán)平均后的值作為指標(biāo)。至于加權(quán)的方式和具體數(shù)值我們不做具體限定,可以是線性加權(quán),也可以是指數(shù)加權(quán)。
10
權(quán)利要求
1、一種基于音頻頻譜特征分析的演唱音色純凈度的客觀評測方法,包括如下步驟1)選取需要度量音色純凈度的演唱片段音頻信號;2)對步驟1)的演唱信號進(jìn)行基頻提??;3)用步驟2)中量化出的基頻序列,定位音頻信號中所有濁音段的諧波結(jié)構(gòu);4)對上述步驟3)中得到的諧波結(jié)構(gòu),計(jì)算得到四種頻譜特征測度諧波結(jié)構(gòu)能量和、噪聲能量、寬帶能量和以及窄帶能量和;5)根據(jù)上述步驟4)中得到的頻譜特征,計(jì)算得到最終的音色純凈度的客觀度量參數(shù)指標(biāo)平均諧噪比以及平均窄帶寬帶能量比,然后利用求出的參數(shù)指標(biāo)對演唱音色的純凈度進(jìn)行評測。
2、 如權(quán)利要求1所述的基于音頻頻譜特征分析的演唱音色純凈度的客觀評測方 法,其特征在于,所述步驟5)中,在利用求出的參數(shù)指標(biāo)對演唱音色的純凈度進(jìn)行 評測時,單獨(dú)基于所述平均諧噪比或者平均窄帶寬帶能量比進(jìn)行評價,或者將所述 平均諧噪比和平均窄帶寬帶能量比相結(jié)合進(jìn)行評價。
3、 如權(quán)利要求1或2所述的基于音頻頻譜特征分析的演唱音色純凈度的客觀評測方法,其特征在于,所述步驟l)中的基頻提取采用基于諧波和的基頻提取算法。
4、 如權(quán)利要求1或2所述的基于音頻頻譜特征分析的演唱音色純凈度的客觀評 測方法,其特征在于,所述步驟2)中的諧波結(jié)構(gòu)&是指濁音段的基頻及其各次諧 波構(gòu)成的一簇頻譜分量以及各次諧波之間構(gòu)成的關(guān)系,這里,定位各次諧波所在的 位置",具體的定位方法如下"=arg max《(/) , = (y'. /0 - o% /0 + cr]/帥/其中,"指的是第i幀的第j次諧波所在位置,S,(/)為該幀的FFT能量譜,/。為該幀的基頻值,CT為諧波位置的搜索范圍。
5、 如權(quán)利要求1或2所述的基于音頻頻譜特征分析的演唱音色純凈度的客觀評 測方法,其特征在于,所述步驟4)中各頻譜特征測度的計(jì)算方法分別為1)諧波結(jié)構(gòu)能量和其計(jì)算公式為<formula>formula see original document page 3</formula>其中,C^為設(shè)定的諧波寬度參數(shù);2)噪聲能量和把整個頻譜分為諧波分量和非諧波分量,將非諧波分量認(rèn)定為 由不規(guī)則的聲帶振動引起的噪聲部分,其計(jì)算方法為<formula>formula see original document page 3</formula>其中,J"S,W/為整個頻譜能量和,減號后面是五w的展開形式;3)窄帶能量和定義為濁音幀各次諧波附近一個窄帶內(nèi)能量的總和,反映規(guī)則 聲帶振動的程度,其計(jì)算公式為<formula>formula see original document page 3</formula>其中,為設(shè)定的窄帶帶寬;4)寬帶能量和定義為濁音幀各次諧波附近一個寬帶內(nèi)能量的總和,包含規(guī)則 振動的能量部分,也包含由聲帶不規(guī)則振動引起的能量泄露部分,其計(jì)算方法為<formula>formula see original document page 3</formula>其中,C7『為設(shè)定的寬帶帶寬;所述步驟5)中,根據(jù)上述頻譜特征計(jì)算得到最終的音色純凈度的客觀度量參數(shù) 指標(biāo)為1)平均諧噪比^fflVi 對于任何濁音幀,其諧噪比的計(jì)算公式為,<formula>formula see original document page 4</formula>所述平均諧噪比//A^是該演唱音頻信號中所有濁音幀諧噪比^fflV《的算術(shù)平均值,當(dāng)平均諧噪比7fA^作為演唱音色純凈度的一個客觀度量時,取值范圍為0~1:平均諧噪比Wi 越大,則演唱片段音色純凈度越高;2)平均窄帶寬帶能量比iV『i :對于任何濁音幀,其窄帶寬帶能量比的計(jì)算公式為,<formula>formula see original document page 4</formula>附所述平均窄帶寬帶能量比JV『i 是該演唱音頻信號中所有濁音幀窄帶寬帶能量比A^7 ,.的算術(shù)平均值,當(dāng)該平均窄帶寬帶能量比AW7 作為演唱音色純凈度的另一個客觀度量時,取值范圍為0 1,平均窄帶寬帶能量比越大,則演唱片段音色純凈度 越高;3)當(dāng)將上述平均諧噪比//7^ 和平均窄帶寬帶能量比^『及兩個度量指標(biāo)結(jié)合起 來對音色純凈度進(jìn)行評測時,將這兩種測度進(jìn)行加權(quán)平均后的值作為指標(biāo),所述加 權(quán)的方式采用線性加權(quán)或者指數(shù)加權(quán)。
全文摘要
本發(fā)明提供一種基于演唱片段頻譜特征分析的音色純凈度客觀評測方法,包括如下步驟1)選取需要度量音色純凈度的演唱片段音頻信號;2)對步驟1)的演唱信號進(jìn)行基頻提?。?)用步驟2)中量化出的基頻序列定位音頻信號中所有濁音段的諧波結(jié)構(gòu);4)根據(jù)步驟3)中得到的諧波結(jié)構(gòu),計(jì)算得到四種頻譜特征測度諧波結(jié)構(gòu)能量和、噪聲能量、寬帶能量和以及窄帶能量和;5)根據(jù)步驟4)中得到的頻譜特征,計(jì)算得到最終的音色純凈度的客觀度量參數(shù)指標(biāo)平均諧噪比以及平均窄帶寬帶能量比,利用求出的參數(shù)指標(biāo)對演唱音色的純凈度進(jìn)行評測。本發(fā)明的評測方法,利用計(jì)算機(jī)算法給出量化的指標(biāo),不受人為因素影響并具有穩(wěn)定性、客觀性及便利性等優(yōu)點(diǎn)。
文檔編號G10L11/00GK101650940SQ200810224789
公開日2010年2月17日 申請日期2008年12月26日 優(yōu)先權(quán)日2008年12月26日
發(fā)明者建 劉, 川 曹, 明 李, 潘接林, 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司