專利名稱:一種基于個(gè)體發(fā)聲能力的音樂推薦方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲音診斷領(lǐng)域的聲學(xué)分析、統(tǒng)計(jì)領(lǐng)域多元線性回歸以及機(jī)器學(xué)習(xí)領(lǐng)域的排序?qū)W習(xí)技術(shù),尤其涉及一種基于排序?qū)W習(xí)的音樂推薦方法。
背景技術(shù):
聲音診斷領(lǐng)域的聲學(xué)分析是通過對(duì)聲音質(zhì)量方面抽取聲學(xué)特征,從而客觀的對(duì)聲音質(zhì)量進(jìn)行診斷、評(píng)價(jià)以及研究。聲音診斷領(lǐng)域的聲學(xué)特征往往是利用信號(hào)處理領(lǐng)域中的方法抽取人聲底層的特征,然后通過分析實(shí)驗(yàn)建立的一系列能夠反映人聲粗糙度、撕?jiǎn)《取庀⒍?、無力度、緊張度、抖動(dòng)、噪音等等方面的特征。目前,聲音診斷的聲學(xué)分析的結(jié)果已經(jīng)被廣泛用于各類醫(yī)療儀器中并且作為聲音疾病診斷的重要依據(jù)。 在聲音診斷領(lǐng)域的發(fā)聲區(qū)域分析方面,發(fā)聲范圍檔案(Vocal Range Profile)是一種可用的簡(jiǎn)單的定量的記錄發(fā)聲能力的方法。一個(gè)用戶的發(fā)聲范圍檔案,清楚地記錄了用戶在不同頻率下能夠發(fā)出的最大和最小聲音,他們被投影在一張頻率和聲壓級(jí)為坐標(biāo)軸的圖上。發(fā)聲范圍檔案對(duì)于不同的性別,不同年齡,不同人種以及不同歌唱能力的人有非常明顯的區(qū)別,它被廣泛應(yīng)用于醫(yī)療以及發(fā)聲訓(xùn)練當(dāng)中。排序?qū)W習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),它用來為指定的排序任務(wù)訓(xùn)練排序函數(shù)。排序?qū)W習(xí)廣泛的應(yīng)用于許多領(lǐng)域,例如信息檢索,自然語(yǔ)言處理,數(shù)據(jù)挖掘等。在推薦領(lǐng)域,排序是至關(guān)重要的一步,排序?qū)W習(xí)針對(duì)特定的查詢對(duì)象,推薦內(nèi)容以及推薦任務(wù)學(xué)習(xí)特定的排序函數(shù),尤其在文檔排序推薦領(lǐng)域進(jìn)行了廣泛的研究與實(shí)踐。在文檔排序中,在每個(gè)文檔與查詢?cè)~之間定義了上百維的特征,用訓(xùn)練集中的查詢和文檔可以訓(xùn)練出有效的排序函數(shù),對(duì)于新的查詢?cè)~能夠提供良好的排序結(jié)果。Messa Di Voce是一種傳統(tǒng)發(fā)聲練習(xí)訓(xùn)練中使用的技巧,它是在保證音高不變的情況下使用漸強(qiáng)和減弱技巧,它要求演唱者演唱某個(gè)音符時(shí)保持音高不變,從一個(gè)很輕的響度漸漸地平滑的唱到很響,然后再唱輕,是一種演唱中比較有難度的一種技巧。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于個(gè)體發(fā)聲能力的音樂推薦方法。本發(fā)明解決其技術(shù)問題采用的技術(shù)方案如下一種基于個(gè)體發(fā)聲能力的音樂推薦方法,該方法的步驟如下
(1)通過一種簡(jiǎn)單的發(fā)聲引導(dǎo)方法收集的音頻文件能夠包含用戶所有能夠發(fā)聲的頻率和響度,通過對(duì)音頻文件切分處理得到該用戶不同頻率和響度下的發(fā)聲片段;
(2)對(duì)歌曲歌譜信息進(jìn)行統(tǒng)計(jì)處理建立歌曲輪廓。每首歌曲的輪廓包含歌曲中所有音符的音高以及每個(gè)音高所對(duì)應(yīng)的演唱響度的統(tǒng)計(jì)信息;
(3)對(duì)于每個(gè)步驟I)中的用戶以及步驟2)中的歌曲,通過歌曲相對(duì)用戶演唱適合程度的分類標(biāo)準(zhǔn),得到每個(gè)測(cè)試者的歌曲訓(xùn)練集;(4)基于高維聲學(xué)特征,使用用戶發(fā)聲音頻片段質(zhì)量評(píng)估模型對(duì)切分好的用戶發(fā)聲片段進(jìn)行質(zhì)量評(píng)估。該評(píng)估模型訓(xùn)練階段包含發(fā)聲片段人工質(zhì)量評(píng)價(jià)、特征抽取和線性回歸三個(gè)過程,而模型使用只需經(jīng)過特征抽取即可預(yù)測(cè)用戶發(fā)聲音頻片段質(zhì)量;
(5)對(duì)于新的測(cè)試者,通過步驟I)的錄音和步驟4)的質(zhì)量評(píng)估模型計(jì)算發(fā)聲質(zhì)量后,首先對(duì)其的發(fā)聲能力進(jìn)行二維區(qū)域映射,然后通過個(gè)體發(fā)聲區(qū)域劃分算法,對(duì)其個(gè)體發(fā)聲區(qū)域進(jìn)行劃分,以此建立個(gè)體發(fā)聲輪廓;
(6)通過基于歌曲輪廓的歌曲剪枝算法,進(jìn)行特征抽取前剪枝,這樣能有效的提高歌曲推薦速度;
(7)利用步驟2)中歌曲輪廓與步驟5)中個(gè)體發(fā)聲輪廓,在兩者之間定義一系列合理有效的排序?qū)W習(xí)的特征,并對(duì)歌曲輪廓與個(gè)體發(fā)聲輪廓組合一一進(jìn)行特征抽?。? (8)利用步驟7)中的特征,使用學(xué)習(xí)好的排序函數(shù)對(duì)測(cè)試者進(jìn)行音樂推薦。本發(fā)明具有的有益效果是通過簡(jiǎn)單的錄音引導(dǎo)測(cè)試收集測(cè)試者數(shù)據(jù),通過發(fā)聲區(qū)域映射、質(zhì)量評(píng)估和劃分建立個(gè)體發(fā)聲輪廓,與歌曲輪廓定義的一系列特征使用學(xué)習(xí)好的排序函數(shù)進(jìn)行音樂推薦,此音樂推薦方法可以推薦既對(duì)自身有難度又在自身演唱能力范圍內(nèi)的歌曲,推薦過程高效準(zhǔn)確。
圖I是本發(fā)明實(shí)施步驟流程圖。圖2是個(gè)體發(fā)聲輪廓建立處理示意圖。圖3是個(gè)體發(fā)聲輪廓實(shí)例示意圖。
具體實(shí)施例方式現(xiàn)結(jié)合具體實(shí)施和示例對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步說明。如圖I,本發(fā)明具體實(shí)施過程和工作原理如下
步驟I:通過一種簡(jiǎn)單的發(fā)聲引導(dǎo)方法收集用戶所有能夠發(fā)聲的頻率和響度的音頻文件,通過對(duì)音頻文件切分處理得到該用戶不同頻率和響度下的聲音采樣。指導(dǎo)用戶使用簡(jiǎn)化的Messa Di Voce,即測(cè)試者可以自行選擇幾個(gè)不同頻率進(jìn)行發(fā)聲,同時(shí)不需嚴(yán)格保證發(fā)聲頻率不變,此處選擇演唱的音需包含用戶最高以及最低的能夠發(fā)聲的頻率;對(duì)于每個(gè)發(fā)聲音頻文件進(jìn)行時(shí)間片切分,如200毫秒為一個(gè)片段,使用聲學(xué)分析軟件Praat計(jì)算片段的頻率和響度,得到該用戶不同頻率和響度下的聲音采樣;
步驟2 :對(duì)歌曲歌譜信息進(jìn)行統(tǒng)計(jì)處理建立歌曲輪廓。使用midi作為歌曲電子樂譜,其中能夠記錄歌曲完整的音高與響度信息,midi歌曲創(chuàng)作時(shí)音符的按鍵力度代表此音符所需演唱的響度信息。對(duì)每首midi的音符進(jìn)行數(shù)量、時(shí)間以及占整首歌曲音符數(shù)量、時(shí)間的百分比方面的統(tǒng)計(jì),在力度方面的統(tǒng)計(jì)方法與音高相同,統(tǒng)計(jì)結(jié)果作為歌曲輪廓;
步驟3 :對(duì)于每個(gè)步驟I中的用戶以及步驟2中的歌曲,通過歌曲相對(duì)用戶演唱適合程度的分類標(biāo)準(zhǔn),產(chǎn)生每個(gè)測(cè)試者的歌曲訓(xùn)練集。讓每個(gè)參與發(fā)聲音頻錄制的測(cè)試者自行挑選演唱歌曲庫(kù)中部分歌曲,由聲樂領(lǐng)域?qū)<腋鶕?jù)歌曲適合其演唱程度進(jìn)行分類,分類標(biāo)準(zhǔn)如下
I)最適合唱,歌曲中最高音或最低音部分存在比較多部分落在測(cè)試者演唱有挑戰(zhàn)的高音區(qū)或者低音區(qū),但沒有測(cè)試者無法發(fā)聲的音(得真假聲切換唱或者表達(dá)的很差);歌曲存在需要自己很響演唱的部分,但可以較輕松的唱到這個(gè)響度,或者歌曲存在需要自己很輕演唱的部分,但可以較輕松的唱到這個(gè)響度;
2)比較適合唱,歌曲中大多數(shù)音對(duì)測(cè)試者比較容易唱,有挑戰(zhàn)的音存在但不多;歌曲需要測(cè)試者使用很大或很小力度的音存在但比較少;
3)—般適合唱,歌曲中最高音或最低音部分基本是測(cè)試者比較容易演唱的音,有挑戰(zhàn)的音基本沒有;歌曲的力度對(duì)測(cè)試者而言比較輕松;
4)不太適合唱,歌曲中最高音或最低音部分有比較少的音是測(cè)試者無法唱(需真假聲切換唱或落在自己很難表達(dá)的高音或低音上),同時(shí)存在很多音是對(duì)測(cè)試者有挑戰(zhàn)的;歌曲響度方面?zhèn)€別部分很難唱到這么響,或沒法唱這么輕;
5)不適合唱,歌曲中最高音或最低音部分有許多沒法唱;歌曲很響或很輕的部分無法到達(dá)要求力度
步驟4 :基于高維聲學(xué)特征,使用用戶發(fā)聲音頻片段質(zhì)量評(píng)估模型對(duì)切分好的用戶發(fā)聲片段進(jìn)行質(zhì)量評(píng)估。該步驟中,用戶發(fā)聲音頻片段質(zhì)量評(píng)估模型可以采用公知的多元線性回歸模型,評(píng)估的模型訓(xùn)練首先需要對(duì)訓(xùn)練集內(nèi)用戶發(fā)聲音頻文件中不同發(fā)聲質(zhì)量的時(shí)間段進(jìn)行5個(gè)等級(jí)的人工質(zhì)量評(píng)分(I-最差,5-最好)。此處需要請(qǐng)幾位聲樂方面有經(jīng)驗(yàn)的老師使用Praat的textgrid功能進(jìn)行評(píng)分,并對(duì)評(píng)分結(jié)果取平均值。發(fā)聲質(zhì)量評(píng)分主要依據(jù)聲樂老師經(jīng)驗(yàn),通過實(shí)踐,總結(jié)出以下評(píng)分依據(jù)
I分沒法用來唱無聲或很不穩(wěn),音色很差,
2分極少量出現(xiàn)在演出中可以接受響亮度一般,音色不太好,穩(wěn)定性一般 3分音色響亮度穩(wěn)定性等一般,用于演唱一般接受 4分音色響亮度穩(wěn)定性等用于演唱完全可以接受 5分各方面發(fā)揮自如,效果很好
在評(píng)估好用戶發(fā)聲音頻文件后,按照如下步驟訓(xùn)練發(fā)聲質(zhì)量評(píng)估模型
1)以200毫秒為單位使用Praat切分所有音頻文件,同時(shí)可以得到每個(gè)切分的發(fā)聲片段人工打分的值;
2)對(duì)于每個(gè)發(fā)聲片段,對(duì)其提取聲學(xué)領(lǐng)域公認(rèn)的與聲音質(zhì)量有關(guān)的17個(gè)特征,依次為頻率變化的方差,周期變化的方差,局部頻率抖動(dòng)方面四個(gè)特征(jitter_loc,jitter,loc_abs, jitter_rap, jitter_ppq5),口向度抖動(dòng)方面五個(gè)特征(shimmer_loc, shimmer_loc_dB, shimmer_apq3, shimmer_apq5, shimmer_apqll),噪音方面三個(gè)特征(mean_autocor, mean_nhr, mean_hnr),演唱功率比(Singing Power Ratio),頻譜分析的傾斜度(tilt)與坡度(slope) ο3)使用多元線性回歸模型,每個(gè)200毫秒的發(fā)聲片段的17維特征以及人工質(zhì)量評(píng)分作為訓(xùn)練數(shù)據(jù),得到用戶發(fā)聲音頻采樣質(zhì)量評(píng)估模型;
模型的使用需要對(duì)測(cè)試者錄音數(shù)據(jù)進(jìn)行上述的切分與聲學(xué)特征提取,然后通過用戶發(fā)聲音頻片段質(zhì)量評(píng)估模型得到發(fā)聲質(zhì)量預(yù)測(cè)值。步驟5 :利用步驟4)抽取的特征以及質(zhì)量評(píng)估模型,首先對(duì)每個(gè)個(gè)體的發(fā)聲能力進(jìn)行二維區(qū)域映射,然后通過個(gè)體發(fā)聲區(qū)域劃分算法,對(duì)個(gè)體發(fā)聲區(qū)域進(jìn)行劃分,最后建立個(gè)體發(fā)聲輪廓。整個(gè)個(gè)體發(fā)聲輪廓的建立主要分為發(fā)聲質(zhì)量二維區(qū)域映射以及二維發(fā)聲區(qū)域自動(dòng)劃分兩個(gè)步驟。發(fā)聲質(zhì)量二維區(qū)域映射對(duì)于測(cè)試者的的音頻文件,在步驟4)切分以及質(zhì)量預(yù)測(cè)的結(jié)果下,對(duì)各個(gè)發(fā)聲片段進(jìn)行平均音高與響度的分析,并投影到以音高為橫坐標(biāo)(最小單位是半音),響度為縱坐標(biāo)(最小單位是2dB)的二維圖中,對(duì)于在相同半音與響度區(qū)間的片段的發(fā)聲質(zhì)量預(yù)測(cè)值計(jì)算其平均值;
使用區(qū)域劃分算法對(duì)此二維區(qū)域進(jìn)行劃分,劃分算法步驟如下
1)沒有聲音片段投影的區(qū)域作為區(qū)域0,表示測(cè)試者無法發(fā)聲的區(qū)域;
2)對(duì)于有聲音片段投影的區(qū)域通過設(shè)置發(fā)聲質(zhì)量閾值(O.21),把發(fā)聲區(qū)域分成兩部分,外圈部分稱為區(qū)域1,表示用戶發(fā)聲困難區(qū)域;
3)把內(nèi)圈部分通過設(shè)置邊界響度區(qū)間(5dB)以及邊界音高區(qū)間(4個(gè)半音)分 成區(qū)域3(內(nèi)圈的邊界區(qū)域)和區(qū)域4(內(nèi)部區(qū)域)
這樣的劃分方式在定義特征時(shí)能充分體現(xiàn)測(cè)試者的發(fā)聲能力,對(duì)于不同測(cè)試者具有良好的區(qū)分,可以作為發(fā)聲能力方面的指紋。圖2展示了個(gè)體發(fā)聲輪廓的建立的整個(gè)流程,圖3是個(gè)人發(fā)聲輪廓的處理結(jié)果的展示圖,其中顏色越深表示發(fā)聲質(zhì)量越好,區(qū)域I與區(qū)域3、區(qū)域3與區(qū)域2都通過黑色的點(diǎn)來表示區(qū)域邊界。步驟6 :對(duì)于海量歌曲數(shù)據(jù)庫(kù)設(shè)計(jì)了特征定義前的歌曲剪枝策略,從而加速歌曲推薦速度。對(duì)于某個(gè)測(cè)試者的個(gè)體發(fā)聲輪廓,每個(gè)歌曲輪廓中落在個(gè)體發(fā)聲輪廓的O區(qū)域的音符統(tǒng)計(jì)數(shù)量超過一個(gè)設(shè)定的閾值即被剪枝。這樣保證對(duì)于測(cè)試者不能唱的歌曲在特征抽取前就被去除,加快了推薦速度同時(shí)提高了推薦的準(zhǔn)確性。步驟7:結(jié)合了歌曲輪廓和個(gè)體發(fā)聲輪廓定義了 168個(gè)排序?qū)W習(xí)的特征。特征定義根據(jù)歌曲的不同音高響度的音符落在單個(gè)區(qū)域或多個(gè)區(qū)域組合中的時(shí)間、數(shù)量,以及他們與其他多個(gè)區(qū)域組合中音符的時(shí)間、數(shù)量的比例關(guān)系;另外,通過把歌曲輪廓類比成文檔,把個(gè)體發(fā)聲輪廓類比成查詢,音符就是詞,特征定義可以分為幾類
1)純粹音符時(shí)間、數(shù)量在各個(gè)劃分區(qū)域的分布和各區(qū)域的比例;
2)考慮TF-IDF的音符時(shí)間、數(shù)量在各個(gè)劃分區(qū)域的分布和各區(qū)域的比例;
3)歌曲輪廓發(fā)聲質(zhì)量評(píng)估值加權(quán)的音符時(shí)間、數(shù)量在各個(gè)劃分區(qū)域的分布和各區(qū)域的比例;
4)音符TF-IDF與發(fā)聲質(zhì)量評(píng)估值共同加權(quán)的音符時(shí)間、數(shù)量在各個(gè)劃分區(qū)域的分布和各區(qū)域的比例;
步驟8 :利用步驟7中的特征,使用學(xué)習(xí)好的排序函數(shù)對(duì)測(cè)試者進(jìn)行音樂推薦。排序函數(shù)訓(xùn)練步驟如下
1)對(duì)于所有構(gòu)建測(cè)試集的測(cè)試者,利用步驟3的歌曲分類和使用步驟6中的特征抽取方法進(jìn)行特征抽??;
2)選擇Listnet作為排序?qū)W習(xí)算法,使用一維神經(jīng)網(wǎng)絡(luò)模型,用于排序函數(shù)的訓(xùn)練。2)對(duì)于I)中的數(shù)據(jù)放入Listnet模型中,使用梯度下降迭代4000次得到排序函數(shù)的參數(shù)。對(duì)于新的測(cè)試者,利用步驟7中抽取的特征,放入此排序函數(shù),即可得到某首歌曲相對(duì)于此用戶適合演唱程度的值,分值越高歌曲越適合唱,而且所推薦的歌曲既是在演唱 能力范圍內(nèi)又不會(huì)過于簡(jiǎn)單。
權(quán)利要求
1.一種基于個(gè)體發(fā)聲能力的音樂推薦方法,其特征在于,該方法的步驟如下 (1)通過一種簡(jiǎn)單的發(fā)聲引導(dǎo)方法收集的音頻文件能夠包含用戶所有能夠發(fā)聲的頻率和響度,通過對(duì)音頻文件切分處理得到該用戶不同頻率和響度下的發(fā)聲片段; (2)對(duì)歌曲歌譜信息進(jìn)行統(tǒng)計(jì)處理建立歌曲輪廓;每首歌曲的輪廓包含歌曲中所有音符的音高以及每個(gè)音高所對(duì)應(yīng)的演唱響度的統(tǒng)計(jì)信息; (3)對(duì)于每個(gè)步驟I中的用戶以及步驟2中的歌曲,通過歌曲相對(duì)用戶演唱適合程度的分類標(biāo)準(zhǔn),得到每個(gè)測(cè)試者的歌曲訓(xùn)練集; (4)基于高維聲學(xué)特征,使用用戶發(fā)聲音頻片段質(zhì)量評(píng)估模型對(duì)切分好的用戶發(fā)聲片段進(jìn)行質(zhì)量評(píng)估;該評(píng)估模型訓(xùn)練階段包含發(fā)聲片段人工質(zhì)量評(píng)價(jià)、特征抽取和線性回歸三個(gè)過程,而模型使用只需經(jīng)過特征抽取即可預(yù)測(cè)用戶發(fā)聲音頻片段質(zhì)量; (5)對(duì)于新的測(cè)試者,通過步驟I的錄音和步驟4的質(zhì)量評(píng)估模型計(jì)算發(fā)聲質(zhì)量后,首先對(duì)其的發(fā)聲能力進(jìn)行二維區(qū)域映射,然后通過個(gè)體發(fā)聲區(qū)域劃分算法,對(duì)其個(gè)體發(fā)聲區(qū)域進(jìn)行劃分,以此建立個(gè)體發(fā)聲輪廓; (6)通過基于歌曲輪廓的歌曲剪枝算法,進(jìn)行特征抽取前剪枝,這樣能有效的提高歌曲推薦速度; (7)利用步驟2中歌曲輪廓與步驟5中個(gè)體發(fā)聲輪廓,在兩者之間定義一系列合理有效的排序?qū)W習(xí)的特征,并對(duì)歌曲輪廓與個(gè)體發(fā)聲輪廓組合一一進(jìn)行特征抽??; (8)利用步驟7中的特征,使用學(xué)習(xí)好的排序函數(shù)對(duì)測(cè)試者進(jìn)行音樂推薦。
全文摘要
本發(fā)明公開了一種基于個(gè)體發(fā)聲能力的音樂推薦方法,該發(fā)明首先設(shè)計(jì)了一種特定的用戶發(fā)聲引導(dǎo)方法以及歌曲輪廓建立方法,同時(shí)提出基于高維聲學(xué)特征的用戶發(fā)聲音頻片段質(zhì)量評(píng)估模型,并建立了個(gè)體發(fā)聲輪廓。在此基礎(chǔ)上,通過特征抽取與排序?qū)W習(xí),訓(xùn)練得到基于個(gè)體發(fā)聲能力的音樂推薦模型。本發(fā)明的方法推薦的歌曲既在測(cè)試者能力范圍內(nèi)又不會(huì)過于簡(jiǎn)單,同時(shí)通過歌曲剪枝策略加速推薦過程。
文檔編號(hào)G06F17/30GK102880693SQ20121034972
公開日2013年1月16日 申請(qǐng)日期2012年9月20日 優(yōu)先權(quán)日2012年9月20日
發(fā)明者陳剛, 胡天磊, 毛曠, 壽黎但, 陳珂 申請(qǐng)人:浙江大學(xué)