一種音頻文件的旋律提取方法及旋律識別系統(tǒng)的制作方法

文檔序號：2823958閱讀：371來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種音頻文件的旋律提取方法及旋律識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種音頻文件的旋律提取方法，以及一種音頻文件的旋律識別系統(tǒng)。
背景技術(shù)：
傳統(tǒng)的音頻播放器或者音樂下載器中，常常通過與音頻文件綁定的身份數(shù)據(jù)信息來識別音頻文件，這部分身份數(shù)據(jù)信息通常設(shè)置在音頻文件的開頭或末尾的若干字節(jié)內(nèi)，稱為ID3信息，所述ID3信息常常記載了所述音頻文件的歌手、標題、專輯名稱、年代、風(fēng)格等信息。播放器或者下載器在音頻文件中提取這部分身份數(shù)據(jù)信息，然后顯示給用戶查看。然而，如今通過相關(guān)的軟件可以輕易地修改音頻文件中的所述身份數(shù)據(jù)信息，在網(wǎng)絡(luò)上傳播的音頻文件，所述身份數(shù)據(jù)信息在多次轉(zhuǎn)載的過程中可能會被不同的用戶修改甚至刪除，導(dǎo)致所述音頻文件的身份數(shù)據(jù)信息與實際不符甚至無法識別，給用戶使用帶來不便。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種較準確的音頻文件的旋律提取方法，其不依賴于音頻文件中綁定的身份數(shù)據(jù)信息，能夠準確地識別音頻文件的身份。一種音頻文件的旋律提取方法，包括以下步驟保存預(yù)先建立的標簽庫，其中，所述標簽庫中預(yù)先保存多個音頻文件的第一數(shù)字標簽以及所述音頻文件的身份數(shù)據(jù)信息；在一個音頻文件中截取若干個音頻片段，分別提取所述若干個音頻片段的音頻特征生成所述音頻文件的第二數(shù)字標簽；根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的身份數(shù)據(jù)信息；將所述身份數(shù)據(jù)信息與所述音頻文件相匹配。本發(fā)明要解決的技術(shù)問題還在于提供一種較準確的音頻文件的旋律識別系統(tǒng)。所述音頻文件的旋律識別系統(tǒng)包括客戶端和服務(wù)器，所述客戶端用于在一個音頻文件中截取若干個音頻片段；分別提取所述若干個音頻片段的音頻特征，生成所述音頻文件的第二數(shù)字標簽，然后將所述第二數(shù)字標簽發(fā)送至所述服務(wù)器；接收所述服務(wù)器發(fā)送的身份數(shù)據(jù)信息，將所述身份數(shù)據(jù)信息與所述音頻文件相匹配。所述服務(wù)器用于保存預(yù)先建立的標簽庫，其中，所述標簽庫中預(yù)先保存多個音頻文件的第一數(shù)字標簽以及所述音頻文件的身份數(shù)據(jù)信息；接收所述客戶端發(fā)送的第二數(shù)字標簽，根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的身份數(shù)據(jù)信息，并將所述身份數(shù)據(jù)信息發(fā)送至所述客戶端。與現(xiàn)有技術(shù)相比較，本發(fā)明的音頻文件的旋律提取方法及旋律識別系統(tǒng)中，對一個音頻文件截取音頻片段，提取所述音頻片段的特征生成所述第二數(shù)字標簽，查找所述標簽庫，獲取與所述第二數(shù)字標簽對應(yīng)的音頻文件身份數(shù)據(jù)信息并匹配至對應(yīng)的音頻文件。因為在識別音頻文件的過程中不依賴于所述音頻文件上附帶的身份數(shù)據(jù)信息，而是直接根據(jù)其本身的音頻特征來識別所述音頻文件，因為每個所述音頻文件都有其唯一的音頻特征，所以本發(fā)明的音頻文件的旋律提取方法及旋律識別系統(tǒng)能夠準確地識別各個不同的音頻文件，不會因為在轉(zhuǎn)載過程中身份數(shù)據(jù)信息的修改而導(dǎo)致無法識別。并且，由于不是對整個音頻文件生成所述第二數(shù)字標簽，而是截取音頻文件中的音頻片段來生成所述第二數(shù)字標簽，所以，所述第二數(shù)字標簽的數(shù)據(jù)量比較?。煌ㄟ^截取數(shù)據(jù)片段的過程篩選出非靜音的音頻片段，還可以在生成所述第二數(shù)字標簽時過濾掉連續(xù)靜音的音頻片段，進一步減小所述數(shù)字標簽的數(shù)據(jù)量，因此可以加快在所述標簽庫中查找數(shù)字標簽的速度，從而提高整個音頻文件識別過程的效率；另外，還可以使所述標簽庫中儲存更多的數(shù)字標簽，增強對音頻文件的識別能力。

圖1是本發(fā)明音頻文件的旋律提取方法的步驟流程圖；圖2是本發(fā)明音頻文件的旋律識別系統(tǒng)的結(jié)構(gòu)示意
圖3是本發(fā)明音頻文件的旋律識別系統(tǒng)中客戶端的結(jié)構(gòu)示意圖。
具體實施例方式請參閱圖1，圖1是本發(fā)明音頻文件的旋律提取方法的步驟流程圖。所述音頻文件的旋律提取方法包括以下步驟在步驟S101，保存預(yù)先建立的標簽庫。其中，所述標簽庫中預(yù)先保存多個音頻文件的第一數(shù)字標簽以及所述音頻文件的身份數(shù)據(jù)信息。在本步驟中，可以先對音頻庫中的音頻文件進行音頻片段的截取，然后根據(jù)所述音頻片段的音頻特征生成所述音頻庫中所有音頻文件的第一數(shù)字標簽，然后將所述音頻文件標準的身份數(shù)據(jù)信息與所述第一數(shù)字標簽建立一一對應(yīng)的關(guān)系，建立所述標簽庫。所述第一數(shù)字標簽根據(jù)所述音頻文件的音頻特征生成，其生成步驟可與步驟S102中所述第二數(shù)字標簽的生成方法相同。在所述標簽庫中，對于一個音頻文件，可以保存根據(jù)所述音頻文件的一個音頻片段的音頻特征生成的第一數(shù)字標簽，也可以同時保存分別根據(jù)所述音頻文件的多個音頻片段的音頻特征生成的多個第一數(shù)字標簽。所述音頻文件的身份數(shù)據(jù)信息的確定可以采用趨勢算法，S卩，在多個用戶的音頻庫中，所述音頻文件可能對應(yīng)保存有不同的身份數(shù)據(jù)信息，此時，對所有用戶保存的所述音頻文件的身份數(shù)據(jù)信息進行統(tǒng)計，將最多用戶保存或者使用的身份數(shù)據(jù)信息確定為所述音頻文件標準的身份數(shù)據(jù)信息，則，將所述標準的身份數(shù)據(jù)信息與所述音頻文件的第一數(shù)字標簽建立一一對應(yīng)的關(guān)系，建立所述標簽庫。其中，所述身份數(shù)據(jù)信息包括歌手、歌詞、所屬專輯、流派等。在步驟S102，在一個音頻文件中截取若干個音頻片段，分別根據(jù)所述若干個音頻片段的音頻特征生成所述音頻文件的第二數(shù)字標簽。在本步驟中，首先獲取用戶指定的音頻文件，然后根據(jù)用戶選定的范圍在所述音頻文件中截取相應(yīng)的音頻片段，然后分析提取所述音頻片段的音頻特征，生成相應(yīng)的第二數(shù)字標簽。
其中，本步驟中的所述第二數(shù)字標簽和步驟SlOl中的第一數(shù)字標簽可以根據(jù)所述音頻文件的某種音頻特征或者多種音頻特征組合形成，例如響度、亮度、音調(diào)、短時平均能量、過零率、能量譜、Mel倒譜系數(shù)、線性預(yù)測系數(shù)等。通過對上述各種音頻特征的檢測、采樣、量化、編碼，從而生成對應(yīng)的數(shù)字標簽。所述音頻文件的音頻特征分為時域特征和頻域特征。時域特征如短時平均能量、過零率。其中，短時平均能量反映了音頻能量幅度的變化，而過零率則表示語音信號波形超過橫軸(零電平)的次數(shù)。短時平均能量和過零率結(jié)合常常用來區(qū)分靜音、非靜音、清音、濁音，以及音樂的開始和結(jié)束。特別地，在提取所述音頻文件的過零率特征時，為了避免靜音段的隨機噪聲帶來過高的過零率，預(yù)先設(shè)定一個門限值，如delta = 0. 02，如果在單位時間內(nèi)樣點值改變符號，并且差值的絕對值大于0. 02，則過零率加1。而音頻文件的頻域特征包括能量譜、倒譜值等。在提取所述音頻文件的頻域特征時，可以先對音頻信號進行傅立葉變換，分析出組成該信號的不同頻率和不同幅值的諧波，然后分別對這些諧波進行頻域特征系數(shù)的提取。其中，能量譜用于分析該音頻文件的能量分布，可獲得構(gòu)成該音頻文件的主要頻率；而檢測倒譜值則可以獲得聲門波的頻率(音調(diào)) 和聲道的特征(共振峰)。再者，某些音頻信號具有很強的時變特性，即在一段時間內(nèi)表現(xiàn)出周期信號的特性，而在另一段時間段則表現(xiàn)出噪音特性。對于這些時變劇烈的音頻信號，既要考慮其時域特性，也要考慮其頻域特性，則，可以采取短時傅里葉變換思想假定非平穩(wěn)的音頻信號 x(t)在分析窗函數(shù)g(t)的一個短時間間隔內(nèi)是平穩(wěn)的，移動分析窗函數(shù)g(t)，使x(t) g(t-x)在不同的有限時間寬度內(nèi)是平穩(wěn)信號，從而計算出所述音頻信號x(t)在各個不同時刻的能量譜。在生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽時，可以根據(jù)實際需要，單獨提取所述音頻文件的時域特征來生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽，或者單獨提取所述音頻文件的頻域特征來生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽，也可以同時提取音頻文件的時域特征和頻域特征，將兩者互相結(jié)合來生成所述第一數(shù)字標簽或者所述
第二數(shù)字標簽。進一步地，在所述音頻文件中截取所述音頻片段時，可以預(yù)先根據(jù)隱馬爾科夫模型建立分割所述音頻文件的音頻片段篩選模板，由于隱馬爾科夫模型具有良好的隨機時序性，并且不依賴于具體的閾值，因此，通過所述音頻片段篩選模板可以篩選出所述音頻文件中用戶應(yīng)用較多或者檢索較多的音頻片段，例如含有音樂高潮部分的音頻片段；同時過濾掉所述音頻文件中用戶應(yīng)用較少或者檢索較少的音頻片段，例如靜音部分的音頻片段，從而大大提高生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽的速度，也提高了音頻文件識別的準確率。進一步地，在本步驟中，將所述音頻文件分成多個幀，幀與幀之間互相重疊，每一幀即為對所述音頻文件截取的音頻片段，則，對所述音頻文件截取的若干個音頻片段覆蓋了整個所述音頻文件所有部分的音頻特征，如此可以提高識別音頻文件的準確率。在步驟S103，根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的音頻文件身份數(shù)據(jù)信息。
在查找所述標簽庫時，因為截取音頻片段和提取音頻片段的音頻特征時可能會有誤差，導(dǎo)致所述第一數(shù)字標簽和所述第二數(shù)字標簽可能并不完全相同，因此在本步驟中，可對所述第一數(shù)字標簽和所述第二數(shù)字標簽采取模糊類聚算法來對比，即在預(yù)設(shè)的誤差范圍內(nèi)查找與所述第二數(shù)字標簽相似度最高的所述第一數(shù)字標簽，并獲取所述第一數(shù)字標簽及其對應(yīng)的音頻文件身份數(shù)據(jù)信息。在步驟S104，將所述身份數(shù)據(jù)信息與所述音頻文件相匹配。在本步驟中，可以將上述步驟S103中獲取的所述音頻文件身份數(shù)據(jù)信息，替換原來混亂的或者錯誤的身份數(shù)據(jù)信息。與現(xiàn)有技術(shù)相比較，本發(fā)明的音頻文件的旋律提取方法中，對一個音頻文件截取音頻片段，提取所述音頻片段的特征生成所述第二數(shù)字標簽，查找所述標簽庫，獲取與所述第二數(shù)字標簽對應(yīng)的音頻文件身份數(shù)據(jù)信息并匹配至對應(yīng)的音頻文件。因為在識別音頻文件的過程中不依賴于所述音頻文件上附帶的身份數(shù)據(jù)信息，而是直接根據(jù)其本身的音頻特征來識別所述音頻文件，因為每個所述音頻文件都有其唯一的音頻特征，所以本發(fā)明的音頻文件的旋律提取方法及旋律識別系統(tǒng)能夠準確地識別各個不同的音頻文件，不會因為在轉(zhuǎn)載過程中身份數(shù)據(jù)信息的修改而導(dǎo)致無法識別。并且，由于不是對整個音頻文件生成所述第二數(shù)字標簽，而是截取音頻文件中的音頻片段來生成所述第二數(shù)字標簽，所以，所述第二數(shù)字標簽的數(shù)據(jù)量比較??；通過截取數(shù)據(jù)片段的過程篩選出非靜音的音頻片段，還可以在生成所述第二數(shù)字標簽時過濾掉連續(xù)靜音的音頻片段，進一步減小所述數(shù)字標簽的數(shù)據(jù) 量，因此可以加快在所述標簽庫中查找數(shù)字標簽的速度，從而提高整個音頻文件識別過程的效率；另外，還可以使所述標簽庫中儲存更多的數(shù)字標簽，增強對音頻文件的識別能力。請一并參閱圖2和圖3，圖2是本發(fā)明音頻文件的旋律識別系統(tǒng)的結(jié)構(gòu)示意圖；圖 3是本發(fā)明音頻文件的旋律識別系統(tǒng)中客戶端的結(jié)構(gòu)示意圖。所述音頻文件的旋律識別系統(tǒng)包括客戶端21和服務(wù)器22 ；所述客戶端21用于在一個音頻文件中截取若干個音頻片段；分別提取所述若干個音頻片段的音頻特征，生成所述音頻文件的第二數(shù)字標簽，然后將所述第二數(shù)字標簽發(fā) 送至所述服務(wù)器22 ；接收所述服務(wù)器22發(fā)送的身份數(shù)據(jù)信息，將所述身份數(shù)據(jù)信息與所述音頻文件相匹配；所述服務(wù)器22用于保存預(yù)先建立的標簽庫，其中，所述標簽庫中預(yù)先保存多個音頻文件的第一數(shù)字標簽以及所述音頻文件的身份數(shù)據(jù)信息；接收所述客戶端21發(fā)送的第二數(shù)字標簽，根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的身份數(shù)據(jù)信息，并將所述身份數(shù)據(jù)信息發(fā)送至所述客戶端21。所述服務(wù)器22中儲存所述標簽庫，在本實施方式中，可以先對連接所述服務(wù)器22 各個所述客戶端21的音頻庫中的音頻文件進行音頻片段的截取，然后根據(jù)所述音頻片段的音頻特征生成所述音頻庫中所有音頻文件的第一數(shù)字標簽，將所述第一數(shù)字標簽保存在所述服務(wù)器22中，與所述第一數(shù)字標簽建立一一對應(yīng)的關(guān)系，建立所述標簽庫。所述第一數(shù)字標簽根據(jù)所述音頻文件的音頻特征生成，其生成方式可與所述第二數(shù)字標簽的生成方法相同。在所述標簽庫中，對于一個音頻文件，可以保存根據(jù)所述音頻文件的一個音頻片段的音頻特征生成的第一數(shù)字標簽，也可以同時保存分別根據(jù)所述音頻文件的多個音頻片段的音頻特征生成的多個第一數(shù)字標簽。所述音頻文件的身份數(shù)據(jù)信息的確定可以采用趨勢算法，S卩，在多個所述客戶端 21的音頻庫中，所述音頻文件可能對應(yīng)保存有不同的身份數(shù)據(jù)信息，此時，對所有所述客戶端21的音頻庫中保存的所述音頻文件的身份數(shù)據(jù)信息進行統(tǒng)計，將最多客戶端21保存或者使用的身份數(shù)據(jù)信息確定為所述音頻文件標準的身份數(shù)據(jù)信息，則，將所述標準的身份數(shù)據(jù)信息與所述音頻文件的第一數(shù)字標簽建立一一對應(yīng)的關(guān)系，在所述服務(wù)器22中建立所述標簽庫。其中，所述身份數(shù)據(jù)信息包括歌手、歌詞、所屬專輯、流派等。在所述客戶端21包括音頻庫211和數(shù)字標簽生成模塊212。所述數(shù)字標簽生成模塊212用于獲取所述音頻庫211中用戶指定的音頻文件，然后根據(jù)用戶選定的范圍在所述音頻文件中截取相應(yīng)的音頻片段，分析提取所述音頻片段的音頻特征，生成相應(yīng)的第一數(shù)值標簽或者第二數(shù)字標簽。其中，所述第二數(shù)字標簽和所述第一數(shù)字標簽可以根據(jù)所述音頻文件的某種音頻特征或者多種音頻特征組合形成，例如響度、亮度、音調(diào)、短時平均能量、過零率、能量譜、 Mel倒譜系數(shù)、線性預(yù)測系數(shù)等。所述數(shù)字標簽生成模塊212通過對上述各種音頻特征的檢測、采樣、量化、編碼，從而生成對應(yīng)的數(shù)字標簽。所述音頻文件的音頻特征分為時域特征和頻域特征。時域特征如短時平均能量、過零率。其中，短時平均能量反映了音頻能量幅度的變化，而過零率則表示語音信號波形超過橫軸(零電平)的次數(shù)。短時平均能量和過零率結(jié)合常常用來區(qū)分靜音、非靜音、清音、濁音，以及音樂的開始和結(jié)束。特別地，所述數(shù)字標簽生成模塊212在提取所述音頻文件的過零率特征時，為了避免靜音段的隨機噪聲帶來過高的過零率，預(yù)先設(shè)定一個門限值，如delta = 0. 02，如果在單位時間內(nèi)樣點值改變符號，并且差值的絕對值大于0. 02，則過零率加1。而音頻文件的頻域特征包括能量譜、倒譜值等。所述數(shù)字標簽生成模塊212在提取所述音頻文件的頻域特征時，可以先對音頻信號進行傅立葉變換，分析出組成該信號的不同頻率和不同幅值的諧波，然后分別對這些諧波進行頻域特征系數(shù)的提取。其中，能量譜用于分析該音頻文件的能量分布，可獲得構(gòu)成該音頻文件的主要頻率；而檢測倒譜值則可以獲得聲門波的頻率(音調(diào))和聲道的特征(共振峰)。再者，某些音頻信號具有很強的時變特性，即在一段時間內(nèi)表現(xiàn)出周期信號的特性，而在另一段時間段則表現(xiàn)出噪音特性。對于這些時變劇烈的音頻信號，所述數(shù)字標簽生成模塊212在提取其音頻特征時既要考慮其時域特性，也要考慮其頻域特性，則，可以采取短時傅里葉變換思想假定非平穩(wěn)的音頻信號xα)在分析窗函數(shù)g(t)的一個短時間間隔內(nèi)是平穩(wěn)的，移動分析窗函數(shù)g(t)，使X(t)g(t- τ )在不同的有限時間寬度內(nèi)是平穩(wěn)信號，從而計算出所述音頻信號x(t)在各個不同時刻的能量譜。所述數(shù)字標簽生成模塊212在生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽時，可以根據(jù)實際需要，單獨提取所述音頻文件的時域特征來生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽，或者單獨提取所述音頻文件的頻域特征來生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽，也可以同時提取音頻文件的時域特征和頻域特征，將兩者互相結(jié)合來生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽。進一步地，所述數(shù)字標簽生成模塊212中可以根據(jù)隱馬爾科夫模型建立音頻文件數(shù)字標簽提取的音頻片段篩選模板，由于隱馬爾科夫模型具有良好的隨機時序性，并且不依賴于具體的閾值，因此，通過所述音頻片段篩選模板可以篩選出所述音頻文件中用戶應(yīng) 用較多或者檢索較多的音頻片段，例如含有音樂高潮部分的音頻片段；同時過濾掉所述音頻文件中用戶應(yīng)用較少或者檢索較少的音頻片段，例如靜音部分的音頻片段，從而大大提高生成所述第一數(shù)字標簽或者所述第二數(shù)字標簽的速度，也提高了音頻文件識別的準確率。進一步地，所述數(shù)字標簽生成模塊212中，將用戶選定的所述音頻文件分成多個幀，幀與幀之間互相重疊，每一幀即為對所述音頻文件截取的音頻片段，使所述數(shù)字標簽生成模塊212對所述音頻文件截取的若干個音頻片段覆蓋了整個所述音頻文件所有部分的音頻特征，如此可以提高識別音頻文件的準確率。所述服務(wù)器22在查找所述標簽庫時，因為截取音頻片段和提取音頻片段的音頻特征時可能會有誤差，可能會導(dǎo)致所述第一數(shù)字標簽和所述第二數(shù)字標簽不完全相同，因此所述服務(wù)器22可對所述第一數(shù)字標簽和所述第二數(shù)字標簽采取模糊類聚算法，即在預(yù) 設(shè)的誤差范圍內(nèi)查找與所述第二數(shù)字標簽相似度最高的所述第一數(shù)字標簽，獲取所述第一數(shù)字標簽及其對應(yīng)的音頻文件身份數(shù)據(jù)信息，并將所述身份數(shù)據(jù)信息發(fā)送至所述客戶端 21。所述客戶端21接收所述服務(wù)器22發(fā)送的所述身份數(shù)據(jù)信息，將所述音頻文件身份數(shù)據(jù)信息，替換原來保存在所述音頻庫211中的混亂的或者錯誤的身份數(shù)據(jù)信息。與現(xiàn)有技術(shù)相比較，本發(fā)明的音頻文件的旋律識別系統(tǒng)中，所述客戶端21中的數(shù) 字標簽生成模塊212根據(jù)音頻片段的特征生成所述第二數(shù)字標簽，所述服務(wù)器22根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽對應(yīng)的音頻文件身份數(shù)據(jù)信息并匹配至對應(yīng)的音頻文件。因為在識別音頻文件的過程中不依賴于所述音頻文件上附帶的身份數(shù)據(jù)信息，而是直接根據(jù)其本身的音頻特征來識別所述音頻文件，又因為每個所述音頻文件都有其唯一的音頻特征，所以本發(fā)明的音頻文件的旋律提取方法及旋律識別系統(tǒng)能夠準確地識別各個不同的音頻文件，不會因為在轉(zhuǎn)載過程中對身份數(shù)據(jù)信息的修改而導(dǎo)致無法識別。并且，由于所述客戶端21不是對整個音頻文件生成所述第二數(shù)字標簽，而是截取音頻文件中的音頻片段來生成所述第二數(shù)字標簽，所以，所述第二數(shù)字標簽的數(shù)據(jù)量比較 ?。煌ㄟ^截取數(shù)據(jù)片段的過程篩選出非靜音的音頻片段，還可以在生成所述第二數(shù)字標簽時過濾掉連續(xù)靜音的音頻片段，進一步減小所述數(shù)字標簽的數(shù)據(jù)量，因此可以加快所述數(shù) 字標簽在所述客戶端21和所述服務(wù)器22之間傳輸?shù)乃俣?，同時加快所述服務(wù)器22在所述標簽庫中查找匹配數(shù)字標簽的速度，從而提高整個音頻文件的旋律識別系統(tǒng)的工作效率；另外，因為數(shù)字標簽的數(shù)據(jù)量較小，所以所述服務(wù)器22保存的所述標簽庫中可以儲存更多的數(shù)字標簽，增強所述音頻文件的旋律識別系統(tǒng)對音頻文件的識別能力。以上所述的本發(fā)明實施方式，并不構(gòu)成對本發(fā)明保護范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進等，均應(yīng)包含在本發(fā)明的權(quán)利要求保護范圍之內(nèi)。
權(quán)利要求
1.一種音頻文件的旋律提取方法，其特征在于包括以下步驟保存預(yù)先建立的標簽庫，其中，所述標簽庫中預(yù)先保存多個音頻文件的第一數(shù)字標簽以及所述音頻文件的身份數(shù)據(jù)信息；在一個音頻文件中截取若干個音頻片段，分別提取所述若干個音頻片段的音頻特征生成所述音頻文件的第二數(shù)字標簽；根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的身份數(shù)據(jù)信息；將所述身份數(shù)據(jù)信息與所述音頻文件相匹配。
2.如權(quán)利要求1所述的音頻文件的旋律提取方法，其特征在于，查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的身份數(shù)據(jù)信息的步驟包括在預(yù)設(shè)的誤差范圍內(nèi)，查找與所述第二數(shù)字標簽相似度最高的所述第一數(shù)字標簽，獲取所述第一數(shù)字標簽及其對應(yīng)的音頻文件身份信息。
3.如權(quán)利要求1所述的音頻文件的旋律提取方法，其特征在于，在一個音頻文件中截取若干個音頻片段的步驟包括將所述音頻文件分成多個幀，幀與幀之間互相重疊，將每一幀作為一個所述音頻片段。
4.如權(quán)利要求1、2或者3所述的音頻文件的旋律提取方法，其特征在于，分別提取所述若干個音頻片段的音頻特征生成所述音頻文件的第二數(shù)字標簽的步驟包括檢測所述音頻片段的下述各種音頻特征參數(shù)中的一種或多種，通過采樣、量化和編碼生成所述第二數(shù)字標簽響度、亮度、音調(diào)、短時平均能量、過零率、能量譜、Mel倒譜系數(shù)以及線性預(yù)測系數(shù)。
5.如權(quán)利要求4所述的音頻文件的旋律提取方法，其特征在于在檢測所述音頻片段的過零率時，預(yù)先設(shè)定一門限值，如果在單位時間內(nèi)樣點值改變符號，并且差值的絕對值大于所述門限值，則所述過零率加1。
6.一種音頻文件的旋律識別系統(tǒng)，包括客戶端和服務(wù)器，其特征在于所述客戶端用于在一個音頻文件中截取若干個音頻片段；分別提取所述若干個音頻片段的音頻特征，生成所述音頻文件的第二數(shù)字標簽，然后將所述第二數(shù)字標簽發(fā)送至所述服務(wù)器；接收所述服務(wù)器發(fā)送的身份數(shù)據(jù)信息，將所述身份數(shù)據(jù)信息與所述音頻文件相匹配；所述服務(wù)器用于保存預(yù)先建立的標簽庫，其中，所述標簽庫中預(yù)先保存多個音頻文件的第一數(shù)字標簽以及所述音頻文件的身份數(shù)據(jù)信息；接收所述客戶端發(fā)送的第二數(shù)字標簽，根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的身份數(shù)據(jù)信息，并將所述身份數(shù)據(jù)信息發(fā)送至所述客戶端。
7.如權(quán)利要求6所述的音頻文件的旋律識別系統(tǒng)，其特征在于所述服務(wù)器在預(yù)設(shè)的誤差范圍內(nèi)，查找與所述第二數(shù)字標簽相似度最高的所述第一數(shù)字標簽，獲取所述第一數(shù) 字標簽及其對應(yīng)的音頻文件身份信息。
8.如權(quán)利要求6所述的音頻文件的旋律識別系統(tǒng)，其特征在于所述客戶端將所述音頻文件分成多個幀，幀與幀之間互相重疊，將每一幀作為一個所述音頻片段。
9.如權(quán)利要求6、7或者8所述的音頻文件的旋律識別系統(tǒng)，其特征在于所述客戶端檢測所述音頻片段的下述各種音頻特征參數(shù)中的一種或多種，通過采樣、量化和編碼生成所述第二數(shù)字標簽響度、亮度、音調(diào)、短時平均能量、過零率、能量譜、Mel倒譜系數(shù)以及線性預(yù)測系數(shù)。
10.如權(quán)利要求9所述的音頻文件的旋律識別系統(tǒng)，其特征在于所述客戶端在檢測所述音頻片段的過零率時，預(yù)先設(shè)定一門限值，如果在單位時間內(nèi)樣點值改變符號，并且差值的絕對值大于所述門限值，則所述過零率加1。
全文摘要
本發(fā)明提供一種音頻文件的旋律提取方法及旋律識別系統(tǒng)，其不依賴于音頻文件中綁定的身份數(shù)據(jù)信息，能夠準確地識別音頻文件的身份，并且對音頻文件的識別具有較高的速度。所述音頻文件的旋律提取方法包括以下步驟保存預(yù)先建立的標簽庫，其中，所述標簽庫中預(yù)先保存多個音頻文件的第一數(shù)字標簽以及所述音頻文件的身份數(shù)據(jù)信息；在一個音頻文件中截取若干個音頻片段，分別提取所述若干個音頻片段的音頻特征生成所述音頻文件的第二數(shù)字標簽；根據(jù)所述第二數(shù)字標簽查找所述標簽庫，獲取與所述第二數(shù)字標簽相匹配的第一數(shù)字標簽及其對應(yīng)的身份數(shù)據(jù)信息；將所述身份數(shù)據(jù)信息與所述音頻文件相匹配。
文檔編號G10L17/00GK102063904SQ20101056715
公開日2011年5月18日申請日期2010年11月30日優(yōu)先權(quán)日2010年11月30日
發(fā)明者謝振宇申請人:廣州酷狗計算機科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝振宇
技術(shù)所有人：廣州酷狗計算機科技有限公司
我是此專利的發(fā)明人

上一篇：光電感應(yīng)音樂器的制作方法
上一篇：提琴的聲學(xué)構(gòu)型的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

光盤音頻文件提取相關(guān)技術(shù)

視頻文件中提取音頻相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種音頻文件的旋律提取方法及旋律識別系統(tǒng)的制作方法