音樂(lè)信息搜索方法及其設(shè)備的制作方法
【專利摘要】提供了一種音樂(lè)信息搜索方法及其設(shè)備,所述音樂(lè)信息搜索方法包括:從音頻數(shù)據(jù)提取調(diào)制頻譜;通過(guò)使用與預(yù)設(shè)峰值點(diǎn)相關(guān)的位置信息從提取出的調(diào)制頻譜產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋;經(jīng)由哈希函數(shù)將產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋轉(zhuǎn)換為指示哈希表的地址的哈希鍵和存儲(chǔ)在哈希表上的哈希值;通過(guò)提取與音頻查詢剪輯相關(guān)的哈希鍵并將提取出的哈希鍵與哈希表指示的地址進(jìn)行比較來(lái)搜索音樂(lè)信息。
【專利說(shuō)明】音樂(lè)信息搜索方法及其設(shè)備
[0001]本申請(qǐng)要求于2012年11月13日提交到美國(guó)專利商標(biāo)局的第61/725,666號(hào)美國(guó)臨時(shí)專利申請(qǐng)的權(quán)益以及于2012年7月12日提交到韓國(guó)知識(shí)產(chǎn)權(quán)局的第10-2013-0082245號(hào)韓國(guó)專利申請(qǐng)的優(yōu)先權(quán),其公開通過(guò)引用全部合并于此。
【技術(shù)領(lǐng)域】
[0002]與本文公開一致的方法和設(shè)備涉及一種音樂(lè)信息搜索方法及其設(shè)備,更具體地,涉及一種使用調(diào)制頻譜的音樂(lè)信息搜索方法及其設(shè)備。
【背景技術(shù)】
[0003]現(xiàn)有的音樂(lè)信息搜索方法通過(guò)使用功率譜提取用于搜索音頻的特征,其中,作為使用快速傅立葉變換(FFT)將音頻信號(hào)轉(zhuǎn)換到頻域的結(jié)果而產(chǎn)生所述功率譜。因此,因?yàn)檫@樣的方法不能強(qiáng)大地抗各種噪聲環(huán)境,所以會(huì)發(fā)生問(wèn)題。
[0004]此外,現(xiàn)有的音樂(lè)信息搜索方法往往需要過(guò)多的時(shí)間來(lái)通過(guò)使用統(tǒng)計(jì)方法(諸如,高斯混合模型(GMM)和隱馬爾可夫模型(HMM))將用戶的查詢與存在大數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行匹配來(lái)搜索音樂(lè)歌曲,因此,這樣的方法無(wú)法在短時(shí)間內(nèi)提供搜索信息。
[0005]此外,在通過(guò)建立音頻指紋系統(tǒng)來(lái)搜索音樂(lè)信息的現(xiàn)有方法中,使用的特征針對(duì)噪聲環(huán)境沒有顯示出強(qiáng)大性能。因此,當(dāng)通過(guò)使用從真實(shí)環(huán)境(諸如,街道等)產(chǎn)生的音樂(lè)數(shù)據(jù)來(lái)獲得音樂(lè)信息時(shí),性能可惡化。
[0006]此外,現(xiàn)有的音樂(lè)信息搜索方法使用強(qiáng)大頻譜平坦度和頻譜波峰測(cè)量;但是,這些特征針對(duì)各種噪音環(huán)境也較弱。這樣的方法也針對(duì)音頻指紋索引使用矢量量化方法(VQ)或統(tǒng)計(jì)最近鄰方法(SNN),因此,針對(duì)各種噪聲環(huán)境,它們可具有較低的搜索信息的操作。
[0007]此外,現(xiàn)有的音樂(lè)信息搜索方法的問(wèn)題在于,由于對(duì)通過(guò)在實(shí)現(xiàn)各種處理的結(jié)構(gòu)中使用波轉(zhuǎn)換提取出調(diào)制頻譜之后使用最近鄰分類方法,因此搜索很緩慢。
[0008]因此,需要一種針對(duì)噪聲環(huán)境顯示出強(qiáng)大性能并以高速度搜索音樂(lè)信息的新方法。
【發(fā)明內(nèi)容】
[0009]本發(fā)明構(gòu)思的示例性實(shí)施例克服上述缺點(diǎn)和上面未描述的其它缺點(diǎn)。此外,本發(fā)明構(gòu)思不需要克服上述缺點(diǎn),并且本發(fā)明構(gòu)思的示例性實(shí)施例可不克服任何上述問(wèn)題。
[0010]根據(jù)示例性實(shí)施例,技術(shù)目的在于提供一種用于針對(duì)噪聲環(huán)境高速搜索音頻信息的方法及其設(shè)備,其中,所述方法通過(guò)提取針對(duì)噪聲環(huán)境相對(duì)較強(qiáng)的調(diào)制頻譜,將與提取出的調(diào)制頻譜可清楚區(qū)分的調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為哈希地址和哈希值,并使用哈希表來(lái)針對(duì)噪聲環(huán)境高速搜索音頻信息。
[0011]根據(jù)示例性實(shí)施例,另一技術(shù)目的在于提供一種用于經(jīng)由哈希搜索方法來(lái)搜索音樂(lè)信息的方法及其設(shè)備,其中,所述方法根據(jù)針對(duì)噪聲環(huán)境相對(duì)較強(qiáng)的調(diào)制頻譜特征,使用調(diào)制頻譜峰值點(diǎn)或調(diào)制頻譜峰值點(diǎn)位置。[0012]根據(jù)示例性實(shí)施例,提供一種音樂(lè)信息搜索方法,所述方法可包括:從音頻數(shù)據(jù)提取調(diào)制頻譜;通過(guò)使用與預(yù)設(shè)峰值點(diǎn)相關(guān)的位置信息從提取出的調(diào)制頻譜產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋;經(jīng)由至少一個(gè)哈希函數(shù)將產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋轉(zhuǎn)換為指示哈希表的地址的哈希鍵和存儲(chǔ)在哈希表上的哈希值;提取與音頻查詢剪輯相關(guān)的哈希鍵,通過(guò)將提取出的哈希鍵與哈希表指示的地址進(jìn)行比較來(lái)搜索音樂(lè)信息。
[0013]根據(jù)示例性實(shí)施例,提供一種音樂(lè)信息搜索方法,所述方法可包括:從音頻數(shù)據(jù)提取調(diào)制頻譜;經(jīng)由調(diào)制頻譜歸一化處理,對(duì)提取出的調(diào)制頻譜進(jìn)行歸一化,以從提取出的調(diào)制頻譜刪除與不指示音頻信號(hào)的唯一特征的不必要區(qū)域的重疊;將與針對(duì)噪聲環(huán)境比第一閾值弱的第一調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息和與針對(duì)噪聲環(huán)境比第一閾值強(qiáng)的第二調(diào)制頻譜峰值點(diǎn)進(jìn)行區(qū)分,并提取第二調(diào)制頻譜峰值點(diǎn);將與提取出的第二調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為調(diào)制頻譜峰值點(diǎn)音頻指紋;通過(guò)使用至少一個(gè)哈希函數(shù),將分別分配到調(diào)制頻譜峰值點(diǎn)音頻指紋和音樂(lè)歌曲的標(biāo)識(shí)號(hào)轉(zhuǎn)換為指示哈希表的地址的哈希鍵和存儲(chǔ)在哈希表上的哈希值,并在哈希表上存儲(chǔ)轉(zhuǎn)換的結(jié)果;從音頻查詢剪輯提取調(diào)制頻譜;經(jīng)由調(diào)制頻譜歸一化處理,對(duì)提取出的音頻查詢調(diào)制頻譜進(jìn)行歸一化,以從提取出的調(diào)制頻譜刪除與不指示音頻查詢信號(hào)的唯一特征的不必要區(qū)域的重疊;將歸一化的音頻查詢調(diào)制頻譜之中的與針對(duì)噪聲環(huán)境比第二閾值弱的第一音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息和與比針對(duì)噪聲環(huán)境比第二閾值強(qiáng)的第二音頻查詢調(diào)制頻譜峰值點(diǎn)進(jìn)行區(qū)分,并提取第二音頻查詢調(diào)制頻譜峰值點(diǎn);將與提取出的第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為與第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的音頻指紋;從提取出的音頻查詢剪輯的調(diào)制頻譜之中提取與第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息;將與第二提取出的調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為調(diào)制頻譜峰值點(diǎn)音頻指紋;通過(guò)使用至少一個(gè)哈希函數(shù)計(jì)算哈希鍵,來(lái)從提取出的音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)音頻指紋獲得分別與地址相應(yīng)的哈希表的哈希值;通過(guò)獲得音頻索引信息來(lái)從獲得的哈希值確定最終搜索結(jié)果。
[0014]從音頻數(shù)據(jù)提取調(diào)制頻譜的步驟可包括:通過(guò)執(zhí)行快速傅里葉變換(FFT)來(lái)提取音頻數(shù)據(jù)的頻譜系數(shù),并經(jīng)由至少一個(gè)調(diào)制函數(shù)將提取出的頻譜系數(shù)轉(zhuǎn)換為調(diào)制頻譜。
[0015]對(duì)調(diào)制頻譜進(jìn)行歸一化的步驟可包括:使用零均值歸一化、倒譜均值歸一化、分貝標(biāo)度歸一化、通過(guò)使用均值的歸一化、通過(guò)使用中值的歸一化和分位數(shù)歸一化之中的至少一個(gè)歸一化方法。
[0016]提取調(diào)制頻譜峰值點(diǎn)的步驟可包括:使用有限脈沖響應(yīng)濾波器、無(wú)限脈沖響應(yīng)濾波器、卡爾曼濾波器、頻譜扣除、用于計(jì)算調(diào)制頻譜的最小分量并通過(guò)使用計(jì)算出的最小分量計(jì)算調(diào)制頻譜峰值點(diǎn)的方法、用于通過(guò)使用能夠經(jīng)使用調(diào)制頻譜的最高峰值點(diǎn)計(jì)算的自適應(yīng)閾值提取與噪聲分量不同的峰值點(diǎn)的方法、用于通過(guò)使用過(guò)零率和能量來(lái)刪除噪聲的方法之中的至少一個(gè)。
[0017]轉(zhuǎn)換為音頻查詢調(diào)制頻譜峰值點(diǎn)音頻指紋的步驟可包括:通過(guò)使用指示提取出的第二調(diào)制頻譜峰值點(diǎn)的位置的值,將存在于區(qū)分的第二調(diào)制頻譜峰值點(diǎn)之間的預(yù)設(shè)間隔內(nèi)的位置信息獲得為調(diào)制頻譜峰值點(diǎn)音頻指紋。
[0018]存儲(chǔ)在哈希表上的步驟可包括:經(jīng)由至少一個(gè)哈希函數(shù),通過(guò)使用與產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋相關(guān)的信息,計(jì)算指示哈希表的各個(gè)地址的哈希鍵和與哈希表相關(guān)的哈希值;基于計(jì)算出的哈希鍵和哈希值,通過(guò)將調(diào)制頻譜峰值點(diǎn)音頻指紋存儲(chǔ)在哈希表上來(lái)產(chǎn)生哈希表。
[0019]從音頻查詢剪輯提取調(diào)制頻譜的步驟可包括:通過(guò)執(zhí)行音頻數(shù)據(jù)和音頻查詢剪輯數(shù)據(jù)中的每一個(gè)的各個(gè)FFT來(lái)提取頻譜系數(shù);經(jīng)由至少一個(gè)調(diào)制函數(shù)將提取出的頻譜系數(shù)轉(zhuǎn)換為調(diào)制頻譜。
[0020]從提取出的音頻查詢剪輯的調(diào)制頻譜之中提取與第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息的步驟可包括:使用有限脈沖響應(yīng)濾波器、無(wú)限脈沖響應(yīng)濾波器、卡爾曼濾波器、頻譜扣除、用于計(jì)算調(diào)制頻譜的最小分量并通過(guò)使用計(jì)算出的最小分量計(jì)算調(diào)制頻譜峰值點(diǎn)的方法、用于通過(guò)使用能夠經(jīng)使用調(diào)制頻譜的最高峰值點(diǎn)計(jì)算的自適應(yīng)閾值提取與噪聲分量不同的峰值點(diǎn)的方法、用于通過(guò)使用過(guò)零率和能量來(lái)刪除噪聲的方法之中的至少一個(gè)。
[0021]轉(zhuǎn)換為調(diào)制頻譜峰值點(diǎn)音頻指紋的步驟可包括:通過(guò)使用指示提取出的調(diào)制頻譜峰值點(diǎn)的位置的值,將與兩個(gè)點(diǎn)相關(guān)的位置信息獲得為調(diào)制頻譜峰值點(diǎn)音頻指紋。
[0022]獲得哈希表的哈希值的步驟可包括:經(jīng)由至少一個(gè)哈希函數(shù),通過(guò)使用與產(chǎn)生的音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)音頻指紋相關(guān)的信息來(lái)獲得指示哈希表的各個(gè)地址的哈希鍵;通過(guò)使用獲得的哈希鍵獲得哈希值。
[0023]確定最終搜索結(jié)果的步驟可包括:通過(guò)使用所述至少一個(gè)哈希函數(shù)將哈希值轉(zhuǎn)換為音頻索引信息;從獲得的音頻索引信息之中,將最大量的音頻索引信息確定為最終的搜索音頻信息。
[0024]根據(jù)一個(gè)或多個(gè)上述各種示例性實(shí)施例,可提供一種用于針對(duì)噪聲環(huán)境高速搜索音樂(lè)信息的方法及其設(shè)備,其中,所述方法通過(guò)提取針對(duì)噪聲環(huán)境而相對(duì)較強(qiáng)的調(diào)制頻譜,將與關(guān)于提取出的調(diào)制頻譜的區(qū)分的調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為哈希地址和哈希值,并使用哈希表來(lái)針對(duì)噪聲環(huán)境高速搜索音樂(lè)信息。
[0025]此外,根據(jù)一個(gè)或多個(gè)示例性實(shí)施例,可在不使用現(xiàn)有的統(tǒng)計(jì)分類方法的情況下,通過(guò)使用哈希搜索方法從大量音樂(lè)之中高速搜索與提供的查詢剪輯匹配的音樂(lè)歌曲。
[0026]此外,根據(jù)一個(gè)或多個(gè)示例性實(shí)施例,相對(duì)低維頻譜能量的調(diào)制差被提取并被存儲(chǔ)來(lái)充當(dāng)高維二進(jìn)制比特中的音頻指紋,在沒有使用基于比特誤差率(BER)的哈希搜索的方法的情況下,低維音頻指紋被提取并被應(yīng)用于哈希搜索方法。因此,可從大量音樂(lè)之中高速搜索與提供的查詢剪輯匹配的音樂(lè)歌曲。
【專利附圖】
【附圖說(shuō)明】
[0027]通過(guò)參照附圖描述本發(fā)明構(gòu)思的特定示例性實(shí)施例,本發(fā)明構(gòu)思的上述和/或其它方面將更加清楚,其中:
[0028]圖1是根據(jù)示例性實(shí)施例的音樂(lè)信息搜索設(shè)備的框圖;
[0029]圖2是圖1中示出的音樂(lè)信息搜索設(shè)備的詳細(xì)框圖;
[0030]圖3A、圖3B、圖4A和圖4B是示出根據(jù)示例性實(shí)施例的服務(wù)提供方法的示圖;
[0031]圖5是示出根據(jù)示例性實(shí)施例的音樂(lè)信息搜索方法的流程圖;
[0032]圖6是示出根據(jù)另一示例性實(shí)施例的音樂(lè)信息搜索方法的流程圖。
【具體實(shí)施方式】[0033]現(xiàn)在將參照附圖更詳細(xì)地描述本發(fā)明構(gòu)思的特定示例性實(shí)施例。
[0034]在下面的描述中,即使在不同的圖中,相同的附圖參考標(biāo)號(hào)被用于相同的元件。提供在描述中被限定的內(nèi)容(諸如詳細(xì)的結(jié)構(gòu)和元件)以幫助對(duì)本發(fā)明構(gòu)思的全面的理解。因此,明顯的是,在沒有那些明確限定的內(nèi)容的情況下,本發(fā)明構(gòu)思的示例性實(shí)施例能被執(zhí)行。此外,因?yàn)楣δ芑蚪Y(jié)構(gòu)會(huì)以不必要的細(xì)節(jié)模糊本公開,所以不對(duì)其進(jìn)行詳細(xì)描述。
[0035]圖1是根據(jù)示例性實(shí)施例的音樂(lè)信息搜索設(shè)備的框圖。
[0036]參照?qǐng)D1,音樂(lè)信息搜索設(shè)備100包括調(diào)制頻譜音頻指紋產(chǎn)生器110和音頻數(shù)據(jù)搜索器120。
[0037]音頻指紋產(chǎn)生器110從音頻數(shù)據(jù)和音頻信號(hào)(“音頻數(shù)據(jù)”)中的至少一個(gè)產(chǎn)生音頻指紋。
[0038]具體地,音頻指紋產(chǎn)生器110從音頻數(shù)據(jù)中提取針對(duì)噪聲和/或回聲而相對(duì)較強(qiáng)的調(diào)制頻譜,并通過(guò)使用與提取的調(diào)制頻譜中的預(yù)設(shè)峰值點(diǎn)相關(guān)的位置信息產(chǎn)生調(diào)制頻譜峰值點(diǎn)的音頻指紋。
[0039]音頻數(shù)據(jù)搜索器120通過(guò)使用音頻指紋產(chǎn)生器110中產(chǎn)生的音頻指紋來(lái)搜索相應(yīng)的音樂(lè)信息。
[0040]具體地,音頻數(shù)據(jù)搜索器120經(jīng)由一個(gè)或多個(gè)哈希函數(shù),將產(chǎn)生調(diào)制頻譜峰值點(diǎn)的音頻指紋轉(zhuǎn)換為指示哈希表的各個(gè)地址的哈希鍵和存儲(chǔ)在哈希表上的哈希值。
[0041]此外,音頻數(shù)據(jù)搜索器120提取與音頻查詢剪輯相關(guān)的調(diào)制頻譜峰值點(diǎn)音頻指紋的哈希鍵,并通過(guò)將提取出的哈希鍵和哈希表的地址進(jìn)行比較來(lái)搜索音樂(lè)信息。下面將參照詳細(xì)框圖描述示例性實(shí)施例。
[0042]圖2是圖1中示出的音樂(lè)信息搜索設(shè)備的詳細(xì)框圖。
[0043]參照?qǐng)D2,根據(jù)示例性實(shí)施例的音樂(lè)信息搜索設(shè)備100包括音頻指紋產(chǎn)生器110和音頻數(shù)據(jù)搜索器120。
[0044]音頻指紋產(chǎn)生器110從音頻數(shù)據(jù)和音頻信號(hào)中的至少一個(gè)提取調(diào)制頻譜,并通過(guò)從提取出的調(diào)制頻譜提取與針對(duì)噪聲和/或回聲環(huán)境相對(duì)較強(qiáng)的調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息,來(lái)產(chǎn)生調(diào)制頻譜峰值點(diǎn)的音頻指紋。
[0045]具體地,音頻指紋產(chǎn)生器110包括調(diào)制頻譜系數(shù)提取器111、調(diào)制頻譜歸一化器112、調(diào)制頻譜峰值點(diǎn)提取器113和音頻指紋產(chǎn)生器114,其中,調(diào)制頻譜峰值點(diǎn)提取器113被配置用于提取針對(duì)噪聲和/或回聲環(huán)境相對(duì)較強(qiáng)的調(diào)制頻譜峰值點(diǎn),音頻指紋產(chǎn)生器114被配置用于使用提取出的調(diào)制頻譜峰值點(diǎn)。
[0046]調(diào)制頻譜系數(shù)提取器111提取經(jīng)由對(duì)音頻數(shù)據(jù)執(zhí)行快速傅里葉變換(FFT)而獲得的頻譜的系數(shù),通過(guò)使用至少一個(gè)調(diào)制函數(shù)將提取出的頻譜系數(shù)轉(zhuǎn)換為調(diào)制頻譜。在調(diào)制頻譜的分量或系數(shù)中,通過(guò)使用特定調(diào)制函數(shù)產(chǎn)生與傅里葉變換頻譜系數(shù)不對(duì)應(yīng)并且在噪聲或回聲環(huán)境中不失真的各種峰值點(diǎn)。本文中,可用于產(chǎn)生調(diào)制頻譜的調(diào)制函數(shù)可包括正弦函數(shù)、余弦函數(shù)、使用正弦函數(shù)和余弦函數(shù)的復(fù)雜旋轉(zhuǎn)函數(shù)、傅里葉變換、小波變換以及Z變換中的一個(gè)或多個(gè)。
[0047]調(diào)制頻譜歸一化器112從調(diào)制頻譜系數(shù)提取器111中提取的調(diào)制頻譜系數(shù)之中刪除重疊分量和非獨(dú)立分量,并獲得分別指示輸入的音頻信號(hào)的唯一特征的各種調(diào)制頻譜峰值點(diǎn)。具體地,在音頻信號(hào)之中,與對(duì)應(yīng)于事件的音頻信號(hào)和音樂(lè)信號(hào)的頻譜在相對(duì)較低的頻率具有相對(duì)大量的能量并在相對(duì)較高的頻率具有較少的能量。此外,當(dāng)遠(yuǎn)離音樂(lè)源時(shí),無(wú)法聽到低音。調(diào)制頻譜系數(shù)中的重疊分量和非獨(dú)立分量示出低頻處的能量分布,并且不包括與其它音頻信號(hào)不同的峰值點(diǎn)。因此,通過(guò)執(zhí)行調(diào)制頻譜的歸一化刪除與未顯示出音頻信號(hào)的特征的不必要區(qū)域的重疊,并提供與指示音頻信號(hào)的唯一特征的峰值點(diǎn)相關(guān)的快速提取路徑。
[0048]關(guān)于調(diào)制頻譜的歸一化,可使用各種歸一化方法(諸如,零均值歸一化、倒譜均值歸一化、分貝標(biāo)度歸一化、使用均值的歸一化、使用中值的歸一化和分位數(shù)歸一化)中的任意一個(gè)或多個(gè)。
[0049]調(diào)制頻譜峰值點(diǎn)提取器113從經(jīng)由調(diào)制頻譜歸一化器112產(chǎn)生的歸一化的調(diào)制頻譜之中,將針對(duì)噪聲和/或回聲分量而相對(duì)較弱的調(diào)制頻譜峰值點(diǎn)與針對(duì)噪聲和/或回聲分量而相對(duì)較強(qiáng)的調(diào)制頻譜峰值點(diǎn)進(jìn)行區(qū)分,并提取針對(duì)噪聲和/或回聲分量而相對(duì)較強(qiáng)的區(qū)分的調(diào)制頻譜峰值點(diǎn)。例如,調(diào)制頻譜峰值點(diǎn)提取器可使用閾值來(lái)將相對(duì)較強(qiáng)的峰值點(diǎn)和相對(duì)較弱的峰值點(diǎn)進(jìn)行區(qū)分。
[0050]調(diào)制頻譜峰值點(diǎn)提取113可應(yīng)用噪聲去除濾波器,以便提取針對(duì)噪聲和/或回聲分量而相對(duì)較強(qiáng)的區(qū)分的調(diào)制頻譜峰值點(diǎn)。此外,調(diào)制頻譜峰值點(diǎn)提取器113可通過(guò)假設(shè)噪聲和/或回聲分量,將針對(duì)噪聲和/或回聲分量而相對(duì)較強(qiáng)的峰值點(diǎn)與針對(duì)噪聲和回聲分量而相對(duì)較弱的峰值點(diǎn)進(jìn)行區(qū)分。在這種情況下,調(diào)制頻譜峰值點(diǎn)提取器113可通過(guò)使用以下項(xiàng)中的至少一個(gè)來(lái)執(zhí)行調(diào)制頻譜峰值點(diǎn)的提取:有限脈沖響應(yīng)(FIR)濾波器、無(wú)限脈沖響應(yīng)濾波器(IIR)、卡爾曼濾波器、維納濾波器、頻譜扣除方法、用于計(jì)算調(diào)制頻譜的最小分量并通過(guò)使用計(jì)算出的最小分量計(jì)算調(diào)制頻譜峰值點(diǎn)的方法、用于通過(guò)使用自適應(yīng)閾值(其通過(guò)使用調(diào)制頻譜的最高峰值點(diǎn)計(jì)算)提取與噪聲和回聲分量不同的峰值點(diǎn)的方法、用于通過(guò)使用過(guò)零率和能量來(lái)提取峰值點(diǎn)的方法。
[0051]調(diào)制頻譜峰值點(diǎn)音頻指紋產(chǎn)生器114通過(guò)提取與針對(duì)噪聲和/回聲環(huán)境而相對(duì)較強(qiáng)的調(diào)制頻譜峰值點(diǎn)的位置相關(guān)的信息,來(lái)產(chǎn)生調(diào)制頻譜峰值點(diǎn)的音頻指紋。
[0052]在發(fā)生噪聲和回聲的真實(shí)環(huán)境中,重要的是清楚容易地聽到每個(gè)頻率的每個(gè)聲音,而當(dāng)?shù)鸵暨h(yuǎn)離音頻信號(hào)的音樂(lè)源時(shí),低音無(wú)法被安靜地聽到。此外,使用高音容易掩蓋低音;然而,使用低音難以掩蓋高音。具體地,當(dāng)對(duì)音樂(lè)信號(hào)進(jìn)行分析時(shí),包括基本頻率聲音的回聲被顯示為頻譜上的峰值點(diǎn)或峰。因此,找到基本頻率的最簡(jiǎn)單的方法是找到頻譜上的最大值。當(dāng)對(duì)頻譜進(jìn)行分析時(shí),具有最大峰值點(diǎn)的頻率值之間的位置和間隔、區(qū)分的峰值點(diǎn)和前述峰值點(diǎn)周圍的其它峰值點(diǎn)具有用于定義音頻信號(hào)(特別是聲音)的特征的重要功能。與通過(guò)考慮音頻信號(hào)的上述特征而提取出的調(diào)制頻譜峰值點(diǎn)的位置相關(guān)的信息指示地音頻信號(hào)中顯示出未因噪聲和回聲環(huán)境而失真的音頻特征的主要分量。與提取出的調(diào)制頻譜區(qū)分的峰值點(diǎn)和其它峰值點(diǎn)的位置之間的距離相關(guān)的信息具有針對(duì)噪聲和回聲環(huán)境而相對(duì)較強(qiáng)同時(shí)幾乎不被噪聲和回聲環(huán)境損壞的特征。因此,因?yàn)榕c音頻信號(hào)的唯一特征的相關(guān)性,與提取出的調(diào)制頻譜峰值點(diǎn)之間的距離相關(guān)的信息可適當(dāng)?shù)赜米鞴5刂泛凸V怠?br>
[0053]調(diào)制頻譜峰值點(diǎn)音頻指紋產(chǎn)生器114通過(guò)將與提取出的調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息進(jìn)行關(guān)聯(lián)來(lái)產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋。調(diào)制頻譜峰值點(diǎn)音頻指紋由可指示提取出的調(diào)制頻譜峰值點(diǎn)的位置的值構(gòu)成。因此,產(chǎn)生器114將一個(gè)調(diào)制頻譜峰值點(diǎn)的幀號(hào)、一個(gè)調(diào)制頻譜峰值點(diǎn)的頻率索引、連接的其它調(diào)制頻譜峰值點(diǎn)的頻率索引以及一個(gè)調(diào)制頻譜峰值點(diǎn)與其它調(diào)制頻譜峰值點(diǎn)之間的幀距離進(jìn)行關(guān)聯(lián)。
[0054]根據(jù)示例性實(shí)施例的音樂(lè)信息搜索設(shè)備可減少調(diào)制頻譜峰值點(diǎn)指紋的大小,并通過(guò)根據(jù)上述方法產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋將結(jié)果轉(zhuǎn)換為針對(duì)噪聲和回聲環(huán)境而相對(duì)較強(qiáng)的指紋。因此,音樂(lè)信息搜索設(shè)備可通過(guò)使用哈希表高速搜索提供的查詢剪輯。
[0055]音頻數(shù)據(jù)搜索器120搜索與音頻指紋產(chǎn)生器114中產(chǎn)生的調(diào)制頻譜峰值點(diǎn)指紋相應(yīng)的音頻數(shù)據(jù),并為用戶提供與搜索音頻數(shù)據(jù)相關(guān)的信息。音頻數(shù)據(jù)搜索器120包括調(diào)制頻譜峰值點(diǎn)音頻指紋信息存儲(chǔ)器130、調(diào)制頻譜峰值點(diǎn)音頻指紋搜索器140和信息提供器150。
[0056]調(diào)制頻譜峰值點(diǎn)音頻指紋信息存儲(chǔ)器130包括哈希表131。
[0057]哈希表131是存儲(chǔ)通過(guò)使用音頻指紋產(chǎn)生器110提供的調(diào)制頻譜峰值點(diǎn)指紋產(chǎn)生的哈希鍵和哈希值的區(qū)域。
[0058]哈希鍵和哈希值產(chǎn)生器121通過(guò)使用調(diào)制頻譜峰值點(diǎn)音頻指紋產(chǎn)生器110中產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋,經(jīng)由至少一個(gè)哈希函數(shù)來(lái)產(chǎn)生指示哈希表的各個(gè)地址值的哈希鍵和存儲(chǔ)在哈希表上的哈希值。
[0059]調(diào)制頻譜峰值點(diǎn)音頻指紋信息存儲(chǔ)器130將通過(guò)使用哈希鍵和哈希值產(chǎn)生器121中的調(diào)制頻譜峰值點(diǎn)音頻指紋中的每一個(gè)產(chǎn)生的哈希鍵和與哈希鍵相應(yīng)的哈希值存儲(chǔ)在哈希表131上。
[0060]根據(jù)示例性實(shí)施例的音頻數(shù)據(jù)搜索器120中的哈希搜索方法按照提供為用于快速搜索音頻數(shù)據(jù)的哈希表的布置來(lái)存儲(chǔ)音頻數(shù)據(jù),經(jīng)由合適的哈希函數(shù)將音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)音頻指紋轉(zhuǎn)換為指示哈希表的地址的哈希鍵,并在哈希表131內(nèi)搜索與查詢剪輯的哈希鍵相同的位置上的哈希值。
[0061]根據(jù)示例性實(shí)施例的哈希搜索方法的優(yōu)點(diǎn)在于不論哈希表的大小,搜索時(shí)間固定,搜索速度比現(xiàn)有搜索方法(諸如,二進(jìn)制搜索)明顯更快,可容易地執(zhí)行插入和刪除數(shù)據(jù)。
[0062]當(dāng)調(diào)制頻譜峰值點(diǎn)音頻指紋被轉(zhuǎn)換為哈希鍵和哈希值時(shí),使用根據(jù)示例性實(shí)施例的哈希函數(shù)。這些函數(shù)將數(shù)據(jù)從一類調(diào)制頻譜峰值點(diǎn)音頻指紋轉(zhuǎn)換為指示哈希表的地址值的哈希鍵和存儲(chǔ)在哈希表上的哈希值。
[0063]此外,因?yàn)檎{(diào)制頻譜峰值點(diǎn)音頻指紋的可用組合的可能數(shù)量遠(yuǎn)遠(yuǎn)大于哈希表的相應(yīng)大小,所以根據(jù)示例性實(shí)施例的哈希函數(shù)成為多對(duì)一相應(yīng)函數(shù)。另外,根據(jù)示例性實(shí)施例的哈希函數(shù)在執(zhí)行計(jì)算方面應(yīng)該較快且簡(jiǎn)單。
[0064]當(dāng)音頻查詢剪輯被輸入時(shí),根據(jù)示例性實(shí)施例的音頻搜索方法從調(diào)制頻譜峰值點(diǎn)音頻指紋產(chǎn)生器110產(chǎn)生音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)指紋,并經(jīng)由哈希鍵和哈希值產(chǎn)生器121從音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)音頻指紋產(chǎn)生哈希鍵。調(diào)制頻譜峰值點(diǎn)音頻指紋搜索器140獲得存儲(chǔ)在哈希表上的與音頻查詢剪輯的哈希鍵相同位置上的哈希值,將結(jié)果轉(zhuǎn)換為調(diào)制頻譜峰值點(diǎn)音頻指紋信息,確定最終搜索結(jié)果,并為用戶提供搜索結(jié)果。
[0065]調(diào)制頻譜峰值點(diǎn)音頻指紋搜索器140包括哈希鍵比較搜索器和哈希值獲得器141、獲得的哈希值的音頻信息轉(zhuǎn)換器142和最終搜索結(jié)果確定器143。
[0066]哈希鍵比較搜索器和哈希值獲得器141通過(guò)從音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)音頻指紋之中搜索具有與哈希鍵和哈希值產(chǎn)生器121計(jì)算出的哈希鍵相同地址的哈希表來(lái)獲得存儲(chǔ)在哈希表上的哈希值。
[0067]獲得的哈希值的音頻信息轉(zhuǎn)換器142經(jīng)由一個(gè)或多個(gè)哈希函數(shù)將經(jīng)由哈希鍵比較搜索器和哈希鍵獲得器141獲得的哈希值轉(zhuǎn)換為音頻索引信息,諸如,音樂(lè)歌曲標(biāo)識(shí)(ID)或音頻事件ID。
[0068]最終搜索結(jié)果確定器143計(jì)算來(lái)自獲得的哈希值的音頻信息轉(zhuǎn)換器142的最頻繁的音頻索引信息(例如,音樂(lè)歌曲ID或音頻事件ID),將與最大量的音頻索引信息相應(yīng)的數(shù)據(jù)確定為最終搜索音頻信息。
[0069]信息提供器150為用戶提供與在調(diào)制頻譜峰值點(diǎn)音頻指紋搜索器140中搜索的音頻數(shù)據(jù)相關(guān)的信息。
[0070]從而,根據(jù)示例性實(shí)施例的音頻信息搜索設(shè)備從音頻信號(hào)和音頻數(shù)據(jù)的調(diào)制頻譜提取針對(duì)噪聲和/或回聲環(huán)境而相對(duì)較強(qiáng)的調(diào)制頻譜峰值點(diǎn)的位置,通過(guò)組合提取出的峰值點(diǎn)的位置來(lái)產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋,通過(guò)使用一個(gè)或多個(gè)哈希函數(shù)從調(diào)制頻譜峰值點(diǎn)音頻指紋計(jì)算指示哈希表的地址值的哈希鍵和存儲(chǔ)在哈希表上的哈希值,并將結(jié)果存儲(chǔ)在哈希表上。
[0071]此外,根據(jù)示例性實(shí)施例的音樂(lè)信息搜索設(shè)備基于區(qū)分的調(diào)制頻譜的峰值點(diǎn)來(lái)從音頻查詢剪輯提取調(diào)制頻譜峰值點(diǎn)音頻指紋,通過(guò)使用一個(gè)或多個(gè)哈希函數(shù)計(jì)算音頻查詢剪輯的哈希鍵,從調(diào)制頻譜峰值點(diǎn)音頻指紋信息存儲(chǔ)器130的哈希表獲得與上述查詢音頻文件的哈希鍵相應(yīng)的哈希值,并經(jīng)由一個(gè)或多個(gè)哈希函數(shù)將結(jié)果轉(zhuǎn)換為音頻索引信息。因此,可高速搜索音樂(lè)信息。
[0072]圖3A、圖3B、圖4A和圖4B是示出根據(jù)示例性實(shí)施例的服務(wù)提供方法的示圖。
[0073]可通過(guò)使用圖1和圖2中示出的音樂(lè)信息搜索設(shè)備提供圖3A和圖3B中示出的服務(wù)。
[0074]例如,在310,當(dāng)正觀看的電視(TV) 10上的廣告(AD)顯示指示根據(jù)示例性實(shí)施例的服務(wù)的特定項(xiàng)(例如,“廣告捕獲”)可被提供時(shí),在320,用于記錄相應(yīng)AD音樂(lè)的用戶命令可被輸入。當(dāng)與搖動(dòng)用戶終端20相應(yīng)的運(yùn)動(dòng)被輸入時(shí),相應(yīng)的AD音樂(lè)經(jīng)由音樂(lè)終端20被記錄,記錄的音頻被發(fā)送到數(shù)據(jù)服務(wù)器(未示出),相應(yīng)的AD可經(jīng)由搜索被識(shí)別。
[0075]具體地,參照?qǐng)D4A,在410,提取與經(jīng)由終端20記錄的AD音樂(lè)相關(guān)的音頻指紋,在420,搜索存儲(chǔ)每個(gè)AD的音頻指紋的數(shù)據(jù)庫(kù),在430,可搜索與提取出的音頻指紋(例如,AD標(biāo)題和ID)相應(yīng)的信息。例如,可使用諸如圖4B中示出的數(shù)據(jù)庫(kù);數(shù)據(jù)庫(kù)具有AD音樂(lè)的音頻指紋被提取、索引和存儲(chǔ)的結(jié)構(gòu)。
[0076]再次參照?qǐng)D3A和圖3B,在330,識(shí)別的AD的附加服務(wù)信息(例如,附加信息和優(yōu)惠券服務(wù))可被提供給用戶終端20。例如,當(dāng)識(shí)別出AD指示特定汽車產(chǎn)品時(shí),相應(yīng)AD的附加服務(wù)信息可被提供給用戶終端20。這樣的附加服務(wù)也可被存儲(chǔ)在上述數(shù)據(jù)服務(wù)器(未示出)上,和/或存儲(chǔ)在外部服務(wù)器(例如,相應(yīng)的產(chǎn)品銷售商服務(wù)器)上。當(dāng)相應(yīng)的附加服務(wù)信息被存儲(chǔ)在數(shù)據(jù)服務(wù)器(未示出)上時(shí),可使用從相應(yīng)產(chǎn)品相關(guān)服務(wù)器接收到的信息定期更新所述信息。
[0077]當(dāng)在340用于在提供給用戶終端20的附加服務(wù)上選擇特定項(xiàng)的用戶命令被輸入時(shí),在350,與選擇的項(xiàng)相應(yīng)的詳細(xì)信息可被提供。例如,當(dāng)在汽車產(chǎn)品AD上選擇了與“展示乘坐可用店”相關(guān)的項(xiàng)時(shí),可提供與展示乘坐可用店相關(guān)的詳細(xì)信息。
[0078]上述服務(wù)可應(yīng)用于根據(jù)示例性實(shí)施例的音樂(lè)信息檢索方法。
[0079]圖5是示出根據(jù)示例性實(shí)施例的音樂(lè)信息搜索方法的流程圖。
[0080]根據(jù)圖5中示出的音樂(lè)信息搜索方法,在操作S10,從音頻數(shù)據(jù)提取針對(duì)噪聲和/或回聲環(huán)境而相對(duì)較強(qiáng)的調(diào)制頻譜。
[0081]在操作S520,通過(guò)使用預(yù)設(shè)峰值點(diǎn)之間的位置信息從提取出的調(diào)制頻譜產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋。
[0082]在操作S530,產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋經(jīng)由一個(gè)或多個(gè)哈希函數(shù)被轉(zhuǎn)換為指示哈希表的地址的哈希鍵和存儲(chǔ)在哈希表上的哈希值。
[0083]在操作S540,提取與音頻查詢剪輯相關(guān)的調(diào)制頻譜峰值點(diǎn)音頻指紋的哈希鍵,通過(guò)將提取出的音頻查詢剪輯的哈希鍵與哈希表的地址進(jìn)行比較來(lái)搜索音樂(lè)信息。
[0084]圖6是示出根據(jù)示例性實(shí)施例的音樂(lè)信息搜索方法的流程圖。
[0085]根據(jù)圖6中示出的音樂(lè)信息搜索方法,在操作S610,音頻信息搜索設(shè)備提取針對(duì)噪聲和/或回聲環(huán)境而相對(duì)較強(qiáng)的調(diào)制頻譜的峰值點(diǎn)。
[0086]在操作S615,音頻信息搜索設(shè)備通過(guò)使用與針對(duì)噪聲和/或回聲環(huán)境而相對(duì)較強(qiáng)的調(diào)制頻譜峰值點(diǎn)之間的位置相關(guān)的信息,從提取出的調(diào)制頻譜產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋。
[0087]在操作S620,針對(duì)產(chǎn)生的音頻指紋,通過(guò)使用一個(gè)或多個(gè)哈希函數(shù)來(lái)產(chǎn)生指示地址值的哈希鍵和哈希值。
[0088]在操作S625,通過(guò)使用確定的哈希鍵和哈希值產(chǎn)生哈希表。
[0089]從而,根據(jù)示例性實(shí)施例的音樂(lè)信息搜索方法從調(diào)制頻譜中提取針對(duì)噪聲和/或回聲環(huán)境相對(duì)羅強(qiáng)的區(qū)分的調(diào)制頻譜的峰值點(diǎn)。與這樣的區(qū)分的調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息在無(wú)噪清晰環(huán)境和非常嘈雜環(huán)境中是統(tǒng)一可提取的,從而,顯示出針對(duì)噪聲和/或回聲環(huán)境而非常強(qiáng)的特點(diǎn)。
[0090]在操作S630,音頻信息搜索設(shè)備提取針對(duì)與音頻查詢剪輯相關(guān)的噪聲和/或回聲相對(duì)較強(qiáng)的調(diào)制頻譜峰值點(diǎn)。
[0091]在操作S635,通過(guò)使用與關(guān)于提取出的調(diào)制頻譜的區(qū)分的峰值點(diǎn)相關(guān)的位置信息來(lái)從音頻查詢剪輯產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋。
[0092]在操作S640,通過(guò)針對(duì)音頻查詢剪輯的產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋使用一個(gè)或多個(gè)哈希函數(shù)來(lái)計(jì)算哈希鍵。
[0093]在操作S645,從哈希表搜索與計(jì)算出的哈希鍵匹配的地址值,其中,所述哈希鍵指示音頻查詢剪輯的地址值。
[0094]在操作S650,獲得所有從哈希表搜索的地址的哈希值,通過(guò)使用一個(gè)或多個(gè)哈希函數(shù),獲得的哈希值被轉(zhuǎn)換并被獲得為音頻索引信息。
[0095]在操作S655,將最大量的音頻索引信息確定為獲得的音頻索引信息之中的最終搜索音頻信息。
[0096]此外,根據(jù)各種示例性實(shí)施例的音樂(lè)信息搜索方法可被實(shí)現(xiàn)為可在計(jì)算機(jī)上運(yùn)行的程序代碼,并可被提供給音頻信息搜索設(shè)備,從而在被存儲(chǔ)在任意一個(gè)或更多不同類型的非臨時(shí)性計(jì)算機(jī)可讀記錄介質(zhì)的同時(shí),由處理器來(lái)實(shí)現(xiàn)。[0097]與臨時(shí)地存儲(chǔ)數(shù)據(jù)的介質(zhì)(諸如,寄存器、高速緩存和內(nèi)存)相比,非臨時(shí)性計(jì)算機(jī)可讀記錄介質(zhì)指示存儲(chǔ)半永久性數(shù)據(jù)的介質(zhì),并可由裝置讀取。具體地,上述各種應(yīng)用或程序可被存儲(chǔ)并提供在任意類型的非臨時(shí)性計(jì)算機(jī)可讀記錄介質(zhì)(諸如,例如,緊湊盤(CD)、數(shù)字通用光盤(DVD)、硬盤、藍(lán)光盤、通用串行總線(USB)裝置、存儲(chǔ)卡或只讀存儲(chǔ)器(ROM))中。
[0098]此外,上述示例性實(shí)施例和優(yōu)點(diǎn)僅是示例性的,并不被解釋為限制示例性實(shí)施例。本教導(dǎo)可容易地應(yīng)用于其它類型的設(shè)備。此外,本發(fā)明構(gòu)思的示例性實(shí)施例的描述意圖說(shuō)明,而不是限制權(quán)利要求的范圍。
【權(quán)利要求】
1.一種音樂(lè)信息搜索方法,包括: 從音頻數(shù)據(jù)提取調(diào)制頻譜; 通過(guò)使用與預(yù)設(shè)峰值點(diǎn)相關(guān)的位置信息從提取出的調(diào)制頻譜產(chǎn)生調(diào)制頻譜峰值點(diǎn)音頻指紋; 經(jīng)由至少一個(gè)哈希函數(shù)將產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋轉(zhuǎn)換為指示哈希表的地址的哈希鍵和存儲(chǔ)在哈希表上的哈希值; 提取與音頻查詢剪輯相關(guān)的哈希鍵,通過(guò)將提取出的哈希鍵與哈希表指示的地址進(jìn)行比較來(lái)搜索音樂(lè)信息。
2.—種音樂(lè)信息搜索方法,包括: 從音頻數(shù)據(jù)提取調(diào)制頻譜; 經(jīng)由調(diào)制頻譜歸一化處理,對(duì)提取出的調(diào)制頻譜進(jìn)行歸一化,以從提取出的調(diào)制頻譜刪除與不指示音頻信號(hào)的唯一特征的不必要區(qū)域的重疊; 將與針對(duì)噪聲環(huán)境比第一閾值弱的第一調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息和與針對(duì)噪聲環(huán)境比第一閾值強(qiáng)的第二調(diào)制頻譜峰值點(diǎn)的位置信息進(jìn)行區(qū)分,并提取第二調(diào)制頻譜峰值點(diǎn); 將與提取出的第二調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為調(diào)制頻譜峰值點(diǎn)音頻指紋; 通過(guò)使用至少一個(gè)哈希函數(shù),將分別分配到調(diào)制頻譜峰值點(diǎn)音頻指紋和音樂(lè)歌曲的標(biāo)識(shí)號(hào)轉(zhuǎn)換為指示哈希表的地址的哈希鍵和存儲(chǔ)在哈希表上的哈希值,并在哈希表上存儲(chǔ)轉(zhuǎn)換的結(jié)果; 從音頻查詢剪輯提取調(diào)制頻譜; 經(jīng)由調(diào)制頻譜歸一化處理,對(duì)提取出的音頻查詢調(diào)制頻譜進(jìn)行歸一化,以從提取出的調(diào)制頻譜刪除與不指示音頻查詢信號(hào)的唯一特征的不必要區(qū)域的重疊; 將歸一化的音頻查詢調(diào)制頻譜之中的與針對(duì)噪聲環(huán)境比第二閾值弱的第一音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息和與針對(duì)噪聲環(huán)境比第二閾值強(qiáng)的第二音頻查詢調(diào)制頻譜峰值點(diǎn)進(jìn)行區(qū)分,并提取第二音頻查詢調(diào)制頻譜峰值點(diǎn); 將與提取出的第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為與第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的音頻指紋; 從提取出的音頻查詢剪輯的調(diào)制頻譜之中提取與第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息; 將與第二提取出的調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息轉(zhuǎn)換為調(diào)制頻譜峰值點(diǎn)音頻指紋; 通過(guò)使用至少一個(gè)哈希函數(shù)計(jì)算哈希鍵,來(lái)從提取出的音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)音頻指紋獲得分別與地址相應(yīng)的哈希表的哈希值; 通過(guò)從獲得的哈希值獲得音頻索引信息來(lái)確定最終搜索結(jié)果。
3.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,從音頻數(shù)據(jù)提取調(diào)制頻譜的步驟包括:通過(guò)執(zhí)行快速傅里葉變換(FFT)來(lái)提取音頻數(shù)據(jù)的頻譜系數(shù),并經(jīng)由至少一個(gè)調(diào)制函數(shù)將提取出的頻譜系數(shù)轉(zhuǎn)換為調(diào)制頻譜。
4.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,對(duì)調(diào)制頻譜進(jìn)行歸一化的步驟包括:使用零均值歸一化、倒譜均值歸一化、分貝標(biāo)度歸一化、通過(guò)使用均值的歸一化、通過(guò)使用中值的歸一化和分位數(shù)歸一化之中的至少一個(gè)歸一化方法。
5.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,提取調(diào)制頻譜峰值點(diǎn)的步驟包括:使用有限脈沖響應(yīng)濾波器、無(wú)限脈沖響應(yīng)濾波器、卡爾曼濾波器、頻譜扣除(deduction)、用于計(jì)算調(diào)制頻譜的最小分量并通過(guò)使用計(jì)算出的最小分量計(jì)算調(diào)制頻譜峰值點(diǎn)的方法、用于通過(guò)使用能夠經(jīng)使用調(diào)制頻譜的最高峰值點(diǎn)計(jì)算的自適應(yīng)閾值提取與噪聲分量不同的峰值點(diǎn)的方法、用于通過(guò)使用過(guò)零率和能量來(lái)刪除噪聲的方法之中的至少一個(gè)。
6.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,轉(zhuǎn)換為音頻查詢調(diào)制頻譜峰值點(diǎn)音頻指紋的步驟包括:通過(guò)使用指示提取出的第二調(diào)制頻譜峰值點(diǎn)的位置的值,將存在于區(qū)分的第二調(diào)制頻譜峰值點(diǎn)之間的預(yù)設(shè)間隔內(nèi)的位置信息獲得為調(diào)制頻譜峰值點(diǎn)音頻指紋。
7.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,存儲(chǔ)在哈希表上的步驟包括: 經(jīng)由至少一個(gè)哈希函數(shù),通過(guò)使用與產(chǎn)生的調(diào)制頻譜峰值點(diǎn)音頻指紋相關(guān)的信息,計(jì)算指示哈希表的各個(gè)地址的哈希鍵和與哈希表相關(guān)的哈希值; 基于計(jì)算出的哈希鍵和哈希值,通過(guò)將調(diào)制頻譜峰值點(diǎn)音頻指紋存儲(chǔ)在哈希表上來(lái)產(chǎn)生哈希表。
8.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,從音頻查詢剪輯提取調(diào)制頻譜的步驟包括: 通過(guò)執(zhí)行音頻數(shù)據(jù)和音頻查詢剪輯數(shù)據(jù)中的每一個(gè)的各個(gè)FFT來(lái)提取頻譜系數(shù); 經(jīng)由至少一個(gè)調(diào)制函數(shù)將提取出的頻譜系數(shù)轉(zhuǎn)換為調(diào)制頻譜。
9.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,從提取出的音頻查詢剪輯的調(diào)制頻譜之中提取與第二音頻查詢調(diào)制頻譜峰值點(diǎn)相關(guān)的位置信息的步驟包括:使用有限脈沖響應(yīng)濾波器、無(wú)限脈沖響應(yīng)濾波器、卡爾曼濾波器、頻譜扣除、用于計(jì)算調(diào)制頻譜的最小分量并通過(guò)使用計(jì)算出的最小分量計(jì)算調(diào)制頻譜峰值點(diǎn)的方法、用于通過(guò)使用能夠經(jīng)使用調(diào)制頻譜的最高峰值點(diǎn)計(jì)算的自適應(yīng)閾值提取與噪聲分量不同的峰值點(diǎn)的方法、用于通過(guò)使用過(guò)零率和能量來(lái)刪除噪聲的方法之中的至少一個(gè)。
10.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,轉(zhuǎn)換為調(diào)制頻譜峰值點(diǎn)音頻指紋的步驟包括:通過(guò)使用指示提取出的調(diào)制頻譜峰值點(diǎn)的位置的值,將與兩個(gè)點(diǎn)相關(guān)的位置信息獲得為調(diào)制頻譜峰值點(diǎn)音頻指紋。
11.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,獲得哈希表的哈希值的步驟包括: 經(jīng)由至少一個(gè)哈希函數(shù),通過(guò)使用與產(chǎn)生的音頻查詢剪輯的調(diào)制頻譜峰值點(diǎn)音頻指紋相關(guān)的信息來(lái)獲得指示哈希表的各個(gè)地址的哈希鍵; 通過(guò)使用獲得的哈希鍵獲得哈希值。
12.如權(quán)利要求2所述的音樂(lè)信息搜索方法,其中,確定最終搜索結(jié)果的步驟包括: 通過(guò)使用所述至少一個(gè)哈希函數(shù)將哈希值轉(zhuǎn)換為音頻索引信息; 從獲得的音頻索引信息之中,將最大量的音頻索引信息確定為最終的搜索音頻信息。
13.一種音頻信息搜索方法,包括: 從音頻數(shù)據(jù)提取調(diào)制頻譜; 通過(guò)使用與預(yù)設(shè)峰值點(diǎn)相關(guān)的位置信息,從提取出的調(diào)制頻譜產(chǎn)生音頻指紋; 將與產(chǎn)生的音頻指紋相關(guān)的信息和與至少一個(gè)用戶選擇的音頻查詢相關(guān)的信息進(jìn)行比較; 基于比較的結(jié)果確定搜索結(jié)果。
14.如權(quán)利要求13所述的音頻信息搜索方法,還包括: 對(duì)產(chǎn)生的音頻指紋應(yīng)用至少一個(gè)哈希函數(shù),以獲得與產(chǎn)生的音頻指紋相關(guān)的信息, 對(duì)所述至少一個(gè)用戶選擇的音頻查詢應(yīng)用所述至少一個(gè)哈希函數(shù),以獲得與所述至少一個(gè)用戶選擇的音頻查詢相關(guān)的信息。
15.—種用于執(zhí)行音頻信息搜索的設(shè)備,包括: 提取器,被配置用于從音頻數(shù)據(jù)提取調(diào)制頻譜; 音頻指紋產(chǎn)生器,被配置用于通過(guò)使用與預(yù)設(shè)峰值點(diǎn)相關(guān)的位置信息從提取出的調(diào)制頻譜產(chǎn)生音頻指紋; 音頻數(shù)據(jù)搜索器,被配置用于將與產(chǎn)生的音頻指紋相關(guān)的信息和與至少一個(gè)用戶選擇的音頻查詢相關(guān)的信息進(jìn)行比較,并基于比較的結(jié)果確定搜索結(jié)果。
【文檔編號(hào)】G06F17/30GK103810236SQ201310571089
【公開日】2014年5月21日 申請(qǐng)日期:2013年11月13日 優(yōu)先權(quán)日:2012年11月13日
【發(fā)明者】嚴(yán)基完, 金炯局, 金光基 申請(qǐng)人:三星電子株式會(huì)社, 光云大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán)