專利名稱:一種基于gpu實現(xiàn)的快速音頻檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及檢索的方法,具體涉及利用GPU計算基于內(nèi)容音頻檢索核心步驟從而 提高檢索速度的方法。
背景技術(shù):
基于內(nèi)容的音頻檢索,主要研究如何利用音頻的幅度、頻譜等物理特征,響度、音 高、音色等聽覺特征,詞字、旋律等語義特征實現(xiàn)音頻信息的查找。通常采用梅爾頻率倒譜 系數(shù)(Mel-frequency Cepstral Coeff icient,簡稱MFCC)及其差分特征,可以將連續(xù)音頻 數(shù)據(jù)段看成浮點數(shù)矩陣。其中,矩陣行數(shù)表示MFCC特征維度,矩陣列數(shù)表示音頻數(shù)據(jù)段幀 數(shù)。為了提高檢索速度,某些音頻檢索算法將MFCC特征矩陣降維成一維向量。檢索時首先 將待檢索片段向量在模板向量內(nèi)滑動計算每個位置的向量相似度,然后在相似度小于一定 閾值的位置處,計算待檢索片段MFCC特征矩陣與模板MFCC特征矩陣的相似度。向量相似 度可用兩個向量之間的距離來反映,距離越小相似度越高。矩陣相似度即兩個矩陣對應(yīng)列 向量相似度的均值。檢索的主要計算量就是計算距離。隨著網(wǎng)絡(luò)上音頻數(shù)據(jù)的不斷膨脹, 音頻檢索系統(tǒng)的檢索速度不斷降低。目前主要通過改進音頻檢索算法的方法進行加速,這 種方法的開發(fā)時間較長,同時加速效果不會有大幅度的提升。檢索速度嚴(yán)重影響了音頻檢 索系統(tǒng)的實用性,因此需要研究加速音頻檢索速度的方法。發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有基于內(nèi)容音頻檢索方法檢索速度慢的問題,而提出了一種基 于GPU實現(xiàn)的快速音頻檢索方法。
本發(fā)明的一種基于GPU實現(xiàn)的快速音頻檢索方法步驟如下
步驟一初始判斷圖像處理器GPU中是否有音頻片段的特征信息,
否,則進入步驟二,進行音頻流數(shù)據(jù)的預(yù)處理;
是,則進入步驟三,進行音頻片段的特征信息的向量滑動匹配;
步驟二 預(yù)處理中央處理器CPU將輸入音頻檢索系統(tǒng)的音頻流數(shù)據(jù)分割成音頻 片段,對各個音頻片段進行特征提取,并對音頻片段的特征信息進行分組,之后將每組音頻 片段的特征信息依次傳輸?shù)綀D像處理器GPU的紋理存儲器中;
步驟三音頻片段向量滑動匹配圖像處理器GPU的紋理存儲器中的向量滑動匹 配模塊利用音頻片段的特征信息中的片段向量特征進行向量滑動匹配,記錄向量滑動匹配 結(jié)果;并通過圖像處理器GPU將記錄的向量滑動匹配結(jié)果發(fā)送到中央處理器CPU;
步驟四第一閾值判斷在中央處理器CPU中順序遍歷所述向量滑動匹配結(jié)果,判 斷所述向量滑動匹配結(jié)果是否大于設(shè)定的第一閾值的結(jié)果,
否,則將所述向量滑動匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理器GPU 中;返回步驟一,
是,則將所述向量滑動匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理器GPU的全局存儲器中,進入步驟五;
步驟五音頻片段梅爾倒譜系數(shù)特征矩陣匹配圖像處理器GPU的全局存儲器中 的梅爾倒譜系數(shù)特征矩陣匹配模塊利用音頻片段的特征信息中的梅爾倒譜系數(shù)特征及其 差分特征進行梅爾倒譜系數(shù)矩陣匹配,記錄梅爾倒譜系數(shù)矩陣匹配結(jié)果;并通過圖像處理 器GPU將記錄的梅爾倒譜系數(shù)矩陣匹配結(jié)果發(fā)送到中央處理器CPU ;
步驟六第二閾值判斷在中央處理器CPU中順序遍歷梅爾倒譜系數(shù)矩陣匹配結(jié) 果,判斷所述的梅爾倒譜系數(shù)矩陣匹配結(jié)果是否大于設(shè)定的第二閾值的結(jié)果,
否,則將所述梅爾倒譜系數(shù)矩陣匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理 器GPU中,返回步驟一;
是,則判定為匹配成功,對匹配成功的結(jié)果進行相應(yīng)的處理。
本方法不僅極大的提高了音頻檢索速度,而且保證了檢索的精確度。
圖1是向量滑動匹配結(jié)果的空間結(jié)構(gòu)示意圖;圖2是具體實施方式
四中第一種方法的基于線程的線程配置方式示意圖; 圖3是具體實施方式
四中第一種方法的基于線程組匹配方式示意圖; 圖4是具體實施方式
四中第一種方法的基于線程組與模板的映射關(guān)系示意圖; 圖5是具體實施方式
四中第二種方法的基于線程塊的單線程跳躍滑動方式示意圖; 圖6是具體實施方式
四中第二種方法的基于線程塊的單線程連續(xù)滑動方式示意圖; 圖7是具體實施方式
五中矩陣匹配方式示意圖。
具體實施方式
具體實施方式
一本實施方式的步驟如下
步驟一初始判斷圖像處理器GPU中是否有音頻片段的特征信息,
否,則進入步驟二,進行音頻流數(shù)據(jù)的預(yù)處理;
是,則進入步驟三,進行音頻片段的特征信息的向量滑動匹配;
步驟二 預(yù)處理中央處理器CPU將輸入音頻檢索系統(tǒng)的音頻流數(shù)據(jù)分割成音頻 片段,對各個音頻片段進行特征提取,并對音頻片段的特征信息進行分組,之后將每組音頻 片段的特征信息依次傳輸?shù)綀D像處理器GPU的紋理存儲器中;
步驟三音頻片段向量滑動匹配圖像處理器GPU的紋理存儲器中的向量滑動匹 配模塊利用音頻片段的特征信息中的片段向量特征進行向量滑動匹配,記錄向量滑動匹配 結(jié)果;并通過圖像處理器GPU將記錄的向量滑動匹配結(jié)果發(fā)送到中央處理器CPU;
步驟四第一閾值判斷在中央處理器CPU中順序遍歷所述向量滑動匹配結(jié)果,判 斷所述向量滑動匹配結(jié)果是否大于設(shè)定的第一閾值的結(jié)果,
否,則將所述向量滑動匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理器GPU 中;返回步驟一,
是,則將所述向量滑動匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理器GPU的 全局存儲器中,進入步驟五;
步驟五音頻片段梅爾倒譜系數(shù)特征矩陣匹配圖像處理器GPU的全局存儲器中的梅爾倒譜系數(shù)特征矩陣匹配模塊利用音頻片段的特征信息中的梅爾倒譜系數(shù)特征及其 差分特征進行梅爾倒譜系數(shù)矩陣匹配,記錄梅爾倒譜系數(shù)矩陣匹配結(jié)果;并通過圖像處理 器GPU將記錄的梅爾倒譜系數(shù)矩陣匹配結(jié)果發(fā)送到中央處理器CPU ;
步驟六第二閾值判斷在中央處理器CPU中順序遍歷梅爾倒譜系數(shù)矩陣匹配結(jié) 果,判斷所述的梅爾倒譜系數(shù)矩陣匹配結(jié)果是否大于設(shè)定的第二閾值的結(jié)果,
否,則將所述梅爾倒譜系數(shù)矩陣匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理 器GPU中,返回步驟一;
是,則判定為匹配成功,對匹配成功的結(jié)果進行相應(yīng)的處理。
具體實施方式
二本實施方式與具體實施方式
一不同點在于音頻片段的特征信息 包括梅爾倒譜系數(shù)及其差分特征和片段向量特征,其中片段向量特征是梅爾倒譜系數(shù)及其 差分特征的降維特征;其它步驟與具體實施方式
一相同。
具體實施方式
三本實施方式與具體實施方式
一或二不同點在于梅爾倒譜系數(shù)特 征矩陣匹配模塊和向量滑動匹配模塊是采用下述方法獲得的
步驟A 中央處理器CPU根據(jù)音頻檢索系統(tǒng)功能及規(guī)模建立原始音頻庫;對所述的 原始音頻庫內(nèi)的每個音頻文件進行特征提取,從而獲得梅爾倒譜系數(shù)及其差分特征和片段 向量特征兩種特征信息,利用所述的特征信息建立參考模板庫;
其中,梅爾倒譜系數(shù)及其差分特征信息的計算,是首先用快速傅里葉變換O^ast Fourier Transform,簡稱FFT)將時域信號轉(zhuǎn)化成頻域信號,然后對所述頻域信號的對數(shù)能 量譜用依照Mel刻度分布的三角濾波器組進行卷積,最后對各個濾波器的輸出構(gòu)成的向量 進行離散余弦變換(Discrete Cosine Transform,簡稱DCT),并取前N個系數(shù)作為特征信 息。經(jīng)常用到的梅爾倒譜系數(shù)有12維,13維(加入FO能量),39維(13維MFCC加上其一 階差分和二階差分)。由于每一幀梅爾倒譜系數(shù)及其差分特征是一個向量,整個匹配過程的 計算量相對較大。為了減少計算量,首先采用自相似加權(quán)距離法對音頻特征數(shù)據(jù)進行降維 處理,生成一級索引文件。對于第i幀η維特征向量&,對應(yīng)的一維量化值Pi
權(quán)利要求
1.一種基于GPU實現(xiàn)的快速音頻檢索方法,其特征在于它的步驟如下 步驟一初始判斷圖像處理器GPU中是否有音頻片段的特征信息, 否,則進入步驟二,進行音頻流數(shù)據(jù)的預(yù)處理;是,則進入步驟三,進行音頻片段的特征信息的向量滑動匹配; 步驟二 預(yù)處理中央處理器CPU將輸入音頻檢索系統(tǒng)的音頻流數(shù)據(jù)分割成音頻片段, 對各個音頻片段進行特征提取,并對音頻片段的特征信息進行分組,之后將每組音頻片段 的特征信息依次傳輸?shù)綀D像處理器GPU的紋理存儲器中;步驟三音頻片段向量滑動匹配圖像處理器GPU的紋理存儲器中的向量滑動匹配模 塊利用音頻片段的特征信息中的片段向量特征進行向量滑動匹配,記錄向量滑動匹配結(jié) 果;并通過圖像處理器GPU將記錄的向量滑動匹配結(jié)果發(fā)送到中央處理器CPU ;步驟四第一閾值判斷在中央處理器CPU中順序遍歷所述向量滑動匹配結(jié)果,判斷所 述向量滑動匹配結(jié)果是否大于設(shè)定的第一閾值的結(jié)果,否,則將所述向量滑動匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理器GPU中;返 回步驟一,是,則將所述向量滑動匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理器GPU的全局 存儲器中,進入步驟五;步驟五音頻片段梅爾倒譜系數(shù)特征矩陣匹配圖像處理器GPU的全局存儲器中的 梅爾倒譜系數(shù)特征矩陣匹配模塊利用音頻片段的特征信息中的梅爾倒譜系數(shù)特征及其差 分特征進行梅爾倒譜系數(shù)矩陣匹配,記錄梅爾倒譜系數(shù)矩陣匹配結(jié)果;并通過圖像處理器 GPU將記錄的梅爾倒譜系數(shù)矩陣匹配結(jié)果發(fā)送到中央處理器CPU ;步驟六第二閾值判斷在中央處理器CPU中順序遍歷梅爾倒譜系數(shù)矩陣匹配結(jié)果,判 斷所述的梅爾倒譜系數(shù)矩陣匹配結(jié)果是否大于設(shè)定的第二閾值的結(jié)果,否,則將所述梅爾倒譜系數(shù)矩陣匹配結(jié)果的音頻片段的特征信息傳輸?shù)綀D像處理器 GPU中,返回步驟一;是,則判定為匹配成功,對匹配成功的結(jié)果進行相應(yīng)的處理。
2.根據(jù)權(quán)利要求1所述的一種基于GPU實現(xiàn)的快速音頻檢索方法,其特征在于音頻片 段的特征信息包括梅爾倒譜系數(shù)及其差分特征和片段向量特征,其中片段向量特征是梅爾 倒譜系數(shù)及其差分特征的降維特征。
3.根據(jù)權(quán)利要求1或2所述的一種基于GPU實現(xiàn)的快速音頻檢索方法,其特征在于梅 爾倒譜系數(shù)特征矩陣匹配模塊和向量滑動匹配模塊是采用下述方法獲得的步驟A 中央處理器CPU根據(jù)音頻檢索系統(tǒng)功能及規(guī)模建立原始音頻庫;對所述的原始 音頻庫內(nèi)的每個音頻文件進行特征提取,從而獲得梅爾倒譜系數(shù)及其差分特征和片段向量 特征兩種特征信息,利用所述的特征信息建立參考模板庫;步驟B 將所述的參考模板庫傳輸?shù)綀D像處理器GPU中,根據(jù)圖像處理器GPU的顯存容 量的大小及參考模板庫的大小選擇不同的存儲器圖像處理器GPU的全局存儲器中存放梅 爾倒譜系數(shù)特征矩陣形成梅爾倒譜系數(shù)特征矩陣匹配模塊,圖像處理器GPU的紋理存儲器 中存放片段向量特征形成向量滑動匹配模塊。
4.根據(jù)權(quán)利要求3所述的一種基于GPU實現(xiàn)的快速音頻檢索方法,其特征在于步驟三 所述的圖像處理器GPU的紋理存儲器中的向量滑動匹配模塊利用音頻片段的特征信息中的片段向量特征進行向量滑動匹配的過程為步驟三1 根據(jù)輸入圖像處理器GPU的音頻片段的個數(shù)進行線程配置,將全部線程分為 線程組;步驟三2 將參考模板庫中的參考模板的片段向量特征傳輸?shù)綄?yīng)線程組內(nèi)每個線程 的共享存儲器中,根據(jù)線程配置為每個線程分配大小相等的結(jié)果保存空間;步驟三3 —個組內(nèi)全部線程從各自對應(yīng)紋理存儲器內(nèi)獲取音頻片段向量,與同一個 參考模板進行向量滑動匹配,獲得匹配結(jié)果。
5.根據(jù)權(quán)利要求3所述的一種基于GPU實現(xiàn)的快速音頻檢索方法,其特征在于步驟三 所述的圖像處理器GPU的紋理存儲器中的向量滑動匹配模塊利用音頻片段的特征信息中 的片段向量特征進行向量滑動匹配的過程為步驟三a 根據(jù)圖像處理器GPU內(nèi)參考模板庫中的參考模板的數(shù)量進行線程配置,一個 參考模板對應(yīng)一個線程塊;步驟三b 將參考模板的片段向量特征傳輸?shù)綄?yīng)線程塊的共享存儲器中,根據(jù)音頻 片段的個數(shù)為每個線程塊分配大小相等的結(jié)果保存空間;步驟三c:一個線程塊內(nèi)全部線程同時從紋理存儲器內(nèi)獲取同一個音頻片段向量,共 同完成與同一個參考模板的向量滑動匹配,獲得匹配結(jié)果。
6.根據(jù)權(quán)利要求4或5所述的一種基于GPU實現(xiàn)的快速音頻檢索方法,其特征在于步 驟五中所述梅爾倒譜系數(shù)特征矩陣匹配方法如下步驟五1 圖像處理器GPU的全局存儲器中輸入兩個i行j列的矩陣,并根據(jù)步驟四記 錄向量滑動匹配結(jié)果的個數(shù)進行分配,得到一個存放中間結(jié)果的j行k列矩陣和一個長度 為k的最終結(jié)果向量的空間;步驟五2 連續(xù)k次調(diào)用圖像處理器GPU計算矩陣各列向量距離的內(nèi)核函數(shù),將所得結(jié) 果向量存放在中間結(jié)果矩陣中相應(yīng)的列;步驟五3 調(diào)用圖像處理器GPU計算矩陣各列向量均值的內(nèi)核函數(shù),得到最終結(jié)果向 量,最終結(jié)果向量的元素表示兩個矩陣的相似度;步驟五4 將記錄的最終結(jié)果向量發(fā)送到中央處理器CPU。
7.根據(jù)權(quán)利要求6所述的一種基于GPU實現(xiàn)的快速音頻檢索方法,其特征在于步驟二 中每組音頻片段的特征信息組大小取2的冪次。
全文摘要
一種基于GPU實現(xiàn)的快速音頻檢索方法。本發(fā)明涉及檢索的方法。本發(fā)明解決了現(xiàn)有基于內(nèi)容音頻檢索方法檢索速度慢的問題。一、判斷圖像處理器GPU中是否有音頻片段的特征信息,否進入步驟二,是進入步驟三;二、預(yù)處理;三、音頻片段向量滑動匹配;四、向量滑動匹配結(jié)果是否大于設(shè)定的第一閾值的結(jié)果,否返回步驟一;是進入步驟五;五、音頻片段梅爾倒譜系數(shù)特征矩陣匹配;六、梅爾倒譜系數(shù)矩陣匹配結(jié)果大于設(shè)定的第二閾值的結(jié)果,否返回步驟一,是判定為匹配成功,對匹配成功的結(jié)果進行相應(yīng)的處理。本方法不僅極大的提高了音頻檢索速度,而且保證了檢索的精確度。
文檔編號G06F17/30GK102033927SQ20101058984
公開日2011年4月27日 申請日期2010年12月15日 優(yōu)先權(quán)日2010年12月15日
發(fā)明者杜艷斌, 韓紀(jì)慶 申請人:哈爾濱工業(yè)大學(xué)