一種基于環(huán)境聲音的場景識別方法及裝置及移動終端的制作方法
【專利摘要】本發(fā)明提供了一種基于環(huán)境聲音的場景識別方法及裝置及移動終端,所述裝置包括:聲音采集模塊、預(yù)處理模塊、特征提取模塊、場景識別模塊、數(shù)據(jù)庫;聲音采集模塊用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊;預(yù)處理模塊用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模塊;特征提取模塊用于從所述頻域信號中提取聲音特征信息;數(shù)據(jù)庫用于存儲不同場景的聲音樣本模型權(quán)重值;識別控制模塊用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。本發(fā)明依靠背景聲音信息作為場景的特征來實(shí)現(xiàn)定位,使移動終端在保持低能耗的狀態(tài)下快速準(zhǔn)確的識別當(dāng)前所在的場景。
【專利說明】一種基于環(huán)境聲音的場景識別方法及裝置及移動終端
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能終端【技術(shù)領(lǐng)域】,尤其涉及基于環(huán)境聲音的場景識別方法及裝置及移動終端。
【背景技術(shù)】
[0002]聲音識別技術(shù)廣泛應(yīng)用于通訊系統(tǒng),例如,在移動通信系統(tǒng)中應(yīng)用聲音識別檢測技術(shù),可以提高系統(tǒng)的流量處理能力。此外,聲音識別技術(shù)被越來越多的應(yīng)用到語音識別的領(lǐng)域,并且技術(shù)已經(jīng)相當(dāng)成熟,如IBM語音識別輸入系統(tǒng)ViaVoice,微軟語音識別系統(tǒng)SpeechSDK 等等。
[0003]隨著智能手機(jī)在日常生活中越來越常見,語音識別也很好的被運(yùn)用到智能手機(jī)中,iphone就發(fā)布了一個(gè)語音識別的應(yīng)用Google Mobile App0該語音搜索的另外一個(gè)改進(jìn)是可以選擇口音了,Google都可以順利識別不同地域性的發(fā)音。
[0004]由于智能手機(jī)的流行,定位技術(shù)也是智能手機(jī)應(yīng)用的一大熱點(diǎn),目前,場景識別問題可以利用已經(jīng)被廣泛研究過的基于天線的定位技術(shù)(例如WIFI,GSM和GPS)來解決。對于室外定位而言,GPS已經(jīng)提供了非常理想的識別精度。但是,對于室內(nèi)定位,當(dāng)前尚未出現(xiàn)一個(gè)理想且全面的定位解決方案。受制于建筑物內(nèi)部的拓?fù)浜蛷?qiáng)烈的電磁干擾等因素,天線信號的強(qiáng)度往往會不規(guī)則的變化,從而使得感知設(shè)備無法進(jìn)行合理的位置推測。研究發(fā)現(xiàn)WIFI信號在一天的不同時(shí)間段內(nèi)波動很大,并且其強(qiáng)度的變化并不均勻,況且我們不能保證WIFI信號在所有環(huán)境中都存在。另一方面,基站的信號在不同時(shí)間上則顯得更加穩(wěn)定。但是由于其部署的不夠密集,其在定位上也遇到了許多困難。另外,這類定位方法往往對基礎(chǔ)設(shè)施的完善有極高的要求。但是對于發(fā)展中區(qū)域而言,這樣的成本無疑太高了?;贕PS,GSM, WIFI信號的定位,在室內(nèi)環(huán)境中不能工作,或者存在較大的定位誤差,不能區(qū)分地理位置上比較近的室內(nèi)場所。
【發(fā)明內(nèi)容】
[0005]本發(fā)明要解決的技術(shù)問題是提供一種基于環(huán)境聲音的場景識別方法及裝置及移動終端,解決移動終端無法識別當(dāng)前所在的場景的問題。
[0006]為了解決上述技術(shù)問題,本發(fā)明提供了一種基于環(huán)境聲音的場景識別裝置,所述裝置包括:聲音采集模塊、預(yù)處理模塊、特征提取模塊、場景識別模塊、數(shù)據(jù)庫;
[0007]所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊;
[0008]所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模塊;
[0009]所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息;
[0010]所述數(shù)據(jù)庫,用于存儲不同場景的聲音樣本模型權(quán)重值;
[0011]所述識別控制模塊,用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。[0012]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0013]所述場景是指不同聲音環(huán)境下的空間場景。
[0014]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0015]所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場景識別模塊、所 述數(shù)據(jù)庫均位于移動終端。
[0016]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0017]所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場景識別模塊均位 于移動終端中,所述數(shù)據(jù)庫位于服務(wù)端設(shè)備。
[0018]進(jìn)一步地,上述裝置還可以具有以下特點(diǎn):
[0019]所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊均位于移動終端中,所述 場景識別模塊和所述數(shù)據(jù)庫位于服務(wù)端設(shè)備;
[0020]所述移動終端還包括場景識別控制模塊,用于接收聲音特征信息并發(fā)送至所述服 務(wù)端設(shè)備,還用于接收所述場景識別模塊輸出的識別結(jié)果。
[0021]為了解決上述技術(shù)問題,本發(fā)明還提供了一種移動終端,包括聲音采集模塊、預(yù)處 理模塊、特征提取模塊、場景識別模塊、數(shù)據(jù)庫;
[0022]所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊;
[0023]所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模 塊;
[0024]所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息;
[0025]所述數(shù)據(jù)庫,用于存儲不同場景的聲音樣本模型權(quán)重值;
[0026]所述場景識別模塊,用于接收所述聲音特征信息,在預(yù)設(shè)模型下輸入所述聲音特 征信息將模型輸出結(jié)果與所述場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信 息對應(yīng)的場景。
[0027]為了解決上述技術(shù)問題,本發(fā)明還提供了一種移動終端,包括聲音采集模塊、預(yù)處 理模塊、特征提取模塊、場景識別模塊;
[0028]所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊;
[0029]所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模 塊;
[0030]所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息;
[0031]所述場景識別模塊,用于接收所述聲音特征信息,還用于從服務(wù)端設(shè)備接收場景 的聲音樣本模型權(quán)重值,在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場景 聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。
[0032]為了解決上述技術(shù)問題,本發(fā)明還提供了一種移動終端,包括聲音采集模塊、預(yù)處 理模塊、特征提取模塊、識別控制模塊;
[0033]所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊;
[0034]所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模 塊;
[0035]所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息;
[0036]所述識別控制模塊,用于接收所述聲音特征信息,將所述聲音特征信息發(fā)送至服務(wù)端設(shè)備,并接收服務(wù)端設(shè)備返回的場景識別結(jié)果。
[0037]為了解決上述技術(shù)問題,本發(fā)明還提供了一種基于環(huán)境聲音的場景識別方法,包括:米集聲音信號;
[0038]將所述聲音信號處理為頻域信號;
[0039]從所述頻域信號中提取聲音特征信息;
[0040]在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。
[0041]進(jìn)一步地,上述方法還可以具有以下特點(diǎn):
[0042]所述場景是指不同聲音環(huán)境下的空間場景。
[0043]本發(fā)明依靠背景聲音信息作為場景的特征來實(shí)現(xiàn)定位,使移動終端在保持低能耗的狀態(tài)下快速準(zhǔn)確的識別當(dāng)前所在的場景。本發(fā)明的場景定位可以與天線位置定位互補(bǔ)并且共同提聞精度的,提聞移動終端性能。
【專利附圖】
【附圖說明】
[0044]圖1是現(xiàn)有技術(shù)中聲音識別的處理流程示意圖;
[0045]圖2是實(shí)施例中基于環(huán)境聲音的場景識別裝置的結(jié)構(gòu)示意圖;
[0046]圖3是實(shí)施例一中場景識別裝置的結(jié)構(gòu)示意圖;
[0047]圖4是實(shí)施例二中場景識別裝置的結(jié)構(gòu)示意圖;
[0048]圖5是實(shí)施例三中場景識別裝置的結(jié)構(gòu)示意圖;
[0049]圖6是具體實(shí)施例中特征向量提取過程示意圖;
[0050]圖7是具體實(shí)施例中場景分類識別模型結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0051]圖1是現(xiàn)有技術(shù)中聲音識別的處理流程示意圖,對聲音進(jìn)行分割以及特征提取后通過分類器對聲音進(jìn)行識別。
[0052]基于環(huán)境聲音的場景識別方法包括:米集聲音信號;將所述聲音信號處理為頻域信號;從所述頻域信號中提取聲音特征信息;在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。
[0053]所述場景是指不同聲音環(huán)境下的空間場景,例如場景是指以下中的一種:食堂、教室、實(shí)驗(yàn)室、宿舍、樓道、羽毛球場、乒乓球場、電梯、會議室、操場和街道。
[0054]如圖2所示,本方案中基于環(huán)境聲音的場景識別裝置包括:聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊(203)、場景識別模塊(204)、數(shù)據(jù)庫(205)。
[0055]聲音米集模塊(201),用于米集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊(202);
[0056]預(yù)處理模塊(202),用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模塊(203);
[0057]特征提取模塊(203),用于從所述頻域信號中提取聲音特征信息;
[0058]數(shù)據(jù)庫(205),用于存儲不同場景的聲音樣本模型權(quán)重值;
[0059]識別控制模塊(204),用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。[0060]預(yù)處理模塊(202)對采集到的聲音信號進(jìn)行采樣,設(shè)定采樣頻率為8000Hz,采集 樣本長度為15s,再對段聲音樣本進(jìn)行分幀操作,每個(gè)幀包含256個(gè)采樣點(diǎn),即每段幀長為 32ms。這樣,原始音頻就會變成468個(gè)長度為32ms的幀。分幀操作的目的在于任何一段聲 音樣本都會隨機(jī)出現(xiàn)一些或大或小的突發(fā)聲音,突發(fā)聲音沒有規(guī)律可言,并不是能夠代表 場景特征的聲音,會導(dǎo)致聲音波形出現(xiàn)較大的毛刺,從而影響聲音識別的準(zhǔn)確率,時(shí)長越短 的音頻波形表現(xiàn)的越發(fā)平穩(wěn)。但是,幀長過短也會導(dǎo)致運(yùn)算成本的增加,即計(jì)算能耗和耗時(shí) 的增加。本方案采用了 32ms做為每一幀的長度,達(dá)到了精確度和計(jì)算成本的平衡。
[0061]特征提取模塊(203)中提取的聲音特征可以是梅爾倒譜系數(shù)(MFCC),例如13維的 MFCC系數(shù)。例如,從每段15s聲音樣本都可以提取出468組13維的特征向量。在計(jì)算出每 一幀的特征向量后,必須要對這468組特征向量進(jìn)行算術(shù)平均。上述將每段聲音樣本分成 長度為32ms的幀是為了消除聲音樣本中的毛刺,但是只對每段音頻分幀還是不能起到消 除毛刺的作用。所以,本方案在對每幀音頻提取特征向量后,必須把這468組特征向量進(jìn)行 算術(shù)平均,從而得到唯一一組13維特征向量。這樣的一組特征向量降低了樣本中的毛刺帶 來的影響,正確的表示了該段場景的特征。
[0062]本方案中的預(yù)設(shè)模型可以是神經(jīng)網(wǎng)絡(luò)等分類模型。
[0063]本方案使用了一個(gè)模式分類領(lǐng)域的算法。該算法分為兩個(gè)部分,訓(xùn)練部分和識別 部分。在訓(xùn)練部分,該算法使用一定規(guī)模的訓(xùn)練集,生成若干個(gè)我們稱之為中間矩陣數(shù)據(jù)集 合。在識別部分,使用這些矩陣與從聲音樣本中提取的特征向量進(jìn)行運(yùn)算,從而獲得最終結(jié) 果,即識別結(jié)果。在開發(fā)的過程中,所述算法的訓(xùn)練部分不需要寫入手機(jī)系統(tǒng),不需要每次 識別都進(jìn)行運(yùn)算,這樣可以很大程度地減少運(yùn)算時(shí)間。所述識別算法使用的訓(xùn)練集采集于 每個(gè)需要識別的場景,每個(gè)場景需要收集160到200段聲音樣本,并對每段聲音樣本提取特 征向量,把這些聲音樣本的特征向量統(tǒng)一作為參數(shù)傳給算法的訓(xùn)練部分,最終得到中間矩 陣。這些中間矩陣存儲于數(shù)據(jù)庫中,供所述算法的識別部分調(diào)用。由于場景識別的準(zhǔn)確率 需要不斷提高,同時(shí)需要識別的場景要不斷進(jìn)行更新,所以,本方案中的分類識別算法所需 要的中間矩陣就需要不斷的更新。隨著場景的更新,該技術(shù)就會擁有更強(qiáng)大的時(shí)效性和可 用性。
[0064]如圖3所示,實(shí)施例一中聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊 (203),場景識別模塊(204)、數(shù)據(jù)庫(205)均位于移動終端內(nèi)。
[0065]如圖4所示,實(shí)施例二中聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊 (203)、場景識別模塊(204)均位于移動終端內(nèi),數(shù)據(jù)庫(205)位于服務(wù)端設(shè)備。
[0066]如圖5所示,實(shí)施例三中聲音采集模塊(201)、預(yù)處理模塊(202)、特征提取模塊 (203)均位于移動終端,場景識別模塊(204)、數(shù)據(jù)庫(205)位于服務(wù)端設(shè)備。移動終端還包 括場景識別控制模塊(206),用于接收聲音特征信息并發(fā)送至服務(wù)端設(shè)備,還用于接收所述 場景識別模塊(204)輸出的識別結(jié)果。
[0067]下面通過具體實(shí)施例進(jìn)行詳細(xì)說明。
[0068]本發(fā)明是基于Android系統(tǒng)開發(fā),選用了一臺智能手機(jī)作為試驗(yàn)機(jī),識別過程包 括以下步驟:
[0069]步驟I,聲音采集過程
[0070]由智能手機(jī)中的麥克風(fēng)進(jìn)行聲音采集集工作,采樣率為8000Hz,采樣編碼為16bit,每段聲音樣本的時(shí)長都是15s。
[0071]步驟2,場景識別過程
[0072]在預(yù)處理過程中,對音頻進(jìn)行分幀處理并將信號從時(shí)域信號轉(zhuǎn)換為頻域信號。實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)幀長為256,即時(shí)長為32ms時(shí),可以得到最高的識別正確率。同時(shí),在每段音頻的開始,都會出現(xiàn)若干個(gè)壞點(diǎn),所以刪去每段音頻最開始的一些采樣點(diǎn),保證留下的音頻采樣點(diǎn)都能顯示出該段音頻的特征。為了節(jié)省更多的硬件空間,可以每分出一個(gè)幀,就把它作為參數(shù)傳給特征提取函數(shù)進(jìn)行計(jì)算。這樣,只需要存儲從每個(gè)幀提取的特征向量,而不需要浪費(fèi)控件用于存儲每個(gè)幀的音頻。
[0073]提取特征的步驟包括:
[0074]步驟2.1,執(zhí)行快速傅里葉變換,將時(shí)域信號變換成頻域信號。
【權(quán)利要求】
1.一種基于環(huán)境聲音的場景識別裝置,其特征在于, 所述裝置包括:聲音采集模塊、預(yù)處理模塊、特征提取模塊、場景識別模塊、數(shù)據(jù)庫; 所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊; 所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息; 所述數(shù)據(jù)庫,用于存儲不同場景的聲音樣本模型權(quán)重值; 所述識別控制模塊,用于在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。
2.如權(quán)利要求1所述的裝置,其特征在于, 所述場景是指不同聲音環(huán)境下的空間場景。
3.如權(quán)利要求1所述的裝置,其特征在于, 所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場景識別模塊、所述數(shù)據(jù)庫均位于移動終端。
4.如權(quán)利要求1所述的裝置,其特征在于, 所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊、所述場景識別模塊均位于移動終端中,所述數(shù)據(jù)庫位于服務(wù)端設(shè)備。
5.如權(quán)利要求1所述的裝置,其特征在于, 所述聲音采集模塊、所述預(yù)處理模塊、所述特征提取模塊均位于移動終端中,所述場景識別模塊和所述數(shù)據(jù)庫位于 服務(wù)端設(shè)備; 所述移動終端還包括場景識別控制模塊,用于接收聲音特征信息并發(fā)送至所述服務(wù)端設(shè)備,還用于接收所述場景識別模塊輸出的識別結(jié)果。
6.一種移動終端,其特征在于, 包括聲音采集模塊、預(yù)處理模塊、特征提取模塊、場景識別模塊、數(shù)據(jù)庫; 所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊; 所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息; 所述數(shù)據(jù)庫,用于存儲不同場景的聲音樣本模型權(quán)重值; 所述場景識別模塊,用于接收所述聲音特征信息,在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。
7.一種移動終端,其特征在于, 包括聲音采集模塊、預(yù)處理模塊、特征提取模塊、場景識別模塊; 所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊; 所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息; 所述場景識別模塊,用于接收所述聲音特征信息,還用于從服務(wù)端設(shè)備接收場景的聲音樣本模型權(quán)重值,在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與所述場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。
8.一種移動終端,其特征在于,包括聲音采集模塊、預(yù)處理模塊、特征提取模塊、識別控制模塊;所述聲音采集模塊,用于采集聲音信號并傳輸?shù)剿鲱A(yù)處理模塊;所述預(yù)處理模塊,用于將所述聲音信號處理為頻域信號并傳輸至所述特征提取模塊; 所述特征提取模塊,用于從所述頻域信號中提取聲音特征信息;所述識別控制模塊,用于接收所述聲音特征信息,將所述聲音特征信息發(fā)送至服務(wù)端設(shè)備,并接收服務(wù)端設(shè)備返回的場景識別結(jié)果。
9.一種基于環(huán)境聲音的場景識別方法,其特征在于,米集聲音信號;將所述聲音信號處理為頻域信號;從所述頻域信號中提取聲音特征信息;在預(yù)設(shè)模型下輸入所述聲音特征信息將模型輸出結(jié)果與場景聲音樣本模型權(quán)重值進(jìn)行匹配,并確定所述聲音特征信息對應(yīng)的場景。
10.如權(quán)利要求9所述的方法,其特征在于,所述場景是指不同聲音環(huán)境下的空間場景。
【文檔編號】G10L25/84GK103456301SQ201210167980
【公開日】2013年12月18日 申請日期:2012年5月28日 優(yōu)先權(quán)日:2012年5月28日
【發(fā)明者】薛濤, 杜軍朝, 劉惠, 劉悅韡, 陳文靖 申請人:中興通訊股份有限公司