本發(fā)明涉及電子技術領域,尤其涉及一種自動調節(jié)音量的方法及終端。
背景技術:
隨著智能電子設備的發(fā)展,智能電子設備給用戶的生活帶來了極大的便利,尤其是智能手機已經成為用戶的生活用品之一。應當理解,用戶常使用手機聽音樂或者觀看視頻,由于播放音樂或者視頻時音量較大而導致用戶常常未聽到或聽清其他人與自身的對話內容而導致信息的錯失或遺漏,而現有手機的音量調節(jié)方式常常是用戶手動操作音量控制面板或者操作物理按鍵來實現調節(jié),因此無法及時地自動調節(jié)音量來及時避免上述情況的發(fā)生。
技術實現要素:
本發(fā)明實施例提供一種自動調節(jié)音量的方法及終端,可以自動調節(jié)音量,減少用戶因視頻或音頻的播放音量過高而導致與他人當面溝通時出現信息的錯失或遺漏的情況。
第一方面,本發(fā)明實施例提供了一種自動調節(jié)音量的方法,上述方法包括:
檢測當前的環(huán)境語音信號;獲取環(huán)境語音信號的特征參數,特征參數用于識別環(huán)境語音信號是否為非噪音信號;根據特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號,語音模型包括非噪音區(qū)域中特征參數的范圍;若為非噪音信號,將當前的音量降低至預設值。
另一方面,本發(fā)明實施例提供了一種終端,該終端包括:檢測單元、采集單元、識別單元、以及控制單元,
檢測單元用于檢測當前的環(huán)境語音信號;采集單元用于獲取環(huán)境語音信號的特征參數,特征參數用于識別環(huán)境語音信號是否為非噪音信號;識別單元用于根據特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號,語音模型包括非噪音區(qū)域中特征參數的范圍;控制單元用于若為非噪音信號,將當前的音量降低至預設值。
本發(fā)明實施例所公開的一種自動調節(jié)音量的方法和終端通過采集環(huán)境語音信號的特征參數來識別環(huán)境語音是否為非噪音信號,若為非噪音信號,則將當前的音量降低至預設值,可以有效地防止用戶因視頻或音頻的播放音量過高而導致信息的錯失或遺漏。
附圖說明
為了更清楚地說明本發(fā)明實施例技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的一種自動調節(jié)音量的方法的示意性流程圖;
圖2是本發(fā)明實施例提供的圖1的子流程的示意圖;
圖3a是本發(fā)明實施例提供的一種特征函數式的函數曲線示意圖;
圖3b是本發(fā)明實施例提供的另一種特征函數式的函數曲線示意圖;
圖4是本發(fā)明實施例提供的一種終端的示意性框圖;
圖5是本發(fā)明實施例提供的圖4中的一種識別單元的示意性框圖;
圖6是本發(fā)明實施例提供的另一種終端的示意性框圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
應當理解,當在本說明書和所附權利要求書中使用時,術語“包括”和“包含”指示所描述特征、整體、步驟、操作、元素和/或組件的存在,但并不排除一個或若干個其它特征、整體、步驟、操作、元素、組件和/或其集合的存在或添加。還應當理解,在此本發(fā)明說明書中所使用的術語僅僅是出于描述特定實施例的目的而并不意在限制本發(fā)明。如在本發(fā)明說明書和所附權利要求書中所使用的那樣,除非上下文清楚地指明其它情況,否則單數形式的“一”、“一個”及“該”意在包括復數形式。
本發(fā)明實施例提供的一種自動調節(jié)的方法,上述方法運行于終端,終端包括但是不限制于任何一種可與用戶進行人機交互的電子產品,例如智能手機(如android手機、ios手機、windowsphone手機等)、平板電能、掌上電能、筆記本電腦、移動互聯(lián)網設備等。以上電子設備僅是舉例,而非窮舉,本發(fā)明實施例提供的終端包括但是不限制于上述電子設備。需要說明的是,本發(fā)明實施例提供的終端應當具有采集環(huán)境語音信號的元件,例如麥克風。
請看圖1,是本發(fā)明實施例提供的一種自動調節(jié)音量的方法的示意性流程圖,應當理解,本發(fā)明實施例所述的自動調節(jié)音量是基于當前在播放音頻或者視頻資源等的前提下進行的。如圖所示,本發(fā)明實施例提供的一種自動調節(jié)音量的方法包括如下s101~s105:
s101,檢測當前的環(huán)境語音信號。
具體的,本發(fā)明實施例優(yōu)選利用麥克風檢測環(huán)境語音信號,其他可行的實施例中可以采用其他電子元件用于檢測環(huán)境語音信號,本發(fā)明實施例對此不進行具體的限定。
s102,獲取環(huán)境語音信號的特征參數,特征參數用于識別環(huán)境語音是否為非噪音信號。
具體的,本實施例中環(huán)境語音信號的類別包括噪音信號和非噪音信號,噪音信號包括環(huán)境噪音信號以及人聲噪音信號,環(huán)境噪音包括工地噪音、車輛噪音、辦公室鍵盤噪音等,人聲噪音包括嘈雜環(huán)境下的對話噪音和安靜環(huán)境下的他人對話噪音,如地鐵等交通工具中嘈雜的對話噪音、辦公室中遠處傳來的同事談話聲音等。應當理解,非噪音信號為非上述噪音信號的語音信號,視非噪音信號是可能與用戶相關的對話語音信號。
優(yōu)選地,獲取到的環(huán)境語音信號的特征參數包括第一特征參數和第二特征參數。其他可行的實施例中,獲取到的環(huán)境語音信號的特征參數可以是一個特征參數或者三個或者三個以上的特征參數。本發(fā)明實施例將以特征參數包括第一特征參數和第二特征參數為例進行說明。
優(yōu)選地,第一特征參數是環(huán)境語音信號的短時過零率;第二特征參數是環(huán)境語音信號的短時平均能量,即第一特征參數是獲取的整個環(huán)境語音信號的短時過零率,第二特征參數是獲取的整個環(huán)境語音信號的短時平均能量。短時過零率表示一幀語音中語音信號波形穿過零電平的次數;短時平均能量表示n時刻語音信號的能量。其中短時過零率zn和短時平均能量的計算公式如下所示:
其中,n是窗長,短時能量平均值為一幀樣點值的加權平均和;sgn[]為符號函數,x(n)≧0時,sgn[x(n)]=1;x(n)<0時,sgn[x(n)]=-1。
應當理解,本實施例中,噪音信號和非噪音信號的短時過零率以及短時平均能量不同進而可以有效地區(qū)分環(huán)境語音信號是噪音信號或者非噪音信號。例如,安靜環(huán)境下的人聲噪音如辦公室環(huán)境下遠處傳來的同事談話的人聲噪音的短時平均能量,其與采集的用戶相關的對話語音信號的短時平均能量不同,這是基于與用戶相關的對話一般發(fā)生于與用戶相隔較近,而遠處的同事談話的語音信號經過傳播已經損耗了能量,因此其短時平均能量不同,進而可以區(qū)分人聲噪音信號和非噪音信號。而在嘈雜環(huán)境下的人聲噪音以及環(huán)境噪音與非噪音的短時過零率和短時平均能量明顯不同,可以較為有效地區(qū)分。
s103,根據特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號,語音模型包括非噪音區(qū)域中特征參數的范圍,若為非噪音信號,執(zhí)行s104,若不為非噪音信號,執(zhí)行s105。
具體的,若獲取的特征參數在非噪音區(qū)域中特征參數的范圍內,則為非噪音信號;若獲取的特征參數在噪音區(qū)域中特征參數的范圍內,則為噪音信號。由于噪音信號和非噪音信號對應的特征參數的范圍不同,而語音模型中包括了噪音區(qū)域中特征參數的范圍以及非噪音區(qū)域中特征參數的范圍,因此根據預設的語音模型可以識別出環(huán)境語音信號是噪音信號還為非噪音信號。需要說明的是,語音模型是根據若干數據樣本訓練而來。
當特征參數僅為一個參數時,語音模型中則包括在噪音區(qū)域和非噪音區(qū)域中該一個特征參數的范圍;若特征參數為兩個或者兩個以上,語音模型則包括在噪音區(qū)域和非噪音區(qū)域中該兩個或者兩個以上的特征參數的范圍,例如一種方式中,非噪音區(qū)域中第一特征參數的范圍為(a1,a2),第二特征參數的范圍(b1,b2),另一種方式中,非噪音區(qū)域中第一特征參數的范圍為(a1,a2),當第一特征參數為a1時,第二特征參數的范圍為(b1,b2),此時非噪音區(qū)域中每個特定的第一特征參數均對應一個第二特征參數的范圍。
s104,將當前的音量降低至預設值,流程結束。
s105,保持當前音量不變,流程結束。
具體的,若為非噪音信號,則表示環(huán)境語音極有可能是與用戶相關的語音,則應當降低當前音量以保證用戶可以及時聽到語音;若不為非噪音信號,則是噪音信號,則可保持當前音量不變。
應當理解,在一些實施例中預設值可以是一個固定值,即不論當前音量是多少均將當前音量降低至一個固定值;在另一些實施例中,預設值可以是與當前音量相關的動態(tài)值,如當前音量的1/3,本發(fā)明對此不進行具體的限定。
綜上所述,本發(fā)明實施例通過特征參數來識別檢測到的環(huán)境語音信號是否為非噪音信號來判斷是否要自動降低當前音量,由于視非噪音信號是與用戶相關的對話語音信號,因此檢測到環(huán)境語音信號為非噪音信號后降低當前音量可以有效地防止用戶因當前音頻或者視頻的播放音量過高而錯失語音信息。另一方面,本發(fā)明實施例優(yōu)選特征參數包括第一特征參數和第二特征參數,且將第一特征參數和第二特征參數相結合用于識別噪音信號和非噪音信號,提高了識別準確性。
優(yōu)選地,s015將當前的音量降低至預設值之前,上述方法還包括:
識別環(huán)境語音信號中是否存在預設的關鍵詞,預設的關鍵詞與用戶相關,用于識別環(huán)境語音是否與用戶相關;以及若存在預設的關鍵詞,再執(zhí)行將當前的音量降低至預設值;若不存在預設的關鍵詞,保持當前音量不變。
具體的,預設的關鍵詞是與用戶相關,例如用戶的名字,昵稱以及職稱等,可以用于表示用戶的身份。識別環(huán)境語音信號中是否有預設的關鍵詞可以進一步地識別環(huán)境語音是否是與用戶相關的,若是與用戶相關,則降低當前音量;若不是與用戶相關,則保持當前音量不變。例如利用該方式可以有效地區(qū)分人聲噪音中發(fā)送于與用戶相隔較近范圍內但是與用戶無關的對話語音以及與用戶相關的對話語音。識別是否存在預設的關鍵詞可以是通過關鍵詞識別(kwr)系統(tǒng),即利用了語音中的能量、倒譜系數等語音特征。
優(yōu)選地,預設的語音模型包括若干個不同場景的語音模型,不同場景可以表示為不同地點的場景,如辦公室、家中、地鐵上,還可以表示為同一地點的不同時間場景,如辦公室中不同時間段:上午上班時,中午休息時,下午上班時。
進而優(yōu)選,s103根據所述特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號之前,上述方法還包括:
獲取當前時間;
根據當前時間以及預存的歷史行為信息識別用戶當前所在場景;
根據當前所在場景從若干個語音模型中查找相匹配的語音模型。
具體的,根據用戶的歷史行為信息分析用戶當前所在場景,如根據工作日的不同時間段識別出用戶在辦公室還是家里或者上下班途中。應當理解,區(qū)分多個不同場景的語音模型是為了更加準確地識別出噪音信號和非噪音信號,這是基于有的不同場景下的噪音信號存在較大差異,同理有點不同場景下的非噪音信號也存在較大差異。
還應當理解,語音模型是根據采集的若干數據樣本得到的數據模型。數據樣本是在噪音環(huán)境下或者非噪音環(huán)境下采集的特征參數。
優(yōu)選地,s102中獲取的特征參數包括第一特征參數和第二特征參數。此時,請看圖2,s103中根據特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號,包括:
s201,根據第一特征參數以及預設的語音模型中特征函數式計算出標準的第二特征參數,特征函數式為第一特征參數與第二特征參數的關系式。
具體的,本實施例中優(yōu)選第一特征參數是環(huán)境語音信號的短時過零率;第二特征參數是環(huán)境語音信號的短時平均能量。此時特征函數式是短時過零率與短時平均能量的關系式,優(yōu)選是多項式函數,這是因為短時過零率與短時平均能量的關系式與多項式函數曲線類似。
在一些實施例中,特征函數式是通過若干噪音情況下的第一特征參數和第二特征參數的數據樣本以及非噪音情況下的第一特征參數和第二特征參數的數據樣本得到的噪音信號和非噪音信號的分界函數,分界函數具體是噪音信號和非噪音信號分界處的第一特征函數與第二特征函數的關系式。例如,如圖3a所示的一種特征函數式的函數曲線圖示意圖,曲線l1是特征函數的坐標曲線示意圖。曲線l1以下包括l1的區(qū)域s1表示為非噪音區(qū)域中第一特征參數與第二特征參數的范圍;曲線l1以上區(qū)域s2為噪音區(qū)域中第一特征參數與第二特征參數的范圍。應當理解,語音模型中根據特征函數式劃分非噪音區(qū)域和噪音區(qū)域的劃分規(guī)則是根據數據樣本推導的。此時根據第一特征參數計算出標準的第二特征參數后,可以根據標準的第二特征參數獲取到噪音區(qū)域和非噪音區(qū)域中的第二特征參數的范圍。
在另一些實施例中,特征函數式是通過若干噪音情況下的第一特征參數和第二特征參數的數據樣本得到的第一特征參數與第二特征參數的關系式或者是若干非噪音情況下的第一特征參數和第二特征參數的數據樣本得到的第一特征參數與第二特征參數的關系式。此時特征函數式具體表示為噪音信號中第一特征參數與第二特征參數的關系式或者非噪音信號中第一特征參數與第二特征參數的關系式。語音模型中根據特征函數式劃分非噪音區(qū)域和噪音區(qū)域中對應的第一特征參數和第二特征參數的范圍的劃分規(guī)則是根據數據樣本推導而來,優(yōu)選地劃分規(guī)則為保持第一特征函數值不變,第二特征函數值增加或者減少預設值來生成非噪音區(qū)域和噪音區(qū)域中第二特征參數的范圍。例如,如圖3b所示的另一種特征函數式的函數曲線圖示意圖,曲線l2為非噪音場景內特征函數的坐標曲線示意圖。第一特征參數為z1時,特征函數式上對應的第二特征參數為e0,此時非噪音區(qū)域中第二特征參數范圍為(e0-△e2,e0+△e1);此時,噪音區(qū)域中第二特征參數的范圍為小于e0-△e2和大于e0+△e1,其中△e2和△e1是根據樣本數據得到,可以相同也可以不同。
s202,根據標準的第二特征參數以及預設規(guī)則獲取非噪音區(qū)域中第二特征參數的范圍。
具體的,本實施例中預設規(guī)則表示語音模型中根據標準的第二特征參數劃分語音模型中噪音區(qū)域和非噪音區(qū)域的劃分規(guī)則。
如圖3a所示的,若特征函數式是分界函數,根據第一特征參數z1計算出標準的第二特征參數e0后,根據標準的第二特征參數e0以及劃分規(guī)則獲取到了非噪音區(qū)域中第二特征參數的范圍為s1即小于或等于e0。
s203,檢測獲取的第二特征參數是否在非噪音區(qū)域中第二特征參數的范圍,若在非噪音區(qū)域中第二特征參數的范圍內,執(zhí)行s204,若不在非噪音區(qū)域中第二特征參數的范圍內,執(zhí)行s205;
s204,環(huán)境語音信號為非噪音信號。
s205,環(huán)境語音信號不為非噪音信號。
同理,若特征參數包括三個或者三個以上,也適用于上述方法來識別環(huán)境語音信號是否為非噪音信號,例如包括三個特征參數時,將其中兩個特征參數按照預設規(guī)則計算出第四特征參數,再訓練出第四特征參數與剩余一個特征參數的特征函數式。
進一步地,由于執(zhí)行自動調節(jié)音量的方法時,語音模型是已經建立好的,為了提高識別的準確性,以防止語音模型不再適用時持續(xù)使用該語音模型的情況發(fā)生,上述方法還包括:
若接收到檢測異常的信息,識別檢測異常的出現頻率是否超過了特定值;
若超過了特定值,根據每次檢測異常時的特征參數計算出當前檢測誤差的預估值;以及根據預估值調節(jié)預設的語音模型的非噪音區(qū)域中特征參數的范圍;
若未超過特定值,不進行處理。
具體的,檢測異常的信息是根據用戶操作而生成的,例如調節(jié)音量顯示提示信息將調節(jié)音量,若用戶并未接受降低音量的請求,則視為一次檢測異?;蛘呓档鸵袅亢笥脩綦S即升高音量也視為檢測異常。應理解檢測是否超過特定值是為了防止檢測異常的事件為偶爾事件的情況下調節(jié)了語音模型。
需要說明的是,檢測誤差的預估值是根據特征參數得出的結果與實際結果的差距得到的。再根據誤差值調節(jié)語音模型中非噪音區(qū)域中特征參數的范圍和噪音區(qū)域中特征參數的范圍,使調整后的語音模型適用于當前場景,提高檢測準確性。
例如,當特征參數包括第一特征參數和第二特征參數時,優(yōu)選檢測誤差的預估值是每次檢測異常時的獲取的第二特征參數與標準的第二特征參數的偏差的平方和,如獲取的第二特征參數與標準的第二特征參數的差值的平方和。此時,優(yōu)選根據預估值調節(jié)預設的語音模型的非噪音區(qū)域中的特征參數的范圍具體是:根據預估值調節(jié)第一特征參數與第二特征參數的特征函數式。
應當理解,通過監(jiān)控檢測異常以及動態(tài)調節(jié)語音模型可以提高檢測準確性。
請看圖4,是本發(fā)明實施例提供的一種終端的示意性框圖,上述自動調節(jié)音量的方法運行于終端,如圖所示,該終端400包括:檢測單元401、采集單元402、識別單元403以及控制單元404。
其中,檢測單元401,用于檢測當前的環(huán)境語音信號。
采集單元402,用于獲取環(huán)境語音信號的特征參數,特征參數用于識別環(huán)境語音是否為非噪音信號。
具體的,本實施例中環(huán)境語音信號的類別包括噪音信號和非噪音信號,噪音信號包括環(huán)境噪音信號以及人聲噪音信號,環(huán)境噪音包括工地噪音、車輛噪音、辦公室鍵盤噪音等,人聲噪音包括嘈雜環(huán)境下的對話噪音和安靜環(huán)境下的他人對話噪音。應當理解,非噪音信號為非上述噪音信號的語音信號,視非噪音信號是可能與用戶相關的對話語音信號。
優(yōu)選地,獲取到的環(huán)境語音信號的特征參數包括第一特征參數和第二特征參數。其他可行的實施例中,獲取到的環(huán)境語音信號的特征參數可以是一個特征參數或者三個或者三個以上的特征參數。本發(fā)明實施例將以特征參數包括第一特征參數和第二特征參數為例進行說明。
優(yōu)選地,第一特征參數是環(huán)境語音信號的短時過零率;第二特征參數是環(huán)境語音信號的短時平均能量,即第一特征參數是獲取的整個環(huán)境語音信號的短時過零率,第二特征參數是獲取的整個環(huán)境語音信號的短時平均能量。短時過零率表示一幀語音中語音信號波形穿過零電平的次數;短時平均能量表示n時刻語音信號的能量。其中短時過零率zn和短時平均能量的計算公式如下所示:
其中,n是窗長,短時能量平均值為一幀樣點值的加權平均和;sgn[]為符號函數,x(n)≧0時,sgn[x(n)]=1;x(n)<0時,sgn[x(n)]=-1。
應當理解,本實施例中,噪音信號和非噪音信號的短時過零率以及短時平均能量不同進而可以有效地區(qū)分環(huán)境語音信號是噪音信號或者非噪音信號。
識別單元403,用于根據特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號,語音模型包括非噪音區(qū)域中特征參數的范圍。
控制單元404,用于若為非噪音信號,將當前的音量降低至預設值;以及還用于,若不為非噪音信號,控制保持當前音量不變。
具體的,若獲取的特征參數在非噪音區(qū)域中特征參數的范圍內,則為非噪音信號;若獲取的特征參數在噪音區(qū)域中特征參數的范圍內,則為噪音信號。由于噪音信號和非噪音信號對應的特征參數的范圍不同,而語音模型中包括了噪音區(qū)域中特征參數的范圍以及非噪音區(qū)域中特征參數的范圍,因此根據預設的語音模型可以識別出環(huán)境語音信號是噪音信號還為非噪音信號。需要說明的是,語音模型是根據若干數據樣本訓練而來。
當特征參數僅為一個參數時,語音模型中則包括在噪音區(qū)域和非噪音區(qū)域中該一個特征參數的范圍;若特征參數為兩個或者兩個以上,語音模型則包括在噪音區(qū)域和非噪音區(qū)域中該兩個或者兩個以上的特征參數的范圍,例如一種方式中,非噪音區(qū)域中第一特征參數的范圍為(a1,a2),第二特征參數的范圍(b1,b2),另一種方式中,非噪音區(qū)域中第一特征參數的范圍為(a1,a2),當第一特征參數為a1時,第二特征參數的范圍為(b1,b2),此時非噪音區(qū)域中每個特定的第一特征參數均對應一個第二特征參數的范圍。
應當理解,在一些實施例中預設值可以是一個固定值,即不論當前音量是多少均將當前音量降低至一個固定值;在另一些實施例中,預設值可以是與當前音量相關的動態(tài)值,如當前音量的1/3,本發(fā)明對此不進行具體的限定。
優(yōu)選地,上述終端400還包括鑒別單元405。
鑒別單元405,用于識別環(huán)境語音信號中是否存在預設的關鍵詞,預設的關鍵詞與用戶相關,用于識別環(huán)境語音是否與用戶相關。
控制單元404,還用于若存在預設的關鍵詞,再將當前的音量降低至預設值;若不存在預設的關鍵詞,控制保持當前音量不變。
具體的,預設的關鍵詞是與用戶相關,例如用戶的名字,昵稱以及職稱等,可以用于表示用戶的身份。識別環(huán)境語音信號中是否有預設的關鍵詞可以進一步地識別環(huán)境語音是否是與用戶相關的,若是與用戶相關,則降低當前音量;若不是與用戶相關,則保持當前音量不變。
優(yōu)選地,預設的語音模型包括若干個不同場景的語音模型,不同場景可以表示為不同地點的場景,如辦公室、家中、地鐵上,還可以表示為同一地點的不同時間場景,如辦公室中不同時間段:上午上班時,中午休息時,下午上班時。進而優(yōu)選上述終端400還包括:獲取單元406、匹配單元407以及查找單元408。
獲取單元406,用于獲取當前時間。
匹配單元407,用于根據當前時間以及預存的歷史行為信息識別用戶當前所在場景。
查找單元408,用于根據當前所在場景從若干個語音模型中查找相匹配的語音模型。
具體的,根據用戶的歷史行為信息分析用戶當前所在場景,如根據工作日的不同時間段識別出用戶在辦公室還是家里或者上下班途中。應當理解,區(qū)分多個不同場景的語音模型是為了更加準確地識別出噪音信號和非噪音信號,這是基于有的不同場景下的噪音信號存在較大差異,同理有點不同場景下的非噪音信號也存在較大差異。
還應當理解,語音模型是根據采集的若干數據樣本得到的數據模型。數據樣本是在噪音環(huán)境下或者非噪音環(huán)境下采集的特征參數。
優(yōu)選地,采集單元402獲取的特征參數包括第一特征參數和第二特征參數。此時,請看圖5,識別單元403包括:計算單元501、收獲單元502以及判斷單元503。
計算單元501,用于根據第一特征參數以及預設的語音模型中特征函數式計算出標準的第二特征參數,特征函數式為第一特征參數與第二特征參數的關系式。
具體的,本實施例中優(yōu)選第一特征參數是環(huán)境語音信號的短時過零率;第二特征參數是環(huán)境語音信號的短時平均能量。此時特征函數式是短時過零率與短時平均能量的關系式,優(yōu)選是多項式函數,這是因為短時過零率與短時平均能量的關系式與多項式函數曲線類似。
在一些實施例中,特征函數式是通過若干噪音情況下的第一特征參數和第二特征參數的數據樣本以及非噪音情況下的第一特征參數和第二特征參數的數據樣本得到的噪音信號和非噪音信號的分界函數,分界函數具體是噪音信號和非噪音信號分界處的第一特征函數與第二特征函數的關系式。例如,如圖3a所示的一種特征函數式的曲線圖示意圖,曲線l1是特征函數的坐標曲線示意圖。曲線l1以下包括l1的區(qū)域s1表示為非噪音區(qū)域中第一特征參數與第二特征參數的范圍;曲線l1以上區(qū)域s2為噪音區(qū)域中第一特征參數與第二特征參數的范圍。應當理解,語音模型中根據特征函數式劃分非噪音區(qū)域和噪音區(qū)域的劃分規(guī)則是根據數據樣本推導的。此時根據第一特征參數計算出標準的第二特征參數后,可以根據標準的第二特征參數獲取到噪音區(qū)域和非噪音區(qū)域中的第二特征參數的范圍。
在另一些實施例中,特征函數式是通過若干噪音情況下的第一特征參數和第二特征參數的數據樣本得到的第一特征參數與第二特征參數的關系式或者是若干非噪音情況下的第一特征參數和第二特征參數的數據樣本得到的第一特征參數與第二特征參數的關系式。此時特征函數式具體表示為噪音信號中第一特征參數與第二特征參數的關系式或者非噪音信號中第一特征參數與第二特征參數的關系式。語音模型中根據特征函數式劃分非噪音區(qū)域和噪音區(qū)域中對應的第一特征參數和第二特征參數的范圍的劃分規(guī)則是根據數據樣本推導而來,優(yōu)選地劃分規(guī)則為保持第一特征函數值不變,第二特征函數值增加或者減少預設值來生成非噪音區(qū)域和噪音區(qū)域中第二特征參數的范圍。例如,如圖3b所示的另一種特征函數式的曲線圖示意圖,曲線l2為非噪音場景內特征函數的坐標曲線示意圖。第一特征參數為z1時,特征函數式上對應的第二特征參數為e0,此時非噪音區(qū)域中第二特征參數范圍為(e0-△e2,e0+△e1);此時,噪音區(qū)域中第二特征參數的范圍為小于e0-△e2和大于e0+△e1,其中△e2和△e1是根據樣本數據得到,可以相同也可以不同。
收獲單元502,用于根據標準的第二特征參數以及預設規(guī)則獲取非噪音區(qū)域中第二特征參數的范圍。
具體的,本實施例中預設規(guī)則表示語音模型中根據標準的第二特征參數劃分語音模型中噪音區(qū)域和非噪音區(qū)域的劃分規(guī)則。
如圖3a所示的,若特征函數式是分界函數,根據第一特征參數z1計算出標準的第二特征參數e0后,根據標準的第二特征參數e0以及劃分規(guī)則獲取到了非噪音區(qū)域中第二特征參數的范圍為s1即小于或等于e0。
例如,如圖3所示的特征函數式的曲線圖示意圖。若所示曲線l是特征函數式的示意圖,根據第一特征參數z1計算出標準的第二特征參數e2,標準的第二特征參數e2分別加減預設數值△e1和△e2而生成非噪音區(qū)域的第二特征參數的范圍,其他范圍為噪音區(qū)域的第二特征參數的范圍,△e1和△e2可以相同也可不同。
判斷單元503,用于檢測獲取的第二特征參數是否在非噪音區(qū)域中第二特征參數的范圍,若在非噪音區(qū)域中第二特征參數的范圍內,環(huán)境語音信號為非噪音信號,若不在非噪音區(qū)域中第二特征參數的范圍內,環(huán)境語音信號不為非噪音信號。
同理,若特征參數包括三個或者三個以上,也適用于上述方法來識別環(huán)境語音信號是否為非噪音信號,例如包括三個特征參數時,將其中兩個特征參數按照預設規(guī)則計算出第四特征參數,再訓練出第四特征參數與剩余一個特征參數的特征函數式。
進一步地,由于執(zhí)行自動調節(jié)音量的方法時,語音模型是已經建立好的,為了提高識別的準確性,以防止語音模型不再適用時持續(xù)使用該語音模型的情況發(fā)生,上述終端400還包括鑒定單元409、運算單元410以及調節(jié)單元411。
其中,鑒定單元409,用于若接收到檢測異常的信息,識別檢測異常的出現頻率是否超過了特定值,其中,若未超過特定值,不進行處理。
運算單元410,用于若超過了特定值,根據每次檢測異常時的特征參數計算出當前檢測誤差的預估值。
調節(jié)單元411,用于根據預估值調節(jié)預設的語音模型的非噪音區(qū)域中特征參數的范圍。
具體的,檢測異常的信息是根據用戶操作而生成的,例如節(jié)音量顯示提示信息將調節(jié)音量,若用戶并未接受降低音量的請求,則視為一次檢測異常或者降低音量后用戶隨即升高音量也視為檢測異常。應理解檢測是否超過特定值是為了防止檢測異常的事件為偶爾事件的情況下調節(jié)了語音模型。
需要說明的是,檢測誤差的預估值是根據特征參數得出的結果與實際結果的差距得到的。再根據誤差值調節(jié)語音模型中非噪音區(qū)域中特征參數的范圍和噪音區(qū)域中特征參數的范圍,使調整后的語音模型適用于當前場景,提高檢測準確性。
例如,當特征參數包括第一特征參數和第二特征參數時,優(yōu)選檢測誤差的預估值是每次檢測異常時的獲取的第二特征參數與標準的第二特征參數的偏差的平方和,如獲取的第二特征參數與標準的第二特征參數的差值的平方和。此時,優(yōu)選根據預估值調節(jié)預設的語音模型的非噪音區(qū)域中的特征參數的范圍具體是:根據預估值調節(jié)第一特征參數與第二特征參數的特征函數式。
應當理解,通過監(jiān)控檢測異常以及動態(tài)調節(jié)語音模型可以提高檢測準確性。
參見圖6,是本發(fā)明實施方式提供的另一種終端的示意框圖。如圖所示的本實施例中的終端600可以包括一個或者若干個處理器601、一個或者若干個輸入裝置602、一個或者若干個輸出裝置603以及存儲器604。上述處理器601、輸入裝置602、輸出裝置603以及存儲器604通過總線連接。
輸入裝置602用于接收輸入的信息。具體實現中,本發(fā)明實施例的輸入裝置602可包括鍵盤、鼠標、光電輸入裝置、聲音輸入裝置、觸摸式輸入裝置、掃描儀、麥克風等。
輸出裝置603用于對外輸出信息給用戶。具體實現中,本發(fā)明實施例的輸出裝置603可包括顯示器、揚聲器、打印機等。
存儲器604用于存儲帶有各種功能的程序數據,具體實現中,本發(fā)明實施例的存儲器604可以是系統(tǒng)存儲器,比如,揮發(fā)性的(諸如ram),非易失性的(諸如rom,閃存等),或者兩者的結合。具體實現中,本發(fā)明實施例的存儲器604還可以是系統(tǒng)之外的外部存儲器,比如,磁盤、光盤、磁帶等。
處理器601用于調用存儲器604中存儲的程序數據即執(zhí)行存儲器604存儲的指令,并執(zhí)行如下操作:
檢測當前的環(huán)境語音信號;獲取環(huán)境語音信號的特征參數,特征參數用于識別環(huán)境語音是否為非噪音信號;根據特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號,語音模型包括非噪音區(qū)域中特征參數的范圍,若為非噪音信號,將當前的音量降低至預設值,若不為非噪音信號,保持當前音量不變。
優(yōu)選地,處理器601將當前的音量降低至預設值之前,并具體執(zhí)行如下操作:
識別環(huán)境語音信號中是否存在預設的關鍵詞,預設的關鍵詞與用戶相關,用于識別環(huán)境語音是否與用戶相關;以及若存在預設的關鍵詞,再執(zhí)行將當前的音量降低至預設值;若不存在預設的關鍵詞,保持當前音量不變。
優(yōu)選地,處理器601根據所述特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號之前,并具體執(zhí)行如下操作:
獲取當前時間;根據當前時間以及預存的歷史行為信息識別用戶當前所在場景;以及根據當前所在場景從若干個語音模型中查找相匹配的語音模型。
優(yōu)選地,s102中獲取的特征參數包括第一特征參數和第二特征參數,處理器601根據特征參數以及預設的語音模型識別環(huán)境語音信號是否為非噪音信號時,并具體執(zhí)行如下操作:
根據第一特征參數以及預設的語音模型中特征函數式計算出標準的第二特征參數,特征函數式為第一特征參數與第二特征參數的關系式;根據標準的第二特征參數以及預設規(guī)則獲取非噪音區(qū)域中第二特征參數的范圍;檢測獲取的第二特征參數是否在非噪音區(qū)域中第二特征參數的范圍,若在非噪音區(qū)域中第二特征參數的范圍內,環(huán)境語音信號為非噪音信號,若不在非噪音區(qū)域中第二特征參數的范圍內,環(huán)境語音信號不為非噪音信號。
進一步地,由于執(zhí)行自動調節(jié)音量的方法時,語音模型是已經建立好的,為了提高識別的準確性,以防止語音模型不再適用時持續(xù)使用該語音模型的情況發(fā)生,處理器601還執(zhí)行如下操作:
若接收到檢測異常的信息,識別檢測異常的出現頻率是否超過了特定值;
若超過了特定值,根據每次檢測異常時的特征參數計算出當前檢測誤差的預估值;以及根據預估值調節(jié)預設的語音模型的非噪音區(qū)域中特征參數的范圍;
若未超過特定值,不進行處理。
應當理解,在本發(fā)明實施例中,所稱處理器601可以是中央第一處理單元(centralprocessingunit,cpu),該處理器601還可以是其他通用處理器、數字信號處理器(digitalsignalprocessor,dsp)、專用集成電路(applicationspecificintegratedcircuit,asic)、現成可編程門陣列(field-programmablegatearray,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。
需要說明的是,本發(fā)明實施例方法中的步驟可以根據實際需要進行順序調整、合并和刪減。
本發(fā)明實施例終端中的單元可以根據實際需要進行合并、劃分和刪減。
所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的終端和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。在本申請所提供的幾個實施例中,應該理解到,所揭露的終端和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如若干個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口、裝置或單元的間接耦合或通信連接,也可以是電的,機械的或其它的形式連接。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個第一處理單元中,也可以是各個單元單獨物理存在,也可以是兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現有技術做出貢獻的部分,或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述,為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到各種等效的修改或替換,這些修改或替換都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應以權利要求的保護范圍為準。