本發(fā)明涉及語音識別領域,尤其涉及一種語音采集方法及裝置。
背景技術:
隨著物聯(lián)網的發(fā)展,近年來,人們的工作逐漸向趨于智能化發(fā)展,例如依托智能設備搭建的智能家居、智能辦公等。現(xiàn)有的智能設備的控制方式主要包括輸入式控制和自動控制,其中自動控制主要依托傳感器采集信號并控制相應的設備,例如利用光傳感器采集環(huán)境亮度信息以調節(jié)照明度等,這種控制方式較為呆板,只能按照預設程序進行調節(jié),無法滿足使用者靈活多變的需求。現(xiàn)有的輸入式控制主要包括直接在終端上的輸入式控制,例如通過手機、平板電腦上的app進行操控,但是這種控制方式較為麻煩;而輸入式控制還包括語音控制,即識別采集到的語音信號,并進行控制,典型的語音控制為蘋果公司的siri和微軟公司的cortana?,F(xiàn)有的語音控制方式仍存在一定缺陷,現(xiàn)有的語音識別設備識別距離短,采集效果差,一般來說,現(xiàn)有的語音識別設備工作范圍一般在3米以內,所以使用過程中,需要靠近語音識別設備才能完成語音采集,給使用帶來較多不便。
技術實現(xiàn)要素:
本發(fā)明的主要目的在于提供一種語音采集方法及裝置,旨在提高語音信號的采集范圍和質量。
為實現(xiàn)上述目的,本發(fā)明提供的一種語音采集方法,所述語音采集方法應用于分布式語音系統(tǒng),所述分布式語音系統(tǒng)包括一個中心終端和至少一個附屬終端,所述中心終端和附屬終端內設有聲音采集模塊和功能芯片,所述附屬終端通過電力線與中心終端通信相連,所述語音采集方法包括以下步驟:
獲取所述中心終端和附屬終端基于聲音采集模塊采集的有效語音信號;
判斷采集的有效語音信號的數(shù)量是否大于1;
若采集的有效語音信號的數(shù)量大于1,則在所述有效語音信號中選擇最優(yōu)信號確認為輸入信號;
若采集的有效語音信號的數(shù)量為1,則將該有效語音信號確認為輸入信號。
優(yōu)選的,所述獲取所述中心終端和附屬終端基于聲音采集模塊采集的有效語音信號的步驟包括:
中心終端和附屬終端基于聲音采集模塊采集語音信號;
將音量大于第一預設值的語音信號確認為有效語音信號,并獲取所述有效語音信號的核心信息,其中,所述核心信息包括語音信號的聲紋、開始時間、結束時間和語音音量;
將所述附屬終端采集的有效語音信號的核心信息通過電力線載波通信發(fā)送至所述中心終端。
優(yōu)選的,所述判斷采集到語音信號的數(shù)量是否大于1包括:
依據(jù)核心信息獲取具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量;
判斷所述具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量是否大于1。
優(yōu)選的,所述在所述語音信號中選擇最優(yōu)信號確認為輸入信號具體包括:
將具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號中語音音量最大的語音信號確認為輸入信號。
優(yōu)選的,所述語音采集方法還包括:
當檢測到輸入信號時,解析所述輸入信號;
依據(jù)解析結果判斷所述輸入信號是否為預設語音指令;
當所述輸入信號為預設語音指令時,執(zhí)行所述語音指令。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種語音采集裝置,所述語音采集裝置應用于分布式語音系統(tǒng),所述分布式語音系統(tǒng)包括一個中心終端和至少一個附屬終端,所述中心終端和附屬終端內設有聲音采集模塊和功能芯片,所述附屬終端通過電力線與中心終端通信相連,所述語音采集裝置包括:
獲取模塊,用于獲取所述中心終端和附屬終端基于聲音采集模塊采集的有效語音信號;
第一判斷模塊,用于判斷采集的有效語音信號的數(shù)量是否大于1;
第一確認模塊,用于在采集的有效語音信號的數(shù)量大于1時,在所述有效語音信號中選擇最優(yōu)信號確認為輸入信號;
第二確認模塊,用于在采集的有效語音信號的數(shù)量為1時,將該有效語音信號確認為輸入信號。
優(yōu)選的,所述中心終端和附屬終端基于聲音采集模塊采集語音信號;
所述獲取模塊包括:
確認單元,用于將音量大于第一預設值的語音信號確認為有效語音信號,并獲取所述有效語音信號的核心信息,其中,所述核心信息包括語音信號的聲紋、開始時間、結束時間和語音音量;
發(fā)送單元,用于將所述附屬終端采集的有效語音信號的核心信息通過電力線載波通信發(fā)送至所述中心終端。
優(yōu)選的,所述第一判斷模塊包括:
獲取單元,用于依據(jù)核心信息獲取具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量;
判斷單元,用于判斷所述具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量是否大于1。
優(yōu)選的,所述在第一確認模塊用于:
在采集的有效語音信號的數(shù)量大于1時,將具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號中語音音量最大的語音信號確認為輸入信號。
優(yōu)選的,所述語音采集裝置包括:
解析模塊,用于在檢測到輸入信號時,解析所述輸入信號;
第二判斷模塊,用于依據(jù)解析結果判斷所述輸入信號是否為預設語音指令;
執(zhí)行模塊,用于在所述輸入信號為預設語音指令時,執(zhí)行所述語音指令。
本發(fā)明的語音采集方法,所述語音采集方法應用于分布式語音系統(tǒng),所述分布式語音系統(tǒng)包括一個中心終端和至少一個附屬終端,所述中心終端和附屬終端內設有聲音采集模塊和功能芯片,所述附屬終端通過電力線與中心終端通信相連,所述語音采集方法包括以下步驟:獲取所述中心終端和附屬終端基于聲音采集模塊采集的有效語音信號;判斷采集的有效語音信號的數(shù)量是否大于1;若采集的有效語音信號的數(shù)量大于1,則在所述有效語音信號中選擇最優(yōu)信號確認為輸入信號;若采集的有效語音信號的數(shù)量為1,則將該有效語音信號確認為輸入信號。本發(fā)明通過設置中心終端和附屬終端,提高了語音采集的范圍,同時,在采集到多個語音信號的時候,通過篩選確認最優(yōu)信號,提高了語音信號采集的質量。
附圖說明
圖1為本發(fā)明分布式語音系統(tǒng)實施例的結構示意圖;
圖2為本發(fā)明語音采集方法第一實施例的流程示意圖;
圖3為本發(fā)明語音采集方法第二實施例的流程示意圖;
圖4為本發(fā)明語音采集裝置第一實施例的功能模塊示意圖;
圖5為本發(fā)明語音采集裝置第二實施例的功能模塊示意圖;
圖6為本發(fā)明語音采集裝置第三實施例的功能模塊示意圖。
本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結合實施例,參照附圖做進一步說明。
具體實施方式
應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供的一種語音采集方法。
該語音采集方法應用于分布式語音系統(tǒng)中,如圖1所示,在一實施例中,所述分布式語音系統(tǒng)包括一個中心終端100和至少一個附屬終端200,所述中心終端100和附屬終端200內設有聲音采集裝置和控制芯片,所述控制芯片用于識別語音信號和建立通信連接,所述附屬終端200通過電力線通信與所述中心終端100相連。
本發(fā)明實施例的技術方案是基于分布式語音系統(tǒng)實現(xiàn)的,應當理解的是,具體使用過程中,應當根據(jù)設置場所的面積、結構和環(huán)境來設定終端的位置和數(shù)量。在本實施例中,語音采集終端包括一個中心終端100和六個附屬終端200,中心終端100和附屬終端200的結構和功能基本相同,主要包括聲音采集裝置,一般為話筒,為了提高用戶體驗,在某些實施例中,還在語音采集終端中設置了音箱,可以用于播放音樂及作出語音回復等。附屬終端200通過電力線通信與中心終端100相連,電力線通信(powerlinecommunication,英文簡稱plc)是指利用電力線傳輸數(shù)據(jù)和媒體信號的一種通信方式,該技術是把載有信息的高頻加載于電流然后用電線傳輸接受信息的適配器再把高頻從電流中分離出來并傳送到計算機或電話以實現(xiàn)信息傳遞。中心終端100和附屬終端200的不同之處之一在于中心終端100需要支持其他通信方式,其應當支持藍牙、wifi連接、紅外數(shù)據(jù)傳輸和網線接口等數(shù)據(jù)傳輸方式中的至少一種,用以將采集到的語音信號發(fā)送至上位機,其中上位機可以為計算機,在某些實施例中,考慮到計算機可能處于關機狀態(tài),還可以以云服務器、智能冰箱等24小時持續(xù)工作的設備作為具有控制功能的上位機。本實施例的技術方案通過將附屬終端200和中心終端100利用電力線通信連接可以避免占用網關中的wlan流量,避免影響用戶的上網體驗,同時只要有插座的地方就可以設置語音采集終端,也有效的提高了語音信號的采集范圍。
如圖2所示,在本實施例中的某些具體實施方式中,設置了四個附屬終端200和一個中心終端100以覆蓋整個房間,其中中心終端100設置于書房中,在兩個臥室、客廳和廚房中各設置了一個附屬終端200。在其他一些具體實施方式中,在面積較大的客廳中,為了更好的采集語音輸入信號,設置了兩個附屬終端200;在環(huán)境相對吵雜的臨街臥室里,守環(huán)境噪聲影響,語音采集終端的有效工作范圍會有一定程度上的減小,因此也可以設置兩個附屬終端200,在另一臥室和廚房中各設有一個附屬終端200,在環(huán)境相對安靜的書房中,設置了一個中心終端100,所述附屬終端200通過電力線通信與中心終端100相連,所述中心終端100通過wifi網絡連接至家庭網關,并與計算機相連。由于所述中心終端100和附屬終端200必須設置于插座上,所以所述中心終端100和附屬終端200一般來說均設置于墻體上,但是墻體會隔絕部分區(qū)域的覆蓋,可以考慮合理利用門口以增加覆蓋范圍,減少信號損失。同時,至于某些覆蓋死角可以合理設置衣柜、冰箱等大件家具,實現(xiàn)對整個目標區(qū)域的合理覆蓋。所述計算機與房屋中的智能設備相連,其中智能設備包括但不限于智能電視、智能冰箱、智能照明系統(tǒng)、智能窗簾、智能洗衣機和掃地機器人等設備。
下面基于上述實施例中的分布式語音系統(tǒng)提出本發(fā)明語音采集方法的第一實施例。如圖3所示,在該實施例中,所述方法包括以下步驟:
s100、獲取所述中心終端100和附屬終端200基于聲音采集模塊采集的有效語音信號;
本實施例的技術方案中,中心終端100和附屬終端200始終采集環(huán)境的聲音信息,當采集到周圍環(huán)境的聲音信息之后,經過控制芯片的識別和分析過濾掉其中的噪聲和背景聲音,并識別其中的語音信號。具體的,可以根據(jù)預設規(guī)則對采集到的聲音進行過濾。例如,智能電視所播放的節(jié)目中演員的說話聲音也可能被識別為語音信號,但是采集這種語音信號并沒有意義,因此可通過與該智能電視相連的上位機設定相應的控制程序將智能電視的音響中的聲音直接從語音采集終端采集到的聲音中過濾掉。
s200、判斷采集到語音信號的數(shù)量是否大于1;若是,則執(zhí)行s210步驟,若否則執(zhí)行s220步驟;
應當理解的是,由于語音采集終端的位置設置關系和性能的關系,導致可能存在部分語音采集終端采集了同樣的語音信號。因此,本實施例的技術方案中進一步判斷采集到的語音信號的數(shù)量,該采集到的語音信號的數(shù)量也就是采集到該語音信號的語音采集終端的數(shù)量。
s210、若采集的有效語音信號的數(shù)量大于1,則在所述有效語音信號中選擇最優(yōu)信號確認為輸入信號;
s220、若采集的有效語音信號的數(shù)量為1,則將該有效語音信號確認為輸入信號。
由于分布式語音系統(tǒng)在設置時已經覆蓋了目標區(qū)域的主要范圍,因此在正常使用過程中,當有多個語音采集終端采集到語音信號時,證明聲音源處于多個語音采集終端的交匯處,此時將其中最優(yōu)信號確認為輸入信號,應當注意的是,本實施例中的最優(yōu)是一個綜合評定的結果,具體從語音信號的完整程度、清晰度等因素評定;如果僅采集到一個語音信號,則在正常狀態(tài)下,證明該語音信號的聲音源處于某個語音采集終端的最佳工作范圍內,則可直接將該語音信號確認為輸入信號。
本實施例的技術方案通過設置中心終端100和多個附屬終端200,同時,本實施例中的附屬終端200和中心終端100基于電力線通信連接,只要有電源插座的地方就能設置附屬終端200或中心終端100,提高了適用性和覆蓋范圍,同時也避免使用wifi等占用局域網關帶寬的連接方式,可以減少對網絡連接速度的影響。進一步的,通過判斷采集到的語音信號的數(shù)量,并在采集到多個語音信號時將其中最優(yōu)信號確認為輸入信號,提高了語音信號采集結果的質量。
請參閱圖4,下面基于上述實施例提出本發(fā)明語音采集方法的第二實施例。在該實施例中,所述步驟s100包括:
s101、中心終端100和附屬終端200基于聲音采集模塊采集語音信號;
s102、將音量大于第一預設值的語音信號確認為有效語音信號,并獲取所述有效語音信號的核心信息,其中,所述核心信息包括語音信號的聲紋、開始時間、結束時間和語音音量;
s103、將所述附屬終端200采集的有效語音信號的核心信息通過電力線載波通信發(fā)送至所述中心終端100。
應當理解是,如果對所有的聲音信息進行采集分析,則會耗費過多的資源對采集到的聲音信號進行除噪,因此本實施例的技術方案設定了第一預設值,并只對單位時間內音量大于該第一預設值的語音信號進行分析。該第一預設值的設定可以是具體的數(shù)值。在一具體實施方式中,所述第一預設值被設定為48分貝,具體的,在0.1s內平均音量超過48分貝時認為可能是用戶發(fā)出的語音指令;但是考慮到一般消費者對于音量大小的衡量并無一準確概念,在又一具體實施方式中,使用者在作為上位機的計算機中點擊測試按鈕,然后以某音量發(fā)出聲音,語音采集終端采集到該聲音后,以該聲音的音量數(shù)值下浮10%作為第一預設值。
當語音信號的音量大于第一預設值時,則該語音信號可能是一個語音控制命令,本實施例中進一步提取該語音信號的核心信息,包括語音信號的聲紋、開始時間、結束時間和語音音量。在一具體實施方式中,附屬終端200在接收語音0.2s后分析出聲紋特征、統(tǒng)計平均音量大小兩項關鍵信息,其中平均音量按每30ms取樣一次然后求平均值得到。在某些具體實施方式中,提取到的聲紋信息還用于作為確認該信號是否為有效語音信號的條件之一,在這些具體實施方式中,只有在系統(tǒng)中獲得備案的聲紋才會被確認為有效語音信號。
每一附屬終端200將監(jiān)聽到的語音的核心信息發(fā)送至中心終端100,并在中心終端100內匯總處理。
在本發(fā)明語音采集方法基于上述實施例的第三實施例中,所述判斷采集到語音信號的數(shù)量是否大于1具體包括:
s201、依據(jù)核心信息獲取具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量;
s202、判斷所述具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量是否大于1。
本實施例的技術方案中,在首次接收到來自語音采集終端的語音信號后,為此次監(jiān)聽事件標記一初始標記代碼,例如init_id,然后分析后續(xù)的預設時長內,例如0.1秒內,是否有聲紋、開始時間、結束時間等核心信息相同或基本相同的語音信號,并統(tǒng)計為具有相同核心信息的語音信號數(shù)量。因為首次采集到的語音信號必然來自距離最近的附屬終端200或中央采集終端,以聲速340米/計算,如果在0.1秒以后采集到的語音信號,那么采集到該聲音信號的語音采集終端至少在34米以外,一般來說,在辦公室及家庭環(huán)境中不會出現(xiàn)大于該距離,即使存在,由于距離過遠,其采集的語音信號已經無參考價值,在較近距離上,也必然存在更優(yōu)的語音采集終端,因此,本實施例的技術方案中將在初次接收到響應0.1秒以后接收到的相似語音信號均確認為無效監(jiān)聽信號。
下面基于上述實施例提出本申請語音采集方法的第四實施例。在本實施例中,所述步驟s210包括:
將具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號中語音音量最大的語音信號確認為輸入信號。
一般來說,由于覆蓋范圍的限制,能夠有效的接收同一語音信號的語音采集終端的數(shù)量并不會太多,為了保證語音信號采集效果,同時也避免增加系統(tǒng)負載,本實施例中僅選擇平均音量最大的兩個附屬終端200采集的語音信號和中心終端100采集的語音信號進行對比。其中,中心終端100采集的語音信號的音量應當大于所述第一預設值,否則也不參與對比。
在本實施例的技術方案中,每經過單位時間,例如一秒,所選定的附屬終端200向中心終端100發(fā)送一次包含采集到的信號的核心信息的報告,該核心信息可以為完整的核心信息,也可以僅包含本段語音的平均音量。該報告發(fā)送時間持續(xù)至語音結束或持續(xù)至預設截止時長為止。應當理解的是,由于可能出現(xiàn)突發(fā)的外在噪聲,所以可能導致某個時刻的音量增大,本實施例中通過兩種方式過濾這種突發(fā)的大音量噪聲,一方面,本實施例中對有效語音信號的聲紋信息進行識別,僅將具有相同聲紋的有效語音信號進行對比;另一方面,還通過對每一單位時間采集的語音信號的平均音量作為評估因素,避免因為某一時刻的語音音量過大而提高了對該語音信號整體的音量評估。本實施例中,該預設截止時長定義為八秒,根據(jù)經驗,一條語音命令的持續(xù)時間不會長于八秒,如果語音命令的持續(xù)時間過長,會嚴重降低識別的成功率。
本實施例中,進一步以下經驗公式評估每個終端采集到的語音信號的質量。
f=ave*rq-r1*σ/ave
其中f為語音的總得分,總得分越高表示越優(yōu)質。ave是整段語音的平均音量,單位是分貝,將之前終端提供的每一小段語音平均音量求平均值得到。rq是音質系數(shù),根據(jù)音箱的音質好壞而定;本實施例中,中心終端100的音質系數(shù)為1.2,附屬終端200的音質系數(shù)為1,因為一般來說,中心終端100的結構更加復雜,成本更高,所以用料和質量相對較好;r1是音量方差系數(shù),本實施例中為10;σ是對之前終端提供的每一小段語音平均音量組成的數(shù)據(jù)列表求得的標準差。其計算公式是
其中σ表示標準差,n表示小段語音的數(shù)目,xi表示第i個小段語音的平均音量,μ為整段語音的平均音量。
在基于上述實施例的第五實施例中,優(yōu)選的,還包括步驟:
s300、當檢測到輸入信號時,解析所述輸入信號;
s400、依據(jù)解析結果判斷所述輸入信號是否為預設語音指令;
s500、當所述輸入信號為預設語音指令時,執(zhí)行所述語音指令。
應當理解的是,在確認輸入信號后,則應當解析該輸入信號,并判斷該輸入信號是否為預設的語音指令,如果該輸入信號為預設語音指令,例如查詢天氣、告知股票行情、回答今天有沒有行程安排等,如果是則執(zhí)行所述預設語音指令,如果不是支持的預設語音指令則可以檢測所述步驟s210中是否由于預設截止時間設置的過短導致未將語音信號接收完全,顯然,為了減少系統(tǒng)負載,還可以選擇直接退出本次語音識別并清空緩存數(shù)據(jù)以等待其他輸入語音信號。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種語音采集裝置。
如圖1所示,在一實施例中,所述分布式語音系統(tǒng)包括一個中心終端100和至少一個附屬終端200,所述中心終端100和附屬終端200內設有聲音采集裝置和控制芯片,所述控制芯片用于識別語音信號和建立通信連接,所述附屬終端200通過電力線通信與所述中心終端100相連。
本發(fā)明實施例的技術方案是基于分布式語音系統(tǒng)實現(xiàn)的,應當理解的是,具體使用過程中,應當根據(jù)設置場所的面積、結構和環(huán)境來設定終端的位置和數(shù)量。在本實施例中,語音采集終端包括一個中心終端100和六個附屬終端200,中心終端100和附屬終端200的結構和功能基本相同,主要包括聲音采集裝置,一般為話筒,為了提高用戶體驗,在某些實施例中,還在語音采集終端中設置了音箱,可以用于播放音樂及作出語音回復等。附屬終端200通過電力線通信與中心終端100相連,電力線通信(powerlinecommunication,英文簡稱plc)是指利用電力線傳輸數(shù)據(jù)和媒體信號的一種通信方式,該技術是把載有信息的高頻加載于電流然后用電線傳輸接受信息的適配器再把高頻從電流中分離出來并傳送到計算機或電話以實現(xiàn)信息傳遞。中心終端100和附屬終端200的不同之處之一在于中心終端100需要支持其他通信方式,其應當支持藍牙、wifi連接、紅外數(shù)據(jù)傳輸和網線接口等數(shù)據(jù)傳輸方式中的至少一種,用以將采集到的語音信號發(fā)送至上位機,其中上位機可以為計算機,在某些實施例中,考慮到計算機可能處于關機狀態(tài),還可以以云服務器、智能冰箱等24小時持續(xù)工作的設備作為具有控制功能的上位機。本實施例的技術方案通過將附屬終端200和中心終端100利用電力線通信連接可以避免占用網關中的wlan流量,避免影響用戶的上網體驗,同時只要有插座的地方就可以設置語音采集終端,也有效的提高了語音信號的采集范圍。
如圖2所示,在本實施例中的某些具體實施方式中,設置了四個附屬終端200和一個中心終端100以覆蓋整個房間,其中中心終端100設置于書房中,在兩個臥室、客廳和廚房中各設置了一個附屬終端200。在其他一些具體實施方式中,在面積較大的客廳中,為了更好的采集語音輸入信號,設置了兩個附屬終端200;在環(huán)境相對吵雜的臨街臥室里,守環(huán)境噪聲影響,語音采集終端的有效工作范圍會有一定程度上的減小,因此也可以設置兩個附屬終端200,在另一臥室和廚房中各設有一個附屬終端200,在環(huán)境相對安靜的書房中,設置了一個中心終端100,所述附屬終端200通過電力線通信與中心終端100相連,所述中心終端100通過wifi網絡連接至家庭網關,并與計算機相連。由于所述中心終端100和附屬終端200必須設置于插座上,所以所述中心終端100和附屬終端200一般來說均設置于墻體上,但是墻體會隔絕部分區(qū)域的覆蓋,可以考慮合理利用門口以增加覆蓋范圍,減少信號損失。同時,至于某些覆蓋死角可以合理設置衣柜、冰箱等大件家具,實現(xiàn)對整個目標區(qū)域的合理覆蓋。所述計算機與房屋中的智能設備相連,其中智能設備包括但不限于智能電視、智能冰箱、智能照明系統(tǒng)、智能窗簾、智能洗衣機和掃地機器人等設備。
下面基于上述實施例中的分布式語音系統(tǒng)提出本發(fā)明語音采集裝置的第一實施例。如圖5所示,在該實施例中,所述裝置包括:
獲取模塊10,用于獲取所述中心終端100和所述附屬終端200采集的語音信號。
第一判斷模塊20,用于判斷采集到語音信號的數(shù)量是否大于1。
本實施例的技術方案中,中心終端100和附屬終端200始終采集環(huán)境的聲音信息,當采集到周圍環(huán)境的聲音信息之后,經過控制芯片的識別和分析過濾掉其中的噪聲和背景聲音,并識別其中的語音信號。具體的,可以根據(jù)預設規(guī)則對采集到的聲音進行過濾。例如,智能電視所播放的節(jié)目中演員的說話聲音也可能被識別為語音信號,但是采集這種語音信號并沒有意義,因此可通過與該智能電視相連的上位機設定相應的控制程序將智能電視的音響中的聲音直接從語音采集終端采集到的聲音中過濾掉。
第一確認模塊30,用于在采集到語音信號的數(shù)量大于1時,在所述語音信號中選擇最優(yōu)信號確認為輸入信號。
應當理解的是,由于語音采集終端的位置設置關系和性能的關系,導致可能存在部分語音采集終端采集了同樣的語音信號。因此,本實施例的技術方案中進一步判斷采集到的語音信號的數(shù)量,該采集到的語音信號的數(shù)量也就是采集到該語音信號的語音采集終端的數(shù)量。
第二確認模塊40,用于在采集到語音信號的數(shù)量不大于1時,將所述語音信號確認為輸入信號。
由于分布式語音系統(tǒng)在設置時已經覆蓋了目標區(qū)域的主要范圍,因此在正常使用過程中,當有多個語音采集終端采集到語音信號時,證明聲音源處于多個語音采集終端的交匯處,此時將其中最優(yōu)信號確認為輸入信號,應當注意的是,本實施例中的最優(yōu)是一個綜合評定的結果,具體從語音信號的完整程度、清晰度等因素評定;如果僅采集到一個語音信號,則在正常狀態(tài)下,證明該語音信號的聲音源處于某個語音采集終端的最佳工作范圍內,則可直接將該語音信號確認為輸入信號。
本實施例的技術方案通過設置中心終端100和多個附屬終端200,同時,本實施例中的附屬終端200和中心終端100基于電力線通信連接,只要有電源插座的地方就能設置附屬終端200或中心終端100,提高了適用性和覆蓋范圍,同時也避免使用wifi等占用局域網關帶寬的連接方式,可以減少對網絡連接速度的影響。進一步的,通過判斷采集到的語音信號的數(shù)量,并在采集到多個語音信號時將其中最優(yōu)信號確認為輸入信號,提高了語音信號采集結果的質量。
下面基于上述實施例提出本發(fā)明語音采集裝置的第二實施例。請參閱圖6,在該實施例中,所述獲取模塊10包括:
確認單元11,用于將音量大于第一預設值的語音信號確認為有效語音信號,并獲取所述有效語音信號的核心信息,其中,所述核心信息包括語音信號的聲紋、開始時間、結束時間和語音音量。
發(fā)送單元12,用于將所述附屬終端200采集的有效語音信號的核心信息通過電力線載波通信發(fā)送至所述中心終端100。
應當理解是,如果對所有的聲音信息進行采集分析,則會耗費過多的資源對采集到的聲音信號進行除噪,因此本實施例的技術方案設定了第一預設值,并只對單位時間內音量大于該第一預設值的語音信號進行分析。該第一預設值的設定可以是具體的數(shù)值。在一具體實施方式中,所述第一預設值被設定為48分貝,具體的,在0.1s內平均音量超過48分貝時認為可能是用戶發(fā)出的語音指令;但是考慮到一般消費者對于音量大小的衡量并無一準確概念,在又一具體實施方式中,使用者在作為上位機的計算機中點擊測試按鈕,然后以某音量發(fā)出聲音,語音采集終端采集到該聲音后,以該聲音的音量數(shù)值下浮10%作為第一預設值。
當語音信號的音量大于第一預設值時,則該語音信號可能是一個語音控制命令,本實施例中進一步提取該語音信號的核心信息,包括語音信號的聲紋、開始時間、結束時間和語音音量。在一具體實施方式中,附屬終端200在接收語音0.2s后分析出聲紋特征、統(tǒng)計平均音量大小兩項關鍵信息,其中平均音量按每30ms取樣一次然后求平均值得到。在某些具體實施方式中,提取到的聲紋信息還用于作為確認該信號是否為有效語音信號的條件之一,在這些具體實施方式中,只有在系統(tǒng)中獲得備案的聲紋才會被確認為有效語音信號。
每一附屬終端200將監(jiān)聽到的語音的核心信息發(fā)送至中心終端100,并在中心終端100內匯總處理。
在本發(fā)明的第三實施例中,所述第一判斷模塊20具體包括:
獲取單元,依據(jù)核心信息獲取具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量;
判斷單元,判斷所述具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號的數(shù)量是否大于1。
本實施例的技術方案中,在首次接收到來自語音采集終端的語音信號后,為此次監(jiān)聽事件標記一初始標記代碼,例如init_id,然后分析后續(xù)的預設時長內,例如0.1秒內,是否有聲紋、開始時間、結束時間等核心信息相同或基本相同的語音信號,并統(tǒng)計為具有相同核心信息的語音信號數(shù)量。因為首次采集到的語音信號必然來自距離最近的附屬終端200或中央采集終端,以聲速340米/計算,如果在0.1秒以后采集到的語音信號,那么采集到該聲音信號的語音采集終端至少在34米以外,一般來說,在辦公室及家庭環(huán)境中不會出現(xiàn)大于該距離,即使存在,由于距離過遠,其采集的語音信號已經無參考價值,在較近距離上,也必然存在更優(yōu)的語音采集終端,因此,本實施例的技術方案中將在初次接收到響應0.1秒以后接收到的相似語音信號均確認為無效監(jiān)聽信號。
在本發(fā)明語音采集裝置基于上述實施例的第四實施例中,所述第一確認模塊30用于:
在采集的有效語音信號的數(shù)量大于1時,將具有相同聲紋,且開始時間的間隔小于第二預設值的有效語音信號中語音音量最大的語音信號確認為輸入信號。
一般來說,由于覆蓋范圍的限制,能夠有效的接收同一語音信號的語音采集終端的數(shù)量并不會太多,為了保證語音信號采集效果,同時也避免增加系統(tǒng)負載,本實施例中僅選擇平均音量最大的兩個附屬終端200采集的語音信號和中心終端100采集的語音信號進行對比。其中,中心終端100采集的語音信號的音量應當大于所述第一預設值,否則也不參與對比。
在本實施例的技術方案中,每經過單位時間,例如一秒,所選定的附屬終端200向中心終端100發(fā)送一次包含采集到的信號的核心信息的報告,該核心信息可以為完整的核心信息,也可以僅包含本段語音的平均音量。該報告發(fā)送時間持續(xù)至語音結束或持續(xù)至預設截止時長為止。應當理解的是,由于可能出現(xiàn)突發(fā)的外在噪聲,所以可能導致某個時刻的音量增大,本實施例中通過兩種方式過濾這種突發(fā)的大音量噪聲,一方面,本實施例中對有效語音信號的聲紋信息進行識別,僅將具有相同聲紋的有效語音信號進行對比;另一方面,還通過對每一單位時間采集的語音信號的平均音量作為評估因素,避免因為某一時刻的語音音量過大而提高了對該語音信號整體的音量評估。本實施例中,該預設截止時長定義為八秒,根據(jù)經驗,一條語音命令的持續(xù)時間不會長于八秒,如果語音命令的持續(xù)時間過長,會嚴重降低識別的成功率。
本實施例中,進一步以下經驗公式評估每個終端采集到的語音信號的質量。
f=ave*rq-r1*σ/ave
其中f為語音的總得分,總得分越高表示越優(yōu)質。ave是整段語音的平均音量,單位是分貝,將之前終端提供的每一小段語音平均音量求平均值得到。rq是音質系數(shù),根據(jù)音箱的音質好壞而定;本實施例中,中心終端100的音質系數(shù)為1.2,附屬終端200的音質系數(shù)為1,因為一般來說,中心終端100的結構更加復雜,成本更高,所以用料和質量相對較好,顯然;r1是音量方差系數(shù),本實施例中為10;σ是對之前終端提供的每一小段語音平均音量組成的數(shù)據(jù)列表求得的標準差。其計算公式是
其中σ表示標準差,n表示小段語音的數(shù)目,xi表示第i個小段語音的平均音量,μ為整段語音的平均音量。
下面基于上述實施例提出本發(fā)明語音采集裝置的第五實施例,在該實施例中,還包括:
解析模塊,用于在檢測到輸入信號時,解析所述輸入信號;
第二判斷模塊,用于依據(jù)解析結果判斷所述輸入信號是否為預設語音指令;
執(zhí)行模塊,用于在所述輸入信號為預設語音指令時,執(zhí)行所述語音指令。
應當理解的是,在確認輸入信號后,則應當解析該輸入信號,并判斷該輸入信號是否為預設的語音指令,如果該輸入信號為預設語音指令,例如查詢天氣、告知股票行情、回答今天有沒有行程安排等,如果是則執(zhí)行所述預設語音指令,如果不是支持的預設語音指令則可以檢測所述步驟s210中是否由于預設截止時間設置的過短導致未將語音信號接收完全,顯然,為了減少系統(tǒng)負載,還可以選擇直接退出本次語音識別并清空緩存數(shù)據(jù)以等待其他輸入語音信號。
以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內。