本發(fā)明涉及一種用于移動音頻裝置的語音激活系統(tǒng)。
背景技術(shù):
例如移動電話等移動音頻裝置變得更加智能,且越來越多的移動音頻裝置裝備有“始終開啟”功能性,所述“始終開啟”功能性持續(xù)感測環(huán)境以執(zhí)行預(yù)期動作,例如喚醒、語音關(guān)鍵字檢測。始終開啟功能性具有極低的功率要求,所述功率要求可通常低于1毫瓦(mw),且通常利用專用傳感器和實施為集成電路的低功率硬件組件以便獨立于主處理器而運行。尤其對于例如作用中耳塞或手表等可佩戴移動音頻裝置更是如此。在語音激活的情況下,如果已辨識到專用關(guān)鍵字,那么僅由語音激活系統(tǒng)喚醒主處理器。位了使功率消耗最小化,通常應(yīng)用多階段檢測。
技術(shù)實現(xiàn)要素:
各種方面在所附權(quán)利要求書中定義。在第一方面中,限定一種用于移動音頻裝置的語音激活系統(tǒng),其包括揚聲器和麥克風(fēng),該語音激活系統(tǒng)包括:第一語音活動檢測器,其具有用于從麥克風(fēng)接收第一信號的第一檢測器輸入和第一檢測器輸出;第二語音活動檢測器,其具有用于從揚聲器接收第二信號的第二檢測器輸入和第二檢測器輸出;語音檢測器輸出,其耦合到第一檢測器輸出和第二檢測器輸出;其中第一檢測器和第二檢測器可操作以響應(yīng)于在相應(yīng)檢測器輸入上接收的候選話語信號而產(chǎn)生輸出信號,且其中語音激活系統(tǒng)被配置成在第一檢測器輸出和第二檢測器輸出中的至少一者指示已檢測到話語時產(chǎn)生語音檢測器輸出信號。
在實施例中,語音活動檢測器可被配置成在第一檢測器輸出和第二檢測器輸出兩者指示已檢測到話語時產(chǎn)生語音檢測器輸出信號。
在實施例中,語音激活系統(tǒng)可具有第一功率模式和第二功率模式,其中在第一功率模式中,僅啟用第二語音活動檢測器,在第二功率模式中啟用第一語音活動檢測器和第二語音活動檢測器兩者,且其中在操作中,語音激活系統(tǒng)被配置成響應(yīng)于第二檢測器指示已檢測到話語而從第一功率模式變成第二功率模式。
在實施例中,語音激活系統(tǒng)可包括關(guān)鍵字辨識器,該關(guān)鍵字辨識器具有:第一關(guān)鍵字辨識器輸入,其被配置成接收第一信號、第二信號和第一信號與第二信號的加權(quán)組合中的至少一者;以及第二關(guān)鍵字辨識器輸入,其耦合到語音檢測器輸出,其中響應(yīng)于語音檢測器輸出上的信號指示已檢測到話語而啟用關(guān)鍵字辨識器,且其中關(guān)鍵字辨識器可操作以響應(yīng)于包括在第一關(guān)鍵字辨識器輸入上接收的關(guān)鍵字的話語信號而產(chǎn)生輸出。
關(guān)鍵字辨識器可接收來自麥克風(fēng)的第一信號、來自呈麥克風(fēng)形式的揚聲器的第二信號,或第一信號與第二信號的加權(quán)組合??捎苫旌掀魈峁┙邮招盘?。
在實施例中,語音激活系統(tǒng)可包括話語辨識器,該話語辨識器具有:第一話語辨識器輸入,其被配置成接收第一信號、第二信號和第一信號與第二信號的加權(quán)組合中的至少一者;以及第二話語辨識器輸入,其耦合到關(guān)鍵字辨識器輸出,其中響應(yīng)于關(guān)鍵字辨識器指示已檢測到關(guān)鍵字而啟用話語辨識器。
可響應(yīng)于檢測到關(guān)鍵字而啟用話語辨識器。話語辨識器可接收來自麥克風(fēng)的第一信號、來自呈麥克風(fēng)形式的揚聲器的第二信號,或麥克風(fēng)信號的加權(quán)組合。可由混合器提供接收信號。
在實施例中,語音激活系統(tǒng)可包括話語辨識器,該話語辨識器具有:第一話語辨識器輸入,其被配置成接收第一信號、第二信號和第一信號與第二信號的加權(quán)組合中的至少一者;以及第二話語辨識器輸入,其耦合到語音檢測器輸出,且其中響應(yīng)于檢測到話語而啟用話語辨識器。
在實施例中,語音激活系統(tǒng)可包括麥克風(fēng)緩沖器,該麥克風(fēng)緩沖器耦合到第一檢測器輸入,其中第一語音活動檢測器被配置成從麥克風(fēng)接收經(jīng)緩沖信號。
在實施例中,語音激活系統(tǒng)可包括呈麥克風(fēng)形式的揚聲器緩沖器,該呈麥克風(fēng)形式的揚聲器緩沖器耦合到第二檢測器輸入,其中第二檢測器被配置成從被配置為麥克風(fēng)的揚聲器接收經(jīng)緩沖信號。
語音激活系統(tǒng)的實施例可包括在一種耳機中,該耳機包括:麥克風(fēng),其耦合到第一語音活動檢測器輸入;以及揚聲器,其耦合到第二語音活動檢測器輸入。
語音激活系統(tǒng)的實施例可包括在一種助聽器中,該助聽器包括:麥克風(fēng),其耦合到第一語音活動檢測器輸入;以及揚聲器,其耦合到第二語音活動檢測器輸入。
語音激活系統(tǒng)的實施例可包括在一種移動音頻裝置中,該移動音頻裝置包括:麥克風(fēng),其耦合到第一語音活動檢測器輸入;以及揚聲器,其耦合到第二語音活動檢測器輸入。
在第二方面中,限定一種對包括揚聲器和麥克風(fēng)的音頻裝置進行語音激活的方法,該方法包括:響應(yīng)于包括來自麥克風(fēng)的候選話語信號的第一信號而產(chǎn)生第一檢測器輸出信號;響應(yīng)于包括來自被配置為麥克風(fēng)的揚聲器的候選話語信號的第二信號而產(chǎn)生第二檢測器輸出信號;響應(yīng)于第一檢測器輸出信號和第二檢測器輸出信號中的至少一者而產(chǎn)生語音活動輸出信號。
在實施例中,該方法可另外包括響應(yīng)于第一檢測器輸出信號和第二檢測器輸出信號兩者而產(chǎn)生語音活動輸出信號。
在方法的實施例中,可響應(yīng)于第一檢測器輸出信號和包括來自被配置為麥克風(fēng)的揚聲器的候選話語信號的第二信號而產(chǎn)生第二檢測器輸出信號。
在實施例中,該方法可包括響應(yīng)于語音活動檢測器輸出信號而激活關(guān)鍵字檢測器。
在實施例中,該方法可包括檢測關(guān)鍵字和響應(yīng)于檢測到關(guān)鍵字而激活話語辨識器。
在實施例中,該方法可另外包括緩沖第一信號和第二信號中的至少一者。
附圖說明
在附圖和描述中,相同的附圖標號指相同的特征?,F(xiàn)在僅借助于由附圖示出的例子詳細地描述實施例,在附圖中:
圖1示出根據(jù)實施例的語音激活系統(tǒng)。
圖2示出根據(jù)實施例的語音激活系統(tǒng)。
圖3示出根據(jù)實施例的語音激活系統(tǒng)。
圖4a示出根據(jù)實施例的包括語音激活系統(tǒng)的耳機。
圖4b示出在使用時的圖4a的耳機。
圖5示出經(jīng)由圖4b的耳機的揚聲器和麥克風(fēng)檢測到的信號的曲線圖。
圖6示出的語音檢測的方法。
具體實施方式
圖1示出語音激活系統(tǒng)100。語音激活系統(tǒng)100包括:緩沖器104,其用于緩沖麥克風(fēng)信號;第一語音活動檢測器108;第二語音活動檢測器118;以及路由器114。緩沖器輸出106連接到第一語音活動檢測器108。第一語音活動檢測器108的輸出110連接到路由器114的輸入。第二語音活動檢測器118的輸出116連接到路由器114的第二輸入。路由器114具有路由器輸出112,路由器輸出112可被視為語音檢測器輸出。
在語音激活系統(tǒng)100的操作中,緩沖器104連接到麥克風(fēng)102,且第二語音活動檢測器118的輸入120可連接到擴音器122。經(jīng)由麥克風(fēng)102接收信號,該信號使用緩沖器104加以緩沖。緩沖器104可提供對經(jīng)由麥克風(fēng)接收的信號的臨時存儲,且可(例如)實施為fifo存儲器。在其它例子中,可省去緩沖器104。
經(jīng)緩沖輸出可輸入到第一語音活動檢測器108。經(jīng)由擴音器122接收另一信號,且該信號被輸入到第二語音活動檢測器118中。信號和另一信號可具有指示信號包括話語的特性,也就是說,相應(yīng)信號或另一信號的源可為某人說話。信號和另一信號可被視為候選語音信號。如果經(jīng)緩沖信號具有指示話語的特性,那么第一語音活動檢測器108處理經(jīng)緩沖輸入信號且產(chǎn)生輸出。如果從擴音器122接收的信號具有指示話語的特性,那么第二語音活動檢測器118處理從擴音器122(其實際上被用作麥克風(fēng))接收的信號且產(chǎn)生輸出。如果第一語音活動檢測器108或第二語音活動檢測器118指示已檢測到話語,那么路由器114可在路由器輸出112上產(chǎn)生輸出信號??商鎿Q的是或另外,僅在第一語音活動檢測器108和第二語音活動檢測器118兩者產(chǎn)生指示已檢測到話語的輸出信號時,路由器114可在路由器輸出112上產(chǎn)生輸出信號。路由器輸出信號可為(例如)邏輯值,或中斷。
可(例如)在使用模擬或數(shù)字濾波的硬件中或替換地在實施于一個或多個數(shù)字信號處理器上的軟件中實施第一語音活動檢測器108和第二語音活動檢測器118,數(shù)字信號處理器可為(例如)消耗小于1mw的低功率數(shù)字信號處理器。語音激活系統(tǒng)100可具有低功率操作模式,由此可僅啟用第二語音活動檢測器118。由于許多移動音頻裝置中的擴音器122在用作麥克風(fēng)時不需要任何功率,所以通過具有第一功率模式由此僅啟用第二語音活動檢測器118,可另外減少電力消耗。
可替換的是或另外,通過僅在路由器輸出112上輸出檢測信號,在第一語音活動檢測器108和第二語音活動檢測器118兩者指示已檢測到話語時,可顯著改進話語檢測的可靠度。這是因為本申請案的發(fā)明人已意識到,在許多應(yīng)用中,擴音器122可聲學(xué)耦合到用戶。舉例來說,如果語音活動檢測器100并入移動電話中,那么在手持機操作模式中,揚聲器可壓抵用戶的耳朵,而麥克風(fēng)不與用戶緊密接觸。在此情況下,產(chǎn)生話語檢測的錯誤肯定結(jié)果的聲音通常是不同的,且因此通過組合信號,可減少或消除錯誤肯定檢測器結(jié)果。由于歸因于信號被不正確地識別為話語所產(chǎn)生的錯誤觸發(fā)可導(dǎo)致高功率模式被不正確地啟用,所以通過減少錯誤肯定檢測器結(jié)果,可減少移動裝置的電力消耗。
表1示出可由第一語音活動檢測器108(表示為麥克風(fēng)語音活動檢測器(vad))和第二語音活動檢測器118(表示為呈麥克風(fēng)形式的揚聲器vad)接受或拒絕為話語的信號源的例子。通常在此例子中,揚聲器將緊密耦合到用戶的耳朵,而麥克風(fēng)不與用戶緊密接觸。通過使用呈麥克風(fēng)形式的揚聲器vad與麥克風(fēng)vad的組合,可拒絕背景噪聲的許多共同源,這是由于僅用戶講話可被麥克風(fēng)vad和呈麥克風(fēng)形式的揚聲器vad兩者接受。
表1
語音激活系統(tǒng)100可實施于硬件、軟件或硬件與軟件的組合中。對于本領(lǐng)域的技術(shù)人員已知的語音活動的典型例子可包括例如過零率、相關(guān)系數(shù)和不同頻帶中的頻譜功率等特征的提取和分類。
圖2示出語音激活系統(tǒng)200。語音激活系統(tǒng)200可包括:緩沖器204,其用于緩沖麥克風(fēng)信號;關(guān)鍵字辨識器214;話語辨識器208;第一語音活動檢測器216;第二語音活動檢測器226;以及邏輯與門或與函數(shù)220。將了解,與門220可實施為硬件邏輯電路或軟件邏輯與運算。緩沖器輸出206可連接到第一語音活動檢測器216、關(guān)鍵字辨識器和話語辨識器208。第一語音活動檢測器216的輸出218可連接到與門220的輸入。第二語音活動檢測器226的輸出224可連接到與門220的第二輸入。與門220具有與門輸出222,與門輸出222可連接到關(guān)鍵字辨識器214。與門輸出222可被視為語音檢測器輸出。關(guān)鍵字辨識器214的輸出212可連接到話語辨識器208。
在語音激活系統(tǒng)200的操作中,麥克風(fēng)緩沖器204可連接到麥克風(fēng)202,且第二語音活動檢測器226的輸入228可連接到擴音器230??山?jīng)由麥克風(fēng)202接收信號,該信號使用緩沖器204加以緩沖。經(jīng)緩沖輸出可輸入到第一語音活動檢測器216??稍诘降诙Z音活動檢測器226的輸入228上經(jīng)由擴音器230接收另一信號。該信號和另一信號可具有指示信號包括話語的特性,也就是說,相應(yīng)信號或另一信號的源可為某人說話。該信號和另一信號可被視為候選語音信號。如果經(jīng)緩沖信號具有指示話語的特性,那么第一語音活動檢測器216可處理經(jīng)緩沖輸入信號且產(chǎn)生輸出。如果從擴音器230接收的信號具有指示話語的特性,那么第二語音活動檢測器226可處理從擴音器230(其實際上被用作麥克風(fēng))接收的信號且產(chǎn)生輸出。本領(lǐng)域的技術(shù)人員將了解,這些特性可包括(例如)相對于一些背景噪聲源、可預(yù)測過零率、對應(yīng)于替代說話和無聲時段的幅度和時序的典型能量爆發(fā)的更高的自動相關(guān)。當?shù)谝徽Z音活動檢測器216和第二語音活動檢測器226兩者產(chǎn)生指示已檢測到話語的輸出信號時,與門220可在與輸出222上產(chǎn)生輸出信號。
語音激活系統(tǒng)可具有第一功率模式,由此可啟用第一語音活動檢測器216、第二語音活動檢測器226、緩沖器204和與門220。如果第一語音活動檢測器216和第二語音活動檢測器226兩者指示候選話語信號,那么在與輸出222上產(chǎn)生的輸出信號可用于啟用關(guān)鍵字辨識器214。一旦啟用關(guān)鍵字辨識器214,語音激活系統(tǒng)就可被視為在第二功率模式中。在第二功率模式中,關(guān)鍵字辨識器可處理緩沖器204中所包括的經(jīng)緩沖麥克風(fēng)信號。通過在緩沖器204中緩沖麥克風(fēng)信號,可在短時間段內(nèi)留存信號內(nèi)包括的潛在話語,這樣可減少損失的潛在數(shù)據(jù)的量??赏ǔS稍跀?shù)字信號處理器上運行的軟件來實施關(guān)鍵字辨識器。關(guān)鍵字辨識器214可處理經(jīng)由麥克風(fēng)202接收的經(jīng)緩沖信號。如果經(jīng)緩沖信號包括關(guān)鍵字中的一個關(guān)鍵字,那么關(guān)鍵字辨識器214可在關(guān)鍵字辨識器輸出212上產(chǎn)生輸出事件。由關(guān)鍵字辨識器214產(chǎn)生的輸出事件可用于啟用話語辨識器208。一旦啟用話語辨識器,語音激活系統(tǒng)200就可被視為在第三功率模式中。將了解,從第一功率模式到第二功率模式到第三功率模式,所需的電力消耗增加。話語辨識器208可辨識經(jīng)由麥克風(fēng)202接收的信號中所包括的較復(fù)雜詞語和短語。
可(例如)在使用模擬或數(shù)字濾波的硬件中或替換地在實施于數(shù)字信號處理器(dsp)上的軟件中實施第一語音活動檢測器216和第二語音活動檢測器226,數(shù)字信號處理器可為(例如)消耗小于1mw的低功率數(shù)字信號處理器。關(guān)鍵字辨識器212和話語辨識器208可實施于硬件、軟件或硬件與軟件的組合中。
圖3示出語音激活系統(tǒng)300。語音激活系統(tǒng)300可包括:緩沖器302,其用于緩沖麥克風(fēng)信號;揚聲器緩沖器332,其用于緩沖呈麥克風(fēng)形式的揚聲器信號;關(guān)鍵字辨識器312;話語辨識器308;第一語音活動檢測器316;第二語音活動檢測器326;邏輯與門或與函數(shù)320。將了解,與門320可實施為硬件邏輯電路或軟件邏輯與運算。麥克風(fēng)緩沖器輸出314可連接到第一語音活動檢測器316和混合器304的第一輸入。揚聲器緩沖器輸出328可連接到混合器304的第二輸入和第二語音活動檢測器326。混合器輸出306可連接到話語辨識器308和關(guān)鍵字辨識器312。第一語音活動檢測器316的輸出318可連接到與門320的輸入。第二語音活動檢測器326的輸出324可連接到與門320的第二輸入。與門320具有與門輸出322,與門輸出322可連接到關(guān)鍵字辨識器312。關(guān)鍵字辨識器312的輸出310可連接到話語辨識器308。
在語音激活系統(tǒng)300的操作中,麥克風(fēng)緩沖器302可連接到麥克風(fēng)336,且呈麥克風(fēng)形式的揚聲器緩沖器332可具有連接到擴音器334的輸入330。可經(jīng)由麥克風(fēng)336接收信號,且該信號由麥克風(fēng)緩沖器302緩沖。來自麥克風(fēng)336的經(jīng)緩沖輸出可輸入到第一語音活動檢測器316。可經(jīng)由揚聲器334接收另一信號,該信號由呈麥克風(fēng)形式的揚聲器緩沖器332緩沖。來自揚聲器334的經(jīng)緩沖輸出可輸入到第二語音活動檢測器316。信號和另一信號可具有指示信號包括話語的特性,也就是說,相應(yīng)信號或另一信號的源可為某人說話。信號和另一信號可被視為候選語音信號。如果經(jīng)緩沖信號具有指示話語的特性,那么第一語音活動檢測器316可處理經(jīng)緩沖輸入信號且產(chǎn)生輸出。如果從擴音器334接收的信號具有指示話語的特性,那么第二語音活動檢測器326可處理從擴音器334(其實際上被用作麥克風(fēng))接收的信號且產(chǎn)生輸出。當?shù)谝徽Z音活動檢測器316和第二語音活動檢測器326兩者產(chǎn)生指示已檢測到話語的輸出信號時,與門320可在與輸出322上產(chǎn)生輸出信號。
語音激活系統(tǒng)300可具有第一功率模式,由此可啟用或開啟第一語音活動檢測器316、第二語音活動檢測器326、麥克風(fēng)緩沖器302、呈麥克風(fēng)形式的揚聲器緩沖器332和與門320。如果第一語音活動檢測器316和第二語音活動檢測器326兩者指示候選話語信號,那么在與輸出322上產(chǎn)生的輸出信號可用于啟用關(guān)鍵字辨識器322。一旦啟用關(guān)鍵字辨識器322,語音激活系統(tǒng)就可被視為在第二功率模式中。在第二功率模式中,關(guān)鍵字辨識器可處理經(jīng)緩沖麥克風(fēng)信號與經(jīng)緩沖呈麥克風(fēng)形式的揚聲器信號的加權(quán)混合。通過在麥克風(fēng)緩沖器302和呈麥克風(fēng)形式的揚聲器緩沖器322中緩沖信號和另一信號,可在短時間段(通常為1毫秒或2毫秒)內(nèi)留存信號內(nèi)包括的潛在話語,這樣可減少損失的潛在數(shù)據(jù)的量。麥克風(fēng)緩沖器302和呈麥克風(fēng)形式的揚聲器緩沖器322可被實施為臨時數(shù)據(jù)存儲裝置,例如fifo存儲器結(jié)構(gòu)。呈麥克風(fēng)形式的揚聲器信號與麥克風(fēng)信號的混合可導(dǎo)致與麥克風(fēng)信號相比改進的信噪比,這是由于在使用時,擴音器可(例如)緊密耦合到用戶。
本領(lǐng)域的技術(shù)人員將了解,關(guān)鍵字辨識器312可(例如)由可在數(shù)字信號處理器或其它微處理器上執(zhí)行的軟件實施。關(guān)鍵字辨識器312可處理混合器輸出306上的信號。如果輸出混合信號306包括關(guān)鍵字中的一個關(guān)鍵字,那么關(guān)鍵字辨識器314可在關(guān)鍵字辨識器輸出310上產(chǎn)生輸出事件。由關(guān)鍵字辨識器312產(chǎn)生的輸出事件可用于啟用話語辨識器308。一旦啟用話語辨識器,語音激活系統(tǒng)300就可被視為在第三功率模式中。將了解,從第一功率模式到第二功率模式到第三功率模式,所需的電力消耗增加。話語辨識器308可辨識混合信號中所包括的較復(fù)雜詞語和短語。本領(lǐng)域的技術(shù)人員將了解,話語辨識器308可(例如)實施于可在數(shù)字信號處理器或其它微處理器上執(zhí)行的軟件中。
可(例如)在使用模擬或數(shù)字濾波的硬件中或替換地在實施于數(shù)字信號處理器上的軟件中實施第一語音活動檢測器316和第二語音活動檢測器326,數(shù)字信號處理器可為(例如)消耗小于1mw的低功率數(shù)字信號處理器。關(guān)鍵字辨識器312和話語辨識器308可實施于硬件、軟件或硬件與軟件的組合中。
在語音激活系統(tǒng)300的一些例子中,可省去關(guān)鍵字辨識器312,且話語辨識器可連接到與門輸出322。在其它實例中,可省去話語辨識器308。
在語音激活系統(tǒng)300的一些例子中,話語辨識器308可實施于云端計算服務(wù)器上,且語音激活系統(tǒng)300的其余部分可并入移動音頻裝置(例如,移動電話)中。在此情況下,一旦已由關(guān)鍵字檢測器檢測到關(guān)鍵字,輸出混合信號306就可經(jīng)由網(wǎng)絡(luò)由移動裝置傳輸?shù)讲⒂性捳Z辨識器308的云端計算服務(wù)器。話語辨識器308可將所辨識話語傳輸回到移動電話。
圖4a示出包括語音激活系統(tǒng)414的耳機400。耳機400的麥克風(fēng)404和耳機400的揚聲器402可經(jīng)由連接408耦合到語音激活系統(tǒng)414,連接408可為(例如)耳機線。可使用本文中所描述的實施例中的一個或多個實施例來實施語音激活系統(tǒng)414?,F(xiàn)參看示出在使用時的耳機400的圖4b。在操作中,擴音器402通常與用戶416的耳朵緊密耦合。在擴音器402的正常操作中,也就是說,在擴音器被用于輸出音頻時,擴音器402可由音頻放大器(未示出)驅(qū)動。在用作麥克風(fēng)時,擴音器402可經(jīng)由骨導(dǎo)路徑408捕獲用戶416的話語,該話語表示為sls。擴音器402可捕獲來自噪聲源418的由空氣路徑410指示且表示為nls的背景噪聲。麥克風(fēng)404可經(jīng)由空氣路徑406捕獲用戶416的話語,該話語表示為sm。麥克風(fēng)404可捕獲來自噪聲源418的由空氣路徑412指示且表示為nm的背景噪聲。因為耳機可至少部分地堵塞耳道,所以可產(chǎn)生壓力腔室,這樣導(dǎo)致了經(jīng)骨導(dǎo)話語的低頻率提升。如將了解,被稱為堵塞效應(yīng)的此放大效應(yīng)常規(guī)上在(例如)助聽器或其它移動裝置中被視為不理想的,這是由于緊密耦合可導(dǎo)致用戶分心地聽到其自己的話語,這樣可能(例如)減損來自另一人的話語的可理解度。本申請案的發(fā)明人已意識到,此低頻率提升通常突出有聲用戶話語組件,這樣可在存在來自噪聲源418的背景噪聲的情況下改進信噪比。噪聲源418可包括例如干擾話語等源、例如風(fēng)聲等環(huán)境噪聲或其它噪聲源。此類噪聲源的能量通常集中在低頻率下,低頻率可包括(例如)低于1khz的頻率。
在其它實例中,如本文中所描述的語音激活系統(tǒng)可并入移動音頻裝置中,移動音頻裝置例如移動電話、助聽器、可佩戴裝置、膝上型計算機、平板計算機和所謂的可聽裝置。本文中所描述的語音激活系統(tǒng)在并入移動音頻裝置中時,可改進語音檢測的可靠度而不增加組件,這是由于其它功能性通常已需要揚聲器和麥克風(fēng)。
圖5示出經(jīng)由耳機揚聲器402和麥克風(fēng)404同時檢測到的在針對耳機400的嘈雜環(huán)境450中的話語的曲線圖。耳機400定位成揚聲器402緊密耦合到用戶416的耳朵。x軸456表示時間,且y軸458表示幅度。曲線452示出在耳機揚聲器402被配置為麥克風(fēng)時經(jīng)由耳機揚聲器402檢測到的話語。曲線454示出經(jīng)由圖4b的麥克風(fēng)404檢測到的同一用戶話語,麥克風(fēng)404可位于耳機線408上。虛線460之間的區(qū)示出僅含有噪聲的信號的一部分。虛線462之間的區(qū)示出含有話語和噪聲的信號的一部分。如可見,經(jīng)由被配置為麥克風(fēng)的揚聲器402檢測到的在區(qū)460中的噪聲的等級低于經(jīng)由麥克風(fēng)404檢測到的在區(qū)460中的噪聲的等級。
圖6示出語音激活500的方法。在步驟502中,經(jīng)由麥克風(fēng)接收信號。該方法隨后移動到步驟504,在步驟504中,進行檢查以確定是否已檢測到候選話語信號。如果尚未檢測到候選話語信號,那么方法返回到步驟502。如果已檢測到候選話語信號,那么在步驟510中產(chǎn)生語音活動輸出信號。與步驟502并行,在步驟506中,經(jīng)由被配置為麥克風(fēng)的揚聲器接收信號。在步驟508中,檢查所接收的信號以確定其是否為候選話語信號。如果未檢測到話語,那么方法返回到步驟506。如果已檢測到話語,那么方法移動到步驟510,且可產(chǎn)生語音活動輸出信號。
本文中描述一種語音激活系統(tǒng),其包括:第一語音活動檢測器,其用于從麥克風(fēng)接收第一信號;第二語音活動檢測器,其用于從揚聲器接收第二信號;語音檢測器輸出,其耦合到該第一語音活動檢測器和該第二語音活動檢測器的輸出。該第一檢測器和該第二檢測器可操作以響應(yīng)于在相應(yīng)檢測器輸入上接收的候選話語信號而產(chǎn)生輸出信號,且該語音激活系統(tǒng)被配置成在該第一檢測器輸出和該第二檢測器輸出中的至少一者指示已檢測到話語時產(chǎn)生語音檢測器輸出信號。該語音激活系統(tǒng)可減少平均功率消耗并增加耳機或其它移動音頻裝置的始終開啟的語音激活解決方案的辨識速率。
盡管所附權(quán)利要求書是針對特定特征組合,但應(yīng)理解,本發(fā)明的公開內(nèi)容的范圍還包括本文中明確地或隱含地公開的任何新穎特征或任何新穎特征組合或其任何一般化,而不管其是否涉及與當前在任何權(quán)利要求中主張的本發(fā)明相同的發(fā)明或其是否緩解與本發(fā)明所緩解的任一或全部技術(shù)問題相同的技術(shù)問題。
在單獨實施例的上下文中描述的特征也可組合地提供于單個實施例中。相反,為了簡潔起見,在單個實施例的上下文中描述的多種特征也可分開提供或以任何合適的子組合形式提供。
申請人特此提醒,在審查本申請案或由此衍生的任何另外的申請案期間,可根據(jù)此類特征和/或此類特征的組合而制訂新的權(quán)利要求。
為完整性起見,還規(guī)定術(shù)語“包括”不排除其它元件或步驟,術(shù)語“一”不排除多個,單個處理器或其它單元可實現(xiàn)在權(quán)利要求中所述的若干裝置的功能,且權(quán)利要求中的附圖標記不應(yīng)被解釋為限制權(quán)利要求的范圍。