專利名稱:用于話音活動檢測的系統(tǒng)、方法和設備的制作方法
技術領域:
本發(fā)明涉及音頻信號處理。
背景技術:
先前在安靜的辦公室或家庭環(huán)境中執(zhí)行的許多活動現(xiàn)今正在如汽車、街道或咖啡館的聲學可變情形下執(zhí)行。舉例來說,某人可能想要使用話音通信信道與另一人通信。信道可(例如)由移動無線手持機或頭戴式耳機、步話機、雙向無線電、車載裝置或另一通信裝置提供。因此,在用戶由其他人包圍、伴有在人們傾向于集合時通常遇到的種類的噪音內容的環(huán)境中,大量 話音通信正使用便攜式音頻感測裝置(例如,智能手機、手持機和/或頭戴式耳機)發(fā)生。這些噪音傾向于使在電話會話遠端的用戶分心或心煩。此外,許多標準自動化商務交易(例如,帳戶結余或股票報價檢查)使用基于話音辨識的數(shù)據(jù)詢問,且這些系統(tǒng)的準確性可顯著受到干擾噪音妨礙。對于通信在噪音環(huán)境中發(fā)生的應用,可能需要將所需語音信號與背景噪音分離??蓪⒃胍舳x為干擾所需信號或以其它方式使所需信號降級的所有信號的組合。背景噪音可包含在聲學環(huán)境(例如,其他人的背景會話,以及從所需信號和/或其它信號中的任何者產生的反射和回響)內產生的眾多噪音信號。除非所需語音信號與背景噪音分離,否則可能難以對其進行可靠且有效率的使用。在一個特定實例中,語音信號在噪音環(huán)境中產生,且使用語音處理方法將語音信號與環(huán)境噪音分離。在行動環(huán)境中遇到的噪音可包含多種不同分量,例如,競爭演說者、音樂、亂哄哄的聲音、街道噪音和/或機場噪音。因為這些噪音的特征通常不靜止且接近于用戶自身的頻率特征,所以噪音可能難以使用傳統(tǒng)單一麥克風或固定波束成形型方法來模型化。單麥克風噪音減少技術通常需要顯著的參數(shù)調諧以實現(xiàn)最佳性能。舉例來說,在這些情況下,合適的噪音參考可能不直接可用,且可能有必要間接導出噪音參考。因此,可能需要基于多個麥克風的先進信號處理來支持在噪音環(huán)境中將移動裝置用于話音通信。
發(fā)明內容
根據(jù)一般配置的一種處理音頻信號的方法包含基于來自音頻信號的第一多個幀的信息計算第一話音活動量度的一系列值。此方法還包含基于來自音頻信號的第二多個幀的信息計算與第一話音活動量度不同的第二話音活動量度的一系列值。此方法還包含基于第一話音活動量度的所述系列值計算第一話音活動量度的邊界值。此方法還包含基于第一話音活動量度的所述系列值、第二話音活動量度的所述系列值和第一話音活動量度的計算出的邊界值產生一系列組合話音活動決策。還揭示具有有形特征的計算機可讀存儲媒體(例如,非暫時性媒體),所述有形特征致使所述機器讀取所述特征以執(zhí)行此方法。根據(jù)一般配置的一種用于處理音頻信號的設備包含用于基于來自音頻信號的第一多個幀的信息計算第一話音活動量度的一系列值的裝置,以及用于基于來自音頻信號的第二多個幀的信息計算與第一話音活動量度不同的第二話音活動量度的一系列值的裝置。此設備還包含用于基于第一話音活動量度的所述系列值計算第一話音活動量度的邊界值的裝置,和用于基于第一話音活動量度的所述系列值、第二話音活動量度的所述系列值和第一話音活動量度的計算出的邊界值產生一系列組合話音活動決策的裝置。根據(jù)另一一般配置的一種用于處理音頻信號的設備包含:第一計算器,其經配置以基于來自音頻信號的第一多個幀的信息計算第一話音活動量度的一系列值;以及第二計算器,其經配置以基于來自音頻信號的第二多個幀的信息計算與第一話音活動量度不同的第二話音活動量度的一系列值。此設備還包含:邊界值計算器,其經配置以基于第一話音活動量度的所述系列值計算第一話音活動量度的邊界值;以及決策模塊,其經配置以基于第一話音活動量度的所述系列值、第二話音活動量度的所述系列值和第一話音活動量度的計算出的邊界值產生一系列組合話音活動決策。
圖1和2展示雙麥克風噪音抑制系統(tǒng)的框圖。圖3A至3C和圖4展示圖1和2的系統(tǒng)的子集的實例。
圖5和6展示在汽車噪音中記錄的立體聲語音的實例。圖7A和7B概述麥克風間減除方法T50的實例。圖8A展示正規(guī)化方案的概念圖。圖SB展示根據(jù)一般配置的處理音頻信號的方法MlOO的流程圖。圖9A展示任務T400的實施方案T402的流程圖。圖9B展示任務T410a的實施方案T412a的流程圖。圖9C展示任務T410a的替代實施方案T414a的流程圖。圖1OA至IOC展示映射。圖1OD展示根據(jù)一般配置的設備AlOO的框圖。圖1lA展示根據(jù)另--般配置的設備MF100的框圖。圖1lB展示隔離開的圖15的閾值線。圖12展示基于接近性的VAD測試統(tǒng)計對基于相位差的VAD測試統(tǒng)計的散點圖。圖13展示對于基于接近性的VAD測試統(tǒng)計的跟蹤的最小和最大測試統(tǒng)計。圖14展示對于基于相位的VAD測試統(tǒng)計的跟蹤的最小和最大測試統(tǒng)計。圖15展示正規(guī)化的測試統(tǒng)計的散點圖。圖16展示一組散點圖。圖17展示一組散點圖。
圖18展示概率表。圖19展示任務T80的框圖。圖20A展示增益計算T110-1的框圖。圖20B展示抑制方案Tl 10-2的總體框圖。圖21A展示抑制方案T110-3的框圖。圖2IB展示模塊T120的框圖。圖22展示任務T95的框圖。圖23A展示陣列RlOO的實施方案R200的框圖。圖23B展示陣列R200的實施方案R210的框圖。圖24A展示根據(jù)一般配置的多麥克風音頻感測裝置DlO的框圖。圖24B展示為裝置DlO的實施方案的通信裝置D20的框圖。圖25展示手持機HlOO的前視圖、后視圖和側視圖。圖26說明頭戴式耳機DlOO中的安裝可變性。
具體實施例方式
本文中揭示的技術可用以改進話音活動檢測(VAD)以便增強語音處理(例如,話音譯碼)。所揭示的VAD技術可用以改進話音檢測的準確性及可靠性,且因此,改進取決于VAD的功能,例如,噪音減少、回波消除、速率譯碼和類似者。此改進可(例如)通過使用可自一個或一個以上分離的裝置提供的VAD信息來實現(xiàn)。可使用多個麥克風或其它傳感器形態(tài)產生VAD信息以提供更準確的話音活動檢測器??深A期使用如本文中描述的VAD來減少在傳統(tǒng)VAD中常經歷的語音處理誤差,特別在低信噪比(SNR)情形下、在非靜止噪音及競爭性話音情況和可存在話音的其它情況下。此外,可識別目標話音,且可使用此檢測器提供目標話音活動的可靠估計??赡苄枰褂肰AD信息控制聲碼器功能,例如,噪音估計更新、回波消除(EC)、速率控制和類似者??墒褂幂^可靠且較準確的VAD來改進例如以下等語音處理功能:噪音減少(NR) (B卩,通過較可靠的VAD,可在非話音段中執(zhí)行較高NR);話音及非話音段估計;回波消除(EC);改進的雙檢測方案;和速率寫碼改進,其允許較激進的速率寫碼方案(例如,對于非語音段的較低速率)。除非明確地受其上下文限制,否則術語“信號”在本文中用以指示其普通意義中的任一者,包含如在導線、總線或其它傳輸媒體上表達的存儲器位置(或存儲器位置集合)的狀態(tài)。除非明確地受其上下文限制,否則本文中使用術語“產生”來指示其普通意義中的任一者,例如,計算或以其它方式產生。除非明確地受其上下文限制,否則本文中使用術語“計算”來指示其普通意義中的任一者,例如,推算、評估、平滑化和/或從多個值中選擇。除非明確地受其上下文限制,否則使用術語“獲得”來指示其普通意義中的任一者,例如,計算、導出、接收(例如,從外部裝置)和/或檢索(例如,從存儲元件陣列)。除非明確地受其上下文限制,否則使用術語“選擇”來指示其普通意義中的任一者,例如,識別、指示、應用和/或使用兩個或兩個以上的集合中的至少一者和少于全部個。在術語“包括”用于本描述和權利要求書中的情況下,其不排除其它元件或操作。使用術語“基于”(如在“A是基于B”中)來指示其普通意義中的任一者,包含以下情況:(i) “從……導出”(例如,“B為A的前體”),( ) “至少基于”(例如,“A至少基于B”),和如果在特定上下文中合適,(iii) “等于”(例如,“A等于B”)。類似地,使用術語“響應于”來指示其普通意義中的任一者,包含“至少響應于”。對多麥克風音頻感測裝置的麥克風的“位置”的參考指示麥克風的聲學感測面的中心的位置,除非上下文另有指示。根據(jù)特定上下文,術語“信道”有時用來指示信號路徑,且有時用來指示由此路徑攜載的信號。除非另有指示,否則術語“系列”用來指示一連串兩個或兩個以上項。術語“算法”用來指示以十為基數(shù)的算法,但此運算至其它基數(shù)的延伸在本發(fā)明的范疇內。術語“頻率分量”用來指示信號的一組頻率或頻帶中的一者,例如,信號的頻域表示的樣本(例如,如通過快速傅立葉變換產生)或信號的次頻帶(例如,巴克(Bark)級或梅爾(mel)級次頻帶)。除非上下文另有指示,否則本文中使用術語“偏移(offset)”來指示術語“開始(onset)”的反義詞。除非另有指示,否則對具有特定特征的設備的操作的任何揭示還明確地希望揭示具有類似特征的方法(且反之亦然),且對根據(jù)特定配置的設備的操作的任何揭示還明確地希望揭示根據(jù)類似配置的方法(且反之亦然)。關于方法、設備和/或系統(tǒng),如由其特定上下文指示,可使用術語“配置”。一般地且可互換地使用術語“方法”、“過程”、“程序”和“技術”,除非特定上下文另有指示。也一般地且可互換地使用術語“設備”和“裝置”,除非特定上下文另有指示。術語“元件”和“模塊”通常用來指示較大配置的一部分。除非明確地受其上下文限制,否則本文中使用術語“系統(tǒng)”來指示其普通意義中的任一者,包含“交互以服務于共同目的的一群元件”。還應將文獻的一部分以引用方式進行的任何并入理解為并有在所述部分內提及的術語或變量的定義(在這些定義出現(xiàn)于所述文獻中其它處的情況下),以及在并入的部分中提及的任何圖。除非一開始由定冠詞引入,否則用來修飾權利要求元件的序數(shù)術語(例如,“第一”、“第二”、“第三”等)自身不指示權利要求元件相關于另一者的任何優(yōu)先權或次序,而相反,僅將權利要求元件與具有同一名稱(僅用于使用有序術語)的另一權利要求元件區(qū)分開來。除非明確地受其上下文限制,否則本文中使用術語“多個”和“集合”中的每一者來指示大于一的整 數(shù)量。如本文中描述的方法可經配置以將所捕獲的信號作為一系列段來處理。典型的段長度范圍自約五毫秒或十毫秒至約四十毫秒或五十毫秒,且段可重疊(例如,其中鄰近段重疊25%或50%)或不重疊。在一個特定實例中,將信號分成一系列不重疊段或“幀”,每一者具有十毫秒的長度。如由此方法處理的段也可為如由不同操作處理的較大段的一段(即,“子幀”)。現(xiàn)有雙麥克風噪音抑制解決方案可能不夠穩(wěn)健來保持角度可變性和/或麥克風增益校準失配。本發(fā)明提供解決此問題的方式。本文中描述了可導致較好的話音活動檢測和/或噪音抑制性能的若干新穎理念。圖1和2展示包含這些技術中的一些的實例的雙麥克風噪音抑制系統(tǒng)的框圖,其中標簽A-F指示退出圖1的右邊的信號與進入圖2的左邊的相同信號之間的對應性。如本文中描述的配置的特征可包含下列中的一或多者(可能全部):低頻噪音抑制(例如,包含麥克風間減除和/或空間處理);VAD測試統(tǒng)計的正規(guī)化以使針對各種保持角度和麥克風增益失配的鑒別能力最大化;噪音參考組合邏輯;基于在每一時間-頻率胞元中的相位和接近性信息以及逐幀話音活動信息的殘余噪音抑制;和基于一個或一個以上噪音特性(例如,估計的噪音的頻譜平直度量度)的殘余噪音抑制控制。下列章節(jié)中論述這些術語中的每一者。還應明確注意,圖1和2中展示的這些任務中的任何一或多者可獨立于系統(tǒng)的其它部分(例如,作為另一音頻信號處理系統(tǒng)的部分)而實施。圖3A至3C和圖4展示可獨立使用的系統(tǒng)的子集的實例??臻g選擇性濾波操作的類別包含方向選擇性濾波操作(例如,波束成形和/或盲源分離),和距離選擇性濾波操作(例如,基于源接近性的操作)。這些操作可實現(xiàn)伴有可忽略的話音損傷的實質噪音減少。空間選擇性濾波操作的典型實例包含計算自適應濾波器(例如,基于一個或一個以上合適的話音活動檢測信號)以移除所需語音以產生噪音信道和/或通過執(zhí)行空間噪音參考和主麥克風信號的減除來移除不想要的噪音。圖7B展示此方案的一實例的框圖,其中Yn ( ω ) = Y1 ( ω ) -W2 ( ω ) * (Y2 ( ω ) -W1 ( ω ) ^Y1 ( ω ))= (I+W2 ( ω ) W1 ( ω )) ^Y1 ( ω ) -W2 ( ω ) *Υ2 ( ω ) 0 (4)低頻噪音(例如 ,在0-500Ηζ的頻率范圍中的噪音)的移除造成獨特的挑戰(zhàn)。為了獲得足夠支持與諧波話音語音結構有關的谷值與峰值的鑒別的頻率解決方案,可能需要使用具有至少256的長度的快速傅立葉變換(FFT)(例如,對于具有約0-4kHz的范圍的窄頻帶信號)。傅立葉域循環(huán)卷積問題可能迫使使用短濾波器,這可阻礙此信號的有效后期處理??臻g選擇性濾波操作的有效性還可在低頻范圍中受到麥克風距離和在高頻率中受到空間假頻限制。舉例來說,空間濾波在0-500HZ的范圍中通常很大程度上無效。在手持型裝置的典型使用期間,將裝置保持于相對于用戶的口部的各種定向上。對于多數(shù)手持機保持角度,可預期SNR在麥克風間有所不同。然而,可預期分布的噪音電平在麥克風間保持大致相等。因此,可預期麥克風間聲道減除改進主麥克風聲道中的SNR。圖5和6展不在汽車噪音中記錄的立體聲語音的實例,其中圖5展不時域信號的曲線,且圖6展示頻譜的曲線。在每一情況下,上部跡線對應于來自主麥克風(即,朝向用戶的口部定向或以其它方式最直接地接收用戶的話音的麥克風)的信號,且下部跡線對應于來自次麥克風的信號。頻譜曲線展示SNR在主麥克風信號中較好。舉例來說,可看出,話音語音峰值在主麥克風信號中較高,而背景噪音谷值在聲道之間聲量大致相等??赏ǔnA期麥克風間聲道減除導致
頻帶中的8-12dB噪音減少,伴有極少的話音失真,其類似于可通過使用具有許多元件的大麥克風陣列的空間處理獲得的噪音減少結果。低頻噪音抑制可包含麥克風間減除和/或空間處理。減少多聲道音頻信號中的噪音的方法的一個實例包含針對小于500Hz的頻率使用麥克風間差,和針對大于500Hz的頻率使用空間選擇性濾波操作(例如,方向選擇性操作,例如,波束成形器)??赡苄枰褂米赃m應增益校準濾波器來避免兩個麥克風聲道之間的增益失配??筛鶕?jù)來自主麥克風與次麥克風的信號之間的低頻增益差來計算此濾波器。舉例來說,可根據(jù)例如以下的表達式在語音不活動間隔上獲得增益校準濾波器M剛|=織 ’ CD其中ω表示頻率,Y1表示主麥克風聲道,Y2表示次麥克風聲道,且Il.Il表示矢量范數(shù)運算(例如,L2范數(shù))。在多數(shù)應用中,可預期次麥克風聲道含有一些話音能量,使得可通過簡單的減除過程來使總話音聲道衰減。因此,可能需要引入補償增益以將話音按比例調整回至其原始電平??赏ㄟ^例如以下的表達式來概述此過程的一個實例||Yn(Co)||=G*(||Y1(ω)||-||M(ω)*Y2(ω)||),⑵其中Yn表示所得輸出聲道,且G表示自適應話音補償增益因數(shù)??勺栽贾鼷溈孙L信號獲得相位。自適應話音補償增益因數(shù)G可通過在
上的低頻話音校準來確定以避免引入回響。可根據(jù)例如以下的表達式在語音活動間隔上獲得話音補償增益G
權利要求
1.一種處理音頻信號的方法,所述方法包括: 基于來自所述音頻信號的第一多個幀的信息,計算第一話音活動量度的一系列值; 基于來自所述音頻信號的第二多個幀的信息,計算與所述第一話音活動量度不同的第二話音活動量度的一系列值; 基于所述第一話音活動量度的所述系列值,計算所述第一話音活動量度的邊界值;以及 基于所述第一話音活動量度的所述系列值、所述第二話音活動量度的所述系列值和所述第一話音活動量度的所述計算出的邊界值,產生一系列組合話音活動決策。
2.根據(jù)權利要求1所述的方法,其中所述第一話音活動量度的所述系列值中的每一值是基于所述音頻信號的聲道之間的關系。
3.根據(jù)權利要求1所述的方法,其中所述第一話音活動量度的所述系列值中的每一值對應于所述第一多個幀中的不同幀。
4.根據(jù)權利要求3所述的方法,其中所述計算所述第一話音活動量度的一系列值包括對于所述系列值中的每一者且對于所述對應的幀的多個不同頻率分量中的每一者,計算在(A)所述幀的第一聲道中的所述頻率分量的相位與(B)所述幀的第二聲道中的所述頻率分量的相位之間的差。
5.根據(jù)權利要求1所述的方法,其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且 其中所述計算所述第二話音活動量度的一系列值包括對于所述系列值中的每一者,計算針對所述對應的幀的多個不同頻率分量中的每一者的能量的時間導數(shù),且 其中所述第二話音活動量度的所述系列值中的每一者是基于所述對應的幀的能量的所述多個計算出的時間導數(shù)。
6.根據(jù)權利要求1所述的方法,其中所述第二話音活動量度的所述系列值中的每一者是基于所述音頻信號的第一聲道的電平與所述音頻信號的第二聲道的電平之間的關系。
7.根據(jù)權利要求1所述的方法,其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且 其中所述計算所述第二話音活動量度的一系列值包括對于所述系列值中的每一者,計算(A)在低于一千赫的頻率范圍中的所述對應的巾貞的第一聲道的電平,和(B)在低于一千赫的所述頻率范圍中的所述對應的幀的第二聲道的電平,且 其中所述第二話音活動量度的所述系列值中的每一者是基于(A)所述對應的幀的所述第一聲道的所述計算出的電平與(B)所述對應的幀的所述第二聲道的所述計算出的電平之間的關系。
8.根據(jù)權利要求1所述的方法,其中所述計算所述第一話音活動量度的所述邊界值包括計算所述第一話音活動量度的最小值。
9.根據(jù)權利要求8所述的方法,其中所述計算最小值包括: 使所述第一話音活動量度的所述系列值平滑化;以及 確定所述經平滑化的值中的最小值。
10.根據(jù)權利要求1所述的方法 ,其中所述計算所述第一話音活動量度的所述邊界值包括計算所述第一話音活動量度的最大值。
11.根據(jù)權利要求1所述的方法,其中所述產生所述系列組合話音活動決策包含將第一組值中的每一者與第一閾值比較以獲得一系列第一話音活動決策, 其中所述第一組值是基于所述第一活動量度的所述系列值,且 其中(A)所述第一組值與(B)所述第一閾值中的至少一者是基于所述第一話音活動量度的所述計算出的邊界值。
12.根據(jù)權利要求11所述的方法,其中所述產生所述系列組合話音活動決策包含基于所述第一話音活動量度的所述計算出的邊界值正規(guī)化所述第一話音活動量度的所述系列值,以產生所述第一組值。
13.根據(jù)權利要求11所述的方法,其中所述產生所述系列組合話音活動決策包含將所述第一話音活動量度的所述系列值重新映射至基于所述第一話音活動量度的所述計算出的邊界值的范圍,以產生所述第一組值。
14.根據(jù)權利要求11所述的方法,其中所述第一閾值是基于所述第一話音活動量度的所述計算出的邊界值。
15.根據(jù)權利要求11所述的方法,其中所述第一閾值是基于來自所述第二話音活動量度的所述系列值的信息。
16.根據(jù)權利要求1所述的方法,其中所述方法包括基于所述第二話音活動量度的所述系列值,計算所述第二話音活動量度的邊界值,且 其中所述產生所述系列組合話音活動決策是基于所述第二話音活動量度的所述計算出的邊界值。
17.根據(jù)權利要求1所述的方法,其中所述第一話音活動量度的所述系列值中的每一值對應于所述第一多個幀中的不同幀,且是基于所述對應的幀的聲道之間的第一關系,且 其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且是基于所述對應的幀的聲道之間的不同于所述第一關系的第二關系。
18.一種用于處理音頻信號的設備,所述設備包括: 用于基于來自所述音頻信號的第一多個幀的信息計算第一話音活動量度的一系列值的裝置; 基于來自所述音頻信號的第二多個幀的信息計算與所述第一話音活動量度不同的第二話音活動量度的一系列值的裝置; 用于基于所述第一話音活動量度的所述系列值計算所述第一話音活動量度的邊界值的裝置;以及 用于基于所述第一話音活動量度的所述系列值、所述第二話音活動量度的所述系列值和所述第一話音活動量度的所述計算出的邊界值產生一系列組合話音活動決策的裝置。
19.根據(jù)權利要求18所述的設備,其中所述第一話音活動量度的所述系列值中的每一值是基于所述音頻信號的聲道之間的關系。
20.根據(jù)權利要求18所述的設備,其中所述第一話音活動量度的所述系列值中的每一值對應于所述第一多個幀中的不同幀。
21.根據(jù)權利要求20所述的設備,其中所述用于計算所述第一話音活動量度的一系列值的裝置包括用于對 于所述系列值中的每一者且對于所述對應的幀的多個不同頻率分量中的每一者計算在(A)所述幀的第一聲道中的所述頻率分量的相位與(B)所述幀的第二聲道中的所述頻率分量的相位之間的差的裝置。
22.根據(jù)權利要求18所述的設備,其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且 其中所述用于計算所述第二話音活動量度的一系列值的裝置包括用于對于所述系列值中的每一者計算針對所述對應的幀的多個不同頻率分量中的每一者的能量的時間導數(shù)的裝置,且 其中所述第二話音活動量度的所述系列值中的每一者是基于所述對應的幀的能量的所述多個計算出的時間導數(shù)。
23.根據(jù)權利要求18所述的設備,所述第二話音活動量度的所述系列值中的每一者是基于所述音頻信號的第一聲道的電平與所述音頻信號的第二聲道的電平之間的關系。
24.根據(jù)權利要求18所述的設備,其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且 其中所述用于計算所述第二話音活動量度的一系列值的裝置包括用于對于所述系列值中的每一者計算(A)在低于一千赫的頻率范圍中的所述對應的巾貞的第一聲道的電平和(B)在低于一千赫的所述頻率范圍中的所述對應的幀的第二聲道的電平的裝置,且 其中所述第二話音活動量度的所述系列值中的每一者是基于(A)所述對應的幀的所述第一聲道的所述計算出的電平與(B)所述對應的幀的所述第二聲道的所述計算出的電平之間的關系。
25.根據(jù)權利要求18所述的設備,其中所述用于計算所述第一話音活動量度的所述邊界值的裝置包括用 于計算所述第一話音活動量度的最小值的裝置。
26.根據(jù)權利要求25所述的設備,其中所述用于計算最小值的裝置包括: 用于使所述第一話音活動量度的所述系列值平滑化的裝置;以及 用于確定所述經平滑化的值中的最小值的裝置。
27.根據(jù)權利要求18所述的設備,其中所述用于計算所述第一話音活動量度的所述邊界值的裝置包括用于計算所述第一話音活動量度的最大值的裝置。
28.根據(jù)權利要求18所述的設備,其中所述用于產生所述系列組合話音活動決策的裝置包含用于將第一組值中的每一者與第一閾值比較以獲得一系列第一話音活動決策的裝置, 其中所述第一組值是基于所述第一活動量度的所述系列值,且 其中(A)所述第一組值與(B)所述第一閾值中的至少一者是基于所述第一話音活動量度的所述計算出的邊界值。
29.根據(jù)權利要求28所述的設備,其中所述用于產生所述系列組合話音活動決策的裝置包含用于基于所述第一話音活動量度的所述計算出的邊界值正規(guī)化所述第一話音活動量度的所述系列值以產生所述第一組值的裝置。
30.根據(jù)權利要求28所述的設備,其中所述用于產生所述系列組合話音活動決策的裝置包含用于將所述第一話音活動量度的所述系列值重新映射至基于所述第一話音活動量度的所述計算出的邊界值的范圍以產生所述第一組值的裝置。
31.根據(jù)權利要求28所述的設備,其中所述第一閾值是基于所述第一話音活動量度的所述計算出的邊界值。
32.根據(jù)權利要求28所述的設備,其中所述第一閾值是基于來自所述第二話音活動量度的所述系列值的信息。
33.根據(jù)權利要求18所述的設備,其中所述設備包括用于基于所述第二話音活動量度的所述系列值計算所述第二話音活動量度的邊界值的裝置,且 其中所述產生所述系列組合話音活動決策是基于所述第二話音活動量度的所述計算出的邊界值。
34.根據(jù)權利要求18所述的設備,其中所述第一話音活動量度的所述系列值中的每一值對應于所述第一多個幀中的不同幀,且是基于所述對應的幀的聲道之間的第一關系,且 其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且是基于所述對應的幀的聲道之間的不同于所述第一關系的第二關系。
35.一種用于處理音頻信號的設備,所述設備包括: 第一計算器,其經配置以基于來自所述音頻信號的第一多個幀的信息計算第一話音活動量度的一系列值; 第二計算器,其經配置以基于來自所述音頻信號的第二多個幀的信息計算與所述第一話音活動量度不同的第二話音活動量度的一系列值; 邊界值計算器,其經配置以基于所述第一話音活動量度的所述系列值計算所述第一話音活動量度的邊界值;以及 決策模塊,其經配置以基于所述第一話音活動量度的所述系列值、所述第二話音活動量度的所述系列值和所述第一話音活動量度的所述計算出的邊界值產生一系列組合話音活動決策。
36.根據(jù)權利要求35所述的設備,其中所述第一話音活動量度的所述系列值中的每一值是基于所述音頻信號的聲道之間的關系。
37.根據(jù)權利要求35所述的設備,其中所述第一話音活動量度的所述系列值中的每一值對應于所述第一多個幀中的不同幀。
38.根據(jù)權利要求37所述的設備,其中所述第一計算器經配置以對于所述系列值中的每一者且對于所述對應的幀的多個不同頻率分量中的每一者,計算在(A)所述幀的第一聲道中的所述頻率分量的相位與(B)所述幀的第二聲道中的所述頻率分量的相位之間的差。
39.根據(jù)權利要求35所述的設備,其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且 其中所述第二計算器經配置以對于所述系列值中的每一者計算針對所述對應的幀的多個不同頻率分量中的每一者的能量的時間導數(shù),且 其中所述第二話音活動量度的所述系列值中的每一者是基于所述對應的幀的能量的所述多個計算出的時間導數(shù)。
40.根據(jù)權利要求35所述的設備,其中所述第二話音活動量度的所述系列值中的每一者是基于所述音頻信號的第一聲道的電平與所述音頻信號的第二聲道的電平之間的關系。
41.根據(jù)權利要求35所述的設備,其中所述第二話音活動量度的所述系列值中的每一值對應于所述第二多個幀中的不同幀,且 其中所述第二計算器經配置以對于所述系列值中的每一者,計算(A)在低于一千赫的頻率范圍中的所述對應的幀的第一聲道的電平和(B)在低于一千赫的所述頻率范圍中的所述對應的幀的第二聲道的電平,且 其中所述第二話音活動量度的所述系列值中的每一者是基于(A)所述對應的幀的所述第一聲道的所述計算出的電平與(B)所述對應的幀的所述第二聲道的所述計算出的電平之間的關系。
42.根據(jù)權利要求35所述的設備,其中所述邊界值計算器經配置以計算所述第一話音活動量度的最小值。
43.根據(jù)權利要求42所述的設備,其中所述邊界值計算器經配置以使所述第一話音活動量度的所述系列值平滑化且確定所述經平滑化的值中的最小值。
44.根據(jù)權利要求35所述的設備,其中所述邊界值計算器經配置以計算所述第一話音活動量度的最大值。
45.根據(jù)權利要求 35所述的設備,其中所述決策模塊經配置以將第一組值中的每一者與第一閾值比較以獲得一系列第一話音活動決策, 其中所述第一組值是基于所述第一活動量度的所述系列值,且 其中(A)所述第一組值與(B)所述第一閾值中的至少一者是基于所述第一話音活動量度的所述計算出的邊界值。
46.根據(jù)權利要求45所述的設備,其中所述決策模塊經配置以基于所述第一話音活動量度的所述計算出的邊界值正規(guī)化所述第一話音活動量度的所述系列值,以產生所述第一組值。
47.根據(jù)權利要求45所述的設備,其中所述決策模塊經配置以將所述第一話音活動量度的所述系列值重新映射至基于所述第一話音活動量度的所述計算出的邊界值的范圍,以產生所述第一組值。
48.根據(jù)權利要求45所述的設備,其中所述第一閾值是基于所述第一話音活動量度的所述計算出的邊界值。
49.根據(jù)權利要求45所述的設備,其中所述第一閾值是基于來自所述第二話音活動量度的所述系列值的信息。
50.一種機器可讀存儲媒體,其包括當由機器讀取時致使所述機器執(zhí)行根據(jù)權利要求1至17中任一權利要求所述的方法的有形特征。
全文摘要
本發(fā)明揭示用于單聲道或多聲道音頻信號中的話音活動檢測的系統(tǒng)、方法、設備和機器可讀媒體。
文檔編號G10L25/78GK103180900SQ201180051496
公開日2013年6月26日 申請日期2011年10月25日 優(yōu)先權日2010年10月25日
發(fā)明者辛鐘元, 埃里克·維瑟, 伊恩·埃爾納恩·劉 申請人:高通股份有限公司