背景技術:
在音頻和/或視頻電話會議環(huán)境中,遭遇與言語同時出現(xiàn)并且出現(xiàn)在言語之間的“無聲”停頓中的令人討厭的鍵盤鍵入噪聲是很常見的。示例場景是參與會議呼叫的某個人在會議正在進行的同時在其膝上型計算機上做筆記的場景、或者某個人在語音呼叫期間檢查其電子郵件的場景。當這種類型的噪聲出現(xiàn)在音頻數(shù)據(jù)中時,用戶表現(xiàn)出明顯的煩躁/分心。
技術實現(xiàn)要素:
為了提供對本公開的一些方面的基本理解,本發(fā)明內(nèi)容以簡化形式介紹了對概念的選擇。本發(fā)明內(nèi)容并非本公開的廣泛概述,并且既不旨在識別本公開的關鍵或者重要元素,也不旨在描繪本公開的范圍。本發(fā)明內(nèi)容僅僅呈現(xiàn)本公開的概念中的一些概念作為以下提供的具體實施方式的前言。
本公開大體上涉及用于信號處理的方法和系統(tǒng)。更具體地,本公開的方面涉及通過使用作為參考信號的來自輔助麥克風的輸入來抑制音頻信號中的瞬態(tài)噪聲。
本公開的一個實施例涉及一種用于抑制瞬態(tài)噪聲的計算機實現(xiàn)的方法,其包括:接收來自用戶裝置的第一麥克風的音頻信號輸入,其中,該音頻信號包含由第一麥克風捕獲的語音數(shù)據(jù)和瞬態(tài)噪聲;接收關于來自用戶裝置的第二麥克風的瞬態(tài)噪聲的信息,其中,該第二麥克風定位為與用戶裝置中的第一麥克風分開,并且該第二麥克風定位為接近瞬態(tài)噪聲的源;基于關于從第二麥克風接收到的瞬態(tài)噪聲的信息來估計瞬態(tài)噪聲在來自第一麥克風的音頻信號輸入中的貢獻;以及基于瞬態(tài)噪聲的所估計的貢獻從來自第一麥克風的音頻信號輸入中提取語音數(shù)據(jù)。
在另一實施例中,用于抑制瞬態(tài)噪聲的方法進一步包括:使用統(tǒng)計模型將第二麥克風映射到第一麥克風上。
在另一實施例中,用于抑制瞬態(tài)噪聲的方法進一步包括:基于從第二麥克風接收到的信息來調(diào)整瞬態(tài)噪聲在音頻信號中的所估計的貢獻。
在又一實施例中,在用于抑制瞬態(tài)噪聲的方法中調(diào)整瞬態(tài)噪聲的所估計的貢獻包括:按比例增加或者縮小所估計的貢獻。
在又一實施例中,用于抑制瞬態(tài)噪聲的方法進一步包括:基于經(jīng)過調(diào)整的所估計的貢獻,確定在來自第一麥克風的音頻信號輸入中在每個時間幀中瞬態(tài)噪聲在每個頻率處的所估計的功率水平。
在又一實施例中,用于抑制瞬態(tài)噪聲的方法進一步包括:基于在來自第一麥克風的音頻信號中在每個時間幀中瞬態(tài)噪聲在每個頻率處的所估計的功率水平,從由第一麥克風捕獲到的音頻信號中提取語音數(shù)據(jù)。
在另一實施例中,在用于抑制瞬態(tài)噪聲的方法中估計瞬態(tài)噪聲的貢獻包括:通過使用期望最大化算法來確定包含語音數(shù)據(jù)的音頻信號的一部分的map(最大后驗)估計。
本公開的另一實施例涉及一種用于抑制瞬態(tài)噪聲的系統(tǒng),所述系統(tǒng)包括:至少一個處理器和非暫時性計算機可讀介質(zhì),該非暫時性計算機可讀介質(zhì)耦合至該至少一個處理器,該非暫時性計算機可讀介質(zhì)具有存儲于其上的指令,該指令在由該至少一個處理器執(zhí)行時使該至少一個處理器:接收來自用戶裝置的第一麥克風的音頻信號輸入,其中,該音頻信號包含由第一麥克風捕獲的語音數(shù)據(jù)和瞬態(tài)噪聲;獲得關于來自用戶裝置的第二麥克風的瞬態(tài)噪聲的信息,其中,該第二麥克風定位為與用戶裝置中的第一麥克風分開,并且該第二麥克風定位為接近瞬態(tài)噪聲的源;基于關于從第二麥克風獲得的瞬態(tài)噪聲的信息來估計瞬態(tài)噪聲在來自第一麥克風的音頻信號輸入中的貢獻;以及基于瞬態(tài)噪聲的所估計的貢獻從來自第一麥克風的音頻信號輸入中提取語音數(shù)據(jù)。
在另一實施例中,進一步使在用于抑制瞬態(tài)噪聲的系統(tǒng)中的至少一個處理器:使用統(tǒng)計模型將第二麥克風映射到第一麥克風上。
在又一實施例中,進一步使在用于抑制瞬態(tài)噪聲的系統(tǒng)中的至少一個處理器:基于從第二麥克風獲得的信息來調(diào)整瞬態(tài)噪聲在音頻信號中的所估計的貢獻。
在又一實施例中,進一步使在用于抑制瞬態(tài)噪聲的系統(tǒng)中的至少一個處理器:通過按比例增加或者縮小所估計的貢獻來調(diào)整瞬態(tài)噪聲的所估計的貢獻。
在另一實施例中,進一步使在用于抑制瞬態(tài)噪聲的系統(tǒng)中的至少一個處理器:基于經(jīng)過調(diào)整的所估計的貢獻,確定在來自第一麥克風的音頻信號輸入中在每個時間幀中瞬態(tài)噪聲在每個頻率處的所估計的功率水平。
在又一實施例中,進一步使在用于抑制瞬態(tài)噪聲的系統(tǒng)中的至少一個處理器:基于在來自第一麥克風的音頻信號中在每個時間幀中瞬態(tài)噪聲在每個頻率處的所估計的功率水平,從由第一麥克風捕獲到的音頻信號中提取語音數(shù)據(jù)。
在又一實施例中,進一步使在用于抑制瞬態(tài)噪聲的系統(tǒng)中的至少一個處理器:通過使用期望最大化算法來確定包含語音數(shù)據(jù)的音頻信號的一部分的map(最大后驗)估計。
本公開的又一實施例涉及一種或者多種非暫時性計算機可讀介質(zhì),其存儲有計算機可執(zhí)行指令,該計算機可執(zhí)行指令在由一個或者多個處理器執(zhí)行時使該一個或者多個處理器執(zhí)行操作,該操作包括:接收來自用戶裝置的第一麥克風的音頻信號輸入,其中,該音頻信號包含由第一麥克風捕獲的語音數(shù)據(jù)和瞬態(tài)噪聲;接收關于來自用戶裝置的第二麥克風的瞬態(tài)噪聲的信息,其中,該第二麥克風定位為與用戶裝置中的第一麥克風分開,并且該第二麥克風定位為接近瞬態(tài)噪聲的源;基于關于從第二麥克風接收到的瞬態(tài)噪聲的信息來估計瞬態(tài)噪聲在來自第一麥克風的音頻信號輸入中的貢獻;以及基于瞬態(tài)噪聲的所估計的貢獻從來自第一麥克風的音頻信號輸入中提取語音數(shù)據(jù)。
在另一實施例中,存儲在一種或者多種非暫時性計算機可讀介質(zhì)中的計算機可執(zhí)行指令在由一個或者多個處理器執(zhí)行時使該一個或者多個處理器執(zhí)行進一步的操作,該進一步的操作包括:基于從第二麥克風接收到的信息來調(diào)整瞬態(tài)噪聲在音頻信號中的所估計的貢獻;基于經(jīng)過調(diào)整的所估計的貢獻,確定在來自第一麥克風的音頻信號輸入中在每個時間幀中瞬態(tài)噪聲在每個頻率處的所估計的功率水平;以及基于在來自第一麥克風的音頻信號中在每個時間幀中瞬態(tài)噪聲在每個頻率處的所估計的功率水平,從由第一麥克風捕獲到的音頻信號中提取語音數(shù)據(jù)。
在一個或者多個其它實施例中,本文所描述的方法和系統(tǒng)可以可選地包括以下附加特征中的一個或者多個:從第二麥克風接收到的信息包括關于瞬態(tài)噪聲的頻譜-振幅信息;瞬態(tài)噪聲的源是用戶裝置的鍵座;和/或包含在音頻信號中的瞬態(tài)噪聲是鍵點擊。
本公開的進一步的適用范圍將通過在下文中給出的具體實施方式而變得顯而易見。然而,應該理解,具體實施方式和具體示例在指示優(yōu)選實施例的同時僅僅以舉例的方式被給出,因為對本領域的技術人員而言,在本公開的精神和范圍內(nèi)的各種變化和修改通過該具體實施方式將變得顯而易見。
附圖說明
結合隨附權利要求書和附圖,通過對以下具體實施方式的研究,對于本領域的技術人員而言,本公開的這些和其它目標、特征和特性將變得更加顯而易見,所述權利要求書和附圖以及具體實施方式都形成本說明書的一部分。在附圖中:
圖1是圖示出了根據(jù)本文所描述的一個或者多個實施例的用于通過使用作為參考信號的來自輔助麥克風的輸入進行瞬態(tài)噪聲抑制的示例應用的示意圖。
圖2是圖示出了根據(jù)本文所描述的一個或者多個實施例的用于通過使用作為參考信號的輔助麥克風輸入信號來抑制音頻信號中的瞬態(tài)噪聲的示例方法的流程圖。
圖3是圖示出了根據(jù)本文所描述的一個或者多個實施例的用于主要麥克風和輔助麥克風的同時記錄的示例波形的一組圖形表示。
圖4是圖示出了根據(jù)本文所描述的一個或者多個實施例的瞬態(tài)噪聲檢測和恢復算法的示例性能結果的一組圖形表示。
圖5是圖示出了根據(jù)本文所描述的一個或者多個實施例的設置為通過并入作為參考信號的輔助麥克風輸入信號來抑制音頻信號中的瞬態(tài)噪聲的示例計算裝置的框圖。
本文所提供的標題僅僅是為方便而設,并且不一定影響本公開所要求的范圍或者意思。
在附圖中,為了易于理解并且為了方便起見,相同的附圖標記和任何首字母縮略詞識別具有相同的或者相似的結構或者功能的元素或者動作。附圖將在以下具體實施方式的過程中詳細描述。
具體實施方式
概述
現(xiàn)在將描述各種示例和實施例。以下描述為透徹地理解這些示例并且實現(xiàn)這些示例提供了具體細節(jié)。然而,相關領域的技術人員要理解,在沒有這些細節(jié)中的許多細節(jié)的情況下,可以實踐本文所描述的一個或者多個實施例。同樣,相關領域的技術人員也要理解,本公開的一個或者多個實施例可以包括本文并未詳細描述的許多其它明顯特征。另外,下面可能沒有詳細地示出或者描述一些已知的結構或者功能,從而避免不必要地使相關描述模糊。
如上面所討論的,當鍵盤鍵入噪聲出現(xiàn)在音頻和/或視頻會議期間時,用戶發(fā)現(xiàn)其是擾亂性的并且令人討厭的。因此,需要在不將可察覺的失真引入到所需言語的情況下去除這種噪聲。
本公開的方法和系統(tǒng)設計為克服便攜式用戶裝置(例如,膝上型計算機、平板計算機、移動電話、智能電話等)中的音頻流的瞬態(tài)噪聲抑制中存在的問題。根據(jù)本文所描述的一個或者多個實施例,與用戶裝置相關聯(lián)的一個或者多個麥克風記錄被環(huán)境噪聲破壞而且還被來自例如鍵盤和/或鼠標點擊的瞬態(tài)噪聲破壞的語音信號。如下面將更詳細地描述的,嵌入用戶裝置的鍵盤(本文有時可以將其稱為“鍵座(keybed)”麥克風)中的同步參考麥克風實現(xiàn)了對鍵點擊(keyclick)噪聲的測量,大體上不受語音信號和環(huán)境噪聲的影響。
根據(jù)本公開的至少一個實施例,提供在用于信號的語音部分的信號恢復過程中并入作為參考信號的鍵座麥克風的算法。
應該注意,本文所描述的方法和系統(tǒng)要解決的問題可能會因為非線性振動在用戶裝置的鉸鏈和殼體中的潛在存在而變得復雜,在一些場景中,非線性振動在用戶裝置的鉸鏈和殼體中的這種潛在存在可能會使得簡單的線性抑制器不起作用。此外,鍵點擊與語音麥克風之間的傳遞函數(shù)在很大程度上取決于點擊哪一個鍵。鑒于這些公認的復雜性和依賴性,本公開提供了一種低延時解決方案,其中,在短幀中順序地處理短時變換數(shù)據(jù),并且通過使用貝葉斯(bayesian)推斷過程來用公式表示并且估計魯棒統(tǒng)計模型。如在下文中將進一步描述的,因使用利用真實音頻記錄的本公開的方法和系統(tǒng)而產(chǎn)生的示例結果證明以少量語音失真為代價而顯著減少鍵入偽跡。
本文所描述的方法和系統(tǒng)設計為易于在標準硬件上實時操作,并且具有非常短的延時,使得在揚聲器響應中不存在刺激性延遲。包括例如基于模型的源分離和基于模板的方法的一些現(xiàn)有方法已經(jīng)在去除瞬態(tài)噪聲方面取得了一些成功。然而,這些現(xiàn)有方法的成功一直受限于更一般的音頻恢復任務,其中,更少關心的是實時低延時處理。雖然已經(jīng)提出其它現(xiàn)有方案(諸如,非負矩陣分解(nme)和獨立分量分析(ica))可以替代由本文所描述的方法和系統(tǒng)執(zhí)行的恢復類型,但是這些其它現(xiàn)有方案也受到各種延時和處理速度問題的拖累。另一種可能的恢復方案是包括指示按壓哪一個鍵并且何時按壓鍵的操作系統(tǒng)(os)消息。然而,許多系統(tǒng)上的依賴于os消息的所涉及的不確定延遲使得這種方案不實用。
已經(jīng)嘗試解決擊鍵(keystroke)去除問題的其它現(xiàn)有方案已經(jīng)使用了單端方法,在該單端方法中,在不訪問關于鍵敲擊(keystrike)的任何定時或者振幅信息的情況下,必須從音頻流中“盲”去除鍵盤瞬態(tài)部分。顯然,這種方案存在可靠性和信號保真度問題,并且言語失真可能是可聽見的并且/或者擊鍵保持不變。
與包括上述方案的現(xiàn)有方案不同,本公開的方法和系統(tǒng)將利用鍵盤噪聲的參考麥克風輸入信號和用于使鍵盤參考麥克風上的語音麥克風回歸的新魯棒貝葉斯統(tǒng)計模型,這在使語音和擊鍵噪聲的不需要的功率譜值邊緣化的同時實現(xiàn)了對所需的語音信號的直接推斷。另外,如下文將更詳細地描述的,本公開提供了一種用于快速、在線增強被破壞的信號的直接且高效的期望最大化(em)過程。
本公開的方法和系統(tǒng)具有多個現(xiàn)實應用。例如,方法和系統(tǒng)可以實施在計算裝置(例如,膝上型計算機、平板計算機等)中,該計算裝置具有位于鍵盤下方(或者在裝置上除一個或者多個主要麥克風所在的地方之外的一些其它位置處)的輔助麥克風以提高可以執(zhí)行的瞬態(tài)噪聲抑制處理的有效性和效率。
圖1圖示出了這種應用的示例100,其中,用戶裝置140(例如,膝上型計算機、平板計算機等)包括一個或者多個主要音頻捕獲裝置110(例如,麥克風)、用戶輸入裝置165(例如,鍵盤、按鍵、鍵座等)和輔助(例如,次要或者參考)音頻捕獲裝置115。
一個或者多個主要音頻捕獲裝置110可以捕獲由用戶120生成的言語/源信號(150)(例如,音頻源)以及由一個或者多個背景音頻源130生成的背景噪聲(145)。另外,由用戶120操作用戶輸入裝置165(例如,在經(jīng)由用戶裝置140參與音頻/視頻通信會話的同時在鍵盤上鍵入)生成的瞬態(tài)噪聲(155)也可以由音頻捕獲裝置110捕獲。例如,言語/源信號(150)、背景噪聲(145)和瞬態(tài)噪聲(155)的組合可以由音頻捕獲裝置110捕獲并且作為一個或者多個輸入信號(160)被輸入(例如,接收、獲得等)至信號處理器170。根據(jù)至少一個實施例,信號處理器170可以在客戶端處操作,同時,根據(jù)至少一個其它實施例,信號處理器可以在服務器處操作,該服務器通過網(wǎng)絡(例如,因特網(wǎng))與用戶裝置140通信。
輔助音頻捕獲裝置115可以定位在用戶裝置140內(nèi)(例如,在用戶輸入裝置165上、在用戶輸入裝置165下、在用戶輸入裝置165旁等)并且可以配置為測量與用戶輸入裝置165的交互。例如,根據(jù)至少一個實施例,輔助音頻捕獲裝置115測量通過與鍵座交互而生成的擊鍵。然后,可以使用由輔助麥克風115獲得的信息來更好地恢復被因與鍵座交互而產(chǎn)生的鍵點擊破壞的語音麥克風信號(例如,可以被瞬態(tài)噪聲(155)破壞的輸入信號(160))。例如,可以將由輔助麥克風115獲得的信息作為參考信號(180)輸入至信號處理器170。
如下文將更詳細地描述的,信號處理器170可以配置為通過使用來自輔助音頻捕獲裝置115的參考信號(180)對接收到的輸入信號(160)(例如,語音信號)執(zhí)行信號恢復算法。根據(jù)一個或者多個實施例,信號處理器170可以實施統(tǒng)計模型,以將輔助麥克風115映射到語音麥克風110上。例如,如果在輔助麥克風115上測量到鍵點擊,則信號處理器170可以使用統(tǒng)計模型將鍵點擊測量結果轉換為可以用來估計語音麥克風信號110中鍵點擊的貢獻的某物。
根據(jù)本公開的至少一個實施例,可以使用來自鍵座麥克風115的頻譜-振幅信息按比例增加或者縮小對語音麥克風中的擊鍵的估計。這導致在語音麥克風中在每個時間幀中鍵點擊噪聲在每個頻率處的估計功率水平。然后,可以基于在語音麥克風中在每個時間幀中鍵點擊噪聲在每個頻率處的該估計功率水平來提取語音信號。
在一個或者多個其它示例中,本公開的方法和系統(tǒng)可以用于移動裝置(例如,移動電話、智能電話、個人數(shù)字助理(pda))并且用于設計為通過言語識別控制裝置的各種系統(tǒng)。
下文提供了關于本公開的瞬態(tài)噪聲檢測和信號恢復算法的細節(jié),并且還描述了算法的一些示例性能結果。圖2圖示出了一種用于通過使用作為參考信號的輔助麥克風輸入信號來抑制音頻信號中的瞬態(tài)噪聲的示例高級過程200。下文將進一步描述示例過程200中的框205至215的細節(jié)。
記錄設置
為了進一步說明本文所描述的方法和系統(tǒng)的各個特征,根據(jù)本公開的一個或者多個實施例,以下提供了一種示例設置。在本場景中,參考麥克風(例如,鍵座麥克風)記錄鍵敲擊直接制造的聲音,并且將其用作輔助音頻流以幫助恢復主要語音信道。同樣可獲得,在語音麥克風波形xv和鍵座麥克風波形xk的44.1khz下采樣的同步記錄。鍵座麥克風放置在用戶裝置的主體中的鍵盤下,并且在聲學上與周圍環(huán)境隔離??梢院侠淼丶僭O由鍵座麥克風捕獲到的信號包含極少的所需言語和環(huán)境噪聲,并且因此充當污染擊鍵噪聲的良好參考記錄。從這一點開始,可以假設已經(jīng)使用本領域的技術人員熟知的任何合適的方法(例如,短時傅里葉變換(stft))將音頻數(shù)據(jù)變換為時頻域。例如,在stft的情況下,xv,j,t和xk,j,t將表示在某些頻率點j和時間幀t下的復頻率系數(shù)(盡管在以下描述中可以省略這些索引,其中,不會引入歧義作為結果)。
建模和推斷
一種方案可以建模語音波形,假設參考麥克風與語音麥克風之間的在頻率點j下的線性傳遞函數(shù)hj,并且假設沒有言語污染鍵座麥克風:
xv,j=vj+hjxk,j,
省略了時間幀索引,其中,v是所需語音信號并且h是從被測量的鍵座麥克風xk到語音麥克風的傳遞函數(shù)。然而,該公式呈現(xiàn)了一些很難的問題。例如,來自不同鍵的擊鍵將具有不同傳遞函數(shù),意味著將需要針對每個鍵學習大型傳遞函數(shù)庫,或者當按壓新鍵時,需要系統(tǒng)是非??焖龠m應的。另外,已經(jīng)在相同鍵上的重復鍵敲擊之間在來自真實系統(tǒng)的實驗測量到的傳遞函數(shù)中觀察到顯著隨機差異。對這些顯著差異的一個可能的解釋是,它們由設置在典型硬件系統(tǒng)中的非線性“顫動(rattle)”型振蕩造成。
因此,雖然線性傳遞函數(shù)方案在某些有限場景中可能是有用的,但是在大多數(shù)情況下這種方案都無法完全去除擊鍵干擾的影響。
鑒于上述問題,本公開提供了一種穩(wěn)健的基于信號的方案,其中,將傳遞函數(shù)中的隨機擾動和非線性建模為對語音麥克風處的測量到的擊鍵波形k的隨機影響:
xv,j=vj+kj,(1)
其中,v是所需語音信號并且k是不需要的鍵敲擊。
魯棒模型和先驗分布
根據(jù)本公開的至少一個實施例,可以針對頻域中的語音和鍵盤信號用公式表示統(tǒng)計模型。這些模型展示時頻域中的言語信號的已知特性(例如,稀疏性和重尾性(非高斯)行為)。以分布為逆伽馬分布的隨機變量將vj建模為條件復正態(tài)分布,普遍認為這相當于將vj建模為重尾學生t分布,
其中,~表示隨機變量是根據(jù)右側的分布來得出的,nc是復正態(tài)分布并且ig是逆伽馬分布。將先驗參數(shù)(αv,βv)調(diào)節(jié)為與言語的頻譜變異性和/或來自早期幀的先前估計的言語頻譜匹配,下文將對此進行更詳細的描述。已經(jīng)發(fā)現(xiàn)這種模型對很多音頻增強/分離域都是有效的,并且與本領域的技術人員熟知的其它高斯或者非高斯統(tǒng)計言語模型形成對比。
根據(jù)本文所描述的一個或者多個實施例,還依據(jù)重尾分布但是以其在次要參考信道xk,j上回歸的縮放比例來分解鍵盤分量k:
其中,α是以隨機增益因子縮放整個頻譜的隨機變量(應注意的是,在近似頻譜形狀對于縮放比例(例如,fj)已知的情況下,其可以例如是低通濾波器響應,該近似頻譜形狀可以僅通過用αfj替換α來整個被并入以下):
可以進行關于先驗分布的以下條件獨立性假設:(i)所有語音和鍵盤分量v和k分別是在其縮放參數(shù)σv/k的條件下跨越頻率和時間來獨立得出的;(ii)這些縮放參數(shù)是根據(jù)總體增益因子α從上述先驗結構條件來獨立得出的;并且(iii)所有這些分量獨立于輸入回歸變量xk的值是先驗的。這些假設在大多數(shù)情況下是合理的,并且簡化了概率分布的形式。
本公開的方法和系統(tǒng)至少部分是通過觀察鍵座麥克風與語音麥克風之間的頻率響應具有跨越頻率的基本上不變的增益幅度響應(其被建模為未知增益α,但是服從振幅和相位兩者的隨機擾動(由
根據(jù)一個或者多個實施例,本文所描述的方法和系統(tǒng)的目的在于基于觀察到的信號xv和xk來估計所需語音信號(vj)。因此,合適的干擾對象是后驗分布,
其中,(σk,σv)是當前時幀中的跨越所有頻率點j的縮放參數(shù){σk,j,σv,j}的集合。通過后驗分布,可以提取mmse(最小均方誤差)估計方案的期望值e[v︱xv,xk],或者以本領域的技術人員所熟知的方式獲得一些其它估計(例如,基于感知成本函數(shù))。這些期望通常是使用例如貝葉斯蒙特卡羅方法來處理的。然而,因為蒙特卡羅方案有可能導致非實時處理,所以本文所提供的方法和系統(tǒng)避免使用這種技術。相反,根據(jù)一個或者多個實施例,本公開的方法和系統(tǒng)通過使用廣義期望最大化(em)算法來利用map(最大后驗)估計:
其中,將α包括在優(yōu)化中以避免額外的數(shù)字積分。
em算法的發(fā)展
在em算法中,首先定義待被整合出來的潛在變量。在本模型中,這種潛在變量包括(σk,σv)。算法然后迭代地操作,開始于初始估計(v0,α0)。在迭代i中,完整數(shù)據(jù)對數(shù)似然的期望q可以如下計算(應該注意,以下是em的貝葉斯公式,其中,針對未知v和α包括先驗分布):
q((v,α),(v(i),α(i))
=e[log(p((v,α)|xk,xv,σv,σk))|(v(i),α(i))]
其中,(v(i),α(i))是(v,α)的第i次迭代估計。期望是關于p(σv,σκ︱α(i),v(i),xk,xv)而取得的,其在條件獨立性假設(上文所描述的)簡化為
其中,
在應用了條件獨立性假設的情況下,可以通過使用貝葉斯定理在頻率點j上如下擴展對數(shù)條件分布:
其中,符號
算法的期望部分因此簡化為以下:
其中,從上述行定義期望eα、
現(xiàn)在,考慮
因此,在第i次迭代中:
其是
通過相似的推理,可以獲得等式(5)中的
因此,在第i次迭代中:
將計算得到的期望代入q,算法的最大化部分使q與(v,α)共同最大化。由于模型的復雜結構,這種最大化難以以該q函數(shù)的閉合形式實現(xiàn)。相反,根據(jù)本文所描述的一個或者多個實施例,本公開的方法利用迭代公式來在α固定的情況下最大化v,然后在v固定在新的值的情況下最大化α,并且在每次em迭代內(nèi)重復此數(shù)次。這種方案是與標準em相似的廣義em,保證了對概率面的最大值的收斂性,因為保證每次迭代都提高了當前迭代的估計(例如,其可能是局部最大值,就像標準em一樣)的概率。因此,本文所描述的廣義em算法保證后驗概率在每次迭代時都不降低,并且因此可以期望后驗概率隨著迭代次數(shù)的增加而收斂成真map解。
省略(為了簡潔起見)在發(fā)現(xiàn)q相對于v和α的最大值中的代數(shù)步驟,可以得出以下的最大化步驟更新。符號可以是這樣,可以在每次迭代時用
并且對于α:
其中,j是頻率點的總數(shù)。
一旦上述em過程已經(jīng)運行了數(shù)次迭代,并且順利地收斂,就可以將結果頻譜分量vj變換回到時域(例如,在短時傅里葉變換(stft)的情況下經(jīng)由快速傅里葉逆變換(fft))并且通過窗口化重疊相加過程將該結果頻譜分量vj重新構建為連續(xù)信號。
示例
為了進一步說明本公開的信號恢復方法和系統(tǒng)的各個特征,下文描述了可以通過實驗獲得的一些示例結果。應該理解,雖然下文在包含位于鍵盤下方的輔助麥克風的膝上型計算機的背景下提供了示例性能結果,但是本公開的范圍并不限于該特定背景或者實施方式。相反,也可以在涉及其它類型的用戶裝置的各種其它背景和/或場景下通過使用本公開的方法和系統(tǒng)來實現(xiàn)相似的性能水平,該其它類型的用戶裝置包括例如位于用戶裝置上除鍵盤下方之外的位置處(但是不在與裝置的一個或者多個主要麥克風相同或者相似的位置處)的輔助麥克風。
本示例基于從膝上型計算機記錄的音頻文件,該膝上型計算機包含至少一個主要麥克風(例如,語音麥克風)還有位于鍵盤下方的輔助麥克風(例如,鍵座麥克風)。通過語音和鍵座麥克風以及使用廣義em算法執(zhí)行的處理在44.1khz下同步執(zhí)行采樣。以50%的重疊和漢寧分析窗口,1024個樣本的幀長度可以用于stft變換。
在本示例中,可以單獨記錄語音提取,并且然后單獨記錄擊鍵提取,并且然后將為了獲得被破壞的麥克風信號而記錄的信號加在一起,“地面實況(groundtruth)”恢復可用于該被破壞的麥克風信號??梢匀缦鹿潭ㄘ惾~斯模型的先驗參數(shù):
(1)先驗
(2)先驗
(3)先驗α~ig(αα,βα):αα=4,βα=100,000(αα+1),這將α2的先驗眾數(shù)放置在100,000處,這通過手從記錄數(shù)據(jù)的實驗分析調(diào)節(jié),其中,僅僅存在擊鍵噪聲。
在本示例中,通過測試em的各種配置確定結果在約十次迭代之后以很小的進一步改進收斂,其中每次完整em迭代具有等式(6)和(7)的廣義最大化步驟的兩次子迭代。然后可以為所有后續(xù)模擬固定這些參數(shù)。
重要的是要注意,根據(jù)本文所描述的一個或者多個實施例,可以將時域檢測器設計為標記被破壞的幀,并且可以僅僅將處理應用于被標記以檢測的幀,因此避免通過處理未被破壞的幀的不必要的信號失真和無用的計算。至少在本示例中,時域檢測器包括來自鍵座麥克風信號和兩個可用(立體)語音麥克風的檢測的基于規(guī)則的組合。在每個音頻流中,檢測基于自回歸(ar)誤差信號,并且當最大誤差幅度超過該幀的中間誤差幅度的某個因子時將幀標記為被破壞。
性能可以通過使用平均分段信噪比(snr)度量
結果說明在考慮完整言語提取時將平均值提高了約3db,并且當僅僅引入檢測為被破壞的幀時將平均值提高了6db至10db??梢酝ㄟ^調(diào)節(jié)先驗參數(shù)以在感知的信號失真與噪聲的抑制水平之間權衡來調(diào)整這些示例結果。雖然這些示例結果可能看上去有相對小的改善,但是與靜音信號相比較并且與被破壞的輸入音頻相比較,根據(jù)本公開的方法和系統(tǒng)而使用的em方案的感知效果有顯著改善。
圖4圖示出了根據(jù)本文所描述的一個或者多個實施例的示例檢測和恢復。在所有三個圖形表示410、420和430中,檢測為被破壞的幀由0-1波形440指示。這些示例檢測與對鍵點擊數(shù)據(jù)波形的可視化研究一致。
圖形表示410示出了來自語音麥克風的被破壞的輸入,圖形表示420示出了來自語音麥克風的恢復的輸出,并且圖形表示430示出了未受到任何破壞的初始語音信號(可用于本示例作為“地面實況”)。應該注意,在圖形表示420中,在很好地抑制105k樣本周圍的干擾的同時,在125k樣本和140k樣本周圍保留言語包絡和言語事件。從示例性能結果可以看出,音頻在恢復方面有顯著改善,留下極少的“點擊”殘留,該殘留可以通過本領域的技術人員所熟知的各種后處理技術來去除。在本示例中,針對被破壞的幀獲得在分段snr方面的有利的10.1db的改善(與使用“靜音恢復”相比),并且當考慮到所有幀(包括未被破壞的幀)時,獲得2.5db的改善。
圖5是根據(jù)本文所描述的一個或者多個實施例的設置為通過并入作為參考信號的輔助麥克風輸入信號來抑制音頻信號中的瞬態(tài)噪聲的示例性計算機(500)的高級框圖。根據(jù)至少一個實施例,計算機(500)可以配置為將空間選擇性用于分離直達和反射的能量并且單獨地計算噪聲,從而考慮波束成形器對反射聲的響應和噪聲的影響。在非常基本的配置(501)中,計算裝置(500)通常包括一個或者多個處理器(510)和系統(tǒng)存儲器(520)。存儲器總線(530)可以用于在處理器(510)和系統(tǒng)存儲器(520)之間進行通信。
取決于所需配置,處理器(510)可以具有任何類型,包括但不限于微處理器(μp)、微控制器(μc)、數(shù)字信號處理器(dsp)、或者其任何組合。處理器(510)可以包括一級或者多級緩存(諸如,一級緩存(511)和二級緩存(512))、處理器核心(513)、和寄存器(514)。處理器核心(513)可以包括算術邏輯單元(alu)、浮點單元(fpu)、數(shù)字信號處理核心(dsp核心)、或者其組合。存儲器控制器(515)也可以與處理器(510)一起使用,或者在一些實施方式中,存儲器控制器(515)可以是處理器(510)的內(nèi)部零件。
取決于所需配置,系統(tǒng)存儲器(520)可以具有任何類型,包括但不限于易失性存儲器(諸如,ram)、非易失性存儲器(諸如,rom、閃存等)、或者其組合。系統(tǒng)存儲器(520)通常包括操作系統(tǒng)(521)、一個或者多個應用(522)、和程序數(shù)據(jù)(524)。根據(jù)本文所描的一個或者多個實施例,應用(522)可以包括信號恢復算法(823),該算法用于通過使用關于從參考(例如,輔助)麥克風接收到的瞬態(tài)噪聲的信息來抑制包含語音數(shù)據(jù)的音頻信號中的瞬態(tài)噪聲,該參考(例如,輔助)麥克風定位為接近瞬態(tài)噪聲的源。根據(jù)本文所描的一個或者多個實施例,程序數(shù)據(jù)(524)可以包括存儲指令,該指令在由一個或者多個處理裝置執(zhí)行時實施一種
方法,該方法用于通過使用統(tǒng)計模型將參考麥克風映射到語音麥克風(例如,圖1所示的示例系統(tǒng)100中的輔助麥克風115和語音麥克風110)上來抑制瞬態(tài)噪聲,從而可以使用關于來自參考麥克風的瞬態(tài)噪聲的信息來估計瞬態(tài)噪聲在由語音麥克風捕獲到的信號中的貢獻。
另外,根據(jù)至少一個實施例,程序數(shù)據(jù)(824)可以包括參考信號數(shù)據(jù)(525),該參考信號數(shù)據(jù)(525)可以包括關于由參考麥克風(例如,圖1所示的示例系統(tǒng)100中的參考麥克風115)測量到的瞬態(tài)噪聲的數(shù)據(jù)(例如,頻譜-振幅數(shù)據(jù))。在一些實施例中,應用(522)可以設置為與程序數(shù)據(jù)(524)一起在操作系統(tǒng)(521)上運行。
計算裝置(500)可以具有附加特征或者功能、以及利于基礎配置(501)與任何所需裝置和接口之間的通信的附加接口。
系統(tǒng)存儲器(520)是計算機存儲介質(zhì)的示例。該計算機存儲介質(zhì)包括但不限于:ram、rom、eeprom、閃存或者其它存儲技術、cd-rom、數(shù)字多用盤(dvd)或者其它光學存儲裝置、磁帶盒、磁帶、磁盤存儲裝置獲取其它磁存儲裝置、或者可以用于存儲所需信息并且可以由計算裝置500訪問的任何其它介質(zhì)。任何這種計算機存儲介質(zhì)可以是裝置(500)的部分。
計算裝置(500)可以實施為小型便攜式(或者移動)電子裝置的一部分,諸如,蜂窩電話、智能電話、個人數(shù)字助理(pda)、個人媒體播放器裝置、平板計算機(平板電腦)、無線網(wǎng)頁觀看裝置、個人頭戴式裝置、專用裝置、或者混合裝置,其包括上述功能中的任何一種。計算裝置(500)也可以實施為個人計算機,包括膝上型計算機配置和非膝上型計算機配置兩者。
前述具體實施方式已經(jīng)經(jīng)由框圖、流程圖和/或示例的使用來陳述了裝置和/或過程的各種實施例。由于這種框圖、流程圖和/或示例包含一種或者多種功能和/或操作,本領域的技術人員要理解,可以通過大范圍的硬件、軟件、固件、或者它們的幾乎所有組合單獨地和/或共同地實施在這種框圖、流程圖或示例內(nèi)的每種功能和/或操作。根據(jù)至少一個實施例,本文所描述的主題的多個部分可以經(jīng)由專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)、數(shù)字信號處理器(dsp)、或者其它集成格式實施。然而,本領域的技術人員要認識到,本文所公開的實施例的一些方面可以全部或者部分等效地實施在集成電路中,作為在一個或者多個計算機上運行的一個或者多個計算機程序,作為在一個或者多個處理器上運行的一個或者多個程序,作為固件,或者作為它們的幾乎所有組合,并且根據(jù)本公開,設計電路系統(tǒng)和/或為軟件和/或固件寫代碼將很好地在本領域的技術人員的技術范圍內(nèi)。
另外,本領域的技術人員要了解,本文所描述的主題的機制能夠作為各種形式的程序產(chǎn)品發(fā)布,并且使用了本文所描述的主題的說明性實施例,不管用于實際上執(zhí)行發(fā)布的特定類型的非暫時性信號承載介質(zhì)。非暫時性信號承載介質(zhì)的示例包括但不限于以下:可記錄型介質(zhì),諸如,軟盤、硬盤驅動器、光盤(cd)、數(shù)字視盤(dvd)、數(shù)字磁帶、計算機存儲器等;以及傳輸型介質(zhì),諸如,數(shù)字和/或模擬通信介質(zhì)(例如,光纖電纜、波導、有線通信鏈路、無線通信鏈路等)。
本文關于任何復數(shù)形式和/或單數(shù)形式的術語的實質(zhì)上的使用,在適合上下文和/或應用時,本領域的技術人員可以從復數(shù)形式轉換為單數(shù)形式并且/或者從單數(shù)形式轉換為復數(shù)形式。為清晰起見,可以明確地陳述各種單數(shù)形式/復數(shù)形式置換。
因此,已經(jīng)描述了本主題的具體實施例。其它實施例在以下權利要求書的范圍內(nèi)。在某些情況下,在權利要求書中敘述的動作可以按照不同的次序來執(zhí)行并且仍然獲得期望的結果。另外,在附圖中描繪的過程不必要求所示的特定次序或者相繼次序來獲得期望的結果。在某些實施方式中,多任務處理和并行處理可能是有益的。