噪,并對去噪后的不同波束方向 的語音信號進行預(yù)識別,得到目標說話人方向,后續(xù)對目標說話人方向上去噪后的語音信 號進行語音識別,獲得語音識別結(jié)果。有效地提高了智能交互系統(tǒng)的識別準確性及穩(wěn)定性, 進而提高人機交互的智能性。
【附圖說明】
[0047] 為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一 些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0048]圖1是本發(fā)明實施例基于圓形麥克風(fēng)陣列的智能交互方法的一種流程圖;
[0049] 圖2是本發(fā)明實施例基于圓形麥克風(fēng)陣列接收語音信號的一種示意圖;
[0050] 圖3是本發(fā)明實施例基于圓形麥克風(fēng)陣列的智能交互系統(tǒng)的一種結(jié)構(gòu)示意圖;
[0051] 圖4是本發(fā)明實施例基于圓形麥克風(fēng)陣列的智能交互系統(tǒng)的另一種結(jié)構(gòu)示意圖。
【具體實施方式】
[0052] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施 方式對本發(fā)明實施例作進一步的詳細說明。
[0053] 如圖1所示,是本發(fā)明實施例基于圓形麥克風(fēng)陣列的智能交互方法的一種流程 圖,包括以下步驟:
[0054] 步驟101,通過圓形麥克風(fēng)陣列接收用戶語音信號。
[0055] 在本實施例中,通過圓形麥克風(fēng)陣列可以接收全方位的用戶語音信號。本發(fā)明采 用的圓形麥克風(fēng)陣列中的陣元可以是均勻分布,也可以根據(jù)實際應(yīng)用情況非均勻分布,如 預(yù)先得知在某些方位目標說話人出現(xiàn)的概率較大,則可在其對應(yīng)方向多布局麥克風(fēng),在其 他位置麥克風(fēng)布置稀疏一些,以增強特定方向上的語音信號接收能力。
[0056] 此外,還可以在圓形麥克風(fēng)陣列的中心加入一個麥克風(fēng)來改善波束形成能力。因 陣列中心的麥克風(fēng)可以視為一個半徑為〇、麥克風(fēng)個數(shù)為無限個的圓形麥克風(fēng)陣列,當(dāng)在陣 列中心添加一個麥克風(fēng),這相當(dāng)于以一個麥克風(fēng)陣元的代價在原有麥克風(fēng)陣列基礎(chǔ)上增加 了一個圓形麥克風(fēng)陣列。對于麥克風(fēng)陣列,陣元個數(shù)越多,主瓣越窄,旁瓣越低,麥克風(fēng)陣列 接收語音信號的能力越強,其中旁瓣的高低主要由零點個數(shù)決定,在實際使用中,麥克風(fēng)越 多,自由度越多,可形成的零點個數(shù)越多,故在中心增加麥克風(fēng),可以得到更好的旁瓣效果, 以增強麥克風(fēng)陣列接收語音信號的能力。
[0057] 步驟102,對所述語音信號進行去噪處理,得到去噪后的語音信號。
[0058] 在本實施例中,通過將麥克風(fēng)接收的語音信號轉(zhuǎn)換成頻域信號,并計算所述頻域 信號的優(yōu)化參數(shù),然后以其對所述頻域信號進行優(yōu)化,從而對噪聲進行抑制,得到輸出較為 干凈的語音信號。具體過程如下:
[0059] 首先,將麥克風(fēng)陣列收集到的語音信號轉(zhuǎn)換為頻域信號。
[0060] 在實際應(yīng)用中,考慮到語音信號為帶寬信號,對于不同頻點需要分別處理,所以需 要將麥克風(fēng)收集到的時域信號轉(zhuǎn)換為頻域信號。在本實施例中,假設(shè)聲源信號為Sd(t),參 考麥克風(fēng)接收的聲源信號為u(t),所述參考麥克風(fēng)可以根據(jù)實際應(yīng)用情況選定圓形麥克風(fēng) 陣列中的任意麥克風(fēng)作為參考麥克風(fēng),定義第m個麥克風(fēng)接收的信號為(t),那么第m個 麥克風(fēng)相對于參考點陣元的時延為,如圖2所示,于是vm(t)可以表示為式(1):
[0061] vm(t) =u(t-Tm) (1)
[0062] 然后對式(1)進行傅里葉變換,將第m個麥克風(fēng)接收的時域信號vm(t)轉(zhuǎn)換成頻 域信號vm(f),具體如式(2)所示:
[0063]
[0064] 其中,f表示信號的頻率。
[0065] 接著,對上述頻域信號進行加權(quán)求和得到波束的輸出信號,以達到對期望方向語 音信號進行增強及去除混響的目的,一種可行的實施方式如下所示:
[0066]假設(shè)聲源信號sd(t)的入射方向角為9,第m個麥克風(fēng)的權(quán)值為wjf),則M個麥 克風(fēng)輸出波束即全部麥克風(fēng)加權(quán)求和的輸出為:
[0067] y(f) =u(f)w(f)Ha( 0 ) (3)
[0068] 其中,w(f)H=[wi(f),w2(f),--wm(f)]H (4)
[0069] w(f)H是加權(quán)矢量;
[0070]
[0071] 其中,a( 9 )是導(dǎo)向矢量,表不不同麥克風(fēng)對于期望方向的空間響應(yīng),t1]]與入射方 向角度9和陣列結(jié)構(gòu)有關(guān),H表示矩陣轉(zhuǎn)置。
[0072] 特別地,當(dāng)t1=〇時,表示參考麥克風(fēng)相對于自身的時延為〇。
[0073]在本發(fā)明實施例中,可以從以下兩點來衡量波束性能,S卩:指向性參數(shù)和白噪聲增 益。其中,指向性參數(shù)為期望信號相對于全向噪聲的輸出信噪比和麥克風(fēng)的輸入信噪比的 比值,一般指向性參數(shù)越大,說明波束的空間指向性越好。白噪聲增益為陣列輸出信噪比和 麥克風(fēng)的輸入信噪比的比值,相對于全向噪聲,白噪聲可以視為與期望信號來自同一方向 的噪聲信號,白噪聲增益越大,意味著波束形成對白噪聲的抑制能力越強。此外,由于陣元 間差異引入的誤差可以看作為白噪聲,白噪聲增益又是衡量陣列魯棒性的重要參數(shù)。
[0074] 在本實施例中,所述指向性參數(shù)的計算過程如下所示:
[0075] 首先,定義Sf(f)為干凈的聲源信號的功率,Sn(f)為全向噪聲的功率,則經(jīng)過波束 形成處理前的信噪比(麥克風(fēng)的輸入信噪比)如式(6)所示:
[0076]
[0077] 假設(shè)全向噪聲來自于各個方向,并且是均勻分布的,則經(jīng)過波束形成處理后的輸 出信噪比如式(7)所示:
[0078]
[0079] 其中,sn(f)是全向噪聲頻域信號,Gnf[w(f)]為指向性參數(shù),其具體表達式如式 (8)所示:
[0080]
[0081] 其中,R= / 0a( 9 )a( 9)Hd9表示全向噪聲的導(dǎo)向矢量相關(guān)矩陣。指向性參數(shù)Gnf[w(f)]表示期望信號經(jīng)過波束形成后相對于全向噪聲的信噪比增益。由于干擾信號可 以視為來自某一方向的噪聲,指向性參數(shù)Gnf[w(f)]越大,意味著抑制干擾的能力越強,因 此指向性參數(shù)反映了波束對干擾方向的抑制能力。
[0082] 在實際應(yīng)用中,為了保證波束無失真地接收期望方向的信號,需要增加無畸變約 束,g卩w(f)Ha(0) = 1,則指向性參數(shù)可以簡化為如式(9)所示:
[0083]
[0084] 因此最大化指向性參數(shù),等價于最小化指向性參數(shù)的分母w(f)HRw(f)。
[0085] 所述白噪聲增益的計算過程如下:
[0086] 假設(shè)每個麥克風(fēng)的白噪聲sw(f)是均勻分布的,則陣列輸出信號信噪比如式(10) 所示:
[0087]
[0088] 其中第二個等號由無畸變約束w(f)Ha( 0 ) = 1得到。
[0089] 則根據(jù)白噪聲增益的定義得到其表達式如式(11)所示:
[0090]
[0091] 在實際應(yīng)用中,為了保證陣列較高的白噪聲抑制能力和較強的波束穩(wěn)健性,需要 白噪聲增益大于某一閾值,即Gwf[w(f)] >G。
[0092] 因此,在本實施例中,最大化指向性參數(shù),并進行白噪聲增益,具體可如式(12)所 示:
[0093]
[0094] 進一步地,