本發(fā)明涉及一種用于向用戶提供聽力輔助的系統(tǒng),所述系統(tǒng)包括發(fā)送單元,所述發(fā)送單元包括用于從使用所述發(fā)送單元的說話者的語音中捕獲音頻信號的麥克風(fēng)裝置,并且所述發(fā)送單元被適配成經(jīng)由無線rf鏈路將音頻信號作為射頻(rf)信號來發(fā)送,所述系統(tǒng)包括要被佩戴在用戶的左耳處或至少部分地佩戴在用戶的左耳中的左耳聽力設(shè)備,以及要被佩戴在用戶的右耳處或至少部分地佩戴在用戶的右耳中的右耳聽力設(shè)備,每個聽力設(shè)備被適配成刺激用戶的聽力并經(jīng)由無線rf鏈路從發(fā)送單元接收rf信號,并且每個聽力設(shè)備包括用于從環(huán)境聲捕獲音頻信號的麥克風(fēng)裝置;所述聽力設(shè)備被適配成經(jīng)由雙耳鏈路彼此進行通信。
背景技術(shù):
通過實現(xiàn)無線麥克風(fēng)來增加信噪比(snr)的這樣的系統(tǒng)已經(jīng)知道了許多年了,并且其通常向左耳和右耳兩者呈現(xiàn)具有相同的幅值和相位的同一單耳信號。盡管這樣的系統(tǒng)獲得了可能的最佳snr,但是信號中沒有空間信息,從而用戶無法知道信號是從哪來的。作為實際的示例,聽力受損的學(xué)生在教室中裝備有這樣的系統(tǒng),當(dāng)他在讀書的同時專注在他的工作上時,同時老師在教室中四處走動并突然開始對他講話,該學(xué)生不得不抬起頭并且開始任意地在左邊或右邊尋找老師,因為他無法直接找到老師在哪,這是由于他在兩個耳朵上都感知到相同的聲音。
通常而言,能夠定位聲音是非常重要的,特別是預(yù)示危險的聲音(例如,在過馬路時汽車靠近,則觸發(fā)警報…)。在每天的生活中,將頭轉(zhuǎn)向到來的聲音的方向是非常常見的。
公知的是,正常聽力的人具有幾度的方位定位精確度。取決于聽力損失,聽力受損的人可能具有低得多的能力來感覺聲音從哪來,并且可能幾乎無法檢測聲音來自左邊還是右邊。
近幾年來助聽器中的雙耳聲音處理已經(jīng)是可用的,但正面臨幾個問題。首先,兩個助聽器是獨立的設(shè)備,這暗示不同步的時鐘以及一同處理兩個信號的困難。還必須考慮到聲學(xué)限制:較低的snr和混響對于雙耳處理來說是有害的,并且有可能存在幾個聲源使得使用雙耳算法是棘手的。
在2008年10月德國aachen的itg-fachtagungsprachkommunikation第8期中由t.rohdenburg等人所著的文章“combinedsourcetrackingandnoisereductionforapplicationinhearingaids(針對在聽力輔助中應(yīng)用的組合的源跟蹤和噪聲減小)”解決了助聽器的聲源到達方向(doa)估計的問題。作者假定在左助聽器與右助聽器之間存在雙耳連接,討論了“在不久的將來”可以從一個設(shè)備向另一個發(fā)送全頻帶音頻信息。他們的算法是基于在允許使用所謂的srp-phat方法(相變互相關(guān)上的轉(zhuǎn)向響應(yīng)功率)的6個音頻信道(每個耳朵3個)上的互相關(guān)的。
在2013年的journalofappliedsciences(應(yīng)用科學(xué))13(8):1239-1244中由w.qingyun等人所著的文章“soundlocalizationanddirectedspeechenhancementindigitalhearingaidinreverberationenvironment(數(shù)字助聽器在混響環(huán)境中的聲音定位和定向語音增強)”提出了針對眼鏡數(shù)字助聽器的三維(3d)doa估計和定向語音增強方案。doa估計是基于多信道自適應(yīng)特征值分解算法(aed)的,并且語音增強是由寬帶波束過程確保的。再一次,作者假設(shè)所有的音頻信號是可用的和可比較的,并且他們的解決方案需要設(shè)置在眼鏡臂上的4個麥克風(fēng)。已經(jīng)在2007年的tencon,ieeeregion10conference的1-4頁中的由w.-c.wu等人所著的文章“hearingaidsystemwith3dsoundlocalization(具有3d聲音定位的聽力輔助系統(tǒng))”中通過佩戴在病人的胸部的5麥克風(fēng)陣列而解決了針對聽力受損的人的3d定位。
wo2011/015675a2涉及具有無線麥克風(fēng)的雙耳聽力輔助系統(tǒng),其使得能夠?qū)κ褂脽o線麥克風(fēng)的說話者進行方位角度定位,并且根據(jù)定位信息從無線麥克風(fēng)導(dǎo)出的音頻信號的“空間化”?!翱臻g化”指的是根據(jù)發(fā)送單元的所估計的角度定位,將經(jīng)由無線rf鏈路從發(fā)送單元所接收的音頻信號分配到提供至左耳聽力設(shè)備的左耳信道上以及提供至右耳聽力設(shè)備的右耳信道上(以使得如由用戶所感知的來自每個發(fā)送單元的音頻信號的角度定位印象與相應(yīng)的發(fā)送單元的所估計的角度定位相對應(yīng)的方式)。根據(jù)wo2011/015675a2,通過根據(jù)相應(yīng)的發(fā)送單元的所估計的角度定位而引入音頻信號的左耳信道信號部分和右耳信道信號部分之間的相對聲音水平差和/或相對相位差,將所接收的音頻信號分配到左耳信道和右耳信道上。根據(jù)一個示例,對在右耳助聽器和在左耳助聽器處所接收到的無線信號的接收信號強度指示符(“rssi”)進行比較,以便從rssi值的差來確定方位角度定位,所述方位角度定位預(yù)計是由頭影效應(yīng)所引起的。根據(jù)可替代的示例,通過以下方式來估計方位角度定位:測量無線信號以及在每個助聽器處本地拾起的麥克風(fēng)信號的到達時間,以及根據(jù)計算無線信號與本地麥克風(fēng)信號之間的相關(guān)性而確定的無線信號和相應(yīng)的本地麥克風(fēng)信號之間的到達時間差。
us2011/0293108a1涉及一種雙耳聽力輔助系統(tǒng),其中,聲音源的方位角度定位是通過對由右耳聽力設(shè)備和左耳聽力設(shè)備所捕獲的音頻信號的自相關(guān)以及耳間互相關(guān)來確定的,并且其中,以根據(jù)所確定的角度定位來增加音頻源的空間化的方式來處理和混合音頻信號。
類似的雙耳聽力輔助系統(tǒng)是從wo2010/115227a1已知的,其中,當(dāng)在系統(tǒng)用戶的兩耳上撞擊時,從聲音源發(fā)出的聲音的耳間聲音水平差(“ild”)和耳間時間差(“itd”)用于確定聲音源的角度定位。
us8,526,647b2涉及一種雙耳聽力輔助系統(tǒng),其包括每個聽力設(shè)備處的無線麥克風(fēng)以及兩個耳朵水平的麥克風(fēng)。由麥克風(fēng)所捕獲的音頻信號以增強角度定位提示,特別是實現(xiàn)波束成形器的方式而被處理。
us8,208,642b2涉及一種雙耳聽力輔助系統(tǒng),其中,單耳音頻信號在被無線地發(fā)送至兩個耳朵水平聽力設(shè)備之前以如下方式被處理:通過調(diào)整耳間延遲和耳間聲音水平差來提供所接收的音頻信號的空間化,其中,還可以將有關(guān)頭的傳輸函數(shù)(hrtf)考慮在內(nèi)。
此外,wo2007/031896a1涉及一種音頻信號處理單元,其中,通過使用通過轉(zhuǎn)換空間參數(shù)所獲得的雙耳參數(shù)來將音頻信道轉(zhuǎn)換成一對雙耳輸出信道。
技術(shù)實現(xiàn)要素:
本發(fā)明的一個目的在于提供一種包括無線麥克風(fēng)的雙耳聽力輔助系統(tǒng),其中,由無線麥克風(fēng)所提供的音頻信號可以由聽力設(shè)備的用戶以與無線麥克風(fēng)的用戶的角度定位相對應(yīng)的“經(jīng)空間化”的方式來感知,其中,所述聽力設(shè)備具有相對低的功耗,而空間化函數(shù)針對混響和背景噪聲是魯棒的。本發(fā)明的另一個目標(biāo)是提供一種對應(yīng)的聽力輔助方法。
根據(jù)本發(fā)明,這些目標(biāo)分別是由如在權(quán)利要求1中所定義的聽力輔助系統(tǒng)和如在權(quán)利要求39中所定義的聽力輔助方法來實現(xiàn)的。
本發(fā)明是有益的,這在于通過使用從發(fā)送單元所接收的rf音頻信號作為相位參考,以用于間接地確定在由右耳聽力設(shè)備麥克風(fēng)所捕獲的音頻信號與由左耳聽力設(shè)備麥克風(fēng)所捕獲的音頻信號之間的耳間相位差,消除了在聽力設(shè)備之間交換音頻信號以便確定耳間相位差而的需求,由此降低了在雙耳鏈路上所發(fā)送的數(shù)據(jù)的量以及功率。另一方面,通過不僅使用所估計的耳間相位差,還使用耳間音頻信號水平差以及耳間rf信號差(例如,耳間rssi差),有可能增加角度定位估計的穩(wěn)定性及其針對混響和背景噪聲的魯棒性,以使得增強角度定位估計的可靠性。
在獨立權(quán)利要求中定義了本發(fā)明的優(yōu)選實施例。
附圖說明
在下文中,將通過參考附圖來示出本發(fā)明的示例,其中:
圖1和2是根據(jù)本發(fā)明的聽力輔助系統(tǒng)的示例的典型使用情形的示圖;
圖3是根據(jù)包括多個發(fā)送設(shè)備的本發(fā)明的聽力輔助系統(tǒng)的示例的使用情形的示圖;
圖4是根據(jù)本發(fā)明的聽力輔助系統(tǒng)的音頻發(fā)送設(shè)備的框圖的示意性示例;
圖5是根據(jù)本發(fā)明的聽力輔助系統(tǒng)的聽力設(shè)備的示例的示意性框圖;
圖6是由本發(fā)明所使用的用于估計無線麥克風(fēng)的角度定位的信號處理的示例的框圖;以及
圖7是圖6的ipd框的流程圖的示例。
具體實施方式
根據(jù)在圖1和2中所示出的示例,根據(jù)本發(fā)明的聽力輔助系統(tǒng)的示例可以包括發(fā)送單元10,發(fā)送單元10包括用于從使用發(fā)送單元10的說話者11的語音中捕獲音頻信號的麥克風(fēng)裝置17,并且發(fā)送單元10被適配成經(jīng)由無線rf鏈路12向用于佩戴或至少部分地佩戴在聽力設(shè)備用戶13的左耳處的左耳聽力設(shè)備16b以及用于佩戴或至少部分地佩戴在用戶13的右耳處的右耳聽力設(shè)備16a發(fā)送作為rf信號的音頻信號,其中,兩個聽力設(shè)備16a、16b都被適配成刺激用戶的聽力并且經(jīng)由無線rf鏈路12從發(fā)送單元10接收rf信號,并且兩個聽力設(shè)備包括用于從環(huán)境聲音中捕獲音頻信號的麥克風(fēng)裝置62(參見圖5)。聽力設(shè)備16a、16b也被適配成經(jīng)由雙耳鏈路15彼此進行通信。此外,當(dāng)根據(jù)經(jīng)處理的音頻信號來刺激用戶的聽力時,聽力設(shè)備16a、16b能夠估計發(fā)送單元10的方位角度定位并且以用于創(chuàng)建聽力感知的方式來處理從發(fā)送單元10所接收的音頻信號,其中,來自發(fā)送單元10的音頻信號的角度定位印象與發(fā)送單元10的所估計的方位角度定位相對應(yīng)。
聽力設(shè)備16a和16b能夠以以下方式來估計發(fā)送單元10的角度定位,所述方式利用以下事實:每個聽力設(shè)備16a、16b一方面經(jīng)由rf鏈路12從發(fā)送單元10接收作為rf信號的說話者11的語音,并且另一方面接收作為由麥克風(fēng)裝置62轉(zhuǎn)換成對應(yīng)的音頻信號的聲學(xué)(聲音)信號21的說話者11的語音。通過以雙耳的方式來分析這兩個不同的音頻信號,執(zhí)行對發(fā)送單元10和說話者11的角度定位的可靠的但相對簡單的估計(在圖2中由角“α”示出,其指示了聽力設(shè)備13的觀察方向23(用戶的“觀察方向”將被理解為用戶的鼻子所指向的方向)的偏差)與聲音沖擊方向25的偏差)。
幾個音頻參數(shù)由每個聽力設(shè)備16a、16b本地地確定,并且接著經(jīng)由雙耳鏈路15被交換以確定相應(yīng)的參數(shù)的耳間差,以便從這些耳間差來估計說話者11/發(fā)送單元10的角度定位。更加詳細地,每個聽力設(shè)備16a、16b確定由相應(yīng)的聽力設(shè)備所接收的rf信號的水平(通常為rssi值)。所接收的rf信號水平的耳間差是由rf信號被人類組織吸收(“頭部陰影效應(yīng)”)所引起的,以使得耳間rf信號水平差被預(yù)期為隨著發(fā)送單元10的方向25與收聽者13的觀察方向23的偏差α的增加而增加。
此外,確定了由每個聽力設(shè)備16a、16b的麥克風(fēng)裝置62所捕獲的音頻信號的水平,這是由于聲音水平的耳間差(“耳間水平差ild”)也隨著由于聲波被人類組織吸收/反射所導(dǎo)致的角度α的增加而增加(由于由麥克風(fēng)裝置62所捕獲的音頻信號的水平與聲音水平成正比,所以音頻信號水平的耳間差與ild相對應(yīng))。
此外,由聽力設(shè)備16a、16b所接收的聲波21的耳間相位差(ipd)也是由每個聽力設(shè)備16a、16b確定的,其中,在至少一個頻帶中,每個聽力設(shè)備16a、16b確定從發(fā)送單元10經(jīng)由rf鏈路12接收的音頻信號與由相同的聽力設(shè)備16a、16b的麥克風(fēng)裝置62所捕獲的相應(yīng)的音頻信號之間的相位差,其中,由右耳聽力設(shè)備所確定的相位差與由左耳聽力設(shè)備所確定的相位差之間的耳間差與ipd相對應(yīng)。在本文中,將經(jīng)由rf鏈路12從發(fā)送單元10接收的音頻信號當(dāng)作參考,以使得無需交換由兩個聽力設(shè)備16a、16b的麥克風(fēng)裝置62經(jīng)由雙耳鏈路15所捕獲的音頻信號,而僅僅是一些測量結(jié)果。ipd隨著由于相應(yīng)的耳朵/聽力設(shè)備到說話者11的距離的耳間差的增加引起的角α的增加而增加。
盡管在原理上,耳間rf信號水平差、ild、和ipd三個參數(shù)中的每個參數(shù)可以獨自用于對說話者11/發(fā)送單元10的角度定位α進行粗略估計,但將所有這三個參數(shù)都考慮在內(nèi)的估計提供了可靠得多的結(jié)果。
為了增強角度定位估計的可靠性,可以在每個聽力設(shè)備中進行相干估計(ce),其中,對從發(fā)送單元10所接收的音頻信號與由相應(yīng)的聽力設(shè)備16a、16b的麥克風(fēng)裝置62所捕獲的音頻信號之間的相關(guān)程度進行估計,以便根據(jù)所估計的相關(guān)程度來調(diào)整發(fā)送單元10的方位角度定位的估計的角分辨率。特別地,較高的相關(guān)程度指示存在“好的”聲學(xué)條件(例如,低的混響、低的背景噪聲、說話者11與收聽者13之間的小的距離等),這使得由聽力設(shè)備16a、16b所捕獲的音頻信號與經(jīng)由rf鏈路12從發(fā)送單元10所接收的經(jīng)解調(diào)的音頻信號相比沒有顯著失真。從而,可以隨著所估計的相關(guān)程度的增加來增加角度定位估計過程的角分辨率。
由于對說話者11/發(fā)送單元10的角度定位的有意義的估計僅在說話者11說話的時間期間才是可能的,因此發(fā)送單元10優(yōu)選地包括語音活動檢測器(vad),所述vad提供了指示“語音開”(或“vad真”)或“語音關(guān)”(或“vad偽”)的輸出,所述輸出經(jīng)由rf鏈路12而被發(fā)送至聽力設(shè)備16a、16b,以使得僅僅在接收到“話音開”信號的時間期間實行聽力設(shè)備16a、16b中的相干性估計、ild確定、和ipd確定。相比之下,由于在說話者11沒有說話的時間期間也可以經(jīng)由rf鏈路12來接收rf信號,因此也可以在說話者11沒有說話的時間期間實行rf信號水平確定。
在圖6中示出了迄今為止所描述的角度定位估計的示例的示意圖,根據(jù)該示意圖,聽力設(shè)備16a、16b經(jīng)由雙耳鏈路15交換以下參數(shù):一個rssi值、一個相干性估計(ce)值、指示所捕獲的音頻信號水平的一個rms(均方根)值、以及至少一個相位值(優(yōu)選地,ipd是在三個頻帶中確定的,以使得針對每一頻帶交換一個相位值)。
盡管vad優(yōu)選地是在發(fā)送單元10中提供的,但也可以想得到的是,較不優(yōu)選地,在聽力設(shè)備中的每個聽力設(shè)備中實現(xiàn)vad,并且接著從經(jīng)由rf鏈路12所接收的經(jīng)解調(diào)的音頻信號中檢測語音活動。
根據(jù)圖6的示例,角度定位估計過程接收以下輸入:表示rf信號水平的rssi值(其中,在下文中“rssil”指定了由左耳聽力設(shè)備所捕獲的無線信號的水平,而在下文中“rssir”指定了由右耳聽力設(shè)備所捕獲的無線信號的水平)、由聽力設(shè)備的麥克風(fēng)裝置62所捕獲的音頻信號au(其中,在下文中“aul”指定了由左耳聽力設(shè)備所捕獲的音頻信號au,而在下文中,“aur”指定了由右耳聽力設(shè)備所捕獲的音頻信號au)、經(jīng)由rf鏈路12所接收到的經(jīng)解調(diào)的音頻信號(rx)和經(jīng)由rf鏈路12所接收到的vad狀態(tài)(可替代地,如在上文中所提及的,通過分析經(jīng)解調(diào)的音頻信號可以確定左聽力設(shè)備和右聽力設(shè)備中的vad狀態(tài))。
針對每個聽力設(shè)備,角度定位估計過程的輸出是發(fā)送單元10/說話者11最有可能位于的角扇區(qū),其中,所述信息接著被用作對經(jīng)解調(diào)的音頻信號的空間化處理的輸入。
在下文中,將更加詳細地描述發(fā)送單元10的示例和聽力設(shè)備16的輸入,此后是對角度定位估計過程的各種步驟的詳細描述。
在圖4中所示出的發(fā)送單元10的示例,包括用于從說話者11捕獲音頻信號的麥克風(fēng)裝置17、用于處理所捕獲的音頻信號的音頻信號處理單元20、用于將在處理的音頻信號作為由音頻數(shù)據(jù)分組組成的音頻流19而發(fā)送至聽力設(shè)備16a、16b的數(shù)字發(fā)射機28和天線30。音頻流19形成在發(fā)送單元10與聽力設(shè)備16a、16b之間所建立的數(shù)字音頻鏈路12的一部分。發(fā)送單元10可以包括額外的組件,例如包括聲音活動檢測器(vad)的單元24。音頻信號處理單元20和這樣額外的分量可以是由在22處所指示的數(shù)字信號處理器(dsp)實現(xiàn)的。另外,發(fā)送單元10還可以包括對dsp22和發(fā)射機28起作用的微控制器26。在dsp22能夠接管微控制器26的功能的情況下可以省略微控制器26。優(yōu)選地,麥克風(fēng)裝置17包括至少兩個分隔的麥克風(fēng)17a、17b,它們的音頻信號可以在音頻信號處理單元20中使用以用于聲學(xué)波束成形,以便向麥克風(fēng)裝置17提供方向性特性??商娲?,也可以使用具有多個聲音端口的單個麥克風(fēng)及其一些合適的組合。
vad單元24使用來自麥克風(fēng)裝置17的音頻信號作為輸入以便確定使用相應(yīng)發(fā)送單元10的人11何時正在說話,即vad單元24確定是否存在水平高于話音水平閾值的話音信號。vad功能可以基于關(guān)于在兩個子頻帶(例如,100-600hz以及300-1000hz)中所計算的能量的條件之間的基于邏輯的組合過程。驗證閾值可以使得僅僅保留濁音(主要是元音)(這是因為在算法中對低頻話音信號執(zhí)行定位,以便達到較高的精確性)。vad單元24的輸出可以存在于二進制值中,該值在輸入聲音可以被當(dāng)作話音時為真,其他情況下為偽。
可以經(jīng)由無線鏈路12來發(fā)送單元24的合適的輸出信號。為此,可以提供單元32,其用于生成合并了來自處理單元20的潛在的音頻信號與由單元24所生成的數(shù)據(jù)的數(shù)字信號,所述數(shù)字信號被提供給發(fā)送器28。在實踐中,數(shù)字發(fā)射機28被設(shè)計成收發(fā)機,以使得其不僅可以將數(shù)據(jù)從發(fā)送單元10發(fā)送至聽力設(shè)備16a、16b,并且可以接收從網(wǎng)絡(luò)的其他設(shè)備發(fā)送的數(shù)據(jù)和命令。收發(fā)機28和天線30可以形成無線網(wǎng)絡(luò)接口的一部分。
根據(jù)一個實施例,發(fā)送單元10可以被設(shè)計成由相應(yīng)的說話者11圍繞該說話者的脖子穿戴的無線麥克風(fēng)、或者作為衣領(lǐng)麥克風(fēng)、或者在說話者的手中。根據(jù)可替代的實施例,發(fā)送單元10可以被適配成由相應(yīng)的說話者11佩戴在該說話者的耳朵處,例如無線耳塞或耳機。根據(jù)另一實施例,發(fā)送單元10可以形成耳際聽力設(shè)備(例如,助聽器)的一部分。
在圖5中示出了左耳聽力設(shè)備16b中的信號路徑的示例,其中收發(fā)機48經(jīng)由數(shù)字鏈路12接收從發(fā)送單元10所發(fā)送的rf信號,即,其接收從發(fā)送單元10所發(fā)送的音頻信號流19并且將音頻信號流19解調(diào)為向音頻信號處理單元38和角度定位估計單元40兩者提供經(jīng)解調(diào)的音頻信號rx。聽力設(shè)備16b還包括麥克風(fēng)裝置62,麥克風(fēng)裝置62包括至少一個(優(yōu)選地是兩個)麥克風(fēng),其用于捕獲對收聽者13的左耳進行沖擊的音頻信號環(huán)境聲音,例如來自說話者11的聲學(xué)語音信號21。
所接收的rf信號還被提供給信號強度分析器單元70,其確定rf信號的rssi值,所述rssi值被提供給角度定位估計單元40。
收發(fā)機48也經(jīng)由rf鏈路12從發(fā)送單元10接收指示“語音開”或“語音關(guān)”的vad信號,所述vad信號被提供給角度定位估計單元40。
此外,收發(fā)機48經(jīng)由雙耳鏈路從右耳聽力設(shè)備16a接收某些參數(shù)值(如關(guān)于圖6所提及的),以便將這些參數(shù)值提供至角度定位估計單元40;所述參數(shù)值是(1)與如由右耳聽力設(shè)備16a接收的rf鏈路12的rf信號的水平相對應(yīng)的rssi值rssir,(2)如由右耳聽力設(shè)備16a的麥克風(fēng)62所捕獲的音頻信號的水平,(3)指示如由右耳聽力設(shè)備16a的麥克風(fēng)62所捕獲的音頻信號與如由右耳聽力設(shè)備16a經(jīng)由rf鏈路12從發(fā)送單元10接收的經(jīng)解調(diào)的音頻信號之間的相位差的值,其中,針對其中確定相位差的每一頻帶而確定分別的值,以及(4)指示如由右耳聽力設(shè)備16a的麥克風(fēng)62所捕獲的音頻信號與如由右耳聽力設(shè)備16a經(jīng)由rf鏈路12從發(fā)送單元10所接收的經(jīng)解調(diào)的音頻信號的相關(guān)性的ce值。
rf鏈路12和雙耳鏈路15可以使用相同的無線接口(由天線46和收發(fā)機48形成),在圖5中示出的,或者其可以使用兩個分離的無線接口(在圖5中未示出該變型)。最后,將如由本地麥克風(fēng)裝置62所捕獲的音頻信號提供至角度定位估計單元40。
上文的參數(shù)值(1)至(4)也是由角度定位估計單元40針對左耳聽力設(shè)備16b確定的,并且被提供至收發(fā)機以經(jīng)由雙耳鏈路15發(fā)送至右耳聽力設(shè)備16a,以用于在右耳聽力設(shè)備16a的角度定位估計單元中使用。
角度定位估計單元40輸出指示說話者11/發(fā)送單元10的最可能的角度定位的值(其通常與方位扇區(qū)相對應(yīng)),所述值被提供至充當(dāng)“空間化單元”的音頻信號處理單元38,以通過調(diào)整信號水平和/或信號延遲(在不同的音頻帶(hrtf)中可能具有不同的水平和延遲)來處理經(jīng)由rf鏈路12所接收的音頻信號,所述處理是以以下方式進行的:當(dāng)收聽者13被與由左耳聽力設(shè)備16b的音頻信號處理單元38所處理的音頻信號和與由右耳聽力設(shè)備16a的相應(yīng)的音頻信號處理單元所處理的音頻信號同時刺激時,收聽者13將經(jīng)由rf鏈路12所接收的音頻信號感知為來源于由角度定位估計單元40所估計的角度定位。換句話說,聽力設(shè)備16a、16b協(xié)作以生成立體聲信號,其中右信道是由右耳聽力設(shè)備16a生成的而左信道是由左耳聽力設(shè)備16b所生成的。
聽力設(shè)備16a、16b包括用于處理由麥克風(fēng)裝置62所捕獲的音頻信號并將其與來自單元38的音頻信號相結(jié)合的音頻信號處理單元64、用于對單元64的輸出進行放大的功率放大器66、以及用于將經(jīng)放大的信號轉(zhuǎn)換成聲音的揚聲器68。
根據(jù)一個示例,聽力設(shè)備16a、16b可以被設(shè)計為助聽器,例如bte、ite、或cic助聽器,或者作為人工耳蝸,其中rf信號接收機功能與助聽器集成。根據(jù)可替代的示例,包括角度定位估計單元40和空間化單元38的rf信號接收機功能可以在接收機單元中被實現(xiàn)(在圖5中在16’處所指示的),該接收機單元被連接至包括本地麥克風(fēng)裝置62的助聽器(在圖5中在16”處所指示的);根據(jù)一個變型,rf信號接收機功能僅可以在分離的接收機單元中被實現(xiàn),而角度定位估計單元40和空間化單元38形成了接收機單元所連接至的助聽器的一部分。
通常而言,rf信號的載波頻率高于1ghz。特別地,在高于1ghz的頻率處,由用戶頭部而產(chǎn)生的衰減或遮蔽相對較強。優(yōu)選地,數(shù)字音頻鏈路12是在2.4ghzism頻帶中的載波頻率處建立的??商娲兀瑪?shù)字音頻鏈路12可以在868mhz915或5800mhz頻帶中的載波頻率處、或者在如6-10ghz區(qū)域中的uwb鏈路中被建立。
取決于聲學(xué)條件(混響、背景噪聲、說話者與收聽者之間的距離),來自耳機的聲音信號可能相比于來自發(fā)送單元10的解調(diào)的音頻信號而顯著失真。由于這對定位的精確性有突出的影響,因此空間分辨率(即,角度扇區(qū)的數(shù)量)可以根據(jù)環(huán)境而自動地適配。
如在上文中已經(jīng)提及的,ce用于估計經(jīng)由rf鏈路接所收的音頻信號(“rx信號”)與由聽力設(shè)備麥克風(fēng)所捕獲的音頻信號“au信號”的相似度。例如,這可以通過如下式來計算所謂的“相干性”來完成:
其中,e{}表示數(shù)學(xué)均值,d是應(yīng)用于互相關(guān)函數(shù)(分子)的計算的變化的延遲(采樣中),rxk→k+4是在通常地5個128采樣幀上累積的經(jīng)解調(diào)的rx信號,而au表示來自聽力設(shè)備(在下文中也被稱為“耳機”)的麥克風(fēng)62的信號。
信號是在通常地5個幀上累積的以便將發(fā)生在經(jīng)解調(diào)的rx信號與來自耳機的au信號之間的延遲考慮在內(nèi)。rx信號延遲是由于硬件中的處理和傳輸延時所導(dǎo)致的并且通常是常數(shù)值。au信號延遲是由常分量(硬件中的音頻處理延遲)和與聲學(xué)飛行時間(針對1m到10m之間的說話者-收聽者距離是3ms到33ms)對應(yīng)的可變分量組成的。如果針對相干性的計算而僅僅考慮一個128采樣幀,則可能發(fā)生的是兩個當(dāng)前的rx和au幀不共享任何共同的采樣,這即使在聲學(xué)條件較好的情況下也導(dǎo)致了非常低的相干值。為了降低該塊的計算成本,可以向下采樣多于一個的累積的幀。優(yōu)選地,在向下采樣之前不應(yīng)用反混疊濾波器,以便計算成本保持盡可能低。結(jié)果發(fā)現(xiàn),混疊的結(jié)果是受限的。顯然,只有在緩沖器的內(nèi)容是濁音話音(由vad信號攜帶的信息)時才處理所述緩沖器。
可以利用需要存儲幾個先前的相干值的移動平均濾波器來使本地計算的相干性平滑。輸出理論上在1(相同的信號)與0(完全不相關(guān)的信號)之間。在實踐中,已經(jīng)發(fā)現(xiàn)輸出的值在0.6與0.1之間,這主要是由于減小相干性范圍的向下采樣的操作所引起的。閾值chigh已經(jīng)被定義以使得:
已經(jīng)設(shè)置了另一個閾值clow以使得如果c﹤clow,則重置該定位,即,預(yù)期聲學(xué)條件太差從而算法不能準(zhǔn)確工作。在下文中,針對算法描述而將分辨率設(shè)置為5(個扇區(qū))。
因此,可以將可能的方位角度定位的范圍劃分成多個方位扇區(qū),其中,扇區(qū)的數(shù)量隨著所估計的相關(guān)程度的增加而增加;只要所估計的相關(guān)程度低于第一閾值,就可以中斷對發(fā)送單元的方位角度定位的估計;特別地,只要所估計的相關(guān)程度高于第一閾值并且低于第二閾值,則對發(fā)送單元的方位角度定位的估計可以由三個扇區(qū)組成,而只要所估計的相關(guān)程度超過第二閾值,則由5個扇區(qū)組成。
如在上文中已經(jīng)提及的,角度定位估計可以利用對右耳與左耳音頻信號之間的聲音壓力水平差(也被稱為ild)的估計,其將輸入看作來自左耳聽力設(shè)備的au信號(“aul信號”)(或來自右耳聽力設(shè)備的au信號(“aur信號”)),以及vad的輸出。ild定位過程實際上比之后描述的ipd過程更不精確得多。因此,輸出可以被限制成指示說話者相對于收聽者的所估計的側(cè)的3狀態(tài)標(biāo)志(1:源在左邊;-1:源在右邊,0:不確定的側(cè));即,角度定位估計實際上僅僅使用3個扇區(qū)。
可以將塊過程劃分成六個主要部分:
(1)vad檢查:如果幀包含濁音話音,則處理開始,否則系統(tǒng)等待直到檢測語音活動為止。
(2)au信號濾波(例如,具有1khz到2.5khz的下限(截止頻率)和3.5khz到6khz的上限(截止頻率)的khz帶通濾波器,起初條件是由先前的幀給出的)。由于該帶寬提供了具有最低變化的最高ild范圍,所以可以選擇該帶寬。
(3)能量累積,例如,針對左信號:
其中,
(4)通過雙耳鏈路15的el與er的值的交換。
(5)ild計算:
(6)側(cè)確定:
其中,ut表示不確定性閾值(通常是3db)。
步驟(5)和(6)不是在在每一幀上都啟動的;能量累積是在某一時間段(通常是100ms,其表示在精確性與反應(yīng)度之間的最佳折衷)上執(zhí)行的。ild值和側(cè)是在對應(yīng)的頻率處更新的。
耳間rf信號水平差(“rssid”)是類似于ild但是在射頻域(例如,大約2.4ghz)中的線索。在耳機天線46處所接收的每個數(shù)據(jù)分組(例如,4ms分組)的強度被評估并且被發(fā)送至左耳和右耳上的算法。rssid是通常需要被平滑以便變得有用的相對吵雜的線索。像ild一樣,其通常無法用于估計精細的定位,因此rssid框的輸出經(jīng)常提供與三個不同的角度扇區(qū)相對應(yīng)的、指示說話者相對于收聽者的所估計的側(cè)的3狀態(tài)標(biāo)志(1:在左邊的源,-1:在右邊的源,0:不確定的側(cè))。
自回歸濾波器可以用于進行平滑,這避免了存儲所有先前的rssi差(ild需要計算10log(ei/ek),由此rssi讀數(shù)已經(jīng)是以dbm為單位(對數(shù)形式),因此采取了簡單的差分)以計算當(dāng)前的一個,僅僅需要對先前的輸出進行反饋:
rssid(k)=λrssid(k-1)+(1-λ)(rssil-rssir),
其中λ是所謂的忘記因子。已知特定的想要數(shù)量的先前的累積的值n,根據(jù)以下公式而導(dǎo)出λ:
已經(jīng)發(fā)現(xiàn)通常的值0.95(n=20的值)產(chǎn)生在精確性與反應(yīng)度之間的適當(dāng)?shù)恼壑浴jP(guān)于ild,根據(jù)不確定性閾值來確定側(cè):
其中ut表示不確定性閾值(通常是5db)。
該系統(tǒng)使用射頻跳躍方案。rssi讀數(shù)可能從一個rf信道到其他rf信道而不同,這是由于tx和rx天線的頻率響應(yīng)、多徑效應(yīng)、濾波、干擾等所引起的。因此,可以通過使用不同信道上的rssi的小型數(shù)據(jù)庫來獲得更可靠的rssi結(jié)果,并且在每信道基礎(chǔ)上比較rssi隨著時間的變化。這將降低由于在上文中所提及的現(xiàn)象而導(dǎo)致的變化,代價是稍微更復(fù)雜的rssi獲取和存儲,其需要更多的ram。
ipd框估計在一些具體頻率分量上的左音頻信號與右音頻信號之間的耳間相位差。ipd是耳間時間差(“itd”)的頻率表示,另一定位線索是由人耳聽覺系統(tǒng)使用的。其將相應(yīng)的au信號和rx信號當(dāng)作輸入,其充當(dāng)相位參考。ipd僅僅在包含有用信息(即,當(dāng)“vad為真”/“語音開”)的音頻幀上被處理。在圖7中示出了該過程的流程圖的示例。
由于ipd在低頻率處更魯棒(根據(jù)lordrayleigh的雙工理論),所以信號可能被大幅下降因數(shù)4以降低所需的計算功率。計算了與等于250hz、375hz、和500hz(用最小的變化示出最高的ipd范圍)的頻率相對應(yīng)的3區(qū)間fft分量。接著,提取相位,并且針對兩側(cè)而計算rx對aul/aur相位差(在下文中被稱為
其中,
將
n×3參考矩陣包含針對一組n個入射方向的ipd的理論值(例如,如果選擇了10度的分辨率,則針對半平面n=18),并且從所謂的正弦定律來計算3個不同的頻率區(qū)間θ1,2…n。
其中,α與兩個聽力設(shè)備之間的距離(頭部尺寸)成正比,而c是空氣中的聲音速度。
使用正弦平方函數(shù)來評估在所觀測的ipd與理論的ipd兩者之間的角偏差d,如下所述:
其中,d∈[0;3],d較低值意味著與模型的較高的匹配程度。
僅僅在所測試的一組方位的最小偏差低于閾值δ的情況下,當(dāng)前的幀才用于定位(驗證步驟):
δ的典型值是0.8,這在精確性與反應(yīng)度之間提供了適當(dāng)?shù)恼壑浴?/p>
最后,偏差被累積成針對對應(yīng)的方位角的方位扇區(qū)(5個或3個扇區(qū)):
其中,d(i)是扇區(qū)i的累積誤差,
ipd框的輸出是向量d,如果vad關(guān)閉或如果未滿足驗證步驟,則將d設(shè)置為0。因此,該幀將被定位框忽略。
定位框使用來自ild和rssid框的側(cè)信息以及來自ipd框的偏差向量來執(zhí)行定位。定位框的輸出是從說話者相對于收聽者的當(dāng)前的方位角度定位所估計的最有可能的扇區(qū)。
針對每個到來的非零偏差向量,利用以下的關(guān)系將偏差轉(zhuǎn)換成每個扇區(qū)的概率:
其中pd是0和1之間的概率,以使得:
接著,應(yīng)用移動平均濾波器,在每一扇區(qū)中在k個先前的概率上采用加權(quán)平均(典型地,k=15幀),以便獲得穩(wěn)定的輸出。
接著,根據(jù)來自ild和rssid的框的側(cè)信息來對時間平均的概率進行加權(quán):
其中,權(quán)重wild和wrssid取決于側(cè)信息。針對ild權(quán)重wild,必須區(qū)分這三種情況:
如果來自ild的側(cè)信息是1,則左扇區(qū)的概率隨著右扇區(qū)的概率的衰減而增加:
γ的典型值是3。
如果來自ild的側(cè)信息是-1,則右扇區(qū)的概率隨著左扇區(qū)的概率的衰減而增加:
如果來自ild的側(cè)信息為0,則沒有扇區(qū)被優(yōu)選:
同樣的情況適用于rssid權(quán)重wrssid。因此,在沖突線索的情況下,ild和rssid的權(quán)重彼此抵消。應(yīng)當(dāng)注意的是,在該加權(quán)操作之后,人們不應(yīng)該再談?wù)摗案怕省保@是因為總和不等于1(這是因為權(quán)重不能相在這里完成的那樣被正式地應(yīng)用到概率上)。然而,出于理解的原因,在下文中將保留名稱“概率”。
可以使用基于馬爾可夫鏈啟發(fā)的網(wǎng)絡(luò)的追蹤模型以便管理5個扇區(qū)之間的估計的動作。從一個扇區(qū)到另一扇區(qū)的改變是由以5×5轉(zhuǎn)換矩陣收集的轉(zhuǎn)換概率來管理的。保持在特定的扇區(qū)x中的概率被表示為pxx,而從扇區(qū)x去到扇區(qū)y的概率是pxy。可以憑經(jīng)驗來定義轉(zhuǎn)換概率;可以測試幾組概率,以便提供在精確性和反應(yīng)度之間的最佳折衷。轉(zhuǎn)換概率使得:
令s(k-1)為幀k-1的扇區(qū)。在迭代k處,扇區(qū)i知道先前的扇區(qū)為s(k-1)的概率是:
因此,可以計算當(dāng)前的扇區(qū)s(k)以使得:
應(yīng)當(dāng)注意的是,模型是在扇區(qū)3(正面的扇區(qū))中被初始化的。
可以以更加一般化的方式將方位角度定位估計的該示例描述如下:
可以將可能的方位角度定位的范圍劃分成多個方位扇區(qū),并且在一個時刻,將扇區(qū)中的一個扇區(qū)標(biāo)識為發(fā)送單元的所估計的方位角度定位?;趶拿總€扇區(qū)的模型值確定的相位差的耳間差的偏差,將概率分配至每個方位扇區(qū),并且概率是基于所接收的rf信號的水平與所捕獲的音頻信號的水平的相應(yīng)的耳間差來加權(quán)的,其中具有最大加權(quán)概率的方位扇區(qū)被選擇為發(fā)送單元的所估計的方位角度定位。通常而言,存在5個方位扇區(qū),即兩個右方位扇區(qū)r1、r2,兩個左方位扇區(qū)l1、l2,以及中央方位扇區(qū)c,也參見圖1。
此外,可能的方位角度定位被劃分成多個加權(quán)扇區(qū)(通常而言,是三個加權(quán)扇區(qū),即右側(cè)加權(quán)扇區(qū)、左側(cè)加權(quán)扇區(qū)、和中央加權(quán)扇區(qū)),并且加權(quán)扇區(qū)中的一個加權(quán)扇區(qū)是基于所接收的rf信號的水平和/或所捕獲的音頻信號的水平的所確定的耳間差來選擇的。所選擇加權(quán)扇區(qū)是與基于所接收的rf信號的水平和/或所捕獲的音頻信號的水平的所確定的耳間差而估計的方位角度定位最好地適配的加權(quán)扇區(qū)中的一個加權(quán)扇區(qū)。對加權(quán)扇區(qū)的選擇與從所接收的rf信號的水平和/或所捕獲的音頻信號的水平的所確定的耳間差所獲得的(額外的)側(cè)信息(例如,在該示例(在上文中所提及的)中,側(cè)信息值-1(“右側(cè)加權(quán)扇區(qū)”);0“中央加權(quán)扇區(qū)”和1“左側(cè)加權(quán)扇區(qū)”)相對應(yīng)。這樣的加權(quán)扇區(qū)/側(cè)信息值中的每個與要應(yīng)用于方位扇區(qū)的區(qū)別的加權(quán)組相關(guān)聯(lián)。更加詳細的,在上文中所提及的示例中,如果選擇了右側(cè)加權(quán)扇區(qū)(側(cè)信息值-1),則權(quán)重3應(yīng)用于兩個右方位扇區(qū)r1、r2;權(quán)重1應(yīng)用于中央方位扇區(qū)c,且權(quán)重1/3應(yīng)用于兩個左方位扇區(qū)l1、l2),即,該組權(quán)重是{3;1;1/3};如果選擇中央加權(quán)向量(側(cè)信息值0),則該組權(quán)重是{1;1;1};并且如果選擇左側(cè)權(quán)重扇區(qū)(側(cè)信息值1),則該組權(quán)重是{1/3;1;3}。概括而言,與某一加權(quán)扇區(qū)/側(cè)信息值相關(guān)聯(lián)的一組權(quán)重使得落入(或接近于)該加權(quán)扇區(qū)的方位扇區(qū)的權(quán)重相對于在該加權(quán)扇區(qū)之外(或遠離該加權(quán)扇區(qū))的方位扇區(qū)而增加。
特別地,可以基于所接收的rf信號的水平的所確定的耳間差來選擇第一加權(quán)扇區(qū)(或側(cè)信息值),并且可以基于所捕獲的音頻信號的水平的所確定的耳間差來分別地選擇第二加權(quán)扇區(qū)(或側(cè)信息值)(通常,針對“好的”的操作/測量條件,從所接收的rf信號的所確定的耳間差獲得的側(cè)信息/所選擇的加權(quán)扇區(qū)以及從所捕獲的音頻信號的水平的所確定的耳間差獲得的側(cè)信息/所選擇的加權(quán)扇區(qū)將是相等的)。
通過使用包括兩個位于一個聽力設(shè)備上的分隔的麥克風(fēng)的麥克風(fēng)裝置的方向?qū)傩?,有可能檢測說話者是在收聽者前面還是后面。例如,通過將處于心臟線模式下的bte助聽器的兩個麥克風(fēng)設(shè)置為朝前(相應(yīng)地,朝后),人們可以確定在哪中情況下水平是最高的,并且因此選擇正確的解決方案。然而,在某些情形下,確定談話者是在前面還是在后面是非常難的,例如在嘈雜的情形下、當(dāng)房間對聲波非常具有反射性時、或者當(dāng)說話者離收聽者非常遠時。在前/后確定被激活的情況下,則與僅僅在前平面中完成定位的情況相比,用于定位的扇區(qū)的數(shù)量通常加倍。
在vad為“關(guān)”的時刻,即沒有檢測到話音的時刻,音頻ild的權(quán)重實質(zhì)上為1,但是基于耳間rf信號水平(例如,rssi)差的粗定位估計仍然是可能的。因此,當(dāng)vad再次變成“開”時,可以僅僅基于rssi值來對定位估計進行重新初始化,這與沒有rssi值可用的情況相比緊固了估計過程。
如果vad為“關(guān)”而持續(xù)了較長時間,例如5s,則很有可能收聽情形已經(jīng)改變了(例如,收聽者頭部旋轉(zhuǎn)、說話者移動等)。因此,可以將定位估計和空間化重置為“正?!保辞胺?。如果rssi值隨著時間穩(wěn)定,則這意味著該情況是穩(wěn)定的,因此這樣的重置將不需要并且可以被推遲。
一旦已經(jīng)確定了說話者所位于的扇區(qū),則rx信號就被處理從而以實現(xiàn)所期望的空間化的方式在左側(cè)和右側(cè)提供不同的音頻流(即,立體聲流)。
為了將rx聲音空間化,可以將hrtf(頭部相關(guān)的傳輸函數(shù))應(yīng)用于rx信號。需要每個扇區(qū)一個hrtf。對應(yīng)的hrtf可以簡單地作為對到來的音頻流的濾波函數(shù)而被應(yīng)用。然而,為了避免扇區(qū)間的轉(zhuǎn)換太突然(即,能夠聽見),在扇區(qū)被改變的同時可以進行對2個相鄰扇區(qū)的hrtf插值,由此實現(xiàn)扇區(qū)間的平滑轉(zhuǎn)換。
為了利用最低的動態(tài)來獲得hrtr濾波(為了考慮聽力障礙的主體的降低的動態(tài)范圍并且在可能的情況下降低濾波階數(shù)),可以對hrtf數(shù)據(jù)庫應(yīng)用動態(tài)壓縮。這樣的濾波像限制器一樣工作,即,針對每個頻率區(qū)間,大于固定閾值的所有增益都被剪掉。這同樣適用于低于另一固定閾值的增益。因此,針對任何頻率區(qū)間的增益值被保持在受限的范圍內(nèi)。該處理可以以雙耳的方式完成,以便盡可能地將ild保護得最好。
為了最小化hrtf數(shù)據(jù)庫的大小,可以使用最小的相位表示。oppenheim的公知的算法是用于在開始時獲得具有最大能量的脈沖響應(yīng)并且?guī)椭档蜑V波階數(shù)的工具。
雖然,迄今為止所描述的示例涉及包括單個發(fā)送單元的聽力輔助系統(tǒng),但是根據(jù)本發(fā)明的聽力輔助系統(tǒng)可以包括由不同的說話者所使用的幾個發(fā)送單元。在圖3中示意性地示出了包括由聽力障礙的收聽者13佩戴的三個發(fā)送單元10(其分別被標(biāo)記為10a、10b、10c)和兩個聽力設(shè)備16a、16b的系統(tǒng)的示例。聽力設(shè)備16a、16b可以從圖3中的發(fā)送單元10a、10b、10c中的每一個接收音頻信號,來自發(fā)送單元10a的音頻流被標(biāo)記為19a,來自發(fā)送單元10b的音頻流被標(biāo)記為19b,以此類推。
存在關(guān)于如何處理音頻信號發(fā)送/接收的幾個選項。
優(yōu)選地,發(fā)送單元10a、10b、10c形成多談話者網(wǎng)絡(luò)(“mtn”),其中,當(dāng)前活動的說話者11a、11b、11c被定位和空間化。實現(xiàn)談話者改變檢測器將緊固從一個談話者到另一個談話者的系統(tǒng)的轉(zhuǎn)換,以使得人們可以避免系統(tǒng)如同談話者將實質(zhì)上從一個位置非??斓匾苿拥搅硪粋€位置一樣地反應(yīng)(這也與用于追蹤的馬爾可夫模型所允許的相矛盾)。特別地,通過檢測mtn中的發(fā)送單元的改變,人們可以再前進一步并記住每個發(fā)送單元的當(dāng)前的扇區(qū)并將概率矩陣初始化至最近已知的扇區(qū)。這甚至將以更自然的方式緊固從一個說話者到另一個說話者的轉(zhuǎn)換。
如果人們檢測到幾個談話者已經(jīng)從一個扇區(qū)移動到另一個扇區(qū),則這可能是由于收聽者轉(zhuǎn)動了他的頭的事實所引起的。在該情況下,不同發(fā)射機的所有已知位置可以被移動相同的角度,以使得當(dāng)這些說話者中的任何一個再次談話時,其初始位置被最佳地猜測。
可以通過無線電鏈路向聽力設(shè)備同時提供幾個音頻流,而不是突然地從一個談話者切換至另一個談話者。如果在助聽器中有足夠的處理功率可用,則將有可能并行地對每一個談話者的音頻流進行定位和空間化,這將改善用戶體驗。僅有的限制是可用(通過rf)的參考音頻流的數(shù)量和可用的處理功率以及聽力設(shè)備中的存儲器。
每個聽力設(shè)備可以包括聽力儀器以及機械地或電氣地連接至所述聽力儀器或者集成在所述聽力儀器內(nèi)的接收機單元。聽力儀器可以是助聽器或聽覺修復(fù)器(例如,ci)。