專利名稱:用于汽車的駕駛者聲源定位系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及汽車電子領(lǐng)域,特別涉及一種用于汽車內(nèi)的聲源定位系統(tǒng)及方法。
背景技術(shù):
隨著科技的發(fā)展,越來越多的設(shè)備和應(yīng)用已經(jīng)逐漸配備在汽車中,例如導(dǎo)航系統(tǒng)、影音播放系統(tǒng)等等。然而,駕駛者如果在行駛過程中需要使用這些設(shè)備,則不得不暫時(shí)離開方向盤去進(jìn)行操控,為駕駛者帶來了潛在危險(xiǎn)性和不便。為了降低駕駛者在開車過程中需要用手控制所有操控界面而離開方向盤的潛在危險(xiǎn)性,聲控系統(tǒng)成為了近年來諸多車用電子系統(tǒng)研發(fā)的重點(diǎn)。聲控系統(tǒng)的目的是期望讓駕駛或用車者以輕松自然的說話方式,通過電腦系統(tǒng)的判讀,達(dá)到控制的目的。在現(xiàn)有聲控系統(tǒng)的技術(shù)中已經(jīng)使用了由駕駛者佩戴耳機(jī)麥克風(fēng)來進(jìn)行操控的方 法,來騰出駕駛者的雙手。然而,佩戴耳機(jī)麥克風(fēng)為駕駛者帶來了一定的不便。例如,駕駛者如果忘記在行駛前佩戴,則就無法在行駛中進(jìn)行操控。另外,如果佩戴的耳機(jī)麥克風(fēng)由于遭遇路況顛簸而在駕駛過程中脫落,也會(huì)為駕駛者帶來不便。此外,耳機(jī)麥克風(fēng)的定期維護(hù)保養(yǎng)也會(huì)為駕駛者帶來額外的行車成本,造成不便。因此,對(duì)于駕駛者非入侵式的方法將是一種較好的選擇。聲源定位,即ASL技術(shù)是確定一個(gè)聲源在空間中的位置。該方法通常是基于多個(gè)麥克風(fēng)構(gòu)成的陣列來處理信號(hào)。麥克風(fēng)陣列接收到語音信號(hào)并進(jìn)行處理,從而確定及跟蹤說話人的位置。目前該項(xiàng)技術(shù)已經(jīng)在視頻會(huì)議、電話會(huì)議、智能機(jī)器人、語音檢測(cè)和語音識(shí)別等場(chǎng)合中得到了廣泛的應(yīng)用。常規(guī)的ASL方法利用麥克風(fēng)陣列來獲取語音的多個(gè)信道。由于麥克風(fēng)處于不同位置,通過比較這些語音信道的特征差異來估計(jì)方向并最終判斷語音源的真實(shí)位置,從而實(shí)現(xiàn)ASL。例如,到達(dá)時(shí)差方法(TDOA)方法利用時(shí)間差,波束形成方法利用相位差,和能量比較方法利用能量差等等。這些方法中,更常用的是TDOA和波束形成方法??臻g上分離的麥克風(fēng)接收不同時(shí)延的語音,并由TDOA利用互相關(guān)函數(shù)進(jìn)行計(jì)算。之后提出了一些改進(jìn)的算法,如具有相位改變的廣義互相關(guān)函數(shù)(GCC-PHAT)、互功率譜相位(CSP)分析等等。這些方法需要相關(guān)的語音和不相關(guān)的噪音,因此最好有清晰語音。ASL中使用的波束形成是一種窄頻帶能量接收應(yīng)用。如果預(yù)期的信號(hào)和干擾噪音占據(jù)相同的頻帶,則無法提取信道間的空間傳播關(guān)系。用于定位的能量比較算法總是限于在大規(guī)模傳感器網(wǎng)絡(luò)內(nèi)使用,因?yàn)樵趥鞑ミ^程中能量迅速降低,并且更大的搜尋空間需要更多的傳感器。然而,這一算法能夠減少計(jì)算負(fù)擔(dān)和麥克風(fēng)之間的精確時(shí)間同步負(fù)擔(dān),在實(shí)時(shí)系統(tǒng)中表現(xiàn)出優(yōu)勢(shì)。然而,當(dāng)將傳統(tǒng)的聲源定位技術(shù)應(yīng)用到車內(nèi)駕駛員定位的場(chǎng)合中時(shí),遇到了很多問題。首先,麥克風(fēng)陣列的尺寸和價(jià)格均限制了其在汽車上的應(yīng)用。在車內(nèi)有限的空間內(nèi),不可能配置大量麥克風(fēng)構(gòu)成的麥克風(fēng)陣列來進(jìn)行精確定位。同時(shí)聲音的波長(zhǎng)較長(zhǎng),對(duì)相位比較敏感,在麥克風(fēng)陣列中要求陣元麥克風(fēng)相位響應(yīng)嚴(yán)格同步,成本上很高。此外,汽車環(huán)境中的噪音是特殊的。由于背景噪音、語音信號(hào)反射、引擎震動(dòng)和設(shè)備噪音,噪音水平非常高,以致其對(duì)語音信號(hào)處理產(chǎn)生極大的負(fù)面影響。因此,需要較高的硬件成本和軟件算法開銷來進(jìn)行定位計(jì)算。因而無法實(shí)現(xiàn)實(shí)時(shí)、快速、準(zhǔn)確的駕駛者定位。因此,需要一種改進(jìn)的對(duì)駕駛者進(jìn)行聲源定位的方法及系統(tǒng),具有相對(duì)低廉的成本,同時(shí)兼有高度的定位準(zhǔn)確性和實(shí)時(shí)性。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于汽車的駕駛者聲源定位系統(tǒng),所述系統(tǒng)包括位于不同位置處的第一語音采集裝置和第二語音采集裝置,用于采集第一語音信號(hào)和第二語音信號(hào);控制系統(tǒng),用于將所述第一語音信號(hào)和第二語音信號(hào)分別進(jìn)行處理以輸出駕駛者定位信息,所述控制系統(tǒng)進(jìn)一步包括降噪裝置,用于對(duì)所采集的第一和第二語音信號(hào)進(jìn)行降噪處理;濾波裝置,用于對(duì)經(jīng)過降噪處理的第一和第二語音信號(hào)進(jìn)行濾波;語音激活檢測(cè)裝置,用于分別選擇濾波后的語音信號(hào)中所需的部分,并將選擇的結(jié)果進(jìn)行合并;長(zhǎng)幀分幀裝置,用于對(duì)合并后的語音信號(hào)各自分別按照時(shí)長(zhǎng)劃分為若干個(gè)幀;包絡(luò)計(jì)算裝置,分別計(jì)算經(jīng)所述語音激活檢測(cè)裝置選擇后的第一和第二語音信號(hào)的信號(hào)包絡(luò)和包·絡(luò)能量;以及能量比率計(jì)算裝置,根據(jù)所述包絡(luò)計(jì)算裝置和長(zhǎng)幀分幀裝置的計(jì)算結(jié)果,計(jì)算所述第一和第二語音信號(hào)的包絡(luò)能量比率。優(yōu)選地,所述第一語音采集裝置位于所述汽車內(nèi)靠近駕駛員的位置處,所述第二語音采集裝置位于偏離駕駛員的位置處。優(yōu)選地,所述第一語音信號(hào)為所述駕駛員的語音信號(hào),所述第二語音信號(hào)為與所述第一語音信號(hào)不同的對(duì)比信號(hào)。 優(yōu)選地,所述第一語音采集裝置和第二語音采集裝置是麥克風(fēng)。優(yōu)選地,所述第一語音采集裝置和第二語音采集裝置設(shè)置于所述汽車內(nèi)前擋風(fēng)玻璃的內(nèi)側(cè),或是在車頂內(nèi)前側(cè)。優(yōu)選地,所述降噪裝置采用譜減法降噪算法對(duì)所采集的第一和第二語音信號(hào)進(jìn)行降噪處理。優(yōu)選地,所述濾波降噪裝置為高通濾波器。優(yōu)選地,僅使用所述駕駛者的語音部分來計(jì)算信號(hào)包絡(luò)能量和能量比率。優(yōu)選地,對(duì)所述第一和第二語音信號(hào)的劃分取2(T30ms長(zhǎng)度為一幀。更優(yōu)選地,對(duì)所述第一和第二語音信號(hào)的劃分取25ms長(zhǎng)度為一幀。優(yōu)選地,當(dāng)所述第一語音采集裝置和第二語音采集裝置的增益存在差異時(shí),將所述第一和第二語音信號(hào)的包絡(luò)能量比率乘以一個(gè)偏移值。優(yōu)選地,通過設(shè)定用于能量比較的比率閾值來比較判斷出聲源是否來自駕駛者。優(yōu)選地,所述比率閾值根據(jù)汽車內(nèi)空間的大小來設(shè)定。更優(yōu)選地,所述比率閾值在
I.3和3. 2之間,最優(yōu)選地,所述比率閾值為2. 4。根據(jù)本發(fā)明的另一方面,還提供了一種用于汽車的駕駛者聲源定位方法,所述方法包括在不同位置處采集第一語音信號(hào)和第二語音信號(hào);將所述第一語音信號(hào)和第二語音信號(hào)分別進(jìn)行處理以輸出駕駛者定位信息,所述處理進(jìn)一步包括對(duì)所采集的第一和第二語音信號(hào)進(jìn)行降噪處理;對(duì)經(jīng)過降噪處理的第一和第二語音信號(hào)進(jìn)行濾波;分別選擇濾波后的語音信號(hào)中所需的部分,并將選擇的結(jié)果進(jìn)行合并;對(duì)合并后的語音信號(hào)各自分別按照時(shí)長(zhǎng)劃分為若干個(gè)幀;分別計(jì)算經(jīng)所述語音激活檢測(cè)裝置選擇后的第一和第二語音信號(hào)的信號(hào)包絡(luò)和包絡(luò)能量;以及根據(jù)所述包絡(luò)計(jì)算和分幀的結(jié)果,計(jì)算所述第一和第二語音信號(hào)的包絡(luò)能量比率。根據(jù)本發(fā)明的用于汽車的駕駛者聲源定位系統(tǒng)及方法,可以改善傳統(tǒng)的聲源定位技術(shù)應(yīng)用到車內(nèi)駕駛員定位的場(chǎng)合中所遇到的問題。無需配備大量麥克風(fēng)構(gòu)成的麥克風(fēng)陣列來進(jìn)行精確定位,因此具有相對(duì)低廉的成本,同時(shí)兼有高度的定位準(zhǔn)確性和實(shí)時(shí)性。
本發(fā)明的下列附圖在此作為本發(fā)明的一部分用于理解本發(fā)明。附圖中示出了本發(fā)明的實(shí)施例及其描述,用來解釋本發(fā)明的原理。在附圖中,圖I是根據(jù)本發(fā)明的車內(nèi)駕駛員定位系統(tǒng)的框圖;圖2是根據(jù)本發(fā)明的車內(nèi)駕駛員定位系統(tǒng)中控制裝置的框圖; 圖3示出了應(yīng)用本發(fā)明的方法對(duì)車內(nèi)聲音信號(hào)進(jìn)行采集后降噪并濾波處理后的波形示意圖;圖4是根據(jù)不同SNR閾值的語音形成的ROC結(jié)果;圖5是現(xiàn)有的TDOA算法和根據(jù)本發(fā)明的算法比較的ROC結(jié)果;圖6示出了能量比較算法的ROC結(jié)果。
具體實(shí)施例方式在下文的描述中,給出了大量具體的細(xì)節(jié)以便提供對(duì)本發(fā)明更為徹底的理解。然而,對(duì)于本領(lǐng)域技術(shù)人員來說顯而易見的是,本發(fā)明可以無需一個(gè)或多個(gè)這些細(xì)節(jié)而得以實(shí)施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對(duì)于本領(lǐng)域公知的一些技術(shù)特征未進(jìn)行描述。為了徹底了解本發(fā)明,將在下列的描述中提出詳細(xì)的步驟和結(jié)構(gòu),以便說明本發(fā)明是如何解決現(xiàn)有技術(shù)中無法使用傳統(tǒng)的麥克風(fēng)陣列進(jìn)行車內(nèi)聲源定位的問題。顯然,本發(fā)明的施行并不限定于本領(lǐng)域的技術(shù)人員所熟習(xí)的特殊細(xì)節(jié)。本發(fā)明的較佳實(shí)施例詳細(xì)描述如下,然而除了這些詳細(xì)描述外,本發(fā)明還可以具有其他實(shí)施方式。本發(fā)明提出了一種在非常嘈雜的行車及車內(nèi)環(huán)境中,僅使用兩部語音采集裝置進(jìn)行駕駛者定位的方法。本發(fā)明基于現(xiàn)有的能量比較方法,提出一種改進(jìn)的長(zhǎng)幀包絡(luò)算法來提高駕駛者定位的精確度。同時(shí),本發(fā)明的方法應(yīng)用在真實(shí)的汽車環(huán)境中進(jìn)行了大量試驗(yàn),收集了真實(shí)汽車環(huán)境中的語音數(shù)據(jù),檢驗(yàn)其魯棒性。試驗(yàn)結(jié)果證明了本發(fā)明提出的算法在駕駛者定位上具有精確、快捷、成本低等優(yōu)點(diǎn)。根據(jù)本發(fā)明的駕駛者定位旨在將駕駛者座位處的單一聲源與其它乘客座位的聲源進(jìn)行區(qū)分??紤]到行駛車輛中的大量噪音,駕駛者定位與一般的聲源定位問題是不同的。汽車環(huán)境中的噪音具有一定的特殊性。由于背景噪音、語音信號(hào)反射、引擎震動(dòng)和設(shè)備噪音,導(dǎo)致一方面車內(nèi)的噪音水平非常高,另一方面,多種噪聲在不同接收麥克風(fēng)處的幅度和相位存在較大差異,并且在很多情況下不滿足高斯分布,以致其對(duì)語音信號(hào)處理產(chǎn)生極大的負(fù)面影響。因此,根據(jù)本發(fā)明的定位方法在進(jìn)行駕駛者定位前,首先需要減少噪音。另外,通常駕駛者坐在汽車內(nèi)時(shí)的高度是近似的,因此本發(fā)明的方法省去了估算駕駛員垂直位置的需要,將駕駛者定位降為二維問題。通過在車內(nèi)配備兩個(gè)語音采集裝置來解決駕駛員的定位問題。此外,根據(jù)本發(fā)明的方法和系統(tǒng)使用了兩部信道記錄設(shè)備來實(shí)現(xiàn)兩信道間的同
止/J/ O發(fā)明概沭根據(jù)本發(fā)明的車內(nèi)駕駛員定位系統(tǒng)如圖I所示。在圖I中,以駕駛員位于右側(cè)作為示范性實(shí)施例。本領(lǐng)域技術(shù)人員可以理解的是,本發(fā)明的方法可以進(jìn)行鏡像對(duì)稱從而應(yīng)用于駕駛員位于左側(cè)的場(chǎng)合中。如圖I所示,根據(jù)本發(fā)明的車內(nèi)駕駛員定位系統(tǒng)100包括第一語音采集裝置101和第二語音采集裝置102,以及控制系統(tǒng)103。所述系統(tǒng)100可以設(shè)置在車內(nèi)前側(cè),位于駕駛員的前方。例如,可以將第一語音采集裝置和第二語音采集裝置設(shè)置在前擋風(fēng)玻璃的內(nèi)側(cè),或是設(shè)置在車頂內(nèi)前側(cè)。由于第一語音采集裝置收集的第一語音信號(hào)主要用于收集駕 駛員的語音信號(hào),所以裝置101優(yōu)選設(shè)置在靠近駕駛員的位置處,而第二語音采集裝置收集的第二語音信號(hào)作為第一語音信號(hào)的對(duì)比信號(hào),主要用于和第一語音信號(hào)對(duì)比獲得兩者能量差,所以裝置102優(yōu)選設(shè)置在偏離駕駛員位置的一側(cè)。圖I所示為駕駛員在駕駛室內(nèi)右側(cè)的位置示意圖,本領(lǐng)域技術(shù)人員可以理解的是,根據(jù)本發(fā)明的第一語音采集裝置和第二語音采集裝置可以根據(jù)各個(gè)國(guó)家行車習(xí)慣的不同(如左行或者右行)而做相應(yīng)的調(diào)整。所述語音采集裝置可以是本領(lǐng)域已知的常用語音采集設(shè)備,例如麥克風(fēng)。圖2示出了根據(jù)本發(fā)明的駕駛員定位系統(tǒng)中的控制裝置103的進(jìn)一步詳細(xì)說明。如圖2所示,由第一語音采集裝置和第二語音采集裝置分別采集的第一語音信號(hào)和第二語音信號(hào)送入到控制裝置103中。這兩路語音信號(hào)分別進(jìn)入各自的處理裝置進(jìn)行一系列處理。由于汽車噪音會(huì)影響定位系統(tǒng)的精度,因此需要減少噪音。在本發(fā)明的系統(tǒng)中使用了降噪裝置,在對(duì)收集的信號(hào)首先由噪音抑制器進(jìn)行預(yù)處理。如圖2所示,在利用第一語音采集裝置200a和第二語音采集裝置200b采集車內(nèi)的聲音信息后,將聲音信息輸入到降噪裝置201a和201b進(jìn)行噪音的降低處理。降噪裝置201a和201b和降噪所使用的算法可采用本領(lǐng)域公知的任意硬件設(shè)備和/或軟件,例如,可采用計(jì)算機(jī)聲卡中自帶的簡(jiǎn)易降噪電路和系統(tǒng)的降噪算法實(shí)現(xiàn)的??刹捎妹绹?guó)Andrea的Pure Audio USB-SA適配器來采集雙聲道音頻數(shù)據(jù),該適配器內(nèi)自帶Andrea采用Pureaudio降噪技術(shù)。降噪算法則是用C代碼實(shí)現(xiàn)文獻(xiàn)(可參見 I. Cohen, “On speech enhancement under signal presence uncertainty,,,inAcoustics, Speech, and Signal Processing, 2001. Proceedings. (ICASSP’ 01)·2001 IEEEInternational Conference on, vol. I, 2001, pp. 661 - 664vol. I.中的譜減法降噪算法。)為得到更為清晰語音的,本發(fā)明中的系統(tǒng)在對(duì)聲音信息進(jìn)行降噪后,還使用了濾波裝置202a和202b對(duì)噪音進(jìn)行濾波。由于噪音抑制器不可能完全地去除噪音,但是對(duì)于在汽車中收集的信號(hào),殘留噪音主要分布在低頻域,因此優(yōu)選地使用高通濾波器(HPF)對(duì)低頻噪音進(jìn)行過濾。高通濾波器可以濾掉低頻域的噪音,這特別是在汽車高速行駛時(shí)尤為有效。具體地,以通帶為450Hz以上的有限脈沖響應(yīng)(FIR)高通濾波器為例實(shí)現(xiàn)本發(fā)明,它能保留大部分語音能量并過濾大部分殘留噪音。本領(lǐng)域普通技術(shù)人員可以理解的是,本發(fā)明還可以采用本領(lǐng)域熟知的其他高通濾波器。在進(jìn)行降噪和濾波之后,將聲音信號(hào)分別輸入到語音激活檢測(cè)(VAD)裝置203a和203b以選擇語音信號(hào)中所需的部分,然后分別將VAD的結(jié)果輸入到各自的包絡(luò)計(jì)算裝置204a和204b中進(jìn)行計(jì)算。同時(shí),將第一和第二語音信號(hào)進(jìn)行語音激活檢測(cè)后的結(jié)果合并,輸入到長(zhǎng)幀分幀裝置205中進(jìn)行時(shí)長(zhǎng)劃分,得到的結(jié)果與包絡(luò)計(jì)算裝置204a和204b輸出的結(jié)果一并輸入到能量比率計(jì)算裝置206中計(jì)算第一和第二語音信號(hào)的能量比率,從而得到準(zhǔn)確的駕駛員定位信息。本領(lǐng)域普通技術(shù)人員可以理解的是,如圖2所示的對(duì)第一語音信號(hào)和第二語音信號(hào)進(jìn)行的處理,可以在物理上分別單獨(dú)設(shè)置處理路徑,也可以集成在一起進(jìn)行處理,還可以單獨(dú)和共用處理混合進(jìn)行。例如,由于這里所描述的是數(shù)字信號(hào)處理系統(tǒng),因此在輸入聲音信號(hào)進(jìn)行數(shù)字化轉(zhuǎn)換以后,其后續(xù)處理可以在同一數(shù)字信號(hào)處理芯片(DSP)或者中央處理單元(CPU)中進(jìn)行。因此,在這種情況下,這兩路裝置在物理上是一起的,而在信號(hào)處理流程上是獨(dú)立的。下面詳細(xì)描述各個(gè)裝置的工作過程。本發(fā)明提出了基于能量比較原理的聲源定位方法。根據(jù)能量比較定位原理,在汽車內(nèi)的駕駛員定位任務(wù)中,駕駛員的聲源可被視作一個(gè)點(diǎn)聲源,聲音在三維空間中以球狀 發(fā)散的方式傳播,能量將均勻地分布在球狀表面。傳播距離越遠(yuǎn),球狀表面積越大,能接收到的聲音能量越少。球體表面積和距離的平方成正比,和接收到的能量成反比。根據(jù)本發(fā)明的聲源定位方法采用了信號(hào)包絡(luò)來平滑波形,計(jì)算長(zhǎng)幀能量來穩(wěn)定能量比,以及減少因時(shí)延導(dǎo)致的誤差。在能量比較算法中,根據(jù)本發(fā)明的系統(tǒng)僅使用語音部分來比較能量,因?yàn)榉钦Z音部分的能量較低,容易受到噪聲干擾,導(dǎo)致隨機(jī)能量比并給出錯(cuò)誤定位判斷。本發(fā)明的系統(tǒng)中采用了本領(lǐng)域已知的語音激活檢測(cè)(VAD)的算法來在定位前選擇語音信號(hào)中所需的部分,即明顯的能量部分。例如,可采用歐洲通信標(biāo)準(zhǔn)協(xié)會(huì)(ETIS)已經(jīng)提出的一種基于能量的用于語音編碼方案的VAD算法。具體參見ETSI,“ETSI ES 202050V1. I. 5(Speech Processing, Transmission and Quality Aspects (STQ);Distributedspeech recognition;Advanced front-end feature extraction algorithm;Compressionalgorithms), ”2007-01,pp. 14-15。信號(hào)包絡(luò)的計(jì)算由于語音是時(shí)變信號(hào),并且兩個(gè)語音采集裝置采集到的語音至少受到如下因素而會(huì)出現(xiàn)差別A正常的,語音特別是駕駛員的語音到達(dá)兩個(gè)采集裝置的時(shí)間有差異;B兩個(gè)采集裝置把模擬的聲學(xué)信號(hào)(空氣壓強(qiáng))轉(zhuǎn)換為電信號(hào)時(shí)的傳遞函數(shù)會(huì)出現(xiàn)差異,引起附加的相位和幅度差異;C在兩個(gè)采集裝置采集到的背景噪聲會(huì)有相位和幅度的差異。如果直接計(jì)算兩信道中的短時(shí)能量,并且在計(jì)算能量比之后,因素B和C會(huì)引起短時(shí)能量比的波動(dòng),因此會(huì)降低精確度。在實(shí)時(shí)語音信號(hào)處理中,一般取20 30ms長(zhǎng)度為一巾貞,此處優(yōu)選地,我們?nèi)?5ms長(zhǎng)度為一幀,每次移動(dòng)窗口為IOms長(zhǎng)度。對(duì)于每幀頻率為Fs的信號(hào)X,將有的n=0. 025*Fs個(gè)數(shù)據(jù)點(diǎn),我們用X(l),...X(n)表示。相應(yīng)地,我們可以計(jì)算出一個(gè)η個(gè)數(shù)據(jù)點(diǎn)的信號(hào)包絡(luò),用 env (I), . . . env (η)表示。由于兩路語音信號(hào)有不同的傳播路徑,兩路麥克風(fēng)采集的信號(hào)存在幅度差和少數(shù)幾個(gè)點(diǎn)上的時(shí)差偏移。采用該包絡(luò)近似算法,即能忽略時(shí)差偏移對(duì)結(jié)果造成的影響,又能保留原有兩路信號(hào)的幅度關(guān)系。因此,基于信號(hào)包絡(luò)導(dǎo)出包絡(luò)能量特征以取代短時(shí)能量??紤]到計(jì)算包絡(luò)時(shí)只需要信號(hào)的音量/能量,我們采用ADSR包絡(luò)的原理來獲取信號(hào)的包絡(luò),即假設(shè)聲音到達(dá)最大音量時(shí)將會(huì)衰減,直到下一個(gè)更大音量發(fā)生時(shí)重新給信號(hào)賦值。因此,說話的空隙將被衰減信號(hào)替代,從而獲取平滑的包絡(luò)。在數(shù)據(jù)處理中,即提取一個(gè)上限xmax和一個(gè)下限xmin來避免波動(dòng),信號(hào)包絡(luò)env(i)為xmax和xmin之間距離的一半。如果輸入數(shù)據(jù)在兩限內(nèi),兩限均會(huì)隨時(shí)間常數(shù)變小。假設(shè)信號(hào)的采集頻率為Fs,即Is時(shí)長(zhǎng)對(duì)應(yīng)有Fs個(gè)信號(hào)數(shù)據(jù)點(diǎn)。衰減計(jì)算中,衰減時(shí)間常數(shù)使用單位秒(s)來計(jì)量,但是在信號(hào)處理的計(jì)算中,我們使用點(diǎn)來計(jì)數(shù)。因此,我們采用Tt=T/Fs來統(tǒng)一衰減時(shí)間常數(shù)的這兩個(gè)計(jì)量單位。其中,Tt單位為秒,T單位為數(shù)據(jù)點(diǎn)。該時(shí)間常數(shù)將依據(jù)不同噪聲環(huán)境下不同位置說話人的語音信號(hào)平滑度來確定,是該實(shí)驗(yàn)中的一個(gè)經(jīng)驗(yàn)值。該算法描述如下
輸入·!*( I) · ;r(2K …,z( 1)
輸出 ;env (I); ewu(2)f ""e.nv (Ti')德始化
xnmx = ;r(l), χπι η = a;(l); imaxpre 二 I. Iniinprf = I;
計(jì)算
wliik' ,‘; < r; (j(,
if.r( i) < xmax then
xmax = xrnax 攀 exp( ——~了 ·τ. ‘ ■):
else
I xmax = x(i), imaxpre = i: i}iu\
If ,!'(t) > xmin 書lien
,,/ —- ιτγγπ ri,.f- V
Tfmn = xrnm * exp(·-----------------------------------------------------------------------------------上.j;
e se
xmin = x(i), itninpre = il
fiid
i ' \ X rn a x — x n i i -n
cnv{t) = -2-:
ιικ 算法I :信號(hào)包絡(luò)計(jì)算這里,記錄imaxPre和Iminjffe以計(jì)算衰變時(shí)間,分別表示前面一次兩限外的數(shù)據(jù)點(diǎn)的位置,也即“上一次的最大音量”。用當(dāng)前數(shù)據(jù)點(diǎn)和上一次最大音量數(shù)據(jù)點(diǎn)的相差點(diǎn)數(shù),計(jì)算出相差的時(shí)間,從而得出衰減幅度。時(shí)間常數(shù)Tt決定包絡(luò)的平滑程度。過大的Tt使信號(hào)變平并引入額外噪音,而過小的Tt不能平滑語音。圖3示出了應(yīng)用本發(fā)明的方法對(duì)車內(nèi)聲音信號(hào)進(jìn)行采集后降噪并濾波處理后的波形示意圖。其中圖3a和圖3b顯示了汽車環(huán)境中已預(yù)處理的信號(hào),HPF幫助濾掉低頻噪音;圖3c至3f是具有不同時(shí)間常數(shù)ls、5s、10s、30s的信號(hào)包絡(luò)。在圖3中顯示了不同Tt的平滑結(jié)果xmax、xmin和2Xenv。在2. 2
2.4X IO4時(shí)間范圍,圖3c中(Tt=Is)和圖3d中(Tt=5s)不能給出充分的平滑結(jié)果,而圖3f中(Tt=30s)不能很好的表示I. 75 I. 85X IO4時(shí)間范圍的信號(hào)。由此可見,IOs信號(hào)包絡(luò)最適合的。在以下計(jì)算中,優(yōu)選選擇Tt=10s。包絡(luò)能暈計(jì)算在計(jì)算中,假設(shè)噪音減少和經(jīng)過高通濾波器后的語音是清晰的,且信號(hào)包絡(luò)平方的總和為需要的包絡(luò)能量。在本發(fā)明提出的算法中,能量比率由兩信道的長(zhǎng)幀上的包絡(luò)能
量導(dǎo)出。通過大約為20 30ms的幀長(zhǎng)Ienshtjrt的短時(shí)能量,計(jì)算出VAD,此處所述幀長(zhǎng)稱之為“短幀”,以區(qū)分之前提及的“長(zhǎng)幀”。事實(shí)上,實(shí)時(shí)駕駛者定位是一種基于緩沖區(qū)的操作,且長(zhǎng)幀不能無限長(zhǎng),而是限制于輸入緩沖長(zhǎng)度。當(dāng)VAD判斷在短幀i跳至I (活動(dòng)話音),且在短幀j跳到O (非活動(dòng)話音)或保持I直到幀移至緩沖結(jié)束,得到長(zhǎng)幀長(zhǎng)度lenlmg。得出兩信道的包絡(luò)能量如下·En =CtlV (川.)
le.n'i 0 ji g
/ I \
γ- (J -1 )^tnove+lens hort2/ \1 }__ J Z-j m = (i — l )*move + l' )
—I "sr^endt2 /,—、
I—l)**m.ove+l m 菱·此處,move代表VAD的幀移。當(dāng)語音采集裝置處在不同的位置的時(shí)候,可以計(jì)算出不同的能量比率。假定兩部麥克風(fēng)相同,否則,當(dāng)語音采集裝置的增益存在差異時(shí),能量比率需要乘以一個(gè)偏移值。例如,如果兩個(gè)麥克風(fēng)在采集某個(gè)和這兩個(gè)麥克風(fēng)等距離聲源能量時(shí),所采集能量到的能量比值為I. 5,則該偏移值例如可以為1.5。如果兩個(gè)麥克風(fēng)在采集某個(gè)和這兩個(gè)麥克風(fēng)等距離聲源能量時(shí),所采集能量到的能量,則認(rèn)為兩個(gè)麥克風(fēng)相同,則該偏移值為1,即不做補(bǔ)償。偏移植可以認(rèn)為是“設(shè)備校準(zhǔn)”的一個(gè)過程。在實(shí)際操作中,此偏移量為兩個(gè)信號(hào)采集裝置(麥克風(fēng))的增益的比值,采用已有的技術(shù)即可實(shí)現(xiàn)。參考圖1,我們可以將駕駛者正前方的麥克風(fēng)102設(shè)定為信道I (Ml),將遠(yuǎn)離駕駛者處的麥克風(fēng)101設(shè)定為信道2 (M3)。由于接收到的能量與距離的平房成反比,兩信道的能量比率為
E , (B ·
Γ n,. iIl4'dr i— m-n,rafuig =———=—5--.⑵
jr. 1 9 ffds
dr -—mg根據(jù)麥克風(fēng)的位置設(shè)置可知,司機(jī)位置與兩個(gè)麥克風(fēng)的位置相差比較大,得到的信道能量比率將明顯大于1,而其他位置的信道能量比率只是略大于I或者小于I。因此,我們只需要設(shè)定一個(gè)用于能量比較的比率閾值Thrati。,使之為駕駛者位置和乘客位置能量比率之間的某一個(gè)值,便能通過閾值比較判斷出聲源是不是駕駛者。這些閾值與汽車尺寸有關(guān),可以根據(jù)汽車內(nèi)空間的大小來設(shè)定。例如,這些參數(shù)可以如下選取D:兩麥克風(fēng)的X方向距離;W:前車廂兩座位中心的X方向距離;Lf:麥克風(fēng)到前車廂座位中心的Y方向距離;Lb:麥克風(fēng)到后車廂座位中心的Y方向距離。依據(jù)這些參數(shù),我們可以粗略計(jì)算出四個(gè)座位的參考能量閾值,如表I所示。其中Thd表示司機(jī)座位的參考能量閾值,Thl, Th2, Th3表示乘客座位的參考能量閾值,而ThMti。應(yīng)該取司機(jī)和乘客參考能量閾值之間的某個(gè)值。
權(quán)利要求
1.一種用于汽車的駕駛者聲源定位系統(tǒng),所述系統(tǒng)包括 位于不同位置處的第一語音采集裝置和第二語音采集裝置,用于采集第一語音信號(hào)和第二語音信號(hào); 控制系統(tǒng),用于將所述第一語音信號(hào)和第二語音信號(hào)分別進(jìn)行處理以輸出駕駛者定位信息,所述控制系統(tǒng)進(jìn)一步包括 降噪裝置,用于對(duì)所采集的第一和第二語音信號(hào)進(jìn)行降噪處理; 濾波裝置,用于對(duì)經(jīng)過降噪處理的第一和第二語音信號(hào)進(jìn)行濾波; 語音激活檢測(cè)裝置,用于分別選擇濾波后的語音信號(hào)中所需的部分,并將選擇的結(jié)果進(jìn)行合并; 長(zhǎng)幀分幀裝置,用于對(duì)合并后的語音信號(hào)各自分別按照時(shí)長(zhǎng)劃分為若干個(gè)幀; 包絡(luò)計(jì)算裝置,分別計(jì)算經(jīng)所述語音激活檢測(cè)裝置選擇后的第一和第二語音信號(hào)的信號(hào)包絡(luò)和包絡(luò)能量;以及 能量比率計(jì)算裝置,根據(jù)所述包絡(luò)計(jì)算裝置和長(zhǎng)幀分幀裝置的計(jì)算結(jié)果,計(jì)算所述第一和第二語音信號(hào)的包絡(luò)能量比率。
2.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中所述第一語音采集裝置位于所述汽車內(nèi)靠近駕駛員的位置處,所述第二語音采集裝置位于偏離駕駛員的位置處。
3.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中所述第一語音信號(hào)為所述駕駛員的語音信號(hào),所述第二語音信號(hào)為與所述第一語音信號(hào)不同的對(duì)比信號(hào)。
4.根據(jù)權(quán)利要求I或2所述的駕駛者聲源定位系統(tǒng),其中所述第一語音采集裝置和第二語音采集裝置是麥克風(fēng)。
5.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中所述第一語音采集裝置和第二語音采集裝置設(shè)置于所述汽車內(nèi)前擋風(fēng)玻璃的內(nèi)側(cè),或是在車頂內(nèi)前側(cè)。
6.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中所述降噪裝置采用譜減法降噪算法對(duì)所采集的第一和第二語音信號(hào)進(jìn)行降噪處理。
7.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中所述濾波降噪裝置為高通濾波器。
8.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中僅使用所述駕駛者的語音部分來計(jì)算信號(hào)包絡(luò)能量和能量比率。
9.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中對(duì)所述第一和第二語音信號(hào)的劃分取2(T30ms長(zhǎng)度為一幀。
10.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中當(dāng)所述第一語音采集裝置和第二語音采集裝置的增益存在差異時(shí),將所述第一和第二語音信號(hào)的包絡(luò)能量比率乘以一個(gè)偏移值。
11.根據(jù)權(quán)利要求I所述的駕駛者聲源定位系統(tǒng),其中通過設(shè)定用于能量比較的比率閾值來比較判斷出聲源是否來自駕駛者。
12.根據(jù)權(quán)利要求11所述的駕駛者聲源定位系統(tǒng),其中所述比率閾值根據(jù)汽車內(nèi)空間的大小來設(shè)定。
13.根據(jù)權(quán)利要求11或12所述的駕駛者聲源定位系統(tǒng),其中所述比率閾值在I.3和3.2之間。
14.一種用于汽車的駕駛者聲源定位方法,所述方法包括 在不同位置處采集第一語音信號(hào)和第二語音信號(hào); 將所述第一語音信號(hào)和第二語音信號(hào)分別進(jìn)行處理以輸出駕駛者定位信息,所述處理進(jìn)一步包括 對(duì)所采集的第一和第二語音信號(hào)進(jìn)行降噪處理; 對(duì)經(jīng)過降噪處理的第一和第二語音信號(hào)進(jìn)行濾波; 分別選擇濾波后的語音信號(hào)中所需的部分,并將選擇的結(jié)果進(jìn)行合并; 對(duì)合并后的語音信號(hào)各自分別按照時(shí)長(zhǎng)劃分為若干個(gè)幀; 分別計(jì)算經(jīng)所述語音激活檢測(cè)裝置選擇后的第一和第二語音信號(hào)的信號(hào)包絡(luò)和包絡(luò)能量;以及 根據(jù)所述包絡(luò)計(jì)算和分幀的結(jié)果,計(jì)算所述第一和第二語音信號(hào)的包絡(luò)能量比率。
15.根據(jù)權(quán)利要求14所述的駕駛者聲源定位方法,其中所述第一語音信號(hào)為所述駕駛員的語音信號(hào),所述第二語音信號(hào)為與所述第一語音信號(hào)不同的對(duì)比信號(hào)。
16.根據(jù)權(quán)利要求14所述的駕駛者聲源定位方法,其中采用譜減法降噪算法對(duì)所采集的第一和第二語音信號(hào)進(jìn)行降噪處理。
17.根據(jù)權(quán)利要求14所述的駕駛者聲源定位方法,其中僅使用所述駕駛者的語音部分來計(jì)算信號(hào)包絡(luò)能量和能量比率。
18.根據(jù)權(quán)利要求14所述的駕駛者聲源定位方法,其中對(duì)所述第一和第二語音信號(hào)的劃分取2(T30ms長(zhǎng)度為一幀。
19.根據(jù)權(quán)利要求14所述的駕駛者聲源定位方法,其中當(dāng)所述第一和第二語音信號(hào)通過不同的采集裝置采集時(shí),將所述第一和第二語音信號(hào)的包絡(luò)能量比率乘以一個(gè)偏移值。
20.根據(jù)權(quán)利要求14所述的駕駛者聲源定位方法,其中通過設(shè)定用于能量比較的比率閾值來比較判斷出聲源是否來自駕駛者。
21.根據(jù)權(quán)利要求20所述的駕駛者聲源定位方法,其中所述比率閾值根據(jù)汽車內(nèi)空間的大小來設(shè)定。
22.根據(jù)權(quán)利要求20或21所述的駕駛者聲源定位方法,其中所述比率閾值在I.3和 ·3.2之間。
全文摘要
本發(fā)明涉及一種用于汽車的駕駛者聲源定位系統(tǒng)及方法,所述系統(tǒng)包括第一語音采集裝置和第二語音采集裝置,用于采集第一語音信號(hào)和第二語音信號(hào);控制系統(tǒng),用于將所述第一語音信號(hào)和第二語音信號(hào)分別進(jìn)行處理以輸出駕駛者定位信息,所述控制系統(tǒng)進(jìn)一步包括降噪裝置、濾波裝置、語音激活檢測(cè)裝置、長(zhǎng)幀分幀裝置、包絡(luò)計(jì)算裝置、以及能量比率計(jì)算裝置,根據(jù)所述包絡(luò)計(jì)算裝置和長(zhǎng)幀分幀裝置的計(jì)算結(jié)果,計(jì)算所述第一和第二語音信號(hào)的包絡(luò)能量比率。根據(jù)本發(fā)明的用于汽車的駕駛者聲源定位系統(tǒng)及方法,具有相對(duì)低廉的成本,同時(shí)兼有高度的定位準(zhǔn)確性和實(shí)時(shí)性。
文檔編號(hào)G01S5/18GK102819009SQ20121028570
公開日2012年12月12日 申請(qǐng)日期2012年8月10日 優(yōu)先權(quán)日2012年8月10日
發(fā)明者馮雁, 黃石磊, 李恬 申請(qǐng)人:汽車零部件研究及發(fā)展中心有限公司