專利名稱:聲音到達(dá)方向的估測(cè)方法以及聲音到達(dá)方向的估測(cè)設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種聲音到達(dá)方向的估測(cè)方法,該方法能夠在即使存在周圍 噪音的情況下精確估測(cè)從聲源通過使用多個(gè)麥克風(fēng)輸入的聲音到達(dá)方向。本 發(fā)明還涉及一種用于執(zhí)行上述方法的聲音到達(dá)方向的估測(cè)設(shè)備。
背景技術(shù):
由于近年來計(jì)算機(jī)技術(shù)的進(jìn)步,使得需要大量操作處理的聲音信號(hào)處理 能夠以可實(shí)現(xiàn)的處理速度執(zhí)行。在這種情況下,使用多個(gè)麥克風(fēng)的多通道聲 音處理功能期望得到實(shí)際的應(yīng)用。用于估測(cè)聲音信號(hào)的到達(dá)方向的聲音到達(dá) 方向的估測(cè)處理是在該功能中所使用的一個(gè)實(shí)例。聲音到達(dá)方向的估測(cè)處理 是這樣一種處理,其用于獲得在來自目標(biāo)聲源的聲音信號(hào)到達(dá)多個(gè)麥克風(fēng)中 的彼此相距一定間隔安裝的兩個(gè)麥克風(fēng)時(shí)的延遲時(shí)間,以及用于根據(jù)在與麥 克風(fēng)的到達(dá)距離和麥克風(fēng)之間的安裝間隔之間的差值估測(cè)來自聲源的聲音 信號(hào)的到達(dá)方向。在傳統(tǒng)的聲音到達(dá)方向估測(cè)處理中,例如,計(jì)算從兩個(gè)麥克風(fēng)輸入的信 號(hào)之間的相關(guān)系數(shù),以及計(jì)算相關(guān)系數(shù)最大的兩個(gè)信號(hào)之間的延遲。由于通過將所計(jì)算的延遲時(shí)間與在常溫下聲音在空氣中的傳送速度340m/s (該速度 根據(jù)溫度而變化)相乘來獲得到達(dá)距離之間的差值,所以使用三角學(xué)方法根 據(jù)麥克風(fēng)的安裝間隔來計(jì)算聲音信號(hào)的到達(dá)方向。另外,如日本專利申請(qǐng)?zhí)亻_No. 2003-337164中所公開的,其能夠計(jì)算 對(duì)于從兩個(gè)麥克風(fēng)輸入的每一聲音信號(hào)頻率的相位差頻譜(phase difference spectrum),并且在頻域中為線形逼近的情況下,根據(jù)相位差頻譜的傾斜度 計(jì)算來自聲源的聲音信號(hào)的到達(dá)方向。發(fā)明內(nèi)容在上述傳統(tǒng)的聲音到達(dá)方向的估測(cè)方法中,在存在噪音的情況下,這些
噪音使得難以指定相關(guān)性最大的時(shí)間(延遲)。所以會(huì)產(chǎn)生這樣一種問題, 即難以正確指定來自聲源的聲音信號(hào)的到達(dá)方向。另外,即使在日本專利申請(qǐng)?zhí)亻_No. 2003-337164中所公開的方法中,在計(jì)算相位差頻譜過程中,當(dāng) 存在噪音時(shí),相位差頻譜會(huì)大大改變,而這種改變所帶來的問題是不能精確 地獲得相位差頻譜的傾斜度??紤]到上述情況,本發(fā)明的目的是提供一種聲音到達(dá)方向的估測(cè)方法, 以及聲音到達(dá)方向的估測(cè)設(shè)備,其能夠在即使在麥克風(fēng)周圍存在環(huán)境噪音的 情況下精確估測(cè)來自目標(biāo)聲源的聲音信號(hào)的到達(dá)方向。為實(shí)現(xiàn)上述的發(fā)明目的,根據(jù)本發(fā)明的聲音到達(dá)方向的估測(cè)方法的第一 方面提供一種對(duì)聲音信號(hào)的聲源所在方向的估測(cè)方法,所述聲音信號(hào)作為多 通道輸入從位于多個(gè)方向的聲源被輸入到用于輸入聲音信號(hào)的聲音信號(hào)輸入單元,其特征在于,該估測(cè)方法包括以下步驟接受由所述聲音信號(hào)輸入單元輸入的多通道輸入,并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間軸上的信號(hào);將每一通道的在時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào);對(duì)于每同一頻 率,計(jì)算每一通道所轉(zhuǎn)換的頻率軸上的信號(hào)的相位分量;利用對(duì)于每同一頻 率所計(jì)算的每一通道的信號(hào)的相位分量,計(jì)算多通道之間的相位差;計(jì)算所 轉(zhuǎn)換的頻率軸上的信號(hào)的振幅分量;根據(jù)所計(jì)算的振幅分量,估測(cè)噪音分量; 根據(jù)所計(jì)算的振幅分量和所估測(cè)的噪音分量,對(duì)于每一頻率計(jì)算信噪比; 提取其信噪比大于預(yù)定值的頻率;根據(jù)對(duì)所提取頻率計(jì)算的相位差,計(jì)算來 自目標(biāo)聲源的聲音信號(hào)的到達(dá)距離之間的差值;以及根據(jù)所計(jì)算的到達(dá)距離 之間的差值,估測(cè)目標(biāo)聲源所在的方向。另外,根據(jù)本發(fā)明的聲音到達(dá)方向估測(cè)設(shè)備的第一方面提供一種聲音到 達(dá)方向估測(cè)設(shè)備,用于估測(cè)聲音信號(hào)的聲源所在方向,所述聲音信號(hào)作為多 通道輸入從位于多個(gè)方向的聲源被輸入到用于輸入聲音信號(hào)的聲音信號(hào)輸 入單元,其特征在于,該設(shè)備包括聲音信號(hào)接受部,其接受由所述聲音信號(hào)輸入部輸入的多通道聲音信號(hào),并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間 軸上的信號(hào);信號(hào)轉(zhuǎn)換部,其對(duì)于每一通道,將由所述聲音信號(hào)接受部所轉(zhuǎn) 換的在時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào);相位分量計(jì)算部,其對(duì)于每 同一頻率,計(jì)算每一通道的由所述信號(hào)轉(zhuǎn)換部所轉(zhuǎn)換的頻率軸上的信號(hào)的相 位分量;相位差計(jì)算部,其利用由所述相位分量計(jì)算部對(duì)于每同一頻率所計(jì)
算的每一通道信號(hào)的相位分量,計(jì)算多通道之間的相位差;振幅分量計(jì)算部,其計(jì)算由所述信號(hào)轉(zhuǎn)部轉(zhuǎn)換的頻率軸上的信號(hào)的振幅分量;噪音分量估測(cè) 部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算的振幅分量,估測(cè)噪音分量;信噪比 計(jì)算部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算的振幅分量以及由所述噪音分量 估測(cè)部所估測(cè)的噪音分量,對(duì)于每一頻率計(jì)算信噪比;頻率提取部,其提取 由所述信噪比計(jì)算部所計(jì)算的信噪比大于預(yù)定值的頻率;到達(dá)距離差值計(jì)算 部,其根據(jù)由所述相位差計(jì)算部對(duì)于所述頻率提取部所提取頻率所計(jì)算的相 位差,計(jì)算來自目標(biāo)聲源的聲音信號(hào)的到達(dá)距離之間的差值;以及聲音到達(dá) 方向估測(cè)部,其根據(jù)由所述到達(dá)距離差值計(jì)算部所計(jì)算的到達(dá)距離之間的差 值,估測(cè)目標(biāo)聲源所在的方向。另外,根據(jù)本發(fā)明的聲音到達(dá)方向的估測(cè)方法的第二方面提供如在本設(shè) 備的第一方面中所述,其特征是,在所述提取頻率的步驟中,按所計(jì)算的信 噪比的從大到小的順序選擇和提取其信噪比大于預(yù)定值的預(yù)定數(shù)目的頻率。另外,根據(jù)本發(fā)明的聲音到達(dá)方向估測(cè)設(shè)備的第二方面提供如在本設(shè)備 的第一方面中所述,其特征是,所述頻率提取部按所計(jì)算的信噪比的從大到 小的順序選擇和提取由所述信噪比計(jì)算部所計(jì)算的信噪比大于預(yù)定值的預(yù) 定數(shù)目的頻率。另外,根據(jù)本發(fā)明的聲音到達(dá)方向的估測(cè)方法的第三方面提供一種對(duì)聲 音信號(hào)的聲源所在方向的估測(cè)方法,所述聲音信號(hào)作為多通道輸入從位于多 個(gè)方向的聲源被輸入到用于輸入聲音信號(hào)的聲音信號(hào)輸入單元,其特征在 于,該估測(cè)方法包括以下步驟接受由所述聲音信號(hào)輸入單元輸入的多通道 輸入,并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間軸上的取樣信號(hào);對(duì)于每一 通道將時(shí)間軸上的每一取樣信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào);對(duì)于每同一頻率, 計(jì)算每一通道所轉(zhuǎn)換的頻率軸上的信號(hào)的相位分量;利用對(duì)于每同一頻率所 計(jì)算的在每一通道信號(hào)的相位分量,計(jì)算多通道之間的相位差;計(jì)算在預(yù)定 取樣時(shí)間所轉(zhuǎn)換的頻率軸上的信號(hào)的振幅分量;根據(jù)所計(jì)算的振幅分量,估 測(cè)噪音分量;根據(jù)所計(jì)算的振幅分量和所估測(cè)的噪音分量,對(duì)于每一頻率計(jì) 算信噪比;根據(jù)所計(jì)算的信噪比和在過去取樣時(shí)間的相位差的計(jì)算結(jié)果,對(duì) 在當(dāng)前取樣時(shí)間的相位差的計(jì)算結(jié)果進(jìn)行校正;根據(jù)校正之后所計(jì)算的相位 差,計(jì)算來自目標(biāo)聲源的聲音信號(hào)的到達(dá)距離之間的差值;以及根據(jù)所計(jì)算
的到達(dá)距離之間的差值,估測(cè)目標(biāo)聲源所在的方向。另外,根據(jù)本發(fā)明的聲音到達(dá)方向估測(cè)設(shè)備的第三方面提供一種聲音到 達(dá)方向估測(cè)設(shè)備,用于估測(cè)聲音信號(hào)的聲源所在方向,所述聲音信號(hào)作為多 通道輸入從位于多個(gè)方向的聲源被輸入到用于輸入聲音信號(hào)的聲音信號(hào)輸 入單元,其特征在于,該設(shè)備包括聲音信號(hào)接受部,其接受由所述聲音信號(hào)輸入部輸入的多通道聲音信號(hào),并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間 軸上的取樣信號(hào);信號(hào)轉(zhuǎn)換部,其對(duì)于每一通道,將由所述聲音信號(hào)接受部 所轉(zhuǎn)換的時(shí)間軸上的每一取樣信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào);相位分量計(jì)算 部,其對(duì)于每同一頻率,計(jì)算每一通道的由所述信號(hào)轉(zhuǎn)換部所轉(zhuǎn)換的頻率軸 上的信號(hào)的相位分量;相位差計(jì)算部,其利用由所述相位分量計(jì)算部對(duì)于每 同一頻率所計(jì)算的每一通道信號(hào)的相位分量,計(jì)算多通道之間的相位差;振 幅分量計(jì)算部,其計(jì)算由所述信號(hào)轉(zhuǎn)換部在預(yù)定取樣時(shí)間轉(zhuǎn)換的頻率軸上的 信號(hào)的振幅分量;噪音分量估測(cè)部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算的振 幅分量,估測(cè)噪音分量;信噪比計(jì)算部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算 的振幅分量以及由所述噪音分量估測(cè)部所估測(cè)的噪音分量,對(duì)于每一頻率計(jì) 算信噪比;校正部,其根據(jù)由所述信噪比計(jì)算部所計(jì)算的信噪比和在過去取 樣時(shí)間的相位差的計(jì)算結(jié)果,對(duì)在當(dāng)前取樣時(shí)間的相位差的計(jì)算結(jié)果進(jìn)行校 正;到達(dá)距離差值計(jì)算部,其根據(jù)由所述校正部校正之后的相位差,計(jì)算來 自目標(biāo)聲源的聲音信號(hào)的到達(dá)距離之間的差值;以及聲音到達(dá)方向估測(cè)部, 其根據(jù)由所述到達(dá)距離差值計(jì)算部所計(jì)算的到達(dá)距離之間的差值,估測(cè)目標(biāo) 聲源所在的方向。另外,根據(jù)本發(fā)明的聲音到達(dá)方向的估測(cè)方法的第四方面提供如在本設(shè) 備的第一、第二或第三方面中所述,其特征是,以下步驟在所接受的聲音 信號(hào)輸入中指定用以表示語(yǔ)音的部分的語(yǔ)音部分,其中,在將信號(hào)轉(zhuǎn)換為頻 率軸上的信號(hào)的步驟中,僅將在指定語(yǔ)音部分的步驟中指定的語(yǔ)音部分的信 號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)。另外,根據(jù)本發(fā)明的聲音到達(dá)方向的估測(cè)設(shè)備的第四方面提供如在本設(shè) 備的第一、第二或第三方面中所述,其特征是,還包括語(yǔ)音部分指定部,在由所述聲音信號(hào)接受部所接受的聲音信號(hào)輸入中指定用以表示語(yǔ)音的部 分的語(yǔ)音部分,其中所述信號(hào)轉(zhuǎn)換部?jī)H將所述語(yǔ)音部分指定部所指定的語(yǔ)音 部分的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)。根據(jù)本發(fā)明的第一方面,作為多通道輸入接受來自位于多個(gè)方向的聲源 的聲音信號(hào)。另外,將每一通道的在時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào), 并且使用頻率軸上的在每一通道所轉(zhuǎn)換的信號(hào)的相位分量,對(duì)于每一頻率計(jì) 算多通道之間的相位差。根據(jù)所計(jì)算的相位差(下面也被稱作相位差頻譜), 計(jì)算從目標(biāo)聲源的聲音輸入的到達(dá)距離之間的差值;根據(jù)所計(jì)算的在到達(dá)距 離之間的差值,估測(cè)聲源所在的方向。另一方面,計(jì)算頻率軸上的所轉(zhuǎn)換的 信號(hào)的振幅分量;根據(jù)所計(jì)算的振幅分量,估測(cè)背景噪音分量。根據(jù)所計(jì)算的振幅分量和所估測(cè)的背景噪音分量,對(duì)于每一頻率計(jì)算信噪比。然后,提取其信噪比大于預(yù)定值的頻率;根據(jù)在每一提取頻率的相位差,計(jì)算到達(dá)距離之間的差值。結(jié)果,根據(jù)輸入聲音信號(hào)的振幅分量(即所謂的振幅頻譜) 以及所估測(cè)的背景噪音分量(即所謂的背景噪音頻譜),獲得對(duì)于每一頻率的信噪比(SN比率),并且僅使用其信噪比較高的頻率的相位差,從而能 夠更精確地獲取到達(dá)距離之間的差值。因此,根據(jù)到達(dá)距離之間的精確差值, 能夠更精確地估測(cè)聲音信號(hào)的入射角,即,聲源所在的方向。根據(jù)本發(fā)明的第二方面,在第一方面中,按信噪比的從大到小的順序選 擇和提取其信噪比大于預(yù)定值的預(yù)定數(shù)目的頻率。結(jié)果,由于通過被噪音分 量影響最小的取樣頻率計(jì)算到達(dá)距離之間的差值,所以到達(dá)距離之間的差值 的計(jì)算結(jié)果不會(huì)有很大的變化。因此,能夠更精確地估測(cè)聲音信號(hào)的入射角, 即目標(biāo)聲源所在的方向。另外,根據(jù)本發(fā)明的第三方面,作為多通道輸入接受來自在多個(gè)方向的 聲源的聲音信號(hào),并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間軸上的取樣信 號(hào),并且對(duì)于每一通道將時(shí)間軸上的取樣信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)。使用 頻率軸上的在每一通道的被轉(zhuǎn)換信號(hào)的相位分量,對(duì)于每一頻率計(jì)算多通道 之間的相位差。根據(jù)所計(jì)算的相位差,計(jì)算來自目標(biāo)聲源的聲音輸入的到達(dá) 距離之間的差值,以及根據(jù)到達(dá)距離之間的差值,估測(cè)目標(biāo)聲源所在的方向。 計(jì)算頻率軸上的在預(yù)定取樣時(shí)間轉(zhuǎn)換的信號(hào)的振幅分量,以及根據(jù)所計(jì)算的 振幅分量,估測(cè)背景噪音分量。然后,根據(jù)所計(jì)算的振幅分量和所估測(cè)的背 景噪音分量,對(duì)于每一頻率計(jì)算信噪比。根據(jù)所計(jì)算的信噪比和在過去取樣 時(shí)間的相位差的計(jì)算結(jié)果,對(duì)在取樣時(shí)間的相位差的計(jì)算結(jié)果進(jìn)行校正,并
根據(jù)校正之后的相位差,計(jì)算到達(dá)距離之間的差值。結(jié)果,能夠獲得在過去 取樣時(shí)間SN比率較大的頻率的相位差信息的相位差頻譜。因此,相位差不 會(huì)由于背景噪音的狀態(tài)、從目標(biāo)聲源發(fā)出的聲音信號(hào)的內(nèi)容變化等而有很大 變化。因此,根據(jù)到達(dá)距離之間的更加精確和穩(wěn)定的差值,能夠更精確地估 測(cè)聲音信號(hào)的入射角,即目標(biāo)聲源所在的方向。另外,根據(jù)本發(fā)明的第四方面,在上述任一方面中,在所接受的聲音信 號(hào)輸入中用指定以表示語(yǔ)音的部分的語(yǔ)音部分,并且僅將在指定語(yǔ)音部分的 步驟中指定的語(yǔ)音部分的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)。結(jié)果,能夠更精確地 估測(cè)產(chǎn)生聲音的聲源所在的方向。結(jié)合附圖并根據(jù)以下詳細(xì)描述,本發(fā)明的上述以及其它的目的和特征將 會(huì)更加清楚。
圖1為顯示根據(jù)本發(fā)明實(shí)施例1的用以實(shí)現(xiàn)聲音到達(dá)方向估測(cè)設(shè)備1的通用計(jì)算機(jī)結(jié)構(gòu)的框圖;圖2為顯示在根據(jù)本發(fā)明的實(shí)施例1的聲音到達(dá)方向估測(cè)設(shè)備的操作處 理單元執(zhí)行處理程序時(shí)所實(shí)現(xiàn)功能的功能框圖;圖3為顯示根據(jù)本發(fā)明實(shí)施例1的由聲音到達(dá)方向估測(cè)設(shè)備的操作處理 單元所執(zhí)行的處理過程的流程圖;圖4A、圖4B和圖4C為顯示在選取其SN比率大于預(yù)定值的頻率或頻帶情況下的相位差頻譜的校正方法的示意圖;圖5為顯示用于表示被估測(cè)的聲源所在方向的角的計(jì)算方法的示意圖; 圖6為顯示在根據(jù)本發(fā)明實(shí)施例2的聲音到達(dá)方向估測(cè)設(shè)備的操作處理單元執(zhí)行處理程序時(shí)所實(shí)現(xiàn)的功能的功能框圖;圖7為顯示根據(jù)本發(fā)明實(shí)施例2的由聲音到達(dá)方向估測(cè)設(shè)備的操作處理單元所執(zhí)行的處理過程的流程圖;圖8A和圖8B為顯示根據(jù)本發(fā)明實(shí)施例2的由聲音到達(dá)方向估測(cè)設(shè)備的 操作處理單元所執(zhí)行的處理過程的流程圖;和圖9為顯示取決于SN比率的校正系數(shù)的實(shí)例的示圖。
具體實(shí)施例方式
下面將根據(jù)用以示出本發(fā)明實(shí)施例的附圖來詳細(xì)地描述本發(fā)明。本發(fā)明 所處理的主要是由人發(fā)出的聲音。 [實(shí)施例1]
圖1為顯示根據(jù)本發(fā)明實(shí)施例1的用以實(shí)現(xiàn)聲音到達(dá)方向估測(cè)設(shè)備1的 通用計(jì)算機(jī)結(jié)構(gòu)的框圖。
用作根據(jù)本發(fā)明實(shí)施例1的聲音到達(dá)方向估測(cè)設(shè)備1的通用計(jì)算機(jī)至少 包括操作處理單元ll,如CPU、 DSP等;ROM 12; RAM 13;通信接口 單元14,能夠執(zhí)行來自和到達(dá)外部計(jì)算機(jī)的數(shù)據(jù)通信;多個(gè)語(yǔ)音輸入單元 15,用以接受聲音輸入;和語(yǔ)音輸出單元16,用以輸出語(yǔ)音。語(yǔ)音輸出單元 16輸出從經(jīng)由通信網(wǎng)絡(luò)2執(zhí)行數(shù)據(jù)通信的每一通信終端設(shè)備3的語(yǔ)音輸入單 元31輸入的語(yǔ)音。從每一通信終端設(shè)備3的語(yǔ)音輸出單元32輸出其噪音被 抑制的聲音。
操作處理單元11經(jīng)由內(nèi)部總線17與聲音到達(dá)方向估測(cè)設(shè)備1的上述每 一硬件單元相連接。操作處理單元ll控制上述硬件單元,并且根據(jù)在ROM 12中存儲(chǔ)的處理程序執(zhí)行各種軟件功能,所述處理程序例如有計(jì)算信號(hào)在頻 率軸上的振幅分量的程序、從所計(jì)算的振幅分量估測(cè)噪音分量程序、根據(jù)所 計(jì)算的振幅分量以及所估測(cè)的噪音分量計(jì)算每一頻率的信噪比(SN比率) 的程序、提取其SN比率大于一預(yù)定值的頻率的程序、根據(jù)在所提取頻率的 相位差(在下文中將被稱為相位差頻譜)計(jì)算到達(dá)距離之間差值的程序以及 根據(jù)到達(dá)距離之間的差值估測(cè)聲源方向的程序。
ROM 12可由閃存等來配置,并且存儲(chǔ)上述處理程序以及使得通用計(jì)算 機(jī)用作聲音到達(dá)方向估測(cè)設(shè)備1所需的程序引用的數(shù)值信息。RAM13可由 SRAM等來配置,并且存儲(chǔ)程序執(zhí)行期間所產(chǎn)生的臨時(shí)數(shù)據(jù)。通信接口單元 14從外部計(jì)算機(jī)下載上述程序;經(jīng)由通信網(wǎng)絡(luò)2將輸出信號(hào)發(fā)送至通信終端 設(shè)備3;以及接收所輸入的聲音信號(hào)。
特別地,語(yǔ)音輸入單元15可由分別用以接收聲音輸入的多個(gè)麥克風(fēng)來 配置,并用以指定聲源方向、放大器、A/D轉(zhuǎn)換器等。語(yǔ)音輸出單元16是 輸出設(shè)備,如揚(yáng)聲器。為了便于解釋,語(yǔ)音輸入單元15以及語(yǔ)音輸出單元 16被安裝在如圖1所示的聲音到達(dá)方向估測(cè)設(shè)備1中。然而,實(shí)際上,聲音
到達(dá)方向估測(cè)設(shè)備1被配置成經(jīng)由接口使語(yǔ)音輸入單元15以及語(yǔ)音輸出單
元16連接到通用計(jì)算機(jī)上。
圖2為顯示在根據(jù)本發(fā)明的實(shí)施例1的聲音到達(dá)方向估測(cè)設(shè)備1的操作 處理單元11執(zhí)行上述處理程序時(shí)所實(shí)現(xiàn)功能的功能框圖。在圖2所示的實(shí) 例中,說明基于這樣的假設(shè)兩個(gè)語(yǔ)音輸入單元15和15中的每一個(gè)都是麥 克風(fēng)。
如圖2所示,根據(jù)本發(fā)明實(shí)施例1的聲音到達(dá)方向估測(cè)設(shè)備1至少包括:
語(yǔ)音接受單元(聲音信號(hào)接收部)201、信號(hào)轉(zhuǎn)換單元(信號(hào)轉(zhuǎn)換部)202、 相位差頻譜計(jì)算單元(相位差計(jì)算部)203、振幅頻譜計(jì)算單元(振幅分量 計(jì)算部)204、背景噪音估測(cè)單元(噪音分量估測(cè)部)205、 SN比率計(jì)算單 元(信噪比計(jì)算部)206、相位差頻譜選取單元(頻率提取部)207、到達(dá)距 離差值計(jì)算單元(到達(dá)距離差值計(jì)算部)208和聲音到達(dá)方向計(jì)算單元(聲 音到達(dá)方向計(jì)算部)209,這些單元是在執(zhí)行處理程序時(shí)所實(shí)現(xiàn)的功能塊。
語(yǔ)音接受單元201從兩個(gè)麥克風(fēng)接收由作為聲源的人所發(fā)出的聲音作為 聲音輸入。在實(shí)施例1中,經(jīng)由都是麥克風(fēng)的語(yǔ)音輸入單元15和15接收輸 入1和輸入2。
對(duì)于輸入的聲音,信號(hào)轉(zhuǎn)換單元202將時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻率軸上 的信號(hào),即復(fù)合頻譜INl(f)和IN2(f)。這里f代表一頻率(弧度)。在信號(hào) 轉(zhuǎn)換單元202中,執(zhí)行一種時(shí)頻轉(zhuǎn)換處理,如傅立葉變換。在實(shí)施例1中, 通過如傅立葉變換的時(shí)頻轉(zhuǎn)換處理,將輸入的聲音轉(zhuǎn)換為頻譜INl(f)和 IN2(f)。
相位差頻譜計(jì)算單元203根據(jù)頻率轉(zhuǎn)換頻譜INl(f)和IN2(f)計(jì)算相位頻 譜,以及對(duì)于每一頻率計(jì)算在已經(jīng)過計(jì)算的相位頻譜之間差值的相位差頻譜 DIFF_PHASE(f)。注意,相位差頻譜DIFF—PHASE(f)并不是通過獲取頻譜 INl(f)和IN2(f)的每一相位頻譜獲得,而通過獲取INl(f)/IN2(f)的相位分量獲 得。振幅頻譜計(jì)算單元204計(jì)算其中一個(gè)振幅頻譜,例如,計(jì)算頻譜llNl(f) i ,其為圖2所示實(shí)例中輸入1的輸入信號(hào)頻譜INl(f)的頻率分量。對(duì)于計(jì) 算哪一個(gè)振幅頻譜沒有特別的限制。可以計(jì)算振幅頻譜INl(f)和IN2(f),并 且選取較大的一個(gè)。
實(shí)施例1描述了這樣一種處理方式,即對(duì)于傅立葉變換的頻譜中的每一
頻率計(jì)算振幅頻譜I INl(f) I 。此外,實(shí)施例1還描述了這樣一種處理方式, 即執(zhí)行頻帶劃分,以及在根據(jù)特定中心頻率和間隔劃分的已劃分頻帶內(nèi)獲取 振幅頻譜I INl(f) I的代表值。在這種情況下,代表值可以是己劃分頻帶內(nèi) 振幅頻譜I INl(f) I的平均值或者可以是其最大值。在所述頻帶劃分之后,
振幅頻譜的代表值變成I INl(n) i 。其中n表示已劃分頻帶的索引號(hào)。
背景噪音估測(cè)單元205根據(jù)振幅頻譜I INl(f) I估測(cè)背景噪音頻譜I NOISEl(f) I 。背景噪音頻譜I NOISEl(f) I的估測(cè)方法不限定為任何特定的 方法。也可以使用已知方法,如在聲音識(shí)別中使用的語(yǔ)音部分檢測(cè)處理或在 移動(dòng)電話中使用的噪音消除處理中執(zhí)行的背景噪音估測(cè)處理等。換句話說, 可以使用任何背景噪音頻譜的估測(cè)方法。在如上所述對(duì)振幅頻譜進(jìn)行頻帶劃 分的情況下,應(yīng)對(duì)于每一已劃分頻帶估測(cè)背景噪音頻譜I NOISEl(n) I 。其 中n表示己劃分頻帶的索引號(hào)。
SN比率計(jì)算單元206通過計(jì)算在振幅頻譜計(jì)算單元204內(nèi)所計(jì)算的振 幅頻譜I INl(f) I和在背景噪音估測(cè)單元205內(nèi)估測(cè)的背景噪音頻譜I NOISEl(f) I之間的比率來計(jì)算SN比率SNR(f)。通過以下表達(dá)式(1)計(jì)算 SN比率SNR(f)。在對(duì)振幅頻譜進(jìn)行頻帶劃分的情況下,應(yīng)對(duì)于每一已劃分 頻帶計(jì)算SNR(n)。其中n表示己劃分頻帶的索引號(hào)。
SNR(f) = 20.0Xlogl0 ( I INl(f) i / I NOISEl(f) I ) . .. (1)
相位差頻譜選取單元207提取在SN比率計(jì)算單元206中計(jì)算的其SN 比率大于一預(yù)定值的頻率或頻帶,以及選取與所提取頻率相對(duì)應(yīng)的相位差頻 譜或在所提取頻帶內(nèi)的相位差頻譜。
到達(dá)距離差值計(jì)算單元208獲得用通過原點(diǎn)的直線來線性逼近所選取的 相位差頻譜和頻率f之間的關(guān)系的函數(shù)。根據(jù)這個(gè)函數(shù),到達(dá)距離差值計(jì)算 單元208計(jì)算從聲源到語(yǔ)音輸入單元15和15距離之間的差值,S卩,聲音分 別到達(dá)語(yǔ)音輸入單元15和15所沿路徑的距離之間的差值D。
聲音到達(dá)方向估測(cè)單元209利用由到達(dá)距離差值計(jì)算單元208所計(jì)算的 差值D和語(yǔ)音輸入單元15和15的安裝間隔L計(jì)算聲音輸入的入射角e,即,
角e表示被估測(cè)的作為聲源的人所在的方向。
下面將描述根據(jù)本發(fā)明實(shí)施例1的由聲音到達(dá)方向估測(cè)設(shè)備1的操作處 理單元11所執(zhí)行的處理過程。圖3為顯示根據(jù)本發(fā)明實(shí)施例1的由聲音到 達(dá)方向估測(cè)設(shè)備1的操作處理單元11所執(zhí)行的處理過程的流程圖。
首先,在步驟S301,聲音到達(dá)方向估測(cè)設(shè)備1的操作處理單元11從語(yǔ)
音輸入單元15和15接收聲音信號(hào)(模擬信號(hào))。在步驟S302,在所接收的 聲音信號(hào)經(jīng)過A/D轉(zhuǎn)換后,操作處理單元ll以一預(yù)定時(shí)間為單位對(duì)所接收 的聲音信號(hào)執(zhí)行成幀(framing)處理。根據(jù)所取樣的頻率、應(yīng)用的類型等確 定成幀單位。此時(shí),為了獲取穩(wěn)定的頻譜,對(duì)已成幀的取樣信號(hào)添加時(shí)間窗 口,例如海明(hamming)窗、漢寧(harming)窗等。例如,以20至40ms 為單位執(zhí)行成幀處理,同時(shí)在每10至20ms就會(huì)出現(xiàn)重疊,對(duì)于每一幀執(zhí)行 以下處理。
在步驟S303,操作處理單元ll以幀為單位將時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻 率軸上的信號(hào),即,頻譜INl(f)和IN2(f)。其中f代表頻率(弧度)。操作 處理單元11執(zhí)行時(shí)頻轉(zhuǎn)換處理,如傅立葉變換。在實(shí)施例1中,操作處理 單元11通過執(zhí)行如傅立葉變換的時(shí)頻轉(zhuǎn)換處理以幀為單位將時(shí)間軸上的信 號(hào)轉(zhuǎn)換為頻譜INl(f)和IN2(f)。
接著,在步驟S304,操作處理單元11對(duì)于每一頻率利用頻率轉(zhuǎn)換頻譜 INl(f)和IN2(f)的實(shí)部和虛部計(jì)算相位頻譜,以及計(jì)算作為己計(jì)算的相位頻 譜之間的相位差的相位差頻譜DIFF—PHASE(f)。
另一方面,在步驟S305,操作處理單元11計(jì)算作為輸入1的輸入信號(hào) 頻譜INl(f)的振幅分量的振幅頻譜I INl(f) I的值。
然而,所述計(jì)算并不需要限定為對(duì)輸入1的輸入信號(hào)頻譜INl(f)的振幅 頻譜的計(jì)算。作為另一種方法,例如,可以對(duì)輸入2的輸入信號(hào)頻譜IN2(f) 的振幅頻譜進(jìn)行計(jì)算,或者也可以計(jì)算輸入1和輸入2的兩個(gè)振幅頻譜的平 均值或其中的最大值作為振幅頻譜的代表值。此處,采用這樣一種處理方式, 即對(duì)傅立葉變化的頻譜內(nèi)的每一頻率計(jì)算振幅頻譜I INl(f) I 。然而,也可 以采用這樣一種處理方式,即執(zhí)行頻帶劃分,以及在根據(jù)特定中心頻率和間 隔劃分的己劃分頻帶內(nèi)獲取振幅頻譜I INl(f) I的代表值。所述代表值可以 是已劃分頻帶內(nèi)振幅頻譜I INl(f) I的平均值或者可以是其最大值。另外, 所述處理方式并不限定為計(jì)算振幅頻譜的方式,也可以采用計(jì)算功率頻譜的 方式。在這種情況下,根據(jù)以下的表達(dá)式(2)計(jì)算SN比率SNR(f)。
<formula>formula see original document page 15</formula>2)
在步驟S306,操作處理單元11根據(jù)所計(jì)算的振幅頻譜I INl(f) i估測(cè)噪 音部分,以及根據(jù)所估測(cè)的噪音部分的振幅頻譜I INl(f) I估測(cè)背景噪音頻 譜I NOISE 1(f) I 。
注意,噪音部分的估測(cè)方法并不限定為任何特定的方法。例如,作為另 一方法,對(duì)于背景噪音頻譜I NOISEl(f) I的估測(cè)方法,也可以使用已知方 法,如在聲音識(shí)別中使用的語(yǔ)音部分檢測(cè)處理或在移動(dòng)電話中使用的噪音消 除處理中執(zhí)行的背景噪音估測(cè)處理等。換句話說,可以使用任何背景噪音頻 譜的估測(cè)方法。例如,可以利用整個(gè)頻帶內(nèi)的功率信息估測(cè)背景噪音的等級(jí), 以及通過根據(jù)所估測(cè)的背景噪音的等級(jí)獲取用于判斷聲音/噪音的閾值來對(duì) 聲音/噪音作出判斷。因此,在判斷結(jié)果為噪音的情況下,通常通過利用此時(shí) 的振幅頻譜I INl(f) I校正背景噪音頻譜I NOISEl(f) I來估測(cè)背景噪音頻 譜I NOISEl(f) I 。
在步驟S307,操作處理單元11根據(jù)表達(dá)式(1)(或在功率頻譜情況下 根據(jù)表達(dá)式(2))對(duì)于每一頻率或頻帶計(jì)算SN比率SNR(f)。然后,在步 驟S308,操作處理單元11選取所計(jì)算的SN比率大于一預(yù)定值的頻率或頻 帶。根據(jù)確定預(yù)定值的方法可以改變待被選取的頻率或頻帶。例如,可以通 過以下的方式選取具有最大SN比率值的頻率或頻帶,所述方式包括對(duì)相 鄰頻率或頻帶之間的SN比率進(jìn)行比較,并通過連續(xù)選取具有較大SN比率 的頻率或頻帶,同時(shí)按序地將其存儲(chǔ)在RAM 13中并進(jìn)行選取。也可以按SN 比率的從大到小的順序選取N (N表示自然數(shù))段頻率或頻帶。
在步驟S309,根據(jù)與一個(gè)或多個(gè)選取的頻率或頻帶相應(yīng)的相位差頻譜 DIFF—PHASE①,操作處理單元11線性逼近相位差頻譜DIFF—PHASE(f)和頻 率f之間的關(guān)系。結(jié)果,可以利用這樣一種情況,即對(duì)于SN比率較高的頻 率或頻帶,相位差頻譜DH^^PHASE(f)可靠性較高。因此,在相位差頻譜 DIFF—PHASE(f)和頻率f之間可以按比例關(guān)系提高估測(cè)精確度。
圖4A、圖4B和圖4C為顯示在選取其SN比率大于預(yù)定值的頻率或頻 帶情況下的相位差頻譜的校正方法的示意圖。
圖4A顯示與頻率或頻帶對(duì)應(yīng)的相位差頻譜DIFF—PHASE(f)。因?yàn)楸尘?噪音通常是疊加的,所以難以發(fā)現(xiàn)恒定的關(guān)系。
圖4B顯示在頻率或頻帶中的SN比率SNR(f)。更具體地,所述圖4B中
由雙圓圈標(biāo)識(shí)的部分表示其SN比率大于預(yù)定值的頻率或頻帶。因此,如圖4B所示,當(dāng)選取其SN比率大于預(yù)定值的頻率或頻帶時(shí),與所選取的頻率或 頻帶對(duì)應(yīng)的相位差頻譜DIFF—PHASE(f)變?yōu)橛蓤D4A中的雙圓圈所標(biāo)識(shí)的部 分。通過線性逼近如圖4A所選取的相位差頻譜DH^LPHASE(f),可以發(fā)現(xiàn) 在相位差頻譜DIFF_PHASE(f)和頻率f之間存在如圖4C所示的比例關(guān)系。然后,在步驟S310,操作處理單元11利用在奈奎斯特頻率F(Nyquist frequency)的線性逼近的相位差頻譜DIFF—PHASE(兀),g卩,圖4C中的R以及 聲音c的速度,根據(jù)以下的表達(dá)式(3)計(jì)算從聲源輸入的聲音到達(dá)距離之 間的差值D。奈奎斯特頻率是取樣頻率的一半,并且在圖4A,圖4B以及圖 4C中為71。更具體地,在取樣頻率為8kHz的情況下,奈奎斯特頻率為4kHz。另外,在圖4C中,顯示通過原點(diǎn)的被所選取的相位差頻譜 DIFF—PHASE(f)逼近的逼近直線。然而,當(dāng)作為語(yǔ)音輸入單元15和15的每 個(gè)麥克風(fēng)的特點(diǎn)彼此不同時(shí),在整個(gè)范圍內(nèi)延伸的相位差頻譜中存在偏差。 在這樣的情況下,通過對(duì)與逼近直線的頻率O相應(yīng)的數(shù)值(即,逼近直線的 截距值)相關(guān)的奈奎斯特頻率的相位差值R進(jìn)行校正,可獲得逼近直線。D二(RXc)/(FX2兀)…(3)在步驟S311,操作處理單元11利用在到達(dá)距離之間的已計(jì)算差值D計(jì)算聲音輸入的入射角e, g口,角e表示已估測(cè)出聲源所在的方向。圖5為顯 示用于表示被估測(cè)的聲源所在方向的角e的計(jì)算方法的示意圖。如圖5所示,兩個(gè)語(yǔ)音輸入單元15和15是以間隔L彼此分開安裝的。 在這種情況下,在差值D (表示從聲源輸入的聲音到達(dá)距離之間的差值)與 間隔L (表示兩個(gè)語(yǔ)音輸入單元15和15之間的間隔)之間建立關(guān)系 "sine—D/L)"。因此,根據(jù)以下的表達(dá)式(4)可以獲得用以表示被估測(cè)的聲源所在的方向的角e。e二sin—1 (D/L)…(4)在這種情況下,按SN比率的從大到小的順序選取N段頻率或頻帶,如 上所述,利用最高的N個(gè)相位差頻譜執(zhí)行線性逼近。例如,作為另一種方法, 可以通過不利用在奈奎斯特頻率F(Nyquist frequency)的線性逼近的相位差頻 譜DIFF—PHASE(F)的R值,而是利用在所選取的頻率f的相位差頻譜 r(=DIFF—PHASE(f)),用其中的f和r分別替代公式(3)中的F和R,并且 對(duì)于每一所選取的頻率計(jì)算到達(dá)距離之間的差值D,然后通過利用所計(jì)算差值D的平均值計(jì)算用以表示被估測(cè)的聲源所在方向的角e。當(dāng)然,上述計(jì)算方法并不限定為這一種方法。例如,也可以通過根據(jù)SN比率加權(quán)計(jì)算到達(dá)距離之間的差值D的代表值來計(jì)算用以表示被估測(cè)的聲源所在方向的角e。另外,在估測(cè)發(fā)出聲音的人所在方向的情況下,也可以通過以下方式來計(jì)算用以表示被估測(cè)的聲源所在方向的角e,該方式為判斷聲音輸入是否為用以表示由人發(fā)出的聲音的語(yǔ)音部分,以及僅當(dāng)判斷為語(yǔ)音部分時(shí)執(zhí)行上述處理。另外,即使判斷出SN比率大于預(yù)定值,那么在考慮到應(yīng)用的使用狀態(tài)、使用條件等得知相位差是不期望的相位差的情況下,優(yōu)選地應(yīng)從待選取的頻 率或頻帶中去除與所述不期望的相位差相應(yīng)的頻率或頻帶。例如,將根據(jù)實(shí) 施例l的聲音到達(dá)方向估測(cè)設(shè)備l應(yīng)用到一裝置中,如移動(dòng)電話,假設(shè)從前方產(chǎn)生聲音,在估測(cè)出用以表示被計(jì)算的聲音所在方向的角e為e<-90°或 卯° 〈e的情況下,其中假設(shè)前方角度為o。,則可以判斷出這是一種不期望 的狀態(tài)。另外,即使判斷出SN比率大于預(yù)定值,考慮到應(yīng)用的使用狀態(tài)、使用條件等,優(yōu)選地從待選取的頻率或頻帶中去除不希望用以估測(cè)目標(biāo)聲源的頻率或頻帶。例如,在由人發(fā)出目標(biāo)聲源的情況下,不存在頻率為100Hz或更 低的聲音信號(hào)。因此,可以從待選取的頻率中去除100Hz或更低的頻率。如上所述,在根據(jù)實(shí)施例1的聲音到達(dá)方向估測(cè)設(shè)備1內(nèi),根據(jù)所輸入 的聲音信號(hào)的振幅分量(即,所謂的振幅頻譜)和所估測(cè)的背景噪音頻譜獲得每一頻率或頻帶的SN比率,以及使用SN比率較大的頻率的相位差(相 位差頻譜),從而可以更精確地獲取到達(dá)距離之間的差值D。因此,根據(jù) 到達(dá)距離之間的精確差值D,可以精確計(jì)算聲音信號(hào)的入射角,即用以表示被估測(cè)的目標(biāo)聲源(實(shí)施例i中的人)所在方向的角e。[實(shí)施例2]下面參考附圖將詳細(xì)地描述根據(jù)本發(fā)明實(shí)施例2的聲音到達(dá)方向估測(cè)設(shè) 備1。因?yàn)橛米鞲鶕?jù)本發(fā)明實(shí)施例2的聲音到達(dá)方向估測(cè)設(shè)備的通用計(jì)算機(jī) 的結(jié)構(gòu)與本發(fā)明實(shí)施例1類似,所以可參照?qǐng)D1的框圖來理解這種結(jié)構(gòu),因
此這里不詳細(xì)對(duì)其進(jìn)行描述。實(shí)施例2與實(shí)施例1不同之處在于以幀為單位 存儲(chǔ)相位差頻譜的計(jì)算結(jié)果,以及根據(jù)在最后時(shí)刻存儲(chǔ)的相位差頻譜和在待 計(jì)算的幀內(nèi)的SN比率在任一時(shí)刻校正在待計(jì)算的同一幀內(nèi)的相位差頻譜。圖6為顯示在根據(jù)本發(fā)明實(shí)施例2的聲音到達(dá)方向估測(cè)設(shè)備1的操作處 理單元11執(zhí)行處理程序時(shí)所實(shí)現(xiàn)的功能的功能框圖。在圖6所示的實(shí)例中, 如實(shí)施例1的情況,假設(shè)每一語(yǔ)音輸入單元15和15都是麥克風(fēng)。如圖6所示,根據(jù)本發(fā)明實(shí)施例2的聲音到達(dá)方向估測(cè)設(shè)備1至少包括: 語(yǔ)音接受單元(聲音信號(hào)接收部)201、信號(hào)轉(zhuǎn)換單元(信號(hào)轉(zhuǎn)換部)202、 相位差頻譜計(jì)算單元(相位差計(jì)算部)203、振幅頻譜計(jì)算單元(振幅分量 計(jì)算部)204、背景噪音估測(cè)單元(噪音分量估測(cè)部)205、 SN比率計(jì)算單 元(信噪比計(jì)算部)206、相位差頻譜校正單元(校正部)210、到達(dá)距離差 值計(jì)算單元(到達(dá)距離差值計(jì)算部)208和聲音到達(dá)方向計(jì)算單元(聲音到 達(dá)方向計(jì)算部)209,這些單元是在執(zhí)行處理程序時(shí)所實(shí)現(xiàn)的功能塊。語(yǔ)音接受單元201從兩個(gè)麥克風(fēng)接收由作為聲源的人所發(fā)出的聲音。在 實(shí)施例2中,經(jīng)由都是麥克風(fēng)的語(yǔ)音輸入單元15和15接收輸入1和輸入2。對(duì)于輸入的聲音,信號(hào)轉(zhuǎn)換單元202將時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻率軸上 的信號(hào),即復(fù)合頻譜INl(f)和IN2(f)。這里f代表一頻率(弧度)。在信號(hào) 轉(zhuǎn)換單元202中,執(zhí)行一種時(shí)頻轉(zhuǎn)換處理,如傅立葉變換。在實(shí)施例1中, 通過如傅立葉變換的肘頻轉(zhuǎn)換處理,將輸入的聲音轉(zhuǎn)換為頻譜INl(f)和 IN2(f)。在由語(yǔ)音輸入單元15和15接收的輸入信號(hào)經(jīng)過A/D轉(zhuǎn)換后,以一預(yù)定 時(shí)間為單位對(duì)獲得的取樣信號(hào)執(zhí)行成幀處理。此時(shí),為了獲取穩(wěn)定的頻譜, 對(duì)已成幀的取樣信號(hào)添加時(shí)間窗口 ,例如海明(hamming)窗、漢寧(harming) 窗等。根據(jù)所取樣的頻率、應(yīng)用的類型等確定成幀單位。例如,以20至40ms 為單位執(zhí)行成幀處理,同時(shí)在每10至20ms就會(huì)出現(xiàn)重疊,對(duì)于每一幀執(zhí)行 以下處理。相位差頻譜計(jì)算單元203根據(jù)頻率轉(zhuǎn)換頻譜INl(f)和IN2(f)以幀為單位 計(jì)算相位頻譜,以及以幀為單位計(jì)算在已經(jīng)過計(jì)算的相位頻譜之間相位差值 的相位差頻譜DIFF一PHASE(f)。這里,振幅頻譜計(jì)算單元204計(jì)算其中一個(gè) 振幅頻譜,例如,計(jì)算頻譜I INl(f) I ,其為圖6所示實(shí)例中輸入1的輸入
信號(hào)頻譜INl(f)的頻率分量。對(duì)于計(jì)算哪一個(gè)振幅頻譜沒有特別的限制。可 以計(jì)算振幅頻譜INl(f)和IN2(f),并且選取兩者的平均值或選取較大的一個(gè)。背景噪音估測(cè)單元205根據(jù)振幅頻譜I INl(f) I估測(cè)背景噪音頻譜I NOISEl(f) I 。背景噪音頻譜I NOISEl(f) I的估測(cè)方法不限定為任何特定的 方法。也可以使用已知方法,如在聲音識(shí)別中使用的語(yǔ)音部分檢測(cè)處理或在 移動(dòng)電話中使用的噪音消除處理中執(zhí)行的背景噪音估測(cè)處理等。換句話說, 可以使用任何背景噪音頻譜的估測(cè)方法。SN比率計(jì)算單元206通過計(jì)算在振幅頻譜計(jì)算單元204內(nèi)所計(jì)算的振 幅頻譜I INl(f) I和在背景噪音估測(cè)單元205內(nèi)所估測(cè)的背景噪音頻譜I NOISEl(f) I之間的比率來計(jì)算SN比率SNR(f)。根據(jù)在SN比率計(jì)算單元206中所計(jì)算的SN比率以及在經(jīng)過相位差頻 譜校正單元210校正之后在剛過去的取樣時(shí)間內(nèi)計(jì)算的并存儲(chǔ)在RAM 13中 的相位差頻譜DIFF—PHASEw(f),相位差頻譜校正單元210對(duì)于在當(dāng)前取樣 時(shí)間(即,下一取樣時(shí)間)計(jì)算的相位差頻譜DIFF—PHASEt(f)進(jìn)行校正。在 當(dāng)前取樣時(shí)間,以相同的方式計(jì)算SN比率和相位差頻譜DIFF—PHASEt(f), 直至最后時(shí)刻,并且利用依據(jù)SN比率所設(shè)置的校正系數(shù)a (0《a《l)根 據(jù)以下表達(dá)式(5)計(jì)算在當(dāng)前取樣時(shí)間的幀的相位差頻譜DIFF—PHASEt(f)。隨后將描述校正系數(shù)a。例如,與每一個(gè)程序一起,在RAM12中存儲(chǔ) 校正系數(shù)a作為與SN比率對(duì)應(yīng)的數(shù)值信息,并由處理程序所引用。DIFF—PHASEt(f)= a X DIFF—PHASEt (f)+ (l—a) XDIFF一PHASEt—i(f).…(5)到達(dá)距離差值計(jì)算單元208獲得用通過原點(diǎn)的直線線性逼近所選取的相 位差頻譜和頻率f之間的關(guān)系的函數(shù)。根據(jù)這個(gè)函數(shù),到達(dá)距離差值計(jì)算單 元208計(jì)算從聲源到語(yǔ)音輸入單元15和15距離之間的差值,即,聲音分別 到達(dá)語(yǔ)音輸入單元15和15所沿路徑的距離之間的差值D。聲音到達(dá)方向估測(cè)單元209利用由到達(dá)距離差值計(jì)算單元208所計(jì)算的 差值D和語(yǔ)音輸入單元15和15的安裝間隔L計(jì)算聲音輸入的入射角e,即,角e表示被估測(cè)的作為聲源的人所在的方向。下面將描述根據(jù)本發(fā)明實(shí)施例2的聲音到達(dá)方向估測(cè)設(shè)備1的操作處理 單元11所執(zhí)行的程序。圖7和圖8為顯示根據(jù)本發(fā)明實(shí)施例2的由聲音到
達(dá)方向估測(cè)設(shè)備1的操作處理單元11所執(zhí)行的處理過程的流程圖。首先,在步驟S701,聲音到達(dá)方向估測(cè)設(shè)備l的操作處理單元ll從語(yǔ)音輸入單元15和15接收的聲音信號(hào)(模擬信號(hào))。在步驟S702,在所接收 的信號(hào)經(jīng)過A/D轉(zhuǎn)換后,操作處理單元ll以一預(yù)定時(shí)間為單位對(duì)所接收的 聲音信號(hào)執(zhí)行成幀處理。根據(jù)所取樣的頻率、應(yīng)用的類型等確定成幀單位。 此時(shí),為了獲取穩(wěn)定的頻譜,對(duì)已成幀的取樣信號(hào)添加時(shí)間窗口,例如海明 (hamming)窗、漢寧(hanning)窗等。例如,以20至40ms為單位執(zhí)行 成幀處理,同時(shí)在每10至20ms就會(huì)出現(xiàn)重疊,對(duì)于每一幀執(zhí)行以下處理。在步驟S703,操作處理單元ll以幀為單位將時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻 率軸上的信號(hào),即,頻譜INl(f)和IN2(f)。其中f代表具有恒定取樣寬度的 頻率(弧度)或頻帶。操作處理單元ll執(zhí)行時(shí)頻轉(zhuǎn)換處理,如傅立葉變換。 在實(shí)施例2中,操作處理單元11通過執(zhí)行如傅立葉變換的時(shí)頻轉(zhuǎn)換處理以 幀為單位將時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻譜INl(f)和IN2(f)。接著,在步驟S704,操作處理單元11對(duì)于每一頻率或頻帶利用頻率轉(zhuǎn) 換頻譜INl(f)和IN2(f)的實(shí)部和虛部計(jì)算相位頻譜,以及計(jì)算作為已計(jì)算的 相位頻譜之間的相位差的相位差頻譜DIFF一PHASEt(f)。另一方面,在步驟S705,操作處理單元11計(jì)算作為輸入1的輸入信號(hào) 頻譜INl(f)的振幅分量的振幅頻譜I INl(f) I的值。然而,所述計(jì)算并不需要限定為對(duì)輸入1的輸入信號(hào)頻譜INl(f)的振幅 頻譜的計(jì)算。作為另一種方法,例如,可以對(duì)輸入2的輸入信號(hào)頻譜IN2(f) 的振幅頻譜進(jìn)行計(jì)算,或者也可以計(jì)算輸入1和輸入2的兩個(gè)振幅頻譜的平 均值或其中的最大值作為振幅頻譜的代表值。另外,所述處理方式并不限定 為計(jì)算振幅頻譜的方式,也可以采用計(jì)算功率頻譜的方式。在步驟S706,操作處理單元11根據(jù)所計(jì)算的振幅頻譜i INl(f) I估測(cè)噪 音部分,以及根據(jù)所估測(cè)的噪音部分的振幅頻譜I INl(f) I估測(cè)背景噪音頻 譜I NOISEl(f) I 。噪音部分的估測(cè)方法并不限定為任何特定的方法。例如,作為另一方法, 對(duì)于背景噪音頻譜I NOISEl(f) I的估測(cè)方法,可以利用整個(gè)頻帶內(nèi)的功率 信息估測(cè)背景噪音的等級(jí),以及通過根據(jù)所估測(cè)的背景噪音的等級(jí)獲取用于 判斷聲音/噪音的閾值來對(duì)聲音/噪音作出判斷。因此,在判定結(jié)果為噪音的 情況下,可以使用任何背景噪音頻譜的估測(cè)方法,其中通過利用此時(shí)的振幅 頻譜i INl(f) I校正背景噪音頻譜1 NOISEl(f) I來估測(cè)背景噪音頻譜INOISE l(f) I 。在步驟S707,操作處理單元11根據(jù)上述表達(dá)式(1)對(duì)于每一頻率或頻 帶計(jì)算SN比率SNR(f)。然后,在步驟S708,操作處理單元11判斷在剛過 去的取樣時(shí)間的相位差頻譜DIFF—PHASEH(f)是否存儲(chǔ)于RAM 13中。在操作處理單元11判斷出在剛過去的取樣時(shí)間的相位差頻譜 DIFF—PHASEt—"f)被存儲(chǔ)的情況下(即,在步驟S708中為是),那么在步驟 S710,操作處理單元ll從ROM 12讀取與在已計(jì)算的取樣時(shí)間(當(dāng)前取樣 時(shí)間)內(nèi)的SN比率對(duì)應(yīng)的校正系數(shù)a 。另外,可以通過利用在程序中預(yù)先 建立的用以表示SN比率和校正系數(shù)a之間關(guān)系的函數(shù)計(jì)算來獲得校正系數(shù)圖9為顯示取決于SN比率的校正系數(shù)ct的實(shí)例的示圖。在圖9所示的 實(shí)例中,當(dāng)SN比率為O (零)時(shí),將校正系數(shù)a設(shè)置為O (零)。當(dāng)所計(jì)算 的SN比率為O (零)時(shí),如從上述表達(dá)式(5)中可以理解,這表示由于 不使用所計(jì)算的相位差頻譜DIFF—PHASEt(f),所以通過將過去時(shí)刻的相位差 頻譜DIFF—PHASEw (f)用作當(dāng)前時(shí)刻的相位差頻譜來執(zhí)行隨后的處理。當(dāng) SN比率變大時(shí),設(shè)置校正系數(shù)a,從而使其單調(diào)性增加。在SN比率處于 20bB或更大的范圍內(nèi),校正系數(shù)a被固定為小于1的最大值amax。校正系 數(shù)a的最大值dmax被設(shè)置為小于1的值的原因是當(dāng)不期望地發(fā)生具有較高 SN比率的噪音時(shí),防止相位差頻譜值DIFF—PHASEt (f)被100%地替換為其噪音的相位差頻譜。在步驟S711,操作處理單元11利用已從R0M 12讀取的與SN比率對(duì) 應(yīng)的校正系數(shù)a,根據(jù)上述表達(dá)式(5)校正相位差頻譜DIFF—PHASEt (f)。 之后,在步驟S712,操作處理單元11將存儲(chǔ)在RAM 13中被校正的相位差 頻譜DIFF_PHASEt- i(f)更新為在當(dāng)前取樣時(shí)間的被校正的相位差頻譜 DIFF—PHASEt (f),并且將其存儲(chǔ)。在操作處理單元11判斷出在剛過去的取樣時(shí)間的相位差頻譜 DIFF一PHASEt-"f)沒有被存儲(chǔ)的情況下(即,在步驟S708中為否),那么在 步驟S717,操作處理單元11判斷是否使用了在當(dāng)前取樣時(shí)間的相位差頻譜 DIFF_PHASEt(f)。作為是否使用在當(dāng)前取樣時(shí)間的相位差頻譜 DIFF—PHASEt(f)的判斷標(biāo)準(zhǔn),可使用是否從目標(biāo)聲源發(fā)出聲音信號(hào)的標(biāo)準(zhǔn) (人是否發(fā)出聲音),例如在整個(gè)頻帶內(nèi)的SN比率、聲音/噪音的判斷結(jié)果 等。在操作處理單元11判斷出沒有使用在當(dāng)前取樣時(shí)間的相位差頻譜 DIFFJPHASEt (f)情況下,即判斷出從聲源產(chǎn)生聲音信號(hào)存在較低的可能性 (即,在步驟S717中為否),那么在步驟S718,操作處理單元ll將相位差 頻譜的預(yù)定初始值設(shè)定為在當(dāng)前取樣時(shí)間的相位差頻譜。在這種情況下,例 如,對(duì)于所有的頻率將相位差頻譜的初始值設(shè)置為0 (零)。然而,在步驟 S718的設(shè)置并不限定為這個(gè)值(即零)。接下來,在步驟S719,操作處理單元11在RAM 13中存儲(chǔ)相位差頻譜 的初始值作為在當(dāng)前取樣時(shí)間的相位差頻譜,并且繼續(xù)進(jìn)行步驟S713的處 理。在操作處理單元11判斷出使用了在當(dāng)前取樣時(shí)間的相位差頻譜 DIFF—PHASEt(f)的情況下,即判斷出從聲源產(chǎn)生聲音信號(hào)存在較高的可能性 (即,在步驟S717中為是),那么在步驟S720,操作處理單元11在RAM 13 中存儲(chǔ)在當(dāng)前取樣時(shí)間的相位差頻譜,并且繼續(xù)進(jìn)行步驟S713的處理。 . 在步驟S713,根據(jù)在S712, S719以及S720中任一步驟存儲(chǔ)的所選取 的相位差頻譜DIFF一PHASEt(f),操作處理單元11用通過原點(diǎn)的直線線性逼 近所述相位差頻譜DIFF一PHASE(f)和頻率f之間的關(guān)系。結(jié)果,當(dāng)執(zhí)行根據(jù) 所校正的相位差頻譜的線性逼近時(shí),可使用不是在當(dāng)前取樣時(shí)間的而是在過 去取樣時(shí)間的用以反應(yīng)在SN比率較高(即,高可靠性)的頻率或頻帶的相 位差信息的相位差頻譜DIFF—PHASE (f)。因此,能夠提高相位差頻譜 DIFF—PHASE (f)和頻率f之間的比例關(guān)系的估測(cè)精確度。在步驟S714,操作處理單元11根據(jù)上述的表達(dá)式(3)利用在奈奎斯特 頻率F的被線性逼近的相位差頻譜DIFF—PHASE(F)的值計(jì)算來自聲源的聲 音信號(hào)到達(dá)距離之間的差值D。注意,也可以通過在不使用在奈奎斯特頻率 F(Nyquist frequency)的線性逼近的相位差頻譜DIFF—PHASE(F)的情況下,通 過用f和r分別代替表達(dá)式(3)中的F和R計(jì)算到達(dá)距離之間差值D,即 使使用在任意頻率f的相位差頻譜值r (=DIFF_PHASE(f))。然后,在步驟S715,操作處理單元11利用在到達(dá)距離之間的己計(jì)算的差值D來計(jì)算用以表示被估測(cè)的聲源(人)所在方向的角e。另外,在估測(cè)發(fā)出聲音的人所在方向的情況下,也可以通過以下方式來計(jì)算用以表示被估測(cè)的聲源所在方向的角e,該方式為判斷聲音輸入是否為用以表示由人發(fā)出的聲音的語(yǔ)音部分,以及僅當(dāng)判斷為語(yǔ)音部分時(shí)執(zhí)行上 述處理。另外,即使判斷出SN比率大于預(yù)定值,那么在考慮到應(yīng)用的使用狀態(tài)、 使用條件等得知相位差是不期望的相位差的情況下,優(yōu)選地應(yīng)從與在待校正 的當(dāng)前取樣時(shí)間在相位差頻譜相應(yīng)的頻率或頻帶中去除與所述不期望的相 位差相應(yīng)的頻率或頻帶。例如,將根據(jù)實(shí)施例1的聲音到達(dá)方向估測(cè)設(shè)備1 應(yīng)用到一裝置中,如移動(dòng)電話,假設(shè)從前方產(chǎn)生聲音,在估測(cè)出用以表示被計(jì)算的聲音所在方向的角e為e《90。或90° <6的情況下,其中假設(shè)前方角度為o。,則可以判斷出這是一種不期望的狀態(tài)。在這種情況下,不使用在當(dāng)前取樣時(shí)間的相位差頻譜,但是使用在最后時(shí)間或更早時(shí)間所計(jì)算的相位 差頻譜。 ,另外,即使判斷出SN比率大于預(yù)定值,考慮到應(yīng)用的使用狀態(tài)、使用條件等,優(yōu)選地從待選取的頻率或頻帶中去除不希望用以估測(cè)目標(biāo)聲源的頻率或頻帶。例如,在由人發(fā)出目標(biāo)聲源的情況下,不存在頻率為100Hz或更 低的聲音信號(hào)。因此,可以從待選取的頻率中去除100Hz或更低的頻率。如上所述,在根據(jù)實(shí)施例2的聲音到達(dá)方向估測(cè)設(shè)備1中,在計(jì)算在SN 比率較高的頻率或頻帶的相位差頻譜的情況下,在執(zhí)行校正的同時(shí),對(duì)取樣 時(shí)間(當(dāng)前取樣時(shí)間)的相位差頻譜進(jìn)行加權(quán)計(jì)算,使其大于在剛過去的取 樣時(shí)間計(jì)算的相位差頻譜;在SN比率較低的情況下,在執(zhí)行校正的同時(shí), 對(duì)在剛過去的取樣時(shí)間的相位差頻譜加權(quán)計(jì)算。因此,可連續(xù)校正新計(jì)算的 相位差頻譜。在過去取樣時(shí)間的SN比率較高的頻率的相位差信息也反映在 被校正的相位差頻譜中。因此,在背景噪音狀態(tài)的影響、從目標(biāo)聲源發(fā)出的 聲音信號(hào)的內(nèi)容改變等的情況下,相位差頻譜都不會(huì)有很大變化。因此,根 據(jù)到達(dá)距離之間的更精確以及更穩(wěn)定的距離D,能夠精確計(jì)算聲音信號(hào)的入 射角,即,用以表示被估測(cè)的目標(biāo)聲源所在方向的角e。計(jì)算用以表示被估測(cè)的目標(biāo)聲源所在方向的角e的方法并不限定為上述使用到達(dá)距離之間的差 值D的方法,但是在這些方法可以以類似精度實(shí)現(xiàn)估測(cè)的情況下,沒有必要 一一列舉。如上詳細(xì)描述,根據(jù)本發(fā)明的第一方面,根據(jù)所輸入信號(hào)的振幅分量(即 所謂的振幅頻譜)和所估測(cè)的背景噪音頻譜獲得每一頻率的信噪比(SN比 率),以及僅使用信噪比較大時(shí)的頻率的相位差(相位差頻譜),從而能夠 更精確地獲得到達(dá)距離之間的差值。因此,根據(jù)到達(dá)距離之間的精確的差值, 可以精確地估測(cè)聲音信號(hào)的入射角,即被估測(cè)的聲源所在方向。另外,根據(jù)本發(fā)明的第二方面,由于通過優(yōu)先選擇被噪音分量影響最小 的頻率來計(jì)算到達(dá)距離之間的差值,所以到達(dá)距離之間的差值的計(jì)算結(jié)果不 會(huì)有很大變化。因此,可以更精確地估測(cè)聲音信號(hào)的入射角,即目標(biāo)聲源所 在的方向。另外,根據(jù)本發(fā)明的第三方面,在計(jì)算相位差(相位差頻譜)以獲得到 達(dá)距離之間的差值的情況下,根據(jù)在過去取樣時(shí)間所計(jì)算的相位差,可連續(xù)校正新計(jì)算的相位差。由于在過去取樣時(shí)間SN比率較高的頻率的相位差信息反映在被校正的相位差頻譜中,所以相位差不會(huì)由于背景噪音的狀態(tài)、從 目標(biāo)聲源發(fā)出的聲音信號(hào)的內(nèi)容改變等而有很大變化。因此,根據(jù)到達(dá)距離 之間的更加精確和穩(wěn)定的差值,可以精確地估測(cè)聲音信號(hào)的入射角,即目標(biāo) 聲源所在的方向。另外,根據(jù)本發(fā)明的第四個(gè)方面,可以精確地估測(cè)產(chǎn)生聲音的聲源(例 如人)所在的方向。由于本發(fā)明的范圍是由所附權(quán)利要求限定的,而并非之前的說明書來限 定,所以在不脫離本發(fā)明實(shí)質(zhì)特征的精神的情況下,本發(fā)明可以以多種方式 實(shí)施,因此本發(fā)明實(shí)施例是示例性的,而并非限制性的,因此落于權(quán)利要求 書的邊界和范圍內(nèi)的所有改變或這種邊界和范圍的等同物均包含在本發(fā)明 的權(quán)利要求中。
權(quán)利要求
1. 一種對(duì)聲音信號(hào)的聲源所在方向的估測(cè)方法,所述聲音信號(hào)作為多通 道輸入從位于多個(gè)方向的聲源被輸入到用于輸入聲音信號(hào)的聲音信號(hào)輸入 單元,其特征在于,該估測(cè)方法包括以下步驟接受由所述聲音信號(hào)輸入單元輸入的多通道輸入,并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間軸上的信號(hào);將每一通道的在時(shí)間軸上的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào); 對(duì)于每同一頻率,計(jì)算每一通道所轉(zhuǎn)換的頻率軸上的信號(hào)的相位分量; 利用對(duì)于每同一頻率所計(jì)算的每一通道的信號(hào)的相位分量,計(jì)算多通道之間的相位差;計(jì)算所轉(zhuǎn)換的頻率軸上的信號(hào)的振幅分量; 根據(jù)所計(jì)算的振幅分量,估測(cè)噪音分量;根據(jù)所計(jì)算的振幅分量和所估測(cè)的噪音分量,對(duì)于每一頻率計(jì)算信噪比;提取其信噪比大于預(yù)定值的頻率;根據(jù)對(duì)所提取頻率計(jì)算的相位差,計(jì)算來自目標(biāo)聲源的聲音信號(hào)的到達(dá) 距離之間的差值;以及根據(jù)所計(jì)算的到達(dá)距離之間的差值,估測(cè)目標(biāo)聲源所在的方向。
2. 根據(jù)權(quán)利要求1所述的估測(cè)方法,其特征在于,在所述提取頻率的步 驟中,按所計(jì)算的信噪比的從大到小的順序選擇和提取其信噪比大于預(yù)定值 的預(yù)定數(shù)目的頻率。
3. —種對(duì)聲音信號(hào)的聲源所在方向的估測(cè)方法,所述聲音信號(hào)作為多通 道輸入從位于多個(gè)方向的聲源被輸入到用于輸入聲音信號(hào)的聲音信號(hào)輸入 單元,其特征在于,該估測(cè)方法包括以下步驟接受由所述聲音信號(hào)輸入單元輸入的多通道輸入,并且對(duì)于每一通道將 每一信號(hào)轉(zhuǎn)換為時(shí)間軸上的取樣信號(hào);對(duì)于每一通道將時(shí)間軸上的每一取樣信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào); 對(duì)于每同一頻率,計(jì)算每一通道所轉(zhuǎn)換的頻率軸上的信號(hào)的相位分量; 利用對(duì)于每同一頻率所計(jì)算的在每一通道信號(hào)的相位分量,計(jì)算多通道 之間的相位差;計(jì)算在預(yù)定取樣時(shí)間所轉(zhuǎn)換的頻率軸上的信號(hào)的振幅分量; 根據(jù)所計(jì)算的振幅分量,估測(cè)噪音分量;根據(jù)所計(jì)算的振幅分量和所估測(cè)的噪音分量,對(duì)于每一頻率計(jì)算信噪比;根據(jù)所計(jì)算的信噪比和在過去取樣時(shí)間的相位差的計(jì)算結(jié)果,對(duì)在當(dāng)前 取樣時(shí)間的相位差的計(jì)算結(jié)果進(jìn)行校正;根據(jù)校正之后所計(jì)算的相位差,計(jì)算來自目標(biāo)聲源的聲音信號(hào)的到達(dá)距 離之間的差值;以及根據(jù)所計(jì)算的到達(dá)距離之間的差值,估測(cè)目標(biāo)聲源所在的方向。
4. 根據(jù)權(quán)利要求1、 2或3所述的估測(cè)方法,還包括以下步驟在所接受 的聲音信號(hào)輸入中指定用以表示語(yǔ)音的部分的語(yǔ)音部分,其中,在將信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)的步驟中,僅將在指定語(yǔ)音部分 的步驟中指定的語(yǔ)音部分的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)。
5. —種聲音到達(dá)方向估測(cè)設(shè)備,用于估測(cè)聲音信號(hào)的聲源所在方向,所 述聲音信號(hào)作為多通道輸入從位于多個(gè)方向的聲源被輸入到用于輸入聲音 信號(hào)的聲音信號(hào)輸入單元,其特征在于,該設(shè)備包括聲音信號(hào)接受部,其接受由所述聲音信號(hào)輸入部輸入的多通道聲音信 號(hào),并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間軸上的信號(hào);信號(hào)轉(zhuǎn)換部,其對(duì)于每一通道,將由所述聲音信號(hào)接受部轉(zhuǎn)換的在時(shí)間 軸上的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào);相位分量計(jì)算部,其對(duì)于每同一頻率,計(jì)算每一通道的由所述信號(hào)轉(zhuǎn)換 部所轉(zhuǎn)換的頻率軸上的信號(hào)的相位分量;相位差計(jì)算部,其利用由所述相位分量計(jì)算部對(duì)于每同一頻率所計(jì)算的 每一通道信號(hào)的相位分量,計(jì)算多通道之間的相位差;振幅分量計(jì)算部,其計(jì)算由所述信號(hào)轉(zhuǎn)部轉(zhuǎn)換的頻率軸上的信號(hào)的振幅噪音分量估測(cè)部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算的振幅分量,估測(cè) 噪音分量;信噪比計(jì)算部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算的振幅分量以及由所 述噪音分量估測(cè)部所估測(cè)的噪音分量,對(duì)于每一頻率計(jì)算信噪比;頻率提取部,其提取由所述信噪比計(jì)算部所計(jì)算的信噪比大于預(yù)定值的頻率;到達(dá)距離差值計(jì)算部,其根據(jù)由所述相位差計(jì)算部對(duì)于所述頻率提取部 所提取頻率所計(jì)算的相位差,計(jì)算來自目標(biāo)聲源的聲音信號(hào)的到達(dá)距離之間 的差值;以及聲音到達(dá)方向估測(cè)部,其根據(jù)由所述到達(dá)距離差值計(jì)算部所計(jì)算的到達(dá) 距離之間的差值,估測(cè)目標(biāo)聲源所在的方向。
6. 根據(jù)權(quán)利要求5所述的聲音到達(dá)方向估測(cè)設(shè)備,其特征在于,所述頻 率提取部按所計(jì)算的信噪比的從大到小的順序選擇和提取由所述信噪比計(jì) 算部所計(jì)算的信噪比大于預(yù)定值的預(yù)定數(shù)目的頻率。
7. —種聲音到達(dá)方向估測(cè)設(shè)備,用于估測(cè)聲音信號(hào)的聲源所在方向,所 述聲音信號(hào)作為多通道輸入從位于多個(gè)方向的聲源被輸入到用于輸入聲音 信號(hào)的聲音信號(hào)輸入單元,其特征在于,該設(shè)備包括聲音信號(hào)接受部,其接受由所述聲音信號(hào)輸入部輸入的多通道聲音信 號(hào),并且對(duì)于每一通道將每一信號(hào)轉(zhuǎn)換為時(shí)間軸上的取樣信號(hào);信號(hào)轉(zhuǎn)換部,其對(duì)于每一通道,將由所述聲音信號(hào)接受部所轉(zhuǎn)換的時(shí)間 軸上的每一取樣信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào);相位分量計(jì)算部,其對(duì)于每同一頻率,計(jì)算每一通道的由所述信號(hào)轉(zhuǎn)換 部所轉(zhuǎn)換的頻率軸上的信號(hào)的相位分量;相位差計(jì)算部,其利用由所述相位分量計(jì)算部對(duì)于每同一頻率所計(jì)算的 每一通道信號(hào)的相位分量,計(jì)算多通道之間的相位差;振幅分量計(jì)算部,其計(jì)算由所述信號(hào)轉(zhuǎn)換部在預(yù)定取樣時(shí)間轉(zhuǎn)換的頻率 軸上的信號(hào)的振幅分量;噪音分量估測(cè)部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算的振幅分量,估測(cè) 噪音分量;信噪比計(jì)算部,其根據(jù)由所述振幅分量計(jì)算部計(jì)算的振幅分量以及由所 述噪音分量估測(cè)部所估測(cè)的噪音分量,對(duì)于每一頻率計(jì)算信噪比;校正部,其根據(jù)由所述信噪比計(jì)算部所計(jì)算的信噪比和在過去取樣時(shí)間 的相位差的計(jì)算結(jié)果,對(duì)在當(dāng)前取樣時(shí)間的相位差的計(jì)算結(jié)果進(jìn)行校正; 到達(dá)距離差值計(jì)算部,其根據(jù)由所述校正部校正之后的相位差,計(jì)算來自目標(biāo)聲源的聲音信號(hào)的到達(dá)距離之間的差值;以及聲音到達(dá)方向估測(cè)部,其根據(jù)由所述到達(dá)距離差值計(jì)算部所計(jì)算的到達(dá) 距離之間的差值,估測(cè)目標(biāo)聲源所在的方向。
8. 根據(jù)權(quán)利要求5, 6或7所述的聲音到達(dá)方向估測(cè)設(shè)備,還包括語(yǔ) 音部分指定部,在由所述聲音信號(hào)接受部所接受的聲音信號(hào)輸入中指定用以 表示語(yǔ)音的部分的語(yǔ)音部分,其中所述信號(hào)轉(zhuǎn)換部?jī)H將所述語(yǔ)音部分指定部所指定的語(yǔ)音部分的信 號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)。
全文摘要
本發(fā)明提供一種聲音到達(dá)方向的估測(cè)方法以及聲音到達(dá)方向的估測(cè)設(shè)備。作為多通道輸入接受來自多個(gè)方向所在的聲源的聲音信號(hào),以及將每一通道的信號(hào)轉(zhuǎn)換為頻率軸上的信號(hào)。對(duì)于每一相同頻率,計(jì)算所轉(zhuǎn)換的信號(hào)的相位分量,以及計(jì)算多通道之間的相位差。計(jì)算所轉(zhuǎn)換的信號(hào)的振幅分量,以及根據(jù)所計(jì)算的振幅分量,估測(cè)噪音分量。根據(jù)振幅分量以及所估測(cè)的噪音分量,對(duì)于每一頻率計(jì)算SN比率,以及提取SN比率大于一預(yù)定值的頻率。根據(jù)在所選取頻率的相位差,計(jì)算到達(dá)距離之間的差值,以及計(jì)算被估測(cè)的目標(biāo)聲源所在的到達(dá)方向。
文檔編號(hào)G10L15/20GK101122636SQ200710138238
公開日2008年2月13日 申請(qǐng)日期2007年7月31日 優(yōu)先權(quán)日2006年8月9日
發(fā)明者早川昭二 申請(qǐng)人:富士通株式會(huì)社