專利名稱:聲音處理裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及可以應(yīng)用于通過消除從遙控(remote)揚(yáng)聲器向遙控麥克風(fēng)的音響回波來提高通話品質(zhì)的免提型的通話系統(tǒng)(電視會(huì)議系統(tǒng)、汽車電話)和通過消除從遙控?fù)P聲器向遙控麥克風(fēng)的繞射聲音來提高聲音識別性能的免提型的聲音識別裝置(汽車音響系統(tǒng)、汽車駕駛導(dǎo)航系統(tǒng)、PC等)的聲音處理裝置和方法。
背景技術(shù):
從遙控?fù)P聲器向遙控麥克風(fēng)繞射的音響信號常常稱為音響回波。消除音響回波的技術(shù)(音響回波消除器)的用途有以下2個(gè)。
(1)在免提型的通話系統(tǒng)(電視會(huì)議系統(tǒng)、汽車電話)中,提高向進(jìn)行通話的對方傳送的聲音的音質(zhì)。
有時(shí)從遙控?fù)P聲器輸出的對方的聲音在房間的墻壁和窗玻璃上反射,受該房間固有的音響特性的影響而向遙控麥克風(fēng)繞射。這時(shí),對于對方而言,由于自己的聲音伴有某一時(shí)間延遲而作為音響回波返回來,所以,將會(huì)出現(xiàn)既難聽又難講的情況。因此,希望在遙控麥克風(fēng)收集的聲音中,通過消除從揚(yáng)聲器繞射回的音響回波而將其余的聲音向進(jìn)行通話的對方發(fā)送出去,改善上述不佳的情況。
(2)在免提型的聲音識別裝置中提高聲音識別率。
例如,在汽車內(nèi),也有汽車音響系統(tǒng)或汽車駕駛導(dǎo)航系統(tǒng)的揚(yáng)聲器的輸出聲音和上述音響回波一樣在隔板及窗玻璃上反射而繞射回聲音識別用麥克風(fēng),作為非穩(wěn)定的加法性噪音起作用從而降低聲音識別率的不良情況。因此,希望在聲音識別用麥克風(fēng)收集的聲音中通過消除從揚(yáng)聲器繞射回的聲音,進(jìn)行其余的聲音的識別而實(shí)現(xiàn)更高的聲音識別性能。
在上述2個(gè)用途中,都是遙控?fù)P聲器的輸出音響的直接聲音和在房間的墻壁、隔板或窗玻璃等上反射的反射聲音時(shí)常地向遙控麥克風(fēng)繞射。這里,將從遙控?fù)P聲器向遙控麥克風(fēng)的直接聲音和反射聲音通稱為音響回波。另外,將從遙控?fù)P聲器輸出聲音生成音響回波的路徑稱為音響回波生成路徑。
通常,音響回波生成路徑的特性可以用FIR(Finite ImpulseResponse)濾波器進(jìn)行模型化,但是,應(yīng)該考慮是隨房間內(nèi)的狀況(人的動(dòng)作、人數(shù)等因素)及汽車內(nèi)的狀況(人的動(dòng)作、人數(shù)、車窗的開閉等因素)而變化的。在幾乎不引起音響回波生成路徑的特性的變化時(shí),一般認(rèn)為采用預(yù)先求出最佳的濾波系數(shù),將濾波系數(shù)固定,消除音響回波的方法即可。但是,音響回波生成路徑的特性的變化何時(shí)發(fā)生,一般是難于預(yù)測的。這時(shí),就希望采用利用自適應(yīng)濾波器動(dòng)態(tài)地推算最佳的濾波系數(shù)而自適應(yīng)地消除音響回波的方法。
所謂自適應(yīng)濾波器,就是指假定觀測信號是對聲源已知的信號具有某種脈沖響應(yīng)的濾波器進(jìn)行卷積而生成的并且為了使觀測信號與(根據(jù)聲源已知信號與濾波系數(shù)的估算值的卷積而計(jì)算的)模擬信號之差為0而使濾波器的系數(shù)動(dòng)態(tài)地自適應(yīng)的近似法。通過將由近似音響回波生成路徑的FIR濾波器的系數(shù)與揚(yáng)聲器的輸出信號的卷積而得到的信號從觀測信號中減去,便可消除音響回波。作為自適應(yīng)濾波器的算法,迄今已提案了LMS(Least Mean Square error)[S.Haykin,“Adaptive Filter Theory,”2nd ed.Englewood Cliffs,NJ,Prentice-Hall,1991]、NLMS(Normalized Least Mean Square error)[S.Haykin,“Adaptive Filter Theory,”2nd ed.Englewood Cliffs,NJ,Prentice-Hall,1991]、APA(Affine Projection Algorithm)[尾關(guān)和彥,南云仁一,“ァフィン部分空間ヘの直交射影を用ぃた適應(yīng)フィルタ—·ァルゴリズムとその諸性質(zhì),”日本電子情報(bào)通信學(xué)會(huì)論文志,Vol,J67-A,No.2,pp.126-132,1984.]、RLS(Recursive Least Squares)[S.Haykin,“Adaptive Filter Theory,”2nd ed.Englewood Cliffs,NJ,Prentice-Hall,1991]等。特別是,NLMS的運(yùn)算量少、收斂速度與已知的聲源信號的大小無關(guān),所以,被廣泛地采用。但是,人們指出,對于聲音這樣的有色信號的濾波系數(shù)的收斂速度比APA及RLS慢。
在時(shí)刻t的FIR濾波器的系數(shù)和向FIR濾波器的輸入數(shù)據(jù)(已知的聲源信號)分別可以表為h(t)=[h1(t),h2(t),...,hM(t)]T(1)x(t)=[x(t),x(t-1),...,x(t-M+1)]T(2)其中,T表示轉(zhuǎn)置。M是FIR濾波器的次數(shù)。另外,在時(shí)刻t的麥克風(fēng)輸入信號為y(t),則NLMS通常由以下公式給出。即r(t)=h(t)Tx(t) (3)e(t)=y(tǒng)(t)-r(t) (4)h(t+1)=h(t)+μa+||x(t)||2x(t)e(t)--(5)]]>其中,‖·‖2表示矢量的能量。μ是決定濾波系數(shù)的更新速度的常數(shù)(稱為步長增益),為了使濾波系數(shù)收斂,必須滿足0<μ<2。a是‖x(t)‖2為微小值時(shí)防止(5)式的右邊第2項(xiàng)發(fā)散的正常數(shù)。用電路表示上述公式的NLMS的框圖示于
圖1。其中,將r(t)稱為模擬音響回波信號,將e(t)稱為音響回波消除信號。圖2表示將使用以NLMS為主的自適應(yīng)濾波器的音響回波消除器(AEC)設(shè)置在室內(nèi)的例子。為了便于說明,將從揚(yáng)聲器2輸出的信號向AEC1的輸入稱為遠(yuǎn)端輸入,將麥克風(fēng)3的輸入稱為近端輸入,將揚(yáng)聲器2的輸出稱為近端輸出,將音響回波消除后的AEC1的輸出信號稱為遠(yuǎn)端輸出。另外,假定遠(yuǎn)端輸入與近端輸出是完全等價(jià)的,并假定由遠(yuǎn)端輸入生成近端輸出的系統(tǒng)的特性(揚(yáng)聲器特性等)包含在音響回波生成路徑的特性中。
關(guān)于這樣的音響回波消除器,人們特別對以下的課題進(jìn)行了認(rèn)真的研究。
(1)步長增益的控制必須盡可能增大步長增益并提高收斂速度,但是,如果太大,將成為顫噪的原因,所以,必須設(shè)定適宜的使用環(huán)境。作為典型的步長增益的控制方法,已提案了ES(Exponentially Step)法[S.Makino,Y.Kaneda and N.Koizumi,“Exponentially Weighted Stepsize NLMSAdaptive Filter Based on the Statistics of a Room Impulse Response”IEEE Trans.SAP,Vol.1,No.1,pp.101-108,1993.]。室內(nèi)的自適應(yīng)濾波系數(shù)更新時(shí)的變化量具有指數(shù)衰減特性,所以,按指數(shù)式設(shè)定步長增益(在變化量大的脈沖響應(yīng)前半部大,在后半部小)。減小殘留回波電平所需要的時(shí)間用通常的NLMS的大約一半就夠了。
(2)雙方說話(double talk)檢測通常,在雙方說話(遠(yuǎn)端通話者和近端通話者雙方同時(shí)發(fā)出聲音的狀態(tài))中,由AEC(NLMS)1繼續(xù)進(jìn)行自適應(yīng)濾波系數(shù)的更新時(shí),濾波器的系數(shù)將發(fā)生大的紊亂,結(jié)果將減少回波消除量,從而容易引起顫噪。因此,如何迅速地檢測雙方說話,控制AEC1的自適應(yīng)濾波器的更新動(dòng)作,就是重要的關(guān)鍵。對于雙方說話的檢測,使用殘留回波的功率的方法被認(rèn)為是有效的[藤井健作,大賀壽郎,“ェコ—經(jīng)路變動(dòng)檢出を并用するダブルト—ク檢出法,”日本電子情報(bào)通信學(xué)會(huì)論文志,Vol.J78-A,No.3,pp.314-322,1995.]。可以檢測埋沒在音響回波中的小的近端通話者的聲音。
(3)檢測音響回波路徑變動(dòng)伴隨近端通話者移動(dòng)時(shí)等發(fā)生音響回波路徑變動(dòng)時(shí),將發(fā)生殘留回波增大、并判定為雙方說話從而停止自適應(yīng)濾波器的系數(shù)更新的不良情況。因此,必須將雙方說話與音響回波路徑變動(dòng)加以區(qū)別,在音響回波路徑變動(dòng)時(shí)繼續(xù)進(jìn)行自適應(yīng)濾波器的系數(shù)更新。作為其方法,已提案了利用近端輸入與模擬回波的相關(guān)關(guān)系的方法[藤井健作,大賀壽郎,“ェコ—經(jīng)路變動(dòng)檢出を并用するダブルト—ク檢出法,”日本電子情報(bào)通信學(xué)會(huì)論文志,Vol.J78-A,No.3,pp.314-322,1995.]等。
以提高在汽車音響系統(tǒng)及導(dǎo)航系統(tǒng)的音響·聲音信號從揚(yáng)聲器輸出的汽車環(huán)境內(nèi)的強(qiáng)健的聲音識別功能為目的在汽車室內(nèi)設(shè)置NLMS的AEC1用以消除聲源已知的加法性噪音的例子示于圖3。圖3所示的與圖2相同部分的符號,采用和圖2所示相同的符號。
嘗試了旨在實(shí)現(xiàn)可以在從揚(yáng)聲器2輸出引導(dǎo)聲音時(shí)識別發(fā)出的聲音的功能即所謂的Barge-In(Talk-Through)功能而利用AEC1的方法。這里,將在起因于揚(yáng)聲器2的輸出的聲音的誤識別中,根據(jù)自適應(yīng)濾波器的效果而成為正確識別的回復(fù)率稱為RRE(RecoveryRate of Error)。
例如,在設(shè)置在會(huì)議室內(nèi)的聲音對話系統(tǒng)中,通過利用AEC1抑制從揚(yáng)聲器2向麥克風(fēng)3的引導(dǎo)聲音的繞射,可以獲得70~80%的RRE[高橋敏,差峨山茂樹,“NOVO合成法を用ぃたBarge-In音聲の認(rèn)識,”日本音響學(xué)會(huì)研究發(fā)表會(huì)講演論文集,2-5-1,pp.59-60,1996-3.]。
但是,關(guān)于存在聲源未知的加法性噪音而該噪音電平總在變動(dòng)的汽車室內(nèi)的音響回波消除器的研究成果尚未見到報(bào)告。在汽車電話的免提型裝置中,存在同時(shí)使用聲音開關(guān)(采用近端輸入與遠(yuǎn)端輸入的能量比較的交互通話方式)和音響回波消除器的裝置,但是,有人指出,話頭和話尾常常會(huì)被切斷,通話品質(zhì)不太好。
通常,在由近端輸出生成的聲音以外的聲音混入到近端輸入中(以下,稱為存在近端輸入)的狀況下繼續(xù)進(jìn)行系數(shù)的自適應(yīng)話處理時(shí),濾波系數(shù)的估算精度將降低,從而音響回波的消除性能將降低。因此,在存在遠(yuǎn)端輸入并且存在近端輸入的狀態(tài)下(稱為雙方說話狀態(tài)),通常將使根據(jù)(5)式的濾波系數(shù)的更新停止。是否存在遠(yuǎn)端輸入的判斷,可以根據(jù)遠(yuǎn)端輸入的能量與預(yù)先決定的閾值的單純的比較而進(jìn)行。
另一方面,若同樣進(jìn)行是否存在近端輸入的判斷時(shí),多數(shù)情況是由于音響回波的影響而判斷為存在近端輸入,這樣將頻繁地停止根據(jù)(5)式的濾波系數(shù)的更新,結(jié)果將發(fā)生濾波系數(shù)的估算精度降低的不良情況。因此,可以考慮不是使用近端輸入信號y(t)而是使用音響回波消除信號e(t)的能量來判斷是否存在近端輸入的方法。作為在近端輸入生成的聲音以外混入近端輸入的聲音,大致可以分為行駛噪音等聲源未知的加法性噪音和人的聲音2種,不論哪一種噪音都不能用自適應(yīng)濾波器消除而殘存在遠(yuǎn)端輸出中。
通常,在行駛中的汽車環(huán)境中,聲源未知的加法性噪音的能量電平在60~80dBA之間發(fā)生大的變動(dòng)[金指久則,則松武志,新居康彥,“車載用單語音聲認(rèn)識裝置,”日本音響學(xué)會(huì)研究發(fā)表會(huì)講演論文集,1-Q-32,pp.159-160,1995-3.][鈴木邦一,中村一雄,宇尾野豐,淺田博重,“車載騷音環(huán)境下にぉけゐ連續(xù)音聲認(rèn)識,”日本音響學(xué)會(huì)研究發(fā)表會(huì)講演論文集,2-Q-4,pp.155-156,1993-10.],因而難于唯一地決定用于判斷存在近端輸入的最佳的閾值。
另外,由于聲源未知的加法性噪音的影響,近端輸入與模擬音響回波信號的相關(guān)系數(shù)將降低,所以,可以預(yù)想到上述音響回波路徑變動(dòng)檢測法[藤井健作,大賀壽郎,“ェコ—經(jīng)路變動(dòng)檢出を并用するダブルト—ク檢出法,”日本電子情報(bào)通信學(xué)會(huì)論文志,Vol.J78-A,No.3,pp.314-322,1995.]的應(yīng)用也有困難的情況。如果有具有正確地識別聲源未知的加法性噪音與人的聲音的聲音檢測算法,可以認(rèn)為就是有力的解決方法。
首先,評價(jià)在只存在行駛噪音時(shí)的NLMS的音響回波的消除性能。圖4A、圖4B、圖4C、圖4D、圖4E分別表示遠(yuǎn)端輸入信號(通俗音樂)的頻譜、空載時(shí)的近端輸入信號的頻譜、該近端輸入信號的音響回波消除信號的頻譜、時(shí)速100km行駛時(shí)的近端輸入信號的頻譜和該近端輸入信號的音響回波消除信號的頻譜。
汽車音響系統(tǒng)的音量設(shè)定為在空載時(shí)和時(shí)速100km行駛時(shí)1名男性感到舒適的電平。因此,在以時(shí)速100km行駛時(shí),揚(yáng)聲器輸出電平大,從而音響回波電平也大。近端輸入信號,由將單一指向性麥克風(fēng)設(shè)置在2000cc的汽車的駕駛員座位的遮光板上而接受。濾波系數(shù)的初始值全部取為0.0,從時(shí)刻0秒開始連續(xù)根據(jù)(3)-(5)式更新濾波系數(shù),求出音響回波消除信號。采樣頻率為8kHz,音響回波的最大延遲考慮到32ms。因此,F(xiàn)IR濾波器的抽頭數(shù)為256。
另外,作為評價(jià)自適應(yīng)濾波器的性能的尺度,經(jīng)常使用ERLE(Echo Return Loss Enhancement)。ERLE表示近端輸入信號的衰減量,由下式定義[北脅信彥編著,“音のコミュニケ—ツョン工學(xué)—マルチメディァ時(shí)代の音聲·音響技術(shù)—,”コロナ社,1996.]。
ERLE=10·log10E[y(t)2]E[e(t)2]--(6)]]>E[·]表示推算值,根據(jù)下式求出。
E[z(t)2]=(1-λ)·E[z(t-1)2]+λ·z(t)2(7)其中,λ=1/256。ERLE的單位為dB。空載時(shí)的ERLE的最大值、平均值分別為18.80dB、10.13dB。另外,以時(shí)速100km行駛時(shí)的ERLE的最大值、平均值分別為9.33dB、5.59dB。必須注意,近端輸入的聲源未知的加法性噪音的電平越大,由(式)6給出的ERLE的值就越低。
從圖4C、圖4E可知,不論是空載時(shí)還是以時(shí)速100km行駛時(shí),都基本上可以消除音響回波。在近端輸入中不含有人的聲音時(shí),通過連續(xù)更新濾波系數(shù),認(rèn)為可消除大部分音響回波。即,可以認(rèn)為,在聲源未知的加法性噪音中定常的并且與聲音無關(guān)的行駛噪音對濾波系數(shù)的推算的影響很小。
其次,研究在近端輸入中含有人的聲音的情況。在2000cc的汽車中,從汽車音響系統(tǒng)播放通俗音樂,并在市內(nèi)街道上以時(shí)速60km行駛,收錄加法性噪音數(shù)據(jù)。這時(shí),音樂的音量設(shè)定為1名女性感到舒適的電平。然后,將在停止中(發(fā)動(dòng)機(jī)停止)的同一汽車內(nèi)同一1名女性發(fā)出的聲音數(shù)據(jù)(「明快的」)以同一錄音電平進(jìn)行收錄。
并且,在計(jì)算機(jī)上將加法性噪音數(shù)據(jù)與聲音數(shù)據(jù)相加后的信號的頻譜示于圖7A。圖7B表示取濾波系數(shù)的初始值為0.0并從時(shí)刻0秒開始連續(xù)地更新濾波系數(shù)時(shí)的音響回波消除信號的頻譜。另外,圖7C表示濾波系數(shù)的第10個(gè)系數(shù)的值的變化。這時(shí)的ERLE的最大值、平均值分別為8.48dB、4.18dB。
由圖可知,特別是從時(shí)刻0.5秒附近開始在0.15秒的期間中濾波系數(shù)值激烈地振蕩,呈現(xiàn)不穩(wěn)定的狀態(tài)。另外,不能消除時(shí)刻1.0秒以后的音響回波(在圖7B中用橢圓包圍的部分)。在近端輸入中存在語音的期間,停止濾波系數(shù)的更新,在近端輸入中不存在語音的期間,不論定常的加法性噪音的存在如何,都必須連續(xù)進(jìn)行濾波系數(shù)的更新。因此,需要正確地判斷在混入了聲源未知的加法性噪音的近端輸入中是否含有語音的聲音檢測算法。
在聲音識別系統(tǒng)中,正確地檢測聲音區(qū)間是非常重要的。在幾乎沒有背景噪音的環(huán)境中,正確的語音檢測并不是太難的。但是,在像行駛中的汽車室內(nèi)那樣不能忽視背景噪音的存在的環(huán)境中,語音的檢測是相當(dāng)困難的。特別是位于語音的最初位置的弱摩擦音、弱鼻音及位于語音的最初或最后位置的無聲化的母音等多數(shù)情況被埋沒到背景噪音中,難于檢測。呼吸音、咂嘴音等本來是作為非語音應(yīng)檢測的,但是常常作為語音而被檢測到,從而多導(dǎo)致誤識別。
通常的方法是,根據(jù)某一閾值以上的短時(shí)間功率是否連續(xù)并繼續(xù)一定幀以上來檢測語音的開始點(diǎn),根據(jù)某一閾值以下的短時(shí)間功率是否連續(xù)并繼續(xù)一定幀以上來檢測語音的結(jié)束點(diǎn)。另外,也有根據(jù)2個(gè)電平的閾值嘗試更正確地檢測聲音或使用聲音信號的0交叉次數(shù)的做法[古井貞熙,“ディジタル音聲處理,”ディジタルテクノロジ—シリ—ズ,東海大學(xué)出版會(huì),1985.]。在可以忽視聲源未知的加法性噪音的存在的環(huán)境中,即使是僅使用短時(shí)間功率或0交叉次數(shù)等的時(shí)間信息的聲音檢測法也不會(huì)發(fā)生問題。
但是,在不能忽視聲源未知的加法性噪音的存在的環(huán)境中,在使用先有的聲音檢測法時(shí)的音響回波消除器中,將會(huì)發(fā)生以下不良情況。首先,第一盡管在麥克風(fēng)輸入中不存在語音,卻將聲源未知的加法性噪音判定為語音,不再進(jìn)行濾波系數(shù)的更新,從而不能跟隨音響特性的變化,音響回波的消除性能降低。第二,盡管在麥克風(fēng)輸入中存在語音,也判定沒有語音,從而進(jìn)行濾波系數(shù)的更新,偏離所希望的值,音響回波的消除性能降低。因此,希望不僅使用時(shí)間信息,而且同時(shí)使用頻譜等頻率信息。
在日本特愿平5-213946號(特開平7-66757)(NTT)中,說明了使用根據(jù)輸入聲音信號(回波消除前的信號)和聲源已知的加法性噪音的聲源信息的時(shí)間信息以及頻率信息判斷在輸入聲音信號中是否包含語音的雙方說話檢測電路的音響回波消除器。但是,作為繞射到輸入聲音信號中的回波,是以只受聲源信號的影響為前提的,在有周圍的噪音時(shí),就會(huì)有雙方說話檢測精度降低的不良情況。另外,也不具有保持根據(jù)自適應(yīng)濾波器推算的脈沖響應(yīng)(FIR濾波器的系數(shù)值)的緩沖器。
在日本特開平5-102887號(東芝)中,使用根據(jù)回波消除后的信號的大小來判斷是否為雙方說話的雙方說話檢測電路,但是,由于不是同時(shí)并用時(shí)間信息和頻率信息進(jìn)行的判斷,所以,在存在周圍的噪音的環(huán)境中就會(huì)有判斷精度不精確的問題。
在日本特開平7-303066號(NTT DOCOMO)中,采用了用脈沖響應(yīng)寄存器補(bǔ)償判斷單元的延遲的結(jié)構(gòu),但是,由于不具備使用回波消除后的信號的時(shí)間信息和頻率信息對各幀判斷在輸入聲音信號中是否包含語音的單元,所以,雙方說話檢測性能是有限的。
在WO 96/42142號(NOKIA)中,具有使用回波消除后的信號的時(shí)間信息和頻率信息對各幀判斷在輸入聲音信號中是否包含語音的單元,但是,是關(guān)于通過減小汽車電話的基站發(fā)送信號的增益而具有抑制直接輸出音響回波的結(jié)構(gòu)的音響回波抑制器的發(fā)明,而不是關(guān)于音響回波消除器的發(fā)明。
發(fā)明的公開本發(fā)明的目的旨在提供在容易混雜音響等的噪音的環(huán)境下可以改善聲音信號的噪音消除性能的聲音處理裝置和方法。
本發(fā)明的特征在于,具有根據(jù)模擬音響回波的傳輸路徑的現(xiàn)時(shí)刻的脈沖響應(yīng)和聲源信號生成模擬音響回波信號的生成單元;保持現(xiàn)時(shí)刻的脈沖響應(yīng)并供給上述生成單元的供給單元;通過將該模擬音響回波信號從麥克風(fēng)輸入信號中減去而消除音響回波并生成音響回波消除信號的消除單元;使用上述聲源信號和上述音響回波消除信號以及上述供給單元保持的現(xiàn)時(shí)刻的脈沖響應(yīng)連續(xù)更新脈沖響應(yīng)并將更新的脈沖響應(yīng)供給上述供給單元的更新單元;利用上述音響回波消除信號的時(shí)間信息和頻率信息對各幀判斷在麥克風(fēng)輸入信號中是否包含語音的判斷單元;保存1個(gè)以上的脈沖響應(yīng)的保存單元;和控制單元,在上述判斷單元的判斷結(jié)果為否定的幀中將上述供給單元保持的現(xiàn)時(shí)刻的脈沖響應(yīng)保存到上述保存單元中而在判斷結(jié)果為肯定的幀中就取出上述保存單元保存的1個(gè)脈沖響應(yīng)并供給上述供給單元。
在本發(fā)明中,也可以將上述音響回波消除后的信號用于聲音識別。
在本發(fā)明中,進(jìn)而還可以具有根據(jù)上述音響回波消除后的信號通過富里葉變換對各幀求頻譜的單元;根據(jù)該得到的頻譜對各幀連續(xù)地求頻譜平均值的單元;和通過將該得到的頻譜平均值從根據(jù)上述音響回波消除后的信號對各幀計(jì)算的頻譜中連續(xù)地減去而消除聲源未知的加法性噪音的單元。
在本發(fā)明中,進(jìn)而還可以具有根據(jù)上述音響回波消除后的信號通過富里葉變換對各幀求頻譜的單元;根據(jù)該得到的頻譜對各幀連續(xù)地求頻譜平均值的單元;通過將該得到的頻譜平均值從根據(jù)上述音響回波消除后的信號對各幀計(jì)算的頻譜中連續(xù)地減去而消除聲源未知的加法性噪音的單元;根據(jù)消除了該加法性噪音的頻譜求對數(shù)倒頻譜的單元;對各通話者分別求該得到的對數(shù)倒頻譜的語音幀的對數(shù)倒頻譜平均值和非語音幀的對數(shù)倒頻譜平均值的單元;和對各通話者將該通話者的語音幀的對數(shù)倒頻譜平均值從語音幀的對數(shù)倒頻譜中減去以及將該通話者的非語音幀的對數(shù)倒頻譜平均值從非語音幀的對數(shù)倒頻譜中減去而修正與麥克風(fēng)特性以及從口到麥克風(fēng)的空間傳輸特性有關(guān)的乘法性畸變的單元。
在本發(fā)明中,進(jìn)而還可以具有根據(jù)上述音響回波消除后的信號通過富里葉變換對各幀求頻譜的單元;根據(jù)該得到的頻譜求對數(shù)倒頻譜的單元;對各通話者分別求該得到的對數(shù)倒頻譜的語音幀的對數(shù)倒頻譜平均值和非語音幀的對數(shù)倒頻譜平均值的單元;和對各通話者通過將該通話者的語音幀的對數(shù)倒頻譜平均值從語音幀的對數(shù)倒頻譜中減去并將該通話者的非語音幀的對數(shù)倒頻譜平均值從非語音幀的對數(shù)倒頻譜中減去而修正與麥克風(fēng)特性以及從口到麥克風(fēng)的空間傳輸特性有關(guān)的乘法性畸變的單元。
在本發(fā)明中,還可以具有通過富里葉變換對各幀求頻譜的單元;根據(jù)該得到的頻譜求對數(shù)倒頻譜的單元;對各通話者分別求該得到的對數(shù)倒頻譜的語音幀的對數(shù)倒頻譜平均值和非語音幀的對數(shù)倒頻譜平均值的單元;和對各通話者通過將該通話者的語音幀的對數(shù)倒頻譜平均值從語音幀的對數(shù)倒頻譜中減去并將該通話者的非語音幀的對數(shù)倒頻譜平均值從非語音幀的對數(shù)倒頻譜中減去而修正與麥克風(fēng)特性以及從口到麥克風(fēng)的空間傳輸特性有關(guān)的乘法性畸變的單元。
在本發(fā)明中,使用模擬音響回波信號進(jìn)行回波消除時(shí),作為為發(fā)生模擬音響回波信號而使用的脈沖響應(yīng),在麥克風(fēng)輸入信號為語音時(shí)連續(xù)地使用在前一時(shí)刻的幀中使用的脈沖響應(yīng),在麥克風(fēng)輸入信號不是語音時(shí)通過使用新的更新后的脈沖響應(yīng)來改善音響回波消除的性能。
此外,本發(fā)明根據(jù)消除音響回波后的信號求各幀的頻譜和頻譜平均值,使用得到的頻譜和頻譜平均值消除加法性噪音。
附圖的簡單說明圖1是表示NLMS(Normalized Least Mean Square error)的功能結(jié)構(gòu)的框圖。
圖2是表示音響回波消除器的設(shè)置例的圖。
圖3是表示消除汽車室內(nèi)的聲源已知的加法性噪音的例子的圖。
圖4A-圖4E分別是表示NLMS(Normalized Least Mean Squareerror)的性能(橫軸秒)的圖。
圖5是表示VAD(Voice Activity Detection)的處理內(nèi)容的框圖。
圖6是表示VAD的動(dòng)作定時(shí)的圖。
圖7A-圖7G分別是表示NLMS-VAD(Normalized Least MeanSquare error with frame-wise Voice Activity Detection)的效果(橫軸秒)的圖。
圖8是用于說明濾波系數(shù)緩沖器的動(dòng)作的圖。
圖9是表示NLMS-VAD的結(jié)構(gòu)的框圖。
圖10A和圖10B分別是表示NLMS-VAD/CSS法的頻譜的圖(橫軸秒)。
圖11是表示時(shí)間不變?yōu)V波器的圖。
圖12是表示NLMS-VAD/CSS/E-CMN法的處理內(nèi)容的框圖(橫軸秒)。
圖13是表示NLMS-VAD/CSS/E-CMN的評價(jià)的圖。
圖14是表示本發(fā)明實(shí)施例1的聲音處理裝置的結(jié)構(gòu)的框圖。
圖15是表示本發(fā)明實(shí)施例2的系統(tǒng)的結(jié)構(gòu)的框圖。
圖16是表示本發(fā)明實(shí)施例3的系統(tǒng)的結(jié)構(gòu)的框圖。
圖17是表示本發(fā)明實(shí)施例4的系統(tǒng)的結(jié)構(gòu)的框圖。
圖18是表示本發(fā)明實(shí)施例5的系統(tǒng)的結(jié)構(gòu)的框圖。
圖19是表示本發(fā)明實(shí)施例6的系統(tǒng)的結(jié)構(gòu)的框圖。
實(shí)施發(fā)明的最佳的形式作為利用短時(shí)間功率及音調(diào)等的時(shí)間信息和頻譜等的頻率信息的聲音檢測算法之一,有按歐洲的手機(jī)及汽車電話系統(tǒng)的GSM標(biāo)準(zhǔn)規(guī)格化的聲音檢測VAD(Voice Activity Detection)[RecommendationGSM06.32.]。該VAD精細(xì)地控制聲音CODEC(壓縮及解壓)等的數(shù)字信號處理的動(dòng)作,用于實(shí)現(xiàn)低功耗從而延長電池壽命。圖5表示該VAD的簡單的結(jié)構(gòu)。首先,對各幀根據(jù)聲音信號求自相關(guān)函數(shù)(時(shí)間信息)。根據(jù)該自相關(guān)函數(shù)通過線性預(yù)測分析LPC(LinearPredictive Coding)求線性預(yù)測系數(shù)(時(shí)間信息)。根據(jù)可以由線性預(yù)測系數(shù)構(gòu)成的逆LPC濾波器和自相關(guān)函數(shù)可以求出聲音信號的短時(shí)間功率(時(shí)間信息)。將該短時(shí)間功率與閾值比較,進(jìn)行VAD判斷。
在短時(shí)間功率大于閾值時(shí),就輸出數(shù)值1的局部的VAD標(biāo)志。否則就輸出數(shù)值0的局部的VAD標(biāo)志。并且,在VAD后處理中,使用過去的多個(gè)幀的局部的VAD標(biāo)志的數(shù)值的經(jīng)歷決定最終的VAD標(biāo)志的值。
另一方面,在VAD判斷中,在與短時(shí)間功率的比較中使用的閾值按以下方式作自適應(yīng)化處理。利用經(jīng)過平滑處理的自相關(guān)函數(shù)和自相關(guān)預(yù)測系數(shù)表示的頻譜(頻率信息)變化在連續(xù)的幀之間十分小時(shí),就判定頻譜的穩(wěn)定性非常高。作為判定為頻譜的穩(wěn)定性非常高的聲音信號,可以考慮背景噪音和母音。
在背景噪音的幀中進(jìn)行閾值自適應(yīng)處理,在母音的幀中不應(yīng)進(jìn)行閾值自適應(yīng)處理。為了區(qū)別背景噪音和母音,利用音調(diào)信息。根據(jù)按照聲音信號計(jì)算的自相關(guān)函數(shù)計(jì)算音調(diào)標(biāo)志(音調(diào)周期)(時(shí)間信息)。在連續(xù)的幀之間,音調(diào)標(biāo)志的變化小時(shí),就判定該幀是母音,并輸出數(shù)值1的音調(diào)標(biāo)志。否則就輸出數(shù)值0的音調(diào)標(biāo)志。
利用從上述短時(shí)間功率和逆LPC濾波器求出的殘差信號自相關(guān)預(yù)測系數(shù)、音調(diào)標(biāo)志和穩(wěn)定性的信息在頻譜的穩(wěn)定性高、音調(diào)性低的幀中進(jìn)行閾值的自適應(yīng)化處理。該VAD對于發(fā)動(dòng)機(jī)聲音及負(fù)載噪音等的比較穩(wěn)定的背景噪音,不論其電平如何都可以發(fā)揮正確的聲音檢測性能。
在汽車內(nèi),從安全性的角度考慮將麥克風(fēng)設(shè)置在遮光板等遠(yuǎn)離嘴邊的位置時(shí),信噪比(SNR)將變壞到小于10dB。這時(shí),得知上述VAD算法的聲音檢測性能將顯著地惡化。
因此,為了在SNR10dB左右時(shí)也能正確地進(jìn)行聲音檢測,改良了閾值的自適應(yīng)化等部分?,F(xiàn)在,在VAD中使用的聲音的窗口長為32ms,幀移動(dòng)為10ms。以后,在由VAD檢測到語音的存在時(shí)就說VAD是ON。相反,在未檢測到時(shí),就說VAD為OFF。該VAD進(jìn)行1幀中1次近端輸入中是否包含語音的判斷,所以,可能發(fā)生聲音的檢測定時(shí)從實(shí)際的聲音的前沿延遲的情況。
圖6表示幀、VAD的動(dòng)作定時(shí)和VAD使用的窗口長的關(guān)系。實(shí)際的聲音的開始是幀n的中心時(shí),能夠由VAD檢測該聲音的開始的可能性高的是在幀n+1以后。假定幀n+2可以由VAD檢測時(shí),則從實(shí)際的聲音的開始的檢測延遲就成為25ms,可以認(rèn)為在此期間回波通過的推算值是不穩(wěn)定的。
圖7D表示VAD的聲音檢測的情況。電平1表示檢測到了語音。如使用箭頭所示的那樣,可以確認(rèn)約2幀的聲音檢測延遲。如果可以將不穩(wěn)定的濾波系數(shù)值恢復(fù)為更高精度的值,則可避免音響回波消除性能的降低。
因此,準(zhǔn)備了可以存儲m個(gè)濾波系數(shù)的緩沖器(稱為濾波系數(shù)緩沖器)。在VAD為OFF的幀中,在將存儲在第n(m-1≥n≥1)個(gè)存儲位置的濾波系數(shù)順序移動(dòng)到第n+1個(gè)存儲位置的同時(shí),將現(xiàn)時(shí)刻的自適應(yīng)濾波器的系數(shù)存儲到濾波系數(shù)緩沖器的第1個(gè)存儲位置。這時(shí),作為結(jié)果,就是丟棄了存儲在第m個(gè)存儲位置的濾波系數(shù)。另一方面,在VAD為ON的幀中,取出存儲在濾波系數(shù)緩沖器的第m個(gè)存儲位置的濾波系數(shù),可以用該值將變壞的濾波系數(shù)重置。
圖8表示濾波系數(shù)緩沖器的動(dòng)作的情況。取m為0~4時(shí)的ERLE的最大值和平均值示于表1。
表1濾波緩沖器的尺寸和ERLE(Echo Return Loss Enhancement)的關(guān)系
m=0表示不進(jìn)行系數(shù)值的保存和重置的情況。由于在m≥2時(shí)幾乎看不到與ERLE的差別,所以,選擇m=2。這就與VAD的檢測延遲(約2幀)對應(yīng)。
將具有上述特征的算法稱為NLMS-VAD(NLMS withframe-wise VAD),將全體的框圖示于圖9。這里,[s]、[f]分別表示采樣方式和幀方式的信號的流程和處理的動(dòng)作。在VAD一旦成為ON時(shí),就停止濾波系數(shù)的更新直至下一個(gè)VAD成為OFF的幀。圖7E表示令濾波系數(shù)的初始值全部為0.0、使VAD動(dòng)作進(jìn)行濾波系數(shù)值的存儲和重置并從時(shí)刻0秒開始更新濾波系數(shù)時(shí)的濾波系數(shù)的第10個(gè)系數(shù)值的變化。示出了在停止濾波系數(shù)的更新的幀之前,濾波系數(shù)值不穩(wěn)定,但是通過進(jìn)行上述濾波系數(shù)的存儲和重置而濾波系數(shù)恢復(fù)的情況。這樣,便可消除時(shí)刻1.0秒以后的音響回波(在圖7B中用橢圓包圍的部分)。但是,由圖7E可知,沒有消除時(shí)刻0.1秒前后的音響回波(在圖7E中用橢圓包圍的部分)。如果預(yù)先保存對各發(fā)聲推算的濾波系數(shù)和在VAD中使用的參量并在下次發(fā)聲時(shí)將其作為初始值使用,則可提高濾波系數(shù)的推算速度。圖7G表示該例子。由圖可知,時(shí)刻0.0秒之后的音響回波殘存了若干,但是,此后的音響回波(在圖7E中用橢圓包圍的部分)則幾乎全部被消除。這時(shí)的ERLE的最大值和平均值分別為9.29dB和4.5dB。另外,本申請人已完成了與NLMS-VAD法關(guān)聯(lián)的使用基于時(shí)間信息和頻率信息的聲音檢測的音響回波消除器的在日本國的專利申請(特愿平09-051577號、1997年3月6日申請)。在本發(fā)明中,對各幀進(jìn)行基于時(shí)間信息和頻率信息的聲音檢測是與上述申請的發(fā)明不同的地方。
下面,對于在存在聲源已知的加法性噪音和聲源未知的加法性噪音的環(huán)境中的強(qiáng)健的聲音識別方法,說明將NLMS-VAD法與CSS(Continuous Spectral Subtraction)法組合的方法。將在時(shí)刻t以頻率ω的觀測頻譜、聲音頻譜S(ω;t)的推算值和加法性噪音的推算值分別表為O(ω;t)、S(ω;t)、N(ω;t)時(shí),CSS法則給定為N^(ω;t)=γ·N^(ω;t-1)+(1-γ)·O(ω;t)--(8)]]> 其中,α是over-estimation factor(超過估計(jì)因子),β是flooring factor(基準(zhǔn)因子),γ是smoothing factor(平滑因子),下面,根據(jù)預(yù)備實(shí)驗(yàn)的結(jié)果分別設(shè)定為2.4、0.1和0.974。CSS是不將語音幀與非語音幀加以區(qū)別而連續(xù)地求頻譜的移動(dòng)平均值,并將其視為噪音頻譜的推算值而從輸入頻譜中減去的方法。由于聲音頻譜的影響包含在噪音頻譜的推算值中,所以,存在能量弱的聲音頻譜被掩蔽從而產(chǎn)生畸變的問題,但是,對于過去的某一一定時(shí)間的區(qū)間,殘留相對地具有大的能量的頻率成分,從而具有不論噪音還是聲音都將能量弱的頻率成分掩蔽的作用。因此,對純凈的聲音進(jìn)行CSS處理后得到的特征參量與重疊了加法性噪音的聲音進(jìn)行CSS處理后得到的特征參量間的變化比通常的頻譜減法及最小平均二乘誤差推算法得到的小。該特長對低SNR的聲音識別是有效的。圖10A表示對停止中(空載)的汽車內(nèi)女性發(fā)的聲音(「明朗的」、與將圖7A所示的聲音在計(jì)算機(jī)上進(jìn)行加法運(yùn)算而作成時(shí)使用的聲音相同)進(jìn)行CSS處理后的頻譜,圖7B表示對同一聲音將以時(shí)速60km行駛時(shí)的聲源未知的加法性噪音與重疊了音響回波的噪音數(shù)據(jù)在計(jì)算機(jī)上進(jìn)行加法運(yùn)算后(圖7A)用NLMS-VAD法消除音響回波(圖7G)并進(jìn)行CSS法處理而得到的頻譜。若將圖7G與圖10B進(jìn)行比較,可知時(shí)刻0.9秒附近的頻率1kHz的音響回波的殘存成分(圖7G中用橢圓包圍的部分)已通過CSS法消除了。
CSS法不僅具有消除穩(wěn)定的加法性噪音的效果,而且也具有抑制不能由NLMS-VAD法消除的殘存音響回波的效果。使用對將音響回波消除信號e(t)進(jìn)行FFT處理而得到的頻譜進(jìn)行CSS法處理后的頻譜通過逆FFT處理恢復(fù)到時(shí)間區(qū)域而得到的波形信號取代(6)式的e(t)時(shí)的ERLE的平均值為13.60dB。與此相反,不利用NLMS-VAD法進(jìn)行音響回波消除而只利用CSS法進(jìn)行加法性噪音消除同樣求出的ERLE的平均值為9.87dB??梢钥闯?,僅用CSS法時(shí),不能消除約相當(dāng)3.7dB的聲源已知的加法性噪音。
將圖10A與圖10B進(jìn)行比較可知,2個(gè)頻譜非常類似。這就預(yù)示著利用NLMS-VAD法與CSS法的組合對聲源已知的加法性噪音和聲源未知的加法性噪音可以抽出強(qiáng)健的特征參量。
下面,說明對聲音頻譜的乘法性畸變的修正方法。將由某個(gè)人的發(fā)聲器官發(fā)生的在時(shí)刻t的頻率ω的短時(shí)間頻譜S(ω;t)的語音幀的長時(shí)間平均值稱為講話者的個(gè)性Hperson(ω),定義為Hperson(ω)=1T·Σt=1TS(ω;t)--(10)]]>其中,T是十分大的自然數(shù)。Hperson(ω)可以視為表示聲帶聲源特性和與聲道長有關(guān)的講話者固有的頻率特性。另外,將用講話者的個(gè)性除短時(shí)間頻譜所得的值S*(ω;t)=S(ω;t)/Hperson) (11)定義為標(biāo)準(zhǔn)化聲音頻譜。這時(shí),如圖11所示,聲音頻譜可以解釋為利用標(biāo)準(zhǔn)化聲音頻譜S*(ω;t)通過時(shí)間不變?yōu)V波器Hperson(ω)而生成或乘法性畸變Hperson(ω)與標(biāo)準(zhǔn)化聲音頻譜S*(ω;t)重疊而生成。
S(ω,t)=Hperson(ω)·S*(ω;t) (12)在汽車室內(nèi)這樣的實(shí)際環(huán)境中,作為對于標(biāo)準(zhǔn)化聲音頻譜的乘法性畸變,除了上述講話者的個(gè)性外,可以考慮以下3種[A.Acero,”Acoustical and Environmental Robustness in Automatic SpeechRecognition,”Kluwer Academic Publishers,1992.]。
(1)發(fā)話樣式Hstyle(N)(ω)是與加法性噪音N有關(guān)的講話樣式(講話方式、講話速度、講話的大小、Lombar效果等)所固有的頻率傳輸特性。所謂Lombar效果,是說在存在加法性噪音的環(huán)境下講話時(shí),與在靜寂的環(huán)境下不同,在無意識中發(fā)聲頻譜變形的現(xiàn)象。在文獻(xiàn)[Y.Chen,”Cepstral DomainTalker Stress Compensation for Robust Speech Recognition,”IEEETrans.ASSP,Vol.36,No.4,pp.433-439,1988.]中,在柔軟的講話方式時(shí),具有1kHz以下的能量強(qiáng)、1kHz以上的能量弱的特性,另一方面,在大聲、講得快、喊叫聲、Lombar效果時(shí)則具有相反的特性。
(2)空間傳輸特性Htrans(ω)表示從口到麥克風(fēng)的空間的頻率傳輸特性。
(3)麥克風(fēng)特性Hmic(ω)表示麥克風(fēng)等輸入系統(tǒng)的電氣頻率傳輸特性。
通常,假定在聲音和噪音的線性頻譜區(qū)域的加法性成立時(shí),則時(shí)刻t的頻率ω的觀測頻譜O(ω;t)可以用O(ω;t)=HMic(ω)·[HTrans(ω)·{HScyle(N)(ω)·(Hperson(ω)·S*(ω;t))}+N(ω;t)+E(ω;t)](13)進(jìn)行模型化處理[J.H.L.Hansen,B.D.Womack,and L.M.Arslan,”A Source Generator Based Production Model for EnvironmentalRobustness in Speech Recognition,”Proc.ICSLP94,Yokohama,Japan,pp.1003-1006,1994.]。其中,N(ω;t)表示聲源未知的加法性噪音頻譜,E(ω;t)表示聲源已知的加法性噪音頻譜。
在4種乘法性畸變內(nèi),HMic(ω)是可以預(yù)先測定的,但是,在實(shí)際環(huán)境中,認(rèn)為不給聲音識別系統(tǒng)的用戶增加負(fù)擔(dān)是難于將Hperson(ω)、HStyle(N)(ω)、HTrans(ω)分離開進(jìn)行測定的。另外,例如即使假定不存在加法性噪音N(ω;t)和E(ω t),在作為觀測頻譜的長時(shí)間平均值和(10)一樣求出的時(shí)間不變?yōu)V波器的增益中將不可避免地混入上述4種乘法性畸變。因此,若重新將乘法性畸變H*(ω)、加法性噪音N(ω;t)、E(ω)分別定義為H*(ω)=HMic(ω)·HTrans(ω)·HHStyle(N)(ω)·Hperson(ω)(14)N~(ω;t)=HMic(ω)·N(ω;t)--(15)]]>E~(ω;t)=HMic(ω)·E(ω;t)--(16)]]>則可將(13)式簡化為以下形式。即O(ω;t)=H*(ω)·S*(ω;t)+N~(ω;t)+E~(ω;t)--(17)]]>另一方面,若將(17)式變形,則可得到S*(ω;t)=O(ω;t)-N~(ω;t)-E~(ω;t)H*(ω)--(18)]]>
如果不是使用觀測的頻譜而是使用根據(jù)(11)式進(jìn)行了標(biāo)準(zhǔn)化處理后的頻譜作成非特定講話者音素模型,則對觀測頻譜O(ω;t)通過消除實(shí)際環(huán)境中的N(ω;t)、E(ω;t)、H*(ω),求出標(biāo)準(zhǔn)化聲音頻譜S*(ωt)的推算值,便可實(shí)現(xiàn)強(qiáng)健的聲音識別系統(tǒng)。關(guān)于N(ω;t)和E(ωt)的消除,前面講過,將NLMS-VAD法與CSS法組合的方法是有效的。
在聲音識別系統(tǒng)中,作為音響參量,通常使用對數(shù)倒頻譜來取代頻譜。對數(shù)倒頻譜定義為對頻譜的對數(shù)值進(jìn)行逆離散余弦變換(DCTDiscrete Cosine Transform)所得的數(shù)值。對數(shù)倒頻譜與頻譜相比,多用于用很少的參量數(shù)獲得同樣的聲音識別性能之目的。
關(guān)于對標(biāo)準(zhǔn)化聲音頻譜S*(ωt)的乘法性畸變H*(ω)的消除,現(xiàn)已證明以下的E-CMN(Exact Cepstrum Mean Normalization)是有效的[M.Shozakai,S.Nakamura and K.Shikano,”A Non-IterativeModel-Adaptive E-CMN/PMC Approach for Speech Recognition in CarEnvironments,”Proc.Eurospeech,Rhodes,Greece,pp.287-290,1997.]。E-CMN法由以下2個(gè)步驟構(gòu)成。推算步驟對各講話者分別求出語音/非語音幀的對數(shù)倒頻譜平均值。將幀t的次數(shù)i的對數(shù)倒頻譜表為C(i,t)時(shí),則幀t的語音幀的對數(shù)倒頻譜平均值Cspeech(i,t)可以利用例如(19)式求出。即 其中,η是求語音幀的對數(shù)倒頻譜平均值時(shí)的平滑化系數(shù),可以設(shè)定為小于1.0但接近1.0的值。另外,幀t的非語音幀的對數(shù)倒頻譜平均值Cnonspeech(i,t)可以利用例如(20)式求出。其中,η是求非語音幀的對數(shù)倒頻譜平均值時(shí)的平滑化系數(shù),可以設(shè)定為小于1.0但接近1.0的值。
語音幀的對數(shù)倒頻譜平均值是乘法性畸變H*(ω)的對數(shù)倒頻譜表現(xiàn),與講話者有關(guān)。另一方面,非語音幀的對數(shù)倒頻譜平均值與麥克風(fēng)特性等輸入系統(tǒng)的乘法性畸變Hmic(ω)有關(guān)。
標(biāo)準(zhǔn)化步驟對各講話者按照(21)式在語音幀中將語音幀的對數(shù)倒頻譜平均值Cspeech(i,t)從觀測對數(shù)倒頻譜C(i,t)減去,在非語音幀中將非語音幀的對數(shù)倒頻譜平均值Cnonspeech(i,t)減去,通過求標(biāo)準(zhǔn)化對數(shù)倒頻譜C(i,t)而將觀測頻譜標(biāo)準(zhǔn)化。
關(guān)于E-CMN法的發(fā)明,本申請人已在日本國完成了申請(特愿平09-051578號、1997年3月11日)。
E-CMN法是根據(jù)約10個(gè)單詞的少量的聲音將各種乘法性畸變之積作為聲音區(qū)間的對數(shù)倒頻譜平均值而進(jìn)行推算本將其從輸入對數(shù)倒頻譜中減去的方法。顯而易見,不是通過使用根據(jù)所觀測的頻譜求出的對數(shù)倒頻譜而是通過使用根據(jù)E-CMN法進(jìn)行標(biāo)準(zhǔn)化處理后的對數(shù)倒頻譜作成非特定講話者音素模型,便可將各種乘法性畸變一起修正。
最后,作為在存在聲源已知和聲源未知的加法性噪音及乘法性畸變的實(shí)際環(huán)境中的強(qiáng)健的聲音識別方法,說明將NLMS-VAD法、CSS法和E-CMN法組合的方法。圖12表示按照本組合方法構(gòu)成的運(yùn)算電路的框圖。首先,在第1電路101中,利用NLMS-VAD法生成從輸入聲音中消除了聲源已知的加法性噪音E(ω;t)的波形信號。其次,在第2電路102中,在對該波形信號進(jìn)行富里葉變換后,利用CSS法生成消除了聲源未知的加法性噪音N(ω;t)的頻譜的時(shí)間序列。
此外,在第3電路103中,將該頻譜的時(shí)間序列變換為對數(shù)倒頻譜的時(shí)間序列,然后利用E-CMN法變換為進(jìn)行標(biāo)準(zhǔn)化處理后的對數(shù)倒頻譜的時(shí)間序列。最后,在第4電路104中,將對數(shù)倒頻譜的時(shí)間序列利用眾所周知的維托畢算法與預(yù)先作成的非特定講話者用的音素模型進(jìn)行對照,輸出聲音識別結(jié)果。
這時(shí)使用的非特定講話者用音素模型,如前所述,必須使用利用E-CMN法進(jìn)行標(biāo)準(zhǔn)化處理后的對數(shù)倒頻譜來作成。此外,在E-CMN法中所需要的語音幀與非語音幀的區(qū)別,可以直接使用組裝到NLMS-VAD法的VAD的結(jié)果。
下面,歸納本組合方法的效果。將單一指向性麥克風(fēng)設(shè)置到2000cc的汽車的駕駛員座位的遮光板上,收錄男性2名、女性2名坐到設(shè)定在各自喜歡的位置上的座位上講出520個(gè)單詞(ATR聲音數(shù)據(jù)庫C集合)的聲音(數(shù)據(jù)1)。通過手動(dòng)進(jìn)行分割以使各250ms的無音區(qū)間附屬在聲音區(qū)間的前后。另外,在空載、以時(shí)速60km、時(shí)速100km的行駛狀態(tài)下,用汽車音響系統(tǒng)順序播放5種音樂源(通俗音樂、爵士音樂、搖滾音樂、古典音樂、單口相聲),并將混合了音樂源的左右信道的信號(數(shù)據(jù)2)和麥克風(fēng)輸入信號(數(shù)據(jù)3)同時(shí)錄音。汽車音響系統(tǒng)的輸出值對各行駛狀態(tài)設(shè)定為1名男性感到舒適的音量。
在空載、時(shí)速60km、時(shí)速100km的狀態(tài)下音響回波向麥克風(fēng)的最大輸入電平分別為60.7dBA、65.9dBA、70.6dBA。將數(shù)據(jù)1和數(shù)據(jù)3在計(jì)算機(jī)上進(jìn)行加法運(yùn)算后,作成評價(jià)數(shù)據(jù)。數(shù)據(jù)2作為NLMS-VAD法的遠(yuǎn)端輸入使用。在識別中,使用環(huán)境獨(dú)立的54音素的非特定講話者用Tied-Mixture HMM模型(根據(jù)40名的語音數(shù)據(jù)作成)。分析條件是8kHz采樣、幀長32ms、幀移動(dòng)10ms,特征參量為10次MFCC、10次ΔMFCC、Δ能量,HMM模型所共有的正態(tài)分布的數(shù)分別為256、256、64。
非特定講話者按520個(gè)單詞的識別任務(wù)在空載、時(shí)速60km、時(shí)速100km的行駛狀態(tài)下不存在揚(yáng)聲器輸出聲音時(shí)(w/o Speaker Out)、存在揚(yáng)聲器輸出聲音但不進(jìn)行NLMS-VAD法處理時(shí)(w/SpeakerOut w/o NLMS-VAD)和存在揚(yáng)聲器輸出聲音并進(jìn)行NLMS-VAD法處理時(shí)(w/Speaker Out w/NLMS-VAD)的識別性能(5種音樂源的平均)和RRE示于圖13。
不論在哪種行駛狀態(tài)下,都可以得到80%以上的RRE。另外,用NLMS-VAD法也不能恢復(fù)的誤識別率在空載、時(shí)速60km、時(shí)速100km的狀態(tài)下也分別僅為0.7%、2.1%、1.8%,從而可以確認(rèn)上述組合法的有效性。
(實(shí)施例1)實(shí)施例1的聲音處理裝置的電路結(jié)構(gòu)示于圖14。以下所述的各個(gè)單元,可以使用眾所周知的電路,例如可以使用數(shù)字電路、以及利用計(jì)算機(jī)和數(shù)字處理器的運(yùn)算處理而實(shí)現(xiàn)的電路,所以,如果是業(yè)內(nèi)人士,就可以根據(jù)圖13制造聲音處理裝置。首先,說明各采樣的處理。聲源信號11作為揚(yáng)聲器輸出信號13從揚(yáng)聲器輸出。供給單元aa7保持現(xiàn)時(shí)刻的脈沖響應(yīng)(FIR濾波器的系數(shù)),并將現(xiàn)時(shí)刻的脈沖響應(yīng)16供給生成單元aa4。
聲源信號11傳送給生成單元aa4,由生成單元aa4通過FIR濾波器生成模擬音響回波信號15。在消除單元aa5中,將模擬音響回波信號15從麥克風(fēng)輸入信號12中減去,生成聲源回波消除信號14。在更新單元aa3中,根據(jù)聲源信號11、聲源回波消除信號14和供給單元aa7保持的現(xiàn)時(shí)刻的脈沖響應(yīng)16更新脈沖響應(yīng),生成更新脈沖響應(yīng)17,并將其供給上述供給單元aa7。
供給單元aa7僅在后面所述的聲音判斷標(biāo)志18為OFF的期間將從更新單元aa3供給的更新脈沖響應(yīng)17作為新的現(xiàn)時(shí)刻的脈沖響應(yīng)進(jìn)行保持,而在聲音判斷標(biāo)志18為ON的期間則舍棄從更新單元aa3供給的更新脈沖響應(yīng)17。由消除單元aa5生成的音響回波消除信號14也傳送給判斷單元aa1。下面,說明各幀的處理。按各采樣傳送給判斷單元aa1的音響回波消除信號14在判斷單元aa1中存儲到緩沖器中,在積存了1幀的階段,由判斷單元aa1判斷在麥克風(fēng)輸入單元(圖中未示出)中是否存在語音,并輸出聲音判斷標(biāo)志18。在判斷結(jié)果為肯定時(shí)(檢測到存在語音時(shí)),聲音判斷標(biāo)志的值就是ON。在判斷結(jié)果為否定時(shí)(未檢測到存在語音時(shí)),則聲音判斷標(biāo)志的值就是OFF。
在該判斷處理中,利用音響回波消除信號14的時(shí)間信息和頻率信息判斷在麥克風(fēng)輸入信號12中是否包含語音信號。作為判斷的方法,可以使用能夠檢測重疊在聲源未知的加法性噪音上的語音的算法VAD(Voice Activity Detection)。例如,在Recommendation GSM 06.32中,通過將信號進(jìn)行LPC分析后的殘差能量與閾值進(jìn)行比較,來檢測聲音,但是,由于可以與聲源未知的加法性噪音的能量電平相適應(yīng)地改變閾值,所以,可以將聲源未知的加法性噪音與語音分離。
在進(jìn)行閾值的自適應(yīng)化處理時(shí),利用了頻譜的穩(wěn)定性(頻率信息)和音調(diào)性(時(shí)間信息)。在上述判斷處理的結(jié)果是聲音判斷標(biāo)志18為OFF時(shí),控制單元aa6就取出供給單元aa7保持的現(xiàn)時(shí)刻的脈沖響應(yīng)16,作為所希望的脈沖響應(yīng)存儲到保存單元aa2中。
另一方面,在聲音判斷標(biāo)志18為ON時(shí),由于供給單元aa7保持的脈沖響應(yīng)有可能偏離所希望的值,所以,控制單元aa6就從保存單元aa2中取出1個(gè)保存脈沖響應(yīng),并將其改寫到供給單元aa7保持的脈沖響應(yīng)中。保存單元aa2可以是能夠保存1個(gè)以上的脈沖響應(yīng)的FIFO(先進(jìn)先出)。
(實(shí)施例2)圖15表示實(shí)施例2的基本結(jié)構(gòu)。首先,具有在實(shí)施例1中說明的圖14的結(jié)構(gòu)的聲音處理裝置100使用聲源信號11和麥克風(fēng)輸入信號12消除包含在麥克風(fēng)輸入信號12中的音響回波,生成音響回波消除信號14。其次,在頻譜計(jì)算單元bb1中,對各一定幀周期通過富里葉變換計(jì)算音響回波消除信號14的頻譜21。
頻譜21傳送給對數(shù)倒頻譜計(jì)算單元bb4,變換為各一定幀的對數(shù)倒頻譜24。在對照單元bb5中,使用各一定幀的對數(shù)倒頻譜24進(jìn)行對照,并輸出識別結(jié)果25。在進(jìn)行對照時(shí),可以使用眾所周知的隱馬爾可夫模型的方法或眾所周知的動(dòng)態(tài)計(jì)劃法的方法或眾所周知的神經(jīng)網(wǎng)絡(luò)的方法中的任何一種。
(實(shí)施例3)圖16表示實(shí)施例3的基本結(jié)構(gòu)。對于和圖15的實(shí)施例2相同的部分標(biāo)以相同的符號。首先,具有圖14的結(jié)構(gòu)的聲音處理裝置100使用聲源信號11和麥克風(fēng)輸入信號12消除包含在麥克風(fēng)輸入信號12中的音響回波,生成音響回波消除信號14。其次,在頻譜計(jì)算單元bb1中,對各一定幀周期通過富里葉變換計(jì)算音響回波消除信號14的頻譜21。頻譜21傳送給頻譜平均計(jì)算單元bb2,對各一定幀利用(8)式取出頻譜平均值22。
另一方面,由頻譜計(jì)算單元bb1取出的頻譜21供給頻譜平均減法單元bb3,利用(9)式減去頻譜平均值22,求出噪音消除頻譜23。噪音消除頻譜23傳送給對數(shù)倒頻譜計(jì)算單元bb4,變換為各一定幀的對數(shù)倒頻譜24。在對照單元bb5中,使用各一定幀的對數(shù)倒頻譜24進(jìn)行對照,輸出識別結(jié)果25。在進(jìn)行對照時(shí),可以使用眾所周知的隱馬爾可夫模型的方法或眾所周知的動(dòng)態(tài)計(jì)劃法的方法或眾所周知的神經(jīng)網(wǎng)絡(luò)的方法中的任何一種。
(實(shí)施例4)圖17表示實(shí)施例4的基本結(jié)構(gòu)。在圖17中,對于和實(shí)施例2或?qū)嵤├?相同的部分標(biāo)以相同的符號。首先,具有圖14的結(jié)構(gòu)的手頭緊處理裝置100使用聲源信號11和麥克風(fēng)輸入信號12消除包含在麥克風(fēng)輸入信號12中的音響回波,生成音響回波消除信號14。其次,在頻譜計(jì)算單元bb1中,對各一定幀周期通過富里葉變換計(jì)算音響回波消除信號14的頻譜21。頻譜21傳送給頻譜平均計(jì)算單元bb2,對各一定幀利用(8)式求出頻譜平均值22。
另一方面,由頻譜計(jì)算單元bb1求出的頻譜21供給頻譜平均減法單元bb3,利用(9)式減去頻譜平均值22,求出噪音消除頻譜23。噪音消除頻譜23傳送給對數(shù)倒頻譜計(jì)算單元bb4,變換為各一定幀的對數(shù)倒頻譜24。
對數(shù)倒頻譜24傳送給對數(shù)倒頻譜平均計(jì)算單元cc1,在此求出對數(shù)倒頻譜平均值31。在進(jìn)行對數(shù)倒頻譜平均值的計(jì)算時(shí),可以使用例如(19)式和(20)式。其次,在對數(shù)倒頻譜平均計(jì)算單元cc2中,將對數(shù)倒頻譜平均值31從對數(shù)倒頻譜24中減去,計(jì)算標(biāo)準(zhǔn)化對數(shù)倒頻譜32。此外,在進(jìn)行減法運(yùn)算時(shí),可以使用(21)式。在對照單元bb5中,使用各一定幀的標(biāo)準(zhǔn)化對數(shù)倒頻譜32進(jìn)行對照,輸出識別結(jié)果25。在進(jìn)行對照時(shí),可以使用眾所周知的隱馬爾可夫模型的方法或眾所周知的動(dòng)態(tài)計(jì)劃法的方法或眾所周知的神經(jīng)網(wǎng)絡(luò)的方法中的任何一種。
(實(shí)施例5)圖18表示實(shí)施例5的基本結(jié)構(gòu)。在圖18中,對于和實(shí)施例2、實(shí)施例3或?qū)嵤├?相同的部分標(biāo)以相同的符號。首先,具有圖14的結(jié)構(gòu)的聲音處理裝置100使用聲源信號11和麥克風(fēng)輸入信號12消除包含在麥克風(fēng)輸入信號12中的音響回波,生成音響回波消除信號14。其次,在頻譜計(jì)算單元bb1中,對各一定幀周期通過富里葉變換計(jì)算音響回波消除信號14的頻譜21。頻譜21傳送給對數(shù)倒頻譜計(jì)算單元bb4,變換為各一定幀的對數(shù)倒頻譜24。對數(shù)倒頻譜24傳送給對數(shù)倒頻譜平均計(jì)算單元cc1,在此求出對數(shù)倒頻譜平均值31。在進(jìn)行對數(shù)倒頻譜平均值的計(jì)算時(shí),可以使用例如(19)式和(20)式。
其次,在對數(shù)倒頻譜平均減法單元cc2中,將對數(shù)倒頻譜平均值31從對數(shù)倒頻譜24中減去,計(jì)算標(biāo)準(zhǔn)化對數(shù)倒頻譜32。此外,在進(jìn)行減法運(yùn)算時(shí),可以使用(21)式。在對照單元bb5中,使用各一定幀的標(biāo)準(zhǔn)化對數(shù)倒頻譜32進(jìn)行對照,輸出識別結(jié)果25。在進(jìn)行對照時(shí),可以使用眾所周知的隱馬爾可夫模型的方法或眾所周知的動(dòng)態(tài)計(jì)劃法的方法或眾所周知的神經(jīng)網(wǎng)絡(luò)的方法中的任何一種。
(實(shí)施例6)圖19表示實(shí)施例6的基本結(jié)構(gòu)。在圖19中,對于和實(shí)施例2、實(shí)施例3、實(shí)施例4或?qū)嵤├?相同的部分標(biāo)以相同的符號。首先,由具有圖14的結(jié)構(gòu)的聲音處理裝置100使用聲源信號11和麥克風(fēng)輸入信號12消除包含在麥克風(fēng)輸入信號12中的音響回波,生成音響回波消除信號14。其次,在頻譜計(jì)算單元bb1中,對各一定幀周期通過富里葉變換計(jì)算音響回波消除信號14的頻譜21。頻譜21傳送給對數(shù)倒頻譜計(jì)算單元bb4,變換為各一定幀的對數(shù)倒頻譜24。
對數(shù)倒頻譜24傳送給對數(shù)倒頻譜平均計(jì)算單元cc1,在此求出對數(shù)倒頻譜平均值31。在計(jì)算對數(shù)倒頻譜平均值時(shí),可以使用例如(19)式和(20)式。其次,在對數(shù)倒頻譜平均減法單元cc2中,將對數(shù)倒頻譜平均值31從對數(shù)倒頻譜24中減去,計(jì)算標(biāo)準(zhǔn)化對數(shù)倒頻譜32。此外,在進(jìn)行減法運(yùn)算時(shí),可以使用(21)式。在對照單元bb5中,使用各一定幀的標(biāo)準(zhǔn)化對數(shù)倒頻譜32,進(jìn)行對照,輸出識別結(jié)果25。在進(jìn)行對照時(shí),可以使用眾所周知的隱馬爾可夫模型的方法或眾所周知的動(dòng)態(tài)計(jì)劃法的方法或眾所周知的神經(jīng)網(wǎng)絡(luò)的方法中的任何一種。
權(quán)利要求
1.一種聲音處理裝置,其特征在于包括通過富里葉變換對各幀求頻譜的單元;根據(jù)該得到的頻譜求對數(shù)倒頻譜的單元;對各通話者分別求該得到的對數(shù)倒頻譜的語音幀的對數(shù)倒頻譜平均值和非語音幀的對數(shù)倒頻譜平均值的單元;和對各通話者通過將該通話者的語音幀的對數(shù)倒頻譜平均值從語音幀的對數(shù)倒頻譜中減去并將該通話者的非語音幀的對數(shù)倒頻譜平均值從非語音幀的對數(shù)倒頻譜中減去而修正與麥克風(fēng)特性以及從口到麥克風(fēng)的空間傳輸特性有關(guān)的乘法性畸變的單元。
2.一種聲音處理方法,其特征在于包括通過富里葉變換對各幀求頻譜的步驟;根據(jù)該得到的頻譜求對數(shù)倒頻譜的步驟;對各通話者分別求該得到的對數(shù)倒頻譜的語音幀的對數(shù)倒頻譜平均值和非語音幀的對數(shù)倒頻譜平均值的步驟;和對各通話者通過將該通話者的語音幀的對數(shù)倒頻譜平均值從語音幀的對數(shù)倒頻譜中減去并將該通話者的非語音幀的對數(shù)倒頻譜平均值從非語音幀的對數(shù)倒頻譜中減去而修正與麥克風(fēng)特性以及從口到麥克風(fēng)的空間傳輸特性有關(guān)的乘法性畸變的步驟。
全文摘要
一種聲音處理裝置,在使用模擬音響回波信號進(jìn)行回波消除時(shí),作為為了發(fā)生模擬音響回波信號而使用的脈沖響應(yīng),在麥克風(fēng)輸入信號中包含語音時(shí)就連續(xù)地使用在前一時(shí)刻的幀中使用的脈沖響應(yīng),而在麥克風(fēng)輸入信號中不包含語音時(shí)就使用新更新的脈沖響應(yīng)。
文檔編號H04R3/00GK1545368SQ20041004764
公開日2004年11月10日 申請日期1998年3月5日 優(yōu)先權(quán)日1997年3月6日
發(fā)明者莊境誠, 谷智洋 申請人:旭化成株式會(huì)社