用于音頻信號的改進(jìn)的語音/噪音分類的復(fù)合信號激活探測的制作方法

文檔序號：2822006閱讀：193來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于音頻信號的改進(jìn)的語音/噪音分類的復(fù)合信號激活探測的制作方法
本申請根據(jù)35USC119(e)(1)要求申請日為1998年11月23日的US60/109556號未決臨時申請的優(yōu)先權(quán)。
發(fā)明所屬領(lǐng)域本發(fā)明涉及聲頻信號壓縮，特別涉及在對聲頻信號進(jìn)行壓縮時語音/噪音的分類。
發(fā)明
背景技術(shù)：
語音編碼器和譯碼器通常分別設(shè)置在無線電發(fā)射機(jī)和無線電接收機(jī)中，并且它們可以同時工作，從而可在給定的發(fā)射機(jī)和接收機(jī)之間沿著無線電通信線路進(jìn)行語音(話音)通信。語音編碼器和語音譯碼器的結(jié)合經(jīng)常稱之為語音編碼譯碼器。移動無線電話(如蜂窩式移動電話)就是常規(guī)通信設(shè)備的一個例子，這種常規(guī)通信設(shè)備通常包括一個具有一語音編碼器的無線電發(fā)射機(jī)和一個具有一語音譯碼器的無線電接收機(jī)。
在常規(guī)的基于信息組的語音編碼器中，引入的語音信號被分成若干決并將這種塊稱為幀。用于普通的4kHz電話帶寬范圍的幀長通常為20ms或160次采樣?？蓪⑸鲜鰩M(jìn)一步分成一些于幀，其長度通常為5ms或40次采樣。
在對引入的音頻信號進(jìn)行壓縮的過程中，語音編碼器通常使用先進(jìn)的有損壓縮技術(shù)。通過一個信道如一條無線電通信線路將壓縮的(或編碼的)信號信息傳送給譯碼器。然后譯碼器試圖從引入的壓縮信號信息中復(fù)制出輸入音頻信號。如果引入的音頻信號的某些特征是公知的，則在信道中可保持盡可能低的位速率。如果音頻信號包含與收聽者相關(guān)的信息，則該信息會被保留下來。然而如果音頻信號僅包含非相關(guān)信息(如背景噪音)，則可以通過僅發(fā)射有限的關(guān)于信號的信息量來節(jié)省帶寬。對于僅包含非相關(guān)信息的許多信號，非常低的位速率經(jīng)?？蛇_(dá)到高性能壓縮。在極端的情況中，可在譯碼器中通過上述信道對輸入信號進(jìn)行合成而不進(jìn)行任何信息的更新，直到重新確定輸入的聲頻信號包括相關(guān)的信息為止。
可以方便地利用非常低的位速率十分精確地復(fù)制出的典型信號包括恒定噪音、汽車噪音，在某種程度上還包括一些多路重合噪音。對于更復(fù)雜的非語音信號像音樂或語音和音樂的合成，要求通過譯碼器利用更高的位速率對其進(jìn)行準(zhǔn)確復(fù)制。
對于許多通常類型的背景噪音，需要更低的語音位速率，以得到足夠好的信號模型。目前的移動系統(tǒng)利用了在背景噪音持續(xù)的過程中下調(diào)發(fā)射的位速率這一事實(shí)。例如在使用連續(xù)發(fā)射技術(shù)的常規(guī)系統(tǒng)中，可變速率(VR)語音編碼器可使用其最低的位速率。
在常規(guī)的非連續(xù)發(fā)射(DTX)方案中，當(dāng)講演者停頓時發(fā)射機(jī)就停止發(fā)送編碼的語音幀。在規(guī)則或不規(guī)則間隔內(nèi)(例如每100ms到500ms)，發(fā)射機(jī)發(fā)送適合于在譯碼器中產(chǎn)生常規(guī)的柔和噪音的語音參數(shù)。這些適合產(chǎn)生柔和噪音(CNG)的參數(shù)通常被編碼成有時稱之為靜寂描述符(SID)幀的信號。在接收機(jī)處，譯碼器利用在SID幀中接收到的柔和噪音參數(shù)并通過常規(guī)柔和噪音注入(CNI)算法來合成仿真噪音。
在常規(guī)的DTX系統(tǒng)中的譯碼器內(nèi)產(chǎn)生柔和噪音時，通常可以感覺到這種噪音變化非常小，并與在有源模式(非DTX)下產(chǎn)生的背景噪音有很大的不同。產(chǎn)生這種感覺的原因是DTX SID幀并沒有像正常的語音幀那樣經(jīng)常地向接收機(jī)發(fā)送。在具有DTX模式的常規(guī)線性預(yù)測合成分析(LPAS)編碼譯碼器中，常需在數(shù)幀范圍內(nèi)對背景噪音的頻譜和能量進(jìn)行估算(例如平均值)，然后將估算的參數(shù)在SID幀內(nèi)量化并將其通過信道傳送給譯碼器。
發(fā)送具有較低更新率的SID幀而不發(fā)送規(guī)則語音幀的好處有兩方面。例如由于更低的能量消耗而使移動式無線電收發(fā)信機(jī)中的電池壽命得以延長，而且由發(fā)射機(jī)引起的干擾下降從而提高了系統(tǒng)的容量。
如果利用一種相當(dāng)簡單的壓縮模式對復(fù)合信號如音樂進(jìn)行壓縮，并且相應(yīng)的位速率也相當(dāng)?shù)?，則在譯碼器中復(fù)制出的信號與使用較好(較高質(zhì)量)壓縮技術(shù)而獲得的結(jié)果有很大的不同。通過對復(fù)合信號誤分類噪音可使用相當(dāng)簡單的壓縮方案。當(dāng)出現(xiàn)這種誤分類時，不僅譯碼器輸出拙劣的復(fù)制信號，而且不利的是誤分類本身導(dǎo)致從較高質(zhì)量的壓縮方案轉(zhuǎn)換到較低質(zhì)量的壓縮方案。為了修正上述誤分類，需要再轉(zhuǎn)回到較高質(zhì)量方案的。如果在壓縮方案之間的這種轉(zhuǎn)換經(jīng)常發(fā)生，則收聽者通常能聽得見并感到很刺耳。
從前述可知，在適當(dāng)?shù)那闆r下，如在演講者停頓期間對背景噪音進(jìn)行壓縮，仍保持低位速率(高壓縮率)時，需要減少主觀上相關(guān)信號誤分類?？衫梅浅?qiáng)的壓縮技術(shù)從而使得收聽者不會感到刺耳。在DTX系統(tǒng)中使用如上所述的柔和噪音參數(shù)就是強(qiáng)壓縮技術(shù)的一個例子，就象利用隨機(jī)激勵方法的常規(guī)低速率線性預(yù)測編碼(LPC)那樣。利用強(qiáng)壓縮技術(shù)的編碼技術(shù)通常只可以精確地復(fù)制出可感知的簡單噪音類型如穩(wěn)定的汽車噪音、街道噪音、餐館噪音(混串音)和其它類似的信號。
用于確定輸入聲頻信號是否包含相關(guān)信息的常規(guī)分類技術(shù)主要基于輸入聲頻信號的較簡單的穩(wěn)態(tài)分析。如果確定輸入信號為穩(wěn)定的，則假定其為類似噪音的信號。然而，單單是這種常規(guī)穩(wěn)態(tài)分析會引起復(fù)合信號，上述復(fù)合信號相當(dāng)穩(wěn)定，但實(shí)際上包含被誤分類為噪音的可感知的相關(guān)信息。不利的是這種誤分類可引起如上所述的問題。
因此需要一種分類技術(shù)，這種分類技術(shù)能可靠地檢測到上述類型的復(fù)合信號內(nèi)的可感知相關(guān)信息的存在。
本發(fā)明提供了復(fù)合信號激活檢測，其能可靠地檢測到復(fù)合非語音信號，這些非語音信號包括對收聽者感知重要的相關(guān)信息。能被可靠地檢測到的復(fù)合非語音信號的例子包括音樂、曲維持樂〔musie on-hold〕、語音與音樂的組合、背景中的音樂以及其它音調(diào)或泛音聲音。
對附圖的簡要描述

圖1示意性地展示了根據(jù)本發(fā)明的一個示范性語音編碼設(shè)備的相關(guān)部分；圖2展示了圖1中的復(fù)合信號激活檢測器的示范性實(shí)施例；圖3展示了圖1中的語音激活檢測器的示范性實(shí)施例；圖4展示了圖1中的釋放延遲邏輯塊的示范性實(shí)施例；圖5展示了圖2中的參數(shù)發(fā)生器的示范性操作流程；圖6展示了圖2中的計數(shù)器控制器的示范性操作流程；圖7展示了圖2中的一個部分的示范性操作流程；圖8展示了圖2中的另一部分的示范性操作流程；圖9展示了圖3中的一個部分的示范性操作流程；
圖10展示了圖3中的計數(shù)器控制器的示范性操作流程；圖11展示了圖3中的另一部分的示范性操作流程；圖12展示了可由圖1～11中的實(shí)施例完成的示范性操作流程；圖13展示了圖2中的復(fù)合信號激活檢測器的另一個實(shí)施例。
詳細(xì)描述圖1為示意性地展示了根據(jù)本發(fā)明的一個示范性語音編碼設(shè)備的相關(guān)部分。這種語音編碼設(shè)備例如可以安裝在通過無線電通信信道進(jìn)行聲頻信息傳遞的無線電接收機(jī)中。這種無線電接收機(jī)的一個例子是移動無線電話，如蜂窩式移動電話。
在圖1中，將輸入聲頻信號輸入到復(fù)合信號激活檢測器(CAD)以及話音激活檢測器(VAD)中。復(fù)合信號激活檢測器CAD響應(yīng)聲頻輸入信號并進(jìn)行相關(guān)性分析，從而確定輸入信號是否包括收聽者感知的相關(guān)信息，然后向VAD輸出一組信號相關(guān)參數(shù)。VAD利用這些信號相關(guān)參數(shù)連同接收到的聲頻輸入信號進(jìn)行確定輸入聲頻信號是語音還是噪音。VAD作為一個語音/噪音分類器；語音/噪音顯示作為輸出。CAD接收到語音/噪音顯示并作為其輸入。CAD響應(yīng)語音/噪音顯示和輸入聲頻信號，產(chǎn)生一組輸出到釋放延遲邏輯塊的復(fù)合信號標(biāo)識，該釋放延遲邏輯塊也接收由VAD產(chǎn)生的語音/噪音顯示作為其輸入。
釋放延遲邏輯塊響應(yīng)復(fù)合信號標(biāo)識和語音/噪音顯示，并產(chǎn)生輸出，該輸出能指示出輸入聲頻信號是否包括收聽者能感覺到的相關(guān)信息，收聽者將在信道的另一端聽到在接收機(jī)中的譯碼設(shè)備輸出的復(fù)制聲頻信號。例如釋放延遲邏輯塊的輸出可適當(dāng)?shù)赜糜诳刂艱TX的操作(在DTX系統(tǒng)中)或位速率(在可變速率VR編碼器中)。如果釋放延遲邏輯塊的輸出表明輸入聲頻信號不包含相關(guān)的信息，即可產(chǎn)生柔和噪聲(在DTX系統(tǒng)中)或者降低位速率(在VR編碼器)。
在CAD中通過提取出與特定頻帶中相關(guān)信號的每一幀信息對輸入信號(可進(jìn)行預(yù)處理)進(jìn)行分析。可通過使用一個合適的濾波器進(jìn)行信號初次濾波來完成上述操作，上述濾波器可以為帶通濾波器或高通濾波器。該濾波器對包含分析中感興趣的最大限度能量的頻帶進(jìn)行評估。為了降低如汽車噪音的強(qiáng)低頻率含量，通常應(yīng)濾除低頻區(qū)。濾波后的信號被送往開環(huán)長期預(yù)測(LTP)相關(guān)分析。LTP分析提供的結(jié)果為相關(guān)值矢量或歸一化增益值；每相關(guān)移位的一個值。例如在常規(guī)的LTP分析中，移位范圍可以為[20，147]。獲取所需的相關(guān)性檢測的另一種方法〔低復(fù)雜性〕是在相關(guān)計算中使用未濾波的信號以及通過如下詳細(xì)描述的算法相似“濾波”過程對相關(guān)值進(jìn)行修改。
對于每一個分析幀，選擇并緩沖具有最大幅度的標(biāo)準(zhǔn)相關(guān)值(增益值)。不使用移位(相應(yīng)于選擇的相關(guān)值的LTP滯后)。對該值作進(jìn)一步分析從而得出信號相關(guān)性參數(shù)矢量，該信號相關(guān)性參數(shù)矢量被輸送到VAD中用于背景噪音評估過程。對緩沖的相關(guān)值進(jìn)行處理并用來得出最后的結(jié)論信號是否相關(guān)(即具有感知重要性)以及VAD的結(jié)論是否可靠。產(chǎn)生一組標(biāo)識VAD_fail_long和VAD_fail_short并用來指示感知相關(guān)信息何時存在時，何時VAD可能要執(zhí)行嚴(yán)格的誤分類，即噪音分類。
在CAD相關(guān)性分析中進(jìn)行計算的信號相關(guān)性參數(shù)用于提高VAD方案的性能。VAD方案試圖確定信號是一個語音信號(可能被環(huán)境噪音所降級)還是一個噪音信號。為了辨別出噪音中的語音+噪音信號，VAD通常估計上述噪音。VAD必須更新其背景噪音的評估值從而能在語音+噪音信號分類中得出更好的判斷。來自VAD的相關(guān)性參數(shù)用于確定VAD背景噪音和活動信號評估值更新到何種程度。
如果VAD被認(rèn)為是可靠的，則釋放延遲邏輯塊可調(diào)整信號的最終判斷，該最終判斷利用了關(guān)于信號和在前VAD結(jié)論的相關(guān)性的先前信息。釋放延遲邏輯塊的輸出是最終判斷，從而能確定信號是相關(guān)還是不相關(guān)。在不相關(guān)的情況下，可使用低位速率來進(jìn)行編碼。在DTX系統(tǒng)中，該相關(guān)/非相關(guān)信息用來確定當(dāng)前的幀是應(yīng)該以正常的方式(相關(guān))進(jìn)行編碼還是用舒適噪音參數(shù)(非相關(guān))進(jìn)行編碼。
在一個示范性的實(shí)施例中，在語音編碼器中設(shè)有實(shí)現(xiàn)高效低復(fù)合性的CAD，該語音編碼器使用了線性預(yù)測合成分析(LPAS)結(jié)構(gòu)。輸入到語音編碼器中的信號通過常規(guī)的裝置(高通濾波的、縮放的等)進(jìn)行調(diào)節(jié)。然后通過LPAS編碼器使用的常規(guī)自適應(yīng)噪音加權(quán)重濾波器對調(diào)節(jié)的信號s(n)進(jìn)行濾波。然后將加權(quán)語音信號sw(n)傳送到開環(huán)LTP分析中。LTP分析對在范圍[Lmin，Lmax]內(nèi)的每一個移位的相關(guān)值進(jìn)行計算并存儲，其中該范圍的端值例如可以為Lmin＝18，Lmax＝147。對于在上述范圍內(nèi)每一個滯后值(移位)L，滯后值l的相關(guān)值Rxx(k，l)范圍可通過如下公式計算Rxx(k=0,l)=Σn=0sw(n-k)sw(n-l)]]>方程1其中k為分析幀的長度。如果將k值設(shè)定為0，則上述函數(shù)僅僅隨滯后值l進(jìn)行變化Rxx(l)=Σn=0sw(n)sw(n-l)]]>方程2也可定義為Exx(L)＝Rxx(L，L) 方程3該過程通常作為在LPAS編碼器中的自適應(yīng)編碼薄搜索的預(yù)搜索，因此沒有增加額外的計算成本。
通過將下列方程中的失真D最小化而得到單抽頭預(yù)測器(singletap predictor)的最佳增益系數(shù)g_optD(l)=Σn=0n=N-1(sw(n)-g·sw(n-l))2]]>方程4通過下列方程得出的最佳增益系數(shù)g_opt(實(shí)際的標(biāo)準(zhǔn)相關(guān)值)是方程4中最小化D的g值g_opt=Rxx(L)Exx(L)]]>其中L是最小化失真D(方程4)的滯后值，Exx(L)是能量。復(fù)合信號檢測器計算出加權(quán)信號sw的高通濾波模型(high passfiltered version)的最佳增益系數(shù)(g_opt)。例如高通濾波器可為一個具有濾波系數(shù)[h0，h1]的簡單第一級濾波器。在一個實(shí)施例中，在相關(guān)值計算之前不采用高通濾波加權(quán)信號，而采用簡化的公式來最小化使用濾波信號sw_f(n)的D值。
利用如下公式來確定高通濾波信號sw_f(n)sw_f(n)＝h0·sw(n)+h1·sw(n-1)方程7在此情況下，可通過如下公式得到g_max(濾波信號的g_opt)g_max=Rxx(L)(h02+h12)+Rxx(L-1)h0h1+Rxx(L+1)h0h1Exx(L)(h02+h12)+Rxx(L,L+1)h0h1+Rxx(L,L-1)h0h1]]>方程8這樣可根據(jù)方程8使用在前已經(jīng)由未濾波信號sw得到的Rxx和Exx值來計算參數(shù)g_max，而不用計算濾波信號sw_f的新的Rxx值。
如果將濾波系數(shù)[h0，h1]選擇為[1，-1]并且將分母標(biāo)準(zhǔn)滯后值Lden設(shè)為0，則g_max計算可簡化為g_max=2Rxx(L)-(Rxx(L-1)+Rxx(L+1))2Exx(Lden)-2Rxx(Lden+1)]]>方程9
將方程8中的分母Lden設(shè)為(Lmin+1)(非最優(yōu)值L_opt，即方程4中的最優(yōu)滯后值)，并將最大值L限制為Lmax-1，在最大搜索中的最小值Lmin限制為(Lmin+1)，可以對上述方程作進(jìn)一步簡化。在此情況下，除了從開環(huán)LTP分析中已經(jīng)得到的Rxx(1)外，不需要額外進(jìn)行相關(guān)性計算。
對于每一幀，存儲了具有最大幅度的增益值g-max。根據(jù)g-f(i)＝b0·g_max(i)-a1·g_f(i-1)并通過得到每一幀的濾波g_max值，可得到平滑模型g_f(i)。在一些實(shí)施例中，濾波系數(shù)b0和a1可以是時間變量，也可以為狀態(tài)和輸入相關(guān)的以避免狀態(tài)飽和問題。例如b0和a1可以表達(dá)為相應(yīng)的時間g_max(i)和g_f(i-1)的函數(shù)。即b0＝fb(t，g_max(i)，g_f(i-1))和a1＝fa(t，g_max(i)，g_f(i-1))。
信號g_f(i)是CAD相關(guān)性分析的一個初級結(jié)果。通過分析g_f(i)的狀態(tài)和隨時間變化的曲線，VAD自適應(yīng)可配有輔助設(shè)備，而釋放延遲邏輯塊配有操作顯示。
圖2展示了上面已描述的圖1中的復(fù)合信號激活檢測器CAD的示范性實(shí)施例。預(yù)處理部分21對輸入信號進(jìn)行預(yù)處理，從而產(chǎn)生了前述的加權(quán)信號sw(n)。將信號sw(n)輸出到一個常規(guī)的相關(guān)性分析器23中，該相關(guān)性分析器23例如可以為開環(huán)長期預(yù)測(LTP)相關(guān)分析器。相關(guān)性分析器23的輸出22通常作為一個自適應(yīng)編碼薄搜索24的輸入。如上所述，根據(jù)本發(fā)明在常規(guī)相關(guān)性分析器23中使用的Rxx和Exx值用于計算g_f(i)。
Rxx和Exx值在25處輸入到最大歸一化增益計算器20中，該計算器20如上所述可計算出g_max值。通過計算器20對每一幀的最大幅度g_max值進(jìn)行選擇并將其存儲在緩沖器26中。緩沖后的值輸出到如上所述的平滑濾波器27中。平滑濾波器27的輸出是g_f(i)。
信號g_f(i)被輸入到參數(shù)發(fā)生器28中。參數(shù)發(fā)生器28對輸入信號g_f(i)進(jìn)行響應(yīng)，并產(chǎn)生一對復(fù)合_高(complex-high)輸出和復(fù)合_低(complex-low)輸出，上述輸出作為信號相關(guān)性參數(shù)輸送給VAD(參看附圖1)。參數(shù)發(fā)生器28還產(chǎn)生一個復(fù)合(complex-timer)一輸出，該輸出作為控制計數(shù)器201的計數(shù)器控制器29的輸入。計數(shù)器201的輸出復(fù)合懸擱_計數(shù)。(complex_hang_count)作為一個信號相關(guān)性參數(shù)輸送給VAD，同時也輸送給比較器203，比較器203的輸出VAD失效_長(VAD_fail_long)是輸出給釋放延遲邏輯塊的復(fù)合信號標(biāo)識(參看圖1)。信號g_f(i)同時也被輸送給另一個比較器205，該比較器205的輸出208與“與”門207的輸入相耦合。
圖2中的復(fù)合信號激活檢測器也從VAD中接收語音/噪音顯示(參看圖1)，即信號sp_vad_prim(例如該顯示等于0時為噪音，該顯示等于1時為語音)。將上述信號輸入緩沖器202中，該緩沖器202的輸出被耦合到比較器204。比較器204的輸出206被耦合到“與”門207的另一輸入?！芭c”門207的輸出為一個復(fù)合信號標(biāo)識_VAD_失效_短(VAD_fail_short)，該標(biāo)識輸入給圖1中的釋放延遲邏輯塊。
圖13展示了圖2中設(shè)備的另一示例，其中來自sw(n)的高通濾波模型(filtered version)，即高通濾波器131的輸出sw_f(n)通過相關(guān)性分析器23計算出方程5的g_opt值。然后每一幀的最大幅度g_opt值取代g_max在圖2的緩沖器26中進(jìn)行緩沖。如圖2所示相關(guān)性分析器23還接受信號sw_(n)并產(chǎn)生常規(guī)輸出22。
圖3展示了圖1中的VAD的示范性實(shí)施例的相關(guān)部分。如上描述的圖2所示，VAD接受了來自CAD的信號相關(guān)性參數(shù)復(fù)合_高(complex_high)、復(fù)合_低(complex_low)、復(fù)合_懸擱_計數(shù)(complex_hang_count)。復(fù)合_高(complex_high)和復(fù)合_低(complex_low)被分別輸入到相應(yīng)的緩沖器30和31中，上述緩沖器的輸出被分別輸入到比較器32和33中。對比較器32和33的輸出進(jìn)行耦合并作為“或”門34的相應(yīng)輸入，該“或”門34向計數(shù)器控制器35輸出復(fù)合_報警(complex_warning)信號。計數(shù)器控制器35對復(fù)合_報警(complex_warning)信號進(jìn)行響應(yīng)，從而可以控制計數(shù)器36。
聲頻輸入信號被耦合到噪音評估器38的一個輸入上，同時也被耦合到語音/噪音確定器39的一個輸入上。如通常所示，語音/噪音確定器39也接受來自噪音評估器38的背景噪音的評估信息303。語音/噪音確定器通常對輸入聲頻信號和噪音評估信息303進(jìn)行響應(yīng)，并產(chǎn)生語音/噪音顯示sp_vad_prim，該顯示輸出給圖1中的釋放延遲邏輯塊和CAD。
信號復(fù)合_懸擱_計數(shù)(complex_hang_count)輸入到比較器37中，該比較器37的輸出被耦合到噪音評估器38的一個向下(DOWN)輸入中。當(dāng)向下(DOWN)輸入被激活時，噪音評估器38僅允許向下更新其評估值或不改變其評估值，即噪音的任何新的評估值必須表明小于或等于在前的評估值。在其它實(shí)施例中，激活向下(DOWN)輸入可允許噪音評估器向上更新其評估值從而表明具有更強(qiáng)的噪音，但是要求更新的速度(強(qiáng)度)應(yīng)顯著減小。
噪音評估器38還有一個延遲(DELAY)輸入，該輸入與計數(shù)器36產(chǎn)生的一個稱為靜態(tài)_計數(shù)(stat_count)的輸出信號相耦合。在常規(guī)的VAD中噪音評估器接收到一個顯示信號表明輸入信號例如為非穩(wěn)定的、或音調(diào)或音色信號之后就延遲一段時間。在此延遲時間內(nèi)，噪音評估值不能被更新為更高的值。這樣有助于防止對隱藏在噪音或語音穩(wěn)定信號內(nèi)的非噪音信號作出錯誤反應(yīng)。當(dāng)延遲時間結(jié)束時，即使暫時顯示具有語音信號，噪音評估器也可以向上更新其噪音評估值。如果噪音水平突然增加，將使整個VAD算法不會鎖定到激活顯示。
根據(jù)本發(fā)明，當(dāng)信號顯得相當(dāng)相關(guān)而允許噪音評估值“快速”增長時，靜態(tài)_計數(shù)(stat_count)驅(qū)動延遲(DELAY)輸入，并設(shè)定噪音評估器的前述的延遲時間的下限(即需要一段與常規(guī)要求相比為較長的延遲時間)。如果CAD檢測到在一個相當(dāng)長的時間內(nèi)(如2秒)具有非常高的相關(guān)性，靜態(tài)_計數(shù)(stat_count)信號可以使噪音評估值的增加延遲相當(dāng)長的一段時間(如5秒)。在一個實(shí)施例中，靜態(tài)計數(shù)(stat_count)信號用于減小噪音評估值更新的速度(強(qiáng)度)，在這種情況下通過CAD顯示出較高的相關(guān)性。
語音/噪音確定器39具有一個耦合到計數(shù)器控制器35的輸入的輸出301，同時該輸出也耦合為噪音評估器38的輸入，后者的耦合是通常使用的。當(dāng)語音/噪音確定器判斷出聲頻輸入信號的一個給定幀例如是音調(diào)信號或音色信號或非穩(wěn)定信號時，輸出301顯示將該信號輸出給計數(shù)器控制器35，然后依次將計數(shù)器36的輸出靜態(tài)_計數(shù)(stat_count)設(shè)定為一個期望值。如果輸出301顯示為穩(wěn)定信號時，控制器35可以使計數(shù)器36遞減。
圖4展示了圖1中的釋放延遲邏輯決的示范性實(shí)施例。在圖4中，復(fù)合信號標(biāo)識短_失效_VAD(VAD_fail_short)和VAD_失效_長(VAD_fail_long)被輸入到”或”門41中，該“或”門41的輸出作為另一個“或”門43的一個輸入。來自VAD的語音/噪音顯示sp_vad_prim被輸入到常規(guī)的VAD釋放延遲邏輯塊45中。VAD釋放延遲邏輯塊的輸出作為“或”門43的第二個輸入。如果復(fù)合信號標(biāo)識VAD_失效_短(VAD_fail_short)或VAD_失效_長(VAD_fail_long)之一處于激活狀態(tài)，則“或”門41的輸出可引起“或”門43顯示出該輸入信號是相關(guān)的。
如果復(fù)合信號標(biāo)識都不處于激活狀態(tài)，則VAD釋放延遲邏輯塊45的語音/噪音判斷，即信號sp_vad，將構(gòu)成相關(guān)/非相關(guān)顯示。如果sp_vad處于激活狀態(tài)，則表示為語音，然后“或”門43的輸出顯示信號是相關(guān)的。否則如果sp_vad處于非激活狀態(tài)，則表明為噪音，然后“或”門43的輸出顯示信號是非相關(guān)的。例如來自“或”門43的相關(guān)/非相關(guān)顯示可以被輸出給一個DTX系統(tǒng)的DTX控制部分或者VR系統(tǒng)的位速率控制部分。
圖5展示了圖2中的參數(shù)發(fā)生器28的示范性操作流程，該操作流程可產(chǎn)生信號復(fù)合_高(complex_high)、復(fù)合_低(complex_low)、復(fù)合時標(biāo)(complex_timer)。圖5(以及圖6～11)中的位標(biāo)i表示聲頻輸入信號的當(dāng)前幀(current frame)。如圖5所示，如果信號g_f(i)不大于其相應(yīng)的閾值，即在步驟51和52中對于高_(dá)復(fù)合(complex_high)信號為THh、在步驟54和55中對于復(fù)合_低(complex_low)信號為THl、在步驟57和58中對于復(fù)合_時標(biāo)(complex_timer)信號為THt，則前面提及的每一個信號的值都設(shè)為零。如果在步驟51中信號g_f(i)大于閾值THh，則在步驟53中將信號高_(dá)復(fù)合(complex_high)設(shè)為1；如果在步驟54中信號g_f(i)大于閾值THl，則在步驟56中將信號復(fù)合_低(complex_low)設(shè)為1。如果在步驟57中信號g_f(i)大于閾值THt，則在步驟59中將信號復(fù)合_時標(biāo)(complex_timer)的值增加1。在圖5中的示范性閾值包括THh＝0.6，THl＝0.5，THt＝0.7。由圖5中可以看到復(fù)合_時標(biāo)(complex_timer)代表了連續(xù)幀的數(shù)目，在上述數(shù)目內(nèi)g_f(i)大于閾值THt。
圖6展示了圖2中的計數(shù)器控制器29和計數(shù)器201的示范性操作流程。如果在步驟61中復(fù)合_時標(biāo)(complex_timer)大于閾值THct，則在步驟62中計數(shù)器控制器29將計數(shù)器201的輸出信號復(fù)合_懸擱_計數(shù)(complex_hang_count)的值設(shè)為H。如果在步驟61中復(fù)合_時標(biāo)(complex_timer)不大于閾值THct，但在步驟63中大于0，則在步驟64中計數(shù)器控制器29將計數(shù)器201的輸出信號復(fù)合_懸擱_計數(shù)(complex_hang_count)的值減1。圖6中的示范性值包括THct＝100(相應(yīng)于在一個實(shí)施例中的2秒)，H＝250(相應(yīng)于在一個實(shí)施例中的5秒)。
圖7展示了圖2中的比較器203的示范性操作流程。如果在步驟71中復(fù)合_懸擱_計數(shù)(complex_hang_count)大于THhc，則在步驟72中將VAD_失效_長(VAD_fail_long)設(shè)為1。否則在步驟73中將VAD_失效_長(VAD_fail_long)設(shè)為0。在一個實(shí)施例中THhc＝0。
圖8展示了圖2中的緩沖器202、比較器204和205以及“與”門207的示范性操作流程。如圖8所示，如果在步驟81緊接當(dāng)前的(第i點(diǎn))的sp_vad_prim值之前的最近的sp_vad_prim的P值都等于0以及如果在步驟82中信號g_f(i)大于閾值THfs，則在步驟83中將VAD_失效_短(VAD_fail_short)設(shè)為1。否則在步驟84中將VAD_失效_短(VAD_fail_short)設(shè)為0。圖8中的示范性值包括THfs＝0.55，p＝10。
圖9展示了圖3中的緩沖器30和31、比較器32和33以及“或”門34的示范性操作流程。如果在步驟91中當(dāng)前的(第i點(diǎn))的復(fù)合_高(complex_high)值之前的上一次第m點(diǎn)的復(fù)合_高(complex_high)值都等于0，或者如果在步驟92中當(dāng)前的(第i點(diǎn))的復(fù)合_低(complex_low)值之前的上一次第n點(diǎn)的復(fù)合_低(complex_low)值都等于0，則在步驟93中將復(fù)合_報警(complex_warning)設(shè)為1。否則在步驟94中將復(fù)合_報警(complex_warning)設(shè)為0。在圖9中的示范性值包括m＝8，n＝15。
圖10展示了圖3中的計數(shù)器控制器35和計數(shù)器36的示范性操作流程。如果在步驟100中(參看圖3中的301)表明聲頻信號是穩(wěn)定的，則在步驟104中將靜態(tài)_計數(shù)(stat_count)減小。然后如果在步驟101中復(fù)合_報警(complex_warning)＝1以及在步驟102中靜態(tài)_計數(shù)(stat_count)小于值MIN，則在步驟103中將靜態(tài)_計數(shù)(stat_count)的值設(shè)為MIN。如果在步驟100中聲頻信號是非穩(wěn)定的，則在步驟105中將靜態(tài)_計數(shù)(stat_count)的值設(shè)為A。在一個實(shí)施例中，MIN和A的示范性值分別是5和20，它們可以分別引起噪音評估器38(圖3)的下限延遲值為100ms和400ms。
圖11展示了圖3中的比較器37和噪音評估器38的示范性操作流程。如果在步驟111中復(fù)合_懸擱_計數(shù)(complex_hang_count)大于閾值THhc，則在步驟112中比較器37激活噪音評估器38的向下輸入，這樣噪音評估器38僅允許向下更新其噪音評估值(或者不改變噪音評估值)。如果在步驟111中復(fù)合_懸擱_計數(shù)(complex_hang_count)不大于閾值THhcl，則噪音評估器38的向下輸入處于非激活狀態(tài)，這樣在步驟113中噪音評估器38允許向下或向上更新其噪音評估值。在一個例子中，THhcl＝0。
如前所述，如果CAD確定輸入聲頻信號是一個包括收聽者能感覺到的相關(guān)信息的復(fù)合信號，則由CAD產(chǎn)生的復(fù)合信號標(biāo)識允許通過VAD進(jìn)行“噪音”分類有選擇地超載。當(dāng)通過VAD被分類為噪音的連續(xù)幀的某一預(yù)定數(shù)之后確定g_f(i)大于某一預(yù)定值時，VAD_fail_short標(biāo)識可在釋放延遲邏輯塊的輸出處觸發(fā)“相關(guān)”顯示。
而且在g_f(i)大于連續(xù)幀某一預(yù)定數(shù)的預(yù)定值之后，VAD_fail_long標(biāo)識可在釋放延遲邏輯塊的輸出處激發(fā)“相關(guān)”顯示，并將該顯示保持一段較長的保持時間。保持的時間周期可包含一系列分離的連續(xù)幀序列，其中g(shù)_f(i)大于前述的預(yù)定值，但每一個相分離的連續(xù)幀序列包括小于前述的幀的預(yù)定數(shù)。
在一個實(shí)施例中，信號相關(guān)性參數(shù)復(fù)合_懸擱_計數(shù)(complex_hang_count)可以在與復(fù)合信號標(biāo)識VAD_fail_long相同的條件下使噪音評估器38的向下輸入起作用。如果g_f(i)大于連續(xù)幀的第一個數(shù)的第一預(yù)定閾值或大于連續(xù)幀的第二個數(shù)的第二預(yù)定閾值，則信號相關(guān)性參數(shù)復(fù)合_高(complex_high)和復(fù)合_低(complex_low)可以這樣運(yùn)作，于是，即使已將多個連續(xù)幀確定(通過語音/噪音確定器39)為穩(wěn)定的，噪音評估器38的延遲輸入可以被提升(如需要)到一個下限值。
圖12展示了可由圖1～11中的語音編碼器實(shí)施例完成的示范性操作流程。在步驟121中計算當(dāng)前幀的具有最大幅度的歸一化增益。在步驟122中對上述增益進(jìn)行分析，從而產(chǎn)生相關(guān)性參數(shù)和復(fù)合信號標(biāo)識。在步驟123中，將上述相關(guān)性參數(shù)用于在VAD中對背景噪音的評估。在步驟124中，復(fù)合信號標(biāo)識用于在釋放延遲邏輯塊中得出相關(guān)性結(jié)論。如果在步驟125中確定聲頻信號不包含能感知的相關(guān)信息，則在步驟126中降低例如VR系統(tǒng)中的位速率或例如在DTX系統(tǒng)中對柔和噪聲參數(shù)進(jìn)行編碼。
由前述可知，對于本領(lǐng)域的技術(shù)人員而言，可通過在常規(guī)的語音編碼設(shè)備上對軟件、硬件或者兩者的適當(dāng)修改而很方便地實(shí)現(xiàn)圖1～13中的實(shí)施例。
雖然在前文已對本發(fā)明的示范性實(shí)施例進(jìn)行了詳細(xì)描述，但它并不是對本發(fā)明范圍的限定，可通過多種方式實(shí)現(xiàn)本發(fā)明的構(gòu)思。
權(quán)利要求
1.一種在對聲頻信號進(jìn)行編碼的期間將可感知相關(guān)非語音信息保留在聲頻信號中的方法包括作出第一個關(guān)于要壓縮的聲頻信號是否包括語音或噪音信息的判斷；作出第二個關(guān)于聲頻信號是否包括對收聽者可感知相關(guān)的非語音信息的判斷；以及根據(jù)第二個判斷有選擇地最優(yōu)先所述第一判斷。
2.如權(quán)利要求1所述的方法，其中所述得出第二判斷的步驟包括將預(yù)定值與相關(guān)值相比較，該相關(guān)值與聲頻信號被分割成的相應(yīng)的幀相關(guān)。
3.如權(quán)利要求2所述的方法，其中所述有選擇地最優(yōu)先步驟包括根據(jù)某相關(guān)值大于預(yù)定值最優(yōu)先所述第一判斷。
4.如權(quán)利要求2所述的方法，其中所述有選擇地最優(yōu)先步驟包括根據(jù)在給定的時間周期內(nèi)相關(guān)值的預(yù)定數(shù)大于預(yù)定值最優(yōu)先所述第一判斷。
5.如權(quán)利要求4所述的方法，其中所述有選擇地最優(yōu)先步驟包括根據(jù)連續(xù)相關(guān)值的預(yù)定數(shù)大于預(yù)定值時最優(yōu)先所述第一判斷。
6.如權(quán)利要求2所述的方法，包括對于每一幀探測到聲頻信號的高通濾波模型的最高標(biāo)準(zhǔn)相關(guān)值，所述最高標(biāo)準(zhǔn)相關(guān)值分別相應(yīng)于所述第一次提及的相關(guān)值。
7.如權(quán)利要求6所述的方法，其中所述探測步驟包括對于每一幀探測最大幅度標(biāo)準(zhǔn)相關(guān)值。
8.如權(quán)利要求1所述的方法，其中所述有選擇地最優(yōu)先步驟包括根據(jù)可感知相關(guān)非語音信息的第二判斷最優(yōu)先噪音的第一判斷。
9.一種將可感知相關(guān)信息保留在聲頻信號中的方法，包括對于將聲頻信號被分割成的若干幀中的每一幀探測聲頻信號的高通濾波模型的最高標(biāo)準(zhǔn)相關(guān)值；產(chǎn)生所述標(biāo)準(zhǔn)相關(guān)值的第一序列；確定代表值的第二序列來分別表示第一序列的相應(yīng)標(biāo)準(zhǔn)相關(guān)值；將代表值與閾值相比較從而得到聲頻信號是否包含可感知相關(guān)信息的顯示。
10.如權(quán)利要求9所述的方法，其中所述探測步驟包括將相關(guān)性分析應(yīng)用到聲頻信號中而不產(chǎn)生聲頻信號的高通濾波模型。
11.如權(quán)利要求9所述的方法，其中所述探測步驟包括對聲頻信號進(jìn)行高通濾波，然后對高通濾波后的聲頻信號進(jìn)行相關(guān)性分析。
12.如權(quán)利要求9所述的方法，其中所述探測步驟包括對于每一幀探測最大幅度標(biāo)準(zhǔn)相關(guān)值。
13.一種用于在聲頻信號編碼器中將包含在聲頻信號內(nèi)的可感知相關(guān)非語音信息進(jìn)行保留的設(shè)備，包括一個分類器，該分類器用于接收聲頻信號，并作出要壓縮的聲頻信號是否包括語音或噪音信息的第一判斷；一個檢測器，該檢測器用于接收聲頻信號，并作出聲頻信號是否包括對收聽者可感知相關(guān)的非語音信息的第二判斷；與所述分類器和檢測器相耦合的邏輯塊，所述邏輯塊具有一個能指示聲頻信號是否包括可感知相關(guān)信息的輸出，所述邏輯塊可選擇地設(shè)置在所述第一判斷的輸出信息顯示處，并對所述第二判斷進(jìn)行響應(yīng)，從而在所述輸出處有選擇地進(jìn)行最優(yōu)先所述第一判斷的信息顯示。
14.如權(quán)利要求13所述的設(shè)備，其中所述檢測器可操作地用于將預(yù)定值與一個相關(guān)值進(jìn)行比較該相關(guān)值與聲頻信號被分割成的相應(yīng)幀相關(guān)。
15.如權(quán)利要求14所述的設(shè)備，其中所述邏輯塊可操作地用于根據(jù)相關(guān)值大于預(yù)定值最優(yōu)先所述第一判斷的信息顯示。
16.如權(quán)利要求14所述的設(shè)備，其中所述邏輯塊可操作地用于根據(jù)在給定的時間周期內(nèi)相關(guān)值的預(yù)定數(shù)大于預(yù)定值最優(yōu)先所述第一判斷的信息顯示。
17.如權(quán)利要求16所述的設(shè)備，其中所述邏輯塊可操作地用于根據(jù)連續(xù)相關(guān)值的預(yù)定數(shù)大于預(yù)定值最優(yōu)先所述第一判斷的信息顯示。該連續(xù)相關(guān)值與時間上連續(xù)幀相關(guān)。
18.如權(quán)利要求14所述的設(shè)備，其中所述檢測器可操作地用于在每一幀內(nèi)探測聲頻信號的高通濾波模型的最高標(biāo)準(zhǔn)相關(guān)值，上述最高標(biāo)準(zhǔn)相關(guān)值分別與第一次提到的相關(guān)值相對應(yīng)。
19.如權(quán)利要求18所述的設(shè)備，其中每一個所述最高標(biāo)準(zhǔn)相關(guān)值表示在有關(guān)的幀內(nèi)的最大幅度標(biāo)準(zhǔn)相關(guān)值。
20.如權(quán)利要求13所述的設(shè)備，其中所述邏輯塊可操作地用于根據(jù)顯示的可感知的相關(guān)非語音信息的所述第二判斷最優(yōu)先噪音判斷的信息顯示。
全文摘要
通過確認(rèn)聲頻信號是否包括非語音信息(122、124、125)可在對聲頻信號進(jìn)行編碼期間保留可感知相關(guān)非語音信息。如果這樣，對聲頻信號的語音/噪音分類進(jìn)行最優(yōu)先(43)，從而防止將聲頻信號誤分類為噪音。
文檔編號G10L11/00GK1419687SQ9981362
公開日2003年5月21日申請日期1999年11月12日優(yōu)先權(quán)日1998年11月23日
發(fā)明者J·斯維德伯格, E·伊庫登, A·烏利登, I·約翰森申請人:艾利森電話股份有限公司

完整全部詳細(xì)技術(shù)資料下載