專利名稱::強壯語音分類方法和裝置的制作方法強壯語音分類方法和裝置本申請是申請日為2001年12月4日申請?zhí)枮榈?1822493.8號發(fā)明名稱為"強壯語音分類方法和裝置"的中國專利申請的分案申請。背景I.領(lǐng)域所揭示的實施例涉及語音處理領(lǐng)域,特別是,揭示的實施例涉及用于強壯語音分類的新穎并改進了的方法和裝置。II.背景由數(shù)字技術(shù)傳輸語音已經(jīng)很普及了,特別在長距離和數(shù)字無線電話的應(yīng)用中。這又引起了要在維持所察覺的重建語音質(zhì)量的同時確定可以在信道上被發(fā)送的最少信息量。如果語音通過簡單地采樣和數(shù)字化而被發(fā)送,則需要65千比特每秒(kbps)數(shù)量級上的數(shù)據(jù)速率來達到常規(guī)模擬電話的語音質(zhì)量。然而,通過語音分析、隨后適當(dāng)編碼、以及接收機處再合成的使用,可以顯著減少數(shù)據(jù)速率。語音分析越精確地實現(xiàn),數(shù)據(jù)就越適當(dāng)?shù)乇痪幋a,從而減少數(shù)據(jù)速率。采用通過析取與人類語音產(chǎn)生模型相關(guān)的參數(shù)而壓縮語音的技術(shù)的設(shè)備被稱為語音編碼器。語音編碼器將進入語音信號分為時間塊或分析幀。語音編碼器一般包括編碼器和解碼器或編解碼器。編碼器分析進入語音幀以析取某些相關(guān)參數(shù),然后將參數(shù)量化為二進制表示,即,量化為一組比特或二進制數(shù)據(jù)包。數(shù)據(jù)包在通信信道上被發(fā)送到接收器和解碼器。解碼器處理數(shù)據(jù)包,將其反量化以產(chǎn)生參數(shù),然后再使用經(jīng)反量化的參數(shù)再合成語音幀。語音編碼器的作用是通過除去語音中固有的所有自然冗余而將經(jīng)數(shù)字化的語音信號壓縮為低比特率信號。數(shù)字壓縮通過用一組參數(shù)表示輸入語音幀并采用量化來用一組比特表示參數(shù)而實現(xiàn)。如果輸入語音幀有N,個比特,由語音編碼器產(chǎn)生的數(shù)據(jù)包有N。個比特,由語音編碼器得到的壓縮比C^N,/N。。問題是要保持已解碼語音聲音的高質(zhì)量同時實現(xiàn)目標(biāo)壓縮因子。語音解碼器的性能取決于(l)語音模式或上述的分析和合成過程的組合的工作情況,以及(2)參數(shù)量化過程在目標(biāo)比特率每幀N。比特時的工作情況。因此,語音模式的目標(biāo)是用每幀一小組參數(shù)獲得語音信號的本質(zhì)或目標(biāo)聲音質(zhì)量。語音編碼器可以用時域編碼器實現(xiàn),它試圖通過使用高時間分辨率的處理每次編碼小段語音幀(一般5毫秒(ms)子幀)而獲取時域語音波形。對每個子幀,通過本領(lǐng)域已知的各種語音算法而找到來自電碼本空間的高精度代表。或者,語音編碼器可以用頻域編碼器實現(xiàn),它試圖用一組參數(shù)(分析)獲取輸入語音幀的短時語音頻譜并且采用相應(yīng)的合成過程以從頻譜參數(shù)重建語音波形。參數(shù)量化器通過根據(jù)在A.Gersho&R.M.Gray所著的VectorQuantizationandSignalCompression(1992)中描述的已知量化技術(shù)中的存貯的碼向量表示來代表它們而保留參數(shù)。很有名的時域語音編碼器是在L.B.Rabiner&R.W.Schafter所著的DigitalProcessingofSpeechSignals396-453(1978)的代碼激勵的線性預(yù)測(CELP)編碼器,在此完全被引用并結(jié)合于此。在CELP編碼器內(nèi),語音信號內(nèi)的短時相關(guān)或冗余由線性預(yù)測(LP)分析除去,它發(fā)現(xiàn)短時共振峰濾波器的系數(shù)。對進入語音幀應(yīng)用短時預(yù)測濾波器會產(chǎn)生LP剩余信號,它進一步用長時預(yù)測濾波器參數(shù)和隨后隨機電碼本被模式化并被量化。因此,CELP編碼將對時域語音波形編碼的任務(wù)分成分開的對LP短時濾波器系數(shù)編碼的任務(wù)和對LP剩余編碼的任務(wù)。時域編碼可以以固定的速率(即,對每幀使用相同數(shù)目的比特N。)或以可變速率(其中不同比特率用于不同類型的幀內(nèi)容)進行??勺兯俾示幋a器試圖僅使用編碼編解參數(shù)所需的比特數(shù)量以達到目標(biāo)質(zhì)量。可變速率CELP編碼器的范例在美國專利號5414796中描述,該專利被轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用被結(jié)合于此。時域編碼器、如CELP編碼器一般依賴每幀高比特數(shù)N。以保留時域語音波形的精確性。只要每幀特數(shù)N。相對很大(如8Kbps或以上),這種編碼器一般給出極好的聲音質(zhì)量。然而,在低比特率時(4Kbps及更低),時域編碼器由于有限的可用比特數(shù)而不能保持高質(zhì)量和強壯性能。在低比特率時,有限的電碼本空間限制了常規(guī)時域編碼器的波形匹配性能,它成功地用于較高速率的商業(yè)應(yīng)用中。一般而言,CELP方案使用短時預(yù)測(STP)濾波器和長時預(yù)測(LTP)濾波器。編碼器處采用由合成(AbS)方法進行的分析以發(fā)現(xiàn)LTP延時和增益,以及最佳隨機電碼本增益和索引。目前工藝水平的CELP編碼器,如增強型可變速率編碼器(EVRC)能以將近8千比特每秒的數(shù)據(jù)速率達到高質(zhì)量合成的語音??梢灾?,無聲語音不呈現(xiàn)周期性。常規(guī)CELP方案中對LTP濾波器的帶寬消耗的編碼對于無聲語音并不像對有聲語音那樣有效地被使用,其中語音的周期性很強且LTP濾波也是有意義的。因此,對于無聲語音需要更有效的(g卩,較低比特率)編碼方案。精確語音分類對于選擇最有效的編碼方案并達到最低數(shù)據(jù)速率是必要的。對于較低比特率時的編碼,已經(jīng)研發(fā)了各種頻譜方法、或語音的頻域編碼,其中語音信號作為頻譜的時變演變而被分析,參見如R.J.McAulay&T.F.Quatieri,SinusoidalCoding,inSpeechCodingandSynthesis第四章(W.B.Kleijn&K。K。Paliwaleds,1995)。在頻譜編碼器中,目標(biāo)是用一組頻譜參數(shù)模擬或預(yù)測語音每個輸入幀的短時語音頻譜,而不是精確地模擬時變語音波形。頻譜參數(shù)然后被編碼且用已解碼參數(shù)創(chuàng)建輸出語音幀。所產(chǎn)生的經(jīng)合成的語音并不與原始輸入語音波形匹配,但提供了相似的可察覺的質(zhì)量。本領(lǐng)域中熟知的頻域編碼器的例子包括多頻帶激勵編碼器(MBE)、正弦變換編碼器(STC)以及諧波編碼器(HC)。這種頻域編碼器提供高質(zhì)量的參數(shù)模型,該模型具有一小組可以用低比特率時可用的少量比特精確量化的參數(shù)。然而,低比特率編碼強加有限編碼解決方案或有限電碼本空間的關(guān)鍵限制,后者限制了單編碼機制的有效性,值編碼器不能在不同背景條件下以相同的精確性表現(xiàn)出各種類型的語音段。例如,常規(guī)的低比特率頻域編碼器不發(fā)送語音幀的相位信息。相反,相位信息是通過使用隨機、人為產(chǎn)生的初始相位值和線性內(nèi)插技術(shù)重建的。參見如H.Yang等人所著的QuadraticPhaseInterpolationforVoicedSpeechSynthesisintheMBEModel,in29ElectronicLetters856-57(1993年5月)。由于相位信息是人為產(chǎn)生的,因此即使正弦波的幅度由量化一反量化過程完好地保留,然而由頻域編碼器產(chǎn)生的輸出語音不會與原始輸入語音對齊(S卩,主脈沖不會同步)。因此證實很難采用任何閉環(huán)性能測量,譬如頻域編碼器中的信噪比(SNR)或感知SNR。一種以低比特率有效編碼語音的有效技術(shù)是多模式編碼。多模式編碼技術(shù)已用于連同開環(huán)模式判決過程一起進行低速率語音編碼。一種這樣的多模式編碼技術(shù)在AmitavaDas等人所著的Multi-modeandVariable-RateCodingofSpeech,inSpeechCodingandSynthesis第七章(W.B.Kleijn&K.K.Paliwaleds.1995)中己作描述。常規(guī)多模式編碼器對不同類型的輸入語音幀應(yīng)用不同的模式或編碼一解碼算法。每個模式或編碼一解碼過程都被用戶化,從而以更有效的方式表示出某類型的語音段,譬如有聲語音、無聲語音或背景噪聲(非語音)。這種多模式編碼技術(shù)的成功高度取決于正確的模式判決,即語音分類。外部開環(huán)模式判決機制檢查輸入語音幀并作出關(guān)于對幀應(yīng)用哪個模式的判決。開環(huán)模式判決的進行一般通過從輸入幀析取許多參數(shù)、估計關(guān)于某些時域和頻域特性的參數(shù)、以及根據(jù)估計作出模式判決。因此,模式判決在預(yù)先不知道輸入語音的確切條件下進行的,即,輸出語音與輸入語音在聲音質(zhì)量或其他性能度量方面如何相近。語音編解碼開環(huán)模式判決的范例在美國專利號5414796中己作描述,該專利被轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用被完全結(jié)合于此。多模式編碼可以是固定速率的,對每幀使用同樣數(shù)目的比特N。,或可變速率的,其中不同比特率用于不同模式。可變速率編碼的目的是僅使用為足以獲得目標(biāo)質(zhì)量而對編解碼器參數(shù)編碼所需的比特數(shù)。結(jié)果,同樣的目標(biāo)聲音質(zhì)量,如固定速率的高速率編碼器的聲音質(zhì)量可以用可變比特率(VBR)技術(shù)以顯著較低的平均速率而得到??勺儽忍芈收Z音編碼器的一個范例在美國專利號5414796已作描述。目前有一種研究熱潮和強烈的商業(yè)需要,以研發(fā)一種工作在中到低比特率的高質(zhì)量語音編碼器(即,在2.4到4Kbps之間和以下)。應(yīng)用范圍包括無線電話、衛(wèi)星通信、因特網(wǎng)電話、各種多媒體和聲音流應(yīng)用、聲音郵件和其他聲音存貯系統(tǒng)。驅(qū)動力是對高容量的需要和在包丟失情況下對強壯性能的要求。各種最近的語音編碼標(biāo)準(zhǔn)研究是另一直接驅(qū)動力推進低速率語音編碼算法的研究和發(fā)展。低速率語音編碼器在每個所允許的應(yīng)用帶寬建立更多的信道或用戶。與適當(dāng)信道編碼的附加層耦合的低速率語音編碼器能適合編碼器規(guī)范的總比特預(yù)算,并且在信道錯誤條件下有強壯性能。多模式VBR語音編碼因此是以低比特率編碼語音的有效機制。常規(guī)多模式方案要求為各語音段(如,無聲的、有聲的、轉(zhuǎn)變)設(shè)計有效的編碼方案或模式,以及背景噪聲或寂靜的模式。語音編碼器的整體性能取決于模式分類的強壯性以及每個模式的表現(xiàn)。編碼器的平均率取決于無聲、有聲和其他語音段的不同模式的比特率。為了以低平均速率達到目標(biāo)質(zhì)量,必須正確地確定不同條件下的語音模式。一般而言,有聲和無聲語音段以高比特率被捕捉,背景噪聲和寂靜段用工作在顯著較低的速率下的模式表示。多模式可比特率編碼器要求正確語音分類以精確地捕捉并使用每幀最少比特數(shù)對大部分語音段實行編碼。較精確的語音分類產(chǎn)生較低的平均已編碼比特率以及較高質(zhì)量的已解碼語音。以前,語音分類技術(shù)僅考慮到分離的語音幀的最少參數(shù)數(shù),產(chǎn)生很少且不精確的語音分類。因此,為了允許多模式可變比特率編碼技術(shù)的最佳性能,需要一種高性能的語音分類器以在不同環(huán)境條件下正確地分類許多語音模式。摘要所揭示的實施例針對強壯語音分類技術(shù),估計語音的許多特征參數(shù)在不同條件下以高度精確性分類語音的各種模式。從而,在一方面,語音分類方法得以揭示。該方法包括將分類參數(shù)從外部組件輸入語音分類器、在語音分類器內(nèi)從至少一個輸入?yún)?shù)中產(chǎn)生內(nèi)部分類參數(shù)、設(shè)定標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值并根據(jù)信號環(huán)境選擇參數(shù)分析器、以及分析輸入?yún)?shù)和內(nèi)部參數(shù)以產(chǎn)生語音模式分類。另一方面,語音分類器得以揭示。語音分類器包括發(fā)生器,用以從至少一個外部輸入?yún)?shù)產(chǎn)生內(nèi)部分類參數(shù),標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值發(fā)生器,用以設(shè)定標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值并根據(jù)信號環(huán)境選擇參數(shù)分析器,以及參數(shù)分析器,用以分析至少一個外部輸入?yún)?shù)和內(nèi)部參數(shù)以產(chǎn)生語音模式分類的參數(shù)分析器。附圖簡述通過下面提出的結(jié)合附圖的詳細描述,本發(fā)明的特征、性質(zhì)和優(yōu)點將變得更加明顯,附圖中相同的符號具有相同的標(biāo)識,其中圖1是由語音編碼器在各端點終止的通信信道框圖;圖2是可由圖1所述編碼器使用的強壯語音分類器的框圖;圖3是說明強壯語音分類器的語音分類步驟的流程圖;圖4A、4B和4C是由語音分類器所揭示的實施例使用的狀態(tài)圖;圖5A、5B和5C是由語音分類器所揭示的實施例使用的判決表;以及圖6是帶有分類參數(shù)和語音模式值的語音信號的一個實施例的示例圖。優(yōu)選實施例的詳細描述所揭示的實施例為聲碼器內(nèi)改進了的語音分類提供了一種方法和裝置。新分類參數(shù)被分析以產(chǎn)生比先前有更高精確性的更多語音分類。新判決過程用于在幀基礎(chǔ)上在幀上分類語音。從原始輸入語音、SNR信息、噪聲抑制的輸出語音、聲音活動信息、線性預(yù)測系數(shù)(LPC)分析和開環(huán)音調(diào)估計導(dǎo)出的參數(shù),以及開環(huán)音調(diào)估計由基于新狀態(tài)的判決者使用,以精確地分類各種語音模式。每語音幀通過分析過去和將來幀以及當(dāng)前幀而被分類??捎伤沂緦嵤├诸惖恼Z音模式包括在話語結(jié)束時向活動語音的瞬時轉(zhuǎn)變,有聲、無聲和寂靜。所揭示的實施例示出一種語音分類技術(shù)在不同環(huán)境噪聲下不同語音模式的語音分類技術(shù)。語音模式可以可靠地且精確地經(jīng)識別以最有效的方法編碼。在圖1中,第一編碼器10接收經(jīng)數(shù)字化語音采樣s(n)以及對采樣s(n)實現(xiàn)編碼用于在傳輸介質(zhì)12中或通信信道12中傳輸?shù)降谝唤獯a器14。第一解碼器對經(jīng)編碼的語音采樣解碼并合成輸出語音信號S,TH(n)。對反向的傳輸,第二編碼器16對數(shù)字化采樣s(n)編碼,然后在通信信道18上傳送。第二解碼器20接收并對經(jīng)編碼的語音采樣解碼,產(chǎn)生經(jīng)合成的輸出語音信號Sw(n)。語音采樣s(n)代表已數(shù)字化的語音信號且根據(jù)任何已知的方法如脈沖編碼調(diào)制(PCM)、壓縮擴展y定律或A定律量化。如在領(lǐng)域所知,語音采樣s(n)被組織成輸入幀其中每個幀包括預(yù)定數(shù)量的經(jīng)數(shù)字化語音采樣s(n)。在范例實施例中,使用8kHz的采樣率,以及每20ms幀包括160采樣。在以下描述的實施例中,數(shù)據(jù)傳輸率可能在幀到幀的基礎(chǔ)上變化從8kbps(全速率)到4kbps(半速率)到2kbps(四分之一速率)到1kbps(八分之一速率)。另外,可能使用其他數(shù)據(jù)速率。在這里用的,"全速率"或"高速率"一般指比8kbps或等于8kbps的數(shù)據(jù)速率,"半速率"或"低速率"一般指比4kbps或等于4kbps的數(shù)據(jù)速率。改變數(shù)據(jù)傳輸率是有好處的因為低比特率可能經(jīng)選擇使用于包括相對較少語音信息的幀。如本領(lǐng)域的專業(yè)人員所能理解的,可能使用其他采樣率、幀大小和數(shù)據(jù)傳輸率。第一編碼器10和第二解碼器20—起包括第一語音編碼器或語音編解碼。類似的,第二編碼器16和第一解碼器14一起包括第二語音編碼器。本領(lǐng)域的專業(yè)人員理解語音編碼器可能用數(shù)字信號處理器(DSP)、特殊應(yīng)用集成電路(ASIC)、離散門邏輯、固件或任何常規(guī)可編程軟件模塊以及微處理器實現(xiàn)。軟件模塊可能留在RAM內(nèi)存、閃存、寄存器或任何其他可寫本領(lǐng)域的已知存儲介質(zhì)內(nèi)。另外,任何常規(guī)的處理器、控制器或狀態(tài)機可以代替微處理器。為語音編碼特別設(shè)計的ASIC示范在美國專利號5727123和5784532,被轉(zhuǎn)讓給本發(fā)明的受讓人,并通過引用被結(jié)合于此。圖2說明強壯語音分類器的示范實施例。在一實施例中,圖2的語音分類器裝置可能留在圖1的編碼器(IO,16)中。在另一實施例中,強壯的語音分類器可以獨自存在,如果提供語音分類模式輸出給如圖1的編碼器(IO,16)的設(shè)備。在圖2中,輸入語音被提供給噪聲抑制器(202)。輸入語音一般由聲音信號的模擬到數(shù)字轉(zhuǎn)換產(chǎn)生。噪聲抑制器(202)從輸入語音信號過濾噪聲組件產(chǎn)生經(jīng)噪聲抑制輸出語音信號,以及當(dāng)前輸出語音的S服信息。SNR信息和輸出語音信號輸入到語音分類器(210)。噪聲抑制器(202)的輸出語音信號也輸入聲音活動檢測器(204),LPC分析器(206)以及開環(huán)音調(diào)估計器(208)。SNR信息由語音分類器(210)使用以設(shè)定周期性閾值并在歸零和噪聲語音間實現(xiàn)區(qū)分。SNR參數(shù)因此稱作curr—ns—snr。輸出語音信號在以下稱為t—in。如果,在一實施例中,噪聲抑制器(202)并不存在,或被關(guān)閉,SNR參數(shù)curr—ns—snr應(yīng)被預(yù)設(shè)為一缺省值。聲音活動檢測器(204)輸出當(dāng)前幀的聲音活動信息到語音分類器(210)。聲音活動信息輸出指明如果當(dāng)前語音為活動或非活動的。在一示范實施例中,聲音活動信息輸出可能是二進制的,即活動或非活動。在另一實施例中,聲音活動信息輸出可以是多值的。聲音活動信息參數(shù)在以下稱作vad。LPC分析器(206)輸出當(dāng)前輸出語音LPC反射系數(shù)到語音分類器(210)。LPC分析器(206)可能還輸出其他參數(shù)如LPC系數(shù)。LPC反射系數(shù)參數(shù)在以下被稱作ref1。開環(huán)音調(diào)估計器(208)將標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)NACF值、以及音調(diào)值附近的NACF輸出至語音分類器(210)。NACF參數(shù)在以下被稱作nacf,且音調(diào)參數(shù)左右的NACF在以下被稱作nacf—at—pitch。更周期性的語音信號產(chǎn)生較高的nacf_at—pitch值。較高的nacf—at—pitch值更可能與靜止的聲音輸出語音類型相關(guān)聯(lián)。語音分類器(210)維持一數(shù)組的nacf—at—pitch值。nacf_at—pitch在子幀基礎(chǔ)上被計算。在示范實施例中,通過測量每幀兩個子幀而對輸出語音的每個幀測量兩個開環(huán)音調(diào)估計。每個子幀的nacf—at—pitch從開環(huán)音調(diào)估計中被計算。在本示范實施例中,五維nacf—at—pitch值數(shù)組(即nacf—at—pitch[5])包括兩個半輸出語音幀的值。為輸出語音的每個幀更新nacf—at—pitch數(shù)組。nacf—at—pitch參數(shù)數(shù)組的新穎使用為語音分類器(210)提供了使用當(dāng)前、過去和先行(將來)信號信息的能量,以作出更精確且強壯的語音模式判決。除了從外部組件來的信息輸入到語音分類器(210),語音分類器(210)內(nèi)部從輸出語音產(chǎn)生附加新參數(shù)用于語音模式判決過程。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生零交叉率參數(shù),在以下稱為zcr。當(dāng)前輸出語音的zcr參數(shù)定義維每語音幀的語音信號的符號變化次數(shù)。在聲音語音內(nèi),zcr值低,而由于信號是非常隨機的,無聲語音(或噪音)有高zcr值。zcr參數(shù)經(jīng)語音分類器(210)使用于分類聲音和無聲語音。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生當(dāng)前幀能量參數(shù),在以下稱為E。E可以為語音分類器(210)使用通過將當(dāng)前幀的能量與過去和將來的幀比較以識別瞬變語音。參數(shù)vEprev為從E導(dǎo)出的先前幀的能量。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生先行幀能量參數(shù),在以下稱為Enext。Enext可能包含當(dāng)前幀一部分和輸出語音的下一幀一部分的能量值。在一實施例中,Enext代表當(dāng)前幀的第二部分的能量和輸出語音下一幀的第一部分的能量。Enext為語音分類器(210)使用以識別瞬變語音。在語音最后,下一幀的能量與當(dāng)前幀相比突然下降。語音分類器(210)可以將當(dāng)前幀能量和下一幀能量相比以識別語音結(jié)尾和語音條件開始或上瞬變和下瞬變語音模式。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生帶能量比參數(shù),定義為1og2(EL/EH),其中EL為低帶當(dāng)前幀能量從0到2kHz,且EH為高帶當(dāng)前幀能量從2kHz到4kHz。帶能量比參數(shù)在以下稱為bER。bER參數(shù)允許語音分類器(210)識別有聲語音和無聲語音模式,如一般情況,有聲語音集中能量在低帶,而噪聲無聲語音集中能量在高帶。在一實施例中,語音分類器(210)內(nèi)部從輸出語音產(chǎn)生三幀平均有聲能量參數(shù),在以下稱為vEav。在其他實施例中,vEav可能在多幀而不是三幀上取平均。如果當(dāng)前語音模式為活動的和聲音的,vEav計算輸出語音最后三幀的能量的運行平均。最后三幀的能量平均提供語音分類器(210)更多穩(wěn)定的統(tǒng)計,在此之上判決語音模式而不是僅僅單幀能量計算。vEav為語音分類器(210)使用以分類聲音語音的結(jié)尾或下瞬變模式,如當(dāng)前幀能量E與平均有聲能量vEav在語音停止時將會陡降。vEav只在當(dāng)前幀是聲音時才更新,或重設(shè)為無聲或非活動語音的一固定值。在一實施例中,固定重設(shè)值為o.oi。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生前三幀平均有聲能量參數(shù),在以下稱為vEprev。在其他實施例中,vEprev可能在多個而不是三個幀上取平均。vEprev為語音分類器(210)使用以識別瞬變語音。語音開始時,當(dāng)前幀能量E與先前三聲音幀比陡升。語音分類器(210)能比較當(dāng)前幀能量和先前三幀能量以識別語音條件的開始,或上瞬變和語音模式。類似的有聲語音結(jié)尾,當(dāng)前幀能量陡降,因此,vEprev能用于分類語音結(jié)尾的轉(zhuǎn)變。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生當(dāng)前幀能量與先前三幀平均有聲能量比參數(shù),定義為10*logl0(E/vEpreV)。在其他實施例中,vEprev可能在多個而不是三個幀上取平均。當(dāng)前能量與先前vEprev為語音分類器(210)使用以識別瞬變語音。語音開始時,當(dāng)前幀能量E與先前三幀平均有聲能量比參數(shù)在以下稱為vER。vER為語音分類器(210)用于以分類聲音語音開始和聲音語音結(jié)束或上瞬變模式和下瞬變模式,vER在語音再開始時大在聲音語音結(jié)束時小。vER參數(shù)可能連同vEprev參數(shù)一起用于分類瞬變語音。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生當(dāng)前幀能量比先前三幀平均有聲能量參數(shù),定義為MIN(20,10*logl0(E/vEav))。當(dāng)前幀能量比三幀平均有聲能量在以下稱為vER2。vER2為語音分類器(210)用于以分類聲音語音結(jié)束時分類瞬變聲音模式。在一實施例中,語音分類器(210)內(nèi)部產(chǎn)生最大子幀能量索引參數(shù)。語音分類器(210)將輸出語音當(dāng)前幀均分為子幀,且計算每個子幀的均方根(RMS)能量值。在一實施例中,當(dāng)前幀被分為十個子幀。最大子幀能量索引參數(shù)是當(dāng)前幀內(nèi)具有最大RMS能量值的子幀的索引。最大子幀能量索引參數(shù)在以下稱為maxsfe—idx。將當(dāng)前幀分為子幀提供了語音分類器(210)峰值能量位置信息,包括一幀內(nèi)最大峰值能量位置。更多的解決方案可以通過將幀分為更多的子幀達到。raaxsfe—idx是與其他參數(shù)一起為語音分類器(210)使用于分類瞬變語音模式,如無聲或無聲語音模式能量一般穩(wěn)定,而能量在瞬變語音模式時逐漸增加或逐漸停止。語音分類器(210)直接從編碼組件使用新參數(shù)輸入,以及新內(nèi)部產(chǎn)生的參數(shù),得到比以前更精確且更強壯的語音分類模式。語音分類器(210)應(yīng)用新判決過程到直接的輸入和內(nèi)部產(chǎn)生參數(shù)以產(chǎn)生經(jīng)改經(jīng)語音分類結(jié)果。判決過程參考圖4A-4C和5A-5C詳細描述如下。在一實施例中,語音分類器(210)的語音模式輸出包括瞬變、上瞬變、下瞬變、有聲、無聲以及無聲模式。瞬變模式是聲音但更少周期性語音,最佳用全速率CELP編碼。上瞬變模式是活動語音的第一聲音幀,最佳用全速率CELP編碼。下瞬變模式是低能量有聲語音一般在字結(jié)尾,最佳用半速率CELP編碼。有聲模式是高度周期性聲音語音,主要包括元音。有聲模式語音可能以全速率、半速率、四分之一速率或八分之一速率編碼。對聲音模式語音的數(shù)據(jù)速率經(jīng)選擇以符合平均數(shù)據(jù)速率(ADR)要求。無聲模式,主要包括輔音,最佳以四分之一速率噪聲受激線性預(yù)測(NELP)編碼。無聲模式是非活動語音,最佳以八分之一速率CELP編碼。本領(lǐng)域的專業(yè)人員理解參數(shù)和語音模式不限于揭示實施例的參數(shù)和語音模式。可以使用附加參數(shù)和語音模式而不偏離揭示實施例的范圍。圖3是說明強壯語音分類技術(shù)的語音分類步驟一實施例的流程圖。在步驟200,從外部組件來的分類參數(shù)輸入包括從噪聲抑制組件來的curr—ns—sur和t—in輸入,從開環(huán)音調(diào)估計器組件來的nacf和nacf—at—pitch參數(shù)輸入,從聲音活動檢測器組件來的vad輸入,以及從LPC分析組件來的ref1輸入??刂屏鞒踢M行到步驟302。在步驟302,附加內(nèi)部產(chǎn)生的參數(shù)從外部組件來的分類參數(shù)輸入經(jīng)計算。在一示范實施例中,zcr、E、Enext、bER、vEav、vEprev、vER、vER2以及maxsfe—idx從t—in經(jīng)計算。當(dāng)內(nèi)部產(chǎn)生參數(shù)對每個輸出語音幀都已計算,控制流程進行到步驟304。在步驟304,NACF閾值被確定,而且參數(shù)分析器根據(jù)語音信號環(huán)境經(jīng)選擇。在一示范實施例中,NACF閾值通過將步驟300處的currns—snr參數(shù)輸入與SNR閾值比較。curr—nS_snr信息,從噪聲抑制器導(dǎo)出,提供新的周期性判決閾值的適應(yīng)性控制。這樣,不同周期性閾值與不同噪聲組件電平應(yīng)用于語音信號的分類過程。更精確語音分類判決在最合適的nacf或周期,語音信號噪音電平的閾值為輸出語音的每個幀選擇時產(chǎn)生。確定語音信號的最合適周期閾值允許為語音信號選擇最佳參數(shù)分析器。歸零和噪聲語音信號原本周期不同。當(dāng)有噪聲時,存在語音惡化。當(dāng)語音惡化存在時,周期測量,或nacf,比歸零語音的要低。因此,nacf閾值在噪聲信號環(huán)境內(nèi)降低以補償或在歸零信號環(huán)境內(nèi)升高。揭示實施例的新語音分類技術(shù)不對所有環(huán)境固定周期閾值,不管噪聲電平產(chǎn)生更精確且強壯的模式判決。在示范實施例中,如果curr—ns—snr值比SNR閾值25db大或相等,歸零語音的nacf閾值得到應(yīng)用。歸零語音的示范nacf閾值由下表定義。<table>tableseeoriginaldocumentpage18</column></row><table>表l在示范實施例中,如果curr—ns—snr值比SNR閾值25db小,噪聲語音的nacf閾值得到應(yīng)用。噪聲語音的示范nacf閾值由下表定義。<table>tableseeoriginaldocumentpage19</column></row><table>表2噪聲語音等同與帶附加噪聲的歸零語音。和適應(yīng)性周期閾值控制一起,強壯的語音分類技術(shù)比以前對歸零語音和噪聲語音更可能產(chǎn)生相同的分類判決。當(dāng)nacf閾值為每個幀設(shè)定時,控制流程進行到步驟306。在步驟306,從外部組件的參數(shù)輸入和內(nèi)部產(chǎn)生參數(shù)經(jīng)分析以產(chǎn)生語音模式分類。狀態(tài)機或其他根據(jù)信號環(huán)境選擇的分析方法應(yīng)用到這些參數(shù)。在一示范實施例中,參數(shù)從外部組件輸入且內(nèi)部產(chǎn)生參數(shù)應(yīng)用到參考圖4A-4C和5A-5C詳細描寫的基于狀態(tài)模式判決過程。判決過程產(chǎn)生語音模式分類。在一示范實施例中,瞬變、上瞬變、下瞬變、有聲、無聲、無聲語音模式分類產(chǎn)生。當(dāng)語音模式判決產(chǎn)生時,控制流程進行到步驟308。在步驟308,狀態(tài)變量和不同參數(shù)經(jīng)更新以包括當(dāng)前幀。在示范實施例中,vEav、vEprev和當(dāng)前幀的有聲狀態(tài)經(jīng)更新。當(dāng)前幀能量E、nacf—at—pitch和當(dāng)前幀語音模式經(jīng)更新以分類下一幀。步驟300-308對每語音幀重復(fù)。圖4A-4C說明一強壯語音分類技術(shù)示范實施例的模式判決處理實施。判決過程基于語音幀的周期性為語音分類選擇狀態(tài)機。對語音的每幀,通過將語音幀周期測量即nacf—at—pitch值與圖3步驟304設(shè)定的NACF閾值比較后為判決過程選擇語音幀的與周期性最相符的狀態(tài)機或噪聲分量。語音幀周期電平限制并控制了模式判決過程的狀態(tài)轉(zhuǎn)換,產(chǎn)生更強壯的分類。圖4A說明示范實施例中選擇的狀態(tài)機的實施,當(dāng)vad為l(有活動語音)且nacf_at—pitch的第三值(即nacf—at—pitch[2],零索弓l)很高,或比VOICEDTH要大。VOICEDTH在圖3步驟304處被定義。圖5A說明每個狀態(tài)估計的參數(shù)。初始狀態(tài)為寂靜。如果vad^(即沒有聲音活動),當(dāng)前幀總被分類為無聲,不管先前一狀態(tài)如何。當(dāng)先前狀態(tài)為寂靜時,當(dāng)前幀可能被分類為或無聲或上瞬變。如果nacf—at—pitch[3]很低,zcr高,bER低vER很低或這些條件的組合滿足,當(dāng)前幀被分類為無聲。否則分類缺省為上瞬變。當(dāng)先前狀態(tài)為無聲,當(dāng)前幀可能被分類為或無聲或上瞬變。如果nacf_at—pitch[3]很低,nacf—at—pitch[3]很低,nacf—at—pitch[4]很低,zcr局jbER低vER很低且E比vEprev小,或這些條件的組合滿足,當(dāng)前幀被分類為無聲。否則分類缺省為上瞬變。當(dāng)先前狀態(tài)為有聲,當(dāng)前幀可能被分類為或無聲、瞬變、下瞬變或有聲。如果vER很低且E比vEprev小,當(dāng)前幀被分類為無聲。如果nacf—at—pitch[1]和nacf—at—pitch[3]低,E比vEprev—半大或這些條件的組合滿足,當(dāng)前幀被分類為瞬變。如果vER低,且nacf—at—pitch[3]為適中值,當(dāng)前幀被分類為下瞬變。否則分類缺省為有聲。當(dāng)先前狀態(tài)為瞬變或上瞬變,當(dāng)前幀可能被分類為或無聲、瞬變、下瞬變或有聲。如果vER很低且E比vEprev小,當(dāng)前幀被分類為無聲。如果nacLaLpitch[1]低nacf—at—pitch[3]值適中,nacf—at—pitch[4]低且狀態(tài)不為瞬變,或如果滿足這些條件的組合,當(dāng)前幀被分類為瞬變。如果nacf一at一pitch[3]為適中值,且E比vEav的0.05倍小,當(dāng)前幀被分類為下瞬變。否則分類缺省為有聲。當(dāng)先前狀態(tài)為下瞬變,當(dāng)前幀可能被分類為或無聲、瞬變或下瞬變。如果vER很低,當(dāng)前幀被分類為無聲。如果E比vEprev大,當(dāng)前幀被分類為瞬變。否則分類缺省為下瞬變。圖4B說明示范實施例中選擇的狀態(tài)機的實施,當(dāng)vad為l(有活動語音)且nacf—at—pitch的第三值很低,或比麗OICEDTH要小。U訓(xùn)ICEDTH在圖3步驟304處被定義。圖5B說明每個狀態(tài)估計的參數(shù)。初始狀為寂靜。如果vad二O(即沒有聲音活動),當(dāng)前幀總被分類為寂靜,不管先前一狀態(tài)如何。當(dāng)先前狀態(tài)為寂靜,當(dāng)前幀可能被分類為或無聲或上瞬變。如果nacf—at—pitch[2-4]表現(xiàn)出增長趨勢,nacf—at—pitch[3-4]有適中值,zcr為很低到適中,bER高,vER有適中值,或如果滿足這些條件的組合,則當(dāng)前幀被分類為上瞬變。否則分類缺省為無聲。當(dāng)先前狀態(tài)為無聲,當(dāng)前幀可能被分類為或無聲或上瞬變。如果nacf—at—pitch[2-4]表現(xiàn)出增長趨勢,nacf—at_pitch[3-4]有適中到很高值,zcr很低或適中,vER不低,bER高,refl低,nacf有適中值且E比vEprev大,或如果滿足這些條件的組合,則當(dāng)前幀被分類為上瞬變。這些條件的組合和閾值可能取決于語音幀的噪聲電平中在curr—ns—snr參數(shù)反射的。否則分類缺省為無聲。當(dāng)先前狀態(tài)為有聲、上瞬變或瞬變時,當(dāng)前幀可能被分類為或無聲、瞬變或下瞬變。如果bER小于或等于零,vER很低,bER比零大,且E小于vEprev或這些條件的組合滿足,當(dāng)前幀被分類為無聲。如果bER大于零,nacf—at—pitch[2-4]顯示出增長趨勢,zcr不高,vER不低,refl低,nacf—at—pitch[3]和nacf適中且bER小于零或等于零,或如果滿足這些條件的組合,當(dāng)前幀被分類為瞬變。這些條件的組合和閾值可能取決于語音幀的噪聲電平中在curr—ns—snr參數(shù)反射的。如果bER比零大,nacf—at—pitch[3]適中,E比Eprev小,zcr不高且vER2小于負十五,當(dāng)前幀被分類為下瞬變。當(dāng)先前狀態(tài)為下瞬變,當(dāng)前幀可能被分類為或無聲、瞬變或下瞬變。如果nacf—at—pitch[2-4]顯示出增長趨勢,nacf_at—pitch[3-4]適中高,vER不低,E比Eprev兩倍大,或如果滿足這些條件的組合,當(dāng)前幀被分類為瞬變。如果vER不低且zcr低,當(dāng)前幀被分類為下瞬變。否則分類缺省為無聲。圖4C說明示范實施例中選擇的狀態(tài)機的實施,當(dāng)vad為l(有活動語音)且nacf—at—pitch的第三值(即nacf—at—pitch[3])適中,即比UNVOICEDTH大比VOICEDTH小。UNVOICEDTH和VOICEDTH在圖3步驟304處被定義。圖5C說明每個狀態(tài)估計的參數(shù)。初始狀態(tài)為寂靜。如果vadi(即沒有聲音活動),當(dāng)前幀總被分類為無聲,不管先前一狀態(tài)如何。當(dāng)先前狀態(tài)為寂靜,當(dāng)前幀可能被分類為或無聲或上瞬變。如果nacfat—pitch[2-4]表現(xiàn)出增長趨勢,nacf—at—pitch[3-4]有適中到很高值,zcr不高,bER高,vER值適中,zcr很低且E比vEprev兩倍大,或如果滿足這些條件的組合,當(dāng)前幀被分類為上瞬變。否則分類缺省為無聲。當(dāng)先前狀態(tài)為無聲時,當(dāng)前幀可能被分類為無聲或上瞬變。如果nacf—at—pitch[2-4]顯示出增長趨勢,nacf—at—pitch[3-4]值適中到很高值,zcr不高,vER不低,bER高,refl低,E比vEprev大,zcr很低,nacf不低,maxsfe一idx指向最后子幀且E大于兩倍的vEprev,或如果滿足這些條件的組合,當(dāng)前幀被分類為上瞬變。這些條件的組合和閾值可能根據(jù)語音幀的噪聲電平中在curr一ns—snr參數(shù)反射的。否則分類缺省為無聲。當(dāng)先前狀態(tài)為有聲、上瞬變或瞬變,當(dāng)前幀可能被分類為無聲、有聲、瞬變、下瞬變。如果bER小于或等于零,vER很低,Enext比E小,nacf—at—pitch[3-4]很低,bER比零大且E小于vEprev或如果滿足這些條件的組合,當(dāng)前幀被分類為無聲。如果bER比零大,nacf—at—pitch[2-4]顯示增長趨勢,zcr不高,vER不低,refl低,nacf—at—pitch[3]和nacf不低,或滿足這些條件的組合,當(dāng)前幀被分類為瞬變。這些條件的組合和閾值可能取決于語音幀的噪聲電平中在curr—ns—snr參數(shù)反射的。如果bER大于零,nacf—at—pitch[3]不高,E比vEprev小,zcr不高,vER比負十五小且vER2小于負十五,或滿足這些條件的組合,當(dāng)前幀被分類為下瞬變。如果nacf_at—pitch[2]比L0WV0ICEDTH大,bER大于或等于零,且vER不低,或滿足這些條件的組合,則當(dāng)前幀被分類為有聲。當(dāng)先前狀態(tài)為下瞬變,當(dāng)前幀可能被分類為或無聲、瞬變或下瞬變。如果bER比零大,nacf—at—pitch[2-4]顯示增長趨勢,nacf—at—pitch[3-4]適中高,vER不高,E比Eprev兩倍大,或這些條件的組合滿足,當(dāng)前幀被分類為瞬變。如果vER不低且zcr低,當(dāng)前幀被分類為下瞬變。否則分類缺省為無聲。圖5A-5C為語音分類器的揭示實施例使用的判決表實施例。圖5A,根據(jù)一實施例,說明每個狀態(tài)估計的參數(shù),以及當(dāng)nacf—at—pitch第三值(即nacf—at—pitch[2])很高,或大于V0ICEDTH時的狀態(tài)轉(zhuǎn)換。圖5A說明的判決表由圖4A描述的狀態(tài)機使用。語音先前幀的語音模式分類在最左面列內(nèi)示出。當(dāng)參數(shù)值為于每個先前模式相連的行內(nèi)所示,語音模式分類轉(zhuǎn)換到相關(guān)列頂部行識別的當(dāng)前模式。圖5B,根據(jù)一實施例,說明每個狀態(tài)估計的參數(shù),以及當(dāng)nacf—at—pitch第三值(即nacf_at—pitch[2])很低,或低于U訓(xùn)ICEDTH時的狀態(tài)轉(zhuǎn)換。圖5B說明的判決表由圖4B描述的狀態(tài)機使用。語音先前幀的語音模式分類在最左面列內(nèi)示出。當(dāng)參數(shù)值為于每個先前模式相連的行內(nèi)所示,語音模式分類轉(zhuǎn)換到相關(guān)列頂部行識別的當(dāng)前模式。圖5C,根據(jù)一實施例,說明每個狀態(tài)估計的參數(shù),以及當(dāng)nacf—at—pitch第三值(即nacf—at—pitch[3])適中,即大于UNVOICEDTH但小于V0ICEDTH時的狀態(tài)轉(zhuǎn)換。圖5C說明的判決表由圖4C描述的狀態(tài)機使用。語音先前幀的語音模式分類在最左面列內(nèi)示出。當(dāng)參數(shù)值為于每個先前模式相連的行內(nèi)所示,語音模式分類轉(zhuǎn)換到相關(guān)列頂部行識別的當(dāng)前模式。圖6是帶相關(guān)參數(shù)值和語音分類的語音信號示范實施例的時間線圖。本領(lǐng)域的技術(shù)人員可以理解語音分類可能由DSP、ASIC、離散門邏輯、固件或任何常規(guī)可編程軟件模塊以及微處理器實現(xiàn)。軟件模塊可能留在RAM內(nèi)存、閃存、寄存器或任何其他可寫本領(lǐng)域的已知存儲介質(zhì)內(nèi)。另外,任何常規(guī)的處理器、控制器或狀態(tài)機可以代替微處理器。上述優(yōu)選實施例的描述使本領(lǐng)域的技術(shù)人員能制造或使用本發(fā)明。這些實施例的各種修改對于本領(lǐng)域的技術(shù)人員來說是顯而易見的,這里定義的一般原理可以被應(yīng)用于其它實施例中而不使用創(chuàng)造能力。因此,本發(fā)明并不限于這里示出的實施例,而要符合與這里揭示的原理和新穎特征一致的最寬泛的范圍。權(quán)利要求1.一種語音分類方法,其特征在于包括從外部組件將分類參數(shù)輸入到語音分類器;在語音分類器內(nèi),從至少一個輸入?yún)?shù)產(chǎn)生內(nèi)部分類參數(shù);根據(jù)信號環(huán)境,設(shè)定標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值并選擇參數(shù)分析器;以及分析輸入?yún)?shù)和內(nèi)部參數(shù)以產(chǎn)生語音模式分類。2.如權(quán)利要求l所述的方法,其特征在于,所述輸入?yún)?shù)包括噪聲抑制的語音信號。3.如權(quán)利要求l所述的方法,其特征在于,所述輸入?yún)?shù)包括噪聲抑制的語音信號的信噪比信息。4.如權(quán)利要求l所述的方法,其特征在于,所述輸入?yún)?shù)包括聲音活動信息。5.如權(quán)利要求l所述的方法,其特征在于,所述輸入?yún)?shù)包括線性預(yù)測反射系數(shù)。6.如權(quán)利要求l所述的方法,其特征在于,所述輸入?yún)?shù)包括標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)信息。7.如權(quán)利要求l所述的方法,其特征在于,所述輸入?yún)?shù)包括音調(diào)信息處的標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)。8.如權(quán)利要求7所述的方法,其特征在于,所述音調(diào)信息處的標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)是一數(shù)值數(shù)組。9.如權(quán)利要求l所述的方法,其特征在于,所述內(nèi)部參數(shù)包括零交叉率參數(shù)。10.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括當(dāng)前幀能量參數(shù)。11.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括先行幀能量參數(shù)。12.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括帶寬能量比參數(shù)。13.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括三幀平均的有聲能量參數(shù)。14.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括前面三幀平均的有聲能量參數(shù)。15.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括當(dāng)前幀能量與前面三幀平均有聲能量之比的參數(shù)。16.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括當(dāng)前幀能量對三幀平均的有聲能量參數(shù)。17.如權(quán)利要求1所述的方法,其特征在于,所述內(nèi)部參數(shù)包括最大子幀能量索引參數(shù)。18.如權(quán)利要求1所述的方法,其特征在于,所述設(shè)定標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值包括將信噪比信息參數(shù)與預(yù)定的信噪比值相比較。19.如權(quán)利要求1所述的方法,其特征在于,所述分析包括將參數(shù)應(yīng)用于狀態(tài)機。20.如權(quán)利要求19所述的方法,其特征在于,所述狀態(tài)機包括每個語音分類模式的狀態(tài)。21.如權(quán)利要求1所述的方法,其特征在于,所述語音模式分類包括瞬變模式。22.如權(quán)利要求1所述的方法,其特征在于,所述語音模式分類包括上瞬變模式。23.如權(quán)利要求1所述的方法,其特征在于,所述語音模式分類包括下瞬變模式。24.如權(quán)利要求1所述的方法,其特征在于,所述語音模式分類包括有聲模式。25.如權(quán)利要求1所述的方法,其特征在于,所述語音模式分類包括無聲模式。26.如權(quán)利要求1所述的方法,其特征在于,所述語音模式分類包括寂靜模式。27.如權(quán)利要求l所述的方法,其特征在于還包括更新至少一個參數(shù)。28.如權(quán)利要求27所述的方法,其特征在于,所述經(jīng)更新的參數(shù)包括音調(diào)參數(shù)處的標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)。29.如權(quán)利要求27所述的方法,其特征在于,所述經(jīng)更新的參數(shù)包括三幀平均的有聲能量參數(shù)。30.如權(quán)利要求27所述的方法,其特征在于,所述經(jīng)更新的參數(shù)包括先行幀能量參數(shù)。31.如權(quán)利要求27所述的方法,其特征在于,所述經(jīng)更新的參數(shù)包括前三幀平均有聲能量參數(shù)。32.如權(quán)利要求27所述的方法,其特征在于,所述經(jīng)更新的參數(shù)包括聲音活動檢測參數(shù)。33.—種語音分類器,其特征在于包括用于產(chǎn)生分類參數(shù)的發(fā)生器;標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值發(fā)生器,用于根據(jù)信號環(huán)境,設(shè)定標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值并選擇參數(shù)分析器;以及參數(shù)分析器,用于分析至少一個外部輸入?yún)?shù)和內(nèi)部參數(shù)以產(chǎn)生語音模式分類。34.如權(quán)利要求33所述的語音分類器,其特征在于,所述用于產(chǎn)生分類參數(shù)的發(fā)生器從噪聲抑制的語音信號中產(chǎn)生參數(shù)。35.如權(quán)利要求33所述的語音分類器,的發(fā)生器從信噪比信息中產(chǎn)生參數(shù)。36.如權(quán)利要求33所述的語音分類器,的發(fā)生器從聲音活動信息中產(chǎn)生參數(shù)。37.如權(quán)利要求33所述的語音分類器,的發(fā)生器從線性預(yù)測反射系數(shù)中產(chǎn)生參數(shù)。其特征在于,所述用于產(chǎn)生分類參數(shù)其特征在于,所述用于產(chǎn)生分類參數(shù)其特征在于,所述用于產(chǎn)生分類參數(shù)38.如權(quán)利要求33所述的語音分類器,其特征在于,所述用于產(chǎn)生分類參數(shù)的發(fā)生器從標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)信息中產(chǎn)生參數(shù)。39.如權(quán)利要求33所述的語音分類器,其特征在于,所述用于產(chǎn)生分類參數(shù)的發(fā)生器從音調(diào)信息處的標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)中產(chǎn)生參數(shù)。40.如權(quán)利要求39所述的語音分類器,其特征在于,所述音調(diào)信息處的標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)是一數(shù)值數(shù)組。41.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括零交叉率參數(shù)。42.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括當(dāng)前幀能量參數(shù)。43.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括先行幀能量參數(shù)。44.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括帶寬能量比參數(shù)。45.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括三幀平均的有聲能量參數(shù)。46.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括前三幀平均有聲能量參數(shù)。47.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括當(dāng)前幀能量與前三幀平均有聲能量之比的參數(shù)。48.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括當(dāng)前幀能量對三幀平均有聲能量參數(shù)。49.如權(quán)利要求33所述的語音分類器,其特征在于,所述經(jīng)產(chǎn)生的參數(shù)包括最大子幀能量索引參數(shù)。50.如權(quán)利要求33所述的語音分類器,其特征在于,所述設(shè)定標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值包括將信噪比信息參數(shù)與預(yù)定信噪比值相比較。51.如權(quán)利要求33所述的語音分類器,其特征在于,所述分析包括將參數(shù)應(yīng)用于狀態(tài)機。52.如權(quán)利要求33所述的語音分類器,其特征在于,所述狀態(tài)機包括每個語音分類模式的狀態(tài)。53.如權(quán)利要求33所述的語音分類器,其特征在于,所述語音模式分類包括瞬變模式。54.如權(quán)利要求33所述的語音分類器,其特征在于,所述語音模式分類包括上瞬變模式。55.如權(quán)利要求33所述的語音分類器,其特征在于,所述語音模式分類包括下瞬變模式。56.如權(quán)利要求33所述的語音分類器,其特征在于,所述語音模式分類包括有聲模式。57.如權(quán)利要求33所述的語音分類器,其特征在于,所述語音模式分類包括無聲模式。58.如權(quán)利要求33所述的語音分類器,其特征在于語音模式分類包括寂靜模式。59.如權(quán)利要求33所述的語音分類器,其特征在于還包括更新至少一個參數(shù)。60.如權(quán)利要求59所述的語音分類器,其特征在于,所述經(jīng)更新的參數(shù)包括音調(diào)參數(shù)處的標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)。61.如權(quán)利要求59所述的語音分類器,其特征在于,所述經(jīng)更新的參數(shù)包括三幀平均的有聲能量參數(shù)。62.如權(quán)利要求59所述的語音分類器,其特征在于,所述經(jīng)更新的參數(shù)包括先行幀能量參數(shù)。63.如權(quán)利要求59所述的語音分類器,其特征在于,所述經(jīng)更新的參數(shù)包括前三幀平均有聲能量參數(shù)。64.如權(quán)利要求59所述的語音分類器,其特征在于,所述經(jīng)更新的參數(shù)包括聲音活動檢測參數(shù)。全文摘要用于不同語音模式強壯分類的語音分類技術(shù)(502-530),使得多模式可變比特率編碼技術(shù)能得到最佳性能。語音分類器精確地將大部分語音段分類,用于以最小比特率編碼以符合低比特率的要求。高度精確的語音分類產(chǎn)生較低平均編碼的比特率,以及較高質(zhì)量解碼的語音。語音分類器要考慮每個語音幀的最大參數(shù)數(shù)量,為每幀產(chǎn)生大量精確的語音模式分類。語音分類器在變化的環(huán)境條件下正確地分類大量語音模式。語音分類器從外部組件輸入分類參數(shù),從輸入?yún)?shù)產(chǎn)生內(nèi)部分類參數(shù),設(shè)定標(biāo)準(zhǔn)化的自相關(guān)系數(shù)函數(shù)閾值并根據(jù)信號環(huán)境選擇參數(shù)分析器,然后分析參數(shù)以產(chǎn)生語音模式分類。文檔編號G10L21/02GK101131817SQ200710152618公開日2008年2月27日申請日期2001年12月4日優(yōu)先權(quán)日2000年12月8日發(fā)明者P·黃申請人:高通股份有限公司