專利名稱:識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種識別系統(tǒng)和識別方法,這種識別系統(tǒng)通過使數(shù)據(jù)矢量與預定模型相關(guān)聯(lián)來進行數(shù)據(jù)的識別,而這種識別方法包括使這些矢量與模型相關(guān),本發(fā)明尤其涉及出現(xiàn)失真之后執(zhí)行識別過程的語音和圖案識別。
語音識別系統(tǒng)是一種識別系統(tǒng)的范例,這種識別系統(tǒng)中,數(shù)據(jù)或者關(guān)注信號在被識別之前具有某種形式的失真。特別是在電話應(yīng)用中,語音識別系統(tǒng)的性能經(jīng)常被因電話聽筒位置而導致的語音信號變化大大降低,或者被電話聽筒、電話線和交換機的特性大大降低。一個特別的問題與由聽筒位置引起的語音位準(speech level)變化有關(guān)。對該問題所進行的更復雜的檢查表明頻率平衡(frequencybalance)的變化也很明顯。對于平均信號電平變化的補償常通過利用某種形式的自動增益控制(AGC)來進行。令人遺憾的是,可能很難提供有效的AGC;例如,在兩線制電話系統(tǒng)結(jié)構(gòu)中,在參與電話交談的人的語音強度位準(intensity level)之間常常存在基本差異。在四線制電路結(jié)構(gòu)中可能會有很難處理的顯著的反信道回音(reversechannel echo)。這是由交談一方的語音與交談另一方的語音相干擾(contamination)所引起的。
一種處理失真問題的方法是利用借助許多種聽筒和講話人位置所采集的訓練數(shù)據(jù)(training data),訓練一語音識別系統(tǒng)。該方法存在兩個問題。首先,在全球電話網(wǎng)絡(luò)中,有非常多可能的麥克風種類和講話人位置;結(jié)果使所需的訓練數(shù)據(jù)量過大而不實用,并且系統(tǒng)無法根據(jù)未知的麥克風優(yōu)化其性能。其次,在識別的過程中,只能有效地利用很少部分的訓練數(shù)據(jù)。
一種用來改善識別性能的方法是應(yīng)用某種形式的補償以處理失真。在用有時稱為“濾波器組分析(filterbank analysis)”的方法過程中,目前的語音識別系統(tǒng)將輸入信號從時域波形轉(zhuǎn)換成頻域內(nèi)的連續(xù)矢量。可以對這些矢量進行某種形式的補償。有許多方法可以用來確定適當?shù)难a償。一種這樣的方法披露于Sadaoki Furui所著的“Cepstral Analysis Technique for Automatic Speaker Verification”,IEEE Trans Acoustics,Speech and signal processing,29(2)254-272,April 1981中。它包括對整個交談的濾波器組分析器(analyser)輸出求均值,以得到該信號的長期頻譜特性;在第二次經(jīng)過該數(shù)據(jù)期間對失真進行補償。然后,把所補償?shù)臄?shù)據(jù)傳送給語音識別裝置。就該方法來說,有兩個問題。首先,由于對整個交談進行單一校正,所以它很不適于失真快速變化的交談。這可能發(fā)生于來自蜂窩電話、無繩電話或者無線電話的交談中。第二,由于必需在識別開始之前處理整個交談以得到適當校正,所以它不適于實時應(yīng)用。
更可取的方法是采用有時稱作頻譜形狀適應(yīng)(spectral shapeadaptation)(SSA)的技術(shù)。采用這種技術(shù)的識別系統(tǒng)提供關(guān)于將在每個即時時間受到識別的信號預期頻譜特性信息,將其與實際出現(xiàn)在該信號中的等同信息相比較以提供差分項(difference term)。然后就許多連續(xù)信號對該差分項求均值(按時間求均值)以提供一校正項(correction term)。這種系統(tǒng)已由Yunxin Zhao在“IterativeSelf-Learning Speaker and Channel Adaptation under Various InitialConditions”,Proc IEEE ICASSP[11]pp712-715中進行了描述。這里,在逐句的基礎(chǔ)上處理數(shù)據(jù)。一輸入信號受到濾波器組分析,從而創(chuàng)建連續(xù)的矢量,每個矢量表示許多頻段范圍內(nèi)信號能量的變化。通過匹配語音模型狀態(tài)(model state)來處理這些矢量。已匹配有一個矢量的模型其狀態(tài)參數(shù)用來預測根據(jù)模型預期的矢量的值。用從語句中對早期矢量得到的差值計算矢量與預測值之間的差并且按時間求均值,以確定每個語句受到的平均失真。然后,把對一個語句所確定的SSA參數(shù)用來處理下一語句。
遺憾的是,由于以下原因,Zhao的方法無法在更復雜的語音識別系統(tǒng)中工作。這些系統(tǒng)中,把從濾波器組分析中得到的(在頻率空間內(nèi)表示的)數(shù)據(jù)矢量從頻域變換成某種抽象的特征空間。當正確地應(yīng)用了這種變換時,它改進了識別精度,原因在于它減少了信息形式語音信號的多余量,同時保存了所說單詞特性這樣的特征,其中所說的信息是講話人的特征。在與矢量所變換到的空間相同的特征空間內(nèi)表示模型狀態(tài)。通常,舍去從頻率空間向特征空間變換中的高階項,以改進如上所述的識別精度,這意味著減少了維數(shù);即,特征空間矢量的維數(shù)或者矢量元素比頻率空間矢量少。也就是說,在從頻率空間向特征空間的變換中,損失了信息,因此不再可能用模型參數(shù)來提供對頻率空間內(nèi)預期值的唯一估計值(unique estimate),原因在于它們所含關(guān)于此用途的信息不夠。這意味著頻域中的補償無法如上述Zhao的參考資料中所述的那樣實現(xiàn)。
本發(fā)明的目的在于提供一種具有失真補償?shù)淖R別系統(tǒng)。
本發(fā)明提供一種用來使多維數(shù)據(jù)矢量與較少維數(shù)預定模型相關(guān)聯(lián)的識別系統(tǒng),該系統(tǒng)包括a)補償裝置,用來補償數(shù)據(jù)矢量中的失真,b)變換裝置,用來在失真補償之后對數(shù)據(jù)矢量進行變換,用以將它們的維數(shù)降低到模型的維數(shù),c)匹配裝置,用來使每個變換數(shù)據(jù)矢量與一適當模型相關(guān)聯(lián),d)逆變換裝置,用來通過對所述變換進行逆變換而從相關(guān)模型中得到一數(shù)據(jù)矢量估計值,和e)推導裝置,用來從數(shù)據(jù)矢量估計值和其對應(yīng)的數(shù)據(jù)矢量中得出補償量,以用于補償裝置所進行的失真補償中。
本發(fā)明的優(yōu)點在于,盡管維數(shù)減少了,但是它在模型匹配的基礎(chǔ)上提供失真補償。根據(jù)本發(fā)明發(fā)現(xiàn),盡管在匹配之前有信息丟失,但是它可以提供數(shù)據(jù)矢量估計值用于補償。
在一優(yōu)選實施例中,逆變換裝置設(shè)置成能夠?qū)崿F(xiàn)所述變換的偽逆,并且能夠通過包含一種方式下的信息而將模型維數(shù)增加到數(shù)據(jù)矢量維數(shù),所述方式是,變換裝置根據(jù)數(shù)據(jù)矢量估計值進行工作以降低其會導致這種信息丟失的維數(shù)。該實施例具有比較易于估計的優(yōu)點,即,發(fā)現(xiàn)當信息為此以一種方式包含在內(nèi)時,偽逆模型變換進行可以接受的估計,其中所述的方式是,在變換裝置接下來的操作中刪除此信息。
變換裝置可以設(shè)置成能夠把函數(shù)A()所代表的變換應(yīng)用于數(shù)據(jù)矢量,逆變換裝置可以設(shè)置成能夠?qū)崿F(xiàn)函數(shù)A-()所代表的偽逆模型變換,函數(shù)A()和A-()滿足以下關(guān)系A(chǔ)(A-(A(q)))=A(q),其中q是某個任意矢量。
推導裝置可以設(shè)置成能夠從數(shù)據(jù)矢量估計值和數(shù)據(jù)矢量以及類似種類的在前估計值和矢量中得到一個補償量。它可以包括一個無限沖激響應(yīng)濾波器,該濾波器以指數(shù)時間窗口進行低通濾波。
在一優(yōu)選實施例中,設(shè)置本發(fā)明的系統(tǒng)用于語音識別,每個數(shù)據(jù)矢量具有代表各個頻率間隔中語音信號能量的元素。推導裝置可以設(shè)置成能夠產(chǎn)生用于失真補償?shù)难a償矢量,補償裝置可以設(shè)置成能夠?qū)?shù)據(jù)矢量元素的對數(shù)加到各個補償矢量元素的對數(shù)上。變換裝置優(yōu)選設(shè)置成能夠?qū)⒕仃囎儞Q和匹配裝置用來執(zhí)行隱含Markov模型匹配;逆變換裝置可以設(shè)置成能夠從與變換數(shù)據(jù)矢量相關(guān)且有高斯分布的模型狀態(tài)中產(chǎn)生數(shù)據(jù)矢量估計值。匹配裝置可以采用高斯分布混合形式的模型狀態(tài),而逆變換裝置可以設(shè)置成能夠從其中產(chǎn)生數(shù)據(jù)矢量估計值。
另一方面,補償裝置可以進行矩陣乘法運算以補償頻率空間中的移動。推導裝置可以是一Kalman濾波器。
匹配裝置可以設(shè)置成能夠進行分段隱含Markov模型匹配。
數(shù)據(jù)矢量可以至少部分包括從講話人嘴中得到的圖像信息,補償裝置可以對闡述程度(illumination level)、方向和圖像的幾何失真中的至少一個進行補償。
變換裝置優(yōu)選設(shè)置成能夠應(yīng)用一余弦變換,其中舍去某些系數(shù)以降低數(shù)據(jù)矢量維數(shù)。
本發(fā)明用于存在失真時語音識別的系統(tǒng)優(yōu)選包括逆變換裝置和推導裝置,這些裝置設(shè)置成能夠?qū)σ韵虏糠种械闹辽僖粋€提供補償a)變化的語音信號電平,b)麥克風位置的變化,c)麥克風類型的變化,d)語音信號線特性的變化,e)背景雜音水平,f)頻移,g)講話人闡述音量,h)闡述方向,i)講話人特征的幾何失真。
另一方面,本發(fā)明可以對信號的失真而不是語音的失真提供補償。它可以對一識別系統(tǒng)中的闡述程度和視角提供補償,在該識別系統(tǒng)中,信息組成從一電視攝像機指在例如人臉上的一部分部分或者全部圖像信息。
推導裝置可以采用一個無限沖激響應(yīng)濾波器或者一Kalman濾波器,用來結(jié)合來自多個數(shù)據(jù)矢量估計值的量,從而得到對數(shù)據(jù)矢量中失真的補償。
在本發(fā)明的一個優(yōu)選實施例中,匹配裝置設(shè)置成能夠指出多個模型狀態(tài)和模型類別中哪一個與每個變換數(shù)據(jù)矢量相關(guān)聯(lián),推導裝置設(shè)置成能夠得到每個數(shù)據(jù)矢量的各自補償量,而補償裝置設(shè)置成能夠根據(jù)匹配裝置所指出的模型類別有選擇地應(yīng)用補償。匹配裝置可以設(shè)置成能夠進行部分追溯,并且能夠指出可能在某個晚些時間受到校正的匹配模型狀態(tài);匹配裝置與逆變換裝置和推導裝置相結(jié)合,就可以對在這些匹配基礎(chǔ)上產(chǎn)生的補償提供校正。
另一方面,本發(fā)明提供一種使預定多維模型與比模型維數(shù)更高的數(shù)據(jù)矢量相關(guān)聯(lián)的方法,該方法包括以下步驟a)補償數(shù)據(jù)矢量中的失真,b)在失真補償之后對數(shù)據(jù)矢量進行變換,用以將它們的維數(shù)減少到模型的維數(shù),c)使每個變換數(shù)據(jù)矢量與各個模型相關(guān)聯(lián),d)對所述變換進行逆變換,從而從相關(guān)的模型中得到一個數(shù)據(jù)矢量估計值,以及e)從該數(shù)據(jù)矢量估計值及其對應(yīng)的矢量中得到一個補償量,并且用該補償量對失真補償數(shù)據(jù)矢量。
優(yōu)選借助所述變換的偽逆實現(xiàn)步驟(d)中的逆變換,該逆變換通過包含一種方式下的信息使模型維數(shù)增加到一數(shù)據(jù)矢量的維數(shù),所述方式是,對該數(shù)據(jù)矢量估計值進行變換以降低導致這種信息丟失的維數(shù)。
在其中變換裝置和逆變換裝置并不必要的另一方面中,本發(fā)明提供一種用來使數(shù)據(jù)矢量與預定模型相關(guān)聯(lián)的識別系統(tǒng),該系統(tǒng)包括a)補償裝置,用來補償對應(yīng)于多種不同類型數(shù)據(jù)的數(shù)據(jù)矢量中的失真,該補償裝置設(shè)置成能夠?qū)γ總€數(shù)據(jù)矢量進行與各個數(shù)據(jù)類型相關(guān)的補償,以產(chǎn)生多個補償矢量,b)匹配裝置,設(shè)置成能夠使補償數(shù)據(jù)矢量與模型相關(guān)聯(lián),并且能夠為每個數(shù)據(jù)矢量指示出一個適當?shù)哪P秃蛯?yīng)于各個數(shù)據(jù)類型的模型類另,和
c)推導裝置,用來從匹配裝置所指示出的模型和與其相關(guān)聯(lián)的數(shù)據(jù)矢量中得到一個補償量,該補償量被補償裝置用來對與模型類別相關(guān)的各個數(shù)據(jù)類型進行失真補償。
為了可以更完整地理解本發(fā)明,現(xiàn)在參照附圖僅借助實例來描述其實施例,在這些附圖中
圖1是本發(fā)明一識別系統(tǒng)的方框圖,其形式是一語音識別系統(tǒng);圖2以圖線的形式示出用于圖1系統(tǒng)內(nèi)語音識別中的語音模型狀態(tài);圖3和4以圖線的形式示出兩個不同麥克風的頻譜形狀適應(yīng)過程;圖5以圖線的形式示出涉及兩個講話人時語音識別中語音模型狀態(tài)的應(yīng)用;圖6是本發(fā)明另一語音識別系統(tǒng)的方框圖,設(shè)置它用來補償模型與講話人之間的頻率差。
參見圖1,語音識別系統(tǒng)形式的本發(fā)明實施例一般由10表示。系統(tǒng)10包括接至模/數(shù)(A/D)轉(zhuǎn)換器14的電話12,模/數(shù)轉(zhuǎn)換器14本身接至濾波器組分析器16。分析器16利用20mS Hamming窗口執(zhí)行四百點離散傅里葉變換(DFT),用以處理非無窮(non-infinite)信號采樣的一般問題。它把如此得到的傅里葉分量組合為二十六個子集(subset),在此范圍內(nèi)得到二十六個頻率間隔中每一個的均值,或者在近似一嘜刻度上分配(bins),并且產(chǎn)生對數(shù)幅值。因此,它模擬了具有二十六個頻道(channel)中對數(shù)輸出的一組帶通濾波器。來自分析器16的輸出既傳至提供頻譜形狀適應(yīng)(SSA)的補償單元18,又傳至緩沖存儲器20。SSA補償單元18是數(shù)字加法器。它接至變換裝置22,從變換裝置22出來的輸出傳至模型匹配計算機24,模型匹配計算機24在26提供系統(tǒng)輸出。
計算機24還接至匹配逆變換器或者“取消(undo)裝置”28,取消裝置28向差分計算器30提供輸入,該計算器接收來自緩沖存儲器20的第二輸入,緩沖存儲器20本身通過線32接收來自匹配裝置24的時序信息。從差分計算器30出來的輸出通過線34作為去復用器36的第一輸入,去復用器36通過線38從匹配裝置24接收模型類別的第二輸入。去復用器36的兩個輸出40和42接至一組無限沖激響應(yīng)(IIR)濾波器44的非語音和語音部分44a和44b。每個部分是二十六個IIR濾波器陣列。線46將濾波器語音部分44b接至SSA參數(shù)存儲器48,參數(shù)存儲器48接著接至SSA補償單元18。
識另系統(tǒng)10如下工作。通過(A/D)轉(zhuǎn)換器14把來自電話12的模擬語音信號變換成數(shù)字信號,(A/D)轉(zhuǎn)換器14對該信號采樣并且提供速率為20KHz的數(shù)字輸出信號。濾波器組分析器16利用這些數(shù)字信號計算連續(xù)的四百點離散傅里葉變換(DFT)。然后,把每個變換的DFT所輸出的二百點“分配”或者分離成各個分組,相加,取其對數(shù)以在二十六個頻率間隔的對數(shù)刻度上提供平均能量。分析器16是一組二十六個模擬帶通濾波器的數(shù)字等效物。從分析器16出來的每個輸出變換量是具有二十六個分量的矢量,每個分量代表各自頻率間隔中能量的對數(shù),各自頻率間隔是通過在相關(guān)傅里葉變換系數(shù)范圍內(nèi)求均值得到的。
從分析器16中每隔10mS連續(xù)輸出各個矢量,每個矢量代表前20mS內(nèi)語音信號中能量的均值。在時間ti時從分析器輸出的ith矢量定義為Oi。將其存入緩沖存儲器20,緩沖存儲器20存儲500個最近得到的矢量,每個矢量位于與其產(chǎn)生(production)時間ti相對應(yīng)的各個地址。
還把每個矢量Oi傳至補償單元18,補償單元18用存儲于SSA參數(shù)存儲器48中的一組二十六個參數(shù)pj(j=0到25)進行變換。以下將解釋這些參數(shù)的產(chǎn)生。單元18把存儲器48的內(nèi)容加到矢量Oi上。該變換與該矢量頻譜形狀的適應(yīng)相對應(yīng)以補償失真。該變換向平均信號電平的變化和由信道或者麥克風特性所引起的線性失真提供補償。
在單元18中進行補償之后,把每個矢量(現(xiàn)在稱為Oicorr)傳至變換裝置22,變換裝置22將其從頻域或者頻率空間變換成特征空間中的矢量Yi,特征空間具有更少的維數(shù)。裝置22為每個得到補償?shù)氖噶慨a(chǎn)生余弦變換量,并且切去其頂部(truncate it),以便只保留該變換的前十二項。在本領(lǐng)域中眾所周知,將余弦變換用作改進識別精度的一種手段,這是通過減少數(shù)據(jù)中多余的相互關(guān)系來實現(xiàn)的。切去余弦變換量的頂部也是不依賴講話人系統(tǒng)(speaker independentsystem)設(shè)計領(lǐng)域中公知的,原因在于它去除了多余的依賴講話人(speaker-dependent)的不精確之處。將該變換作為矩陣乘法進行,其中變換矩陣的系數(shù)由所需余弦變換的特性所確定。它把矢量的維數(shù)從二十六減小到十二。
本例中,由單元22執(zhí)行的余弦變換包括計算特征矢量的分量。下式(1.a,b)表示對矩陣運算求值y0=126Σm=025omcorr---(1.a)]]>yk=113Σm=025omcorrcos((2m+1)kπ/52)k=1,...11---(1.b)]]>其中,yk是矢量Yi的kth分量,Omcorr是得到補償?shù)氖噶縊icorr的mth分量;對于濾波器組輸出的二十六個頻道來說,m的值為0到25;而對于余弦變換的前十二項來說,k的值為0到11。
把受到變換、補償?shù)氖噶縔i傳至模型匹配計算機24。該計算機執(zhí)行將參照圖2描述的過程,圖2表示出更簡單的二維特征空間(對照本例中的十二維)。模型匹配計算機24進行本領(lǐng)域公知類型的傳統(tǒng)隱含Markov模型匹配算法。見例如關(guān)于語音識別的標準課本“Speech Synthesis and Recognition”,J N holmes,Van NostrandReinhold(UK)1988,尤其是Chapter7和Chapter8。計算機24應(yīng)用了電話語音的傳統(tǒng)隱含Markov模型。每個模型對應(yīng)于一個單詞或者一個單詞的一部分(子單詞);每個模型具有很多狀態(tài)并且對應(yīng)于一個聲音序列。例如,在數(shù)單詞0~9的數(shù)單詞識別器中,可以采用每個模型十個狀態(tài)。一個狀態(tài)由單一分量高斯概率分布表示,該分布具有特征空間的維數(shù);即,該分布的形式為Csexp(-((x0-μs,0)/2σs,0)2-((x1-μs,1)/2σs,1)2Λ((xn-μs,11)/2σs,11)2) (2)其中,CS是模型狀態(tài)常數(shù),μs,k和σS,k(k=0..11)是12維特征空間中模型狀態(tài)S的概率分布均差與標準差的12個分量,xk是定義12維特征矢量空間的變量。
已有技術(shù)匹配過程包括在考慮早期矢量/模型匹配的結(jié)果情況下,使矢量與模型相匹配,從而在一系列輸入范圍內(nèi)把識別正確性的概率擴大到最大。這是通過動態(tài)程序設(shè)計來實現(xiàn)的。
圖2是具有三個模型狀態(tài)S1、S2和S3的模型圖,橢圓代表概率分布輪廓線。圖中還示出受到變換、校正的特征矢量Yi的二維等效圖。計算機24用一模型匹配算法判定哪個模型狀態(tài)最適于匹配給矢量Yi。矢量與模型狀態(tài)之間的匹配概率由模型狀態(tài)在一位置處的概率分布大小表示,該位置是矢量受到早期匹配歷史所加約束的位置。在圖2所示簡化的二維情況下,概率條件可以表示如下情況矢量Yi應(yīng)當匹配給模型狀態(tài)S1。除非偶然有完全相同的匹配,否則根據(jù)可能匹配的模型狀態(tài)S1所預期的這樣一個矢量值不會等于Yi。該預期或者估算的值由S1的概率分布均值得到,并且由某個特征矢量μs1表示。在26輸出模型狀態(tài)均值,把該模型狀態(tài)均值傳至匹配逆變換器28,匹配逆變換器28進行這里稱為“取消”操作的操作過程。
取消操作的目的在于,對照與Yi的不正確關(guān)聯(lián),使確定μs1正確對應(yīng)的頻率空間中一矢量成為可能,以便如以后所描述的那樣,將該矢量用于在SSA補償單元18中生成應(yīng)用的頻譜形狀適應(yīng)參數(shù)。
取消操作包括一個計算操作,該計算在數(shù)學上等同于裝置22中所執(zhí)行的從頻率空間(Oi)到特征空間(Yi)的偽逆變換;即,它是從特征空間(Yi)到頻率空間(Oi)的變換。若從頻率空間到特征空間的變換由某個矩陣A表示,則該偽逆變換為滿足以下關(guān)系的任意A-AA-A=A (3)若A是一方陣且是一非奇異矩陣,則只有一個矩陣A-是A的常規(guī)逆矩陣。在本發(fā)明所建議的這種識別系統(tǒng)中,特征空間的維數(shù)少于頻率空間,原因在于需要如前所述處理多余的量(contribution)。結(jié)果舍去了某些信息,矩陣A為矩形。矩形矩陣沒有唯一的逆矩陣,因此不可能得到矩陣A的唯一逆矩陣。
不過,根據(jù)本發(fā)明,已有驚人的發(fā)現(xiàn),即,在沒有令人難以接受的副作用影響識別過程的情況下,可以和益于采用矩陣A的任意偽逆矩陣A-。
本實施例中,矩陣A是12×26元素矩陣,矩陣A-是26×12元素矩陣。計算矩陣A的系數(shù)以得到受到切去頂部的余弦變換??梢酝ㄟ^把26元素余弦變換的真逆矩陣看作26×26矩陣并且舍去列元素以得到26×12元素矩陣來計算合適的偽逆矩陣A-。若采用除簡單的余弦變換之外的其他變換,則可以通過標準的數(shù)值方法得到偽逆矩陣。
若Y是特征空間中的某個點(等同于μs1),而是頻率空間中相應(yīng)的點,其中在乘以矩陣A時變換為Y,則可以用A-取消該變換以得到=A-Y (4)由于在從頻率空間向特征空間變換中丟失有信息,所以有無窮個矩陣A-和相應(yīng)的值。但是,所有這些矩陣必須滿足下式A=AA-Y=AA-AO=AO=Y(jié) (5)公式(5)表明當乘以矩陣A時,為了用匹配計算機24識別,和O都變成特征空間內(nèi)的Y,因此,用偽逆法產(chǎn)生對匹配過程并沒有不利影響。也就是說,以后在把受到補償?shù)氖噶繌念l率空間向特征空間變換中,加入偽逆過程中的任意信息被消除。結(jié)果,可以取消從頻率空間向特征空間的映射,隨后“重做”該步驟。匹配逆變換器28通過數(shù)單詞矩陣/矢量乘法運算執(zhí)行‘取消’操作。另一方面,也可以在計算機24內(nèi)的軟件中執(zhí)行。
匹配逆變換器28把受到匹配的模型狀態(tài)S1均值的分量μS1從特征空間變換回頻率空間,用以得到頻率空間內(nèi)相應(yīng)的點。用矩陣A-乘計算機24輸出的矢量μS1。通過應(yīng)用下式6所示的加法運算來進行矩陣運算om^=μS1,0+Σk=111μS1,kcos((2m+1)kπ/52)m=0,...25(6)]]>其中,m(m=0~25)是輸出矢量i的二十六各分量,μS1,0~μS1,11是μS1的十二個分量;這里,i是根據(jù)匹配的模型和所選的矩陣A-而對數(shù)據(jù)矢量Oi預測的值。
將值i傳至差分計算器30。同時,緩沖存儲器20從計算機24中接收時序信息,時序信息的形式是Oi值的存儲器地址。響應(yīng)于該地址,它把Oi輸出給差分計算器30,用來與i相比較。差分計算器30計算這些預測矢量與觀測矢量之間的差,用以產(chǎn)生一個差值矢量。該差值矢量在頻率空間中代表語音信號所遭受的失真過程的瞬時估計值。把該估計值傳至去復用器36,去復用器36同時接收數(shù)字1或0形式的模型類別信息;在這些數(shù)字中,1表示模型匹配計算機24識別出了語音,0代表它識別出了雜音。根據(jù)從計算機24接收到的是1還是0,去復用器36把差分計算器輸出傳遞給語音IIR濾波部分44a或者非語音IIR濾波部分44b。
借助去復用器36在語音與噪聲之間求微分的目的是要處理一個問題,該問題是,對于長期沒有語音的交談來說,補償項可能因雜音和干擾的影響有失真。英國專利GB2 137 791A描述了一種方法,該方法用一語音識別系統(tǒng)來確定信號的哪些部分對應(yīng)于噪聲,而哪些部分對應(yīng)于語音。盡管該已有技術(shù)方法的目的在于確定背景雜音的頻譜特性,不過業(yè)已發(fā)現(xiàn),可以用一類似的方法來標記系統(tǒng)10中的語音區(qū)和雜音區(qū),用以分別從語音信號和雜音中導出補償?shù)墓烙嬛?。這使得系統(tǒng)10更適于處理長期無語音的電話交談。它還能得到更快的輸出和更快的適應(yīng)時間。
被認為是與雜音或者干擾相對的語音的矢量在從去復用器36出來的40處產(chǎn)生一差值矢量輸出。將該差值傳至語音濾波部分44b,如前所述,語音濾波部分44b是二十六個無窮脈沖響應(yīng)濾波器陣列。濾波部分44b包括差值矢量二十六個分量中每一個各自的濾波器。單元30所計算的差值矢量基于單一數(shù)據(jù)矢量,它代表可校正失真的瞬時估計值,這歸因于麥克風和線的特性,這些特性與因語音類聲音的隨機性而引起的差別相結(jié)合。
語音濾波部分44b的時間常數(shù)為0.5秒。它提供幾個單詞范圍內(nèi)的短期平均法(例如三個單詞左右或者1.5秒),這抵消了單詞識別的隨機變化和錯誤所產(chǎn)生的影響,同時跟蹤因可校正失真引起的更長期變化。響應(yīng)于收到每個輸入差值矢量,它產(chǎn)生一輸出矢量,該輸出矢量是輸入矢量與來自早期輸入矢量的作用范圍內(nèi)的均值,這些作用隨時間變化以指數(shù)形式減少;對輸出矢量的作用主要來自于最近50各差值矢量。
來自語音濾波部分44b的輸出矢量提供新一組參數(shù),將這些參數(shù)裝入SSA參數(shù)存儲器48以替換其現(xiàn)有內(nèi)容。如前所述,新一組參數(shù)用來適應(yīng)來自濾波器組分析器16的當前輸出頻譜形狀,響應(yīng)于每個數(shù)據(jù)矢量向語音模型狀態(tài)的匹配,更新該參數(shù)組。在產(chǎn)生該匹配的過程中有一短時延遲。在其中集中由一個計算機使部件18~48生效的本發(fā)明一個實施例中,所需用來從語音信號中得到更新參數(shù)的時間間隔為0.5秒,或者是大約一個平均單詞的持續(xù)時間。結(jié)果,它對影響逐單詞變化的失真進行了補償。較之此系統(tǒng)來說,典型的已有技術(shù)系統(tǒng)提供補償更慢,并且無法處理較短期的失真。前面提到的Zhao的參考資料要求有一句完整的話用于分析。本實例中,所采用的變換向平均信號電平的變化和信道或者麥克風特性引起的線性失真提供補償。
在本發(fā)明的前述實施例中,非語音IIR濾波部分44a是多余的,原因在于其輸出未被采用。現(xiàn)在將在本發(fā)明的另一實例中描述其應(yīng)用,實例包括SSA補償單元18和存儲器48的另一種實現(xiàn)方式。該實例中,存儲器48含有五十二個參數(shù)pj(j=0~51),其下標數(shù)0~25對應(yīng)于對如上所述多重失真(平均信號電平和線性失真)的補償,而下標數(shù)26~51對應(yīng)于對在一線性刻度上呈累加的失真(例如頻道雜音)的補償。SSA補償單元18通過添加前二十六個參數(shù)pj(j=0~25)對Oi對數(shù)形式的矢量元素進行乘法校正。它還包括將數(shù)據(jù)矢量元素從對數(shù)轉(zhuǎn)換到線性標度并且對其求逆。它把Oi受到校正的矢量元素從對數(shù)轉(zhuǎn)換到線性標度,并且通過添加第二組二十六個參數(shù)pj(j=26~51)進行線性校正。然后,它將結(jié)果轉(zhuǎn)換回對數(shù)標度。另一方面,單元18可以通過增加雜音校正和增加失真校正而在線性域內(nèi)進行兩個校正。該變換向背景雜音和平均信號電平的變化以及信道或者麥克風特性所引起的線性失真提供補償。為了得到對多重失真的參數(shù)估計值,如前所述使用語音濾波部分44b。為了得到對附加雜音的參數(shù)估計值,以一模擬方式使用非語音濾波部分44a。
為了證明該識別系統(tǒng)10的性能,曾用兩個不同的麥克風A和B代替電話12進行試驗。用空中偵察任務(wù)過程中產(chǎn)生的口頭報告進行了測試。對模型匹配計算機24進行編程,用以利用基于三態(tài)單一混合分量送受話器的標準隱含Markov模型。根據(jù)三十六個空中偵察任務(wù)報告訓練這些模型,其中這些報告由同一個講話人利用麥克風A記錄。每個報告持續(xù)近30秒。計算機24使用了518個單詞的句子結(jié)構(gòu),其中認為每一個單詞具有同樣的可能性;即,詞匯量近518個單詞。這些試驗中,講話人同時對著兩個麥克風A和B講話。用一立體聲磁帶錄音機對各種麥克風位置進行記錄。然后,用一模/數(shù)轉(zhuǎn)換器對記錄結(jié)果進行數(shù)字化處理,并且轉(zhuǎn)移給一計算機硬盤。之后,由一計算機程序分析該數(shù)據(jù),該計算機程序?qū)崿F(xiàn)濾波器組分析器16。然后,用實現(xiàn)單元18、20、22、24、28、30、36、44和48的第二程序處理數(shù)據(jù)。將輸出26記錄到磁盤上用于分析。在第二段分析中,禁止SSA補償單元18、緩沖器20、匹配逆變換器28、差分計算器30、去復用器36、無窮脈沖響應(yīng)濾波器44和SSA參數(shù)存儲器48工作。采用以下的麥克風位置標準與嘴角齊平中央嘴的前部中央低 嘴角下一英寸處頦 與頦齊平下面列出的表格示出單詞識別的出錯率,這些出錯率是用麥克風(Mic)A和B針對三個空中偵察任務(wù)報告得到的,并依次對配有頻譜形狀適應(yīng)(SSA)的系統(tǒng)10和不具有SSA而具其他等同功能的可比系統(tǒng)處理這些任務(wù)報告。該表說明了利用根據(jù)本發(fā)明的SSA的單詞出錯率的效果。在所有這四個麥克風位置中,利用根據(jù)本發(fā)明的具有‘取消’操作的SSA,改善了出錯率。對于麥克風B來說,改善程度多于2倍,一種情況下多于3倍
為了監(jiān)視本發(fā)明的工作,在處理的過程中,在近半秒間隔之處記錄了SSA參數(shù)存儲器48的內(nèi)容(表達為一個補償矢量)。圖3和4分別示出作為麥克風A和B時間函數(shù)的SSA參數(shù)。這些參數(shù)(均差矢量元素)對應(yīng)于各個濾波器組頻道數(shù)并且依據(jù)這些頻道數(shù)畫出參數(shù)的曲線。方框中標有“圖例”的標記表示幀數(shù)或者以10秒為單位表達的產(chǎn)生時間ti。前60秒期間(ti<6,000),這些值迅速變化并且向一固定輪廓曲線聚集。麥克風B在高頻處的輸出更大,而圖3中頻道24處的最小值是系統(tǒng)對此的補償。系統(tǒng)10還對整個語音功率級進行了顯著的校正,該校正可與自動增益控制相比。與其說是平滑的,不如說圖3和4二者都顯示出校正項中值得注意的“紋波”。這是基于偽逆而不是真逆操作的‘取消’操作結(jié)果;即,紋波對應(yīng)于該操作產(chǎn)生的信息。但是,如式(3)所示,當在裝置22中將頻域數(shù)據(jù)從頻率空間(Oi)變換到特征空間(Yi)時,丟失了這些紋波,特征空間是模型域。因此,紋波及其對應(yīng)的信息基本上對模型匹配計算機24所執(zhí)行的識別操作沒有影響。
對系統(tǒng)10的改進可以用來減小濾波器組分析器16輸出的數(shù)據(jù)矢量與其估計值之間的延遲,其估計值用來更新存儲器48中的SSA參數(shù)。系統(tǒng)10中,每次匹配計算機24輸出一特征矢量與一模型狀態(tài)之間的匹配時,都更新補償參數(shù)。當在匹配計算機24中進行稱為‘部分追溯’的過程時,產(chǎn)生輸出。部分追溯的過程在前述Holmes的參考資料第7.11節(jié)中有述。由于隱含Markov模型匹配算法的運算,當部分追溯進行時,一般在匹配計算機24中有許多最新的特征矢量,它們不能明確地與一模型狀態(tài)相關(guān)聯(lián)。也就是說,盡管匹配計算機24可能可以“猜測”出最新的特征矢量與哪一個模型狀態(tài)相關(guān)聯(lián),不過,對后來特征矢量的處理可能引起所猜測的模型狀態(tài)被校正。例如,當處理短語“recognise speech(識別語音)”時,模型匹配計算機24可能需要處理‘recognise(識別)’中“g”聲的特征矢量,之后它能夠確認來自“recognise”中“r”而不是象在“wreck a nice beach(毀壞美麗的海灘)”中“wr”的“r”聲。該延遲可能約為50個矢量或者0.5秒。為了使該延遲的影響最小,在每一部分追溯階段,可以將匹配計算機24修改為輸出特征矢量的“最佳猜測”匹配,但仍未完全為這些特征矢量確認該匹配。然后,可以修改去復用器36和濾波部分44,以便在某個晚些的時間,如果當匹配計算機24確認“最佳猜測”的身份時,對所匹配的模型狀態(tài)有所改變(例如,如果當某個晚些的時間所確認的匹配輸出是“wr”時,“最佳猜測”輸出是“r”),那么就可以應(yīng)用一個很小的校正。
另一方面,若不是馬上需要識別結(jié)果,則可能如此安排系統(tǒng)10,即在整個單詞或者短語第一次通過該系統(tǒng)的過程中如上所述截取它,然后在第二次通過的過程中,用第一次通過過程中計算出的校正項重新處理該單詞或者短語。如果對于處理(例如單個單詞)來說只有非常少量的語音,那么這可能是有利的。
系統(tǒng)10可能適于與雙向交談一起使用,或者與具有反向信道回聲的單向電話連接一起使用。這示于圖5中,與圖2相類似,圖5示出匹配操作的二維等效圖。如前所述,圖中示出三個模型狀態(tài)S1、S2和S3,橢圓代表概率分布的輪廓曲線。圖中還示出兩個變換校正特征矢量Yi1和Yi2。在雙向交談中,矢量Oi可以由兩個講話人中的任何一個產(chǎn)生,或者可以對應(yīng)于背景雜音。此外,由于麥克風和頻道特性在兩個講話人之間不同,所以保持兩組SSA參數(shù),每組參數(shù)用于一個講話人。當濾波器組輸出受到補償時,產(chǎn)生兩個校正參數(shù),每個參數(shù)使用各自那組參數(shù)。變換這兩個校正矢量以得到Y(jié)i1和Yi2,并且將其傳至匹配計算機24,匹配計算機24配置成只匹配這些矢量中的一個矢量,該矢量最適合一個模型。匹配識別出是兩個講話人還是背景雜音與相應(yīng)的矢量相關(guān)聯(lián)。只有在已經(jīng)把兩組SSA參數(shù)中每組的相關(guān)講話人或者雜音識別為對一矢量起作用時,才更新該組參數(shù),該矢量已經(jīng)匹配并且用來產(chǎn)生校正。實現(xiàn)此功能的修改系統(tǒng)把兩組SSA參數(shù)保持在兩個類似存儲器48的存儲器中,每個存儲器用于一個講話人/麥克風組合。如涉及解雙工器36所述的那樣,用計算機24控制下的去復用器來實現(xiàn)從IIR濾波部分44到這些存儲器以及從這些存儲器到SSA單元18的接通聯(lián)系。該方法可以擴大到任意個數(shù)組的SSA參數(shù)和相關(guān)的語音源與雜音源,可以安排計算機24為這些源提供模型。它可以用于識別一些系統(tǒng)中的許多源或者數(shù)據(jù)類型,這些系統(tǒng)不包括如上所述的從頻率空間向特征空間的變換或者逆變換操作或者“取消”操作;即模型可以存在于與數(shù)據(jù)矢量相同的空間和維數(shù)。通常,它涉及一個識別系統(tǒng),該識別系統(tǒng)產(chǎn)生多個差值補償,根據(jù)用匹配計算機識別的是模型類別還是源還是識別數(shù)據(jù)類型(例如講話人A、講話人B或者雜音)來區(qū)分這些補償。當用匹配計算機把一數(shù)據(jù)矢量識別為屬于一特定模型類別時,其中將該特定模型類別匹配給該類別的模型,如此得到的模型用來獲得與該類別相關(guān)的補償?shù)母轮?。為每個模型類別保持當前補償值。每個數(shù)據(jù)矢量受到每個當前補償值的補償,為匹配計算機產(chǎn)生多個補償矢量用以嘗試匹配。如果首先一個補償數(shù)據(jù)矢量所匹配的相關(guān)模型對于該矢量所對應(yīng)的數(shù)據(jù)源或數(shù)據(jù)類型來說是合適的類別,那么該矢量一般只提供一個良好的匹配,而其次如果加到該矢量上的補償適于抵消失真,那么它受到補償。不適當補償?shù)臄?shù)據(jù)矢量不應(yīng)匹配合適類型的模型,而適當補償?shù)臄?shù)據(jù)矢量不應(yīng)匹配不合適類型的模型。然后,(未補償)數(shù)據(jù)矢量及其相關(guān)模型用來得到相應(yīng)數(shù)據(jù)源或數(shù)據(jù)類型的修正補償,所說數(shù)據(jù)源或數(shù)據(jù)類型由如上所述的模型類別表示。
可以將系統(tǒng)10修改為能夠?qū)φZ音信號的變化提供補償,這些變化的形式為頻移。這些可能作為具有不同聲道長度的講話人之間差別的結(jié)果出現(xiàn),例如兒童與成人相比或者女性與男性相比。眾所周知,對于人的語音來說,4kHz左右頻率范圍內(nèi)濾波器組輸出的各種頻道內(nèi)的能量來自聲道中的共鳴。由于嘴、嘴唇、舌和聲道的其他部分中肌肉關(guān)節(jié)(articulation)的變化,這些共鳴的位置(稱為峰段(formants))在語音產(chǎn)生的過程中改變。
不同講話人之間的聲道大小不同,因此,不同講話人之間的共鳴位置以一系統(tǒng)的方式變化。例如,在“Control methods used in a studyof vowels”,Journal of the Acoustic Society of America,24(1952)中所闡述的由Peterson和Barney進行的測量中,元音[a]中F1峰段的正常頻率在普通成年男性的730Hz與兒童的1030Hz之間變化。類似地,Denes和Pinson所著的“The Speech ChainThe physics andbiology of spoken language”,Anchor Books(1973)pp153中指出,對于10個英語純元音聲音(pure vowel sounds)來說,4,000Hz范圍內(nèi)女性講話人的平均峰段頻率明顯高于男性。對于約4,000Hz以上的頻率來說,聲音主要由其他機構(gòu)產(chǎn)生,而聲道長度的差別較不明顯。
如果已經(jīng)專門用一成人男性的語音來訓練識別系統(tǒng)的語音模型組,而該系統(tǒng)試圖識別一女性或者兒童的語音,那么會由從一個濾波器組輸出頻道到更低頻道的牽引能量產(chǎn)生改善的性能??梢酝ㄟ^用帶狀矩陣B乘來自濾波器組的數(shù)據(jù)矢量輸出而對這種形式的失真提供補償,選擇B的元素以提供適當?shù)念l移。需要時,這些元素可以同時對多重形式的失真提供補償。
雖然系統(tǒng)100采用單一高斯分布形式的模型狀態(tài),但是還可以采用這些分布的混合形式,原因在于可以體現(xiàn)出這能導致匹配性能方面的改善。那么,安排匹配逆變換器28從這些混合形式中得到數(shù)據(jù)矢量估計值。兩個高斯分布混合形式的分布具有如下形式Cs,0exp(-((x0-μs,0,0)/2σs,0,0)2-((x1-μs,0,1)/2σs,0,1)2…((xn-μs,0,11)/2σs,0,11)2)+Cs,1exp(-((x0-μs,1,0)/2σs,1,0)2-((x1-μs,1,1)/2σs,1,1)2…((xn-μs,1,11)/2σs,1,11)2)其中,CS,0和CS,1是模型狀態(tài)S的常數(shù);μs,0,k、μs,1,k、σs,0,k和σs,1,k(k=0..11)是該模型狀態(tài)兩個高斯概率分布的平均標準偏差的12個分量,xk是定義12維特征矢量空間的變量。
可以對匹配計算機24裝置編程,以執(zhí)行分段隱含Markov模型匹配法,該方法如例如Wendy Holmes在“Speech recognition using alinear dynamic segmental HMM”,Proceedings of Eurospeech‘95,pp1611-1614(1995)中所述的那樣。這樣,匹配逆變換器28從根據(jù)分段軌跡預測的值中產(chǎn)生數(shù)據(jù)矢量估計值。
參見圖6,圖中,等同于前面描述的那些部件類似地以稱謂100參照,一系統(tǒng)總地由100表示,該系統(tǒng)實現(xiàn)上面提到的頻移。系統(tǒng)100的工作結(jié)構(gòu)和模式類似于系統(tǒng)10的工作結(jié)構(gòu)和模式,對前者的描述將大量涉及二者的不同方面。用單元114和116對一輸入語音信號進行數(shù)單詞化處理和進行濾波器組分析。然后用補償單元118處理濾波器組輸出,該單元118用帶狀矩陣B乘濾波器組數(shù)據(jù)矢量,矩陣B的矩陣元素存儲于存儲器148中。帶狀矩陣是一個在對角線區(qū)域中具有非零矩陣元素而其他矩陣元素為零的矩陣。變換裝置122把補償矢量從頻域變換到維數(shù)更少的特征域或者模型域。變換之后,用匹配計算機124匹配這些矢量,匹配計算機24輸出根據(jù)匹配模型與模型類別信息所預期的矢量值。把預期值傳至用來變換到頻率空間的匹配逆變換器128,從而變成估計矢量。通過去復用器136把該估計矢量傳至Kalman濾波器137,以后將詳細描述其作用。
設(shè)置帶狀矩陣B中的矩陣元素,使其能對來自一個濾波器組頻道的移動能量(shift energy)進行校正,從而它可能在另一頻率處產(chǎn)生。例如,當處理由具有適于成人模型的兒童所發(fā)出的語音時,濾波器組分析器116的頻道8和9至頻道6和7的移動能量近乎對應(yīng)于對元音[a]中F1峰段內(nèi)差別的補償。另一方面,就下表中給出的B的非零系數(shù)來說,當采用適于男性講話人的語音模型時,補償單元118會做適于識別來自女性語音的系統(tǒng)的補償
現(xiàn)在說明Kalman濾波器137的作用。Kalman濾波在電子工程的許多領(lǐng)域尤其是雷達系統(tǒng)的設(shè)計領(lǐng)域中眾所周知;它可以用來確定線性系統(tǒng)的系數(shù)(如矩陣),其中觀測結(jié)果形成一時間順序,并且受到某些隨機擾動。將系統(tǒng)100實現(xiàn)的補償參數(shù)或者矩陣元素表達為26×26的方陣B,方陣B的參數(shù)由Kalman濾波器估計。解雙工器136的語音輸出用來提供對根據(jù)匹配模型狀態(tài)所預期的濾波器組輸出的估計值,而緩沖器120包括實際觀測到的存儲值。用Kalman濾波器比較這兩個值以更新矩陣B的元素。
Kalman濾波器的設(shè)計和實施在數(shù)單詞信號處理的許多領(lǐng)域中眾所周知,例如,其設(shè)計和實施在Athanasios Papoulis所著的“Probability,Random Variables and Stochastic Processes”,McGraw-Hill series in Electrical Engineering,1984,pp458ff中有述。Kalman濾波器137更新存儲在存儲器148中矩陣B的元素。這對不同濾波器組頻道之間如發(fā)生在不同聲道長度講話人之間的能量系統(tǒng)移動提供補償,并且對如前所述的麥克風和頻道影響提供補償。補償單元118可以添加一個矢量,而且除了提供頻移之外,還執(zhí)行矩陣乘法運算以補償附加的雜音。
另一方面,對頻移的補償可以通過改變?yōu)V波器組分析中所執(zhí)行的分配操作(binning operation)(求頻率均值)來應(yīng)用。
在系統(tǒng)10或100中,計算機24或124所實現(xiàn)的模型參數(shù)可以適于例如改進對講話人所說口音或方言的建模。
本發(fā)明還可以用于其他識別技術(shù)。它可以用來識別來自麥克風的非語音聲音,以檢測預定的結(jié)果。另一方面,它可以補償來自電視攝像機的數(shù)據(jù)中的闡述程度,例如在Brooke,Tomlinson和Moore于“Automatic Speech Recognition that Includes Visual Speech Cues”inProc.Inst.Acoustics.1994 Autumn Conference,Windemere,pp15-22中所公開的唇讀中那樣。它還可以用于一些技術(shù),在這些技術(shù)中,將數(shù)據(jù)映射到維數(shù)減少的特征空間內(nèi),以使雜音或者其他多余量的影響最小。特別是這些技術(shù)用于處理雷達數(shù)據(jù)。對系統(tǒng)失真過程的補償常??赡艽嬖谟跀?shù)據(jù)域中而不易于用在模型域中。
本發(fā)明尤其可以用于一種雷達成像傳感器中,這種傳感器的波長為毫米級。數(shù)據(jù)矢量代表一個場景的二維圖像。數(shù)據(jù)矢量的變換可以是二維、切去頂部的快速傅里葉變換,從而能夠匹配給目標對象的模型。然后可以對雷達圖像平面內(nèi)的失真進行補償。
權(quán)利要求
1.一種用來使多維數(shù)據(jù)矢量與預定模型相關(guān)聯(lián)的識別系統(tǒng),包括a)補償裝置(18),用來補償數(shù)據(jù)矢量中的失真,b)匹配裝置(24),用來使每個補償數(shù)據(jù)矢量與一適當模型相關(guān)聯(lián),其特征在于c)模型的維數(shù)比數(shù)據(jù)矢量的維數(shù)少,d)匹配裝置(24)包括變換裝置(22),變換裝置(22)用來在失真補償之后對數(shù)據(jù)矢量進行變換,用以將它們的維數(shù)降低到模型的維數(shù),e)該系統(tǒng)(10)包括逆變換裝置(28),逆變換裝置(28)通過對所述變換進行逆變換而從相關(guān)模型中得到一數(shù)據(jù)矢量估計值,并且f)該系統(tǒng)(10)還包括推導裝置(30),推導裝置(30)用來從數(shù)據(jù)矢量估計值和其對應(yīng)的數(shù)據(jù)矢量中得出補償量,以用于補償裝置所進行的失真補償中。
2.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于,逆變換裝置(28)設(shè)置成能夠?qū)崿F(xiàn)所述變換的偽逆,并且能夠通過包含一種方式下的信息而將模型維數(shù)增加到數(shù)據(jù)矢量維數(shù),所述方式是,變換裝置(22)根據(jù)數(shù)據(jù)矢量估計值進行工作以降低其會導致這種信息丟失的維數(shù)。
3.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,變換裝置(22)設(shè)置成能夠把矩陣A所代表的變換應(yīng)用于數(shù)據(jù)矢量,逆變換裝置(28)設(shè)置成能夠?qū)崿F(xiàn)矩陣A-所代表的偽逆模型變換,矩陣A和A-滿足以下關(guān)系A(chǔ)A-A=A。
4.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,推導裝置(30)設(shè)置成能夠通過在一個作用范圍內(nèi)求均值而從數(shù)據(jù)矢量估計值和數(shù)據(jù)矢量以及一個以上類似種類的在前各量中得到一個補償量。
5.根據(jù)權(quán)利要求2的系統(tǒng),設(shè)置該系統(tǒng)用于語音識別,其特征在于,這些數(shù)據(jù)矢量代表作為頻率函數(shù)的語音信號。
6.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,這些數(shù)據(jù)矢量組成至少一部分視頻圖像數(shù)據(jù)。
7.根據(jù)權(quán)利要求6的系統(tǒng),設(shè)置該系統(tǒng)用于語音識別,其特征在于,這些數(shù)據(jù)矢量代表一語音信號的一部分和講話人的部分特征。
8.根據(jù)權(quán)利要求2的系統(tǒng),設(shè)置該系統(tǒng)用于語音識別,其特征在于,這些數(shù)據(jù)矢量代表一語音信號,匹配裝置(24)設(shè)置成能夠?qū)崿F(xiàn)隱含Markov模型匹配,而逆變換裝置(28)設(shè)置成能夠根據(jù)與變換數(shù)據(jù)矢量相關(guān)的模型概率分布計算出的數(shù)據(jù)產(chǎn)生矢量估計值。
9.根據(jù)權(quán)利要求8的系統(tǒng),其特征在于,匹配裝置(24)設(shè)置成能夠?qū)崿F(xiàn)分段隱含Markov模型匹配,而逆變換裝置(28)設(shè)置成能夠根據(jù)對匹配裝置(24)所計算出的分段軌跡的估計產(chǎn)生數(shù)據(jù)矢量估計值。
10.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,匹配裝置(24)設(shè)置成能夠指出多個模型類別中哪一個與每個變換數(shù)據(jù)矢量相關(guān)聯(lián)。
11.根據(jù)權(quán)利要求10的系統(tǒng),其特征在于,匹配裝置(24)設(shè)置成能夠?qū)崿F(xiàn)每個模型類別的各自那組模型,推導裝置(30)設(shè)置成能夠得到每個模型類別的各自補償量,而補償裝置(18)設(shè)置成能夠根據(jù)模型類別有選擇地應(yīng)用補償。
12.根據(jù)權(quán)利要求11的系統(tǒng),其特征在于,匹配裝置(24)設(shè)置成能夠?qū)崿F(xiàn)兩個講話人中每一個的各自那組模型。
13.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,變換裝置(22)設(shè)置成能夠?qū)崿F(xiàn)一頻移,以抵消觀測數(shù)據(jù)矢量與匹配裝置(24)采用模型所對應(yīng)的數(shù)據(jù)矢量之間的差。
14.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,變換裝置(22)設(shè)置成能夠借助一帶狀矩陣實現(xiàn)補償。
15.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,推導裝置(30)設(shè)置成能夠根據(jù)Kalman濾波法更新補償值。
16.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,變換裝置(22)設(shè)置成能夠應(yīng)用一余弦變換,在該余弦變換中,舍去了某些系數(shù)以減少數(shù)據(jù)矢量維數(shù)。
17.根據(jù)權(quán)利要求2的系統(tǒng),設(shè)置該系統(tǒng)用于存在失真時的語音識別,其特征在于,逆變換裝置(28)和推導裝置(30)設(shè)置成能夠?qū)σ韵虏糠种兄辽僖粋€提供補償a)變化的語音信號電平,b)麥克風位置的變化,c)麥克風類型的變化,d)語音信號線特性的變化,e)背景雜音水平,f)頻移,g)講話人闡述音量h)闡述方向,i)講話人特征的幾何失真。
18.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,推導裝置(30)設(shè)置成能夠抵消可能以其他方式影響補償?shù)臄?shù)據(jù)矢量所表現(xiàn)出的隨機變化。
19.根據(jù)權(quán)利要求2的系統(tǒng),設(shè)置該系統(tǒng)用來通過每一個數(shù)據(jù)矢量提供該系統(tǒng)的雙路傳輸,其特征在于,補償裝置設(shè)置成能夠以第二個這樣的傳輸進行工作并且提供待加到一數(shù)據(jù)矢量上的補償量,該補償量是從該數(shù)據(jù)矢量中得到的。
20.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于,匹配裝置(24)設(shè)置成能夠?qū)ψR別誤差的校正執(zhí)行部分追溯,而且,它與逆變換裝置(28)和推導裝置(30)相結(jié)合,就能夠?qū)υ谶@些誤差基礎(chǔ)上產(chǎn)生的補償提供校正。
21.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于a)補償裝置設(shè)置成能夠通過修改具有多個補償量的每個數(shù)據(jù)矢量來補償多種形式的失真,從而提供各組修改的數(shù)據(jù)矢量,這些矢量對與各個數(shù)據(jù)源相關(guān)的各種形式失真進行補償,b)變換裝置設(shè)置成能夠變換每組修改的數(shù)據(jù)矢量,以提供各自的變換數(shù)據(jù)矢量,c)匹配裝置設(shè)置成能夠確定每組中哪個變換數(shù)據(jù)矢量最適合一個模型,并且為該變換數(shù)據(jù)矢量指示出一個相應(yīng)的數(shù)據(jù)源,d)推導裝置設(shè)置成能夠根據(jù)確定的最佳適合量得到補償量,所述確定的最佳適合量用于補償與匹配裝置所指示數(shù)據(jù)源相關(guān)的失真形式。
22.一種使預定多維模型與數(shù)據(jù)矢量相關(guān)聯(lián)的方法,包括以下步驟a)補償數(shù)據(jù)矢量中的失真,b)在失真補償之后對數(shù)據(jù)矢量進行變換,用以將它們的維數(shù)減少到模型的維數(shù),c)使每個變換數(shù)據(jù)矢量與各個模型相關(guān)聯(lián),其特征在于,這些數(shù)據(jù)矢量的維數(shù)比模型的維數(shù)高,該方法還包括d)使所述變換逆變換,從而從相關(guān)的模型中得到一個數(shù)據(jù)矢量估計值,e)從該數(shù)據(jù)矢量估計值及其對應(yīng)的矢量中得到一個補償量,并且用該補償量對失真補償數(shù)據(jù)矢量。
23.根據(jù)權(quán)利要求22的方法,其特征在于,借助所述變換的偽逆實現(xiàn)步驟(d)中的逆變換,該逆變換通過包含一種方式下的信息使模型維數(shù)增加到一數(shù)據(jù)矢量的維數(shù),所述方式是,對該數(shù)據(jù)矢量估計值進行變換以降低導致這種信息丟失的維數(shù)。
全文摘要
一種識別系統(tǒng)(10)包括一濾波器組分析器(16),該分析器(16)在一語音信號中產(chǎn)生二十六個頻率間隔的能量值的連續(xù)數(shù)據(jù)矢量。單元(18)對每個矢量中的頻譜失真進行補償。補償矢量被變換為十二維的特征矢量,并且在一計算機(24)中匹配有隱含Markov模型狀態(tài)。每個匹配模型狀態(tài)都有一均值,該值是語音特征矢量的估計值。一匹配逆變換器(28)通過一偽逆變換在頻率空間內(nèi)產(chǎn)生語音數(shù)據(jù)矢量的估計值。它包括將在以后向頻率空間變換時丟失的信息。將該估計數(shù)據(jù)矢量與它的相關(guān)語音信號數(shù)據(jù)矢量相比較,無限沖激響應(yīng)濾波器(44)對它們與其他矢量之間的差求均值。如此產(chǎn)生的均差值矢量被單元(18)用于補償語音數(shù)據(jù)矢量。
文檔編號G10L15/065GK1251194SQ9880364
公開日2000年4月19日 申請日期1998年2月24日 優(yōu)先權(quán)日1997年3月25日
發(fā)明者K·M·龐廷, R·W·瑟里斯, M·J·湯姆林森 申請人:英國國防部