專利名稱:為話音識別導(dǎo)出壓縮聲學(xué)模型的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及為話音識別導(dǎo)出壓縮聲學(xué)模型的方法。
背景技術(shù):
話音識別(或者更常見的叫法是自動話音識別)有許多應(yīng)用,例如自動語音響應(yīng)、 語音撥號和數(shù)據(jù)輸入等等。話音識別系統(tǒng)的性能通常基于準(zhǔn)確性和處理速度,并且挑戰(zhàn)在 于在不影響準(zhǔn)確性或處理速度的情況下設(shè)計具有更低處理功率和更小存儲器大小的話音 識別系統(tǒng)。近年來,對于也需要某種形式的話音識別應(yīng)用的更小且更緊湊的設(shè)備,這個挑戰(zhàn) 更大。 在Enrico Bocchieri禾口 Brian Kan-Wing Mak的論文"SubspaceDistribution Clustering Hidden Markov Model", IEEE transactions on Speechand Audio Processing, Vol. 9,No. 3,March 2001中,提出了一種方法,其減小聲學(xué)模型的參數(shù)空間,從 而帶來了存儲器和計算的節(jié)省。然而,所提出的方法仍然需要相對大量的存儲器。
本發(fā)明的一個目的是提供一種為話音識別導(dǎo)出壓縮聲學(xué)模型的方法,這種方法向 公眾提供了一種有用的選擇并且/或者減輕了現(xiàn)有技術(shù)的缺陷中的至少一個。
發(fā)明內(nèi)容
本發(fā)明提供了一種為話音識別導(dǎo)出壓縮聲學(xué)模型的方法。該方法包括(i)將一 聲學(xué)模型變換到本征空間(eigenspace)中,以獲得該聲學(xué)模型的本征矢量及其本征值; (ii)基于每個本征矢量的每個維度的本征值,來確定主導(dǎo)特性;以及(iii)基于主導(dǎo)特性 對維度進行選擇性編碼,以獲得壓縮聲學(xué)模型。 通過使用本征值,這提供了用于確定聲學(xué)模型的每個維度的重要性的手段,而重 要性形成了選擇性編碼的基礎(chǔ)。這樣,與倒譜空間(c印stralspace)中相比,這創(chuàng)建了大小 大大降低的壓縮聲學(xué)模型。 對于編碼,優(yōu)選標(biāo)量量化,因為這種量化是"無損"的。 優(yōu)選地,確定主導(dǎo)特性包括識別高于閾值的本征值。與具有低于閾值的本征值的
維度相比,與高于閾值的本征值相對應(yīng)的維度可用較高的量化大小來編碼。 有利地,在選擇性編碼之前,該方法包括對經(jīng)變換的聲學(xué)模型進行規(guī)格化
(normalization)以將每個維度轉(zhuǎn)換成標(biāo)準(zhǔn)分布。選擇性編碼于是可包括基于統(tǒng)一量化碼
書來對每個經(jīng)規(guī)格化的維度進行編碼。優(yōu)選地,碼書具有一字節(jié)大小,但這并不是絕對必
要,而是可取決于應(yīng)用。 如果使用一字節(jié)碼書,則優(yōu)選地,具有高于重要性閾值的重要性特性的經(jīng)規(guī)格化 的維度被用一字節(jié)碼字來編碼。另一方面,具有低于重要性閾值的重要性特性的經(jīng)規(guī)格化 的維度被用小于1字節(jié)的碼字來編碼。 本發(fā)明還提供了用于為話音識別導(dǎo)出壓縮聲學(xué)模型的裝置/系統(tǒng)。該裝置包括 用于將一聲學(xué)模型變換到本征空間中以獲得該聲學(xué)模型的本征矢量及其本征值的裝置,用于基于每個本征矢量的每個維度的本征值來確定主導(dǎo)特性的裝置,以及用于基于主導(dǎo)特性 對維度進行選擇性編碼以獲得壓縮聲學(xué)模型的裝置。
現(xiàn)在將參考附圖以示例方式描述本發(fā)明的實施例,附圖中, 圖1是示出用于為話音識別導(dǎo)出本征空間中的壓縮聲學(xué)模型的處理的總概況的 框圖; 圖2是更詳細(xì)示出圖1的處理并且還包括解碼和解壓縮步驟的框圖; 圖3是未壓縮聲學(xué)模型的線性變換的圖形表示; 包括圖4a至4c的圖4是示出在規(guī)格化后本征矢量的維度的標(biāo)準(zhǔn)正態(tài)分布的曲線 圖; 圖5示出了有和沒有判別分析(discriminant analysis)的不同編碼技術(shù);并且 圖6是示出不同的模型壓縮效率的表格。
具體實施例方式
圖1是示出本發(fā)明的用于導(dǎo)出壓縮聲學(xué)模型的優(yōu)選處理的總概況的框圖。在步驟 10,原始的未壓縮聲學(xué)模型首先被轉(zhuǎn)化并被表示在倒譜空間中,并且在步驟20,倒譜聲學(xué)模 型被轉(zhuǎn)換到本征空間中,以確定倒譜聲學(xué)模型的哪些參數(shù)是重要/有用的。在步驟30,聲學(xué) 模型的參數(shù)基于重要性/有用性特性被編碼,然后,經(jīng)編碼的聲學(xué)特征在步驟40和50中被 集合在一起,作為本征空間中的壓縮模型。 現(xiàn)在將通過參考圖2來更詳細(xì)描述上述步驟中的每一個。 在步驟IIO,在倒譜空間中表示未壓縮的原始信號模型,例如話音輸入。取未壓縮 原始信號模型的采樣,以形成倒譜空間中的模型112。倒譜空間中的模型112形成后續(xù)數(shù)據(jù) 輸入的基準(zhǔn)。然后在步驟120使倒譜聲學(xué)模型數(shù)據(jù)經(jīng)歷判別分析。將線性判別分析(LDA) 矩陣用于未壓縮的原始信號模型(以及采樣)以將倒譜空間中的未壓縮原始信號模型(以 及采樣)變換成本征空間中的數(shù)據(jù)。應(yīng)當(dāng)注意,未壓縮的原始信號模型是矢量,因此包括量 值和方向。 A.判別分析 通過線性判別分析,考察、評估并過濾就聲學(xué)分類而言最主導(dǎo)的信息。這是基于這
樣一個現(xiàn)實的在話音識別中,準(zhǔn)確地處理所接收的話音是很重要的,但可能并不需要對話
音的所有特征編碼,因為一些特征可能是不必要的,而不會對識別的準(zhǔn)確性有影響。 假定R〃是原始特征空間,該空間是n維超空間。每個x G R〃具有在ASR系統(tǒng)中
有意義的類標(biāo)簽。接下來,在步驟130,目標(biāo)是通過轉(zhuǎn)換到本征空間中,來找到優(yōu)化變換空間
y G RP中的分類性能的線性變換(LDA矩陣)A,該變換空間是p維超空間(通常,p《n),
射 y = Ax 其中y是本征空間中的矢量,x是倒譜空間中的數(shù)據(jù)。
在LDA(線性判別分析)理論中,可以根據(jù)下式來找到A
E—1 E BrO =①A
其中e和e Bc分別是類內(nèi)(WC)和跨類(BC)協(xié)方差矩陣,A和①分別是M、c 的本征值和本征矢量的n n矩陣。 A是通過選擇與p個最大本征值相對應(yīng)的p個本征矢量來構(gòu)造的。當(dāng)根據(jù)y和x 正確導(dǎo)出A時,則導(dǎo)出了優(yōu)化聲學(xué)分類的LDA矩陣,該LDA矩陣幫助考察、評估和過濾未壓 縮的原始信號模型。 圖3圖示出了線性變換的最終結(jié)果,以揭示一有用維(Dim)和一個無用維(Dim) (其沒有有用信息)上的兩類數(shù)據(jù)。這些類數(shù)據(jù)例如可以是音素、雙音素、三音素等等。第 一橢圓114和第二橢圓116都表示由于高斯分布而得到的數(shù)據(jù)的區(qū)域。第一鐘形曲線115 是由于把點從第一橢圓114內(nèi)投影到第一子軸118上而得到的。類似地,第二鐘形曲線117 是由于把點從第二橢圓116內(nèi)投影到第一子軸118上而得到的。第一子軸118是利用對第 一橢圓114和第二橢圓116中示出的數(shù)據(jù)區(qū)域的LDA來導(dǎo)出的。與第一子軸118正交的第 二子軸119被插入在第一橢圓114與第二橢圓116之間的交點處。第二子軸119明顯地把 數(shù)據(jù)點分到不同類中,而第一橢圓114和第二橢圓116只是不同類的近似區(qū)域。因此,根據(jù) 分開的數(shù)據(jù)區(qū)域的相對位置來確定未壓縮的原始信號模型中存在的類。這個技術(shù)主要可用 于分開兩類數(shù)據(jù)。每類數(shù)據(jù)也可被稱為聲學(xué)信號的一個特征。 正如將會明白的,根據(jù)兩類的數(shù)據(jù)分布,通過LDA,可以確定按基于本征值的主導(dǎo) 性或重要性的順序定義的相應(yīng)本征矢量的本征值。換言之,對于LDA,較高的本征值表示更 有判別性的信息,而較低的本征值表示判別性較低的信息。 在聲學(xué)信號的每個特征基于其在話音識別中的主導(dǎo)特性被分類之后,聲學(xué)數(shù)據(jù)在 140被規(guī)格化。 B.本征空間中的規(guī)格化
本征空間中的均值估計
1 r p = ^(y,) = ^Zy,
J (=i 本征空間中的標(biāo)準(zhǔn)方差估計 e = E ((yt_E (yt)) (yt_E (yt))T) = E (ytytT) _E (yt) E (yt)T 1 r s 、Zy/y'-p、 規(guī)格化 夂=^T"S血g)' (y, — a0 其中yt 二本征空間矢量,E(y》=yt的期望,e diag =方差的對角線上的元素的協(xié) 方差矩陣,T =時間。 話音特征被假定為高斯分布,此規(guī)格化將每個維度轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布N(i!, o),其中y =0并且o = 1(參見圖4a至4c)。
此規(guī)格化為模型壓縮提供了兩個優(yōu)點 第一,由于所有維度共享相同的統(tǒng)計特性,因此對于每一個維度處的模型編 碼-解碼,可采用統(tǒng)一的奇異碼書(singular codebook)。不需要為不同的維度設(shè)計不同的 碼書,或者使用其他種矢量碼書。這可以節(jié)省用于模型存儲的存儲器空間。如果碼書的大 小被定義為28 = 256,則一個字節(jié)就足以表示一個碼字。
5
第二,由于碼書的動態(tài)范圍與浮點表示相比是有限的,因此模型編碼-解碼在浮 點數(shù)據(jù)落在碼書的范圍之外(例如溢出、截短和飽和)時會帶來嚴(yán)重的問題,這最終將導(dǎo)致 ASR性能劣化。利用這種規(guī)格化,可以有效地控制這種轉(zhuǎn)換損失。例如,如果定點范圍被設(shè) 定為±3o置信區(qū)間,則在編碼-解碼中導(dǎo)致飽和問題的數(shù)據(jù)百分比將為 <formula>formula see original document page 6</formula> 已經(jīng)發(fā)現(xiàn),這個微小的編碼_解碼誤差/損失在ASR性能中是觀測不到的。
C.基于判別能力的不同編碼_解碼精度 在模型被規(guī)格化后,其在150經(jīng)歷基于1字節(jié)的量化碼書大小的、對聲學(xué)模型的均 值矢量和協(xié)方差矩陣的判別或選擇性編碼。與較大本征值相對應(yīng)的本征矢量上的LDA投影 被認(rèn)為對于分類更重要。本征值越大,其相應(yīng)方向就ASR而言的重要性就越高。因此,最大 碼字大小被用于表示類。 分離"較大本征值"和其他本征值的閾值是通過交叉驗證實驗來確定的。首先,留 出訓(xùn)練數(shù)據(jù)和訓(xùn)練模型的一部分。然后,基于被留出的數(shù)據(jù)來評估ASR性能。對于不同的 閾值重復(fù)訓(xùn)練和評估ASR性能的這個處理,直到找到提供最佳識別性能的閾值為止。
由于本征空間中的維度對于語音分類具有不同的重要性特性,因此在不影響ASR 性能的情況下,使用具有不同精度的不同壓縮策略。另外,由于聲學(xué)模型的所有參數(shù)都是多 維矢量或矩陣,因此對每個模型參數(shù)的每一維實現(xiàn)標(biāo)量編碼。這一點尤其有利,因為標(biāo)量編 碼是"無損"的。在這個情況下,標(biāo)量編碼與普遍存在的矢量量化(VQ)相比是"無損"的。 VQ是有損壓縮方法。要減小量化誤差則必須增大VQ碼書的大小。然而,較大的碼書導(dǎo)致較 大的壓縮模型大小和較慢的解碼處理。另外,難以用有限的訓(xùn)練數(shù)據(jù)來可靠地"訓(xùn)練"大VQ 碼書。這個困難之處將降低話音識別的準(zhǔn)確性。應(yīng)當(dāng)注意,標(biāo)量碼書的大小要小得多。這 相應(yīng)地有助于提高解碼速度。與大VQ碼書相比,用有限地訓(xùn)練數(shù)據(jù)也可以更可靠地估計小 標(biāo)量碼書。利用小標(biāo)量碼書還可幫助避免由量化誤差引起的額外準(zhǔn)確性損失。因此,就具 有有限訓(xùn)練數(shù)據(jù)的話音識別而言,標(biāo)量量化勝過VQ。 選擇性編碼在圖5中示出,其中具有較高本征值的維度被用最大限度的8比特(1 字節(jié))來編碼,而具有較低本征值的維度被利用較低的比特來編碼。通過該選擇性編碼,將 會明白,可以實現(xiàn)存儲器大小的減小。 在選擇性編碼之后,在160導(dǎo)出本征空間中的壓縮模型。本征空間中的壓縮模型 遠(yuǎn)小于倒譜空間中的數(shù)據(jù)。 圖2還示出了解碼步驟170和180,其中,如有必要,壓縮模型被以判別方式解碼, 并且壓縮模型被解壓縮以獲得原始的未壓縮模型。 壓縮效率的示例在圖6中示出,圖6是示出與本發(fā)明提出的選擇性壓縮技術(shù)相比 的均等壓縮技術(shù)的壓縮比率的表格??梢钥闯?,選擇性壓縮技術(shù)可實現(xiàn)更高的壓縮比率。
現(xiàn)在已經(jīng)完整描述了本發(fā)明,本領(lǐng)域的普通技術(shù)人員應(yīng)該清楚,在不脫離所要求 保護的范圍的情況下,可以對本發(fā)明做出許多修改。
權(quán)利要求
一種為話音識別導(dǎo)出壓縮聲學(xué)模型的方法,該方法包括(i)將一聲學(xué)模型變換到本征空間中,以獲得該聲學(xué)模型的本征矢量及其本征值;(ii)基于每個本征矢量的每個維度的本征值,來確定主導(dǎo)特性;以及(iii)基于主導(dǎo)特性對維度進行選擇性編碼,以獲得壓縮聲學(xué)模型。
2. 根據(jù)權(quán)利要求1所述的方法,其中,對維度編碼包括在本征空間中對維度的標(biāo)量量化。
3. 根據(jù)權(quán)利要求1所述的方法,其中,確定主導(dǎo)特性包括識別高于閾值的本征值。
4. 根據(jù)權(quán)利要求3所述的方法,其中,與具有低于閾值的本征值的維度相比,與高于閾 值的本征值相對應(yīng)的維度被用較高的量化大小來編碼。
5. 根據(jù)權(quán)利要求l所述的方法,還包括在選擇性編碼之前,對經(jīng)變換的聲學(xué)模型進行 規(guī)格化以將每個維度轉(zhuǎn)換成標(biāo)準(zhǔn)分布。
6. 根據(jù)權(quán)利要求5所述的方法,其中,選擇性編碼包括基于統(tǒng)一量化碼書來對每個經(jīng) 規(guī)格化的維度進行編碼。
7. 根據(jù)權(quán)利要求5所述的方法,其中,碼書具有一字節(jié)大小。
8. 根據(jù)權(quán)利要求6所述的方法,其中,具有高于重要性閾值的重要性特性的經(jīng)規(guī)格化的維度被用一字節(jié)碼字來編碼。
9. 根據(jù)權(quán)利要求6所述的方法,其中,具有低于重要性閾值的重要性特性的經(jīng)規(guī)格化的維度被用小于1字節(jié)的碼字來編碼。
全文摘要
這里公開了一種為話音識別導(dǎo)出壓縮聲學(xué)模型的方法。在所描述的實施例中,該方法包括在步驟(20)將一聲學(xué)模型變換到本征空間中,確定本征空間的本征矢量及其本征值,并且在步驟(30)基于本征空間的值對本征矢量的維度進行選擇性編碼,以在步驟(40和50)獲得壓縮聲學(xué)模型。
文檔編號G10L15/00GK101785049SQ200880100568
公開日2010年7月21日 申請日期2008年6月16日 優(yōu)先權(quán)日2007年7月26日
發(fā)明者張化云, 許軍 申請人:創(chuàng)新科技有限公司