專利名稱:用于語音識別的聲調特性的制作方法
技術領域:
本發(fā)明涉及諸如漢語普通話那樣的聲調(tone)語言的自動識別。
語音識別系統(tǒng),諸如大詞匯量連續(xù)語音識別系統(tǒng),典型地使用聲音/音素模型和語言模型來識別語音輸入模式。在識別語音信號之前,信號在頻譜域和/或時間域上被分析,以便計算一個特性的代表性矢量(觀察矢量,即OV)。典型地,語音信號被數(shù)字化(例如,以6.67kHz速率進行采樣)以及被預處理,例如,施加預加重。接連的樣本被編組(成塊)為相應于20或32毫秒的語音信號幀。各個相繼的幀部分地重疊,例如分另重疊10或16毫秒。線性預測編碼(LPC)頻譜分析方法經常被使用來為每個幀計算其特性的代表性矢量(觀察矢量)。特性矢量可以具有24,32或63個分量。然后使用聲音模型來對給定的字串估計觀察矢量序列的概率。對于大詞匯量的系統(tǒng),這通常是通過把觀察矢量與語音識別單元目錄進行匹配而實施的。語音識別單元用一系列聲音參考來表示。例如,一個字或甚至一組字可以用一個語音識別單元來表示。另外,使用了基于語音的子字單元,諸如音素,復音,或音節(jié),以及衍生單元,諸如fenenes和fenones。對于基于子字的系統(tǒng),子模型由詞典給出,它描述與詞匯表中的字有關的子字單元序列,子模型也由子字模型給出,它描述涉及的語音識別單元的聲音基準序列。(子)字模型典型地是基于隱藏馬爾可夫模型(HMM),這些模型被廣泛使用來給語音信號建立隨機模型。把觀察矢量與所有的語音識別單元序列進行匹配,給出矢量與序列之間的匹配的概率。如果使用子字單元,則詞典把可能的子字單元序列限制在詞典中的序列。語言模型還對匹配施加進一步限制,以使得所研究的路徑是相應于如語言模型規(guī)定的適當?shù)男蛄械淖中蛄械哪切┞窂健⒙曇裟P偷慕Y果與語音模型的結果的組合就產生識別了的句子。
大多數(shù)現(xiàn)有的語音識別系統(tǒng)主要是對于西方語言(如英語或德語)被開發(fā)的。由于基于西方的語言中字的聲調不影響意義,在音調(pitch)輪廓中反映的聲調的聲音識別被認為是噪聲或被丟棄。特性矢量和聲音模型并不包括聲調信息。對于像漢語那樣的、所謂的聲調語言,聲調信息影響發(fā)言表達的意義。詞匯聲調發(fā)音成為在漢語字符的正確發(fā)音中的一部分,并通過聲音跡象(諸如音調輪廓)而被反映。例如,幾乎遍及世界范圍的語言即漢語普通話具有五個不同的聲調(音節(jié)音調輪廓內的原型),通常表征為“高”(平坦的基本頻率F0輪廓(即陰平)),“上升”(上升的F0輪廓(即陽平)),“低-上升”(低的輪廓,或平坦或下沉(即上聲)),“下降”(可能是來自高的F0的下降的輪廓(即去聲)),和“自然的”(自然的,其特征可能為來自低的F0的小而短的下降輪廓(即輕聲))。在連續(xù)語音中,低-上升聲調可被看作為“低的”聲調。用不同的聲調發(fā)音的同一個音節(jié)常常具有完全不同的意義。漢語普通話聲調模型直觀地是基于這樣的事實人們能夠直接從發(fā)音的基本頻率的模式中識別出所講的漢語普通話字符的詞匯聲調。
因此,當開發(fā)高精度聲調語言語音識另器時希望使用詞匯的聲調信息作為知識源之一。為了匯集聲調模型,希望確定要合并到現(xiàn)有的聲音模型中或在附加的聲調模型中的適當?shù)奶匦?。已經獲知,使用音調(基頻,F(xiàn)0)或對數(shù)音調來作為聲調特性矢量中的一個分量。聲調的特性矢量典型地還包括音調的一階導數(shù)(以及任選地二階導數(shù))。在多通道系統(tǒng)中,能量和持續(xù)時間信息也常常被包括在聲調特性矢量中。音調的測量在近幾十年來一直是研究的課題?;疽粽{檢測算法(PDA)的一個共同的問題是出現(xiàn)多重/子多重總體音調誤差。在對于普通發(fā)話調模型的經典方法中,語音信號被加以分析以便去確定它是發(fā)聲(voiced)或不發(fā)聲(unvoiced)的。預處理前端必須可靠地估計音調而不引入多重/子-多重音調誤差。這大多數(shù)是通過精細調節(jié)在多重音調誤差和子-多重音調誤差之間的門限值、或通過對可能的音調移動的局部約束而完成的。典型地,音調估值可通過下列方式而得到改善,即使得語音信號內的相似性最大化,以便經過平滑(例如,中值濾波器)并連同以前的、關于合理的音調范圍與移動的知識而抵制多重/子-多重音調誤差。每個已識別的字符或音節(jié)的詞匯聲調由隨機HMM算法獨立地譯碼。這種方法具有許多缺陷。詞匯聲調只存在于漢語字符的發(fā)聲段,所以希望提取對于語音的發(fā)聲段的音調輪廓。然而,對于語音段特別難作出發(fā)聲-不發(fā)聲判決。發(fā)聲-不發(fā)聲判決不能在預處理前端級別上被可靠地確定。另一個缺點是,平滑濾波器的平滑系數(shù)(門限值)是與主體很相關的。另外,這種類型的聲調模型的結構太復雜而不能在實時的、大詞匯量的口述系統(tǒng)(它是當今主要在個人計算機上執(zhí)行的)上應用。為了克服多重/子-多重音調誤差,還結合音調輪廓的連續(xù)性特征的知識一起使用了動態(tài)編程(DP)技術。然而,普通的基于發(fā)聲性質的DP禁止它在在線系統(tǒng)中使用,本發(fā)明的一個目的是改進從語音信號中的聲調特性提取。另一個目的是,規(guī)定適合于自動識別以聲調語言形式所講的言語的除了音調以外的語音特性矢量的分量。
為了改進聲調特性的提取,引入以下的算法改進-一種音調提取技術的兩步方法-在低分辨率下,確定音調輪廓,優(yōu)選地在頻域中進行確定。
-在高分辨率下進行精細調節(jié),優(yōu)選地是在時域中通過在包含一個以上的完整的音調周期的分析窗口中在準周期信號內使歸一化的相關性最大化。
-低分辨率音調輪廓判決優(yōu)選地包括-優(yōu)選地根據(jù)頻域中子諧波的相加來確定基于語音信號內類似性量度的音調信息,-通過使用動態(tài)編程(DP)來消除多重/子-多重音調誤差。動態(tài)編程優(yōu)選地包括-為了效率,進行自適應射束切除(beam-pruning);-為了保證最大延時,進行固定長度的局部追溯;以及-跨接不發(fā)聲段和靜默段。
這些改進可以與傳統(tǒng)技術相組合,被組合地或獨立地使用。
為了改進特性矢量,語音特性矢量包括一個代表與特性矢量有關的語音段的估值的發(fā)聲強度的分量。在優(yōu)選實施例中,特性矢量還包括一個代表語音段的估值的發(fā)聲強度的一次或二次導數(shù)的分量。在一個實施例中,特性矢量包括一個代表語音段的估值的音調的一次或二次導數(shù)的分量。在一個實施例中,特性矢量包括一個代表語音段的音調的分量。優(yōu)選地,通過減去平均的相鄰音調而使音調被歸一化,以消除講話者和詞組的影響。有利地,歸一化是基于使用發(fā)聲強度作為加權因子而實行的。將會理解,矢量分量可以包括有關參量的本身或參量的任何適當?shù)牧慷?,例如對?shù)。
應當指出,也使用了一種簡化的普通話聲調模型。在這樣的模型中,可以通過從發(fā)聲段到不發(fā)聲段的內插/外推而創(chuàng)建偽音調,因為發(fā)聲/不發(fā)聲判決不能可靠地確定。發(fā)聲強度的知識還沒有付諸實際使用。省略發(fā)聲強度的知識是不希望的,因為發(fā)聲強度的確是改進識別的知識源。例如,音調的移動在發(fā)聲段中相當慢(1%/1ms),但在發(fā)聲-不發(fā)聲或不發(fā)聲-發(fā)聲的段中卻很快速地跳躍。按照本發(fā)明的系統(tǒng)考察了發(fā)聲強度的知識。
從附圖所示的實施例,將明白本發(fā)明的這些和其它方面,以及參照這些實施例加以說明。
圖1說明聲調特性的三階段提??;圖2顯示測量音調的流程圖;圖3顯示帶有追溯和自適應切除的動態(tài)編程的流程圖;圖4顯示音調輪廓與發(fā)聲強度的例子;圖5顯示把F0輪廓分解為語匯聲調影響、詞組語調影響、和隨機噪聲影響的流程圖;圖6A和6B顯示加權濾波的使用;圖7顯示自相關的二階回歸的處理;圖8顯示說明在不發(fā)聲語音段中特性矢量的處理的方框圖;圖9顯示按照本發(fā)明的優(yōu)選實施例的增強的聲調特性提取器的方框圖;以及圖10顯示相應的流程圖。
按照本發(fā)明的語音處理系統(tǒng)可以使用慣用的硬件來實施。例如,語音識另系統(tǒng)可以在計算機(諸如PC機)上實施,其中語音輸入經過話筒被接收,并由傳統(tǒng)的音頻接口卡數(shù)字化。所有附加的處理以由CPU執(zhí)行的軟件程序形式來進行。具體地,語音可以經過電話連接(例如通過使用計算機上的慣用的調制解調器)而被接收。語音處理也可以通過例如使用圍繞DSP構建的專用硬件來實施。由于語音識別系統(tǒng)通常是已知的,這里只更詳細地描述與本發(fā)明有關的細節(jié)。細節(jié)主要是針對于普通話漢語語言給出的。本領域技術人員可容易地把這里顯示的技術適用到其它聲調語言。
圖1顯示從語音信號s(n)中提取觀察矢量ō(t)的聲調特性的三個獨立的處理階段。本發(fā)明給出在所有三個方面的改進。優(yōu)選地,這些改進要組合地使用。然而,在其它階段使用傳統(tǒng)技術的地方,它們可以獨立地被使用。在第一階段,確定一個周期性的量度(即音調)。為此,進入的語音信號s(n)被劃分成重疊的幀,優(yōu)選地具有10毫秒偏移。對于每個在時間t的幀,在一個頻率范圍f內的量度p(f,t)被確定以表示信號對于頻率f呈現(xiàn)怎樣的周期性。正如下面更詳細地描述的,優(yōu)選地,使用子諧波相加(SHS)算法來確定p(f,t)。第二階段引入連續(xù)性約束,以便提高增強性。它的輸出是原來的音調特性的矢量序列,它包含實際的音調估值 和相應的發(fā)聲強度υ (有利地,歸一化的短時間自相關被用作為發(fā)聲強度的量度)。優(yōu)選地,通過使用動態(tài)編程(DP)而施加連續(xù)性約束,正如下面更詳細地描述的。在第三階段,執(zhí)行加標簽的FEAT、后處理和歸一化運算,以及得出矢量o(t)的聲調特性的實際序列。下面將給出細節(jié)。
周期性量度圖2顯示用于確定音調信息的優(yōu)選的方法的流程圖。語音信號可以以模擬形式被接收。如果是這樣,則可以使用AD變換器,把語音信號變換成采樣的數(shù)字信號。從數(shù)字化的語音信號中提取在人的聲帶的物理振動范圍內可能的基頻F0的音調信息。接著,確定周期性量度。大多數(shù)音調確定算法都是基于在預期的F0范圍內對于像p(f,t)那樣的量度實現(xiàn)最大化。在時域中,這樣的量度典型地是基于信號的自相關函數(shù)rs,s,(1/f)或距離量度(像AMDF那樣)。按照本發(fā)明,使用了子諧波相加(SHS)算法,它運行在頻域,并提供子諧波的和作為量度。數(shù)字采樣后的語音信號被發(fā)送到增強的聲調特性提取前端,在其中采樣的語音信號優(yōu)選地首先以小于1250Hz的截止頻率進行低通濾波。在簡單的實施方案中,低通濾波器可用移動的平均FIR濾波器來實現(xiàn)。接著,信號被分段為多個寬度上相等的而時間上重疊的分析門。每個分析門與在語音分析中通常使用的、被稱為漢明(Hamming)窗的核相乘(“開窗口”)。分析窗必須包含至少一個完整的音調周期。音調周期τ的合理的范圍是在2.86ms=0.00286s=1/350≤τ≤1/50=0.020s=20ms之內。這樣,優(yōu)選地,窗口長度至少是20ms。
然后在分析門(也稱為段或幀)中經采樣的語音信號的代表優(yōu)選地用快速富立葉變換(FFT)來計算以產生頻譜。然后,頻譜被平方,從而產生功率譜。優(yōu)選地,幅度譜的峰值為了增強性而被增強。然后,功率譜優(yōu)選地通過三角形核(有利地具有低通濾波器系數(shù)1/4,1/2,1/4)被平滑化而產生平滑的幅度譜。接著,最好對經過核平滑的幅度譜上為Iresolution個點進行立方樣條插補(優(yōu)選地,在低的頻率分辨率下,每個倍頻程不大于16個等距離點,以便快速找出正確的路由)。對經過樣條插補的功率譜的聽覺靈敏度補償優(yōu)選地以對數(shù)頻率標度上的反正切函數(shù)來實現(xiàn)A(log2f)=0.5+tan-1(3.0*log2f)π]]>對于在人的聲帶的物理振動的范圍內的可能的基頻F0,進行子諧波求和以產生音調的信息。Σk=1k=15wk*P(log2(kf))*I(kf<1250)]]>,k=1,2,...,Nsubharmonicswk=(c)k-1,其中P(log2(f))=C(log2(f))*A(log2(f)),其中C(log2(f))是從來自FFT的功率譜S(log2(f))經過樣條插補而來的,c是噪聲補償因子。有利地,對于話筒輸入c=0.84;對于電話輸入c=0.87。f是音調(Hz),50≤f≤350。SHS算法在D.Hermes,“Measurement of pitchby subharmonic summation(用子諧波求和法測量音調)”,J.Acoust.Soc.Am.83(1),January 1988中被詳細地描述,該論文在此引用,以供參考。這里只給出SHS的概要。令st(n)代表在幀t開窗的、進入的語音信號以及令st(f)是它的富立葉變換。從概念上講,基頻是通過計算st(n)被投影在具有f的周期性函數(shù)的子空間上的能量Ef并相對于f進行最大化而被確定的Ef=Σn=-∞∞|St′(nf)|2]]>
在由Hermes描述的、實際的SHS方法中,引入了各種改進方案,通過代之以使用峰值增強的幅度譜|St’|,用代表聽覺系統(tǒng)的靈敏度的濾波器W(f)進行加權,以及借助于快速富立葉變換,內插,使用和在對數(shù)標度上疊加,有效地實現(xiàn)用加權值hi來加權而加重較低的諧波,從而達到p(f,t)=Σn=1Nh1n-1(|St′(nf)|.W(nf))]]>在這個公式中,N代表諧波數(shù)目。
連續(xù)性約束音調的直接估值由 (f,t)給出。然而,由于缺乏對幀的連續(xù)性約束,易于引起所謂的多重/子-多重音調誤差,最主要是由于寬帶噪聲而出現(xiàn)在電話主體中。按照本發(fā)明,動態(tài)編程的原理被用來引入連續(xù)性(在語音的發(fā)聲段)。這樣。音調不是孤立地被估值。而是通過考慮相鄰的幀,音調是按總的最小路徑誤差被估值的?;谠谡Z音的發(fā)聲段中音調的連續(xù)性特征,音調在有限的范圍內變化(約1%/ms)。這個信息可被利用來避免多重/子-多重音調誤差。使用動態(tài)編程可確保音調估值遵從正確的路由。應當看到,在發(fā)聲-不發(fā)聲的語音段上音調急劇地改變。而且,對于給定路徑邊界的全搜索方案是費時的(由于它的不必要的長的處理延時),這使得幾乎不可能在實時系統(tǒng)中以主觀上高的聲調質量實施音調跟蹤。這些缺點可被克服,正如下面更詳細地描述的。
動態(tài)編程連續(xù)性約束可以通過音調檢測而被概括為F^0(1..T)=argmaxF0(1..T)Σt=1Tp(F0(t),t).aF0(t)|F0(t-1)----(1)]]>其中αf2|f1不利于或阻止音調的快速改變。通過量化F0,這個準則可以通過動態(tài)編程(DP)而被求解。
在許多系統(tǒng)中,在靜默和不發(fā)聲區(qū),音調值被設置為0。這導致在發(fā)聲-不發(fā)聲邊界處的零變量和無定義的導數(shù)的問題。已經知道,可通過使音調按指數(shù)下降趨向運行的平均值來跨接這些區(qū)域。有利地,DP提供用于連接不發(fā)聲區(qū)和靜默區(qū)的有效的方法。它導致字節(jié)的音調輪廓(位于字節(jié)的主元音中)的“外推”,在時間上回退到它的初始輔音。已經發(fā)現(xiàn),這可提供附加的有用的信息給識別器。
局部追溯公式(1)需要在音調輪廓可被決定之前處理發(fā)聲的全部T個幀的情形,使得它不太適合于在線運行。按照本發(fā)明,利用DP的路徑合并性質來執(zhí)行局部追溯。追溯方法是在語音識別期間維特比(Viterbi)譯碼中熟知的。所以,這里不再給出更多的細節(jié)。優(yōu)選地使用固定長度局部追溯,它保證最大的延時在每個幀t,局部最好的路徑被確定,并追溯ΔT1幀。如果ΔT1足夠大,則可以預期這樣確定的音調F0(t-ΔT1)是可靠的。實驗表明,延時可被限制為約150ms,它足夠短,從而避免對于用戶來說任何能意識到的延時。
射束切除在以上的形式中,路徑重新組合占用了CPU的主要工作。為了減小工作量,使用射束切除。在其中,射束切除也是在語音識別中熟知的,這里不再更詳細地描述。對于每個幀,僅考慮有希望導致全局最佳的一個路徑子集。具有滿足下式的記分sc(t)的路徑是不連續(xù)的(scopt(τ)=在時間τ時的局部最好記分) 因為效率是主要關心的內容,在不破壞質量條件下,最好盡可能多地切除。在動態(tài)編程步驟中,在發(fā)聲-不發(fā)聲語音段中,即使在應用動態(tài)編程技術后,在估計音調時仍存在劇烈的改變。這是因為在純靜默區(qū)中,沒有周期性信息所有的可能的音調數(shù)值是同樣可能的。理論上,在這一點上不需要切除。另一方面,在純語音區(qū)域中,有許多周期性信息,音調的分布在正確的音調的多重/子多重上有許多峰值。這時,切除某些具有非常低的累積記分的路徑是適當?shù)?。切除準則優(yōu)選地也要考慮靜默的影響。如果在一個句子開始處,存在有大于約1.0秒的靜默區(qū),則最好不應當進行切除。實驗表明,通過切除某些具有“迄今的”累積記分小于“迄今的”最高累積記分的99.9%的路徑,將導致丟失路徑的正確的路由。另一方面,切除某些具有“從0.50s迄今的”累積記分小于“從0.50s迄今的”最高累積記分的99.9%的路徑,那么比起全搜索方案,將導致節(jié)省96.6%循環(huán)消耗。
減小分辨率路徑重新組合的數(shù)目正比于DP的頻率分辨率的平方。通過減小DP中的頻率軸的分辨率,可以達到速度的明顯提高。在每個倍頻程約50個量化步驟時可觀察到較低的分辨率極限。在此以下,DP路徑成為不精確的。已發(fā)現(xiàn),如果每個幀的音調估值 在DP以后在粗略路徑的附近被精細調諧,則極限可被進一步降低到三分之一。優(yōu)選地,這是通過以較高的分辨率使得在來自低分辨率路徑的量化步驟Q(t)內υ(f,t)最大化而被完成的,即F^0(t)=argmaxf∈Q(t)ν(f,t).]]>圖3顯示通過使用本發(fā)明的帶有自適應切除的、使F0的先行局部或然率最大化的優(yōu)選方法的流程圖。概要地,進行以下步驟-計算在語音的發(fā)聲段中每個可能的音調移動的轉移記分。
-計算最大子諧波求和的當前值以及“迄今”累積的路徑記分。
-根據(jù)“迄今”最好的路徑的一定的歷史(追溯長度M)確定自適應切除并計算自適應切除門限,然后根據(jù)周期性程度進行路徑延伸以及根據(jù)自適應切除門限進行切除。
-從某個時間幀(先行追溯長度N)追溯到當前幀,以及只輸出當前時間幀作為穩(wěn)定的粗略音調估值。
-在穩(wěn)定的粗略音調估值的鄰近進行高分辨率、精細的搜索,以便估值精確的音調,以及輸出精確的音調作為先行自適應切除追溯程序的最后的結果。
更詳細地,進行以下步驟。音調信息首先通過計算在發(fā)聲的發(fā)聲段中每個可能的音調移動的轉移概率而被處理,該音調移動優(yōu)選地在ERB聽覺靈敏度標度上被測量。轉移記分的計算可如下地進行PitchMovementScore[k][j]=(1-(PitchMove/MaxMove))*((PitchMove/MaxMove)))),其中用ERB聽覺靈敏度標度去測量音調移動和(MaxMove)最大移動。在發(fā)聲段中音調移動將不超過(1%/1ms)[5],對于男性講話者,F(xiàn)0約為50-120Hz,對于女性講話者,F(xiàn)0約為120-220Hz,F(xiàn)0的平均值約為127.5Hz。
從Hz轉換到ErbErb(Hz)=21.4*log10(1+f/230);MaxMove(以Hz計)是10ms內12.75Hz,轉換為10ms內0.75Erb。
接著,計算最大子諧波求和的當前值,以及“迄今的”(從語音信號的開始點到當前的時間幀)累積路徑記分。“迄今的”累積路徑記分可以通過使用以下的遞歸公式來計算AccumulatedScores[j][frame-1]+PitchMovement[k][j]*CurrentSHS[k][frame];路徑延伸只發(fā)生在那些可能的音調移動處,其轉移概率記分(優(yōu)選地)大于0.6。轉移概率記分小于0.6的路徑延伸被跳過。優(yōu)選地,自適應切除是基于(有利地)在0.5秒經歷內的累積路徑記分。這被表示為ReferenceAccumulatedScore(參考累積記分)。優(yōu)選地,當路徑延伸只對于轉移記分大于0.6的那些可能的音調移動才發(fā)生時自適應路徑延伸就使用判決準則。轉移記分小于或等于0.6的路徑延伸被跳過。此外或替換地,自適應切除是基于發(fā)聲強度。按照 6的方法,其中自適應切除使用基于發(fā)聲強度的判決準則-如果在0.5秒的經歷內的累積路徑記分小于同一個經歷內的最大累積路徑記分以及在當前的時間幀中存在有多得多的周期性信息,則在路徑上密集地切除,或用公式表示為如果(AccumulatedScores[j][frame-1]-ReferenceAccumulatedScore)小于(MaxAccumulatedScores[frame-1]-ReferenceAccumulatedScore)的99.9%,以及在當前的時間幀中存在有多得多的周期性信息(例如,CurrentSHS[j][frame]≥CurrentMaxSHS[frame]的80.0%)。
-如果在當前的時間幀中有小的含糊的音調信息,把先前的路徑延伸到當前的最可能的、最大和最小音調移動,則在路徑上稀疏地切除。如果在當前的時間幀中有小的周期性信息,則進行稀疏地切除。這是因為句子的開始點大多數(shù)包含靜默,因此,累積路徑記分太小而不能密集地切除,這對發(fā)聲-不發(fā)聲段和句子的開始點是不同的。在那種情形下,在當前的時間幀中有較小的含糊的音調信息。稀疏地切除是通過把先前的路徑延伸到當前的最可能的、最大和最小音調移動而進行的。
為了估計精確的音調而在穩(wěn)定的粗略音調估值的附近進行高分辨率和精細的搜索,使用了在相關曲線圖上的立方樣條內插。這可以大大地減小在F0的先行自適應切除追溯中的活動狀態(tài),而沒有在精度上的損失。在高頻率分辨率(用于高的音調精度)時,高分辨率、精細音調搜索使用了在包含一個以上的完整的音調周期的分析窗中的擬周期性信號內歸一化相關性的最大化。缺省窗口尺度是2乘以最大的完整的音調周期。
f0≥50Hz,音調周期≤1/50=0.020s,窗口長度=2*0.020s=40ms使用F0的在先自適應切除追溯,具有這樣的優(yōu)點它幾乎免除了在許多基于峰值摘取法則的音調檢測算法中存在的多重/子-多重音調誤差。實驗表明,當與試探峰值摘選法則比較時,聲調錯誤率(TER)和字符錯誤率(CER)大大地減小。另外,它改進精確度的概率,而沒有以犧牲效率作為代價,因為它提前0.20s查看以及根據(jù)音調信息自適應切除許多不必要的路徑,無論是發(fā)聲的或不發(fā)聲的。
普通話語音識別的特性參照五種普通話詞匯聲調,第一聲(高,即陰平)和第三聲(低,即上聲)主要在音調水平上不同,而音調導數(shù)都接近于零。反之,第二聲(上升,即陽平)和第四聲(下降,即去聲)則跨越一個音調范圍,但有清晰的正的或負的導數(shù)。因此,音調和它的導數(shù)都是對于聲調識別的候選的特性。曲率信息(二階導數(shù))的潛力并不太明顯。
按照本發(fā)明,發(fā)聲強度υ(f;t)和/或它的導數(shù)在特性矢量中表示出來。優(yōu)選地,發(fā)聲強度用(最好是歸一化的)短時間自相關的量度來表示,如用自相關輪廓的二次回歸的回歸系數(shù)那樣來表示。這可被定義為ν(f,t)=Σn=N1(t)N2(t)s(n).s(n-fsamplef)(Σn=N1(t)N2(t)s2(n).Σn=N1(t)N2(t)s2(n-fsamplef))12≤1]]>使用發(fā)聲強度作為一個特性,有助于音節(jié)分段和區(qū)另發(fā)聲的和不發(fā)聲的輔音。已經證實,語音信號的最大相關可被用作為音調估值的可靠的量度(參照下表)。這部分地是由于最大相關是周期性的量度這一事實。通過包括這個特性,它可以提供信號中周期性程度的信息,因此,改進了識別精度。
能量和它的導數(shù)也可以作為聲調特性,但因為這些分量已在頻譜特性矢量中被表示,所以這些分量在這里不再考慮。
聲調特性被定義為兩個部分。第一部分是在相鄰幀上解除語調的F0輪廓的二階加權回歸的回歸系數(shù),其窗口尺寸與音節(jié)的平均長度和相應于信號的周期性程度的加權因子有關。第二部分涉及信號的周期性程度,它們是自相關輪廓的二階回歸的回歸系數(shù),其窗口尺寸與音節(jié)的平均長度和相應于音調估值的倒數(shù)的相關性的滯后有關。
長期音調歸一化在其中,使用音調作為聲調特性事實上可能惡化識別性能。這是因為音調輪廓是以下參量的疊加(a)講話者的基本音調,(b)句子級別韻律,(c)實際的聲調,以及(d)統(tǒng)計偏差。
雖然(c)是想要的信息,而(d)是由HMM進行處理的,(a)和(b)是與聲調識別無關的,但它們的偏差超過在第一聲與三聲之間的差值。在圖4上顯示了代表863男性測試組所講的句子151的示例性音調輪廓。在這個句子中,由于句子的韻律,第一聲和第三聲的音調水平成為不能區(qū)分的。在句子內,詞組分量已跨越50Hz的范圍,而成人講話者的音調范圍為100到300Hz。圖4在上部顯示音調輪廓,其中點線表示(估值的)詞組分量。實線表示帶有大于0.6發(fā)聲強度的區(qū)域。圖4的下部顯示相應的發(fā)聲強度。
已經提出把“倒頻譜中值相減”應用到對數(shù)音調,以便得到與性別無關的音調輪廓。雖然這有效地去除了講話者偏差(a),但沒有考慮詞組影響(b)。
按照本發(fā)明,在信號中呈現(xiàn)的詞匯聲調影響可通過去除詞組語調影響和隨機影響而被保存。對于漢語,詞匯聲調影響是指在漢語音節(jié)內特定的、詞匯聲調的發(fā)音。詞組語調影響是指在音調輪廓中存在的語調影響,它是由多音節(jié)漢語字的聲音實現(xiàn)所造成的。所以,按照本發(fā)明,估值音調 通過減去講話者和詞組影響而被歸一化。詞組語調影響被定義為發(fā)聲F0的輪廓的長期趨勢,它可以由 輪廓在t的相鄰段的移動平均值來近似。優(yōu)選地,使用加權的移動平均值,其中有利地,加權值與信號的周期性程度有關。詞組語調影響在疊加假設下從 輪廓中去除。實驗證實這一點。這給出F^0′(t)=F^0(t)-Στ=-ΔT3+ΔT3F^0(t+τ).w(F^0(t+τ),t+τ)Στ=-ΔT3+ΔT3w(F^0(t+τ),t+τ),]]>移動平均值在它的最簡單形式中用w(f;t)進行估值,給出直接了當?shù)囊苿悠骄?。?yōu)選地,要計算加權移動平均值,其中有利地,加權值代表發(fā)聲強度(w(f;t)=υ(f;t))。這后一個平均值通過集中在清晰的發(fā)聲區(qū)域而產生略微改進的估值。加權移動平均濾波器的最佳性能是在約1.0秒的窗口內達到的。
圖5顯示用于把F0輪廓分解為聲調影響、詞組影響和隨機影響的優(yōu)選方法的流程圖。這包括-計算語音信號的歸一化相關值,其時間滯后相應于來自先行追溯出現(xiàn)音調估值的倒數(shù),-通過對相鄰幀(窗口尺寸與音節(jié)的平均長度有關)的移動平均或中值濾波來平滑歸一化相關值輪廓。
優(yōu)選地,移動平均濾波器是Y-smoothed(t)=(1*y(t-5)+2*y(t-4)+3*y(t-3)+4*y(t-2)+5*y(t-1)+5*y(t)+5*y(t+1)+4*y(t+2)+3*y(t+3)+2*y(t+4)+1*y(t+5))/30-對相鄰的幀(窗口尺寸與音節(jié)的平均長度有關)計算自相關值的二階回歸的系數(shù)。優(yōu)選地,平滑的自相關值的回歸系數(shù)的計算是要在n(n=11)個幀上使用最小平方準則。為了提高運行時間效率,這個運算被跳過,而γ0可以用平滑的相關系數(shù)代替。使用有關恒定數(shù)據(jù)矩陣2n+10n(n+1)(2n+1)30n(n+1)(2n+1)30n(n+1)(2n+1)30n(n+1)(2n+1)(3n2+3n-1)15,¬]]>替換地,F(xiàn)0輪廓的回歸系數(shù)的計算是在n(n=11)個幀上使用加權的最小平方準則,具有加權值的函數(shù)的數(shù)據(jù)矩陣,Σl=-nnutΣl=-nnutlΣl=-nnutl2Σl=-nnutlΣl=-nnutl2Σl=-nnutl3Σl=-nnutl2Σl=-nnutl3Σl=-nnutl4]]>其中加權值是ut=1,γ0,t≥0.4γ0,t0,γ0,t≤0.1]]>-根據(jù)在對相鄰的幀(窗口尺寸與音節(jié)的平均長度有關)的自相關值的二階回歸的回歸系數(shù)的常數(shù)項,計算F0輪廓的回歸加權值。優(yōu)選地,回歸加權值的計算是根據(jù)以下的準則-如果自相關值的回歸系數(shù)的常數(shù)項γ0,t大于0.4,則對于這個幀t的回歸加權值被設置為約1.0,-如果自相關值的回歸系數(shù)的常數(shù)項γ0,t小于0.1,則對于這個幀t的回歸加權值被設置為約0.0。
-否則,這個幀t的回歸加權值被設置為自相關值的回歸系數(shù)的常數(shù)項。對于加權回歸和加權的長期移動平均濾波,優(yōu)選地,使用以下的加權值ut=1,γ0,t≥0.4γ0,t0,γ0,t≤0.1]]>-根據(jù)長期加權移動平均值或中值濾波,計算漢語普通話韻律的詞組語調分量。優(yōu)選地,窗口尺寸與詞組的平均長度有關,以及加權值與F0輪廓的回歸加權值有關。有利地,用于提取詞組語調影響的長期加權移動平均濾波的窗口長度被設置在大約0.80到1.00秒的范圍內。
-通過減去在相鄰的幀(窗口尺寸與音節(jié)的平均長度有關)的詞組語調影響,計算去語調的音調輪廓的二階加權回歸的系數(shù)。
如上所述,借助于時變的、加權移動平均(MA)濾波器并結合F0輪廓的加權(在元音上設置更多的加重)的最小平方,F(xiàn)0輪廓被分解成詞匯聲調影響、詞組語調影響、和隨機影響。由于詞匯聲調影響只存在于漢語字節(jié)的發(fā)聲段,發(fā)聲-不發(fā)聲的模糊性通過引入在相鄰的幀上的加權回歸而被解決,窗口尺寸與音節(jié)的平均長度有關以及加權值取決于周期性程度。
圖6A顯示句子的F0輪廓的最小平方。圖6B顯示在應用了帶有加權-最小平方(WLSA)的加權移動平均(WMA)濾波器之后的同一個輪廓。詞組語調影響由WMA濾波器估計。聲調影響相應于F0輪廓的WLS的常數(shù)項減去詞組語調影響。在下表顯示出詞組語調影響可被忽略。
(追溯延時=20,相關平滑半徑=5,幀寬度=0.032)(詞匯模型在訓練中聲調的基音/核心-最后的)(詞組三字母組LM)WMA濾波器的最佳性能被實驗確定為約0.1秒(如上表所示),它在大多數(shù)情形下能夠對稱地覆蓋上升和下降的聲調。
下面的兩個表顯示非對稱會負面地影響TER(聲調錯誤率)。這也是為什么WMA不單是F0的歸一化因子,也是詞組的歸一化因子的原因。
(追溯延時=20,相關平滑半徑=5,幀寬度=0.032)(詞匯模型在訓練中音調的基音/核心-最后的)(詞組三字母組LM)
(追溯延時=20,相關平滑半徑=5,幀寬度=0.032)(詞匯模型在訓練中音調的基音/核心-最后的)(詞組三字母組LM)提取發(fā)聲的音調移動的時間性質借助于自相關值的二階回歸,可從語音信號中提取發(fā)聲信息。如果自相關的回歸系數(shù)的常數(shù)項大于給定的門限值,例如0.4,則這個幀的回歸權因子被設置為1.0。如果自相關的回歸系數(shù)的常數(shù)項小于給定的門限值,例如0.10,則這個幀的回歸權因子被設置為0.0。其它情形時,它被設置為自相關的回歸系數(shù)的常數(shù)項。這些加權值被施加到以上的解除語調的F0輪廓的二階加權回歸,以及漢語普通話韻律的詞組語調分量的長期加權移動平均值或中值濾波器。F0輪廓的解除語調的二階加權回歸的這些加權因子被設計來增強/解除增強音調輪廓的發(fā)聲/不發(fā)聲段,以便保存對于半發(fā)聲輔音發(fā)聲的音調輪廓。這種機制的優(yōu)點在于,即使語音段具有輕微錯誤,用作為在線信號的預處理前端的這些帶有F0輪廓的先行自適應切除追溯的加權值,可以為輔音的音調輪廓保留其元音的音調輪廓。聲調特性的這個元音保留的性質具有妨礙由于語音段錯誤而引起的模型參量偏移估值的能力。
圖7顯示使用本發(fā)明的自相關值二階回歸的優(yōu)選方法的流程圖。通過使用帶有相應于F0的先行自適應切除追溯所輸出倒數(shù)的滯后的自相關二階回歸,可以從語音信號中提取周期性信息。首先,提取的音調分布通過使用音調動態(tài)時間反折(PDT)技術被處理,以便得到平滑的(幾乎沒有多重音調錯誤)音調輪廓,然后,應用二階加權的最小平方提取音調輪廓的分布。這樣的分布由回歸系數(shù)表示。恒定的回歸系數(shù)被使用來計算在分解F0輪廓時需要的加權值,如圖5所示。第一和第二回歸系數(shù)被使用來進一步減少聲調錯誤率。對于窗口的最好的設置值約為110ms,它小于正常講話速率的有關音節(jié)的長度。
偽特性矢量的產生圖8顯示按照本發(fā)明的、用于偽特性矢量產生器的優(yōu)選方法的流程圖。按照局部或然率記分最大化的準則,對于語音信號的不發(fā)聲段產生偽特性矢量,以便防止HMM中的模型參量產生偏移估計。這是首先通過計算回歸窗口內的回歸加權值的和值而完成的。對于小于預定的門限值(例如,0.25)的加權值的和值,歸一化特性用按照最小二乘方準則所產生的準特性來代替(回退到簡并的情形,相等的加權回歸)。
對于清晰的靜默區(qū),在先行追溯中的本地最小路徑將產生音調估值的隨機值。這樣的解除語調的F0估值和它的導數(shù)在相鄰幀上以前有相等分布的歸一化特性以及歸一化特性的概率分布是對稱性質的這種前提下具有零的中值。對于最小偏差,它確保在基于HMM的聲音模型的每個狀態(tài)中有非簡并的概率分布。由于在發(fā)聲-非發(fā)聲區(qū)域中很難在以毫秒計的單元中在發(fā)聲區(qū)和不發(fā)聲區(qū)之間畫出清晰的界線,所以利用相等的加權回歸來平滑在清晰的發(fā)聲段中可跟蹤的音調和在清晰的靜默區(qū)中的隨機音調。
聲調分量如上所述,在優(yōu)選實施例中,聲調分量被定義為(優(yōu)選地)在110毫秒內(它小于有關音節(jié)長度(事實上,約一個平均元音長度))解除語調的音調輪廓的局部的、加權的回歸,以免為節(jié)拍內的音調輪廓建模。在局部回歸時的這些加權值被設計來增強/解除增強音調輪廓的發(fā)聲/不發(fā)聲段,以便為輔音保存(起始/基音)的發(fā)聲的音調輪廓。這種機制的優(yōu)點在于,即使語音段具有輕微錯誤(它不把小量的不發(fā)聲的識別為發(fā)聲的),這些加權值仍將保留元音(最后的/調素)的音調輪廓,以及理所當然地認為它是起始/基音的。這樣,統(tǒng)計模型的統(tǒng)計特性在訓練過程和以后的識別過程中被累積。而且,它允許仿真對于起始/基音的記分,以免由于語音的分段錯誤而損害聲音識別。
實驗配置實驗是通過使用Philips(菲利浦)大詞匯量連續(xù)語音識別系統(tǒng)實現(xiàn)的,它是使用具有一階導數(shù)的標準MFCC特性、用于簡單的信道歸一化的基于句子的倒頻譜中值減法(CMS)、和帶有密度特定的對角線協(xié)方差矩陣的高斯混合密度的基于HMM的系統(tǒng)。實驗是在三個不同的普通話連續(xù)語音主體上進行的,即,MAT主體(電話,臺灣普通話)、非公共PC口述數(shù)據(jù)庫(話筒,臺灣普通話)、和1998大陸漢語863標準檢查程序的數(shù)據(jù)庫。對于MAT和PC口述數(shù)據(jù)庫,使用與講話者無關的系統(tǒng)。對于863,為每個性別進行分開的模型的訓練,而且在譯碼期間,性別是已知的。標準863語言模型訓練主體(人民日報1993-4)包含該測試組。這樣,系統(tǒng)已經“知道”測試句子的整體性,因而不反映實際生活的口述情形。為了得到真實的性能數(shù)字,LM訓練組通過去除所有480個測試句子而被“清除”。以下的表格概述主體特征。
PDA常常用精細和粗略的音調錯誤來評估。因為假設以下的現(xiàn)有的算法已大范圍地調整,并且焦點集中在與語音識別相結合,所以系統(tǒng)代之以用聲調錯誤率(TER)來最佳化。除了最后一個表以外,所有的表都顯示TER。TER是通過音調的音節(jié)譯碼被測量的,其中對每個音節(jié)向譯碼器給出以下的信息開始和結尾幀(通過強迫對準得到的),
基音節(jié)的標識(無聲音,來自測試腳本),以及考慮這個特定的音節(jié)的聲調組五個詞匯聲調并非都可以與所有的漢語音節(jié)相組合的。聲調困惑度(TPP)被定義為在測試組上平均的、對于一個音節(jié)的可能的聲調數(shù)目。
在以下的實驗的表格中第一列顯示實驗的Id(D1,D2,T1等等),它們打算有助于快速識別在一個以上的表格中的同一個實驗。
實時/在線DP運行第一個實驗整個地涉及使用動態(tài)編程(DP)的好處。下表顯示對于MAT和PCD從DP得到的10-15%TER的減小。只有對于非常清晰的863主體不需要DP。由于實際生活口述系統(tǒng)也不得不面對噪聲,DP被認為在任何情況下都是有用的以保證增強性。
第二組實驗考慮局部追溯的好處。直觀地,一個音節(jié)的聯(lián)合信息應當是足夠的,即,約20-25幀。下表顯示10幀已足夠使得音調輪廓穩(wěn)定。保守地,可以取15幀。
集中在減小搜索努力上,下表顯示對于具有不同的切除門限的射束切除的路徑重新組合的次數(shù)(主體平均)。在聲調錯誤率的增加為最小時可達到減少93%(P3)。保守地,可以選擇配置P2。
把分辨率從每個倍頻程48個量化步驟減小到僅僅16個,則路徑組合可以得到另一次顯著的減少,但導致某些惡化(下表中的實驗R1)。這可通過在D2后精細調諧音調而被減輕(R2)。
對于聲調特性矢量的實驗結果已經進行實驗來驗證按照本發(fā)明對特性矢量的改進。測試以傳統(tǒng)的特性矢量
)開始。下表顯示幾乎整個性能都是由于Δ
。切斷
只有很小的影響(F2),而使用它作為唯一的特性導致52%的很大的惡化(F3)。取對數(shù)沒有多大影響(F4)。
下表顯示歸一化的影響,通過減去平均的相鄰的音調(加權值W(f,t)=1,公式(2)),有效地消除講話人和詞組影響。對于三個不同的窗口寬度(分別為0.6s,1.0s和1.4s的移動平均值),1秒的窗口以小差距取勝。
下表把歸一化帶有1.0秒的移動平均窗口的
與句子中值的歸一化進行比較。MAT和863主體都包含短的發(fā)聲,其詞組影響較小。這樣,對于MAT,基于句子的歸一化與建議的方法同樣地實施。另一方面,對于863(其中性別偏移已由與性別有關的模型考慮),與非歸一化情形相比,沒有得到改進。對于帶有長的發(fā)聲表達和強的詞組影響的PC口述主體,也沒有觀察到改進。
下表顯示使用二階導數(shù)ΔΔ
的影響。在話筒配置獲益最大的情況下,觀察到9%的重大的改進。
下表顯示使用發(fā)聲ν(f;t)作為特性,導致4.5%的收益,它通過簡單平滑以減小噪聲,還可進一步調諧到6.4%。
從使發(fā)聲平滑的導數(shù)得到另一個6.1%,但對于二階導數(shù)得不到進一步的減小,如下表所示。
在局部歸一化時通過使用v(f;t)作為加權值,得到最終小的改進(2.5%),如下表所示。
對于特性矢量取所有以上的最佳化步驟(從實驗F1到N6),比起開始的矢量ō(t)=(F0(t);ΔF0(t)),TER可得到平均28.4%的改進。
與語言模型的組合實驗還證實,最佳聲調錯誤率也導致最好的系統(tǒng)總體性能。為了證明這一點,對于選擇的配置,使用了基于詞組識別詞匯和詞組-二字母組/三字母組語言模型,來測量綜合系統(tǒng)的字符錯誤率(CER)。為了完整性和可比較性,下表的最后兩行顯示在測試組內得到的結果(“系統(tǒng)性能測試”。) 得到的結果確認了在TER與CER之間良好的對應性。其次,來自聲調模型的總的相對CER改進在平均值上達到非凡的27.3%(二字母組),電話語音的收益最小(19.3%),而對于兩個話筒主體則超過30%。對于三字母組,增益稍小一點,因為三字母組只從語音上下文就可弄清更多的事例,而對于語音上下文,二字母組需要聲調模型的幫助。(極端情形是863標準檢查程序LM-測試組內部LM訓練—其中大多數(shù)聲調是從上下文中正確地導出的,而聲音模型提供的助益為10.6%。)總結對于構建在線的、增強的聲調特性提取來說,重要的是使用在同時發(fā)聲的時間幀鄰域中聯(lián)合的局部的周期性信息。本發(fā)明排除了直接從來自同時發(fā)生的時間幀的邊緣周期性信息來確定聲調特性。相反把發(fā)聲強度當作為基頻的分布來處理。
圖8的方框圖上以組合形式顯示在線的、增強的特性提取的不同的方面,它們也可以與傳統(tǒng)的技術相組合地被使用。圖9以流程圖形式顯示同一個信息。重要的方面是-通過確定語音信號內的量度,優(yōu)選地根據(jù)子諧波求和來提取音調信息,-基頻的在線先行自適應切除追溯,其中自適應切除是基于發(fā)聲強度和在最好是0.50秒以前的聯(lián)合信息的,-去除詞組語調,它被定義為發(fā)聲的F0的輪廓的長期趨勢。這個影響用F0輪廓的加權移動平均來近似,加權因子優(yōu)選地與信號的周期性程度有關,-在某些時間幀上F0輪廓的解除語調的二次加權回歸的中值,其中最大窗口長度相應于音節(jié)的長度,加權值與信號的周期性程度有關,-在某些時間幀上自相關的二次回歸,其中最大窗口長度相應于音節(jié)的長度,其時間滯后相應于來自先行追溯過程的音調估值的倒數(shù),以及-在語音信號的發(fā)聲-不發(fā)聲段中偽特性矢量的產生。對于不發(fā)聲的語音,偽特性矢量按照最小平方準則被產生(回到間并的情形,相等地加權回歸)。
權利要求
1.一種語音識別系統(tǒng),用于識別一個時間順序輸入信號,該信號代表以聲調語言說話的語音;該系統(tǒng)包括輸入端,用于接收輸入信號;語音分析子系統(tǒng),用于把一段輸入信號表示為觀察特性矢量;以及單元匹配子系統(tǒng),用于把觀察特性矢量與經過訓練的語音識別單元的目錄進行匹配,每個單元用至少一個參考特性矢量表示;其中特性矢量包括從由特性矢量表示的語音段的估值發(fā)聲強度中導出的分量。
2.如權利要求1所要求的語音識別系統(tǒng),其中所導出的分量表示語音段的估值的發(fā)聲強度。
3.如權利要求1所要求的語音識別系統(tǒng),其中所導出的分量表示語音段的估值的發(fā)聲強度的導數(shù)。
4.如權利要求1,2,或3所要求的語音識別系統(tǒng),其中估值的發(fā)聲強度被平滑。
5.如權利要求1所要求的語音識別系統(tǒng),其中發(fā)聲強度是估值的音調輪廓的短時間自相關性的量度。
6.如權利要求5所要求的語音識別系統(tǒng),其中該量度是由自相關輪廓的回歸系數(shù)形成的。
7.如權利要求1所要求的語音識別系統(tǒng),其中特性矢量包括一個代表語音段的估值的音調的導數(shù)的分量。
8.如權利要求5或7所要求的語音識別系統(tǒng),其中估值的音調是通過從代表語音段的估值的音調輪廓中去除詞組語調影響而得到的。
9.如權利要求8所要求的語音識別系統(tǒng),其中用估值的音調輪廓的加權移動平均值來代表詞組語調影響。
10.如權利要求9所要求的語音識別系統(tǒng),其中加權移動平均值的權重值表示語音段中的發(fā)聲強度。
11.如權利要求1所要求的語音識別系統(tǒng),其中用偽特性矢量來表示語音的不發(fā)聲段。
12.如權利要求11所要求的語音識別系統(tǒng),其中如果估值的音調輪廓的回歸權重值的和值處在回歸窗口之內,則語音段被認為是不發(fā)聲的。
13.如權利要求11所要求的語音識別系統(tǒng),其中偽特性矢量包括按照最小平方準則產生的偽特性。
全文摘要
增強的聲音聲調特性首先通過引入帶有自適應切除的在線的先行追溯基頻(F
文檔編號G10L15/18GK1343350SQ00804884
公開日2002年4月3日 申請日期2000年11月10日 優(yōu)先權日1999年11月11日
發(fā)明者C·H·黃, F·塞德 申請人:皇家菲利浦電子有限公司