專利名稱:語音識(shí)別的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于語音識(shí)別的一種方法和裝置;雖然不是專門地,但特別地涉及用于諸如中文普通話這樣一種音調(diào)語言的語音識(shí)別方法和裝置。
語音識(shí)別技術(shù)已經(jīng)普遍用于識(shí)別用英語或者其它非音調(diào)語言說出的詞匯?;旧?,這些已知的語音識(shí)別技術(shù)將語音的片斷(幀),每一片斷有多個(gè)語音抽樣,基本上轉(zhuǎn)換為參數(shù)的集合,有時(shí)稱為“特征向量”。然后,每一組參數(shù)通過一組預(yù)先被訓(xùn)練過的模型被傳送,以便確定這組參數(shù)代表某個(gè)特定的已知詞匯或者部分詞匯,被稱為音素,的概率,以最可能的詞匯或者音素作為所識(shí)別語音的輸出。
然而,當(dāng)這些已知的技術(shù)用于音調(diào)語言時(shí),一般沒能充分地處理可能發(fā)生的音調(diào)可混淆詞匯。許多亞洲語言落在這個(gè)音調(diào)語言的范疇內(nèi)。不同于英語,音調(diào)語言是這樣的一種語言,其中,音調(diào)具有詞匯的意義,并且在識(shí)別期間必須被考慮。一個(gè)典型的例子是中文的普通話。有超過10000個(gè)普遍使用的漢字,其中的每一個(gè)都是單音節(jié)。所有這些10,000個(gè)字符只被發(fā)音為1345個(gè)不同的音節(jié),而某個(gè)特定音節(jié)的不同意義由聽者從該語音的前后關(guān)系確定。事實(shí)上,從這1345個(gè)不同的音節(jié)中,一個(gè)非音調(diào)語言的講話人只能區(qū)別400多種不同的聲音,因?yàn)樵S多音節(jié)發(fā)音類似,只能使用不同的音調(diào)來區(qū)別。換句話說,如果在音節(jié)中間的區(qū)別由于音調(diào)被忽視,則只有408個(gè)基本音節(jié)而不是1345個(gè)音調(diào)音節(jié)將在中文普通話中被識(shí)別。然而,這將造成嚴(yán)重的混亂,因?yàn)榫哂邢嗤疽艄?jié)的所有音調(diào)音節(jié)將被識(shí)別為相同的音節(jié)。一個(gè)著名的例子是,在普通話中,“媽”和“馬”都被發(fā)音為“ma”,只是由不同的音調(diào)來區(qū)別。
如
圖1A,1B,1C,1D和IE所示,在中文普通話中,有四種詞匯音調(diào)高和水平音調(diào)(陰平)1,升調(diào)(陽平)2,降升調(diào)(上聲)3,以及降調(diào)(去聲)4;同時(shí),還有一種中性的音調(diào)5,用于作為某個(gè)詞匯的后綴的一些音節(jié)。然而,在其它音調(diào)語言中,可能有不同數(shù)目的音調(diào),例如中文廣東話中就有七個(gè)。眾所周知,音調(diào)的特征主要在于其音高輪廓模式。音高等于音頻信號(hào)的基本頻率,而音高輪廓等于頻率輪廓。這樣,一種已知的音調(diào)語言語音識(shí)別系統(tǒng),例如在美國專利5,602,960(Hsiao-Wuen Hon,等人)中所描述的,使用音節(jié)識(shí)別系統(tǒng)、音調(diào)分類器和可信度得分增量器。音調(diào)分類器有一個(gè)音高估計(jì)器,用于估計(jì)輸入的音高,還有一個(gè)長期音調(diào)分析器,用于根據(jù)每個(gè)N-最好理論的音節(jié)分割所估計(jì)的音高。長期音調(diào)分析器對(duì)所分割和估計(jì)的音高執(zhí)行長期音調(diào)分析,并且產(chǎn)生一種長期的音調(diào)可信度信號(hào)??尚哦鹊梅衷隽科鹘邮粘跏嫉目尚哦鹊梅趾烷L期的音調(diào)可信度信號(hào),根據(jù)相應(yīng)的長期音調(diào)可信度信號(hào)修改每個(gè)初始的可信度得分,根據(jù)增加的可信度得分把N-最好理論再分成等級(jí),并且輸出N-最好理論。然而,這個(gè)系統(tǒng)是強(qiáng)度的計(jì)算資源,并且也是依賴語言的,這是因?yàn)橐艄?jié)首先被識(shí)別,然后被分類成特定的音調(diào),該系統(tǒng)已經(jīng)被校準(zhǔn)或者被訓(xùn)練,以用于特定的音調(diào)。這樣,如果該語言是從例如中國的普通話,改變成為中國的廣東話,則不僅音節(jié)識(shí)別器需要再訓(xùn)練,而且音調(diào)分類器也因?yàn)槠叻N音調(diào)而不是僅僅五個(gè)音調(diào)而需要進(jìn)行再校準(zhǔn)。
識(shí)別音調(diào)語言中的音節(jié)的另一個(gè)已知方法在美國專利5,806,031(Fineberg)中被描述,其中,音調(diào)聲音識(shí)別器對(duì)特征向量計(jì)算設(shè)備中的某個(gè)抽樣音調(diào)聲音信號(hào)的多個(gè)片斷,計(jì)算特征向量,比較第一個(gè)片斷的特征向量和交叉相關(guān)器中另一個(gè)片斷的特征向量,以便確定抽樣音調(diào)聲音信號(hào)的一個(gè)音調(diào)的運(yùn)動(dòng)趨勢,并且將該趨勢輸入到詞匯識(shí)別器中,以便確定抽樣音調(diào)聲音信號(hào)的一個(gè)詞匯或者音節(jié)。在這個(gè)系統(tǒng)中,對(duì)所有的音節(jié)計(jì)算特征向量,不考慮其是否發(fā)音。
一個(gè)發(fā)音的聲音是通過聲帶以某個(gè)固定的速率開合而發(fā)出的氣流脈沖產(chǎn)生的。脈沖的峰值之間的距離被稱為音高周期。發(fā)音聲音的一個(gè)例子是詞匯“pill”中的“i”聲音。一個(gè)不發(fā)音的聲音是通過導(dǎo)致混亂的氣流的單一急促氣流所產(chǎn)生的聲音。不發(fā)音的聲音沒有確定的音高。不發(fā)音的聲音的一個(gè)例子是詞匯“pill”中的“p”聲音。發(fā)音和不發(fā)音的聲音的一個(gè)組合可以在詞匯“pill”中被找到,因?yàn)椤皃”要求單個(gè)急促氣流,而“ill”則要求一系列的空氣脈沖。
雖然所有語言基本上都使用發(fā)音和不發(fā)音的聲音,但在音調(diào)語言中,音調(diào)僅僅在詞匯的發(fā)音片斷中出現(xiàn)。
因此,本發(fā)明尋求為語音識(shí)別提供一種方法和裝置,該方法和裝置克服或者至少減少現(xiàn)有技術(shù)的上述問題。
因此,第一方面,本發(fā)明提供一種語音識(shí)別系統(tǒng),包括用于接收語音片斷的一個(gè)輸入終端,一個(gè)語音分類器,具有連接到輸入終端的一個(gè)輸入和一個(gè)提供標(biāo)識(shí)的輸出,該標(biāo)識(shí)說明該語音片斷是否包含發(fā)音或者不發(fā)音的語音,一個(gè)語音特征檢測器,具有連接輸入終端的第一輸入,連接語音分類器輸出的第二輸入,以及提供語音特征向量的一個(gè)輸出,該向量具有多個(gè)說明該語音片斷的特征的特征值,語音特征向量至少包括一個(gè)音調(diào)特征值,當(dāng)該語音片斷包含一個(gè)發(fā)音的語音時(shí),該特征值說明該語音片斷的音調(diào)特征;和一個(gè)語音識(shí)別器,具有連接語音特征檢測器輸出的一個(gè)輸入,以及一個(gè)提供標(biāo)識(shí)的輸出,該標(biāo)識(shí)說明所預(yù)定的多個(gè)語音模型中的哪一個(gè)是該語音片斷的一個(gè)好的匹配。
在最佳實(shí)施例中,該系統(tǒng)進(jìn)一步包括模數(shù)(A/D)轉(zhuǎn)換器,該轉(zhuǎn)換器具有連接輸入終端的一個(gè)輸入,以及連接語音分類器和語音特征檢測器輸入的一個(gè)輸出,以便提供數(shù)字化的語音片斷。
語音識(shí)別器的輸出最好提供一個(gè)標(biāo)識(shí),說明預(yù)定的多個(gè)語音模型中的哪一個(gè)是該語音片斷的最好匹配。
系統(tǒng)最好進(jìn)一步包括連接到語音識(shí)別器的一個(gè)存儲(chǔ)器,用于存儲(chǔ)預(yù)定的多個(gè)語音模型,以及一個(gè)語音模型訓(xùn)練器,具有選擇地連接到語音特征檢測器輸出的一個(gè)輸入和連接存儲(chǔ)器的一個(gè)輸出,用于在預(yù)定的多個(gè)語音模型已經(jīng)使用語音特征向量被訓(xùn)練之后,將預(yù)定的多個(gè)語音模型存儲(chǔ)在存儲(chǔ)器中。
語音特征檢測器最好包括一個(gè)非音調(diào)的特征檢測器,該檢測器具有連接語音特征檢測器輸入的一個(gè)輸入和為該語音片斷提供至少一個(gè)非音調(diào)特征值的一個(gè)輸出;包括一個(gè)音調(diào)特征檢測器,具有連接語音特征檢測器輸入的第一輸入,連接語音分類器輸出的第二輸入,以及一個(gè)輸出,當(dāng)語音分類器確定該語音片斷包含發(fā)音的語音時(shí),該輸出為該語音片斷提供至少一個(gè)音調(diào)的特征值,同時(shí),還包括一個(gè)語音特征向量發(fā)生器,具有連接非音調(diào)特征檢測器輸出的第一輸入,連接音調(diào)特征檢測器輸出的第二輸入,以及連接語音特征檢測器輸出的一個(gè)輸出,用于提供語音特征向量。
非音調(diào)的特征檢測器最好包括一個(gè)非音調(diào)的語音轉(zhuǎn)換電路,具有連接非音調(diào)的特征檢測器輸入的一個(gè)輸入,以及提供被轉(zhuǎn)換的非音調(diào)信號(hào)的一個(gè)輸出,還包括一個(gè)非音調(diào)的特征發(fā)生器,具有連接非音調(diào)的語音轉(zhuǎn)換電路輸出的一個(gè)輸入,以及連接非音調(diào)特征檢測器輸出的一個(gè)輸出,用于至少提供該語音片段的一個(gè)非音調(diào)特征值。
音調(diào)特征檢測器最好包括一個(gè)音調(diào)語音轉(zhuǎn)換電路,具有連接音調(diào)特征檢測器的第一和第二輸入的第一和第二輸入,以及提供被轉(zhuǎn)換的音調(diào)信號(hào)的一個(gè)輸出,還包括一個(gè)音調(diào)特征發(fā)生器,具有連接音調(diào)語音轉(zhuǎn)換電路輸出的一個(gè)輸入,以及連接音調(diào)特征檢測器輸出的一個(gè)輸出,用于至少提供該語音片段的一個(gè)音調(diào)特征值。
在一個(gè)最佳實(shí)施例中,音調(diào)語音轉(zhuǎn)換電路包括一個(gè)音高提取器,具有連接音調(diào)語音轉(zhuǎn)換電路第一輸入的一個(gè)輸入和一個(gè)輸出,還包括一個(gè)音調(diào)發(fā)生器,具有連接音高提取器輸出的第一輸入,以及連接音調(diào)語音轉(zhuǎn)換電路輸出的一個(gè)輸出,用于提供被轉(zhuǎn)換的音調(diào)信號(hào)來表示該語音片段的音調(diào)。
音調(diào)發(fā)生器最好具有連接音調(diào)語音轉(zhuǎn)換電路第二輸入的一個(gè)第二輸入。
在本發(fā)明的第二方面,提供了語音識(shí)別的一種方法,它包括以下的步驟接受語音片斷;根據(jù)語音片斷是包含發(fā)音還是包含不發(fā)音的語音,對(duì)語音片斷進(jìn)行分類;檢測該語音片斷的多個(gè)語音特征;產(chǎn)生具有表明該語音片斷的被檢測到的多個(gè)特征的多個(gè)特征值的語音特征向量,其中,當(dāng)語音片斷包含發(fā)音的語音時(shí),語音特征向量至少包括表明該語音片斷的一個(gè)音調(diào)特征的一個(gè)音調(diào)特征值;并且利用該語音向量來確定在多個(gè)預(yù)定的語音模型中,哪一個(gè)是該語音片斷的一個(gè)好的匹配。
該方法最好進(jìn)一步包括對(duì)語音片段數(shù)字化的步驟,用于提供數(shù)字化的語音片斷。
利用語音向量的步驟最好確定在預(yù)定的多個(gè)語音模型中,哪一個(gè)是該語音片斷的最好匹配。
在最佳實(shí)施例中,該方法進(jìn)一步包括利用語音特征向量,訓(xùn)練預(yù)定的多個(gè)語音模型的步驟,以及在預(yù)定的多個(gè)語音模型被訓(xùn)練之后,存儲(chǔ)這些預(yù)定的多個(gè)語音模型的步驟。
檢測多個(gè)語音特征的步驟最好包括下述步驟產(chǎn)生語音片斷的至少一個(gè)非音調(diào)的特征值;當(dāng)語音分類器確定該語音片斷包含發(fā)音語音時(shí),產(chǎn)生該語音片段的至少一個(gè)音調(diào)特征值;并且組合至少一個(gè)非音調(diào)的特征值和至少一個(gè)音調(diào)的特征值,以便提供語音特征向量。
檢測至少一個(gè)非音調(diào)特征值的步驟最好包括以下的步驟利用至少一個(gè)第一轉(zhuǎn)換來轉(zhuǎn)換該語音片段,以便提供被轉(zhuǎn)換的非音調(diào)信號(hào);并且從被轉(zhuǎn)換的非音調(diào)信號(hào)中產(chǎn)生至少一個(gè)非音調(diào)特征值。
檢測至少一個(gè)音調(diào)特征值的步驟最好包括使用至少一個(gè)第二轉(zhuǎn)換來轉(zhuǎn)換該語音片斷以便提供被轉(zhuǎn)換的音調(diào)信號(hào)的步驟;以及從轉(zhuǎn)換的音調(diào)信號(hào)中產(chǎn)生至少一個(gè)音調(diào)特征值的步驟。
在一個(gè)最佳實(shí)施例中,轉(zhuǎn)換語音片斷的步驟包括從語音片斷中提取音高信息的步驟,以及從提取的音高信息中產(chǎn)生被轉(zhuǎn)換的音調(diào)信號(hào)的步驟。
現(xiàn)在將通過例子并參考附圖對(duì)本發(fā)明的一個(gè)實(shí)施例進(jìn)行更充分的描述,其中圖1表示普通話漢語中的五種音調(diào)模式;圖2表示一種已知的基于自動(dòng)語音識(shí)別系統(tǒng)的隱藏的馬爾可夫模型(HMM);圖3給出根據(jù)本發(fā)明一個(gè)最佳實(shí)施例的語音識(shí)別系統(tǒng)的塊圖;以及圖4表示作為圖3音調(diào)發(fā)生器輸入和輸出的信號(hào)的一個(gè)示意性的圖形。
這樣,如上所述,圖1表示中文普通話語言的五種音調(diào)模式。音調(diào)模式是時(shí)域中的音高頻率的軌道。例如,平調(diào)1意味著語音信號(hào)的音高頻率在一定的時(shí)間周期內(nèi)不發(fā)生變化,升調(diào)2意味著音高頻率單調(diào)地從低到高變化,降升調(diào)3意味著音高頻率從高到低變化,然后又從低回到高變化。降調(diào)4意味著音高頻率單調(diào)地從高向低變化,而中性音調(diào)5具有固定的音高頻率,類似于平調(diào)。
現(xiàn)在參考圖2,已知的基于自動(dòng)語音識(shí)別系統(tǒng)10的隱藏馬爾可夫模型(HMM)基本上可以被看作是模式匹配器。正如可以看到的,該模型基本上被劃分成為兩個(gè)部分,第一部分是語音處理模塊11,該模塊在輸入12上取出語音信號(hào)并且進(jìn)行處理以便提供頻譜的參數(shù),一般稱為語音特征向量,用于模型的訓(xùn)練和匹配,下面將要更充分描述。第二個(gè)部分是語音識(shí)別模塊13,該模塊接收語音特征向量并且通過開關(guān)部件16將其轉(zhuǎn)換到模型訓(xùn)練部件14或者語音識(shí)別部件15。
系統(tǒng)10利用大量的語音信號(hào)來訓(xùn)練一些模式,這在語音識(shí)別方面稱為模型。每個(gè)模型代表一個(gè)聲學(xué)單元,這可以是詞匯,也可以是音節(jié)或者音素。換句話說,語音信號(hào)必須被分割成聲學(xué)單元和表示,必須找到其中的每一個(gè)。在訓(xùn)練期間,屬于某個(gè)特殊的語音單元的所有片斷將被用來查找該單元的統(tǒng)計(jì)特征。這些統(tǒng)計(jì)特征的組合被稱為該語音單元的模型。在訓(xùn)練階段確定的所有模型被儲(chǔ)存在數(shù)據(jù)庫17中。在識(shí)別期間,輸入語音信號(hào)被分割成單元并且發(fā)送到識(shí)別器,以便查找其被儲(chǔ)存在數(shù)據(jù)庫17里面的最佳匹配模型,并且將其作為語音識(shí)別模塊13的輸出。
對(duì)于模型訓(xùn)練和識(shí)別,語音信號(hào)必須首先被數(shù)字化。這樣,在語音處理模塊11的輸入12上的語音信號(hào)被傳遞到數(shù)字轉(zhuǎn)換器18,其中,語音信號(hào)首先從模擬信號(hào)被轉(zhuǎn)換為數(shù)字信號(hào),然后被劃分成片斷,其長度通常為10-20個(gè)毫秒。然后把片斷,一般稱為幀(是基本的分析和處理單元),傳遞到語音信號(hào)轉(zhuǎn)換電路19,在其中經(jīng)歷一系列的數(shù)學(xué)轉(zhuǎn)換。在轉(zhuǎn)換期間,信號(hào)幀被處理,因此,一組頻譜參數(shù),一般稱為語音特征向量,可以在語音特征向量發(fā)生器20中被產(chǎn)生。這些語音特征向量被用作語音識(shí)別模塊13的輸入,用于模型訓(xùn)練和語音識(shí)別計(jì)算。
在這樣一種常規(guī)的語音識(shí)別系統(tǒng)中,當(dāng)試圖忽略感情的意義和任何講話人的個(gè)性時(shí),特征參數(shù)被選擇用來試圖表示該聲學(xué)信號(hào)所攜帶的詞匯意義,因?yàn)檫@些信息在試圖理解詞匯的意義方面造成了大問題。英語中的音調(diào)是有關(guān)一個(gè)常規(guī)的語音識(shí)別系統(tǒng)的這樣多余的信息的例子,并且,經(jīng)常在信號(hào)處理和轉(zhuǎn)換階段期間被忽視。然而,如上所述,音調(diào)語言中的音調(diào)代表一定的詞匯意義。在中國的普通話中,例如,伴隨一個(gè)音節(jié)的五種音調(diào)總意味著五個(gè)不同的字符并且有不同的詞匯意義。因?yàn)橛沙R?guī)的語音識(shí)別器引出的特征向量不包括任何音調(diào)信息,因此不能在語音信號(hào)中區(qū)別音調(diào),從而通常沒能識(shí)別音調(diào)語音中的詞匯意義。
現(xiàn)在看圖3,該圖表示根據(jù)本發(fā)明的語音識(shí)別系統(tǒng)的一個(gè)實(shí)施例。在該實(shí)施例中,語音識(shí)別系統(tǒng)30又有一個(gè)語音處理模塊和一個(gè)語音識(shí)別模塊,它們在圖中沒有單獨(dú)被表示。語音識(shí)別模塊接收語音特征向量并且通過開關(guān)36將其轉(zhuǎn)換到模型訓(xùn)練器34或者語音識(shí)別器35上。在訓(xùn)練階段期間確定的所有模型被儲(chǔ)存在模型存儲(chǔ)器37里面,在語音識(shí)別階段期間被語音識(shí)別器從這里取出,以便比較輸入語音的標(biāo)本,并且在語音識(shí)別模塊的出口31上提供最佳匹配模型。這種語音識(shí)別模塊的操作基本上與圖2中的語音識(shí)別模塊13相同,因此其操作將不在這里作進(jìn)一步的描述。
語音處理模塊包括接收輸入語音信號(hào)的輸入32和語音數(shù)字轉(zhuǎn)換器38,在其中,語音信號(hào)首先從模擬信號(hào)被轉(zhuǎn)換為數(shù)字信號(hào),然后劃分成幀。數(shù)字化幀被傳遞到語音分類器39和語音特征檢測器33。語音分類器被用來區(qū)分不同類型的語音。語音特征檢測器33包括一臺(tái)非音調(diào)特征檢測器40和一臺(tái)音調(diào)特征檢測器41。非音調(diào)特征檢測器40包括一個(gè)非音調(diào)特征轉(zhuǎn)換電路43和非音調(diào)特征向量發(fā)生器44,這類似于上述圖2中的信號(hào)轉(zhuǎn)換電路19和語音特征向量發(fā)生器20。音調(diào)特征檢測器41包括一個(gè)音調(diào)特征語音轉(zhuǎn)換電路45和一臺(tái)音調(diào)特征向量發(fā)生器46。非音調(diào)特征向量發(fā)生器44和音調(diào)特征向量發(fā)生器46的輸出然后在語音特征向量發(fā)生器42中被組合,以便提供語音特征向量,這被傳遞到開關(guān)36,然后轉(zhuǎn)換到模型訓(xùn)練器34或者語音識(shí)別器35。有了包括常規(guī)特征和音調(diào)特征的組合的特征向量,訓(xùn)練的模型能夠代表音調(diào)信息,并且識(shí)別器能更好地區(qū)分語音信號(hào)中的音調(diào)差別。
音調(diào)特征語音轉(zhuǎn)換電路45包括音高提取器47和音調(diào)信號(hào)發(fā)生器。音調(diào)基本上是音高頻率的變化。因此,為了檢測音調(diào),音高提取器被用來估計(jì)音高頻率語音信號(hào)的每個(gè)幀的音高頻率。然后利用音高頻率的變化來確定音調(diào)。音高檢測器在技術(shù)上是已知的,并且音高檢測器的任何期望的實(shí)施方案都可以被使用。這樣一種音高檢測器的一個(gè)例子是在題為“語音信號(hào)的數(shù)字處理”的文章中描述的,該論文的作者是L.R Rabiner與R.W Schafer,1978年由Prentice-Hall出版,第156頁。該算法使用時(shí)域中連續(xù)的語音幀的自相關(guān)來查找自相關(guān)函數(shù)的取樣值。兩個(gè)這種采樣值之間的距離就是音高周期。
語音信號(hào)大體上可以被劃分成為三個(gè)范疇發(fā)音語音,不發(fā)音語音和無聲。發(fā)音語音包括元音和雙元音。不發(fā)音語音包括輔音和半元音。而無聲則表示詞匯和語句之間、以及句子前后的暫停。應(yīng)該注意,音調(diào)僅在發(fā)音語音中出現(xiàn)。其它兩個(gè)類型的語音信號(hào)沒有一致的音高頻率變化。這樣,信號(hào)類型分類器被用來確定某個(gè)語音幀屬于哪一種語音的范疇。僅當(dāng)這個(gè)幀包含發(fā)音語音時(shí),才利用音調(diào)頻率來確定語音信號(hào)幀的音調(diào)。對(duì)于屬于其它兩個(gè)類型信號(hào)的所有幀,沒有音調(diào)信號(hào)從音調(diào)特征語音轉(zhuǎn)換電路45中輸出。
由于語音中的音調(diào)信息是由頻率域中的音高移動(dòng)表示的,故音高的變化可以被用作音調(diào)特征。這樣,音調(diào)的產(chǎn)生構(gòu)造成為音調(diào)特征的變化的音高。
為了產(chǎn)生音調(diào)特征T(n),無聲和不發(fā)音語音的語音段應(yīng)該被忽視。原因是那些段的信號(hào)沒有基本的頻率。從其中提取的音高將是可能在模型訓(xùn)練和識(shí)別期間造成巨大混亂的某些類型的隨機(jī)數(shù)。因此,一種清晰明確的發(fā)音/不發(fā)音語音分類器用于音調(diào)參數(shù)抽取。這樣的發(fā)音/不發(fā)音語音分類器是已知的,而任何期望的實(shí)施方案都可以被使用。在“以動(dòng)態(tài)的時(shí)間偏差強(qiáng)化發(fā)音評(píng)估”文章中描述了這樣一種發(fā)音/不發(fā)音分類器的一個(gè)例子,論文的作者是T.Wang和V.Ciperman,在1998年的ICASSP論文集中,第533-536頁。該算法基于波形時(shí)差,再加上基于發(fā)音和不發(fā)音的頻譜模型的頻譜匹配。
圖4表示音調(diào)產(chǎn)生操作。有兩個(gè)函數(shù)作為音調(diào)發(fā)生器的輸入。例如,通過以下的線性衰退函數(shù),音調(diào)特征可以從這兩個(gè)輸入中產(chǎn)生,如下所示T(t)=Σj-33αj×P(t+j)×v(t)]]>其中,T(t)為在時(shí)間t時(shí)的音調(diào)特征;P(t+j)是在時(shí)間t+j時(shí)從音高檢測器獲得的音高頻率;V(t)是語音類型函數(shù),表示幀是否包含發(fā)音語音,如果幀包含發(fā)音語音,則V(t)=1,否則,V(t)=0;和αj;是由下式給出的加權(quán)系數(shù)α-3=0.2,α-2=0.3,α-1=0.5,α0=0,α1=0.5,α2=0.3,α3=0.2如圖4所示,音高頻率P(t)在輸入49被提供給音調(diào)發(fā)生器48,而語音類型函數(shù)V(t)在輸入50被提供。語音類型函數(shù)V(t)基本上提供了一種“門”函數(shù),只允許音高頻率在發(fā)音語音期間被用來產(chǎn)生音調(diào)函數(shù)T(t),它在音調(diào)發(fā)生器48的輸出51上被提供。
這樣,普通話典型的10個(gè)幀元音可以產(chǎn)生10個(gè)音調(diào)特征,諸如“-9,-7,-6,-5,0,3,5,7,8,8”。從這些音調(diào)特征中,可以確定這是圖1中第三個(gè)類型音調(diào)3的元音,由于其音高輪廓在降升模式中。這個(gè)信息將被包括在語音特征向量中,被傳遞到語音識(shí)別模塊并且被轉(zhuǎn)換到模型訓(xùn)練器34或者語音識(shí)別器35。
應(yīng)該理解,雖然僅對(duì)本發(fā)明的一個(gè)特定的實(shí)施例進(jìn)行詳細(xì)的描述,但熟悉這一技術(shù)的人可以進(jìn)行各種修正和改進(jìn),而不離開本發(fā)明的范圍。
權(quán)利要求
1.一種用于語音識(shí)別的系統(tǒng),包括一個(gè)接收語音片斷的輸入終端;一個(gè)語音分類器,具有連接輸入終端的一個(gè)輸入和提供標(biāo)識(shí)的一個(gè)輸出,該標(biāo)識(shí)說明該語音片斷是包含發(fā)音還是包含不發(fā)音的語音;一個(gè)語音特征檢測器,具有連接輸入終端的第一輸入,連接語音分類器輸出的第二輸入,以及一個(gè)輸出,該輸出提供具有說明該語音片段特征的多個(gè)特征值的語音特征向量,該語音特征向量至少包括一個(gè)音調(diào)特征值,當(dāng)語音片斷包含發(fā)音的語音時(shí),該值表明該語音片段的一個(gè)音調(diào)特征;以及一個(gè)語音識(shí)別器,具有連接語音特征檢測器輸出的一個(gè)輸入和提供標(biāo)識(shí)的一個(gè)輸出,該標(biāo)識(shí)說明多個(gè)預(yù)定的語音模型中的哪一個(gè)是該語音片斷的一個(gè)好的匹配。
2.根據(jù)權(quán)利要求1的語音識(shí)別系統(tǒng),進(jìn)一步包括一個(gè)模數(shù)(A/D)轉(zhuǎn)換器,具有連接到輸入終端的一個(gè)輸入,以及連接到語音分類器和語音特征檢測器輸入的一個(gè)輸出,該輸出提供數(shù)字化的語音片斷。
3.根據(jù)權(quán)利要求1的語音識(shí)別系統(tǒng),其中,語音識(shí)別器的輸出提供了一個(gè)標(biāo)識(shí),說明預(yù)定的多個(gè)語音模型中的哪一個(gè)是該語音片斷的最好的匹配。
4.根據(jù)權(quán)利要求1的語音識(shí)別系統(tǒng),進(jìn)一步包括連接到語音識(shí)別器的一個(gè)存儲(chǔ)器,用于存儲(chǔ)預(yù)定的多個(gè)語音模型,以及一個(gè)語音模型訓(xùn)練器,該訓(xùn)練器具有可選擇地連接到語音特征檢測器輸出的一個(gè)輸入和連接存儲(chǔ)器的一個(gè)輸出,用于在預(yù)定的多個(gè)語音模型使用語音特征向量被訓(xùn)練之后,將預(yù)定的多個(gè)語音模型存儲(chǔ)到存儲(chǔ)器中。
5.根據(jù)權(quán)利要求1的語音識(shí)別系統(tǒng),其中,語音特征檢測器包括非音調(diào)特征檢測器,具有連接到語音特征檢測器輸入的一個(gè)輸入以及為語音片斷提供至少一個(gè)非音調(diào)特征值的一個(gè)輸出;音調(diào)特征檢測器,具有連接到語音特征檢測器輸入的第一輸入,連接到語音分類器輸出的第二輸入,以及一個(gè)輸出,當(dāng)語音分類器確定語音片斷包含發(fā)音語音時(shí),該輸出為該語音片斷提供至少一個(gè)音調(diào)特征值;以及語音特征向量發(fā)生器,具有連接到非音調(diào)特征檢測器輸出的第一輸入,連接到音調(diào)特征檢測器輸出的第二輸入,以及連接語音特征檢測器的輸出以便提供語音特征向量的一個(gè)輸出。
6.根據(jù)權(quán)利要求5的語音識(shí)別系統(tǒng),其中,非音調(diào)特征檢測器包括非音調(diào)語音轉(zhuǎn)換電路,具有連接非音調(diào)特征檢測器輸入的一個(gè)輸入,以及提供被轉(zhuǎn)換的非音調(diào)信號(hào)的一個(gè)輸出;以及非音調(diào)特征發(fā)生器,具有連接非音調(diào)語音轉(zhuǎn)換電路輸出的一個(gè)輸入,以及連接非音調(diào)特征檢測器的輸出、以便為該語音片段提供至少一個(gè)非音調(diào)特征值的一個(gè)輸出。
7.根據(jù)權(quán)利要求5的語音識(shí)別系統(tǒng),其中,音調(diào)特征檢測器包括音調(diào)語音轉(zhuǎn)換電路,具有連接音調(diào)特征檢測器第一和第二輸入的第一和第二輸入,以及提供被轉(zhuǎn)換的音調(diào)信號(hào)的一個(gè)輸出;以及音調(diào)特征發(fā)生器,具有連接音調(diào)語音轉(zhuǎn)換電路輸出的一個(gè)輸入,以及連接音調(diào)特征檢測器的輸出、以便為該語音片段提供至少一個(gè)音調(diào)特征值的一個(gè)輸出。
8.根據(jù)權(quán)利要求7的語音識(shí)別系統(tǒng),其中,音調(diào)語音轉(zhuǎn)換電路包括音高提取器,具有連接到音調(diào)語音轉(zhuǎn)換電路的第一輸入的一個(gè)輸入,和一個(gè)輸出;以及音調(diào)發(fā)生器,具有連接到音高提取器輸出的第一輸入,以及連接音調(diào)語音轉(zhuǎn)換電路的輸出、以便提供說明該語音片斷的音調(diào)的被轉(zhuǎn)換音調(diào)信號(hào)的一個(gè)輸出。
9.根據(jù)權(quán)利要求8的語音識(shí)別系統(tǒng),其中,音調(diào)發(fā)生器具有連接到音調(diào)語音轉(zhuǎn)換電路的第二輸入的第二輸入。
10.一種語音識(shí)別的方法,包括步驟接收語音片斷;根據(jù)語音片斷是包括發(fā)音還是包括不發(fā)音的語音而對(duì)該語音片斷進(jìn)行分類;檢測語音片斷的多個(gè)語音特征;產(chǎn)生語音特征向量,該特征向量具有多個(gè)特征值,以表明該語音片斷被檢測到的多個(gè)特征,其中,語音特征向量至少包括一個(gè)音調(diào)特征值,當(dāng)語音片斷包括發(fā)音語音時(shí),該值表明該語音片段的一個(gè)音調(diào)特征;以及利用語音向量來確定預(yù)定的多個(gè)語音模型中的哪一個(gè)是該語音片斷的一個(gè)好的匹配。
11.根據(jù)權(quán)利要求10的語音識(shí)別方法,進(jìn)一步包括對(duì)語音片斷數(shù)字化以便提供數(shù)字化的語音片斷的步驟。
12.根據(jù)權(quán)利要求10的語音識(shí)別方法,其中,利用語音向量的步驟確定預(yù)定的多個(gè)語音模型中的哪一個(gè)是該語音片斷的最好的匹配。
13.根據(jù)權(quán)利要求10的語音識(shí)別方法,進(jìn)一步包括步驟利用語音特征向量訓(xùn)練預(yù)定的多個(gè)語音模型;以及在預(yù)定的多個(gè)語音模型被訓(xùn)練之后,將預(yù)定的多個(gè)語音模型存儲(chǔ)。
14.根據(jù)權(quán)利要求10的語音識(shí)別方法,其中,檢測多個(gè)語音特征的步驟包括下述步驟產(chǎn)生語音片斷的至少一個(gè)非音調(diào)的特征值;當(dāng)語音分類器確定該語音片斷包含發(fā)音語音時(shí),產(chǎn)生該語音片斷的至少一個(gè)音調(diào)的特征值;以及組合至少一個(gè)非音調(diào)特征值和至少一個(gè)音調(diào)特征值,以便提供語音特征向量。
15.根據(jù)權(quán)利要求14的語音識(shí)別方法,其中,檢測至少一個(gè)非音調(diào)特征值的步驟包括下述步驟使用至少一個(gè)第一轉(zhuǎn)換來轉(zhuǎn)換語音片段,以便提供被轉(zhuǎn)換的非音調(diào)的信號(hào);以及從被轉(zhuǎn)換的非音調(diào)信號(hào)中產(chǎn)生至少一個(gè)非音調(diào)的特征值。
16.根據(jù)權(quán)利要求14的語音識(shí)別方法,其中,檢測至少一個(gè)音調(diào)特征值的步驟包括下述步驟使用至少一個(gè)第二轉(zhuǎn)換來轉(zhuǎn)換語音片段,以便提供被轉(zhuǎn)換的音調(diào)信號(hào);以及從被轉(zhuǎn)換的音調(diào)信號(hào)中產(chǎn)生至少一個(gè)音調(diào)特征值。
17.根據(jù)權(quán)利要求16的語音識(shí)別方法,其中,轉(zhuǎn)換語音片斷的步驟包括下述步驟從語音片斷中提取音高信息;以及從提取的音高信息中產(chǎn)生被轉(zhuǎn)換的音調(diào)信號(hào)。
全文摘要
一種用于語音識(shí)別的方法和裝置。該方法包括根據(jù)語音片斷是包含發(fā)音還是包含不發(fā)音的語音,對(duì)數(shù)字化的語音片斷進(jìn)行分類(38);并且,當(dāng)語音被發(fā)音時(shí),利用該分類來產(chǎn)生該語音片斷的音調(diào)特征向量(41)。然后,把該音調(diào)特征向量與其它非音調(diào)的特征向量(40)組合(42),以便提供語音特征向量。將該語音特征向量與預(yù)先存儲(chǔ)的不同語音片斷的語音特征向量(37)的模型進(jìn)行比較(35),以便確定哪一個(gè)預(yù)先存儲(chǔ)的模型是將要被識(shí)別的片斷的最可能的匹配。
文檔編號(hào)G10L15/00GK1316726SQ01103049
公開日2001年10月10日 申請(qǐng)日期2001年2月1日 優(yōu)先權(quán)日2000年2月2日
發(fā)明者張亞昕, 宋建鳴, 安東·馬迪耶夫斯基 申請(qǐng)人:摩托羅拉公司