欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

自動(dòng)語(yǔ)音歸類方法

文檔序號(hào):2822144閱讀:429來(lái)源:國(guó)知局
專利名稱:自動(dòng)語(yǔ)音歸類方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于自動(dòng)語(yǔ)音識(shí)別的話語(yǔ)類型的自動(dòng)語(yǔ)音歸類。本發(fā)明特別適用于、但不限于對(duì)無(wú)線電話接收到的話語(yǔ)的類型進(jìn)行歸類,以將話語(yǔ)歸類為數(shù)字撥號(hào)類型或電話簿名稱撥號(hào)類型。
背景技術(shù)
大詞匯表語(yǔ)音識(shí)別系統(tǒng)可以識(shí)別許多接收到的話語(yǔ)詞匯。與此相反,有限詞匯表語(yǔ)音識(shí)別系統(tǒng)只限于相對(duì)少量的說(shuō)出的和識(shí)別的詞匯。語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用包括識(shí)別少量的命令、電話號(hào)碼的名稱或數(shù)字撥號(hào)。
越來(lái)越多的語(yǔ)音識(shí)別系統(tǒng)正在被裝備到系統(tǒng)中,并被應(yīng)用于各種場(chǎng)合。這樣的語(yǔ)音識(shí)別系統(tǒng)必須能夠精確地識(shí)別接收到的話語(yǔ)詞匯,并且沒(méi)有顯著延遲地迅速提供適當(dāng)?shù)捻憫?yīng)。
語(yǔ)音識(shí)別系統(tǒng)通常使用一些相關(guān)性技術(shù),以決定話語(yǔ)詞匯(輸入的語(yǔ)音信號(hào))和聲音空間中的詞匯的特征之間的似然值。這些特征可以從諸聲音模型中產(chǎn)生,這些聲音模型從一個(gè)或多個(gè)講話者那里獲得訓(xùn)練數(shù)據(jù),并因此被稱為非特定人的大詞匯表語(yǔ)音識(shí)別系統(tǒng)。
對(duì)于大詞匯表語(yǔ)音識(shí)別系統(tǒng),需要大量的語(yǔ)音模型,以便在聲音空間中,充分地歸納出所說(shuō)出的輸入語(yǔ)音信號(hào)中的聲音屬性變化的特征。例如,即便是由同一個(gè)講話者說(shuō)出的,音素/a/在單詞“had”和“ban”中的聲音特征是不同的。因此,需要被稱為依賴于語(yǔ)境的音素的音素單元,來(lái)模擬同一個(gè)音素在不同詞語(yǔ)中的不同聲音。
語(yǔ)音識(shí)別系統(tǒng)通常花費(fèi)令人煩惱的大量時(shí)間,以便在輸入的語(yǔ)音信號(hào)和該系統(tǒng)所使用的每一個(gè)聲音模型之間尋找匹配分?jǐn)?shù),其在本領(lǐng)域被稱為似然分?jǐn)?shù)。每個(gè)聲音模型通常由多重高斯概率密度函數(shù)(PDF)描述,其中每個(gè)高斯分布由一個(gè)均值向量和一個(gè)協(xié)方差矩陣描述。為了找到一個(gè)輸入的語(yǔ)音信號(hào)和一個(gè)給定模型之間的似然分?jǐn)?shù),該輸入必須與每一個(gè)高斯分布進(jìn)行匹配。來(lái)自該模型的每個(gè)高斯成員的分?jǐn)?shù)的加權(quán)和,就成為最終的似然分?jǐn)?shù)。
當(dāng)自動(dòng)語(yǔ)音識(shí)別(ASR)用于無(wú)線電話時(shí),其最適當(dāng)?shù)膽?yīng)用是數(shù)字撥號(hào)(數(shù)字話語(yǔ)識(shí)別)和電話簿名稱撥號(hào)(文本或短語(yǔ)話語(yǔ)識(shí)別)。然而,對(duì)于自動(dòng)數(shù)字撥號(hào)語(yǔ)音識(shí)別而言,并不存在符合語(yǔ)法的句子的規(guī)則(一個(gè)數(shù)字之后可以跟隨任何數(shù)字)。這使得數(shù)字話語(yǔ)的語(yǔ)音識(shí)別比自然語(yǔ)言話語(yǔ)的語(yǔ)音識(shí)別更容易出錯(cuò)。
為了改進(jìn)識(shí)別精度,大多數(shù)系統(tǒng)研發(fā)者使用從純粹數(shù)字串中經(jīng)特殊訓(xùn)練而來(lái)的、清晰的數(shù)字聲音模型集。而諸如電話簿名稱識(shí)別和命令/控制詞識(shí)別等其它應(yīng)用則采用普通聲音模型集,其包括一個(gè)語(yǔ)言中發(fā)生的所有聲音。因此,當(dāng)語(yǔ)音識(shí)別器在識(shí)別引擎中使用數(shù)字聲音模型集或普通聲音模型集之前,它必須預(yù)先決定需要執(zhí)行哪種識(shí)別任務(wù)。因此,一個(gè)無(wú)線電話用戶不得不(以任何方式)輸入特定的任務(wù)領(lǐng)域命令(數(shù)字話語(yǔ)或語(yǔ)言話語(yǔ)),以正確地啟動(dòng)識(shí)別任務(wù)。一個(gè)實(shí)用的例子是用戶按下不同的按鈕,以執(zhí)行兩種識(shí)別之一,或通過(guò)說(shuō)出“數(shù)字撥號(hào)”或“名稱撥號(hào)”而利用命令識(shí)別,以進(jìn)入特定任務(wù)領(lǐng)域。然而,前一種辦法可能造成用戶的混淆,而后一種辦法則會(huì)延長(zhǎng)識(shí)別時(shí)間,而給用戶帶來(lái)不便。
在本說(shuō)明書包括權(quán)利要求書中,“包括”、“包含”或相似用語(yǔ)意在表示非排它性的包括,因此,一種方法或一個(gè)裝置包括一系列要素,并不是指僅僅包括這些要素,而是完全可以包括其它未列出的要素。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供了一種方法,用于在電子設(shè)備上進(jìn)行自動(dòng)語(yǔ)音歸類,該方法包括接收話語(yǔ)波形;
對(duì)話語(yǔ)波形進(jìn)行處理,以提供代表該波形的特征向量;通過(guò)將所述特征向量與至少兩個(gè)聲音模型集進(jìn)行比校,來(lái)執(zhí)行語(yǔ)音識(shí)別,其中的一個(gè)聲音模型集是普通詞匯表聲音模型集,而另一個(gè)模型集是數(shù)字聲音模型集,該執(zhí)行過(guò)程提供來(lái)自每個(gè)聲音模型集的諸待選串及其相關(guān)的諸類別分?jǐn)?shù);基于類別分?jǐn)?shù),對(duì)波形的話語(yǔ)類型進(jìn)行歸類;基于話語(yǔ)類型,從待選串中選擇一個(gè)串,作為語(yǔ)音識(shí)別結(jié)果;以及根據(jù)語(yǔ)音識(shí)別結(jié)果,提供響應(yīng)。
適當(dāng)?shù)?,該?zhí)行過(guò)程包括使用普通詞匯表聲音模型集,對(duì)特征向量進(jìn)行普通語(yǔ)音識(shí)別,以便為話語(yǔ)波形中的詞匯段提供一個(gè)普通詞匯表累積最大似然分?jǐn)?shù);以及使用數(shù)字聲音模型集,對(duì)特征向量進(jìn)行數(shù)字語(yǔ)音識(shí)別,以便為話語(yǔ)波形中的詞匯段提供一個(gè)數(shù)字詞匯表累積最大似然分?jǐn)?shù)。
優(yōu)選地,該歸類過(guò)程包括將所述普通詞匯表累積最大似然分?jǐn)?shù)與所述數(shù)字詞匯表累積最大似然分?jǐn)?shù)進(jìn)行對(duì)比評(píng)估,以提供話語(yǔ)類型。
適當(dāng)?shù)?,所述?zhí)行普通語(yǔ)音識(shí)別的過(guò)程提供一個(gè)普通分?jǐn)?shù),該普通分?jǐn)?shù)是從所選數(shù)量的最佳累積最大似然分?jǐn)?shù)計(jì)算而來(lái)的,而后者得自所述執(zhí)行普通語(yǔ)音識(shí)別的過(guò)程。
所述執(zhí)行數(shù)字語(yǔ)音識(shí)別的過(guò)程適當(dāng)?shù)靥峁┮粋€(gè)數(shù)字分?jǐn)?shù),該數(shù)字分?jǐn)?shù)是從所選數(shù)量的最佳累積最大似然分?jǐn)?shù)計(jì)算而來(lái)的,而后者得自所述執(zhí)行數(shù)字語(yǔ)音識(shí)別的過(guò)程。
所述評(píng)估過(guò)程也適當(dāng)?shù)匕▽?duì)比評(píng)估所述普通分?jǐn)?shù)與數(shù)字分?jǐn)?shù),以便提供話語(yǔ)類型。
所述處理過(guò)程適當(dāng)?shù)匕▽⑺霾ㄐ蝿澐譃橛蓭瑯?gòu)成的詞匯段,這些詞匯段被分析,以提供代表波形的特征向量。
適當(dāng)?shù)?,所述進(jìn)行普通語(yǔ)音識(shí)別的過(guò)程為詞匯段的每個(gè)幀提供一個(gè)平均普通粗略(broad)似然分?jǐn)?shù)。
適當(dāng)?shù)兀鲞M(jìn)行數(shù)字語(yǔ)音識(shí)別的過(guò)程為詞匯段的每個(gè)幀提供一個(gè)平均數(shù)字粗略似然分?jǐn)?shù)。
所述評(píng)估過(guò)程也適當(dāng)?shù)匕▽?duì)出評(píng)估話語(yǔ)波形的每個(gè)幀的平均普通粗略似然分?jǐn)?shù)與每個(gè)幀的平均數(shù)字粗略似然分?jǐn)?shù)。
適當(dāng)?shù)兀鲞M(jìn)行普通語(yǔ)音識(shí)別的過(guò)程為話語(yǔ)波形的每個(gè)幀提供一個(gè)平均普通語(yǔ)音似然分?jǐn)?shù),其排除了非語(yǔ)音幀。
適當(dāng)?shù)?,所述進(jìn)行數(shù)字語(yǔ)音識(shí)別的過(guò)程為話語(yǔ)波形的每個(gè)幀提供一個(gè)平均數(shù)字語(yǔ)音似然分?jǐn)?shù),其排除了非語(yǔ)音幀。
所述評(píng)估過(guò)程也適當(dāng)?shù)匕▽?duì)比評(píng)估所述每個(gè)幀的平均普通語(yǔ)音似然分?jǐn)?shù)與每個(gè)幀的平均數(shù)字語(yǔ)音似然分?jǐn)?shù),以便提供話語(yǔ)類型。
適當(dāng)?shù)兀鲞M(jìn)行普通語(yǔ)音識(shí)別的過(guò)程確定話語(yǔ)波形的最大普通粗略似然幀分?jǐn)?shù)。
適當(dāng)?shù)?,所述進(jìn)行數(shù)字語(yǔ)音識(shí)別的過(guò)程提供話語(yǔ)波形的最大數(shù)字粗略似然幀分?jǐn)?shù)。
所述評(píng)估過(guò)程也適當(dāng)?shù)匕▽?duì)比評(píng)估所述最大普通粗略似然幀分?jǐn)?shù)與最大數(shù)字粗略似然幀分?jǐn)?shù),以便提供話語(yǔ)類型。
適當(dāng)?shù)?,所述進(jìn)行普通語(yǔ)音識(shí)別的過(guò)程確定話語(yǔ)波形的最小普通粗略似然幀分?jǐn)?shù)。
適當(dāng)?shù)兀鲞M(jìn)行數(shù)字語(yǔ)音識(shí)別的過(guò)程提供話語(yǔ)波形的最小數(shù)字粗略似然幀分?jǐn)?shù)。
所述評(píng)估過(guò)程也適當(dāng)?shù)匕▽?duì)比評(píng)估所述最小普通粗略似然幀分?jǐn)?shù)與最小數(shù)字粗略似然幀分?jǐn)?shù),以便提供話語(yǔ)類型。
優(yōu)選地,所述評(píng)估過(guò)程適當(dāng)?shù)赜梢粋€(gè)歸類器執(zhí)行,該歸類器已由數(shù)字串和文本串進(jìn)行訓(xùn)練。歸類器最好是經(jīng)過(guò)訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)。
適當(dāng)?shù)?,所述普通詞匯表聲音模型集是一個(gè)音素模型集。這些音素模型可以由諸隱藏馬爾科夫模型(HMM)構(gòu)成。隱藏馬爾科夫模型可以模擬三音素。
優(yōu)選地,所述響應(yīng)包括一個(gè)控制信號(hào),用于啟動(dòng)所述設(shè)備的一個(gè)功能。當(dāng)話語(yǔ)類型被確認(rèn)為數(shù)字串時(shí),該響應(yīng)可能是一個(gè)電話號(hào)碼撥號(hào)功能,而該數(shù)字串即是一個(gè)電話號(hào)碼。


為便于理解本發(fā)明并將其投入實(shí)際應(yīng)用,現(xiàn)參閱參照附圖描述本發(fā)明的優(yōu)選實(shí)施例,在附圖中圖1是一個(gè)根據(jù)本發(fā)明的一個(gè)電子設(shè)備示意框圖;圖2是一個(gè)構(gòu)成圖1所示的電子設(shè)備一部分的歸類器的示意圖;圖3是一個(gè)狀態(tài)圖,示出了一個(gè)音素的隱藏馬爾科夫模型,該音素存儲(chǔ)在圖1所示電子設(shè)備的普通聲音模型集存儲(chǔ)器中;圖4是一個(gè)狀態(tài)圖,其描述了一個(gè)數(shù)字的隱藏馬爾科夫模型,該數(shù)字存儲(chǔ)在圖1所示電子設(shè)備的數(shù)字聲音模型集存儲(chǔ)器中;以及圖5是一個(gè)流程圖,示出一種根據(jù)本發(fā)明、用于自動(dòng)語(yǔ)音歸類的方法,該方法在如圖1所示的電子設(shè)備上執(zhí)行。
優(yōu)選實(shí)施例的詳細(xì)說(shuō)明現(xiàn)在參看圖1,其中描述了一個(gè)電子設(shè)備100,其形式為一個(gè)無(wú)線電話,包括一個(gè)設(shè)備處理器102,其由一總線103連接到一個(gè)用戶界面104,該用戶界面通常是一個(gè)觸摸屏,或者也可以是一個(gè)顯示屏和小鍵盤。用戶界面104由總線103連接到一個(gè)前端信號(hào)處理器108,該處理器具有一個(gè)輸入端口與一個(gè)麥克風(fēng)106連接,并從中接收話語(yǔ)。前端信號(hào)處理器108的輸出連接到一個(gè)識(shí)別器110。
電子設(shè)備100還具有一個(gè)普通聲音模型集存儲(chǔ)器112和一個(gè)數(shù)字聲音模型集存儲(chǔ)器114。存儲(chǔ)器112和114都連接到識(shí)別器110,而識(shí)別器110由總線103連接到歸類器130。而且,總線103將設(shè)備處理器102連接到歸類器130、識(shí)別器110、一個(gè)只讀存儲(chǔ)器(ROM)118、一個(gè)非易失存儲(chǔ)器120和一個(gè)無(wú)線通信單元116。
正如對(duì)本領(lǐng)域的技術(shù)人員顯而易見(jiàn)的那樣,射頻通信單元116通常是一個(gè)具有共用天線的組合的接收器和發(fā)射器。射頻通信單元116具有一個(gè)收發(fā)器,其通過(guò)一個(gè)射頻放大器與天線相連。該收發(fā)器也連接到一個(gè)組合的調(diào)制器/解調(diào)器,其將通信單元116連接到處理器102。而且,在本實(shí)施例中,非易失性存儲(chǔ)器120存儲(chǔ)著一個(gè)用戶可編程的電話簿數(shù)據(jù)庫(kù)Db,而只讀存儲(chǔ)器118存儲(chǔ)著設(shè)備處理器102的操作代碼,以及用來(lái)執(zhí)行如下參照?qǐng)D2至5所描述的方法的代碼。
參見(jiàn)圖2,圖中詳細(xì)示出了歸類器130,在本實(shí)施例中,該歸類器是一個(gè)經(jīng)過(guò)訓(xùn)練的多層感知(MLP)人工神經(jīng)網(wǎng)絡(luò)(ANN)。歸類器130是一個(gè)三層歸類器,其包括一個(gè)6節(jié)點(diǎn)輸入層,用于接收觀測(cè)數(shù)據(jù)F1、F2、F3、F4、F5和F6;一個(gè)4節(jié)點(diǎn)隱藏層H1、H2、H3和H4;以及一個(gè)2輸出歸類層C1和C2。隱藏層H1、H2、H3和H4的函數(shù)Func1(x)是Func1(x)=21+exp(-2x)-1,]]>其中,x是每個(gè)觀測(cè)數(shù)據(jù)(F1至F6)的值。輸出歸類層C1和C2的函數(shù)Func2(x)是Func2(x)=11+exp(-x)]]>使用了著名的Levenberg-Marquardt(LM)算法,來(lái)訓(xùn)練ANN。該算法是一種網(wǎng)絡(luò)訓(xùn)練函數(shù),其根據(jù)LM優(yōu)化來(lái)更新權(quán)重和偏置的值。Levenberg-Marquardt算法在Martin T.Hagan和Mohammad B.Menhaj的“Training feed-forward networks with the Marquardtalgorithm”,(IEEE Trans on Neural Networks,Vol 5,No 6,1994年11月)中作了描述,該文作為參考結(jié)合到本說(shuō)明書中。
觀測(cè)數(shù)據(jù)F1至F6是由以下計(jì)算決定的F1=(fg1-fd1)/k1;F2=(fg2-fd2)/k2;F3=(fg3-fd3)/k3;F4=(fg4-fd4)/k4;F5=fg5/fd5;以及F6=fg6/fd6.
其中K1至K4是由實(shí)驗(yàn)決定的比例常數(shù),且K1、K2被設(shè)置為1000,K3、K4被設(shè)置為40。而fg1至fg6和fd1至fd6是表示為對(duì)數(shù)值(log10)的類別分?jǐn)?shù),其決定如下fg1是對(duì)話語(yǔ)波形的所有詞匯段的普通詞匯表累積最大似然分?jǐn)?shù),該累計(jì)分?jǐn)?shù)是話語(yǔ)波形中的所有似然分?jǐn)?shù)的總和,是通過(guò)為話語(yǔ)波形的所有詞匯段、而對(duì)話語(yǔ)波形進(jìn)行普通語(yǔ)音識(shí)別而獲得的(一個(gè)詞匯段可以是一個(gè)詞匯或一個(gè)數(shù)字);fd1是對(duì)話語(yǔ)波形的所有詞匯段的數(shù)字詞匯表累積最大似然分?jǐn)?shù),該累計(jì)分?jǐn)?shù)是話語(yǔ)波形中的所有似然分?jǐn)?shù)的總和,是通過(guò)為話語(yǔ)波形的所有詞匯段、而對(duì)話語(yǔ)波形進(jìn)行數(shù)字語(yǔ)音識(shí)別而獲得的(一個(gè)詞匯段可以是一個(gè)詞匯或一個(gè)數(shù)字);fg2是從所有詞匯段的、所選數(shù)量的最佳累積最大似然分?jǐn)?shù)計(jì)算而來(lái)的一個(gè)普通分?jǐn)?shù),是通過(guò)對(duì)話語(yǔ)波形進(jìn)行普通語(yǔ)音識(shí)別而獲得的,通常所述普通分?jǐn)?shù)被計(jì)算為普通聲音模型集中的最前面5個(gè)普通詞匯表待選串最大似然分?jǐn)?shù)的平均值;fd2是從所有詞匯段的、所選數(shù)量的最佳累積最大似然分?jǐn)?shù)計(jì)算而來(lái)的一個(gè)數(shù)字分?jǐn)?shù),是通過(guò)對(duì)話語(yǔ)波形進(jìn)行普通語(yǔ)音識(shí)別而獲得的,通常該數(shù)字分?jǐn)?shù)被計(jì)算為數(shù)字話語(yǔ)模型集中的最前面5個(gè)數(shù)字詞匯表待選串最大似然分?jǐn)?shù)的平均值;fg3是一個(gè)詞匯段的每個(gè)幀的平均普通粗略似然分?jǐn)?shù),這里每個(gè)詞匯段被劃分為多個(gè)這樣的幀(通常是以10毫秒間隔)。
fd3是一個(gè)詞匯段的每個(gè)幀的平均數(shù)字粗略似然分?jǐn)?shù),這里每個(gè)詞匯段被劃分為多個(gè)這樣的幀;fg4是話語(yǔ)波形的每個(gè)幀的平均普通語(yǔ)音似然分?jǐn)?shù),其中排除了非語(yǔ)音幀;fd4是話語(yǔ)波形的每個(gè)幀的平均數(shù)字語(yǔ)音似然分?jǐn)?shù),其中排除了非語(yǔ)音幀;fg5是話語(yǔ)波形的最大普通粗略似然幀分?jǐn)?shù)(即最大的fg3);
fd5是話語(yǔ)波形的最大數(shù)字粗略似然幀分?jǐn)?shù)(即最大的fd3);fg6是話語(yǔ)波形的最小普通粗略似然幀分?jǐn)?shù)(即最小的fg3);fd6是話語(yǔ)波形的最小數(shù)字粗略似然幀分?jǐn)?shù)(即最小的fd3);參見(jiàn)圖3,其中示出了一個(gè)隱藏HMM的狀態(tài)圖,該模型用來(lái)模擬存儲(chǔ)在普通聲音模型集存儲(chǔ)器112中的普通詞匯表聲音模型集。該狀態(tài)圖示出了許多音素聲音模型中的一個(gè),這些音素聲音模型構(gòu)成了存儲(chǔ)在存儲(chǔ)器112中的一個(gè)聲音模型集,其中的每個(gè)音素聲音模型由3個(gè)狀態(tài)S1、S2、S3來(lái)模擬。與每個(gè)狀態(tài)相關(guān)聯(lián)的是轉(zhuǎn)移概率,其中a11和a12是狀態(tài)S1的轉(zhuǎn)移概率,a21和a22是狀態(tài)S2的轉(zhuǎn)移概率,a31和a32是狀態(tài)S3的狀態(tài)轉(zhuǎn)移概率。因此,正如對(duì)本領(lǐng)域的技術(shù)人員顯而易見(jiàn)的,該狀態(tài)圖表示的是一個(gè)語(yǔ)境相關(guān)的三音素,其每個(gè)狀態(tài)具有一個(gè)通常由6至64個(gè)成分構(gòu)成的高斯混合。而且,中間的狀態(tài)S2被視為一個(gè)音素HMM的穩(wěn)定狀態(tài),而其它兩個(gè)狀態(tài)是用來(lái)描述兩個(gè)音素之間的協(xié)同發(fā)音(co-articulation)的轉(zhuǎn)移狀態(tài)。
現(xiàn)參照?qǐng)D4的狀態(tài)圖,圖中示出了一個(gè)數(shù)字的HMM,該模型構(gòu)成一個(gè)數(shù)字聲音模型集,并存儲(chǔ)在數(shù)字聲音模型集存儲(chǔ)器114中。該狀態(tài)圖所表示的數(shù)字是由10個(gè)狀態(tài)S1至S10模擬的,且分別與每個(gè)狀態(tài)相關(guān)的是其相關(guān)轉(zhuǎn)移概率,其中a11和a12是狀態(tài)S1的轉(zhuǎn)移概率,所有其它每個(gè)狀態(tài)的轉(zhuǎn)移概率遵循同樣的字母和數(shù)字表示規(guī)則。數(shù)字聲音模型集存儲(chǔ)器114只需要模擬10個(gè)數(shù)字(數(shù)字0至9),因而只需要11個(gè)HHM(聲音模型)。這11個(gè)模型模擬的數(shù)字發(fā)音為“zero”(0)、“oh”(0)、“one”(1)、“two”(2)、“three”(3)、“four”(4)、“five”(5)、“six”(6)、“seven”(7)、“eight”(8)、“nine”(9)。然而,這些模型可能根據(jù)使用的語(yǔ)言或其它因素而變化。例如,數(shù)字0的模型中可能添加“nought”(零)和“nil”(零)。
參見(jiàn)圖5,其中示出了一種用于在電子設(shè)備100上進(jìn)行自動(dòng)語(yǔ)音歸類的方法500。通常由用戶在界面104提供一個(gè)啟動(dòng)信號(hào),以啟動(dòng)開始步驟510,此后,方法500執(zhí)行步驟520,以便從麥克風(fēng)106接收話語(yǔ)波形輸入。然后,由前端信號(hào)處理器108在步驟525對(duì)話語(yǔ)波形進(jìn)行采樣和數(shù)字化,隨后在步驟530將其分段為幀,之后在步驟535對(duì)其進(jìn)行處理,以提供代表波形的特征向量。應(yīng)當(dāng)注意,步驟520至535在本領(lǐng)域中是公知的,因而不需要詳細(xì)解釋。
然后,方法500在執(zhí)行識(shí)別步驟537中,通過(guò)將特征向量與至少兩個(gè)聲音模型集進(jìn)行比較,來(lái)進(jìn)行語(yǔ)音識(shí)別,該兩個(gè)模型集中的一個(gè)模型集是存儲(chǔ)在存儲(chǔ)器112中的普通詞匯表聲音模型集,另一個(gè)模型集是存儲(chǔ)在存儲(chǔ)器114中的數(shù)字聲音模型集。該過(guò)程提供待選串(文本的或數(shù)字的),及其相關(guān)的、得自每個(gè)聲音模型集的類別分?jǐn)?shù)。然后,在檢測(cè)步驟540,方法500確定是否波形中的詞匯數(shù)大于一個(gè)臨界值。該檢測(cè)步驟540是可選的,并特別用于將話語(yǔ)波形確認(rèn)和歸類為電話號(hào)碼的數(shù)字撥號(hào)。如果話語(yǔ)波形中的詞匯數(shù)大于一個(gè)臨界值(通常該值是7),則在步驟545,話語(yǔ)類型被認(rèn)為是一個(gè)數(shù)字串,并且類型標(biāo)志TF被設(shè)置為數(shù)字串類型。其基于的假設(shè)是,該方法僅用于電話名稱或數(shù)字撥號(hào)識(shí)別。另一方面,如果在步驟540,話語(yǔ)波形中的詞匯數(shù)被確定為小于該臨界值,則執(zhí)行一個(gè)歸類步驟550。在此歸類過(guò)程中,由識(shí)別器110向歸類器130提供觀測(cè)數(shù)據(jù)F1至F6。因此,在步驟550中,基于類別分?jǐn)?shù)fg1至fg6和fd1至fd6,而提供了對(duì)話語(yǔ)類型的歸類。作為結(jié)果,話語(yǔ)類型或者是數(shù)字串,或者是文本串(其可能包括詞匯和數(shù)字),而類型標(biāo)志TF也得到相應(yīng)設(shè)置。
在步驟545或550之后,選擇步驟553基于話語(yǔ)類型,從諸待選串中選擇一個(gè)待選串,作為語(yǔ)音識(shí)別結(jié)果。由識(shí)別器110所執(zhí)行的提供步驟555基于語(yǔ)音識(shí)別結(jié)果,提供一個(gè)響應(yīng)(識(shí)別結(jié)果信號(hào))。然后,方法500在結(jié)束步驟560結(jié)束。
所述進(jìn)行語(yǔ)音識(shí)別包括使用存儲(chǔ)器112中的普通詞匯表語(yǔ)音模型集對(duì)特征向量進(jìn)行普通語(yǔ)音識(shí)別,以提供fg1至fg6的值。所述進(jìn)行語(yǔ)音識(shí)別也包括使用存儲(chǔ)器114中的數(shù)字語(yǔ)音模型集對(duì)特征向量進(jìn)行數(shù)字語(yǔ)音識(shí)別,以提供fd1至fd6的值。然后,歸類步驟550如上所述評(píng)估觀測(cè)結(jié)果F1至F6,并將這些結(jié)果饋送到歸類器130中,以提供話語(yǔ)類型C1(數(shù)字串)或C2(文本串)。話語(yǔ)波形可以由此而簡(jiǎn)單地得到識(shí)別,因?yàn)樗械乃阉骱退迫环謹(jǐn)?shù)評(píng)分已經(jīng)進(jìn)行過(guò)了。以這樣的方式,設(shè)備100使用來(lái)自普通聲音模型集或數(shù)字聲音模型集的結(jié)果,來(lái)進(jìn)行語(yǔ)音識(shí)別,并提供響應(yīng)。
有利的是,本發(fā)明允許使用語(yǔ)音識(shí)別在設(shè)備100上執(zhí)行命令,并克服或至少減輕與現(xiàn)有技術(shù)的語(yǔ)音識(shí)別及對(duì)命令的響應(yīng)有關(guān)的一個(gè)或多個(gè)問(wèn)題。這些命令通常輸入自麥克風(fēng)106所檢測(cè)到的用戶話語(yǔ),或輸入自其它輸入方法,如通過(guò)無(wú)線或網(wǎng)絡(luò)通信鏈路而遠(yuǎn)程接收的聲音。方法500在步驟520有效地接收到話語(yǔ),而在步驟555的響應(yīng)包括提供一個(gè)控制信號(hào)以控制設(shè)備100,或者啟動(dòng)設(shè)備100的一個(gè)功能。當(dāng)話語(yǔ)類型是文本串時(shí),這樣的功能可能是在菜單中移動(dòng),或者選擇與名稱相關(guān)的電話號(hào)碼,該名稱是與步驟520接收到的話語(yǔ)相對(duì)應(yīng)的。另一方面,當(dāng)話語(yǔ)類型是數(shù)字串時(shí),則通常啟動(dòng)電話號(hào)碼的數(shù)字撥號(hào)(電話號(hào)碼撥號(hào)功能),而所撥的號(hào)碼是從識(shí)別器110獲得的,該識(shí)別器使用所述數(shù)字模型,以決定波形中由特征向量所代表的數(shù)字。
上述詳細(xì)說(shuō)明僅僅描述了優(yōu)選的示例性實(shí)施例,而無(wú)意限制本發(fā)明的范圍、適用性或配置。反之,本優(yōu)選示例性實(shí)施例詳細(xì)說(shuō)明使得本領(lǐng)域的技術(shù)人員可以實(shí)施本發(fā)明的優(yōu)選示例性實(shí)施例。應(yīng)當(dāng)理解,可以對(duì)其中各要素的功能和安排作各種改變,而不必脫離如所附權(quán)利要求書所闡明的本發(fā)明的精神和范圍。
權(quán)利要求
1.一種在電子設(shè)備上進(jìn)行自動(dòng)語(yǔ)音歸類的方法,包括接收一個(gè)話語(yǔ)波形;處理該話語(yǔ)波形,以提供代表該話語(yǔ)波形的特征向量;通過(guò)將所述特征向量與至少兩個(gè)聲音模型集進(jìn)行比較,對(duì)所述話語(yǔ)波形執(zhí)行語(yǔ)音識(shí)別,所述聲音模型集中的一個(gè)是普通詞匯表聲音模型集,另一個(gè)是數(shù)字聲音模型集,所述執(zhí)行過(guò)程提供待選串以及相關(guān)的、來(lái)自每個(gè)聲音模型集的類別分?jǐn)?shù);基于所述類別分?jǐn)?shù),確定波形的話語(yǔ)類型;基于所述話語(yǔ)類型,選擇所述待選串中的一個(gè),作為語(yǔ)音識(shí)別結(jié)果;以及根據(jù)語(yǔ)音識(shí)別結(jié)果,提供一個(gè)響應(yīng)。
2.如權(quán)利要求1的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行過(guò)程包括使用所述普通詞匯表聲音模型集對(duì)所述特征向量執(zhí)行普通語(yǔ)音識(shí)別,以便為話語(yǔ)波形中的詞匯段提供普通詞匯表累積最大似然分?jǐn)?shù);以及使用所述數(shù)字聲音模型集對(duì)所述特征向量執(zhí)行數(shù)字語(yǔ)音識(shí)別,以便為話語(yǔ)波形中的諸詞匯段提供數(shù)字詞匯表累積最大似然分?jǐn)?shù)。
3.如權(quán)利要求2的自動(dòng)語(yǔ)音歸類方法,其中所述歸類過(guò)程包括將所述普通詞匯表累積最大似然分?jǐn)?shù)與所述數(shù)字詞匯表累積最大似然分?jǐn)?shù)進(jìn)行對(duì)比評(píng)估,以提供話語(yǔ)類型。
4.如權(quán)利要求3的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行普通語(yǔ)音識(shí)別過(guò)程提供一個(gè)普通分?jǐn)?shù),該普通分?jǐn)?shù)是從所選數(shù)量的最佳累積最大似然分?jǐn)?shù)計(jì)算而來(lái)的,而這些最佳累積最大似然分?jǐn)?shù)得自執(zhí)行通用語(yǔ)音識(shí)別的過(guò)程。
5.如權(quán)利要求4的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行數(shù)字語(yǔ)音識(shí)別過(guò)程提供一個(gè)數(shù)字分?jǐn)?shù),該數(shù)字分?jǐn)?shù)是從所選數(shù)量的最佳累積最大似然分?jǐn)?shù)計(jì)算而來(lái)的,而這些最佳累積最大似然分?jǐn)?shù)得自執(zhí)行數(shù)字語(yǔ)音識(shí)別的過(guò)程。
6.如權(quán)利要求5的自動(dòng)語(yǔ)音歸類方法,其中所述評(píng)估也包括對(duì)比評(píng)估所述普通分?jǐn)?shù)和所述數(shù)字分?jǐn)?shù),以提供話語(yǔ)類型。
7.如權(quán)利要求3的自動(dòng)語(yǔ)音歸類方法,其中所述處理包括將所述波形劃分為由幀構(gòu)成的諸詞匯段,這些詞匯段被分析,以提供代表波形的特征向量。
8.如權(quán)利要求7的自動(dòng)語(yǔ)音歸類方法,其中所述進(jìn)行普通語(yǔ)音識(shí)別的過(guò)程為詞匯段的每個(gè)幀提供一個(gè)平均普通粗略似然分?jǐn)?shù)。
9.如權(quán)利要求8的自動(dòng)語(yǔ)音歸類的方法,其中所述進(jìn)行數(shù)字語(yǔ)音識(shí)別的過(guò)程為詞匯段的每個(gè)幀提供一個(gè)平均數(shù)字粗略似然分?jǐn)?shù)。
10.如權(quán)利要求9的自動(dòng)語(yǔ)音歸類方法,其中所述評(píng)估也包括對(duì)比評(píng)估所述波形的所述每幀平均普通粗略似然分?jǐn)?shù)與所述每幀平均數(shù)字粗略似然分?jǐn)?shù)。
11.如權(quán)利要求10的自動(dòng)語(yǔ)音歸類方法,其中所述進(jìn)行普通語(yǔ)音識(shí)別的過(guò)程提供波形每幀的平均普通語(yǔ)音似然分?jǐn)?shù),排除了非語(yǔ)音的幀。
12.如權(quán)利要求11的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行數(shù)字語(yǔ)音識(shí)別的過(guò)程提供波形每幀的平均數(shù)字語(yǔ)音似然分?jǐn)?shù),排除了非語(yǔ)音的幀。
13.如權(quán)利要求12的自動(dòng)語(yǔ)音歸類方法,其中所述對(duì)估過(guò)程也包括對(duì)比評(píng)估所述每幀的平均普通語(yǔ)音似然分?jǐn)?shù)與所述每幀的平均數(shù)字語(yǔ)音似然分?jǐn)?shù),以提供話語(yǔ)類型。
14.如權(quán)利要求13的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行普通語(yǔ)音識(shí)別的過(guò)程識(shí)別所述話語(yǔ)波形的最大普通粗略似然幀分?jǐn)?shù)。
15.如權(quán)利要求14的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行數(shù)字語(yǔ)音識(shí)別的過(guò)程提供所述話語(yǔ)波形的最大數(shù)字粗略似然幀分?jǐn)?shù)。
16.如權(quán)利要求15的自動(dòng)語(yǔ)音歸類方法,其中所述評(píng)估過(guò)程也包括對(duì)比評(píng)估所述最大普通粗略似然幀分?jǐn)?shù)與所述最大數(shù)字粗略似然分?jǐn)?shù),以提供話語(yǔ)類型。
17.如權(quán)利要求16的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行普通語(yǔ)音識(shí)別的過(guò)程識(shí)別所述話語(yǔ)波形的最小普通粗略似然幀分?jǐn)?shù)。
18.如權(quán)利要求17的自動(dòng)語(yǔ)音歸類方法,其中所述執(zhí)行數(shù)字語(yǔ)音識(shí)別的過(guò)程提供所述話語(yǔ)波形的最小數(shù)字粗略似然幀分?jǐn)?shù)。
19.如權(quán)利要求18的自動(dòng)語(yǔ)音歸類方法,其中所述對(duì)比評(píng)估過(guò)程也包括對(duì)比評(píng)估所述最小普通粗略似然段分?jǐn)?shù)與所述最小數(shù)字粗略似然段分?jǐn)?shù),以提供話語(yǔ)類型。
20.如權(quán)利要求19所述的自動(dòng)語(yǔ)音歸類方法,其中所述評(píng)估過(guò)程是由一個(gè)歸類器進(jìn)行的,該歸類器既由數(shù)字串和文本串所訓(xùn)練。
21.如權(quán)利要求3的自動(dòng)語(yǔ)音歸類方法,其中所述響應(yīng)包括用于啟動(dòng)所述設(shè)備的功能的控制信號(hào)。
22.如權(quán)利要求21的自動(dòng)語(yǔ)音歸類方法,其中所述響應(yīng)包括當(dāng)話語(yǔ)類型被確認(rèn)為數(shù)字串時(shí)的電話號(hào)碼撥號(hào)功能,其中該數(shù)字串是一個(gè)電話號(hào)碼。
全文摘要
一種在電子設(shè)備上進(jìn)行自動(dòng)語(yǔ)音歸類的方法(500)。該方法(500)包括接收一個(gè)話語(yǔ)波形(520),并對(duì)該話語(yǔ)波形進(jìn)行處理(535),以提供特征向量。然后,在步驟(537),通過(guò)將該特征向量與至少兩個(gè)聲音模型集進(jìn)行比較,來(lái)進(jìn)行語(yǔ)音識(shí)別,所述兩組特征向量中的一個(gè)是普通詞匯表聲音模型集,而另一個(gè)是數(shù)字聲音模型集。語(yǔ)音識(shí)別步驟(537)提供待選串,以及相關(guān)的來(lái)自所述每個(gè)聲音模型集的類別分?jǐn)?shù)。然后,基于所述類別分?jǐn)?shù)確定波形的話語(yǔ)類型(550),并在選擇步驟(553)中,基于所述話語(yǔ)類型,選擇待選串之一作為語(yǔ)音識(shí)別結(jié)果。根據(jù)語(yǔ)音識(shí)別結(jié)果,提供一個(gè)響應(yīng)(555)。
文檔編號(hào)G10L15/26GK1593980SQ03157019
公開日2005年3月16日 申請(qǐng)日期2003年9月9日 優(yōu)先權(quán)日2003年9月9日
發(fā)明者張亞昕, 何昕, 任曉林, 孫放, 譚昊 申請(qǐng)人:摩托羅拉公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
来安县| 连南| 萝北县| 谢通门县| 麦盖提县| 扶风县| 都安| 阿克陶县| 汤阴县| 思南县| 汉寿县| 德化县| 长海县| 高州市| 英德市| 乌兰察布市| 莱阳市| 石嘴山市| 鄄城县| 钟山县| 潞西市| 东城区| 五原县| 弋阳县| 佛山市| 汾西县| 新竹市| 江安县| 马山县| 泾阳县| 晋江市| 油尖旺区| 连云港市| 安吉县| 博湖县| 桐庐县| 广河县| 沾益县| 陆丰市| 万安县| 维西|