專利名稱:具有不依賴于說話者的語音識(shí)別的通信設(shè)備的制作方法
技術(shù)領(lǐng)域:
本文描述的技術(shù)通常涉及通信設(shè)備,以及這種通信設(shè)備中的不依 賴于說話者的語音識(shí)別技術(shù)。
背景技術(shù):
移動(dòng)電話已經(jīng)開始配備有依賴于說話者的姓名撥號(hào)以允許實(shí)現(xiàn) 特定的功能,如不用手的自動(dòng)撥號(hào)。在移動(dòng)電話環(huán)境中,通過使用語 音識(shí)別的不用手的撥號(hào)在使得用戶能夠在駕駛的時(shí)候通過讀出 一個(gè) 姓名或被叫方的號(hào)碼發(fā)出呼叫時(shí)特別有用。移動(dòng)電話將用戶的語音轉(zhuǎn) 換為特征數(shù)據(jù),特征數(shù)據(jù)進(jìn)一步被語音識(shí)別工具處理。為了識(shí)別出由 用戶說出的一個(gè)姓名或者被叫方的號(hào)碼,這種移動(dòng)電話需要在說出將 要被識(shí)別的姓名或號(hào)碼之前進(jìn)行訓(xùn)練。典型地,用戶的語音的特征數(shù) 據(jù)將與相應(yīng)于在注冊(cè)或訓(xùn)練過程期間由用戶預(yù)先記錄的姓名的預(yù)先 存儲(chǔ)的不同特征數(shù)據(jù)組相比較。如果找到了匹配,則移動(dòng)電話將自動(dòng) 撥打?qū)?yīng)于該姓名的號(hào)碼。
按照慣例,在使用具有話音識(shí)別能力的移動(dòng)電話進(jìn)行話音呼叫之 前,說出的將被識(shí)別的姓名必須在注冊(cè)過程期間提前訓(xùn)練。在訓(xùn)練階 段,用戶必須說出將要被識(shí)別的姓名和指令,然后由移動(dòng)電話記錄和 存儲(chǔ)相應(yīng)的所說的話。典型地,用戶必須多次說出預(yù)期的姓名和指令, 以便使得語音識(shí)別工具根據(jù)不同的所記錄的預(yù)期姓名或指令的發(fā)聲
實(shí)例,生成音頻特征數(shù)據(jù)。識(shí)別過程的這個(gè)訓(xùn)練階段對(duì)用戶是非常不 方便的,并且因此話音呼叫功能并未被大多數(shù)的用戶很好的接受。
作為一個(gè)經(jīng)證實(shí)的另一個(gè)缺點(diǎn)是,不能話音呼叫那些之前姓名沒 有在識(shí)別過程中訓(xùn)練過的新的人員的電話號(hào)碼,因?yàn)闆]有針對(duì)該姓名 記錄和存儲(chǔ)任何的音頻特征數(shù)據(jù)。因此,不得不針對(duì)該姓名再次執(zhí)行 識(shí)別過程,這對(duì)用戶來說是要花費(fèi)相當(dāng)大的力氣。
另外還證實(shí),具備話音撥號(hào)功能的這種移動(dòng)電話的噪聲相容性并 不是特別的高。這在當(dāng)用戶駕駛車輛的時(shí)候設(shè)法進(jìn)行話音撥號(hào)的呼叫 是一個(gè)問題,因?yàn)橐苿?dòng)電話環(huán)境非常嘈雜。
由于在訓(xùn)練階段記錄和存儲(chǔ)的預(yù)先記錄的特征數(shù)據(jù)對(duì)應(yīng)于特定 用戶的發(fā)聲,話音撥號(hào)期間的語音識(shí)別過程中的特征比較是說話者/ 用戶相關(guān)的。如果移動(dòng)電話已經(jīng)預(yù)先記錄的針對(duì)該特征數(shù)據(jù)的姓名是 由另一個(gè)人,即后來的用戶說出的,則識(shí)別率將會(huì)非常的低。同樣在 這種情況下,在后來的用戶所說的姓名的最新記錄的發(fā)聲注冊(cè)之后, 電話將不能識(shí)別姓名是否是由最初的用戶說出的。
對(duì)用戶來說的另一個(gè)不便之處是所需的訓(xùn)練階段,移動(dòng)電話的環(huán) 境應(yīng)該是在一個(gè)較低的噪聲級(jí)別以便生成所說出的姓名的特征數(shù)據(jù), 該環(huán)境受噪聲影響較小。然而,由于注冊(cè)和識(shí)別過程期間的噪聲級(jí)別 不同,已知的移動(dòng)電話的噪聲相容性相當(dāng)?shù)牡停铱赡茉斐蓚巫R(shí)別 或識(shí)別出錯(cuò)。這可能造成呼叫了非預(yù)期的一方或者過多的未被識(shí)別的 發(fā)音。
圖l描述了根據(jù) 一 個(gè)實(shí)施例用于執(zhí)行語音識(shí)別的設(shè)備的框圖; 圖2描述了舉例說明根據(jù)一個(gè)實(shí)施例的通信設(shè)備中的語音識(shí)別 過程的流程圖3、 4A、 4B和5描述了一個(gè)流程圖,其更為詳細(xì)地舉例說明 了根據(jù)不同的實(shí)施例的通信設(shè)備中的語音識(shí)別過程中執(zhí)行的操作;以 及圖6和7描述了用于執(zhí)行根據(jù)不同的實(shí)施例的語音識(shí)別過程的通 信設(shè)備的框圖。
具體實(shí)施例方式
本說明書中描述以及參考的"一個(gè)實(shí)施例"、"實(shí)施例"、"示例性
實(shí)施例,,等表示所描述的一個(gè)或多個(gè)實(shí)施例可能包括特定的特征、結(jié)
構(gòu)或特點(diǎn),但不是每一個(gè)實(shí)施例都需要包括該特定的特征、結(jié)構(gòu)或特
點(diǎn)。此外,這種短語不是必需指的是同一個(gè)實(shí)施例。而且,當(dāng)結(jié)合一
個(gè)實(shí)施例描迷一個(gè)特定的特征、結(jié)構(gòu)或特點(diǎn)時(shí),應(yīng)當(dāng)理解的是,無論
是否顯式描述了 ,在本領(lǐng)域的技術(shù)人員的知識(shí)范圍之內(nèi)可以結(jié)合其它
的實(shí)施例影響這種特征、結(jié)構(gòu)或特點(diǎn)。
現(xiàn)在將參考附圖描述各種各樣的實(shí)施例。在下面的描述中并未詳
細(xì)描述眾所周知的功能或構(gòu)造,因?yàn)闀?huì)因?qū)λ鼈兊牟槐匾脑斒隹赡?混淆本發(fā)明。
本發(fā)明提供了一種用于在具備不用手的話音撥號(hào)的通信設(shè)備中 執(zhí)行改進(jìn)的語音識(shí)別的設(shè)備和方法,該通信設(shè)備例如為移動(dòng)電話、蜂 窩電話、智能電話等等。在一些實(shí)施例中,通信設(shè)備提供一種語音識(shí) 別模式。在該語音識(shí)別模式中,諸如期望的被叫方姓名、號(hào)碼或電話 指令的用戶的輸入語音被轉(zhuǎn)換為特征數(shù)據(jù)。根據(jù)該特征數(shù)據(jù)得到一個(gè) 似然向量序列。每個(gè)似然向量的分量指示說出的語音單元在相應(yīng)的用 戶的輸入語音中出現(xiàn)的似然性。似然向量序列與若干語音單詞模型相 比較。語音單詞模型對(duì)應(yīng)于電話薄或電話指令中的條目,而且是類似 于語音單元的單詞子模型的樣本。通過將似然向量序列與語音單詞模 型相比較可以應(yīng)用調(diào)變(Warping)技術(shù)。作為調(diào)變操作的結(jié)果,計(jì) 算語音單詞模型的單詞模型匹配似然性,并且確定與輸入語音最為相
似的單詞模型(在此稱為"最佳匹配單詞模型")。然后根據(jù)最佳匹配 單詞模型合成所識(shí)別的姓名、號(hào)碼、或電話指令。在某些應(yīng)用中,在 已經(jīng)合成了姓名、號(hào)碼、或電話指令之后,可能執(zhí)行一個(gè)自動(dòng)撥號(hào)操 作撥打相應(yīng)的號(hào)碼或者執(zhí)行一個(gè)相應(yīng)的指令。根據(jù)輸入特征數(shù)據(jù)直接計(jì)算似然序列以及將其與由例如通信設(shè)備的條目中得出的語音單詞 模型相比較,提供了可靠且有效的語音識(shí)別。
此外,在所應(yīng)用的語音識(shí)別中,無需針對(duì)將被識(shí)別的姓名的特征 數(shù)據(jù)的預(yù)先記錄和預(yù)先存儲(chǔ)。如果相應(yīng)的姓名可用的話,可以利用話 音撥號(hào)功能撥打新的電話薄條目的號(hào)碼。例如,在書寫模式中也是可 以的,從該模式中可以導(dǎo)出語音單詞模式。
在一些實(shí)施例中,執(zhí)行調(diào)變操作以便使得用戶所說的話和語音單 詞模型的匹配似然性最大化。單詞模型是將要識(shí)別的單詞,例如期望 的被叫方姓名、號(hào)碼、或者電話指令的語音表示。通常,單詞模型被 分成單詞子模型,而且每個(gè)單詞子模型的特征在于其在單詞模型中的 位置。
在調(diào)變操作的一些實(shí)施例中,通過連續(xù)調(diào)變對(duì)應(yīng)于輸入語音的似 然向量序列到包含單詞模型向量序列的單詞模型,計(jì)算單詞模型的單 詞模型的匹配似然性。單詞模型向量的分量表示在相應(yīng)的單詞模型位 置找到某個(gè)子模型的期望值。
在一個(gè)實(shí)例中,借助于調(diào)變操作實(shí)現(xiàn)將單詞模型向量分配給似然 向量。取似然向量和所分配的單詞模型向量的標(biāo)積和的最大值,但保 持似然向量以及單詞模型向量的順序。對(duì)于考慮中的每個(gè)單詞,這個(gè) 最大化的標(biāo)量向量和被計(jì)算作為單詞模型匹配似然性。對(duì)應(yīng)于來自 姓名或命令的最佳匹配單詞模型的最高單詞模型匹配似然性被合成, 由此獲得語音識(shí)別結(jié)果。
識(shí)別過程中使用的似然向量可以被理解為相應(yīng)的特征數(shù)據(jù)的輸 入語音中的這些所說出的語音單元的似然性的指示。為了計(jì)算似然向 量,可以使用語音的語言特定的內(nèi)部表示,其包含了充當(dāng)語音單詞模 型的子模型的語音單元的似然性分布。
在一些實(shí)施例中,語音似然性分布可以相對(duì)于當(dāng)前說話者的特性 和環(huán)境噪聲進(jìn)行更新。
在一些實(shí)施例中,提供一種具有話音撥號(hào)功能的通信設(shè)備,而且 該通信設(shè)備執(zhí)行不依賴于說話者的語音識(shí)別。
在一些實(shí)施例中,提供一種包含計(jì)算機(jī)程序代碼的計(jì)算機(jī)程序和 存儲(chǔ)器裝置,當(dāng)計(jì)算機(jī)程序代碼在通信設(shè)備上執(zhí)行時(shí),使得通信設(shè)備 能夠?qū)崿F(xiàn)不依賴于說話者的語音識(shí)別,語音識(shí)別功能則實(shí)現(xiàn)了例如通 信設(shè)備的不用手的話音撥號(hào)功能。
在一些實(shí)施例中,語音識(shí)別技術(shù)被用于識(shí)別聲學(xué)傳送的語音信 號(hào)。這些語音信號(hào)來自通信設(shè)備的近端用戶,通信設(shè)備為例如具有實(shí) 現(xiàn)本方法或者包含用于執(zhí)行語音識(shí)別的設(shè)備的不用手的話音撥號(hào)功 能的移動(dòng)電話。語音識(shí)別還可以用于控制通信設(shè)備。例如,在僅有有 限的處理能力可用的情況下,語音識(shí)別技術(shù)可用于控制通信設(shè)備的功
能。語音識(shí)別技術(shù)還可以用于控制如下設(shè)備的功能例如機(jī)動(dòng)車、巻 簾窗、無線電接收機(jī)、導(dǎo)航系統(tǒng)、移動(dòng)電話,或者甚至于控制機(jī)動(dòng)車 自身。
現(xiàn)在參考圖1,附圖標(biāo)記100指示一個(gè)用于執(zhí)行作為諸如移動(dòng)或 蜂窩電話的通信設(shè)備的一部分的語音識(shí)別的設(shè)備。為了清楚起見,圖 1中已經(jīng)省略了可在常規(guī)電話中發(fā)現(xiàn)的其它功能模塊,如射頻(RF) 組件、雙音多頻(DTMF)組件等。在操作中,通過麥克風(fēng)10輸入 的模擬話音信號(hào)由例如模-數(shù)(A/D )轉(zhuǎn)換器和脈沖編碼調(diào)制器(PCM ) (均未示出)轉(zhuǎn)換為數(shù)字話音輸入信號(hào)。這個(gè)數(shù)字輸入信號(hào)被傳遞給 聲碼器20。
諸如微處理器的控制器40控制通信設(shè)備的基本操作并執(zhí)行控制 功能,例如進(jìn)入語音識(shí)別模式,或者在語音識(shí)別判定之后和/或基于用 戶請(qǐng)求撥打?qū)?yīng)于所識(shí)別的姓名的號(hào)碼。
例如,在按下一個(gè)按鍵(圖1中未示出)以便激活話音識(shí)別模式 (即,語音識(shí)別模式)之后,控制器40將通信設(shè)備置于話音識(shí)別模 式。數(shù)字輸入信號(hào)于是被聲碼器20處理,聲碼器20將數(shù)字輸入信號(hào) 劃分為等長(zhǎng)的部分而且從這些部分中提取頻譜特征數(shù)據(jù),即所謂的 幀。頻譜特征數(shù)據(jù)被轉(zhuǎn)化為帶有對(duì)數(shù)或非對(duì)數(shù)成分的頻譜特征向量, 該頻鐠特征向量被稱為輸入特征向量。舉例來說,特征數(shù)據(jù)可以為每 秒200個(gè)字節(jié),而且由頻i脊或?qū)?shù)倒頻鐠(cepstral)參數(shù)、信號(hào)幅
度和/或幅度的改變、或者它們的組合來表示。這種特征提取技術(shù)在本 領(lǐng)域中是眾所周知的。因此,從本討論中省略了如何從數(shù)字輸入語音 中提取特征數(shù)據(jù)以及轉(zhuǎn)換為輸入特征向量的詳細(xì)方法描述。
將要由通信設(shè)備識(shí)別的單詞,如期望的被叫方姓名、號(hào)碼、或者
電話指令,存儲(chǔ)在電話薄90中。電話薄90可以在非易失的存儲(chǔ)器, 如閃存或EEPROM等,或者用戶接口模塊(SIM)卡中實(shí)現(xiàn)。電話 薄典型地包含存儲(chǔ)器存儲(chǔ)的用戶信息,包括移動(dòng)站序列號(hào)和通信設(shè)備 的制造商的代碼指示等等。在一個(gè)實(shí)例中,非易失存儲(chǔ)器包含語言特 定的內(nèi)部語音表示,其包含了語音單元的似然性分布,如充當(dāng)將被識(shí) 別的單詞的子模型的字母表的字母的音素或語音表示。下面將進(jìn)一步 描述似然性分布的計(jì)算。簡(jiǎn)言之,似然性分布指示了用作參數(shù)化表示 的特征空間的統(tǒng)計(jì)分布,用于計(jì)算對(duì)應(yīng)于給定特征向量的所說的話 中,所講的語音單元的似然性。
通過利用下面將進(jìn)一步描述的字形到音素(G2P)轉(zhuǎn)換,控制器 40根據(jù)將被識(shí)別的單詞生成語音單詞模型。語音模型被存儲(chǔ)在第一存 儲(chǔ)器50中,該第一存儲(chǔ)器可以是用于存儲(chǔ)在通信設(shè)備的用戶操作期 間所應(yīng)用的各種臨時(shí)數(shù)據(jù)的易失性存儲(chǔ)器,例如RAM,或者為非易
失存儲(chǔ)器,例如類似于存儲(chǔ)電話薄90的存儲(chǔ)器。
語音單詞模型由類似音素的所選擇的語言的單詞子模型(即語音
單元)組成。因此,語音單詞模型還可以被定義為單詞模型向量序列, 其中每個(gè)單詞模型向量包括指示在相應(yīng)的單詞模型的位置找到相應(yīng)
語音單元的期望值的分量。如可以在圖l中看出的,以舉例方式在第 一存儲(chǔ)器50中描述了兩個(gè)單詞模型向量序列51和52。
在語音識(shí)別模式中,基于所選擇的語言的內(nèi)部表示的似然性分 布,計(jì)算每個(gè)輸入特征向量的相應(yīng)似然向量。似然向量的各分量表示 在該特征數(shù)據(jù)幀中相應(yīng)的語音單元被說出的似然性。由此,每個(gè)似然 向量的維數(shù)對(duì)應(yīng)于在所選擇的語言中使用的語音單元的數(shù)量。
語音識(shí)別由語音識(shí)別部件30執(zhí)行。語音識(shí)別部件30包括似然向 量計(jì)算部件60,其根據(jù)從聲碼器20輸入的特征向量計(jì)算似然向量序
列。從似然向量計(jì)算部件60輸出的似然向量序列被傳遞到語音識(shí)別 部件30的調(diào)變器(warper) 70。調(diào)變器70使似然向量序列61與單 詞模型向量序列51、 52—同調(diào)變,使得單詞模型向量序列51、 52可 相繼由第一存儲(chǔ)器50使用。調(diào)變處理的結(jié)果是給單詞模型向量分配 以似然向量。執(zhí)行這項(xiàng)工作以便似然向量和所分配的單詞模型向量的 標(biāo)積和最大。同樣,保持似然向量以及單詞模型向量二者的順序。在 此之后,計(jì)算在考慮當(dāng)中的每個(gè)單詞(即,語音單詞模型)的最大標(biāo) 量向量和。最大和對(duì)應(yīng)于最佳匹配的單詞,而且標(biāo)量向量和的值代表 單詞模型的匹配等級(jí)次序。
由調(diào)變器執(zhí)行的調(diào)變處理的一個(gè)原理是針對(duì)每個(gè)單詞模型,最大 化單詞模型匹配似然性。在一個(gè)實(shí)例中,這是在兩個(gè)相鄰位置完成的。
根據(jù)調(diào)變技術(shù),將與恒定的時(shí)間間隔有關(guān)的匹配似然向量序列與相應(yīng) 的單詞模型的子模型向量相比較。每個(gè)這樣的子模型向量都指示在該
位置,在相應(yīng)的單詞模型中可能意味著出現(xiàn)或者不出現(xiàn)相應(yīng)的單詞子 模型的分布。子模型向量在某個(gè)位置處的單個(gè)分量因此可以被理解為 指示單詞模型中的某個(gè)單詞子模型在該位置的期望值。在一個(gè)優(yōu)化處
理中,通過相對(duì)于將被分配給該位置處或者該位置的下一位置處的單 詞子模型的時(shí)間幀的似然向量,移位相鄰單詞子模型之間的邊界,可 以使得這些相鄰單詞子模型的匹配似然性最大化。
由同 一申請(qǐng)人申請(qǐng)的標(biāo)題為"Speech Recognition Method and System" ( 2002年6月4日提交的EP申請(qǐng)?zhí)朜o. 02012336.0 )的歐洲 專利申請(qǐng)中提供了有關(guān)所應(yīng)用的用于確定似然向量序列的最佳匹配 單詞模型的調(diào)變技術(shù)的附加的細(xì)節(jié),其全部?jī)?nèi)容作為參考包含于此。
此外,或者可選地,語音識(shí)別裝置30可能包括合成來自最佳匹 配單詞模型的姓名作為所識(shí)別的姓名或命令的合成器(圖i中未示
出)。這個(gè)識(shí)別的姓名可以接著被輸出以便通知用戶語音識(shí)別已完成。 例如,所識(shí)別的姓名的合成的話音數(shù)據(jù)接著被提交給聲碼器20,話音 數(shù)據(jù)在此被轉(zhuǎn)換成PCM信號(hào)而且接著提供給數(shù)-模(D/A )轉(zhuǎn)換器(圖 1中未示出)。在D/A轉(zhuǎn)換器中將PCM信號(hào)轉(zhuǎn)換為模擬信號(hào)之后,
該信號(hào)可能被放大為可聽見的信號(hào)并通過揚(yáng)聲器15輸出。由此,例 如當(dāng)用戶在通信設(shè)備100的語音識(shí)別模式中說出一個(gè)被叫方姓名,而 且語音識(shí)別裝置30識(shí)別該姓名對(duì)應(yīng)于電話薄90中的某個(gè)姓名的語音 單詞模型時(shí),其將這個(gè)的識(shí)別報(bào)告給用戶。例如,可以通過再現(xiàn)所識(shí) 別的姓名來完成這種報(bào)告。控制器40于是可以執(zhí)行自動(dòng)撥號(hào)或者等 待一個(gè)口頭的確認(rèn)命令(例如,"撥號(hào),,或"是的,,)或者在繼續(xù)撥號(hào)之
前由用戶按一個(gè)鍵。
在一些實(shí)施例中,帶有似然向量計(jì)算組件60、調(diào)變器70以及可 能還有合成器的語音識(shí)別裝置30可以實(shí)現(xiàn)為運(yùn)行在例如控制器40的 微處理器上的一組硬件單元、軟件程序,或者通過硬件和軟件的結(jié)合 來實(shí)現(xiàn)。當(dāng)以軟件形式實(shí)現(xiàn)時(shí),語音識(shí)別功能可以包含在非易失存儲(chǔ) 器中,如通信設(shè)備的SIM卡中,無需如圖1所描述的分離的電路組件。
現(xiàn)在參考圖2,圖2舉例說明了在具有話音撥號(hào)功能的通信設(shè)備 中的語音識(shí)別過程200。在塊210,通過例如按下通信設(shè)備上的一個(gè) 鍵或者按鈕進(jìn)入語音識(shí)別模式。例如,用戶可以按下通信設(shè)備上的適 當(dāng)?shù)陌存I以便進(jìn)入語音識(shí)別模式。該鍵入通過例如通信設(shè)備100的控 制器40被檢測(cè)到,然后控制器40進(jìn)入語音識(shí)別模式。
在塊220,根據(jù)當(dāng)前記錄的輸入特征數(shù)據(jù)的輸入特征向量生成似 然向量序列。所選擇的語言的語音單元的似然性分布被用于生成似然 向量序列。例如,可以基于當(dāng)前用戶的國籍選擇語言。在接通通信設(shè) 備之后,提供似然性分布的語音的語言特定的內(nèi)部表示被從服務(wù)提供 商經(jīng)由移動(dòng)通信鏈路傳送給該通信設(shè)備。
在塊230,通過將似然向量序列調(diào)變到單詞模型向量序列,比較 似然向量序列和語音單詞模型??梢詮耐ㄐ旁O(shè)備的電話薄中的姓名的 書寫表示法得到語音單詞模型。例如,這可以基于所選擇的語言的語 音單元,利用字形到音素轉(zhuǎn)換來完成。
作為調(diào)變操作的結(jié)果,確定了最佳匹配單詞模型或者最佳匹配單 詞模型的列表。對(duì)這些最佳匹配單詞模型的相應(yīng)的姓名,通過合成這 些姓名用于聲音輸出或者在通信設(shè)備的內(nèi)置的顯示裝置上以合理的
順序顯示一個(gè)或多個(gè)姓名來指示。用戶于是可以通過例如按下一個(gè)按 鈕或者說出一個(gè)話音指令來選擇所識(shí)別的姓名。這允許通信設(shè)備撥打 對(duì)應(yīng)于所識(shí)別的姓名的號(hào)碼。
圖3舉例說明了過程300,其中相對(duì)于環(huán)境噪聲級(jí)別和當(dāng)前用戶 的個(gè)人說話者特性來更新似然性分布。如參考圖3所解釋的,通過引 入附加的特征向量可以考慮通信設(shè)備的環(huán)境噪聲和當(dāng)前說話者的特 性,所引入的附加的特征向量隨后被用于更新似然性分布。 一個(gè)稱為 噪聲特征向量的向量代表環(huán)境噪聲,而另 一個(gè)稱為說話者特性適應(yīng)向 量的向量代表當(dāng)前說話者的特性。如將參考圖4A、 4B和5進(jìn)一步解 釋的,該兩個(gè)向量均影響語音的內(nèi)部表示。
在塊310,如上所述,在語音識(shí)別模式中根據(jù)話音輸入生成輸入 特征向量。此外,還以與如輸入特征向量生成類似的方式,在塊310 生成噪聲特征向量。噪聲特征向量可能具有與輸入特征向量相同的頻 鐠特性,而且均根據(jù)屬于噪聲輸入而不是話音輸入的輸入特征數(shù)據(jù)幀 生成的。話音和噪聲之間的區(qū)別可以基于不同的標(biāo)準(zhǔn)。舉例來說但不 是限制性的, 一種標(biāo)準(zhǔn)可以是在進(jìn)入語音識(shí)別模式之后,用戶還未說 出一個(gè)話音輸入。另外,或者可選地,可以根據(jù)在已經(jīng)關(guān)閉了收音機(jī) 或者音樂播放器時(shí),且已經(jīng)進(jìn)入了語音識(shí)別模式之后,但是在開始一 個(gè)話音消息之前記錄的噪聲輸入,計(jì)算噪聲特征向量。例如,話音消 息可能是"請(qǐng)說你想撥打的姓名",該話音消息可以由通信設(shè)備輸出。 另一種可能的標(biāo)準(zhǔn)可以是基于話音或噪聲輸入的典型分布,評(píng)估輸入 特征向量的頻鐠功率分布,以便決定當(dāng)前的輸入向量是輸入特征向量 還是噪聲特征向量。
根據(jù)一個(gè)實(shí)施例,可以提供根據(jù)由當(dāng)前用戶所講的相應(yīng)的話音輸 入生成的輸入特征向量,而且可以使用說話者特性適應(yīng)向量。如果沒 有說話者特性適應(yīng)向量可用,則可以使用 一個(gè)默認(rèn)的特性適應(yīng)向量。 在一個(gè)實(shí)例中,默認(rèn)特性適應(yīng)向量的所有分量等于0。在另一個(gè)實(shí)例 中,通信設(shè)備包括一個(gè)類似SIM卡的非易失存儲(chǔ)器,在其上存儲(chǔ)有當(dāng) 前用戶的說話者特性適應(yīng)向量,隨后于是可以使用該說話者特性適應(yīng)
向量。
在一些實(shí)施例中,可以在通信設(shè)備中存儲(chǔ)幾個(gè)說話者特性適應(yīng)向 量,或者可以例如通過來自服務(wù)提供商的移動(dòng)通信鏈路作出請(qǐng)求。在 此情況下,用戶可以從一個(gè)此類向量的列表中選擇最為適當(dāng)?shù)恼f話者 特性適應(yīng)向量。這個(gè)列表可以包括例如帶有或者不帶有嚴(yán)重口音的針 對(duì)男性和女性用戶的向量,等等。
噪聲特征向量以及說話者特性適應(yīng)向量均可以是具有如輸入特 征向量的同樣維數(shù)和頻譜屬性的頻譜向量。
在塊320,通過使似然性分布適應(yīng)當(dāng)前環(huán)境噪聲級(jí)別和當(dāng)前用戶 的語音學(xué)特征,更新似然性分布。噪聲特征向量和說話者特性適應(yīng)向 量可以以這樣一種方式來修正似然性分布即,可以改變一個(gè)相同的 特征向量的似然向量的分量值以便提高識(shí)別率。下面進(jìn)一步詳細(xì)描述 更新操作。
在塊330,基于更新的似然性分布,根據(jù)當(dāng)前輸入特征向量生成 一個(gè)似然向量序列。在塊340,執(zhí)行例如如上所述的調(diào)變操作?;?操作中確定的最佳匹配單詞模型,過程300繼續(xù)進(jìn)行到塊350。在塊 350,通過選擇對(duì)應(yīng)于該最佳匹配單詞模型的姓名,確定識(shí)別結(jié)果。
在另一條路徑中,過程300從塊340分支到塊360,在此計(jì)算當(dāng) 前說話者特性適應(yīng)向量。這個(gè)計(jì)算操作是基于由調(diào)變操作(上面參考 圖1,以及關(guān)于調(diào)變技術(shù)參考的共同待審的專利申請(qǐng)中描述的)執(zhí)行 的使相應(yīng)的單詞模型向量與似然向量關(guān)聯(lián)來完成的。最新計(jì)算的說話 者特性適應(yīng)向量于是可以用于在后續(xù)識(shí)別周期中更新似然性分布。
在一個(gè)實(shí)例中,參考圖4A和4B更為詳細(xì)的解釋了似然性分布 的更新操作(過程300中的塊320 )。通信設(shè)備100的電話薄90包含 在所選擇的語言中所需的語音單元(音素)的典型的特征向量。這些 典型的特征向量是具有同樣的維數(shù)和如上所述的輸入特征向量的頻 譜特性的頻譜向量(在此,"相同的頻譜特性"意思是在這一點(diǎn)上,這 些向量中的同樣位置上的分量代表同樣頻率范圍的特征而且在類似 的幅度參考系統(tǒng)中測(cè)量)。
語音單元的典型特征向量可以在來自代表相應(yīng)音素的話音采樣
的無噪聲環(huán)境中預(yù)先存儲(chǔ)。舉例來說,對(duì)于每個(gè)音素一組IOO個(gè)的典 型向量可能就足夠了,而且某一語言典型地需要不超過50個(gè)不同的 音素。因此,大約5, 000個(gè)典型特征向量對(duì)于定義所選擇語言的內(nèi) 部表示可能就足夠了。
現(xiàn)在參考圖4A,圖中舉例說明了過程400a,其中一個(gè)或多個(gè)說 話者特性適應(yīng)向量420A在操作415中與語言特定的音素410的典型 特征向量相乘。在一些實(shí)施例中,乘法操作415起到混頻器的作用, 以將典型特征向量410與說話者特性適應(yīng)向量420A混頻。在一個(gè)實(shí) 例中,第一混頻操作415的結(jié)果被稱為第一修正的典型特征向量,而 且可以再次與說話者特性適應(yīng)向量420A混頻,以便產(chǎn)生進(jìn)一步修正 的典型特征向量。在操作435中,噪聲特征向量被添加到第一或者進(jìn) 一步修正的典型特征向量中的每一個(gè)。噪聲特征向量可以是出自一組 噪聲特征向量430的隨機(jī)樣本,或者是基于噪聲特征向量430的平均 的隨機(jī)樣本。噪聲特征向量的平均意味著至少某些可用的噪聲特征向 量的分量被平均,以便產(chǎn)生用作操作435中的噪聲特征向量430的平 均噪聲特征向量。在塊440,所計(jì)算的第二修正的典型特征向量然后 被用于計(jì)算語音單元的似然性分布。該計(jì)算的結(jié)果就是噪聲和說話者 修正的似然性分布450。
現(xiàn)在參考圖4B,圖中舉例說明了過程400B,其中在用戶說出一 個(gè)命令或所期望的被叫方姓名之前,記錄環(huán)境噪聲并處理以便產(chǎn)生一 組噪聲特征向量430。噪聲特征向量430,如典型特征向量410,可以 是具有非對(duì)數(shù)分量的頻i普向量。每個(gè)典型特征向量410通過添加典型
特征向量和噪聲特征向量二者的相應(yīng)的分量與其中一個(gè)噪聲特征向 量430相加。例如,典型特征向量410的每個(gè)分量與隨機(jī)從噪聲特征 向量組中選擇的其中一個(gè)噪聲特征向量430的相應(yīng)的分量相加。在另 一個(gè)實(shí)例中,典型特征向量410的每個(gè)分量與平均噪聲特征向量的相 應(yīng)的分量相加。在操作425中,取和向量的每個(gè)分量的對(duì)數(shù),而且在 塊426中求這個(gè)和向量的對(duì)數(shù)。在操作427中,與這個(gè)對(duì)數(shù)和向量相
關(guān)聯(lián)的是具有對(duì)數(shù)分量的說話者特性典型向量426b。結(jié)果,計(jì)算了一 組修正的對(duì)數(shù)典型特征向量。在塊440,根據(jù)修正的對(duì)數(shù)典型特征向 量,通過例如利用多維高斯適配(Gauss fit)的參數(shù)化方法,計(jì)算對(duì) 數(shù)特征空間中的音素的統(tǒng)計(jì)分布。假定高斯型分布,則可以依據(jù)一小 組參數(shù),即特征空間的每一維中的期望值和標(biāo)準(zhǔn)偏差,建模特征空間 中的噪聲和說話者修正的語音似然性分布。這個(gè)參數(shù)化方法表示更新
的噪聲和說話者修正的語音似然性分布450,該分布也稱為更新的語 音似然性分布,根據(jù)該分布可以計(jì)算似然向量或者如輸入特征向量的 任意給定的對(duì)數(shù)特征。所謂的更新的語音似然性分布450接著可以用 在進(jìn)一步的語音識(shí)別過程中。
噪聲和說話者修正的似然性分布可以考慮作為一組噪聲和說話
者修正的典型特征向量,其中的每一個(gè)典型特征向量對(duì)應(yīng)于相應(yīng)的語 音單元。針對(duì)一個(gè)特定語音單元,在多個(gè)典型特征向量之上求這些典 型特征向量的平均,類似如上所述的對(duì)每個(gè)音素取100個(gè)典型特征向 量。
現(xiàn)在參考圖5,圖中舉例說明了計(jì)算說話者特性適應(yīng)向量的過程 500。依賴于似然性分布的計(jì)算,或者根據(jù)圖4A中的流程圖400A, 或者根據(jù)圖4B中的流程圖400B,可以以非對(duì)數(shù)特征向量(420A)或 者對(duì)數(shù)特征向量(420B)的形式計(jì)算說話者特性適應(yīng)向量。在一個(gè)識(shí) 別周期之后,例如由調(diào)變操作得到的將最佳匹配單詞子模型分配給似 然向量的結(jié)果被用于更新說話者特性適應(yīng)向量。由于每個(gè)似然向量可 以相當(dāng)于相應(yīng)的輸入特征向量,最佳匹配的單詞子模型同樣可以被分 配給這些相應(yīng)的輸入特征向量。這意味著話音輸入內(nèi)容可以根據(jù)輸入 特征向量被劃分為段,對(duì)于每一個(gè)輸入特征向量, 一個(gè)最佳匹配單詞 模型被分配作為調(diào)變結(jié)果。換言之,在塊510, 一個(gè)語音單元被分配 給之前處理的話音輸入的每一個(gè)輸入特征向量。在差分操作530中, 基于所分配的語音單元的分布中心與對(duì)應(yīng)于之前提到的輸入特征向 量的似然向量之間的值,為每個(gè)輸入特征向量計(jì)算差分向量。該差分 向量是通過計(jì)算分配給調(diào)變產(chǎn)生的語音單元的輸入特征向量的相應(yīng)
分量和相應(yīng)語音單元的典型特征向量之間的差異來確定的。
在一個(gè)實(shí)例中,分配的語音單元的分布中心是這個(gè)相應(yīng)語音單元
的平均的典型特征向量520。
在塊540,每個(gè)差分向量于是以音素特定的方式被求平均。結(jié)果, 對(duì)于每個(gè)語音單元,基于這個(gè)語音單元被分配作為最佳匹配的單詞子 模型,計(jì)算平均的差分向量。在塊550,計(jì)算平均的差分向量之上的 平均。預(yù)先選擇的音素的平均差分向量之上的平均就是說話者特性適 應(yīng)向量560。因此,可以在每個(gè)識(shí)別周期之后更新說話者特性適應(yīng)向 量。然而,在每第十個(gè)識(shí)別周期之后更新說話者特性適應(yīng)向量就已足 夠了,或者可以在當(dāng)前用戶改變了之后更新說話者特性適應(yīng)向量。
圖6和7描述了用于根據(jù)各種各樣的實(shí)施例執(zhí)行語音識(shí)別過程的 通信設(shè)備的框圖。首先參考圖6,圖中描述了在例如移動(dòng)或蜂窩電話 的具有話音撥號(hào)功能的通信設(shè)備中執(zhí)行語音識(shí)別的設(shè)備600。語音單 詞模型51、 52是例如根據(jù)存儲(chǔ)在通信設(shè)備的SIM卡或其它存儲(chǔ)器上 的電話薄90中的姓名條目生成的。可以通過利用字形到音素轉(zhuǎn)換 (G2P) 620執(zhí)行生成單詞模型51、 52的語音單詞模型計(jì)算,而且可 以執(zhí)行作為存儲(chǔ)在電話薄中的姓名的文本到語音轉(zhuǎn)換。在變換或轉(zhuǎn)換 操作620中,可以使用所選擇的語言的語音單元作為單詞子模型,根 據(jù)該單詞子模型可以組裝語音單詞模型。例如,存在不同的以基于規(guī) 則方式工作的或者簡(jiǎn)單地替換語音單元考慮中的姓名中的字母或字 母組合工作的G2P轉(zhuǎn)換器。單詞模型51、 52可以存儲(chǔ)在存儲(chǔ)器50 中,其可以是例如通信設(shè)備的RAM存儲(chǔ)器或者SIM卡上的另外的部 分。
在例如用戶按下了某個(gè)鍵后進(jìn)入語音識(shí)別模式。根據(jù)進(jìn)一步的實(shí) 施例而且依賴于通信設(shè)備,也可以經(jīng)由其它模式和/或命令進(jìn)入語音識(shí) 別模式,例如通過一個(gè)檢測(cè)相應(yīng)的由用戶發(fā)出的請(qǐng)求的控制器(圖6 中未示出)。在一個(gè)實(shí)例中,通信設(shè)備通過內(nèi)置的揚(yáng)聲器15輸出一 個(gè)說出的命令。所說出的命令可以是例如"請(qǐng)說你想要呼叫的姓名,,, 提示用戶說出他或她想要呼叫的姓名。由用戶說出的姓名接著被麥克
風(fēng)10記錄作為話音輸入并傳送到聲碼器20。聲碼器20根據(jù)該話音輸 入計(jì)算輸入特征向量,并且將這些輸入特征向量傳送到似然向量計(jì)算 部件60?;谒迫恍苑植?10,似然向量計(jì)算部件60根據(jù)輸入特征 向量計(jì)算似然向量序列61。似然向量序列61接著被調(diào)變器70調(diào)變, 以便產(chǎn)生存儲(chǔ)在存儲(chǔ)器50中的單詞模型51、 52。在調(diào)變操作中,計(jì) 算考慮中的單詞模型的單詞模型匹配似然性。單詞模型匹配似然性被 帶入各自的級(jí)別,其中最高單詞模型匹配似然性在頂部。該識(shí)別結(jié)果 于是就是針對(duì)其已經(jīng)計(jì)算了最高單詞匹配似然性的最佳匹配單詞模 型。根據(jù)另一個(gè)實(shí)施例,可以給出的識(shí)別結(jié)果為一個(gè)最佳匹配的單詞 模型的列表。
識(shí)別結(jié)果可以被傳送給語音合成器650,其合成對(duì)應(yīng)于最佳匹配 單詞模型的一個(gè)或多個(gè)最佳匹配姓名,用于通過揚(yáng)聲器15以可聽見 的聲音輸出。根據(jù)另 一個(gè)實(shí)例,可以通過在通信設(shè)備600的顯示屏670 上,以對(duì)應(yīng)于最佳匹配單詞模型的順序顯示一個(gè)或多個(gè)最佳匹配的姓 名,將識(shí)別結(jié)果呈現(xiàn)給用戶。換言之,可以利用內(nèi)置或者分離的輸出 裝置660將識(shí)別結(jié)果呈現(xiàn)給用戶。
此外,或者可選地,用戶于是可以從一個(gè)最佳匹配姓名列表中選 擇一個(gè)姓名,或者僅僅確認(rèn)最佳匹配的那個(gè)就是他想要呼叫的人的姓 名。在一個(gè)實(shí)例中,用戶的選擇在顯示屏670上高亮顯示,或者通過 揚(yáng)聲器15輸出為合成的單詞。用戶接著可以通過說出命令和/或滾動(dòng) 按鈕點(diǎn)擊來改變單詞選擇,而且最新選擇的單詞于是被高亮顯示,或 者作為合成單詞以可聽見形式的輸出。為了確認(rèn)所選擇的單詞是用戶 想要呼叫的人的姓名,用戶可以說出一個(gè)諸如"撥號(hào)"或"是的"、或者 按下通信設(shè)備上的相應(yīng)按鈕。通過利用根據(jù)通信設(shè)備中的可用通信設(shè) 備命令列表生成的調(diào)變操作中的單詞模型,可以以如所說出的姓名的 話音輸入同樣的方式,識(shí)別所說出的命令。
在由用戶確認(rèn)之后,撥號(hào)器640撥打?qū)?yīng)于所選擇的姓名的號(hào) 碼,而且例如通過控制器(圖6中未示出)退出話音識(shí)別模式。
在一些實(shí)施例中,通信設(shè)備可以自動(dòng)撥打?qū)?yīng)于最佳匹配單詞模
型的號(hào)碼,而無需將識(shí)別結(jié)果呈現(xiàn)給用戶,或者在已經(jīng)給出了識(shí)別結(jié)
果之后就自動(dòng)撥打。例如,這可以通過由語音合成器650輸出相應(yīng)的 合成單詞,并且撥打該對(duì)應(yīng)的號(hào)碼來完成。在一個(gè)實(shí)例中,由撥號(hào)器 640在同一時(shí)刻或者短暫地在已經(jīng)將識(shí)別結(jié)果呈現(xiàn)給用戶之后,撥打 對(duì)應(yīng)的號(hào)碼。如果用戶接著意識(shí)到由語音合成器650輸出的合成單詞 或者通過顯示屏670的提示不正確或者不是用戶想要撥打的那個(gè),用 戶可以例如通過按一個(gè)與該通信設(shè)備有關(guān)的相應(yīng)的按鍵來中斷撥號(hào) 過程。
參考圖7,圖中描述了一個(gè)用于在具有話音撥號(hào)功能的通信設(shè)備 中執(zhí)行語音識(shí)別的設(shè)備700。除了在設(shè)備700中,似然性分布610基 于如上述有關(guān)操作320解釋的說話者特性和噪聲而被更新之外,設(shè)備 700類似于圖6中描述的設(shè)備600。此外,設(shè)備700不包含如圖6所 描述的語音合成器650。因此,識(shí)別結(jié)果可能以最為像是正確結(jié)果的 順序的一個(gè)或多個(gè)姓名呈現(xiàn)給用戶,該結(jié)果被顯示在內(nèi)置的顯示屏 670上。
再次參考圖7,在進(jìn)入語音識(shí)別模式之后,通信設(shè)備可以通過揚(yáng) 聲器15輸出一個(gè)口頭的命令以便提示用戶說出用戶想要呼叫的用戶。 在通信設(shè)備的不用手的操作模式中,通過利用干涉消除器710從麥克 風(fēng)10記錄的輸入信號(hào)中去除揚(yáng)聲器干涉。干涉消除器710執(zhí)行回聲 消除,并從由麥克風(fēng)10檢測(cè)到的輸入信號(hào)中去除通過揚(yáng)聲器輸出的 口頭命令,以便當(dāng)揚(yáng)聲器15正在使用中時(shí)可能記錄的環(huán)境噪聲不會(huì) 帶有口頭命令。由于環(huán)境噪聲是在通信設(shè)備輸出口頭命令的時(shí)候記錄
的,用戶正在聽該口頭命令,存在極大的可能是在此期間用戶沒有講 話,由此麥克風(fēng)10可能記錄純?cè)肼曅盘?hào)。噪聲處理器720可以根據(jù) 所記錄的噪聲信號(hào)計(jì)算一組噪聲特征向量。
在一些實(shí)施例中,也可以由聲碼器20根據(jù)記錄的噪聲輸入計(jì)算 噪聲特征向量,并且隨后傳送給噪聲處理器720,噪聲處理器720計(jì) 算將進(jìn)一步在識(shí)別過程中使用的平均噪聲特征向量。在通信設(shè)備700 中,可以利用從噪聲處理器720提供的噪聲特征向量,并且基于由說
話者適應(yīng)單元730提供的當(dāng)前說話者的特性,更新似然性分布610。 上面已經(jīng)參考圖3、 4A、 4B和5描述了更新過程的細(xì)節(jié)。在說話者適 應(yīng)單元730中,可以根據(jù)來自調(diào)變操作結(jié)果的分配給由調(diào)變器70提 供的似然向量的子模型,計(jì)算說話者特性適應(yīng)向量。由此,根據(jù)之前 記錄的說話內(nèi)容的識(shí)別結(jié)果,更新似然性分布610以便連續(xù)改進(jìn)后續(xù) 的識(shí)別結(jié)果。
本領(lǐng)域的技術(shù)人員將理解的是,可以以任何有意義的組合結(jié)合圖 1、 6和7中描述的功能塊。
上述的各種各樣的實(shí)施例允許充分的語音識(shí)別而無需其中不得 不記錄而且預(yù)存儲(chǔ)將要識(shí)別的單詞的特征數(shù)據(jù)的注冊(cè)過程。此外,通 過利用環(huán)境噪聲和當(dāng)前說話者的特性,所描述的各種各樣的實(shí)施例適 于降低通信設(shè)備的話音撥號(hào)模式中的識(shí)別錯(cuò)誤率,而且進(jìn)一步降低了 話音識(shí)別遺漏的概率。此外,通過使用語音單元和它們的似然性分布 作為所選擇的語言和它們的識(shí)別過程的內(nèi)部表示,所描述的各種各樣 的實(shí)施例能夠容易地適用于不同的語言,而且能夠識(shí)別僅有書寫表示 且沒有語音特征數(shù)據(jù)可用的新的單詞,例如,作為電話薄條目。
結(jié)論
上面已經(jīng)描述了本發(fā)明的各種各樣的實(shí)施例,應(yīng)當(dāng)理解的是已經(jīng) 給出的那些實(shí)施例僅是示例而不是限制。對(duì)相關(guān)領(lǐng)域的技術(shù)人員來說 很顯然的是,可以在它們之中作出各種各樣的形式和細(xì)節(jié)上的改變而 不偏離本分明的精神和范圍。因此,本發(fā)明的寬度和范圍不應(yīng)受任何 上述的示例性實(shí)施例的限制,而是僅應(yīng)當(dāng)根據(jù)下述的權(quán)利要求書和它 們的等同物來定義。
應(yīng)當(dāng)理解的是,詳細(xì)描述的章節(jié),而非發(fā)明內(nèi)容以及摘要,用于 解釋權(quán)利要求書。發(fā)明內(nèi)容以及摘要可以闡明一個(gè)或多個(gè)但不是全部 的本發(fā)明人預(yù)期的本發(fā)明的示例性實(shí)施例,并且由此并不打算以任何 方式限制本發(fā)明以及所附權(quán)利要求書。
權(quán)利要求
1、一種用于在具有話音撥號(hào)功能的通信設(shè)備中執(zhí)行語音識(shí)別的方法,包括:a)進(jìn)入語音識(shí)別模式;b)接收到語音識(shí)別模式中的話音輸入后,根據(jù)話音輸入生成輸入特征向量;c)根據(jù)指示說出語音單元時(shí)的似然性的輸入特征向量,計(jì)算似然向量序列;d)調(diào)變所述似然向量序列到語音單詞模型;e)根據(jù)所述語音單詞模型,計(jì)算單詞模型匹配似然性;以及f)確定所述單詞模型匹配的其中一個(gè)最佳匹配作為識(shí)別結(jié)果。
2、 根據(jù)權(quán)利要求l的方法,其中所述語音單元充當(dāng)所述語音單 詞模型的單詞子模型,每個(gè)所述語音單詞模型包括一個(gè)單詞模型向量序列,而且所述單詞模型向量的分量指示在所述語音單詞模型的相應(yīng) 位置找到相應(yīng)的一個(gè)語音單元的期望值。
3、 根據(jù)權(quán)利要求l的方法,其中每個(gè)所述似然向量是利用所選 擇的語言的內(nèi)部表示,根據(jù)所述相應(yīng)輸入特征向量計(jì)算的。
4、 根據(jù)權(quán)利要求3的方法,其中所述內(nèi)部語言表示包含從指示 特征空間中的典型特征向量的統(tǒng)計(jì)分布的語音單元的各個(gè)典型特征 向量計(jì)算的似然性分布。
5、 根據(jù)權(quán)利要求4的方法,其中所述似然性分布的計(jì)算是在注 冊(cè)模式中執(zhí)行的,包括記錄不同的說話者在無噪聲環(huán)境中所說的話音輸入樣本; 選擇對(duì)應(yīng)于所述選擇的語言中要求的語音單元的所述話音輸入 樣本的部分;以及根據(jù)所述選擇的部分,生成典型特征向量。
6、 根據(jù)權(quán)利要求4的方法,還包括確定當(dāng)前用戶的說話者特性適應(yīng)向量,并且通過將所述說話者特 性適應(yīng)向量反映到所述典型特征向量中,更新所述似然性分布。
7、 根據(jù)權(quán)利要求4的方法,還包括 測(cè)量通信設(shè)備環(huán)境中的噪聲; 根據(jù)所述測(cè)量的噪聲,處理噪聲特征向量;以及 通過使所述噪聲特征向量關(guān)聯(lián)到所述典型特征向量,更新所述似然性分布。
8、 根據(jù)權(quán)利要求7的方法,其中所述噪聲特征向量、所述說話 者特性適應(yīng)向量以及所述典型特征向量是頻鐠向量,而且更新所述似 然性分布包括將所述說話者特性適應(yīng)向量與每個(gè)所述典型特征向量相乘,以便 生成第一修正的典型特征向量;將所述第一修正的典型特征向量與所述噪聲特征向量相加,以便 生成第二修正的典型特征向量;以及確定所述第二修正的典型特征向量在特征空間中的統(tǒng)計(jì)分布,作 為更新的似然性分布。
9、 根據(jù)權(quán)利要求7的方法,其中所述輸入特征向量、所述噪聲 特征向量、所述說話者特性適應(yīng)向量以及所述典型特征向量是頻譜向 量,所述噪聲特征向量和所述典型特征向量具有非對(duì)數(shù)分量,所述輸 入特征向量和所述說話者特性適應(yīng)向量具有對(duì)數(shù)分量,而且更新所述 似然性分布包括將每個(gè)所述典型特征向量加上所述噪聲特征向量,以便生成第一 修正的典型特征向量;對(duì)于所述第一修正的典型特征向量的每個(gè)分量查對(duì)數(shù); 將所述說話者特性適應(yīng)向量加到、所述第一修正的和求對(duì)數(shù)的典型特征向量,以便生成第二修正的典型特征向量;以及確定所述第二修正的典型特征向量在特征空間中的統(tǒng)計(jì)分布,作為更新的似然性分布。
10、 根據(jù)權(quán)利要求7的方法,其中確定所述說話者特性適應(yīng)向量 包括針對(duì)每個(gè)所述典型特征向量,計(jì)算說話者特性適應(yīng)向量,進(jìn)一步 包括給每個(gè)所述輸入特征向量分配最佳匹配語音單元; 計(jì)算每個(gè)所述輸入特征向量和所述相應(yīng)的典型特征向量之間的差分向量;以及為每個(gè)所述相應(yīng)的典型特征向量計(jì)算音素特定的平均差分向量, 作為說話者特性適應(yīng)向量。
11、 根據(jù)權(quán)利要求io的方法,其中在所述音素特定的平均差分 向量之上,對(duì)于所述說話者特性適應(yīng)向量求平均。
12、 根椐權(quán)利要求l的方法,還包括根據(jù)所述最佳匹配的單詞模型合成姓名,并撥打?qū)?yīng)于所述姓名 的號(hào)碼。
13、 根據(jù)權(quán)利要求l的方法,其中利用字形到音素轉(zhuǎn)換,根據(jù)電 話薄中的姓名生成所述語音單詞模型,作為所述單詞子模型序列。
14、 一種用于在具有話音撥號(hào)功能的通信設(shè)備中執(zhí)行語音識(shí)別的 設(shè)備,包括用于存儲(chǔ)電話薄中的姓名的單詞模型的第一存儲(chǔ)器; 用于根據(jù)語音識(shí)別模式中的話音輸入,生成輸入特征向量的聲碼器;語音識(shí)別組件,包括(a)用于根據(jù)指示說出語音單元時(shí)的似然 性的輸入特征向量,計(jì)算似然向量序列的似然向量計(jì)算裝置,(b) 用于調(diào)變所述似然向量序列到所述單詞模型的調(diào)變器,(c)用于根 據(jù)所述單詞模型,計(jì)算單詞模型匹配似然性的計(jì)算裝置,以及(d) 用于確定最佳匹配單詞模型作為識(shí)別結(jié)果的確定裝置;以及用于啟動(dòng)語音識(shí)別模式的控制器。
15、 根據(jù)權(quán)利要求14的設(shè)備,其中利用根據(jù)所述語音單元的典 型特征向量計(jì)算的似然性分布,從所述相應(yīng)的輸入特征向量計(jì)算每個(gè) 所述似然向量,所述設(shè)備還包括用于記錄所述話音輸入和環(huán)境噪聲作為噪聲輸入的麥克風(fēng); 其中所述聲碼器處理來自所述噪聲輸入的噪聲特征向量;以及 其中所述語音識(shí)別組件通過將所述噪聲特征向量反映到所述典 型特征向量,更新所述似然性分布。
16、 根據(jù)權(quán)利要求14的設(shè)備,其中利用從所述語音單元的典型特征向量計(jì)算的似然性分布,根據(jù)所述相應(yīng)的輸入特征向量計(jì)算每個(gè)所述似然向量,所述設(shè)備還包括說話者特性適應(yīng)裝置,用于確定當(dāng)前用戶的說話者特性適應(yīng)向 量,并且用于通過將所述說話者特性適應(yīng)向量反映到所述典型特征向 量中,更新所述似然性分布。
17、 根據(jù)權(quán)利要求16的設(shè)備,其中所述噪聲特征向量、所述說 話者特性適應(yīng)向量以及所述典型特征向量是頻鐠向量,所述說話者特 性適應(yīng)裝置用于通過下述操作更新似然性分布將所述說話者特性適應(yīng)向量與每個(gè)所述典型特征向量相乘,以便 生成第一修正的典型特征向量; 將所述第一修正的典型特征向量加上所述噪聲特征向量,以便生成第二修正的典型特征向量;以及確定所述第二修正的典型特征向量在特征空間中的統(tǒng)計(jì)分布,作 為似然性分布。
18、 根據(jù)權(quán)利要求16的設(shè)備,其中所述說話者特性適應(yīng)裝置用 于通過下述操作確定或更新所述說話者特性適應(yīng)向量給每個(gè)所述輸入特征向量分配最佳匹配語音單元; 計(jì)算每個(gè)所述輸入特征向量和所述相應(yīng)的典型特征向量之間的差分向量;對(duì)每語音單元的差分向量求平均,并且生成音素特定的平均差分 向量;以及在所述音素特定的平均差分向量之上求平均。
19、 根據(jù)權(quán)利要求14的設(shè)備,還包括 用于根據(jù)所述最佳匹配的單詞模型,合成姓名的合成器;以及 其中所述控制器撥打電話薄中對(duì)應(yīng)于根據(jù)所迷最佳匹配的單詞模型合成的姓名的號(hào)碼。
20、 根據(jù)權(quán)利要求19的設(shè)備,其中所述調(diào)變器用于確定最佳匹配的單詞模型的列表; 所述合成器用于為所述列表中的每個(gè)最佳匹配的單詞模型合成姓名;所述設(shè)備還包括用于輸出所述合成的姓名的輸出裝置;以及 用于由用戶選擇其中一個(gè)輸出姓名的選擇裝置;以及所述控制器撥打電話薄中對(duì)應(yīng)于所述選擇的姓名的號(hào)碼。
21、 根據(jù)權(quán)利要求20的設(shè)備,其中 所述輸出裝置包括所述通信設(shè)備中的揚(yáng)聲器,用于輸出來自所述控制器的控制指令;所述麥克風(fēng)在所述揚(yáng)聲器正在輸出時(shí)記錄所述環(huán)境噪聲;以及所述設(shè)備還包括用于從所述記錄的噪聲中消除揚(yáng)聲器干涉,以生成噪聲輸入的千 涉消除裝置。
22、 一種計(jì)算機(jī)程序產(chǎn)品,包括具有在其上記錄的用于控制至少 一個(gè)處理器的計(jì)算機(jī)程序邏輯的計(jì)算機(jī)可讀介質(zhì),所迷計(jì)算機(jī)程序邏 輯包括用于進(jìn)入語音識(shí)別模式的計(jì)算機(jī)程序代碼單元;用于在接收到語音識(shí)別模式中的話音輸入后,根據(jù)話音輸入生成輸入特征向量的計(jì)算機(jī)程序代碼單元;用于根據(jù)指示說出語音單元時(shí)的似然性的輸入特征向量,計(jì)算似然向量序列的計(jì)算機(jī)程序代碼單元;用于調(diào)變所述似然向量序列到語音單詞模型的計(jì)算機(jī)程序代碼單元;用于根據(jù)所述語音單詞模型計(jì)算單詞模型匹配似然性的計(jì)算機(jī) 程序代碼單元;以及用于確定所述單詞模型匹配的其中 一個(gè)最佳匹配作為識(shí)別結(jié)果 的計(jì)算機(jī)程序代碼單元。
23、 一種包含計(jì)算機(jī)程序代碼的存儲(chǔ)器裝置,當(dāng)計(jì)算機(jī)程序代碼 在通信設(shè)備上執(zhí)行時(shí)使得通信設(shè)備能夠?qū)崿F(xiàn)這樣一種方法,即所述方 法包括a) 進(jìn)入語音識(shí)別模式;b) 接收到語音識(shí)別模式中的話音輸入后,根據(jù)話音輸入生成輸 入特征向量;c) 根據(jù)指示說出語音單元時(shí)的似然性的輸入特征向量,計(jì)算似 然向量序列;d) 調(diào)變所述似然向量序列到語音單詞模型;e) 根據(jù)所述語音單詞模型,計(jì)算單詞模型匹配似然性;以及f) 確定所述單詞模型匹配的其中 一個(gè)最佳匹配作為識(shí)別結(jié)果。
24、 一種包含通過這樣一種方法控制通信設(shè)備的至少一個(gè)處理器 的指令的計(jì)算機(jī)可讀介質(zhì),所述方法包括a) 進(jìn)入語音識(shí)別模式;b) 接收到語音識(shí)別模式中的話音輸入后,根據(jù)話音輸入生成輸 入特征向量;c) 根據(jù)指示說出語音單元時(shí)的似然性的輸入特征向量,計(jì)算似 然向量序列;d) 調(diào)變所述似然向量序列到語音單詞模型;e) 根據(jù)所述語音單詞模型,計(jì)算單詞模型匹配似然性;以及f) 確定所述單詞模型匹配的其中 一 個(gè)最佳匹配作為識(shí)別結(jié)果。
25、 根據(jù)權(quán)利要求24的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中所述語音單元充當(dāng)所述語音單詞模型的單詞子模 型,每個(gè)所述語音單詞模型包括一個(gè)單詞模型向量序列,所述單詞模 型向量的分量指示在所述語音單詞模型的相應(yīng)位置找到相應(yīng)的一個(gè) 語音單元的期望值。
26、 根據(jù)權(quán)利要求24的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中每個(gè)所述似然向量是利用所選擇的語言的內(nèi)部表 示,根據(jù)所述相應(yīng)的輸入特征向量計(jì)算的。
27、 根據(jù)權(quán)利要求26的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中所述內(nèi)部語言表示包含從指示特征空間中所述典 型特征向量的統(tǒng)計(jì)分布的所述語音單元的各個(gè)典型特征向量計(jì)算的 似然性分布。
28、 根據(jù)權(quán)利要求27的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中所述似然性分布的計(jì)算是在注冊(cè)模式中執(zhí)行的, 包括記錄不同的說話者在無噪聲環(huán)境中所說的話音輸入樣本; 選擇對(duì)應(yīng)于所述選擇的語言中要求的語音單元的所述話音輸入樣本的部分;以及根據(jù)所述選擇的部分生成典型特征向量。
29、 根據(jù)權(quán)利要求28的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),還包括確定當(dāng)前用戶的說話者特性適應(yīng)向量,并且通過將所述說話者特 性適應(yīng)向量反映到所述典型特征向量中,更新所述似然性分布。
30、 根據(jù)權(quán)利要求28的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),還包括測(cè)量通信設(shè)備環(huán)境中的噪聲; 根據(jù)所述測(cè)量的噪聲處理噪聲特征向量;以及 通過使所述噪聲特征向量關(guān)聯(lián)到所述典型特征向量中,更新所述 似然性分布。
31、 根據(jù)權(quán)利要求30的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中所述噪聲特征向量、所述說話者特性適應(yīng)向量以 及所述典型特征向量是頻譜向量,而且更新所述似然性分布包括將所述說話者特性適應(yīng)向量與每個(gè)所述典型特征向量相乘,以便 生成第一修正的典型特征向量;將所述第一修正的典型特征向量與所述噪聲特征向量相加,以便 生成第二修正的典型特征向量;以及 確定所述第二修正的典型特征向量在特征空間中的統(tǒng)計(jì)分布,作 為更新的似然性分布。
32、 根據(jù)權(quán)利要求30的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中所迷輸入特征向量、所述噪聲特征向量、所述說 話者特性適應(yīng)向量以及所述典型特征向量是頻i普向量,所述噪聲特征 向量和所述典型特征向量具有非對(duì)數(shù)分量,所述輸入特征向量和所述 說話者特性適應(yīng)向量具有對(duì)數(shù)分量,而且更新所述似然性分布包括將每個(gè)所述典型特征向量加上所述噪聲特征向量,以便生成第一 修正的典型特征向量;對(duì)所述第一修正的典型特征向量的每個(gè)分量查對(duì)數(shù);將所述說話者特性適應(yīng)向量加到所述第一修正的和查對(duì)數(shù)的典 型特征向量,以便生成第二修正的典型特征向量;以及確定所述第二修正的典型特征向量在特征空間中的統(tǒng)計(jì)分布,作 為似然性分布。
33、 根據(jù)權(quán)利要求30的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中確定所述說話者特性適應(yīng)向量包括針對(duì)每個(gè)所迷典型特征向量計(jì)算說話者特性適應(yīng)向量,進(jìn)一步包括 給每個(gè)所述輸入特征向量分配最佳匹配語音單元; 計(jì)算每個(gè)所迷輸入特征向量和所述相應(yīng)的典型特征向量之間的差分向量;以及為每個(gè)所述相應(yīng)的典型特征向量計(jì)算音素特定的平均差分向量, 作為說話者特性適應(yīng)向量。
34、 根據(jù)權(quán)利要求33的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),其中在所述音素特定的平均差分向量之上對(duì)所述說話 者特性適應(yīng)向量求平均。
35、 根據(jù)權(quán)利要求24的利用所述方法控制所述處理器的所述計(jì) 算機(jī)可讀介質(zhì),還包括根據(jù)所述最佳匹配的單詞模型合成姓名,并撥打?qū)?yīng)于所述姓名 的號(hào)碼。
36、 一種利用權(quán)利要求24的方法控制所迷處理器的所述計(jì)算機(jī)可讀介質(zhì),其中利用字形到音素轉(zhuǎn)換,根據(jù)電話薄中的姓名生成所述 語音單詞模型,作為所述單詞子模型序列。
全文摘要
本發(fā)明提供一種用于在具有話音撥號(hào)功能的通信設(shè)備中執(zhí)行語音識(shí)別的技術(shù)。在接收到語音識(shí)別模式中的話音輸入之后,根據(jù)該話音輸入生成輸入特征向量。同樣,還根據(jù)指示在說出語音單元時(shí)的似然性的輸入特征向量,計(jì)算似然向量序列。在調(diào)變操作中,似然向量序列與語音單詞模型相比較,而且計(jì)算該單詞模型的單詞模型匹配似然性。在確定了最佳匹配的單詞模型之后,在撥號(hào)操作中撥打?qū)?yīng)于根據(jù)最佳匹配單詞模型合成的姓名的號(hào)碼。
文檔編號(hào)G10L15/02GK101385073SQ200780005463
公開日2009年3月11日 申請(qǐng)日期2007年2月13日 優(yōu)先權(quán)日2006年2月14日
發(fā)明者D·魯維什 申請(qǐng)人:知識(shí)風(fēng)險(xiǎn)基金21有限責(zé)任公司