用于對多語言的姓名進(jìn)行語音識(shí)別的方法和系統(tǒng)的制作方法

文檔序號(hào)：2821675閱讀：359來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于對多語言的姓名進(jìn)行語音識(shí)別的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明總的來說涉及語音識(shí)別處理過程。具體的說，本發(fā)明用于(但不限于)使用個(gè)人電子設(shè)備來對姓名進(jìn)行語音識(shí)別，這里所說的姓名是多種語言的姓名。
背景技術(shù)：
諸如移動(dòng)電話、個(gè)人數(shù)字助理(PDAs)和尋呼機(jī)這樣的個(gè)人電子設(shè)備在整個(gè)工業(yè)化社會(huì)中已經(jīng)非常普及了?，F(xiàn)在數(shù)以百萬計(jì)的用戶依靠這些設(shè)備來快速和容易地獲取電子信息和進(jìn)行通信。減小的重量和尺寸使得這些設(shè)備容易攜帶(例如，可以將它們放在口袋和錢包里)，從而增加了它們的方便性。然而，設(shè)備尺寸減小的缺點(diǎn)是設(shè)備上的接觸界面(諸如鍵盤和按鈕)通常都非常小并且不便于使用。
因此，語音識(shí)別是很多個(gè)人電子設(shè)備上非常有價(jià)值的特征。例如，語音識(shí)別能力可以使汽車司機(jī)能夠向個(gè)人電子設(shè)備發(fā)送簡單的命令而不需要將他們的視線從公路上移開。同樣，語音識(shí)別可以使諸如訪問PDA中地址簿條目這樣的操作變得更加方便，這是因?yàn)榭梢院苋菀椎貓?zhí)行口頭的命令，并且通常比在小鍵盤上鍵入指令所需的時(shí)間要少得多。
因此語音識(shí)別系統(tǒng)是執(zhí)行計(jì)算機(jī)程序和訪問數(shù)據(jù)庫的一種常用方法。然而，個(gè)人電子設(shè)備很小的尺寸也會(huì)限制嵌入式語音識(shí)別系統(tǒng)的性能。有效的語音識(shí)別通常需要相對較大的數(shù)據(jù)庫和可觀的處理速度才能實(shí)現(xiàn)，然而小型電子設(shè)備的存儲(chǔ)器容量和處理能力通常是有限的。為了克服這種限制，通常都僅為有限的、特定的環(huán)境定制個(gè)人電子設(shè)備的語音識(shí)別系統(tǒng)。例如，如同將在下面詳細(xì)描述的那樣，這種系統(tǒng)通常都是講話者相關(guān)的，也就是說設(shè)計(jì)它們僅僅翻譯特定的講話者的語音模式。同樣的，這種系統(tǒng)通常也是語言相關(guān)的，并僅僅為有限的詞匯設(shè)計(jì)。這些折中的設(shè)計(jì)可以使系統(tǒng)能夠使用個(gè)人電子設(shè)備的有限資源來合理地為特定的用途工作。
語音識(shí)別系統(tǒng)通常是將輸入的話語和存儲(chǔ)在數(shù)據(jù)庫中的聲學(xué)模型進(jìn)行匹配。然后再進(jìn)一步將匹配的聲學(xué)模型與字典數(shù)據(jù)庫中的條目進(jìn)行匹配來完成單詞和句子的識(shí)別。聲學(xué)模型通常由隱藏馬爾可夫模型(HMM)構(gòu)成。HMM是包括均值和方差向量的統(tǒng)計(jì)學(xué)描述，它描述諸如單詞和音素這樣的語音單元。然后使用HMM模式匹配來確定語音識(shí)別數(shù)據(jù)庫中的聲學(xué)模型與口述輸入話語是否匹配。HMM通常是基于包含被稱為高斯混合(Gaussian mixtures)的若干復(fù)雜的高斯概率分布函數(shù)(PDF)的概率函數(shù)的。因此語音模式匹配就是將高斯混合與輸入語音話語進(jìn)行匹配的過程。所以HMM模式與聲學(xué)模型的匹配的可用復(fù)雜性(available sophistication)是語音識(shí)別系統(tǒng)的設(shè)計(jì)者在對性能和存儲(chǔ)與處理資源之間進(jìn)行必要的折中時(shí)必須考慮的重要變量。
語音識(shí)別系統(tǒng)中的其它折中措施主要關(guān)注于系統(tǒng)識(shí)別多個(gè)用戶的語音的能力。因此，可以將語音識(shí)別系統(tǒng)進(jìn)一步劃分為講話者無關(guān)的和講話者相關(guān)的。講話者無關(guān)的系統(tǒng)用于識(shí)別給定語言下任意講話者的語音；而講話者相關(guān)的系統(tǒng)是被訓(xùn)練成僅識(shí)別一個(gè)講話者的語音的。講話者無關(guān)的系統(tǒng)通常包括聲學(xué)數(shù)據(jù)庫，這個(gè)數(shù)據(jù)庫包含從多個(gè)訓(xùn)練講話者那里得來的多個(gè)HMM。從訓(xùn)練講話者那里得來的多個(gè)HMM是意在表示從一大組講話者中找到的語音模式的高斯混合參數(shù)。通常這種系統(tǒng)比講話者相關(guān)的系統(tǒng)的準(zhǔn)確性要低，這是因?yàn)樵谡Z音模型中必須進(jìn)行折中以適應(yīng)多種語音屬性，并且還因?yàn)椴粸槭褂眠@個(gè)系統(tǒng)的任意的講話者的特殊語音屬性而調(diào)節(jié)講話者無關(guān)的系統(tǒng)。
調(diào)節(jié)講話者相關(guān)的系統(tǒng)以識(shí)別單個(gè)講話者的特定語音模式。通常在訓(xùn)練程序中，講話者要向講話者相關(guān)的系統(tǒng)讀一段包含多種語音模式的腳本。然后將訓(xùn)練語音對準(zhǔn)腳本，使得為講話者的特殊語音屬性調(diào)節(jié)系統(tǒng)，然后系統(tǒng)才能在語音識(shí)別過程中更準(zhǔn)確地識(shí)別講話者的聲音。然而，在很多人要使用語音識(shí)別系統(tǒng)的情況下講話者相關(guān)的系統(tǒng)通常是不合要求的。例如，嵌入在移動(dòng)電話中的語音識(shí)別系統(tǒng)使得用戶能夠通過口述之后電話能夠識(shí)別的命令來操作設(shè)備。然而移動(dòng)電話的主要使用者可能希望自己的很多朋友、同事或家庭成員也能夠使用電話的語音識(shí)別特征。因?yàn)殡娫挼倪@些次要使用者僅僅需要在很短的時(shí)間內(nèi)使用語音識(shí)別特征，所以要求次要使用者在使用語音識(shí)別特征之前首先對電話進(jìn)行訓(xùn)練以識(shí)別他或她的聲音是不方便的。
最后，語音識(shí)別聲學(xué)模型通常只是為單一語言設(shè)計(jì)的，因此能夠識(shí)別多種語言的語音的語音識(shí)別系統(tǒng)需要多個(gè)聲學(xué)模型，這同樣要增加對存儲(chǔ)器的需求和系統(tǒng)的復(fù)雜性(sophistication)。
現(xiàn)在已經(jīng)為個(gè)人電子設(shè)備開發(fā)出來了雙語語音識(shí)別設(shè)備。因此，(例如)，移動(dòng)電話的雙語用戶可以用兩種語言(諸如英語和普通話)中的任意一種來從存儲(chǔ)在電話中的地址簿里取出姓名。由于在設(shè)備中使用的特定語言的聲學(xué)模型和詞匯數(shù)據(jù)庫是分離的，因此通常用戶在使用語音識(shí)別特征之前首先要將電話中的語言模式切換到一種特定的語言。然而，(例如)在地址簿中混合包含兩種語言的各種姓名或其它通訊信息的情況下，這種預(yù)選特定語言的要求是不方便的。同樣，這種預(yù)選特定語言的要求還使得系統(tǒng)不能用語音識(shí)別系統(tǒng)來識(shí)別混合的、多語言的兩部分姓名—例如，某人的名字是英文的而姓是普通話的。
因此，所需要的是一種講話者無關(guān)的用于語音識(shí)別的改進(jìn)的方法和系統(tǒng)，其能夠識(shí)別多語言的姓名而不需要手工地在語言模式之間進(jìn)行切換，并有效地使用個(gè)人電子設(shè)備中有限的資源。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面，本發(fā)明是一種用于對多語言的姓名進(jìn)行語音識(shí)別的改進(jìn)的方法，它包括如下步驟在電子設(shè)備中存儲(chǔ)文本，所述文本表示由字符組成的多個(gè)姓名；為每個(gè)姓名識(shí)別至少一種語言；使用特定語言的字母-發(fā)音轉(zhuǎn)換器將每個(gè)姓名轉(zhuǎn)換成有序的語音單元序列；用與電子設(shè)備相關(guān)聯(lián)的麥克風(fēng)接收口述話語；將話語轉(zhuǎn)換成特征向量；以及將特征向量與至少一個(gè)姓名的有序的語音單元序列進(jìn)行匹配。
優(yōu)選地，所述多語言包括普通話，并且為每個(gè)姓名識(shí)別至少一種語言的所述步驟包括確定姓名中所包含的字符是在漢語字母表中還是在羅馬字母表中；和確定在羅馬字母表中的姓名是否是漢語拼音。
優(yōu)選地，所述多種語言包括西方語言和漢語。
優(yōu)選地，所述多個(gè)特定語言的字母-發(fā)音轉(zhuǎn)換器包括中文字母-發(fā)音轉(zhuǎn)換器和西方語言字母-發(fā)音轉(zhuǎn)換器。
優(yōu)選地，所述中文字母-發(fā)音轉(zhuǎn)換器是上下文相關(guān)的和所述西方語言字母-發(fā)音轉(zhuǎn)換器是上下文無關(guān)的。
優(yōu)選地，將特征向量與至少一個(gè)姓名的有序的語音單元序列進(jìn)行匹配的所述步驟包括通過在自動(dòng)語音識(shí)別引擎中比較特征向量、有序的語音單元序列、和高斯混合參數(shù)來解碼特征向量。
優(yōu)選地，所述自動(dòng)語音識(shí)別引擎使用波束搜索(Beam search)、Viterbi算法。
優(yōu)選地，所述姓名由存儲(chǔ)在電子設(shè)備中的通訊錄中的成分組成。
根據(jù)本發(fā)明的另一個(gè)方面，本發(fā)明是一種用于對多語言的姓名進(jìn)行語音識(shí)別的方法，它包括如下步驟用與電子設(shè)備相關(guān)聯(lián)的麥克風(fēng)接收口述話語；將話語轉(zhuǎn)換成特征向量；以及將特征向量與至少一個(gè)姓名的有序的語音單元序列進(jìn)行匹配，所述姓名是存儲(chǔ)在電子設(shè)備中的字符表示，其中從所述字符中識(shí)別出姓名的至少一種語言，然后使用多個(gè)特定語言的字母-發(fā)音轉(zhuǎn)換器將所述姓名轉(zhuǎn)換成有序的語音單元序列。
根據(jù)本發(fā)明的再一個(gè)方面，本發(fā)明是一種用于對多語言的姓名進(jìn)行語音識(shí)別的系統(tǒng)，它包括微處理器；與微處理器以可操作的方式連接的至少一個(gè)存儲(chǔ)器；與微處理器以可操作的方式連接的麥克風(fēng)；操作所述微處理器以執(zhí)行存儲(chǔ)在存儲(chǔ)器中的代碼來用麥克風(fēng)接收口述話語、將話語轉(zhuǎn)換成特征向量；并且將特征向量與至少一個(gè)姓名的有序的語音單元序列進(jìn)行匹配，所述姓名是存儲(chǔ)在存儲(chǔ)器中的字符表示，其中從所述字符中識(shí)別出姓名的至少一種語言，然后使用多個(gè)與微處理器以可操作的方式連接的特定語言的字母-發(fā)音轉(zhuǎn)換器將所述姓名轉(zhuǎn)換成有序的語音單元序列。
優(yōu)選地，所述姓名由存儲(chǔ)在系統(tǒng)中的通訊錄中的成分組成。
優(yōu)選地，所述系統(tǒng)與移動(dòng)電話或個(gè)人數(shù)字助理以可操作的方式連接。
在本說明書(包括權(quán)利要求書)中，術(shù)語“由...組成(comprise)”、“包含(including)”、“包括(comprising)”或類似的術(shù)語意在表示非排他性的包括，因此由一系列元素組成的方法和裝置并不只包含這些元素，而且還可以包含其它沒有列出的元素。

為了讓本發(fā)明更容易理解和有效地赴諸實(shí)踐，現(xiàn)在參考附圖對優(yōu)選的實(shí)施例進(jìn)行說明，其中類似的序號(hào)表示類似的元素，其中圖1是圖解說明根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于對多語言的姓名進(jìn)行語音識(shí)別的系統(tǒng)的功能組件的示意圖；圖2是圖解說明根據(jù)本發(fā)明的實(shí)施例的兩種不同語言的姓名和由有序的語音單元序列組成的與它們的相關(guān)發(fā)音的列表的表格；圖3是圖解說明根據(jù)本發(fā)明的實(shí)施例的字母-發(fā)音轉(zhuǎn)換器的工作和組件的示意圖；圖4是總結(jié)了包括普通話/英語開放詞典的根據(jù)本發(fā)明的實(shí)施例的將存儲(chǔ)文本轉(zhuǎn)換成語音單元的方法的一般流程圖；圖5是圖解說明根據(jù)本發(fā)明的實(shí)施例的將口述話語和存儲(chǔ)在開放詞典中的姓名進(jìn)行匹配的方法的一般流程圖；并且圖6是圖解說明根據(jù)本發(fā)明的實(shí)施例的以可以應(yīng)用語音識(shí)別系統(tǒng)的無線電話形式的個(gè)人電子設(shè)備的示意圖。
具體實(shí)施例方式
參看圖1，這是圖解說明根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于對多語言的姓名進(jìn)行語音識(shí)別的系統(tǒng)100的功能組件的示意圖。系統(tǒng)100按如下方式操作。字母-發(fā)音轉(zhuǎn)換器105將姓名的文本轉(zhuǎn)換成有序的語音單元序列。姓名通常是作為單獨(dú)字符的表示存儲(chǔ)在諸如移動(dòng)電話或個(gè)人數(shù)字助(PDA)這樣的個(gè)人電子設(shè)備中的多個(gè)姓名中的一個(gè)。例如，姓名可以作為地址簿或通訊錄的一部分存儲(chǔ)在電子設(shè)備中。字母-發(fā)音轉(zhuǎn)換器105首先為輸入到系統(tǒng)100中的姓名識(shí)別至少一種語言。然后將姓名轉(zhuǎn)換成存儲(chǔ)在開放詞典110中的有序的語音單元序列。系統(tǒng)115還包括混合語言隱藏馬爾可夫模型(HMM)集115。HMM集115包括以至少兩種語言表示所選語音模式的高斯混合參數(shù)。
在將多個(gè)姓名和與它們相關(guān)聯(lián)的有序的語音單元序列輸入到開放詞典110中之后，系統(tǒng)100就在將姓名口述輸入到諸如麥克風(fēng)120的系統(tǒng)100的輸入之后識(shí)別任意一個(gè)姓名的語音表示。麥克風(fēng)120可能與聲音激活設(shè)備(VAD)以可操作的方式連接。然后，特征提取器125就根據(jù)本領(lǐng)域普通技術(shù)人員熟知的現(xiàn)有語音識(shí)別技術(shù)來提取口述姓名的特征向量。然后，比較特征向量與高斯混合參數(shù)的自動(dòng)語音識(shí)別(ASR)引擎130對特征向量進(jìn)行解碼。另外，還以動(dòng)態(tài)語法網(wǎng)絡(luò)135輔助ASR引擎135，這里動(dòng)態(tài)語法網(wǎng)絡(luò)135由開放詞典110構(gòu)成并在語音識(shí)別過程中對語音模型的搜索進(jìn)行引導(dǎo)。最后，從系統(tǒng)100中輸出來自開放詞典的匹配的姓名。然后電子設(shè)備就可以使用這個(gè)匹配的名字來從通訊錄檢索(例如)這個(gè)人的電話號(hào)碼或其它聯(lián)系信息。
因此，本發(fā)明在需要對混合的、多語言的單詞或姓名進(jìn)行語音識(shí)別的應(yīng)用中非常有用。例如，在中國出現(xiàn)了講話者無關(guān)的可使用漢語(例如普通話或粵語)和英語ASR的移動(dòng)電話。但是，這些現(xiàn)有技術(shù)的系統(tǒng)通常在一個(gè)給定時(shí)間只能在一種語言模式下工作。例如，如果用戶想要使用ASR特征從使用英文姓名的地址簿中檢索信息，那么用戶就必須首先將ASR特征設(shè)置成英文。如果之后同一個(gè)用戶要從使用普通話姓名的地址簿中檢索信息，那么在能夠檢索普通話姓名之前用戶就必須首先將ASR特征設(shè)置成普通話。然而已經(jīng)發(fā)現(xiàn)中國的許多移動(dòng)電話用戶的電話地址簿中包含雙語的、兩部分的姓名，其中這些姓名的第一部分是英文的，姓名的第二部分是普通話的。因此，現(xiàn)有技術(shù)的ASR系統(tǒng)不能對這種雙語的、兩部分的姓名的語音表示進(jìn)行自動(dòng)識(shí)別。而另一方面，本發(fā)明能夠?qū)@種雙語的、兩部分的姓名進(jìn)行識(shí)別，而且不需要用戶手工地將ASR從一種語言切換到另一種語言。
參看圖2，這是圖解說明兩種不同語言的姓名和由有序的語音單元序列組成的與它們相關(guān)聯(lián)的發(fā)音的列表的表格。例如，第一個(gè)姓名“楊立偉”完全是普通話(中文字符)的，并且它后面跟著由包含單獨(dú)的漢語音素的有序的語音單元序列組成的發(fā)音205。第二個(gè)姓名“John Stone”完全是英文的，并且它后面同樣跟著由包含單獨(dú)的英語音素的有序的語音單元序列組成的發(fā)音210。由于包含普通話(中文字符)的姓“張”和英文的名字“Jacky”，第三個(gè)姓名“Jacky張”是雙語、兩部分的姓名。不過本發(fā)明的方法和系統(tǒng)同樣能夠?qū)@個(gè)既包含了英語音素210又包含了漢語音素205的名字進(jìn)行定義?，F(xiàn)在，將在下面介紹本發(fā)明的特征，其可以對雙語的、兩部分的姓名進(jìn)行語音學(xué)分析，而不需要用戶手工地將ASR從一種語言切換到另一種語言。
參看圖3，這是圖解說明在圖1中介紹過的混合的字母-發(fā)音轉(zhuǎn)換器105的工作和組件的示意圖。作為一個(gè)例子，操作在圖3中顯示的混合的字母-發(fā)音轉(zhuǎn)換器105來轉(zhuǎn)換用英語或普通話寫成的字符。首先，混合的字母-發(fā)音轉(zhuǎn)換器105包含字母表標(biāo)識(shí)符305，對字母表進(jìn)行識(shí)別的字母表標(biāo)識(shí)符305用于定義至少一部分存儲(chǔ)在設(shè)備中的寫入姓名。如果姓名的所存儲(chǔ)部分是由中文字符310組成的，那么就將字符310直接輸入到特定語言的普通話字母-發(fā)音轉(zhuǎn)換器315中。然而，如果姓名的所存儲(chǔ)部分是由英文字符320組成的，那么姓名既可以是用漢語拼音書寫的，又可能是用英文書寫的。因此還需要用拼音標(biāo)識(shí)符325來對姓名的這個(gè)部分進(jìn)行分類。拼音標(biāo)識(shí)符325使用基本能識(shí)別所有用拼音表示的(不包含音調(diào)的)漢語姓名的408個(gè)音節(jié)的拼音字典。如果英文字符320是漢語拼音，那么就把它們輸入到普通話字母-發(fā)音轉(zhuǎn)換器315中。然而，如果英文字符320是英文單詞，那么就把它們輸入到特定語言的英語字母-發(fā)音轉(zhuǎn)換器330中。普通話字母-發(fā)音轉(zhuǎn)換器315和英語字母-發(fā)音轉(zhuǎn)換器330都可以把姓名轉(zhuǎn)換成唯一的有序的特定語言語音單元序列。本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)可，本公開也可以使用轉(zhuǎn)換各種其它語言字符的其它字母-發(fā)音轉(zhuǎn)換器105。因此，本發(fā)明的字母-發(fā)音轉(zhuǎn)換器105能夠?qū)㈦p語的、兩部分的姓名解析成單一的有序的語音單元序列。
為了使得本發(fā)明能夠在不需要用戶手工地將系統(tǒng)100在語言模式間切換的情況下操作，混合語言HMM集115完全包括至少兩個(gè)聲學(xué)模型組，每一組用于一種語言。例如，根據(jù)上述識(shí)別英語和普通話姓名的本發(fā)明的實(shí)施例，HMM集115組合下面兩種單一語言的聲學(xué)模型集上下文相關(guān)的普通話模型和上下文無關(guān)的英語模型。這里，上下文是指給定語音單元的左側(cè)和/或右側(cè)緊鄰的語音單元。在漢語中，如同將在下面詳細(xì)介紹的，這些單元被表示為“聲母”和“韻母”。三話音(triphone)模型是一種同時(shí)考慮左側(cè)和右側(cè)相鄰語音單元的語音模型。如果兩個(gè)語音單元具有相同的標(biāo)識(shí)，但是它們左側(cè)和右側(cè)的上下文不同，那么就認(rèn)為它們是不同的三話音。
將漢語和諸如英語的西方語言區(qū)分開來的一個(gè)特征是漢語都是單音節(jié)的，并具有帶音調(diào)的輔音/元音(C/V)結(jié)構(gòu)。因此音節(jié)識(shí)別是大多數(shù)漢語語音識(shí)別系統(tǒng)結(jié)構(gòu)的基礎(chǔ)。在漢語中總共有1254個(gè)音節(jié)(408個(gè)無音調(diào)音節(jié))，它們來自22個(gè)“聲母”(即，音節(jié)中元音前的輔音)和38個(gè)“韻母”(即，音節(jié)中元音后的輔音)的不同組合。在聲母中，有21個(gè)真聲母和一個(gè)所謂的“零聲母”。根據(jù)本發(fā)明的優(yōu)選實(shí)施例，將零聲母作為真聲母來對待。考慮到其中只有有限的訓(xùn)練數(shù)據(jù)可用的情況，對于漢語的一般觀察是音節(jié)之中的協(xié)同發(fā)音(co-articulation)效果要比音節(jié)之間的協(xié)同發(fā)音效果重要得多。這是漢語的單音節(jié)結(jié)構(gòu)造成的。同樣，音節(jié)內(nèi)聲母的聲學(xué)特征高度依賴于韻母，但是韻母的聲學(xué)特征對聲母的依賴則少得多。例如，音節(jié)“ta”中的聲母“t”與另一個(gè)音節(jié)“tu”中相同的聲母的發(fā)音很不相同；但是音節(jié)“ta”中的韻母“a”與“cha”中的“a”的發(fā)音幾乎相同。因此，在漢語語音識(shí)別中的一種合理的方法是認(rèn)為音節(jié)之間的協(xié)同發(fā)音效果和音節(jié)內(nèi)韻母對前面聲母的依賴都是可以忽略的，并讓聲母與所跟隨的韻母的啟始音素右上下文相關(guān)，并讓韻母上下文無關(guān)。因此本發(fā)明的優(yōu)選實(shí)施例使用包括117個(gè)聲母和38個(gè)韻母的155個(gè)子音節(jié)。然后將每個(gè)音節(jié)分解成一對子音節(jié)。在表1中顯示了本發(fā)明的優(yōu)選實(shí)施例的漢語聲學(xué)模型中使用的這種音節(jié)分解的例子。
表1--漢語音節(jié)分解的例子

為了減少HMM集115中英語聲學(xué)模型的體積，從而減少整個(gè)系統(tǒng)100所需要的復(fù)雜度和計(jì)算量，本發(fā)明的優(yōu)選漢語/英語實(shí)施例使用了上下文無關(guān)的英語聲學(xué)模型。同樣，使用了40個(gè)單音素(monophone)作為基本英語建模單元。這種單音素的一個(gè)來源是卡內(nèi)基-梅隆大學(xué)(CMU)發(fā)音詞典。CMU發(fā)音詞典包含大約127,000個(gè)英文單詞和它們相應(yīng)的語音發(fā)音。CMU發(fā)音詞典還定義了英語中的39個(gè)單獨(dú)的音素。作為選擇的，也可以使用其它的詞典。
現(xiàn)在將更詳細(xì)地介紹ASR引擎130將有序的語音單元序列與特征向量進(jìn)行匹配的工作方式。引擎130使用Viterbi型、波束搜索算法來對系統(tǒng)100接收到的口述話語的特征向量的序列進(jìn)行分析。在語法網(wǎng)絡(luò)135的引導(dǎo)下，引擎130的目的是找到其相應(yīng)的狀態(tài)序列(高斯混合)的高斯參數(shù)與輸入的語音話語最匹配的有序的語音單元序列。Viterbi搜索是時(shí)間同步的搜索算法，它在處理時(shí)間t+1之前對時(shí)間t進(jìn)行完全的處理。對于時(shí)間t來說，每一狀態(tài)都用來自時(shí)間t-1的所有狀態(tài)的最高分(而不是使用所有引入路徑的和)來更新。在更新的時(shí)候，它還記錄回溯指針以記住最可能的引入狀態(tài)。在搜索結(jié)束的時(shí)候，沿著這些回溯指針就可以恢復(fù)最可能的狀態(tài)序列。在有效修剪技術(shù)的幫助下，不需要去探索整個(gè)搜索空間或整個(gè)框架。取而代之的是，只需要對最有希望的搜索狀態(tài)空間進(jìn)行探索。然后，就為系統(tǒng)100產(chǎn)生了全面的HMM集，這個(gè)集合與在每次更新開放詞典之后在線生成的動(dòng)態(tài)語法的終端元件的聲學(xué)模型相關(guān)聯(lián)?？梢栽贘elinek Frederick所著的“Statistical Methods for Speech Recognition”(MIT出版社，1999，ISBN 0-262-10066-5)中找到有關(guān)上述算法的更詳細(xì)的介紹。
為了進(jìn)一步說明本發(fā)明，參看圖4，這是總結(jié)了根據(jù)包括普通話/英語開放詞典110的本發(fā)明的實(shí)施例的將存儲(chǔ)文本轉(zhuǎn)換成語音單元的示例性方法400的一般流程圖。方法400起始于步驟405，在這里將表示多個(gè)由字符組成的姓名的文本存儲(chǔ)在電子設(shè)備中。在步驟410確定特定的姓名中所包含的字符是在漢語字母表中還是在羅馬字母表中。如果組成姓名的字符是中文字符，那么就在步驟415處將姓名的語言識(shí)別為普通話。然而如果字符是在羅馬字母表中的，那么由于字符可以是漢語拼音，所以仍然沒有確定姓名的語言。因此在步驟420處就通過使用基本上標(biāo)識(shí)了所有用拼音表示的(不包括音調(diào))漢語姓名的408個(gè)音節(jié)的拼音字典來確定字符是否是漢語拼音。如果確定字符是漢語拼音，那么方法400再次前進(jìn)到步驟415，在這里將姓名的語言識(shí)別為普通話。否則，在步驟425處將姓名的語言識(shí)別為英語。
如果在步驟415處識(shí)別出的語言是普通話。那么方法就繼續(xù)前進(jìn)到步驟430，在這里就使用普通話字母-發(fā)音轉(zhuǎn)換器315將姓名轉(zhuǎn)換成有序的語音單元序列。然而如果在步驟425處識(shí)別出的語言是英語，那么方法就繼續(xù)前進(jìn)到步驟435，在這里使用英語字母-發(fā)音轉(zhuǎn)換器330將姓名轉(zhuǎn)換成有序的語音單元序列。然后將有序的語音單元序列存儲(chǔ)在開放詞典110中。
現(xiàn)在參看圖5，這是圖解說明根據(jù)本發(fā)明的實(shí)施例的將口述話語和存儲(chǔ)在開放詞典110中的姓名進(jìn)行匹配的方法500的一般流程圖。方法500起始于步驟505，在這里用電子設(shè)備的麥克風(fēng)120接收口述話語，并且在這里設(shè)備完全包括用于對多語言的姓名進(jìn)行語音識(shí)別的系統(tǒng)100。在步驟510處將話語轉(zhuǎn)換成特征向量。然后在步驟515處將話語的特征向量與根據(jù)上述方法存儲(chǔ)到開放詞典110中的至少一個(gè)姓名的有序語音序列進(jìn)行匹配。
參看圖6，這是圖解說明可以應(yīng)用本發(fā)明的語音識(shí)別系統(tǒng)100的個(gè)人電子設(shè)備的一個(gè)例子的示意圖。這個(gè)例子包含了以無線電話形式的個(gè)人電子設(shè)備600，其完全包括根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于對多語言的姓名進(jìn)行語音識(shí)別的系統(tǒng)100。該電話600包含了與處理器603耦合以進(jìn)行通信的射頻通信單元602。該無線電話600還包含與處理器603耦合以進(jìn)行通信的鍵區(qū)606和顯示屏605。如同本領(lǐng)域普通技術(shù)人員所了解的，顯示屏505可以是觸摸屏，這樣鍵區(qū)606就是可選的了。
處理器603包含具有相關(guān)聯(lián)的代碼只讀存儲(chǔ)器(ROM)612的編碼器/解碼器611，代碼只讀存儲(chǔ)器(ROM)612用于存儲(chǔ)用于對由無線電話600發(fā)射和接收聲音或其它信號(hào)進(jìn)行編碼和解碼的數(shù)據(jù)。處理器603還包括通過通用數(shù)據(jù)和地址總線617與編碼器/解碼器611，字符只讀存儲(chǔ)器(ROM)614，隨機(jī)存取存儲(chǔ)器(RAM)604，靜態(tài)可編程存儲(chǔ)器616和SIM接口618耦合的微處理器613。與SIM接口618以可操作的方式耦合的靜態(tài)可編程存儲(chǔ)器616和SIM(通常被稱為SIM卡)每一都可以將所選的引入文本消息和電話號(hào)碼數(shù)據(jù)庫(TND)(或地址/電話簿)與其它內(nèi)容一起存儲(chǔ)于其中，電話號(hào)碼數(shù)據(jù)庫包含用于存儲(chǔ)電話號(hào)碼的號(hào)碼字段和用于在姓名字段中和一個(gè)號(hào)碼相關(guān)聯(lián)的標(biāo)識(shí)符的姓名字段。例如，電話號(hào)碼數(shù)據(jù)庫TND的一個(gè)條目可能是91999111111(在號(hào)碼字段中的條目)和在姓名字段中與之相關(guān)聯(lián)的標(biāo)識(shí)符“Steven C！at work”。SIM卡和靜態(tài)存儲(chǔ)器616卡中還可以存儲(chǔ)用于允許接入到無線電話600上受密碼保護(hù)的功能的密碼。本發(fā)明中諸如字模-發(fā)音轉(zhuǎn)換器105、開放詞典110、混合語言HMM集115、特征提取器125、ASR引擎130、和動(dòng)態(tài)語法網(wǎng)絡(luò)135這樣的組件都可以部分或全部地存儲(chǔ)在一個(gè)或多個(gè)代碼只讀存儲(chǔ)器(ROM)612、字符只讀存儲(chǔ)器(ROM)614、隨機(jī)存儲(chǔ)器(RAM)604、靜態(tài)可編程存儲(chǔ)器616、和SIM卡中。
微處理器613具有與鍵區(qū)606、顯示屏605和通常包含報(bào)警揚(yáng)聲器、振動(dòng)馬達(dá)和相關(guān)的驅(qū)動(dòng)器的報(bào)警裝置615耦合的端口。同樣，微處理器613還具有與麥克風(fēng)120和通信揚(yáng)聲器640耦合的端口。字符只讀存儲(chǔ)器614存儲(chǔ)用于對可以由通信單元602接收的文本消息進(jìn)行編碼和解碼的代碼。在這個(gè)實(shí)施例中字符只讀存儲(chǔ)器614還存儲(chǔ)用于微處理器613的操作代碼(OC)和執(zhí)行與無線電話600相關(guān)聯(lián)的功能的代碼。
射頻通信單元602是帶有常規(guī)天線607的接收器和發(fā)射器的組合。通信單元602具有經(jīng)射頻放大器609與天線607耦合的收發(fā)器608。收發(fā)器608也與組合的調(diào)制器/解調(diào)器610耦合，并且組合的調(diào)制器/解調(diào)器610將通信單元602與處理器603耦合起來。
下面給出了用于英語和普通話的本發(fā)明的實(shí)施例的性能的例子。這里用由包含(包括諸如“cancel”和“castle”這樣發(fā)音非常相近的容易混淆的單詞的)50個(gè)詞匯的口述話語的特征向量構(gòu)成測試數(shù)據(jù)庫。數(shù)據(jù)庫包括來自大約200個(gè)講話者的9494條普通話話語，和來自25個(gè)講話者6872條英語話語。為了試圖建立真實(shí)的環(huán)境，這些話語是在六個(gè)不同的移動(dòng)環(huán)境中記錄的，諸如辦公室、汽車、大型購物中心和大街上。在表2中總結(jié)出了測試的結(jié)果。單語言的結(jié)果顯示了使用專用單語言語音識(shí)別系統(tǒng)進(jìn)行識(shí)別的準(zhǔn)確率?；旌险Z言結(jié)果包含了使用本發(fā)明的混合語言語音識(shí)別系統(tǒng)100進(jìn)行識(shí)別的準(zhǔn)確率。
表2-系統(tǒng)性能的例子

因此本發(fā)明是能夠識(shí)別多語言的口述姓名而不需要用戶手工地將系統(tǒng)100在語言模式間進(jìn)行切換的，改進(jìn)的語音識(shí)別系統(tǒng)100。因此它在(例如)用戶可能具有包含多語言姓名的電子地址簿的多語言環(huán)境中是非常有用的。由于用戶不需要在語言模式間進(jìn)行切換，所以系統(tǒng)100能夠識(shí)別甚至是由第一語言的第一部分姓名和第二語言的第二部分姓名組成的復(fù)合姓名。同樣，也可以通過使用包含上下文相關(guān)和上下文無關(guān)組件的組合聲學(xué)模型，節(jié)約對系統(tǒng)100的存儲(chǔ)器和處理的需求。因此可以在具有有限存儲(chǔ)和處理資源的(諸如無線電話或PDA的)個(gè)人電子設(shè)備上操作系統(tǒng)100。
上面詳細(xì)的描述只是提供了一個(gè)優(yōu)選的示例性實(shí)施例，而不是意在限制本發(fā)明的范圍、適用性、或配置。更確切地說，關(guān)于優(yōu)選的示例性實(shí)施例的詳細(xì)說明提供了可以讓本領(lǐng)域普通技術(shù)人員實(shí)現(xiàn)本發(fā)明的優(yōu)選的示例性實(shí)施例的說明。應(yīng)當(dāng)理解，在不背離在附加的權(quán)利要求書中提出的本發(fā)明的精神和范圍的情況下可以對本發(fā)明的功能和元件布置和步驟進(jìn)行各種修改。
權(quán)利要求
1.一種用于對多語言的姓名進(jìn)行語音識(shí)別的方法，它包括如下步驟在電子設(shè)備中存儲(chǔ)文本，所述文本表示由字符組成的多個(gè)姓名；為每一所述姓名識(shí)別至少一種語言；使用多個(gè)特定語言的字母-發(fā)音轉(zhuǎn)換器將每一姓名轉(zhuǎn)換成有序的語音單元序列；用與所述電子設(shè)備相關(guān)聯(lián)的麥克風(fēng)接收口述話語；將所述話語轉(zhuǎn)換成特征向量；和將所述特征向量與至少一個(gè)姓名的所述有序的語音單元序列進(jìn)行匹配。
2.如權(quán)利要求1所述的方法，其中所述多語言包括普通話，并且為每一所述姓名識(shí)別至少一種語言的所述步驟包括確定所述姓名中所包含的字符是在漢語字母表中還是在羅馬字母表中；和確定在所述羅馬字母表中的姓名是否是拼音。
3.如權(quán)利要求1所述的方法，其中所述多語言包括西方語言和漢語。
4.如權(quán)利要求3所述的方法，其中所述多個(gè)特定語言的字母-發(fā)音轉(zhuǎn)換器包括中文字母-發(fā)音轉(zhuǎn)換器和西方語言字母-發(fā)音轉(zhuǎn)換器。
5.如權(quán)利要求4所述的方法，其中所述中文字母-發(fā)音轉(zhuǎn)換器是上下文相關(guān)的并且所述西方語言字母-發(fā)音轉(zhuǎn)換器是上下文無關(guān)的。
6.如權(quán)利要求1所述的方法，其中將所述特征向量與至少一個(gè)姓名的所述有序的語音單元序列進(jìn)行匹配的所述步驟包括通過在自動(dòng)語音識(shí)別引擎中比較所述特征向量、所述有序的語音單元序列、和高斯混合參數(shù)來解碼所述特征向量。
7.如權(quán)利要求6所述的方法，其中所述自動(dòng)語音識(shí)別引擎使用波束搜索、Viterbi算法。
8.如權(quán)利要求1所述的方法，其中所述姓名由存儲(chǔ)在所述電子設(shè)備中的通訊錄中的成分組成。
9.一種用于對多語言的姓名進(jìn)行語音識(shí)別的方法，它包括如下步驟用與所述電子設(shè)備相關(guān)聯(lián)的麥克風(fēng)接收口述話語；將所述話語轉(zhuǎn)換成特征向量；和將所述特征向量與至少一個(gè)姓名的有序的語音單元序列進(jìn)行匹配，所述姓名是存儲(chǔ)在所述電子設(shè)備中的字符表示，其中從所述字符中識(shí)別出所述姓名的至少一種語言來，然后使用多個(gè)特定語言的字母-發(fā)音轉(zhuǎn)換器將所述姓名轉(zhuǎn)換成所述有序的語音單元序列。
10.一種用于對多語言的姓名進(jìn)行語音識(shí)別的系統(tǒng)，它包括微處理器；至少一個(gè)存儲(chǔ)器，與所述微處理器以可操作的方式連接；和麥克風(fēng)，與所述微處理器以可操作的方式連接；操作所述微處理器以執(zhí)行存儲(chǔ)在所述存儲(chǔ)器中的代碼來用所述麥克風(fēng)接收口述話語、將所述話語轉(zhuǎn)換成特征向量；和將所述特征向量與至少一個(gè)姓名的有序的語音單元序列進(jìn)行匹配，所述姓名是存儲(chǔ)在所述存儲(chǔ)器中的字符表示，其中從所述字符中識(shí)別出所述姓名的至少一種語言來，然后使用多個(gè)與所述微處理器以可操作的方式連接的特定語言的字母-發(fā)音轉(zhuǎn)換器將所述姓名轉(zhuǎn)換成所述有序的語音單元序列。
11.如權(quán)利要求10所述的系統(tǒng)，其中所述多語言包括普通話，并且通過確定所述姓名是由中文字符還是由所述羅馬字母表組成，和確定在所述羅馬字母表中的姓名是否是漢語拼音的來識(shí)別出所述至少一種語言。
12.如權(quán)利要求10所述的系統(tǒng)，其中所述多語言包括西方語言和漢語。
13.如權(quán)利要求11所述的系統(tǒng)，其中所述多個(gè)特定語言的字母-發(fā)音轉(zhuǎn)換器包括中文字母-發(fā)音轉(zhuǎn)換器和西方語言字母-發(fā)音轉(zhuǎn)換器。
14.如權(quán)利要求13所述的系統(tǒng)，其中所述中文字母-發(fā)音轉(zhuǎn)換器是上下文相關(guān)的并且所述西方語言字母-發(fā)音轉(zhuǎn)換器是上下文無關(guān)的。
15.如權(quán)利要求10所述的系統(tǒng)，其中通過在與所述微處理器以可操作的方式連接的自動(dòng)語音識(shí)別引擎中比較所述特征向量、所述有序的語音單元序列、和高斯混合參數(shù)來將所述特征向量與至少一個(gè)姓名的所述有序的語音單元序列進(jìn)行匹配。
16.如權(quán)利要求15所述的系統(tǒng)，其中所述自動(dòng)語音識(shí)別引擎使用波束搜索、Viterbi算法。
17.如權(quán)利要求10所述的系統(tǒng)，其中所述姓名由存儲(chǔ)在所述系統(tǒng)中的通訊錄中的成分組成。
18.如權(quán)利要求10所述的系統(tǒng)，其中所述系統(tǒng)與移動(dòng)電話或個(gè)人數(shù)字助理以可操作的方式連接。
全文摘要
一種用于使用混合字母－發(fā)音轉(zhuǎn)換器(105)中的多個(gè)特定語言的字母－發(fā)音轉(zhuǎn)換器對多語言的姓名進(jìn)行語音識(shí)別的方法和系統(tǒng)(100)。根據(jù)一個(gè)實(shí)施例，所述方法包括在電子設(shè)備中存儲(chǔ)文本，其中所述文本表示由字符組成的多個(gè)姓名。然后為每個(gè)所述姓名識(shí)別出至少一種語言并將每一姓名轉(zhuǎn)換成存儲(chǔ)在開放詞匯表(110)中的有序的語音單元序列。然后，用與所述電子設(shè)備相關(guān)聯(lián)的麥克風(fēng)(120)接收口述話語并在特征提取器(125)中將所述話語轉(zhuǎn)換成特征向量。然后在自動(dòng)語音識(shí)別引擎(130)中將所述特征向量與至少一個(gè)姓名的所述有序的語音單元序列進(jìn)行匹配。
文檔編號(hào)G10L15/26GK1731511SQ20041005651
公開日2006年2月8日申請日期2004年8月6日優(yōu)先權(quán)日2004年8月6日
發(fā)明者任曉林, 何昕, 孫放, 張亞昕申請人:摩托羅拉公司

完整全部詳細(xì)技術(shù)資料下載