專利名稱:語音識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種方法,能夠進(jìn)行語音輸入的信息單元儲存在服務(wù)器中并能被一個客戶機(jī)提取出來,而其中的客戶機(jī)能夠通過通信網(wǎng)絡(luò)跟一個語音識別器連接。
通過語音輸入代替鍵盤和鼠標(biāo)器跟計(jì)算機(jī)進(jìn)行通信能夠減輕用戶使用計(jì)算機(jī)的工作負(fù)擔(dān),并且常常能夠提高輸入速度。語音識別可以用于目前的通過鍵盤輸入的許多領(lǐng)域。顯然,這個問題變量很多。另一方面,由于語音識別過程要對計(jì)算機(jī)的計(jì)算能力提出苛刻的要求,這樣的計(jì)算能力在本地計(jì)算機(jī)(客戶機(jī))中常常是不夠的。特別是對于與講話人無關(guān),具有大量詞匯的語音識別,客戶機(jī)的計(jì)算能力常常不夠。為了使語音輸入的可靠快速識別成為可能,最好是針對強(qiáng)有力的計(jì)算機(jī)上運(yùn)行的特定的語音識別器進(jìn)行語音識別。
EP 0872827描述了一種語音識別系統(tǒng)和方法。執(zhí)行語音識別壓縮軟件的客戶機(jī)通過網(wǎng)絡(luò)跟一個語音識別服務(wù)器連接??蛻魴C(jī)將語音識別語法和語音輸入的數(shù)據(jù)發(fā)送給語音識別服務(wù)器。語音識別服務(wù)器進(jìn)行語音識別并且將識別結(jié)果返回給客戶機(jī)。
第一段描述的客戶機(jī)/服務(wù)器語音識別系統(tǒng)的一個缺點(diǎn)是HTML頁面(超文本標(biāo)示語言)是由不同的用戶同時訪問的,語音識別系統(tǒng)被各種語音輸入占滿,從而使語音識別需要無法接受的處理時間。
因此,本發(fā)明的一個目的是對于語音輸入的識別能夠保證可以接受的處理時間和識別質(zhì)量。
為了這個目的,客戶機(jī)可以跟多個語音識別器連接,額外的信息被分配給信息單元,這些額外的信息被用于確定客戶機(jī)和用于識別輸入的語音信號的至少一個語音識別器的組合。
客戶機(jī)從通過通信網(wǎng)絡(luò),例如因特網(wǎng),連接的服務(wù)器下載信息單元。這個信息單元儲存在服務(wù)器上,并且使用戶能夠進(jìn)行語音輸入。服務(wù)器是計(jì)算機(jī)網(wǎng)絡(luò),例如因特網(wǎng),中的一臺計(jì)算機(jī),其中儲存著來自提供商的信息,可以被客戶機(jī)提取出來??蛻魴C(jī)是跟服務(wù)器連接的一臺計(jì)算機(jī),用于從因特網(wǎng)提取信息,并且將儲存在服務(wù)器上的信息單元下載下來,用軟件代表信息單元。由于客戶機(jī)的計(jì)算能力有限,語音識別不在客戶機(jī)中進(jìn)行,而是在通過通信網(wǎng)絡(luò)跟客戶機(jī)連接的一個語音識別器中進(jìn)行。為了將客戶機(jī)跟一個專業(yè)語音識別器連接,服務(wù)器將額外的信息分配給儲存在服務(wù)器上的信息單元。這些額外的信息跟信息單元組合在一起,在下載的過程中一起傳送給客戶機(jī)。在額外信息的幫助下,信息單元被分配到專門調(diào)整到這個下載的信息單元的一個語音識別器,這個語音識別系統(tǒng)隨后進(jìn)行語音識別。
額外的信息單元由服務(wù)器按照預(yù)先確定的判據(jù)給出,例如主體區(qū)域、語音識別器類型或者語音識別器的完全使用。結(jié)果,為下載的每個信息單元選擇一個特殊的語音識別器,它用于較短的處理時間高質(zhì)量地對語音輸入完成語音識別。
這樣做有一個優(yōu)點(diǎn),了解預(yù)期詞匯的信息單元的提供商選擇一個語音識別器,并且將這個語音識別器跟這個信息單元組合起來。語音輸入的識別質(zhì)量可以通過提供商控制的語音識別系統(tǒng)分配得到顯著提高,因?yàn)殛P(guān)于提供商儲存在服務(wù)器上的相應(yīng)信息單元總是能夠預(yù)期相似的語音輸入。對于用戶確定的語音識別系統(tǒng),這些語音識別器要識別很多應(yīng)用的語音輸入。利用語音識別器跟環(huán)球網(wǎng)瀏覽器的這種固定聯(lián)系,語音識別系統(tǒng)不能用于廣泛的應(yīng)用領(lǐng)域,因此這種固定連接的識別結(jié)果的質(zhì)量會受到不良影響。
額外的信息最好包括通信網(wǎng)絡(luò)中特殊語音識別器的地址。此外,額外信息包括識別結(jié)果的可選說明。在最簡單的情形中,識別結(jié)果被返回給客戶機(jī),在那里變成文字或者語音。此外,這個額外信息包括可選說明,其中精確地規(guī)定了要使用的語音識別器類型。額外信息還可以包括將語音識別器改變成語音輸入的詞匯或者參數(shù),并且改變成這種語音識別器。選擇傳輸更多的參數(shù)會提高語音識別的速度和質(zhì)量。
在本發(fā)明的一個優(yōu)選實(shí)施方案中,在額外信息中給出分配器的值。這個分配器控制多個語音識別器。例如相同類型的多個語音識別器,或者只用于識別簡單語音的語音識別器組,比方說數(shù)字或者“是/否”。由額外信息分配的分配器將來自多個客戶機(jī)的語音信號分配給語音識別器。結(jié)果,不僅能夠快速處理語音輸入,而且能夠使語音識別器均勻滿負(fù)荷地工作。
作為本發(fā)明的另外一個實(shí)施方案,客戶機(jī)以HTML頁的格式從服務(wù)器下載信息單元。這些HTML頁是用客戶機(jī)上的環(huán)球網(wǎng)瀏覽器給出的,或者是用適合于顯示它們的另外一個應(yīng)用程序。信息單元也可以作為環(huán)球網(wǎng)頁面。為了下載這個HTML頁面,客戶機(jī)跟儲存這個HTML頁面的服務(wù)器建立連接。在下載的過程中,數(shù)據(jù)以HTML代碼的形式被發(fā)送給客戶機(jī)。這個HTML代碼包括作為例如超文本標(biāo)示語言標(biāo)簽實(shí)現(xiàn)的額外信息。下載下來的HTML頁面被環(huán)球網(wǎng)瀏覽器顯示出來,用戶可以輸入語音。同時發(fā)送的HTML標(biāo)簽規(guī)定用于識別這一語音輸入的語音識別器。為了識別語音輸入,客戶機(jī)通過通信網(wǎng)絡(luò)跟語音識別器建立連接。語音輸入被發(fā)送給語音識別器,在那里識別,并且將識別結(jié)果返回給例如客戶機(jī)。
在本發(fā)明的一個優(yōu)選實(shí)施方案中,當(dāng)多個客戶機(jī)訪問一個HTML頁的時候,為每個客戶機(jī)分配一個不同的HTML標(biāo)簽。為此,當(dāng)多個客戶機(jī)訪問相應(yīng)的HTML頁的時候,服務(wù)器分配語音識別器的不同地址給這個HTML標(biāo)簽。有許多客戶機(jī)訪問HTML頁面的時候,能夠用多個語音識別器處理語音輸入,從而保證更快地識別。當(dāng)來自不同時間區(qū)的用戶進(jìn)行訪問的時候,可以分配相應(yīng)時間區(qū)域的語音識別器。將上面描述的分配器用于分配語音的識別器的時候,當(dāng)多個客戶機(jī)訪問同一個HTML頁面的時候,HTML標(biāo)簽說明分配器的不同地址,如果分配器控制的語音識別器在語音識別的過程中不能滿足質(zhì)量要求。
在本發(fā)明的一個優(yōu)選實(shí)施方案中,通過額外的軟件在客戶機(jī)上對語音輸入進(jìn)行預(yù)先處理。這個額外的軟件可以在下載基于語音輸入的HTML頁面的時候從相應(yīng)的服務(wù)器下載下來。也可以選擇將額外的軟件作為環(huán)球網(wǎng)瀏覽器的一個選擇,或者在本地將它安裝在服務(wù)器上。下載相應(yīng)HTML頁面的時候啟動這個額外的軟件,當(dāng)用戶輸入語音的時候提取語音輸入的特征。能夠作為電信號的語音輸入被數(shù)字化,用于進(jìn)行相應(yīng)的分析,產(chǎn)生特征矢量。當(dāng)客戶機(jī)已經(jīng)建立起到HTML標(biāo)簽中設(shè)置的語音識別器的一個連接的時候,或者跟分配器建立連接的時候,這些特征矢量通過通信網(wǎng)絡(luò)被發(fā)送給語音識別器或者分配器。語音識別器完成計(jì)算量繁雜的識別。作為客戶機(jī)提取特征的結(jié)果,語音輸入被壓縮和編碼,從而減少要發(fā)送的數(shù)據(jù)個數(shù)。此外,客戶機(jī)一側(cè)要進(jìn)行的特征提取的時間被縮短,從而使語音識別器只對提供給它的特征矢量進(jìn)行識別。這樣減少對于要頻繁使用的語音識別器來說很有好處。
在本發(fā)明的再一個實(shí)施方案中,在HTML標(biāo)簽中給出說明,告訴語音識別器或者分配器如何使用識別結(jié)果。這些說明可以決定識別出來的語音輸入如何返回給客戶機(jī)或者服務(wù)器。例如返回給服務(wù)器的時候,可以將另外一個HTML頁面從服務(wù)器發(fā)送給客戶機(jī)。返回給客戶機(jī)的識別出來的結(jié)果也可以按照特定的判據(jù)從識別出的文字信息獲得。
本發(fā)明還涉及一種服務(wù)器,在它的基礎(chǔ)上儲存客戶機(jī)能夠提取的信息單元,這個客戶機(jī)能夠跟一個或者多個語音識別器連接起來,其中額外的信息被分配給信息單元,以便在客戶機(jī)和語音識別器之間建立連接,用于識別輸入的語音信號。
此外,本發(fā)明還涉及一種客戶機(jī),它能通過通信網(wǎng)絡(luò)跟一個或者多個語音識別器連接,提取服務(wù)器上的信息單元,其中的額外信息被分配給信息單元,在客戶機(jī)和語音識別器之間建立一種組合,用于識別輸入的語音信號。
下面將參考附圖,詳細(xì)地描述本發(fā)明的優(yōu)選實(shí)施方案實(shí)例,其中
圖1說明語音識別器的分配,圖2說明具有一個分配器的語音識別器的分配,和圖3說明各種客戶機(jī)對HTML頁面的訪問和語音識別器的分配。
圖1說明語音識別的方法??蛻魴C(jī)1、2和3通過通信網(wǎng)絡(luò)6跟服務(wù)器5連接。從這個服務(wù)器5,客戶機(jī)1、2和3下載HTML頁面4形式的信息單元4。這些HTML頁面4通過環(huán)球網(wǎng)瀏覽器13在客戶機(jī)1、2和3上顯示出來??蛻魴C(jī)1~3請求獲得的HTML頁面4儲存在服務(wù)器5上。服務(wù)提供商希望通知用戶的信息單元4的內(nèi)容由服務(wù)器5通過HTML代碼發(fā)送給客戶機(jī)1、2或者3。這個HTML編碼的數(shù)據(jù)流包括格式化指令和額外的信息12,例如,除了要顯示的內(nèi)容以外HTML標(biāo)簽12的形式。
HTML頁面4使得用戶能夠輸入語音信息,而被顯示HTML頁面4的內(nèi)容不必跟語音輸入的內(nèi)容連接。
客戶機(jī)在用戶啟動的時候建立到服務(wù)器5的連接,或者通過一條鏈路請求獲得相應(yīng)的HTML頁面。在發(fā)送HTML頁面給客戶機(jī)之前,服務(wù)器5在分配的HTML標(biāo)簽12中給這個HTML頁面4分配語音識別器的地址。在需要的時候?qū)⒁褂玫恼Z音識別器18的類型,語音識別器的參數(shù),或者識別結(jié)果的使用細(xì)節(jié)這樣的細(xì)節(jié)分配給HTML標(biāo)簽。
載入包括HTML標(biāo)簽12的HTML標(biāo)簽頁面4的時候,啟動額外的軟件14。這個額外的軟件14提取可以作為電信號獲得的語音輸入的特征。額外的軟件14可以是環(huán)球網(wǎng)瀏覽器13的一部分,或者就安裝在客戶機(jī)1、2或者3上。
客戶機(jī)跟其地址在HTML標(biāo)簽12中給出了的語音識別器7、8或者9建立連接。這個語音識別器接收額外軟件14產(chǎn)生的特征流,并且對語音輸入進(jìn)行語音識別。在語音識別器7、8或者9識別完語音輸入以后,從語音識別器7、8或者9返回客戶機(jī)1、2或者3,作為文字或者語音給出。
在另外一個實(shí)施方案中利用HTML標(biāo)簽12中的成分可以確定如何使用識別結(jié)果。除了返回客戶機(jī)1~3以外,有可能將識別結(jié)果發(fā)送給服務(wù)器5,然后再發(fā)送一個HTML頁面4給客戶機(jī)1~3(用線條16表示)。例如,閱讀作為HTML頁面4顯示出來的日報的時候,客戶機(jī)1的用戶可以說“當(dāng)前溫度”。這個語音輸入被隨后發(fā)送給HTML標(biāo)簽12中分配的語音識別器7~9,讓它們進(jìn)行語音識別。在說明了如何使用語音識別結(jié)果的時候,識別結(jié)果不返回客戶機(jī)1,而是發(fā)送給服務(wù)器5。服務(wù)器5可以隨后將當(dāng)前的溫度信息發(fā)送給客戶機(jī)1,它可以作為文字發(fā)出也可以作為語音發(fā)出。
圖2說明另外一個實(shí)施方案實(shí)例。每個客戶機(jī)1~3都從服務(wù)器5下載一個HTML頁面4,而HTML頁面的內(nèi)容不同。這些HTML頁面4每個都有一個HTML標(biāo)簽12。這些HTML標(biāo)簽12包括分配器的地址17。除了分配器10的地址17以外,這個HTML標(biāo)簽12還包括關(guān)于如何使用識別結(jié)果的細(xì)節(jié),包括要使用的語音識別器的類型信息和/或語音識別器參數(shù)。
分配器10控制著一組語音識別器。這些語音識別器也可以是不同類型的。標(biāo)為7的一組包括類型是Ra的各種語音識別器Ra,n。標(biāo)為8的一組包括類型是Rb的語音識別器Rb,n。標(biāo)為7的這一組Ra類型的語音識別器Ra,n是專門用于識別數(shù)字的。標(biāo)為8的這一組Rb類型的語音識別器Rb,n是專門用于識別“是/否”的。分配器10按照相應(yīng)的HTML標(biāo)簽12中說明的語音識別器的類型分配各種客戶機(jī)1~3的語音輸入。
客戶機(jī)1和2激活的分配分配器10的HTML頁面4可以按照要使用的語音識別器18的類型交給Ra類型的語音識別器??蛻魴C(jī)1和2的語音輸入被組7的分配器10分配給語音識別器Ra,n。客戶機(jī)3激活的HTML頁面4需要按照語音識別器18采用的類型Rb的語音識別器??蛻魴C(jī)3的用戶輸入的語音信息被組8的分配器10分配給類型Rb的語音識別器。
當(dāng)一個語音識別器Ra,1忙于處理語音輸入的時候,分配器10將下一個語音輸入分配給相同類型的語音識別器Ra,2。相應(yīng)的識別結(jié)果被語音識別器返回給客戶機(jī)1~3然后在那里進(jìn)行處理。
圖3說明多個客戶機(jī)1~3同時訪問同一個HTML頁面4。通過環(huán)球網(wǎng)瀏覽器13顯示HTML頁面4的時候,它們顯示同樣的內(nèi)容。每個HTML標(biāo)簽12都在地址字段17中包括一個IP地址,以及從客戶機(jī)1、2或者3到語音識別器7、8或者9的TCP/IP鏈路的套接口。這樣,HTML頁面4的服務(wù)提供商在服務(wù)器5中確定處理用戶語音的語音識別器7、8或者9。每次客戶機(jī)1、2或者3通過因特網(wǎng)啟動相應(yīng)HTML頁面4的時候,服務(wù)器5都給HTML頁面4分配一個HTML標(biāo)簽12,這個標(biāo)簽確定相應(yīng)語音識別器7、8或者9的地址17。當(dāng)HTML頁面4由各個客戶機(jī)1~3同時激活的時候,如果這個HTML頁面4只有一個固定的語音識別器7、9或者9,就不難對語音輸入進(jìn)行快速處理。因此在這種情況下,每個客戶機(jī)1、2或者3通過相應(yīng)HTML標(biāo)簽12中的不同地址17為相應(yīng)的HTML頁面4激活另外一個語音識別器7、8或者9。例如,當(dāng)客戶機(jī)1下載HTML頁面4的時候,將語音識別器7分配給HTML標(biāo)簽12。語音識別器8被分配給客戶機(jī)2對語音輸入進(jìn)行語音識別,語音識別器9被分配給客戶機(jī)3。這樣就能夠保證對所有三個用戶(客戶機(jī)1~3)的語音輸入進(jìn)行快速和可靠的語音識別。
下面給出一個實(shí)例,說明如何分配語音識別器??蛻魴C(jī)1激活關(guān)于影院節(jié)目的一個HTML頁面4??蛻魴C(jī)2激活關(guān)于足球節(jié)目的一個HTML頁面4,客戶機(jī)3激活關(guān)于航空公司的HTML頁面4。顯然,這三個HTML頁面4都具有不同的語音輸入。HTML頁面4的服務(wù)提供商了解預(yù)期的詞匯,通過有關(guān)的HTML標(biāo)簽12和每個HTML頁面4分配一個專門的語音識別器7、8或者9。
對于能夠輸入多個語音信息的HTML頁面4,例如填表的時候,可以為對應(yīng)的語音輸入欄分配不同的語音識別器7、8或者9,這些語音識別器都放在一個或者多個HTML標(biāo)簽12中。當(dāng)前處理哪些語音輸入可以通過關(guān)鍵字,通過建立用戶查看的方向,鼠標(biāo)器靠得多近,優(yōu)先級或者是順序來區(qū)分。
權(quán)利要求
1.一種方法,允許進(jìn)行語音輸入的信息單元儲存在服務(wù)器上,能夠由客戶機(jī)提取,其中的客戶機(jī)能夠通過通信網(wǎng)絡(luò)跟一個語音識別器連接,額外的信息(12)被分配給信息單元(4),這些額外的信息(12)被用于確定客戶機(jī)(1、2、3)跟語音識別器(7、8、9)中至少一個的組合,用于識別已經(jīng)輸入的信號。
2.權(quán)利要求1的方法,其特征在于額外信息(12)包括,除了分配語音識別器(7、8、9)的地址(17)以外,說明如何處理識別結(jié)果和/或語音識別器(18)的類型和/或要傳輸給語音識別器(7、8、9)的參數(shù)。
3.權(quán)利要求1的方法,其特征在于額外信息(12)被服務(wù)器(5)分配給信息單元(4)。
4.權(quán)利要求1的方法,其特征在于具有分配的額外信息(12)的信息單元(4)被客戶機(jī)(1、2、3)載入。
5.權(quán)利要求1~4之一或多個的方法,其特征在于從客戶機(jī)(1、2、3)向語音識別器(7、8、9)的地址(17)傳輸語音信號輸入用于識別,這個地址由額外信息(12)說明。
6.權(quán)利要求1的方法,其特征在于額外信息(12)包括傳輸語音信號的分配器(10)的地址(17),并且被分配給多個語音識別器(7、8、9)中間的一個。
7.權(quán)利要求1的方法,其特征在于信息單元(4)是用HTML頁面(4)和作為HTML標(biāo)簽(12)的額外信息(12)實(shí)現(xiàn)的。
8.權(quán)利要求1~7之1的方法,其特征在于有不同的客戶機(jī)(1、2、3)同時訪問同一個HTML頁面(4)的時候,每個客戶機(jī)(1、2、3)都在HTML標(biāo)簽(12)中分配語音識別器(7、8、9)的不同地址(17)。
9.權(quán)利要求1或者7的方法,其特征在于客戶機(jī)具有額外軟件(14),用于提取給客戶機(jī)的語音信號的特征,下載包括HTML標(biāo)簽(12)的HTML頁面(4)的時候啟動這些軟件。
10.權(quán)利要求1~9中一個或者多個的方法,其特征在于在特征提取過程中獲得的語音信號的特征流被提供給HTML標(biāo)簽(12)說明的語音識別器(7、8、9),這個語音識別器(7、8、9)進(jìn)行語音識別,并且根據(jù)HTML標(biāo)簽(12)中包括的信息,將識別結(jié)果返回給客戶機(jī)(1、2、3)。
11.權(quán)利要求10的方法,其特征在于識別結(jié)果被按照HTML標(biāo)簽(12)中包括的信息返回給服務(wù)器(5)。
12.儲存客戶機(jī)(1、2、3)能夠提取的信息單元(4)的一種服務(wù)器(5),客戶機(jī)(1、2、3)能夠跟一個或者多個語音識別器(7、8、9)連接,額外的信息(12)被分配給信息單元(4),用于確定客戶機(jī)(1、2、3)和語音識別器(7、8、9)的組合,識別輸入的語音信號。
13.一種客戶機(jī)(1、2、3),能夠通過通信網(wǎng)絡(luò)(6)跟一個或者多個語音識別器(7、8、9)連接,并且能夠提取儲存在服務(wù)器(5)上的信息單元(4),額外的信息(12)被分配給信息單元(4),用于確定客戶機(jī)(1、2、3)和語音識別器(7、8、9)的一個組合,用于識別輸入的語音信號。
全文摘要
在一種方法中,能夠進(jìn)行語音輸入的信息單元(4)被儲存在服務(wù)器(5)上,并且能夠由客戶機(jī)(1、2、3)提取,其中的客戶機(jī)能夠通過通信網(wǎng)絡(luò)(6)跟一個或者多個語音識別器(7、8、9)連接,信息單元(4)被分配額外的信息(12),用于確定識別語音信號的客戶機(jī)(1、2、3),以及至少一個語音識別器(7、8、9),用于在通信網(wǎng)絡(luò)(6)內(nèi)動態(tài)地分配語音識別器(7、8、9)給信息單元(4),從而保證語音輸入的識別時間能夠接受,同時具有較高的識別質(zhì)量。
文檔編號G10L15/00GK1343351SQ00804827
公開日2002年4月3日 申請日期2000年2月10日 優(yōu)先權(quán)日1999年3月9日
發(fā)明者S·貝斯林, E·特倫, M·烏爾里希 申請人:皇家菲利浦電子有限公司