專利名稱:用于互聯(lián)網(wǎng)接入的分布式語音識別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,并且特別涉及通過口頭命令提供互聯(lián)網(wǎng)接入。
語音識別系統(tǒng)將口頭單詞和短語轉(zhuǎn)換成為文本串。語音識別系統(tǒng)可以是“本地的”或者“遠程的”,和/或者是“集成式的”或者“分布式的”。通常,遠程系統(tǒng)包括用戶本地位置的計算機,同時在一個遠程位置提供大部分語音識別系統(tǒng)。這樣,術(shù)語“遠程的”和“分布式的”通常被互換使用。同樣,某些諸如辦公環(huán)境中的網(wǎng)絡(luò)的本地網(wǎng)可以包括為用戶站提供服務(wù)器的應(yīng)用服務(wù)器和文件服務(wù)器。由這種應(yīng)用服務(wù)器提供的應(yīng)用照慣例被認為是“分布式的”,即使諸如語音識別應(yīng)用的應(yīng)用全部駐留在一個應(yīng)用服務(wù)器上。為了本公開的內(nèi)容,術(shù)語“分布式的”被在最廣泛的意義上使用,并且包括沒有集成在被提供了來自口頭命令的文本串的應(yīng)用中的任何語音系統(tǒng)。通常,這種分布式語音識別系統(tǒng)從一個話音輸入控制應(yīng)用接收一個口頭短語或者一個口頭短語的編碼,并且將相應(yīng)的文本串返回給控制應(yīng)用以便路由到恰當(dāng)?shù)膽?yīng)用程序。
圖1表示傳統(tǒng)的通用語音識別系統(tǒng)100。語音識別系統(tǒng)100包括控制器110、語音識別器120和字典125??刂破?10包括語音建模器(modeler)112和文本處理器114。當(dāng)用戶對著麥克風(fēng)101講話時,語音建模器112就將聲音輸入編碼成為模型數(shù)據(jù),模型數(shù)據(jù)基于用于實現(xiàn)語音識別的特定方案。模型數(shù)據(jù)可以包括例如用于每個音位或一組音位的符號,并且語音識別器120被配置成為根據(jù)符號識別單詞或短語,并且基于提供符號和文本之間映射的字典125。
文本處理器114處理來自語音識別器120的文本,以便確定響應(yīng)于該文本的恰當(dāng)動作。例如,文本可以是“轉(zhuǎn)到單詞”,并且響應(yīng)于該文本,控制器110提供恰當(dāng)?shù)拿畹较到y(tǒng)130以啟動一個特定的單詞處理應(yīng)用140。之后,“開始口授”文本串導(dǎo)致控制器110將所有后續(xù)文本串不經(jīng)處理地傳送到應(yīng)用140,直到從語音識別器120接收到“結(jié)束口授“文本串為止。
語音識別器120可以使用用于將文本與語音相關(guān)的各種技術(shù)中的任何一種。在一個小詞匯量系統(tǒng)中,例如識別器120可以只選擇其模型數(shù)據(jù)與來自語音建模器的模型數(shù)據(jù)最匹配的文本。在大詞匯量系統(tǒng)中,識別器120可以使用輔助信息,如基于語法規(guī)則,以在適用的與來自語音建模器的模型數(shù)據(jù)最匹配的替代物中選擇。用于將語音轉(zhuǎn)換成為文本的技術(shù)在本領(lǐng)域中是普通的。注意從語音識別器提供的文本不需要是口頭短語的直接轉(zhuǎn)換。例如,口頭短語“呼叫喬”導(dǎo)致來自字典125的文本串“1-914-555-4321”。在分布式語音識別系統(tǒng)中,語音識別器120和所有或部分字典125可以是從語音建模器112和文本處理器114分離的應(yīng)用。例如,語音識別器120和字典125可以位于一個遠程互聯(lián)網(wǎng)站點,并且語音建模器112在一個本地站點,以最小化將用戶語音傳送到識別器120所需要的帶寬。
Ichiro Hatano在1999年8月25日提交的歐洲專利申請EP0982672A2“利用搜索幫助服務(wù)器的信息檢索系統(tǒng)(INFORMATIONRETRIEVAL SYSTEM WITH A SEARCH ASSIST SERVER)”包括在此作為參考,其公開了一種信息檢索系統(tǒng),它具有用于接入多個諸如互聯(lián)網(wǎng)站點的信息服務(wù)器的每個的標(biāo)識符列表。與每個信息服務(wù)器相關(guān)的標(biāo)識符列表包括用于標(biāo)識服務(wù)器的各種方法,包括一個“發(fā)音”標(biāo)識符。當(dāng)用戶的口頭短語對應(yīng)于一個特定信息服務(wù)器的發(fā)音標(biāo)識符時,信息服務(wù)器的位置,如服務(wù)器的統(tǒng)一資源定位符(URL)被檢索。然后,這個URL被提供給一個從位于這個URL的信息服務(wù)器檢索信息的應(yīng)用。諸如斯布韋治(Spridge)公司的mySpeech應(yīng)用的商業(yè)應(yīng)用提供了目標(biāo)是通過啟用互聯(lián)網(wǎng)的電話裝置接入移動網(wǎng)的類似功能。
圖2表示被配置來便于接入特定互聯(lián)網(wǎng)站點的特殊用途語音處理系統(tǒng)的一個示例實施例。URL搜索服務(wù)器220通過互聯(lián)網(wǎng)250接收來自用戶站230的輸入。來自用戶站230的輸入包括對應(yīng)于來自麥克風(fēng)201的模型數(shù)據(jù),以及搜索服務(wù)器220用于指導(dǎo)用戶輸入處理結(jié)果的“應(yīng)答返回到的”地址。在這個應(yīng)用中,用戶輸入處理的結(jié)果或者是“未發(fā)現(xiàn)”消息,或者是含有對應(yīng)于用戶輸入的站點的URL。用戶站230使用所提供的URL來將一個消息以及上述搜索服務(wù)器220用于發(fā)送消息回用戶的“應(yīng)答返回到的”地址發(fā)送到信息源210。典型地,來自信息源210的消息是網(wǎng)頁。注意,如果用戶站230是移動裝置,則典型地使用無線接入?yún)f(xié)議(WAP)。來自信息源210的WAP消息是來自被使用無線標(biāo)記語音(WML)編碼的“卡片組(deck)”的一組“卡片”。
本發(fā)明的一個目的是提高通過語音識別系統(tǒng)的互聯(lián)網(wǎng)接入的效率。本發(fā)明的另一個目的是提高通過移動裝置的互聯(lián)網(wǎng)接入的效率。本發(fā)明的再一個目的是改進互聯(lián)網(wǎng)接入的響應(yīng)時間。
通過提供一種搜索服務(wù)器來達到這些以及其它目的,所述搜索服務(wù)器提供一個用戶地址到信息源,以便實現(xiàn)由用戶對信息源的接入。用戶發(fā)送一個請求到搜索服務(wù)器,搜索服務(wù)器標(biāo)識對應(yīng)于該請求的信息源的地址(URL)。所述請求可以是口頭請求或者對應(yīng)于口頭請求的模型數(shù)據(jù),并且搜索服務(wù)器可以包括一個語音識別系統(tǒng)。之后,搜索服務(wù)器將一個請求傳送到被標(biāo)識的信息源,使用用戶地址作為響應(yīng)于該請求的“應(yīng)答返回到的地址”。用戶的地址可以是用戶用于傳送初始請求的設(shè)備的地址,或者與用戶相關(guān)的另一個設(shè)備的地址。
下面參考附圖來更詳細地舉例描述本發(fā)明,在附圖中圖1表示現(xiàn)有技術(shù)通用語音識別系統(tǒng)的示例框圖。
圖2表示包括一個語音識別系統(tǒng)的現(xiàn)有技術(shù)搜索系統(tǒng)的示例框圖。
圖3A和3B表示根據(jù)本發(fā)明的搜索系統(tǒng)的示例框圖。
圖4表示根據(jù)本發(fā)明的搜索系統(tǒng)的示例流程圖。
在各圖中,相同的參考編號表示相似或相應(yīng)的特征或功能。
圖3A和3B表示根據(jù)本發(fā)明的搜索系統(tǒng)300、300’的示例框圖。為了易于理解,沒有示出在系統(tǒng)300、300’的各部件中的每個間實現(xiàn)通信的常規(guī)裝置,如發(fā)送機、接收機、調(diào)制解調(diào)器等,但是這些對于本領(lǐng)域技術(shù)人員是顯然的。
在圖3A的示例中,用戶將一個來自用戶站330的請求提交給URL搜索服務(wù)器320。搜索服務(wù)器320被配置來確定對應(yīng)于用戶請求的一個單獨URL。同樣,它尤其適合用于語音識別系統(tǒng)中,其中用戶使用關(guān)鍵詞或短語,如“獲得股票價格”作為接入特定預(yù)定義網(wǎng)站的請求??陬^短語被通過麥克風(fēng)201輸入用戶站330。用戶站330可以是移動電話、膝上裝置、便攜式計算機、桌上計算機、機頂盒或者能夠提供接入諸如互聯(lián)網(wǎng)250的廣域網(wǎng)的任何其它裝置。對網(wǎng)絡(luò)250的接入可以通過一個或多個網(wǎng)關(guān)(未示出)。
在語音識別實施例中,用戶站優(yōu)選地將口頭短語編碼成為模型數(shù)據(jù),以便使用較少的帶寬來將口頭請求傳送到服務(wù)器320。服務(wù)器320包括語音識別器120和將模型數(shù)據(jù)按照要求轉(zhuǎn)換成為URL定位器322使用的形式的字典125。例如,在上述mySpeech應(yīng)用中,用戶通過輸入一個文本串和一個相應(yīng)的URL(如“獲得股票價格”,http//www.stocksonline/userpage3/)來為用戶希望將來接入的每個信息源210建立應(yīng)用數(shù)據(jù)庫325。在上述EP0982672A2專利申請中,數(shù)據(jù)庫包括對應(yīng)于每個URL的短語的音位的文本編碼。
注意,盡管本發(fā)明最適合于語音識別以及其中語音識別器120位于搜索服務(wù)器320的分布式語音識別,但是用戶站330可以將請求直接提供給URL位置122。所述請求可以是例如用戶輸入的文本串、用戶站330的語音識別器的輸出等。
作為在常規(guī)TCP/IP請求中的來自用戶的請求包括請求的源330的地址和/或顯示“應(yīng)答返回到的”地址。常規(guī)地,搜索服務(wù)器使用這個地址來將標(biāo)識的信息源URL發(fā)送回用戶站330。
根據(jù)本發(fā)明,搜索服務(wù)器320將一個請求直接傳送到標(biāo)識的信息源210,其中請求將用戶站330的地址標(biāo)識作為請求的源,和/或作為顯示“應(yīng)答返回到的”地址。這樣,當(dāng)信息源210響應(yīng)于所述請求時,響應(yīng)被直接發(fā)送到用戶站330??蛇x地,如果需要,則為了后續(xù)對于信息源210的直接接入,定位的URL也被發(fā)送給用戶站330。
從服務(wù)器320發(fā)送的特定請求可以是用于接入網(wǎng)站的固定請求,或者在一個優(yōu)選實施例中是對應(yīng)于包括在數(shù)據(jù)庫325中的每個短語的請求的形式。例如,一些請求可以是下載在URL的一個網(wǎng)頁的常規(guī)請求,而其它請求可以是通過例如選項的選擇、搜索請求等接入網(wǎng)站中的信息的子命令。除了對應(yīng)于URL的短語之外,在一個優(yōu)選實施例中的數(shù)據(jù)庫325還被配置為允許其它信息與存儲的短語相關(guān)。一些短語,例如數(shù)字或字母或者諸如“下一步”、“上一步”和“返回”的特定關(guān)鍵字可以在數(shù)據(jù)庫325和服務(wù)器320中定義,以便一個相應(yīng)的命令或者串被直接傳送到在上次被參考的URL中的信息源210。
圖3B表示本發(fā)明的一個替代實施例,其中有兩個或多個與用戶相關(guān)的站330a、330b。例如,用戶站330a和麥克風(fēng)201可以是移動電話,并且用戶站330b可以是一個汽車導(dǎo)航系統(tǒng)。在一個優(yōu)選實施例中,用戶站330a將其它用戶站330b的地址提供作為用戶請求的源,或者顯示“應(yīng)答返回到的”地址。為了易于參考,術(shù)語“源地址”在下文中包括隱式或顯示應(yīng)答返回到的地址。URL服務(wù)器320使用第二個用戶站330b的這個源地址作為在對于定位的信息源210的請求中的源地址。這個實施例特別適合于沒有配置用于話音輸入的設(shè)備330b和/或沒有被配置為接收下載的網(wǎng)頁或WAP卡片組的設(shè)備330a。例如,用戶可以將一個串“顯示市區(qū)”與一個特定地圖的相應(yīng)URL地址編碼在數(shù)據(jù)庫325中。用戶配置站330a以將站330b的地址包括在隨后對于URL搜索服務(wù)器320的請求中。當(dāng)用戶說短語“顯示市區(qū)”時,站330a將對應(yīng)于所述短語的模型數(shù)據(jù)與站330b的地址傳送到搜索服務(wù)器320。之后,搜索服務(wù)器320將對于特定地圖的請求傳送到相應(yīng)的信息源210,包括站330b的地址,并且源210將地圖傳送給站330b。用戶還可以將諸如“放大”、“縮小”、“向北移動”等的短語編碼到數(shù)據(jù)庫325中,并且搜索服務(wù)器320將相應(yīng)的命令傳送到信息源210,就好像命令是從站330b發(fā)出的一樣。
按照配置用戶站330a以將站330b的地址包括在對于服務(wù)器320的請求中,數(shù)據(jù)庫325可以被配置為還含有用于某些短語的預(yù)定義源URL的字段。例如,短語“顯示汽車中的市區(qū)地圖”對應(yīng)于數(shù)據(jù)庫325的“目標(biāo)URL”字段中的地圖的地址,并且對應(yīng)于在“源URL”字段中的用戶汽車導(dǎo)航系統(tǒng)的URL地址。這些以及其它用于增強本發(fā)明原理的使用的選項對于本領(lǐng)域的普通技術(shù)人員是顯然的。
圖4表示根據(jù)本發(fā)明的搜索系統(tǒng)的示例流程圖,其可以包括在圖3的搜索服務(wù)器320中。圖4的示例流程圖并不是詳盡的,對于本領(lǐng)域的普通技術(shù)人員來說顯然,替代的處理方案可以被用來實現(xiàn)上述選項和特征。
在410,對應(yīng)于聲音輸入的模型數(shù)據(jù)被接收,在420,這個模型數(shù)據(jù)被通過語音識別器轉(zhuǎn)換成為文本串。含有模型數(shù)據(jù)的消息包括一個源URL的標(biāo)識。如上關(guān)于圖3的服務(wù)器320的數(shù)據(jù)庫325所述,循環(huán)430-450將模型數(shù)據(jù)與存儲的數(shù)據(jù)短語比較。如果在435,模型數(shù)據(jù)對應(yīng)于存儲的數(shù)據(jù)短語,則在440,相應(yīng)的目標(biāo)URL被檢索到。如上所述,諸如相應(yīng)的命令或文本串的其它信息也被檢索到。在470,一個請求被傳送到目標(biāo)URL,并且該請求包括在410檢索到的源地址,以便如上所述,目標(biāo)URL直接響應(yīng)于初始源地址。如果模型數(shù)據(jù)不與任何存儲的數(shù)據(jù)短語匹配,則在460,用戶被通知。
以上只是說明了本發(fā)明的原理。應(yīng)當(dāng)理解,本領(lǐng)域的技術(shù)人員可以設(shè)計各種設(shè)備,其盡管未在這里明確描述或示出,但是包括本發(fā)明的原理并且在所附權(quán)利要求的精神和范圍內(nèi)。
權(quán)利要求
1.一種搜索設(shè)備(320),包括被配置來從一個源設(shè)備(330)接收一個目標(biāo)標(biāo)識符和一個源地址的接收機,被配置來標(biāo)識對應(yīng)于目標(biāo)標(biāo)識符的目標(biāo)地址(210)的目標(biāo)定位器(322),以及被配置來將一個請求傳送到目標(biāo)地址(210)的發(fā)送機;其中所述請求包括源地址,其作為來自搜索設(shè)備(320)的發(fā)送機的對于請求的響應(yīng)的預(yù)期接受者。
2.如權(quán)利要求1所述的搜索設(shè)備(320),其中目標(biāo)標(biāo)識符對應(yīng)于一個聲音短語,并且搜索設(shè)備(320)還包括一個語音識別器(120),其處理目標(biāo)標(biāo)識符以便提供一個輸入到用于標(biāo)識目標(biāo)地址(210)的目標(biāo)定位器(322)。
3.如權(quán)利要求1所述的搜索設(shè)備(320),其中源地址對應(yīng)于源設(shè)備(330)以及不同于源設(shè)備(330a)的目的地設(shè)備(330b)中的一個。
4.如權(quán)利要求1所述的搜索設(shè)備(320),其中發(fā)送機和接收機被配置來通過互聯(lián)網(wǎng)(250)連接通信。
5.如權(quán)利要求4所述的搜索設(shè)備(320),其中源地址和目標(biāo)地址(210)是統(tǒng)一資源定位符(URL)。
6.如權(quán)利要求1所述的搜索設(shè)備(320),其中接收機還被配置來接收來自源設(shè)備(330)的后續(xù)輸入,目標(biāo)定位器(322)還被配置來標(biāo)識對應(yīng)于后續(xù)輸入的文本串,并且發(fā)送機還被配置來將文本串傳送到目標(biāo)地址(210)。
7.如權(quán)利要求6所述的搜索設(shè)備(320),其中后續(xù)輸入對應(yīng)于一個聲音短語,并且目標(biāo)定位器(322)還包括處理后續(xù)輸入以便提供文本串的語音識別器(120)。
8.一種用戶設(shè)備(330),包括一個應(yīng)用,它被配置來接收一個用戶輸入,將一個源地址和一個對應(yīng)于用戶輸入的目標(biāo)標(biāo)識符發(fā)送到定位器設(shè)備(320),以及從目標(biāo)源(210)接收對應(yīng)于目標(biāo)標(biāo)識符的響應(yīng),而無需啟動直接到目標(biāo)源(210)的請求。
9.如權(quán)利要求8所述的用戶設(shè)備(330),其中應(yīng)用通過互聯(lián)網(wǎng)(250)連接發(fā)送到定位器設(shè)備(320)并且從目標(biāo)源(210)接收。
10.如權(quán)利要求8所述的用戶設(shè)備(330),其中用戶輸入對應(yīng)于一個聲音輸入,并且應(yīng)用還被配置來處理聲音輸入以便提供目標(biāo)標(biāo)識符。
11.一種為用戶提供服務(wù)的方法,包括從用戶接收(410)一個目標(biāo)標(biāo)識符以及一個相關(guān)地址,標(biāo)識(440)對應(yīng)于目標(biāo)標(biāo)識符的目標(biāo)地址(210),以及發(fā)送(470)一個請求到目標(biāo)地址(210);其中所述請求包括相關(guān)地址,其作為對于請求的響應(yīng)的預(yù)期接受者。
12.如權(quán)利要求11所述的方法,其中目標(biāo)標(biāo)識符對應(yīng)于一個聲音短語,并且所述方法還包括處理(420)所述目標(biāo)標(biāo)識符以便提供用于標(biāo)識目標(biāo)地址(210)的搜索條目。
13.如權(quán)利要求11所述的方法,其中相關(guān)地址對應(yīng)于下列內(nèi)容之一來自用戶的目標(biāo)標(biāo)識符的源設(shè)備(330)和不同于源設(shè)備(330a)的目的地設(shè)備(330b)。
14.如權(quán)利要求11所述的方法,其中接收和發(fā)送的每個都是通過互聯(lián)網(wǎng)(250)連接實現(xiàn)的。
15.如權(quán)利要求14所述的方法,其中源地址和目標(biāo)地址(210)是統(tǒng)一資源定位符(URL)。
16.如權(quán)利要求11所述的方法,還包括接收來自用戶的一個后續(xù)輸入,標(biāo)識對應(yīng)于后續(xù)輸入的文本串,以及將文本串發(fā)送到目標(biāo)地址(210)。
全文摘要
搜索服務(wù)器提供用戶地址到信息源,以便實現(xiàn)用戶對于信息源的接入。用戶發(fā)送一個請求到搜索服務(wù)器,并且搜索服務(wù)器標(biāo)識對應(yīng)于所述請求的信息源的地址(URL)。所述請求可以是口頭請求或者對應(yīng)于口頭請求的模型數(shù)據(jù),并且搜索服務(wù)器可以包括一個語音識別系統(tǒng)。之后,搜索服務(wù)器將一個請求傳送到被標(biāo)識的信息源,使用用戶地址作為用于所述請求的響應(yīng)的“應(yīng)答返回到的地址”。用戶地址可以是用戶使用來傳送初始請求的地址,或者是與用戶相關(guān)的另一個設(shè)備的地址。
文檔編號G06F17/30GK1476714SQ01804664
公開日2004年2月18日 申請日期2001年12月5日 優(yōu)先權(quán)日2000年12月8日
發(fā)明者T·D·弗里德曼, T D 弗里德曼 申請人:皇家菲利浦電子有限公司