用于提供語音識別的方法和系統(tǒng)的制作方法

文檔序號：2830571閱讀：453來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：用于提供語音識別的方法和系統(tǒng)的制作方法用于提供語音識別的方法和系統(tǒng)相關(guān)申請本申請要求2006年9月25日所提交的美國專利申請序號11/526,395(代理人案號COS06005)的優(yōu)先權(quán)，其內(nèi)容通過引用并入本文中。
背景技術(shù)：
：對于收集和向用戶提供信息二者而言，語音識別在通信系統(tǒng)中起重要的作用。傳統(tǒng)地，交互式話音應(yīng)答(IVR)系統(tǒng)已經(jīng)依賴于雙音多頻(DTMF)和語音輸入的組合來獲得并且處理信息。然而，對于需要輸入大量數(shù)字、字母和字的復(fù)雜事務(wù)而言，IVR系統(tǒng)的思想比其概念更加吸引人。即，對于復(fù)雜的數(shù)據(jù)條目而言，典型的DTMF接口已證明是無法行得通的緩慢。比如，組織變得總是依賴于基于話音的系統(tǒng)來擴(kuò)大DTMF輸入。不幸的是，基于話音的系統(tǒng)己經(jīng)引入了與口語和人類話語的無窮變化的錯綜復(fù)雜相關(guān)的新的、更具有挑戰(zhàn)性的問題。因此，在將口語話語轉(zhuǎn)換為對應(yīng)的文本字符串或其它等價符號表示的方面上，實(shí)現(xiàn)語音識別技術(shù)的IVR系統(tǒng)已經(jīng)證明是不可接受的不準(zhǔn)確。因此，存在用于提供語音識別的改進(jìn)的方法的需要。通過示例的方法而不是限制的方法在附圖的圖中圖示本發(fā)明，并且其中相同的附圖標(biāo)記指的是類似的元件，并且在附圖中圖l是圖示根據(jù)本發(fā)明實(shí)施例的能夠提供語音識別來獲得名字的通信系統(tǒng)的示圖2是根據(jù)本發(fā)明實(shí)施例的示例性交互式話音應(yīng)答(IVR)單元的示圖3是根據(jù)本發(fā)明實(shí)施例的語音識別系統(tǒng)的示圖；圖4A和圖4B是根據(jù)本發(fā)明實(shí)施例的語音識別過程的流程圖；圖5是能夠被用于實(shí)現(xiàn)本發(fā)明各種實(shí)施例的計算機(jī)系統(tǒng)的示圖。具體實(shí)施例方式描述了一種用于提供語音識別的裝置、方法和軟件。在下面的描述中，為了解釋的目的，闡明了許多特定細(xì)節(jié)，以便于提供本發(fā)明的詳盡理解。然而，對于一個本領(lǐng)域中普通技術(shù)人員來說，顯然不使用這些特定細(xì)節(jié)或使用等價布置也可以實(shí)踐本發(fā)明。在其它實(shí)例中，為了避免不必要地混淆本發(fā)明，以框圖的形式示出熟知的結(jié)構(gòu)和設(shè)備。雖然針于代名詞(例如，名字)的語音識別來描述本發(fā)明的各種實(shí)施例，但是認(rèn)為這些實(shí)施例對使用等價接口和操作的廣義語音識別具有適用性。圖1是圖示根據(jù)本發(fā)明實(shí)施例的能夠提供語音識別來獲得名字的通信系統(tǒng)的示圖。通信系統(tǒng)100包括利用名字語法數(shù)據(jù)庫103、信任度數(shù)據(jù)庫105的語音識別系統(tǒng)(或邏輯)101。語音識別系統(tǒng)101利用交互式話音應(yīng)答(IVR)單元(或系統(tǒng))107來操作，其通過電話網(wǎng)絡(luò)111從站109接收話音呼叫。電話網(wǎng)絡(luò)111能夠是電路切換系統(tǒng)或分組話音網(wǎng)絡(luò)(例如，網(wǎng)際協(xié)議話音(VoIP)網(wǎng)絡(luò))。分組話音網(wǎng)絡(luò)111能夠由支持麥克風(fēng)和揚(yáng)聲器功能的適當(dāng)?shù)恼?09—一例如，計算機(jī)、工作站或其它設(shè)備(例如，個人數(shù)字助理(PDA)等)來訪問。除了其它功能，IVR系統(tǒng)107采集并且向用戶提供數(shù)據(jù)。圖2中更加充分地解釋了IVR系統(tǒng)107。由數(shù)據(jù)存儲庫113支持?jǐn)?shù)據(jù)采集。為了說明的目的，針于表示名字的音頻信號的識別來描述語音識別系統(tǒng)101。用戶的名字可論證地是最日常收集的、普遍使用的信息片段。不幸的是，獲得用戶的名字對于利用雙音多頻(DTMF)輸入接口的常規(guī)系統(tǒng)來說是一項困難的任務(wù)。例如，隨著包含在個人的名字中的字母數(shù)量的增加，DTMF接口變得日益地不實(shí)用。而且，很多電話設(shè)計(特別是蜂窩電話)需要將揚(yáng)聲器和撥號鍵盤組建在一起，使得用戶可以方便地使用撥號鍵盤并且接聽話音詢問。因此，語音識別已經(jīng)被引入以補(bǔ)充DTMF接口。傳統(tǒng)的語音識別接口高度地取決于語法內(nèi)容和普通的發(fā)音規(guī)則來實(shí)現(xiàn)準(zhǔn)確的轉(zhuǎn)換結(jié)果。然而，對于用戶名字(或任意固有名詞)，因為這些類型的字通常不具有能夠被用以在可能的轉(zhuǎn)換選擇中進(jìn)行區(qū)分的顯著的語法內(nèi)容，所以這些技術(shù)證明是不充分的。另外，由于固有名詞包含不成比例的大量非標(biāo)準(zhǔn)發(fā)音變化，所以即使有的話，普通的發(fā)音規(guī)則也提供極小的有利價值。因此，不僅通過內(nèi)容的損失也通過音素本身之間的聽覺差別來例示語音的變化性。另外，獨(dú)立于被轉(zhuǎn)換的言語類型的一組特有的復(fù)雜性妨礙了語音識別技術(shù)。例如，由環(huán)境背景噪聲、麥克風(fēng)位置以及轉(zhuǎn)換器質(zhì)量所引入的聲音的變化性增加了轉(zhuǎn)換準(zhǔn)確度的損失。此外，從物理和情感狀態(tài)、語速、話音質(zhì)量和強(qiáng)度、社會語言背景、方言以及聲道大小和形狀引起的揚(yáng)聲器的變化性也造成識別準(zhǔn)確度的損失。返回圖1，以下針于圖3更充分地描述的語音識別系統(tǒng)101能夠支持包括與人類用戶的交互的各種應(yīng)用，諸如，呼叫流程處理、目錄輔助、商務(wù)事務(wù)(例如，航空票務(wù)、股票代理、銀行業(yè)務(wù)、訂購等)、瀏覽/采集信息等。雖然沒有示出，但是IVR系統(tǒng)107能夠經(jīng)由數(shù)據(jù)網(wǎng)絡(luò)來訪問數(shù)據(jù)存儲庫113，該數(shù)據(jù)網(wǎng)絡(luò)能夠包括本地區(qū)域網(wǎng)絡(luò)(LAN)、廣域網(wǎng)絡(luò)(WAN)、蜂窩或衛(wèi)星網(wǎng)絡(luò)、因特網(wǎng)等。另外，那些本領(lǐng)域中普通技術(shù)人員將意識到的是，數(shù)據(jù)存儲庫113能夠被直接鏈接到或被包括在IVR系統(tǒng)107內(nèi)。比如，數(shù)據(jù)存儲庫113能夠是將個性化信息與用戶名字相關(guān)聯(lián)的任意類型的信息存儲(例如，數(shù)據(jù)庫、服務(wù)器、計算機(jī)等)。該個性化信息能夠包括出生日期、賬號(例如，銀行、簽帳卡、計費(fèi)代碼等)、社會安全號碼(SSN)、地址(例如，工作、家庭、網(wǎng)際協(xié)議(IP)、介質(zhì)訪問控制(MAC)等)、電話列表(家庭、工作、蜂窩電話等)、以及例如生物識別碼、聲印(voiceprint)等任意其它形式的唯一可識別數(shù)據(jù)的任意一個或其組合。在本發(fā)明的一個實(shí)施例中，將數(shù)據(jù)存儲庫113配置為允許使用一個或多個以上所列出的個性化信息形式來反向檢索用戶的名字。此外，能夠由任意資源，包括第三方供應(yīng)商，來自動更新并且維持?jǐn)?shù)據(jù)存儲庫113。雖然將語音識別系統(tǒng)101示作獨(dú)立的組件，但是可以認(rèn)為，語音識別系統(tǒng)101能夠與IVR系統(tǒng)107集成。圖2是根據(jù)本發(fā)明實(shí)施例的示例性交互式話音應(yīng)答(IVR)系統(tǒng)的示圖。在該示例中，IVR系統(tǒng)107包括電話接口201、資源管理器203、以及話音瀏覽器205。IVR系統(tǒng)107利用電話接口201用于通過電話網(wǎng)絡(luò)111與一個或多個用戶進(jìn)行通信。在可選實(shí)施例中，根據(jù)用戶的訪問方法來利用其它接口。此外，雖然將IVR系統(tǒng)示作獨(dú)立的、分布的實(shí)體，但是IVR系統(tǒng)107能夠?qū)⒁恍┗蛩械墓δ懿⑷雴我坏木W(wǎng)絡(luò)元件。如圖所示，資源管理器203提供各種語音資源，諸如驗證系統(tǒng)207、自動語音識別器(ASR)209、和文本到語音(TTS)引擎211。TTS引擎211將來自話音瀏覽器205的文本信息(數(shù)字信號)轉(zhuǎn)換為語音(模擬信號)，用于向用戶進(jìn)行回放。TTS引擎211通過前端輸入和后端輸出來完成該轉(zhuǎn)變。該輸入通過文本標(biāo)準(zhǔn)化、預(yù)處理和/或斷詞將純文本轉(zhuǎn)換為其等價的寫出字。隨后，字被指派標(biāo)音，并且被劃分為韻律單位，例如，短語、分句和/或句子。使用該標(biāo)音和韻律安排的組合，前端輸入向后端輸出傳送符號語言表示，以用于合成?；谄谕淖匀恍曰蚩衫斫庑缘募墑e，后端輸出能夠通過下面合成過程的任意9一個來生成語音波形連續(xù)式、單位選擇、雙音、域指定、共振峰、音韻(articulatory)、隱藏式馬可夫模型(HMM)以及其它類似方法，以及其任意的混合組合。通過合成過程，后端輸出生成向用戶傳送的實(shí)際聲音輸出。ASR209能夠有效地作為語音識別系統(tǒng)101，或者替換地為對語音識別系統(tǒng)101的接口；具體的實(shí)施例取決于應(yīng)用。ASR209有效地將用戶的口語(用模擬信號表示)轉(zhuǎn)換為文本或等價的符號形式(數(shù)字信號)，用于由話音瀏覽器205和/或驗證系統(tǒng)207進(jìn)行處理。作為TTS引擎211的替代或除了TTS引擎2H，話音瀏覽器205能夠向用戶播放預(yù)先記錄的聲音文件。根據(jù)本發(fā)明的一個實(shí)施例，資源管理器203能夠包括模擬到數(shù)字和數(shù)字到模擬轉(zhuǎn)換器(未示出)，用于例如在站109和話音瀏覽器205之間發(fā)送信號。另外，在可選實(shí)施例中，話音瀏覽器205可以包含實(shí)現(xiàn)以上的語音識別和合成邏輯(未示出)，從而從用戶的口語話語提取含義，并且直接產(chǎn)生文本的聲學(xué)演繹。驗證系統(tǒng)能夠根據(jù)期望的鑒權(quán)方法來被鏈接到電話接口201、ASR209或這兩個組件。因此，驗證系統(tǒng)207需要用戶名、密碼、代碼或其它唯一身份識別以用于限制對話音瀏覽器205的訪問。以這種方式，需要用戶使用通過ASR209所傳送的口語話語或經(jīng)由電話接口201所傳送的DTMF信號來提供該信息。可替換地，通過基于從電話接口201所傳送的用戶的聲印來肯定地識別并且篩選用戶，驗證系統(tǒng)207能夠提供無侵入安全級別。因此，在任意一個實(shí)施例中，驗證系統(tǒng)207能夠保持敏感事務(wù)安全。話音瀏覽器205例如在呼叫和各種網(wǎng)絡(luò)應(yīng)用之間起網(wǎng)關(guān)作用。話音瀏覽器205能夠使用麥克風(fēng)、小鍵盤和揚(yáng)聲器，而不是常規(guī)基于網(wǎng)絡(luò)的系統(tǒng)的鍵盤、鼠標(biāo)和監(jiān)視器。話音瀏覽器205處理駐留在服務(wù)器(未示出)上的諸如話音擴(kuò)展標(biāo)記語言(VoiceXML)、語音應(yīng)用語言表標(biāo)簽(SALT)、超文本標(biāo)記語言(HTML)之類的標(biāo)記語言頁、以及其它，諸如用于基于無線應(yīng)用協(xié)議(WAP)的小區(qū)電話應(yīng)用的無線標(biāo)記語言(WML)和用于手持設(shè)備的萬維網(wǎng)(W3)平臺。由于支持了寬泛級別的標(biāo)記語言，因此能夠?qū)⒃捯魹g覽器205配置為包括VoiceXML兼容的瀏覽器、SALT兼容的瀏覽器、HTML兼容的瀏覽器、WML兼容的瀏覽器或任意其它標(biāo)記語言兼容的瀏覽器，用于與用戶進(jìn)行通信。正如標(biāo)準(zhǔn)網(wǎng)頁服務(wù)和應(yīng)用一樣，話音瀏覽器205能夠利用標(biāo)準(zhǔn)化的網(wǎng)絡(luò)基礎(chǔ)設(shè)施，艮卩，超文本傳輸協(xié)議(HTTP)、cookies、網(wǎng)頁緩存、統(tǒng)一資源定位(URL)、安全HTTP等，用以建立并且保持連接。圖3是根據(jù)本發(fā)明實(shí)施例的語音識別系統(tǒng)的示圖。語音識別系統(tǒng)101能夠提供來自用戶的依賴和/或獨(dú)立于揚(yáng)聲器聲音話語的自動話音識別。因此，語音識別系統(tǒng)101處理通過電話網(wǎng)絡(luò)111所傳送的話音通信，用以確定字或語音模式是否與數(shù)據(jù)庫(例如，名字語法數(shù)據(jù)庫103或信任度數(shù)據(jù)庫105)內(nèi)所存儲的任何語法或詞匯匹配。名字語法數(shù)據(jù)庫103由用戶名字和那些名字的拼寫的可能組合構(gòu)成。根據(jù)本發(fā)明的一個實(shí)施例，能夠根據(jù)NUANCE說和拼寫名字語法來創(chuàng)建名字語法數(shù)據(jù)庫103。在可選實(shí)施例中，數(shù)據(jù)庫103能夠包括任何包含名字和那些名字的拼寫的語法數(shù)據(jù)庫、以及辭典數(shù)據(jù)庫、另一個語法數(shù)據(jù)庫、聲學(xué)模型數(shù)據(jù)庫和/或自然語言定義數(shù)據(jù)庫。辭典數(shù)據(jù)庫包含用于語法數(shù)據(jù)庫中所使用的字的語音發(fā)音。除此以外，聲學(xué)模型數(shù)據(jù)庫定義語音應(yīng)用利用的語言。此外，盡管僅示出了一個名字語法數(shù)據(jù)庫103和一個信任度數(shù)據(jù)庫，但是要認(rèn)識到的是，可以存在多個數(shù)據(jù)庫例如由數(shù)據(jù)庫管理系統(tǒng)(未示出)來控制。在數(shù)據(jù)庫管理系統(tǒng)中，數(shù)據(jù)被存儲在一個或多個數(shù)據(jù)容器中，每個容器包含記錄，并且每個記錄內(nèi)的數(shù)據(jù)被組織為一個或多個字段。在關(guān)系數(shù)據(jù)庫系統(tǒng)中，數(shù)據(jù)容器被稱為表，記錄被稱為行，并且字段被稱為列。在面向?qū)ο蟮臄?shù)據(jù)庫中，數(shù)據(jù)容器被稱為對象類，記錄被稱為對象，并且字段被稱為屬性。如圖3中所看到的，結(jié)合名字語法數(shù)據(jù)庫103來使用被表示為"信任度數(shù)據(jù)庫"的補(bǔ)充語法數(shù)據(jù)庫105，用以產(chǎn)生用戶名字的準(zhǔn)確識別。在示例性實(shí)施例中，能夠從主要名字語法數(shù)據(jù)庫103得到信任度數(shù)據(jù)庫105，諸如N-最佳列表(其中N是能夠根據(jù)特定應(yīng)用來設(shè)置的整數(shù))。N-最佳結(jié)果能夠包括可能提高識別的期望的名字結(jié)果。換言之，N-最佳結(jié)果是從與呼叫者的話語良好相關(guān)的語法所返回的項的列表。通過匹配的可能性來分類N-最佳列表，并且N-最佳列表包括一個或多個條目。在該過程中，正確的名字被添加到該N-最佳補(bǔ)充語法。根據(jù)一個實(shí)施例，不存在給予該補(bǔ)充名字語法中任意項的加權(quán)或偏好。該包含偽名(decoy)和正確名字的全名語法的較小子集將允許對呼叫者名字的更好識別。根據(jù)本發(fā)明的一個實(shí)施例，能夠動態(tài)地創(chuàng)建該補(bǔ)充語法數(shù)據(jù)庫。根據(jù)示例性實(shí)施例，利用偽名應(yīng)用311來在N-最佳列表內(nèi)生成名字的變化，用以提高識別的可能性。將可能包括正確名字的這些生成的名字作為附加條目提供到信任度數(shù)據(jù)庫105中。將語音識別系統(tǒng)101配置為處理聲音話語，用以確定字或語音模式是否與名字語法數(shù)據(jù)庫103和/或信任度數(shù)據(jù)庫105中所存儲的任何名字匹配。當(dāng)針對話音通信的特定話語(或話語集)識別為匹配時，語音識別系統(tǒng)101通過驗證系統(tǒng)207和/或話音瀏覽器發(fā)送用于實(shí)現(xiàn)的輸出信號。因此，認(rèn)為語音識別系統(tǒng)101能夠包括依賴于和/或獨(dú)立于揚(yáng)聲器的話音識別。另外，能夠由能夠檢測并且將話音通信轉(zhuǎn)換為文本或其它等價符號表示的適當(dāng)話音識別系統(tǒng)來實(shí)現(xiàn)語音識別系統(tǒng)101。比如，語音識別系統(tǒng)101包括用于數(shù)字化音頻輸入(例如，語音)的數(shù)字轉(zhuǎn)換器301、解析模塊303和邊緣比較模塊305、以及信任度值生成器307和解釋生成器309。此外，語音識別系統(tǒng)101使用名字語法數(shù)據(jù)庫103、信任度105來幫助更準(zhǔn)確識別用戶名字；針于圖4A和4B來更充分地描述該過程。在操作中，數(shù)字轉(zhuǎn)換器301從電話接口201接受聲學(xué)或音頻信號(即，用戶話語)，并且通過模擬到數(shù)字轉(zhuǎn)換器將它們轉(zhuǎn)換為數(shù)字信號。一旦被數(shù)字化，使用己知方法，例如離散/快速/短時形式的傅里葉變換等，將該信號轉(zhuǎn)換為頻域，并且將該信號與頻譜幀組合用于進(jìn)一步處理。由于人耳僅能夠感知從20Hz到20kHz范圍的可聽聲音，并且由于人聲典型地僅產(chǎn)生500Hz到2kHz范圍的話語，所以能夠優(yōu)化數(shù)字轉(zhuǎn)換器301以在這些范圍內(nèi)操作。注意，數(shù)字轉(zhuǎn)換器301能夠包括信號處理組件的主機(jī)，即，濾波器、放大器、調(diào)制器、壓縮器、誤差檢測器/檢驗器等，用于調(diào)節(jié)該信號，例如，移除如環(huán)境噪聲的信號噪聲、消除傳輸回波等。在數(shù)字轉(zhuǎn)換器301處理模擬信號之后，將相應(yīng)的數(shù)字信號傳遞到解析模塊303，用于使用已知的方法，例如，線性預(yù)測編碼來提取聲學(xué)參數(shù)。例如，解析模塊303能夠識別聲學(xué)特征向量，其包括識別用戶話語的語音分類和字邊界的聲譜系數(shù)。要認(rèn)識到，能夠使用其它常規(guī)建模技術(shù)來提取分類數(shù)字信號的獨(dú)特聲音部分的一個或多個特性和/或模式。一旦被解析，由解析模塊303所定義的各種聲音特征被輸入到邊緣比較模塊309，用于與識別的字相比較以及被識別為識別的字，所述識別的字即用戶的名、中間名和/或姓。因此，邊緣比較模塊305能夠使用任意已知的語音識別方法和/或算法，例如，隱藏式馬可夫模型(HMM)，以及名字語法數(shù)據(jù)庫103和信任度數(shù)據(jù)庫105來將用戶話語識別為字。在識別字以后，解釋生成器309將關(guān)聯(lián)的等價文本或符號表示(下文中全部被稱為"值")傳遞到話音瀏覽器205和/或驗證系統(tǒng)207，用于適當(dāng)?shù)奶幚?。一般說來，語法數(shù)據(jù)庫存儲特定語音應(yīng)用有效接受的用戶話語的所有可能的組合和關(guān)聯(lián)值。通過示例的方法，能夠如下定義被表示為"YESNOGRAMMAR"的簡單語法Y廠:爆)(;RAMMAR,在這個示例中，語法的內(nèi)容被包含在[]括號內(nèi)。邊緣比較模塊305使用()括號內(nèi)的項用于與從用戶話語所提取的聲學(xué)特征比較。當(dāng)聲學(xué)特征類似地與()括號內(nèi)的項比較時，包含在{}括號內(nèi)的值被傳遞到解釋生成器309。邊緣比較模塊305利用信任度值生成器307來確定測量被識別的話語與語法數(shù)據(jù)庫內(nèi)的項值的相互關(guān)系的信任度級別。高信任度值意指被識別的話語和語法數(shù)據(jù)庫內(nèi)的項的值之間具有較大的相似度。相反地，低信任度值意指較弱的相似度。在話語不被識別的情況中，艮P，信任度值生成器307感知與語法內(nèi)的任何項都沒有相似度，邊緣比較模塊將產(chǎn)生"語法以外"狀態(tài)，并且需要用戶重新輸入他們的話語。使用以上所定義的簡單YESNOGRAMMAR，下面解釋示例性語音識別過程。首先，IVR系統(tǒng)107詢問用戶問題，"你去過科羅拉多嗎？"如果用戶回答"是"，則語音識別系統(tǒng)101識別該話語并且向解釋生成器309傳遞"真"結(jié)果，用于向例如話音瀏覽器205之類的適當(dāng)?shù)脑O(shè)備輸出，用于系統(tǒng)處理。而如果用戶回答"可能"，則話語不能與語法YESNOGRAMMAR內(nèi)的"是"或"否"值比較。比如，會出現(xiàn)無識別情況，并且邊緣比較模塊會產(chǎn)生"語法以外"狀態(tài)，并且需要用戶重新輸入他們的話語。在這點(diǎn)上，語法被用以將用戶限制為那些在語法內(nèi)所定義的值，即，期望的話語。例如，如果要求用戶說出數(shù)字標(biāo)識符，諸如，社會安全號碼(SSN)，則由于沒有SSN以8或9幵始，所以語法會將第一個數(shù)字限制為0到7的數(shù)字。因此，如果用戶說出以8開始的SSN，當(dāng)語音識別系統(tǒng)101分析該話語并且與限制的語法來比較時，結(jié)果將不可避免的是"語法以外"狀態(tài)。不幸的是，用戶話語不能總是"被分類"為期望的話語。例如，利用以上YESNOGRAMMAR語法的語音識別系統(tǒng)101不會識別代替"是"的等同于"肯定"的口語或代替"否"的等同于"否定"的口語的用戶話語。然而，嘗試為期望話語提供每個可能的替換話語是不實(shí)際的，尤其當(dāng)期望話語的復(fù)雜度增加的時候。隨著對固有名詞，或更具體地，對用戶名字的語音識別，出現(xiàn)了這種不實(shí)際性的銳子集(acutesubset)。標(biāo)題為SURNAME的簡單名字語法能夠被如下定義SURNAMES在這個示例中，名字，即語法值，包括名字和該名字的拼寫。由于存在幾乎無窮的用戶名字的陣列，所以典型的名字語法僅包含很大比率的可能名字。另外，在名字語法內(nèi)所存儲的那些名字典型地被安排或另外被"調(diào)音"以說明(accountfor)名字通用性。盡管這些特征最小化了系統(tǒng)資源淹覆(overwhelming)，并且提供用于常用名字的"良好"覆蓋范圍，但是說出那些不在語法內(nèi)的特有名字的用戶將最終產(chǎn)生"語法以外"狀態(tài)。此外，由于語音的類似性和名字語法的"調(diào)音"性質(zhì)，利用常用名字的不常用發(fā)音的用戶，例如"Whyte"(white、vliite)(bri打〗！nbi'im(cagecage)〖(Jr"、gfrmihngfnrd)而不是"White",將呈現(xiàn)錯誤的名字。這就是語音識別系統(tǒng)101設(shè)法解決的不實(shí)際性。接下來描述語音識別系統(tǒng)101的操作。圖4是根據(jù)本發(fā)明實(shí)施例的語音識別過程的流程圖。在步驟401中，從用戶接收數(shù)據(jù)(例如，賬號信息、社會安全號碼或其它個性化信息)作為例如應(yīng)用的一部分或IVR系統(tǒng)107的呼叫流程。通過更容易可識別數(shù)據(jù)的使用，諸如，賬號或社會安全號碼，經(jīng)步驟403，能夠獲取與賬號相關(guān)聯(lián)的名字。接下來，如步驟405中，詢問用戶的名字。請求用戶說出和拼寫該名字。在步驟407中，接收來自用戶的響應(yīng)于名字詢問的生成的音頻輸入。如步驟409中，該過程隨后使用主要名字語法數(shù)據(jù)庫，諸如名字語法數(shù)據(jù)庫I03，將語音識別應(yīng)用于音頻輸入。經(jīng)步驟411確定是否存在語法以外的狀態(tài)。如果這種狀態(tài)發(fā)生，則如步驟413中，重新詢問用戶的名字。這時，該過程應(yīng)用高信任度數(shù)據(jù)庫，以輸出被識別的名字(步驟415)。即，該過程利用高信任度的第二名字語法數(shù)據(jù)庫(例如，信任度數(shù)據(jù)庫105)來輸出最后被識別的名字。在一個實(shí)施例中，將來自N-最佳列表的名字與賬號或社會安全號碼相關(guān)聯(lián)的名字相組合，以生成補(bǔ)充名字語法；該過程能夠被動態(tài)地執(zhí)行。類似于實(shí)際名字的偽名名字也能夠被添加到該補(bǔ)充名字語法。能夠根據(jù)應(yīng)用來預(yù)定義或預(yù)先設(shè)置信任度級別一一即，"高"。此后，經(jīng)步驟417，該過程確定被識別的名字是否與獲取的名字匹配(如步驟403中所獲得的)。如果存在匹配，則經(jīng)步驟421與用戶確認(rèn)最后被識別的名字。為了確認(rèn)，例如，該過程能夠提供簡單的詢問，如下"我聽到了<名字>。那是正確的嗎？"如果不匹配，如經(jīng)步驟419所確定的，則語音識別過程與用戶確認(rèn)最后被識別的名字，并且重新評估名字措詞(步驟423)。為了確認(rèn)，例如，該過程能夠提供更直接的詢問，如下"我聽到了<名字>。你確定那是該賬號的名字嗎？"根據(jù)一個實(shí)施例，為了安全的目的，不向呼叫者透露期望的結(jié)果;呼叫者必須說出期望的結(jié)果并且確認(rèn)。如果名字是不正確的，如步驟425中所確定的，則該過程返回步驟413來重新詢問該用戶。該過程能夠被重復(fù)任意次數(shù)(例如，3次)；g卩，重復(fù)的數(shù)目是可配置的。如果用戶超過了重試的最大數(shù)目，則呼叫能夠以失敗事件來結(jié)束。當(dāng)承認(rèn)名字是正確的時，該過程結(jié)束。為了說明的目的，現(xiàn)在針于三個場景來解釋該語音識別過程，該三個場景與使用SSN作為個性化信息的用于報告薪水的應(yīng)用相關(guān)。第一個場景涉及僅使用主要名字語法數(shù)據(jù)庫103，而不需要利用信任度數(shù)據(jù)庫105(表1)。第二個場景描述了其中需要補(bǔ)充語法數(shù)據(jù)庫，例如，信任度數(shù)據(jù)庫105，的情況(表2)。如表3中所示，最后一個場景示出失敗的狀態(tài)。<table>tableseeoriginaldocumentpage18</column></row><table><table>tableseeoriginaldocumentpage19</column></row><table><table>tableseeoriginaldocumentpage20</column></row><table>表3因此，圖4A和圖4B的語音識別過程能夠被用以改進(jìn)常規(guī)的語音識別說出和拼寫名字捕捉。該方法允許使用另一條信息或數(shù)據(jù)組合，諸如，生日日期和賬號或社會安全號碼，來獲得用戶的或呼叫者的名字。可以在補(bǔ)充名字語法中獲得并且使用該實(shí)際的名字，用以幫助識別呼叫者的名字。這里所描述的用于提供語音識別的過程可以經(jīng)由軟件、硬件(例如，通用處理器、數(shù)字信號處理(DSP)芯片、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)等)、固件或其組合來實(shí)現(xiàn)。以下描述這種用于執(zhí)行所描述的功能的示例性硬件。圖5圖示了其上能夠?qū)崿F(xiàn)根據(jù)本發(fā)明的實(shí)施例的計算機(jī)系統(tǒng)500。例如，能夠使用計算機(jī)系統(tǒng)500來實(shí)現(xiàn)這里所描述的過程。計算機(jī)系統(tǒng)500包括用于傳送信息的總線501或其它通信機(jī)制，和被耦合到總線501的用于處理信息的處理器503。計算機(jī)系統(tǒng)500也包括被耦合到總線501的用于存儲要由處理器503執(zhí)行的信息和指令的主存儲器505，諸如隨機(jī)訪問存儲器(RAM)或其它動態(tài)儲存設(shè)備。主存儲器505也能夠被用于在由處理器503執(zhí)行指令期間存儲臨時變量或其它中間信息。計算機(jī)系統(tǒng)500可以進(jìn)一步包括被耦合到總線501的用于存儲用于處理器503的靜態(tài)信息和指令的只讀存儲器(ROM)507或其它靜態(tài)存儲設(shè)備。諸如磁盤或光盤之類的存儲設(shè)備509被耦合到總線501，用于持續(xù)地存儲信息和指令。計算機(jī)系統(tǒng)500可以經(jīng)由總線501被耦合到顯示器511，諸如陰極射線管(CRT)、液晶顯示器、主動矩陣顯示器或等離子顯示器，以向計算機(jī)用戶顯示信息。諸如包括字母數(shù)字和其它鍵的鍵盤的輸入設(shè)備513被耦合到總線501，以向處理器503傳送信息和命令選擇。另一類型的用戶輸入設(shè)備是光標(biāo)控制515，諸如鼠標(biāo)、跟蹤球或光標(biāo)方向鍵，以向處理器503傳送方向信息和命令選擇以及控制顯示器511上的光標(biāo)移動。根據(jù)本發(fā)明的一個實(shí)施例，響應(yīng)于處理器503執(zhí)行主存儲器505中所包含的指令的安排，由計算機(jī)系統(tǒng)500來執(zhí)行這里所描述的過程。能夠?qū)⑦@種指令從諸如存儲設(shè)備509的另一個計算機(jī)可讀取介質(zhì)讀入到主存儲器505。包含在主存儲器505中的指令安排的執(zhí)行使得處理器503執(zhí)行這里所描述的處理步驟。也可以使用多處理安排中的一個或多中的命令。在可選實(shí)施例中，作為軟件指令的替代或與軟件指令相結(jié)合的硬接線電路可以被用來實(shí)現(xiàn)本發(fā)明的實(shí)施例。因此，本發(fā)明的實(shí)施例不限于硬件電路和軟件的任何具體組合。計算機(jī)系統(tǒng)500也包括被耦合到總線501的通信接口517。通信接口517耦合到網(wǎng)絡(luò)鏈路519，提供雙向數(shù)據(jù)通信，其中網(wǎng)絡(luò)鏈路519被連接到本地網(wǎng)絡(luò)521。例如，通信接口517可以是數(shù)字訂戶線(DSL)卡或調(diào)制解調(diào)器、綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)卡、有線電視電纜調(diào)制解調(diào)器、電話調(diào)制解調(diào)器或者任意其它通信接口，以向相應(yīng)類型的通信線提供數(shù)據(jù)通信連接。如另一個示例，通信接口517可以是本地局域網(wǎng)(LAN)卡(例如，用于以太網(wǎng)TM或異步傳輸模式(ATM)網(wǎng)絡(luò))，以向兼容LAN提供數(shù)據(jù)通信連接。也能夠?qū)崿F(xiàn)無線鏈接。在任意這種實(shí)現(xiàn)中，通信接口517發(fā)送并且接收承載表示各種類型信息的數(shù)字?jǐn)?shù)據(jù)流的電、電磁或光信號。另外，通信接口517能夠包括外圍接口設(shè)備，諸如通用串行總線(USB)接口、PCMCIA(個人計算機(jī)存儲卡國際協(xié)會)接口等。雖然圖5中描述了單一通信接口517,但是也能夠使用多個通信接口。網(wǎng)絡(luò)連接519典型地通過一個或多個網(wǎng)絡(luò)向其它數(shù)據(jù)設(shè)備提供數(shù)據(jù)通信。例如，網(wǎng)絡(luò)鏈路519可以通過本地網(wǎng)絡(luò)521向主機(jī)計算機(jī)523提供連接，其具有到網(wǎng)絡(luò)525(例如，廣域網(wǎng)(WAN)或現(xiàn)在被普遍稱為"因特網(wǎng)"的全球分組數(shù)據(jù)通信網(wǎng)絡(luò))或到由服務(wù)提供商操作的數(shù)據(jù)設(shè)備的連接性。本地網(wǎng)絡(luò)521和網(wǎng)絡(luò)525二者使用電、電磁或光信號來傳達(dá)信息和指令。通過各種網(wǎng)絡(luò)的信號和在網(wǎng)絡(luò)鏈路519上并且通過與計算機(jī)系統(tǒng)500傳送數(shù)字?jǐn)?shù)據(jù)的通信接口517的信號是承載信息和指令的載波波形的示例性形式。計算機(jī)系統(tǒng)500能夠通過網(wǎng)絡(luò)(多個網(wǎng)絡(luò))、網(wǎng)絡(luò)鏈路519和通信接口517來發(fā)送消息并且接收包括程序代碼的數(shù)據(jù)。在因特網(wǎng)的示例中，服務(wù)器(未示出)可能通過網(wǎng)絡(luò)525、本地網(wǎng)絡(luò)521和通信接口517來發(fā)送屬于實(shí)現(xiàn)本發(fā)明實(shí)施例的應(yīng)用程序的請求代碼。處理器503可以執(zhí)行正在被接收的同時所發(fā)送的代碼和/或在存儲設(shè)備509或其它非易失性存儲器中存儲的代碼，用于稍后的執(zhí)行。以這種方法，計算機(jī)系統(tǒng)500可以以載波波形的形式獲得應(yīng)用代碼。如這里所使用的術(shù)語"計算機(jī)可讀取介質(zhì)"指的是參與向處理器503提供用于執(zhí)行的指令的任意介質(zhì)。這種介質(zhì)可以表示為很多形式，包括但不限于非易失性介質(zhì)、易失性介質(zhì)和傳輸介質(zhì)。非易失性介質(zhì)包括，例如，光盤或磁盤、諸如存儲設(shè)備509。易失性介質(zhì)包括動態(tài)存儲器，諸如主存儲器505。傳輸介質(zhì)包括同軸電纜、銅電線和光纖，包括組成總線501的電線。傳送介質(zhì)也能夠表示為聲波、光波或電磁波的形式，諸如那些在無線電頻率和紅外線數(shù)據(jù)通信期間所生成的。計算機(jī)可讀取介質(zhì)的常用形式包括，例如，軟盤、可折疊磁盤、硬盤、磁帶、任意其它磁介質(zhì)、CD-ROM、CDRW、DVD、任意其它光介質(zhì)、穿孔卡、紙帶、光標(biāo)示表單、具有孔或其它光學(xué)可識別標(biāo)記的圖案的任意其它物理介質(zhì)、RAM、PROM以及EPROM、FLASH-EPROM、任意其它存儲芯片或盒帶、載波波形、或從其計算能夠讀取的其它任意介質(zhì)。各種形式的計算機(jī)可讀取介質(zhì)都涉及向處理器提供用于執(zhí)行的指令。例如，用于實(shí)現(xiàn)本發(fā)明的至少一部分的指令可以最初地承載(bear)在遠(yuǎn)程計算機(jī)的磁盤上。在這種情形中，遠(yuǎn)程計算機(jī)將指令裝載到主存儲器中，并且使用調(diào)制解調(diào)器通過電話線來發(fā)送該指令。本地計算機(jī)系統(tǒng)的調(diào)制解調(diào)器接收電話線上的數(shù)據(jù)，并且使用紅外發(fā)射器來將數(shù)據(jù)轉(zhuǎn)換為紅外信號，并且將紅外信號發(fā)射到便攜式計算設(shè)備，諸如個人數(shù)字助理(PDA)或膝上型電腦。便攜式計算設(shè)備上的紅外檢測器接收由紅外信號所承載的信息和指令，并且將數(shù)據(jù)置于總線上?？偩€向主存儲器傳達(dá)數(shù)據(jù)，處理器從該主存儲器檢索并且執(zhí)行指令。在由處理器執(zhí)行之前或之后，由主存儲器所接收到的指令能夠可選地被存儲在存儲設(shè)備上。在前面的說明書中，已經(jīng)參考附圖描述了各種優(yōu)選實(shí)施例。然而，顯然在不背離下面權(quán)利要求中所闡述的本發(fā)明的廣泛范圍的情況下，可以對其作出各種修改和變化，并且可以實(shí)現(xiàn)附加實(shí)施例。因此，本說明書和附圖被認(rèn)為是說明性的而不是限制性的意思。權(quán)利要求1.一種方法，包括基于由用戶提供的數(shù)據(jù)來從所述用戶獲取名字；向所述用戶詢問所述用戶的名字；接收來自所述用戶的響應(yīng)于所述詢問的第一音頻輸入；使用名字語法數(shù)據(jù)庫將語音識別應(yīng)用于所述第一音頻輸入，以輸出被識別的名字；確定所述被識別的名字是否與所述被獲取的名字匹配；如果確定沒有匹配，則向所述用戶重新詢問所述用戶的名字；接收來自所述用戶的響應(yīng)于所述重新詢問的第二音頻輸入；以及使用具有少于所述名字語法數(shù)據(jù)庫的條目的信任度數(shù)據(jù)庫將語音識別應(yīng)用于所述第二語音輸入。2.根據(jù)權(quán)利要求l所述的方法，進(jìn)一步包括向所述用戶詢問所述數(shù)據(jù)，其中，所述數(shù)據(jù)包括業(yè)務(wù)信息或個人信息中的一個。3.根據(jù)權(quán)利要求l所述的方法，進(jìn)一步包括-與所述用戶確認(rèn)所述被識別的名字。4.根據(jù)權(quán)利要求3所述的方法，其中，通過向所述用戶聽覺地提供所述被識別的名字來執(zhí)行所述確認(rèn)。5.根據(jù)權(quán)利要求l所述的方法，進(jìn)一步包括如果在預(yù)定數(shù)目的重復(fù)重新詢問所述用戶名字之后沒有找到與所述被獲取的名字的匹配，則確定失敗狀態(tài)。6.根據(jù)權(quán)利要求l所述的方法，其中，所述信任度數(shù)據(jù)庫具有從所述名字語法數(shù)據(jù)庫得到的條目，通過信任度級別來分級所述條目。7.根據(jù)權(quán)利要求6所述的方法，進(jìn)一步包括使用偽名應(yīng)用來確定用于所述信任度數(shù)據(jù)庫的附加條目。8.根據(jù)權(quán)利要求l所述的方法，進(jìn)一步包括確定所述被獲取的名字和與所述第一音頻輸入或所述第二音頻輸入相關(guān)聯(lián)的所述被識別的名字之間的比較的信任度級別。9.一種裝置，包括語音識別邏輯，被配置為從用戶接收第一音頻輸入，其中所述第一音頻輸入表示由所述用戶響應(yīng)于詢問而提供的說出的名字；其中被獲取的所述用戶的名字是基于由所述用戶提供的數(shù)據(jù)而預(yù)先獲取的；所述語音識別邏輯進(jìn)一步被配置為使用名字語法數(shù)據(jù)庫將語音識別應(yīng)用于所述第一音頻輸入，以輸出被識別的名字，并且用以確定所述被識別的名字是否與所述被獲取的名字匹配，其中，向所述用戶重新詢問所述用戶說出的名字，以用于第二音頻輸入，如果確定沒有匹配，則所述語音識別邏輯進(jìn)一步使用具有少于所述名字語法數(shù)據(jù)庫的條目的信任度數(shù)據(jù)庫來將語音識別應(yīng)用于所述第二音頻輸入。10.根據(jù)權(quán)利要求9所述的裝置，其中，向所述用戶詢問所述數(shù)據(jù)，并且所述數(shù)據(jù)包括業(yè)務(wù)信息或個人信息中的一個。11.根據(jù)權(quán)利要求9所述的裝置，其中，與所述用戶確認(rèn)所述被識別的名字。12.根據(jù)權(quán)利要求ll所述的裝置，其中，通過向所述用戶聽覺地提供所述被識別的名字來執(zhí)行所述確認(rèn)。13.根據(jù)權(quán)利要求9所述的裝置，其中，所述語音識別進(jìn)一步被配置為如果在預(yù)定數(shù)目的重復(fù)重新詢問所述用戶名字之后沒有找到與所述被獲取的名字的匹配，則確定失敗狀態(tài)。14.根據(jù)權(quán)利要求9所述的裝置，其中，所述信任度數(shù)據(jù)庫具有從所述名字語法數(shù)據(jù)庫得到的條目，通過信任度級別來分級所述條目。15.根據(jù)權(quán)利要求14所述的裝置，其中，使用偽名應(yīng)用來確定用于所述信任度數(shù)據(jù)庫的附加條目。16.根據(jù)權(quán)利要求9所述的裝置，其中，所述語音識別邏輯進(jìn)一步被配置為確定所述被獲取的名字和與所述第一音頻輸入或所述第二音頻輸入相關(guān)聯(lián)的所述被識別的名字之間的比較的信任度級別。17.—種系統(tǒng)，包括話音應(yīng)答單元，被配置為基于由所述用戶提供的數(shù)據(jù)來從所述用戶獲取名字，并且向所述用戶詢問所述用戶的名字；以及語音識別邏輯，被配置為接收來自所述用戶的響應(yīng)于所述詢問的第一音頻輸入；并且使用名字語法數(shù)據(jù)庫將語音識別應(yīng)用于所述第一音頻輸入，以輸出被識別的名字；所述語音識別邏輯進(jìn)一步被配置為確定所述被識別的名字是否與所述被獲取的名字匹配；其中，如果確定沒有匹配，則所述話音應(yīng)答單元進(jìn)一步被配置為向所述用戶重新詢問所述用戶的名字，以用于第二音頻輸入，其中，所述語音識別邏輯進(jìn)一步被配置為使用具有少于所述名字語法數(shù)據(jù)庫的條目的信任度數(shù)據(jù)庫將語音識別應(yīng)用于所述第二音頻輸入。18.根據(jù)權(quán)利要求17所述的系統(tǒng)，其中，所述話音應(yīng)答單元進(jìn)一步被配置為向所述用戶詢問所述數(shù)據(jù)，其中所述數(shù)據(jù)包括業(yè)務(wù)信息或個人信息中的一個。19.根據(jù)權(quán)利要求17所述的系統(tǒng)，其中，與所述用戶確認(rèn)所述被識別的名字。20.根據(jù)權(quán)利要求19所述的系統(tǒng)，其中，通過向所述用戶聽覺地提供所述被識別的名字來執(zhí)行所述確認(rèn)。21.根據(jù)權(quán)利要求17所述的系統(tǒng)，其中，所述語音識別邏輯進(jìn)一步被配置為如果在預(yù)定數(shù)目的重復(fù)重新詢問所述用戶名字之后沒有找到與所述被獲取的名字的匹配，則確定失敗狀態(tài)。22.根據(jù)權(quán)利要求17所述的系統(tǒng)，其中，所述信任度數(shù)據(jù)庫具有從所述名字語法數(shù)據(jù)庫得到的條目，通過信任度級別來分級所述條目。23.根據(jù)權(quán)利要求22所述的系統(tǒng)，其中，使用偽名應(yīng)用來確定用于所述信任度數(shù)據(jù)庫的附加條目。24.根據(jù)權(quán)利要求17所述的系統(tǒng)，其中，所述語音識別邏輯進(jìn)一步被配置為確定所述被獲取的名字和與所述第一音頻輸入或所述第二音頻輸入相關(guān)聯(lián)的所述被識別的名字之間的比較的信任度級別。全文摘要公開了一種用于提供語音識別的方法?；谟捎脩羲峁┑臄?shù)據(jù)來從用戶獲取名字。向用戶詢問用戶的名字。接收來自用戶的響應(yīng)于該詢問的第一音頻輸入。使用名字語法數(shù)據(jù)庫將語音識別應(yīng)用于第一音頻輸入，以輸出被識別的名字。確定該被識別的名字是否與所獲取的名字匹配。如果確定沒有匹配，則向用戶重新詢問用戶的名字，以用于第二音頻輸入。使用具有少于名字語法數(shù)據(jù)庫的條目的信任度數(shù)據(jù)庫將語音識別應(yīng)用于第二音頻輸入。文檔編號G10L15/00GK101542591SQ200780043145公開日2009年9月23日申請日期2007年9月25日優(yōu)先權(quán)日2006年9月25日發(fā)明者戴維·桑內(nèi)魯?shù)律暾埲?維里遜商務(wù)網(wǎng)絡(luò)服務(wù)有限公司

完整全部詳細(xì)技術(shù)資料下載