專利名稱:集成語音對話系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于實現(xiàn)人聲和計算機(jī)系統(tǒng)之間交互的語音對話系統(tǒng)。具體而言,本發(fā)明涉及一種高集成度的多組件語音對話系統(tǒng),該系統(tǒng)很大程度上獨立于實際平臺。
背景技術(shù):
人聲很可能被認(rèn)為是最為自然和舒適的人機(jī)界面。由此,語音輸入具有不用手操作的優(yōu)點,例如,為行動不便用戶提供訪問方式、且也可避免學(xué)習(xí)抽象的計算機(jī)語法。因此,長久以來,計算機(jī)用戶都期望一種可由語音操作的軟件應(yīng)用程序。
特別地,由于計算機(jī)性能近些年來的發(fā)展,例如一方面關(guān)于計算功能和內(nèi)存的發(fā)展,另一方面關(guān)于理論上的語音分析,語音對話系統(tǒng)的發(fā)展已經(jīng)相當(dāng)先進(jìn)。語音對話系統(tǒng)被包括在輸入、輸出和處理語音、聲音、字符、數(shù)字、圖形、圖像等的多媒體系統(tǒng)中。
用于計算機(jī)操作的語音語言輸入的基本元素為語音識別,即,將語音信號轉(zhuǎn)換為相應(yīng)的文字集的表示方法。經(jīng)識別的詞語和句子可以是作為例如命令和數(shù)據(jù)輸入的實施的最終結(jié)果,或者可作為進(jìn)一步語音處理的數(shù)據(jù)。已經(jīng)從單個文字識別發(fā)展到了利用統(tǒng)計語言模型進(jìn)行的連續(xù)文字識別。
對于語音對話系統(tǒng)的輸出任務(wù)來說,已經(jīng)從直接的文字到語音的對話系統(tǒng)發(fā)展到了考慮單個語調(diào)的精細(xì)語音合成裝置。
常規(guī)語音對話系統(tǒng)已經(jīng)被設(shè)計為單獨開發(fā)的例如語音識別和語音合成的組件的簡單組合。另外,在某種程度上,由于這些組件的低集成度,現(xiàn)有語音對話系統(tǒng)限制于特定的平臺,并且具有所不期望的多種不同接口。
例如,由微軟公司提供的語音應(yīng)用程序接口(SAPI)限于微軟操作系統(tǒng)。另一種可替換的開發(fā)產(chǎn)品JAVA SAPI允許程序員忽略與平臺相關(guān)的問題,例如,記錄語音的音頻和識別器指示并且提供了在多平臺上的語音識別,但所有這些僅在特定語音服務(wù)器運行在后臺上時起作用。其中不包括通過某種參數(shù)相關(guān)性控制操作的組件。
由此,本發(fā)明的根本問題是提供一種克服現(xiàn)有技術(shù)的缺點的語音對話系統(tǒng),特別地,該系統(tǒng)表現(xiàn)出較高的便攜性和多組件的集成度。同時,理想的系統(tǒng)應(yīng)該表現(xiàn)出較高程度的功能擴(kuò)展性和對目標(biāo)系統(tǒng)的簡單連接性。
發(fā)明內(nèi)容
可通過根據(jù)權(quán)利要求1所述的語音對話系統(tǒng)和根據(jù)權(quán)利要求9所述的用于運行語音對話系統(tǒng)的方法解決上述問題。如權(quán)利要求1所提供的語音對話系統(tǒng)包括用于控制語音對話系統(tǒng)的語音應(yīng)用程序管理器;至少兩個服務(wù)組件,具體來說,配置以識別語音的語音識別裝置;消息路由器,用于在該至少兩個服務(wù)組件彼此之間以及該至少兩個服務(wù)組件和該語音應(yīng)用程序管理器之間提供數(shù)據(jù)交換;平臺抽象層,其將該語音對話系統(tǒng)連接到任意硬件平臺和/或任意操作系統(tǒng)和/或至少一個任意的設(shè)備驅(qū)動程序。
語音應(yīng)用程序管理器(SAM)為語音對話系統(tǒng)的主控制單元,并且包括服務(wù)記錄,該服務(wù)記錄包括關(guān)于所使用的服務(wù)的操作的信息。特別地,SAM控制所有注冊的服務(wù)的啟動和關(guān)閉的相配合的操作。
語音對話系統(tǒng)的服務(wù)被分為數(shù)個單元或組件。一種語音或人聲識別裝置代表了通過用戶語言經(jīng)由該語音識別系統(tǒng)控制某些應(yīng)用程序所必需的主要組件。由服務(wù)組件所代表的一些其它組件在下文中進(jìn)行說明。
在服務(wù)組件之間以及服務(wù)組件和SAM之間的數(shù)據(jù)交換由消息路由器提供。服務(wù)組件最好使用標(biāo)準(zhǔn)統(tǒng)一的形式和開放的接口及通信協(xié)議。由此,語音對話系統(tǒng)可由其它組件方便地進(jìn)行擴(kuò)展。
消息路由器從一個系統(tǒng)組件接收例如消息或數(shù)據(jù),并且根據(jù)一些情況將其重新發(fā)布到不同的消息通道。
該消息路由器與最基本的管道和過濾器的概念不同,其中該消息路由器連接于多個輸出通道。該消息路由器的關(guān)鍵屬性是其不更改消息內(nèi)容,但其將其自身與消息的目的地相關(guān)聯(lián)。
平臺抽象層(PAL)代表了本發(fā)明的語音對話系統(tǒng)的關(guān)鍵系統(tǒng)組件。PAL在語音對話系統(tǒng)的內(nèi)核和在某種硬件平臺上使用的設(shè)備驅(qū)動程序間進(jìn)行通信,該語音對話系統(tǒng)的內(nèi)核即作為服務(wù)組件的內(nèi)部操作單元,例如是某種操作系統(tǒng)。
換言之,PAL使得該語音對話系統(tǒng)方便且簡單地適用于任意目標(biāo)系統(tǒng)。該語音對話系統(tǒng)對目標(biāo)系統(tǒng)的軟件等的適用性完全是由對PAL進(jìn)行適當(dāng)更改而實現(xiàn)。
PAL可使得該語音對話系統(tǒng)被連接到任意的總線結(jié)構(gòu),例如,CAN、MOST、Ibus和D2B,并且用于實現(xiàn)包括TCP/IP、藍(lán)牙、GSM的通信協(xié)議。
一般情況下,可利用開關(guān)和按鈕,通過PAL例如存儲器、數(shù)據(jù)端口、音頻和視頻輸出來調(diào)用該語音對話系統(tǒng)的不同類型的設(shè)備。
本發(fā)明的語音對話系統(tǒng)多路復(fù)用所有服務(wù)組件,例如,語音識別、語音輸入/輸出和語音對話的控制。特別地,PAL代表了對于任意目標(biāo)系統(tǒng)的抽象的單一的可適用接口。
PAL確保一些組件的高便攜性和集成度,以及高功能可擴(kuò)展性和到目標(biāo)系統(tǒng)的簡單連接。由于有了PAL,該語音對話系統(tǒng)的任何實現(xiàn)將不受限于操作系統(tǒng),也不受限于目標(biāo)系統(tǒng)的硬件結(jié)構(gòu)。
優(yōu)選地,消息路由器可在不同系統(tǒng)組件之間路由通用通信格式的數(shù)據(jù)。術(shù)語通用通信格式(GCF)指完全獨立于目標(biāo)系統(tǒng)的數(shù)據(jù)格式的格式。對在數(shù)個系統(tǒng)組件之間進(jìn)行通信的消息使用單一的數(shù)據(jù)格式使得語音對話系統(tǒng)有效地且穩(wěn)定地工作,且很大程度上促進(jìn)對不同服務(wù)的多路復(fù)用。消息路由器的數(shù)據(jù)格式最好也可以擴(kuò)展。
語音對話系統(tǒng)可包括客戶程序員接口和/或語音檢測裝置和/或語音提示裝置和/或文字合成裝置和/或語音記錄器和/或拼寫匹配器和/或包括所有服務(wù)組件的配置文件的配置數(shù)據(jù)庫,和/或?qū)τ诳蛇x語音開發(fā)組件(見下)來說是重要的調(diào)試裝置,和/或?qū)υ捁芾砥鳌?蛻舫绦騿T的接口允許簡單地將客戶服務(wù)連接到語音對話系統(tǒng)的消息路由器??赏ㄟ^將消息路由器格式(即GCF接口)所使用的數(shù)據(jù)格式映射到客戶系統(tǒng)應(yīng)用程序來建立連接。
語音對話系統(tǒng)也可提供一種開發(fā)環(huán)境,特別是用于開發(fā)語音對話的環(huán)境。語音開發(fā)環(huán)境允許定義、編譯、實現(xiàn)和管理語音對話設(shè)計。例如,可選擇TCP/IP作為到和從主機(jī)開發(fā)工具的數(shù)據(jù)傳輸通道。單獨提供的調(diào)試裝置也可適用于客戶開發(fā)環(huán)境。開發(fā)環(huán)境也可包括圖形界面以促進(jìn)新語音對話的有效開發(fā)。
語音對話系統(tǒng)也可提供模擬由語音對話系統(tǒng)實際運行或控制和/或計劃運行或控制的應(yīng)用程序和/或設(shè)備的模擬環(huán)境,該設(shè)備例如,類似于調(diào)諧器或CD播放器的音頻設(shè)備。在開發(fā)用于控制將在以后被添加的組件的新的語音對話時,模擬這些組件可有效地輔助開發(fā)者。例如,數(shù)據(jù)和/或控制沖突可在設(shè)想的應(yīng)用程序?qū)嶋H實現(xiàn)之前被確定和解決。
圖形開發(fā)環(huán)境可被配置成集成語音對話系統(tǒng),而不對本系統(tǒng)(單源法則(single source principle))做任何更改。由此,不僅包括開發(fā)環(huán)境并且包括模擬環(huán)境的語音對話系統(tǒng)的一個實施例可被方便地用于模擬新設(shè)計的語音對話。
在對要納入語音對話系統(tǒng)中的新服務(wù)的模擬顯示出期望的結(jié)果后,相應(yīng)的新服務(wù)組件可被集成以替換模擬的虛擬服務(wù)。
在新語音對話的開發(fā)過程中,例如,由語音輸入控制新的設(shè)備過程中,該語音對話系統(tǒng)完全是功能性的,并且可持續(xù)執(zhí)行開發(fā)過程。由此,可實現(xiàn)快速開發(fā)原型及其后續(xù)的到客戶系統(tǒng)的無縫遷移。
不同種類的應(yīng)用程序裝置可被包括在語音對話系統(tǒng)中。典型的應(yīng)用程序裝置可為查詢表中或電話簿中信息的電話撥號器和裝置,其可為用于提供例如航班或火車的時間表信息的系統(tǒng)的一部分。另外,通過語音輸入經(jīng)由語音對話系統(tǒng)控制的機(jī)械設(shè)備表示可能的應(yīng)用方式。
也可在交通工具中提供使用一種上述語音對話系統(tǒng),特別地,在汽車中使用該系統(tǒng)。可經(jīng)由PAL將任意汽車數(shù)據(jù)總線連接到語音對話系統(tǒng)。
在交通工具中使用本語音對話系統(tǒng)的實施例使得駕駛員可以通過說話簡單地操作該交通工具的一些設(shè)備。此外,可經(jīng)由該語音對話系統(tǒng)通過查詢存儲的號碼并且撥號使用電話功能。如果該交通工具配備有導(dǎo)航系統(tǒng),上述語音對話系統(tǒng)的一個實施例可被集成在導(dǎo)航系統(tǒng)中。
還提供了一種用于運行包括服務(wù)組件的語音對話系統(tǒng)的方法,其包括以下步驟通過語音應(yīng)用程序管理器控制語音對話系統(tǒng);通過消息路由器在服務(wù)組件之間以及服務(wù)組件和語音應(yīng)用程序管理器之間交換數(shù)據(jù);通過平臺抽象層將語音對話系統(tǒng)連接到任意硬件平臺和/或任意操作系統(tǒng)和/或至少一個任意的設(shè)備驅(qū)動程序;通過消息路由器交換的數(shù)據(jù)可被格式化為一種單一的通用通信格式。
該方法還可包括檢測和處理語音信號,在對經(jīng)處理的語音信號進(jìn)行分析的基礎(chǔ)上生成輸出數(shù)據(jù),將輸出數(shù)據(jù)路由至應(yīng)用程序裝置以執(zhí)行應(yīng)用程序,該路由是由平臺抽象層調(diào)節(jié)。
對該語音信號的處理可包括將語音信號轉(zhuǎn)換到特征矢量和/或語音識別和/或拼寫匹配和/或語音記錄。特征矢量包括與語音分析和合成相關(guān)的參數(shù),并且可由倒譜或預(yù)測系數(shù)組成。
輸出數(shù)據(jù)可包括至少一個由語音對話系統(tǒng)輸出的合成語音信號。
此處公開的方法還可包括,使用表示服務(wù)組件中的一個組件的開發(fā)環(huán)境開發(fā)語音對話,以及使用表示一個服務(wù)組件的模擬環(huán)境模擬語音對話系統(tǒng)實際運行或控制和/或計劃運行或控制的應(yīng)用程序和設(shè)備。
另外,提供了一種計算機(jī)程序產(chǎn)品,其包括一個或多個具有計算機(jī)可執(zhí)行指令的計算機(jī)可讀介質(zhì),該計算機(jī)可執(zhí)行指令用于執(zhí)行所公開的運行語音對話系統(tǒng)的方法的上述實施例中的一個實施例的各個步驟。
將參照附圖對本發(fā)明的其它特征和優(yōu)點進(jìn)行說明。在此說明書中,將參照示意本發(fā)明的優(yōu)選實施例的附圖。可以理解,該實施例并不代表由以下所附權(quán)利要求所限定的本發(fā)明的整個范圍。
圖1顯示出根據(jù)本發(fā)明的語音對話系統(tǒng)的可擴(kuò)展結(jié)構(gòu),其中包括SAM、消息路由器和服務(wù)組件。
圖2顯示出本發(fā)明的語音對話系統(tǒng)的一個實例的框圖,其中包括SAM、消息路由器、服務(wù)組件和PAL。
圖3顯示出與StarRec對話開發(fā)工作室相關(guān)的本發(fā)明的語音對話系統(tǒng)的優(yōu)選實施例。
圖4顯示出適于客戶音頻驅(qū)動程序規(guī)范的平臺抽象層。
具體實施例方式
圖1顯示出本發(fā)明的語音對話系統(tǒng)的可擴(kuò)展結(jié)構(gòu)。除其它組件以外,該系統(tǒng)還包括語音應(yīng)用程序管理器(SAM)10和例如從1標(biāo)號到M的服務(wù)組件12,以及作為用于提供服務(wù)組件和SAM之間的數(shù)據(jù)交換的中央消息通信單元的消息路由器14。在若干服務(wù)組件12和SAM之間的通信通過使用專用的單一消息格式作為消息協(xié)議來實現(xiàn)。使用獨立于目標(biāo)或客戶系統(tǒng)的一般的和可擴(kuò)展的通用通信格式(GCF)對于簡便地和經(jīng)濟(jì)的更改以及滿足客戶需求方面來說是重要的。
例如,服務(wù)組件12包括用于語音檢測、語音記錄、語音識別、語音合成、診斷和客戶接口的裝置。根據(jù)本發(fā)明所依照的可擴(kuò)展服務(wù)期概念,可在不需要更改內(nèi)核的情況下方便地添加其它服務(wù)組件??蛻艚涌诒缓唵蔚匾暈榧稍谡Z音對話系統(tǒng)中的且也使用上述消息格式的附加服務(wù)組件。該格式必須被轉(zhuǎn)換為本發(fā)明的系統(tǒng)的軟件內(nèi)核外部的客戶所使用的格式。
根據(jù)用戶的意愿,由SAM 10配置語音對話系統(tǒng)。因此,SAM 10包括服務(wù)記錄,該服務(wù)記錄包括操作控制所必需的信息,該操作控制例如是使得適當(dāng)?shù)姆?wù)組件12與相應(yīng)的數(shù)據(jù)庫相關(guān)聯(lián)。此外,SAM 10負(fù)責(zé)所有記錄的服務(wù)組件12的協(xié)調(diào)啟動和關(guān)斷。
圖2詳細(xì)顯示出根據(jù)本發(fā)明的語音對話系統(tǒng)的一個實例。硬件平臺20提供了語音對話系統(tǒng)的物理基礎(chǔ),該硬件平臺20優(yōu)選地為32位平臺,例如32位RISC平臺。32位操作系統(tǒng)(OS)和驅(qū)動程序22使用硬件平臺20。
本發(fā)明的系統(tǒng)設(shè)計為大量不同類型的目標(biāo)系統(tǒng)提供了高便攜性。出于這種目的,平臺抽象層(PAL)24在語音對話系統(tǒng)起到重要作用。語音對話系統(tǒng)的軟件組件對于客戶設(shè)備和需求,即對于設(shè)想目標(biāo)系統(tǒng)的所有相關(guān)性都由PAL 24處理,因而源于本發(fā)明系統(tǒng)的內(nèi)核。通過使PAL 24的功能專門適于實際環(huán)境來實現(xiàn)對目標(biāo)系統(tǒng)的適用性。
從對于實際使用平臺的任意相關(guān)性的抽象以及單一通用消息格式使得可以簡單實現(xiàn)第三方軟件??赏ㄟ^從第三方接口的特定實現(xiàn)進(jìn)行抽象并且將第三方設(shè)計映射到本發(fā)明的語音對話系統(tǒng)內(nèi)部使用的接口和消息格式來實現(xiàn)第三方軟件的集成。
語音對話系統(tǒng)的軟件內(nèi)核包括SAM 26和提供服務(wù)組件之間的通信的消息路由器28,如圖1中所示。根據(jù)圖2,服務(wù)組件包括通用對話管理器(GDM)30和拼寫匹配器32。
GDM 30,例如StarRecGDM,為執(zhí)行對話流程的運行時間組件。由GDM對話管理器處理的語音應(yīng)用程序以基于XML的通用對話模型語言(GDML)來編碼。GDML源文件必須由GDC語法編譯器編譯成壓縮二進(jìn)制表示形式,該壓縮二進(jìn)制表示形式在運行時間內(nèi)由GDM對話管理模塊解釋。
StarRecGDM對話管理器為解釋經(jīng)編譯的GDML應(yīng)用程序的虛擬機(jī)??墒苟喾N32位RISC(整數(shù)和/或浮點)處理器運行在最為通用的實時操作系統(tǒng)上。所支持的操作系統(tǒng)包括VxWorks、QNX、WinCE和LINUX。由于獨立于平臺而實現(xiàn)StarRecGDM軟件,可方便地實現(xiàn)到其它目標(biāo)平臺的連接。
此外,服務(wù)組件包括管理如語音識別裝置36、語音提示器38、文字合成裝置40和語音記錄器42的人機(jī)語音交互的基礎(chǔ)元件的音頻輸入/輸出管理器和編解碼器34。服務(wù)組件包括適當(dāng)?shù)臄?shù)據(jù)庫。
圖2中顯示在消息路由器28上方的行表示根據(jù)本發(fā)明的語音應(yīng)用程序程序設(shè)計接口的功能,且其示出服務(wù)配置裝置44、客戶程序員接口46、調(diào)試和跟蹤服務(wù)48和主代理50。配置裝置44提供每個服務(wù)的基于文件的配置,并且由SAM 26啟動。
客戶接口46提供到用戶應(yīng)用程序的連接。通過將GCF串接口映射到客戶系統(tǒng)應(yīng)用程序?qū)崿F(xiàn)該連接。向內(nèi)核以外的任何其它通信協(xié)議的映射可以通過經(jīng)由傳輸通道(例如,TCP/IP、MOST、I2C、消息隊列等)的傳輸來方便地實現(xiàn)。由此,客戶應(yīng)用程序簡單地連接到消息路由器28。
調(diào)試和跟蹤服務(wù)器48以及主代理50提供用于進(jìn)一步開發(fā)語音對話系統(tǒng)和/或集成目標(biāo)系統(tǒng)的有效的開發(fā)和調(diào)試GCF接口。例如,StarRec對話開發(fā)工作室可經(jīng)由主代理50被連接,并被用于開發(fā)和調(diào)試語音對話。使用例如StarRec對話開發(fā)工作室允許通過圖形用戶界面對語音對話開發(fā)進(jìn)行定義、編譯、實現(xiàn)和管理。
開發(fā)的語音對話在成功執(zhí)行時可被集成進(jìn)語音對話系統(tǒng),而不需要任何原理上的更改。換言之,語音對話系統(tǒng)可被用于模擬在客戶應(yīng)用程序中使用的已開發(fā)的語音對話,并且,語音對話的組件可隨后被包括進(jìn)目標(biāo)系統(tǒng)中。通常情況下,本發(fā)明的語音對話系統(tǒng)顯示出具有快速開發(fā)原型和無縫主機(jī)-目標(biāo)集成的交叉開發(fā)能力。
圖3顯示出用于使用圖形用戶界面(GUI)66的開發(fā)語音對話的集成開發(fā)工具鏈。作為一個實例,可為此使用StarRec對話開發(fā)工作室(DDS)66。DDS 66允許在交叉平臺開發(fā)環(huán)境中交互式地測試和調(diào)試經(jīng)編譯的GDML對話。
可利用模塊化軟件結(jié)構(gòu)實現(xiàn)到目標(biāo)平臺的無縫遷移主DDS程序使用基于TCP/IP進(jìn)程間通信在組件之間交換消息和數(shù)據(jù)(語音識別、語音輸出、對話管理)。這些組件以硬件與獨立于OS的方式實現(xiàn),并且由此可被連接在任何類型的平臺上。
根據(jù)圖3中所顯示的本發(fā)明系統(tǒng)的實施例,Windows 2000/NT操作系統(tǒng)62被在X86硬件平臺60上實現(xiàn)。方框64包括與圖2的示例性實例相似的語音對話系統(tǒng)的基礎(chǔ)組件。
DDS/GUI 66通過TCP/IP連接到使用主機(jī)代理和目標(biāo)代理72的對話語音系統(tǒng)。除了目標(biāo)代理72,DSS 66包括調(diào)試單元68、項目配置單元70、GDC編譯器74、GDS編譯器76,和用于登錄和測試的單元80,其中GDS編譯器76為用于標(biāo)準(zhǔn)面向?qū)ο笳Z言ADA的編譯器。DDS 66也包括語法數(shù)據(jù)庫,即,用于對話開發(fā)的Java語音語法格式(JSGF)數(shù)據(jù)庫82,即,GDML數(shù)據(jù)庫,和用于登錄的登錄文件86。
JSGF為獨立于平臺的、獨立于供應(yīng)商的在語音識別中通用的語法的文字表示,該語音識別采用Java程序設(shè)計語言的形式和規(guī)范,另外還使用傳統(tǒng)的語法符號。
可通過使用DDS 66,模擬實際語音對話系統(tǒng)中還沒有實現(xiàn)的設(shè)想的服務(wù)88。信息的交換還是由GCF消息路由器提供。例如,可模擬調(diào)諧器92和CD播放器94的集成。在各個對話被成功開發(fā)后,實際的設(shè)備可被連接到語音對話系統(tǒng),并且由語音對話系統(tǒng)控制。
圖4顯示出根據(jù)本發(fā)明的語音對話系統(tǒng)到客戶專用脈沖編碼調(diào)制(PCM)驅(qū)動程序接口110的適應(yīng)性結(jié)構(gòu)。PCM表示通過將模擬波形表示為數(shù)字比特流來將模擬信息轉(zhuǎn)換為數(shù)字信號(反之亦然)的通用方法。PAL 104允許適用于特定規(guī)范,如PCM的客戶版本的字的比特表示。
由PAL 104處理對于音頻設(shè)備的客戶設(shè)備的語音對話系統(tǒng)的軟件組件的所有相關(guān)性。通過將PAL 104的功能專門應(yīng)用于實際環(huán)境(具體來說,在某硬件平臺100上實現(xiàn)的OS和驅(qū)動程序102)來獲得對目標(biāo)系統(tǒng)的適應(yīng)性。
音頻IO管理器112表示經(jīng)由消息路由器114連接到其它服務(wù)組件(見例如圖1)的本發(fā)明的語音對話系統(tǒng)的內(nèi)核組成結(jié)構(gòu)。到特定客戶音頻驅(qū)動程序110的適用僅在PAL 104中執(zhí)行,PAL 104還包括OS功能和文件系統(tǒng)管理108以及提供全范圍(full scope)C編程語言106的ANSI程序庫功能。
對于通信來說,客戶音頻設(shè)備驅(qū)動程序可使用某種PCM,并且PAL將這種PCM用于在PAL和語音對話系統(tǒng)內(nèi)核的音頻IO管理器112之間的數(shù)據(jù)連接的固有PCM。
所有之前討論的實施例并不是對本發(fā)明的限制,而是作為說明本發(fā)明的特性和優(yōu)勢的實例??梢岳斫猓恍┗蛩猩鲜鎏匦砸部梢圆煌绞竭M(jìn)行組合。
權(quán)利要求
1.語音對話系統(tǒng),其包括用于控制所述語音對話系統(tǒng)的語音應(yīng)用程序管理器;所述語音對話系統(tǒng)的至少兩個服務(wù)組件,具體而言,配置用來識別語音的語音識別裝置;消息路由器,用于在所述至少兩個服務(wù)組件彼此之間以及所述至少兩個服務(wù)組件和所述語音應(yīng)用程序管理器之間提供數(shù)據(jù)交換;和平臺抽象層,其將所述語音對話系統(tǒng)連接到任意硬件平臺和/或任意操作系統(tǒng)和/或至少一個任意的設(shè)備驅(qū)動程序。
2.如權(quán)利要求1所述的語音對話系統(tǒng),其中,所述消息路由器使用一種單一的通用通信格式來提供所述數(shù)據(jù)交換。
3.如權(quán)利要求1或2所述的語音對話系統(tǒng),其中,所述至少兩個服務(wù)組件包括客戶程序員接口和/或語音檢測裝置和/或語音提示裝置和/或文字合成裝置和/或語音記錄器和/或拼寫匹配器和/或配置數(shù)據(jù)庫和調(diào)試裝置和/或?qū)υ捁芾砥鳌?br>
4.如上述權(quán)利要求中任一項所述的語音對話系統(tǒng),還包括開發(fā)環(huán)境,具體而言,用于開發(fā)語音對話的開發(fā)環(huán)境。
5.如權(quán)利要求4所述的語音對話系統(tǒng),其中,所述開發(fā)環(huán)境包括圖形用戶界面。
6.如上述權(quán)利要求中任一項所述的語音對話系統(tǒng),還包括用于模擬由所述語音對話系統(tǒng)實際運行或控制和/或計劃運行或控制的應(yīng)用程序和/或設(shè)備的模擬環(huán)境。
7.如上述權(quán)利要求中任一項所述的語音對話系統(tǒng),還包括至少一個應(yīng)用程序裝置。
8.在交通工具中對上述權(quán)利要求中任一項所述的語音對話系統(tǒng)的使用。
9.運行包括服務(wù)組件的語音對話系統(tǒng)的方法,其包括以下步驟通過語音應(yīng)用程序管理器控制所述語音對話系統(tǒng);通過消息路由器,在所述服務(wù)組件之間以及所述服務(wù)組件和所述語音應(yīng)用程序管理器之間交換數(shù)據(jù);通過平臺抽象層,將所述語音對話系統(tǒng)連接到任意硬件平臺和/或任意操作系統(tǒng)和/或至少一個任意的設(shè)備驅(qū)動程序。
10.如權(quán)利要求9所述的方法,其中,由所述消息路由器交換的所述數(shù)據(jù)被格式化為一種單一的通用通信格式。
11.如權(quán)利要求9或10所述的方法,還包括檢測和處理語音信號;在對所述經(jīng)處理的語音信號的分析的基礎(chǔ)上生成輸出數(shù)據(jù);將所述輸出數(shù)據(jù)路由至應(yīng)用程序裝置處以執(zhí)行應(yīng)用程序,且其中,由所述平臺抽象層對所述路由進(jìn)行調(diào)整。
12.如權(quán)利要求9-11中任一項所述的方法,其中,對所述語音信號的所述處理包括將所述語音信號轉(zhuǎn)換為特征向量和/或語音識別和/或拼寫匹配和/或語音記錄。
13.如權(quán)利要求9-12中任一項所述的方法,其中,所述輸出數(shù)據(jù)包括至少一個由所述語音對話系統(tǒng)輸出的合成語音信號。
14.如權(quán)利要求9-13中任一項所述的方法,還包括使用表示所述服務(wù)組件中的一個組件的開發(fā)環(huán)境開發(fā)語音對話。
15.如權(quán)利要求9-14中任一項所述的方法,還包括使用表示所述服務(wù)組件中的一個組件的模擬環(huán)境,模擬由所述語音對話系統(tǒng)實際運行或控制和/或計劃運行或控制的應(yīng)用程序和/或設(shè)備。
16.計算機(jī)程序產(chǎn)品,其包括一個或多個具有計算機(jī)可執(zhí)行指令的計算機(jī)可讀介質(zhì),所述計算機(jī)可執(zhí)行指令用來執(zhí)行如權(quán)利要求9-15中任一項所述的方法的步驟。
全文摘要
本發(fā)明涉及語音對話系統(tǒng),其包括用于控制該語音對話系統(tǒng)的語音應(yīng)用程序管理器;該語音對話系統(tǒng)的至少兩個服務(wù)組件,具體而言,配置以識別語音的語音識別裝置;用于在至少兩個服務(wù)組件相互之間以及該至少兩個服務(wù)組件和語音應(yīng)用程序管理器之間提供數(shù)據(jù)交換的消息路由器;以及將語音對話系統(tǒng)連接到任意硬件平臺和/或任意操作系統(tǒng)和/或至少一個任何設(shè)備驅(qū)動程序的平臺抽象層,并且還涉及一種使用本發(fā)明的系統(tǒng)的方法。
文檔編號G10L15/28GK1909063SQ200610107879
公開日2007年2月7日 申請日期2006年7月27日 優(yōu)先權(quán)日2005年8月4日
發(fā)明者M·舍德爾 申請人:哈曼貝克自動系統(tǒng)股份有限公司