專利名稱:校正難以理解的合成語音的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及語音信號處理,并且更具體地涉及語音合成。
背景技術(shù):
語音合成是通過人工手段從文本產(chǎn)生語音。例如,文本語音轉(zhuǎn)換(TTS)系統(tǒng)從文本合成語音從而為傳統(tǒng)的計算機到人的可視化輸出設(shè)備-如計算機監(jiān)視器或顯示器提供了一種替代方案。TTS合成遇到的一個問題是合成語音可能具有差的韻律特征,諸如音調(diào)、發(fā)音、重音、語速、語調(diào)、和自然度。因此,這種差的韻律可能迷惑TTS用戶并且導(dǎo)致與用戶的不完整交互。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供一種語音合成方法,包括下述步驟:(a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入;(b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音;(c)確定該合成語音是難以理解的;(d)將該文本輸入再處理成后續(xù)合成語音以校正難以理解的合成語音;和(e)通過揚聲器將后續(xù)合成語音輸出給用戶。根據(jù)本發(fā)明的另一個實施例,提供一種語音合成方法,包括下述步驟:(a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入;(b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音;(c)預(yù)測該合成語音的可懂度;(d)確定來自步驟(C)的預(yù)測可懂度是否低于最小閾值;(e)如果在步驟(d)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該合成語音輸出給用戶;(f)如果在步驟(d)中確定該預(yù)測可懂度低于該最小閾值,則調(diào)整與處理文本輸入結(jié)合使用的模型;(g)將該文本輸入再處理成后續(xù)合成語音;(h)預(yù)測該后續(xù)合成語音的可懂度;⑴確定來自步驟(h)的預(yù)測可懂度是否低于最小閾值;(j)如果在步驟(i)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該后續(xù)合成語音輸出給用戶;以及,否則(k)重復(fù)步驟(f)至(k)。根據(jù)本發(fā)明的進一步實施例,提供一種語音合成方法,包括下述步驟:(a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入;(b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音;(Cl)通過揚聲器將該合成語音輸出給用戶;
(c2)從用戶接收合成語音難以理解的指示;(d)將該文本輸入再處理成后續(xù)合成語音以校正難以理解的合成語音;和(e)通過揚聲器將該后續(xù)合成語音輸出給用戶。方案1.一種語音合成方法,包括下列步驟:(a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入;(b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音;(c)確定該合成語音是難以理解的;(d)將該文本輸入再處理成后續(xù)合成語音以校正該難以理解的合成語音;和(e)通過揚聲器將該后續(xù)合成語音輸出給用戶。方案2.如方案I的方法,其中步驟(C)包括:(c I)預(yù)測該合成語音的可懂度;和(c2)確定來自步驟(Cl)的預(yù)測可懂度低于最小閾值。方案3.如方案2的方法,在步驟(C)和(d)之間進一步包括:(f)調(diào)整與步驟(d)結(jié)合使用的模型。方案4.如方案3的方法,在步驟(e)之后進一步包括:(g)預(yù)測該后續(xù)合成語音的可懂度;(h)確定來自步驟(g)的預(yù)測可懂度是否低于最小閾值;(i)如果在步驟(h)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該后續(xù)合成語音輸出給用戶;以及,否則(j)重復(fù)步驟(f)至(j)。方案5.如方案I的方法,其中步驟(C)包括:(Cl)通過揚聲器將該合成語音輸出給用戶;和(c2)從用戶接收該合成語音難以理解的指示。方案6.如方案5的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音簡單。方案7.如方案5的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音慢。方案8.如方案5的方法,進一步包括識別用戶的交流能力,其中在步驟(d)中基于識別出的交流能力產(chǎn)生后續(xù)合成語音。方案9.如方案8的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音慢。方案10.如方案9的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音簡單。方案11.一種語音合成方法,包括下列步驟:(a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入;(b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音;(C)預(yù)測該合成語音的可懂度;(d)確定來自步驟(C)的預(yù)測可懂度是否低于最小閾值;(e)如果在步驟(d)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該合成語音輸出給用戶;(f)如果在步驟(d)中確定該預(yù)測可懂度低于該最小閾值,則調(diào)整與處理文本輸入結(jié)合使用的模型;(g)將該文本輸入再處理成后續(xù)合成語音;
(h)預(yù)測該后續(xù)合成語音的可懂度;(i)確定來自步驟(h)的預(yù)測可懂度是否低于最小閾值;(j)如果在步驟(i)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該后續(xù)合成語音輸出給用戶;以及,否則(k)重復(fù)步驟(f)至(k)。方案12.如方案11的方法,其中步驟(f)中的模型是隱藏馬爾可夫模型,該模型使用最大似然線性回歸算法進行調(diào)整。方案13.如方案11的方法,其中預(yù)測可懂度的步驟包括計算語音可懂度得分,該得分包括加權(quán)韻律屬性的總和。方案14.如方案13的方法,其中所述加權(quán)韻律屬性包括音調(diào)、語速、頻譜能量、基音或重音中的至少兩個。方案15.如方案13的方法,其中調(diào)整的模型是基于可懂度指數(shù)、語音傳輸指數(shù)或語音干擾水平中的至少一種。方案16.如方案11的方法,其中調(diào)整的模型是基于可懂度指數(shù)、語音傳輸指數(shù)或語音干擾水平中的至少一種。方案17.—種語音合成方法,包括下列步驟:(a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入;(b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音;(c I)通過揚聲器將該合成語音輸出給用戶;(c2)從用戶接收該合成語音難以理解的指示;(d)將文本輸入再處理成后續(xù)合成語音以校正難以理解的合成語音;和(e)通過揚聲器將該后續(xù)合成語音輸出給用戶。方案18.如方案17的方法進一步包括識別用戶的交流能力,其中步驟(d)中基于識別的交流能力產(chǎn)生后續(xù)合成語音。方案19.如方案17的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音簡單。方案20.如方案17的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音慢。
下面結(jié)合附圖描述本發(fā)明的一個或多個優(yōu)選實施例,其中相同的符號表不相同的兀件,并且其中:圖1是示出能夠利用本發(fā)明公開的方法的通信系統(tǒng)的實施例的框圖;圖2是示出可用于圖1的系統(tǒng)的文本語音轉(zhuǎn)換(TTS)系統(tǒng)的實施例的框圖,該系統(tǒng)用于執(zhí)行語音合成和/或改善語音識別度的示例方法;圖3是示出可由圖1的通信系統(tǒng)和圖2的TTS系統(tǒng)執(zhí)行的語音合成方法的實施例的流程圖;和圖4是示出可由圖1的通信系統(tǒng)和圖2的TTS系統(tǒng)執(zhí)行的語音合成方法的另一實施例的流程圖。
具體實施方式
下面的具體實施方式
描述了通信系統(tǒng)示例,可用于該通信系統(tǒng)的文本語音轉(zhuǎn)換(TTS)系統(tǒng)的示例,可用于上述系統(tǒng)的一個或兩者的方法的一個或多個示例。下面描述的方法可由車輛遠程信息處理單元(VTU)使用,作為合成語音的一部分向VTU用戶輸出。雖然以下描述的方法是這樣的:他們可在程序執(zhí)行過程中或運行時在VTU的車輛環(huán)境進行實施,但是可以理解的是,它們可用于任何類型的TTS系統(tǒng)和其他類型的TTS系統(tǒng)以及除了車輛環(huán)境的其他環(huán)境。通信系統(tǒng)參照圖1,該圖示出了示例性的操作環(huán)境,該操作環(huán)境包括移動車輛通信系統(tǒng)10,并且能夠用于實施本發(fā)明所公開的方法。通信系統(tǒng)10通常包括車輛12、一個或多個無線載波系統(tǒng)14、陸地通信網(wǎng)絡(luò)16、計算機18、和呼叫中心20。應(yīng)當(dāng)理解,所公開的方法可以用于任何數(shù)目的不同的系統(tǒng)且不特別局限于此處示出的操作環(huán)境。系統(tǒng)10的體系結(jié)構(gòu)、構(gòu)造、設(shè)置、和操作及其單個組件在本領(lǐng)域中也是公知的。因此,下面的段落僅提供了一個這樣的示例系統(tǒng)10的簡要介紹,此處未示出的其他系統(tǒng)也可以使用所公開的方法。車輛12在圖示實施例中描繪為轎車,但是應(yīng)當(dāng)理解,任何其他車輛-包括摩托車、卡車、運動型多功能車(SUV)、休閑車(RV)、船舶、飛機等,也可以使用。圖1中概括示出了一些車載電子設(shè)備28,其通常包括遠程信息處理單元30、麥克風(fēng)32、一個或多個按鈕或其他控制輸入件34、音頻系統(tǒng)36、可視顯示器38、和GPS模塊40以及一些車輛系統(tǒng)模塊(VSM)42。這些設(shè)備中的一些-如麥克風(fēng)32和按鈕34可以直接連至遠程信息處理單元,而另一些使用一個或多個如通信總線44或娛樂總線46的網(wǎng)絡(luò)連接進行間接連接。合適的網(wǎng)絡(luò)連接的例子包括控制器局域網(wǎng)(CAN)、面向媒體的系統(tǒng)傳輸(MOST)、本地互聯(lián)網(wǎng)絡(luò)(LIN)、局域網(wǎng)(LAN)、和其他適當(dāng)?shù)倪B接,諸如以太網(wǎng)或其他符合已知的IS0、SAE和IEEE標(biāo)準和規(guī)范的連接,以上僅是舉例。遠程信息處理單元30可以是OEM安裝的(嵌入式的)或售后市場(aftermarket)的設(shè)備,其可在無線載波系統(tǒng)14上通過無線網(wǎng)絡(luò)進行無線語音和/或數(shù)據(jù)通信,以便車輛可以與呼叫中心20、其他啟用了遠程信息處理的車輛、或其他實體或設(shè)備進行通信。遠程信息處理單元優(yōu)選地使用無線電傳輸來與無線載波系統(tǒng)14建立通信通道(語音通道和/或數(shù)據(jù)通道)以便語音和/或數(shù)據(jù)傳輸可在通道上進行收發(fā)。通過提供語音和數(shù)據(jù)通信,遠程信息處理單元30使車輛可提供一些包括與導(dǎo)航、電話、緊急援助、診斷、信息娛樂等相關(guān)的不同的服務(wù)。數(shù)據(jù)可通過數(shù)據(jù)連接發(fā)送,諸如通過數(shù)據(jù)通道上的分組數(shù)據(jù)傳輸或通過語音通道使用本領(lǐng)域已知的技術(shù)發(fā)送。對于包括語音通信(如在呼叫中心20具有現(xiàn)場顧問或語音應(yīng)答單元)和數(shù)據(jù)通信(如為呼叫中心20提供GPS位置數(shù)據(jù)或車輛診斷數(shù)據(jù))的聯(lián)合服務(wù),系統(tǒng)可使用語音通道上的單呼叫以及根據(jù)需要在語音通道上的語音和數(shù)據(jù)傳輸之間切換,且這些可以使用本領(lǐng)域技術(shù)人員已知的技術(shù)完成。根據(jù)一個實施例,遠程信息處理單元30使用根據(jù)GSM或CDMA標(biāo)準的蜂窩通信,因此其包括用于如免提通話的語音通信的標(biāo)準蜂窩芯片50、用于數(shù)據(jù)傳輸?shù)臒o線調(diào)制解調(diào)器、電子處理設(shè)備52、一個或多個數(shù)字存儲設(shè)備54、和雙天線56。應(yīng)當(dāng)理解,無線調(diào)制解調(diào)器可以通過存儲在遠程信息處理單元中并由處理器52執(zhí)行的軟件實現(xiàn),或者其可以是位于遠程信息處理單元30內(nèi)部或外部的單獨的硬件組件。無線調(diào)制解調(diào)器可使用任何數(shù)量的不同的標(biāo)準或協(xié)議進行操作,諸如EVDO、CDMA, GPRS和EDGE。車輛和其他聯(lián)網(wǎng)的設(shè)備之間的無線網(wǎng)絡(luò)也可使用遠程信息處理單元30來執(zhí)行。為此,遠程信息處理單元30可配置為根據(jù)一個或多個無線協(xié)議-諸如任何IEEE802.11協(xié)議、WiMAX、或藍牙進行無線通信。當(dāng)用于如TCP/IP的分組交換型數(shù)據(jù)通信時,遠程信息處理單元可以配置靜態(tài)IP地址或者可以設(shè)置為從網(wǎng)絡(luò)中的其他設(shè)備-如路由器或從網(wǎng)絡(luò)地址服務(wù)器中自動接收分配的IP地址。處理器52可以是任何類型的能處理電子指令的設(shè)備,包括微處理器、微控制器、主處理器、控制器、車輛通信處理器、和專用集成電路(ASIC)。它可以是僅用于遠程信息處理單元30的專用處理器,或可以與其他車輛系統(tǒng)共享。處理器52執(zhí)行各種類型的數(shù)字存儲指令,如軟件或存儲在存儲器54中的固件程序,其使得遠程信息處理單元能提供廣泛的服務(wù)。例如,處理器52可執(zhí)行程序或處理數(shù)據(jù)來執(zhí)行本發(fā)明討論的方法的至少一部分。遠程信息處理單元30可用于提供不同種類的車輛服務(wù),包括到車輛和/或來自車輛的無線通信。這些服務(wù)包括:行車方向和與基于GPS的車輛導(dǎo)航模塊40相結(jié)合而提供的其他導(dǎo)航相關(guān)服務(wù);與一個或多個碰撞傳感器接口模塊-如車身控制模塊(未顯示)相結(jié)合而提供的安全氣囊展開通知和其他緊急情況或路邊援助有關(guān)的服務(wù);使用一個或多個診斷模塊的診斷報告;與信息娛樂系統(tǒng)相關(guān)的服務(wù),其中音樂、網(wǎng)頁、電影、電視節(jié)目、電子游戲和/或其他信息通過信息娛樂模塊(未顯示)下載并被存儲以用于目前或稍后重放。以上列出的服務(wù)絕不是遠程信息處理單元30的所有功能的詳盡列表,而僅是遠程信息處理單元可以提供的一些服務(wù)的列舉。此外,應(yīng)當(dāng)理解,前述模塊中的至少一些可以以遠程信息處理單元30內(nèi)部或外部存儲的軟件指令的形式實現(xiàn),他們可以是位于遠程信息處理單元30內(nèi)部或外部的硬件組件,或他們可彼此或與位于整個車輛上的其他系統(tǒng)集成和/或共享,以上僅列舉了幾種可能。在位于遠程信息處理單元30外部的如VSM42的模塊被執(zhí)行的情況下,可以使用車輛總線44與遠程信息處理單元交換數(shù)據(jù)和命令。GPS模塊40接收來自GPS衛(wèi)星星座60的無線電信號。通過這些信號,模塊40可以確定車輛位置,其用于為車輛駕駛員提供導(dǎo)航和其他位置相關(guān)服務(wù)。導(dǎo)航信息可在顯示器38 (或車內(nèi)的其他顯示器)上顯示或當(dāng)提供方向?qū)Ш綍r進行口頭表達。導(dǎo)航服務(wù)可使用專用的車內(nèi)導(dǎo)航模塊(可以是GPS模塊40的一部分)進行提供,或一些或全部導(dǎo)航服務(wù)可通過遠程信息處理單元30來提供,其中位置信息被發(fā)送至遠程位置以便向車輛提供導(dǎo)航地圖、地圖標(biāo)注(興趣點、飯店等)、路徑計算等。位置信息可提供至呼叫中心20或其他遠程計算機系統(tǒng)-諸如計算機18,用于其他目的-諸如車隊管理。而且,新的或更新的地圖數(shù)據(jù)可通過遠程信息處理單元30從呼叫中心20下載至GPS模塊40。除了音頻系統(tǒng)36和GPS模塊40,車輛12可包括電子硬件組件形式的其他車輛系統(tǒng)模塊(VSM) 42,其位于整個車輛內(nèi)并通常從一個或多個傳感器接收輸入以及使用感測到的輸入來完成診斷、監(jiān)控、控制、報告和/或其他功能。VSM42的每一個優(yōu)選通過通信總線44連接至其他VSM,也連接至遠程信息處理單元30,并可被編程來運行車輛系統(tǒng)和子系統(tǒng)的診斷測試。例如,一個VSM 42可以是發(fā)動機控制模塊(ECM),其控制發(fā)動機運轉(zhuǎn)的不同方面-如燃料的點火和點火定時,另一個VSM 42模塊可以是動力控制模塊,其調(diào)節(jié)車輛動力的一個或多個組件的運轉(zhuǎn),又一個VSM 42模塊可以是車體控制模塊,其管理位于整個車輛內(nèi)的不同電子組件,如車輛的電門鎖和頭燈。根據(jù)一個實施例,發(fā)動機控制模塊配備了車載診斷(OBD)功能,其提供大量的實時數(shù)據(jù),如來自包括車輛發(fā)射傳感器的不同傳感器的實時數(shù)據(jù),并提供標(biāo)準化診斷故障代碼(DTC)序列,其使得技術(shù)員迅速對車內(nèi)故障進行確認和補救。本領(lǐng)域技術(shù)人員可以理解,上述VSM僅是可用于車輛12內(nèi)的一些模塊的示例,多種其他模塊也是有可能的。車載電子設(shè)備28還包括多個車輛用戶接口,其為駕乘人員提供供給和/或接收信息的手段,包括麥克風(fēng)32、按鈕34、音頻系統(tǒng)36和可視顯示器38。本文所用術(shù)語“車輛用戶接口”完全包括任何合適的電子設(shè)備形式,包括硬件和軟件組件,其位于車輛內(nèi)使得車輛用戶與或通過車輛組件進行通信。麥克風(fēng)32為遠程信息處理單元提供音頻輸入,使駕駛員或其他駕乘人員能夠通過無線載波系統(tǒng)14提供語音命令和執(zhí)行免提呼叫。為此,可以使用本領(lǐng)域已知的人機界面(HMI)技術(shù)連接至車載自動語音處理單元。按鈕34允許用戶手動輸入至遠程信息處理單元30以發(fā)起無線電話呼叫和提供其他數(shù)據(jù)、響應(yīng)或控制輸入。相對于常規(guī)服務(wù)求助呼叫,單獨的按鈕可用于啟動至呼叫中心20的緊急呼叫。音頻系統(tǒng)36為駕乘人員提供音頻輸出,可以是專用的、獨立的系統(tǒng)或原車音頻系統(tǒng)的一部分?;谒镜奶囟▽嵤├?,音頻系統(tǒng)36可操作地聯(lián)接至車輛總線44和娛樂總線46,可以提供AM、FM和衛(wèi)星無線電、⑶、DVD和其他多媒體功能。這些功能可與已描述的信息娛樂模塊一起或獨立提供。可視顯示器38優(yōu)選是圖形顯示器,如儀表盤上的觸摸屏或擋風(fēng)玻璃反射回來的抬頭顯示器,可用于提供大量的輸入和輸出功能。也可以使用不同的其他車輛用戶接口,圖1的接口僅是一特定實施例。無線載波系統(tǒng)14優(yōu)選為蜂窩電話系統(tǒng),包括多個蜂窩塔70 (僅顯不出一個)、一個或多個移動切換中心(MSC) 72和任何其他連接無線載波系統(tǒng)14與陸地網(wǎng)絡(luò)16所需的網(wǎng)絡(luò)組件。每一個蜂窩塔70包括發(fā)送和接收天線和基站,不同蜂窩塔的基站與MSC72或直接連接或通過中間設(shè)備如基站控制器進行連接。蜂窩系統(tǒng)14可實施任何合適的通信技術(shù),包括例如諸如AMPS的模擬技術(shù)或諸如CDMA (如CDMA2000)或GSM/GPRS的較新的數(shù)字技術(shù)。本領(lǐng)域技術(shù)人員可以理解,無線系統(tǒng)14可使用不同的蜂窩塔/基站/MSC安排。例如,基站和蜂窩塔可以在同一地點聯(lián)合定位或可以彼此遠離,每個基站可負責(zé)單獨蜂窩塔或單獨基站可服務(wù)不同的蜂窩塔,不同的基站可以聯(lián)接至單獨的MSC,上面僅描述了一些可能的布局。除了使用無線載波系統(tǒng)14,可以使用以衛(wèi)星通信形式的不同的無線載波系統(tǒng)來提供與車輛的單向或雙向通信??墒褂靡活w或多顆通信衛(wèi)星62和上行傳輸站64來完成。單向通信可以是例如衛(wèi)星無線電服務(wù),其中節(jié)目內(nèi)容(新聞、音樂等)由傳輸站64接收、打包上傳,然后發(fā)送至衛(wèi)星62,其將節(jié)目廣播至用戶。雙向通信可以是例如使用衛(wèi)星62在車輛12和站64之間進行中繼電話服務(wù)的衛(wèi)星電話服務(wù)。如果使用,該衛(wèi)星電話可以替代無線載波系統(tǒng)14或作為其補充。陸地網(wǎng)絡(luò)16可以是傳統(tǒng)的陸地電信網(wǎng)絡(luò),其連接一個或多個固定電話并將無線載波系統(tǒng)14連接至呼叫中心20。例如,陸地網(wǎng)絡(luò)16可包括像這樣的公共交換電話網(wǎng)絡(luò)(PSTN),其用于提供硬線電話、分組交換數(shù)據(jù)通信和互聯(lián)網(wǎng)基礎(chǔ)設(shè)施。陸地網(wǎng)絡(luò)16的一個或多個部分可通過使用標(biāo)準有線網(wǎng)絡(luò)、光纖或其他光學(xué)網(wǎng)絡(luò)、有線電視網(wǎng)絡(luò)、電力線、其他如無線局域網(wǎng)(WLAN)的無線網(wǎng)絡(luò),或提供寬帶無線接入(BWA)的網(wǎng)絡(luò),或他們的任意組合進行完成。此外,呼叫中心20并非必須通過陸地網(wǎng)絡(luò)16連接,而是可以包括無線電話設(shè)備使得它可以直接與無線網(wǎng)絡(luò)如無線載波系統(tǒng)14進行通信。計算機18可以是經(jīng)由私有或如因特網(wǎng)的公共網(wǎng)絡(luò)進行訪問的多個計算機之一。每一個這樣的計算機18可用于一個或多個目的,諸如由車輛通過遠程信息處理單元30和無線載波系統(tǒng)14訪問的網(wǎng)絡(luò)服務(wù)器。其他這樣可訪問的計算機18可以是例如:診斷信息和其他車輛數(shù)據(jù)可從車輛通過遠程信息處理單元30進行上傳的服務(wù)中心計算機;由車主或其他用戶使用的客戶端計算機,以訪問或接收車輛數(shù)據(jù)或設(shè)置或者配置用戶喜好或控制車輛功能為目的;或第三方,車輛數(shù)據(jù)或其他信息通過與車輛12或呼叫中心20之一或兩者的通信提供給或來自第三方。計算機18還可以用于提供如DNS服務(wù)的因特網(wǎng)連接,或作為使用DHCP或其他合適的協(xié)議來為車輛12分配IP地址的網(wǎng)絡(luò)地址服務(wù)器。呼叫中心20被設(shè)計為提供具有大量不同的系統(tǒng)后端功能的車輛電子設(shè)備28,根據(jù)此處示出的實施例,通常包括一個或多個交換器80、服務(wù)器82、數(shù)據(jù)庫84、人工顧問86和自動語音應(yīng)答系統(tǒng)(VRS)88,所有這些都是本領(lǐng)域已知的。這些不同的呼叫中心組件優(yōu)選地通過有線或無線本地局域網(wǎng)90彼此進行聯(lián)接。交換器80可以是專用交換分機(PBX)交換器,其將輸入信號進行分路使得語音傳輸常常通過常規(guī)電話發(fā)送至人工顧問86或使用VoIP發(fā)送至自動語音應(yīng)答系統(tǒng)88。人工顧問電話也可使用VoIP,如圖1中虛線所示。通過交換器80的VoIP和其他數(shù)據(jù)通信可通過連接在交換器80和網(wǎng)絡(luò)90之間的調(diào)制解調(diào)器(未示出)來完成。數(shù)據(jù)通過調(diào)制解調(diào)器傳輸至服務(wù)器82和/或數(shù)據(jù)庫84。數(shù)據(jù)庫84可存儲賬號信息-如用戶認證信息、車輛識別碼、資料記錄、行為模式和其他相關(guān)用戶信息。數(shù)據(jù)傳輸還可以通過如802.1lx, GPRS和類似的無線系統(tǒng)完成。雖然示出的實施例描述為可以使用人工顧問86來配合使用由人操縱的呼叫中心20,但可以理解,呼叫中心可替代性地使用VRS 88作為自動顧問或者可使用VRS 88和人工顧問86的結(jié)合。語音合成系統(tǒng)現(xiàn)在轉(zhuǎn)向圖2,該圖示出了能使用本發(fā)明公開的方法的文本語音轉(zhuǎn)換(TTS)系統(tǒng)210的示例性體系結(jié)構(gòu)。通常,用戶或車輛上的乘客可與TTS系統(tǒng)進行交互以從應(yīng)用程序接收指令或聽?wèi)?yīng)用程序的菜單提示,例如車輛導(dǎo)航應(yīng)用程序、免提呼叫應(yīng)用程序或其他類似程序。有多種TTS合成,包括共振峰TTS合成(formant TTS synthesis)和拼接TTS合成(concatenative TTS synthesis)。共振峰TTS合成不輸出記錄的人類語音,反而輸出計算機生成的音頻,往往聽起來像人造和機器人的語言。在拼接TTS合成中,將保存的人類語音的段拼接在一起,并產(chǎn)生更平滑、聽起來更自然的語音輸出。通常,拼接TTS系統(tǒng)從文本源中提取輸出詞語或標(biāo)識符,將輸出轉(zhuǎn)換成恰當(dāng)?shù)恼Z言單元,選擇與語言單元最相對應(yīng)的語音的存儲單元,將所選擇的語言單元轉(zhuǎn)換成音頻信號,并且輸出音頻信號作為可聽見的語音與用戶交互。TTS系統(tǒng)對于本領(lǐng)域技術(shù)人員是周知的,如背景技術(shù)部分所描述的。但圖2示出了根據(jù)本發(fā)明公開的改進TTS系統(tǒng)的例子。根據(jù)一個實施例,系統(tǒng)210的一些或全部可位于和使用圖1的遠程信息處理單兀30進行處理。根據(jù)一個可選實施例,TTS系統(tǒng)210的一些或全部可位于和使用計算裝置進行處理,計算裝置在遠離車輛12的位置,例如呼叫中心20。例如,語言模型、聲學(xué)模型和其他類似模型可存儲在呼叫中心20的服務(wù)器82和/或數(shù)據(jù)庫84之一的存儲器中,并與車輛遠程信息處理單元30進行通信以進行車載TTS處理。類似地,TTS軟件可使用呼叫中心20的服務(wù)器82之一的處理器進行處理。換句話說,TTS系統(tǒng)210可以以任何期望的方式位于遠程信息處理單元30內(nèi)或跨呼叫中心20和車輛12分布。系統(tǒng)210可包括一個或多個文本源212和存儲器-例如遠程信息處理存儲器54,用于存儲來自文本源212的文本和存儲TTS軟件和數(shù)據(jù)。系統(tǒng)210還可包括處理器,例如遠程信息處理器52,其用于處理存儲器內(nèi)的文本和功能并與以下系統(tǒng)模塊聯(lián)合在一起。預(yù)處理器214從文本源212接收文本并將文本轉(zhuǎn)換成合適的詞等。合成引擎216將預(yù)處理器214的輸出轉(zhuǎn)換成合適的語言單元如短語、從句和/或句子。一個或多個語音庫218存儲記錄的語音。單元選擇器220從數(shù)據(jù)庫218中選擇與合成引擎216的輸出對應(yīng)的最好的存儲的語言單元。后處理器222修改或調(diào)整一個或多個被選擇的存儲的語音單元。將一個或多個語言模型224作為合成引擎216的輸入,并且將一個或多個聲學(xué)模型226作為單元選擇器220的輸入。系統(tǒng)210還可包括將選擇的語言單元轉(zhuǎn)換成音頻信號的聲學(xué)接口 228和揚聲器230,例如遠程信息處理音頻系統(tǒng)的揚聲器,以便將音頻信號轉(zhuǎn)換成聽得見的語音。系統(tǒng)210可以進一步包括麥克風(fēng)-例如遠程信息處理麥克風(fēng)32和聲學(xué)接口 232以將語音數(shù)字化成聲學(xué)數(shù)據(jù)用作為后處理器222的反饋。文本源212可在任何合適的介質(zhì)中并可包括任何合適的內(nèi)容。例如,文本源212可以是一個或多個掃描的文件、文本文件或應(yīng)用程序的數(shù)據(jù)文件或任何其他的合適的計算機文件等。文本源212可包括將被合成語音的詞、數(shù)字、符號和/或標(biāo)點符號,并輸出至文本轉(zhuǎn)換器214。可以使用任何合適數(shù)量和類型的文本源。預(yù)處理器214將來自文本源212的文本轉(zhuǎn)換成詞、識別碼等。例如,當(dāng)文本是數(shù)字格式時,預(yù)處理器214可以將數(shù)字轉(zhuǎn)換成對應(yīng)的詞。在另一個例子中,當(dāng)文本是標(biāo)點符號、用大寫字母或其它如變音的特殊符號進行強調(diào)以指示適當(dāng)?shù)闹匾艉驼Z調(diào)、下劃線或粗體時,預(yù)處理器214可同樣將它們轉(zhuǎn)換成適合合成引擎216和/或單元選擇器220使用的輸出。合成引擎216接收文本轉(zhuǎn)換器214的輸出并能夠?qū)⒃撦敵雠帕谐煽砂ㄒ粋€或多個句子、從句、短語、詞、詞根和/或類似的語言單元。引擎216可使用語言模型224以協(xié)助協(xié)調(diào)語言單元的最有可能的排列。語言模型224在將文本轉(zhuǎn)換器214的輸出排列成語言單元時提供規(guī)則、語法和/或語義。模型224還可定義在任何給定TTS模式、任何給定時間下系統(tǒng)210期望的整個語言單元,和/或可提供規(guī)則等,從而控制哪種類型的語言單元和/或韻律可以在邏輯上遵循其他類型的語言單元和/或韻律以形成聽起來自然的語音。語言單元可由同音字組成,如音素字符串等,并且可以是音素HMM的形式。語音庫218包括來自一個或多個人的預(yù)記錄的語音。語音可包括預(yù)記錄的句子、從句、短語、詞、預(yù)記錄詞的詞根等。語音庫218還可包括與預(yù)記錄語音相關(guān)的數(shù)據(jù),例如用于識別由單元選擇器220使用的被記錄的語音段的元數(shù)據(jù)??梢允褂萌魏魏线m類型和數(shù)量的語音庫。單元選擇器220將合成引擎216的輸出與存儲的語音數(shù)據(jù)進行比較,選擇與合成引擎的輸出對應(yīng)最好的存儲的語音。由單元選擇器220選擇的語音可包括預(yù)記錄的句子、從句、短語、詞、預(yù)記錄詞的詞根等。選擇器220可使用聲學(xué)模型226協(xié)助比較和選擇最有可能的存儲語音或?qū)?yīng)最好的存儲語音的候選。聲學(xué)模型226可與選擇器220 —起用于對合成引擎輸出數(shù)據(jù)和存儲的語音數(shù)據(jù)進行比較和對比,評估其間的差異或相似的幅度,并最終利用決策邏輯以確定匹配最好的存儲語音數(shù)據(jù)和輸出相應(yīng)的存儲語音。通常,匹配最好的語音數(shù)據(jù)是用本領(lǐng)域技術(shù)人員已知的任何各種技術(shù)進行確定的與合成引擎216的輸出的差異性最小或與輸出概率最高的數(shù)據(jù)。這些技術(shù)包括動態(tài)時間彎曲分類器、人工智能技術(shù)、神經(jīng)網(wǎng)絡(luò)、無音素識別器和/或如隱馬爾可夫模型(HMM)引擎的概率模式匹配器。本領(lǐng)域技術(shù)人員已知,HMM引擎用于產(chǎn)生多個TTS模型的候選或假設(shè)。在通過語音的聲學(xué)特征分析最終確定和選擇表示合成引擎輸出的最有可能正確的解釋時考慮假設(shè)。更具體地,HMM引擎產(chǎn)生以語言單元假設(shè)排名“N最佳”列表的形式的統(tǒng)計模型,給定一個或另一個語言單元根據(jù)計算的HMM置信值或聲學(xué)數(shù)據(jù)的觀察序列的概率,例如通過貝葉斯定理的應(yīng)用程序。在一個實施例中,單元選擇器220的輸出可直接傳送至聲學(xué)接口 228或沒有進行后處理的通過后處理器222。在另一個實施例中,后處理器222可接收單元選擇器220的輸出以進行進一步的處理。無論哪一種情況,聲學(xué)接口 228都將數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換成模擬音頻信號。接口 228可以是數(shù)字模擬轉(zhuǎn)換設(shè)備、電路和/或軟件等。揚聲器230是電聲換能器,其將模擬音頻信號轉(zhuǎn)換成用戶可以聽到并且麥克風(fēng)32可接收的語音。方法現(xiàn)在轉(zhuǎn)向圖3,該圖示出了一種語音合成方法300。圖3的方法300可以在車輛遠程信息處理單元30的操作環(huán)境中使用圖2的TTS系統(tǒng)210的合適程序來執(zhí)行,也可以使用圖1所示的其他組件的合適的硬件和程序?;谏鲜鱿到y(tǒng)的描述和結(jié)合剩下的附圖對下面描述的方法的討論,任何特定的實施型式的這些特征對于本領(lǐng)域技術(shù)人員都是已知的。本領(lǐng)域技術(shù)人員也認識到,該方法可使用其他操作環(huán)境中的其他TTS系統(tǒng)進行執(zhí)行??傮w上,方法300包括在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入、將文本輸入處理成合成語音、確定合成語音難以理解和將文本輸入再處理成后續(xù)合成語音,其通過揚聲器輸出給用戶。通過預(yù)測合成語音的可懂度,可以將合成語音確定為難以理解,并確定該預(yù)測的可懂度低于最小閾值。再次參考圖3,方法300以任何合適的方式在步驟305開始。例如,車輛使用者啟動與遠程信息處理單元30的用戶接口的交互,優(yōu)選通過按壓用戶接口按鈕34來開始會話,其中當(dāng)操作在TTS模式時用戶從遠程信息處理單元30接收TTS音頻。在一個示例性實施例中,方法300可作為遠程信息處理單元30的導(dǎo)航路徑應(yīng)用程序的一部分開始。在步驟310,在TTS系統(tǒng)中接收文本輸入。例如,文本輸入可包括來自TTS系統(tǒng)210的文本源212的一串字母、數(shù)字、符號等。在步驟315,使用該系統(tǒng)的處理器將文本輸入處理成合成語音。首先,例如,文本輸入可被預(yù)處理以便將文本輸入轉(zhuǎn)換成適合于語音合成的輸出。例如,預(yù)處理器214可將接收自文本源212的文本轉(zhuǎn)換成適合于合成引擎216使用的字、標(biāo)識符等。第二,例如,輸出可被排列成語言單元。例如,合成引擎216可接收文本轉(zhuǎn)換器214的輸出,使用語言模型224可以將輸出排列成語言單元,其可包括一個或多個句子、從句、短語、詞、詞根和/或類似參量。語言單元可由同音字組成,如音素字符串等。第三,例如,語言單元可以與存儲的語音數(shù)據(jù)進行比較,與語言單元對應(yīng)最好的語音可以被選擇為輸入文本的語音代表。例如,單元選擇器220可使用聲學(xué)模型228對合成引擎216輸出的語言單元和存儲在第一語音庫218a中的語音數(shù)據(jù)進行比較,并選擇其相關(guān)數(shù)據(jù)與合成引擎的輸出對應(yīng)的最好的存儲語音。在步驟320,可以預(yù)測來自步驟315的合成語音的可懂度。可以使用任何可用和已知的預(yù)測語音可懂度的方法。例如,可懂度指數(shù)(Al)可用于預(yù)測在特定收聽條件下的語音可懂度,如在給定水平的語音強度下具有給定水平的背景噪聲的房間里。Al是語音信號的振幅譜函數(shù)和超過背景噪聲的閾值水平的頻譜的量。Al可以在O到I的尺度上測量。在另一個例子中,語言傳輸指數(shù)(STI)可用于表達通信通道-如系統(tǒng)或房間攜帶包含在語音中的信息的能力,是語音可懂度的間接測量。STI可以在O到I的尺度上測量。在進一步的例子中,語言干擾級(SIL)可用于表征人耳有最高靈敏度的頻率范圍內(nèi)的噪音,并且從倍頻帶中測量的聲壓級進行計算。SIL可以在600到4800Hz的尺度上進行測量,其可包括一些如600-1200Hz、1200-2400Hz和2400_4800Hz的倍頻帶。SIL也可包括倍頻帶的平均級。語音可懂度可以任何合適的方式使用一個或多個上述提及的指數(shù)進行預(yù)測。例如,可以使用兩個或多個指數(shù)并且每一個可以被平均,或以任何合適的方式進行加權(quán),例如用來反映一個指數(shù)比另一個更好的預(yù)測能力。更具體地,在多元回歸模型中可使用兩個或更多個指數(shù),其可根據(jù)主觀平均意見得分來為模型計算適當(dāng)?shù)臋?quán)重。建立模型時可以使用任何合適的技術(shù),包括最小均方誤差、最小二乘估計等。在另一個例子中,語音可懂度可根據(jù)已提交的名為“ASSESSINGINTELLIGIBILITYOF SYNTHESIZED SPEECH”的美國專利申請中公開的技術(shù)進行估計或預(yù)測,該申請已轉(zhuǎn)讓給本申請的受讓人且全部內(nèi)容在此通過引用并入。在步驟325,可以確定在步驟320中預(yù)測的可懂度是否低于最小閾值。僅是為了說明,適用于Al和/或STI的最小閾值在O至I的尺度下可以是0.8。在步驟330,如果在步驟325中確定預(yù)測的可懂度不低于最小閾值,則合成語音可通過揚聲器輸出給用戶。例如,如果預(yù)測可懂度為0.9 ;比說明的最小閾值0.8大,那么該語音被輸出給用戶。例如,通過選擇器220從數(shù)據(jù)庫218中選擇來自用戶的預(yù)記錄語音,其可通過接口 228和揚聲器230進行輸出。在步驟335,如果在步驟325中確定預(yù)測的可懂度低于最小閾值,則調(diào)整與處理文本輸入共同使用的模型。例如,如果預(yù)測可懂度為0.6 ;比說明的最小閾值0.8小,那么調(diào)整模型。例如,一個或多個聲學(xué)模型226可包括TTS隱藏馬爾可夫模型(HMM),其可以任何合適的方式進行調(diào)整??梢栽谶h程信息處理單元30或呼叫中心20中調(diào)整模型。在更具體的例子中,可使用最大似然線性回歸(MLLR)算法調(diào)整模型,該算法使用韻律屬性的不同變體,包括語調(diào)、語速、譜能、音調(diào)、重音、發(fā)音和/或類似參量。兩個或更多個不同屬性和語言可懂度(SI)之間的關(guān)系可以用任何合適的方式進行定義。例如,SI分數(shù)可根據(jù)公式計算為加權(quán)的韻律屬性的和,例如SI = a*重音+b*語調(diào)+c*語速。所述模型可使用表示屬性的高斯概率密度函數(shù)進行估計,其中權(quán)重a、b、c可以調(diào)整至獲得最有可能的可以使SI比最小閾值大的模型。高斯混合模型和參數(shù)可使用最大似然回歸模型或任何其他合適的技術(shù)進行估計。每一個MLLR特征可以任何合適的方式進行加權(quán),例如用來反映一個特征比另一個具有更大的相關(guān)性。在一個實施例中,在語音識別模型的開發(fā)過程中,對特征進行選擇和加權(quán)可在語音識別運行前進行。在另一個實施例中,對特征進行選擇和加權(quán)可在語音識別運行的過程中進行??墒褂米钚【秸`差(MMSE)的迭代算法、在建立階段中訓(xùn)練的神經(jīng)網(wǎng)絡(luò)等進行加權(quán)。在步驟340,文本輸入可再處理成后續(xù)合成語音以校正難以理解的合成語音。例如,在步驟335調(diào)整的模型可用于對文本輸入進行再處理以使得后續(xù)合成語音可以理解。如本發(fā)明前面關(guān)于TTS系統(tǒng)210的討論,后處理器222可用于以任何合適的方式修改存儲的語音。如虛線處所示,調(diào)整后的TTS HMM可回饋至上游以改善后續(xù)語音的選擇。在步驟345,可以預(yù)測后續(xù)合成語音的可懂度,例如如上面關(guān)于步驟320的討論。在步驟350,可以確定來自步驟345的預(yù)測的可懂度是否低于最小閾值。如果不低于最小閾值,則方法進行到步驟330。但是,如果低于閾值,則方法循環(huán)回到步驟335。在步驟355,方法可以任何合適的方式結(jié)束?,F(xiàn)在轉(zhuǎn)到圖4,該圖示出了另一種語音合成方法400。圖4的方法400可以在車輛遠程信息處理單元30的操作環(huán)境中使用圖2的TTS系統(tǒng)210的合適程序來執(zhí)行,也可以使用圖1所示的其他組件的合適的硬件和程序?;谏鲜鱿到y(tǒng)的描述和結(jié)合剩下的附圖對下面描述方法的討論,任何特定的實施型式的這些特征對于本領(lǐng)域技術(shù)人員都是已知的。本領(lǐng)域技術(shù)人員也認識到,該方法可使用其他操作環(huán)境中的其他TTS系統(tǒng)進行執(zhí)行??傮w上,方法400包括在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入、將文本輸入處理成合成語音、確定該合成語音是難以理解的和將該文本輸入再處理成后續(xù)合成語音,其通過揚聲器輸出給用戶。通過經(jīng)由揚聲器將合成語音輸出給用戶并從用戶接收合成語音是難以理解的指示,可以確定合成語音是難以理解的。再次參考圖4,方法400以任何合適的方式在步驟405開始,例如像上文關(guān)于步驟305討論的一樣。在步驟410,在TTS系統(tǒng)中接收文本輸入,例如像上文關(guān)于步驟310討論的一樣。在步驟415,使用系統(tǒng)的處理器將文本輸入處理成合成語音,例如像上文關(guān)于步驟315討論的一樣。在步驟420,通過揚聲器將合成語音輸出給用戶,例如像上文關(guān)于步驟350討論的一樣。在步驟425,可以從用戶接收合成語音是難以理解的指示。例如,用戶可發(fā)出任何合適的指示,包括“請再說一遍? ”或“什么? ”或“請重復(fù)”等。該指示可通過遠程信息處理單元30的遠程信息處理麥克風(fēng)32進行接收并傳遞給語音識別系統(tǒng)以用任何合適的方式來識別指示。語音識別和相關(guān)的系統(tǒng)在本領(lǐng)域是已知的,由美國專利公開號N0.2011/0144987進行公開,該申請被轉(zhuǎn)讓給本申請的受讓人并其全部內(nèi)容在此通過引用并入本文。此后,識別出的指示可以任何合適的方式傳遞給TTS系統(tǒng)210。在步驟430,用戶的交流能力被識別。例如,用戶被識別為新手、專家、使用母語的人、使用非母語的人等。本領(lǐng)域普通技術(shù)人員熟知區(qū)分母語和非母語以及新手和專家的技術(shù)。不過,優(yōu)選的技術(shù)可以是基于在ASR系統(tǒng)中檢測給定詞典中詞的不同發(fā)音。在步驟435,文本輸入被再處理成后續(xù)合成語音以校正難以理解的合成語音。在一個例子中,后續(xù)合成語音可以比合成語音更慢。更具體地,后續(xù)合成語音的語速可以比合成語音的語速更慢。在另一個例子中,后續(xù)合成語音可以比合成語音更易于理解。更具體地,為了更好的語境和理解,后續(xù)合成語音可以比前面的合成語音更詳細。例如,合成語音用語-諸如“號碼”可以被如“請說出你想打電話的聯(lián)系人的姓名”的后續(xù)合成語音代替。在一個實施例中,基于步驟430中識別的用戶交流能力產(chǎn)生后續(xù)合成語音。例如,如果用戶被識別為一個新手或一個使用非母語的人,那么后續(xù)合成語音可以更簡單和/或更慢。在另一個例子中,如果用戶被識別為一個新手或一個使用非母語的人,那么后續(xù)合成語音可包括與之前的語音輸出不同的用語。在步驟440,可以通過揚聲器將后續(xù)合成語音輸出給用戶,例如像上文關(guān)于步驟350討論的一樣。在步驟445,方法可以任何合適的方式結(jié)束。所述方法或其部分可通過包括在計算機可讀介質(zhì)上的指令的計算機程序產(chǎn)品執(zhí)行,所述產(chǎn)品由一個或多個計算機的一個或多個處理器使用,用于執(zhí)行一個或多個方法步驟。計算機程序產(chǎn)品可包括一個或多個由源代碼、目標(biāo)代碼、可執(zhí)行代碼或其他格式的程序指令組成的軟件程序;一個或多個固件程序;或硬件描述語言(HDL)文件;和任何程序相關(guān)數(shù)據(jù)。數(shù)據(jù)可包括數(shù)據(jù)結(jié)構(gòu)、查找表或任何其他合適格式的數(shù)據(jù)。程序指令可包括程序模塊、例程、程序、對象、組件和/或類似物。計算機程序可在臺計算機或彼此通信的多臺計算機上執(zhí)行。程序可在包括一個或多個存儲設(shè)備、制品等的計算機可讀介質(zhì)上實施。計算機可讀介質(zhì)的例子包括計算機系統(tǒng)存儲器-如RAM(隨機存取器)、R0M(只讀存儲器);半導(dǎo)體存儲器-如EPR0M(可擦除可編程ROM)、EEPROM(電可擦除可編程ROM)、快閃存儲器;磁盤或光盤或磁帶;和/或類似物。計算機可讀介質(zhì)還可包括計算機到計算機的連接,例如當(dāng)數(shù)據(jù)通過網(wǎng)絡(luò)或其他通信連接(有線、無線或他們的組合)被傳送和提供時。上述例子的任何組合也都包括在計算機可讀介質(zhì)的范疇內(nèi)。因此,可以理解,所述方法可由任何電子物品和/或設(shè)備至少部分地執(zhí)行,該電子物品和/或設(shè)備能執(zhí)行與所公開的方法的一個或多個步驟對應(yīng)的指令??梢岳斫?,前面的內(nèi)容是對本發(fā)明一個或多個優(yōu)選實施例的描述。本發(fā)明并不局限于本文公開的具體實施例,而是僅由所附權(quán)利要求書進行限定。此外,與具體實施例相關(guān)的前面的描述中包含的陳述并不作為本發(fā)明的范圍或權(quán)利要求中使用的術(shù)語的定義的限定,除非上面明確定義了術(shù)語或短語。其他不同的實施例和所公開的實施例的不同變化和變形對于本領(lǐng)域技術(shù)人員來說是顯而易見的。例如,本發(fā)明可應(yīng)用于其他語音信號處理領(lǐng)域,例如移動通信、語音互聯(lián)網(wǎng)協(xié)議的應(yīng)用和類似領(lǐng)域。所有這樣的其他實施例、變化和變形都在所附權(quán)利要求的范圍內(nèi)。本說明書和權(quán)利要求中使用的術(shù)語“例如”、“如”、“諸如”和“類似”,以及動詞“包含”、“具有”、“包括”和他們其他的動詞形式,當(dāng)與一個或多個組件或其他項目列表配合使用時,每一個都被解釋為開放的,意思是列表不被認為排除其他附加組件或項目。其他術(shù)語應(yīng)被解釋為使用其最寬的合理含義,除非它們用在需要不同解釋的上下文中。
權(quán)利要求
1.一種語音合成方法,包括下列步驟: (a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入; (b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音; (C)確定該合成語音是難以理解的; (d)將該文本輸入再處理成后續(xù)合成語音以校正該難以理解的合成語音;和 (e)通過揚聲器將該后續(xù)合成語音輸出給用戶。
2.如權(quán)利要求1的方法,其中步驟(C)包括: (Cl)預(yù)測該合成語音的可懂度;和 (c2)確定來自步驟(Cl)的預(yù)測可懂度低于最小閾值。
3.如權(quán)利要求2的方法,在步驟(c)和(d)之間進一步包括: (f)調(diào)整與步驟(d)結(jié)合使用的模型。
4.如權(quán)利要求3的方法,在步驟(e)之后進一步包括: (g)預(yù)測該后續(xù)合成語音的可懂度; (h)確定來自步驟(g)的預(yù)測可懂度是否低于最小閾值; (i)如果在步驟(h)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該后續(xù)合成語音輸出給用戶;以及,否則 (j)重復(fù)步驟(f)至(j)。
5.如權(quán)利要求1的方法,其中步驟(c)包括: (cl)通過揚聲器將該合成語音輸出給用戶;和 (c2)從用戶接收該合成語音難以理解的指示。
6.如權(quán)利要求5的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音簡單。
7.如權(quán)利要求5的方法,其中在步驟(d)中該后續(xù)合成語音比合成語音慢。
8.如權(quán)利要求5的方法,進一步包括識別用戶的交流能力,其中在步驟(d)中基于識別出的交流能力產(chǎn)生后續(xù)合成語音。
9.一種語音合成方法,包括下列步驟: (a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入; (b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音; (C)預(yù)測該合成語音的可懂度; (d)確定來自步驟(C)的預(yù)測可懂度是否低于最小閾值; (e)如果在步驟(d)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該合成語音輸出給用戶; (f)如果在步驟(d)中確定該預(yù)測可懂度低于該最小閾值,則調(diào)整與處理文本輸入結(jié)合使用的模型; (g)將該文本輸入再處理成后續(xù)合成語音; (h)預(yù)測該后續(xù)合成語音的可懂度; (i)確定來自步驟(h)的預(yù)測可懂度是否低于最小閾值; (j)如果在步驟(i)中確定該預(yù)測可懂度不低于該最小閾值,則通過揚聲器將該后續(xù)合成語音輸出給用戶;以及,否則(k)重復(fù)步驟(f)至(k)。
10.一種語音合成方法,包括下列步驟:(a)在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入;(b)使用該系統(tǒng)的處理器將該文本輸入處理成合成語音;(Cl)通過揚聲器將該合成語音輸出給用戶;(c2)從用戶接收該合成語音難以理解的指示;(d)將文本輸入再處理成后續(xù)合成語音以校正難以理解的合成語音;和(e)通過揚聲器將該后續(xù)合成語音輸出給用戶。
全文摘要
一種語音合成的方法和系統(tǒng)。在文本語音轉(zhuǎn)換系統(tǒng)中接收文本輸入,并且使用該系統(tǒng)的處理器將文本輸入處理成合成語音,該合成語音被確定為難以理解的。將文本輸入再處理成后續(xù)合成語音并通過揚聲器輸出給用戶以校正難以理解的合成語音。在一個實施例中,通過預(yù)測合成語音的可懂度,并確定預(yù)測出的可懂度低于最小閾值,可以將合成語音確定為難以理解的。在另一個實施例中,通過經(jīng)由揚聲器將合成語音輸出給用戶并從用戶接收合成語音難以理解的指示,可以將合成語音確定為難以理解的。
文檔編號G10L13/08GK103151037SQ201210460440
公開日2013年6月12日 申請日期2012年9月27日 優(yōu)先權(quán)日2011年9月27日
發(fā)明者G·塔爾瓦, R·秦賈爾瓦拉延 申請人:通用汽車有限責(zé)任公司