基于語言獨(dú)立女性語音數(shù)據(jù)的男性聲學(xué)模型適應(yīng)的制作方法

文檔序號(hào)：2836065閱讀：460來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于語言獨(dú)立女性語音數(shù)據(jù)的男性聲學(xué)模型適應(yīng)的制作方法
基于語言獨(dú)立女性語音數(shù)據(jù)的男性聲學(xué)模型適應(yīng)技術(shù)領(lǐng)域
本發(fā)明總體涉及自動(dòng)語音識(shí)別。
技術(shù)背景
自動(dòng)語音識(shí)別(ASR)技術(shù)使得配備有麥克風(fēng)的計(jì)算設(shè)備能夠解釋語音，從而提供對傳統(tǒng)人-機(jī)輸入設(shè)備(諸如鍵盤和小鍵盤)的替代方式。ASR系統(tǒng)使用聲學(xué)模型來識(shí)別語音。聲學(xué)模型是對構(gòu)成語音話語，如詞，或音素或其他子詞的一個(gè)或多個(gè)聲音的統(tǒng)計(jì)表示。通過訓(xùn)練過程產(chǎn)生話語的聲學(xué)模型，訓(xùn)練過程包括記錄在多個(gè)語境下來自許多人的話語的多個(gè)實(shí)例的音頻，以及將這些話語實(shí)例編譯成話語的一個(gè)或多個(gè)統(tǒng)計(jì)表示。例如，可以通過 50個(gè)男人和50個(gè)女人每人在一個(gè)或多個(gè)環(huán)境下說出每個(gè)數(shù)字10次來訓(xùn)練用于數(shù)字0-9的聲學(xué)模型。因此，對于每個(gè)數(shù)字，將會(huì)有500個(gè)女性話語實(shí)例和500個(gè)男性話語實(shí)例。每個(gè)數(shù)字的所有話語實(shí)例可以被編譯成每個(gè)數(shù)字的一個(gè)或多個(gè)不區(qū)分男女的統(tǒng)計(jì)表示，或者每個(gè)數(shù)字的女性話語實(shí)例可以被編譯成每個(gè)數(shù)字的一個(gè)或多個(gè)女性統(tǒng)計(jì)表示且每個(gè)數(shù)字的男性話語實(shí)例可以被編譯成每個(gè)數(shù)字的一個(gè)或多個(gè)男性統(tǒng)計(jì)表示。
但是ASR遇到的問題是對于某些人口統(tǒng)計(jì)的女性說話者來說可能有很少甚至沒有訓(xùn)練數(shù)據(jù)可用。例如，在一些人口中，女性聲學(xué)模型訓(xùn)練數(shù)據(jù)很難或無法獲得。在另一示例中，在一些人口中，許多女性目前不駕駛，因此缺乏統(tǒng)計(jì)學(xué)上有意義的車內(nèi)女性語音數(shù)據(jù)。這種數(shù)據(jù)的缺乏使得很難改善對于某些女性用戶的語音識(shí)別性能。發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)實(shí)施例，提供一種產(chǎn)生在自動(dòng)語音識(shí)別中使用的代理聲學(xué)模型的方法。所述方法包括步驟(a)根據(jù)經(jīng)由麥克風(fēng)從第一語言的男性說話者接收的語音訓(xùn)練聲學(xué)模型；以及(b)響應(yīng)于來自第二語言的女性說話者的語言獨(dú)立語音數(shù)據(jù)使在步驟 (a)中訓(xùn)練的聲學(xué)模型適應(yīng)，以產(chǎn)生代理聲學(xué)模型，從而在對來自第一語言的女性說話者的話語的語音識(shí)別運(yùn)行時(shí)間期間使用。
根據(jù)本發(fā)明的另一實(shí)施例，提供一種自動(dòng)語音識(shí)別的方法，包括下述步驟(a)經(jīng)由麥克風(fēng)從第一語言的女性說話者接收話語；(b)使用自動(dòng)語音識(shí)別預(yù)處理器對該話語進(jìn)行預(yù)處理，以產(chǎn)生聲學(xué)特征向量；(c)確定所接收話語的至少一個(gè)共振峰頻率；(d)確認(rèn)來自第二語言的女性說話者的語音數(shù)據(jù)中的多個(gè)共振峰頻率帶中的與步驟(c)確定的至少一個(gè)共振峰頻率相對應(yīng)的至少一個(gè)；以及(e)響應(yīng)于確認(rèn)步驟(d)使根據(jù)來自第一語言的男性說話者的語音訓(xùn)練的聲學(xué)模型適應(yīng)，以產(chǎn)生用于第一語言的女性說話者的代理聲學(xué)模型。
本發(fā)明還提供了如下方案方案1. 一種產(chǎn)生用在自動(dòng)語音識(shí)別中的代理聲學(xué)模型的方法，包括步驟(a)根據(jù)經(jīng)由麥克風(fēng)從第一語言的男性說話者接收的語音訓(xùn)練聲學(xué)模型；以及(b)響應(yīng)于來自第二語言的女性說話者的語言獨(dú)立語音數(shù)據(jù)使在步驟(a)中被訓(xùn)練的聲學(xué)模型適應(yīng)，以產(chǎn)生代理聲學(xué)模型，從而在對來自第一語言的女性說話者的話語的語音識(shí)別運(yùn)行時(shí)間期間使用。
方案2.如方案1所述的方法，其中，在語音識(shí)別運(yùn)行時(shí)間之前實(shí)施適應(yīng)步驟(b)。
方案3.如方案1所述的方法，其中，在語音識(shí)別運(yùn)行時(shí)間期間對來自第一語言的女性說話者的話語實(shí)施適應(yīng)步驟(b)。
方案4.如方案3所述的方法，其中，響應(yīng)于識(shí)別出來自第二語言的女性說話者的語音數(shù)據(jù)中的多個(gè)共振峰頻帶中的與在來自第一語言的女性說話者的話語中確定的至少一個(gè)共振峰頻率相對應(yīng)的至少一個(gè)，來實(shí)施適應(yīng)步驟(b)。
方案5.如方案4所述的方法，其中，響應(yīng)于識(shí)別出來自第二語言的女性說話者的語音數(shù)據(jù)中的多個(gè)共振峰頻帶中的所述至少一個(gè)，通過對在步驟(a)中被訓(xùn)練的聲學(xué)模型進(jìn)行頻率規(guī)整來實(shí)施適應(yīng)步驟(b)。
方案6.如方案4所述的方法，其中，在來自第一語言的女性說話者的話語中確定的至少一個(gè)共振峰頻率是所接收的話語中的多個(gè)共振峰頻率的平均。
方案7.如方案6所述的方法，其中，所接收的話語中的多個(gè)共振峰頻率是來自第一共振峰、第二共振峰或第三共振峰中的至少一個(gè)。
方案8.如方案6所述的方法，其中，確定步驟(C)的至少一個(gè)共振峰頻率包括第一共振峰、第二共振峰和第三共振峰。
方案9. 一種自動(dòng)語音識(shí)別的方法，包括步驟(a)經(jīng)由麥克風(fēng)從第一語言的女性說話者接收話語；(b)使用自動(dòng)語音識(shí)別預(yù)處理器對話語進(jìn)行預(yù)處理，以產(chǎn)生聲學(xué)特征向量；(c)確定所接收話語的至少一個(gè)共振峰頻率；(d)識(shí)別來自第二語言的女性說話者的語音數(shù)據(jù)中的多個(gè)共振峰頻帶中的與步驟(C) 中確定的至少一個(gè)共振峰頻率相對應(yīng)的至少一個(gè)；以及(e)響應(yīng)于識(shí)別步驟(d)使根據(jù)來自第一語言的男性說話者的語音訓(xùn)練的聲學(xué)模型適應(yīng)，以得到代理聲學(xué)模型，從而用于第一語言的女性說話者。
方案10.根據(jù)方案9所述的方法，還包括步驟(f)，其使用處理器以及在步驟(e) 被適應(yīng)的聲學(xué)模型對在步驟(b)產(chǎn)生的聲學(xué)特征向量進(jìn)行解碼，以產(chǎn)生所接收話語的多個(gè)假設(shè)。
方案11.根據(jù)方案10所述的方法，還包括步驟(g)，其對所述多個(gè)假設(shè)進(jìn)行后處理，從而將所述多個(gè)假設(shè)中的一個(gè)識(shí)別為所接收的語音。
方案12.根據(jù)方案9所述的方法，其中確定步驟(c)的至少一個(gè)共振峰頻率是所接收話語的多個(gè)共振峰頻率的平均。
方案13.根據(jù)方案12所述的方法，其中所接收話語的所述多個(gè)共振峰頻率包括第一共振峰、第二共振峰或第三共振峰中的至少一個(gè)。
方案14.根據(jù)方案9所述的方法，其中確定步驟(c)的至少一個(gè)共振峰頻率包括第一共振峰、第二共振峰和第三共振峰。
方案15.根據(jù)方案9所述的方法，其中適應(yīng)步驟(e)包括對聲學(xué)模型進(jìn)行頻率規(guī)整以產(chǎn)生代理聲學(xué)模型。

下面將結(jié)合附圖描述本發(fā)明的一個(gè)或多個(gè)優(yōu)選的示例性實(shí)施例，其中，相同的標(biāo)號(hào)表示相同的元件，其中圖1是描繪能夠利用在此公開的方法的通信系統(tǒng)的示例性實(shí)施例的框圖；圖2是示出能夠與圖1的系統(tǒng)一起使用且用于實(shí)施語音識(shí)別的示例性方法的自動(dòng)語音識(shí)別(ASR)系統(tǒng)的示例性實(shí)施例的框圖；圖3是示出產(chǎn)生在能夠在圖2的ASR系統(tǒng)中被執(zhí)行的在自動(dòng)語音識(shí)別中使用的聲學(xué)模型的方法的示例性實(shí)施例的流程圖；以及圖4是示出能夠在圖2的ASR系統(tǒng)中被執(zhí)行的自動(dòng)語音識(shí)別的方法的示例性實(shí)施例的流程圖。
具體實(shí)施方式
下面的描述描述了示例通信系統(tǒng)、可以與所述通信系統(tǒng)一起使用示例ASR系統(tǒng)以及可以與上述系統(tǒng)的一者或全部兩者一起使用的一個(gè)或多個(gè)示例方法。車輛遠(yuǎn)程信息處理單元(VTU)可以使用下面描述的方法，VTU是識(shí)別VTU的用戶說出的語音的部件。盡管下面描述的方法是可被執(zhí)行以用于VTU，但是將理解，該方法在任何類型車輛語音識(shí)別系統(tǒng)和其他類型語音識(shí)別系統(tǒng)中是可用的。例如，所述方法可以實(shí)施在啟用ASR的移動(dòng)計(jì)算設(shè)備或系統(tǒng)，個(gè)人計(jì)算機(jī)等中。
通信系統(tǒng)-參照圖1，示出包括移動(dòng)車輛通信系統(tǒng)10且可以用于實(shí)現(xiàn)在此公開的方法的示例性操作環(huán)境。通信系統(tǒng)10通常包括車輛12、一個(gè)或多個(gè)無線載波系統(tǒng)14、地面通信網(wǎng)絡(luò)16、計(jì)算機(jī)18和呼叫中心20。應(yīng)該理解，公開的方法可以與任何數(shù)量的不同系統(tǒng)一起使用，并且不被具體地限制到在此示出的操作環(huán)境。另外，系統(tǒng)10的架構(gòu)、結(jié)構(gòu)、設(shè)置和操作以及其各個(gè)部件是本領(lǐng)域公知的。因此，下面的段落僅提供對一個(gè)這種示例性系統(tǒng)10的簡要概述，然而，在此沒有示出的其他系統(tǒng)也可以采用公開的方法。
在示出的實(shí)施例中將車輛12描述為小客車，但是應(yīng)該理解，也可以使用任何其他車輛，包括摩托車、卡車、運(yùn)動(dòng)型多功能車(SUV)、休閑車(RV)、船只、航空器等。圖1中總體示出部分車輛電子設(shè)備觀，包括遠(yuǎn)程信息處理單元30、麥克風(fēng)32、一個(gè)或多個(gè)按鈕或其他控制輸入34、音頻系統(tǒng)36、可視顯示器38和GPS模塊40以及多個(gè)車輛系統(tǒng)模塊(VSM)42。這些設(shè)備的一部分可以直接連接到遠(yuǎn)程信息處理單元，例如，麥克風(fēng)32和按鈕34，而其他的是使用一個(gè)或多個(gè)網(wǎng)絡(luò)連接(諸如通信總線44或娛樂總線46)間接連接的。適當(dāng)網(wǎng)絡(luò)連接的示例包括控制器局域網(wǎng)絡(luò)(CAN)、面向媒體的系統(tǒng)傳輸(MOST)、本地互連網(wǎng)絡(luò)(LIN)、局域網(wǎng)(LAN)和其他適當(dāng)連接，諸如符合已知IS0、SAE和IEEE標(biāo)準(zhǔn)和規(guī)范的以太網(wǎng)或其他，僅列出一些。
遠(yuǎn)程信息處理單元30可以O(shè)EM是安裝的(嵌入的)或后市場設(shè)備，其能夠通過無線載波系統(tǒng)14和通過無線聯(lián)網(wǎng)進(jìn)行無線話音和/或數(shù)據(jù)通信，從而車輛能夠與呼叫中心20、其他啟用遠(yuǎn)程信息處理的車輛、或一些其他實(shí)體或設(shè)備進(jìn)行通信。遠(yuǎn)程信息處理單元優(yōu)選地使用無線電傳輸來建立與無線載波系統(tǒng)14的通信信道(話音信道和/或數(shù)據(jù)信道)，從而能夠通過信道發(fā)送和接收話音和/或數(shù)據(jù)傳輸。通過提供話音和數(shù)據(jù)通信，遠(yuǎn)程信息處理單元30使車輛能夠提供多種不同服務(wù)，包括與導(dǎo)航、電話、緊急援助、診斷、娛樂信息等相關(guān)的服務(wù)。可以使用現(xiàn)有技術(shù)中已知的技術(shù)通過數(shù)據(jù)連接(諸如通過數(shù)據(jù)信道的包數(shù)據(jù)傳輸)或者通過話音信道發(fā)送數(shù)據(jù)。對于包括話音通信(例如，與在呼叫中心20處的在線顧問或話音響應(yīng)單元)和數(shù)據(jù)通信(例如，向呼叫中心20提供GPS位置數(shù)據(jù)或車輛診斷數(shù)據(jù))的組合服務(wù)，系統(tǒng)可以使用通過話音信道的單獨(dú)呼叫以及按照需要在話音信道上進(jìn)行話音和數(shù)據(jù)傳輸之間的切換，并且這可以使用本領(lǐng)域技術(shù)人員公知的技術(shù)來實(shí)現(xiàn)。
根據(jù)一個(gè)實(shí)施例，遠(yuǎn)程信息處理單元30使用根據(jù)GSM或CDMA標(biāo)準(zhǔn)的蜂窩通信，并因此包括用于話音通信(例如，免提呼叫)的標(biāo)準(zhǔn)移動(dòng)電話芯片組50、用于數(shù)據(jù)傳輸?shù)臒o線調(diào)制解調(diào)器、電子處理設(shè)備52、一個(gè)或多個(gè)數(shù)字存儲(chǔ)設(shè)備M和雙天線56。應(yīng)該理解，可以通過存儲(chǔ)在遠(yuǎn)程信息處理單元中且通過處理器52執(zhí)行的軟件實(shí)現(xiàn)調(diào)制解調(diào)器，并且調(diào)制解調(diào)器可以是位于遠(yuǎn)程信息處理單元30內(nèi)部或外部的單獨(dú)硬件部件。調(diào)制解調(diào)器可以使用任何不同標(biāo)準(zhǔn)或協(xié)議來操作，諸如EVDO、CDMA、GPRS和EDGE。也可以使用遠(yuǎn)程信息處理單元30實(shí)現(xiàn)車輛與其他聯(lián)網(wǎng)的設(shè)備之間的無線聯(lián)網(wǎng)。為此，遠(yuǎn)程信息處理單元30可以被配置為根據(jù)一個(gè)或多個(gè)無線協(xié)議進(jìn)行無線通信，諸如IEEE 802. 11協(xié)議、WiMAX或藍(lán)牙中的任一個(gè)。當(dāng)用于諸如TCP/IP的分組交換數(shù)據(jù)通信時(shí)，遠(yuǎn)程信息處理單元可以配置有靜態(tài)IP 地址或者能夠設(shè)置為自動(dòng)從網(wǎng)絡(luò)上的另一設(shè)備(諸如路由器)或者從網(wǎng)絡(luò)地址服務(wù)器接收所分配的IP地址。
處理器52可以是能夠處理電子指令的任何類型的設(shè)備，包括微處理器、微控制器、主處理器、控制器、車輛通信處理器和專用集成電路(ASIC)。其可以是僅用于遠(yuǎn)程信息處理單元30的專用處理器，或者可以與其他車輛系統(tǒng)共享。處理器52執(zhí)行各種類型的數(shù)字化存儲(chǔ)指令，諸如存儲(chǔ)器M中存儲(chǔ)的軟件或固件程序，這些指令使遠(yuǎn)程信息處理單元30 能夠提供多種類型的服務(wù)。例如，處理器52能夠執(zhí)行程序或處理數(shù)據(jù)，以實(shí)現(xiàn)在此討論的方法的至少一部分。
遠(yuǎn)程信息處理單元30可以用于提供多樣化范圍的車輛服務(wù)，包括來自車輛的無線通信和/或到車輛的無線通信。這些服務(wù)包括結(jié)合基于GPS的車輛導(dǎo)航模塊40提供的建議路線指向和其他導(dǎo)航相關(guān)服務(wù)；結(jié)合一個(gè)或多個(gè)碰撞傳感器接口模塊(諸如車身控制模塊)(未示出)提供的安全氣囊部署通知和其他緊急或路邊援助相關(guān)的服務(wù)；使用一個(gè)或多個(gè)診斷模塊的診斷報(bào)告；以及娛樂信息相關(guān)服務(wù)，其中，音樂、網(wǎng)頁、電影、電視節(jié)目、視頻游戲和/或其他信息通過娛樂信息模塊(未示出)下載且被存儲(chǔ)以用于當(dāng)前或以后播放。上述列出的服務(wù)不是遠(yuǎn)程信息處理單元30的所有功能的詳盡列表，而是僅是遠(yuǎn)程信息處理單元30能夠提供的一些服務(wù)的列舉。此外，應(yīng)該理解，可以以遠(yuǎn)程信息處理單元30內(nèi)部或外部存儲(chǔ)的軟件指令的形式實(shí)現(xiàn)上述模塊的至少一部分，上述模塊的至少一部分可以是位于遠(yuǎn)程信息處理單元30內(nèi)部或外部的硬件部件，或者上述模塊的至少一部分可以彼此之間或者與車輛內(nèi)的其他系統(tǒng)集成和/或共享，僅闡述了幾種可能性。在將模塊實(shí)現(xiàn)為遠(yuǎn)程信息處理單元30外部的VSM 42的情況下，模塊可以使用車輛總線44與遠(yuǎn)程信息處理單元 30交換數(shù)據(jù)和命令。
GPS模塊40從GPS衛(wèi)星的星座60接收無線電信號(hào)。根據(jù)這些無線電信號(hào)，模塊 40可以確定車輛位置，用于向車輛駕駛員提供導(dǎo)航和其他位置相關(guān)服務(wù)?？梢栽陲@示器38 (或者車輛內(nèi)的其他顯示器)上呈現(xiàn)導(dǎo)航信息，或者可以用言辭地表示導(dǎo)航信息，諸如當(dāng)提供建議路線導(dǎo)航時(shí)用言辭進(jìn)行。可以使用車輛中專用導(dǎo)航模塊(可以是GPS模塊40的一部分)提供導(dǎo)航服務(wù)，或者可以通過遠(yuǎn)程信息處理單元30完成部分或全部導(dǎo)航服務(wù)，其中，為了向車輛提供導(dǎo)航地圖、地圖標(biāo)注(感興趣的點(diǎn)、餐館等)、路線計(jì)算等，向遠(yuǎn)程位置發(fā)送位置信息。為了其他目的，諸如車隊(duì)管理，位置信息可以提供給呼叫中心20或其他遠(yuǎn)程計(jì)算機(jī)系統(tǒng)，諸如計(jì)算機(jī)18。另外，可以通過遠(yuǎn)程信息處理單元30將新的或更新的地圖數(shù)據(jù)從呼叫中心20下載到GPS模塊40。
除了音頻系統(tǒng)36和GPS模塊40之外，車輛12可以包括電子硬件部件形式的其他車輛系統(tǒng)模塊(VSM)42，其遍布車輛定位且通常從一個(gè)或多個(gè)傳感器接收輸入，且使用感測的輸入執(zhí)行診斷、監(jiān)測、控制、報(bào)告和/或其他功能。優(yōu)選地，每個(gè)VSM 42通過通信總線44 連接到其他VSM以及連接到遠(yuǎn)程信息處理單元30，并且可以被編程以運(yùn)行車輛系統(tǒng)和子系統(tǒng)診斷測試。作為示例，一個(gè)VSM 42可以是引擎控制模塊(ECM)，其控制引擎操作的各個(gè)方面，諸如燃料點(diǎn)火和點(diǎn)火正時(shí)，另一 VSM 42可以是動(dòng)力系控制模塊，其調(diào)整車輛動(dòng)力系的一個(gè)或多個(gè)部件的操作，另一 VSM 42可以是車身控制模塊，其管理遍布車輛定位的各個(gè)電部件，例如，車輛的電動(dòng)門鎖和前燈。根據(jù)一個(gè)實(shí)施例，引擎控制模塊配備有車載診斷(OBD) 特征，其提供諸如從包括車輛排放物傳感器的各種傳感器接收的各種實(shí)時(shí)數(shù)據(jù)，并且提供標(biāo)準(zhǔn)化的一系列診斷故障碼(DTC)，這些碼允許技術(shù)人員快速識(shí)別和消除車輛內(nèi)的故障。如本領(lǐng)域的技術(shù)人員所知，上述VSM僅是可以在車輛12中使用的部分模塊的示例，許多其他情況也是可行的。
車輛電子設(shè)備觀還包括多個(gè)車輛用戶接口，該接口向車輛占用者提供用于提供和/或接收信息的手段，包括麥克風(fēng)32、按鈕34、音頻系統(tǒng)36和可視顯示器38。如在此使用，術(shù)語“車輛用戶接口，，廣泛地包括任何適當(dāng)形式的電子設(shè)備，包括硬件和軟件部件，該電子設(shè)備位于車輛上且使車輛用戶能夠與車輛的部件通信或者通過車輛的部件進(jìn)行通信。麥克風(fēng)32向遠(yuǎn)程信息處理單元提供音頻輸入，以使駕駛員或其他占用者能夠通過無線載波系統(tǒng)14提供話音命令和實(shí)現(xiàn)免提呼叫。為此，可以利用現(xiàn)有技術(shù)中已知的人機(jī)接口(HMI) 技術(shù)將麥克風(fēng)連接到車載自動(dòng)話音處理單元。按鈕34允許到遠(yuǎn)程信息處理單元30的手動(dòng)用戶輸入，以啟動(dòng)無線電話呼叫和提供其他數(shù)據(jù)、響應(yīng)或控制輸入。相對于一般服務(wù)援助呼叫，可以使用單獨(dú)的按鈕向呼叫中心20發(fā)起緊急呼叫。音頻系統(tǒng)36向車輛占用者提供音頻輸出，并且可以是專用獨(dú)立系統(tǒng)或者是主車輛音頻系統(tǒng)的一部分。根據(jù)在此示出的具體實(shí)施例，音頻系統(tǒng)36可操作地連接到車輛總線44和娛樂總線46，并且能夠提供AM、FM、衛(wèi)星無線電、⑶、DVD和其他多媒體功能?？梢越Y(jié)合或者獨(dú)立于上述娛樂信息模塊提供此功能?？梢曪@示器38優(yōu)選地是圖形顯示器，諸如儀表板上的觸摸屏或者擋風(fēng)玻璃反射出來的抬頭顯示器，并且可以用于提供多種輸入和輸出功能。由于圖1的接口僅是一個(gè)具體實(shí)施例的示例，因此也可以使用各種其他車輛用戶接口。
無線載波系統(tǒng)14優(yōu)選地是無線電話系統(tǒng)，包括多個(gè)手機(jī)信號(hào)塔70 (僅示出一個(gè))，一個(gè)或多個(gè)移動(dòng)交換中心(MSC) 72以及將無線載波系統(tǒng)14與地面網(wǎng)絡(luò)16連接所需的任何其他聯(lián)網(wǎng)部件。每個(gè)手機(jī)信號(hào)塔70包括發(fā)送和接收天線以及基站，其中，來自不同手機(jī)信號(hào)塔的基站直接連接到MSC 72或者通過諸如基站控制器的中間設(shè)備連接。無線系統(tǒng)14 可以實(shí)現(xiàn)任何適當(dāng)?shù)耐ㄐ偶夹g(shù)，例如，包括諸如AMPS的模擬技術(shù)，或者諸如CDMA (例如， CDMA2000)或GSM/GPRS的更新的數(shù)字技術(shù)。如本領(lǐng)域的技術(shù)人員所理解，各種手機(jī)信號(hào)塔/基站/MSC布置都是可行的，并且可以與無線系統(tǒng)14 一起使用。例如，基站和手機(jī)信號(hào)塔可以共同位于相同地點(diǎn)，或者他們可以彼此遠(yuǎn)離地定位，每個(gè)基站可以負(fù)責(zé)單個(gè)手機(jī)信號(hào)塔或者單個(gè)基站可以服務(wù)于各個(gè)手機(jī)信號(hào)塔，以及不同的基站可以連接到單個(gè)MSC，僅列出一些可行布置。
除了使用無線載波系統(tǒng)14之外，可以使用衛(wèi)星通信形式的不同無線載波系統(tǒng)，來提供與車輛的單向或雙向通信?？梢允褂靡粋€(gè)或多個(gè)通信衛(wèi)星62和上行鏈路發(fā)射站64來實(shí)現(xiàn)此功能。例如，單向通信可以是衛(wèi)星無線電服務(wù)，其中，發(fā)射站64接收節(jié)目內(nèi)容(新聞、音樂等)，節(jié)目內(nèi)容被打包用于上載，然后發(fā)送到衛(wèi)星62，衛(wèi)星62向訂購者廣播節(jié)目內(nèi)容。例如，雙向通信可以是使用衛(wèi)星62在車輛12與站64之間中繼電話通信的衛(wèi)星電話服務(wù)。如果被使用，則該衛(wèi)星電話可以在無線載波系統(tǒng)14的基礎(chǔ)上或者代替無線載波系統(tǒng)14地被使用。
地面網(wǎng)絡(luò)16可以是傳統(tǒng)基于地面的電信網(wǎng)絡(luò)，其連接到一個(gè)或多個(gè)陸上通信線電話并且將無線載波系統(tǒng)14連接到呼叫中心20。例如，地面網(wǎng)絡(luò)16可以包括公共交換電話網(wǎng)(PSTN)，諸如用于提供硬線電話、分組交換數(shù)據(jù)通信和互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的那些?？梢酝ㄟ^使用標(biāo)準(zhǔn)有線網(wǎng)絡(luò)、光纖或其他光網(wǎng)絡(luò)、電纜網(wǎng)絡(luò)、電源線、諸如無線局域網(wǎng)(WLAN)的其他無線網(wǎng)絡(luò)或者提供寬帶無線接入的網(wǎng)絡(luò)或者其組合實(shí)現(xiàn)地面網(wǎng)絡(luò)16的一段或多段。此外，呼叫中心20不必通過地面網(wǎng)絡(luò)16被連接，而是可以包括無線電話設(shè)備，從而其可以直接與無線網(wǎng)絡(luò)進(jìn)行通信，諸如無線載波系統(tǒng)14。
計(jì)算機(jī)18可以是通過諸如互聯(lián)網(wǎng)的私有或公共網(wǎng)絡(luò)可訪問的多個(gè)計(jì)算機(jī)之一。每個(gè)這種計(jì)算機(jī)18可以用于一種或多種目的，諸如可由車輛通過遠(yuǎn)程信息處理單元30和無線載波14訪問的web服務(wù)器。例如，其他這種可訪問的計(jì)算機(jī)18可以是服務(wù)中心計(jì)算機(jī)，用該計(jì)算機(jī)可以通過遠(yuǎn)程信息處理單元30從車輛上載診斷信息和其他車輛數(shù)據(jù)；車輛擁有者或其他訂購者使用的用于訪問或接收車輛數(shù)據(jù)或者設(shè)置或配置訂購者優(yōu)選項(xiàng)或控制車輛功能目的的客戶計(jì)算機(jī)；或者第三方存儲(chǔ)器，通過與車輛12或呼叫中心20或與這兩者通信來提供車輛數(shù)據(jù)或其他信息到該第三方存儲(chǔ)器或從其接收所述車輛數(shù)據(jù)或其他信息。計(jì)算機(jī)18還可以用于提供互聯(lián)網(wǎng)連接性，諸如DNS服務(wù)或者作為網(wǎng)絡(luò)地址服務(wù)器，其使用DHCP或其他適當(dāng)協(xié)議向車輛12分配IP地址。
呼叫中心20被設(shè)計(jì)為向車輛電子設(shè)備觀提供多個(gè)不同系統(tǒng)后端功能，并且根據(jù)在此示出的示例性實(shí)施例，呼叫中心20通常包括一個(gè)或多個(gè)交換機(jī)80、服務(wù)器82、數(shù)據(jù)庫 84、在線顧問86以及自動(dòng)話音應(yīng)答系統(tǒng)(VRS)88，所有這些都是本領(lǐng)域已知的。這些不同的呼叫中心部件優(yōu)先地通過有線或無線局域網(wǎng)90彼此連接。交換機(jī)80可以是專用交換 (PBX)交換機(jī)，路由進(jìn)入信號(hào)，從而通常通過普通電話將話音傳輸發(fā)送到在線顧問86或者使用VoIP將話音傳輸發(fā)送到自動(dòng)話音應(yīng)答系統(tǒng)88。在線顧問電話也可以使用VoIP，如圖 1的虛線所指示。可以通過交換機(jī)80與網(wǎng)絡(luò)90之間連接的調(diào)制解調(diào)器(未示出)實(shí)現(xiàn)通過交換機(jī)80的VoIP和其他數(shù)據(jù)通信。數(shù)據(jù)傳輸經(jīng)由調(diào)制解調(diào)器被傳送到服務(wù)器82和/或數(shù)據(jù)庫84。數(shù)據(jù)庫84可以存儲(chǔ)賬戶信息，諸如訂購者認(rèn)證信息、車輛標(biāo)識(shí)、個(gè)人資料記錄、行為模式和其他相關(guān)訂購者信息。還可以通過無線系統(tǒng)，諸如802. llx、GPRS等進(jìn)行數(shù)據(jù)傳輸。盡管所示出的實(shí)施例已被描述為它將被與使用在線顧問86的人工呼叫中心20聯(lián)合使用，但是可以理解，呼叫中心可以替代地使用VRS 88作為自動(dòng)顧問，或者可以使用VRS 88與在線顧問86的組合。
自動(dòng)語音識(shí)別系統(tǒng)-現(xiàn)轉(zhuǎn)到圖2，示出可以用于實(shí)施當(dāng)前公開的方法的ASR系統(tǒng)210的示例性架構(gòu)。通常，車輛占用者為了下面的一個(gè)或多個(gè)基本目的用言辭與自動(dòng)語音識(shí)別系統(tǒng)(ASR)進(jìn)行交互訓(xùn)練系統(tǒng)以理解車輛占用者的特定話音；存儲(chǔ)離散語音，諸如說出的用戶標(biāo)簽或說出的控制詞，如數(shù)字或關(guān)鍵字；或者為了諸如話音撥號(hào)、菜單導(dǎo)航、轉(zhuǎn)錄、服務(wù)請求、車輛設(shè)備或設(shè)備功能控制等的任何適當(dāng)目的而識(shí)別車輛占用者語音。通常，ASR從人類語音提取聲學(xué)數(shù)據(jù)，將該聲學(xué)數(shù)據(jù)與存儲(chǔ)的子詞數(shù)據(jù)進(jìn)行對照和對比，選擇能夠與其他選擇的子詞連結(jié)的適當(dāng)子詞，并且輸出連結(jié)后的各子詞或詞以用于后處理，諸如口述或轉(zhuǎn)錄、地址簿撥號(hào)、存儲(chǔ)到存儲(chǔ)器、訓(xùn)練ASR模型或適應(yīng)參數(shù)等。
ASR系統(tǒng)通常是本領(lǐng)域技術(shù)人員已知的，且圖2僅示出一個(gè)特定示例性ASR系統(tǒng) 210。系統(tǒng)210包括接收語音的設(shè)備，諸如遠(yuǎn)程信息處理麥克風(fēng)32，以及聲學(xué)接口 33，諸如遠(yuǎn)程信息處理單元30的具有模數(shù)轉(zhuǎn)換器以將語音轉(zhuǎn)換為聲學(xué)數(shù)據(jù)的聲卡。系統(tǒng)210還包括存儲(chǔ)器，諸如遠(yuǎn)程信息處理存儲(chǔ)器M，用于存儲(chǔ)聲學(xué)數(shù)據(jù)以及存儲(chǔ)語音識(shí)別軟件和數(shù)據(jù)庫，以及處理器52，諸如遠(yuǎn)程信息處理處理器52，以處理聲學(xué)數(shù)據(jù)。處理器與存儲(chǔ)器一起并且聯(lián)合下面的模塊來正常運(yùn)行一個(gè)或多個(gè)前端處理器、預(yù)處理器或者預(yù)處理器軟件模塊212，用于將語音的聲學(xué)數(shù)據(jù)流解析成參數(shù)表示，諸如聲學(xué)特征；一個(gè)或多個(gè)解碼器或解碼器軟件模塊214，用于將聲學(xué)特征解碼以產(chǎn)生與輸入語音話語相對應(yīng)的數(shù)字子詞或詞輸出數(shù)據(jù)；以及一個(gè)或多個(gè)后端處理器、后處理器或后處理器軟件模塊216，以用于將來自解碼器模塊 214的輸出數(shù)據(jù)用于任何適當(dāng)目的。
系統(tǒng)210還可以從任何其他適當(dāng)?shù)囊纛l源31接收語音，該音頻源能夠如實(shí)線所示地直接與預(yù)處理器軟件模塊212通信或者經(jīng)由聲學(xué)接口 33與預(yù)處理器軟件模塊212間接通信。例如，音頻源31可以包括音頻的遠(yuǎn)程信息處理源，諸如話音郵件系統(tǒng)，或者任何類型的其他遠(yuǎn)程信息處理服務(wù)。
一個(gè)或多個(gè)模塊或模型可以用作解碼器模塊214的輸入。首先，語法和/或詞素模型218可以提供管理哪個(gè)詞邏輯上可以在其他詞之后以形成正確句子的規(guī)則。從廣義上講，詞素或語法可以定義系統(tǒng)210在任意給定時(shí)間在任意給定ASR模式中期望的詞匯總體。例如，如果系統(tǒng)210處于用于訓(xùn)練命令的訓(xùn)練模式，則詞素或語法模型218可以包括系統(tǒng) 210已知和使用的所有命令。在另一示例中，如果系統(tǒng)210處于主菜單模式，則有效詞素或語法模型218可以包括系統(tǒng)210期望的所有主菜單命令，諸如呼叫、撥號(hào)、退出、刪除、目錄等。第二，聲學(xué)模型220幫助選擇與來自預(yù)處理器模塊212的輸入相對應(yīng)的最可能的子詞或詞。第三，詞模型222和句子/語言模型2M在將選擇的子詞或詞排列成詞或句子上下文時(shí)提供規(guī)則、語法和/或語義。另外，句子/語言模型2M可以定義系統(tǒng)210在任意給定時(shí)間在任意給定ASR模式中期望的句子總體，和/或可以提供管理哪些句子邏輯上可以在其他句子之后以形成正確擴(kuò)展語音的規(guī)則等。
根據(jù)替換性示例性實(shí)施例，ASR系統(tǒng)210的部分或全部可以駐留在處于車輛12的遠(yuǎn)程位置的諸如呼叫中心20的計(jì)算設(shè)備上，以及使用該計(jì)算設(shè)備進(jìn)行處理ASR系統(tǒng)210的部分或全部。例如，語法模型、聲學(xué)模型等可以存儲(chǔ)在呼叫中心20的服務(wù)器82和/或數(shù)據(jù)庫84之一的存儲(chǔ)器中且通信到車輛遠(yuǎn)程信息處理單元30用于車內(nèi)語音處理。類似地，可以使用呼叫中心20中的服務(wù)器82之一的處理器處理語音識(shí)別軟件。換句話說，ASR系統(tǒng) 210可以駐留在遠(yuǎn)程信息處理單元30中，或者以任何期望方式分布在呼叫中心20和車輛 12。
首先，從人類語音提取聲學(xué)數(shù)據(jù)，其中，車輛占用者向麥克風(fēng)32說話，麥克風(fēng)32將話語轉(zhuǎn)換成電信號(hào)且將此信號(hào)通信到聲學(xué)接口 33。麥克風(fēng)32中的聲音響應(yīng)元件捕獲占用者的語音話語作為空氣壓力的變化，并且將話語轉(zhuǎn)換為模擬電信號(hào)的相應(yīng)變化，諸如直流或電壓。聲學(xué)接口 33接收模擬電信號(hào)，首先對該模擬電信號(hào)進(jìn)行采樣，從而在離散時(shí)刻捕獲模擬信號(hào)的值，然后對其量化從而在每個(gè)采樣時(shí)刻將模擬信號(hào)的幅值轉(zhuǎn)換為連續(xù)數(shù)字語音數(shù)據(jù)流。換句話說，聲學(xué)接口 33將模擬電信號(hào)轉(zhuǎn)換為數(shù)字電信號(hào)。數(shù)字?jǐn)?shù)據(jù)是二進(jìn)制比特，其可以在遠(yuǎn)程信息處理存儲(chǔ)器M中進(jìn)行緩沖，然后由遠(yuǎn)程信息處理處理器52進(jìn)行處理，或者可以在由處理器52最初接收時(shí)被實(shí)時(shí)處理。
第二，預(yù)處理器模塊212連續(xù)數(shù)字語音數(shù)據(jù)流變換為聲學(xué)參數(shù)的離散序列。更具體地，處理器52執(zhí)行預(yù)處理器模塊212，以將數(shù)字語音數(shù)據(jù)分段為例如10-30 ms持續(xù)時(shí)間的交疊的語音或聲學(xué)幀。所述幀與聲學(xué)子詞相對應(yīng)，諸如音節(jié)、半音節(jié)、單音、雙連音、音素等。預(yù)處理器模塊212還執(zhí)行語音分析，以從每一幀內(nèi)從占用者語音提取聲學(xué)參數(shù)，諸如隨時(shí)間變化的特征向量。占用者語音內(nèi)的話語可以被表示為這些特征向量的序列。例如，如本領(lǐng)域技術(shù)人員所知，可以提取特征向量，并且特征向量可以包括，例如，音高、能線圖、光譜屬性和/或倒頻譜系數(shù)，這些可以通過執(zhí)行幀的傅里葉變換以及使用余弦變換對聲譜進(jìn)行解相關(guān)來獲得。覆蓋特定語音持續(xù)時(shí)間的聲學(xué)幀和相應(yīng)參數(shù)被連結(jié)成將被解碼的未知語音測試模式。
第三，處理器執(zhí)行解碼器模塊214，以處理每個(gè)測試模式的進(jìn)入特征向量。解碼器模塊214也被稱為識(shí)別引擎或分類器，并且使用存儲(chǔ)的已知語音參考模式。如測試模式，參考模式也被定義為相關(guān)聲學(xué)幀和相應(yīng)參數(shù)的連結(jié)。解碼器模塊214將待被識(shí)別的子詞測試模式與存儲(chǔ)的子詞參考模式的聲學(xué)特征向量進(jìn)行對照和對比，評估它們之間的差異或相似度的大小，并且最終使用判決邏輯選擇最佳匹配子詞作為識(shí)別后的子詞。通常，最佳匹配子詞是這樣的子詞其和通過本領(lǐng)域技術(shù)人員已知的各種分析和識(shí)別子詞的技術(shù)中的任一種確定的與該測試模式具有最小不相似度的或最有可能是該測試模式的存儲(chǔ)的已知參考模式相對應(yīng)。這些技術(shù)可以包括動(dòng)態(tài)時(shí)間規(guī)整分類器、人工智能技術(shù)、神經(jīng)網(wǎng)絡(luò)、自由音素識(shí)別器和/或概率模式匹配器，諸如隱馬爾可夫模型(HMM)弓丨擎。
HMM引擎是本領(lǐng)域的技術(shù)人員公知的用于產(chǎn)生聲學(xué)輸入的多個(gè)語言識(shí)別模型假設(shè)。這些假設(shè)在最終通過語音的特征分析識(shí)別和選擇代表聲學(xué)輸入的最可能的正確解碼的識(shí)別輸出中被考慮。更具體地，HMM引擎產(chǎn)生子詞模型假設(shè)的“N-最佳”列表形式的統(tǒng)計(jì)模型，這些子詞模型假設(shè)根據(jù)HMM計(jì)算的信賴值或者例如通過應(yīng)用貝氏定理賦予一個(gè)或另一個(gè)子詞的聲學(xué)數(shù)據(jù)的觀察序列的可能性排列。
貝葉斯HMM過程確定與給定的聲學(xué)特征向量的觀察序列的最可能話語或子詞序列相對應(yīng)的最佳假設(shè)，并且其信賴值可以取決于多種因素，包括與進(jìn)入聲學(xué)數(shù)據(jù)相關(guān)聯(lián)的聲學(xué)信號(hào)噪聲比。HMM還可以包括稱為混合對角高斯的統(tǒng)計(jì)分布，其產(chǎn)生每個(gè)子詞的每個(gè)觀察的特征向量的可能性分?jǐn)?shù)，該分?jǐn)?shù)可以用于將假設(shè)的N-最佳列表重新排序。HMM引擎還可以識(shí)別和選擇其模型可能性分?jǐn)?shù)最高的子詞。
以類似的方式，可以連結(jié)子詞序列的各個(gè)HMM，以建立單個(gè)或多個(gè)詞HMM。其后，可以產(chǎn)生和進(jìn)一步評估單個(gè)或多個(gè)詞參考模式的N最佳列表和相關(guān)參數(shù)值。
在一個(gè)示例中，語音識(shí)別解碼器214使用適當(dāng)?shù)穆晫W(xué)模型、語法和算法處理特征向量以產(chǎn)生參考模式的N最佳列表。如在此使用，術(shù)語參考模式可與模型、波形、模板、富信號(hào)模型、示例、假設(shè)或其它類型參考互相替換。參考模式可以包括代表一個(gè)或多個(gè)詞和子詞的一系列特征向量，并且可以基于特定說話者、說話風(fēng)格和聽得見的環(huán)境狀況。本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到，可以通過ASR系統(tǒng)的適當(dāng)參考模式訓(xùn)練產(chǎn)生參考模式且將其存儲(chǔ)在存儲(chǔ)器中。本領(lǐng)域的技術(shù)人員還將認(rèn)識(shí)到，可以操縱存儲(chǔ)的參考模式，其中基于參考模式訓(xùn)練和 ASR系統(tǒng)的實(shí)際使用之間的語音輸入信號(hào)中的差異調(diào)整參考模式的參數(shù)值。例如，基于來自不同車輛占用者或不同聲學(xué)狀況的有限量的訓(xùn)練數(shù)據(jù)，針對一個(gè)車輛占用者或某些聲學(xué)狀況訓(xùn)練的一組參考模式可以被調(diào)整且存儲(chǔ)為針對不同車輛占用者或不同聲學(xué)狀況的另一組參考模式。換句話說，參考模式?jīng)]有必要固定，且可以在語音識(shí)別期間被調(diào)整。
使用詞匯內(nèi)語法以及任何適當(dāng)解碼器算法和聲學(xué)模型，處理器從存儲(chǔ)器訪問了解釋該測試模式的若干參考模式。例如，處理器可以產(chǎn)生且在存儲(chǔ)器中存儲(chǔ)N-最佳詞匯結(jié)果或參考模式的列表以及相應(yīng)的參數(shù)值。示例性參數(shù)值可以包括詞匯的N-最佳列表中的每個(gè)參考模式的信賴分?jǐn)?shù)以及相關(guān)段持續(xù)時(shí)間、可能性分?jǐn)?shù)、和/或信號(hào)噪聲比(SNR)值等。可以按照參數(shù)值大小的下降排列詞匯的N-最佳列表。例如，具有最高信賴分?jǐn)?shù)的詞匯參考模式是第一最佳參考模式等。一旦建立了被識(shí)別的子詞串，這些子詞就可以被用于使用來自詞模型222的輸入構(gòu)建詞并且使用來自語言模型224的輸入構(gòu)建句子。
最終，后處理器軟件模塊216從解碼器模塊214接收輸出數(shù)據(jù)以用于任何適當(dāng)目的。在一個(gè)示例中，后處理器軟件模塊216可以從單個(gè)或多個(gè)詞參考模式的N-最佳列表識(shí)別或選擇參考模式之一作為被識(shí)別的語音。在另一示例中，后處理器軟件模塊216可以用于將聲學(xué)數(shù)據(jù)轉(zhuǎn)換為文本或數(shù)字，以用于ASR系統(tǒng)的其他方面或其它車輛系統(tǒng)。在另一示例中，后處理器模塊216可以用于向解碼器214或預(yù)處理器212提供訓(xùn)練反饋。更具體地，后處理器軟件模塊216可以用于訓(xùn)練解碼器模塊214的聲學(xué)模型，或者訓(xùn)練預(yù)處理器模塊 212的適應(yīng)參數(shù)。
方法-現(xiàn)轉(zhuǎn)到圖3和圖4，示出語音識(shí)別相關(guān)方法300、400，可以使用車輛遠(yuǎn)程處理單元30的操作環(huán)境內(nèi)的圖2的ASR系統(tǒng)210的適當(dāng)編程以及使用圖1所示的適當(dāng)硬件和其它部件的編程來實(shí)施方法300、400?；谏鲜鱿到y(tǒng)描述以及下面結(jié)合剩余附圖描述的方法的討論，上述編程和上述硬件的使用對本領(lǐng)域技術(shù)人員將是明顯的。本領(lǐng)域的技術(shù)人員還將認(rèn)識(shí)到，可以使用其它操作環(huán)境內(nèi)的其它ASR系統(tǒng)實(shí)施所述方法。
通常，聲學(xué)模型產(chǎn)生方法300響應(yīng)于來自第二語言的女性說話者的語言獨(dú)立語音數(shù)據(jù)，通過使根據(jù)從第一語言的男性說話者接收的語音訓(xùn)練的聲學(xué)模型適應(yīng)，改進(jìn)自動(dòng)語音識(shí)別。因此，產(chǎn)生代理聲學(xué)模型，以在對第一語言的女性說話者的話語的語音識(shí)別運(yùn)行時(shí)間期間使用。因?yàn)楸M管某些女性的聲學(xué)模型訓(xùn)練數(shù)據(jù)不可獲得，但是可以使用給定語言的好的女性代理聲學(xué)模型，所以可以改善對女性說話者的語音的識(shí)別。
參照圖3，方法300以任何適當(dāng)方式在步驟305開始。
在步驟310，可以使用第一語言的男性說話者訓(xùn)練聲學(xué)模型。聲學(xué)模型訓(xùn)練可以包括最大可能性估計(jì)技術(shù)、最小分類錯(cuò)誤技術(shù)、有條件最大可能性技術(shù)，這些技術(shù)通常是本領(lǐng)域的技術(shù)人員已知的，并且可以使用任何其他適當(dāng)?shù)募夹g(shù)。聲學(xué)模型可以是詞模型、音素模型或子詞模型?？梢允褂萌魏芜m當(dāng)數(shù)量的男性說話者。第一語言可以是阿拉伯語、漢語或任何其他語言。
在步驟315，響應(yīng)于第二語言的女性說話者的語言獨(dú)立語音數(shù)據(jù)使步驟310中訓(xùn)練的聲學(xué)模型適應(yīng)，以產(chǎn)生代理聲學(xué)模型，從而在對第一語言的女性說話者的話語的語音識(shí)別運(yùn)行時(shí)間期間使用。例如，最大可能性線性回歸(MLLR)技術(shù)可以使用來自英語女性說話者的語音數(shù)據(jù)，以調(diào)整阿拉伯語男性語音的聲學(xué)模型的中心頻率。可以使用任何適當(dāng)?shù)腗LLR技術(shù)，且此MLLR技術(shù)對本領(lǐng)域的普通技術(shù)人員是已知的，如通過Variance compensation within the MLLR framework for robust speech recognition and speaker adaptation, Gales, Μ. , D. Pye, and P. Woodland, In Proc. ICSLP, pp. 1832 - 1835, (1996)所反應(yīng)的。
在步驟320，在自動(dòng)語音識(shí)別運(yùn)行時(shí)間期間可以使用在步驟315產(chǎn)生的代理聲學(xué)模型，以用于識(shí)別來自第一語言的女性說話者的語音。
在步驟325，方法可以以任何適當(dāng)?shù)姆绞浇Y(jié)束。
在步驟315的一個(gè)實(shí)施例中，在語音識(shí)別運(yùn)行時(shí)間之前使聲學(xué)模型適應(yīng)。例如，可在應(yīng)用語言獨(dú)立語音數(shù)據(jù)的共振峰頻率或頻帶的模板中使用最大可能性線性回歸技術(shù)或任何其他適當(dāng)適應(yīng)技術(shù)，以調(diào)整聲學(xué)模型的中心頻率，從而得到女性代理聲學(xué)模型。
在步驟315的另一實(shí)施例中，在語音運(yùn)行時(shí)間期間使聲學(xué)模型適應(yīng)。下面參照圖 4和方法400進(jìn)一步詳細(xì)描述此實(shí)施例。
通常，語音識(shí)別方法400響應(yīng)于在來自第二語言的女性說話者的語音數(shù)據(jù)中識(shí)別與從第一語言的女性說話者接收的語音中的至少一個(gè)共振峰頻率相對應(yīng)的多個(gè)共振峰頻帶中的至少一個(gè)，通過使根據(jù)來自第一語言的男性說話者的語音訓(xùn)練的聲學(xué)模型適應(yīng)，來改進(jìn)語音識(shí)別。因?yàn)楸M管某些女性的聲學(xué)模型訓(xùn)練數(shù)據(jù)不可獲得，但是可以使用給定語言的好的女性代理聲學(xué)模型，所以可以改善對女性說話者的語音的識(shí)別。
參照圖4，方法400以任何適當(dāng)方式在步驟405開始。例如，車輛用戶開始與遠(yuǎn)程信息處理單元30的用戶界面的交互，優(yōu)選地通過按下用戶界面按鈕34以開始會(huì)話，在會(huì)話中，用戶輸入話音命令，該話音命令被同時(shí)以語音識(shí)別模式操作的遠(yuǎn)程信息處理單元30解釋。使用音頻系統(tǒng)36，遠(yuǎn)程信息處理單元30可以通過播放聲音或者提供對來自用戶或占用者的命令的言辭請求來確認(rèn)按鈕激活。在語音識(shí)別運(yùn)行時(shí)間期間實(shí)施方法400。
在步驟410，以任何適當(dāng)?shù)姆绞浇邮照Z音。例如，遠(yuǎn)程信息處理麥克風(fēng)32可以接收用戶說出的語音，并且聲學(xué)接口 33可以將語音數(shù)字化為聲學(xué)數(shù)據(jù)。在一個(gè)實(shí)施例中，語音是命令，例如，在系統(tǒng)菜單中期望的命令。在更具體的實(shí)施例中，在方法300開始之后，該命令是系統(tǒng)主菜單的第一命令詞。語音可以包括一個(gè)或多個(gè)話語。
在步驟415，接收到的語音被預(yù)處理以產(chǎn)生聲音特征向量。例如，可以通過上述 ASR系統(tǒng)210的預(yù)處理器模塊212對來自聲學(xué)接口 33的聲學(xué)數(shù)據(jù)進(jìn)行預(yù)處理。
在步驟420，確定接收到的語音的語言獨(dú)立語音數(shù)據(jù)。例如，可以估計(jì)、檢測或以任何適當(dāng)方式中的其他方式確定所接收語音的音高和/或一個(gè)或多個(gè)共振峰頻率。在一個(gè)示例中，倒頻譜分析提供對基本諧波、音高頻率等的較好估計(jì)，并且提供關(guān)于聲門脈沖和聲道響應(yīng)的信息。其他示例可以包括在語音信號(hào)的時(shí)域中的過零率分析、線性預(yù)測編碼算法和/或在該時(shí)域中的語音自相關(guān)分析。這些技術(shù)是本領(lǐng)域的普通技術(shù)人員已知的，如在各種公開中所反應(yīng)的，包括0ppenheim，Α. V. , Johnson, D. H. (1972) Discrete representation of signals, Proceedings of the IEEE, vol. 60, no. 6, pp. 681 -691, June 1972 ；Speech and Audio Signal Processing, Processing & Perception of Speech and Music, Ben Gold and Nelson Morgan, John Wiley & Sons, 2001 ；禾口 Fundamentals of Speech Recognition, Lawrence Rabiner & Biing-Hwang Juang, Prentice Hall, 1993。
在步驟425，語音識(shí)別預(yù)處理器可以識(shí)別來自第二語言的女性說話者的與在步驟 420確定的語言獨(dú)立語音數(shù)據(jù)相對應(yīng)的語言獨(dú)立語音數(shù)據(jù)。例如，語言獨(dú)立語音數(shù)據(jù)可以包括來自由第二語言的女性說話者所說的語音的音高和/或多個(gè)共振峰頻帶或區(qū)的至少一個(gè)。來自第二語言的女性說話者的語音數(shù)據(jù)可以包括預(yù)記錄語音話語、統(tǒng)計(jì)模型、和/或語音話語的共振峰頻率的一個(gè)或多個(gè)模板等的數(shù)據(jù)庫。在具體說明中，語音數(shù)據(jù)可以包括共振峰頻率的模板分布，其包括交疊頻率范圍的20個(gè)帶或區(qū)和間隔開中心頻率。模板中第一共振峰頻率可以在20個(gè)區(qū)中的12個(gè)上，處于以50 Hz為間隔從600 Hz到1200 Hz的范圍。在此情況下，來自第一語言的女性說話者的話語可以包括與模板的第八帶或區(qū)相對應(yīng)的900 Hz共振峰頻率。
在步驟430，響應(yīng)于來自步驟425的語言獨(dú)立語音數(shù)據(jù)的識(shí)別，使根據(jù)來自第一語言的男性說話者的語音訓(xùn)練的聲學(xué)模型適應(yīng)。聲學(xué)模型適應(yīng)通常是本領(lǐng)域的普通技術(shù)人員已知的且可以使用任何適當(dāng)技術(shù)。例如，可以通過利用來自第一語言的女性說話者的共振峰頻率數(shù)據(jù)對聲學(xué)模型進(jìn)行頻率規(guī)整來使聲學(xué)模型適應(yīng)，從而使聲學(xué)模型適應(yīng)成更好地與接收的語音協(xié)調(diào)?？梢允褂玫奶囟夹g(shù)包括聲道長度歸一化(VTLN)，其中，第一語言的女性說話者的音高和/或共振峰頻率用于使男性聲學(xué)模型適應(yīng)。VTLN是本領(lǐng)域的普通技術(shù)人員己知的，如通過Vocal Tract Length Normalization in Speech Recognition-Compensation for Systematic Speaker Variability, Kamm. Τ. , Andreou A, Cohen J., Proceedings of 15th Annual Speech Research Symposium, Baltimore, MY, June 1995所反應(yīng)的。
在一個(gè)實(shí)施例中，確定步驟420的共振峰頻率可以包括接收的話語的多個(gè)共振峰頻率的平均。更具體地，接收的話語的多個(gè)共振峰頻率可以包括第一共振峰、第二共振峰或第三共振峰中的至少一個(gè)。在一個(gè)示例，第一共振峰頻率可以被如下表征平均Fl =Fl (輔音1) +Fl (輔音2) +Fl (元音1) +Fl (輔音3)......Fl (第N個(gè)音節(jié))/N。類似表征可以應(yīng)用于F2和/或F3共振峰。
在另一實(shí)施例中，確定步驟420的共振峰頻率包括第一共振峰、第二共振峰和第三共振峰。在此示例中，三個(gè)共振峰頻率，即Fl，F(xiàn)2和F3用于對男性聲學(xué)模型中的濾波器頻帶的中心頻率再調(diào)整。如果F中心=函數(shù)(F1, F2，F(xiàn)3),則λ轉(zhuǎn)換后=函數(shù)(λ男性，F(xiàn)中心)。
繼續(xù)來自步驟425的示例，可以基于識(shí)別出的頻率處于特定帶或區(qū)，例如，第八帶或區(qū)中，對男性聲學(xué)模型執(zhí)行任何適當(dāng)?shù)念l率規(guī)整技術(shù)。因此，可以在帶方面的基礎(chǔ)上對聲學(xué)模型進(jìn)行頻率規(guī)整。
在步驟435，使用來自步驟425的被適應(yīng)后的聲學(xué)模型對產(chǎn)生的聲學(xué)特征向量進(jìn)行解碼，以產(chǎn)生所接收的語音的多個(gè)假設(shè)。例如，多個(gè)假設(shè)可以是假設(shè)的N最佳列表，并且 ASR系統(tǒng)210的解碼器模塊214可以用于對聲學(xué)特征向量進(jìn)行解碼。
在步驟440，對多個(gè)假設(shè)進(jìn)行后處理，以將多個(gè)假設(shè)中的一個(gè)識(shí)別為所接收的語音。例如，ASR系統(tǒng)210的后處理器216可以對假設(shè)進(jìn)行后處理，以將第一最佳假設(shè)識(shí)別為所接收的語音。在另一示例中，后處理器216可以按照任何適當(dāng)方式對假設(shè)的N最佳列表進(jìn)行重新排序，并且識(shí)別重新排序的第一最佳假設(shè)。
在步驟445，方法400可以以任何適當(dāng)?shù)姆绞浇Y(jié)束。
可以計(jì)算機(jī)程序產(chǎn)品中實(shí)施該方法或其一部分，所說程序產(chǎn)品包括在計(jì)算機(jī)可讀介質(zhì)上承載供一個(gè)或多個(gè)計(jì)算機(jī)的一個(gè)或多個(gè)處理器使用來實(shí)施一個(gè)或多個(gè)方法步驟的指令。計(jì)算機(jī)程序產(chǎn)品可以包括一個(gè)或多個(gè)軟件程序，其包括源代碼、目標(biāo)代碼、可執(zhí)行代碼或其他格式的程序指令；一個(gè)或多個(gè)固件程序；或者硬件描述語言(HDL)文件；以及任何程序相關(guān)數(shù)據(jù)。所述數(shù)據(jù)可以包括數(shù)據(jù)結(jié)構(gòu)、查找表、或任何其他適當(dāng)格式的數(shù)據(jù)。所述程序指令可以包括程序模塊、例程、程序、對象、和/或組成部分等?？梢栽谝粋€(gè)計(jì)算機(jī)上或者在彼此通信的多個(gè)計(jì)算機(jī)上執(zhí)行計(jì)算機(jī)程序。
程序可以體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)上，所述計(jì)算機(jī)可讀介質(zhì)可以包括一個(gè)或多個(gè)存儲(chǔ)設(shè)備、制品等。示例性計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)系統(tǒng)內(nèi)存，例如，RAM (隨機(jī)訪問存儲(chǔ)器)、R0M (只讀存儲(chǔ)器)；半導(dǎo)體存儲(chǔ)器，例如，EPROM (可擦除可編程ROM)、EEPROM (電可擦除可編程ROM)、閃存；磁盤或光盤或帶；和/或其他。計(jì)算機(jī)可讀介質(zhì)還可以包括計(jì)算機(jī)到計(jì)算機(jī)連接，例如，當(dāng)通過網(wǎng)絡(luò)或另一通信連接(有線、無線或其組合)傳遞或提供數(shù)據(jù)時(shí)。上述示例的任何組合也包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。因此，可以理解，可以通過能夠執(zhí)行與公開的方法的一個(gè)或多個(gè)步驟相對應(yīng)的指令的任何電子產(chǎn)品和/或設(shè)備至少部分地執(zhí)行方法。
可以理解，上面是本發(fā)明的一個(gè)或多個(gè)優(yōu)選示例性實(shí)施例的描述。本發(fā)明不限于在此公開的具體實(shí)施例，而是僅由所附權(quán)利要求限定。此外，上述描述中包含的陳述與具體實(shí)施例相關(guān)，并且不被解釋為限制本發(fā)明的范圍或者限定權(quán)利要求中使用的術(shù)語的定義的限定，除非上文中對術(shù)語或短語有明確定義。各種其他實(shí)施例以及對公開的實(shí)施例的各種改變和修改對于本領(lǐng)域的技術(shù)人員將是明顯的。例如，本發(fā)明可應(yīng)用于其他領(lǐng)域的語音信號(hào)處理，諸如移動(dòng)通信、互聯(lián)網(wǎng)協(xié)議話音技術(shù)應(yīng)用等。所有這些其他實(shí)施例、改變和修改意在落入所附權(quán)利要求的范圍內(nèi)。
如在此說明書和權(quán)利要求中所使用，當(dāng)結(jié)合一個(gè)或多個(gè)部件或其他項(xiàng)的列表使用時(shí)，術(shù)語“例如”，“比如”，“諸如”和“像”以及動(dòng)詞“包括”，“具有”，“包含”以及它們的其他動(dòng)詞形式，每一個(gè)都被解釋為開放式，意味著所述列出不被認(rèn)為是排除其他附加部件或項(xiàng)。其他術(shù)語被解釋為使用它們的最廣泛的合理含義，除非它們被應(yīng)用于要求不同解釋的上下文中。
權(quán)利要求
1.一種產(chǎn)生用在自動(dòng)語音識(shí)別中的代理聲學(xué)模型的方法，包括步驟(a)根據(jù)經(jīng)由麥克風(fēng)從第一語言的男性說話者接收的語音訓(xùn)練聲學(xué)模型；以及(b)響應(yīng)于來自第二語言的女性說話者的語言獨(dú)立語音數(shù)據(jù)使在步驟(a)中被訓(xùn)練的聲學(xué)模型適應(yīng)，以產(chǎn)生代理聲學(xué)模型，從而在對來自第一語言的女性說話者的話語的語音識(shí)別運(yùn)行時(shí)間期間使用。
2.如權(quán)利要求1所述的方法，其中，在語音識(shí)別運(yùn)行時(shí)間之前實(shí)施適應(yīng)步驟(b)。
3.如權(quán)利要求1所述的方法，其中，在語音識(shí)別運(yùn)行時(shí)間期間對來自第一語言的女性說話者的話語實(shí)施適應(yīng)步驟(b)。
4.如權(quán)利要求3所述的方法，其中，響應(yīng)于識(shí)別出來自第二語言的女性說話者的語音數(shù)據(jù)中的多個(gè)共振峰頻帶中的與在來自第一語言的女性說話者的話語中確定的至少一個(gè)共振峰頻率相對應(yīng)的至少一個(gè)，來實(shí)施適應(yīng)步驟(b)。
5.如權(quán)利要求4所述的方法，其中，響應(yīng)于識(shí)別出來自第二語言的女性說話者的語音數(shù)據(jù)中的多個(gè)共振峰頻帶中的所述至少一個(gè)，通過對在步驟(a)中被訓(xùn)練的聲學(xué)模型進(jìn)行頻率規(guī)整來實(shí)施適應(yīng)步驟(b)。
6.如權(quán)利要求4所述的方法，其中，在來自第一語言的女性說話者的話語中確定的至少一個(gè)共振峰頻率是所接收的話語中的多個(gè)共振峰頻率的平均。
7.如權(quán)利要求6所述的方法，其中，所接收的話語中的多個(gè)共振峰頻率是來自第一共振峰、第二共振峰或第三共振峰中的至少一個(gè)。
8.如權(quán)利要求6所述的方法，其中，確定步驟(c)的至少一個(gè)共振峰頻率包括第一共振峰、第二共振峰和第三共振峰。
9.一種自動(dòng)語音識(shí)別的方法，包括步驟(a)經(jīng)由麥克風(fēng)從第一語言的女性說話者接收話語；(b)使用自動(dòng)語音識(shí)別預(yù)處理器對話語進(jìn)行預(yù)處理，以產(chǎn)生聲學(xué)特征向量；(c)確定所接收話語的至少一個(gè)共振峰頻率；(d)識(shí)別來自第二語言的女性說話者的語音數(shù)據(jù)中的多個(gè)共振峰頻帶中的與步驟(C) 中確定的至少一個(gè)共振峰頻率相對應(yīng)的至少一個(gè)；以及(e)響應(yīng)于識(shí)別步驟(d)使根據(jù)來自第一語言的男性說話者的語音訓(xùn)練的聲學(xué)模型適應(yīng)，以得到代理聲學(xué)模型，從而用于第一語言的女性說話者。
10.根據(jù)權(quán)利要求9所述的方法，還包括步驟(f)，其使用處理器以及在步驟(e)被適應(yīng)的聲學(xué)模型對在步驟(b)產(chǎn)生的聲學(xué)特征向量進(jìn)行解碼，以產(chǎn)生所接收話語的多個(gè)假設(shè)。
全文摘要
本發(fā)明涉及基于語言獨(dú)立女性語音數(shù)據(jù)的男性聲學(xué)模型適應(yīng)。一種產(chǎn)生用在自動(dòng)語音識(shí)別中的代理聲學(xué)模型的方法，包括根據(jù)經(jīng)由麥克風(fēng)從第一語言的男性說話者接收的語音訓(xùn)練聲學(xué)模型；以及響應(yīng)于第二語言的女性說話者的語言獨(dú)立語音數(shù)據(jù)使聲學(xué)模型適應(yīng)，以產(chǎn)生代理聲學(xué)模型，從而在對來自第一語言的女性說話者的話語的語音識(shí)別運(yùn)行時(shí)間期間使用。
文檔編號(hào)G10L15/06GK102543077SQ20111040830
公開日2012年7月4日申請日期2011年12月9日優(yōu)先權(quán)日2010年12月10日
發(fā)明者G.塔爾瓦, R.琴加爾瓦拉延申請人:通用汽車有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：G.塔爾瓦;R.琴加爾瓦拉延
技術(shù)所有人：通用汽車有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：用于鼓的可變擊打器的制作方法
上一篇：一種檢測數(shù)字亞音頻信號(hào)的方法及裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聲學(xué)模型和語言模型相關(guān)技術(shù)

聲學(xué)語音學(xué)相關(guān)技術(shù)

聲學(xué)模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于語言獨(dú)立女性語音數(shù)據(jù)的男性聲學(xué)模型適應(yīng)的制作方法