欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

在語音識別后處理過程中使用音調(diào)來改進識別精度的制作方法

文檔序號:2823981閱讀:287來源:國知局
專利名稱:在語音識別后處理過程中使用音調(diào)來改進識別精度的制作方法
技術(shù)領(lǐng)域
本發(fā)明總體涉及語音信號處理,更具體地涉及自動語音識別(ASR)。
背景技術(shù)
ASR技術(shù)使得配備有麥克風(fēng)的計算設(shè)備能夠理解語音,從而提供一種不同于傳統(tǒng) 的人-計算機輸入設(shè)備(諸如鍵盤或小鍵盤)的替代方案。典型的ASR系統(tǒng)包括若干基本 元件。麥克風(fēng)和聲學(xué)接口接收來自用戶的字的發(fā)音,并將發(fā)音數(shù)字化為聲學(xué)數(shù)據(jù)。聲學(xué)預(yù) 處理器將聲學(xué)數(shù)據(jù)解析為包含信息的聲學(xué)特征。解碼器使用聲學(xué)模型來將聲學(xué)特征解碼為 發(fā)音假設(shè)。解碼器為每個假設(shè)產(chǎn)生一個置信值,以反映每個假設(shè)在發(fā)音上匹配每個發(fā)音的 子字的程度,并選擇對于每個子字的最佳假設(shè)。使用語言模型,解碼器將子字結(jié)合為對應(yīng)于 用戶所發(fā)音的字的輸出字。在使用ASR的車輛中遇到的一個問題是ASR系統(tǒng)可能將車輛道路噪聲誤認為是語 音。ASR系統(tǒng)接收到這種道路噪聲可能導(dǎo)致插入不期望的聲學(xué)數(shù)據(jù),其導(dǎo)致語音的誤識別。 一些ASR系統(tǒng)試圖使用前端信號處理或識別引擎算法來防止這種道路噪聲插入。但這種 技術(shù)涉及復(fù)雜的和資源密集的過程,其在很多情況下可能不能夠真正地改善語音識別精確度。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供了一種在車輛中進行自動語音識別的方法。該方法 包括以下步驟(a)在車輛中接收音頻;(b)對所接收的音頻進行預(yù)處理以產(chǎn)生聲學(xué)特征向 量;(c)對所產(chǎn)生的聲學(xué)特征向量進行解碼以產(chǎn)生語音假設(shè);和(d)使用音調(diào)對至少一個語 音假設(shè)進行后處理以改進語音識別精度。根據(jù)本發(fā)明的另一個方面,提供了一種在車輛中進行自動語音識別的方法。該方 法包括以下步驟(a)在車輛中接收音頻;(b)對所接收的音頻進行預(yù)處理以產(chǎn)生聲學(xué)特征 向量;(c)對所產(chǎn)生的聲學(xué)特征向量進行解碼以產(chǎn)生語音假設(shè);和(d)如果所接收的音頻中 存在音調(diào),則在后處理過程中將語音假設(shè)接受作為識別出的語音,否則忽略該語音假設(shè)。根據(jù)本發(fā)明的又一方面,提供了另一種在車輛中進行自動語音識別的方法。該方 法包括以下步驟(a)在車輛中接收音頻;(b)對所接收的音頻進行預(yù)處理以產(chǎn)生聲學(xué)特征 向量;(c)對所產(chǎn)生的聲學(xué)特征向量進行處理以產(chǎn)生N最佳語音假設(shè)和相關(guān)聯(lián)的置信分數(shù) 和音節(jié)計數(shù);(d)確定所接收的音頻的音調(diào)計數(shù);(e)通過將與語音假設(shè)相關(guān)聯(lián)的音節(jié)計數(shù) 與音調(diào)計數(shù)進行比較而對N最佳語音假設(shè)進行后處理;以及(f)將N最佳語音假設(shè)中的音 節(jié)計數(shù)等于音調(diào)計數(shù)的語音假設(shè)接受作為識別出的語音。


以下將結(jié)合

本發(fā)明的一個或多個優(yōu)選的示例性實施例,其中相似的標記 表示相似的元件,其中
圖1是描述能夠利用本文所公開的方法的通信系統(tǒng)的示例性實施例的框圖。圖2是說明可用于圖1的系統(tǒng)并用于實現(xiàn)語音識別的示例性方法的自動語音識別 (ASR)系統(tǒng)的示例性實施例的框圖。圖3是說明ASR方法的示例性實施例的流程圖;圖4是在車輛ASR系統(tǒng)中所接收的語音音頻的頻率對時間的圖;以及圖5是在車輛ASR系統(tǒng)中所接收的語音和道路噪聲音頻的頻率對時間的圖。
具體實施例方式以下描述的方法可以由車輛遠程信息單元(VTU)使用作為識別由VTU的用戶發(fā)出 的語音的一部分。盡管以下描述的方法可以為VTU所實現(xiàn),但應(yīng)該懂得,它們可以用于任何 類型的車輛語音識別系統(tǒng)以及其它類型的語音識別系統(tǒng)。通信系統(tǒng)參照圖1,示出了一個示例性的操作環(huán)境,該操作環(huán)境包括移動車輛通信系統(tǒng)10 并可以用于實現(xiàn)本文公開的方法。通信系統(tǒng)10通常包括車輛12、一個或多個無線載波系 統(tǒng)14、陸地通信網(wǎng)絡(luò)16、計算機18和呼叫中心20。應(yīng)當理解,所公開的方法可以與任意多 個不同的系統(tǒng)一起使用,而不是特別限制于本文示出的操作環(huán)境。同時,系統(tǒng)10的結(jié)構(gòu)、構(gòu) 造、設(shè)置和操作以及其各個部件都是本領(lǐng)域所熟知的。由此,以下段落簡單地提供了一個這 種示例性系統(tǒng)10的簡要概述;然而,本文未示出的其它系統(tǒng)也可以使用所公開的方法。在所述實施例中所示出的車輛12描述為轎車,但是應(yīng)當理解也可以使用包括摩 托車、卡車、運動型多功能車(SUVs)、休閑車(RVs)、船舶、航空器等的任何其它交通工具。 圖1中大體示出了一些車輛電子器件觀,包括遠程信息單元30、麥克風(fēng)32、一個或多個按 鈕或其它控制輸入裝置34、音頻系統(tǒng)36、視頻顯示裝置38、GPS模塊40、以及數(shù)個車輛系統(tǒng) 模塊(VSMs)42。這些設(shè)備的一些可以直接連接到遠程信息單元,例如舉個例子是麥克風(fēng)32 和按鈕34,而其它的可以是使用一個或多個網(wǎng)絡(luò)連接而間接連接,例如通信總線44和娛樂 總線46。合適的網(wǎng)絡(luò)連接的例子包括控制器局域網(wǎng)絡(luò)(CAN)、面向媒體的系統(tǒng)傳輸(MOST)、 本地互連網(wǎng)(LIN)、局域網(wǎng)(LAN)、以及其它合適的連接,例如以太網(wǎng)或符合已知的IS0、SAE 和IEEE標準和規(guī)范的其它連接等等。遠程信息單元30是OEM安裝的設(shè)備,該設(shè)備使用利用無線載波系統(tǒng)14并經(jīng)由無 線網(wǎng)絡(luò)的無線語音和/或數(shù)據(jù)通信,以使車輛可以和呼叫中心20、其它使用遠程信息的車 輛、或一些其它實體或設(shè)備進行通信。遠程信息單元優(yōu)選地使用無線電傳輸以建立與無線 載波系統(tǒng)14的通信信道(語音信道和/或數(shù)據(jù)信道),以使語音和/或數(shù)據(jù)傳輸可以在信 道上發(fā)送和接收。通過提供語音和數(shù)據(jù)通信二者,遠程信息單元30能夠使車輛提供多個不 同的服務(wù),包括與導(dǎo)航、電話通信、緊急救援、診斷、信息娛樂等有關(guān)的服務(wù)。數(shù)據(jù)可以經(jīng)由 數(shù)據(jù)連接、例如經(jīng)由數(shù)據(jù)信道上的分組數(shù)據(jù)傳輸來發(fā)送,也可以使用本領(lǐng)域已知的技術(shù)經(jīng) 由語音信道發(fā)送。對于包括語音通信(例如,與呼叫中心20的人工顧問或語音響應(yīng)單元) 和數(shù)據(jù)通信(例如,為呼叫中心20提供GPS定位數(shù)據(jù)或車輛診斷數(shù)據(jù))的組合服務(wù),該系 統(tǒng)可以使用語音信道上的單個呼叫并根據(jù)需要在該語音信道上的語音和數(shù)據(jù)傳輸之間進 行切換,這可以使用本領(lǐng)域普通技術(shù)人員已知的技術(shù)實現(xiàn)。按照一個實施例,遠程信息單元30使用按照GSM或CDMA標準的蜂窩通信,由此包
4括用于類似免提呼叫的語音通信的標準蜂窩芯片組50、用于數(shù)據(jù)傳輸?shù)臒o線調(diào)制解調(diào)器、 電子處理設(shè)備52、一個或多個數(shù)字存儲器設(shè)備M、和雙天線56。應(yīng)當理解,調(diào)制解調(diào)器可以 實現(xiàn)為存儲在遠程信息單元中并由處理器52執(zhí)行的軟件,或者其可以是位于遠程信息單 元30內(nèi)部或外部的獨立的硬件部件。調(diào)制解調(diào)器可以使用任何數(shù)量的不同標準或協(xié)議工 作,例如EVDO、CDMA、GPRS和EDGE。在車輛和其它網(wǎng)絡(luò)設(shè)備之間的無線網(wǎng)絡(luò)還可以使用遠 程信息單元30來實現(xiàn)。為此目的,遠程信息單元30可以配置為按照一個或多個無線協(xié)議 進行無線通信,例如任何IEEE 802. 11協(xié)議、WiMAX或藍牙中的任一個。當用于例如TCP/IP 的分組交換數(shù)據(jù)通信時,遠程信息單元可以配置為具有靜態(tài)IP地址,或者可以設(shè)置為從例 如路由器的網(wǎng)絡(luò)上的另一個設(shè)備、或者從網(wǎng)絡(luò)地址服務(wù)器自動地接收分配的IP地址。處理器52可以是能夠處理電子指令的任何類型的設(shè)備,包括微處理器、微控制 器、主處理器、控制器、車輛通信處理器和專用集成電路(ASICs)。可以是僅用于遠程信息單 元30的專用處理器,或者可以與其它車輛系統(tǒng)共用。處理器52執(zhí)行各種類型的數(shù)字化存 儲的指令,例如存儲器M中存儲的軟件和固件程序,其使遠程信息單元能夠提供多種類的 服務(wù)。例如,處理器52可以執(zhí)行程序或處理數(shù)據(jù),以執(zhí)行本文討論的方法的至少一部分。遠程信息單元30可以用于提供包括到達和/或來自車輛的無線通信的不同范圍 的車輛服務(wù)。這些服務(wù)包括與基于GPS的車輛導(dǎo)航模塊40 —起提供的建議路線規(guī)劃指示 和其它有關(guān)導(dǎo)航的服務(wù);結(jié)合一個或多個諸如車身控制模塊(未示出)的碰撞傳感器接口 模塊提供的安全氣囊展開通知和其它緊急情況或道路救援有關(guān)的服務(wù);使用一個或多個診 斷模塊的診斷報告;以及與信息娛樂有關(guān)的服務(wù),其中音樂、網(wǎng)頁、電影、電視節(jié)目、視頻游 戲和/或其它信息是由信息娛樂模塊(未示出)下載并存儲以用于當時或以后回放。上面 列出的服務(wù)決不是對遠程信息單元30所有能力的詳盡列出,僅僅是對遠程信息單元能夠 提供的一些服務(wù)的簡單列舉。而且,應(yīng)當理解,至少一些上述提及的模塊可以以在遠程信息 單元30內(nèi)部或外部存儲的軟件指令的形式來實現(xiàn),其可以是位于遠程信息單元內(nèi)部或外 部的硬件部件,或者可以互相或與位于車輛周身的其它系統(tǒng)相集成和/或共用的等等。在 所述模塊實現(xiàn)為位于遠程信息單元30外部的VSMs 42的情況下,這些模塊可以利用車輛總 線44與遠程信息單元交換數(shù)據(jù)和命令。GPS模塊40接收來自GPS衛(wèi)星的星座60的無線電信號。從這些信號,模塊40可 以確定車輛的位置,以用于對車輛駕駛者提供導(dǎo)航和其它位置相關(guān)的服務(wù)。導(dǎo)航信息可以 出現(xiàn)在顯示裝置38上(或者車輛內(nèi)的其它顯示裝置上)或者如可以以語音的方式出現(xiàn)例 如在提供建議路線規(guī)劃指示時進行。導(dǎo)航服務(wù)可以使用專用的車內(nèi)導(dǎo)航模塊(可以是GPS 模塊40的一部分)提供,或者一些或所有的導(dǎo)航服務(wù)可以經(jīng)由遠程信息單元30進行,其 中位置信息發(fā)送給遠程位置以用于為車輛提供導(dǎo)航地圖、地圖注釋(感興趣的地點或餐廳 等)、路程計算等目的。位置信息可以提供給呼叫中心20或其它遠程計算機系統(tǒng),例如計算 機18、用于其它目的,例如車隊管理。新的或更新的地圖數(shù)據(jù)也可以經(jīng)由遠程信息單元30 從呼叫中心20下載到GPS模塊40。除了音頻系統(tǒng)36和GPS模塊40,車輛12可以包括電子硬件部件形式的其它車輛 系統(tǒng)模塊(VSMs)42,這些電子硬件部件位于車輛的各個部分并且通常接收來自一個或多個 傳感器的輸入,以及使用所感測到的輸入去執(zhí)行診斷、監(jiān)測、控制、報告和/或其它功能。每 個VSMs 42優(yōu)選地由通信總線44連接到其它VSMs和遠程信息單元30,并且可以編程為運行車輛系統(tǒng)和子系統(tǒng)診斷測試。例如,一個VSM42可以是控制發(fā)動機操作的多個方面(例 如燃料點火和點火正時)的發(fā)動機控制模塊(ECM),另一個VSM 42可以是調(diào)節(jié)車輛動力系 的一個或多個部件的操作的動力系控制模塊,另一個VSM 42可以是管理位于車輛各個部 分中的各個電部件(例如車輛的電動門鎖和前燈)的車身控制模塊。按照一個實施例,發(fā) 動機控制模塊配備有車載診斷(OBD)特征,這些特征提供例如從包括車輛排放物傳感器的 各種傳感器接收的種種實時數(shù)據(jù),以及提供允許技術(shù)員很快識別和修理車輛內(nèi)故障的標準 化的一系列診斷問題代碼(DTC)。如本領(lǐng)域普通技術(shù)人員理解的,上述的VSMs僅僅是車輛 12中可以使用的一些模塊的例子,很多其它模塊也是可能的。車輛電子器件觀還包括多個車輛用戶接口,以給車輛擁有者提供提供和/或接收 信息的裝置,包括麥克風(fēng)32、按鈕34、音頻系統(tǒng)36和視頻顯示裝置38。如本文使用的,術(shù) 語“車輛用戶接口”廣義地包括任何合適形式的電子設(shè)備(包括硬件和軟件組件二者),該 電子設(shè)備位于車輛上并能使車輛使用者與車輛部件通信或通過車輛部件進行通信。麥克風(fēng) 32向遠程信息單元提供音頻輸入,以使駕駛者或其它擁有者能經(jīng)由無線載波系統(tǒng)14提供 語音命令和執(zhí)行免提呼叫。為此目的,該麥克風(fēng)可以使用本領(lǐng)域已知的人機接口(HMI)技 術(shù)連接到車載自動語音處理單元。按鈕34允許向遠程信息單元30進行人工的用戶輸入以 發(fā)起無線電話呼叫并提供其它數(shù)據(jù)、響應(yīng)、或控制輸入。不同的按鈕可以用于向呼叫中心20 發(fā)起緊急呼叫和常規(guī)服務(wù)幫助。音頻系統(tǒng)36提供音頻輸出給車輛擁有者,并且其可以是專 用的、獨立的系統(tǒng)或者是主要的車輛音頻系統(tǒng)的一部分。按照本文示出的特定的實施例,音 頻系統(tǒng)36操作地聯(lián)接到車輛總線44和娛樂總線46 二者,并且可以提供AM、FM和衛(wèi)星無線 電、CD、DVD、以及其它多媒體功能。這種功能可以是結(jié)合或者獨立于上面描述的信息娛樂模 塊來提供。視頻顯示裝置38優(yōu)選地是圖形顯示裝置,例如儀表盤上的觸摸屏或者從擋風(fēng)玻 璃反射的抬頭顯示裝置,并且其可以用于提供大量的輸入和輸出功能。各種其它車輛用戶 接口也可以被使用,因為圖1的接口僅僅是一個具體實施的例子。無線載波系統(tǒng)14優(yōu)選地是蜂窩電話系統(tǒng),包括多個蜂窩塔70 (僅示出一個),一個 或多個移動交換中心(MSCs) 72,以及將無線載波系統(tǒng)14和陸地網(wǎng)絡(luò)16連接所需要的任何 其它網(wǎng)絡(luò)部件。每個蜂窩塔70包括發(fā)送和接收天線、以及基站,來自不同蜂窩塔的基站直 接地、或者經(jīng)由諸如基站控制器的中間設(shè)備連接到MSC 72。蜂窩系統(tǒng)14可以實施任何合適 的通信技術(shù),例如包括,諸如AMPS的模擬技術(shù),或者諸如CDMA (例如CDMA2000)或GSM/GPRS 的更新的數(shù)字化技術(shù)。如同由本領(lǐng)域普通技術(shù)人員理解的,各種蜂窩塔/基站/MSC的布置 都是可能的,并且可以與無線系統(tǒng)14 一起使用。例如,基站和蜂窩塔可以是共同位于相同 地點,或者它們可以是相互遠程地安放,每個基站可以負責(zé)一個蜂窩塔,或者一個基站可以 服務(wù)若干不同的蜂窩塔,多個基站可以聯(lián)接到一個單獨的MSC,布置方式有多種。除了使用無線載波系統(tǒng)14,可以使用衛(wèi)星通信形式的不同無線載波系統(tǒng)以提供與 車輛的單向或者雙向的通信。這可以使用一個或多個通信衛(wèi)星62和上行線路發(fā)射站64實 現(xiàn)。單向通信例如可以是衛(wèi)星無線電服務(wù),其中節(jié)目內(nèi)容(新聞、音樂等)由發(fā)射站64接 收、為上載而打包、然后發(fā)送給衛(wèi)星62,衛(wèi)星將節(jié)目廣播給用戶。雙向通信例如可以是使用 衛(wèi)星62以在車輛12和站64之間中繼電話通信的衛(wèi)星電話服務(wù)。如果被使用,這種衛(wèi)星電 話可以是在無線載波系統(tǒng)14的基礎(chǔ)上使用或者代替該無線載波系統(tǒng)使用。陸地網(wǎng)絡(luò)16可以是連接到一個或多個陸地線路電話并將無線載波系統(tǒng)14連接到呼叫中心20的常規(guī)的基于陸地的電信網(wǎng)絡(luò)。例如,陸地網(wǎng)絡(luò)16可以包括公共交換電話網(wǎng) 絡(luò)(PSTN),諸如用于提供硬連線通話服務(wù)、分組交換數(shù)據(jù)通信、以及互聯(lián)網(wǎng)基礎(chǔ)設(shè)施。陸地 網(wǎng)絡(luò)16的一個或多個部分可以通過使用標準有線網(wǎng)絡(luò)、光纖或其它光學(xué)網(wǎng)絡(luò)、電纜網(wǎng)絡(luò)、 電源線、諸如無線局域網(wǎng)(WLAN)的其它無線網(wǎng)絡(luò)、或提供寬帶無線接入(BWA)的網(wǎng)絡(luò)、或其 任何組合來實現(xiàn)。而且,呼叫中心20不必經(jīng)由陸地網(wǎng)絡(luò)16而連接,而是可以包括無線通話 設(shè)備,以使其直接與諸如無線載波系統(tǒng)14的無線網(wǎng)絡(luò)通信。計算機18可以是經(jīng)由私有或公共網(wǎng)絡(luò)、諸如互聯(lián)網(wǎng)可訪問的多個計算機之一。每 個這樣的計算機18可以用于一個或多個目的,例如由車輛經(jīng)由遠程信息單元30和無線載 波系統(tǒng)14可訪問網(wǎng)絡(luò)服務(wù)器。其它這樣的可訪問計算機18例如可以是診斷信息和其它 的車輛數(shù)據(jù)可以經(jīng)由遠程信息單元30從車輛上載的服務(wù)中心計算機;由車輛擁有者或其 它用戶使用的、用于訪問或接收車輛數(shù)據(jù)或者是設(shè)置或配置用戶偏好或控制車輛功能的目 的的客戶計算機;或者第三方棧,通過與車輛12和/或呼叫中心2的通信將車輛數(shù)據(jù)或其 它信息輸入或輸出該第三方棧。計算機18還可以用于提供互聯(lián)網(wǎng)連接,例如DNS服務(wù)或網(wǎng) 絡(luò)地址服務(wù)器,該互聯(lián)網(wǎng)連接使用DHCP或其它合適的協(xié)議為車輛12分配IP地址。呼叫中心20設(shè)計為為車輛電子器件觀提供多個不同的系統(tǒng)后端功能,按照本文 示出的示例性實施例,呼叫中心通常包括一個或多個的交換機80、服務(wù)器82、數(shù)據(jù)庫84、人 工顧問86、以及自動語音應(yīng)答系統(tǒng)(VRS)88,所有這些均是本領(lǐng)域已知的。這些多種呼叫中 心部件優(yōu)選地經(jīng)由有線的或無線的局域網(wǎng)90相互聯(lián)接。交換機80,可以是私人分支交換 (PBX)交換機,路由進入的信號以使語音傳輸通常由常規(guī)電話發(fā)送給人工顧問86、或者使 用VoIP發(fā)送給自動語音應(yīng)答系統(tǒng)88。人工顧問電話還可以如圖1的虛線指示地使用VoIP。 通過交換機80的VoIP和其它數(shù)據(jù)通信是經(jīng)由在交換機80和網(wǎng)絡(luò)90之間連接的調(diào)制解調(diào) 器(未示出)實現(xiàn)的。數(shù)據(jù)傳輸是經(jīng)由調(diào)制解調(diào)器傳送到服務(wù)器82和/或數(shù)據(jù)庫84的。 數(shù)據(jù)庫84可以存儲帳戶信息,諸如用戶認證信息、車輛標識、外形記錄、行為模式、以及其 它有關(guān)的用戶信息。數(shù)據(jù)傳輸還可以由無線系統(tǒng)進行,諸如802. llx、GraS,等等。盡管所 示出的實施例已經(jīng)描述為其可以結(jié)合使用人工顧問86的人工呼叫中心20來使用,但可以 理解的是呼叫中心替代地可以使用VRS 88作為自動的顧問,或者使用VRS 88和人工顧問 86的組合。自動語音識別系統(tǒng)現(xiàn)在參考圖2,示出了 ASR系統(tǒng)210的示例性結(jié)構(gòu),其可用于實現(xiàn)本公開的方法。 總的來說,車輛擁有者與自動語音識別系統(tǒng)(ASR)語音地交互是為了以下基本目的中的一 個或多個訓(xùn)練系統(tǒng)理解車輛擁有者的特定語音;存儲離散的語音,諸如說出來的姓名標 簽或說出來的控制字,如數(shù)字或關(guān)鍵字;或識別車輛擁有者的語音以用于任何適當?shù)哪康模?諸如語音撥號,菜單導(dǎo)航,錄音,服務(wù)請求,車輛設(shè)備或設(shè)備功能控制等等??偟膩碚f,ASR從 人類語音提取聲學(xué)數(shù)據(jù),將聲學(xué)數(shù)據(jù)與存儲的子字數(shù)據(jù)比較并對比,選擇能夠與其它所選 的子字結(jié)合的適當?shù)淖幼?,將結(jié)合的子字或字輸出,用于后續(xù)處理,諸如口授或錄音,地址 簿撥號,存儲到存儲器,訓(xùn)練ASR模型或調(diào)整參數(shù)等。ASR系統(tǒng)對于本領(lǐng)域技術(shù)人員來說是已知的,圖2僅示出了一種特定的示例性ASR 系統(tǒng)210。系統(tǒng)210包括接收語音的設(shè)備,諸如遠程信息麥克風(fēng)32,聲學(xué)接口 33,諸如遠程 信息單元30的聲卡,以將語音數(shù)字化為聲學(xué)數(shù)據(jù)。系統(tǒng)210還包括存儲器,諸如遠程信息存儲器M,用于存儲聲學(xué)數(shù)據(jù)并存儲語音識別軟件和數(shù)據(jù)庫,以及處理器,諸如遠程信息處 理器52,用于處理聲學(xué)數(shù)據(jù)。處理器與存儲器一起作用,并與以下模塊結(jié)合前端處理器或 預(yù)處理器軟件模塊212,用于將語音的聲學(xué)數(shù)據(jù)流解析為參數(shù)化的表示,諸如聲學(xué)特征;解 碼器軟件模塊214,用于將聲學(xué)特征解碼以獲得對應(yīng)于輸入的語音發(fā)音的數(shù)字化子字或字 輸出數(shù)據(jù);以及后處理軟件模塊216,用于使用來自解碼器模塊214的輸出數(shù)據(jù),以用于任 何合適的目的。系統(tǒng)210還可以從任何其它適當?shù)囊纛l源131接收語音,音頻源131可以直接與 預(yù)處理器軟件模塊212連通,如實線所示,或通過聲學(xué)接口 33間接地與其連通。音頻源131 可包括,例如,音頻的遠程源,諸如語音郵件系統(tǒng),或任何類型的其它遠程服務(wù)。一個或多個模塊或模型可以用作對解碼器模塊214的輸入。首先,語法和/或詞 典模型218可提供規(guī)則,以管理哪個字可以邏輯地跟隨其它字以形成有效的句子。廣義地 說,語法可以限定系統(tǒng)210在任何給定時間在任何給定的ASR模式所期望的詞表的全體。例 如,如果系統(tǒng)210處于用于訓(xùn)練命令的訓(xùn)練模式,則語法模型218可包括系統(tǒng)210所知的和 所用的所有命令。在另一示例中,如果系統(tǒng)210處于主菜單模式,則有效的語法模型218可 包括系統(tǒng)210所期望的所有主菜單命令,諸如呼叫,撥號,退出,刪除,目錄等等。第二,聲學(xué) 模型220輔助選擇對應(yīng)于來自預(yù)處理器模塊212的輸入的最可能的子字或字。第三,字模 型222和句子/語言模型2M提供規(guī)則,句法,和/或語義學(xué),以便將所選擇的子字或字放 入字或句子上下文中。并且,句子/語言模型2M可以限定系統(tǒng)210在任何給定時間在任 何給定的ASR模式下所期望的句子的全體,和/或可以提供規(guī)則等,用于管理哪些句子能夠 邏輯地跟隨其它句子以形成有效的擴展的語言。根據(jù)備選示例性實施例,ASR系統(tǒng)210中的一些或全部可以駐留在遠離車輛12的 地點(諸如呼叫中心20)的計算設(shè)備中并用該計算設(shè)備進行處理。例如,語法模型、聲學(xué)模 型等可以存儲在呼叫中心20的服務(wù)器82中的一個的存儲器和/或數(shù)據(jù)庫84中,并傳遞到 車輛遠程信息單元30,用于在車內(nèi)進行語音處理。類似地,語音識別軟件可以使用呼叫中心 20的服務(wù)器82中的一個的處理器進行處理。換句話說,ASR系統(tǒng)210可以任何所需方式駐 留在遠程信息單元30中或分布在呼叫中心20和車輛12中。首先,從人類語音中提取聲學(xué)數(shù)據(jù),其中車輛擁有者對麥克風(fēng)32講話,麥克風(fēng)32 將發(fā)音轉(zhuǎn)換為電信號,并將該信號傳遞給聲學(xué)接口 33。麥克風(fēng)32中的聲音響應(yīng)元件以氣壓 的變化來捕捉擁有者的語音發(fā)音并將發(fā)音轉(zhuǎn)換為相對應(yīng)的模擬電信號(諸如直流電流或 直流電壓)的變化。聲學(xué)接口 33接收模擬電信號,該模擬電信號首先被采樣,使得在離散 的時間點捕獲模擬信號的值,然后這些值被量化,使得模擬信號的幅值在各采樣點被轉(zhuǎn)換 為連續(xù)的數(shù)字語音數(shù)據(jù)流。換句話說,聲學(xué)接口 33將模擬電信號轉(zhuǎn)換為數(shù)字電信號。數(shù)字 數(shù)據(jù)是二進制的比特,其在遠程信息存儲器M中緩沖,然后由遠程信息處理器52處理或在 它們被處理器52初始接收到的時候被實時處理。第二,預(yù)處理器模塊212將連續(xù)的數(shù)字語音數(shù)據(jù)流轉(zhuǎn)換為離散的聲學(xué)參數(shù)序列。 更具體地說,處理器52執(zhí)行預(yù)處理模塊212以將數(shù)字語音數(shù)據(jù)分段為例如10-30毫秒持續(xù) 時間的重疊的語音幀或聲學(xué)幀。這些幀對應(yīng)于聲學(xué)子字,諸如音節(jié)、半音節(jié)、音素、雙音素、 音位等。預(yù)處理器模塊212還執(zhí)行語音分析以從擁有者的講話中提取聲學(xué)參數(shù),諸如來自 各幀的時變特征向量。擁有者的講話中的發(fā)音可以表示為這些特征向量的序列。例如,本領(lǐng)域技術(shù)人員已知的,特征向量可以被提取,并可以包括,例如,音調(diào),能量曲線,譜特性,和 /或倒譜系數(shù),其可以通過執(zhí)行幀的傅立葉變換獲得并使用余弦變換使聲學(xué)譜解相關(guān)。覆蓋 語音的特定持續(xù)時間的聲學(xué)幀和相對應(yīng)的參數(shù)被結(jié)合為語音的未知的檢驗?zāi)J?,以用于?碼。第三,處理器執(zhí)行解碼器模塊214,以處理到來的各檢驗?zāi)J降奶卣飨蛄?。解碼器 模塊214還已知為識別引擎或分類器,并使用存儲的已知的語音參考模式。如同檢驗?zāi)J剑?參考模式被限定為相關(guān)的聲學(xué)幀和相對應(yīng)的參數(shù)的結(jié)合。解碼器模塊214將要識別的子字 檢驗?zāi)J降穆晫W(xué)特征向量與存儲的子字參考模式進行比較和對比,評估它們之間的不同或 相似的程度,最后使用決策邏輯來選擇匹配得最好的子字作為所識別的子字??偟膩碚f,匹 配得最好的子字對應(yīng)于與存儲的已知的參考模式具有最小的不相似性的,或具有最高可能 性的檢驗?zāi)J?,由本領(lǐng)域技術(shù)人員已知的各種技術(shù)中的任一種來分析并識別子字而確定。 這些技術(shù)可以包括動態(tài)時間規(guī)整分類器,人工智能技術(shù),神經(jīng)網(wǎng)絡(luò),自由音位識別器,和/ 或概率模式匹配器(諸如隱馬爾可夫模型(HMM)引擎)。HMM引擎對于本領(lǐng)域技術(shù)人員是已知的,用于產(chǎn)生聲學(xué)輸入的多語音識別模型假 設(shè)。在最終識別和選擇代表通過語音的特征分析而最可能正確的聲學(xué)輸入的解碼的識別輸 出時考慮這些假設(shè)。更具體而言,HMM引擎產(chǎn)生統(tǒng)計學(xué)模型,其形式為諸如應(yīng)用貝葉斯理論 給定一個或另一個子字根據(jù)HMM計算的所觀測的聲學(xué)數(shù)據(jù)序列的置信值或概率排名的“N 個最好的”子字模型假設(shè)列表。貝葉斯HMM過程識別出對應(yīng)于給定的聲學(xué)特征向量的觀測序列的最可能發(fā)音或 子字系列的最佳假設(shè),并且其置信值可能依賴于各種因素,包括與進入的聲學(xué)數(shù)據(jù)相關(guān)聯(lián) 的聲學(xué)信號-噪聲比。HMM還可以包括稱為對角高斯混合的統(tǒng)計學(xué)分布,其對于各子字的 各觀測的特征向量得到似然分值,這些分值可以用于對N最佳假設(shè)列表進行重新排序。HMM 引擎還可以識別并選擇模型似然分數(shù)最高的子字。以相似的方式,一個子字序列的各個HMM可以被結(jié)合以建立單個或多個字HMM。之 后,可以產(chǎn)生單個或多個字參考模式和相關(guān)聯(lián)的參數(shù)值的N最佳列表,并進一步被評估。在一個實例中,語音識別解碼器214使用合適的聲學(xué)模型、語法和算法處理特征 向量,以產(chǎn)生N最佳參考模式列表。如本文所用,術(shù)語參考模式可與模型、波形、模板、富信 號模型(rich signal model)、范本、假設(shè)或其它類型的參考互換。參考模式可包括代表一 個或多個字或子字的一系列的特征向量,并且可基于特定的說話者、說話方式和聲音環(huán)境 情況。本領(lǐng)域技術(shù)人員將認識到,參考模式可以由ASR系統(tǒng)的適當?shù)膮⒖寄J接?xùn)練產(chǎn)生并 存儲在存儲器中。本領(lǐng)域技術(shù)人員還將認識到,存儲的參考模式可以被修改,其中,參考模 式的參數(shù)值可以基于ASR系統(tǒng)的參考模式訓(xùn)練和實際使用之間的語音輸入信號的不同來 調(diào)整。例如,為一個車輛擁有者或某些聲學(xué)條件所訓(xùn)練的一組參考模式可以基于來自不同 的車輛擁有者或不同的聲學(xué)條件的有限量的訓(xùn)練數(shù)據(jù)而被調(diào)整并保存為不同的車輛擁有 者或不同的聲學(xué)條件的另一組參考模式。換句話說,參考模式不必被固定并可以在語音識 別期間調(diào)整。使用詞表內(nèi)的語法和任何合適的解碼器算法和聲學(xué)模型,處理器可以從存儲器訪 問解釋檢驗?zāi)J降娜舾蓞⒖寄J?。例如,處理器可以產(chǎn)生詞表結(jié)果或參考模式以及相對應(yīng) 的參數(shù)值的N最佳列表,并將其存儲在存儲器中。示例性參數(shù)值可包括詞表的N最佳列表中的各參考模式的置信分數(shù)和相關(guān)聯(lián)的段持續(xù)時間,似然分數(shù),信號-噪聲比(SNR)值等等。 詞表的N最佳列表可以按參數(shù)值的大小降序排列。例如,帶有最高置信分數(shù)的詞表參考模 式是第一最佳參考模式,依此類推。一旦建立所識別的子字的串,則它們可用于以來自字模 型222的輸入構(gòu)建字,并以來自語言模型224的輸入構(gòu)建句子。最后,后處理器軟件模塊216從解碼器模塊214接收輸出數(shù)據(jù),以用于任何適當目 的。例如,后處理器模塊216可用于將聲學(xué)數(shù)據(jù)轉(zhuǎn)換為文本或數(shù)字,用于ASR系統(tǒng)或車輛系 統(tǒng)的其它方面。在另一個實例中,后處理器模塊216可用于為解碼器214或預(yù)處理器212 提供訓(xùn)練反饋。更具體而言,后處理器216可用于為解碼器模塊214訓(xùn)練聲學(xué)模型,或為預(yù) 處理器模塊212訓(xùn)練調(diào)整參數(shù)。在另一個實例中,特定對于本發(fā)明的一個實施例,后處理器 模塊216可使用音調(diào)來改進識別精度,如下更詳細敘述。方法參考圖3,示出了使用音調(diào)來改進識別精度的語音識別后處理的方法。可以在車輛 遠程信息單元30的操作環(huán)境中使用圖2的ASR系統(tǒng)210的適當編程以及圖1所示的其它 部件的適當硬件和編程來實現(xiàn)圖3的方法300。任何特定實現(xiàn)的這些特征對于本領(lǐng)域技術(shù) 人員來說基于以上系統(tǒng)描述和結(jié)合余下附圖的以下所描述的方法的論述將是已知的。本領(lǐng) 域技術(shù)人員還將意識到,該方法可以在其它操作環(huán)境中使用其它ASR系統(tǒng)來實現(xiàn)。該方法通過處理會話期間的噪聲的插入而改善當前語音識別會話的性能??傮w而 言,在車輛內(nèi)接收音頻,然后預(yù)處理以產(chǎn)生聲學(xué)特征向量,包括音調(diào)作為參數(shù)。所產(chǎn)生的聲 學(xué)特征向量被處理以產(chǎn)生語音假設(shè),在后處理過程中只有當所接收的音頻中存在音調(diào)時才 將這些語音假設(shè)接受為識別的語音。在一些語言中,各音節(jié)總是包括元音。在講話中所發(fā)音的元音產(chǎn)生音調(diào),即使對于 非常低頻的講話也是如此,如圖4所示。圖4示出了一個示例性講話發(fā)音的隨時間變化的 聲學(xué)頻率和幅度的圖。幅度域中的語音信號代表了“五五五”的用戶發(fā)音,頻率域的波形代 表了對應(yīng)于發(fā)音的所檢測到的音調(diào)的存在。相應(yīng)的,對于各音節(jié)包括元音的語言來說,每個 發(fā)音的音節(jié)都產(chǎn)生音調(diào)。例如,漢語普通話中每個字都發(fā)音為包含元音的音節(jié),因此,每個 漢語普通話字都具有相關(guān)的音調(diào)。相反,道路噪聲不具有音調(diào),而是隨機的,如圖5所示。圖5示出了采樣的講話和道路噪聲的隨時間變化的聲學(xué)頻率和幅度的圖。在圖中 的第一幀中,幅度域中的語音信號代表了“八八八”的用戶發(fā)音,頻率域的波形代表了對應(yīng) 于發(fā)音的所檢測到的音調(diào)的存在。在圖中的第二幀中,幅度域中的噪聲信號代表了由車輛 麥克風(fēng)收集的道路噪聲,對應(yīng)于道路噪聲沒有檢測到音調(diào)。然而,這樣的道路噪聲可能導(dǎo)致 對應(yīng)于“五五五”的ASR插入。因此,當對于各語言使用ASR時,音調(diào)的存在(或不存在)可以用于降低或防止與 車輛道路噪聲相關(guān)的不期望的插入。類似地,音調(diào)的計數(shù)可以用于降低或防止與車輛道路 噪聲相關(guān)的不期望的插入,如下所述。再次參看圖3,方法300在步驟305以任何適當?shù)姆绞介_始。例如,車輛用戶開始 與遠程信息單元30的用戶接口的交互,優(yōu)選是按下用戶接口按鈕34以開始會話,在該會話 中,用戶輸入被遠程信息單元30所理解的語音命令,同時操作在語音識別模式下。使用音 頻系統(tǒng)36,通過播放聲音或提供對來自用戶或擁有者的命令的聲音請求,遠程信息單元30 通知按鈕已被激勵。
在步驟310,在車輛中以任何適當方式接收音頻。例如,音頻可包括包含接收自用 戶的詞匯的輸入語音,偶爾還包括車輛道路噪聲。更具體而言,音頻可以由麥克風(fēng)32、變換 器33、和ASR系統(tǒng)210的處理器52和/或存儲器M接收。在步驟315,接收的音頻被預(yù)處理,以從音頻提取聲學(xué)特征向量。例如,預(yù)處理器 212可以提取特征向量,包括倒譜系數(shù),以及音調(diào)特征。在步驟320,所提取的聲學(xué)特征向量利用語音識別引擎或解碼器來處理,以獲得所 接收的音頻中的語音的至少一個假設(shè)。例如,步驟310中所接收的音頻被ASR系統(tǒng)210的 解碼器214使用語法218并使用一個或多個聲學(xué)模型220解碼,以產(chǎn)生N最佳假設(shè)和相關(guān) 聯(lián)的參數(shù)值,例如,置信值。在步驟325,所接收的音頻被分析音調(diào)。例如,可以確定所接收的音頻中的音調(diào)的 量。音調(diào)代表所接收的音頻中的離散的時間幀(例如,3至15毫秒)的頻率分量。在一 個實施例中,音調(diào)的存在,或音調(diào)計數(shù),可由聲學(xué)接口 33使用任何適當?shù)囊粽{(diào)檢測電路、模 塊、計數(shù)器等來確定。在另一個實施例中,音調(diào)計數(shù)可以使用前端處理器212提取代表各提 取的幀的音調(diào)的特征向量來確定。前端處理器212可以使用任何適當?shù)能浖?、算法或技術(shù), 其可包括,例如,自回歸建模、平均幅度差函數(shù)、最大后驗(MAP)方法等。根據(jù)步驟330-350,在后處理過程中使用音調(diào)來改進識別精度。在步驟330,如果在所接收到的音頻中沒有檢測到音調(diào)的存在,則方法返回到步驟 310接收音頻。例如,ASR系統(tǒng)210可以任何合適的方式提示用戶重復(fù)發(fā)音。否則,方法可 前進至步驟335。在步驟335,與各語音假設(shè)相關(guān)聯(lián)的音節(jié)的量與音調(diào)計數(shù)或音調(diào)出現(xiàn)的量進行比 較。例如,來自步驟325的音調(diào)計數(shù)與N最佳列表中的條目的假設(shè)的音節(jié)計數(shù)進行比較,該 比較開始于第一條目。這可以通過迭代地進行以下步驟實現(xiàn),即,檢查N最佳列表中的第一 個條目,如果音調(diào)計數(shù)和音節(jié)計數(shù)匹配,則使用該假設(shè)作為識別出的語音,如果不匹配,則 檢查列表中的下一個條目,以此類推,直至找到匹配或者過程因失敗而結(jié)束,在失敗的情況 下,可以執(zhí)行其它處理,或者過程可以返回到開始305,以任何合適的方式提示用戶重復(fù)發(fā) 音。對各假設(shè)中的音節(jié)的計數(shù)可以以任何適當?shù)姆绞絹韺崿F(xiàn)。在一個實施例中,解碼器可 以在應(yīng)用程序中包括音節(jié)計數(shù)加法器,例如,能夠計數(shù)音節(jié)的有聲/無聲檢測器。相應(yīng)地, 解碼器能夠產(chǎn)生N最佳假設(shè)和相關(guān)數(shù)據(jù),例如,XML文件。XML文件可包括用于文本表示各 假設(shè)的線或字段(如,“888”)以及用于對應(yīng)于文本表示的多個音節(jié)的線或字段。在另一個 實施例中,解碼器或后處理器可包括任何合適的基于文本的音節(jié)計數(shù)程序以計數(shù)對應(yīng)于各 假設(shè)的文本的音節(jié)。如所示,如果在步驟340,被檢查的假設(shè)的音節(jié)計數(shù)等于所接收到的音頻的音調(diào)計 數(shù),則過程進行至步驟345,在該步驟中,假設(shè)被接受作為識別出的語音,并且過程成功地結(jié) 束。如果音調(diào)計數(shù)與音節(jié)計數(shù)不匹配,則過程從步驟340進行到步驟350,在該步驟中,訪 問N最佳列表中的下一個假設(shè)。如果不存在下一個假設(shè)(列表被窮盡了),則在步驟355, 過程以失敗結(jié)束(如果需要,可以再次嘗試進行識別)。如果存在另一個假設(shè),則過程后 退到步驟335和340,在這些步驟中,N最佳假設(shè)列表的下一個成員的音節(jié)計數(shù)被與音調(diào)計 數(shù)進行比較。該過程重復(fù),直到計數(shù)匹配(語音被確定為被識別出來)或列表被窮盡。并 且,如果有多個假設(shè)具有匹配的音節(jié)和音調(diào)計數(shù),則在這些假設(shè)中,具有最高置信分數(shù)的語
11音假設(shè)被接受作為識別出的語音。作為音調(diào)計數(shù)的這一使用的實例,如果用戶發(fā)出“mi WU mi”(普通話中的五五五),并且N最佳列表條目1包含“mi wu”(兩個所發(fā)出的音節(jié))并 且列表條目2包含“mi wu wu”(三個所發(fā)出的音節(jié)),并且如果音調(diào)計數(shù)被正確地確定為 三個,則N最佳列表條目1將被拒絕為不具有正確的音調(diào)計數(shù)并且N最佳列表條目2用作 最佳匹配,因而作為所識別出的語音。本方法被認為可以用于改進語音識別精度,尤其是對于漢語普通話而言。然而,本 方法還被認為也可以適用于改進類似于漢語普通話的在本質(zhì)上帶有音調(diào)的其它語言的語 音識別精度。例如,該方法可用于任何其它音調(diào)語言,包括越南語,泰語,老撾語,苗瑤語言, 或其它中國語言的一種或多種??梢岳斫獾氖?,前述是本發(fā)明的一個或多個優(yōu)選示例性實施例的說明。本發(fā)明不 限制于本文公開的特定實施例,而是僅由隨后的權(quán)利要求書限定。而且,除了以上明確定義 的術(shù)語或短語之外,在關(guān)于特定實施例的前述說明中包含的陳述不是作為本發(fā)明精神的限 制性解釋、或者是權(quán)利要求中使用的術(shù)語的定義。對于所公開實施例的各種其它實施例和 各種改變與修改將對于本領(lǐng)域普通技術(shù)人員來說是明顯的。所有這樣的其它實施例、改變 和修改都應(yīng)當是在所附加權(quán)利要求的范圍之內(nèi)。如同在本說明書和權(quán)利要求書中使用的,當結(jié)合列舉一個或多個部件或其它事項 使用時,術(shù)語“舉例”、“例如”、“諸如”和“等”,以及動詞“包括”、“具有”、“包含”和他們的其 它動詞形式,每一個都是開放式的,這意味著所述列表不能被認為是排除其它、另外的部分 或術(shù)語。其它術(shù)語使用它們最廣義的含義來解釋,除非其在上下文中要求使用不同的解釋。
權(quán)利要求
1.一種在車輛中進行自動語音識別的方法,所述方法包括以下步驟(a)在所述車輛中接收音頻;(b)預(yù)處理所接收到的音頻,以產(chǎn)生聲學(xué)特征向量;(c)對所產(chǎn)生的聲學(xué)特征向量進行解碼,以產(chǎn)生至少一個語音假設(shè);以及(d)使用音調(diào)對所述至少一個語音假設(shè)進行后處理,以改進語音識別精度。
2.如權(quán)利要求1所述的方法,其特征在于,步驟(d)包括如果在所接收到的音頻中檢測 不到音調(diào)則拒絕所述語音假設(shè)。
3.如權(quán)利要求1所述的方法,其特征在于,步驟(d)包括將與語音假設(shè)相關(guān)聯(lián)的音節(jié)計 數(shù)與所接收到的音頻的音調(diào)計數(shù)進行比較,并將音節(jié)計數(shù)等于音調(diào)計數(shù)的特定語音假設(shè)接 受作為識別出的語音。
4.如權(quán)利要求3所述的方法,其特征在于,所述被接受的語音假設(shè)是音節(jié)計數(shù)等于音 調(diào)計數(shù)的多個語音假設(shè)中具有最高置信分數(shù)的語音假設(shè)。
5.一種在車輛中進行自動語音識別的方法,所述方法包括以下步驟(a)在所述車輛中接收音頻;(b)從所接收的音頻產(chǎn)生多個語音假設(shè);(c)確定所接收的音頻的音調(diào)計數(shù);(d)識別出所述語音假設(shè)中音節(jié)計數(shù)等于音調(diào)計數(shù)的一個語音假設(shè);以及(e)將所述識別出的語音假設(shè)接受作為所接收的音頻的識別出的語音。
6.一種在車輛中進行自動語音識別的方法,所述方法包括以下步驟(a)在所述車輛中接收音頻;(b)預(yù)處理所接收到的音頻,以產(chǎn)生聲學(xué)特征向量;(c)處理所產(chǎn)生的聲學(xué)特征向量以產(chǎn)生N最佳語音假設(shè)和相關(guān)的置信分數(shù)和音節(jié)計數(shù);(d)確定所接收的音頻的音調(diào)計數(shù);(e)通過將與所述語音假設(shè)相關(guān)聯(lián)的音節(jié)計數(shù)與音調(diào)計數(shù)進行比較而對所述N最佳語 音假設(shè)進行后處理;以及(f)將所述N最佳語音假設(shè)中的音節(jié)計數(shù)等于音調(diào)計數(shù)的語音假設(shè)接受作為識別出的語首。
7.如權(quán)利要求6所述的方法,其特征在于,所述被接受的語音假設(shè)是音節(jié)計數(shù)等于音 調(diào)計數(shù)的多個語音假設(shè)中具有最高置信分數(shù)的語音假設(shè)。
全文摘要
本發(fā)明涉及一種在車輛中進行自動語音識別的方法。該方法包括在車輛中接收音頻,對所接收的音頻進行預(yù)處理以產(chǎn)生聲學(xué)特征向量,對所產(chǎn)生的聲學(xué)特征向量進行解碼以產(chǎn)生至少一個語音假設(shè),使用音調(diào)對所述至少一個語音假設(shè)進行后處理以改進語音識別精度。在后處理過程中如果所接收的音頻中存在音調(diào),則語音假設(shè)可以被接受作為識別出的語音?;蛘?,可以確定所接收的音頻的音調(diào)計數(shù),可以通過將音調(diào)計數(shù)與與語音假設(shè)相關(guān)聯(lián)的音節(jié)計數(shù)進行比較而對N最佳語音假設(shè)進行后處理,并且音節(jié)計數(shù)等于音調(diào)計數(shù)的語音假設(shè)可以被接受作為識別出的語音。
文檔編號G10L15/20GK102097096SQ201010587680
公開日2011年6月15日 申請日期2010年12月10日 優(yōu)先權(quán)日2009年12月10日
發(fā)明者U·阿倫, X·趙 申請人:通用汽車有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
疏附县| 塔河县| 桃园市| 岳西县| 荆州市| 五台县| 泰宁县| 汉川市| 宜城市| 天水市| 江北区| 临汾市| 柘荣县| 西青区| 台湾省| 黄骅市| 南陵县| 杂多县| 汕尾市| 丰原市| 宣恩县| 凤阳县| 南充市| 诏安县| 西昌市| 无锡市| 湛江市| 昌吉市| 赤水市| 德保县| 海南省| 宁海县| 密云县| 石台县| 新安县| 宣武区| 简阳市| 宣威市| 原阳县| 阳城县| 麻城市|