專利名稱:使用隱含語者自適應(yīng)的語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號的處理。更具體的說,本發(fā)明涉及通過非監(jiān)督式訓(xùn)練來 獲得性能改善的新穎語音識別方法和裝置。技術(shù)背景語音識別是最重要的技術(shù)之一,它可賦予機(jī)器以模擬智能,用于識別用戶的 語音命令且便于作為人類與機(jī)器的接口。采用從聲學(xué)語音信號中恢復(fù)語言信息的技 術(shù)的系統(tǒng)被稱為語音識別(VR)系統(tǒng)。
圖1顯示了基本的VR系統(tǒng),它包括預(yù) 加重濾波器102,聲學(xué)特征提取(AFE)單元104,以及模式匹配引擎110。 AFE 單元104將一系列數(shù)字語音樣本轉(zhuǎn)變?yōu)橐唤M測量數(shù)值(例如,被提取的頻率分量), 該測量數(shù)值可稱之為聲學(xué)特征矢量。模式匹配引擎iio將一系列聲學(xué)特征矢量與在 VR聲學(xué)模型112中所包含的模板相匹配。VR模式匹配引擎一般采用動態(tài)時間規(guī) 整(DTW, Dynamic Timing Warping)或隱馬爾可夫(Markov)模型(HMM)技 術(shù)。DTW或HMM都是在本領(lǐng)域中所熟悉的,并且在Rabiner, L.R和Juang, B.H 編著的《語音識別的基礎(chǔ)》(Prentic Hall出版,1993年出版)中詳細(xì)討論了。當(dāng) 一系列聲學(xué)特征與在聲學(xué)模型112中所包含的一個模板相匹配時,可用該被識別的 模板產(chǎn)生所希望的輸出格式,例如,對應(yīng)于輸入語音的語言詞匯的識別序列。正如以上所指出的,聲學(xué)模型112—般是HMM模型或者DTW模型。DTW 聲學(xué)模型可以認(rèn)為是與需要識別的各種詞匯有關(guān)的模板數(shù)據(jù)庫。 一般來說,DTW 模板包括特征矢量的序列,該特征矢量序列是根據(jù)許多相關(guān)詞匯的例子加以平均 的。DTW模式匹配一般會涉及到將具有最小距離的存儲模板置于表示輸入語音的 輸入特征矢量序列中。在基于HMM的聲學(xué)模型中使用的模板包含了對相關(guān)語音發(fā)被指定到所述至少 一個操縱器。當(dāng)演奏者在樂器上演奏一段音樂的時候,演奏者操縱所述至少 一個操縱 器用于通過將演奏者的力施加到其上而指定所產(chǎn)生樂音的屬性。所述至少一 個傳感器將演奏者的力轉(zhuǎn)換為檢測信號,該檢測信號的量級相當(dāng)于演奏者力 的量級??刂破鞔_定演奏者的意圖,也就是演奏者通過所述至少一個操縱器 的移動希望達(dá)到的目的。當(dāng)控制器確定了演奏者的意圖,控制器讀取為演奏 者意圖準(zhǔn)備的多個關(guān)系中的一個,并且確定與物理量的量級相關(guān)聯(lián)的驅(qū)動動 力的量級。然后,控制器調(diào)整驅(qū)動動力到一定量級,并且將該驅(qū)動信號供應(yīng) 到所述至少一個作動器。當(dāng)控制器收到另 一種演奏者意圖的時候,控制器訪問指定給另 一種演奏 者意圖的多個關(guān)系中的另 一個,并且確定根據(jù)另 一個關(guān)系的驅(qū)動動力的量 級。正如從前面的描述中可以理解的,為不同種類的演奏者意圖下的至少一 個操縱器準(zhǔn)備了多個關(guān)系。輔助力的最佳量級在不同種類的演奏者意圖下是 不同的,因此協(xié)助系統(tǒng)為演奏者提供最佳的輔助。第一實施例首先參考附圖1,體現(xiàn)本發(fā)明的薩克斯管主要包括管狀主體1、音鍵機(jī)構(gòu)2以及協(xié)助系統(tǒng)3。管狀主體1中限定了空氣柱,演奏者引起管狀主體1 中空氣柱振動。通過空氣柱的振動從管狀主體1中發(fā)出樂音。在管狀主體l 的外表面上設(shè)置音鍵機(jī)構(gòu)2,演奏者用手指在音鍵機(jī)構(gòu)2上演奏以改變空氣 柱的長度,即樂音的音高。設(shè)置協(xié)助系統(tǒng)3與音鍵機(jī)構(gòu)2關(guān)聯(lián),并且輔助在 音鍵機(jī)構(gòu)2上用手指演奏的演奏者。由于這個原因,即使演奏者在用手指非 常弱的演奏的時候,他或者她仍然能夠在協(xié)助系統(tǒng)3的輔助下快速地改變樂 音的音高。管狀主體1包括圓錐形金屬管1 a、頸部11 、帶有簧片的吹口 ( mouthpiece ) 12以及上翻的喇叭口 (flared bell) 13。音孔形成在圓錐形金屬管la、頸部 ll和上翻的喇叭口 13中,并且在圖1中用"lb"標(biāo)記了幾個音孔。吹口 12 被放入演奏者的嘴中。當(dāng)演奏者在吹口 12上吹氣的時候,簧片引起管狀主 體l中空氣柱振動。頸部11連接在吹口 12和圓錐形金屬管la之間,且上翻的喇叭口 13連 接到圓錐形金屬管la的另外一端。頸部11的內(nèi)部空間延續(xù)到圓錐形金屬管 la的內(nèi)部空間,而圓錐形金屬管la的內(nèi)部空間延續(xù)到上翻的喇叭口 13的內(nèi)綠色和藍(lán)色(RGB)象素數(shù)據(jù)信號、時鐘信號以及控制信號。根據(jù)前述TTL數(shù)據(jù),該定時控制器300產(chǎn)生控制信號,并發(fā)送給該柵極驅(qū) 動器202以及源極驅(qū)動器204。在本發(fā)明的一個實施例中,該定時控 制器300使用低擺幅差分信號(RSDS)輸出接口,相應(yīng)地,該TTL 數(shù)據(jù)被轉(zhuǎn)換成RSDS信號,該RSDS信號為對源極驅(qū)動器204以及柵 極驅(qū)動器202的串行信號。該柵極驅(qū)動器202以及源極驅(qū)動器204用以驅(qū)動該LCD面板 206,該LCD面板206包括多個用以接收該柵極驅(qū)動器202的柵極電 壓的柵極線,該柵極電壓用作掃描信號;多個與柵極線相交的用以接 收該源極驅(qū)動器204的數(shù)據(jù)電壓的源極線,該數(shù)據(jù)電壓用作數(shù)據(jù)信 號。該源極驅(qū)動器204通過RSDS信號存儲來自定時控制器300的 RGB數(shù)據(jù),同時接收一個將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成模擬信號的指令信號。 一旦接收該指令信號,該源極驅(qū)動器204輸出一個模擬信號,該模擬 信號與該LCD面板206的各獨立象素相對應(yīng)。該柵極驅(qū)動器202包括一個移位寄存器、 一個電平轉(zhuǎn)移電路以及 一個緩存器(圖2中未示出)。該柵極驅(qū)動器202接收一個柵極時鐘 信號以及一個來自定時控制器300的垂直線起始信號。此外,該柵極 驅(qū)動器202還接收來自該Vcom發(fā)生器214的電壓,并輸出柵極電壓, 用以給該LCD面板206的各獨立象素提供相應(yīng)電壓值。動態(tài)畫面的顯示是以建立幀來實現(xiàn)。每個幀包括多個掃描線,當(dāng) 掃描完一個幀的所有掃描線后,下一幀進(jìn)入定時控制器300。本發(fā)明 的一個實施例中,TFT-LCD面板206的刷新頻率為60 Hz,或者說,圖5是示出使用語者無關(guān)(SI)和語者特定(SD)匹配評價兩者來進(jìn)行語音 識別(測試)方法的流程圖;圖6示出用于從語者無關(guān)(SI)和語者特定(SD)匹配評價中產(chǎn)生組合匹配評價的方法。具體實施方法圖2顯示了可以在無線遠(yuǎn)程站202中實現(xiàn)的混合語音識別(VR)系統(tǒng)的示例 性實施例。在該示例性實施例中,遠(yuǎn)程站202通過無線信道(未顯示)與無線通信 網(wǎng)絡(luò)(未顯示)通信。例如,遠(yuǎn)程站202可以是與無線電話系統(tǒng)通信的無線電話。 在本領(lǐng)域的專業(yè)人士會意識到,本文所討論的技術(shù)可以同樣應(yīng)用于固定(不是便攜 的)的VR系統(tǒng)或者不包括無線信道。在所示的實施例中,來自用戶的語音信號在麥克風(fēng)(MIC) 210中轉(zhuǎn)換成電信 號,并且在模擬數(shù)字變換器(ADC) 212轉(zhuǎn)換成數(shù)字語音樣本。該數(shù)字樣本流隨后 使用預(yù)加重(PE)濾波器214進(jìn)行濾波,例如,可以采用衰減低頻信號分量的有 限脈沖響應(yīng)(FIR)濾波器。濾波后的樣本隨后在聲學(xué)特征提取(AFE)單元216中進(jìn)行分析。該AFE單 元216將數(shù)字語音樣本轉(zhuǎn)換成聲學(xué)特征矢量。在示例性實施例中,AFE單元216 對具有連續(xù)的數(shù)字樣本的片段進(jìn)行傅立葉變換,以產(chǎn)生對應(yīng)于不同頻率箱的信號強(qiáng) 度的矢量。在示例性實施例中,頻率箱可以根據(jù)巴克標(biāo)度(barkscale)來變化帶寬。 在巴克標(biāo)度中,各個頻率箱的帶寬具有與箱的中心頻率有關(guān)的關(guān)系,使得更高頻率 箱可具有比較低頻率箱更寬的頻率帶寬。在Rabiner, L.R和Juang, B.H編著的《語音識別的基礎(chǔ)》(PrenticHall出版,1993年出版)討論了巴克標(biāo)度。在示例性實施例中,各個聲學(xué)特征矢量是從在固定時間間隔中所收集的一系 列語音樣本中提取的。在示例性實施例中,這些時間間隔是重疊的。例如,聲學(xué)特 征可以從每個10毫秒開始的語音數(shù)據(jù)的20毫秒間隔中獲得,使得每兩個連續(xù)的間 隔都可以公用IO毫秒的片段。在本領(lǐng)域中的專業(yè)人士都會意識到,可以在不脫離 本文所揭示實施例的范圍的條件下,時間間隔可以被替換成非重疊的或者具有非固 定的周期。由AFE單元216所產(chǎn)生的聲學(xué)特征矢量可提供給VR引擎220,該引擎進(jìn)行 模式匹配,以便根據(jù)一個和多個聲學(xué)模型230、 232和234的內(nèi)容表征聲學(xué)特征矢量的特征。在圖2所示的示例性實施例中,顯示了三個聲學(xué)模型語者無關(guān)(SI)隱馬爾可夫模型(HMM)的模型230,語者無關(guān)動態(tài)時間規(guī)整(Dynamic Time Warping) (DTW)模型232,以及語者特定(SD)聲學(xué)模型234。本領(lǐng)域的專業(yè)人士將會 意識到,在其它實施例中可以使用SI聲學(xué)模型的不同組合。例如,遠(yuǎn)程站202可 以僅包括SIHMM聲學(xué)模型230和SD聲學(xué)模型234,而省去了 SIDTW聲學(xué)模型 232。另外,遠(yuǎn)程站202可以包括單個的SIHMM聲學(xué)模型230, 一個SD聲學(xué)模型 234和兩個不同的SIDTW聲學(xué)模型232。另外,本領(lǐng)域的專業(yè)人士將會意識到, SD聲學(xué)模型234可以是HMM類型的或者是DTW類型的或者是兩者的組合。在 示例性實施例中,SD聲學(xué)模型234是DTW聲學(xué)模型。正如以上所討論的,VR引擎220進(jìn)行模式匹配,以確定在聲學(xué)特征矢量和一 個或多個聲學(xué)模型230、 232和234的內(nèi)容之間的匹配程度。在示例性實施例中, VR引擎220根據(jù)聲學(xué)特征的矢量與在各個聲學(xué)模型230、 232和234中的不同聲 學(xué)模板的匹配來產(chǎn)生匹配的評價。例如,VR引擎220根據(jù)一組聲學(xué)特征矢量與在 SIHMM聲學(xué)模型230中的多個HMM模板的匹配來產(chǎn)生HMM匹配的評價。同樣, VR引擎220根據(jù)聲學(xué)特征的矢量與在SIDTW聲學(xué)模型232中的多個DTW模板 的匹配來產(chǎn)生DTW匹配的評價。VR引擎220根據(jù)聲學(xué)特征矢量與在SD聲學(xué)模 型234中的模板的匹配來產(chǎn)生匹配的評價。正如以上所討論的,在聲學(xué)模型中的各個模板是與發(fā)音種類有關(guān)的。在一個 示例性實施例中,VR引擎220組合了與相同發(fā)音種類有關(guān)的模板的評價,以產(chǎn)生 將在非監(jiān)督式訓(xùn)練中使用的組合匹配評價。例如,VR引擎220組合了通過使一 組輸入的聲學(xué)特征矢量相關(guān)所獲得的SIHMM和SIDTW的評價,從而產(chǎn)生組合的 SI評價。根據(jù)該組合的匹配評價,VR引擎220確定是否存儲該組輸入的聲學(xué)特征 矢量作為在SD聲學(xué)模型234中的SD模板。在一個示例性實施例中,使用獨特的 SI匹配評價來進(jìn)行用于更新SD聲學(xué)模型234的非監(jiān)督式訓(xùn)練。這就防止了在對其 本身進(jìn)行非監(jiān)督式訓(xùn)練而使用擴(kuò)展的SD聲學(xué)模型234所引發(fā)的其它差錯。進(jìn)行非監(jiān)督式訓(xùn)練的示例性方法將在下文中作更詳細(xì)的討論。除了非監(jiān)督式訓(xùn)練之外,VR引擎220在測試過程中使用了各種聲學(xué)模型(230,232和234)。在示例性實施例中,VR引擎220從聲學(xué)模型(230, 232和234) 中檢索匹配的評價,并且產(chǎn)生適用于各個發(fā)音種類的組合匹配評價。組合匹配評價 可用于選擇最佳匹配于輸入語音的發(fā)音種類。VR引擎220根據(jù)需要將連續(xù)發(fā)音種 類集合在一起,以識別整個詞匯或短語。隨后,VR引擎220將有關(guān)識別的詞匯或短語的信息提供給控制處理器222,該處理器222使用該信息來確定對語音信息或 命令的適當(dāng)響應(yīng)。例如,響應(yīng)于所識別的詞匯或短語,控制處理器222可以提過顯 示器或其它用戶接口向用戶提供反饋。在另一個實施例中,控制處理器222可以通 過無線調(diào)制解調(diào)器218和天線224向無線網(wǎng)絡(luò)(未顯示)發(fā)送信息,開始對與被發(fā) 音和被識別的人的名字有關(guān)的目標(biāo)電話號碼的移動電話呼叫。無線調(diào)制解調(diào)器218可以通過包括CDMA、TDMA或FDMA的多種無線信道 類型中的任何一種來發(fā)送信號。此外,無線調(diào)制解調(diào)器218可以采用通過非無線信 道通信的其它類型的通信接口來替代,這并不脫離所揭示實施例的范圍。例如,遠(yuǎn) 程站202可以通過任何一類通信信道來發(fā)送信令信息,其中通信信道的類型可以 包括地面一有線調(diào)制解調(diào)器、T1/E1、 ISDN、 DSL、以太網(wǎng)、或者甚至是印刷電路 板(PCB)上的線徑。圖3是顯示進(jìn)行非監(jiān)督式訓(xùn)練的示例性方法的流程圖。在步驟302,模擬數(shù)字 轉(zhuǎn)換器(ADC)(圖2中212)采樣模擬語音數(shù)據(jù)。隨后,在步驟304,使用預(yù)加 重(PE)濾波器(圖2中的214)濾波數(shù)字樣本流。在步驟306,聲學(xué)特征提取(AFE) 單元(圖2中的216)從濾波后的樣本中提取輸入的聲學(xué)特征矢量。VR 引擎 (圖2中的220)接收來自AFE單元216的輸入聲學(xué)特征矢量,并且進(jìn)行輸入聲 學(xué)特征矢量與SI聲學(xué)模型(圖2中的230和232)中的內(nèi)容的模式匹配。在步驟 308, VR引擎220從模式匹配的結(jié)果中產(chǎn)生匹配的評價。VR引擎220通過輸入聲 學(xué)特征矢量與SIHMM聲學(xué)模型230的匹配產(chǎn)生SIHMM匹配評價,并且通過輸入 聲學(xué)特征矢量與SIDTW聲學(xué)模型232的匹配產(chǎn)生SIDTW匹配評價。在SIHMM 和SIDTW聲學(xué)模型(230和232)中的各個聲學(xué)模板都與特定的發(fā)音種類相關(guān)。 在步驟310,對SIHMM和SIDTW評價進(jìn)行組合,以形成組合匹配評價。圖4顯示了在非監(jiān)督式訓(xùn)練中使用的組合匹配評價的產(chǎn)生。在示例性實施例中,關(guān)于一特定發(fā)音種類的語者無關(guān)組合匹配評價ScoMB—51是根據(jù)圖示的等式1的加權(quán)和,其中SIHMMT是目標(biāo)發(fā)音種類的SIHMM匹配評價;SIHMM^是適用于SIHMM聲學(xué)模型中與非目標(biāo)發(fā)音種類(不是目標(biāo)發(fā)音種 類的發(fā)音種類)有關(guān)的模板的下一個最佳匹配評價;SIHMMc是適用于"垃圾(garbage)"發(fā)音種類的SIHMM的匹配評價。 SIDTWT是目標(biāo)發(fā)音種類的SIDTW匹配評價;SIDTW^是適用于SIDTW聲學(xué)模型中與非目標(biāo)發(fā)音種類有關(guān)的模板的下一個最佳匹配;以及,SIDTWg是造用于"垃圾"發(fā)音種類的SIDTW的匹配評價。 各種個體的匹配評價SIHMMn和SIDTWn可以被視為表示在一系列輸入聲學(xué)特征矢量和聲學(xué)模型中一模板之間的距離值。輸入聲學(xué)特征矢量和模板之間的距離 越長,則匹配的評價就越大。模板和輸入聲學(xué)特征矢量之間的緊密匹配會產(chǎn)生非常 低的匹配評價。如果將一系列輸入聲學(xué)特征矢量與兩個和不同發(fā)音種類相關(guān)的模板 比較且產(chǎn)生近似相等的兩個匹配評價,則VR系統(tǒng)就不能識別哪一個是"正確"的發(fā)音種類。SIHMMc禾卩SIDTWc是適用于"垃圾"發(fā)音種類的匹配評價。與垃圾發(fā)音種 類相關(guān)的一個模板或多個模板都稱為垃圾模板并且不會對應(yīng)于具體的詞匯和短語。 正是這個原因,它們對所有的輸入語音都同樣趨于不正確,垃圾匹配評價作為一種 在VR系統(tǒng)中的噪聲水平的測量是非常有用的。 一般來說,在可以確信能識別發(fā)音 種類之前,一系列的輸入聲學(xué)特征矢量對與目標(biāo)發(fā)音種類相關(guān)的模板的匹配程度應(yīng) 該比與垃圾模板的匹配程度好得多。在VR系統(tǒng)可以確信識別出一個發(fā)音種類為"正確"的發(fā)音種類之前,輸入 聲學(xué)特征矢量對與該發(fā)音種類相關(guān)的模板的匹配程度應(yīng)該比對與其它發(fā)音種類相 關(guān)的垃圾模板和其他模板有關(guān)的匹配程度更高。比基于單一聲學(xué)模型的匹配評價相 比,從各種聲學(xué)模型中產(chǎn)生的組合匹配評價可以在發(fā)音種類之間得到更加確定的區(qū) 分。在示例性實施例中,VR系統(tǒng)使用這類組合匹配評價來確定是否采用從一組新 的輸入聲學(xué)特征矢量中獲得的模板來取代在SD聲學(xué)模型(圖2中的234)中的模板??梢赃x擇加權(quán)因子(W,...W6)來提供在整個聲學(xué)環(huán)境中的最佳訓(xùn)練性能。在 示例性實施例中,加權(quán)因子(W卜.W6)在所有的發(fā)音種類中都是恒定的。換句話 說,用于產(chǎn)生第一 目標(biāo)發(fā)音種類的組合匹配評價所使用的Wn和用于產(chǎn)生另一個目 標(biāo)發(fā)音種類的組合匹配評價所使用的Wn是相同的。在另一個實施例中,加權(quán)因子 根據(jù)目標(biāo)發(fā)音種類而變化。對本領(lǐng)域的專業(yè)人士來說,進(jìn)行圖4所示組合的其他方 法是顯而易見的,并且可以視為在本文所討論實施例的范圍中。例如,也可以使用 大于6或小于6的加權(quán)輸入。另一個顯而易見的變化是根據(jù)一類聲學(xué)模型來產(chǎn)生組 合的匹配評價。例如,根據(jù)SIHMMt, SIHMMnt和SIHMMcj來產(chǎn)生組合匹配評價, 或者根據(jù)SIDTWt, SIDTWnt和SIDTWc來產(chǎn)生組合匹配評價。在示例性實施例中,W,和W4是負(fù)數(shù),并且Scomb的狡大(即負(fù)得較少)數(shù)值表示在目標(biāo)發(fā)音種類和一系列輸入聲學(xué)特征矢量之間有較大程度的匹配(較小的 距離)。在本領(lǐng)域中的專業(yè)人士會意識到,在不脫離所揭示實施例的范圍的條件下, 加權(quán)因子的符號可以容易地重新設(shè)置,使得較大程度的匹配可以對應(yīng)較小的數(shù)值。再返回到圖3,在步驟310,為與HMM和DTW聲學(xué)模型(230和232)中的 模板相關(guān)的發(fā)音種類產(chǎn)生組合匹配評價。在示例性實施例中,只為與最佳的n個 SIHMM匹配評價相關(guān)的發(fā)音種類和與最佳的m個SIDTW匹配評價相關(guān)的發(fā)音種 類產(chǎn)生組合匹配評價。為保存計算資源,此限制是需要的,即使在產(chǎn)生各個匹配評 價時需消耗大量的計算功率。例如,如果n二m二3,可以為與最好的三個SIHMM 匹配評價相關(guān)的發(fā)音種類和與最好的三個SIDTW匹配評價相關(guān)的發(fā)音種類產(chǎn)生組 合匹配評價。根據(jù)與最好的三個SIHMM匹配評價相關(guān)的發(fā)音種類是否和與最好的 三個SIDTW匹配評價相關(guān)的發(fā)音種類相同,此方法會產(chǎn)生三個至六個不同的組合 匹配評價。在步驟312,遠(yuǎn)程站202將組合匹配評價與所對應(yīng)的模板一起存儲在SD聲學(xué) 模型中的組合匹配評價進(jìn)行比較。如果對于相同的發(fā)音種類,新的輸入聲學(xué)特征矢 量系列比存儲在SD模板中的舊的模板具有更大的匹配程度,那么從新的輸入聲學(xué) 特征矢量系列中產(chǎn)生新的SD模板。在SD聲學(xué)模型是DTW聲學(xué)模型的實施例中, 輸入聲學(xué)特征矢量系列自身就構(gòu)成新的SD模板。隨后,用新的模板替代舊的模板, 并且將與新的模板有關(guān)的組合匹配評價存儲在SD聲學(xué)模型中,供以后比較使用。在替換的實施例中,非監(jiān)督式訓(xùn)練用于更新語者特定隱馬爾可夫模型 (SDHMM)的聲學(xué)模型中的一個和多個模板。該SDHMM聲學(xué)模型可以代替 SDDTW模型使用,或者除了 SDDTW模型以外,也在SD聲學(xué)模型234中使用。在示例性實施例中,在步驟312中的比較還包括將預(yù)期的新SD模板的組合匹 配評價與恒定訓(xùn)練閾值進(jìn)行比較。即使在SD聲學(xué)模型中還沒有存儲任何適用于一 特定發(fā)音種類的模板,則新的模板也不能存儲在SD聲學(xué)模型中,除非它具有比訓(xùn) 練閾值的數(shù)值更好的組合匹配評價(表示匹配程度更大)。在替換的實施例中,在替代SD聲學(xué)模型中的任何模板之前,SD聲學(xué)模型一 般是由SI聲學(xué)模型的模板來定義的。這樣的初始化提供了一種替換方法,用于保 證使用SD聲學(xué)模型的VR性能在開始時至少和只使用SI聲學(xué)模型的VR性能一樣 好。隨著越來越多的在SD聲學(xué)模型中的模板被更新,使用SD聲學(xué)模型的VR性 能會超越只使用SI聲學(xué)模型的VR性能。在替換的實施例中,VR系統(tǒng)允許用戶進(jìn)行監(jiān)督式訓(xùn)練。用戶必須在進(jìn)行這類監(jiān)督式訓(xùn)練之前將VR系統(tǒng)置于監(jiān)督式訓(xùn)練的模式。在監(jiān)督式訓(xùn)練的過程中,VR系統(tǒng)具有正確發(fā)音種類的先驗知識。如果關(guān)于輸入語音的組合匹配評價好于為該發(fā)音種類在先存儲的SD模板的組合匹配評價,則用輸入語音形成替換的SD模板。 在替換的實施例中,VR系統(tǒng)允許用戶在監(jiān)督式訓(xùn)練過程中強(qiáng)制替換現(xiàn)有的SD模 板。SD聲學(xué)模型可以采用適用于單個發(fā)音種類的多個(兩個或多個)模板的情況 來設(shè)計。在替換的實施例中,在SD模型中為每個發(fā)音種類存儲了兩個模板。因此, 在步驟312所作的比較必然將用新模板所獲得的匹配評價與為SD聲學(xué)模型中關(guān)于 相同發(fā)音種類的兩個模板所獲得的匹配評價進(jìn)行比較。如果新的模板比在SD聲學(xué) 模型中任何一個較舊的模板具有更好的匹配評價,則在步驟314,具有最差匹配評 價的SD聲學(xué)模型模板可采用該新的模板來替代。如果新的模板的匹配評價沒有兩 個舊的模板好,則跳過步驟314。另外,在步驟312,將用新的模板所獲得的匹配 評價與匹配評價的閾值進(jìn)行比較。如此地,在用新的模板來覆蓋SD聲學(xué)模型的原 先內(nèi)容之前,進(jìn)行新的模板與該閾值數(shù)值的比較,直到新的模板具有比存儲在SD 聲學(xué)模型中的闊值更好的匹配評價。可以預(yù)料各種顯而易見的變化,例如,根據(jù)組 合匹配評價按分類次序存儲SD聲學(xué)模型模板以及將新的匹配評價與最低的匹配評價進(jìn)行比較,這些變化被認(rèn)為在本文所揭示的實施例的范圍內(nèi)。還可以預(yù)料對于存 儲在聲學(xué)模型中的關(guān)于各個發(fā)音種類的模板數(shù)的各種顯而易見的變化。例如,SD聲學(xué)模型可以對于各個發(fā)音種類包含多于兩個的模板,或者可以對于不同發(fā)音種類 包含不同數(shù)量的模板。圖5是顯示了采用SI和SD聲學(xué)模型的組合來進(jìn)行VR測 試的示例性方法的流程圖。步驟302, 304, 306和308與圖3的討論相同。在步驟 510,該示例的方法不同于圖3所示的方法。在步驟510, VR引擎220根據(jù)輸入特 征矢量與在SD聲學(xué)模型中模板的比較來產(chǎn)生SD匹配評價。在示例性實施例中, 只為與最佳n SIHMM匹配評價和最佳m SIDTW匹配評價相關(guān)的發(fā)音種類產(chǎn)生SD 匹配評價。在示例性實施例中,n=m=3。根據(jù)在兩組發(fā)音種類之間的重疊程度,這 可以導(dǎo)致為三個至六個發(fā)音種類產(chǎn)生SD匹配評價。正如以上所討論的,SD聲學(xué) 模型可以包含單個發(fā)音種類的多個模板。在步驟512, VR引擎220產(chǎn)生混合的組 合匹配評價,供在VR測試中使用。在示例性實施例中,這些混合的組合匹配評價 是基于各個SI和各個SD匹配評價兩者的。在步驟514,可選擇具有最佳組合匹配 評價的詞匯或發(fā)音,并且將其與測試閾值相比較。如果某個發(fā)音的組合匹配評價超 過了測試閾值,只認(rèn)為識別出該發(fā)音。在示例性實施例中,用于產(chǎn)生訓(xùn)練用組合評價的加權(quán)[W,…W6](如圖4所示)與用于產(chǎn)生測試用組合評價的加權(quán)[W….W6] (如圖6所示)是相同的,但是訓(xùn)練的閾值不同于測試的閾值。圖6顯示了在步驟512所進(jìn)行的混合的組合匹配評價的產(chǎn)生。所示的示例性 實施例的操作雷同于圖4所示的組合器,除了采用加權(quán)因子W4皮用于DTWt以替 代SIDTW T以及采用加權(quán)因子W5應(yīng)用于DTWNT以替代SIDTW NT。從與目標(biāo)發(fā) 音種類相關(guān)的SIDTW和SDDTW最佳評價中選擇DTWT (適用于目標(biāo)發(fā)音種類的 動態(tài)時間規(guī)整匹配評價)。類似地,從與非目標(biāo)發(fā)音種類相關(guān)的SIDTW和SDDTW 最佳評價中選擇DTW^(適用于其余非目標(biāo)發(fā)音種類的動態(tài)時間規(guī)整匹配評價)。適用于特殊發(fā)音種類的SI/SD混合評價SCOMB—h是根據(jù)圓示EQN.2的加權(quán)和, 式中SIHMMT, SIHMMnt, SIHMMcj和SIDTWG與EQN.l中的SIHMMT, SIHMMNT, SIHMMg和SIDTWcj是相同的。特別是,在EQN.2中SIHMMT是目標(biāo)發(fā)音種類的SIHMM匹配評價;SIHMM^是適用于與非目標(biāo)發(fā)音種類(不是目標(biāo)發(fā)音種類的發(fā)音種類)有關(guān)的SIHMM聲學(xué)模型中模板的下一個最佳匹配;SIHMM(3是適用于"垃圾"發(fā)音種類的SIHMM匹配評價;DTWt是対皮于目標(biāo)發(fā)音種類的適用于SI和SD模板的最佳DTW匹配評價;DTW^是對應(yīng)于非目標(biāo)發(fā)音種類的適用于SI和SD模板的最佳DTW匹配評價;以及,SIDTW(j是適用于"垃圾"發(fā)音種類的SIDTW匹配評價。 于是,SI/SD混合評價SC0MB—h是各個SI和各個SD匹配評價的組合。最終的 組合匹配評價并不整個依賴于SI或SD聲學(xué)模型。如果匹配評價SIDTWt比任何 SDDTWT的評價要好,則從較好的SIDTWT評價中計算出SI/SD混合評價。類似地, 如果匹配評價SDDTWT比任何SIDTWT的評價要好,則從較好的SDDTWT評價中 計算出SI/SD混合評價。因此,如果在SD聲學(xué)模型中的模板產(chǎn)生較差的匹配評價, 則VR系統(tǒng)仍舊可以根據(jù)SI/SD混合評價的SI部分來識別輸入語音。這類較差的 SD匹配評價可以具有多種原因,包括在訓(xùn)練和測試過程中聲學(xué)環(huán)境之間的差異。 或者或許是訓(xùn)練所使用的較差質(zhì)量的輸入。在替換的實施例中,對SI評價的加權(quán)輕于SD評價,或者甚至可以全部忽略。 例如,從與目標(biāo)發(fā)音種類相關(guān)的最佳SDDTW評價中選擇DTWT,并忽略該目標(biāo)發(fā) 音種類的SIDTW評價。同樣,可以從與非目標(biāo)發(fā)音種類相關(guān)的最佳SIDTW或 SDDTW評價中選擇DTWOT,代替使用兩組評價。盡管只采用適用于語者特定模式的SDDTW聲學(xué)模型來討論示例性實施例, 本文所討論的混合方法可以同樣應(yīng)用于使用SDHMM聲學(xué)模型或者甚至于使用 SDDTW和SDHMM聲學(xué)模型的VR系統(tǒng)。例如,通過改進(jìn)圖6所示的方法,加權(quán) 因子W,可以應(yīng)用于從最佳的SIHMMt和SDHMMT評價中選出的匹配評價。加權(quán) 因子\¥2可以應(yīng)用于從最佳的SIHMM^和SDHMMMT評價中選出的匹配評價。于是,本文所揭示的是使用SI和SD聲學(xué)模型的組合來改善在非監(jiān)督式訓(xùn)練 和測試過程中的VR性能的VR方法和裝置。本領(lǐng)域的專業(yè)人士都會理解到信息 和信號可以采用多種不同工藝和技術(shù)中任何一種來表示。例如,在以上討論中所參 考的數(shù)據(jù)、指令、命令、信息、信號、比特、碼元、和碼片都可以采用電壓、電流、 電磁波、磁場或粒子、光場或粒子,或者其上述的組合來表示。同樣,盡管上述的 實施例主要考慮了動態(tài)時間規(guī)整(DTW)或隱馬爾可夫模型(HMM)聲學(xué)模型, 但是所討論的技術(shù)同樣可以應(yīng)用于其它類型的聲學(xué)模型,例如,神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。本領(lǐng)域的普通專業(yè)人士還會進(jìn)一步意識到,參考本文所揭示的實施例所討論 的各種說明性的邏輯單元、模塊、電路和算法步驟都可以采用電子硬件、計算機(jī)軟 件、及其兩者的組合來實現(xiàn)。為了能簡潔地說明這些硬件和軟件的互換性,以上已 經(jīng)從功能上討論了各種說明性的元件、邏輯單元、模塊、電路以及步驟。這些功能 是實現(xiàn)為硬件還是軟件取決于施加在整個系統(tǒng)上的特定的應(yīng)用和設(shè)計制約。專業(yè)人 士都可以采用各種特殊應(yīng)用的變化方式來實現(xiàn)上述的功能,但是這類實現(xiàn)方法都不 應(yīng)理解為脫離本發(fā)明的范圍。以上結(jié)合本文所揭示的實施例討論的各種說明性的邏輯單元、模塊、和電路 可以采用通用處理器、數(shù)字信號處理器(DPS)、專用集成電路(ASIC)、現(xiàn)場 可編程門陣列(FPGA)或者其它可編程邏輯器件、分立的門電路和晶體管邏輯、 分立硬件元件、或者為實現(xiàn)上述功能而設(shè)計的任何組合來實現(xiàn)或完成。通用處理器 可以是微處理器,但是在替換中,處理器可以是任何一種常規(guī)的處理器、控制器、 微控制器、或者狀態(tài)機(jī)。處理器也可以用計算器件的組合來實現(xiàn),例如,DSP和 微處理器的組合、多個微處理器、 一個或多個結(jié)合DSP芯核的微處理器,或者任 何其它這類結(jié)構(gòu)。結(jié)合本文揭示的實施例所討論的方法或算法的步驟可以直接嵌入在硬件中、直接嵌入在處理器所執(zhí)行的軟件模塊中、或者直接嵌入在兩者的組合之中。該軟件 模塊可以駐留在RAM存儲器,閃存存儲器、ROM存儲器、EPROM存儲器、EPPROM存儲器、寄存器、硬盤、可移動盤、CD—ROM、或者本領(lǐng)域中所熟悉的任何其它形式的存儲媒介中。示例性存儲媒介與處理器相耦合,使得處理器能從存儲媒介中 讀取信息,也可以將信息寫入該存儲媒介中。在替換的實施例中,存儲媒介可以集 成于處理器。處理器和存儲媒介可以駐留在ASIC中。在替換的實施例中,處理器 和存儲媒介可以駐留在用戶終端中的分立元件中。上述揭示實施例的說明使得本領(lǐng)域任何專業(yè)人士都能夠產(chǎn)生或應(yīng)用本發(fā)明。 對本領(lǐng)域任何專業(yè)人士來說,各種對這些實施例的改進(jìn)都是顯而易見的,本文所定 義的基本原理可以在不脫離本發(fā)明的精神和范圍的條件下應(yīng)用于其它實施例。于 是,本發(fā)明并不試圖受限于本文所顯示的實施例,而是考慮與本文所揭示的原理和 新穎特征相一致的最廣泛范圍。
權(quán)利要求
1.一種語音識別方法,所述方法包括下述步驟將第一輸入語音片段與至少第一模板進(jìn)行模式匹配,以產(chǎn)生至少一個輸入模式匹配評價并且確定被識別的發(fā)音種類;將所述至少一個輸入模式匹配評價跟與至少第二模板相關(guān)的對應(yīng)評價作比較,其中所述至少第二模板來自與所識別的發(fā)音種類相關(guān)的語者特定聲學(xué)模型;和根據(jù)所述比較結(jié)果,確定是否更新所述至少第二模板。
2. 如權(quán)利要求1所述的方法,其特征在于,用于進(jìn)行模式匹配的所述步驟還 包括將所述第一輸入語音片段與至少一個隱馬爾可夫模型模板進(jìn)行隱馬爾可夫模 型模式匹配,以生成至少一個隱馬爾可夫模型匹配評價;將所述第一輸入語音片段與至少一個動態(tài)時間規(guī)整模板進(jìn)行動態(tài)時間規(guī)整模 式匹配,以生成至少一個動態(tài)時間規(guī)整匹配評價;和對所述至少一個隱馬爾可夫模型匹配評價和所述至少一個動態(tài)時間規(guī)整匹配 評價求至少一個加權(quán)和,以生成所述至少一個輸入模式匹配評價。
3. 如權(quán)利要求l所述的方法,其特征在于,還包括通過將第二輸入語音片段與所述至少第一模板進(jìn)行模式匹配,生成至少一個 語者無關(guān)匹配評價;通過將所述第二輸入語音片段與所述至少第二模板進(jìn)行模式匹配,生成至少一個語者特定匹配評價;并且將所述至少一個語者無關(guān)匹配評價與所述語者特定匹配評價進(jìn)行組合,以生 成至少一個組合匹配評價。
4. 如權(quán)利要求3所述的方法,其特征在于,還包括識別與所述至少一個組 合匹配評價中的最佳組合匹配評價相關(guān)的發(fā)音種類。
5. —種進(jìn)行非監(jiān)督式語音識別訓(xùn)練和測試的方法,所述方法包括下述步驟 在語音識別引擎(220)中,將來自語者的輸入語音與語者無關(guān)聲學(xué)模型(230,232)中的內(nèi)容進(jìn)行模式匹配,以產(chǎn)生語者無關(guān)模式匹配評價;用所述語音識別引擎(220),將所述語者無關(guān)模式匹配評價跟與語者特定聲 學(xué)模型(234)的模板相關(guān)的評價作比較,其中所述語者特定聲學(xué)模型適合于所述 語者;和如果所述語者無關(guān)模式匹配評價高于與所述語者特定聲學(xué)模型(234)的模板 相關(guān)的所述評價,則根據(jù)所述語者無關(guān)模式匹配評價,為所述語者特定聲學(xué)模型 (234)生成新模板。
6. 如權(quán)利要求5所述的方法,其特征在于,所述語者無關(guān)聲學(xué)模型(230, 232)包括至少一個隱馬爾可夫模型聲學(xué)模型。
7. 如權(quán)利要求5所述的方法,其特征在于,所述語者無關(guān)聲學(xué)模型(230, 232)包括至少一個動態(tài)時間規(guī)整聲學(xué)模型。
8. 如權(quán)利要求5所述的方法,其特征在于,所述語者無關(guān)聲學(xué)模型(230, 232)包括至少一個隱馬爾可夫模型聲學(xué)模型和至少一個動態(tài)時間規(guī)整聲學(xué)模型。
9. 如權(quán)利要求5所述的方法,其特征在于,所述語者無關(guān)聲學(xué)模型(230, 232)包括至少一個垃圾模板,其中所述比較步驟包括將所述輸入語音與所述至少 一個垃圾模板作比較。
10. 如權(quán)利要求5所述的方法,其特征在于,所述語者特定聲學(xué)模型(234) 包括至少一個動態(tài)時間規(guī)整聲學(xué)模型。
11. 如權(quán)利要求5所述的方法,其特征在于,還包括構(gòu)造所述語音識別引擎(220),以便將第二輸入語音片段與所述語者無關(guān)聲 學(xué)模型和所述語者特定聲學(xué)模型中的內(nèi)容作比較,從而生成至少一個語者特定和語 者無關(guān)的組合匹配評價;以及識別具有語者特定和語者無關(guān)的最佳組合匹配評價的發(fā)音種類,其中發(fā)音種 類是特定的詞匯或語音片段。
12. 如權(quán)利要求ll所述的方法,其特征在于,所述語者無關(guān)聲學(xué)模型包括至 少一個隱馬爾可夫模型聲學(xué)模型。
13. 如權(quán)利要求ll所述的方法,其特征在于,所述語者無關(guān)聲學(xué)模型(230, 232)包括至少一個動態(tài)時間規(guī)整聲學(xué)模型。
14. 如權(quán)利要求11所述的方法,其特征在于,所述語者無關(guān)聲學(xué)模型(230, 232)包括至少一個隱馬爾可夫模型聲學(xué)模型和至少一個動態(tài)時間規(guī)整聲學(xué)模型。
15. 如權(quán)利要求11所述的方法,其特征在于,所述語者特定聲學(xué)模型(234) 包括至少一個動態(tài)時間規(guī)整聲學(xué)模型。
16. —種語音識別方法,所述方法包括下述步驟將輸入語音片段與至少一個語者無關(guān)聲學(xué)模板進(jìn)行模式匹配,以生成至少一 個語者無關(guān)匹配評價;將所述輸入語音片段與語者特定聲學(xué)模板進(jìn)行模式匹配,以生成至少一個語 者特定匹配評價;將所述至少一個語者無關(guān)匹配評價與所述至少一個語者特定匹配評價組合, 以生成至少一個組合匹配評價,其中每個組合匹配評價對應(yīng)于一個發(fā)音種類并且依 賴于該發(fā)音種類的語者無關(guān)模式匹配評價以及該發(fā)音種類的語者特定模式匹配評 價,其中發(fā)音種類是特定的詞匯或語音片段。
17. 如權(quán)利要求16所述的方法,其特征在于,用于進(jìn)行模式匹配的所述步驟 和用于組合的所述步驟是由語音識別引擎(220)來執(zhí)行的。
全文摘要
本發(fā)明涉及使用隱含語者自適應(yīng)的語音識別系統(tǒng)。具體地,揭示了一種語音識別(VR)系統(tǒng),該系統(tǒng)采用語者無關(guān)(SI)(230和232)和語者特定(SD)(234)的聲學(xué)模型的組合。至少一個SI聲學(xué)模型(230和232)用于和至少一個SD聲學(xué)模型(234)的組合,以提供至少與純SI聲學(xué)模型的語音識別性能相同的水平。所揭示的SI/SD VR系統(tǒng)可連續(xù)使用非監(jiān)督式的訓(xùn)練,來更新在一個和多個SD聲學(xué)模型(234)中的聲學(xué)模板。混合的VR系統(tǒng)隨后使用與至少一個SI聲學(xué)模型(230和232)組合的經(jīng)更新的SD聲學(xué)模型(234),在VR測試過程中提供改良的VR性能。
文檔編號G10L15/16GK101221759SQ20071019669
公開日2008年7月16日 申請日期2002年3月22日 優(yōu)先權(quán)日2001年3月28日
發(fā)明者A·P·德雅柯, C·張, H·加魯達(dá)德里, N·馬拉亞, S·賈里爾, 寧 畢 申請人:高通股份有限公司