專利名稱:一種語音識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,具體的說,涉及一種語音識別方法及裝置。
背景技術(shù):
自動語音識別ASR(Automatic Speech Recognition)技術(shù)是一種將人的語音轉(zhuǎn)換 為文本的技術(shù),屬于一個多學(xué)科交叉的技術(shù)領(lǐng)域,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理 理論、信息論、計算機科學(xué)等眾多學(xué)科緊密相連 。近年來,消費類電子產(chǎn)品對低成本、高穩(wěn)健 性的語音識別系統(tǒng)的需求逐漸增加,語音識別系統(tǒng)已經(jīng)大量地從實驗室的PC平臺轉(zhuǎn)移到 了終端設(shè)備中。目前已經(jīng)有許多用戶有機會體驗到語音識別技術(shù)帶給人們的便捷服務(wù),例 如通過語音識別技術(shù),用戶可以直接發(fā)出語音來對終端設(shè)備發(fā)送指令,或要求終端設(shè)備記 錄用戶發(fā)出的語音,從而將文本轉(zhuǎn)換成用戶語音朗讀出來。終端語音識別是一個模式識別匹配的過程。在這個過程中,終端首先要根據(jù)人的 語音特點建立語音模型,通過對輸入的語音信號的分析,抽取所需的特征,來建立語音識別 所需的模板。而終端在識別過程中要根據(jù)語音識別模型,將終端中的語音模板與輸入的語 音信號的特征比較后,確定與輸入語音匹配的最佳模板,從而獲得語音識別的結(jié)果。在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題在現(xiàn)有的語音識別終端產(chǎn)品中,語音識別系統(tǒng)對用戶輸入的語音進(jìn)行識別過程 中,通常會根據(jù)可信度的高低向用戶顯示與輸入語音有關(guān)的幾種選擇,用戶需要再次選擇 來確定最終的識別結(jié)果;另外,語音識別過程中如果出現(xiàn)錯誤,只能在提示用戶識別結(jié)果或 根據(jù)該識別結(jié)果繼續(xù)運行程序時,被用戶發(fā)覺,無法提前獲知。例如用戶在使用語音識別 技術(shù)撥打電話時,當(dāng)語音識別錯誤發(fā)生時,往往在接通電話后,用戶才能發(fā)現(xiàn)通話對象是錯 誤的。針對上述現(xiàn)有技術(shù)可以看出,現(xiàn)有的語音識別系統(tǒng)很大程度上給用戶造成的用戶體 驗很差。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種語音識別方法及裝置,能夠提高現(xiàn)有語音識別系統(tǒng)的 用戶體驗。本發(fā)明實施例提供了一種語音識別方法,技術(shù)方案包括通過至少兩條語音識別支路識別輸入語音;在確定從所述語音識別支路獲得的至少兩種語音識別結(jié)果一致時,輸出所述識別結(jié)果。本發(fā)明實施例提供了一種語音識別裝置,技術(shù)方案包括 信息識別模塊,用于通過至少兩條語音識別支路識別輸入語音;識別處理模塊,用于在確定從所述信息識別模塊中獲得的至少兩種語音識別結(jié)果 一致時,輸出所述識別結(jié)果。由上述本發(fā)明的實施例提供的技術(shù)方案可以看出,其通過對至少兩條語音識別支路產(chǎn)生的結(jié)果進(jìn)行判決,不需要用戶再次對識別結(jié)果進(jìn)行選擇,在錯誤發(fā)生時可以采用相應(yīng)的處理方式提示用戶,提高了現(xiàn)有語音識別系統(tǒng)的用戶體驗。
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用 的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本 領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。圖1為本發(fā)明實施例一種語音識別方法的流程圖;圖2為本發(fā)明實施例一種語音識別方法的應(yīng)用場景圖;圖3為本發(fā)明實施例一種語音識別方法的應(yīng)用場景圖;圖4為本發(fā)明實施例一種語音識別裝置的結(jié)構(gòu)示意圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實施例一種語音識別方法及裝置的核心是針對輸入語音采用至少兩條的 語音識別支路進(jìn)行處理,通過對產(chǎn)生的至少兩個語音識別結(jié)果進(jìn)行判決后輸出,用戶不需 要針對多個識別結(jié)果進(jìn)行再次選擇,同時,本發(fā)明實施例在識別結(jié)果的判決過程中,能夠及 時提示用戶識別過程中出現(xiàn)的錯誤,避免了由于語音識別錯誤導(dǎo)致的錯誤程序的運行。下面通過本發(fā)明具體實施例針對本發(fā)明記載的技術(shù)方案進(jìn)行詳細(xì)說明。如圖1所示,本發(fā)明實施例提供了一種語音識別方法,可以通過如下技術(shù)方案實 現(xiàn)步驟101 通過至少兩條語音識別支路識別輸入語音;步驟102 在確定從所述語音識別支路獲得的至少兩種語音識別結(jié)果一致時,輸 出所述識別結(jié)果。在本發(fā)明的一個實施例中,通過至少兩條語音識別支路識別輸入語音的過程具體 可以通過如下技術(shù)方案實現(xiàn)步驟1011 獲取輸入語音信號;步驟1012 分別通過至少兩條語音識別支路對所述語音信號進(jìn)行識別后,存儲所 述語音識別支路產(chǎn)生的至少兩種語音識別結(jié)果。需要說明的是,本發(fā)明實施例中采用至少兩條語音識別支路對用戶輸入的語音信 號進(jìn)行語音識別,并沒有具體限定語音識別支路的數(shù)量,在實施例的具體實現(xiàn)場景中,可以 根據(jù)業(yè)務(wù)需求來具體選配。另外需要說明的是,在現(xiàn)有的語音識別系統(tǒng)中常用的算法通常有基于神經(jīng)網(wǎng)絡(luò) 的訓(xùn)練和識別算法、基于動態(tài)時間歸整匹配的識別算法和基于統(tǒng)計的隱含馬爾可夫模型識 別和訓(xùn)練算法。
由于基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識別算法實現(xiàn)起來較復(fù)雜,且識別率不高?;趧討B(tài) 時間歸整匹配的識別算法屬于一個最為小巧的語音識別的算法,其系統(tǒng)開銷小,且識別速 度快,針對小詞匯量的語音命令控制系統(tǒng)非常有效,但不適用在復(fù)雜系統(tǒng)中?;诮y(tǒng)計的隱含馬爾可夫模型識別和訓(xùn)練算法是目前語音識別系統(tǒng)中最佳的一 種,因為這種數(shù)學(xué)模型已經(jīng)形成了完整的理論框架。隱含馬爾可夫模型的算法是通過將語 音看成一連串特定狀態(tài),這種狀態(tài)以某種隱含的關(guān)系與語音的觀測量(或特征)相關(guān)聯(lián),并 且這種隱含關(guān)系在HMM模型中通常以概率形式所體現(xiàn),HMM模型的輸出結(jié)果也以概率形式 給出,這為本發(fā)明實施例中的判決過程創(chuàng)造了條件。由此,本發(fā)明實施例中語音識別支路優(yōu) 選基于統(tǒng)計的隱含馬爾可夫模型識別和訓(xùn)練算法來實現(xiàn)。在本發(fā)明實施例中,在確定從所述語音識別支路獲得的至少兩種語音識別結(jié)果不 一致時,分別給出了兩種不同的處理方式一種處理方式的應(yīng)用場景如圖2所示用戶輸入的語音信號通過至少兩個語音識別支路進(jìn)行語音識別,獲得至少兩種語 音識別結(jié)果;通過對至少兩種語音識別結(jié)果判決后如果相同,將識別結(jié)果直接輸出,或者根據(jù)該識別結(jié)果進(jìn)行相應(yīng)的操作;比如用 戶在使用語音撥號服務(wù)時,系統(tǒng)會根據(jù)獲得的相同識別結(jié)果確定用戶撥出的被叫號碼,向 被叫號碼發(fā)出通話呼叫或進(jìn)行短信發(fā)送。相反,當(dāng)獲得的識別結(jié)果中至少有一個識別結(jié)果不同時,輸出警報,提示用戶重新 輸入語音信息,以便針對再次輸出的語音信息進(jìn)行識別。用戶使用現(xiàn)有的語音識別系統(tǒng)提 供的服務(wù)時,當(dāng)識別結(jié)果有誤,例如用戶使用語音撥號時,只能在系統(tǒng)根據(jù)錯誤識別結(jié)果 撥通被叫號碼后,用戶才發(fā)覺其的錯誤操作,不僅導(dǎo)致用戶自身的體驗很差,同時也影響了 被叫用戶的體驗,通過在錯誤發(fā)生時,及時提示用戶語音識別過程出現(xiàn)錯誤,避免誤操作的 產(chǎn)生。需要說明的是,在圖2所示的應(yīng)用場景中,判決過程不具體針對語音識別支路的 數(shù)量進(jìn)行考慮,判決過程中只要有語音識別支路產(chǎn)生的識別結(jié)果有一個與其余結(jié)果不同 時,即做出警報。采用上述圖2這種方式,不僅能夠避免用戶針對多個識別結(jié)果的再次選擇帶來的 麻煩,而且在語音信息識別過程出現(xiàn)錯誤時,能夠及時給出用戶提示,避免識別錯誤帶來的 誤操作。另一種處理方式的應(yīng)用場景圖如圖3所示用戶輸入的語音信號通過至少兩個語音識別支路進(jìn)行語音識別,獲得至少兩種語 音識別結(jié)果;通過對至少兩種語音識別結(jié)果判決后,如果相同,將識別結(jié)果直接輸出,或者 根據(jù)該識別結(jié)果進(jìn)行相應(yīng)的操作;當(dāng)不同時,還可以根據(jù)多數(shù)原則、加權(quán)算法或多數(shù)原則與 加權(quán)算法相結(jié)合中任一方式,從所述至少兩種識別結(jié)果中確定最終識別結(jié)果后,再輸出。需要說明的是,在圖3所示的應(yīng)用場景中,當(dāng)采用多數(shù)原則對語音識別支路的識 別結(jié)果進(jìn)行判決時,要具體考慮識別支路的數(shù)量,是將識別結(jié)果中保持一致數(shù)量最多的識 別結(jié)果作為最終識別結(jié)果,在最終識別結(jié)果確定后進(jìn)行輸出或按照最終識別結(jié)果執(zhí)行相應(yīng) 操作。例如應(yīng)用場景中存在6條語音識別支路時,語音識別后產(chǎn)生的結(jié)果為其中有3條支路的識別結(jié)果保持一致,有2條識別結(jié)果保持一致,其余1條支路的識別結(jié)果與另外5 條均不同,針對這種情況,將識別結(jié)果相同的3條支路的識別結(jié)果作為最終的識別結(jié)果。在圖3所示的應(yīng)用場景中,還可以采用加權(quán)計算的方式對語音識別支路的識別結(jié) 果進(jìn)行判決,其獲得的最終識別結(jié)果取決于權(quán)重的設(shè)定,具體可以通過分別針對每一條語 音識別支路設(shè)定權(quán)重,權(quán)重具體可以根據(jù)網(wǎng)絡(luò)延時時間、系統(tǒng)負(fù)荷來確定,本發(fā)明實施例不 限定權(quán)重的具體設(shè)定因素,只要便于語音識別結(jié)果的判決即可。 應(yīng)用場景中存在6條語音識別支路時,可以根據(jù)網(wǎng)絡(luò)延時時間來分別設(shè)定每條支 路的權(quán)重,將網(wǎng)絡(luò)延時時間越小的支路權(quán)重設(shè)定的越高,通過加權(quán)算法來確定最終值,由于 加權(quán)算法已經(jīng)是比較成熟的現(xiàn)有技術(shù),所以本發(fā)明實施例在此不作贅述。在圖3所示的應(yīng)用場景中,也可以采用多數(shù)原則與加權(quán)算法相結(jié)合的方式來確定 最終識別結(jié)果;應(yīng)用場景中存在6條語音識別支路時,當(dāng)每條支路產(chǎn)生的識別均不一致時,單純 采用多數(shù)原則不能確定最終識別結(jié)果,在這種情況下,采用分別針對不能語音識別支路設(shè) 定權(quán)重,并通過加權(quán)算法針對每條語音識別支路計算權(quán)重值,從而確定最終識別結(jié)果。采用上述圖3這種方式,也能夠避免用戶針對多個識別結(jié)果的再次選擇帶來的麻 煩,而且在語音信息識別過程出現(xiàn)錯誤時,能夠通過綜合判決多個語音識別結(jié)果,盡可能的 保證語音識別的準(zhǔn)確性。如圖4所示,基于上述圖1所示的方法實施例,本發(fā)明實施例還提供了一種語音識 別裝置,可以包括如下功能模塊信息識別模塊41,用于通過至少兩條語音識別支路識別輸入語音;識別處理模塊42,用于在確定從所述信息識別模塊中獲得的至少兩種語音識別結(jié) 果一致時,輸出所述識別結(jié)果。在本發(fā)明的一個實施例中,信息識別模塊41具體可以包括信息獲取單元411,用于獲取輸入語音信號;語音識別單元412,用于分別通過至少兩條語音識別支路對所述信息獲取模塊獲 取的所述語音信號進(jìn)行識別后,存儲所述語音識別支路產(chǎn)生的至少語音兩種識別結(jié)果。需要說明的是,信息識別模塊可以由圖2和圖3中的ASRl、ASR2"*ASRn組成,其中 每條支路產(chǎn)生的識別結(jié)果可以統(tǒng)一存儲,也可以分別存儲。在本發(fā)明的一個實施例中,識別處理模塊42還可以用于在確定從所述語音識別 支路獲得的至少兩種語音識別結(jié)果不一致時,提示用戶重新輸入語音信號。在本發(fā)明的一個實施例中,識別處理模塊42還可以用于在確定從所述語音識別 支路獲得的至少兩種語音識別結(jié)果不一致時,根據(jù)多數(shù)原則、加權(quán)算法或多數(shù)原則與加權(quán) 算法相結(jié)合中任一方式,從所述至少兩種識別結(jié)果中確定最終識別結(jié)果后,再輸出。需要說明的是,識別處理模塊的具體實現(xiàn)可以參見圖2和圖3所示的應(yīng)用場景,對 語音識別結(jié)果進(jìn)行判決可以通過圖中的信息判決器實現(xiàn)。在本發(fā)明的一個實施例中,信息識別模塊41中的語音識別支路采用基于統(tǒng)計的 隱含馬爾可夫模型識別和訓(xùn)練算法來實現(xiàn)。需要說明的是,本發(fā)明實施例是基于圖1所示的方法實施例獲得的,在本發(fā)明實 施例中涉及的各功能模塊與圖1方法實施例中各步驟涉及的具體技術(shù)方案相對應(yīng),具體請參見上述圖1方法實施例。有上述本發(fā)明實施例記載的技術(shù)方案可知,一個語音識別系統(tǒng)性能好壞的關(guān)鍵取決于采用的語音模型能否真實地反映話音的物理變化規(guī)律,由于語音信號具有多樣性和復(fù) 雜性,本發(fā)明采用多于一條的語音識別支路同時對輸入語音進(jìn)行識別,盡可能的避免給用 戶帶來重復(fù)性選擇的問題,提高了用戶體驗,同時當(dāng)識別結(jié)果錯誤或不一致時能夠通過及 時提醒或通過計算的方式來確定最終的識別結(jié)果,很大程度上保證了識別結(jié)果的準(zhǔn)確性, 避免了由于識別結(jié)果錯誤產(chǎn)生的誤操作。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以 通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì) 中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁 碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random Access Memory, RAM)等。以上所述,僅為本發(fā)明較佳的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍 為準(zhǔn)。
權(quán)利要求
一種語音識別方法,其特征在于,包括通過至少兩條語音識別支路識別輸入語音;在確定從所述語音識別支路獲得的至少兩種語音識別結(jié)果一致時,輸出所述識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過至少兩條語音識別支路識別輸 入語音,包括獲取輸入語音信號;分別通過至少兩條語音識別支路對所述語音信號進(jìn)行識別后,存儲所述語音識別支路 產(chǎn)生的至少兩種語音識別結(jié)果。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括在確定從所述語音識別支路獲得的至少兩種語音識別結(jié)果不一致時,提示用戶重新輸 入語音信號。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括在確定從所述語音識別支路獲得的至少兩種語音識別結(jié)果不一致時,根據(jù)多數(shù)原則、 加權(quán)算法或多數(shù)原則與加權(quán)算法相結(jié)合中任一方式,從所述至少兩種語音識別結(jié)果中確定 最終識別結(jié)果后,再輸出。
5.根據(jù)權(quán)利要求1-4中任一所述的方法,其特征在于,所述語音識別支路采用基于統(tǒng) 計的隱含馬爾可夫模型識別和訓(xùn)練算法來實現(xiàn)。
6.一種語音識別裝置,其特征在于,包括信息識別模塊,用于通過至少兩條語音識別支路識別輸入語音;識別處理模塊,用于在確定從所述信息識別模塊中獲得的至少兩種語音識別結(jié)果一致 時,輸出所述識別結(jié)果。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述信息識別模塊具體包括信息獲取單元,用于獲取輸入語音信號;語音識別單元,用于分別通過至少兩條語音識別支路對所述信息獲取模塊獲取的所述 語音信號進(jìn)行識別后,存儲所述語音識別支路產(chǎn)生的至少兩種語音識別結(jié)果。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述識別處理模塊還用于在確定從所述 語音識別支路獲得的至少兩種語音識別結(jié)果不一致時,提示用戶重新輸入語音信號。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述識別處理模塊還用于在確定從所述 語音識別支路獲得的至少兩種語音識別結(jié)果不一致時,根據(jù)多數(shù)原則、加權(quán)算法或多數(shù)原 則與加權(quán)算法相結(jié)合中任一方式,從所述至少兩種語音識別結(jié)果中確定最終識別結(jié)果后, 再輸出。
10.根據(jù)權(quán)利要求6-9中任一所述的裝置,其特征在于,所述信息識別模塊中的語音識 別支路采用基于統(tǒng)計的隱含馬爾可夫模型識別和訓(xùn)練算法來實現(xiàn)。
全文摘要
本發(fā)明公開了一種語音識別方法及裝置,技術(shù)方案中該方法包括通過至少兩條語音識別支路識別輸入語音;在確定從所述語音識別支路獲得的至少兩種語音識別結(jié)果一致時,輸出所述識別結(jié)果。本發(fā)明實施例還提供了一種語音識別裝置,其中包括用于通過至少兩條語音識別支路識別輸入語音的信息識別模塊,以及用于在確定從所述信息識別模塊中獲得的至少兩種語音識別結(jié)果一致時,輸出所述識別結(jié)果的識別處理模塊。采用本發(fā)明實施例記載的技術(shù)方案能夠提高現(xiàn)有語音識別系統(tǒng)的用戶體驗。
文檔編號G10L15/28GK101807399SQ201010111329
公開日2010年8月18日 申請日期2010年2月2日 優(yōu)先權(quán)日2010年2月2日
發(fā)明者汪海 申請人:華為終端有限公司