專利名稱:語音識別裝置的制作方法
技術領域:
本實用新型涉及語音識領域,特別涉及一種語音識別裝置。
背景技術:
隨著科學技術日新月異的發(fā)展與層出不窮的創(chuàng)新,越來越多的新型智能 化電子設備不斷涌現(xiàn)于世。因其不僅能夠?qū)崿F(xiàn)輕松辦公的目的,而且具有簡 化工作流程,減輕工作負荷,提高工作效率,節(jié)省人力成本,操作簡便快捷 等諸多優(yōu)越性,因此這些新型智能化電子設備被廣泛應用于各行各業(yè),倍受 人們關注和青睞,而語音識別設備便是這些新型智能化電子設備之一典型代 表。
目前,語音識別設備從聲學上分析基于使用者所發(fā)出的聲音而產(chǎn)生語音 輸入信號,然后將該語音輸入信號與先前準備好的詞模型的多個候選者比較, 以計算相應的聲學似然性(即相似性),確定具有最高聲學似然性的候選者 (以下稱為"第一候選者")為識別結(jié)果。當?shù)谝缓蜻x者不具有足夠高的識 別可靠性時,判斷沒有正確的識別結(jié)果存在,用"請再說一次"的語音消息 執(zhí)行回話操作,提示用戶再發(fā)聲,進行再次的識別處理,但當使用者再次發(fā) 聲時,仍利用與先前所使用的相同候選者進行再次的識別處理,因此,獲得 與先前相同的識別結(jié)果,所以再發(fā)聲的識別率不能^f皮顯著提高。
另外,由于上述語音識別設備在實際應用過程中需要預先存儲大量的候 選詞模型,而當候選詞模型庫大到一定程度時會導致語音識別設備挑選出很 多相似或相近的候選者,如此一來很容易造成由于候選者的多個相似而導致
識別的最終結(jié)果出現(xiàn)很大誤差,并且當候選詞模型庫足夠大時整個程序的遍 歷時間長度會顯著增加,由此使得整個語音識別設備無法真正得到實際應用。
發(fā)明內(nèi)容
本實用新型解決的技術問題是語音識別裝置,以避免現(xiàn)有技術中識別率 低,整個程序的遍歷時間長的缺陷,最重要的是根據(jù)不同的使用情況、環(huán)境, 設定了有限的目標庫,使得語音識別的有的放矢性更強,識別運算減少,準 確性更高。
為解決上述問題,本實用新型提供一種語音識別裝置,該裝置主要包括
一種語音識別裝置,包括設置目標庫,目標庫中設置有預設的各目標 語音;語音接收單元,用于接收待識別的用戶語音;識別處理單元,用于將 所述用戶語音與所述各目標格式文件進行比較識別出與所述用戶語音對應的 目標;輸出單元,用于輸出所述識別結(jié)果。
所述的目標庫采用有限的詞和/或短語;字、詞的集合;字、詞、短句的 集合。是針對特定的場合、特定的使用目的而設置的有限的集合。
所述的識別處理單元具體包括第一語音識別單元,用于將用戶語音的
格式文件與預設各目標語音的格式文件進行相似性比較,獲取與所述用戶語
音相似的目標語音的格式文件;
第二語音識別單元,用于將所述用戶語音的格式文件與所述相似的目標
語音的格式文件進行相異性比較,獲取相異度值。相異度值可以低到高的排
列方式排列。
為了使準確率更高,所述的識別處理單元具體還包括加權單元,用于 對第二語音識別單元得出的準成功值與加權變量進行疊加,并得出成功值。
所述的識別處理單元具體還包括語音逆轉(zhuǎn)處理單元,用于將各目標語
音的格式轉(zhuǎn)換為預設的識別格式文件;語音轉(zhuǎn)換處理單元,用于將用戶語音 轉(zhuǎn)換為與所述目標語音格式相適配的格式文件。
所述的輸出單元具體包括還原處理單元,用于還原與所述不同權重等 級對應的目標語音的格式;目標語音獲取單元,獲取與較高權重等級值對應 的目標語音。
所述第二識別單元還包括相異度值判斷處理單元,用于判斷的相異度 值是否大于預設的閾值,并在判斷為是后,由第一語音處理單元處理。
所述加權單元中預設的加權變量根據(jù)語音信號中的語詞常用度、使用頻 率進行確定。
輸出單元輸出的格式為文本格式或聲音格式或圖像格式等。
與現(xiàn)有技術相比,本實用新型具有以下有益效果本實用新型的語音識 別裝置由于語音存儲單元設置有目標庫,存儲預設的各目標語音,進行語音 識別時,比較識別的目標范圍限定在語音存儲單元內(nèi)存儲的各目標語音范圍 內(nèi),因而減輕了語音識別的運算負荷,提高了語音識別的成功率。
圖l是本實用新型語音識別裝置的主要示意圖2是本實用新型語音識別裝置的語音轉(zhuǎn)換處理單元與第一語音識別單 元和第二語音識單元的相互關系示意圖3是本實用新型識別裝置的語音逆轉(zhuǎn)處理單元與第一語音識別單元和 目標庫的相互關系示意圖。
具體實施方式
下面根據(jù)附圖來說明本實用新型。
一種語音識別裝置,包括設置目標庫,語音存儲單元用于存儲預設的 目標庫的各目標語音;語音接收單元,用于接收待識別的用戶語音;識別處 理單元,用于將所述用戶語音與所述各目標語音格式文件進行比較識別出與 所述用戶語音對應的目標語音;輸出單元,用于輸出所述識別結(jié)果。
由用戶依據(jù)自身需要自由定義,實際應用中可表現(xiàn)為一目標庫,該目標庫內(nèi) 的語音目標是通過對特定的使用環(huán)境以及使用目的而設定的,其數(shù)量有限且 具有很強的針對性,是有限且所述的目標庫中的目標語言為字、詞、短語和 其之間的結(jié)合。用戶可以將希望進行比較識別的所有目標輸入其中。該目標 庫可以由任何一個非特定使用者進行定義操作而無需專業(yè)人員進行,可以依 據(jù)用戶的需要隨時設置隨時更新,也可以依據(jù)用戶的需要隨時刪除一些不需 要的目標,由此確定進行識別比較的目標范圍,從而減輕了語音識別的運算 負荷,提高了語音識別的成功率。比如說,水果店的識別目標庫內(nèi)只有關于 水果的詞匯,而不具有其他不相關的詞匯,因而混淆的可能性也就4艮小。
參考圖1,該圖為本實用新型語音識別裝置的主要示意圖,該實施例中以 用戶語音信號為AA,目標庫中的預設語音為文本格式文件(與后面的強調(diào)部 分呼應)TA、 TB、 TC為例進行說明,其包括目標庫101,語音4矣收單元
108, 語音轉(zhuǎn)換處理單元102,語音逆轉(zhuǎn)處理單元103,第一語音識別單元104, 第二語音識別單元105,加權處理單元106,還原處理單元107以及輸出單元
109。 該語音識別裝置能夠接收用戶語音信號AA并對該語音信號AA進行識 別比較,進而輸出與該語音信號AA相對應的文本信號TA。
具體說明如下首先由使用者對目標庫101進行定義,該目標庫由^f吏用者 依據(jù)自身需要自由定義,使用者可以將希望語音識別裝置進行比較識別的所 有目標輸入其中。該目標庫101可以依據(jù)使用者的需要隨時設置隨時更新, 也可以依據(jù)使用者的需要隨時刪除一些不需要的目標。當使用者發(fā)出語音信 號a時,語音接收轉(zhuǎn)換單元102會接收使用者發(fā)出的該語音信號,并將其轉(zhuǎn) 換為專用格式數(shù)字信號文件SDa;與此同時,語音逆轉(zhuǎn)單元103會將目標庫
101中所有的目標文本文件TA、 TB、 TC等依據(jù)語音逆轉(zhuǎn)單元103內(nèi)預-沒的語 庫分別轉(zhuǎn)換為專用格式文件SDA、 SDB、 SDC等。隨后第一語音識別單元104 將接收到的由語音逆轉(zhuǎn)單元103及語音接收轉(zhuǎn)換單元102分別傳送來的專用 格式文件進行相似性比較,得出一與SDa最為近似的專用格式文件SDA;緊接 著第二語音識別單元105將接收到的由第一語音識別單元104及語音接收轉(zhuǎn) 換單元102分別傳送來的專用格式文件進行相異性比較,并得出一準成功值 xA,然后由準成功加權值單元106接收由第二語音識別單元105傳送來的準 成功值,并將其分別與準成功加權值單元內(nèi)預設的加權變量yA進行對應疊加 以得出最終的成功值zA。最后,由還原處理單元107接收由準成功加^又值單 元106傳送來的成功值,并依據(jù)還原處理單元107內(nèi)預設的對映還原表將成 功值xA還原為由使用者事先定義好的目標庫中存儲的相對映的文本文件TA 并輸出該文本文件TA (即目標)。
語音轉(zhuǎn)換處理單元102包括兩部分語音轉(zhuǎn)換器301以及第一存儲器302-當使用者發(fā)出語音信號AA時,語音接收單元108會自動接收使用者發(fā)出的 該語音信號AA,然后將語音信號AA傳送給語音轉(zhuǎn)換器301。語音轉(zhuǎn)換器301 在接收到語音信號AA后會將該語音信號AA轉(zhuǎn)換為專用格式數(shù)字信號SDA, 并將轉(zhuǎn)換后的專用格式數(shù)字信號SDA傳送給第一存儲器302。最后,通過第 一存儲器302將專用格式數(shù)字信號SDA分別傳送給第一語音識別單元104和 第二語音識別單元105以進行后續(xù)的識別比較處理。
該語音逆轉(zhuǎn)處理單元也包括三個部分語音逆轉(zhuǎn)器401,語庫402以及第 二存儲器403。所述語庫中存儲大量的字詞及短語,用于在語音逆轉(zhuǎn)器401對 使用者已事先定義好的并存儲于目標庫402中的文本文件進行逆轉(zhuǎn)換時提供 切實可靠的逆轉(zhuǎn)換依據(jù)。具體實現(xiàn)時,首先由語音逆轉(zhuǎn)器401讀取目標庫內(nèi) 的所有預設語音文本文件,由此確定后續(xù)識別比較的范圍。然后由語音逆轉(zhuǎn) 器401將預設語音文本文件依據(jù)語庫402內(nèi)對應的字詞或短語分別逆轉(zhuǎn)換為 專用格式文件,隨后語音逆轉(zhuǎn)器401將這組經(jīng)過逆轉(zhuǎn)換后的專用格式文件傳 送給第二存儲器403。
下面以用戶語音為a "蘋果",預設文本格式語音文件為TA香蕉,TB 蘋果,TC桔子為例,對本發(fā)明語音識別裝置進行語音識別的過程進行詳細說 明,同樣參考圖
當用戶發(fā)出語音a "蘋果"后,語音接收單元108接收該語音,并傳送給 語音轉(zhuǎn)換處理單元102,由語音轉(zhuǎn)換處理單元102將語音a "蘋果"轉(zhuǎn)換為專 用格式文件SDa蘋果,然后在將轉(zhuǎn)換后的專用格式文件存儲至第一存4諸器302 內(nèi)的同時將SDa蘋果傳送給第 一語音識別單元104。
與此同時,語音逆轉(zhuǎn)處理單元103將目標庫中三個文本格式分別轉(zhuǎn)換為 專用格式文件SDA香蕉,SDB蘋果,SDC桔子,然后將轉(zhuǎn)換后的專用才各式文 件存儲至第二存儲器403中。
當?shù)谝徽Z音識別單元104接收到由語音轉(zhuǎn)換處理單元102傳送來的專用 格式文件SDa蘋果后,即在語音逆轉(zhuǎn)處理單元103內(nèi)的第二存儲器403 +進 行搜尋識別,將SDa蘋果與各逆轉(zhuǎn)的預設語音進行相似性比較,找出與SDa 蘋果最相似的專用4各式文件SDB蘋果,并將其輸出到第二語音識別單元105。
第二語音識別單元105接收到語音轉(zhuǎn)換處理單元102傳送來的SDa蘋果 與第一語音識別單元104傳送來的SDB蘋果后,對這兩者進行相異性比較, 經(jīng)比較得出 一個相異度值即準成功值xB。
然后第二語音識別單元105再將準成功值xB與預設的閾值M迸行比較, 得出xB<M或xB=M,由此第二語音識別單元105發(fā)出命令,要求停止繼續(xù) 比較識別,隨后將準成功值xB輸出到加權處理單元106以計算成功值。
當加權處理單元接收到準成功值xB后會將xB與經(jīng)計算得出的加權變量 yB進行相應的疊加運算,從而得出成功值zB。
隨后加權處理單元會將zB所對應的專用^"式文件SDB蘋果輸出到還原 處理單元,由還原處理單元將SDB蘋果還原為目標庫中的目標之一 TB蘋果, 并輸出該文本文件TB。
需要說明的,最終輸出識別結(jié)果TB為文本史件,而不是預設語音,因為 目標庫中事先設定的目標是文本格式的。當然,若目標庫中的目標為聲音格
式,則輸出目標時為目標語音。所以,目標庫中目標的表現(xiàn)形式多樣,包括 但不限于文本格式、聲音斧式,依據(jù)用戶自身需要而設定。本發(fā)明在相似性 相異性比較的過程中,所涉及的格式文件也不限于文本格式。另外,我們可 以在輸出目標文本文件TB之后加裝一些裝置,如發(fā)音裝置,光電信號控制裝 置等等,這時目標文本文件TB也可以表現(xiàn)為語音"蘋果,,,還可以表現(xiàn)為燈 泡點亮的光電信號,等等。
上述為在無干擾的情況下本發(fā)明語音識別裝置進行語音識別的過程,下 面對存在干擾的情況下本發(fā)明語音識別裝置語音識別的過程進行說明,同樣 參考圖l所示
當用盧發(fā)出語音a "蘋果"后,語音接收單元108接收該語音,并傳送給 語音轉(zhuǎn)換處理單元102,由語音轉(zhuǎn)換處理單元102將語音a "蘋果"轉(zhuǎn)換為專 用格式文件SDa蘋果,然后在將轉(zhuǎn)換后的專用格式文件存儲至第一存儲器302 內(nèi)的同時將SDa蘋果傳送給第一語音識別單元104。
與此同時,語音逆轉(zhuǎn)處理單元103將目標庫中三個文本格式分別轉(zhuǎn)換為 專用才各式文件SDA芒果,SDB蘋果,SDC桔子,然后將轉(zhuǎn)換后的專用格式文 件存儲至第二存儲器403中。
當?shù)谝徽Z音識別單元104接收到由語音轉(zhuǎn)換處理單元102傳送來的專用 格式文件SDa蘋果后,即在語音逆轉(zhuǎn)處理單元103內(nèi)的第二存儲器403中進 行搜尋識別,將SDa蘋果與各逆轉(zhuǎn)的預設語音進行相似性比較,找出與SDa 蘋果最相似的專用格式文件SDA芒果,并將其輸出到第二語音識別單元105。
第二語音識別單元105接收到語音轉(zhuǎn)換處理單元102傳送來的SDa蘋果 與第一語音識別單元104傳送來的SDA芒果后,對這兩者進行相異性比較, 經(jīng)比較得出一個相異度值即準成功值xA。
然后第二語音識別單元105再將準成功值xA與預設的闊值M進行比較, 得出xA>M,于是第二語音識別單元105發(fā)出命令,要求繼續(xù)進行下一輪比 較識別,由此語音識別進入到由第一語音識別單元104進行下一輪相似性比 較識別的過程。
第一語音識別單元104從語音轉(zhuǎn)換處理單元102內(nèi)的第一存儲器中讀取 SDa蘋果,然后將SDa蘋果與語音逆轉(zhuǎn)處理單元103內(nèi)第二存儲器中的各逆 轉(zhuǎn)目標進行相似性比較,找出第二個與SDa蘋果最為相似的專用格式文件 SDB蘋果,并將其輸出到第二語音識別單先105。
第二語音識別單元105從語音轉(zhuǎn)換處理單元內(nèi)的第一存儲器中讀取SDa 蘋果,然后將其與第一語音識別單元104傳送來的SDB蘋果進行相異性比較, 經(jīng)比較得出一個相異度值即準成功值xB。
然后第二語音識別單元105再將準成功值xB與預設的閾值M進行比較, 得出xB〈M或xB-M,由此第二語音識別單元發(fā)出命令,要求停止繼續(xù)比4交 識別。隨后第二語音識別單元105將準成功值xA與xB進行比較(xB<xA ), 并按照相異度由低到高進行排列并輸出到加權處理單元106以計算成功值。
當加權處理單元106接收到準成功值xB與xA后,會將xB、 xA分別與 經(jīng)計算得出的加權變量yB、 yA進行相應的疊加運算,從而得出成功值zB與 zA。接著再將zB與zA進行比較(zB>zA),并按照成功值由高到低進行排列。
隨后加權處理單元會將最高成功值即zB所對應的專用格式文件SDB蘋
果輸出到還原處理單元,由還原處理單元將SDB蘋果還原為目標庫中的目標 之一TB蘋果,并輸出該文本文件TB。這里輸出的是目標庫中的目標文本文 件TB,而不是直接輸出目標內(nèi)容所對應的語音,因為目標庫中事先設定的目 標是文本格式的。
以上所述是本實用新型的優(yōu)選實施方式,應當指出,對于本技術領域的 普通技術人員來說,在不脫離本實用新型原理的前提下,還可以做出若干改 進和潤飾,這些改進和潤飾也視為本實用新型的保護范圍。
權利要求1、一種語音識別裝置,其特征在于,包括設置目標庫,目標庫中設置有預設的各目標;語音接收單元,用于接收待識別的用戶語音;識別處理單元,用于將所述用戶語音與所述各目標的格式文件進行比較識別出與所述用戶語音對應的目標;輸出單元,用于輸出所述識別結(jié)果。
2、 根據(jù)權利要求1所述的語音識別裝置,其特征在于,所述的目標庫采 用有限的詞和/或短語;字、詞的集合;字、詞、短句的集合。
3、 根據(jù)權利要求1所述的語音識別裝置,其特征在于,所述的識別處理單元具體包括第一語音識別單元,用于將用戶語音的格式文件與預設各目標語音的格 式文件進行相似性比較,獲取與所述用戶語音相似的目標語音的格式文件;第二語音識別單元,用于將'所述用戶語音的格式文件與所述相似的目標 語音的格式文件進行相異性比較,獲取兩者相異度值,即準成功值。
4、 根據(jù)權利要求3所述的語音識別裝置,其特征在于,所述的識別處理 單元具體還包括加權單元,用于對第二語音識別單元得出的準成功值與加權變量進行疊 加,并得出成功值。
5、 根據(jù)權利要求1所述的語音識別裝置,其特征在于,所述的識別處理 單元包括有語音逆轉(zhuǎn)處理單元,用于將目標庫中設置的各目標的格式轉(zhuǎn)換為預設的 識別格式文件;語音轉(zhuǎn)換處理單元,用于將用戶語音轉(zhuǎn)換為與所述目標語音^^式相適配 的格式文件。
6、 根據(jù)權利要求1所述的語音識別裝置,其特征在于,所述的識別處理 單元具體包括還原處理單元,用于還原與所述不同權重等級對應的目標語音的4各式; 目標語音獲取單元,獲取與較高權重等級值對應的目標語音。
7、 根據(jù)權利要求3所述語音識別裝置,其特征在于,所述第二語音識別 單元還包括相異度值判斷處理單元,用于判斷的相異度值是否大于預設的閾值,并 在判斷為是后,由第一語音處理單元處理。
8、 根據(jù)權利要求4所述語音識別裝置,其特征在于,所述加^又單元中預 設的加權變量根據(jù)語音信號中的語詞常用度、使用頻率進行確定。
9、 根據(jù)權利要求1所述語音識別裝置,其特征在于,輸出單元輸出識別 結(jié)果的格式為文本格式或聲音格式。
專利摘要本實用新型公開了一種語音識別裝置,包括設置目標庫,設置預設的目標庫的各目標;語音接收單元,用于接收待識別的用戶語音;識別處理單元,用于將所述用戶語音與所述各目標格式文件進行比較識別出與所述用戶語音對應的目標;輸出單元,用于輸出所述目標。采用本實用新型減輕了語音識別的運算負荷,提高了語音識別的成功率。
文檔編號G10L15/08GK201194160SQ200820045219
公開日2009年2月11日 申請日期2008年3月21日 優(yōu)先權日2008年3月21日
發(fā)明者管桂寶 申請人:廣州漢音電子科技有限公司