語音識別裝置的制作方法

文檔序號：2837826閱讀：535來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音識別裝置的制作方法
技術(shù)領(lǐng)域：
語音識別裝置
技術(shù)領(lǐng)域：
本實(shí)用新型涉及一種語音識別裝置，尤其涉及一種多聲學(xué)模型的語音識別裝置。
背景技術(shù)：
隨著科技和經(jīng)濟(jì)的不斷發(fā)展，語音識別以及相關(guān)聲控技術(shù)在許多領(lǐng)域得到
了廣泛的應(yīng)用。語音識別過程主要包括輸入模擬語音信息；將模擬語音信息轉(zhuǎn)換成數(shù)字語音信息；從數(shù)字語音信息中提取特征量；將特征量與預(yù)定聲學(xué)模型進(jìn)行匹配，由此產(chǎn)生識別結(jié)杲。語音識別的準(zhǔn)確率與聲學(xué)模型容量有直接關(guān) 系，因而需要聲學(xué)模型集成各種語音數(shù)據(jù)，而語音識別的速度與該聲學(xué)模型的大小有直接關(guān)系，聲學(xué)模型過大直接導(dǎo)致語音識別速度的降低。目前的語音識別裝置往往僅設(shè)置一個復(fù)合聲學(xué)模型，通過該聲學(xué)模型對包括男聲、女聲、童聲在內(nèi)的所有語音信息進(jìn)行識別，會出現(xiàn)準(zhǔn)確率低或者速度慢的技術(shù)問題。

實(shí)用新型內(nèi)容
為了解決現(xiàn)有技術(shù)的語音識別裝置僅通過一個復(fù)合聲學(xué)模型對所有語音信息進(jìn)行識別，導(dǎo)致語音識別的準(zhǔn)確率低或者速度慢的技術(shù)問題。本實(shí)用新型提出了一種設(shè)置有多個備選聲學(xué)模型的語音識別裝置。
本實(shí)用新型解決現(xiàn)有技術(shù)的語音識別裝置僅通過一個復(fù)合聲學(xué)模型對所有語音信息進(jìn)行識別，導(dǎo)致語音識別的準(zhǔn)確率低或者速度慢的技術(shù)問題所采用的技術(shù)方案是:提供一種語音識別裝置，該語音識別裝置包括用于接收模擬語音信息的語音接收單元；用于將模擬語音信息轉(zhuǎn)換成數(shù)字語音信息的模數(shù)轉(zhuǎn)換單元；用于存儲至少兩個聲學(xué)模型的存儲單元；用于輸入選擇指令的指令輸入單元；用于基于與選擇指令對應(yīng)的聲學(xué)模型識別數(shù)字語音信息的識別單元。
根據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該識別單元進(jìn)一步包括從數(shù)字語音信息中提取特征量的特征量提取單元以及將特征量與對應(yīng)聲學(xué)模型進(jìn)行匹配的匹配單元。
根據(jù)據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該指令輸入單元為選擇按鍵。根據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該選擇按鍵與該至少兩個聲學(xué)模型相對應(yīng)。根據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該指令輸入單元為具有選擇菜單或圖形按鈕的輸入界面。
根據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該至少兩個聲學(xué)模型為針對非特定人的聲學(xué)模型或針對特定人的聲學(xué)模型。
根據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該至少兩個聲學(xué)模型包括男聲模型和女聲模型。
根據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該至少兩個聲學(xué)模型包括方言聲學(xué)模型。
根據(jù)本實(shí)用新型一優(yōu)選實(shí)施例，該語音識別裝置進(jìn)一步響應(yīng)識別單元的識
別結(jié)果執(zhí)行預(yù)定動作的動作單元。
通過采用上述結(jié)構(gòu)，在語音識別裝置中設(shè)置多個備選聲學(xué)模型，用戶可以
根據(jù)語言環(huán)境選擇適當(dāng)?shù)穆晫W(xué)模型進(jìn)行語音識別，提高了語音識別的準(zhǔn)確性及
速度。

圖1是本實(shí)用新型的語音識別裝置一實(shí)施例的示意框圖2是本實(shí)用新型的語音識別裝置一實(shí)施例的控制面板的結(jié)構(gòu)示意圖3是圖1所示的語音識別裝置的工作流程圖。
具體實(shí)施方式
以下結(jié)合附圖和實(shí)施例對本實(shí)用新型進(jìn)一步說明。
參見圖1和圖2,在本實(shí)施例中以聲控電話機(jī)為例對本實(shí)用新型的語音識別裝置進(jìn)行示范性描述，但本領(lǐng)域技術(shù)人員應(yīng)該理解，本實(shí)用新型同樣適用于其它語音識別裝置。本實(shí)用新型的聲控電話機(jī)1包括用于接收模擬語音信息的語音接收單元11;用于將模擬語音信息轉(zhuǎn)換成數(shù)字語音信息的模數(shù)轉(zhuǎn)換單元12; 用于存儲至少兩個聲學(xué)模型的存儲單元13;用于輸入選擇指令的指令輸入單元 I4;用于基于與選擇指令對應(yīng)的聲學(xué)模型識別數(shù)字語音信息的識別單元15。此外，聲控電話機(jī)1進(jìn)一步包括用于響應(yīng)識別單元15的識別結(jié)果進(jìn)行外呼的外呼單元16。
在本實(shí)施例中，識別單元15進(jìn)一步包括從數(shù)字語音信息中提取特征量的特征量提取單元151以及將特征量與對應(yīng)聲學(xué)模型進(jìn)行匹配的匹配單元l52。在本實(shí)施例中，可以根據(jù)不同的聲音特質(zhì)將復(fù)合聲學(xué)模型拆分成多個對應(yīng)于不同聲
音特質(zhì)的聲學(xué)模型。例如，存儲單元13中存儲的聲學(xué)模型包括男聲模型和女聲模型。指令輸入單元14為分別與男聲模型和女聲模型對應(yīng)的選擇按鍵141和 142。當(dāng)然，本領(lǐng)域技術(shù)人員通過閱讀本實(shí)用新型顯而易見，指令輸入單元14 可以采用多種適當(dāng)形式，例如，在應(yīng)用到手機(jī)、PDA等便攜設(shè)備時，指令輸入單元14還可以是具有選擇菜單或圖形按鈕的輸入界面(未圖示)。存儲單元13中存儲的聲學(xué)模型還可以存儲童聲、方言聲學(xué)模型或者其它適當(dāng)聲學(xué)模型。
如圖3所示，圖3是圖l所示的聲控固定電話l的工作流程圖。在本實(shí)用新型的聲控固定電話l的使用過程中，用戶首先按下選擇按鍵141或142,選擇采用男聲模型或女聲模型。隨后，聲控固定電話1優(yōu)選播放語音提示，指導(dǎo)用戶通過語音接收單元11 (例如，麥克風(fēng))輸入語音信息。模數(shù)轉(zhuǎn)換單元12則將輸入的模擬語音信息轉(zhuǎn)化成數(shù)字語音信息。特征量提取單元151從數(shù)字語音信息中提取特征量，并由匹配單元152根據(jù)所選擇的聲學(xué)模型進(jìn)行匹配，并輸出識別結(jié)杲。識別結(jié)果可以是操作指令或者電話號碼，聲控固定電話1的其它動作部件可根據(jù)識別結(jié)果進(jìn)行預(yù)定動作。例如，外呼單元16可以根據(jù)識別的電話號碼進(jìn)行撥號。
本實(shí)用新型電話的聲學(xué)模型可以包括針對特定人的聲學(xué)模型或針對非特定人的聲學(xué)模型。在針對特定人的聲學(xué)模型中，用戶需要事先對每一個詞條進(jìn)行訓(xùn)練。在訓(xùn)練階段，用戶每個詞條依次說數(shù)遍，提取詞條的特征量，并將特征量按序列存入存儲單元中。在識別階段，將輸入詞條的特征量依次與聲學(xué)模型中的每一個特征量進(jìn)行相似度比較，將相似度大于預(yù)定閾值的詞條作為識別結(jié) 果輸出。采用針對特定人聲學(xué)模型的識別單元識別的詞條數(shù)目一般在100條以下，識別性能隨著詞條數(shù)目的增加會有明顯的下降，并且對于不同用戶、在不同的噪聲環(huán)境中，以及不同的時間相同用戶的不同生理、心理狀態(tài)下，系統(tǒng)的性能都會受到明顯的影響。在針對非特定人的聲學(xué)模型中，采用基于統(tǒng)計(jì)模型的算法，系統(tǒng)開發(fā)者事先采集大量的語音數(shù)據(jù)進(jìn)行訓(xùn)練，得到聲學(xué)模型并存儲在存儲單元中。在識別階段，將用戶的輸入詞條的特征量與通過聲學(xué)模型構(gòu)建的識別網(wǎng)絡(luò)進(jìn)行匹配解碼，輸出該詞條。非特定人聲學(xué)模型對于用戶而言，不
需要引入繁瑣的訓(xùn)練過程，方便了用戶的使用；同時它可以供不同的人使用，因此大大拓寬了應(yīng)用范圍。另一方面，由于采用了基于統(tǒng)計(jì)模型的算法，其穩(wěn) 健性和識別性能都比特定人識別單元大大的提高。采用非特定人聲學(xué)模型的識別單元識別的詞條數(shù)目遠(yuǎn)大于針對特定人的聲學(xué)模型，識別性能不會隨著識別詞條數(shù)目的增加有明顯的下降，并且具有一定的抗噪能力。
通過采用上述結(jié)構(gòu)，將復(fù)合聲學(xué)模型根據(jù)聲音特質(zhì)拆分成多個對應(yīng)不同聲音特質(zhì)的聲學(xué)模型并存儲在存儲單元中，用戶可以根據(jù)語言環(huán)境選擇適當(dāng)?shù)穆?學(xué)模型進(jìn)行語音識別，提高了語音識別的準(zhǔn)確性及速度。
上述的詳細(xì)描述僅是示范性描述，本領(lǐng)域技術(shù)人員在不脫離本實(shí)用新型所保護(hù)的范圍和精神的情況下，可根據(jù)不同的實(shí)際需要設(shè)計(jì)出各種實(shí)施方式。
權(quán)利要求1.一種語音識別裝置，其特征在于所述語音識別裝置包括用于接收模擬語音信息的語音接收單元；用于將所述模擬語音信息轉(zhuǎn)換成數(shù)字語音信息的模數(shù)轉(zhuǎn)換單元；用于存儲至少兩個聲學(xué)模型的存儲單元；用于輸入選擇指令的指令輸入單元；用于基于與所述選擇指令對應(yīng)的聲學(xué)模型識別所述數(shù)字語音信息的識別單元。
2. 根據(jù)權(quán)利要求l所述的語音識別裝置，其特征在于所述識別單元進(jìn)一步包括從所述數(shù)字語音信息中提取特征量的特征量提取單元以及將所述特征量與所述對應(yīng)聲學(xué)模型進(jìn)行匹配的匹配單元。
3. 根據(jù)權(quán)利要求l所述的語音識別裝置，其特征在于所述指令輸入單元為選擇按鍵。
4. 根據(jù)權(quán)利要求3所述的語音識別裝置，其特征在于所述選擇按鍵與所述至少兩個聲學(xué)模型相對應(yīng)。
5. 根據(jù)權(quán)利要求1所述的語音識別裝置，其特征在于所述指令輸入單元為具有選擇菜單或圖形按^組的輸入界面。
6. 根據(jù)權(quán)利要求1所述的語音識別裝置，其特征在于所述至少兩個聲學(xué) 模型為針對非特定人的聲學(xué)模型或針對特定人的聲學(xué)模型。
7. 根據(jù)權(quán)利要求l所述的語音識別裝置，其特征在于所述至少兩個聲學(xué) 模型包括男聲模型和女聲模型。
8. 根據(jù)權(quán)利要求1所述的語音識別裝置，其特征在于所述至少兩個聲學(xué) 模型包括方言聲學(xué)模型。
9. 根據(jù)權(quán)利要求1所述的語音識別裝置，其特征在于所述語音識別裝置進(jìn)一步響應(yīng)所述識別單元的識別結(jié)果執(zhí)行預(yù)定動作的動作單元。
專利摘要本實(shí)用新型涉及一種語音識別裝置，包括用于接收模擬語音信息的語音接收單元；用于將模擬語音信息轉(zhuǎn)換成數(shù)字語音信息的模數(shù)轉(zhuǎn)換單元；用于存儲至少兩個聲學(xué)模型的存儲單元；用于輸入選擇指令的指令輸入單元；用于基于與選擇指令對應(yīng)的聲學(xué)模型識別數(shù)字語音信息的識別單元。通過采用上述結(jié)構(gòu)，在語音識別裝置中設(shè)置多個備選聲學(xué)模型，用戶可以根據(jù)語言環(huán)境選擇適當(dāng)?shù)穆晫W(xué)模型進(jìn)行語音識別，提高了語音識別的準(zhǔn)確性及速度。
文檔編號G10L15/00GK201075286SQ20072012190
公開日2008年6月18日申請日期2007年7月27日優(yōu)先權(quán)日2007年7月27日
發(fā)明者陳修志申請人:陳修志

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳修志
技術(shù)所有人：陳修志
我是此專利的發(fā)明人

上一篇：一種真空發(fā)生器消音裝置的制作方法
上一篇：一種以軟件設(shè)計(jì)為基礎(chǔ)的立體聲編碼電路的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語音識別輸入軟件相關(guān)技術(shù)

語音識別打字相關(guān)技術(shù)

微信語音識別相關(guān)技術(shù)

語音識別相關(guān)技術(shù)

百度語音識別相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識別裝置的制作方法