一種語音識別方法和裝置制造方法

文檔序號：2826310閱讀：254來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語音識別方法和裝置制造方法
【專利摘要】本發(fā)明提供一種語音識別方法和裝置，可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù)，并且識別結(jié)果更加準(zhǔn)確。所述方法包括：獲取用戶輸入的語音數(shù)據(jù)；確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。本發(fā)明適用于電子信息【技術(shù)領(lǐng)域】。
【專利說明】一種語音識別方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子信息【技術(shù)領(lǐng)域】，尤其涉及一種語音識別方法和裝置。
【背景技術(shù)】
[0002]隨著人們生活水平的提高，智能終端的普及程度越來越高。智能終端的輸入方式包括用戶手動輸入和語音輸入，其中，語音輸入已經(jīng)越來越多的應(yīng)用于當(dāng)今的智能終端。
[0003]在語音輸入領(lǐng)域，語音的識別尤其重要，準(zhǔn)確的識別出常用指令，可以為后期的語義分析提供更好的數(shù)據(jù)，以此保證通過語音助手更好的理解用戶的真實意圖。
[0004]現(xiàn)有技術(shù)中，在某些支持語音技術(shù)的智能終端上，僅通過網(wǎng)絡(luò)的在線識別技術(shù)識別用戶輸入的語音數(shù)據(jù)，但是由于在線識別的網(wǎng)絡(luò)語音庫比較大，因此識別的準(zhǔn)確性會受到干擾；另一方面，在智能終端沒有網(wǎng)絡(luò)的情況下將無法使用語音助手，進(jìn)而使得無法對用戶輸入的語音數(shù)據(jù)進(jìn)行識別。

【發(fā)明內(nèi)容】

[0005]本發(fā)明提供一種語音識別方法和裝置，可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù)，并且識別結(jié)果更加準(zhǔn)確。
[0006]為達(dá)到上述目的，本發(fā)明實施例采用如下技術(shù)方案:
[0007]第一方面，提供一種語音識別方法，所述方法包括:
[0008]獲取用戶輸入的語音數(shù)據(jù)；
[0009]確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；
[0010]若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0011]在第一方面第一種可能的實現(xiàn)方式中，結(jié)合第一方面，在確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后，所述方法還包括:
[0012]若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
[0013]在第一方面第二種可能的實現(xiàn)方式中，結(jié)合第一方面第一種可能的實現(xiàn)方式，所述確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)包括:
[0014]將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值；
[0015]若所述第一匹配值在第一閾值范圍內(nèi)，確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；
[0016]若所述第一匹配值不在所述第一閾值范圍內(nèi)，確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0017]在第一方面第三種可能的實現(xiàn)方式中，結(jié)合第一方面第二種可能的實現(xiàn)方式，所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù)，其中，所述第一指令包括行為部分和對象部分；[0018]若用戶輸入的語音數(shù)據(jù)為所述第一指令，則所述將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體包括:
[0019]將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配，其中，所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0020]在第一方面第四種可能的實現(xiàn)方式中，結(jié)合第一方面至第一方面第三種可能的實現(xiàn)方法方式，在所述獲取用戶輸入的語音數(shù)據(jù)之前，所述方法還包括:
[0021]接收第一指示信號，所述第一指示信號指示啟動語音助手，其中，所述第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的；
[0022]根據(jù)所述第一指示信號，啟動所述語音助手。
[0023]在第一方面第五種可能的實現(xiàn)方式中，結(jié)合第一方面第四種可能的實現(xiàn)方式，在所述接收第一指示信號之后，所述方法還包括:
[0024]根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面，其中，所述第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0025]第二方面，提供一種語音識別裝置，所述裝置包括獲取單元、確定單元、識別單元;
[0026]所述獲取單元，用于獲取用戶輸入的語音數(shù)據(jù)；
[0027]所述確定單元，用于確定是否可以通過預(yù)存儲的本地語音庫識別所述獲取單元獲取的語音數(shù)據(jù)；
[0028]所述識別單元，用于若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0029]在第二方面第一種可能的實現(xiàn)方式中，結(jié)合第二方面，所述識別單元還用于:
[0030]在所述確定單元確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后，若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
[0031]在第二方面第二種可能的實現(xiàn)方式中，結(jié)合第二方面第一種可能的實現(xiàn)方式，所述確定單元包括獲取模塊、確定模塊；
[0032]所述獲取模塊，用于將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值；
[0033]所述確定模塊，用于若所述第一匹配值在第一閾值范圍內(nèi)，確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；
[0034]所述確定模塊，還用于若所述第一匹配值不在所述第一閾值范圍內(nèi)，確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0035]在第二方面第三種可能的實現(xiàn)方式中，結(jié)合第一方面第二種可能的實現(xiàn)方式，所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù)，其中，所述第一指令包括行為部分和對象部分；
[0036]所述確定模塊具體用于:
[0037]將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配，其中，所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0038]在第二方面第四種可能的實現(xiàn)方式中，結(jié)合第二方面至第二方面第三種可能的實現(xiàn)方式，所述裝置還包括接收單元、啟動單元；
[0039]所述接收單元，用于在所述獲取單元獲取用戶輸入的語音數(shù)據(jù)之前，接收第一指示信號，所述第一指示信號指示啟動語音助手，其中，所述第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的；
[0040]所述啟動單元，用于根據(jù)所述第一指示信號，啟動所述語音助手。
[0041]在第二方面第五種可能的實現(xiàn)方式中，結(jié)合第一方面第四種可能的實現(xiàn)方式，所述裝置還包括顯示單元；
[0042]所述顯示單元，用于在所述接收單元接收第一指示信號之后，根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面，其中，所述第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯不模式。
[0043]本發(fā)明提供一種語音識別方法和裝置，所述方法包括:獲取用戶輸入的語音數(shù)據(jù)；確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)?；诒景l(fā)明實施例提供的語音識別方法和裝置，因為在獲取用戶輸入的語音數(shù)據(jù)之后，可以根據(jù)預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù)，并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小，因此可以使得識別結(jié)果更加準(zhǔn)確。
【專利附圖】

【附圖說明】
[0044]圖1為本發(fā)明實施例一提供的一種語音識別方法；
[0045]圖2為本發(fā)明實施例二提供的一種語音識別方法；
[0046]圖3為本發(fā)明實施例二提供的另一種語音識別方法；
[0047]圖4為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖一；
[0048]圖5為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖二；
[0049]圖6為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖三；
[0050]圖7為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖四。
【具體實施方式】
[0051]下面結(jié)合附圖對本發(fā)明實施例提供的一種語音識別方法和裝置進(jìn)行詳細(xì)描述。
[0052]實施例一、
[0053]本發(fā)明實施例提供一種語音識別方法，具體如圖1所示，該方法包括:
[0054]101、語音識別裝置獲取用戶輸入的語音數(shù)據(jù)。
[0055]具體的，在語音識別裝置進(jìn)行語音識別時，會獲取用戶輸入的語音數(shù)據(jù)，該語音數(shù)據(jù)可能是一個指令，例如可能是“關(guān)機(jī)”、“打開瀏覽器”等，本發(fā)明實施例對此不作具體限定。
[0056]需要說明的是，語音識別裝置包含在智能終端中，智能終端可能是電視，也可能是pad，本發(fā)明實施例對此不作具體限定。
[0057]102、語音識別裝置確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。[0058]具體的，語音識別裝置在獲取用戶輸入的語音數(shù)據(jù)之后，首先確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，則執(zhí)行步驟103。
[0059]具體的，確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以包括:
[0060]將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值；
[0061]若第一匹配值在第一閾值范圍內(nèi)，確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)；
[0062]若第一匹配值不在第一閾值范圍內(nèi)，確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0063]需要說明的是，在上述確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法中，第一閾值是針對語音數(shù)據(jù)與本地語音數(shù)據(jù)庫的匹配結(jié)果而設(shè)定的一個數(shù)值范圍，在本地語音數(shù)據(jù)庫與語音數(shù)據(jù)的匹配結(jié)果在一個較高的范圍時，確定可以通過可以預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，否則確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，這樣可以避免在環(huán)境嘈雜或者用戶說話不清楚時導(dǎo)致的用戶輸入的語音數(shù)據(jù)在本地語音庫中匹配不準(zhǔn)確的情況，使得語音識別結(jié)果更加準(zhǔn)確。
[0064]103、若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，語音識別裝置根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0065]具體的，若語音識別裝置若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，則可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。這樣，在沒有網(wǎng)絡(luò)連接的情況下，也可以進(jìn)行語音輸入和語音控制，并且本地語音庫相對于現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫較小，根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以使得識別結(jié)果更加準(zhǔn)確。
[0066]需要說明的是，本地語音庫中預(yù)存儲了一些常用指令。通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法可稱為“離線識別”技術(shù)，“離線識別”即為通過語音助手應(yīng)用中預(yù)存儲的本地語音庫，在用戶完成語音輸入后，在本地語音庫中匹配最接近輸入內(nèi)容的文字。本發(fā)明實施例即通過“離線識別”對用戶輸入的語音數(shù)據(jù)進(jìn)行語音識別。
[0067]進(jìn)一步的，若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。
[0068]這樣，在語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)時，可以根據(jù)現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。其中，通過網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)的方法稱作“在線識別”，這樣結(jié)合“離線識別”和“在線識別”的雙保險模式使得語音識別更加準(zhǔn)確。
[0069]本發(fā)明實施例提供一種語音識別方法，該方法包括:獲取用戶輸入的語音數(shù)據(jù)；確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)；若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)?；诒景l(fā)明實施例提供的語音識別方法，因為在獲取用戶輸入的語音數(shù)據(jù)之后，可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù)，并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小，因此可以使得識別結(jié)果更加準(zhǔn)確。
[0070]實施例二、
[0071]本發(fā)明實施例提供一種語音識別方法，具體如圖2所示，該方法包括:[0072]201、語音識別裝置獲取用戶輸入的語音數(shù)據(jù)。
[0073]具體的，在語音識別裝置進(jìn)行語音識別時，會獲取用戶輸入的語音數(shù)據(jù)，該語音數(shù)據(jù)可能是一個指令，例如可能是“關(guān)機(jī)”、“打開瀏覽器”等，本發(fā)明實施例對此不作具體限定。
[0074]需要說明的是，語音識別裝置包含在智能終端中，智能終端可能是電視，也可能是pad，本發(fā)明實施例對此不作具體限定。
[0075]202、語音識別裝置將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值。
[0076]具體的，在語音識別裝置獲取用戶輸入的語音數(shù)據(jù)之后，會將語音數(shù)據(jù)與語音數(shù)據(jù)庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值。其中，第一匹配值為表征語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)匹配程度的一個數(shù)據(jù)。若語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)十分匹配，則該第一匹配值將較高，否則偏低。
[0077]具體的，本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù)，其中，第一指令包括行為部分和對象部分；
[0078]若用戶輸入的語音數(shù)據(jù)為第一指令，則將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體可以包括:
[0079]將第一指令行為部分的語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，將第一指令對象部分的語音數(shù)據(jù)與本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配，其中，第一語音數(shù)據(jù)為本地語音庫中與第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0080]示例性的，比如用戶想打開瀏覽器，通過獲取用戶輸入的語音數(shù)據(jù)“打開瀏覽器”之后，首先識別出“打開”這個動作，表明要打開某個應(yīng)用，然后從與“打開”對應(yīng)的應(yīng)用列表中識別出對象“瀏覽器”，這樣的語音識別方式更加快捷。
[0081]203、若第一匹配值在第一閾值范圍內(nèi)，語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0082]具體的，第一閾值是針對語音數(shù)據(jù)與本地語音數(shù)據(jù)庫的匹配結(jié)果而設(shè)定的一個數(shù)值范圍，在本地語音數(shù)據(jù)庫與語音數(shù)據(jù)的匹配結(jié)果在一個較高的范圍時，確定可以通過可以預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，否則確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，這樣可以避免在環(huán)境嘈雜或者用戶說話不清楚時導(dǎo)致的用戶輸入的語音數(shù)據(jù)在本地語音庫中匹配不準(zhǔn)確的情況，使得語音識別結(jié)果更加準(zhǔn)確。
[0083]具體的，若語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，執(zhí)行步驟205。
[0084]204、若第一匹配值不在第一閾值范圍內(nèi)，語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0085]具體的，根據(jù)步驟203的描述，若第一匹配值不在第一閾值范圍內(nèi)，語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0086]具體的，若語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，執(zhí)行步驟206。
[0087]205、若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，語音識別裝置根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。[0088]具體的，若語音識別裝置若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，則可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。這樣，在沒有網(wǎng)絡(luò)連接的情況下，也可以進(jìn)行語音輸入和語音控制，并且本地語音庫相對于現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫較小，根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以使得識別結(jié)果更加準(zhǔn)確。
[0089]需要說明的是，本地語音庫中預(yù)存儲了一些常用指令。通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法可稱為“離線識別”技術(shù)，“離線識別”即為通過語音助手應(yīng)用中預(yù)存儲的本地語音庫，在用戶完成語音輸入后，在本地語音庫中匹配最接近輸入內(nèi)容的文字。本發(fā)明實施例即通過“離線識別”對用戶輸入的語音數(shù)據(jù)進(jìn)行語音識別。
[0090]206、若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，語音識別裝置根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。
[0091]具體的，在語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)時，可以根據(jù)現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。其中，通過網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)的方法稱作“在線識別”，這樣結(jié)合“離線識別”和“在線識別”的雙保險模式使得語音識別更加準(zhǔn)確。
[0092]進(jìn)一步的，本發(fā)明實施例還提供一種語音識別方法，具體如圖3所示，該方法包括:
[0093]301、語音識別裝置接收第一指示信號，第一指示信號指示啟動語音助手，其中，第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的。
[0094]具體的，現(xiàn)有技術(shù)中，在獲取用戶輸入的語音數(shù)據(jù)之前，用戶需要首先進(jìn)入智能終端上包含語音助手應(yīng)用圖標(biāo)的應(yīng)用列表界面之后，點(diǎn)擊應(yīng)用列表語音助手應(yīng)用圖標(biāo)后，語音識別裝置才對用戶的語音輸入進(jìn)行響應(yīng)，即獲取用戶輸入的語音數(shù)據(jù)。
[0095]本發(fā)明實施例中，在獲取用戶輸入的語音數(shù)據(jù)之前，語音識別裝置首先接收第一指示信號，第一指示信號指示啟動語音助手，其中，所收第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的。即本發(fā)明實施例中用戶通過“一鍵激活”的方式啟動語音助手，相對于現(xiàn)有技術(shù)中啟動語音助手的方式，該方式可以在任何情況下啟動語音助手，使得操作更加方便，啟動更加快捷。
[0096]302、語音識別裝置根據(jù)第一指示信號，啟動語音助手。
[0097]具體的，本發(fā)明實施例中，在語音識別裝置接收第一指示信號之后，將根據(jù)第一指示信號，啟動語音助手。
[0098]303、語音識別裝置獲取用戶輸入的語音數(shù)據(jù)。
[0099]具體的，在語音識別裝置進(jìn)行語音識別時，會獲取用戶輸入的語音數(shù)據(jù)，該語音數(shù)據(jù)可能是一個指令，例如可能是“關(guān)機(jī)”、“打開瀏覽器”等，本發(fā)明實施例對此不作具體限定。
[0100]需要說明的是，語音識別裝置包含在智能終端中，智能終端可能是電視，也可能是pad，本發(fā)明實施例對此不作具體限定。
[0101]304、語音識別裝置將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值。
[0102]具體的，在語音識別裝置獲取用戶輸入的語音數(shù)據(jù)之后，會將語音數(shù)據(jù)與語音數(shù)據(jù)庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值。其中，第一匹配值為表征語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)匹配程度的一個數(shù)據(jù)。若語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)十分匹配，則該第一匹配值將較高，否則偏低。
[0103]具體的，本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù)，其中，第一指令包括行為部分和對象部分；
[0104]若用戶輸入的語音數(shù)據(jù)為第一指令，則將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體可以包括:
[0105]將第一指令行為部分的語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，將第一指令對象部分的語音數(shù)據(jù)與本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配，其中，第一語音數(shù)據(jù)為本地語音庫中與第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0106]示例性的，比如用戶想打開瀏覽器，通過獲取用戶輸入的語音數(shù)據(jù)“打開瀏覽器”之后，首先識別出“打開”這個動作，表明要打開某個應(yīng)用，然后從與“打開”對應(yīng)的應(yīng)用列表中識別出對象“瀏覽器”，這樣的語音識別方式更加快捷。
[0107]305、若第一匹配值在第一閾值范圍內(nèi)，語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0108]具體的，第一閾值是針對語音數(shù)據(jù)與本地語音數(shù)據(jù)庫的匹配結(jié)果而設(shè)定的一個數(shù)值范圍，在本地語音數(shù)據(jù)庫與語音數(shù)據(jù)的匹配結(jié)果在一個較高的范圍時，確定可以通過可以預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，否則確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，這樣可以避免在環(huán)境嘈雜或者用戶說話不清楚時導(dǎo)致的用戶輸入的語音數(shù)據(jù)在本地語音庫中匹配不準(zhǔn)確的情況，使得語音識別結(jié)果更加準(zhǔn)確。
[0109]具體的，若語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，執(zhí)行步驟307。
[0110]306、若第一匹配值不在第一閾值范圍內(nèi)，語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0111]具體的，根據(jù)步驟305的描述，若第一匹配值不在第一閾值范圍內(nèi)，語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0112]具體的，若語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，執(zhí)行步驟308。
[0113]307、若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，語音識別裝置根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0114]具體的，若語音識別裝置若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，則可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。這樣，在沒有網(wǎng)絡(luò)連接的情況下，也可以進(jìn)行語音輸入和語音控制，并且本地語音庫相對于現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫較小，根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以使得識別結(jié)果更加準(zhǔn)確。
[0115]需要說明的是，本地語音庫中預(yù)存儲了一些常用指令。通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法可稱為“離線識別”技術(shù)，“離線識別”即為通過語音助手應(yīng)用中預(yù)存儲的本地語音庫，在用戶完成語音輸入后，在本地語音庫中匹配最接近輸入內(nèi)容的文字。本發(fā)明實施例即通過“離線識別”對用戶輸入的語音數(shù)據(jù)進(jìn)行語音識別。
[0116]308、若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，語音識別裝置根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。[0117]具體的，在語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)時，可以根據(jù)現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。其中，通過網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)的方法稱作“在線識別”，這樣結(jié)合“離線識別”和“在線識別”的雙保險模式使得語音識別更加準(zhǔn)確。
[0118]進(jìn)一步的，在接收第一指示信號之后，方法還包括:
[0119]根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面，其中，第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0120]具體的，本發(fā)明實施例中，為了在使用語音識別裝置時，不影響當(dāng)前背景應(yīng)用的正常運(yùn)行，還預(yù)先配置了語音助手應(yīng)用界面的顯示模式，即第一顯示模式，第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0121]示例性的，假設(shè)用戶在觀看視頻或者進(jìn)行在線游戲時，想進(jìn)行語音輸入，則語音識別裝置在接收第一指示信號之后，會呈現(xiàn)背景呈現(xiàn)半透明狀態(tài)的浮窗顯示界面，這樣用戶可以在使用語音識別裝置時，仍不會讓錯過視頻直播或游戲關(guān)卡的任一部分信息。
[0122]需要說明的是，根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面是語音識別裝置中的顯示模塊執(zhí)行的動作，在語音識別裝置接收第一指示信號之后，一直到語音識別裝置停止工作才結(jié)束顯示，和上述實施例中各步驟沒有必然的先后順序。
[0123]本發(fā)明實施例提供一種語音識別方法，該方法包括:獲取用戶輸入的語音數(shù)據(jù)；確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)；若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)?；诒景l(fā)明實施例提供的語音識別方法，因為在獲取用戶輸入的語音數(shù)據(jù)之后，可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù)，并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小，因此可以使得識別結(jié)果更加準(zhǔn)確。
[0124]實施例三、
[0125]本發(fā)明實施例提供一種語音識別裝置400，具體如圖4所示，裝置400包括獲取單元401、確定單元402、識別單元403。
[0126]獲取單元401，用于獲取用戶輸入的語音數(shù)據(jù)。
[0127]確定單元402，用于確定是否可以通過預(yù)存儲的本地語音庫識別獲取單元401獲取的語音數(shù)據(jù)。
[0128]識別單元403，用于若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0129]進(jìn)一步的，識別單元403還用于:
[0130]在確定單元402確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)之后，若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。
[0131]進(jìn)一步的，如圖5所示，確定單元402包括獲取模塊4021、確定模塊4022。
[0132]獲取模塊4021，用于將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值。
[0133]確定模塊4022，用于若第一匹配值在第一閾值范圍內(nèi)，確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。[0134]確定模塊4022，還用于若第一匹配值不在第一閾值范圍內(nèi)，確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0135]進(jìn)一步的，本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù)，其中，第一指令包括行為部分和對象部分；
[0136]確定模塊4022具體用于:
[0137]將第一指令行為部分的語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，將第一指令對象部分的語音數(shù)據(jù)與本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配，其中，第一語音數(shù)據(jù)為本地語音庫中與第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0138]進(jìn)一步的,如圖6所示,裝置400還包括接收單元404、啟動單元405。
[0139]接收單元404，用于在獲取單元401獲取用戶輸入的語音數(shù)據(jù)之前，接收第一指示信號，第一指示信號指示啟動語音助手，其中，第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的。
[0140]啟動單元405，用于根據(jù)第一指示信號，啟動語音助手。
[0141]進(jìn)一步的,如圖7所示,裝置400還包括顯示單元406。
[0142]顯示單元406，用于在接收單元404接收第一指示信號之后，根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面，其中，第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0143]具體的，通過語音識別裝置進(jìn)行語音識別的方法可參考實施例一、實施例二的描述，本發(fā)明實施例在此不再贅述。
[0144]本發(fā)明實施例提供一種語音識別裝置，裝置包括:獲取單元、確定單元、識別單元。獲取單元獲取用戶輸入的語音數(shù)據(jù)；確定單元確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)；若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，識別單元根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)?；诒景l(fā)明實施例提供的語音識別裝置，因為獲取單元在獲取用戶輸入的語音數(shù)據(jù)之后，識別單元可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)，因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù)，并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小，因此可以使得識別結(jié)果更加準(zhǔn)確。
[0145]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到，為描述的方便和簡潔，僅以上述各功能模塊的劃分進(jìn)行舉例說明，實際應(yīng)用中，可以根據(jù)需要而將上述功能分配由不同的功能模塊完成，即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊，以完成以上描述的全部或者部分功能。上述描述的裝置的具體工作過程，可以參考前述方法實施例中的對應(yīng)過程，在此不再贅述。
[0146]在本申請所提供的幾個實施例中，應(yīng)該理解到，所揭露的裝置和方法，可以通過其它的方式實現(xiàn)。例如，以上所描述的裝置實施例僅僅是示意性的。另一點(diǎn)，所顯示或討論的相互之間的耦合或直接耦合可以是通過一些接口，裝置的間接耦合，可以是電性，機(jī)械或其它的形式。
[0147]作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是一個物理單元或多個物理單元，即可以位于一個地方，或者也可以分布到多個不同地方。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。[0148]另外，在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨(dú)物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn)，也可以采用軟件功能單元的形式實現(xiàn)。
[0149]集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時，可以存儲在一個可讀取存儲介質(zhì)中?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該軟件產(chǎn)品存儲在一個存儲介質(zhì)中，包括若干指令用以使得一個設(shè)備(可以是單片機(jī)，芯片等)或處理器(processor)執(zhí)行本發(fā)明各個實施例方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM，Read-Only Memory)、隨機(jī)存取存儲器(RAM，Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0150]以上，僅為本發(fā)明的【具體實施方式】，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種語音識別方法，其特征在于，所述方法包括: 獲取用戶輸入的語音數(shù)據(jù)；確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后，所述方法還包括: 若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)包括: 將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值；若所述第一匹配值在第一閾值范圍內(nèi)，確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；若所述第一匹配值不在所述第一閾值范圍內(nèi)，確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù)，其中，所述第一指令包括行為部分和對象部分；` 若用戶輸入的語音數(shù)據(jù)為所述第一指令，則所述將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體包括: 將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配，其中，所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
5.根據(jù)權(quán)利要求1-4任一項所述的方法，其特征在于，在所述獲取用戶輸入的語音數(shù)據(jù)之前，所述方法還包括: 接收第一指示信號，所述第一指示信號指示啟動語音助手，其中，所述第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的；根據(jù)所述第一指示信號，啟動所述語音助手。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，在所述接收第一指示信號之后，所述方法還包括: 根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面，其中，所述第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
7.一種語音識別裝置，其特征在于，所述裝置包括獲取單元、確定單元、識別單元；所述獲取單元，用于獲取用戶輸入的語音數(shù)據(jù)；所述確定單元，用于確定是否可以通過預(yù)存儲的本地語音庫識別所述獲取單元獲取的語音數(shù)據(jù)；所述識別單元，用于若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述識別單元還用于:在所述確定單元確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后，若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)，根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述確定單元包括獲取模塊、確定模塊；所述獲取模塊，用于將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，獲取第一匹配值；所述確定模塊，用于若所述第一匹配值在第一閾值范圍內(nèi)，確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)；所述確定模塊，還用于若所述第一匹配值不在所述第一閾值范圍內(nèi)，確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù)，其中，所述第一指令包括行為部分和對象部分；所述確定模塊具體用于: 將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配，將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配，其中，所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
【文檔編號】G10L15/00GK103489444SQ201310466093
【公開日】2014年1月1日申請日期:2013年9月30日優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】初超, 田甲子, 黃滔, 仝永輝申請人:樂視致新電子科技（天津）有限公司

完整全部詳細(xì)技術(shù)資料下載