一種語音識別方法和裝置制造方法
【專利摘要】本發(fā)明提供一種語音識別方法和裝置,可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù),并且識別結(jié)果更加準(zhǔn)確。所述方法包括:獲取用戶輸入的語音數(shù)據(jù);確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù);若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。本發(fā)明適用于電子信息【技術(shù)領(lǐng)域】。
【專利說明】一種語音識別方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子信息【技術(shù)領(lǐng)域】,尤其涉及一種語音識別方法和裝置。
【背景技術(shù)】
[0002]隨著人們生活水平的提高,智能終端的普及程度越來越高。智能終端的輸入方式包括用戶手動輸入和語音輸入,其中,語音輸入已經(jīng)越來越多的應(yīng)用于當(dāng)今的智能終端。
[0003]在語音輸入領(lǐng)域,語音的識別尤其重要,準(zhǔn)確的識別出常用指令,可以為后期的語義分析提供更好的數(shù)據(jù),以此保證通過語音助手更好的理解用戶的真實意圖。
[0004]現(xiàn)有技術(shù)中,在某些支持語音技術(shù)的智能終端上,僅通過網(wǎng)絡(luò)的在線識別技術(shù)識別用戶輸入的語音數(shù)據(jù),但是由于在線識別的網(wǎng)絡(luò)語音庫比較大,因此識別的準(zhǔn)確性會受到干擾;另一方面,在智能終端沒有網(wǎng)絡(luò)的情況下將無法使用語音助手,進(jìn)而使得無法對用戶輸入的語音數(shù)據(jù)進(jìn)行識別。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種語音識別方法和裝置,可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù),并且識別結(jié)果更加準(zhǔn)確。
[0006]為達(dá)到上述目的,本發(fā)明實施例采用如下技術(shù)方案:
[0007]第一方面,提供一種語音識別方法,所述方法包括:
[0008]獲取用戶輸入的語音數(shù)據(jù);
[0009]確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù);
[0010]若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0011]在第一方面第一種可能的實現(xiàn)方式中,結(jié)合第一方面,在確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后,所述方法還包括:
[0012]若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
[0013]在第一方面第二種可能的實現(xiàn)方式中,結(jié)合第一方面第一種可能的實現(xiàn)方式,所述確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)包括:
[0014]將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值;
[0015]若所述第一匹配值在第一閾值范圍內(nèi),確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù);
[0016]若所述第一匹配值不在所述第一閾值范圍內(nèi),確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0017]在第一方面第三種可能的實現(xiàn)方式中,結(jié)合第一方面第二種可能的實現(xiàn)方式,所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù),其中,所述第一指令包括行為部分和對象部分;[0018]若用戶輸入的語音數(shù)據(jù)為所述第一指令,則所述將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體包括:
[0019]將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配,其中,所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0020]在第一方面第四種可能的實現(xiàn)方式中,結(jié)合第一方面至第一方面第三種可能的實現(xiàn)方法方式,在所述獲取用戶輸入的語音數(shù)據(jù)之前,所述方法還包括:
[0021]接收第一指示信號,所述第一指示信號指示啟動語音助手,其中,所述第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的;
[0022]根據(jù)所述第一指示信號,啟動所述語音助手。
[0023]在第一方面第五種可能的實現(xiàn)方式中,結(jié)合第一方面第四種可能的實現(xiàn)方式,在所述接收第一指示信號之后,所述方法還包括:
[0024]根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面,其中,所述第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0025]第二方面,提供一種語音識別裝置,所述裝置包括獲取單元、確定單元、識別單元;
[0026]所述獲取單元,用于獲取用戶輸入的語音數(shù)據(jù);
[0027]所述確定單元,用于確定是否可以通過預(yù)存儲的本地語音庫識別所述獲取單元獲取的語音數(shù)據(jù);
[0028]所述識別單元,用于若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0029]在第二方面第一種可能的實現(xiàn)方式中,結(jié)合第二方面,所述識別單元還用于:
[0030]在所述確定單元確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后,若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
[0031]在第二方面第二種可能的實現(xiàn)方式中,結(jié)合第二方面第一種可能的實現(xiàn)方式,所述確定單元包括獲取模塊、確定模塊;
[0032]所述獲取模塊,用于將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值;
[0033]所述確定模塊,用于若所述第一匹配值在第一閾值范圍內(nèi),確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù);
[0034]所述確定模塊,還用于若所述第一匹配值不在所述第一閾值范圍內(nèi),確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
[0035]在第二方面第三種可能的實現(xiàn)方式中,結(jié)合第一方面第二種可能的實現(xiàn)方式,所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù),其中,所述第一指令包括行為部分和對象部分;
[0036]所述確定模塊具體用于:
[0037]將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配,其中,所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0038]在第二方面第四種可能的實現(xiàn)方式中,結(jié)合第二方面至第二方面第三種可能的實現(xiàn)方式,所述裝置還包括接收單元、啟動單元;
[0039]所述接收單元,用于在所述獲取單元獲取用戶輸入的語音數(shù)據(jù)之前,接收第一指示信號,所述第一指示信號指示啟動語音助手,其中,所述第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的;
[0040]所述啟動單元,用于根據(jù)所述第一指示信號,啟動所述語音助手。
[0041]在第二方面第五種可能的實現(xiàn)方式中,結(jié)合第一方面第四種可能的實現(xiàn)方式,所述裝置還包括顯示單元;
[0042]所述顯示單元,用于在所述接收單元接收第一指示信號之后,根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面,其中,所述第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯不模式。
[0043]本發(fā)明提供一種語音識別方法和裝置,所述方法包括:獲取用戶輸入的語音數(shù)據(jù);確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù);若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)?;诒景l(fā)明實施例提供的語音識別方法和裝置,因為在獲取用戶輸入的語音數(shù)據(jù)之后,可以根據(jù)預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù),并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小,因此可以使得識別結(jié)果更加準(zhǔn)確。
【專利附圖】
【附圖說明】
[0044]圖1為本發(fā)明實施例一提供的一種語音識別方法;
[0045]圖2為本發(fā)明實施例二提供的一種語音識別方法;
[0046]圖3為本發(fā)明實施例二提供的另一種語音識別方法;
[0047]圖4為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖一;
[0048]圖5為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖二 ;
[0049]圖6為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖三;
[0050]圖7為本發(fā)明實施例提供三的語音識別裝置結(jié)構(gòu)示意圖四。
【具體實施方式】
[0051]下面結(jié)合附圖對本發(fā)明實施例提供的一種語音識別方法和裝置進(jìn)行詳細(xì)描述。
[0052]實施例一、
[0053]本發(fā)明實施例提供一種語音識別方法,具體如圖1所示,該方法包括:
[0054]101、語音識別裝置獲取用戶輸入的語音數(shù)據(jù)。
[0055]具體的,在語音識別裝置進(jìn)行語音識別時,會獲取用戶輸入的語音數(shù)據(jù),該語音數(shù)據(jù)可能是一個指令,例如可能是“關(guān)機(jī)”、“打開瀏覽器”等,本發(fā)明實施例對此不作具體限定。
[0056]需要說明的是,語音識別裝置包含在智能終端中,智能終端可能是電視,也可能是pad,本發(fā)明實施例對此不作具體限定。
[0057]102、語音識別裝置確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。[0058]具體的,語音識別裝置在獲取用戶輸入的語音數(shù)據(jù)之后,首先確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),則執(zhí)行步驟103。
[0059]具體的,確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以包括:
[0060]將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值;
[0061]若第一匹配值在第一閾值范圍內(nèi),確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù);
[0062]若第一匹配值不在第一閾值范圍內(nèi),確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0063]需要說明的是,在上述確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法中,第一閾值是針對語音數(shù)據(jù)與本地語音數(shù)據(jù)庫的匹配結(jié)果而設(shè)定的一個數(shù)值范圍,在本地語音數(shù)據(jù)庫與語音數(shù)據(jù)的匹配結(jié)果在一個較高的范圍時,確定可以通過可以預(yù)存儲的本地語音庫識別語音數(shù)據(jù),否則確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),這樣可以避免在環(huán)境嘈雜或者用戶說話不清楚時導(dǎo)致的用戶輸入的語音數(shù)據(jù)在本地語音庫中匹配不準(zhǔn)確的情況,使得語音識別結(jié)果更加準(zhǔn)確。
[0064]103、若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),語音識別裝置根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0065]具體的,若語音識別裝置若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),則可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。這樣,在沒有網(wǎng)絡(luò)連接的情況下,也可以進(jìn)行語音輸入和語音控制,并且本地語音庫相對于現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫較小,根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以使得識別結(jié)果更加準(zhǔn)確。
[0066]需要說明的是,本地語音庫中預(yù)存儲了一些常用指令。通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法可稱為“離線識別”技術(shù),“離線識別”即為通過語音助手應(yīng)用中預(yù)存儲的本地語音庫,在用戶完成語音輸入后,在本地語音庫中匹配最接近輸入內(nèi)容的文字。本發(fā)明實施例即通過“離線識別”對用戶輸入的語音數(shù)據(jù)進(jìn)行語音識別。
[0067]進(jìn)一步的,若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。
[0068]這樣,在語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)時,可以根據(jù)現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。其中,通過網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)的方法稱作“在線識別”,這樣結(jié)合“離線識別”和“在線識別”的雙保險模式使得語音識別更加準(zhǔn)確。
[0069]本發(fā)明實施例提供一種語音識別方法,該方法包括:獲取用戶輸入的語音數(shù)據(jù);確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù);若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)?;诒景l(fā)明實施例提供的語音識別方法,因為在獲取用戶輸入的語音數(shù)據(jù)之后,可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù),因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù),并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小,因此可以使得識別結(jié)果更加準(zhǔn)確。
[0070]實施例二、
[0071]本發(fā)明實施例提供一種語音識別方法,具體如圖2所示,該方法包括:[0072]201、語音識別裝置獲取用戶輸入的語音數(shù)據(jù)。
[0073]具體的,在語音識別裝置進(jìn)行語音識別時,會獲取用戶輸入的語音數(shù)據(jù),該語音數(shù)據(jù)可能是一個指令,例如可能是“關(guān)機(jī)”、“打開瀏覽器”等,本發(fā)明實施例對此不作具體限定。
[0074]需要說明的是,語音識別裝置包含在智能終端中,智能終端可能是電視,也可能是pad,本發(fā)明實施例對此不作具體限定。
[0075]202、語音識別裝置將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值。
[0076]具體的,在語音識別裝置獲取用戶輸入的語音數(shù)據(jù)之后,會將語音數(shù)據(jù)與語音數(shù)據(jù)庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值。其中,第一匹配值為表征語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)匹配程度的一個數(shù)據(jù)。若語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)十分匹配,則該第一匹配值將較高,否則偏低。
[0077]具體的,本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù),其中,第一指令包括行為部分和對象部分;
[0078]若用戶輸入的語音數(shù)據(jù)為第一指令,則將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體可以包括:
[0079]將第一指令行為部分的語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,將第一指令對象部分的語音數(shù)據(jù)與本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配,其中,第一語音數(shù)據(jù)為本地語音庫中與第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0080]示例性的,比如用戶想打開瀏覽器,通過獲取用戶輸入的語音數(shù)據(jù)“打開瀏覽器”之后,首先識別出“打開”這個動作,表明要打開某個應(yīng)用,然后從與“打開”對應(yīng)的應(yīng)用列表中識別出對象“瀏覽器”,這樣的語音識別方式更加快捷。
[0081]203、若第一匹配值在第一閾值范圍內(nèi),語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0082]具體的,第一閾值是針對語音數(shù)據(jù)與本地語音數(shù)據(jù)庫的匹配結(jié)果而設(shè)定的一個數(shù)值范圍,在本地語音數(shù)據(jù)庫與語音數(shù)據(jù)的匹配結(jié)果在一個較高的范圍時,確定可以通過可以預(yù)存儲的本地語音庫識別語音數(shù)據(jù),否則確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),這樣可以避免在環(huán)境嘈雜或者用戶說話不清楚時導(dǎo)致的用戶輸入的語音數(shù)據(jù)在本地語音庫中匹配不準(zhǔn)確的情況,使得語音識別結(jié)果更加準(zhǔn)確。
[0083]具體的,若語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),執(zhí)行步驟205。
[0084]204、若第一匹配值不在第一閾值范圍內(nèi),語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0085]具體的,根據(jù)步驟203的描述,若第一匹配值不在第一閾值范圍內(nèi),語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0086]具體的,若語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),執(zhí)行步驟206。
[0087]205、若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),語音識別裝置根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。[0088]具體的,若語音識別裝置若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),則可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。這樣,在沒有網(wǎng)絡(luò)連接的情況下,也可以進(jìn)行語音輸入和語音控制,并且本地語音庫相對于現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫較小,根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以使得識別結(jié)果更加準(zhǔn)確。
[0089]需要說明的是,本地語音庫中預(yù)存儲了一些常用指令。通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法可稱為“離線識別”技術(shù),“離線識別”即為通過語音助手應(yīng)用中預(yù)存儲的本地語音庫,在用戶完成語音輸入后,在本地語音庫中匹配最接近輸入內(nèi)容的文字。本發(fā)明實施例即通過“離線識別”對用戶輸入的語音數(shù)據(jù)進(jìn)行語音識別。
[0090]206、若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),語音識別裝置根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。
[0091]具體的,在語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)時,可以根據(jù)現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。其中,通過網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)的方法稱作“在線識別”,這樣結(jié)合“離線識別”和“在線識別”的雙保險模式使得語音識別更加準(zhǔn)確。
[0092]進(jìn)一步的,本發(fā)明實施例還提供一種語音識別方法,具體如圖3所示,該方法包括:
[0093]301、語音識別裝置接收第一指示信號,第一指示信號指示啟動語音助手,其中,第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的。
[0094]具體的,現(xiàn)有技術(shù)中,在獲取用戶輸入的語音數(shù)據(jù)之前,用戶需要首先進(jìn)入智能終端上包含語音助手應(yīng)用圖標(biāo)的應(yīng)用列表界面之后,點(diǎn)擊應(yīng)用列表語音助手應(yīng)用圖標(biāo)后,語音識別裝置才對用戶的語音輸入進(jìn)行響應(yīng),即獲取用戶輸入的語音數(shù)據(jù)。
[0095]本發(fā)明實施例中,在獲取用戶輸入的語音數(shù)據(jù)之前,語音識別裝置首先接收第一指示信號,第一指示信號指示啟動語音助手,其中,所收第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的。即本發(fā)明實施例中用戶通過“一鍵激活”的方式啟動語音助手,相對于現(xiàn)有技術(shù)中啟動語音助手的方式,該方式可以在任何情況下啟動語音助手,使得操作更加方便,啟動更加快捷。
[0096]302、語音識別裝置根據(jù)第一指示信號,啟動語音助手。
[0097]具體的,本發(fā)明實施例中,在語音識別裝置接收第一指示信號之后,將根據(jù)第一指示信號,啟動語音助手。
[0098]303、語音識別裝置獲取用戶輸入的語音數(shù)據(jù)。
[0099]具體的,在語音識別裝置進(jìn)行語音識別時,會獲取用戶輸入的語音數(shù)據(jù),該語音數(shù)據(jù)可能是一個指令,例如可能是“關(guān)機(jī)”、“打開瀏覽器”等,本發(fā)明實施例對此不作具體限定。
[0100]需要說明的是,語音識別裝置包含在智能終端中,智能終端可能是電視,也可能是pad,本發(fā)明實施例對此不作具體限定。
[0101]304、語音識別裝置將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值。
[0102]具體的,在語音識別裝置獲取用戶輸入的語音數(shù)據(jù)之后,會將語音數(shù)據(jù)與語音數(shù)據(jù)庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值。其中,第一匹配值為表征語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)匹配程度的一個數(shù)據(jù)。若語音數(shù)據(jù)與本地語音數(shù)據(jù)庫中的語音數(shù)據(jù)十分匹配,則該第一匹配值將較高,否則偏低。
[0103]具體的,本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù),其中,第一指令包括行為部分和對象部分;
[0104]若用戶輸入的語音數(shù)據(jù)為第一指令,則將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體可以包括:
[0105]將第一指令行為部分的語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,將第一指令對象部分的語音數(shù)據(jù)與本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配,其中,第一語音數(shù)據(jù)為本地語音庫中與第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0106]示例性的,比如用戶想打開瀏覽器,通過獲取用戶輸入的語音數(shù)據(jù)“打開瀏覽器”之后,首先識別出“打開”這個動作,表明要打開某個應(yīng)用,然后從與“打開”對應(yīng)的應(yīng)用列表中識別出對象“瀏覽器”,這樣的語音識別方式更加快捷。
[0107]305、若第一匹配值在第一閾值范圍內(nèi),語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0108]具體的,第一閾值是針對語音數(shù)據(jù)與本地語音數(shù)據(jù)庫的匹配結(jié)果而設(shè)定的一個數(shù)值范圍,在本地語音數(shù)據(jù)庫與語音數(shù)據(jù)的匹配結(jié)果在一個較高的范圍時,確定可以通過可以預(yù)存儲的本地語音庫識別語音數(shù)據(jù),否則確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),這樣可以避免在環(huán)境嘈雜或者用戶說話不清楚時導(dǎo)致的用戶輸入的語音數(shù)據(jù)在本地語音庫中匹配不準(zhǔn)確的情況,使得語音識別結(jié)果更加準(zhǔn)確。
[0109]具體的,若語音識別裝置確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),執(zhí)行步驟307。
[0110]306、若第一匹配值不在第一閾值范圍內(nèi),語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0111]具體的,根據(jù)步驟305的描述,若第一匹配值不在第一閾值范圍內(nèi),語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0112]具體的,若語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),執(zhí)行步驟308。
[0113]307、若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),語音識別裝置根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0114]具體的,若語音識別裝置若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),則可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。這樣,在沒有網(wǎng)絡(luò)連接的情況下,也可以進(jìn)行語音輸入和語音控制,并且本地語音庫相對于現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫較小,根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)可以使得識別結(jié)果更加準(zhǔn)確。
[0115]需要說明的是,本地語音庫中預(yù)存儲了一些常用指令。通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)的方法可稱為“離線識別”技術(shù),“離線識別”即為通過語音助手應(yīng)用中預(yù)存儲的本地語音庫,在用戶完成語音輸入后,在本地語音庫中匹配最接近輸入內(nèi)容的文字。本發(fā)明實施例即通過“離線識別”對用戶輸入的語音數(shù)據(jù)進(jìn)行語音識別。
[0116]308、若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),語音識別裝置根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。[0117]具體的,在語音識別裝置確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)時,可以根據(jù)現(xiàn)有技術(shù)中的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。其中,通過網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)的方法稱作“在線識別”,這樣結(jié)合“離線識別”和“在線識別”的雙保險模式使得語音識別更加準(zhǔn)確。
[0118]進(jìn)一步的,在接收第一指示信號之后,方法還包括:
[0119]根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面,其中,第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0120]具體的,本發(fā)明實施例中,為了在使用語音識別裝置時,不影響當(dāng)前背景應(yīng)用的正常運(yùn)行,還預(yù)先配置了語音助手應(yīng)用界面的顯示模式,即第一顯示模式,第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0121]示例性的,假設(shè)用戶在觀看視頻或者進(jìn)行在線游戲時,想進(jìn)行語音輸入,則語音識別裝置在接收第一指示信號之后,會呈現(xiàn)背景呈現(xiàn)半透明狀態(tài)的浮窗顯示界面,這樣用戶可以在使用語音識別裝置時,仍不會讓錯過視頻直播或游戲關(guān)卡的任一部分信息。
[0122]需要說明的是,根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面是語音識別裝置中的顯示模塊執(zhí)行的動作,在語音識別裝置接收第一指示信號之后,一直到語音識別裝置停止工作才結(jié)束顯示,和上述實施例中各步驟沒有必然的先后順序。
[0123]本發(fā)明實施例提供一種語音識別方法,該方法包括:獲取用戶輸入的語音數(shù)據(jù);確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù);若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)?;诒景l(fā)明實施例提供的語音識別方法,因為在獲取用戶輸入的語音數(shù)據(jù)之后,可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù),因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù),并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小,因此可以使得識別結(jié)果更加準(zhǔn)確。
[0124]實施例三、
[0125]本發(fā)明實施例提供一種語音識別裝置400,具體如圖4所示,裝置400包括獲取單元401、確定單元402、識別單元403。
[0126]獲取單元401,用于獲取用戶輸入的語音數(shù)據(jù)。
[0127]確定單元402,用于確定是否可以通過預(yù)存儲的本地語音庫識別獲取單元401獲取的語音數(shù)據(jù)。
[0128]識別單元403,用于若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0129]進(jìn)一步的,識別單元403還用于:
[0130]在確定單元402確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)之后,若確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別語音數(shù)據(jù)。
[0131]進(jìn)一步的,如圖5所示,確定單元402包括獲取模塊4021、確定模塊4022。
[0132]獲取模塊4021,用于將語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值。
[0133]確定模塊4022,用于若第一匹配值在第一閾值范圍內(nèi),確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。[0134]確定模塊4022,還用于若第一匹配值不在第一閾值范圍內(nèi),確定不可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù)。
[0135]進(jìn)一步的,本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù),其中,第一指令包括行為部分和對象部分;
[0136]確定模塊4022具體用于:
[0137]將第一指令行為部分的語音數(shù)據(jù)與本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,將第一指令對象部分的語音數(shù)據(jù)與本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配,其中,第一語音數(shù)據(jù)為本地語音庫中與第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
[0138]進(jìn)一步的,如圖6所示,裝置400還包括接收單元404、啟動單元405。
[0139]接收單元404,用于在獲取單元401獲取用戶輸入的語音數(shù)據(jù)之前,接收第一指示信號,第一指示信號指示啟動語音助手,其中,第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的。
[0140]啟動單元405,用于根據(jù)第一指示信號,啟動語音助手。
[0141]進(jìn)一步的,如圖7所示,裝置400還包括顯示單元406。
[0142]顯示單元406,用于在接收單元404接收第一指示信號之后,根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面,其中,第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
[0143]具體的,通過語音識別裝置進(jìn)行語音識別的方法可參考實施例一、實施例二的描述,本發(fā)明實施例在此不再贅述。
[0144]本發(fā)明實施例提供一種語音識別裝置,裝置包括:獲取單元、確定單元、識別單元。獲取單元獲取用戶輸入的語音數(shù)據(jù);確定單元確定是否可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù);若確定可以通過預(yù)存儲的本地語音庫識別語音數(shù)據(jù),識別單元根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù)?;诒景l(fā)明實施例提供的語音識別裝置,因為獲取單元在獲取用戶輸入的語音數(shù)據(jù)之后,識別單元可以根據(jù)預(yù)存儲的本地語音庫識別語音數(shù)據(jù),因此可以在沒有網(wǎng)絡(luò)的情況下識別用戶輸入的語音數(shù)據(jù),并且本地語音庫相對于網(wǎng)絡(luò)語音庫容量較小,因此可以使得識別結(jié)果更加準(zhǔn)確。
[0145]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,僅以上述各功能模塊的劃分進(jìn)行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。上述描述的裝置的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
[0146]在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合可以是通過一些接口,裝置的間接耦合,可以是電性,機(jī)械或其它的形式。
[0147]作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是一個物理單元或多個物理單元,即可以位于一個地方,或者也可以分布到多個不同地方。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。[0148]另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
[0149]集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一個設(shè)備(可以是單片機(jī),芯片等)或處理器(processor)執(zhí)行本發(fā)明各個實施例方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0150]以上,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種語音識別方法,其特征在于,所述方法包括: 獲取用戶輸入的語音數(shù)據(jù); 確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù); 若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后,所述方法還包括: 若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)包括: 將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值; 若所述第一匹配值在第一閾值范圍內(nèi),確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù); 若所述第一匹配值不在所述第一閾值范圍內(nèi),確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù),其中,所述第一指令包括行為部分和對象部分;` 若用戶輸入的語音數(shù)據(jù)為所述第一指令,則所述將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配具體包括: 將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配,其中,所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
5.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,在所述獲取用戶輸入的語音數(shù)據(jù)之前,所述方法還包括: 接收第一指示信號,所述第一指示信號指示啟動語音助手,其中,所述第一指示信號為用戶觸發(fā)控制器上的第一按鈕后產(chǎn)生的; 根據(jù)所述第一指示信號,啟動所述語音助手。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在所述接收第一指示信號之后,所述方法還包括: 根據(jù)預(yù)先配置的第一顯示模式顯示語音助手應(yīng)用界面,其中,所述第一顯示模式為背景呈現(xiàn)半透明狀態(tài)的浮窗顯示模式。
7.一種語音識別裝置,其特征在于,所述裝置包括獲取單元、確定單元、識別單元; 所述獲取單元,用于獲取用戶輸入的語音數(shù)據(jù); 所述確定單元,用于確定是否可以通過預(yù)存儲的本地語音庫識別所述獲取單元獲取的語音數(shù)據(jù); 所述識別單元,用于若確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)所述預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述識別單元還用于:在所述確定單元確定是否可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)之后,若確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù),根據(jù)預(yù)存儲的網(wǎng)絡(luò)語音庫識別所述語音數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述確定單元包括獲取模塊、確定模塊; 所述獲取模塊,用于將所述語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,獲取第一匹配值; 所述確定模塊,用于若所述第一匹配值在第一閾值范圍內(nèi),確定可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù); 所述確定模塊,還用于若所述第一匹配值不在所述第一閾值范圍內(nèi),確定不可以通過預(yù)存儲的本地語音庫識別所述語音數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述本地語音庫中預(yù)先存儲了第一指令對應(yīng)的語音數(shù)據(jù),其中,所述第一指令包括行為部分和對象部分; 所述確定模塊具體用于: 將所述第一指令行為部分的語音數(shù)據(jù)與所述本地語音庫中的語音數(shù)據(jù)進(jìn)行匹配,將所述第一指令對象部分的語音數(shù)據(jù)與所述本地語音庫中第一語音數(shù)據(jù)進(jìn)行匹配,其中,所述第一語音數(shù)據(jù)為所述本地語音庫中與所述第一指令行為部分相對應(yīng)的語音數(shù)據(jù)。
【文檔編號】G10L15/00GK103489444SQ201310466093
【公開日】2014年1月1日 申請日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】初超, 田甲子, 黃滔, 仝永輝 申請人:樂視致新電子科技(天津)有限公司