本發(fā)明涉及語音識別技術(shù)領(lǐng)域,具體涉及一種語音關(guān)鍵詞識別方法、裝置、終端及服務(wù)器。
背景技術(shù):
隨著科技的發(fā)展,語音喚醒技術(shù)在電子設(shè)備中的應(yīng)用越來越廣泛,其極大程度的方便了用戶對電子設(shè)備的操作,允許用戶與電子設(shè)備之間無需手動交互,即可通過語音關(guān)鍵詞激活電子設(shè)備中相應(yīng)的處理模塊。
例如,蘋果手機(jī)采用關(guān)鍵詞“siri”作為激活蘋果手機(jī)中的語音對話智能助理功能的語音關(guān)鍵詞,當(dāng)蘋果手機(jī)檢測到用戶輸入包括關(guān)鍵詞“siri”的語音時,自動激活蘋果手機(jī)中的語音對話智能助理功能。
有鑒于此,提供一種語音關(guān)鍵詞識別方法、裝置、終端及服務(wù)器,以實現(xiàn)對語音中的語音關(guān)鍵詞的識別,對于語音喚醒技術(shù)的發(fā)展是至關(guān)重要的。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例提供一種語音關(guān)鍵詞識別方法、裝置、終端及服務(wù)器,以實現(xiàn)對語音中的語音關(guān)鍵詞的識別。
為實現(xiàn)上述目的,本發(fā)明實施例提供如下技術(shù)方案:
一種語音關(guān)鍵詞識別方法,包括:
從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;
在匹配成功的情況下,若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,確定所述第一語音中包括所述語音關(guān)鍵詞。
一種語音關(guān)鍵詞識別裝置,包括:
第一目標(biāo)幀確定單元,用于從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
目標(biāo)關(guān)鍵字確定單元,用于從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
匹配單元,用于確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;
識別單元,用于在匹配成功的情況下,若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,確定所述第一語音中包括所述語音關(guān)鍵詞。
一種終端,包括存儲器和處理器,所述存儲器用于存儲程序,所述處理器調(diào)用所述程序,所述程序用于:
從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;
在匹配成功的情況下,若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,確定所述第一語音中包括所述語音關(guān)鍵詞。
一種語音關(guān)鍵詞識別服務(wù)器,包括存儲器和處理器,所述存儲器用于存儲程序,所述處理器調(diào)用所述程序,所述程序用于:
從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;
在匹配成功的情況下,若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,確定所述第一語音中包括所述語音關(guān)鍵詞。
本發(fā)明實施例公開了一種語音關(guān)鍵詞識別方法、裝置、終端及服務(wù)器,通過從構(gòu)成第一語音的第一幀序列中確定第一目標(biāo)幀;從語音關(guān)鍵詞包括的關(guān)鍵字序列中確定目標(biāo)關(guān)鍵字;在確定目標(biāo)幀的隱層特征向量與目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功時(關(guān)鍵字模板指示包括目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量),若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于第一語音中的幀的隱層特征向量與其匹配成功,確定第一語音中包括語音關(guān)鍵詞的方式,有效實現(xiàn)了對第一語音中的語音關(guān)鍵詞的識別。進(jìn)一步的,便于使用語音喚醒技術(shù)的電子設(shè)備在識別出第一語音中包括語音關(guān)鍵詞時,自動激活與所述語音關(guān)鍵詞相應(yīng)的處理模塊。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本申請實施例提供的一種語音關(guān)鍵詞識別服務(wù)器的結(jié)構(gòu)示意圖;
圖2為本申請實施例提供的一種語音關(guān)鍵詞識別方法的流程圖;
圖3為本申請實施例提供的另一種語音關(guān)鍵詞識別方法的流程圖;
圖4為本申請實施例提供的一種從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀的方法流程圖;
圖5為本申請實施例提供的一種從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字的方法流程圖;
圖6為本申請實施例提供的一種與目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板的生成方法流程圖;
圖7為本申請實施例提供的一種基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中選取與所述目標(biāo)關(guān)鍵字的相似程度最高的幀作為第二目標(biāo)幀的方法流程圖;
圖8為本申請實施例提供的另一種語音關(guān)鍵詞識別方法的流程圖;
圖9為本申請實施例提供的一種語音關(guān)鍵詞識別裝置的結(jié)構(gòu)示意圖;
圖10為本申請實施例提供的一種關(guān)鍵字模板生成單元的詳細(xì)結(jié)構(gòu)示意圖;
圖11為本申請實施例提供的一種第二目標(biāo)幀確定單元的詳細(xì)結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
實施例:
本申請實施例提供一種語音關(guān)鍵詞識別方法,應(yīng)用于終端或服務(wù)器。
在本申請實施例中,優(yōu)選的,終端為電子設(shè)備,例如,移動終端、臺式機(jī)等。以上僅僅是本申請實施例提供的終端的優(yōu)選方式,發(fā)明人可根據(jù)自己的需求任意設(shè)置終端的具體表現(xiàn)形式,在此不做限定。
可選的,應(yīng)用本申請實施例提供的一種語音關(guān)鍵詞識別方法的服務(wù)器(此處可稱為語音關(guān)鍵詞識別服務(wù)器)的功能可由單臺服務(wù)器實現(xiàn)也可由多臺服務(wù)器構(gòu)成的服務(wù)器集群實現(xiàn),在此不做限定。
以服務(wù)器為例,本申請實施例提供的一種語音關(guān)鍵詞識別服務(wù)器的結(jié)構(gòu)示意圖,具體請參見圖1。語音關(guān)鍵詞識別服務(wù)器包括:處理器11和存儲器12。
其中處理器11、存儲器12、通信接口13通過通信總線14完成相互間的通信。
可選的,通信接口13可以為通信模塊的接口,如gsm模塊的接口。處理器11,用于執(zhí)行程序。
處理器11可能是一個中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路。
存儲器12,用于存放程序。
程序可以包括程序代碼,所述程序代碼包括計算機(jī)操作指令。在本發(fā)明實施例中,程序可以包括上述用戶界面編輯器對應(yīng)的程序。
存儲器12可能包含高速ram存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器。
其中,程序可具體用于:
從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
確定所述目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;
在匹配成功的情況下,若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,確定所述第一語音中包括所述語音關(guān)鍵詞。
相應(yīng)的,本申請實施例提供的一種終端的結(jié)構(gòu)中至少包括如上述圖1所示的語音關(guān)鍵詞識別服務(wù)器的結(jié)構(gòu),有關(guān)終端的結(jié)構(gòu)請參見上述對語音關(guān)鍵詞識別服務(wù)器的結(jié)構(gòu)的描述,在此不做贅述。
相應(yīng)的,本申請實施例提供一種語音關(guān)鍵詞識別方法的流程圖,請參見圖2。
如圖2所示,該方法包括:
s201、從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
s202、從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
s203、確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;在匹配成功的情況下,執(zhí)行步驟s204。
可選的,預(yù)設(shè)有語音模型,將包括所述目標(biāo)關(guān)鍵字的第二語音(第二語音包括第二幀序列)輸入所述語音模型后,可得到第二語音中的第二目標(biāo)幀的隱層特征向量,與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板指示所得到的隱層特征向量。
可選的,所述語音模型基于lstm(longshort-termmemory,時間遞歸神經(jīng)網(wǎng)絡(luò))以及ctc(connectionisttemporalclassification,目標(biāo)準(zhǔn)則)生成。
以上僅僅是本申請實施例提供的語音模型生成的優(yōu)選方式,發(fā)明人可根據(jù)自己的需求任意設(shè)置語音模型的具體生成過程,在此不做限定。
可選的,將包括第一幀序列的第一語音輸入所述語音模型,可得到與所述第一語音中的第一目標(biāo)幀對應(yīng)的隱層特征向量。
相應(yīng)的,將所述第一目標(biāo)幀的隱層特征向量與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板進(jìn)行匹配,確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,如果匹配成功執(zhí)行步驟s204。
在本申請實施例中,優(yōu)選的,確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,包括:計算所述第一目標(biāo)幀的隱層特征向量與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板之間的余弦距離;若計算得到的余弦距離滿足預(yù)設(shè)值,則確定所述第一目標(biāo)幀的隱層特征向量與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功;若計算得到的余弦距離不滿足預(yù)設(shè)值,則確定所述第一目標(biāo)幀的隱層特征向量與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配不成功(失敗)。
s204、若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,確定所述第一語音中包括所述語音關(guān)鍵詞。
可選的,在步驟s203確定匹配成功的情況下,判斷當(dāng)前是否已經(jīng)逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功;如果是,確定所述第一語音中包括所述語音關(guān)鍵詞。
圖3為本申請實施例提供的另一種語音關(guān)鍵詞識別方法的流程圖。
如圖3所示,該方法包括:
s301、從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
s302、從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
s303、確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;在匹配成功的情況下,執(zhí)行步驟s304;在匹配不成功的情況下,返回執(zhí)行步驟s301;
s304、判斷是否已逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,如果是,執(zhí)行步驟s305;如果否,返回執(zhí)行步驟s301;
可選的,逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,包括:針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功;并且,匹配關(guān)鍵字模板成功的各個關(guān)鍵字,按照匹配成功的先后順序進(jìn)行排序后得到的結(jié)果為所述關(guān)鍵字序列。
s305、確定所述第一語音中包括所述語音關(guān)鍵詞。
為了便于對本申請實施例提供的一種語音關(guān)鍵詞識別方法的理解,現(xiàn)提供一種從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀的方法流程圖,請參見圖4。
如圖4所示,該方法包括:
s401、確定構(gòu)成第一語音的第一幀序列中的、第一個從未被確定為第一目標(biāo)幀的幀;
s402、將所確定的幀,作為從構(gòu)成所述第一語音的第一幀序列中確定的第一目標(biāo)幀。
可選的,第一語音包括第一幀序列,所述第一幀序列由依次排列的至少一個幀構(gòu)成。所述從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀,包括:從第一幀序列中選取一個幀作為第一目標(biāo)幀,所述第一目標(biāo)幀為所述第一幀序列中的從未被作為第一目標(biāo)幀的、且在所述第一幀序列中排序最靠前的幀。
為了便于對本申請實施例提供的一種語音關(guān)鍵詞識別方法的理解,現(xiàn)提供一種從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字的方法流程圖,請參見圖5。
如圖5所示,該方法包括:
s501、確定語音關(guān)鍵詞包括的關(guān)鍵字序列中的,與最近一次匹配成功的關(guān)鍵字模板對應(yīng)的關(guān)鍵字相鄰的下一關(guān)鍵字;
可選的,關(guān)鍵字序列由依次排序的多個關(guān)鍵字構(gòu)成。
例如,若語音關(guān)鍵詞包括的關(guān)鍵字序列為“小紅你好”時,若最近一次匹配成功的關(guān)鍵模板對應(yīng)的關(guān)鍵字為“紅”,則語音關(guān)鍵詞包括的關(guān)鍵字序列中的,與最近一次匹配成功的關(guān)鍵字模板對應(yīng)的關(guān)鍵字相鄰的下一關(guān)鍵字為關(guān)鍵字“你”。
s502、判斷所述下一關(guān)鍵字被連續(xù)確定為目標(biāo)關(guān)鍵字的次數(shù)是否達(dá)到預(yù)設(shè)的閾值;若所述下一關(guān)鍵字被連續(xù)確定為目標(biāo)關(guān)鍵字的次數(shù)未達(dá)到預(yù)設(shè)的閾值,執(zhí)行步驟s503;若所述下一關(guān)鍵字被連續(xù)確定為目標(biāo)關(guān)鍵字的次數(shù)達(dá)到所述閾值,執(zhí)行步驟s504;
可選的,所述預(yù)設(shè)的閾值為30次,以上僅僅是本申請實施例提供的閾值的優(yōu)選方式,發(fā)明人可根據(jù)自己的需求任意設(shè)置閾值的具體內(nèi)容,在此不做限定。
s503、將所述下一關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
s504、將所述關(guān)鍵字序列中的第一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字。
例如,若語音關(guān)鍵詞包括的關(guān)鍵字序列為“小紅你好”時,所述將所述關(guān)鍵字序列中的第一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字,包括:將關(guān)鍵字序列中的第一個關(guān)鍵字“小”,確定為目標(biāo)關(guān)鍵字。
為了便于對本申請實施例提供的一種語音關(guān)鍵詞識別方法的理解,現(xiàn)提供一種與目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板的生成方法流程圖,請參見圖6。
如圖6所示,該方法包括:
s601、確定包括所述目標(biāo)關(guān)鍵字的第二語音,所述第二語音由第二幀序列構(gòu)成;
可選的,生成與目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板的過程包括:確定包括所述目標(biāo)關(guān)鍵字的第二語音,所述第二語音由第二幀序列構(gòu)成,所述第二幀序列由依次排列的至少一個幀構(gòu)成。
s602、將所述第二語音作為預(yù)設(shè)的語音模型的輸入信息,確定分別與所述第二幀序列中的每個幀對應(yīng)的終層特征向量;
可選的,預(yù)設(shè)有語音模型,所述語音模型的輸入信息為語音(如第二語音)/幀,輸出信息可包括分別與輸入的每個幀對應(yīng)的隱層特征向量和終層特征向量。
在本申請實施例中,優(yōu)選的,將所述第二語音作為所述語音模型的輸入信息,得到所述第二語音包括的第二幀序列中的每個幀對應(yīng)的終層特征向量。
s603、基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中確定第二目標(biāo)幀;
可選的,基于第二語音包括的第二幀序列中的每個幀對應(yīng)的終層特征向量,從所述第二語音中選取一個幀作為第二目標(biāo)幀。
s604、根據(jù)將所述第二目標(biāo)幀作為所述語音模型的輸入信息所得到的與所述第二目標(biāo)幀對應(yīng)的隱層特征向量,生成與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板。
可選的,所述第二目標(biāo)幀作為所述語音模型的輸入信息,得到的與所述第二目標(biāo)幀對應(yīng)的隱層特征向量的過程,可以在步驟s602中實現(xiàn),將所述第二語音作為預(yù)設(shè)的語音模型的輸入信息,確定分別與所述第二幀序列中的每個幀對應(yīng)的終層特征向量,以及分別與所述第二幀序列中的每個幀對應(yīng)的隱層特征向量;進(jìn)而,在步驟s604執(zhí)行過程中,直接從步驟s602的“分別與所述第二幀序列中的每個幀對應(yīng)的隱層特征向量”結(jié)果中,直接獲取與所述第二目標(biāo)幀對應(yīng)的隱層特征向量。
以上僅僅是本申請實施例的優(yōu)選方式,發(fā)明人可根據(jù)自己的需求任意設(shè)置“將所述第二目標(biāo)幀作為所述語音模型的輸入信息所得到的與所述第二目標(biāo)幀對應(yīng)的隱層特征向量”的實現(xiàn)方式,如將“將所述第二目標(biāo)幀作為所述語音模型的輸入信息所得到的與所述第二目標(biāo)幀對應(yīng)的隱層特征向量”過程獨立于步驟s602實現(xiàn),在此不做限定。
可選的,第二語音的個數(shù)為至少一個,所述根據(jù)與所述第二目標(biāo)幀對應(yīng)的隱層特征向量,生成與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板,包括:確定分別與每個第二語音的第二目標(biāo)幀對應(yīng)的隱層特征向量,對所確定的各個隱層特征向量求平均,并將所得到的結(jié)果作為與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板。
為了便于對本申請實施例提供的一種語音關(guān)鍵詞識別方法的理解,現(xiàn)提供一種基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中確定第二目標(biāo)幀的方法進(jìn)行詳細(xì)介紹。
在本申請實施例中,優(yōu)選的,所述幀對應(yīng)的終層特征向量,包括:所述幀分別與所述語音模型中預(yù)設(shè)的文字集中的每個文字之間的相似度,所述目標(biāo)關(guān)鍵字為所述文件集中的一個文字。
例如,若文字集為5200個漢字,則所述幀對應(yīng)的終層特征向量包括:所述幀分別與所述5200個漢字中的每個漢字的相似度。
所述基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中確定第二目標(biāo)幀,包括:基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中選取與所述目標(biāo)關(guān)鍵字的相似程度最高的幀作為第二目標(biāo)幀;其中,幀與所述目標(biāo)關(guān)鍵字的相似程度根據(jù)所述幀分別與所述文字集中的每個文字之間的相似度確定。
為了便于理解,現(xiàn)提供一種基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中選取與所述目標(biāo)關(guān)鍵字的相似程度最高的幀作為第二目標(biāo)幀的方法流程圖,請參見圖7。
如圖7所述,該方法包括:
s701、從所述第二幀序列中確定至少一個第一候選幀,所述第一候選幀與所述目標(biāo)關(guān)鍵字的相似度小于所述第一候選幀與所述文字集中的至少一個文字的相似度,所述至少一個文字的個數(shù)小于預(yù)設(shè)數(shù)值;
s702、從所述至少一個第一候選幀中確定至少一個第二候選幀,所述至少一個第二候選幀為所述至少一個第一候選幀中與所述目標(biāo)關(guān)鍵字的相似度最大的各第一候選幀;
s703、從所述至少一個第二候選幀中確定第二目標(biāo)幀,按照相似度從高到低的順序,所述第二目標(biāo)幀與所述目標(biāo)關(guān)鍵字的相似度位于所述第二目標(biāo)幀與各文字的相似度中的排名,高于除所述第二目標(biāo)幀外的每個所述第二候選幀與所述目標(biāo)關(guān)鍵字的相似度位于所述第二候選幀與各文字的相似度中的排名。
進(jìn)一步的,為了便于對本申請實施例提供的如圖7所示的一種基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中選取與所述目標(biāo)關(guān)鍵字的相似程度最高的幀作為第二目標(biāo)幀的方法的理解,現(xiàn)舉例說明:
若第二語音包括的第二幀序列包括四個幀,分別為幀1、幀2、幀3和幀4,語音模型中預(yù)設(shè)的文字集包括4個文字,分別為文字1、文字2、文字3和文字4,其中文字3為目標(biāo)關(guān)鍵字。
將第二語音作為語音模型的輸入信息輸入至所述語音模型,得到與幀1對應(yīng)的終層特征向量1、與幀2對應(yīng)的終層特征向量2、與幀3對應(yīng)的終層特征向量3,以及與幀4對應(yīng)的終層特征向量4。
其中,終層特征向量1包括幀1與文字1的相似度11、幀1與文字2的相似度12、幀1與文字3的相似度13和幀1與文字4的相似度14,其中,相似度11為20%、相似度12為30%、相似度13為15%、相似度14為50%;
終層特征向量2包括幀2與文字1的相似度21、幀2與文字2的相似度22、幀2與文字3的相似度23和幀2與文字4的相似度24,其中,相似度21為15%、相似度22為5%、相似度23為65%、相似度24為95%;
終層特征向量3包括幀3與文字1的相似度31、幀3與文字2的相似度32、幀3與文字3的相似度33和幀3與文字4的相似度34,其中,相似度31為10%、相似度32為20%、相似度33為65%、相似度34為30%;
終層特征向量4包括幀4與文字1的相似度41、幀4與文字2的相似度42、幀4與文字3的相似度43和幀4與文字4的相似度44,其中,相似度41為10%、相似度42為20%、相似度43為55%、相似度44為30%。
首先,從所述第二幀序列中確定至少一個第一候選幀,所述第一候選幀與所述目標(biāo)關(guān)鍵字的相似度小于所述第一候選幀與所述文字集中的至少一個文字的相似度,所述至少一個文字的個數(shù)小于預(yù)設(shè)數(shù)值,若所述預(yù)設(shè)數(shù)值為3時,則說明:從所述第二幀序列中確定至少一個第一候選幀,具體的,第一候選幀與文字集中的每個文字的相似度按照從大到小的順序進(jìn)行排列得到一個序列,所述第一候選幀與目標(biāo)關(guān)鍵字的相似度位于此序列的前3位以內(nèi)(所述第一候選幀與目標(biāo)關(guān)鍵字的相似度位于此序列的第1位、第2位或第3位)。此時,從所述第二幀序列中確定的至少一個第一候選幀包括3個,分別為幀2、幀3和幀4。
從所述至少一個第一候選幀中確定至少一個第二候選幀:因此時相似度23和相似度33相等,均為65%;相似度43為55%;故從所述至少一個第一候選幀中確定出的至少一個第二候選幀包括2個,分別為幀2和幀3。
從所述至少一個第二候選幀中確定第二目標(biāo)幀:因與幀3對應(yīng)的相似度33在幀3對應(yīng)的各個相似度中的排名為第1位;幀2對應(yīng)的相似度23在幀2對應(yīng)的各個相似度中的排名為第2位,故選擇與所述第1位對應(yīng)的幀3作為第二目標(biāo)幀。
通過上述對本申請實施例提供的一種語音關(guān)鍵詞識別方法的詳細(xì)介紹,使得本申請實施例提供的一種語音關(guān)鍵詞識別方法更加清晰、完整,便于本領(lǐng)域技術(shù)人員理解。
進(jìn)一步的,為了便于理解上述實施例提供的一種語音關(guān)鍵詞識別方法,下面對此方法進(jìn)行更具體的詳細(xì)說明,請參見圖8。
如圖8所示,該方法包括:
需要注意的是:該方法中對應(yīng)的第一語音包括的第一幀序列中的每個幀設(shè)置有唯一的幀id,其中,幀在所述第一幀序列中的序位號即為所述幀的幀id。例如,第一幀序列包括依次排序的三個幀,分別為幀1、幀3和幀2。則,幀1的序位號為1,幀id為1;幀3的序位號為2,幀id為2;幀2的序位號為3,幀id為3。
可選的,語音關(guān)鍵詞包括的關(guān)鍵字序列中的每個關(guān)鍵字設(shè)置有唯一的關(guān)鍵字id,其中,關(guān)鍵字在所述關(guān)鍵字序列中的序位號為所述關(guān)鍵字的關(guān)鍵字id。例如,關(guān)鍵詞序列包括依次排序的4個關(guān)鍵字,分別為關(guān)鍵字1、關(guān)鍵字3關(guān)鍵字2和關(guān)鍵字4。則,關(guān)鍵字1的序位號為1,關(guān)鍵字id為1;關(guān)鍵字3的序位號為2,關(guān)鍵字id為2;關(guān)鍵字2的序位號為3,關(guān)鍵字id為3;關(guān)鍵字4的序位號為4,關(guān)鍵字id為4。
s801、初始化幀id:n=0;關(guān)鍵字id:m=1;計算器置零;
s802、i=n++;判斷第一語音包括的第一幀序列中的第i個幀的隱層特征向量與語音關(guān)鍵詞中的第m個關(guān)鍵字對應(yīng)關(guān)鍵字模板是否匹配成功;如果匹配成功,執(zhí)行步驟s803;如果匹配失敗,執(zhí)行步驟s806;
s803、判斷當(dāng)前所述關(guān)鍵字是否為所述語音關(guān)鍵詞包括的關(guān)鍵詞序列中的最后一個關(guān)鍵字;如果是,執(zhí)行步驟s804;如果否,執(zhí)行步驟s805;
s804、確定所述第一語音中包括所述語音關(guān)鍵詞;
s805、設(shè)置計數(shù)器的計數(shù)s為觸發(fā)初始值;n++;返回執(zhí)行步驟s802;
可選的,觸發(fā)初始值即為上述步驟s502中所涉及到的所述閾值??蛇x的,所述觸發(fā)初始值為30。
以上僅僅是本申請實施例提供的觸發(fā)初始值的優(yōu)選方式,發(fā)明人可根據(jù)自己的需求任意設(shè)置觸發(fā)初始值的具體數(shù)值,在此不做限定。
s806、s--;
可選的,s--表示計數(shù)器的計數(shù)減一。
s807、判斷計數(shù)器的計數(shù)s是否大于0;若是,返回執(zhí)行步驟s802;若否,返執(zhí)行步驟s801。
以上僅僅是本申請實施例提供的一種語音關(guān)鍵詞識別方法的優(yōu)選方式,具體的,發(fā)明人可根據(jù)自己的需求任意設(shè)置本申請實施例提供一種語音關(guān)鍵詞識別方法的具體實現(xiàn)方式,在此不做限定。
通過上述對本申請實施例提供的一種語音關(guān)鍵詞識別方法的詳細(xì)介紹,使得本申請實施例提供的一種語音關(guān)鍵詞識別方法更加清晰、完整,便于本領(lǐng)域技術(shù)人員理解。
上述本發(fā)明公開的實施例中詳細(xì)描述了方法,對于本發(fā)明的方法可采用多種形式的裝置實現(xiàn),因此本發(fā)明還公開了一種裝置,下面給出具體的實施例進(jìn)行詳細(xì)說明。
圖9為本申請實施例提供的一種語音關(guān)鍵詞識別裝置的結(jié)構(gòu)示意圖。
如圖9所示,該裝置包括:
第一目標(biāo)幀確定單元91,用于從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀;
目標(biāo)關(guān)鍵字確定單元92,用于從語音關(guān)鍵詞包括的關(guān)鍵字序列中選取一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
匹配單元93,用于確定所述第一目標(biāo)幀的隱層特征向量是否與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功,所述關(guān)鍵字模板指示包括所述目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量;
識別單元94,用于在匹配成功的情況下,若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于所述第一語音中的幀的隱層特征向量與其匹配成功,確定所述第一語音中包括所述語音關(guān)鍵詞。
進(jìn)一步的,本申請實施例提供的一種語音關(guān)鍵詞識別裝置還包括:返回執(zhí)行單元,用于:在匹配失敗的情況下,返回執(zhí)行“從構(gòu)成第一語音的第一幀序列中選取一個幀確定為第一目標(biāo)幀”步驟。
本發(fā)明實施例提供第一目標(biāo)幀確定單元91的一種可選結(jié)構(gòu)。
可選的,第一目標(biāo)幀確定單元91包括:
第一確定單元,用于確定構(gòu)成第一語音的第一幀序列中的、第一個從未被確定為第一目標(biāo)幀的幀;
第二確定單元,用于將所確定的幀,作為從構(gòu)成所述第一語音的第一幀序列中確定的第一目標(biāo)幀。
本發(fā)明實施例提供目標(biāo)關(guān)鍵字確定單元92的一種可選結(jié)構(gòu)。
可選的,目標(biāo)關(guān)鍵字確定單元92包括:
第三確定單元,用于確定語音關(guān)鍵詞包括的關(guān)鍵字序列中的,與最近一次匹配成功的關(guān)鍵字模板對應(yīng)的關(guān)鍵字相鄰的下一關(guān)鍵字;
第四確定單元,用于若所述下一關(guān)鍵字被連續(xù)確定為目標(biāo)關(guān)鍵字的次數(shù)未達(dá)到預(yù)設(shè)的閾值,將所述下一關(guān)鍵字確定為目標(biāo)關(guān)鍵字;
第五確定單元,用于若所述下一關(guān)鍵字被連續(xù)確定為目標(biāo)關(guān)鍵字的次數(shù)達(dá)到所述閾值,將所述關(guān)鍵字序列中的第一個關(guān)鍵字確定為目標(biāo)關(guān)鍵字。
進(jìn)一步的,本申請實施例提供的一種語音關(guān)鍵詞識別裝置還包括:關(guān)鍵字模板生成單元。
本發(fā)明實施例提供的關(guān)鍵字模板生成單元的一種可選結(jié)構(gòu),請參見圖10。
如圖10所示,所述關(guān)鍵字模板生成單元,包括:
第二語音確定單元101,用于確定包括所述目標(biāo)關(guān)鍵字的第二語音,所述第二語音由第二幀序列構(gòu)成;
終層特征向量確定單元102,用于將所述第二語音作為預(yù)設(shè)的語音模型的輸入信息,確定分別與所述第二幀序列中的每個幀對應(yīng)的終層特征向量;
第二目標(biāo)幀確定單元103,用于基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中確定第二目標(biāo)幀;
關(guān)鍵字模板生成子單元104,用于根據(jù)將所述第二目標(biāo)幀作為所述語音模型的輸入信息所得到的與所述第二目標(biāo)幀對應(yīng)的隱層特征向量,生成與所述目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板。
在本申請實施例中,優(yōu)選的,所述幀對應(yīng)的終層特征向量,包括:所述幀分別與所述語音模型中預(yù)設(shè)的文字集中的每個文字之間的相似度,所述目標(biāo)關(guān)鍵字為所述文件集中的一個文字;所述第二目標(biāo)幀確定單元,具體用于:基于分別與每個幀對應(yīng)的終層特征向量,從所述第二幀序列中選取與所述目標(biāo)關(guān)鍵字的相似程度最高的幀作為第二目標(biāo)幀;其中,幀與所述目標(biāo)關(guān)鍵字的相似程度根據(jù)所述幀分別與所述文字集中的每個文字之間的相似度確定。
本發(fā)明實施例提供第二目標(biāo)幀確定單元的一種可選結(jié)構(gòu),請參見圖11。
如圖11所示,所述第二目標(biāo)幀確定單元,包括:
第一候選幀確定單元111,用于從所述第二幀序列中確定至少一個第一候選幀,所述第一候選幀與所述目標(biāo)關(guān)鍵字的相似度小于所述第一候選幀與所述文字集中的至少一個文字的相似度,所述至少一個文字的個數(shù)小于預(yù)設(shè)數(shù)值;
第二候選幀確定單元112,用于從所述至少一個第一候選幀中確定至少一個第二候選幀,所述至少一個第二候選幀為所述至少一個第一候選幀中與所述目標(biāo)關(guān)鍵字的相似度最大的各第一候選幀;
第二目標(biāo)幀確定子單元113,用于從所述至少一個第二候選幀中確定第二目標(biāo)幀,按照相似度從高到低的順序,所述第二目標(biāo)幀與所述目標(biāo)關(guān)鍵字的相似度位于所述第二目標(biāo)幀與各文字的相似度中的排名,高于除所述第二目標(biāo)幀外的每個所述第二候選幀與所述目標(biāo)關(guān)鍵字的相似度位于所述第二候選幀與各文字的相似度中的排名。
綜上:
本發(fā)明實施例公開了一種語音關(guān)鍵詞識別方法、裝置、終端及服務(wù)器,通過從構(gòu)成第一語音的第一幀序列中確定第一目標(biāo)幀;從語音關(guān)鍵詞包括的關(guān)鍵字序列中確定目標(biāo)關(guān)鍵字;在確定目標(biāo)幀的隱層特征向量與目標(biāo)關(guān)鍵字對應(yīng)的關(guān)鍵字模板匹配成功時(關(guān)鍵字模板指示包括目標(biāo)關(guān)鍵字的第二語音中的第二目標(biāo)幀的隱層特征向量),若逐一針對關(guān)鍵字序列中的每個關(guān)鍵字對應(yīng)的關(guān)鍵字模板,均已確定出位于第一語音中的幀的隱層特征向量與其匹配成功,確定第一語音中包括語音關(guān)鍵詞的方式,有效實現(xiàn)了對第一語音中的語音關(guān)鍵詞的識別。進(jìn)一步的,便于使用語音喚醒技術(shù)的電子設(shè)備在識別出第一語音中包括語音關(guān)鍵詞時,自動激活與所述語音關(guān)鍵詞相應(yīng)的處理模塊。
本說明書中各個實施例采用遞進(jìn)的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進(jìn)一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機(jī)存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。