本發(fā)明屬于增強現(xiàn)實技術領域,尤其涉及一種基于聲紋注冊的增強現(xiàn)實方法及裝置。
背景技術:
目前增強現(xiàn)實技術(AR)的應用逐漸廣泛,比如在AR游戲中,為了提高AR游戲的可玩性,在游戲場景中加入語音識別技術,使用語音指令來觸發(fā)不同的AR游戲場景。
對于某些時候,我們希望僅有指定權限的人說出某些話時才觸發(fā)相應的AR場景。不同的人使用語音指令操作不同的游戲對象,并在在其對應的現(xiàn)實場景中疊加炫酷的游戲效果,這樣就使得游戲的娛樂性大大增強。
但是現(xiàn)有的AR語音識別并不限定人員,任何人說出相同的話都能觸發(fā)AR場景。
因此,現(xiàn)有技術還有待發(fā)展。
技術實現(xiàn)要素:
本發(fā)明實施例提供一種基于聲紋注冊的增強現(xiàn)實方法及裝置,旨在解決現(xiàn)有的AR語音識別并不限定人員,任何人說出相同的話都能觸發(fā)AR場景的問題。
本發(fā)明實施例是這樣實現(xiàn)的,一種基于聲紋注冊的增強現(xiàn)實方法,其中,所述方法包括下述步驟:
獲取拾音裝置采集的現(xiàn)場使用者語音數(shù)據(jù),并從所述使用者語音數(shù)據(jù)中提取使用者聲紋特征信息;
將所述用者聲紋特征信息與預先保存的管理者聲紋特征信息進行匹配,判斷所述使用者是否為終端設備管理者;
當所述使用者為終端設備管理者時,將所述使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配,匹配成功時獲取與所述預設語音數(shù)據(jù)對應的情景信息;
將所述情景信息通過增強現(xiàn)實技術進行展示;
所述情景信息包括文字、圖片、語音、視頻中任一種或多種組合。
進一步的,將所述使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配包括下述步驟:
獲取使用者語音數(shù)據(jù)中的喚醒詞;
將所述喚醒詞與聲音數(shù)據(jù)庫中的預設喚醒詞進行匹配;
匹配成功則對所述喚醒詞之后的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配;
當所述使用者語音數(shù)據(jù)與所述預設語音數(shù)據(jù)匹配成功時,獲取與所述預設語音數(shù)據(jù)對應的情景信息;
所述喚醒詞為預設于聲音數(shù)據(jù)庫中的固定詞語。
進一步的,對所述喚醒詞之后的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配包括下述步驟:
依次獲取使用者語音數(shù)據(jù)中單個字的波形圖;
將所述單個字的波形圖和預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)的單字波形圖的橫軸縱軸歸一化,得到含有多個直方的兩個直方圖;
計算所述兩個直方圖中的所有對應直方的均方誤差,并進行匹配判斷;
當所述均方誤差小于預設的閾值,則認定兩個字匹配;
重復上述步驟,直到所述使用者語音數(shù)據(jù)中最后一個字也匹配;
所述均方誤差公式為:
其中Dn為使用者語音數(shù)據(jù)單個字直方圖中的單個直方值,
dn為預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)單字直方圖中的單個直方值,
n為直方個數(shù)。
進一步的,所述聲紋特征信息提取采用線性預側系數(shù)或者梅爾頻率倒譜系數(shù)方式提取。
本發(fā)明實施還提供一種基于聲紋注冊的增強現(xiàn)實裝置,其中,所述裝置包括:
聲紋特征獲取模塊,用于獲取拾音裝置采集的現(xiàn)場使用者語音數(shù)據(jù),并從所述使用者語音數(shù)據(jù)中提取使用者聲紋特征信息;
聲紋特征匹配模塊,用于將所述用者聲紋特征信息與預先保存的管理者聲紋特征信息進行匹配,判斷所述使用者是否為終端設備管理者;
語音匹配與情景獲取模塊,用于當所述使用者為終端設備管理者時,將所述使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配,匹配成功時獲取與所述預設語音數(shù)據(jù)對應的情景信息;
展示模塊,用于將所述情景信息通過增強現(xiàn)實技術進行展示;
所述情景信息包括文字、圖片、語音、視頻中任一種或多種組合。
進一步的,所述語音匹配與場景獲取模塊包括:
喚醒詞獲取模塊,用于獲取使用者語音數(shù)據(jù)中的喚醒詞;
喚醒詞匹配模塊,用于將所述喚醒詞與聲音數(shù)據(jù)庫中的預設喚醒詞進行匹配;
語音匹配模塊,用于當匹配成功時則對所述喚醒詞之后的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配;
語音情景信息獲取模塊,用于當所述使用者語音數(shù)據(jù)與所述預設語音數(shù)據(jù)匹配成功時,獲取與所述預設語音數(shù)據(jù)對應的情景信息;
所述喚醒詞為預設于聲音數(shù)據(jù)庫中的固定詞語。
進一步的,所述語音匹配模板包括:
波形圖獲取模塊,用于依次獲取使用者語音數(shù)據(jù)中單個字的波形圖;
直方圖生成模塊,用于將所述單個字的波形圖和預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)的單字波形圖的橫軸縱軸歸一化,得到含有多個直方的兩個直方圖;
均方誤差生成模塊,用于計算所述兩個直方圖中的所有對應直方的均方誤差,并進行匹配判斷;
匹配判斷模塊,用于當所述均方誤差小于預設的閾值,則認定兩個字匹配;
循環(huán)模塊,用于重復上述步驟,直到所述使用者語音數(shù)據(jù)中最后一個字也匹配;
所述均方誤差公式為:
其中Dn為使用者語音數(shù)據(jù)單個字直方圖中的單個直方值,
dn為預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)單字直方圖中的單個直方值,
n為直方個數(shù)。
進一步的,所述聲紋特征信息提取采用線性預側系數(shù)或者梅爾頻率倒譜系數(shù)方式提取。
本發(fā)明實施例的基于聲紋注冊的增強現(xiàn)實方法,將拾音裝置采集的現(xiàn)場使用者語音數(shù)據(jù)提取使用者聲紋特征信息,并與預先保存的管理者聲紋特征信息進行匹配,當所述使用者為終端設備管理者時將所述使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配,匹配成功時獲取與所述預設語音數(shù)據(jù)對應的情景信息并通過增強現(xiàn)實技術進行展示,使得AR語音識別能夠限定于特定的人員進行語音控制,僅有指定權限的人說出某些話時才觸發(fā)相應的AR場景,不同的人使用語音指令操作不同的游戲對象,并在在其對應的現(xiàn)實場景中疊加炫酷的游戲效果,大大增強了AR游戲的娛樂性和體驗感。
附圖說明
圖1是本發(fā)明實施例提供的基于聲紋注冊的增強現(xiàn)實方法的流程圖;
圖2是本發(fā)明實施例提供的使用者語音數(shù)據(jù)與預設語音數(shù)據(jù)進行匹配的流程圖;
圖3是本發(fā)明實施例提供的喚醒詞之后的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配的流程圖;
圖4是本發(fā)明實施例提供的基于聲紋注冊的增強現(xiàn)實裝置的結構圖;
圖5是本發(fā)明實施例提供的語音匹配與場景獲取模塊的結構圖;
圖6是本發(fā)明實施例提供的語音匹配模塊的結構圖。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
圖1示出了本發(fā)明實施例提供的基于聲紋注冊的增強現(xiàn)實方法的實現(xiàn)流程,
在步驟S101中,獲取拾音裝置采集的現(xiàn)場使用者語音數(shù)據(jù),并從所述使用者語音數(shù)據(jù)中提取使用者聲紋特征信息;
本發(fā)明實施例中的拾音裝置可以是與AR設備連接的獨立語音采集設備如專用的MIC,也可以是集成于AR設備上的語音采集模塊,采集到AR設備使用者的語音數(shù)據(jù)后,傳輸給AR設備進行聲紋特征信息的提取。
在本發(fā)明實施例中,所述聲紋特征信息提取采用線性預側系數(shù)或者梅爾頻率倒譜系數(shù)方式提取。
在步驟S102中,將所述用者聲紋特征信息與預先保存的管理者聲紋特征信息進行匹配,判斷所述使用者是否為終端設備管理者;
在提取使用者的聲紋特征信息后,與預先存儲的管理者聲紋特征信息進行匹配,進行AR設備使用者身份的識別,使用者身份包括該設備的管理者和非管理者,管理者才有權使用該AR設備進行語音控制,一臺AR設備的管理者可以有多個,管理者的身份為預先設置并保存,管理者聲紋特征信息以及身份識別數(shù)據(jù)可以存儲于本地的AR設備,也可以存儲于與AR設備網(wǎng)絡連接的服務器端。
在步驟S103中,當所述使用者為終端設備管理者時,將所述使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配,匹配成功時獲取與所述預設語音數(shù)據(jù)對應的情景信息;
只有當使用者的聲紋特征信息與AR設備管理者的聲紋特征信息匹配成功時,才會對使用者的全部語音數(shù)據(jù)繼續(xù)進行語音的識別,與聲音數(shù)據(jù)庫中預先保存的語音數(shù)據(jù)進行匹配,如果聲音數(shù)據(jù)庫中保存有該段語音,則獲取該語音對應的情景信息,在本發(fā)明實施例中,所述情景信息包括文字、圖片、語音、視頻中任一種或多種組合。在本發(fā)明的其他實施例中,聲音數(shù)據(jù)庫中預先保存的語音數(shù)據(jù)的對應數(shù)據(jù)也可以是執(zhí)行指令用以控制AR設備的操作。
在步驟S104中,將所述情景信息通過增強現(xiàn)實技術進行展示;
將步驟S103中獲取的情景信息通過AR技術在AR設備終端進行展示。
圖2示出了本發(fā)明實施例提供的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配的實現(xiàn)流程,
在步驟S201中,獲取使用者語音數(shù)據(jù)中的喚醒詞;
本發(fā)明實施例中,會首先識別使用者語音數(shù)據(jù)中是否存在喚醒詞,所述喚醒詞為預設于聲音數(shù)據(jù)庫中的固定詞語,如一段AR游戲的語音起始控制語音指令“開始”,只有存在“開始”這個喚醒詞時,才對使用者語音數(shù)據(jù)中的后續(xù)語音進行識別匹配。
在步驟S202中,將所述喚醒詞與聲音數(shù)據(jù)庫中的預設喚醒詞進行匹配;
在步驟S203中,匹配成功則對所述喚醒詞之后的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配;
在步驟S204中,當所述使用者語音數(shù)據(jù)與所述預設語音數(shù)據(jù)匹配成功時,獲取與所述預設語音數(shù)據(jù)對應的情景信息;
圖3示出了本發(fā)明實施例提供的喚醒詞之后的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配的實現(xiàn)流程,
在步驟S301中,依次獲取使用者語音數(shù)據(jù)中單個字的波形圖;
在對使用者語音數(shù)據(jù)中喚醒詞之后的語音數(shù)據(jù)進行逐字的識別。
在步驟S302中,將所述單個字的波形圖和預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)的單字波形圖的橫軸縱軸歸一化,得到含有多個直方的兩個直方圖;
在步驟S303中,計算所述兩個直方圖中的所有對應直方的均方誤差,并進行匹配判斷;
所述均方誤差公式為:
其中Dn為使用者語音數(shù)據(jù)單個字直方圖中的單個直方值,
dn為預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)單字直方圖中的單個直方值,
n為直方個數(shù)。
在步驟S304中,當所述均方誤差小于預設的閾值,則認定兩個字匹配;
在本發(fā)明實施例中,如果識別計算過程中存在多個小于預設閾值的值,則取均方誤差最小的值為匹配的字。
在步驟S305中,重復上述步驟,直到所述使用者語音數(shù)據(jù)中最后一個字也匹配。
圖4示出了本發(fā)明實施例提供的基于聲紋注冊的增強現(xiàn)實裝置的結構,包括:
聲紋特征獲取模塊41,用于獲取拾音裝置采集的現(xiàn)場使用者語音數(shù)據(jù),并從所述使用者語音數(shù)據(jù)中提取使用者聲紋特征信息;
聲紋特征匹配模塊42,用于將所述用者聲紋特征信息與預先保存的管理者聲紋特征信息進行匹配,判斷所述使用者是否為終端設備管理者;
語音匹配與情景獲取模塊43,用于當所述使用者為終端設備管理者時,將所述使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配,匹配成功時獲取與所述預設語音數(shù)據(jù)對應的情景信息;
展示模塊44,用于將所述情景信息通過增強現(xiàn)實技術進行展示;
所述情景信息包括文字、圖片、語音、視頻中任一種或多種組合。
圖5示出了本發(fā)明實施例提供的語音匹配與場景獲取模塊的結構,包括:
喚醒詞獲取模塊51,用于獲取使用者語音數(shù)據(jù)中的喚醒詞;
喚醒詞匹配模塊52,用于將所述喚醒詞與聲音數(shù)據(jù)庫中的預設喚醒詞進行匹配;
語音匹配模塊53,用于當匹配成功時則對所述喚醒詞之后的使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配;
語音情景信息獲取模塊54,用于當所述使用者語音數(shù)據(jù)與所述預設語音數(shù)據(jù)匹配成功時,獲取與所述預設語音數(shù)據(jù)對應的情景信息;
所述喚醒詞為預設于聲音數(shù)據(jù)庫中的固定詞語。
圖6示出了本發(fā)明實施例提供的語音匹配模塊的結構,包括:
波形圖獲取模塊531,用于依次獲取使用者語音數(shù)據(jù)中單個字的波形圖;
直方圖生成模塊532,用于將所述單個字的波形圖和預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)的單字波形圖的橫軸縱軸歸一化,得到含有多個直方的兩個直方圖;
均方誤差生成模塊533,用于計算所述兩個直方圖中的所有對應直方的均方誤差,并進行匹配判斷;
匹配判斷模塊534,用于當所述均方誤差小于預設的閾值,則認定兩個字匹配;
循環(huán)模塊535,用于重復上述步驟,直到所述使用者語音數(shù)據(jù)中最后一個字也匹配;
所述均方誤差公式為:
其中Dn為使用者語音數(shù)據(jù)單個字直方圖中的單個直方值,
dn為預存于聲音數(shù)據(jù)庫中語音數(shù)據(jù)單字直方圖中的單個直方值,
n為直方個數(shù)。
本發(fā)明實施例提供的基于聲紋注冊的增強現(xiàn)實方法及裝置,將拾音裝置采集的現(xiàn)場使用者語音數(shù)據(jù)提取使用者聲紋特征信息,并與預先保存的管理者聲紋特征信息進行匹配,當所述使用者為終端設備管理者時將所述使用者語音數(shù)據(jù)與聲音數(shù)據(jù)庫中的預設語音數(shù)據(jù)進行匹配,匹配成功時獲取與所述預設語音數(shù)據(jù)對應的情景信息并通過增強現(xiàn)實技術進行展示,使得AR語音識別能夠限定于特定的人員進行語音控制,僅有指定權限的人說出某些話時才觸發(fā)相應的AR場景,不同的人使用語音指令操作不同的游戲對象,并在在其對應的現(xiàn)實場景中疊加炫酷的游戲效果,大大增強了AR游戲的娛樂性和體驗感。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內。