本申請(qǐng)涉及語(yǔ)音識(shí)別,具體而言,涉及一種語(yǔ)音喚醒方法、裝置及學(xué)生卡。
背景技術(shù):
1、學(xué)生卡在日常使用時(shí)需要與用戶(hù)進(jìn)行語(yǔ)音交互,例如通過(guò)asr(automatic?speechrecognition,自動(dòng)語(yǔ)音識(shí)別)和tts(text-to-speech,文本轉(zhuǎn)語(yǔ)音)結(jié)合云端智能大腦以實(shí)現(xiàn)智能回復(fù)問(wèn)題和實(shí)現(xiàn)終端設(shè)備指令操作等功能。
2、在相關(guān)技術(shù)中,關(guān)于學(xué)生卡的語(yǔ)音喚醒設(shè)備中能夠識(shí)別目標(biāo)用戶(hù)和目標(biāo)語(yǔ)句的相關(guān)算法精確度不高,有待改善;大部分的語(yǔ)音喚醒設(shè)備都會(huì)在后臺(tái)持續(xù)運(yùn)行保持實(shí)時(shí)監(jiān)聽(tīng)用戶(hù)語(yǔ)音,等待接收到用戶(hù)語(yǔ)句中的關(guān)鍵詞組即喚醒,然后持續(xù)讀取用戶(hù)后續(xù)的全部語(yǔ)音,此功能雖保證了語(yǔ)音功能與用戶(hù)交互,但在后臺(tái)持續(xù)運(yùn)行監(jiān)聽(tīng)造成了設(shè)備的高功耗和設(shè)備計(jì)算資源的持續(xù)浪費(fèi)。
3、針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供了一種語(yǔ)音喚醒方法、裝置及學(xué)生卡,以至少解決由于相關(guān)技術(shù)中學(xué)生卡的語(yǔ)音喚醒功能無(wú)法準(zhǔn)確識(shí)別用戶(hù)的語(yǔ)音信息,且通常會(huì)在后臺(tái)持續(xù)運(yùn)行監(jiān)聽(tīng),存在語(yǔ)音設(shè)備功耗高和識(shí)別精度低的技術(shù)問(wèn)題。
2、根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種語(yǔ)音喚醒方法,包括:接收目標(biāo)對(duì)象的語(yǔ)音信息;通過(guò)低功耗語(yǔ)音喚醒芯片確定語(yǔ)音信息與目標(biāo)聲紋的匹配情況,其中,目標(biāo)聲紋用于表示數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)的與目標(biāo)對(duì)象對(duì)應(yīng)的聲音特征;在語(yǔ)音信息與目標(biāo)聲紋匹配通過(guò)的情況下,通過(guò)高功耗語(yǔ)音處理芯片對(duì)語(yǔ)音信息進(jìn)行識(shí)別,并依據(jù)識(shí)別結(jié)果生成與語(yǔ)音信息對(duì)應(yīng)的文本回復(fù)信息;將文本回復(fù)信息轉(zhuǎn)換為語(yǔ)音回復(fù)信息,并播放語(yǔ)音回復(fù)信息。
3、可選地,方法還包括:數(shù)據(jù)庫(kù)中存儲(chǔ)有用于標(biāo)識(shí)目標(biāo)對(duì)象的目標(biāo)用戶(hù)標(biāo)識(shí),其中,目標(biāo)用戶(hù)標(biāo)識(shí)與目標(biāo)聲紋存在映射關(guān)系。
4、可選地,通過(guò)低功耗語(yǔ)音喚醒芯片確定語(yǔ)音信息與目標(biāo)聲紋的匹配情況,包括:通過(guò)低功耗語(yǔ)音喚醒芯片確定語(yǔ)音信息的時(shí)域波幅,其中,時(shí)域波幅用于表示語(yǔ)音信息在時(shí)間上的幅度變化情況;通過(guò)低功耗語(yǔ)音喚醒芯片將時(shí)域波幅轉(zhuǎn)換為第一頻域波幅,其中,第一頻域波幅用于表示語(yǔ)音信息在頻率上的信號(hào)強(qiáng)度;通過(guò)低功耗語(yǔ)音喚醒芯片將第一頻域波幅與第二頻域波幅進(jìn)行匹配,得到語(yǔ)音信息與目標(biāo)聲紋的匹配情況,其中,第二頻域波幅為與目標(biāo)聲紋對(duì)應(yīng)的頻域波幅。
5、可選地,將第一頻域波幅與第二頻域波幅進(jìn)行匹配,得到語(yǔ)音信息與目標(biāo)聲紋的匹配情況,包括:確定第一頻域波幅在預(yù)設(shè)頻率上的第一幅值,以及確定第二頻域波幅在預(yù)設(shè)頻率上的第二幅值;依據(jù)第一幅值和第二幅值確定第一頻域波幅和第二頻域波幅的相似度;依據(jù)相似度和預(yù)設(shè)閾值確定匹配情況。
6、可選地,通過(guò)高功耗語(yǔ)音處理芯片對(duì)語(yǔ)音信息進(jìn)行識(shí)別,并依據(jù)識(shí)別結(jié)果生成與語(yǔ)音信息對(duì)應(yīng)的回復(fù)文本,包括:將語(yǔ)音信息轉(zhuǎn)換為對(duì)應(yīng)的語(yǔ)音特征向量;采用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)語(yǔ)音特征向量進(jìn)行識(shí)別,得到識(shí)別結(jié)果,其中,識(shí)別結(jié)果用于表示語(yǔ)音信息在每個(gè)語(yǔ)音單元上的概率分布;依據(jù)識(shí)別結(jié)果確定語(yǔ)音信息對(duì)應(yīng)的語(yǔ)音單元序列,其中,語(yǔ)音單元序列用于表示構(gòu)成語(yǔ)音信息的基本元素序列;依據(jù)語(yǔ)音單元序列確定文本回復(fù)信息。
7、可選地,方法還包括:對(duì)文本回復(fù)信息進(jìn)行分析,得到文本分析結(jié)果;依據(jù)文本分析結(jié)果確定語(yǔ)音合成模型,并依據(jù)語(yǔ)音合成模型確定文本回復(fù)信息的聲音參數(shù),其中,聲音參數(shù)用于表示與文本回復(fù)信息對(duì)應(yīng)的音頻頻譜特征;依據(jù)聲音參數(shù)生成語(yǔ)音回復(fù)信息。
8、可選地,方法還包括:確定語(yǔ)音信息的語(yǔ)音波幅,其中,語(yǔ)音波幅用于表示語(yǔ)音信息的音量大小;依據(jù)語(yǔ)音波幅和預(yù)設(shè)聲紋波幅確定呼吸燈的顯示狀態(tài),其中,預(yù)設(shè)聲紋波幅用于表示預(yù)先設(shè)置在呼吸燈控制芯片中的語(yǔ)音波幅閾值。
9、根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供一種語(yǔ)音喚醒裝置,包括:接收模塊,用于接收目標(biāo)對(duì)象的語(yǔ)音信息;確定模塊,用于通過(guò)低功耗語(yǔ)音喚醒芯片確定語(yǔ)音信息與目標(biāo)聲紋的匹配情況,其中,目標(biāo)聲紋用于表示數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)的與目標(biāo)對(duì)象對(duì)應(yīng)的聲音特征;識(shí)別模塊,用于在語(yǔ)音信息與目標(biāo)聲紋匹配通過(guò)的情況下,通過(guò)高功耗語(yǔ)音處理芯片對(duì)語(yǔ)音信息進(jìn)行識(shí)別,并依據(jù)識(shí)別結(jié)果生成與語(yǔ)音信息對(duì)應(yīng)的文本回復(fù)信息;播放模塊,用于將文本回復(fù)信息轉(zhuǎn)換為語(yǔ)音回復(fù)信息,并播放語(yǔ)音回復(fù)信息。
10、根據(jù)本申請(qǐng)實(shí)施例的又一方面,還提供了一種學(xué)生卡,包括:存儲(chǔ)器和處理器,其中,存儲(chǔ)器,用于存儲(chǔ)程序指令;處理器,與存儲(chǔ)器連接,用于執(zhí)行實(shí)現(xiàn)上述語(yǔ)音喚醒方法。
11、根據(jù)本申請(qǐng)實(shí)施例的再一方面,還提供了一種非易失性存儲(chǔ)介質(zhì),=非易失性存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,非易失性存儲(chǔ)介質(zhì)所在設(shè)備通過(guò)運(yùn)行計(jì)算機(jī)程序執(zhí)行上述語(yǔ)音喚醒方法。
12、根據(jù)本申請(qǐng)實(shí)施例的再一方面,還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述語(yǔ)音喚醒方法。
13、在本申請(qǐng)實(shí)施例中,通過(guò)接收目標(biāo)對(duì)象的語(yǔ)音信息;通過(guò)低功耗語(yǔ)音喚醒芯片確定語(yǔ)音信息與目標(biāo)聲紋的匹配情況,其中,目標(biāo)聲紋用于表示數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)的與目標(biāo)對(duì)象對(duì)應(yīng)的聲音特征;在語(yǔ)音信息與目標(biāo)聲紋匹配通過(guò)的情況下,通過(guò)高功耗語(yǔ)音處理芯片對(duì)語(yǔ)音信息進(jìn)行識(shí)別,并依據(jù)識(shí)別結(jié)果生成與語(yǔ)音信息對(duì)應(yīng)的文本回復(fù)信息;將文本回復(fù)信息轉(zhuǎn)換為語(yǔ)音回復(fù)信息,并播放語(yǔ)音回復(fù)信息,達(dá)到了基于低功耗語(yǔ)音喚醒芯片和高功耗核心處理芯片,降低語(yǔ)音喚醒設(shè)備功耗和提高語(yǔ)音識(shí)別準(zhǔn)確性的目的,從而實(shí)現(xiàn)了高效且節(jié)能的語(yǔ)音交互的技術(shù)效果,進(jìn)而解決了由于相關(guān)技術(shù)中學(xué)生卡的語(yǔ)音喚醒功能無(wú)法準(zhǔn)確識(shí)別用戶(hù)的語(yǔ)音信息,且通常會(huì)在后臺(tái)持續(xù)運(yùn)行監(jiān)聽(tīng),存在語(yǔ)音設(shè)備功耗高和識(shí)別精度低的技術(shù)問(wèn)題。
1.一種語(yǔ)音喚醒方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)低功耗語(yǔ)音喚醒芯片確定所述語(yǔ)音信息與目標(biāo)聲紋的匹配情況,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將所述第一頻域波幅與第二頻域波幅進(jìn)行匹配,得到所述語(yǔ)音信息與目標(biāo)聲紋的匹配情況,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)高功耗語(yǔ)音處理芯片對(duì)所述語(yǔ)音信息進(jìn)行識(shí)別,并依據(jù)識(shí)別結(jié)果生成與所述語(yǔ)音信息對(duì)應(yīng)的回復(fù)文本,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
8.一種語(yǔ)音喚醒裝置,其特征在于,包括:
9.一種學(xué)生卡,其特征在于,包括:存儲(chǔ)器和處理器,其中,所述存儲(chǔ)器,用于存儲(chǔ)程序指令;所述處理器,與所述存儲(chǔ)器連接,用于執(zhí)行實(shí)現(xiàn)權(quán)利要求1至7中任意一項(xiàng)所述的語(yǔ)音喚醒方法。
10.一種非易失性存儲(chǔ)介質(zhì),其特征在于,所述非易失性存儲(chǔ)介質(zhì)包括存儲(chǔ)的計(jì)算機(jī)程序,其中,所述非易失性存儲(chǔ)介質(zhì)所在設(shè)備通過(guò)運(yùn)行所述計(jì)算機(jī)程序執(zhí)行權(quán)利要求1至7中任意一項(xiàng)所述的語(yǔ)音喚醒方法。
11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,其特征在于,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任意一項(xiàng)所述的語(yǔ)音喚醒方法。