一種智能硬件的語音喚醒方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及智能硬件的技術領域,特別是涉及一種智能硬件的語音喚醒方法和一 種智能硬件的語音喚醒裝置。
【背景技術】
[0002] 隨著科技的發(fā)展,諸如智能穿戴設備、智能家居等智能硬件逐漸普及。
[0003] 這些智能硬件,大多是固定位置,例如,客廳中的智能攝像機,體積較小,如果利用 實體鍵喚醒,將大大降低用戶體驗。
[0004] 因此,為了方便的喚醒這些智能硬件,目前是使用語音,因為語音是人與人之間最 為直接、便利的交流方式。
[0005] 但是,使用語音喚醒,一般需要用戶先在智能硬件中多次錄入語音,操作麻煩,并 且,由于訓練樣本稀疏,語音模型性能差,喚醒時的識別準確率較低。
【發(fā)明內容】
[0006] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種智能硬件的語音喚醒方法和相應的一種智能硬件的語音喚醒裝置。
[0007] 依據(jù)本發(fā)明的一個方面,提供了一種智能硬件的語音喚醒方法,包括:
[0008] 在智能硬件中檢測到音頻數(shù)據(jù)時,從所述音頻數(shù)據(jù)中提取一段或多段語音數(shù)據(jù);
[0009] 將所述一段或多段語音數(shù)據(jù)與基于喚醒詞訓練的語音模型進行匹配;
[0010] 當匹配成功時,喚醒所述智能硬件。
[0011] 可選地,所述從所述音頻數(shù)據(jù)中提取一段或多段語音數(shù)據(jù)的步驟包括:
[0012] 對所述語音數(shù)據(jù)進行尾點檢測,識別出一段或多段非靜音區(qū);
[0013] 提取所述一段或多段非靜音區(qū),作為一段或多段語音數(shù)據(jù)。
[0014] 可選地,所述對所述語音數(shù)據(jù)進行尾點檢測,識別出一段或多段非靜音區(qū)的步驟 包括:
[0015] 計算每一幀音頻數(shù)據(jù)屬于語音數(shù)據(jù)的概率;
[0016] 當所述概率高于預設的概率閾值時,確定所述音頻數(shù)據(jù)屬于語音幀;
[0017] 當連續(xù)的語音幀超過預設的數(shù)量閾值時,確定所述連續(xù)的語音幀為一段非靜音 區(qū)。
[0018] 可選地,所述語音模型為深度神經(jīng)網(wǎng)絡模型,基于表征喚醒詞和填充詞的目標語 音數(shù)據(jù)的濾波器組特征訓練生成。
[0019] 可選地,所述將所述一段或多段語音數(shù)據(jù)與基于喚醒詞訓練的語音模型進行匹配 的步驟包括:
[0020] 提取每一段語音數(shù)據(jù)的濾波器組特征;
[0021 ]將所述濾波器組特征輸入所述深度神經(jīng)網(wǎng)絡模型,以確定所述語音數(shù)據(jù)表征喚醒 詞或填充詞;
[0022] 判斷表征所述喚醒詞的語音數(shù)據(jù)是否與所述喚醒詞排序一致;若是,則確定所述 一段或多段語音數(shù)據(jù)與基于喚醒詞訓練的語音模型匹配。
[0023] 可選地,所述將所述濾波器組特征輸入所述深度神經(jīng)網(wǎng)絡模型,以確定所述語音 數(shù)據(jù)表征喚醒詞或填充詞的步驟包括:
[0024] 計算所述濾波器組特征屬于所述語音數(shù)據(jù)表征喚醒詞或填充詞的后驗概率;
[0025]采用所述后驗概率計算置信度;
[0026] 當所述置信度高于預設的置信度閾值時,確定所述語音數(shù)據(jù)表征喚醒詞或填充 1·^] 〇
[0027] 可選地,所述將所述濾波器組特征輸入所述深度神經(jīng)網(wǎng)絡模型,以確定所述語音 數(shù)據(jù)表征喚醒詞或填充詞的步驟還包括:
[0028] 結合位于當前語音數(shù)據(jù)之前的語音數(shù)據(jù)的后驗概率及位于當前語音數(shù)據(jù)之后的 語音數(shù)據(jù)的后驗概率,當前語音數(shù)據(jù)的后驗概率進行平滑處理。
[0029] 根據(jù)本發(fā)明的另一方面,提供了一種智能硬件的語音喚醒裝置,包括:
[0030] 語音數(shù)據(jù)提取模塊,適于在智能硬件中檢測到音頻數(shù)據(jù)時,從所述音頻數(shù)據(jù)中提 取一段或多段語音數(shù)據(jù);
[0031] 語音數(shù)據(jù)匹配模塊,適于將所述一段或多段語音數(shù)據(jù)與基于喚醒詞訓練的語音模 型進行匹配;
[0032] 智能硬件喚醒模塊,適于在匹配成功時,喚醒所述智能硬件。
[0033] 可選地,所述語音數(shù)據(jù)提取模塊還適于:
[0034]對所述語音數(shù)據(jù)進行尾點檢測,識別出一段或多段非靜音區(qū);
[0035] 提取所述一段或多段非靜音區(qū),作為一段或多段語音數(shù)據(jù)。
[0036] 可選地,所述語音數(shù)據(jù)提取模塊還適于:
[0037] 計算每一幀音頻數(shù)據(jù)屬于語音數(shù)據(jù)的概率;
[0038] 當所述概率高于預設的概率閾值時,確定所述音頻數(shù)據(jù)屬于語音幀;
[0039] 當連續(xù)的語音幀超過預設的數(shù)量閾值時,確定所述連續(xù)的語音幀為一段非靜音 區(qū)。
[0040] 可選地,所述語音模型為深度神經(jīng)網(wǎng)絡模型,基于表征喚醒詞和填充詞的目標語 音數(shù)據(jù)的濾波器組特征訓練生成。
[0041] 可選地,所述語音數(shù)據(jù)匹配模塊還適于:
[0042] 提取每一段語音數(shù)據(jù)的濾波器組特征;
[0043] 將所述濾波器組特征輸入所述深度神經(jīng)網(wǎng)絡模型,以確定所述語音數(shù)據(jù)表征喚醒 詞或填充詞;
[0044] 判斷表征所述喚醒詞的語音數(shù)據(jù)是否與所述喚醒詞排序一致;若是,則確定所述 一段或多段語音數(shù)據(jù)與基于喚醒詞訓練的語音模型匹配。
[0045] 可選地,所述語音數(shù)據(jù)匹配模塊還適于:
[0046] 計算所述濾波器組特征屬于所述語音數(shù)據(jù)表征喚醒詞或填充詞的后驗概率;
[0047]采用所述后驗概率計算置信度;
[0048]當所述置信度高于預設的置信度閾值時,確定所述語音數(shù)據(jù)表征喚醒詞或填充 1·^] 〇
[0049] 可選地,所述語音數(shù)據(jù)匹配模塊還適于:
[0050] 結合位于當前語音數(shù)據(jù)之前的語音數(shù)據(jù)的后驗概率及位于當前語音數(shù)據(jù)之后的 語音數(shù)據(jù)的后驗概率,當前語音數(shù)據(jù)的后驗概率進行平滑處理。
[0051] 本發(fā)明實施例從檢測到音頻數(shù)據(jù)中提取一段或多段語音數(shù)據(jù),與基于喚醒詞訓練 的語音模型進行匹配,在匹配成功時,喚醒智能硬件,不需要用戶準備喚醒語音,而是從現(xiàn) 有語音中截取喚醒詞中的每個單字進行訓練,避免了用戶在智能硬件中多次錄入語音的操 作,大大提高了操作的簡便性,并且,提高了訓練的樣本的數(shù)量,提高了語音模型的性能,提 高了喚醒時的識別準確率。
[0052] 本發(fā)明實施例直接采用基于DNN的語音建模技術,并且在為喚醒詞建模時舍棄了 HMM,降低了模型復雜度和計算量。
[0053] 由于直接對喚醒詞中的單字建模(DNN的輸出表示語音幀屬于每個單字的概率), 在訓練過程中省去了 HMM模型參數(shù)估計,在使用過程中也省去了根據(jù)HMM尋找最優(yōu)狀態(tài)序列 的問題,節(jié)省了計算和存儲,也提高了響應速度。
[0054] 上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段, 而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0055] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通 技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0056] 圖1示出了根據(jù)本發(fā)明一個實施例的一種智能硬件的語音喚醒方法實施例的步驟 流程圖;以及
[0057] 圖2示出了根據(jù)本發(fā)明一個實施例的一種智能硬件的語音喚醒裝置實施例的結構 框圖。
【具體實施方式】
[0058]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍 完整的傳達給本領域的技術人員。
[0059] 參照圖1,示出了根據(jù)本發(fā)明一個實施例的一種智能硬件的語音喚醒方法實施例 的步驟流程圖,具體可以包括如下步驟:
[0060] 步驟101,在智能硬件中檢測到音頻數(shù)據(jù)時,從所述音頻數(shù)據(jù)中提取一段或多段語 音數(shù)據(jù);
[0061] 需要說明的是,本發(fā)明實施例可以應用于智能硬件中,例如,智能攝像頭、智能電 飯堡、智能空調等等。
[0062] 為了節(jié)省電源,智能硬件可以進入休眠狀態(tài)、睡眠模式、省電模式等,減少系統(tǒng)功 能,但是,可以通過麥克風等聲卡設備采集音頻數(shù)據(jù),待用戶喚醒。
[0063] 其中,在采集語音數(shù)據(jù)的采樣率可以為16000,編碼可以為16b