欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞識別方法及裝置的制造方法

文檔序號:9912678閱讀:1128來源:國知局
一種基于深度神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音關(guān)鍵詞識別技術(shù)領(lǐng)域,具體而言,涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞識別方法及裝置。
【背景技術(shù)】
[0002]目前,隨著智能化產(chǎn)品的廣泛應(yīng)用,存儲設(shè)備性能和容量的提高,以及網(wǎng)絡(luò)、通信的蓬勃發(fā)展,語音已經(jīng)成為信息的有力載體,從而語音的處理和應(yīng)用技術(shù)越來越受到人們的關(guān)注。其中,語音關(guān)鍵詞識別技術(shù)是指在給定語音中識別出給定關(guān)鍵詞并指明其所在的位置,語音關(guān)鍵詞識別技術(shù)是語音識別技術(shù)的一個重要分支,是處理自然語音、實現(xiàn)人機語音交互的有效解決方案。在很多應(yīng)用場景中語音關(guān)鍵詞識別被廣泛的應(yīng)用,例如語音查詢系統(tǒng)、語音檢索系統(tǒng)、語音命令實時控制系統(tǒng),并不需要逐字識別出語音包含的所有內(nèi)容,而只需識別出給定語音中的預(yù)設(shè)關(guān)鍵詞即可。因此,語音關(guān)鍵詞識別技術(shù)應(yīng)用前景廣闊,成為語音識別領(lǐng)域的研究熱點。
[0003]當(dāng)前,相關(guān)技術(shù)中提供了一種基于模型的語音關(guān)鍵詞識別技術(shù),例如,基于大詞匯量的連續(xù)語音識別,需要先用語音識別器將語音信號轉(zhuǎn)換成文本,再對給定關(guān)鍵詞進行文本搜索,該語音關(guān)鍵詞識別技術(shù)需在一整段連續(xù)語音完整輸入后再進行語音信號轉(zhuǎn)換;又如,基于關(guān)鍵詞模型和填充(filler)模型的關(guān)鍵詞識別,需要將所有非關(guān)鍵詞識別成填充模型,該語音關(guān)鍵詞識別技術(shù)也需在一整段連續(xù)語音完整輸入時將所有的非關(guān)鍵詞識別成填充模型,將關(guān)鍵詞識別成關(guān)鍵詞模型,進而確定一整段連續(xù)語音的關(guān)鍵詞。
[0004]在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)中至少存在以下問題:目前語音關(guān)鍵詞識別技術(shù)中存在識別延遲的問題,因此無法實現(xiàn)及時、快速地進行人機互動。

【發(fā)明內(nèi)容】

[0005]有鑒于此,本發(fā)明實施例的目的在于提供一種基于深度神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞識別方法及裝置,以解決語音關(guān)鍵詞識別技術(shù)中存在識別延遲的問題,提高語音關(guān)鍵詞的識別速度,實現(xiàn)及時、快速地進行人機互動。
[0006]第一方面,本發(fā)明實施例提供了一種基于深度神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞識別方法,該識別方法包括:
[0007]對待識別的輸入語音進行分幀得到多個語音幀;
[0008]對每個上述語音幀進行特征提取,得到每個上述語音幀的梅爾倒譜特征系數(shù)MFCC序列;
[0009]并行將每個上述語音幀的MFCC序列輸入到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型,分別計算每個上述語音幀的MFCC序列在上述預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型的輸出層的每個神經(jīng)單元下的后驗概率,將上述輸出層的每個神經(jīng)單元下的后驗概率組成上述多個語音幀對應(yīng)的后驗概率序列,其中,輸出層的每個神經(jīng)單元對應(yīng)一個關(guān)鍵詞;
[0010]監(jiān)測輸出層每個神經(jīng)單元下的上述后驗概率序列;
[0011]根據(jù)上述后驗概率序列與預(yù)設(shè)閾值的概率序列的比較結(jié)果確定上述待識別的輸入語音的關(guān)鍵詞。
[0012]結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,上述預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型通過以下方式建立:
[0013]利用深度學(xué)習(xí)方法對選取的語音樣本數(shù)據(jù)進行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型,其中,上述深度神經(jīng)網(wǎng)絡(luò)模型包括:由MFCC序列對應(yīng)的神經(jīng)單元組成的輸入層、由非線性映射單元組成的隱藏層和由每個關(guān)鍵詞的后驗概率對應(yīng)的神經(jīng)單元組成的輸出層。
[0014]結(jié)合第一方面的第一種可能的實施方式,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,上述利用深度學(xué)習(xí)方法對選取的語音樣本數(shù)據(jù)進行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型包括:
[0015]根據(jù)選取的語音樣本數(shù)據(jù)訓(xùn)練隱馬爾科夫模型和混合高斯模型,其中,上述隱馬爾科夫模型與上述選取的語音樣本數(shù)據(jù)是一一對應(yīng)的,上述混合高斯模型用來描述上述隱馬爾科夫模型狀態(tài)的輸出概率分布;
[0016]采用維特比譯碼算法利用訓(xùn)練好的上述隱馬爾科夫模型和上述混合高斯模型對選取的語音樣本數(shù)據(jù)進行起始幀和結(jié)束幀對齊處理,確定上述語音樣本數(shù)據(jù)的邊界信息;
[0017]根據(jù)上述語音樣本數(shù)據(jù)的語音信息、文本內(nèi)容和上述語音樣本數(shù)據(jù)的邊界信息訓(xùn)練得到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型。
[0018]結(jié)合第一方面的第二種可能的實施方式,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,上述利用深度學(xué)習(xí)方法對選取的語音樣本數(shù)據(jù)進行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型之后,還包括:
[0019]監(jiān)測每個語音樣本數(shù)據(jù)在訓(xùn)練好的上述預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型的輸出層的每個神經(jīng)單元下的后驗概率;
[0020]判斷每個語音樣本數(shù)據(jù)是否在對應(yīng)的神經(jīng)單元下的后驗概率最大;
[0021]若否,則利用反向傳播算法對上述預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型的參數(shù)進行調(diào)整,直到每個語音樣本數(shù)據(jù)均在對應(yīng)的神經(jīng)單元下的后驗概率最大。
[0022]結(jié)合第一方面至第一方面的第三種可能的實施方式中的任意一種,本發(fā)明實施例提供了第一方面的第四種可能的實施方式,其中,上述識別方法還包括:
[0023]利用對應(yīng)的隱馬爾科夫模型對識別出的上述關(guān)鍵詞進行打分處理,計算上述關(guān)鍵詞在上述隱馬爾科夫模型下的似然概率;
[0024]若上述似然概率大于預(yù)設(shè)閾值,則確定識別結(jié)果為真。
[0025]結(jié)合第一方面的第四種可能的實施方式,本發(fā)明實施例提供了第一方面的第五種可能的實施方式,其中,根據(jù)上述后驗概率序列與預(yù)設(shè)閾值的概率序列的比較結(jié)果確定上述待識別的輸入語首的關(guān)鍵詞包括:
[0026]判斷上述后驗概率序列是否存在一個連續(xù)的數(shù)值子段均大于預(yù)設(shè)閾值的概率序列;
[0027]若是,判斷上述連續(xù)的數(shù)值子段所對應(yīng)起始幀與結(jié)束幀之間的持續(xù)時間是否大于預(yù)設(shè)時間;
[0028]當(dāng)判斷出上述連續(xù)的數(shù)值子段所對應(yīng)起始幀與結(jié)束幀之間的持續(xù)時間大于預(yù)設(shè)時間時,將上述連續(xù)的數(shù)值子段所屬的神經(jīng)單元對應(yīng)的關(guān)鍵詞作為待識別的輸入語音所表不的關(guān)鍵詞。
[0029]第二方面,本發(fā)明實施例還提供了一種基于深度神經(jīng)網(wǎng)絡(luò)的語音關(guān)鍵詞識別裝置,該識別裝置包括:
[0030]語音分幀模塊,用于對待識別的輸入語音進行分幀得到多個語音幀;
[0031]特征提取模塊,用于對每個上述語音幀進行特征提取,得到每個上述語音幀的梅爾倒譜特征系數(shù)MFCC序列;
[0032]概率計算模塊,用于并行將每個上述語音幀的MFCC序列輸入到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型,分別計算每個上述語音幀的MFCC序列在上述預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型的輸出層的每個神經(jīng)單元下的后驗概率,將上述輸出層的每個神經(jīng)單元下的后驗概率組成上述多個語音幀對應(yīng)的后驗概率序列,其中,輸出層的每個神經(jīng)單元對應(yīng)一個關(guān)鍵詞;
[0033]監(jiān)測模塊,用于監(jiān)測輸出層每個神經(jīng)單元下的上述后驗概率序列;
[0034]關(guān)鍵詞識別模塊,用于根據(jù)上述后驗概率序列與預(yù)設(shè)閾值的概率序列的比較結(jié)果確定上述待識別的輸入語音的關(guān)鍵詞。
[0035]結(jié)合第二方面,本發(fā)明實施例提供了第二方面的第一種可能的實施方式,其中,上述預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型通過以下模塊建立:
[0036]模型確定模塊,用于利用深度學(xué)習(xí)方法對選取的語音樣本數(shù)據(jù)進行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型,其中,上述深度神經(jīng)網(wǎng)絡(luò)模型包括:由MFCC序列對應(yīng)的神經(jīng)單元組成的輸入層、由非線性映射單元組成的隱藏層和由每個關(guān)鍵詞的后驗概率對應(yīng)的神經(jīng)單元組成的輸出層。
[0037]結(jié)合第二方面的第一種可能的實施方式,本發(fā)明實施例提供了第二方面的第二種可能的實施方式,其中,上述模型確定模塊包括:
[0038]訓(xùn)練單元,用于根據(jù)選取的語音樣本數(shù)據(jù)訓(xùn)練隱馬爾科夫模型和混合高斯模型,其中,上述隱馬爾科夫模型與上述選取的語音樣本數(shù)據(jù)是一一對應(yīng)的,上述混合高斯模型用來描述上述隱馬爾科夫模型狀態(tài)的輸出概率分布;
[0039]對齊處理單元,用于采用維特比譯碼算法利用訓(xùn)練好的上述隱馬爾科夫模型和上述混合高斯模型對選取的語音樣本數(shù)據(jù)進行起始幀和結(jié)束幀對齊處理,確定上述語音樣本數(shù)據(jù)的邊界信息;
[0040]模型確定單元,用于根據(jù)上述語音樣本數(shù)據(jù)的語音信息、文本內(nèi)容和上述語音樣本數(shù)據(jù)的邊界信息訓(xùn)練得到預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型。
[0041]結(jié)合第二方面的第二種可能的實施方式,本發(fā)明實施例提供了第二方面的第三種可能的實施方式,其中,上述識別裝置還包括:
[0042]監(jiān)測模塊,用于監(jiān)測每個語音樣本數(shù)據(jù)在訓(xùn)練好的上述預(yù)設(shè)的深度神經(jīng)網(wǎng)絡(luò)模型的輸出層的每個神經(jīng)單元下的后驗概率;
[0043]判斷模塊,用于判斷
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乌兰浩特市| 华亭县| 安阳县| 太原市| 赤城县| 庄浪县| 松江区| 洮南市| 平山县| 保靖县| 弥渡县| 德阳市| 修水县| 崇明县| 远安县| 财经| 清远市| 怀安县| 晋中市| 德州市| 崇仁县| 汶上县| 崇左市| 乌鲁木齐市| 得荣县| 城市| 清原| 阳山县| 文安县| 和田县| 桑植县| 体育| 阿坝| 南汇区| 宣城市| 秀山| 泾阳县| 文昌市| 五家渠市| 禄丰县| 黑山县|