欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲學(xué)模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及裝置的制造方法

文檔序號(hào):10536383閱讀:327來源:國(guó)知局
聲學(xué)模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種聲學(xué)模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置。包括:對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展得到特征矩陣;將所述特征矩陣通過預(yù)設(shè)的卷積器,獲得第一向量;根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所述聲學(xué)模型的分類數(shù)目;根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn)行參數(shù)更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學(xué)模型。改善了聲學(xué)模型,提高了聲學(xué)打分的正確率。
【專利說明】
聲學(xué)模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種聲學(xué)模型訓(xùn)練方法、語(yǔ)音識(shí) 別方法及裝置。
【背景技術(shù)】
[0002] 近些年來,語(yǔ)音識(shí)別技術(shù)取得了顯著進(jìn)步,并且越來越多的從實(shí)驗(yàn)室走向市場(chǎng),走 進(jìn)人們的生活。語(yǔ)音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十 件大事之一。未來10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服 務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。
[0003] 語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī) 理和聽覺機(jī)理、人工智能等等。與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白人們的說話目的,這對(duì)于 生活在機(jī)械化時(shí)代的我們而言,能夠大幅提升生活質(zhì)量。
[0004] 目前,市場(chǎng)上出現(xiàn)了許多智能的能夠通過語(yǔ)音進(jìn)行控制的電視。一種方式是在智 能手機(jī)上安裝APP,然后將指令發(fā)送到特定的遙控器,遙控器再將指令轉(zhuǎn)換成紅外遙控信 號(hào),這種方式可以實(shí)現(xiàn)對(duì)普通電視的遙控。還有一種方式是在遙控器內(nèi)置一個(gè)收音的設(shè)備, 它可以收錄用戶發(fā)出的語(yǔ)音命令,然后將用戶的語(yǔ)音命令發(fā)送至電視進(jìn)行語(yǔ)義解析,然后 通過語(yǔ)義解析的結(jié)果控制電視機(jī)的各種服務(wù)。
[0005] 然而,對(duì)于在智能手機(jī)上安裝APP對(duì)電視進(jìn)行遙控的方法,其步驟繁瑣,尤其對(duì)于 不會(huì)操控智能手機(jī)的老人和孩子而言,這種方式并沒有帶來明顯的優(yōu)勢(shì);對(duì)于在遙控器內(nèi) 置一個(gè)收音設(shè)備對(duì)電視進(jìn)行遙控的方法,就生活體驗(yàn)而言,很多電視用戶都是遙控器隨手 放置,對(duì)于有兒童的家庭更是如此,小孩子也許惡作劇藏起遙控器導(dǎo)致遙控器,從而導(dǎo)致經(jīng) 常找不到遙控器去了哪里。對(duì)于行動(dòng)不便和健忘的老人而言,通過遙控器控制電視更加顯 得不方便。
[0006] 若是不使用遙控器,將收音設(shè)備內(nèi)嵌在電視內(nèi)部采集用戶發(fā)出的語(yǔ)音命令,則由 于聲波信號(hào)在室內(nèi)遇到墻壁易發(fā)生反射造成混響,且周圍環(huán)境難免會(huì)有噪聲,導(dǎo)致遠(yuǎn)距離 講話語(yǔ)音識(shí)別的正確率低,用戶體驗(yàn)不佳。
[0007] 因此,需要一種不使用遙控器的遠(yuǎn)講語(yǔ)音識(shí)別功能。所謂遠(yuǎn)講語(yǔ)音功能就突出的 就是遠(yuǎn),也就是可以脫離遙控器,對(duì)電視進(jìn)行智能的隔空操作。語(yǔ)音識(shí)別系統(tǒng)的框架主要包 括如下幾個(gè)部分,首先對(duì)輸入的語(yǔ)音進(jìn)行特征提取,再根據(jù)預(yù)先訓(xùn)練的聲學(xué)模型進(jìn)行聲學(xué) 打分,聲學(xué)打分的結(jié)果用于根據(jù)語(yǔ)言模型進(jìn)行解碼,最后是根據(jù)解碼結(jié)果輸出語(yǔ)音識(shí)別的 文本。其中,聲學(xué)模型和語(yǔ)言模型是需要用大量的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的。聲學(xué)模型使用語(yǔ)音 數(shù)據(jù)訓(xùn)練,語(yǔ)言模型使用文本數(shù)據(jù)訓(xùn)練。聲學(xué)模型用于聲學(xué)打分,其輸出用于基于語(yǔ)言模型 的解碼。遠(yuǎn)講語(yǔ)音識(shí)別識(shí)別時(shí),由于噪聲以及其它物體對(duì)聲波的反射導(dǎo)致遠(yuǎn)講語(yǔ)音識(shí)別的 正確率較低。因此,提高聲學(xué)打分的準(zhǔn)確度是提高語(yǔ)音識(shí)別正確率的關(guān)鍵,而其核心途徑就 是改善聲學(xué)模型。
[0008] 因此,綜上,一種聲學(xué)模型訓(xùn)練方法亟待提出。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明實(shí)施例提供一種聲學(xué)模型訓(xùn)練方法及裝置,用以解決現(xiàn)有技術(shù)中遠(yuǎn)講語(yǔ)音 識(shí)別正確率低的缺陷,實(shí)現(xiàn)聲學(xué)打分模型的改善以及遠(yuǎn)講語(yǔ)音識(shí)別率的提升。本發(fā)明實(shí)施 例提供一種聲學(xué)模型訓(xùn)練方法,包括:
[0010] 對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展得到特征矩陣;
[0011] 將所述特征矩陣通過預(yù)設(shè)的卷積器,獲得第一向量;
[0012] 根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所述聲學(xué)模 型的分類數(shù)目;
[0013] 根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn)行參數(shù)更新,以所述參 數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學(xué)模型。
[0014] 本發(fā)明實(shí)施例提供一種語(yǔ)音識(shí)別方法,包括:
[0015] 獲得待識(shí)別語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的子帶;
[0016] 對(duì)所述待識(shí)別語(yǔ)音數(shù)據(jù)的所述子帶進(jìn)行時(shí)域擴(kuò)展得到所述子帶對(duì)應(yīng)的特征矩陣;
[0017] 根據(jù)所述特征矩陣,調(diào)用預(yù)先訓(xùn)練的卷積器獲得第一向量;
[0018] 根據(jù)所述第一向量與預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣獲得N維向量;
[0019] 根據(jù)所述N維向量,獲得所述待識(shí)別的語(yǔ)音信號(hào)屬于第n個(gè)聲學(xué)分類的概率值;其 中,N為正整數(shù),nG[l,N]。本發(fā)明實(shí)施例提供一種聲學(xué)模型訓(xùn)練裝置,包括:
[0020] 訓(xùn)練語(yǔ)料預(yù)處理模塊,用于對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展得到特征矩陣;
[0021] 計(jì)算模塊,用于將所述特征矩陣通過預(yù)設(shè)的卷積器,獲得第一向量;
[0022] 所述計(jì)算模塊還用于,根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩陣獲得N維向量; 其中,N為所述聲學(xué)模型的分類數(shù)目;
[0023] 參數(shù)更新模塊,用于根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn)行 參數(shù)更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學(xué)模型。
[0024] 本發(fā)明實(shí)施例提供一種語(yǔ)音識(shí)別裝置,包括:
[0025] 待識(shí)別語(yǔ)音數(shù)據(jù)預(yù)處理模塊,用于獲得待識(shí)別語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的子帶,對(duì)所述待識(shí) 別語(yǔ)音數(shù)據(jù)的所述子帶進(jìn)行時(shí)域擴(kuò)展得到所述子帶對(duì)應(yīng)的特征矩陣;
[0026] 聲學(xué)打分模塊,用于根據(jù)所述特征矩陣,調(diào)用預(yù)先訓(xùn)練的卷積器獲得第一向量;根 據(jù)所述第一向量與預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣獲得N維向量;根據(jù)所述N維向量,獲得所述 待識(shí)別的語(yǔ)音信號(hào)屬于第n個(gè)聲學(xué)分類的概率值;其中,N為正整數(shù),nG[l,N]。
[0027] 本發(fā)明實(shí)施例提供的聲學(xué)模型訓(xùn)練方法、語(yǔ)音識(shí)別方法及裝置,通過對(duì)訓(xùn)練語(yǔ)料 進(jìn)行子帶劃分并采用卷積器對(duì)訓(xùn)練語(yǔ)料的每個(gè)局部特征進(jìn)行提取以及訓(xùn)練,使聲學(xué)模型學(xué) 習(xí)多種復(fù)雜聲學(xué)環(huán)境中的噪聲語(yǔ)音,得到獲取帶噪頻譜中有效語(yǔ)音成分的能力,對(duì)聲學(xué)打 分模型進(jìn)行改善,與此同時(shí)實(shí)現(xiàn)了聲學(xué)打分正確率的提升,進(jìn)一步提高了遠(yuǎn)講語(yǔ)音識(shí)別的 正確率。
【附圖說明】
[0028] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0029] 圖1為本申請(qǐng)實(shí)施例一的技術(shù)流程圖;
[0030] 圖2為本申請(qǐng)實(shí)施例二的技術(shù)流程圖;
[0031]圖3為本申請(qǐng)實(shí)施例三的技術(shù)流程圖;
[0032]圖4為本申請(qǐng)實(shí)施例四的技術(shù)流程圖;
[0033] 圖5為本申請(qǐng)實(shí)施例一對(duì)應(yīng)的裝置結(jié)構(gòu)示意圖;
[0034] 圖6為本申請(qǐng)實(shí)施例四對(duì)應(yīng)的裝置結(jié)構(gòu)示意圖;
[0035] 圖7為本申請(qǐng)應(yīng)用場(chǎng)景實(shí)例對(duì)應(yīng)的示例圖。
【具體實(shí)施方式】
[0036]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0037]圖1是本申請(qǐng)實(shí)施例一的技術(shù)流程圖,結(jié)合圖1,本申請(qǐng)一種聲學(xué)模型的訓(xùn)練方法, 可以有如下的實(shí)現(xiàn)方式:
[0038]步驟S110:對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展得到特征矩陣;
[0039]本步驟中,對(duì)所述子帶進(jìn)行時(shí)域擴(kuò)展,可以采用如下的方式,對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行 分幀得到語(yǔ)音信號(hào)幀,獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè)數(shù)量的前向語(yǔ)音信號(hào)幀、以及所述 語(yǔ)音信號(hào)幀的第三預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得到所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述時(shí)域 拓展后的所述子帶;通過對(duì)每一所述子帶進(jìn)行時(shí)域擴(kuò)展,使得多幀信號(hào)之間能夠特征互補(bǔ), 從而進(jìn)一步提高聲學(xué)模型訓(xùn)練的穩(wěn)定性。
[0040] 其中,所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn) 值;其中所述時(shí)域拓展后的子帶寬度為所述子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù) 設(shè)數(shù)量的和。所述第二預(yù)設(shè)數(shù)量可以相同也可以不同,本申請(qǐng)實(shí)施例不做限制。
[0041] 例如,本實(shí)施例中,若所述子帶的所述子帶寬度為7,則所述第一預(yù)設(shè)數(shù)量與所述 第二預(yù)設(shè)數(shù)量可以取1~7范圍內(nèi)的任意數(shù)字,經(jīng)多次試驗(yàn)檢測(cè)發(fā)現(xiàn),所述第一預(yù)設(shè)數(shù)量以 及所述第二預(yù)設(shè)數(shù)量為5的時(shí)候,聲學(xué)模型的訓(xùn)練效果最佳,因此,本實(shí)施例中可取所述語(yǔ) 音信號(hào)幀的5幀前向語(yǔ)音信號(hào)幀以及所述語(yǔ)音信號(hào)的5幀后向語(yǔ)音信號(hào)幀,實(shí)現(xiàn)對(duì)所述語(yǔ)音 信號(hào)幀進(jìn)行時(shí)域拓展,從而進(jìn)一步實(shí)現(xiàn)對(duì)所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的子帶的時(shí)域拓展。
[0042] 假設(shè),本步驟中,某一語(yǔ)音信號(hào)幀對(duì)應(yīng)的子帶寬度為7的8個(gè)子帶,其中每個(gè)子帶為 一個(gè)7維向量(1(^1^ 2^3,14,15,16),則進(jìn)行時(shí)域擴(kuò)展之后,每一個(gè)前向語(yǔ)音信號(hào)幀以及每 一個(gè)后向語(yǔ)音信號(hào)幀分別對(duì)應(yīng)一個(gè)7維向量,則當(dāng)前后各擴(kuò)展5幀時(shí),將得到11個(gè)7維向量, 組成一個(gè)11X7的矩陣:
[0044] 以上所示矩陣中,Xi-j為向量Xi對(duì)應(yīng)的時(shí)域擴(kuò)展后的前向第j幀對(duì)應(yīng)的向量,xi+j為 向量Xl對(duì)應(yīng)的時(shí)域擴(kuò)展后的后向第j幀對(duì)應(yīng)的向量,其中,1£[0,6],_]_£[0,5]。當(dāng)語(yǔ)音信號(hào) 幀包含8個(gè)7維子帶時(shí),此步驟中時(shí)域拓展將得到8個(gè)11X7的上述類似矩陣。
[0045] 步驟S120:將所述特征矩陣通過預(yù)設(shè)的卷積器,獲得第一向量;
[0046] 本步驟中,所述卷積為一個(gè)矩陣組,是由一定數(shù)量的隨機(jī)初始化生成的第三矩陣 組成的。所述第三矩陣,即隨機(jī)初始化得到的mXn的矩陣,其中m為所述時(shí)域拓展后的子帶 寬度,n為小于所述子帶寬度的經(jīng)驗(yàn)值;
[0047] 例如,承接上述的例子,本步驟中m= 11,n = 5,可生成8的倍數(shù)個(gè)11 X 5的矩陣,其 中所述8的倍數(shù)可以是8的128倍或者256倍。其中,128或256是較優(yōu)的經(jīng)驗(yàn)值,本申請(qǐng)實(shí)施例 對(duì)此不做限制。
[0048] 其中,獲得第一向量具體為:以第四預(yù)設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使 用每組所述卷積器與所述特征矩陣做卷積運(yùn)算;
[0049] 對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述采樣結(jié)果進(jìn)行歸一化處理,得到所述第 一向量。
[0050] 本實(shí)施例采用的訓(xùn)練方法是基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音模型訓(xùn)練方法,所述卷積神 經(jīng)網(wǎng)絡(luò),即CNNs(Convolutional Neural Networks)。
[0051 ] CNNs由一組或多組卷積層convolutional layer+米樣層pooling layer構(gòu)成。一 個(gè)卷積層中包含若干個(gè)不同的卷積器,這些卷積器對(duì)語(yǔ)音的各個(gè)局部特征進(jìn)行觀察。采樣 層通過對(duì)卷積層的輸出結(jié)點(diǎn)做固定窗長(zhǎng)的采樣,減少下一層的輸入結(jié)點(diǎn)數(shù),從而控制模型 的復(fù)雜度。一般采樣層采用最大采樣算法(max pooling),即對(duì)固定窗長(zhǎng)內(nèi)的結(jié)點(diǎn)選取最大 值進(jìn)行輸出。
[0052]承接上述的例子,所述第四預(yù)設(shè)數(shù)量可以為8,即以每8個(gè)所述卷積矩陣為一組卷 積器,分別與所述特征矩陣做卷積,得到8個(gè)3維的向量。當(dāng)所述8的倍數(shù)為128倍時(shí),本實(shí)施 例的卷積層中將包含有128個(gè)卷積器,即卷積層的輸出結(jié)果將包含128X8個(gè)3維的向量。
[0053]其中,所述對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣具體,從每一個(gè)3維向量中選取數(shù)值最 大的,即每組卷積器輸出8個(gè)一維的向量,即一個(gè)8維向量。整個(gè)采樣層的輸出將是128個(gè)8維 向量。
[0054] 將上述128個(gè)8維的向量收尾連接即可得到一個(gè)1024維的向量,并對(duì)這個(gè)1024維的 向量進(jìn)行歸一化處理。
[0055] 步驟S130:根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所 述聲學(xué)模型的分類數(shù)目;
[0056] 具體的,在步驟S130中,所述預(yù)設(shè)的隱藏層權(quán)重矩陣具體為:隨機(jī)初始化xXN的矩 陣,其中x為所述分組的組數(shù)的倍數(shù),N為所述聲學(xué)模型的分類數(shù)目。
[0057]例如,本實(shí)施例中初始化得到的所述隱藏層權(quán)重矩陣為一個(gè)1024XN的矩陣。
[0058] 以所述預(yù)設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘,并對(duì)所述相乘的結(jié)果進(jìn)行規(guī) 整,獲得所述N維向量。其中,所述規(guī)整的方法可以采用softmax函數(shù)實(shí)現(xiàn),由于softmax函數(shù) 是成熟的現(xiàn)有技術(shù),本實(shí)施例不再贅述。
[0059] 本步驟中,所述規(guī)整過程的輸出為一個(gè)N維的向量,其中第n維的意義為,所述語(yǔ)音 信號(hào)幀屬于第n個(gè)聲學(xué)分類的概率值,N為正整數(shù),nG [1,N]。
[0060] 步驟S140:根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn)行參數(shù)更新, 以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學(xué)模型。
[0061] 本步驟中,所述根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn)行參數(shù) 更新,具體可以采用基于誤差反向傳播算法的參數(shù)更新,更新策略可以采用在線隨機(jī)梯度 下降和小批量隨機(jī)梯度下降法,當(dāng)然本申請(qǐng)實(shí)施例不限制于此。經(jīng)多次試驗(yàn),小批量隨機(jī)梯 度下降法得到的參數(shù)更新效果更佳,小批量隨機(jī)梯度下降法為本步驟中的優(yōu)選方案。
[0062] 需要說明的是,所述參數(shù)更新的過程是通過不斷迭代實(shí)現(xiàn)的,在迭代的過程中,不 斷修參數(shù)更新策略的參數(shù)設(shè)置并對(duì)迭代的收斂性進(jìn)行判斷,直至迭代收斂則停止迭代過 程。
[0063] 本實(shí)施例提供的聲學(xué)模型訓(xùn)練方法通過對(duì)訓(xùn)練語(yǔ)料進(jìn)行子帶劃分并采用卷積器 對(duì)訓(xùn)練語(yǔ)料的每個(gè)局部特征進(jìn)行提取以及訓(xùn)練,對(duì)聲學(xué)打分模型進(jìn)行改善實(shí)現(xiàn)了聲學(xué)打分 正確率的提升,進(jìn)一步提高了遠(yuǎn)講語(yǔ)音識(shí)別的正確率。
[0064]圖2是本申請(qǐng)實(shí)施例二的技術(shù)流程圖,以下部分將結(jié)合圖2,對(duì)本申請(qǐng)實(shí)施例一種 根據(jù)所述訓(xùn)練語(yǔ)料獲得對(duì)應(yīng)的所述子帶的實(shí)現(xiàn)過程:
[0065] 步驟S210:對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行分幀,并對(duì)所述分幀得到的語(yǔ)音信號(hào)幀進(jìn)行快速 傅里葉變換;
[0066] 為使所述訓(xùn)練語(yǔ)料覆蓋不同復(fù)雜程度的聲學(xué)環(huán)境,本實(shí)施例在獲取所述訓(xùn)練語(yǔ)料 之后,預(yù)先對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行擾動(dòng)處理從而能夠進(jìn)一步提升聲學(xué)模型的性能。具體為,將 訓(xùn)練語(yǔ)音使用多種房間混響函數(shù)進(jìn)行擾動(dòng),從而得到不同環(huán)境、不同噪聲下的訓(xùn)練數(shù)據(jù),從 而訓(xùn)練出的聲學(xué)模型更加真實(shí)且適用于多種應(yīng)用環(huán)境。例如,本實(shí)施例中可將500小時(shí)訓(xùn)練 語(yǔ)音按照6種不同的房間混響擾動(dòng),得到3000小時(shí)訓(xùn)練語(yǔ)音。
[0067] 語(yǔ)音信號(hào)因?yàn)槭菧?zhǔn)穩(wěn)態(tài)信號(hào),而只有穩(wěn)態(tài)的信息才能進(jìn)行信號(hào)處理,所以在對(duì)語(yǔ) 音信號(hào)處理之前首先把信號(hào)分幀,每幀長(zhǎng)度約10m S-30ms(本發(fā)明并不限制于此),在這一區(qū) 間內(nèi)把語(yǔ)音信號(hào)看作為穩(wěn)態(tài)信號(hào)。本實(shí)施例中,以5分鐘語(yǔ)音數(shù)據(jù)為例,將5分鐘語(yǔ)音數(shù)據(jù), 按10毫秒分一幀,則得到3萬幀語(yǔ)音信號(hào)幀。
[0068] 優(yōu)選的,本步驟中在對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行分幀之后,還包括根據(jù)聲學(xué)模型的分類 數(shù)目對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行狀態(tài)對(duì)齊,從而獲得優(yōu)化后的所述訓(xùn)練語(yǔ)料。
[0069] 所述聲學(xué)模型的分類原則是把相似的聲音用同一個(gè)標(biāo)示代表,中文使用的拼音可 以分為聲母和韻母,英文的發(fā)音可以分為元音輔音等。例如,不同人發(fā)同一個(gè)聲音時(shí)聲音不 完全相同,但是可以用同一個(gè)聲母表示。
[0070] 所述狀態(tài),即比音素更細(xì)致的語(yǔ)音單位,通常把一個(gè)音素劃分成3個(gè)狀態(tài)。音素是 人發(fā)音的最基本單位,例如字母x,在英語(yǔ)中大多數(shù)情況下發(fā)[ks],就是[k] [s]兩個(gè)音素組 成的。[k]、[s]還出現(xiàn)在別的語(yǔ)流當(dāng)中,如salut中的s就發(fā)[s],其前并沒有[k],而 carrefour的c,就發(fā)[k],其后也并不接一個(gè)[s]。然而,[k]或[s]無法繼續(xù)劃分下去了,否則 將無法發(fā)音。多個(gè)字母對(duì)一個(gè)音素的例子如champ中的ch,louis中的ou。
[0071] 本步驟中的所述狀態(tài)對(duì)齊的具體方式可如以下例子所述,例如,"小長(zhǎng)假"這三個(gè) 字由一個(gè)說話人讀出共1.5秒,以10毫秒為間隔,分為150幀,對(duì)齊的結(jié)果就是給每一幀分配 對(duì)應(yīng)的聲學(xué)分類標(biāo)記,如標(biāo)記第1至5幀是靜音,第5至9幀是"小"字聲母[x],第9至25幀是 "小"字韻母[iao],以此類推。
[0072] 具體的,本實(shí)施例中可以采用Viterbi算法對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行所述狀態(tài)對(duì)齊,由 于Viterbi算法是成熟的現(xiàn)有技術(shù),本實(shí)施例中不再贅述。
[0073] 步驟S220:對(duì)所述快速傅里葉變換的結(jié)果取幅度值,采用預(yù)設(shè)的濾波器從所述幅 度值中獲取第一預(yù)設(shè)數(shù)量的濾波器組參數(shù);
[0074]本步驟中,所述預(yù)設(shè)的濾波器可以是Mel濾波器組,所述第一預(yù)設(shè)數(shù)量是一個(gè)經(jīng)驗(yàn) 值,經(jīng)多次實(shí)現(xiàn)驗(yàn)證,所述第一預(yù)設(shè)數(shù)量為40時(shí),聲學(xué)模型的訓(xùn)練效果最好,當(dāng)然,本實(shí)施例 并不對(duì)此數(shù)據(jù)的選擇做任何限制。
[0075]假設(shè),本步驟中,提取40維卷積器組參數(shù),5分鐘語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的3萬幀語(yǔ)音信號(hào) 幀,每一幀用一個(gè)40維的向量表示。即5分鐘語(yǔ)音數(shù)據(jù)可以用3萬個(gè)40維向量表示。
[0076] 步驟S230:根據(jù)預(yù)設(shè)的子帶寬度,對(duì)所述卷積器組參數(shù)進(jìn)行分組,得到所述訓(xùn)練語(yǔ) 料中每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所 述分組的組數(shù)相同。
[0077] 本步驟中,對(duì)每一所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的濾波器組參數(shù)進(jìn)行分組,其分組的數(shù)量 由預(yù)設(shè)的子帶寬度決定,所述子帶寬度,即每一所述子帶對(duì)應(yīng)的向量的維度。
[0078] 例如,本步驟中,可將將全部訓(xùn)練數(shù)據(jù)(每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的40維向量)按維度 分為8組。分組規(guī)則為第1-7維分為第1組,第5-11維分為第2組,第9-15維分為第3組,第14-20維分為第4組,第19-25維分為第5組,第24-30維分為第6組,第29-35維分為第7組,第34-40維分為第8組。每組都是一個(gè)7維的向量。從而,獲得了每一所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的寬度為 7的所述子帶。當(dāng)然,上述分組僅供舉例使用,并不對(duì)本申請(qǐng)實(shí)施例構(gòu)成任何限制。
[0079]獲得所述訓(xùn)練語(yǔ)料對(duì)應(yīng)的所述子帶之后,需對(duì)所述子帶進(jìn)行時(shí)域擴(kuò)展。所述時(shí)域 擴(kuò)展的具體方法如實(shí)施例一中所述,此處不再贅述。
[0080] 本實(shí)施例中,對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)進(jìn)行子帶劃分以及語(yǔ)音信號(hào)幀的時(shí)域擴(kuò)展,由此多 幀語(yǔ)音信號(hào)之間可以特征互補(bǔ),進(jìn)一步提升了聲學(xué)模型的性能,間接提升了語(yǔ)音識(shí)別的正 確率。
[0081] 圖3是本申請(qǐng)實(shí)施例三的技術(shù)流程圖,結(jié)合圖3,本申請(qǐng)實(shí)施一種,對(duì)所述卷積器與 所述第二向量進(jìn)行參數(shù)更新,具體可以采用如下的更新步驟:
[0082] 步驟S310:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組;
[0083] 步驟S320:根據(jù)預(yù)設(shè)的第一迭代次數(shù)以及預(yù)設(shè)的參數(shù)更新策略,對(duì)所述矩陣組進(jìn) 行參數(shù)迭代更新;
[0084]以全部數(shù)據(jù)更新一次稱為一個(gè)迭代,將所述卷積矩陣與所述隱藏層權(quán)重矩陣的參 數(shù)進(jìn)行更新,所述第一迭代次數(shù)是經(jīng)驗(yàn)值,經(jīng)過多次試驗(yàn)。當(dāng)所述第一迭代次數(shù)為4時(shí),將所 述卷積矩陣與所述隱藏層權(quán)重矩陣更新進(jìn)行4個(gè)迭代能達(dá)到最佳效果,當(dāng)然本申請(qǐng)實(shí)施例 對(duì)此不作限制。
[0085]步驟S330:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預(yù)設(shè)的非線性函數(shù)從而 更新所述矩陣組,并根據(jù)所述預(yù)設(shè)的第二迭代次數(shù)以及所述預(yù)設(shè)的參數(shù)更新策略對(duì)所述矩 陣組進(jìn)行參數(shù)更新。
[0086] 本步驟中,在所述卷積器與所述隱藏層權(quán)重矩陣之間插入所述新的隱藏層權(quán)重矩 陣以及所述預(yù)設(shè)的非線性函數(shù)之后,迭代次數(shù)可以調(diào)整,例如可以減半,所述第二迭代次數(shù) 可以為2。
[0087] 優(yōu)選的,當(dāng)所述訓(xùn)練語(yǔ)料的數(shù)量較大時(shí),本申請(qǐng)實(shí)施例還包括如下的步驟:
[0088] 重復(fù)執(zhí)行步驟c,即不斷在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預(yù)設(shè)的非 線性函數(shù),更新所述矩陣組之后,繼續(xù)進(jìn)行訓(xùn)練。
[0089] 本步驟中,對(duì)所述卷積器以及所述隱藏層權(quán)重矩陣進(jìn)行參數(shù)更新時(shí),需要進(jìn)一步 結(jié)合預(yù)先得到的N維向量以及預(yù)先得到的訓(xùn)練語(yǔ)料的所述狀態(tài)對(duì)齊的結(jié)果。所述N維向量相 當(dāng)于對(duì)聲學(xué)模型做出的預(yù)測(cè),所述狀態(tài)對(duì)齊后的的訓(xùn)練語(yǔ)料相當(dāng)于聲學(xué)模型訓(xùn)練過程中的 參考答案,兩者之差就是當(dāng)前聲學(xué)模型對(duì)于當(dāng)前語(yǔ)料的預(yù)測(cè)誤差,以此誤差,使用線隨機(jī)梯 度下降和小批量隨機(jī)梯度下降法,就可以對(duì)所述卷積器以及所述隱藏層權(quán)重矩陣進(jìn)行參數(shù) 更新。
[0090] 當(dāng)所述第二迭代次數(shù)達(dá)到預(yù)設(shè)的閾值,保持所述卷積器的參數(shù)不變,修改所述參 數(shù)更新的設(shè)置,并對(duì)所述矩陣組中除所述卷積器之外的其他矩陣進(jìn)行所述參數(shù)更新。其中, 所述修改所述參數(shù)更新的設(shè)置,具體指,當(dāng)參數(shù)更新的策略為在線隨機(jī)梯度下降和小批量 隨機(jī)梯度下降法時(shí),可以修改梯度下降的學(xué)習(xí)率,例如學(xué)習(xí)率逐次減半,并在不斷減半的過 程中監(jiān)測(cè)迭代是否收斂,當(dāng)判定迭代收斂時(shí),停止迭代過程。其中,迭代收斂的判斷為本領(lǐng) 域人員的公知常識(shí),本實(shí)施例不再贅述。
[0091] 本實(shí)施例中,所述隱藏層權(quán)重矩陣與所述卷積器是預(yù)先隨機(jī)初始化得到的,其對(duì) 應(yīng)的參數(shù)并不一定是最佳參數(shù),因此,通過對(duì)所述隱藏層權(quán)重矩陣與所述卷積器組成矩陣 組不斷迭代訓(xùn)練實(shí)現(xiàn)參數(shù)更新,能夠找到使聲學(xué)模型的性能達(dá)到最佳的所述隱藏層權(quán)重矩 陣與所述卷積器的相關(guān)參數(shù)。
[0092] 圖4是本申請(qǐng)實(shí)施例四的技術(shù)流程圖,結(jié)合圖4,一種語(yǔ)音識(shí)別的方法主要包括如 下的步驟:
[0093]步驟S410:獲得待識(shí)別語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的子帶;
[0094]本步驟中,具體的,首先對(duì)待識(shí)別語(yǔ)音數(shù)據(jù)進(jìn)行分幀,并對(duì)所述分幀得到的語(yǔ)音信 號(hào)幀進(jìn)行快速傅里葉變換;
[0095] 其次對(duì)所述快速傅里葉變換的結(jié)果取幅度值,采用預(yù)設(shè)的濾波器從所述幅度值中 獲取第一預(yù)設(shè)數(shù)量的濾波器組參數(shù);
[0096] 根據(jù)預(yù)設(shè)的子帶寬度,對(duì)所述濾波器組參數(shù)進(jìn)行分組,得到所述待識(shí)別語(yǔ)音數(shù)據(jù) 中每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所述 分組的組數(shù)相同。
[0097] 步驟S420:對(duì)所述待識(shí)別語(yǔ)音數(shù)據(jù)的所述子帶進(jìn)行時(shí)域擴(kuò)展得到所述子帶對(duì)應(yīng)的 特征矩陣;
[0098] 本步驟中,具體的,獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè)數(shù)量的前向語(yǔ)音信號(hào)幀、以及 所述語(yǔ)音信號(hào)幀的第三預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得到所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述 時(shí)域拓展后的所述子帶;每個(gè)所述子帶對(duì)應(yīng)一個(gè)多維向量,則時(shí)域擴(kuò)展后,每個(gè)所述子帶對(duì) 應(yīng)多個(gè)多維向量組成的矩陣,即所述特征矩陣。
[0099] 其中,所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn) 值;其中所述時(shí)域拓展后的子帶寬度為所述子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù) 設(shè)數(shù)量的和。
[0100] 步驟S430:根據(jù)所述特征矩陣,調(diào)用預(yù)先訓(xùn)練的卷積器獲得第一向量;
[0101] 具體的,調(diào)用預(yù)先訓(xùn)練的所述卷積器,并使用每組所述卷積器與所述特征矩陣做 卷積運(yùn)算;對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述采樣結(jié)果進(jìn)行歸一化處理,得到所述 第一向量。
[0102] 步驟S440:根據(jù)所述第一向量與預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣獲得N維向量;
[0103] 具體的,以所述預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣與所述第一向量相乘,并對(duì)所述相乘 的結(jié)果進(jìn)行規(guī)整,獲得所述N維向量。
[0104] 步驟S450:根據(jù)所述N維向量,獲得所述待識(shí)別的語(yǔ)音信號(hào)屬于第n個(gè)聲學(xué)分類的 概率值;其中,N為正整數(shù),nG[l,N]。
[0105]根據(jù)所述N維向量,獲得所述待識(shí)別的語(yǔ)音信號(hào)屬于第n個(gè)聲學(xué)分類的概率值;其 中,N為正整數(shù),nG[l,N]。
[0106]本實(shí)施例提供的聲學(xué)模型訓(xùn)練方法通過對(duì)訓(xùn)練語(yǔ)料進(jìn)行子帶劃分并采用卷積器 對(duì)訓(xùn)練語(yǔ)料的每個(gè)局部特征進(jìn)行提取以及訓(xùn)練,對(duì)聲學(xué)打分模型進(jìn)行改善實(shí)現(xiàn)了聲學(xué)打分 正確率的提升,進(jìn)一步提高了遠(yuǎn)講語(yǔ)音識(shí)別的正確率。
[0107] 圖5是本申請(qǐng)實(shí)施例一的裝置結(jié)構(gòu)示意圖,結(jié)合圖5,本申請(qǐng)實(shí)施例一種聲學(xué)模型 訓(xùn)練裝置,包括:
[0108] 訓(xùn)練語(yǔ)料預(yù)處理模塊51,用于對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展得到特征矩 陣;
[0109] 計(jì)算模塊52,用于將所述特征矩陣通過預(yù)設(shè)的卷積器,獲得第一向量;
[0110] 所述計(jì)算模塊52還用于,根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩陣獲得N維向 量;其中,N為所述聲學(xué)模型的分類數(shù)目;
[0111] 參數(shù)更新模塊53,用于根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn) 行參數(shù)更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學(xué)模型。
[0112] 其中,所述訓(xùn)練語(yǔ)料預(yù)處理模塊51還用于,執(zhí)行如下步驟獲得所述訓(xùn)練語(yǔ)料對(duì)應(yīng) 的所述子帶:對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行分幀,并對(duì)所述分幀得到的語(yǔ)音信號(hào)幀進(jìn)行快速傅里葉 變換;對(duì)所述快速傅里葉變換的結(jié)果取幅度值,采用預(yù)設(shè)的濾波器從所述幅度值中獲取第 一預(yù)設(shè)數(shù)量的濾波器組參數(shù);
[0113] 根據(jù)預(yù)設(shè)的子帶寬度,對(duì)所述濾波器組參數(shù)進(jìn)行分組,得到所述訓(xùn)練語(yǔ)料中每一 語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所述分組的 組數(shù)相同。
[0114]其中,所述訓(xùn)練語(yǔ)料預(yù)處理模塊51用于:獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè)數(shù)量的 前向語(yǔ)音信號(hào)幀、以及所述語(yǔ)音信號(hào)幀的第三預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得到所述 語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述時(shí)域拓展后的所述子帶;
[0115]其中,所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn) 值;其中所述時(shí)域拓展后的子帶寬度為所述子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù) 設(shè)數(shù)量的和。
[0116]其中,所述卷積器由預(yù)設(shè)的卷積矩陣組成,所述卷積矩陣具體為:隨機(jī)初始化得到 mXn的矩陣,其中m為所述時(shí)域拓展后的子帶寬度,n為小于所述子帶寬度的經(jīng)驗(yàn)值;所述預(yù) 設(shè)的隱藏層權(quán)重矩陣,具體為:隨機(jī)初始化x X N的矩陣,其中x為所述分組的組數(shù)的倍數(shù),N 為所述聲學(xué)模型的分類數(shù)目。
[0117]其中,所述計(jì)算模塊52用于:以第四預(yù)設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使 用每組所述卷積器與所述特征矩陣做卷積運(yùn)算;對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述 采樣結(jié)果進(jìn)行歸一化處理,得到所述第一向量。
[0118] 其中,所述計(jì)算模塊52用于:以所述預(yù)設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘, 并對(duì)所述相乘的結(jié)果進(jìn)行規(guī)整,獲得所述N維向量。
[0119] 其中,所述參數(shù)更新模塊53用于執(zhí)行如下步驟:
[0120] 步驟a:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組;
[0121] 步驟b:根據(jù)預(yù)設(shè)的第一迭代次數(shù)以及預(yù)設(shè)的參數(shù)更新策略,對(duì)所述矩陣組進(jìn)行參 數(shù)迭代更新;
[0122] 步驟c:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預(yù)設(shè)的非線性函數(shù)從而更 新所述矩陣組,并根據(jù)所述預(yù)設(shè)的第二迭代次數(shù)以及所述預(yù)設(shè)的參數(shù)更新策略對(duì)所述矩陣 組進(jìn)行參數(shù)更新。
[0123] 其中,所述參數(shù)更新模塊53還用于:重復(fù)執(zhí)行步驟c;其中,所述重復(fù)執(zhí)行的次數(shù)由 所述訓(xùn)練語(yǔ)料的數(shù)量決定。
[0124] 其中,所述參數(shù)更新模塊53還用于:當(dāng)所述第二迭代次數(shù)達(dá)到預(yù)設(shè)的閾值,保持所 述卷積矩陣的參數(shù)不變,修改所述參數(shù)更新的設(shè)置,并對(duì)所述矩陣組中除所述卷積矩陣之 外的其他矩陣進(jìn)行所述參數(shù)更新。
[0125] 其中,所述訓(xùn)練語(yǔ)料預(yù)處理模塊51還用于,對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展 之前,根據(jù)所述聲學(xué)模型的分類對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行狀態(tài)對(duì)齊,從而獲得優(yōu)化后的所述訓(xùn) 練語(yǔ)料。
[0126] 圖5所述裝置可執(zhí)行圖1~圖3對(duì)應(yīng)的方法,其執(zhí)行步驟及技術(shù)效果參考圖1~圖3 所述實(shí)施例,此處不贅述。
[0127] 圖6是本申請(qǐng)實(shí)施例三的裝置結(jié)構(gòu)示意圖,結(jié)合圖6,本申請(qǐng)實(shí)施例一種語(yǔ)音識(shí)別 裝置,包括:
[0128] 待識(shí)別語(yǔ)音數(shù)據(jù)預(yù)處理模塊61,用于獲得待識(shí)別語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的子帶,對(duì)所述待 識(shí)別語(yǔ)音數(shù)據(jù)的所述子帶進(jìn)行時(shí)域擴(kuò)展得到所述子帶對(duì)應(yīng)的特征矩陣;
[0129] 聲學(xué)打分模塊62,用于根據(jù)所述特征矩陣,調(diào)用預(yù)先訓(xùn)練的卷積器獲得第一向量; 根據(jù)所述第一向量與預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣獲得N維向量;根據(jù)所述N維向量,獲得所 述待識(shí)別的語(yǔ)音信號(hào)屬于第n個(gè)聲學(xué)分類的概率值;其中,N為正整數(shù),nG[l,N]。
[0130] 其中,所述待識(shí)別語(yǔ)音數(shù)據(jù)預(yù)處理模塊61用于:對(duì)待識(shí)別語(yǔ)音數(shù)據(jù)進(jìn)行分幀,并對(duì) 所述分幀得到的語(yǔ)音信號(hào)幀進(jìn)行快速傅里葉變換;對(duì)所述快速傅里葉變換的結(jié)果取幅度 值,采用預(yù)設(shè)的濾波器從所述幅度值中獲取第一預(yù)設(shè)數(shù)量的濾波器組參數(shù);根據(jù)預(yù)設(shè)的子 帶寬度,對(duì)所述濾波器組參數(shù)進(jìn)行分組,得到所述待識(shí)別語(yǔ)音數(shù)據(jù)中每一語(yǔ)音信號(hào)幀對(duì)應(yīng) 的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所述分組的組數(shù)相同。
[0131] 其中,所述待識(shí)別語(yǔ)音數(shù)據(jù)預(yù)處理模塊61用于:獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè) 數(shù)量的前向語(yǔ)音信號(hào)幀、以及所述語(yǔ)音信號(hào)幀的第三預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得 到所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述時(shí)域拓展后的所述子帶;其中,所述第二預(yù)設(shè)數(shù)量以及所述 第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn)值;其中所述時(shí)域拓展后的子帶寬度為所述 子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的和。
[0132] 其中,所述打分模塊62用于:調(diào)用預(yù)先訓(xùn)練的所述卷積器,并使用每組所述卷積器 與所述特征矩陣做卷積運(yùn)算;對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述采樣結(jié)果進(jìn)行歸一 化處理,得到所述第一向量。
[0133] 其中,所述打分模塊62用于:以所述預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣與所述第一向量 相乘,并對(duì)所述相乘的結(jié)果進(jìn)行規(guī)整,獲得所述N維向量。
[0134] 圖6所述裝置可執(zhí)行圖4對(duì)應(yīng)的方法,其執(zhí)行步驟及技術(shù)效果參考圖4所述實(shí)施例, 此處不贅述。
[0135] 應(yīng)用實(shí)例
[0136] 以下部分將結(jié)合圖7,以一個(gè)實(shí)際的例子對(duì)本申請(qǐng)實(shí)施例的技術(shù)方案進(jìn)行進(jìn)一步 闡述:
[0137] 1、收集語(yǔ)料并確定聲學(xué)模型目標(biāo)分類數(shù)目,此處將聲學(xué)模型的目標(biāo)分類數(shù)目記為 N;
[0138] 2、將訓(xùn)練語(yǔ)料使用用多種房間混響函數(shù)進(jìn)行擾動(dòng),以得到更加真實(shí)、更加全面的 聲音訓(xùn)練樣本。
[0139] 3、將訓(xùn)練語(yǔ)料樣本分幀,進(jìn)行快速傅里葉變換,取幅度。
[0140] 將5分鐘語(yǔ)音數(shù)據(jù),按10毫秒分一幀,分為3萬語(yǔ)音信號(hào)幀,使用Mel濾波器組提取 40維濾波器組參數(shù),每一幀用一個(gè)40維的向量表示。即5分鐘語(yǔ)音數(shù)據(jù)可以用3萬個(gè)40維向 量表示。
[0141] 4、根據(jù)聲學(xué)模型的目標(biāo)分類,使用Viterbi算法對(duì)訓(xùn)練語(yǔ)料進(jìn)行狀態(tài)對(duì)齊。
[0142] 5、獲得每一語(yǔ)音信號(hào)幀的子帶,具體將3萬個(gè)40維向量中的每一個(gè)40維向量按維 度分為8組。分組規(guī)則為第1-7維分為第1組,第5-11維分為第2組,第9-15維分為第3組,第 14-20維分為第4組,第19-25維分為第5組,第24-30維分為第6組,第29-35維分為第7組,第 34-40維分為第8組。每組都是一個(gè)7維的向量。即,語(yǔ)音信號(hào)幀的每一子帶對(duì)應(yīng)一個(gè)7維向 量,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)8個(gè)子帶。如圖7示的,(a0,al,a2, . . .a6)(b0,bl,b2, . . .b6)(h0, hi,h2,...h6)〇
[0143] 6、對(duì)每幀的8個(gè)7維向量進(jìn)行時(shí)域擴(kuò)展,向前取5幀,向后取5幀,得到8個(gè)11 X 7的矩 陣。
[0144] 7、隨機(jī)初始化1024(128X8)個(gè)11X5維的矩陣M。如圖7所示,在卷積層以每8個(gè)矩 陣M為一組卷積器,分別對(duì)第6步得到的8個(gè)矩陣做矩陣卷積,卷積層的輸出為8個(gè)3維的向 量。
[0145] 在采樣層中,根據(jù)最大采樣法對(duì)卷積層的輸出結(jié)果進(jìn)行采樣,即在每個(gè)3維向量 中,取值最大的作為代表,每組卷積器的輸出是8個(gè)一維向量,即一個(gè)8維向量,則128個(gè)卷積 器對(duì)應(yīng)的該步驟的輸出為128個(gè)8維向量(六,8,(:,〇3丨,6,11)。將128向量首尾拼接成一個(gè) 1024維的向量,并歸一化。
[0146] 8、隨機(jī)初始化一個(gè)1024 X N的矩陣P,與第7步輸出的1024維向量相乘,并使用一個(gè) Softmax函數(shù)對(duì)輸出規(guī)整,得到一個(gè)N維向量,其中,第n維的意義是該幀屬于第n個(gè)聲學(xué)分類 的概率。
[0147] 9、根據(jù)第8步的輸出和第2步的對(duì)齊結(jié)果,進(jìn)行基于誤差反向傳播算法的參數(shù)更 新,更新第7步和第8步隨機(jī)初始化的矩陣M(-組矩陣)和P。使用小批量隨機(jī)梯度下降法作 為參數(shù)更新的更新策略。
[0148] 10、以全部數(shù)據(jù)更新一次稱為一個(gè)迭代,將第9步的參數(shù)更新進(jìn)行4個(gè)迭代。在矩陣 M和矩陣P之間插入一個(gè)矩陣Q和Sigmoid非線性函數(shù)。再更新兩個(gè)迭代。
[0149] 11、在第10步基礎(chǔ)上,在矩陣M和矩陣Q之間插入一個(gè)矩陣R和Sigmoid非線性函數(shù), 再更新兩個(gè)迭代。
[0150] 12、固定矩陣組M的參數(shù)不變,將梯度下降的學(xué)習(xí)率減半,僅更新Q、R、P矩陣。持續(xù) 修改學(xué)習(xí)率迭代直至收斂。
[0151] 13、訓(xùn)練結(jié)束得到參數(shù)更新后的一組矩陣M以及矩陣P組成的聲學(xué)模型用于語(yǔ)音識(shí) 別中的聲學(xué)打分。
[0152] 以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可 以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單 元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其 中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性 的勞動(dòng)的情況下,即可以理解并實(shí)施。
[0153] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可 借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件?;谶@樣的理解,上 述技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該 計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指 令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)執(zhí)行各個(gè)實(shí)施 例或者實(shí)施例的某些部分所述的方法。
[0154]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管 參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可 以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換; 而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和 范圍。
【主權(quán)項(xiàng)】
1. 一種聲學(xué)模型訓(xùn)練方法,其特征在于,包括: 對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展得到特征矩陣; 將所述特征矩陣通過預(yù)設(shè)的卷積器,獲得第一向量; 根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所述聲學(xué)模型的 分類數(shù)目; 根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn)行參數(shù)更新,以所述參數(shù)更 新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學(xué)模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括,采用如下方法獲得所述 訓(xùn)練語(yǔ)料對(duì)應(yīng)的所述子帶: 對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行分幀,并對(duì)所述分幀得到的語(yǔ)音信號(hào)幀進(jìn)行快速傅里葉變換; 對(duì)所述快速傅里葉變換的結(jié)果取幅度值,采用預(yù)設(shè)的濾波器從所述幅度值中獲取第一 預(yù)設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預(yù)設(shè)的子帶寬度,對(duì)所述濾波器組參數(shù)進(jìn)行分組,得到所述訓(xùn)練語(yǔ)料中每一語(yǔ)音 信號(hào)幀對(duì)應(yīng)的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所述分組的組數(shù) 相同。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述時(shí)域拓展,包括: 獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè)數(shù)量的前向語(yǔ)音信號(hào)幀、以及所述語(yǔ)音信號(hào)幀的第三 預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得到所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述時(shí)域拓展后的所述子 帶; 其中,所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn)值; 其中所述時(shí)域拓展后的子帶寬度為所述子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè) 數(shù)量的和。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于, 所述卷積器由預(yù)設(shè)的卷積矩陣組成,所述卷積矩陣具體為:隨機(jī)初始化得到mXn的矩 陣,其中m為所述時(shí)域拓展后的子帶寬度,η為小于所述子帶寬度的經(jīng)驗(yàn)值; 所述預(yù)設(shè)的隱藏層權(quán)重矩陣,具體為:隨機(jī)初始化xXN的矩陣,其中X為所述分組的組 數(shù)的倍數(shù),N為所述聲學(xué)模型的分類數(shù)目。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲得第一向量,包括: 以第四預(yù)設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使用每組所述卷積器與所述特征矩 陣做卷積運(yùn)算; 對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述采樣結(jié)果進(jìn)行歸一化處理,得到所述第一向 量。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩 陣獲得N維向量,包括: 以所述預(yù)設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘,并對(duì)所述相乘的結(jié)果進(jìn)行規(guī)整, 獲得所述N維向量。7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述卷積器與所述第二向量進(jìn)行參數(shù)更 新,包括: 步驟a:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組; 步驟b:根據(jù)預(yù)設(shè)的第一迭代次數(shù)以及預(yù)設(shè)的參數(shù)更新策略,對(duì)所述矩陣組進(jìn)行參數(shù)迭 代更新; 步驟C:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預(yù)設(shè)的非線性函數(shù)從而更新所 述矩陣組,并根據(jù)所述預(yù)設(shè)的第二迭代次數(shù)以及所述預(yù)設(shè)的參數(shù)更新策略對(duì)所述矩陣組進(jìn) 行參數(shù)更新。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括: 重復(fù)執(zhí)行步驟c;其中,所述重復(fù)執(zhí)行的次數(shù)由所述訓(xùn)練語(yǔ)料的數(shù)量決定。9. 根據(jù)權(quán)利要求7或8所述的方法,其特征在于,所述方法還包括: 當(dāng)所述第二迭代次數(shù)達(dá)到預(yù)設(shè)的閾值,保持所述卷積矩陣的參數(shù)不變,修改所述參數(shù) 更新的設(shè)置,并對(duì)所述矩陣組中除所述卷積矩陣之外的其他矩陣進(jìn)行所述參數(shù)更新。10. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括,對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶 進(jìn)行時(shí)域擴(kuò)展之前,所述方法還包括: 根據(jù)所述聲學(xué)模型的分類對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行狀態(tài)對(duì)齊,從而獲得優(yōu)化后的所述訓(xùn)練 語(yǔ)料。11. 一種語(yǔ)音識(shí)別方法,其特征在于,包括: 獲得待識(shí)別語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的子帶; 對(duì)所述待識(shí)別語(yǔ)音數(shù)據(jù)的所述子帶進(jìn)行時(shí)域擴(kuò)展得到所述子帶對(duì)應(yīng)的特征矩陣; 根據(jù)所述特征矩陣,調(diào)用預(yù)先訓(xùn)練的卷積器獲得第一向量; 根據(jù)所述第一向量與預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣獲得N維向量; 根據(jù)所述N維向量,獲得所述待識(shí)別的語(yǔ)音信號(hào)屬于第η個(gè)聲學(xué)分類的概率值;其中,N 為正整數(shù),ne[l,N]。12. 根據(jù)權(quán)利要求11所述的方法,其特征在于,獲得待識(shí)別語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的子帶,包括: 對(duì)待識(shí)別語(yǔ)音數(shù)據(jù)進(jìn)行分幀,并對(duì)所述分幀得到的語(yǔ)音信號(hào)幀進(jìn)行快速傅里葉變換; 對(duì)所述快速傅里葉變換的結(jié)果取幅度值,采用預(yù)設(shè)的濾波器從所述幅度值中獲取第一 預(yù)設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預(yù)設(shè)的子帶寬度,對(duì)所述濾波器組參數(shù)進(jìn)行分組,得到所述待識(shí)別語(yǔ)音數(shù)據(jù)中每 一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所述分組 的組數(shù)相同。13. 根據(jù)權(quán)利要求12所述的方法,其特征在于,對(duì)所述待識(shí)別語(yǔ)音數(shù)據(jù)的所述子帶進(jìn)行 時(shí)域擴(kuò)展,包括: 獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè)數(shù)量的前向語(yǔ)音信號(hào)幀、以及所述語(yǔ)音信號(hào)幀的第三 預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得到所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述時(shí)域拓展后的所述子 帶; 其中,所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn)值; 其中所述時(shí)域拓展后的子帶寬度為所述子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè) 數(shù)量的和。14. 根據(jù)權(quán)利要求11所述的方法,其特征在于,調(diào)用預(yù)先訓(xùn)練的卷積器獲得第一向量, 包括: 調(diào)用預(yù)先訓(xùn)練的所述卷積器,并使用每組所述卷積器與所述特征矩陣做卷積運(yùn)算; 對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述采樣結(jié)果進(jìn)行歸一化處理,得到所述第一向 量。15. 根據(jù)權(quán)利要求11所述的方法,其特征在于,根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重 矩陣獲得N維向量,包括: 以所述預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣與所述第一向量相乘,并對(duì)所述相乘的結(jié)果進(jìn)行規(guī) 整,獲得所述N維向量。16. -種聲學(xué)模型訓(xùn)練裝置,其特征在于,包括: 訓(xùn)練語(yǔ)料預(yù)處理模塊,用于對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展得到特征矩陣; 計(jì)算模塊,用于將所述特征矩陣通過預(yù)設(shè)的卷積器,獲得第一向量; 所述計(jì)算模塊還用于,根據(jù)所述第一向量與預(yù)設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其 中,N為所述聲學(xué)模型的分類數(shù)目; 參數(shù)更新模塊,用于根據(jù)所述N維向量對(duì)所述卷積器與所述隱藏層權(quán)重矩陣進(jìn)行參數(shù) 更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學(xué)模型。17. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述訓(xùn)練語(yǔ)料預(yù)處理模塊還用于,執(zhí)行 如下步驟獲得所述訓(xùn)練語(yǔ)料對(duì)應(yīng)的所述子帶: 對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行分幀,并對(duì)所述分幀得到的語(yǔ)音信號(hào)幀進(jìn)行快速傅里葉變換; 對(duì)所述快速傅里葉變換的結(jié)果取幅度值,采用預(yù)設(shè)的濾波器從所述幅度值中獲取第一 預(yù)設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預(yù)設(shè)的子帶寬度,對(duì)所述濾波器組參數(shù)進(jìn)行分組,得到所述訓(xùn)練語(yǔ)料中每一語(yǔ)音 信號(hào)幀對(duì)應(yīng)的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所述分組的組數(shù) 相同。18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述訓(xùn)練語(yǔ)料預(yù)處理模塊用于: 獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè)數(shù)量的前向語(yǔ)音信號(hào)幀、以及所述語(yǔ)音信號(hào)幀的第三 預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得到所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述時(shí)域拓展后的所述子 帶; 其中,所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn)值; 其中所述時(shí)域拓展后的子帶寬度為所述子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè) 數(shù)量的和。19. 根據(jù)權(quán)利要求18所述的裝置,其特征在于, 所述卷積器由預(yù)設(shè)的卷積矩陣組成,所述卷積矩陣具體為:隨機(jī)初始化得到mXn的矩 陣,其中m為所述時(shí)域拓展后的子帶寬度,η為小于所述子帶寬度的經(jīng)驗(yàn)值; 所述預(yù)設(shè)的隱藏層權(quán)重矩陣,具體為:隨機(jī)初始化xXN的矩陣,其中X為所述分組的組 數(shù)的倍數(shù),N為所述聲學(xué)模型的分類數(shù)目。20. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述計(jì)算模塊用于: 以第四預(yù)設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使用每組所述卷積器與所述特征矩 陣做卷積運(yùn)算; 對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述采樣結(jié)果進(jìn)行歸一化處理,得到所述第一向 量。21. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述計(jì)算模塊用于: 以所述預(yù)設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘,并對(duì)所述相乘的結(jié)果進(jìn)行規(guī)整, 獲得所述N維向量。22. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述參數(shù)更新模塊用于執(zhí)行如下步驟: 步驟a:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組; 步驟b:根據(jù)預(yù)設(shè)的第一迭代次數(shù)以及預(yù)設(shè)的參數(shù)更新策略,對(duì)所述矩陣組進(jìn)行參數(shù)迭 代更新; 步驟c:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預(yù)設(shè)的非線性函數(shù)從而更新所 述矩陣組,并根據(jù)所述預(yù)設(shè)的第二迭代次數(shù)以及所述預(yù)設(shè)的參數(shù)更新策略對(duì)所述矩陣組進(jìn) 行參數(shù)更新。23. 根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述參數(shù)更新模塊還用于: 重復(fù)執(zhí)行步驟c;其中,所述重復(fù)執(zhí)行的次數(shù)由所述訓(xùn)練語(yǔ)料的數(shù)量決定。24. 根據(jù)權(quán)利要求22或23所述的裝置,其特征在于,所述參數(shù)更新模塊還用于: 當(dāng)所述第二迭代次數(shù)達(dá)到預(yù)設(shè)的閾值,保持所述卷積矩陣的參數(shù)不變,修改所述參數(shù) 更新的設(shè)置,并對(duì)所述矩陣組中除所述卷積矩陣之外的其他矩陣進(jìn)行所述參數(shù)更新。25. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述訓(xùn)練語(yǔ)料預(yù)處理模塊還用于, 對(duì)訓(xùn)練語(yǔ)料對(duì)應(yīng)的子帶進(jìn)行時(shí)域擴(kuò)展之前,根據(jù)所述聲學(xué)模型的分類對(duì)所述訓(xùn)練語(yǔ)料 進(jìn)行狀態(tài)對(duì)齊,從而獲得優(yōu)化后的所述訓(xùn)練語(yǔ)料。26. -種語(yǔ)音識(shí)別裝置,其特征在于,包括: 待識(shí)別語(yǔ)音數(shù)據(jù)預(yù)處理模塊,用于獲得待識(shí)別語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的子帶,對(duì)所述待識(shí)別語(yǔ) 音數(shù)據(jù)的所述子帶進(jìn)行時(shí)域擴(kuò)展得到所述子帶對(duì)應(yīng)的特征矩陣; 聲學(xué)打分模塊,用于根據(jù)所述特征矩陣,調(diào)用預(yù)先訓(xùn)練的卷積器獲得第一向量;根據(jù)所 述第一向量與預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣獲得N維向量;根據(jù)所述N維向量,獲得所述待識(shí) 別的語(yǔ)音信號(hào)屬于第η個(gè)聲學(xué)分類的概率值;其中,N為正整數(shù),ne[l,N]。27. 根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述待識(shí)別語(yǔ)音數(shù)據(jù)預(yù)處理模塊用于: 對(duì)待識(shí)別語(yǔ)音數(shù)據(jù)進(jìn)行分幀,并對(duì)所述分幀得到的語(yǔ)音信號(hào)幀進(jìn)行快速傅里葉變換; 對(duì)所述快速傅里葉變換的結(jié)果取幅度值,采用預(yù)設(shè)的濾波器從所述幅度值中獲取第一 預(yù)設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預(yù)設(shè)的子帶寬度,對(duì)所述濾波器組參數(shù)進(jìn)行分組,得到所述待識(shí)別語(yǔ)音數(shù)據(jù)中每 一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶;其中,每一語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述子帶的數(shù)量與所述分組 的組數(shù)相同。28. 根據(jù)權(quán)利要求27所述的裝置,其特征在于,所述待識(shí)別語(yǔ)音數(shù)據(jù)預(yù)處理模塊用于: 獲取所述語(yǔ)音信號(hào)幀的第二預(yù)設(shè)數(shù)量的前向語(yǔ)音信號(hào)幀、以及所述語(yǔ)音信號(hào)幀的第三 預(yù)設(shè)數(shù)量的后向語(yǔ)音信號(hào)幀,從而得到所述語(yǔ)音信號(hào)幀對(duì)應(yīng)的所述時(shí)域拓展后的所述子 帶; 其中,所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗(yàn)值; 其中所述時(shí)域拓展后的子帶寬度為所述子帶寬度與所述第二預(yù)設(shè)數(shù)量以及所述第三預(yù)設(shè) 數(shù)量的和。29. 根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述打分模塊用于: 調(diào)用預(yù)先訓(xùn)練的所述卷積器,并使用每組所述卷積器與所述特征矩陣做卷積運(yùn)算; 對(duì)所述卷積運(yùn)算的結(jié)果進(jìn)行采樣并對(duì)所述采樣結(jié)果進(jìn)行歸一化處理,得到所述第一向 量。30.根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述打分模塊用于: 以所述預(yù)先訓(xùn)練的隱藏層權(quán)重矩陣與所述第一向量相乘,并對(duì)所述相乘的結(jié)果進(jìn)行規(guī) 整,獲得所述N維向量。
【文檔編號(hào)】G10L15/20GK105895082SQ201610371452
【公開日】2016年8月24日
【申請(qǐng)日】2016年5月30日
【發(fā)明人】那興宇
【申請(qǐng)人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
元朗区| 五莲县| 凤冈县| 汝南县| 遵义市| 连平县| 莱阳市| 白银市| 钦州市| 皋兰县| 滦平县| 扶余县| 石狮市| 兴城市| 双江| 石阡县| 扶余县| 湘阴县| 柳河县| 恭城| 海口市| 公主岭市| 密云县| 那曲县| 苏尼特左旗| 大城县| 卓尼县| 东山县| 宁陕县| 二手房| 阳曲县| 固安县| 长寿区| 兴安盟| 沿河| 德兴市| 贡觉县| 石楼县| 平顶山市| 昭苏县| 垦利县|