本公開涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別方法及裝置。
背景技術(shù):
隨著科技的發(fā)展,越來越多的智能設(shè)備進入了我們的生活,其中絕大多數(shù)智能設(shè)備實現(xiàn)了語音操控,極大的便利了我們的生活。
為了精確實現(xiàn)語音操控,需要為智能設(shè)備設(shè)置語音識別系統(tǒng),一個完整的語音識別系統(tǒng),包含了聲學(xué)模型(acousticmodel)和hmm(hiddenmarkovmodel,隱形馬爾科夫模型)這兩個關(guān)鍵模塊,傳統(tǒng)的語音識別技術(shù)中,通常采用gmm(gaussianmixturemodel,高斯混合模型)-hmm框架來實現(xiàn)上述兩個模塊,但是由于gmm模擬任意函數(shù)的能力取決于混合高斯函數(shù)的模(mode)的個數(shù),具有一定的局限性,屬于淺層模型,因此相關(guān)技術(shù)中還可以采用dnn(deepneuralnetworks,深度神經(jīng)網(wǎng)絡(luò))建立聲學(xué)模型和隱形馬爾科夫模型,通過dnn對聲學(xué)模型進行建模,能取得比gmm更好的建模效果,語音識別的準(zhǔn)確率也更高。
技術(shù)實現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問題,本公開實施例提供一種語音識別方法及裝置。所述技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種語音識別方法,包括:
獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù),每個所述語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度;所述i為大于或等于1的整數(shù);
對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù),每個所述正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和正則語音強度,所述m為大于或等于1的整數(shù);
根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過對待輸入dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
在一個實施例中,所述根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)包括:
將所述m個正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過將正則化后的輸入語音數(shù)據(jù)作為輸入dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
在一個實施例中,所述對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù)包括:
將所述m個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則分成n組語音數(shù)據(jù);
對所述n組語音數(shù)據(jù)中每組語音數(shù)據(jù)分別進行正則化處理,獲取n組正則語音數(shù)據(jù),所述n組正則語音數(shù)據(jù)共包括m個正則語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:可以采用分批次正則化的方法對dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)進行正則化處理,降低了正則化過程中對處理器的要求,提高了處理器的處理速度,進而提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
在一個實施例中,所述對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù)包括:
獲取所述m個語音強度的均值e[x(i)]和所述m個語音強度的方差var[x(i)];
根據(jù)第一公式,對所述m個語音強度x(i)進行正則化處理,獲取m個正則語音強度x∧(i);
所述第一公式為:
根據(jù)所述m個正則語音強度x∧(i),獲取所述m個正則語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過第一公式對dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)進行正則化處理,提高了正則化的處理速度和精度,進而提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
在一個實施例中,所述根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)包括:
對所述m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù),每個所述逆正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和逆正則語音強度;
將所述m個逆正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:在對dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)進行正則化處理之后,再進行合理的逆正則化處理,并將逆正則化之后的語音數(shù)據(jù)作為輸入第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)提高了第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)的多樣性,進而提高了語音識別的準(zhǔn)確率。
在一個實施例中,所述對所述m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù)包括:
根據(jù)第二公式對所述m個正則語音強度進行逆正則處理,獲取m個逆正則語音強度y(i);所述第二公式為y(i)=γ(i)x∧(i)+β(i);其中,所述x∧(i)為m個正則語音強度,所述γ(i)為所述第i層網(wǎng)絡(luò)的逆正則方差參數(shù),所述β(i)為所述第i層網(wǎng)絡(luò)的逆正則均值參數(shù);
根據(jù)所述m個逆正則語音強度y(i),獲取所述m個逆正則語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過第二公式對dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)正則化之后的輸入語音數(shù)據(jù)進行逆正則化處理,提高了逆正則化的處理速度和精度,進而提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i卷積層,第i池化層和第i激活層;所述方法還包括:
將所述m個輸入語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);
將所述m個卷積語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);
將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過對dnn每一層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化,可以取消dnn包括的局部反饋歸一化層和擬合層,精簡了dnn的結(jié)構(gòu),減少了語音識別的計算過程,提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i歸一化層,第i卷積層,第i池化層和第i激活層;所述方法還包括:
將所述m個輸入語音數(shù)據(jù)輸入所述第i歸一化層,獲取所述第i歸一化層輸出的m個歸一化語音數(shù)據(jù);
將所述m個歸一化語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);
將所述m個卷積語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);
將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過對dnn每一層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化,可以取消dnn包括的擬合層,精簡了dnn的結(jié)構(gòu),減少了語音識別的計算過程,提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i卷積層,第i擬合層,第i池化層和第i激活層;所述方法還包括:
將所述m個輸入語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);
將所述m個卷積語音數(shù)據(jù)輸入所述第i擬合層,獲取所述第i擬合層輸出的m個擬合語音數(shù)據(jù);
將所述m個擬合語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);
將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過對dnn每一層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化,可以取消dnn包括的局部反饋歸一化層,精簡了dnn的結(jié)構(gòu),減少了語音識別的計算過程,提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
根據(jù)本公開實施例的第二方面,提供一種語音識別裝置,包括:
第一獲取模塊,用于獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù),每個所述語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度;所述i為大于或等于1的整數(shù);
正則化模塊,用于對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù),每個所述正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和正則語音強度,所述m為大于或等于1的整數(shù);
第二獲取模塊,用于根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
在一個實施例中,所述第二獲取模塊包括:
第一處理子模塊,用于將所述m個正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
在一個實施例中,所述正則化模塊包括:
第一獲取子模塊,用于將所述m個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則分成n組語音數(shù)據(jù);
第一正則化子模塊,用于對所述n組語音數(shù)據(jù)中每組語音數(shù)據(jù)分別進行正則化處理,獲取n組正則語音數(shù)據(jù),所述n組正則語音數(shù)據(jù)共包括m個正則語音數(shù)據(jù)。
在一個實施例中,所述正則化模塊包括:
第二獲取子模塊,用于獲取所述m個語音強度的均值e[x(i)]和所述m個語音強度的方差var[x(i)];
第二正則化子模塊,用于根據(jù)第一公式,對所述m個語音強度x(i)進行正則化處理,獲取m個正則語音強度x∧(i);
所述第一公式為
第三獲取子模塊,用于根據(jù)所述m個正則語音強度x∧(i),獲取所述m個正則語音數(shù)據(jù)。
在一個實施例中,所述第二獲取模塊包括:
逆正則子模塊,用于對所述m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù),每個所述逆正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和逆正則語音強度;
第二處理子模塊,用于將所述m個逆正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
在一個實施例中,所述逆正則子模塊包括:
逆正則單元,用于根據(jù)第二公式對所述m個正則語音強度進行逆正則處理,獲取m個逆正則語音強度y(i);所述第二公式為:y(i)=γ(i)x∧(i)+β(i);其中,所述x∧(i)為m個正則語音強度,所述γ(i)為所述第i層網(wǎng)絡(luò)的逆正則方差參數(shù),所述β(i)為所述第i層網(wǎng)絡(luò)的逆正則均值參數(shù);
獲取單元,用于根據(jù)所述m個逆正則語音強度y(i),獲取所述m個逆正則語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)由第i卷積層,第i池化層和第i激活層組成;
所述第i卷積層用于處理所述第二獲取模塊獲取的m個輸入語音數(shù)據(jù),獲取m個卷積語音數(shù)據(jù);
所述第i池化層用于處理所述m個卷積語音數(shù)據(jù),獲取m個池化語音數(shù)據(jù);
所述第i激活層用于處理所述m個池化語音數(shù)據(jù),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)由第i歸一化層,第i卷積層,第i池化層和第i激活層組成;
所述第i歸一化層用于處理所述第二獲取模塊獲取的m個輸入語音數(shù)據(jù),獲取m個歸一化語音數(shù)據(jù);
所述第i卷積層用于處理所述m個歸一化語音數(shù)據(jù),獲取m個卷積語音數(shù)據(jù);
所述第i池化層用于處理所述m個卷積語音數(shù)據(jù),獲取m個池化語音數(shù)據(jù);
所述第i激活層用于處理所述m個池化語音數(shù)據(jù),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)由第i卷積層,第i擬合層,第i池化層和第i激活層組成;
所述第i卷積層用于處理所述第二獲取模塊獲取的m個輸入語音數(shù)據(jù),獲取m個卷積語音數(shù)據(jù);
所述第i擬合層用于處理所述m個卷積語音數(shù)據(jù),獲取m個擬合語音數(shù)據(jù);
所述第i池化層用于處理所述m個擬合語音數(shù)據(jù),獲取m個池化語音數(shù)據(jù);
所述第i激活層用于處理所述m個池化語音數(shù)據(jù),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
根據(jù)本公開實施例的第三方面,提供一種語音識別裝置,包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為:
獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù),每個所述語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度;所述i為大于或等于1的整數(shù);
對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù),每個所述正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和正則語音強度,所述m為大于或等于1的整數(shù);
根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。
圖1a是根據(jù)一示例性實施例示出的語音識別方法的流程圖。
圖1b是根據(jù)一示例性實施例示出的語音識別方法的流程圖。
圖1c是根據(jù)一示例性實施例示出的語音識別方法的流程圖。
圖1d是根據(jù)一示例性實施例示出的相關(guān)技術(shù)中的dnn結(jié)構(gòu)示意圖。
圖1e是根據(jù)一示例性實施例示出的dnn的第i層網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
圖1f是根據(jù)一示例性實施例示出的dnn的第i層網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
圖1g是根據(jù)一示例性實施例示出的dnn的第i層網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
圖2是根據(jù)一示例性實施例示出的語音識別方法的流程圖。
圖3是根據(jù)一示例性實施例示出的語音識別方法的流程圖。
圖4a是根據(jù)一示例性實施例示出的語音識別裝置的結(jié)構(gòu)示意圖。
圖4b是根據(jù)一示例性實施例示出的語音識別裝置的結(jié)構(gòu)示意圖。
圖4c是根據(jù)一示例性實施例示出的語音識別裝置的結(jié)構(gòu)示意圖。
圖4d是根據(jù)一示例性實施例示出的語音識別裝置的結(jié)構(gòu)示意圖。
圖4e是根據(jù)一示例性實施例示出的語音識別裝置的結(jié)構(gòu)示意圖。
圖4f是根據(jù)一示例性實施例示出的語音識別裝置的結(jié)構(gòu)示意圖。
圖5是根據(jù)一示例性實施例示出的語音識別裝置的結(jié)構(gòu)框圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
本公開實施例提供的技術(shù)方案涉及語音識別系統(tǒng),該語音識別系統(tǒng)包括由dnn網(wǎng)絡(luò)構(gòu)建的語音識別模型,可以應(yīng)用于手機,平板電腦,智能可穿戴設(shè)備,智能家居設(shè)備以及其他設(shè)置有語音識別功能的裝置,本公開實施例對此不做限定。相關(guān)技術(shù)中,由于dnn理論上能夠模擬任意的函數(shù),表達能力更強,因此采用dnn構(gòu)建的語音識別模型,能取得比gmm-hmm更好的效果,語音識別的準(zhǔn)確率也更高。但是在dnn建立語音識別模型的過程中,每一層輸入的語音數(shù)據(jù)的尺度是不一致的,因此每一層需要的學(xué)習(xí)率也是不一樣的,同一層不同維度的尺度也不同,也需要大小不同的學(xué)習(xí)率。在這種條件下,學(xué)習(xí)率的上限值由尺度最小的那一層(或者那一維度)決定,才能保證損失函數(shù)有效下降。為了使每一層網(wǎng)絡(luò)適應(yīng)新的輸入數(shù)據(jù)的尺度,建模過程中必須初始化每一層網(wǎng)絡(luò)的參數(shù)、并不斷地降低算法的學(xué)習(xí)率,因此降低了語音識別的速度。
為了降低dnn模型對初始化值的敏感性,提高模型訓(xùn)練的學(xué)習(xí)率,可以對dnn網(wǎng)絡(luò)中每一層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)進行正則化處理,通過正則化使得dnn模型中每層以及每個維度的尺度保持一致,緩解了dnn系統(tǒng)中的過擬合現(xiàn)象,同時能夠大大加快dnn模型的訓(xùn)練速度,降低輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
圖1a是根據(jù)一示例性實施例示出的一種語音識別方法的流程圖,該方法應(yīng)用于語音識別系統(tǒng),該語音識別系統(tǒng)包括由dnn網(wǎng)絡(luò)構(gòu)建的語音識別模型。如圖1a所示,該語音識別方法包括以下步驟101至步驟103:
在步驟101中,獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù),每個語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度。
示例的,語音識別系統(tǒng)可以通過dnn實現(xiàn)語音識別功能,該dnn包括多層感知機,即包括多層神經(jīng)網(wǎng)絡(luò)(以下簡稱網(wǎng)絡(luò)),前一層網(wǎng)絡(luò)的輸出語音數(shù)據(jù)可以作為下一層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),經(jīng)過多層網(wǎng)絡(luò)的識別,最后輸出的即為語音識別模塊識別出的語義。
假設(shè)該dnn包括s層網(wǎng)絡(luò),以第i層網(wǎng)絡(luò)為例進行說明,該第i層網(wǎng)絡(luò)為s層網(wǎng)絡(luò)中任意一層網(wǎng)絡(luò),即i為大于或等于1且小于或等于s的整數(shù)。具體的,可以獲取dnn中第i-1層網(wǎng)絡(luò)輸出的m個語音數(shù)據(jù),將該m個語音數(shù)據(jù)作為待輸入第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在步驟102中,對m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù),每個正則語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和正則語音強度,所述m為大于或等于1的整數(shù)。
示例的,在獲取到待輸入第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù)之后,從該m個語音數(shù)據(jù)中獲取m個語音強度,并對該m個語音強度進行正則化處理,采用該正則化方法可以削弱特征不明顯的語音數(shù)據(jù)對語音識別的影響,降低了語音識別模型的復(fù)雜度。
例如,可以首先獲取m個語音強度的均值和方差,然后對m個語音強度中每個語音強度進行減均值除方差處理,獲取m個正則語音數(shù)據(jù),正則化后的m個正則語音數(shù)據(jù)的語音強度的范圍為[-1,1],有效降低了語音強度對語音識別的影響。本公開實施例僅以上述方案示例說明正則化,并不限定正則化的具體算法,相關(guān)技術(shù)中出現(xiàn)的正則化方法均可以應(yīng)用于本技術(shù)方案。
在步驟103中,根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
示例的,可以將該m個正則語音數(shù)據(jù)作為輸入dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù),即可以將m個正則語音數(shù)據(jù)輸入dnn第i層網(wǎng)絡(luò),使得第i層網(wǎng)絡(luò)在不受語音強度影響的情況下進行語音識別。
同理的,待輸入dnn網(wǎng)絡(luò)中每一層的網(wǎng)絡(luò)的語音數(shù)據(jù)均可以按照上述方法進行處理,使得每一層的網(wǎng)絡(luò)的訓(xùn)練速度和精度均得到提高。
本公開的實施例提供的技術(shù)方案中,通過對待輸入dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
在一個實施例中,如圖1b所示,在步驟102中,對m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù)可以通過步驟1021和步驟1022實現(xiàn):
在步驟1021中,將m個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則分成n組語音數(shù)據(jù)。
在步驟1022中,對n組語音數(shù)據(jù)中每組語音數(shù)據(jù)分別進行正則化處理,獲取n組正則語音數(shù)據(jù),n組正則語音數(shù)據(jù)共包括m個正則語音數(shù)據(jù)。
示例的,如果待輸入第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù)的數(shù)據(jù)量較大,則處理器在對m個語音數(shù)據(jù)統(tǒng)一進行正則化處理時的計算量較大,容易導(dǎo)致處理器的處理速度降低,進而導(dǎo)致語音識別效率降低。因此在對待輸入第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù)進行正則化時,可以首先按照預(yù)設(shè)規(guī)則將m個語音數(shù)據(jù)分為n組語音數(shù)據(jù),每組語音數(shù)據(jù)包括多個語音數(shù)據(jù),然后獲取每組多個語音數(shù)據(jù)包括的語音強度,并獲取該多個語音強度的均值和方差,對每組多個語音強度中的每個語音強度進行減均值除方差處理,進而獲取每組語音數(shù)據(jù)的正則語音數(shù)據(jù)。所述預(yù)設(shè)規(guī)則可以是平均分配原則,即將m個語音數(shù)據(jù)平均分為n組;也可以是等差分配原則,即將m個語音數(shù)據(jù)按照等差數(shù)列分配為n組,該n組語音數(shù)據(jù)包括語音數(shù)據(jù)的個數(shù)的成等差數(shù)列分布;還可以是等比分配原則,即將m個語音數(shù)據(jù)按照等比數(shù)列分配為n組,該n組語音數(shù)據(jù)包括語音數(shù)據(jù)的個數(shù)的成等比數(shù)列分布。
示例的,假設(shè)待輸入第i層網(wǎng)絡(luò)的語音數(shù)據(jù)為100個,按照平均分配原則將該100個語音數(shù)據(jù)分為10組語音數(shù)據(jù),每組包括10個語音數(shù)據(jù)。以第j組語音數(shù)據(jù)為例進行說明,該第j組語音數(shù)據(jù)為10組語音數(shù)據(jù)中任意一組。具體的,首先獲取第j組包括的10個語音數(shù)據(jù)中每個語音數(shù)據(jù)的語音強度,然后獲取該10個語音強度的均值和方差,并對該10個語音強度中每個語音強度進行減均值除方差的處理,獲取10個正則語音強度。通過將該10個正則語音強度寫入對應(yīng)的10個語音數(shù)據(jù),即可獲取第j組包括的10個正則語音數(shù)據(jù)。同理的,其他組的語音數(shù)據(jù)也可以參考上述方法進行正則處理。
本公開的實施例提供的技術(shù)方案中,可以采用分批次正則化的方法對dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)進行正則化處理,降低了正則化過程中對處理器的要求,提高了處理器的處理速度,進而提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
在一個實施例中,在對m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理時,可以首先獲取m個語音強度的均值e[x(i)]和m個語音強度的方差var[x(i)],然后根據(jù)第一公式,對m個語音強度x(i)進行正則化處理,獲取m個正則語音強度x∧(i),進而根據(jù)m個正則語音強度x∧(i),獲取m個正則語音數(shù)據(jù)。
其中,第一公式為:
第一公式中x(i)為1*m的矩陣,矩陣中每個元素代表一個未正則化的語音強度,x∧(i)為1*m的矩陣,矩陣中每個元素代表一個正則后的語音強度,x(i)與x∧(i)為一一對應(yīng)關(guān)系。
在獲取到x∧(i)包括的m個正則語音強度之后,將每個正則語音強度寫入與其對應(yīng)的x(i)中未正則的語音強度對應(yīng)的語音數(shù)據(jù),獲取m個正則語音數(shù)據(jù)。
同理的,可以按照上述方法處理其他層網(wǎng)絡(luò)的待輸入數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案中,通過第一公式對dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)進行正則化處理,提高了正則化的處理速度和精度,進而提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
在一個實施例中,如圖1c所示,在步驟103中,根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)可以通過步驟1031和步驟1032實現(xiàn):
在步驟1031中,對m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù),每個逆正則語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和逆正則語音強度。
在步驟1032中,將m個逆正則語音數(shù)據(jù)作為輸入dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
示例的,如果待輸入第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù)的數(shù)據(jù)量較大,將該m個語音數(shù)據(jù)中每個語音數(shù)據(jù)的語音強度均正則化至[-1,1]范圍內(nèi),可能會導(dǎo)致語音的多樣性降低,進而使得語音識別的識別率降低,因此在獲取到m個正則語音數(shù)據(jù)之后,還可以對該m個正則語音數(shù)據(jù)進行逆正則處理。具體的,首先獲取m個正則語音數(shù)據(jù)中每個正則語音數(shù)據(jù)包括的正則語音強度,然后為每個正則語音強度乘以逆正則方差參數(shù),加上逆正則均值參數(shù),使得每個正則語音強度適當(dāng)增大。
為了獲取當(dāng)前dnn網(wǎng)絡(luò)的逆正則方差參數(shù)和逆正則均值參數(shù),可以首先向dnn網(wǎng)絡(luò)構(gòu)建的語音識別模型中輸入一組語義已知的語音數(shù)據(jù),然后調(diào)整該模型中的逆正則方差參數(shù)和逆正則均值參數(shù),通過該模型進行語音識別,獲取識別出的語義,并確定識別出的語義的正確率;然后調(diào)整該模型中的逆正則方差參數(shù)和逆正則均值參數(shù),并輸入該語義已知的語音數(shù)據(jù)進行語音識別,確定識別出的語義的正確率。經(jīng)過多次訓(xùn)練之后,選取正確率最高的一次訓(xùn)練中使用的逆正則方差參數(shù)和逆正則均值參數(shù)作為該dnn網(wǎng)絡(luò)構(gòu)建的語音識別模型在語音識別時對語音數(shù)據(jù)進行逆正則處理時的逆正則方差參數(shù)和逆正則均值參數(shù)。
示例的,在對m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理時,可以首先根據(jù)第二公式對m個正則語音強度進行逆正則處理,獲取m個逆正則語音強度y(i),然后根據(jù)m個逆正則語音強度y(i),獲取m個逆正則語音數(shù)據(jù)。
其中,第二公式為y(i)=γ(i)x∧(i)+β(i);所述x∧(i)為m個正則語音強度,γ(i)為第i層網(wǎng)絡(luò)的逆正則方差參數(shù),β(i)為第i層網(wǎng)絡(luò)的逆正則均值參數(shù)。
第二公式中的y(i)為1*m的矩陣,矩陣中每個元素代表一個逆正則化后的語音強度,y(i)與x∧(i)為一一對應(yīng)關(guān)系。
在獲取到y(tǒng)(i)包括的m個逆正則語音強度之后,將每個逆正則語音強度寫入與其對應(yīng)的x∧(i)中正則化后的語音強度對應(yīng)的語音數(shù)據(jù),獲取m個逆正則語音數(shù)據(jù)。
同理的,可以按照上述方法處理其他層網(wǎng)絡(luò)的待輸入數(shù)據(jù)。
上述實施例同樣適用于圖1b所示的技術(shù)方案。
本公開的實施例提供的技術(shù)方案中,在對dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)進行正則化處理之后,再進行合理的逆正則化處理,并將逆正則化之后的語音數(shù)據(jù)作為輸入第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)提高了第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù)的多樣性,進而提高了語音識別的準(zhǔn)確率。
相關(guān)技術(shù)中,如圖1d所示,現(xiàn)有的dnn由s層網(wǎng)絡(luò)和一個全連接層組成,以第i層網(wǎng)絡(luò)為例進行說明,現(xiàn)有的dnn的第i層網(wǎng)絡(luò)包括第i局部反饋歸一化(localresponsenormalization)層,第i卷積(convolution)層,第i擬合(dropout)層,第i池化層(pooling)和第i激活(rule)層。其中,第i局部反饋歸一化層用于將輸入第i層網(wǎng)絡(luò)的語音數(shù)據(jù)做歸一化處理;第i擬合層用于防止語音識別時出現(xiàn)數(shù)據(jù)過擬合的情況。即當(dāng)m個語音數(shù)據(jù)輸入該dnn的第i層網(wǎng)絡(luò)時,首先需要將該m個語音數(shù)據(jù)輸入第i局部反饋歸一化層,獲取m個歸一化語音數(shù)據(jù),該歸一化可以消除m個語音強度的語音強度之間的量綱和量綱單位的影響,增加m個語音強度之間的可比性。例如,常用的歸一化算法可以為
如圖1e所示,本公開實施例提供的語音模型包括的dnn的第i層網(wǎng)絡(luò)設(shè)置有第i卷積層,第i池化層和第i激活層,即采用本公開實施例提供的對語音數(shù)據(jù)的處理方法可以取消第i層網(wǎng)絡(luò)包括的局部反饋歸一化層和擬合層,在進行語音識別時可以直接將本公開實施例獲取到的第i層的m個輸入語音數(shù)據(jù)輸入第i層網(wǎng)絡(luò)包括的第i卷積層,獲取該第i卷積層輸出的m個卷積語音數(shù)據(jù),將該m個卷積語音數(shù)據(jù)輸入第i層網(wǎng)絡(luò)包括的第i池化層,獲取該第i池化層輸出的m個池化語音數(shù)據(jù),然后將該m個池化語音數(shù)據(jù)輸入第i層網(wǎng)絡(luò)包括的第i激活層,獲取第i激活層輸出的m個激活語音數(shù)據(jù),該m個激活語音數(shù)據(jù)即為待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
同理的,dnn中每一層網(wǎng)絡(luò)包括的局部反饋歸一化層和擬合層均可以被取消,大大簡化了dnn的結(jié)構(gòu)。
實際應(yīng)用中,如圖1f所示,本公開實施例提供的語音模型包括的dnn的第i層網(wǎng)絡(luò)還可以設(shè)置有第i歸一化層,第i卷積層,第i池化層和第i激活層,即采用本公開實施例提供的對語音數(shù)據(jù)的處理方法可以取消第i層網(wǎng)絡(luò)包括的擬合層,其中第i歸一化層可以為現(xiàn)有第i層網(wǎng)絡(luò)的局部反饋歸一化層。在進行語音識別時可以直接將本公開實施例獲取到的第i層的m個輸入語音數(shù)據(jù)輸入第i層網(wǎng)絡(luò)包括的第i歸一化層,然后將m個歸一化語音數(shù)據(jù)輸入第i卷積層,獲取第i卷積層輸出的m個卷積語音數(shù)據(jù),進而將m個卷積語音數(shù)據(jù)輸入第i池化層,獲取第i池化層輸出的m個池化語音數(shù)據(jù),最后將m個池化語音數(shù)據(jù)輸入第i激活層,獲取第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
或者,如圖1g所示,本公開實施例提供的語音模型包括的dnn的第i層網(wǎng)絡(luò)還可以設(shè)置有第i卷積層,第i擬合層,第i池化層和第i激活層,即采用本公開實施例提供的對語音數(shù)據(jù)的處理方法可以取消第i層網(wǎng)絡(luò)包括的局部反饋歸一化層。在進行語音識別時可以直接將本公開實施例獲取到的第i層的m個輸入語音數(shù)據(jù)輸入第i層網(wǎng)絡(luò)包括的第i卷積層,獲取該第i卷積層輸出的m個卷積語音數(shù)據(jù),然后將m個卷積語音數(shù)據(jù)輸入第i擬合層,獲取第i擬合層輸出的m個擬合語音數(shù)據(jù),進而將m個擬合語音數(shù)據(jù)輸入第i池化層,獲取第i池化層輸出的m個池化語音數(shù)據(jù),最后將m個池化語音數(shù)據(jù)輸入第i激活層,獲取第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在實際應(yīng)用中,可以將本公開實施例提供的技術(shù)方案設(shè)置為正則化層,并將該正則化層添加在每一層網(wǎng)絡(luò)的卷積層之前。
本公開的實施例提供的技術(shù)方案中,通過對dnn每一層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化,可以取消dnn包括的局部反饋歸一化層和/或擬合層,精簡了dnn的結(jié)構(gòu),減少了語音識別的計算過程,提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度。
下面通過幾個實施例詳細介紹實現(xiàn)過程。
圖2是根據(jù)一示例性實施例示出的一種語音識別方法的流程圖,如圖2所示,包括以下步驟201至步驟205:
在步驟201中,獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在步驟202中,對該m個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則進行分組,獲取n組語音數(shù)據(jù)。
在步驟203中,對該n組語音數(shù)據(jù)中每組語音數(shù)據(jù)包括的語音強度進行正則化處理,獲取n組語音數(shù)據(jù)包括的m個正則語音強度。
在步驟204中,對該m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù)。
在步驟205中,將該m個逆正則語音數(shù)據(jù)輸入dnn第i層網(wǎng)絡(luò),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案中,通過對待輸入dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
圖3是根據(jù)一示例性實施例示出的一種語音識別方法的流程圖,如圖3所示,包括以下步驟301至步驟306:
在步驟301中,獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在步驟302中,獲取該m個語音數(shù)據(jù)包括的m個語音強度的均值和該m個語音強度的方差。
其中,m個語音強度的均值采用e[x(i)]表示,m個語音強度的方差采用var[x(i)]表示。
在步驟303中,根據(jù)第一公式,對該m個語音強度進行正則化處理,獲取m個正則語音強度。
其中,第一公式為
在步驟304中,根據(jù)第二公式,對m個正則語音強度進行逆正則處理,獲取m個逆正則語音強度。
其中,第二公式為y(i)=γ(i)x∧(i)+β(i),y(i)表示m個逆正則語音強度。
在步驟305中,根據(jù)該m個逆正則語音強度,獲取m個逆正則語音數(shù)據(jù)。
在步驟306中,將該m個逆正則語音數(shù)據(jù)輸入dnn第i層網(wǎng)絡(luò),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案中,通過對待輸入dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
下述為本公開裝置實施例,可以用于執(zhí)行本公開方法實施例。
圖4a是根據(jù)一示例性實施例示出的一種語音識別裝置40的結(jié)構(gòu)示意圖,該裝置40可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為電子設(shè)備的部分或者全部。如圖4a所示,該語音識別裝置40包括第一獲取模塊401,正則化模塊402和第二獲取模塊403。
其中,第一獲取模塊401,用于獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù),每個所述語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度。
正則化模塊402,用于對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù),每個所述正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和正則語音強度,所述m為大于或等于1的整數(shù)。
第二獲取模塊403,用于根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
在一個實施例中,如圖4b所示,所述第二獲取模塊403包括第一處理子模塊4031。
所述第一處理子模塊4031,用于將所述m個正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
在一個實施例中,如圖4c所示,所述正則化模塊402包括第一獲取子模塊4021和第一正則化子模塊4022。
其中,第一獲取子模塊4021,用于將所述m個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則分成n組語音數(shù)據(jù)。
第一正則化子模塊4022,用于對所述n組語音數(shù)據(jù)中每組語音數(shù)據(jù)分別進行正則化處理,獲取n組正則語音數(shù)據(jù),所述n組正則語音數(shù)據(jù)共包括m個正則語音數(shù)據(jù)。
上述實施例同樣適用于圖4b所示的語音識別裝置40。
在一個實施例中,如圖4d所示,所述正則化模塊402包括第二獲取子模塊4023,第二正則化子模塊4024和第三獲取子模塊4025。
其中,第二獲取子模塊4023,用于獲取所述m個語音強度的均值e[x(i)]和所述m個語音強度的方差var[x(i)]。
第二正則化子模塊4024,用于根據(jù)第一公式,對所述m個語音強度x(i)進行正則化處理,獲取m個正則語音強度x∧(i);所述第一公式為
第三獲取子模塊4025,用于根據(jù)所述m個正則語音強度x∧(i),獲取所述m個正則語音數(shù)據(jù)。
上述實施例同樣適用于圖4b和圖4c所示的語音識別裝置40。
在一個實施例中,如圖4e所示,所述第二獲取模塊403包括逆正則子模塊4031和第二處理子模塊4032。
其中,逆正則子模塊4031,用于對所述m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù),每個所述逆正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和逆正則語音強度。
第二處理子模塊4032,用于將所述m個逆正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
上述實施例同樣適用于圖4b,圖4c和圖4d所示的語音識別裝置40。
在一個實施例中,如圖4f所示,所述逆正則子模塊4031包括逆正則單元4031a和獲取單元4031b。
其中,逆正則單元4031a,用于根據(jù)第二公式對所述m個正則語音強度進行逆正則處理,獲取m個逆正則語音強度y(i);所述第二公式為:y(i)=γ(i)x∧(i)+β(i);其中,所述x∧(i)為m個正則語音強度,所述γ(i)為所述第i層網(wǎng)絡(luò)的逆正則方差參數(shù),所述β(i)為所述第i層網(wǎng)絡(luò)的逆正則均值參數(shù)。
獲取單元4031b,用于根據(jù)所述m個逆正則語音強度y(i),獲取所述m個逆正則語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)由第i卷積層,第i池化層和第i激活層組成,即取消第i層網(wǎng)絡(luò)包括的局部反饋歸一化層層和擬合層。其中,所述第i卷積層用于處理所述第二獲取模塊403獲取的m個輸入語音數(shù)據(jù),獲取m個卷積語音數(shù)據(jù);所述第i池化層用于處理所述m個卷積語音數(shù)據(jù),獲取m個池化語音數(shù)據(jù);所述第i激活層用于處理所述m個池化語音數(shù)據(jù),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)由第i歸一化層,第i卷積層,第i池化層和第i激活層組成,即取消第i層網(wǎng)絡(luò)包括的擬合層。其中,所述第i歸一化層用于處理所述第二獲取模塊403獲取的m個輸入語音數(shù)據(jù),獲取m個歸一化語音數(shù)據(jù);所述第i卷積層用于處理所述m個歸一化語音數(shù)據(jù),獲取m個卷積語音數(shù)據(jù);所述第i池化層用于處理所述m個卷積語音數(shù)據(jù),獲取m個池化語音數(shù)據(jù);所述第i激活層用于處理所述m個池化語音數(shù)據(jù),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)由第i卷積層,第i擬合層,第i池化層和第i激活層組成,即取消第i層網(wǎng)絡(luò)包括的局部反饋歸一化層。其中,所述第i卷積層用于處理所述第二獲取模塊403獲取的m個輸入語音數(shù)據(jù),獲取m個卷積語音數(shù)據(jù);所述第i擬合層用于處理所述m個卷積語音數(shù)據(jù),獲取m個擬合語音數(shù)據(jù);所述第i池化層用于處理所述m個擬合語音數(shù)據(jù),獲取m個池化語音數(shù)據(jù);所述第i激活層用于處理所述m個池化語音數(shù)據(jù),獲取待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本公開的實施例提供一種語音識別裝置,該裝置通過對待輸入dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
本公開實施例提供一種語音識別裝置,該語音識別裝置包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,處理器被配置為:
獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù),每個所述語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度;所述i為大于或等于1的整數(shù);
對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù),每個所述正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和正則語音強度,所述m為大于或等于1的整數(shù);
根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
在一個實施例中,上述處理器還可被配置為:將所述m個正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
在一個實施例中,上述處理器還可被配置為:將所述m個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則分成n組語音數(shù)據(jù);對所述n組語音數(shù)據(jù)中每組語音數(shù)據(jù)分別進行正則化處理,獲取n組正則語音數(shù)據(jù),所述n組正則語音數(shù)據(jù)共包括m個正則語音數(shù)據(jù)。
在一個實施例中,上述處理器還可被配置為:獲取所述m個語音強度的均值e[x(i)]和所述m個語音強度的方差var[x(i)];根據(jù)第一公式,對所述m個語音強度x(i)進行正則化處理,獲取m個正則語音強度x∧(i);所述第一公式為:
在一個實施例中,上述處理器還可被配置為:對所述m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù),每個所述逆正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和逆正則語音強度;將所述m個逆正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
在一個實施例中,上述處理器還可被配置為:根據(jù)第二公式對所述m個正則語音強度進行逆正則處理,獲取m個逆正則語音強度y(i);所述第二公式為:y(i)=γ(i)x∧(i)+β(i);其中,所述x∧(i)為m個正則語音強度,所述γ(i)為所述第i層網(wǎng)絡(luò)的逆正則方差參數(shù),所述β(i)為所述第i層網(wǎng)絡(luò)的逆正則均值參數(shù);根據(jù)所述m個逆正則語音強度y(i),獲取所述m個逆正則語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i卷積層,第i池化層和第i激活層;上述處理器還可被配置為:將所述m個輸入語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);將所述m個卷積語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i歸一化層,第i卷積層,第i池化層和第i激活層;上述處理器還可被配置為:將所述m個輸入語音數(shù)據(jù)輸入所述第i歸一化層,獲取所述第i歸一化層輸出的m個歸一化語音數(shù)據(jù);將所述m個歸一化語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);將所述m個卷積語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i卷積層,第i擬合層,第i池化層和第i激活層;上述處理器還可被配置為:將所述m個輸入語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);將所述m個卷積語音數(shù)據(jù)輸入所述第i擬合層,獲取所述第i擬合層輸出的m個擬合語音數(shù)據(jù);將所述m個擬合語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本公開的實施例提供一種語音識別裝置,該裝置通過對待輸入dnn網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了dnn網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進而提高了語音識別的準(zhǔn)確率。
關(guān)于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
圖5是根據(jù)一示例性實施例示出的一種用于語音識別裝置50的框圖。裝置50包括處理組件502,其進一步包括一個或多個處理器,以及由存儲器503所代表的存儲器資源,用于存儲可由處理組件502的執(zhí)行的指令,例如應(yīng)用程序。存儲器503中存儲的應(yīng)用程序可以包括一個或一個以上的每一個對應(yīng)于一組指令的模塊。此外,處理組件502被配置為執(zhí)行指令,以執(zhí)行上述方法。
裝置50還可以包括一個電源組件506被配置為執(zhí)行裝置50的電源管理,一個有線或無線網(wǎng)絡(luò)接口505被配置為將裝置50連接到網(wǎng)絡(luò),和一個輸入輸出(i/o)接口508。裝置50可以操作基于存儲在存儲器503的操作系統(tǒng),例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或類似。
本公開實施例提供一種非臨時性計算機可讀存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由裝置50的處理器執(zhí)行時,使得裝置50能夠執(zhí)行上述語音識別方法,所述方法包括:
獲取語音識別模型中待輸入dnn第i層網(wǎng)絡(luò)的m個語音數(shù)據(jù),每個所述語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度;所述i為大于或等于1的整數(shù);
對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù),每個所述正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和正則語音強度,所述m為大于或等于1的整數(shù);
根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)。
在一個實施例中,所述根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)包括:將所述m個正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
在一個實施例中,所述對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù)包括:將所述m個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則分成n組語音數(shù)據(jù);對所述n組語音數(shù)據(jù)中每組語音數(shù)據(jù)分別進行正則化處理,獲取n組正則語音數(shù)據(jù),所述n組正則語音數(shù)據(jù)共包括m個正則語音數(shù)據(jù)。
在一個實施例中,所述對所述m個語音數(shù)據(jù)包括的m個語音強度進行正則化處理,獲取m個正則語音數(shù)據(jù)包括:獲取所述m個語音強度的均值e[x(i)]和所述m個語音強度的方差var[x(i)];根據(jù)第一公式,對所述m個語音強度x(i)進行正則化處理,獲取m個正則語音強度x∧(i);所述第一公式為:
在一個實施例中,所述根據(jù)所述m個正則語音數(shù)據(jù),獲取輸入所述dnn第i層網(wǎng)絡(luò)的m個輸入語音數(shù)據(jù)包括:對所述m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù),每個所述逆正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和逆正則語音強度;將所述m個逆正則語音數(shù)據(jù)作為輸入所述dnn第i層網(wǎng)絡(luò)的所述m個輸入語音數(shù)據(jù)。
在一個實施例中,所述對所述m個正則語音數(shù)據(jù)包括的m個正則語音強度進行逆正則處理,獲取m個逆正則語音數(shù)據(jù)包括:根據(jù)第二公式對所述m個正則語音強度進行逆正則處理,獲取m個逆正則語音強度y(i);所述第二公式為:y(i)=γ(i)x∧(i)+β(i);其中,所述x∧(i)為m個正則語音強度,所述γ(i)為所述第i層網(wǎng)絡(luò)的逆正則方差參數(shù),所述β(i)為所述第i層網(wǎng)絡(luò)的逆正則均值參數(shù);根據(jù)所述m個逆正則語音強度y(i),獲取所述m個逆正則語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i卷積層,第i池化層和第i激活層;所述方法還包括:將所述m個輸入語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);將所述m個卷積語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i歸一化層,第i卷積層,第i池化層和第i激活層;所述方法還包括:將所述m個輸入語音數(shù)據(jù)輸入所述第i歸一化層,獲取所述第i歸一化層輸出的m個歸一化語音數(shù)據(jù);將所述m個歸一化語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);將所述m個卷積語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
在一個實施例中,所述第i層網(wǎng)絡(luò)包括第i卷積層,第i擬合層,第i池化層和第i激活層;所述方法還包括:將所述m個輸入語音數(shù)據(jù)輸入所述第i卷積層,獲取所述第i卷積層輸出的m個卷積語音數(shù)據(jù);將所述m個卷積語音數(shù)據(jù)輸入所述第i擬合層,獲取所述第i擬合層輸出的m個擬合語音數(shù)據(jù);將所述m個擬合語音數(shù)據(jù)輸入所述第i池化層,獲取所述第i池化層輸出的m個池化語音數(shù)據(jù);將所述m個池化語音數(shù)據(jù)輸入所述第i激活層,獲取所述第i激活層輸出的待輸入第i+1層網(wǎng)絡(luò)的m個語音數(shù)據(jù)。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的公開后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。