1.一種語音識別模型的訓(xùn)練方法,其特征在于,所述語音識別模型為采用結(jié)合ctc與注意力機制的多任務(wù)學(xué)習(xí)架構(gòu)的模型,包括transformer編碼器和解碼器,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種語音識別模型的訓(xùn)練方法,其特征在于,所述獲取待識別的語音數(shù)據(jù),對所述語音數(shù)據(jù)進行預(yù)處理,得到音頻fbank特征和文本數(shù)據(jù)編碼結(jié)果,包括:
3.根據(jù)權(quán)利要求1所述的一種語音識別模型的訓(xùn)練方法,其特征在于,所述基于預(yù)處理得到的音頻fbank特征和文本數(shù)據(jù)編碼結(jié)果,對語音識別模型進行預(yù)訓(xùn)練,得到音頻編碼器和ctc分類器包括:
4.根據(jù)權(quán)利要求1所述的一種語音識別模型的訓(xùn)練方法,其特征在于,所述采用預(yù)訓(xùn)練得到的ctc分類器對編碼后的音頻特征序列進行去冗余處理,得到精簡后的音頻編碼特征包括:
5.根據(jù)權(quán)利要求4所述的一種語音識別模型的訓(xùn)練方法,其特征在于,所述步驟401還包括如下步驟:
6.根據(jù)權(quán)利要求5所述的一種語音識別模型的訓(xùn)練方法,其特征在于,所述步驟402還包括如下步驟:
7.根據(jù)權(quán)利要求1所述的一種語音識別模型的訓(xùn)練方法,其特征在于,所述通過去除冗余后的音頻編碼特征對語音識別模型中的transformer解碼器進行微調(diào)訓(xùn)練,得到完成訓(xùn)練的語音識別模型:
8.一種語音識別模型的訓(xùn)練裝置,其特征在于,所述語音識別模型為采用結(jié)合ctc與注意力機制的多任務(wù)學(xué)習(xí)架構(gòu)的模型,包括transformer編碼器和解碼器,所述裝置包括:
9.一種語音識別方法,其特征在于,所述方法通過語音識別模型實現(xiàn),所述語音識別模型為根據(jù)權(quán)利要求1~7任一項所述的方法訓(xùn)練得到,所述語音識別方法包括:
10.根據(jù)權(quán)利要求9所述的一種語音識別方法,其特征在于,所述語音識別方法還包括:
11.根據(jù)權(quán)利要求10所述的一種語音識別方法,其特征在于,所述預(yù)設(shè)解碼策略包括自回歸解碼和非自回歸解碼。
12.根據(jù)權(quán)利要求11所述的一種語音識別方法,其特征在于,所述transformer解碼器使用自回歸解碼策略對音頻編碼特征進行解碼處理,得到預(yù)測文本序列,包括如下步驟:
13.一種語音識別裝置,其特征在于,所述裝置通過語音識別模型實現(xiàn),所述語音識別模型為根據(jù)權(quán)利要求1~7任一項所述的方法訓(xùn)練得到的,所述裝置包括: