本公開涉及人工智能,特別涉及一種語音識別模型的訓練方法、語音識別方法及相關裝置。
背景技術:
1、近年來,語音識別技術飛速發(fā)展并得到了廣泛應用。語音識別技術通?;谡Z音識別模型來實現(xiàn)。相關技術中,為了使語音識別模型的訓練任務變得簡單,通常采用端到端的訓練方式。該訓練方式使用包括了大量語音-文本平行語料的訓練集,對語音識別模型進行監(jiān)督訓練,以使語音識別模型直接學習語音到文本的映射。然而,通過端到端方式訓練得到的語音識別模型,其識別準確度并不高。
技術實現(xiàn)思路
1、本公開提供一種語音識別模型的訓練方法、語音識別方法及相關裝置。
2、第一方面,本公開提供了一種語音識別模型的訓練方法,所述方法包括:對第一樣本語音進行音素特征提取,得到所述第一樣本語音的音素特征,所述音素特征用于表示第一樣本語音的每個音頻幀對應的發(fā)音音素;根據(jù)所述音素特征的時序信息,對所述音素特征進行注意力處理,得到音素時序特征;對所述音素時序特征進行解碼,得到第一文本;根據(jù)所述音素特征和所述第一樣本語音的音素標簽,確定第一損失值;根據(jù)所述第一文本和所述第一樣本語音的第一文本標簽,確定第二損失值;根據(jù)所述第一損失值和所述第二損失值,訓練所述語音識別模型。
3、第二方面,本公開提供了一種語音識別方法,所述語音識別方法包括:通過語音識別模型,對待識別語音進行語音識別,得到目標文本;其中,所述語音識別模型是根據(jù)上述語音識別模型的訓練方法訓練得到的。
4、第三方面,本公開提供了一種語音識別模型的訓練裝置,所述裝置包括:第一提取模塊,用于對第一樣本語音進行音素特征提取,得到所述第一樣本語音的音素特征,所述音素特征用于表示第一樣本語音的每個音頻幀對應的發(fā)音音素;第二提取模塊,用于根據(jù)所述音素特征的時序信息,對所述音素特征進行注意力處理,得到音素時序特征;解碼模塊,用于對所述音素時序特征進行解碼,得到第一文本;第一確定模塊,用于根據(jù)所述音素特征和所述第一樣本語音的音素標簽,確定第一損失值;第二確定模塊,用于根據(jù)所述第一文本和所述第一樣本語音的第一文本標簽,確定第二損失值;訓練模塊,用于根據(jù)所述第一損失值和所述第二損失值,訓練所述語音識別模型。
5、第四方面,本公開提供了一種語音識別裝置,所述語音識別裝置包括:語音識別模塊,用于通過語音識別模型,對待識別語音進行語音識別,得到目標文本;其中,所述語音識別模型是根據(jù)上述語音識別模型的訓練方法訓練得到的。
6、第五方面,本公開提供了一種電子設備,該電子設備包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的一個或多個計算機程序,一個或多個所述計算機程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行上述的語音識別模型的訓練方法或語音識別方法。
7、第六方面,本公開提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其中,所述計算機程序在被處理器執(zhí)行時實現(xiàn)上述的語音識別模型的訓練方法或語音識別方法。
8、第七方面,本公開提供了一種計算機程序產(chǎn)品,其包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質(zhì),當所述計算機可讀代碼在電子設備的處理器中運行時,所述電子設備中的處理器執(zhí)行上述的語音識別模型的訓練方法或語音識別方法。
9、本公開實施例的語音識別模型的訓練方法,能夠?qū)Φ谝粯颖菊Z音進行音素特征提取,得到第一樣本語音的音素特征,并根據(jù)音素特征的時序信息,對音素特征進行注意力處理,得到音素時序特征;然后對音素時序特征進行解碼,得到第一文本;之后根據(jù)音素特征和第一樣本語音的音素標簽,確定第一損失值,并根據(jù)第一文本和第一樣本語音的第一文本標簽,確定第二損失值;然后根據(jù)第一損失值和第二損失值,訓練語音識別模型,從而能夠根據(jù)第一損失值(通過音素特征及第一樣本語音的音素標簽確定)及第二損失值(通過第一文本及第一樣本語音的第一文本標簽確定),來訓練語音識別模型。通過這種訓練方式,語音識別模型既能學習到語音到文本的映射,又能學習到音頻幀與音素之間的對應關系,不僅提高了語音識別模型的收斂速度,而且提高了語音識別模型的識別準確度。
10、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種語音識別模型的訓練方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,訓練所述語音識別模型包括多個訓練輪次,所述方法還包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述根據(jù)所述第一損失值和所述第二損失值,訓練所述語音識別模型,包括:
4.根據(jù)權利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權利要求4所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權利要求1至5中任意一項所述的方法,其特征在于,所述根據(jù)所述音素特征和所述第一樣本語音的音素標簽,確定第一損失值,包括:
7.一種語音識別方法,其特征在于,包括:
8.一種語音識別模型的訓練裝置,其特征在于,所述裝置包括:
9.一種語音識別裝置,其特征在于,所述裝置包括:
10.一種電子設備,其特征在于,包括:
11.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如權利要求1-6中任一項所述的語音識別模型的訓練方法,或者執(zhí)行如權利要求7所述的語音識別方法。
12.一種計算機程序產(chǎn)品,其特征在于,包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質(zhì),當所述計算機可讀代碼在電子設備的處理器中運行時,所述電子設備中的處理器執(zhí)行如權利要求1-6中任一項所述的語音識別模型的訓練方法,或者執(zhí)行如權利要求7所述的語音識別方法。