本申請涉及人工智能,尤其涉及一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在人工智能技術(shù)領(lǐng)域,數(shù)據(jù)不平衡是一個常見問題,尤其是在語音識別(automati?c?speech?recogn?it?i?on,asr)和文本轉(zhuǎn)語音(text-to-speech,tts)技術(shù)的具體應(yīng)用時。由于口吃數(shù)據(jù)集的稀缺性,現(xiàn)有的預(yù)設(shè)asr模型對口吃語音的識別準(zhǔn)確度存在不足,使得口吃語音的識別準(zhǔn)確度較低。因此,如何對口吃事件進(jìn)行預(yù)測,并提高口吃語音識別的準(zhǔn)確度成為了亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本申請的主要目的在于提供一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),以提高口吃語音識別的準(zhǔn)確度。
2、第一方面,本申請?zhí)峁┮环N口吃語音識別方法,所述口吃語音識別方法包括以下步驟:
3、獲取用于識別目標(biāo)口吃語音的初始文本信息;將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息;將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音。
4、第二方面,本申請還提供一種口吃語音識別裝置,所述口吃語音識別裝置包括:
5、初始文本信息確定模塊,用于獲取用于識別目標(biāo)口吃語音的初始文本信息;預(yù)測模塊,用于將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息;目標(biāo)語音識別模塊,用于將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音。
6、第三方面,本申請還提供一種計算機(jī)設(shè)備,所述計算機(jī)設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機(jī)程序,其中所述計算機(jī)程序被所述處理器執(zhí)行時,實現(xiàn)如上述的口吃語音識別方法。
7、第四方面,本申請還提供一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序,其中所述計算機(jī)程序被處理器執(zhí)行時,實現(xiàn)如上述的口吃語音識別方法。
8、本申請?zhí)峁┮环N口吃語音識別方法,裝置、計算機(jī)設(shè)備及存儲介質(zhì),通過獲取用于識別目標(biāo)口吃語音的初始文本信息;將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息;將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音,通過將初始文本信息輸入至目標(biāo)口吃預(yù)測器,并根據(jù)目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果得到目標(biāo)預(yù)測類別,將目標(biāo)預(yù)測類別添加至初始文本信息的預(yù)設(shè)位置,得到目標(biāo)文本信息,將目標(biāo)口吃語音輸入至預(yù)設(shè)語音識別模型,得到目標(biāo)口吃語音,提高了口吃語音識別的準(zhǔn)確度。
1.一種口吃語音識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,所述將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息,包括:
3.根據(jù)權(quán)利要求2所述的口吃語音識別方法,其特征在于,全部的初始文本信息包括第一文本信息和第二文本信息,在將所述目標(biāo)預(yù)測類別添加至所述初始文本信息的預(yù)設(shè)位置,生成所述目標(biāo)文本信息之前,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的口吃語音識別方法,其特征在于,所述基于預(yù)設(shè)選擇器對全部的所述初始文本信息進(jìn)行分類處理,得到所述預(yù)設(shè)選擇器分類后的所述第一文本信息和所述第二文本信息,包括:
5.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,所述預(yù)設(shè)語音識別模型包括前端模型和聲學(xué)模型,所述將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音,包括:
6.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,在將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測之前,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,所述將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音之后,所述方法還包括:
8.一種口吃語音識別裝置,其特征在于,包括:
9.一種計算機(jī)設(shè)備,其特征在于,所述計算機(jī)設(shè)備包括存儲器和處理器;
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時使所述處理器實現(xiàn)如權(quán)利要求1至7中任一項所述的口吃語音識別方法。