本技術(shù)涉及語音識別,特別涉及一種語音識別方法、裝置、設(shè)備、存儲介質(zhì)及車輛。
背景技術(shù):
1、語音識別技術(shù)在生活中的應(yīng)用已經(jīng)非常廣泛,在車載導(dǎo)航、智能家居、日常辦公等領(lǐng)域都有涉及,給人們生活帶來了很多便利。
2、為了提高各個領(lǐng)域的人機交互功能的可用性,在實現(xiàn)語音識別技術(shù)時,考慮到用戶的語音信號中可能不是標準的普通話,即用戶說出的是方言,采用方言識別模型對用戶的語音信號進行識別。但是由于方言種類的多樣性,訓(xùn)練方言識別模型需要的眾多語料難以滿足。因此最終的方言識別模型往往不能夠穩(wěn)定地對每一句對語音信號中的方言進行準確的識別,進而不能夠滿足用戶的實際使用需求。
技術(shù)實現(xiàn)思路
1、有鑒于此,本技術(shù)提供了一種語音識別方法、裝置、設(shè)備、存儲介質(zhì)及車輛,主要目的在于解決現(xiàn)有技術(shù)中對用戶方言語音信息無法準確識別的技術(shù)問題。
2、為實現(xiàn)上述目的,本技術(shù)第一方面實施例提供了一種語音識別方法,該方法包括:
3、獲取待識別的語音信息;
4、對所述語音信息進行方言分類識別,獲得所述語音信息對應(yīng)的方言分類信息;及,
5、對所述語音信息進行語音特征識別,獲得所述語音信息對應(yīng)的語音特征信息;
6、在與所述方言分類信息對應(yīng)的字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果,其中,所述字符集中包括與所述方言分類信息對應(yīng)的方言在不同語音特征信息下分別對應(yīng)的普通話信息。
7、可選的,所述對所述語音信息進行方言分類識別,獲得所述語音信息對應(yīng)的方言分類信息,包括:
8、對所述語音信息進行池化處理,得到聚合信息;
9、將所述聚合信息進行全連接層變換,得到所述聚合信息的綜合特征;
10、基于所述綜合特征,識別所述語音信息對應(yīng)的方言分類信息。
11、可選的,所述對所述語音信息進行池化處理,得到聚合信息,包括:
12、對所述語音信息進行預(yù)設(shè)信息長度處理,獲得多個組塊化的語音信息;
13、分別對所述多個組塊化的語音信息利用參數(shù)矩陣進行變換,得到每個組塊化的語音信息的聚合信息;
14、所述將所述聚合信息進行全連接層變換,得到所述聚合信息的綜合特征,包括:
15、分別對所述每個組塊化的語音信息的聚合信息經(jīng)過全連接層變換,進行特征信息提取,提取每個組塊化的語音信息的聚合信息對應(yīng)的每段特征信息;
16、對所述每段特征信息進行特征連接,確定所述綜合特征。
17、可選的,所述基于所述綜合特征,識別所述語音信息對應(yīng)的方言分類信息,包括:
18、基于每段特征信息中包含的多個組塊化的語音信息的方言識別結(jié)果和各自對應(yīng)的激勵值進行加權(quán)分析,確定所述方言分類信息為目標方言。
19、可選的,在與所述方言分類信息對應(yīng)的字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果之前,所述方法還包括:
20、獲取與所述目標方言對應(yīng)的方言字符集;
21、所述在與所述方言分類信息對應(yīng)的字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果,包括:
22、在所述方言字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果。
23、可選的,所述分別對所述多個組塊化的語音信息利用參數(shù)矩陣進行變換,得到每個組塊化的語音信息的聚合信息,包括:
24、分別對所述多個組塊化的語音信息利用目標參數(shù)矩陣進行變換,生成目標結(jié)果矩陣;
25、確定所述目標結(jié)果矩陣在歸一化指數(shù)層時,在每個預(yù)設(shè)時間點的注意力權(quán)重矩陣;
26、獲取所述注意力權(quán)重矩陣與所述組塊化的語音信息的矩陣信息之間的乘積值;
27、計算所述乘積值在預(yù)設(shè)維度中的加權(quán)和值,作為每個組塊化的語音信息的聚合信息。
28、可選的,在所述對所述語音信息進行方言分類識別之前,所述方法還包括:
29、將待識別的語音信息通過conformer模型進行計算,得到語音信號數(shù)據(jù);
30、所述對所述語音信息進行方言分類識別,獲得所述語音信息對應(yīng)的方言分類信息,包括:
31、對所述語音信號數(shù)據(jù)進行方言分類識別,獲得所述語音信息對應(yīng)的方言分類信息;
32、所述對所述語音信息進行語音特征識別,獲得所述語音信息對應(yīng)的語音特征信息,包括:
33、對所述語音信號數(shù)據(jù)進行語音特征識別,獲得所述語音信息對應(yīng)的語音特征信息。
34、可選的,在與所述方言分類信息對應(yīng)的字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果之前,所述方法還包括:
35、根據(jù)預(yù)存的特殊字符,對所述語音特征信息進行字符識別;
36、若所述語音特征信息中包含所述特殊字符,確認所述特殊字符對應(yīng)的特殊字符集;
37、所述在與所述方言分類信息對應(yīng)的字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果,包括:
38、在與所述方言分類信息對應(yīng)的所述特殊字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果。
39、在本技術(shù)的第二方面實施例提供了一種語音識別裝置,所述裝置包括:
40、獲取模塊,用于獲取待識別的語音信息;
41、識別模塊,用于對所述語音信息進行方言分類識別,獲得所述語音信息對應(yīng)的方言分類信息;及,對所述語音信息進行語音特征識別,獲得所述語音信息對應(yīng)的語音特征信息;
42、匹配模塊,用于在與所述方言分類信息對應(yīng)的字符集中,匹配與所述語音特征信息對應(yīng)的普通話信息,得到所述語音信息的識別結(jié)果,其中,所述字符集中包括與所述方言分類信息對應(yīng)的方言在不同語音特征信息下分別對應(yīng)的普通話信息。
43、在本技術(shù)的第三方面實施例提供了一種電子設(shè)備,包括:
44、至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行中第一方面公開的任一項所述的方法。
45、在本技術(shù)的第四方面實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)第一方面所述的方法。
46、在本技術(shù)的第五方面實施例提供了一種車輛,車輛中搭載如第二方面所述的語音識別裝置或如第三方面所述的電子設(shè)備。
47、綜上,根據(jù)本技術(shù)公開的技術(shù)方案,通過對待識別的語音信息進行方言分類識別和語音特征識別,從而獲得語音信息對應(yīng)的方言分類信息和語音特征信息,同時從兩個角度采集語音信息的相關(guān)信息,確認語音信息所對應(yīng)的方言分類之后,通過方言分類對應(yīng)的字符集,建立語音特征信息與普通話信息之間的對應(yīng)關(guān)系,即在與方言分類信息對應(yīng)的字符集中,匹配與語音特征信息對應(yīng)的普通話信息,得到語音信息的識別結(jié)果,其中,該字符集中包括與方言分類信息對應(yīng)的方言在不同語音特征信息下分別對應(yīng)的普通話信息。與目前使用基通過方言識別模型進行方言語音識別的方式相比,采用本技術(shù)技術(shù)方案可以實現(xiàn)通過兩個方面共同對方言語音的準確識別,實現(xiàn)對用戶的語音信息中方言的準確識別,滿足用戶的方言語音識別的實際使用需求。
48、上述說明僅是本技術(shù)技術(shù)方案的概述,為了能夠更清楚了解本技術(shù)的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本技術(shù)的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本技術(shù)的具體實施方式。