本發(fā)明涉及語音識別領(lǐng)域,具體為一種呼叫中心長語音識別模型訓(xùn)練方法。
背景技術(shù):
1、隨著通信技術(shù)的發(fā)展,越來越多的大型企業(yè)通過建立呼叫中心系統(tǒng)為客戶提供服務(wù)。在大型企業(yè)的內(nèi)部,通常按照各自的分工分別建立自己的呼叫中心,以提供不同的客戶服務(wù)。以運營商建立的呼叫中心系統(tǒng)為例,通常,運營商提供的業(yè)務(wù)服務(wù)分類細(xì)致,因此運營商內(nèi)部呼叫中心數(shù)量較多,不同的呼叫中心間相互獨立。
2、目前,在呼叫中心的客戶服務(wù)中,一般分為菜單欄訪問對話與客服對話,其中菜單欄由于較為復(fù)雜,用戶很難快速定位到其想要訪問的菜單,而近年來語音技術(shù)得到了飛速的發(fā)展,通過語音識別技術(shù),創(chuàng)造出語音菜單的快速訪問方式,提高用戶進(jìn)入菜單的快捷方式;而客服對話則是利用人工智能客服對客戶的語音進(jìn)行識別,進(jìn)而給出建議或判斷。但不管是菜單欄訪問對話還是客服對話均依托于語音識別系統(tǒng)實現(xiàn)。
3、現(xiàn)有的語音識別系統(tǒng)/模型大多是針對短語音的識別,由于部分用戶說話的語速較為連續(xù),即長語音,在進(jìn)行該種長語音的識別過程中語音識別系統(tǒng)/模型識別受限,往往存在準(zhǔn)確度不高或識別錯誤的情況,無法準(zhǔn)確的清楚長語音的具體語義,基于此本發(fā)明提出一種呼叫中心長語音識別模型訓(xùn)練方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種呼叫中心長語音識別模型訓(xùn)練方法,以解決上述背景技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種呼叫中心長語音識別模型訓(xùn)練方法,包括步驟:
3、s1:獲取呼叫中心的同一用戶的待識別語音數(shù)據(jù),待識別語音數(shù)據(jù)包括不連續(xù)短語音與連續(xù)長語音,并對其進(jìn)行預(yù)處理;
4、s2:針對預(yù)處理后的不連續(xù)短語音采用語音拼接算法進(jìn)行拼接處理后獲得拼接長語音a;針對預(yù)處理后的連續(xù)長語音采用語音切割拼接方法進(jìn)行處理后獲得拼接長語音b;
5、s3:將步驟s1中連續(xù)長語音與步驟s2中拼接長語音a、拼接長語音b分別進(jìn)行特征提取得到語義特征向量矩陣;
6、s4:將語義特征向量矩陣輸入至預(yù)構(gòu)建的長語音識別模型中進(jìn)行訓(xùn)練,得到訓(xùn)練好的長語音識別模型。
7、優(yōu)選的,步驟s1中預(yù)處理過程包括:采用頻譜減法和聲學(xué)分析處理去除連續(xù)短語音與連續(xù)長語音中的噪聲,并依次經(jīng)數(shù)據(jù)增強(qiáng)和修復(fù)后輸出預(yù)處理后的連續(xù)短語音與連續(xù)長語音。
8、優(yōu)選的,頻譜減法的具體過程包括:
9、對連續(xù)短語音與連續(xù)長語音進(jìn)行傅里葉變換,得到相應(yīng)的幅值?和相位;
10、從變換前的聲音信號中取一段低頻信號,對應(yīng)的頻率寬度為nis,求出低頻信號段的平均譜值;
11、將求得的和帶入譜減法公式中得到譜減輸出的值,為譜減后的信號幅值的二次方,其中,所述譜減法的公式為:
12、;
13、式中:,為常數(shù),稱為過減因子,稱為增益補(bǔ)償因子;
14、基于得到的及,通過快速傅里葉逆變換可得到預(yù)處理后的聲音信號。
15、優(yōu)選的,步驟s2中語音拼接算法基于高低頻的語義拼接邏輯,其具體拼接處理過程包括:
16、s201a:確定多段不連續(xù)短語音的高頻成分和低頻成分;
17、s202a:根據(jù)高頻成分和低頻成分提取所述不連續(xù)短語音所對應(yīng)的第一倒譜特征和第二倒譜特征;
18、s203a:以幀為單位,拼接所述不連續(xù)短語音中的每一幀語音中的第一倒譜特征和第二倒譜特征,得到參數(shù)序列;
19、s204a:對多段不連續(xù)短語音進(jìn)行語義提取處理,得到語義特征序列;
20、s205a:基于參數(shù)序列和語義特征序列進(jìn)行語音拼接,得到拼接長語音a
21、優(yōu)選的,步驟s2中連續(xù)長語音采用語音切割拼接方法進(jìn)行處理后獲得拼接長語音b的具體過程包括:
22、s201b:對連續(xù)長語音進(jìn)行分割,得到至少兩個語音片段,其中每兩個相鄰的語音片段之間具有部分重疊語音片段;
23、s202b:將上述的語音片段輸入至預(yù)先構(gòu)建的語音識別模型中進(jìn)行語音識別處理,得到語音后驗概率特征;
24、s203b:將所述語音后驗概率特征和目標(biāo)音色標(biāo)識輸入至語音轉(zhuǎn)換模型中進(jìn)行語音轉(zhuǎn)換處理,得到語音轉(zhuǎn)換結(jié)果;
25、s204b:對至少兩個語音片段以及語音轉(zhuǎn)換結(jié)果進(jìn)行語音拼接處理,得到語音輸出結(jié)果;
26、,
27、式中,示所述語音輸出結(jié)果;表示語音片段;表示語音轉(zhuǎn)換結(jié)果。
28、優(yōu)選的,步驟s3中語義特征向量矩陣通過以下步驟獲?。?/p>
29、s301:通過預(yù)設(shè)的濾波器組提取所述連續(xù)長語音、拼接長語音a、拼接長語音b對應(yīng)的語音特征序列;
30、s302:通過預(yù)先構(gòu)建的編碼器獲取上述語音特征序列中語音特征對應(yīng)的聲學(xué)表征;
31、s303:通過預(yù)先構(gòu)建的詞嵌入矩陣將所述聲學(xué)表征的隱向量映射到源語言詞表,得到所述語義特征向量矩陣。
32、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
33、本發(fā)明能實現(xiàn)對長語音識別,其識別邏輯基于拼接長語音a、拼接長語音b,其中拼接長語音a為不連續(xù)短語音采用語音拼接算法進(jìn)行拼接處理后獲得,拼接長語音b為連續(xù)長語音采用語音切割拼接方法處理后獲得,通過綜合不連續(xù)短語音以及連續(xù)長語音來提供長語音判別的依據(jù),具有準(zhǔn)確度高且識別速度快的優(yōu)勢。
1.一種呼叫中心長語音識別模型訓(xùn)練方法,其特征在于,包括步驟:
2.根據(jù)權(quán)利要求1所述的一種呼叫中心長語音識別模型訓(xùn)練方法,其特征在于:所述步驟s1中預(yù)處理過程包括:采用頻譜減法和聲學(xué)分析處理去除連續(xù)短語音與連續(xù)長語音中的噪聲,并依次經(jīng)數(shù)據(jù)增強(qiáng)和修復(fù)后輸出預(yù)處理后的連續(xù)短語音與連續(xù)長語音。
3.根據(jù)權(quán)利要求2所述的一種呼叫中心長語音識別模型訓(xùn)練方法,其特征在于:所述頻譜減法的具體過程包括:
4.根據(jù)權(quán)利要求1所述的一種呼叫中心長語音識別模型訓(xùn)練方法,其特征在于:所述步驟s2中語音拼接算法基于高低頻的語義拼接邏輯,其具體拼接處理過程包括:
5.根據(jù)權(quán)利要求1所述的一種呼叫中心長語音識別模型訓(xùn)練方法,其特征在于:所述步驟s2中連續(xù)長語音采用語音切割拼接方法進(jìn)行處理后獲得拼接長語音b的具體過程包括:
6.根據(jù)權(quán)利要求1所述的一種呼叫中心長語音識別模型訓(xùn)練方法,其特征在于:所述步驟s3中語義特征向量矩陣通過以下步驟獲?。?/p>
技術(shù)總結(jié)
本發(fā)明公開了一種呼叫中心長語音識別模型訓(xùn)練方法,包括步驟:獲取呼叫中心的同一用戶的待識別語音數(shù)據(jù),待識別語音數(shù)據(jù)包括不連續(xù)短語音與連續(xù)長語音,并對其進(jìn)行預(yù)處理;針對預(yù)處理后的不連續(xù)短語音采用語音拼接算法進(jìn)行拼接處理后獲得拼接長語音A;針對預(yù)處理后的連續(xù)長語音采用語音切割拼接方法進(jìn)行處理后獲得拼接長語音B;連續(xù)長語音與拼接長語音A、拼接長語音B分別進(jìn)行特征提取得到語義特征向量矩陣;將語義特征向量矩陣輸入至預(yù)構(gòu)建的長語音識別模型中進(jìn)行訓(xùn)練,得到訓(xùn)練好的長語音識別模型。本發(fā)明通過綜合不連續(xù)短語音以及連續(xù)長語音來提供長語音判別的依據(jù),具有準(zhǔn)確度高且識別速度快的優(yōu)勢。
技術(shù)研發(fā)人員:譚書華,蔡勁松,李釗輝,胥春石,王保三,沈晶,孫洋,胡宏魯
受保護(hù)的技術(shù)使用者:科訊嘉聯(lián)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23