欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種意圖識別模型訓(xùn)練方法、意圖識別方法及裝置與流程

文檔序號:40430750發(fā)布日期:2024-12-24 15:04閱讀:18來源:國知局
一種意圖識別模型訓(xùn)練方法、意圖識別方法及裝置與流程

本技術(shù)涉及模型訓(xùn)練,尤其涉及一種意圖識別模型訓(xùn)練方法、意圖識別方法及裝置。


背景技術(shù):

1、智能外呼系統(tǒng)是一種用于執(zhí)行對客戶的呼叫任務(wù)的平臺,一般集成有自動語音識別(automatic?speech?recognition,asr)技術(shù)、文字轉(zhuǎn)語音(text?to?speech,tts)技術(shù)以及自然語言理解(natural?language?understanding,nlu)技術(shù)。在實際應(yīng)用中,智能外呼系統(tǒng)可以自動撥打用戶電話,將預(yù)先錄制好的語音通過電腦播放給用戶,還可以與客戶進(jìn)行人機(jī)對話。之后,智能外呼系統(tǒng)還可以對通話產(chǎn)生的音頻進(jìn)行文字識別等處理,以分析客戶意圖。

2、當(dāng)前的意圖識別方法主要是基于原生的bert相關(guān)算法或textcnn等算法實現(xiàn)的。原生的bert相關(guān)算法雖然效果可觀,但是當(dāng)部署在復(fù)雜的系統(tǒng)中時,尤其是部署設(shè)備硬件條件有限時,其就會面臨效率問題,如當(dāng)硬件條件較低,而并發(fā)量較高時,算法的推理效率就出現(xiàn)明顯的下降。而對于如textcnn等算法,雖然其效率較高,能夠支持較高的并發(fā)量,但是其識別效果較bert有明顯的下降,尤其是面對復(fù)雜意圖情況時更為明顯。


技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供一種意圖識別模型訓(xùn)練方法、意圖識別方法及裝置,以解決傳統(tǒng)方法識別效率及準(zhǔn)確性差的問題。

2、第一方面,本技術(shù)實施例提供一種意圖識別模型訓(xùn)練方法,包括:獲取第一訓(xùn)練數(shù)據(jù),第一訓(xùn)練數(shù)據(jù)包括帶有意圖分類標(biāo)簽的多條文本數(shù)據(jù);將第一訓(xùn)練數(shù)據(jù)輸入至第一模型及第二模型中,以第一模型為教師模型、以第二模型為學(xué)生模型,利用知識蒸餾算法對第一模型及第二模型的第一目標(biāo)層結(jié)構(gòu)進(jìn)行蒸餾計算,以使第二模型用于確定文本數(shù)據(jù)對應(yīng)的意圖分類標(biāo)簽;其中,第一模型的模型參數(shù)量大于第二模型,且第一模型已經(jīng)過第一訓(xùn)練數(shù)據(jù)的訓(xùn)練,第一目標(biāo)層結(jié)構(gòu)為嵌入層、多頭注意力層、編碼器層及密集層。

3、在一種可實現(xiàn)的方式中,將第一訓(xùn)練數(shù)據(jù)輸入至第一模型及第二模型中,以第一模型為教師模型、以第二模型為學(xué)生模型,利用知識蒸餾算法對第一模型及第二模型的第一目標(biāo)層結(jié)構(gòu)進(jìn)行蒸餾計算的步驟前,還包括:獲取第二訓(xùn)練數(shù)據(jù),第二訓(xùn)練數(shù)據(jù)包括不帶有意圖分類標(biāo)簽的多條文本數(shù)據(jù);將第二訓(xùn)練數(shù)據(jù)輸入至第一模型及第二模型中,以第一模型為教師模型、以第二模型為學(xué)生模型,利用知識蒸餾算法對第一模型及第二模型的第二目標(biāo)層結(jié)構(gòu)進(jìn)行蒸餾計算,以使第二模型用于理解文本數(shù)據(jù)的語義,第二目標(biāo)層結(jié)構(gòu)為多頭注意力層及編碼器層。

4、在一種可實現(xiàn)的方式中,第一訓(xùn)練數(shù)據(jù)及第二訓(xùn)練數(shù)據(jù)還包括文本數(shù)據(jù)對應(yīng)的編碼id信息;將第二訓(xùn)練數(shù)據(jù)輸入至第一模型及第二模型中,以第一模型為教師模型、以第二模型為學(xué)生模型,利用知識蒸餾算法對第一模型及第二模型的第二目標(biāo)層結(jié)構(gòu)進(jìn)行蒸餾計算的步驟前,還包括:針對第一訓(xùn)練數(shù)據(jù)及第二訓(xùn)練數(shù)據(jù)的每一條文本數(shù)據(jù),判斷文本數(shù)據(jù)的文字長度是否超過第一預(yù)設(shè)長度;如果文本數(shù)據(jù)的文字長度超過第一預(yù)設(shè)長度,截取文本數(shù)據(jù),以使文本數(shù)據(jù)的文字長度等于第一預(yù)設(shè)長度;查詢編碼映射表,確定文本數(shù)據(jù)中每一編碼單元對應(yīng)的編碼id信息,形成第一編碼序列。

5、在一種可實現(xiàn)的方式中,判斷文本數(shù)據(jù)的文字長度是否超過第一預(yù)設(shè)長度的步驟后,還包括:如果文本數(shù)據(jù)的文字長度不超過第一預(yù)設(shè)長度,查詢編碼映射表,確定文本數(shù)據(jù)中每一編碼單元對應(yīng)的編碼id信息,形成子序列;在子序列的末尾增加占位值,形成第二編碼序列,且第二編碼序列的字符長度等于第一編碼序列的字符長度。

6、在一種可實現(xiàn)的方式中,第一訓(xùn)練數(shù)據(jù)及第二訓(xùn)練數(shù)據(jù)還包括文本數(shù)據(jù)對應(yīng)的掩碼id信息和符號類型編碼信息;其中,掩碼id信息等于第一默認(rèn)值;形成第一編碼序列的步驟后,還包括:基于第一編碼序列中的每一位編碼id信息,確定符號類型編碼信息;其中,編碼id信息對應(yīng)的符號類型編碼信息為第二默認(rèn)值;形成第二編碼序列的步驟后,還包括:基于第二編碼序列中的每一位編碼id信息及占位值,確定符號類型編碼信息;其中,占位值對應(yīng)的符號類型編碼信息為第三默認(rèn)值。

7、在一種可實現(xiàn)的方式中,模型參數(shù)量至少包括嵌入層的維度embedding-size及編碼器層的相關(guān)參數(shù),編碼器層的相關(guān)參數(shù)至少包括隱藏層維度hidden_size、注意力頭數(shù)量num_attention_heads、隱藏層數(shù)量num_hidden_layers及前饋神經(jīng)網(wǎng)絡(luò)中間層維度intermediate_size;其中,第一模型的嵌入層的維度embedding-size為768,第二模型的嵌入層維度embedding-size為192;第一模型的注意力頭數(shù)量num_attention_heads為768,第二模型的注意力頭數(shù)量num_attention_heads為192;第一模型的隱藏層數(shù)量num_hidden_layers為12,第二模型的隱藏層數(shù)量num_hidden_layers為8;第一模型的隱藏層數(shù)量num_hidden_layers為12,第二模型的隱藏層數(shù)量num_hidden_layers為2,第一模型的前饋神經(jīng)網(wǎng)絡(luò)中間層維度intermediate_size為3072,第二模型的前饋神經(jīng)網(wǎng)絡(luò)中間層維度intermediate_size為768。

8、在一種可實現(xiàn)的方式中,知識蒸餾算法至少包括多種損失函數(shù);利用知識蒸餾算法對第一模型及第二模型的第一目標(biāo)層結(jié)構(gòu)進(jìn)行蒸餾計算的步驟包括:利用目標(biāo)損失函數(shù),計算第一模型與第二模型每一個相對應(yīng)的第一目標(biāo)層結(jié)構(gòu)之間的輸出差異;其中,目標(biāo)損失函數(shù)為多種損失函數(shù)中的其中一種,目標(biāo)損失函數(shù)與第一目標(biāo)層結(jié)構(gòu)的類型相對應(yīng);對輸出差異進(jìn)行加權(quán)求和,得到蒸餾損失;利用蒸餾損失修改第二模型的目標(biāo)參數(shù),目標(biāo)參數(shù)為第二模型的權(quán)重及偏置。

9、第二方面,本技術(shù)實施例提供一種意圖識別方法,包括:獲取待識別的語音段;將語音段轉(zhuǎn)換為第一文本數(shù)據(jù);將第一文本數(shù)據(jù)輸入至第二模型中,確定語音段對應(yīng)的意圖分類標(biāo)簽,以確定語音段對應(yīng)的意圖;其中,第二模型是經(jīng)過第一方面及其各個實現(xiàn)方式中的意圖識別模型訓(xùn)練方法預(yù)訓(xùn)練的。

10、第三方面,本技術(shù)實施例提供一種意圖識別模型訓(xùn)練裝置,包括:第一獲取模塊,用于獲取第一訓(xùn)練數(shù)據(jù),第一訓(xùn)練數(shù)據(jù)包括帶有意圖分類標(biāo)簽的多條文本數(shù)據(jù);強蒸餾模塊,用于將第一訓(xùn)練數(shù)據(jù)輸入至第一模型及第二模型中,以第一模型為教師模型、以第二模型為學(xué)生模型,利用知識蒸餾算法對第一模型及第二模型的第一目標(biāo)層結(jié)構(gòu)進(jìn)行蒸餾計算,以使第二模型用于確定文本數(shù)據(jù)對應(yīng)的意圖分類標(biāo)簽;其中,第一模型的模型參數(shù)量大于第二模型,且第一模型已經(jīng)過第一訓(xùn)練數(shù)據(jù)的訓(xùn)練,第一目標(biāo)層結(jié)構(gòu)為嵌入層、多頭注意力層、編碼器層及密集層。

11、第四方面,本技術(shù)實施例提供一種意圖識別裝置,包括:第二獲取模塊,用于獲取待識別的語音段;轉(zhuǎn)換模塊,用于將語音段轉(zhuǎn)換為第一文本數(shù)據(jù);意圖識別模塊,用于將第一文本數(shù)據(jù)輸入至第二模型中,確定語音段對應(yīng)的意圖分類標(biāo)簽,以確定語音段對應(yīng)的意圖;其中,第二模型是經(jīng)過第一方面及其各個實現(xiàn)方式中的意圖識別模型訓(xùn)練方法預(yù)訓(xùn)練的。

12、由以上內(nèi)容可知,本技術(shù)實施例提供一種意圖識別模型訓(xùn)練方法、意圖識別方法及裝置,該意圖識別模型訓(xùn)練方法包括獲取第一訓(xùn)練數(shù)據(jù),第一訓(xùn)練數(shù)據(jù)包括帶有意圖分類標(biāo)簽的多條文本數(shù)據(jù);將第一訓(xùn)練數(shù)據(jù)輸入至第一模型及第二模型中,以第一模型為教師模型、以第二模型為學(xué)生模型,利用知識蒸餾算法對第一模型及第二模型的第一目標(biāo)層結(jié)構(gòu)進(jìn)行蒸餾計算,以使第二模型用于確定文本數(shù)據(jù)對應(yīng)的意圖分類標(biāo)簽;其中,第一模型的模型參數(shù)量大于第二模型,且第一模型已經(jīng)過第一訓(xùn)練數(shù)據(jù)的訓(xùn)練,第一目標(biāo)層結(jié)構(gòu)為嵌入層、多頭注意力層、編碼器層及密集層。這樣,可以在算法的開始階段(嵌入層)、算法的中間部分(多頭注意力層及編碼器層)以及算法的結(jié)尾部分(密集層)都進(jìn)行蒸餾和映射,進(jìn)而使得算法的蒸餾更加徹底,保證了學(xué)生模型與教師模型靠的更近,使得第二模型的意圖識別準(zhǔn)確性更高且模型識別速度更快。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
石家庄市| 霍州市| 宜都市| 望城县| 曲周县| 灵山县| 湘潭市| 临沧市| 新巴尔虎左旗| 枞阳县| 富源县| 攀枝花市| 乐都县| 交口县| 涿鹿县| 定西市| 京山县| 房产| 饶平县| 武川县| 滨州市| 贡嘎县| 巴林左旗| 个旧市| 咸丰县| 耒阳市| 宜黄县| 武冈市| 江城| 灵川县| 东阳市| 瓦房店市| 兰州市| 墨竹工卡县| 深水埗区| 清镇市| 日照市| 涟源市| 南澳县| 柳林县| 潜江市|