1.一種意圖識別模型訓練方法,其特征在于,包括:
2.根據(jù)權利要求1所述的意圖識別模型訓練方法,其特征在于,將所述第一訓練數(shù)據(jù)輸入至第一模型及第二模型中,以所述第一模型為教師模型、以所述第二模型為學生模型,利用知識蒸餾算法對所述第一模型及所述第二模型的第一目標層結構進行蒸餾計算的步驟前,還包括:
3.根據(jù)權利要求2所述的意圖識別模型訓練方法,其特征在于,所述第一訓練數(shù)據(jù)及所述第二訓練數(shù)據(jù)還包括文本數(shù)據(jù)對應的編碼id信息;
4.根據(jù)權利要求3所述的意圖識別模型訓練方法,其特征在于,判斷所述文本數(shù)據(jù)的文字長度是否超過第一預設長度的步驟后,還包括:
5.根據(jù)權利要求4所述的意圖識別模型訓練方法,其特征在于,所述第一訓練數(shù)據(jù)及所述第二訓練數(shù)據(jù)還包括文本數(shù)據(jù)對應的掩碼id信息和符號類型編碼信息;其中,所述掩碼id信息等于第一默認值;
6.根據(jù)權利要求1所述的意圖識別模型訓練方法,其特征在于,所述模型參數(shù)量至少包括所述嵌入層的維度embedding-size及所述編碼器層的相關參數(shù),所述編碼器層的相關參數(shù)至少包括隱藏層維度hidden_size、注意力頭數(shù)量num_attention_heads、隱藏層數(shù)量num_hidden_layers及前饋神經(jīng)網(wǎng)絡中間層維度intermediate_size;其中,所述第一模型的所述嵌入層的維度embedding-size為768,所述第二模型的所述嵌入層維度embedding-size為192;所述第一模型的注意力頭數(shù)量num_attention_heads為768,所述第二模型的注意力頭數(shù)量num_attention_heads為192;所述第一模型的隱藏層數(shù)量num_hidden_layers為12,所述第二模型的隱藏層數(shù)量num_hidden_layers為8;所述第一模型的隱藏層數(shù)量num_hidden_layers為12,所述第二模型的隱藏層數(shù)量num_hidden_layers為2,所述第一模型的前饋神經(jīng)網(wǎng)絡中間層維度intermediate_size為3072,所述第二模型的前饋神經(jīng)網(wǎng)絡中間層維度intermediate_size為768。
7.根據(jù)權利要求1所述的意圖識別模型訓練方法,其特征在于,所述知識蒸餾算法至少包括多種損失函數(shù);
8.一種意圖識別方法,其特征在于,包括:
9.一種意圖識別模型訓練裝置,其特征在于,包括:
10.一種意圖識別裝置,其特征在于,包括: