本公開涉及計算機,尤其涉及對話服務評估方法、裝置、計算機設備及存儲介質。
背景技術:
1、隨著智慧教育和人工智能技術的飛速發(fā)展,人工智能在教育領域的應用越來越廣泛,尤其是在語言學習方面。智能對話服務作為一種重要的技術手段,已經被廣泛應用于各種教育場景,例如在小學生英語學習的場景中。目前,市場上已經出現了多家提供智能對話服務的公司,這些公司利用各自獨特的算法和技術,來實現幫助學生進行語言學習的對話服務。
2、相關技術中,通常是通過人工測試的方式來對多個智能對話服務進行篩選,以從中選擇出最優(yōu)的對話服務。然而,通過人工測試進行篩選的方式,通常存在測試耗時較長、全面性和客觀性較差等問題。
技術實現思路
1、為克服相關技術中存在的問題,本公開提供了一種對話服務評估方法、裝置、計算機設備及存儲介質。
2、根據本公開實施例的第一方面,本技術提供了一種對話服務評估方法,所述方法包括:
3、獲取多個候選對話服務的對話信息,其中,所述對話信息包括模擬回答信息和服務輸出信息;
4、將所述多個候選對話服務中每一候選對話服務的對話信息輸入至服務評估模型,以得到每一候選對話服務的對話分數,其中,所述服務評估模型是基于大語言模型訓練得到的;
5、根據每一候選對話服務的對話分數,從所述多個候選對話服務中確定目標對話服務。
6、結合本公開的任一實施方式,所述服務評估模型的訓練過程如下:
7、基于模型訓練數據集,對所述大語言模型進行訓練,得到服務評估模型,其中,所述模型訓練數據集包括多個用例場景中每個用例場景下的多組對話信息和每組所述對話信息的分數標簽。
8、結合本公開的任一實施方式,所述模型訓練數據集的構建過程如下:
9、針對多個用例場景中的每個用例場景,為所述用例場景編寫多種模擬回答信息和服務輸出信息,以構建所述測試場景的多組對話信息;
10、標注所述用例場景下的每組對話信息對應的分數標簽,以得到模型訓練數據集。
11、結合本公開的任一實施方式,所述標注所述用例場景下的每組對話信息對應的分數標簽,以得到模型訓練數據集,包括:
12、針對所述用例場景下的每一句所述服務輸出信息,提取多個打分項對應的打分內容;
13、基于預先設定的打分規(guī)則,根據每一個所述打分項對應的打分內容對每一個所述打分項進行打分;
14、根據每一個所述打分項的分數,確定所述對話信息的分數標簽。
15、結合本公開的任一實施方式,所述打分項包括字數打分項、使用詞匯打分項、使用語法打分項和邏輯打分項;
16、所述基于預先設定的打分規(guī)則,根據每一個所述打分項對應的打分內容對每一個所述打分項進行打分,包括:
17、根據所述服務輸出信息的字數是否小于或等于預設閾值,確定所述字數打分項的分數;
18、根據所述服務輸出信息中的使用詞匯是否在預設詞匯范圍內,確定所述使用詞匯打分項的分數;
19、根據所述服務輸出信息中的使用語法是否在預設語法范圍內,確定所述使用語法打分項的分數;
20、根據所述服務輸出信息是否符合邏輯,確定所述邏輯打分項的分數。
21、結合本公開的任一實施方式,所述根據每一個所述打分項的分數,確定所述對話信息的分數標簽,包括:
22、將每一個所述打分項的分數的平均值,作為對話信息的分數標簽。
23、結合本公開的任一實施方式,所述根據每一候選對話服務的對話分數,從所述多個候選對話服務中確定目標對話服務,包括:
24、根據每一候選對話服務的對話分數和所述每一候選對話服務的接口數據,從所述多個候選對話服務中確定目標對話服務。
25、結合本公開的任一實施方式,所述接口數據包括接口響應速度和接口成功率。
26、結合本公開的任一實施方式,所述獲取每一候選對話服務的對話信息,包括:
27、將多個測試場景中每一測試場景下的模擬回答信息輸入至每一候選對話服務中,以生成每一候選對話服務的對話信息。
28、第二方面,本技術還提供了一種對話服務評估裝置,包括:
29、信息獲取模塊,用于獲取多個候選對話服務的對話信息,其中,所述對話信息包括模擬回答信息和服務輸出信息;
30、分數生成模塊,用于將所述多個候選對話服務中每一候選對話服務的對話信息輸入至服務評估模型,以得到每一候選對話服務的對話分數,其中,所述服務評估模型是基于大語言模型訓練得到的;
31、服務確定模塊,用于根據每一候選對話服務的對話分數,從所述多個候選對話服務中確定目標對話服務。
32、在其中一個實施例中,上述對話服務評估裝置還包括:
33、模型訓練模塊,用于基于模型訓練數據集,對所述大語言模型進行訓練,得到服務評估模型,其中,所述模型訓練數據集包括多個用例場景中每個用例場景下的多組對話信息和每組所述對話信息的分數標簽。
34、在其中一個實施例中,上述模型訓練模塊具體用于:
35、針對多個用例場景中的每個用例場景,為所述用例場景編寫多種模擬回答信息和服務輸出信息,以構建所述用例場景的多組對話信息;
36、標注所述用例場景下的每組對話信息對應的分數標簽,以得到模型訓練數據集。
37、在其中一個實施例中,上述模型訓練模塊具體用于:
38、針對所述用例場景下的每一句所述服務輸出信息,提取多個打分項對應的打分內容;
39、基于預先設定的打分規(guī)則,根據每一個所述打分項對應的打分內容對每一個所述打分項進行打分;
40、根據每一個所述打分項的分數,確定所述對話信息的分數標簽。
41、在其中一個實施例中,所述打分項包括字數打分項、使用詞匯打分項、使用語法打分項和邏輯打分項;
42、上述模型訓練模塊具體用于:
43、根據所述服務輸出信息的字數是否小于或等于預設閾值,確定所述字數打分項的分數;
44、根據所述服務輸出信息中的使用詞匯是否在預設詞匯范圍內,確定所述使用詞匯打分項的分數;
45、根據所述服務輸出信息中的使用語法是否在預設語法范圍內,確定所述使用語法打分項的分數;
46、根據所述服務輸出信息是否符合邏輯,確定所述邏輯打分項的分數。
47、在其中一個實施例中,上述模型訓練模塊具體用于:
48、將每一個所述打分項的分數的平均值,作為對話信息的分數標簽。
49、在其中一個實施例中,上述服務確定模塊具體用于:
50、根據每一候選對話服務的對話分數和所述每一候選對話服務的接口數據,從所述多個候選對話服務中確定目標對話服務。
51、在其中一個實施例中,所述接口數據包括接口響應速度和接口成功率。
52、在其中一個實施例中,上述信息獲取模塊具體用于:
53、將多個測試場景中每一測試場景下的模擬回答信息輸入至每一候選對話服務中,以生成每一候選對話服務的對話信息。
54、第三方面,本技術提供了一種計算機程序產品,包括計算機程序/指令,所述計算機程序/指令被處理器執(zhí)行時實現任一實施例所述方法的步驟。
55、第四方面,本技術提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,所述處理器執(zhí)行所述程序時實現上述任一實施例所述方法的步驟。
56、第五方面,本技術提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現上述任一實施例所述方法的步驟。
57、本公開的實施例提供的技術方案可以包括以下有益效果:
58、相較于通過人工測試來從多個對話服務中選擇目標對話服務而言,本公開實施例中,通過引入由對大語言模型訓練得到的服務評估模型,將所獲取的多個候選對話服務的對話信息輸入至服務評估模型中,能夠更加標準、高效的得到每一候選對話服務的對話分數,進而根據每一候選對話服務的對話分數,從多個候選對話服務中確定目標對話服務,能夠實現更加全面、高效的確定目標對話服務,提高用戶利用對話服務進行語言學習的學習體驗的效果。
59、應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。