本申請涉及數(shù)據(jù)處理,尤其涉及一種模型評測方法、裝置、計算機設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、大語言模型是一種大型的人工智能模型,其主要通過學習大量文本數(shù)據(jù)來理解和生成人類語言,并通過模擬人類的語言生成和理解過程,執(zhí)行各種自然語言處理任務(wù),如文本翻譯、自動問答、內(nèi)容創(chuàng)作等。由于大語言模型通常被應(yīng)用于各種復雜的自然語言處理任務(wù)中,其表現(xiàn)直接關(guān)系到應(yīng)用的準確性,因此,需要對大語言模型進行評測。
2、相關(guān)技術(shù)中,在對大語言模型進行評測時,一般通過人工打分的方式,或者評估模型打分的方式進行評分,并將評分結(jié)果作為大語言模型的評測結(jié)果。但是,采用此種方式打分會導致評測結(jié)果存在較強的主觀性,從而使得最終的評測結(jié)果缺乏準確性。
技術(shù)實現(xiàn)思路
1、本申請實施例的主要目的在于提出一種模型評測方法、裝置、計算機設(shè)備及可讀存儲介質(zhì),能夠提高對模型進行評測的準確性。
2、為實現(xiàn)上述目的,本申請實施例的第一方面提出了一種模型評測方法,所述方法包括:
3、獲取多個評測問題;
4、針對每個所述評測問題,將所述評測問題輸入至待評測模型得到第一評測答案,以及將所述評測問題分別輸入多個參照模型中,得到多個第二評測答案;
5、將所述第一評測答案分別與多個所述第二評測答案組合得到多個評測組合,并將多個所述評測組合輸入至每個預(yù)設(shè)評估模型中,得到所述評測問題在每個所述預(yù)設(shè)評估模型下的第一評測得分;
6、基于多個所述預(yù)設(shè)評估模型對應(yīng)的多個第一評測得分,確定所述待評測模型在評測對應(yīng)的所述評測問題時的目標得分;
7、基于所述待評測模型在評測多個所述評測問題時的多個所述目標得分,確定所述待評測模型的評測得分。
8、相應(yīng)的,本申請實施例的第二方面提出了一種模型評測裝置,所述裝置包括:
9、獲取模塊,用于獲取多個評測問題;
10、輸入模塊,用于針對每個所述評測問題,將所述評測問題輸入至待評測模型得到第一評測答案,以及將所述評測問題分別輸入多個參照模型中,得到多個第二評測答案;
11、組合模塊,用于將所述第一評測答案分別與多個所述第二評測答案組合得到多個評測組合,并將多個所述評測組合輸入至每個預(yù)設(shè)評估模型中,得到所述評測問題在每個所述預(yù)設(shè)評估模型下的第一評測得分;
12、第一確定模塊,用于基于多個所述預(yù)設(shè)評估模型對應(yīng)的多個第一評測得分,確定所述待評測模型在評測對應(yīng)的所述評測問題時的目標得分;
13、第二確定模塊,用于基于所述待評測模型在評測多個所述評測問題時的多個所述目標得分,確定所述待評測模型的評測得分。
14、在一些實施方式中,所述組合模塊,還用于:
15、將多個所述評測組合輸入至每個預(yù)設(shè)評估模型中進行評測答案的比較,得到比較結(jié)果;
16、基于所述比較結(jié)果從每個所述評測組合中確定對應(yīng)的目標評測答案;
17、根據(jù)所述第一評測答案在多個所述目標評測答案中的分布,確定所述評測問題在每個所述預(yù)設(shè)評估模型下的第一評測得分。
18、在一些實施方式中,所述組合模塊,還用于:
19、根據(jù)所述第一評測答案在多個所述目標評測答案中的分布,確定多個所述目標評測答案表征為所述第一評測答案的第一數(shù)量;
20、獲取所述參照模型的數(shù)量作為第二數(shù)量;
21、基于所述第一數(shù)量和所述第二數(shù)量的比值,確定所述評測問題在每個所述預(yù)設(shè)評估模型下的第一評測得分。
22、在一些實施方式中,所述組合模塊,還用于:
23、獲取針對所述待評測模型的待評測項;
24、基于所述第一評測答案、多個所述第二評測答案和所述待評測項,得到對應(yīng)的多個評測組合。
25、在一些實施方式中,所述第一確定模塊,還用于:
26、基于多個所述預(yù)設(shè)評估模型對應(yīng)的多個第一評測得分之和,得到第二得分;
27、獲取所述預(yù)設(shè)評估模型的第二數(shù)量,并根據(jù)多個所述第二得分與所述第二數(shù)量的比值,確定所述待評測模型在評測對應(yīng)的所述評測問題時的目標得分。
28、在一些實施方式中,第二確定模塊,還用于:
29、基于所述待評測模型在評測多個所述評測問題時的多個所述目標得分之和,得到第三得分;
30、獲取多個所述評測問題的第三數(shù)量,并根據(jù)多個所述第三得分與所述第三數(shù)量的比值,確定所述待評測模型的評測得分。
31、在一些實施方式中,所述模型評測裝置還包括綜合模塊,用于:
32、獲取所述待評測模型的多個待評測項;
33、針對每個所述待評測項,對每個評測問題,將所述評測問題輸入至待評測模型得到第一評測答案,以及將所述評測問題分別輸入多個參照模型中,得到多個第二評測答案;
34、將所述第一評測答案分別與多個所述第二評測答案組合得到多個評測組合,并將多個所述評測組合輸入至每個預(yù)設(shè)評估模型中,得到所述評測問題在每個所述預(yù)設(shè)評估模型下的第一評測得分;
35、基于多個所述預(yù)設(shè)評估模型對應(yīng)的多個第一評測得分,確定所述待評測模型在評測對應(yīng)的所述評測問題時的目標得分;
36、基于所述待評測模型在評測多個所述評測問題時的多個所述目標得分,確定所述待評測模型在所述待評測項下的評測得分;
37、將多個所述待評測項下的多個所述評測得分進行加權(quán)平均,得到所述待評測模型的綜合評測得分。
38、相應(yīng)的,本申請實施例的第三方面提出了一種計算機設(shè)備,所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本申請第一方面實施例任一項所述的模型評測方法。
39、相應(yīng)的,本申請實施例的第四方面提出了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本申請第一方面實施例任一項所述的模型評測方法。
40、本申請實施例通過獲取多個評測問題;針對每個評測問題,將評測問題輸入至待評測模型得到第一評測答案,以及將評測問題分別輸入多個參照模型中,得到多個第二評測答案;將第一評測答案分別與多個第二評測答案組合得到多個評測組合,并將多個評測組合輸入至每個預(yù)設(shè)評估模型中,得到評測問題在每個預(yù)設(shè)評估模型下的第一評測得分;基于多個預(yù)設(shè)評估模型對應(yīng)的多個第一評測得分,確定待評測模型在評測對應(yīng)的評測問題時的目標得分;基于待評測模型在評測多個評測問題時的多個目標得分,確定待評測模型的評測得分;以此,能夠通過多樣化的評測問題、多個參照模型的使用以及多個預(yù)設(shè)評估模型的綜合考量,更客觀地反映待評測模型在不同情景下的性能表現(xiàn),提高了模型評測的全面性和準確性。
1.一種模型評測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的模型評測方法,其特征在于,所述將多個所述評測組合輸入至每個預(yù)設(shè)評估模型中,得到所述評測問題在每個所述預(yù)設(shè)評估模型下的第一評測得分,包括:
3.根據(jù)權(quán)利要求1所述的模型評測方法,其特征在于,所述根據(jù)所述第一評測答案在多個所述目標評測答案中的分布,確定所述評測問題在每個所述預(yù)設(shè)評估模型下的第一評測得分,包括:
4.根據(jù)權(quán)利要求1所述的模型評測方法,其特征在于,所述將所述第一評測答案分別與多個所述第二評測答案組合得到多個評測組合,包括:
5.根據(jù)權(quán)利要求1所述的模型評測方法,其特征在于,所述基于多個所述預(yù)設(shè)評估模型對應(yīng)的多個第一評測得分,確定所述待評測模型在評測對應(yīng)的所述評測問題時的目標得分,包括:
6.根據(jù)權(quán)利要求1所述的模型評測方法,其特征在于,所述基于所述待評測模型在評測多個所述評測問題時的多個所述目標得分,確定所述待評測模型的評測得分,包括:
7.根據(jù)權(quán)利要求1所述的模型評測方法,其特征在于,所述方法還包括:
8.一種模型評測裝置,其特征在于,所述裝置包括:
9.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7任一項所述的模型評測方法。
10.一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7任一項所述的模型評測方法。