本公開涉及人工智能,尤其涉及大模型和深度學(xué)習(xí)等,更具體地,涉及一種大模型的評估方法及裝置、電子設(shè)備和計算機(jī)可讀存儲介質(zhì)。
背景技術(shù):
1、隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,大語言模型(large?language?model,llm)應(yīng)運(yùn)而生。大語言模型是基于深度學(xué)習(xí)的人工智能模型,主要用于處理和生成自然語言。該類模型通過大量的數(shù)據(jù)進(jìn)行訓(xùn)練,能夠理解、生成和翻譯文本。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種大模型的評估方法及裝置、電子設(shè)備和計算機(jī)可讀存儲介質(zhì)。
2、根據(jù)本公開的一個方面,提供了一種大模型的評估方法,包括:針對m個大語言模型各自對于輸入指令的響應(yīng)信息,基于預(yù)設(shè)評估規(guī)則,對每個上述響應(yīng)信息分別進(jìn)行評估,得到每個上述響應(yīng)信息各自的第一評估信息,m為大于1的正整數(shù);響應(yīng)于上述m個大語言模型各自的第一評估信息彼此一致,基于多個評估維度,對每個上述響應(yīng)信息分別進(jìn)行評估,得到每個上述響應(yīng)信息各自的第二評估信息;以及,根據(jù)每個上述響應(yīng)信息各自的第二評估信息,確定評估結(jié)果,其中,上述評估結(jié)果表征了上述m個大語言模型各自的響應(yīng)能力。
3、根據(jù)本公開的另一個方面,提供了一種大模型的評估裝置,包括:第一評估模塊,用于針對m個大語言模型各自對于輸入指令的響應(yīng)信息,基于預(yù)設(shè)評估規(guī)則,對每個上述響應(yīng)信息分別進(jìn)行評估,得到每個上述響應(yīng)信息各自的第一評估信息,m為大于1的正整數(shù);第二評估模塊,用于響應(yīng)于上述m個大語言模型各自的第一評估信息彼此一致,基于多個評估維度,對每個上述響應(yīng)信息分別進(jìn)行評估,得到每個上述響應(yīng)信息各自的第二評估信息;以及,確定模塊,用于根據(jù)每個上述響應(yīng)信息各自的第二評估信息,確定評估結(jié)果,其中,上述評估結(jié)果表征了上述m個大語言模型各自的響應(yīng)能力。
4、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:一個或多個處理器;存儲器,用于存儲一個或多個計算機(jī)程序,其中,上述一個或多個處理器執(zhí)行上述一個或多個計算機(jī)程序以實(shí)現(xiàn)上述方法的步驟。
5、根據(jù)本公開的另一方面,提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序或指令,上述計算機(jī)程序或指令被處理器執(zhí)行時實(shí)現(xiàn)上述方法的步驟。
6、根據(jù)本公開的另一方面,提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序或指令,上述計算機(jī)程序或指令被處理器執(zhí)行時實(shí)現(xiàn)上述方法的步驟。
7、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種大模型的評估方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,每個所述大語言模型各自具有提示信息,所述提示信息用于指導(dǎo)所述大語言模型對所述輸入指令進(jìn)行響應(yīng);
3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于預(yù)設(shè)評估規(guī)則,對每個所述響應(yīng)信息分別進(jìn)行評估,得到每個所述響應(yīng)信息各自的第一評估信息包括:
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中,所述基于多個評估維度,對每個所述響應(yīng)信息分別進(jìn)行評估,得到每個所述響應(yīng)信息各自的第二評估信息包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,每個所述評估維度各自的提示信息包括以下至少之一:人設(shè)定制信息、角色定制信息、能力定制信息和風(fēng)格定制信息。
6.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中,所述根據(jù)每個所述響應(yīng)信息各自的第二評估信息,確定評估結(jié)果包括:
7.根據(jù)權(quán)利要求1所述的方法,還包括:
8.根據(jù)權(quán)利要求1所述的方法,還包括:
9.一種大模型的評估裝置,包括:
10.根據(jù)權(quán)利要求9所述的裝置,其中,每個所述大語言模型各自具有提示信息,所述提示信息用于指導(dǎo)所述大語言模型對所述輸入指令進(jìn)行響應(yīng);
11.根據(jù)權(quán)利要求10所述的裝置,其中,所述第一評估模塊包括:
12.根據(jù)權(quán)利要求9至11中任一項(xiàng)所述的裝置,其中,所述第二評估模塊包括:
13.根據(jù)權(quán)利要求12所述的裝置,其中,每個所述評估維度各自的提示信息包括以下至少之一:人設(shè)定制信息、角色定制信息、能力定制信息和風(fēng)格定制信息。
14.根據(jù)權(quán)利要求9至11中任一項(xiàng)所述的裝置,其中,所述確定模塊包括:
15.根據(jù)權(quán)利要求9所述的裝置,還包括:
16.根據(jù)權(quán)利要求8所述的裝置,還包括:
17.一種電子設(shè)備,包括:
18.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序或指令,其特征在于,所述計算機(jī)程序或指令被處理器執(zhí)行時實(shí)現(xiàn)根據(jù)權(quán)利要求1~8中任一項(xiàng)所述方法的步驟。
19.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序或指令,其特征在于,所述計算機(jī)程序或指令被處理器執(zhí)行時實(shí)現(xiàn)根據(jù)權(quán)利要求1~8中任一項(xiàng)所述方法的步驟。