欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大語(yǔ)言模型的評(píng)估方法和評(píng)估裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40594112發(fā)布日期:2025-01-07 20:34閱讀:5來(lái)源:國(guó)知局
大語(yǔ)言模型的評(píng)估方法和評(píng)估裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及模型檢測(cè),尤其涉及一種大語(yǔ)言模型的評(píng)估方法和評(píng)估裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、通過(guò)對(duì)大語(yǔ)言模型進(jìn)行評(píng)估,可以確定大語(yǔ)言模型在生成答案、理解文本和執(zhí)行任務(wù)方面的準(zhǔn)確性。

2、現(xiàn)有的大語(yǔ)言模型的評(píng)估一般采用對(duì)比評(píng)估的方式對(duì)大語(yǔ)言模型進(jìn)行評(píng)估。但是,對(duì)比評(píng)估的方式只能評(píng)估有固定標(biāo)準(zhǔn)答案的問(wèn)題,若大語(yǔ)言模型用于無(wú)固定標(biāo)準(zhǔn)答案的問(wèn)題的答案生成,此時(shí)采用對(duì)比評(píng)估的方式對(duì)大語(yǔ)言模型進(jìn)行評(píng)估,將導(dǎo)致大語(yǔ)言模型的評(píng)估準(zhǔn)確性較低。


技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例的主要目的在于提出一種大語(yǔ)言模型的評(píng)估方法和評(píng)估裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高大語(yǔ)言模型評(píng)估的準(zhǔn)確性。

2、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第一方面提出了一種一種大語(yǔ)言模型的評(píng)估方法,所述評(píng)估方法包括:

3、獲取業(yè)務(wù)場(chǎng)景中各應(yīng)用場(chǎng)景的特征信息;

4、根據(jù)各應(yīng)用場(chǎng)景的特征信息,確定各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式;

5、對(duì)于各應(yīng)用場(chǎng)景,采用應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式,對(duì)大語(yǔ)言模型在應(yīng)用場(chǎng)景的應(yīng)用進(jìn)行評(píng)估,得到應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果;

6、根據(jù)各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,確定大語(yǔ)言模型的目標(biāo)評(píng)估結(jié)果。

7、在一些實(shí)施例,應(yīng)用場(chǎng)景的特征信息包括測(cè)試問(wèn)題的問(wèn)題類(lèi)型,問(wèn)題類(lèi)型包括主觀題和客觀題;

8、根據(jù)各應(yīng)用場(chǎng)景的特征信息,確定各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式,包括:

9、在應(yīng)用場(chǎng)景的測(cè)試問(wèn)題的問(wèn)題類(lèi)型為客觀題的情況下,確定應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式為對(duì)比評(píng)估;

10、在應(yīng)用場(chǎng)景的測(cè)試問(wèn)題的問(wèn)題類(lèi)型為主觀題的情況下,確定應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式為裁判員模型評(píng)估。

11、在一些實(shí)施例,業(yè)務(wù)場(chǎng)景包括第一應(yīng)用場(chǎng)景,第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式為裁判員模型評(píng)估;

12、對(duì)于各應(yīng)用場(chǎng)景,采用應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式,對(duì)大語(yǔ)言模型在應(yīng)用場(chǎng)景的應(yīng)用進(jìn)行評(píng)估,得到應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,包括:

13、獲取第一應(yīng)用場(chǎng)景的第一測(cè)試問(wèn)題、第一測(cè)試問(wèn)題的預(yù)設(shè)基準(zhǔn)答案以及大語(yǔ)言模型基于第一測(cè)試問(wèn)題生成的第一大語(yǔ)言模型答案;

14、將第一信息分別輸入至多個(gè)裁判員模型,得到多個(gè)裁判員模型分別對(duì)應(yīng)的第一評(píng)分集合,其中,第一信息包括第一測(cè)試問(wèn)題、預(yù)設(shè)基準(zhǔn)答案以及第一大語(yǔ)言模型答案;各裁判員模型對(duì)應(yīng)的第一評(píng)分集合包括裁判員模型對(duì)預(yù)設(shè)基準(zhǔn)答案的第一評(píng)分,及對(duì)大語(yǔ)言模型答案的第二評(píng)分;

15、根據(jù)各裁判員模型對(duì)應(yīng)的第一評(píng)分集合,確定第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果。

16、在一些實(shí)施例,在第一信息中,預(yù)設(shè)基準(zhǔn)答案以及第一大語(yǔ)言模型答案以第一排列順序排列;

17、獲取第一應(yīng)用場(chǎng)景的第一測(cè)試問(wèn)題、第一測(cè)試問(wèn)題的預(yù)設(shè)基準(zhǔn)答案以及大語(yǔ)言模型基于第一測(cè)試問(wèn)題生成的大語(yǔ)言模型答之后,根據(jù)各裁判員模型對(duì)應(yīng)的評(píng)分集合,確定第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果之前,評(píng)估方法還包括:

18、將第二信息分別輸入至多個(gè)裁判員模型,得到多個(gè)裁判員模型分別對(duì)應(yīng)的第二評(píng)分集合,其中,第二信息包括的信息與第一信息包括的信息相同,但在第二信息中,預(yù)設(shè)基準(zhǔn)答案以及待測(cè)大語(yǔ)言模型的答案以與第一排列順序相反的第二排列順序排列;各裁判員模型對(duì)應(yīng)的第二評(píng)分集合包括裁判員模型對(duì)預(yù)設(shè)基準(zhǔn)答案的第三評(píng)分,及對(duì)大語(yǔ)言模型答案的第四評(píng)分;

19、根據(jù)各裁判員模型對(duì)應(yīng)的第一評(píng)分集合,確定第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,包括:

20、根據(jù)各裁判員模型對(duì)應(yīng)的第一評(píng)分集合和第二評(píng)分集合,確定第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果。

21、在一些實(shí)施例,根據(jù)各裁判員模型對(duì)應(yīng)的第一評(píng)分集合,確定第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,包括:

22、獲取各裁判員模型對(duì)應(yīng)的第一比例分?jǐn)?shù),其中,各裁判員模型對(duì)應(yīng)的第一比例分?jǐn)?shù)為裁判員模型對(duì)應(yīng)的第一評(píng)分集合中第二評(píng)分相對(duì)所述第一評(píng)分的比值;

23、根據(jù)各裁判員模型對(duì)應(yīng)的第一比例分?jǐn)?shù),確定第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果。

24、在一些實(shí)施例,業(yè)務(wù)場(chǎng)景包括第二應(yīng)用場(chǎng)景,第二應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式為對(duì)比評(píng)估;

25、對(duì)于各應(yīng)用場(chǎng)景,采用應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式,對(duì)大語(yǔ)言模型在應(yīng)用場(chǎng)景的應(yīng)用進(jìn)行評(píng)估,得到應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,包括:

26、獲取第二應(yīng)用場(chǎng)景的第二測(cè)試問(wèn)題、第二測(cè)試問(wèn)題的歷史答案以及大語(yǔ)言模型基于第二測(cè)試問(wèn)題生成的第二大語(yǔ)言模型答案;

27、根據(jù)歷史答案和第二測(cè)試問(wèn)題的大語(yǔ)言模型答案,確定第二應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果。

28、在一些實(shí)施例,根據(jù)歷史答案和第二類(lèi)測(cè)試問(wèn)題的大語(yǔ)言模型答案,確定第二應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,包括:

29、確定歷史答案和第二大語(yǔ)言模型答案的第一差值的絕對(duì)值;

30、根據(jù)預(yù)設(shè)閾值相對(duì)絕對(duì)值的第二差值,確定第二測(cè)試問(wèn)題的評(píng)估分?jǐn)?shù);

31、根據(jù)評(píng)估分?jǐn)?shù),確定第二應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果。

32、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第二方面提出了一種大語(yǔ)言模型的評(píng)估裝置,所述評(píng)估裝置包括:

33、獲取模塊,用于獲取業(yè)務(wù)場(chǎng)景中各應(yīng)用場(chǎng)景的特征信息;

34、第一確定模塊,用于根據(jù)各應(yīng)用場(chǎng)景的特征信息,確定各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式;

35、評(píng)估模塊,用于對(duì)于各應(yīng)用場(chǎng)景,采用應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式,對(duì)大語(yǔ)言模型在應(yīng)用場(chǎng)景的應(yīng)用進(jìn)行評(píng)估,得到應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果;

36、第二確定模塊,用于根據(jù)各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,確定大語(yǔ)言模型的目標(biāo)評(píng)估結(jié)果。

37、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

38、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

39、本申請(qǐng)?zhí)岢龅拇笳Z(yǔ)言模型的評(píng)估方法和評(píng)估裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過(guò)獲取業(yè)務(wù)場(chǎng)景中各應(yīng)用場(chǎng)景的特征信息,并根據(jù)各應(yīng)用場(chǎng)景的特征信息,確定各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式。對(duì)于各應(yīng)用場(chǎng)景,采用應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式,對(duì)大語(yǔ)言模型在應(yīng)用場(chǎng)景的應(yīng)用進(jìn)行評(píng)估,得到應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果。最后,根據(jù)各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,確定大語(yǔ)言模型的目標(biāo)評(píng)估結(jié)果。可見(jiàn),本申請(qǐng)?jiān)谠u(píng)估大語(yǔ)言模型在業(yè)務(wù)場(chǎng)景中的應(yīng)用時(shí),可以對(duì)大語(yǔ)言模型在業(yè)務(wù)場(chǎng)景中各應(yīng)用場(chǎng)景的應(yīng)用進(jìn)行分別評(píng)估,且大語(yǔ)言模型在各應(yīng)用場(chǎng)景的應(yīng)用的評(píng)估,可以采用基于該應(yīng)用場(chǎng)景的特征信息確定的模型評(píng)估方式實(shí)現(xiàn),如此,可以使得大語(yǔ)言模型在各應(yīng)用場(chǎng)景的評(píng)估方式與各應(yīng)用場(chǎng)景匹配,從而可以提高各應(yīng)用場(chǎng)景下大語(yǔ)言模型的評(píng)估準(zhǔn)確性,進(jìn)而提高業(yè)務(wù)場(chǎng)景下大語(yǔ)言模型的評(píng)估準(zhǔn)確性。



技術(shù)特征:

1.一種大語(yǔ)言模型的評(píng)估方法,其特征在于,所述評(píng)估方法包括:

2.根據(jù)權(quán)利要求1所述的評(píng)估方法,其特征在于,所述應(yīng)用場(chǎng)景的特征信息包括測(cè)試問(wèn)題的問(wèn)題類(lèi)型,所述問(wèn)題類(lèi)型包括主觀題和客觀題;

3.根據(jù)權(quán)利要求1所述的評(píng)估方法,其特征在于,所述業(yè)務(wù)場(chǎng)景包括第一應(yīng)用場(chǎng)景,所述第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式為裁判員模型評(píng)估;

4.根據(jù)權(quán)利要求3所述的評(píng)估方法,其特征在于,在所述第一信息中,所述預(yù)設(shè)基準(zhǔn)答案以及所述第一大語(yǔ)言模型答案以第一排列順序排列;

5.根據(jù)權(quán)利要求3所述的評(píng)估方法,其特征在于,所述根據(jù)各裁判員模型對(duì)應(yīng)的第一評(píng)分集合,確定所述第一應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,包括:

6.根據(jù)權(quán)利要求1所述的評(píng)估方法,其特征在于,所述業(yè)務(wù)場(chǎng)景包括第二應(yīng)用場(chǎng)景,所述第二應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式為對(duì)比評(píng)估;

7.根據(jù)權(quán)利要求6所述的評(píng)估方法,其特征在于,所述根據(jù)所述歷史答案和所述第二類(lèi)測(cè)試問(wèn)題的大語(yǔ)言模型答案,確定所述第二應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,包括:

8.一種大語(yǔ)言模型的評(píng)估裝置,其特征在于,所述評(píng)估裝置包括:

9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的大語(yǔ)言模型的評(píng)估方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的大語(yǔ)言模型的評(píng)估方法。


技術(shù)總結(jié)
本申請(qǐng)實(shí)施例提供了一種大語(yǔ)言模型的評(píng)估方法和評(píng)估裝置、電子設(shè)備及存儲(chǔ)介質(zhì),屬于模型檢測(cè)技術(shù)領(lǐng)域。該方法包括:獲取業(yè)務(wù)場(chǎng)景中各應(yīng)用場(chǎng)景的特征信息;根據(jù)各應(yīng)用場(chǎng)景的特征信息,確定各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式;對(duì)于各應(yīng)用場(chǎng)景,采用應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估方式,對(duì)大語(yǔ)言模型在應(yīng)用場(chǎng)景的應(yīng)用進(jìn)行評(píng)估,得到應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果;根據(jù)各應(yīng)用場(chǎng)景對(duì)應(yīng)的模型評(píng)估結(jié)果,確定大語(yǔ)言模型的目標(biāo)評(píng)估結(jié)果。本申請(qǐng)實(shí)施例能夠基于不同的應(yīng)用場(chǎng)景選擇不同的模型評(píng)估方式對(duì)大語(yǔ)言模型進(jìn)行評(píng)估,進(jìn)而可以提高大語(yǔ)言模型評(píng)估的準(zhǔn)確性。

技術(shù)研發(fā)人員:劉紋石
受保護(hù)的技術(shù)使用者:中國(guó)平安財(cái)產(chǎn)保險(xiǎn)股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
信丰县| 昌都县| 嘉义县| 游戏| 望城县| 南部县| 海丰县| 卫辉市| 临沂市| 江门市| 始兴县| 东光县| 洞头县| 出国| 大田县| 宽城| 阿鲁科尔沁旗| 广平县| 潮州市| 阆中市| 廉江市| 长寿区| 洛川县| 视频| 高雄县| 郸城县| 卫辉市| 新乐市| 新巴尔虎右旗| 府谷县| 铜鼓县| 阜城县| 化州市| 武乡县| 乌审旗| 三河市| 新和县| 葫芦岛市| 枣强县| 昌都县| 海林市|