欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法

文檔序號(hào):40566364發(fā)布日期:2025-01-03 11:26閱讀:10來(lái)源:國(guó)知局
大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法

本發(fā)明涉及人工智能,尤其涉及一種大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法。


背景技術(shù):

1、隨著大語(yǔ)言模型(large?language?model,llm,簡(jiǎn)稱(chēng)大模型)技術(shù)的不斷發(fā)展進(jìn)步,測(cè)評(píng)集起到了衡量模型效果、指導(dǎo)模型迭代優(yōu)化的核心作用。現(xiàn)有評(píng)估大模型能力的主流測(cè)評(píng)集主要包括主觀問(wèn)答題(主觀題)和客觀選擇題(客觀題)兩類(lèi)。一般是從現(xiàn)有的考試機(jī)構(gòu)、學(xué)校中直接獲取。由于客觀選擇題在評(píng)估時(shí)具有準(zhǔn)確性高、干擾因素少的優(yōu)點(diǎn),目前代表性的測(cè)評(píng)基準(zhǔn),例如cmmlu、c-eval、gsm8k、superglue評(píng)測(cè)集等,均采用的是客觀選擇題。此類(lèi)評(píng)測(cè)集通常能夠一定程度的反映模型的通用能力,或某一方面能力的強(qiáng)弱程度,成為評(píng)估模型性能的重要參考指標(biāo)。

2、然而,現(xiàn)有大模型評(píng)測(cè)集存在以下幾個(gè)問(wèn)題,一是評(píng)測(cè)集污染問(wèn)題,即評(píng)測(cè)集可能在某些大模型的訓(xùn)練數(shù)據(jù)集里已經(jīng)出現(xiàn),若需要精準(zhǔn)評(píng)估大模型的能力,通常需要利用最新數(shù)據(jù)針對(duì)性構(gòu)建新的評(píng)測(cè)集;二是現(xiàn)有評(píng)測(cè)集多為通用數(shù)據(jù)集或某一方面能力評(píng)測(cè)集,如果評(píng)估大模型在垂直領(lǐng)域或私域數(shù)據(jù)集上的性能,則也必然面臨特定評(píng)測(cè)集的構(gòu)建問(wèn)題。

3、現(xiàn)有技術(shù)中,主流的大模型評(píng)測(cè)數(shù)據(jù)集的構(gòu)建方法包括兩類(lèi):一類(lèi)是請(qǐng)?zhí)囟I(lǐng)域的人工專(zhuān)家編寫(xiě)測(cè)評(píng)集,這種測(cè)評(píng)集的質(zhì)量高,但是如果需要構(gòu)建大規(guī)模的測(cè)評(píng)集,則需要花費(fèi)大量的人力和時(shí)間;另一種方式是自動(dòng)生成,從現(xiàn)有的領(lǐng)域語(yǔ)料抽取出用來(lái)測(cè)試大模型效果的測(cè)評(píng)集。例如,superclue是一個(gè)中文通用大模型綜合性基準(zhǔn),它的客觀選擇題是由開(kāi)源的問(wèn)答對(duì)生成。但對(duì)于特定的垂直領(lǐng)域數(shù)據(jù),往往只有單一形式的無(wú)監(jiān)督文本,無(wú)法直接完成客觀選擇題評(píng)測(cè)集的生成。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法,用以解決現(xiàn)有技術(shù)中大模型評(píng)測(cè)數(shù)據(jù)集構(gòu)建過(guò)程耗時(shí)耗力、無(wú)法實(shí)現(xiàn)特定垂直領(lǐng)域評(píng)測(cè)數(shù)據(jù)集自動(dòng)生成的問(wèn)題。

2、本發(fā)明提供一種大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法,方法包括如下步驟:

3、獲取垂直領(lǐng)域的純文本數(shù)據(jù)集;

4、針對(duì)所述純文本數(shù)據(jù)集中每一個(gè)文本,根據(jù)預(yù)設(shè)的多個(gè)任務(wù)類(lèi)型,調(diào)用問(wèn)題求解器對(duì)所述文本進(jìn)行任務(wù)合適性判別,并在判別結(jié)果為合適時(shí),根據(jù)所述文本生成所述任務(wù)類(lèi)型的至少一個(gè)初始客觀題題干;

5、針對(duì)每個(gè)所述初始客觀題題干進(jìn)行歧義檢測(cè),并調(diào)用所述問(wèn)題求解器對(duì)存在歧義的所述初始客觀題題干進(jìn)行改寫(xiě),得到改寫(xiě)客觀題題干;

6、調(diào)用所述問(wèn)題求解器對(duì)每個(gè)改寫(xiě)客觀題題干生成對(duì)應(yīng)的客觀題選項(xiàng)、客觀題答案以及客觀題答案解析,作為對(duì)應(yīng)任務(wù)類(lèi)型的客觀題評(píng)測(cè)集。

7、在一些實(shí)施例中,所述任務(wù)類(lèi)型包括:信息抽取類(lèi)型、知識(shí)問(wèn)答類(lèi)型、計(jì)算推理類(lèi)型、任務(wù)拆解類(lèi)型,所述方法還包括:

8、根據(jù)每個(gè)任務(wù)類(lèi)型,調(diào)用問(wèn)題求解器對(duì)所述文本進(jìn)行評(píng)測(cè)集構(gòu)建,得到每個(gè)任務(wù)類(lèi)型對(duì)應(yīng)的客觀題評(píng)測(cè)集。

9、在一些實(shí)施例中,所述調(diào)用問(wèn)題求解器對(duì)所述文本進(jìn)行任務(wù)合適性判別,包括:

10、獲取預(yù)設(shè)的任務(wù)類(lèi)型對(duì)應(yīng)的判斷提示詞,所述判斷提示詞包括系統(tǒng)提示詞以及對(duì)應(yīng)任務(wù)類(lèi)型的任務(wù)提示詞,所述系統(tǒng)提示詞用于指示問(wèn)題求解器對(duì)所述文本進(jìn)行任務(wù)合適性判別;

11、將所述判斷提示詞與所述文本進(jìn)行文本拼接,并將拼接得到的文本輸入到問(wèn)題求解器中進(jìn)行任務(wù)合適性判別,得到對(duì)應(yīng)的判別結(jié)果。

12、在一些實(shí)施例中,所述調(diào)用所述問(wèn)題求解器對(duì)存在歧義的所述初始客觀題題干進(jìn)行改寫(xiě),得到改寫(xiě)客觀題題干,包括:

13、獲取預(yù)設(shè)的歧義消除提示詞,其中,所述歧義消除提示詞包括語(yǔ)義消歧提示詞以及歧義消除示例文本,所述語(yǔ)義消歧提示詞用于指示所述問(wèn)題求解器在檢測(cè)到所述初始客觀題題干存在歧義時(shí)進(jìn)行改寫(xiě);

14、將所述歧義消除提示詞、所述文本以及所述初始客觀題題干進(jìn)行拼接處理,得到歧義拼接文本;

15、調(diào)用所述問(wèn)題求解器對(duì)所述歧義拼接文本進(jìn)行生成,得到所述初始客觀題題干對(duì)應(yīng)的改寫(xiě)客觀題題干。

16、在一些實(shí)施例中,所述調(diào)用所述問(wèn)題求解器對(duì)每個(gè)改寫(xiě)客觀題題干生成對(duì)應(yīng)的客觀題選項(xiàng)、客觀題答案以及客觀題答案解析,包括:

17、獲取預(yù)設(shè)的選項(xiàng)生成提示詞,其中,所述選項(xiàng)生成提示詞用于指示所述問(wèn)題求解器根據(jù)所述文本對(duì)改寫(xiě)客觀題題干生成對(duì)應(yīng)的客觀題選項(xiàng),并生成對(duì)應(yīng)的客觀題答案以及客觀題答案解析;

18、將所述選項(xiàng)生成提示詞、所述文本以及所述改寫(xiě)客觀題題干進(jìn)行拼接處理,得到生成拼接文本;

19、調(diào)用所述問(wèn)題求解器對(duì)所述生成拼接文本進(jìn)行生成,得到對(duì)應(yīng)的客觀題選項(xiàng)、客觀題答案以及客觀題答案解析。

20、在一些實(shí)施例中,所述方法還包括:

21、調(diào)用所述問(wèn)題求解器對(duì)所述客觀題選項(xiàng)以及所述客觀題答案進(jìn)行過(guò)濾,所述問(wèn)題求解器的過(guò)濾過(guò)程包括:

22、獲取預(yù)設(shè)的過(guò)濾提示詞,所述過(guò)濾提示詞包括過(guò)濾條件,所述過(guò)濾提示詞用于提示所述問(wèn)題求解器依據(jù)所述過(guò)濾條件進(jìn)行過(guò)濾;

23、將所述過(guò)濾提示詞、所述文本、所述改寫(xiě)客觀題題干、所述客觀題選項(xiàng)以及所述客觀題答案進(jìn)行拼接處理,得到過(guò)濾拼接文本;

24、調(diào)用所述問(wèn)題求解器依據(jù)所述過(guò)濾條件對(duì)所述過(guò)濾拼接文本進(jìn)行過(guò)濾,得到過(guò)濾后的改寫(xiě)客觀題題干以及對(duì)應(yīng)的客觀題選項(xiàng)、客觀題答案。

25、在一些實(shí)施例中,所述過(guò)濾條件包括多個(gè)任務(wù)類(lèi)型通用的過(guò)濾條件以及單個(gè)任務(wù)類(lèi)型的特定過(guò)濾條件;

26、所述通用的過(guò)濾條件包括以下至少之一:

27、改寫(xiě)客觀題題干不適合作為客觀題;

28、客觀題答案不是改寫(xiě)客觀題題干的正確答案;

29、客觀題選項(xiàng)存在多個(gè)正確答案、且客觀題答案為正確答案之一;

30、在客觀題選項(xiàng)中,除客觀題答案之外的錯(cuò)誤答案被作為正確答案;

31、客觀題答案不是來(lái)自于改寫(xiě)客觀題題干。

32、本發(fā)明還提供一種大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成裝置,裝置包括如下模塊:

33、獲取模塊,用于獲取垂直領(lǐng)域的純文本數(shù)據(jù)集;

34、判別模塊,用于針對(duì)所述純文本數(shù)據(jù)集中每一個(gè)文本,根據(jù)預(yù)設(shè)的多個(gè)任務(wù)類(lèi)型,調(diào)用問(wèn)題求解器對(duì)所述文本進(jìn)行任務(wù)合適性判別,并在判別結(jié)果為合適時(shí),根據(jù)所述文本生成所述任務(wù)類(lèi)型的至少一個(gè)初始客觀題題干;

35、檢測(cè)模塊,用于針對(duì)每個(gè)所述初始客觀題題干進(jìn)行歧義檢測(cè),并調(diào)用所述問(wèn)題求解器對(duì)存在歧義的所述初始客觀題題干進(jìn)行改寫(xiě),得到改寫(xiě)客觀題題干;

36、生成模塊,調(diào)用所述問(wèn)題求解器對(duì)每個(gè)改寫(xiě)客觀題題干生成對(duì)應(yīng)的客觀題選項(xiàng)、客觀題答案以及客觀題答案解析,作為對(duì)應(yīng)任務(wù)類(lèi)型的客觀題評(píng)測(cè)集。

37、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法。

38、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法。

39、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法。

40、本發(fā)明提供的大語(yǔ)言模型垂直領(lǐng)域多任務(wù)客觀題評(píng)測(cè)集自動(dòng)生成方法,利用垂直領(lǐng)域的純文本數(shù)據(jù)集來(lái)構(gòu)建客觀題,構(gòu)建過(guò)程中采用題干和選項(xiàng)分別生成的兩階段流程,解決了題干和選項(xiàng)同時(shí)生成時(shí)容易導(dǎo)致題干選項(xiàng)之間的區(qū)分度不高,干擾性不足的問(wèn)題。通過(guò)對(duì)文本的合適性判別以及對(duì)題干的歧義檢測(cè),進(jìn)一步提高了客觀題的生成質(zhì)量。此外,本發(fā)明實(shí)現(xiàn)了端對(duì)端的垂直領(lǐng)域客觀題評(píng)測(cè)集的自動(dòng)生成過(guò)程,無(wú)需任何人工輔助參與,節(jié)省人力和時(shí)間。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
富宁县| 潜山县| 龙口市| 兴文县| 葫芦岛市| 石首市| 收藏| 芜湖市| 灌云县| 揭西县| 金平| 肇东市| 临湘市| 马山县| 嘉善县| 永川市| 厦门市| 云浮市| 海原县| 中山市| 金湖县| 三明市| 丹阳市| 耿马| 祁连县| 苏尼特右旗| 垣曲县| 平邑县| 清涧县| 廊坊市| 新建县| 平安县| 内乡县| 二连浩特市| 额敏县| 孟州市| 剑阁县| 武胜县| 体育| 无为县| 湖州市|