欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號:40589747發(fā)布日期:2025-01-07 20:30閱讀:5來源:國知局
模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本發(fā)明涉及自然語言處理,尤其是涉及一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品。


背景技術(shù):

1、目前,大語言模型的構(gòu)建主要經(jīng)過三個階段:第1階段:無監(jiān)督的預(yù)訓(xùn)練階段,主要建立起大語言模型對語料中隱性的場景任務(wù)的記憶、理解、推理的能力;第2階段:監(jiān)督的指令微調(diào)階段,主要是強(qiáng)化大語言模型在特定任務(wù)上的解題思路和邏輯;第3階段:監(jiān)督的價值對齊階段,主要解決大語言模型輸出對齊到人類的偏好。

2、目前由于大語言模型在特定任務(wù)上思維推理能力不足,導(dǎo)致利用大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率不高。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品,用以解決利用現(xiàn)有大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率低的問題。

2、為了達(dá)到上述目的,第一方面,本發(fā)明提供模型訓(xùn)練方法,包括:

3、獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);

4、基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;

5、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。

6、在一些實施例中,所述獲取大語言模型的多個思維鏈cot區(qū)塊,包括:

7、針對多個任務(wù)的每個任務(wù),獲取所述任務(wù)的基礎(chǔ)指令集合;

8、針對所述基礎(chǔ)指令集合中的每個指令,將所述指令輸入至所述大語言模型,得到所述大語言模型中每一層輸出的詞元token,并可視化顯示;

9、基于可視化顯示的token,獲得大語言模型中與所述任務(wù)強(qiáng)相關(guān)的區(qū)塊;

10、根據(jù)獲得的大語言模型中與所述任務(wù)強(qiáng)相關(guān)的多個區(qū)塊,確定所述大語言模型中與所述任務(wù)對應(yīng)的cot區(qū)塊。

11、在一些實施例中,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:

12、獲取預(yù)先構(gòu)建的第一種子指令,所述第一種子指令包括與所述任務(wù)相關(guān)的第一預(yù)設(shè)文本、針對所述第一預(yù)設(shè)文本的第一預(yù)設(shè)指令以及針對所述第一預(yù)設(shè)指令的輸出的格式;

13、學(xué)習(xí)所述第一種子指令,生成所述任務(wù)的基礎(chǔ)指令集合。

14、在一些實施例中,所述基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,包括:

15、針對多個任務(wù)的每個任務(wù),獲取預(yù)先構(gòu)建的第二種子指令,所述第二種子指令包括與所述任務(wù)相關(guān)的第二預(yù)設(shè)文本、針對所述第二預(yù)設(shè)文本的第二預(yù)設(shè)指令、針對所述第二預(yù)設(shè)指令的輸出的格式以及用于指示推理過程的cot標(biāo)簽,所述推理過程基于所述任務(wù)對應(yīng)的cot區(qū)塊輸出的token確定;

16、學(xué)習(xí)所述第二種子指令,生成所述任務(wù)的cot指令集合。

17、在一些實施例中,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:

18、采用以下步驟,遍歷所有任務(wù)的cot指令集合中的每個指令,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型:

19、將所述指令輸入至所述大語言模型,得到所述大語言模型中每一層輸出的token,并計算所述每一層輸出的token對應(yīng)的損失值;

20、基于所述每一層輸出的token對應(yīng)的損失值,計算所述大語言模型中所有層的損失值;

21、基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,并將所述大語言模型更新為調(diào)整后的大語言模型。

22、在一些實施例中,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:

23、針對第一指令,在所述大語言模型中指定層未輸出符合所述推理過程的token的情況下,基于所述所有層的損失值,調(diào)整所述指定層的參數(shù)權(quán)重,獲得調(diào)整后的大語言模型;其中,所述指定層為所述第一指令所屬任務(wù)對應(yīng)的cot區(qū)塊中的至少一層,所述第一指令為當(dāng)前指令。

24、第二方面,本發(fā)明還提供一種模型訓(xùn)練裝置,包括:

25、第一獲取模塊,用于獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);

26、第二獲取模塊,用于基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;

27、模型訓(xùn)練模塊,用于基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。

28、第三方面,本發(fā)明還提供一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),所述處理器用于執(zhí)行以下操作:

29、獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);

30、基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;

31、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。

32、第四方面,本發(fā)明還提供一種模型訓(xùn)練設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序;所述處理器執(zhí)行所述程序時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法。

33、第五方面,本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

34、第六方面,本發(fā)明還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)指令,所述計算機(jī)指令被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

35、本發(fā)明的上述技術(shù)方案至少具有如下有益效果:

36、本發(fā)明實施例中,通過獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);然后,基于每個任務(wù)對應(yīng)的cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;最后,基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,如此,通過發(fā)掘大語言模型中對應(yīng)不同任務(wù)的不同cot區(qū)塊,cot區(qū)塊與任務(wù)強(qiáng)相關(guān),反映大語言模型在該任務(wù)上的邏輯推理能力,其推理過程具有一定的抽象到具體的邏輯性;之后,基于cot區(qū)塊構(gòu)建任務(wù)的cot指令集合,對大語言模型中的cot區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練,得到的訓(xùn)練后的大語言模型其cot能力得到強(qiáng)化,在后續(xù)應(yīng)用中,利用本發(fā)明訓(xùn)練得到的大語言模型在特定任務(wù)上進(jìn)行推理,能夠提高所得結(jié)果的準(zhǔn)確率。



技術(shù)特征:

1.一種模型訓(xùn)練方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取大語言模型的多個思維鏈cot區(qū)塊,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:

7.一種模型訓(xùn)練裝置,其特征在于,包括:

8.一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),其特征在于,所述處理器用于執(zhí)行以下操作:

9.一種模型訓(xùn)練設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序;其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法。

10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法中的步驟。

11.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)指令,所述計算機(jī)指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法中的步驟。


技術(shù)總結(jié)
本發(fā)明提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品,涉及自然語言處理技術(shù)領(lǐng)域。該方法包括獲取大語言模型的多個CoT區(qū)塊,不同的CoT區(qū)塊對應(yīng)不同的任務(wù);基于每個任務(wù)對應(yīng)的CoT區(qū)塊,獲取每個任務(wù)的CoT指令集合,CoT指令集合中的指令包括用于指示推理過程的CoT標(biāo)簽;基于所有任務(wù)的CoT指令集合,訓(xùn)練大語言模型,得到訓(xùn)練后的大語言模型。本發(fā)明的方法通過發(fā)掘大語言模型中對應(yīng)不同任務(wù)的不同CoT區(qū)塊,反映大語言模型在該任務(wù)上的邏輯推理能力;構(gòu)建任務(wù)的CoT指令集合,對大語言模型中的CoT區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練,得到的訓(xùn)練后的大語言模型其CoT能力得到強(qiáng)化,在后續(xù)應(yīng)用中,能夠提高所得結(jié)果的準(zhǔn)確率。

技術(shù)研發(fā)人員:于皓,張杰,王展
受保護(hù)的技術(shù)使用者:北京中科金得助智能科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
广汉市| 关岭| 甘孜县| 青岛市| 牡丹江市| 五原县| 拜泉县| 宁陵县| 安庆市| 马边| 霍山县| 南皮县| 安顺市| 宣武区| 海兴县| 敦煌市| 二连浩特市| 长泰县| 霞浦县| 长治市| 柏乡县| 晋江市| 安国市| 西林县| 沭阳县| 壶关县| 灵璧县| 瑞金市| 高邮市| 巫溪县| 耒阳市| 金沙县| 沅江市| 遂昌县| 太仓市| 杭锦旗| 阿坝| 瑞丽市| 贺兰县| 清苑县| 五大连池市|