模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

文檔序號：40589747發(fā)布日期：2025-01-07 20:30閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

本發(fā)明涉及自然語言處理，尤其是涉及一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品。

背景技術(shù)：

1、目前，大語言模型的構(gòu)建主要經(jīng)過三個階段：第1階段：無監(jiān)督的預(yù)訓(xùn)練階段，主要建立起大語言模型對語料中隱性的場景任務(wù)的記憶、理解、推理的能力；第2階段：監(jiān)督的指令微調(diào)階段，主要是強(qiáng)化大語言模型在特定任務(wù)上的解題思路和邏輯；第3階段：監(jiān)督的價值對齊階段，主要解決大語言模型輸出對齊到人類的偏好。

2、目前由于大語言模型在特定任務(wù)上思維推理能力不足，導(dǎo)致利用大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率不高。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品，用以解決利用現(xiàn)有大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率低的問題。

2、為了達(dá)到上述目的，第一方面，本發(fā)明提供模型訓(xùn)練方法，包括：

3、獲取大語言模型的多個思維鏈cot區(qū)塊，不同的cot區(qū)塊對應(yīng)不同的任務(wù)，每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān)；

4、基于每個任務(wù)對應(yīng)的所述cot區(qū)塊，獲取每個任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；

5、基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型。

6、在一些實施例中，所述獲取大語言模型的多個思維鏈cot區(qū)塊，包括：

7、針對多個任務(wù)的每個任務(wù)，獲取所述任務(wù)的基礎(chǔ)指令集合；

8、針對所述基礎(chǔ)指令集合中的每個指令，將所述指令輸入至所述大語言模型，得到所述大語言模型中每一層輸出的詞元token，并可視化顯示；

9、基于可視化顯示的token，獲得大語言模型中與所述任務(wù)強(qiáng)相關(guān)的區(qū)塊；

10、根據(jù)獲得的大語言模型中與所述任務(wù)強(qiáng)相關(guān)的多個區(qū)塊，確定所述大語言模型中與所述任務(wù)對應(yīng)的cot區(qū)塊。

11、在一些實施例中，獲取所述任務(wù)的基礎(chǔ)指令集合，包括：

12、獲取預(yù)先構(gòu)建的第一種子指令，所述第一種子指令包括與所述任務(wù)相關(guān)的第一預(yù)設(shè)文本、針對所述第一預(yù)設(shè)文本的第一預(yù)設(shè)指令以及針對所述第一預(yù)設(shè)指令的輸出的格式；

13、學(xué)習(xí)所述第一種子指令，生成所述任務(wù)的基礎(chǔ)指令集合。

14、在一些實施例中，所述基于每個任務(wù)對應(yīng)的所述cot區(qū)塊，獲取每個任務(wù)的cot指令集合，包括：

15、針對多個任務(wù)的每個任務(wù)，獲取預(yù)先構(gòu)建的第二種子指令，所述第二種子指令包括與所述任務(wù)相關(guān)的第二預(yù)設(shè)文本、針對所述第二預(yù)設(shè)文本的第二預(yù)設(shè)指令、針對所述第二預(yù)設(shè)指令的輸出的格式以及用于指示推理過程的cot標(biāo)簽，所述推理過程基于所述任務(wù)對應(yīng)的cot區(qū)塊輸出的token確定；

16、學(xué)習(xí)所述第二種子指令，生成所述任務(wù)的cot指令集合。

17、在一些實施例中，所述基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型，包括：

18、采用以下步驟，遍歷所有任務(wù)的cot指令集合中的每個指令，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型：

19、將所述指令輸入至所述大語言模型，得到所述大語言模型中每一層輸出的token，并計算所述每一層輸出的token對應(yīng)的損失值；

20、基于所述每一層輸出的token對應(yīng)的損失值，計算所述大語言模型中所有層的損失值；

21、基于所述所有層的損失值，調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù)，得到調(diào)整后的大語言模型，并將所述大語言模型更新為調(diào)整后的大語言模型。

22、在一些實施例中，所述基于所述所有層的損失值，調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù)，得到調(diào)整后的大語言模型，包括：

23、針對第一指令，在所述大語言模型中指定層未輸出符合所述推理過程的token的情況下，基于所述所有層的損失值，調(diào)整所述指定層的參數(shù)權(quán)重，獲得調(diào)整后的大語言模型；其中，所述指定層為所述第一指令所屬任務(wù)對應(yīng)的cot區(qū)塊中的至少一層，所述第一指令為當(dāng)前指令。

24、第二方面，本發(fā)明還提供一種模型訓(xùn)練裝置，包括：

25、第一獲取模塊，用于獲取大語言模型的多個思維鏈cot區(qū)塊，不同的cot區(qū)塊對應(yīng)不同的任務(wù)，每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān)；

26、第二獲取模塊，用于基于每個任務(wù)對應(yīng)的所述cot區(qū)塊，獲取每個任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；

27、模型訓(xùn)練模塊，用于基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型。

28、第三方面，本發(fā)明還提供一種模型訓(xùn)練設(shè)備，包括處理器和收發(fā)器，所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù)，所述處理器用于執(zhí)行以下操作：

29、獲取大語言模型的多個思維鏈cot區(qū)塊，不同的cot區(qū)塊對應(yīng)不同的任務(wù)，每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān)；

30、基于每個任務(wù)對應(yīng)的所述cot區(qū)塊，獲取每個任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；

31、基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型。

32、第四方面，本發(fā)明還提供一種模型訓(xùn)練設(shè)備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序；所述處理器執(zhí)行所述程序時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法。

33、第五方面，本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，該程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

34、第六方面，本發(fā)明還提供一種計算機(jī)程序產(chǎn)品，包括計算機(jī)指令，所述計算機(jī)指令被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

35、本發(fā)明的上述技術(shù)方案至少具有如下有益效果：

36、本發(fā)明實施例中，通過獲取大語言模型的多個思維鏈cot區(qū)塊，不同的cot區(qū)塊對應(yīng)不同的任務(wù)，每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān)；然后，基于每個任務(wù)對應(yīng)的cot區(qū)塊，獲取每個任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；最后，基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型，如此，通過發(fā)掘大語言模型中對應(yīng)不同任務(wù)的不同cot區(qū)塊，cot區(qū)塊與任務(wù)強(qiáng)相關(guān)，反映大語言模型在該任務(wù)上的邏輯推理能力，其推理過程具有一定的抽象到具體的邏輯性；之后，基于cot區(qū)塊構(gòu)建任務(wù)的cot指令集合，對大語言模型中的cot區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練，得到的訓(xùn)練后的大語言模型其cot能力得到強(qiáng)化，在后續(xù)應(yīng)用中，利用本發(fā)明訓(xùn)練得到的大語言模型在特定任務(wù)上進(jìn)行推理，能夠提高所得結(jié)果的準(zhǔn)確率。

技術(shù)特征：

1.一種模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取大語言模型的多個思維鏈cot區(qū)塊，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，獲取所述任務(wù)的基礎(chǔ)指令集合，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于每個任務(wù)對應(yīng)的所述cot區(qū)塊，獲取每個任務(wù)的cot指令集合，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述所有層的損失值，調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù)，得到調(diào)整后的大語言模型，包括：

7.一種模型訓(xùn)練裝置，其特征在于，包括：

8.一種模型訓(xùn)練設(shè)備，包括處理器和收發(fā)器，所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù)，其特征在于，所述處理器用于執(zhí)行以下操作：

9.一種模型訓(xùn)練設(shè)備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序；其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法。

10.一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，其特征在于，該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法中的步驟。

11.一種計算機(jī)程序產(chǎn)品，其特征在于，包括計算機(jī)指令，所述計算機(jī)指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法中的步驟。

技術(shù)總結(jié)
本發(fā)明提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品，涉及自然語言處理技術(shù)領(lǐng)域。該方法包括獲取大語言模型的多個CoT區(qū)塊，不同的CoT區(qū)塊對應(yīng)不同的任務(wù)；基于每個任務(wù)對應(yīng)的CoT區(qū)塊，獲取每個任務(wù)的CoT指令集合，CoT指令集合中的指令包括用于指示推理過程的CoT標(biāo)簽；基于所有任務(wù)的CoT指令集合，訓(xùn)練大語言模型，得到訓(xùn)練后的大語言模型。本發(fā)明的方法通過發(fā)掘大語言模型中對應(yīng)不同任務(wù)的不同CoT區(qū)塊，反映大語言模型在該任務(wù)上的邏輯推理能力；構(gòu)建任務(wù)的CoT指令集合，對大語言模型中的CoT區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練，得到的訓(xùn)練后的大語言模型其CoT能力得到強(qiáng)化，在后續(xù)應(yīng)用中，能夠提高所得結(jié)果的準(zhǔn)確率。

技術(shù)研發(fā)人員：于皓,張杰,王展
受保護(hù)的技術(shù)使用者：北京中科金得助智能科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于皓,張杰,王展
技術(shù)所有人：北京中科金得助智能科技有限公司
我是此專利的發(fā)明人

上一篇：一種紡紗生產(chǎn)用導(dǎo)線機(jī)構(gòu)的制作方法
上一篇：一種懸浮式傘形蠟燭燈的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程

模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品與流程