本發(fā)明涉及自然語言處理,尤其是涉及一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、目前,大語言模型的構(gòu)建主要經(jīng)過三個階段:第1階段:無監(jiān)督的預(yù)訓(xùn)練階段,主要建立起大語言模型對語料中隱性的場景任務(wù)的記憶、理解、推理的能力;第2階段:監(jiān)督的指令微調(diào)階段,主要是強(qiáng)化大語言模型在特定任務(wù)上的解題思路和邏輯;第3階段:監(jiān)督的價值對齊階段,主要解決大語言模型輸出對齊到人類的偏好。
2、目前由于大語言模型在特定任務(wù)上思維推理能力不足,導(dǎo)致利用大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率不高。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)及程序產(chǎn)品,用以解決利用現(xiàn)有大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率低的問題。
2、為了達(dá)到上述目的,第一方面,本發(fā)明提供模型訓(xùn)練方法,包括:
3、獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);
4、基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;
5、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。
6、在一些實施例中,所述獲取大語言模型的多個思維鏈cot區(qū)塊,包括:
7、針對多個任務(wù)的每個任務(wù),獲取所述任務(wù)的基礎(chǔ)指令集合;
8、針對所述基礎(chǔ)指令集合中的每個指令,將所述指令輸入至所述大語言模型,得到所述大語言模型中每一層輸出的詞元token,并可視化顯示;
9、基于可視化顯示的token,獲得大語言模型中與所述任務(wù)強(qiáng)相關(guān)的區(qū)塊;
10、根據(jù)獲得的大語言模型中與所述任務(wù)強(qiáng)相關(guān)的多個區(qū)塊,確定所述大語言模型中與所述任務(wù)對應(yīng)的cot區(qū)塊。
11、在一些實施例中,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:
12、獲取預(yù)先構(gòu)建的第一種子指令,所述第一種子指令包括與所述任務(wù)相關(guān)的第一預(yù)設(shè)文本、針對所述第一預(yù)設(shè)文本的第一預(yù)設(shè)指令以及針對所述第一預(yù)設(shè)指令的輸出的格式;
13、學(xué)習(xí)所述第一種子指令,生成所述任務(wù)的基礎(chǔ)指令集合。
14、在一些實施例中,所述基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,包括:
15、針對多個任務(wù)的每個任務(wù),獲取預(yù)先構(gòu)建的第二種子指令,所述第二種子指令包括與所述任務(wù)相關(guān)的第二預(yù)設(shè)文本、針對所述第二預(yù)設(shè)文本的第二預(yù)設(shè)指令、針對所述第二預(yù)設(shè)指令的輸出的格式以及用于指示推理過程的cot標(biāo)簽,所述推理過程基于所述任務(wù)對應(yīng)的cot區(qū)塊輸出的token確定;
16、學(xué)習(xí)所述第二種子指令,生成所述任務(wù)的cot指令集合。
17、在一些實施例中,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:
18、采用以下步驟,遍歷所有任務(wù)的cot指令集合中的每個指令,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型:
19、將所述指令輸入至所述大語言模型,得到所述大語言模型中每一層輸出的token,并計算所述每一層輸出的token對應(yīng)的損失值;
20、基于所述每一層輸出的token對應(yīng)的損失值,計算所述大語言模型中所有層的損失值;
21、基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,并將所述大語言模型更新為調(diào)整后的大語言模型。
22、在一些實施例中,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:
23、針對第一指令,在所述大語言模型中指定層未輸出符合所述推理過程的token的情況下,基于所述所有層的損失值,調(diào)整所述指定層的參數(shù)權(quán)重,獲得調(diào)整后的大語言模型;其中,所述指定層為所述第一指令所屬任務(wù)對應(yīng)的cot區(qū)塊中的至少一層,所述第一指令為當(dāng)前指令。
24、第二方面,本發(fā)明還提供一種模型訓(xùn)練裝置,包括:
25、第一獲取模塊,用于獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);
26、第二獲取模塊,用于基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;
27、模型訓(xùn)練模塊,用于基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。
28、第三方面,本發(fā)明還提供一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),所述處理器用于執(zhí)行以下操作:
29、獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);
30、基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;
31、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。
32、第四方面,本發(fā)明還提供一種模型訓(xùn)練設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序;所述處理器執(zhí)行所述程序時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法。
33、第五方面,本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。
34、第六方面,本發(fā)明還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)指令,所述計算機(jī)指令被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。
35、本發(fā)明的上述技術(shù)方案至少具有如下有益效果:
36、本發(fā)明實施例中,通過獲取大語言模型的多個思維鏈cot區(qū)塊,不同的cot區(qū)塊對應(yīng)不同的任務(wù),每個cot區(qū)塊與對應(yīng)的任務(wù)強(qiáng)相關(guān);然后,基于每個任務(wù)對應(yīng)的cot區(qū)塊,獲取每個任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;最后,基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,如此,通過發(fā)掘大語言模型中對應(yīng)不同任務(wù)的不同cot區(qū)塊,cot區(qū)塊與任務(wù)強(qiáng)相關(guān),反映大語言模型在該任務(wù)上的邏輯推理能力,其推理過程具有一定的抽象到具體的邏輯性;之后,基于cot區(qū)塊構(gòu)建任務(wù)的cot指令集合,對大語言模型中的cot區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練,得到的訓(xùn)練后的大語言模型其cot能力得到強(qiáng)化,在后續(xù)應(yīng)用中,利用本發(fā)明訓(xùn)練得到的大語言模型在特定任務(wù)上進(jìn)行推理,能夠提高所得結(jié)果的準(zhǔn)確率。
1.一種模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取大語言模型的多個思維鏈cot區(qū)塊,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每個任務(wù)對應(yīng)的所述cot區(qū)塊,獲取每個任務(wù)的cot指令集合,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:
7.一種模型訓(xùn)練裝置,其特征在于,包括:
8.一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),其特征在于,所述處理器用于執(zhí)行以下操作:
9.一種模型訓(xùn)練設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的程序;其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法。
10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法中的步驟。
11.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)指令,所述計算機(jī)指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的模型訓(xùn)練方法中的步驟。