本公開(kāi)涉及人工智能的,具體而言,涉及一種預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、隨著大數(shù)據(jù)和人工智能技術(shù)的不斷發(fā)展,預(yù)訓(xùn)練的大語(yǔ)言模型已經(jīng)在自然語(yǔ)言處理領(lǐng)域取得了顯著的成就。對(duì)于特定的行業(yè)領(lǐng)域,還需要使用行業(yè)特有的數(shù)據(jù),對(duì)預(yù)訓(xùn)練的大模型進(jìn)行微調(diào)訓(xùn)練,以便使其在該領(lǐng)域內(nèi)取得更好的推理結(jié)果。
2、現(xiàn)有的微調(diào)方案中,需要由行業(yè)數(shù)據(jù)方將自身數(shù)據(jù)發(fā)給預(yù)訓(xùn)練模型方,在預(yù)訓(xùn)練模型方處進(jìn)行微調(diào)訓(xùn)練。或由預(yù)訓(xùn)練模型方把其訓(xùn)練好的預(yù)訓(xùn)練模型發(fā)給行業(yè)數(shù)據(jù)方,在行業(yè)數(shù)據(jù)方處進(jìn)行微調(diào)訓(xùn)練。然而,上述幾種方案會(huì)導(dǎo)致一方獲取另一方的全部數(shù)據(jù),從而導(dǎo)致其數(shù)據(jù)外泄。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)實(shí)施例至少提供一種預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
2、第一方面,本公開(kāi)實(shí)施例提供了一種預(yù)訓(xùn)練模型的微調(diào)方法,應(yīng)用于行業(yè)數(shù)據(jù)方,包括:
3、獲取預(yù)訓(xùn)練模型方發(fā)送的預(yù)訓(xùn)練模型的壓縮模型,并通過(guò)所述壓縮模型對(duì)前綴調(diào)整參數(shù)進(jìn)行本地訓(xùn)練,得到所述前綴調(diào)整參數(shù)的第一參數(shù)值;
4、將所述前綴調(diào)整參數(shù)的第一參數(shù)值與所述預(yù)訓(xùn)練模型進(jìn)行整合,得到目標(biāo)預(yù)訓(xùn)練模型;
5、通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,其中,所述第一網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層,所述預(yù)訓(xùn)練模型的剩余模型參數(shù)層和文本輸出層部署于預(yù)訓(xùn)練模型方。
6、一種可選的實(shí)施方式中,所述預(yù)訓(xùn)練模型的壓縮模型中切詞器、嵌入層和部分模型參數(shù)層的模型參數(shù)與所述預(yù)訓(xùn)練模型中相對(duì)應(yīng)網(wǎng)絡(luò)層的模型參數(shù)相同。
7、一種可選的實(shí)施方式中,所述通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:
8、通過(guò)所述第一網(wǎng)絡(luò)層對(duì)輸入樣本進(jìn)行處理,得到第一結(jié)果;
9、將所述第一結(jié)果發(fā)送至所述預(yù)訓(xùn)練模型方進(jìn)行處理,并獲取所述預(yù)訓(xùn)練模型方通過(guò)第二網(wǎng)絡(luò)層對(duì)所述第一結(jié)果進(jìn)行處理后得到的第二結(jié)果;所述第二網(wǎng)絡(luò)層為所述預(yù)訓(xùn)練模型中部署在所述預(yù)訓(xùn)練模型方的網(wǎng)絡(luò)層;
10、基于所述第二結(jié)果對(duì)所述前綴調(diào)整參數(shù)進(jìn)行調(diào)整,得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。
11、一種可選的實(shí)施方式中,所述基于所述第二結(jié)果對(duì)所述前綴調(diào)整參數(shù)進(jìn)行調(diào)整,得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:
12、獲取所述輸入樣本的樣本標(biāo)簽;
13、根據(jù)所述第二結(jié)果和所述樣本標(biāo)簽計(jì)算目標(biāo)損失函數(shù)的函數(shù)值,并根據(jù)所述函數(shù)值對(duì)所述前綴調(diào)整參數(shù)進(jìn)行反向更新,直至得到滿(mǎn)足預(yù)設(shè)條件的所述前綴調(diào)整參數(shù)的最優(yōu)參數(shù)值。
14、一種可選的實(shí)施方式中,所述通過(guò)所述第一網(wǎng)絡(luò)層對(duì)輸入樣本進(jìn)行處理,得到第一結(jié)果,包括:
15、通過(guò)所述切詞器和所述嵌入層對(duì)所述輸入樣本進(jìn)行依次處理,得到所述嵌入層輸出的嵌入結(jié)果,并將所述嵌入結(jié)果輸入至前綴微調(diào)參數(shù)層,得到前綴隱藏狀態(tài);
16、將所述前綴隱藏狀態(tài)和所述嵌入結(jié)果,輸入至所述部分模型參數(shù)層,計(jì)算得到隱藏狀態(tài),并將所述隱藏狀態(tài)確定為所述第一結(jié)果。
17、一種可選的實(shí)施方式中,所述將所述第一結(jié)果發(fā)送至所述預(yù)訓(xùn)練模型方進(jìn)行處理,包括:
18、對(duì)所述第一結(jié)果進(jìn)行序列化處理和壓縮處理,得到壓縮數(shù)據(jù);
19、將所述壓縮數(shù)據(jù)發(fā)送至所述預(yù)訓(xùn)練模型方進(jìn)行處理。
20、一種可選的實(shí)施方式中,所述通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:
21、確定所述前綴調(diào)整參數(shù)是否滿(mǎn)足聯(lián)邦學(xué)習(xí)條件;
22、在確定滿(mǎn)足所述聯(lián)邦學(xué)習(xí)條件的情況下,通過(guò)多個(gè)所述行業(yè)數(shù)據(jù)方中部署的所述目標(biāo)預(yù)訓(xùn)練模型的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。
23、一種可選的實(shí)施方式中,所述通過(guò)多個(gè)所述行業(yè)數(shù)據(jù)方中部署的所述目標(biāo)預(yù)訓(xùn)練模型的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:
24、基于每個(gè)所述行業(yè)數(shù)據(jù)方在每輪訓(xùn)練過(guò)程的數(shù)據(jù)量和該輪訓(xùn)練過(guò)程輸出的目標(biāo)前綴調(diào)整參數(shù),計(jì)算前綴調(diào)整參數(shù)的聯(lián)合訓(xùn)練參數(shù);
25、控制每個(gè)所述行業(yè)數(shù)據(jù)方向其他行業(yè)數(shù)據(jù)方分享所述聯(lián)合訓(xùn)練參數(shù),以及控制該行業(yè)數(shù)據(jù)方對(duì)接收到的第二聯(lián)合訓(xùn)練參數(shù)進(jìn)行求和,得到第一求和結(jié)果;
26、對(duì)每個(gè)所述行業(yè)數(shù)據(jù)方確定的第一求和結(jié)果進(jìn)行求和,得到第二求和結(jié)果,并基于所述第二求和結(jié)果計(jì)算該輪訓(xùn)練過(guò)程輸出的前綴調(diào)整參數(shù)的參數(shù)值;
27、反復(fù)執(zhí)行上述步驟,直至得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。
28、一種可選的實(shí)施方式中,所述基于每個(gè)所述行業(yè)數(shù)據(jù)方在每輪訓(xùn)練過(guò)程的數(shù)據(jù)量和該輪訓(xùn)練過(guò)程輸出的目標(biāo)前綴調(diào)整參數(shù),計(jì)算前綴調(diào)整參數(shù)的聯(lián)合訓(xùn)練參數(shù),包括:
29、基于所述目標(biāo)前綴調(diào)整參數(shù)和所述數(shù)據(jù)量計(jì)算目標(biāo)隨機(jī)張量;
30、基于所述目標(biāo)隨機(jī)張量確定所述聯(lián)合訓(xùn)練參數(shù)。
31、第二方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的微調(diào)方法,應(yīng)用于預(yù)訓(xùn)練模型方,所述預(yù)訓(xùn)練模型方上部署了預(yù)訓(xùn)練模型的第二網(wǎng)絡(luò)層,其中,所述第二網(wǎng)絡(luò)層包括第二模型參數(shù)層和文本輸出層,包括:
32、確定預(yù)訓(xùn)練模型;
33、對(duì)所述預(yù)訓(xùn)練模型進(jìn)行壓縮,得到壓縮模型,向行業(yè)數(shù)據(jù)方發(fā)送所述壓縮模型;其中,所述行業(yè)數(shù)據(jù)方在獲取到所述壓縮模型之后,按照上述第一方面中任一項(xiàng)所述的方法進(jìn)行處理,得到所述預(yù)訓(xùn)練模型的前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。
34、一種可選的實(shí)施方式中,所述對(duì)所述預(yù)訓(xùn)練模型進(jìn)行壓縮,得到壓縮模型,包括:
35、構(gòu)建學(xué)生模型;
36、在所述學(xué)生模型的目標(biāo)網(wǎng)絡(luò)層的參數(shù)處于凍結(jié)狀態(tài)下,通過(guò)所述學(xué)生模型和所述預(yù)訓(xùn)練模型對(duì)樣本的輸出結(jié)果,對(duì)所述學(xué)生模型中待訓(xùn)練參數(shù)進(jìn)行訓(xùn)練,訓(xùn)練后得到所述壓縮模型;其中,所述目標(biāo)網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層。
37、第三方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的推理方法,包括:
38、通過(guò)預(yù)訓(xùn)練模型中第三網(wǎng)絡(luò)層對(duì)輸入文本進(jìn)行處理,得到第一處理結(jié)果;其中,所述第三網(wǎng)絡(luò)層包括:切詞器、嵌入層和至少部分模型參數(shù)層,所述預(yù)訓(xùn)練模型中前綴調(diào)整參數(shù)的參數(shù)值采用上述第一方面和第二方面中任一項(xiàng)所述的方法調(diào)整得到;
39、將所述第一處理結(jié)果發(fā)送至預(yù)訓(xùn)練模型方進(jìn)行處理;
40、獲取所述預(yù)訓(xùn)練模型方反饋的文本生成結(jié)果;其中,所述文本生成結(jié)果為所述預(yù)訓(xùn)練模型方基于對(duì)第二處理結(jié)果進(jìn)行文本生成處理后得到,所述第二處理結(jié)果為所述預(yù)訓(xùn)練模型方對(duì)所述第一處理結(jié)果進(jìn)行處理后得到。
41、第四方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的微調(diào)裝置,設(shè)置于行業(yè)數(shù)據(jù)方,包括:
42、第一獲取單元,用于獲取預(yù)訓(xùn)練模型方發(fā)送的所述預(yù)訓(xùn)練模型的壓縮模型,并通過(guò)所述壓縮模型對(duì)前綴調(diào)整參數(shù)進(jìn)行本地訓(xùn)練,得到所述前綴調(diào)整參數(shù)的第一參數(shù)值;
43、整合單元,用于將所述前綴調(diào)整參數(shù)的第一參數(shù)值與所述預(yù)訓(xùn)練模型進(jìn)行整合,得到目標(biāo)預(yù)訓(xùn)練模型;
44、參數(shù)訓(xùn)練單元,用于通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,其中,所述第一網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層,所述預(yù)訓(xùn)練模型的剩余模型參數(shù)層和文本輸出層部署于預(yù)訓(xùn)練模型方。
45、第五方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的微調(diào)裝置,設(shè)置于預(yù)訓(xùn)練模型方,所述預(yù)訓(xùn)練模型方上部署了預(yù)訓(xùn)練模型的第二網(wǎng)絡(luò)層,其中,所述第二網(wǎng)絡(luò)層包括第二模型參數(shù)層和文本輸出層,包括:
46、確定單元,用于確定預(yù)訓(xùn)練模型;
47、壓縮單元,用于對(duì)所述預(yù)訓(xùn)練模型進(jìn)行壓縮,得到壓縮模型;
48、第一發(fā)送單元,用于向行業(yè)數(shù)據(jù)方發(fā)送所述壓縮模型;其中,所述行業(yè)數(shù)據(jù)方在獲取到所述壓縮模型之后,按照上述第一方面中任一項(xiàng)所述的方法進(jìn)行處理,得到所述預(yù)訓(xùn)練模型的前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。
49、第六方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的推理裝置,包括:
50、文本處理單元,用于通過(guò)預(yù)訓(xùn)練模型中第三網(wǎng)絡(luò)層對(duì)輸入文本進(jìn)行處理,得到第一處理結(jié)果;其中,所述第三網(wǎng)絡(luò)層包括:切詞器、嵌入層和至少部分模型參數(shù)層,所述預(yù)訓(xùn)練模型中前綴調(diào)整參數(shù)的參數(shù)值采用上述第一方面和第二方面中任一項(xiàng)所述的方法調(diào)整得到;
51、第二發(fā)送單元,用于將所述第一處理結(jié)果發(fā)送至預(yù)訓(xùn)練模型方進(jìn)行處理;
52、第二獲取單元,用于獲取所述預(yù)訓(xùn)練模型方反饋的文本生成結(jié)果;其中,所述文本生成結(jié)果為所述預(yù)訓(xùn)練模型方基于對(duì)第二處理結(jié)果進(jìn)行文本生成處理后得到,所述第二處理結(jié)果為所述預(yù)訓(xùn)練模型方對(duì)所述第一處理結(jié)果進(jìn)行處理后得到。
53、第七方面,本公開(kāi)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線(xiàn),所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過(guò)總線(xiàn)通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行上述第一方面至第三方面中任一種可能的實(shí)施方式中的步驟。
54、第八方面,本公開(kāi)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面至第三方面中任一種可能的實(shí)施方式中的步驟。
55、第九方面,本公開(kāi)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中,所述程序產(chǎn)品被至少一個(gè)處理器執(zhí)行上述第一方面至第三方面中任一種可能的實(shí)施方式中的步驟。
56、本公開(kāi)實(shí)施例提供了一種預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。在本公開(kāi)實(shí)施例中,在行業(yè)數(shù)據(jù)方上部署了預(yù)訓(xùn)練模型的第一網(wǎng)絡(luò)層,其中,該第一網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層,預(yù)訓(xùn)練模型方上部署了所述預(yù)訓(xùn)練模型的剩余模型參數(shù)層和文本輸出層。具體地,首先,可以獲取預(yù)訓(xùn)練模型方發(fā)送的預(yù)訓(xùn)練模型的壓縮模型,并通過(guò)壓縮模型對(duì)預(yù)訓(xùn)練模型的前綴調(diào)整參數(shù)進(jìn)行本地訓(xùn)練,得到前綴調(diào)整參數(shù)的第一參數(shù)值;然后,前綴調(diào)整參數(shù)的第一參數(shù)值與預(yù)訓(xùn)練模型進(jìn)行整合,得到目標(biāo)預(yù)訓(xùn)練模型;最后,通過(guò)目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整前綴調(diào)整參數(shù),得到前綴調(diào)整參數(shù)針對(duì)行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。
57、上述實(shí)施方式中,通過(guò)將預(yù)訓(xùn)練模型的壓縮模型和預(yù)訓(xùn)練模型的部分模型參數(shù)層發(fā)送到行業(yè)數(shù)據(jù)方,預(yù)訓(xùn)練模型的其他模型參數(shù)層的參數(shù)并未發(fā)送至行業(yè)數(shù)據(jù)方,從而使得預(yù)訓(xùn)練模型方的相關(guān)數(shù)據(jù)得到了保護(hù)。針對(duì)行業(yè)數(shù)據(jù)方來(lái)說(shuō),由于前綴調(diào)整參數(shù)保存在本地,因此,可以保證前綴調(diào)整參數(shù)的安全性,以避免向預(yù)訓(xùn)練模型方泄露該前綴調(diào)整參數(shù)。行業(yè)數(shù)據(jù)方通過(guò)第一網(wǎng)絡(luò)層調(diào)整前綴調(diào)整參數(shù)的過(guò)程,可以實(shí)現(xiàn)將通過(guò)部分模型參數(shù)層對(duì)前綴調(diào)整參數(shù)的處理數(shù)據(jù)發(fā)送至預(yù)訓(xùn)練模型方,從而使得預(yù)訓(xùn)練模型方無(wú)法基于接收到的處理數(shù)據(jù)反推出前綴調(diào)整參數(shù)的原始數(shù)據(jù),因此,使得行業(yè)數(shù)據(jù)方處的輸入數(shù)據(jù)得到了保護(hù)。
58、為使本公開(kāi)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。