欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品與流程

文檔序號(hào):40621269發(fā)布日期:2025-01-10 18:26閱讀:4來(lái)源:國(guó)知局
預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品與流程

本公開(kāi)涉及人工智能的,具體而言,涉及一種預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。


背景技術(shù):

1、隨著大數(shù)據(jù)和人工智能技術(shù)的不斷發(fā)展,預(yù)訓(xùn)練的大語(yǔ)言模型已經(jīng)在自然語(yǔ)言處理領(lǐng)域取得了顯著的成就。對(duì)于特定的行業(yè)領(lǐng)域,還需要使用行業(yè)特有的數(shù)據(jù),對(duì)預(yù)訓(xùn)練的大模型進(jìn)行微調(diào)訓(xùn)練,以便使其在該領(lǐng)域內(nèi)取得更好的推理結(jié)果。

2、現(xiàn)有的微調(diào)方案中,需要由行業(yè)數(shù)據(jù)方將自身數(shù)據(jù)發(fā)給預(yù)訓(xùn)練模型方,在預(yù)訓(xùn)練模型方處進(jìn)行微調(diào)訓(xùn)練。或由預(yù)訓(xùn)練模型方把其訓(xùn)練好的預(yù)訓(xùn)練模型發(fā)給行業(yè)數(shù)據(jù)方,在行業(yè)數(shù)據(jù)方處進(jìn)行微調(diào)訓(xùn)練。然而,上述幾種方案會(huì)導(dǎo)致一方獲取另一方的全部數(shù)據(jù),從而導(dǎo)致其數(shù)據(jù)外泄。


技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)實(shí)施例至少提供一種預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。

2、第一方面,本公開(kāi)實(shí)施例提供了一種預(yù)訓(xùn)練模型的微調(diào)方法,應(yīng)用于行業(yè)數(shù)據(jù)方,包括:

3、獲取預(yù)訓(xùn)練模型方發(fā)送的預(yù)訓(xùn)練模型的壓縮模型,并通過(guò)所述壓縮模型對(duì)前綴調(diào)整參數(shù)進(jìn)行本地訓(xùn)練,得到所述前綴調(diào)整參數(shù)的第一參數(shù)值;

4、將所述前綴調(diào)整參數(shù)的第一參數(shù)值與所述預(yù)訓(xùn)練模型進(jìn)行整合,得到目標(biāo)預(yù)訓(xùn)練模型;

5、通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,其中,所述第一網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層,所述預(yù)訓(xùn)練模型的剩余模型參數(shù)層和文本輸出層部署于預(yù)訓(xùn)練模型方。

6、一種可選的實(shí)施方式中,所述預(yù)訓(xùn)練模型的壓縮模型中切詞器、嵌入層和部分模型參數(shù)層的模型參數(shù)與所述預(yù)訓(xùn)練模型中相對(duì)應(yīng)網(wǎng)絡(luò)層的模型參數(shù)相同。

7、一種可選的實(shí)施方式中,所述通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:

8、通過(guò)所述第一網(wǎng)絡(luò)層對(duì)輸入樣本進(jìn)行處理,得到第一結(jié)果;

9、將所述第一結(jié)果發(fā)送至所述預(yù)訓(xùn)練模型方進(jìn)行處理,并獲取所述預(yù)訓(xùn)練模型方通過(guò)第二網(wǎng)絡(luò)層對(duì)所述第一結(jié)果進(jìn)行處理后得到的第二結(jié)果;所述第二網(wǎng)絡(luò)層為所述預(yù)訓(xùn)練模型中部署在所述預(yù)訓(xùn)練模型方的網(wǎng)絡(luò)層;

10、基于所述第二結(jié)果對(duì)所述前綴調(diào)整參數(shù)進(jìn)行調(diào)整,得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。

11、一種可選的實(shí)施方式中,所述基于所述第二結(jié)果對(duì)所述前綴調(diào)整參數(shù)進(jìn)行調(diào)整,得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:

12、獲取所述輸入樣本的樣本標(biāo)簽;

13、根據(jù)所述第二結(jié)果和所述樣本標(biāo)簽計(jì)算目標(biāo)損失函數(shù)的函數(shù)值,并根據(jù)所述函數(shù)值對(duì)所述前綴調(diào)整參數(shù)進(jìn)行反向更新,直至得到滿(mǎn)足預(yù)設(shè)條件的所述前綴調(diào)整參數(shù)的最優(yōu)參數(shù)值。

14、一種可選的實(shí)施方式中,所述通過(guò)所述第一網(wǎng)絡(luò)層對(duì)輸入樣本進(jìn)行處理,得到第一結(jié)果,包括:

15、通過(guò)所述切詞器和所述嵌入層對(duì)所述輸入樣本進(jìn)行依次處理,得到所述嵌入層輸出的嵌入結(jié)果,并將所述嵌入結(jié)果輸入至前綴微調(diào)參數(shù)層,得到前綴隱藏狀態(tài);

16、將所述前綴隱藏狀態(tài)和所述嵌入結(jié)果,輸入至所述部分模型參數(shù)層,計(jì)算得到隱藏狀態(tài),并將所述隱藏狀態(tài)確定為所述第一結(jié)果。

17、一種可選的實(shí)施方式中,所述將所述第一結(jié)果發(fā)送至所述預(yù)訓(xùn)練模型方進(jìn)行處理,包括:

18、對(duì)所述第一結(jié)果進(jìn)行序列化處理和壓縮處理,得到壓縮數(shù)據(jù);

19、將所述壓縮數(shù)據(jù)發(fā)送至所述預(yù)訓(xùn)練模型方進(jìn)行處理。

20、一種可選的實(shí)施方式中,所述通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:

21、確定所述前綴調(diào)整參數(shù)是否滿(mǎn)足聯(lián)邦學(xué)習(xí)條件;

22、在確定滿(mǎn)足所述聯(lián)邦學(xué)習(xí)條件的情況下,通過(guò)多個(gè)所述行業(yè)數(shù)據(jù)方中部署的所述目標(biāo)預(yù)訓(xùn)練模型的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。

23、一種可選的實(shí)施方式中,所述通過(guò)多個(gè)所述行業(yè)數(shù)據(jù)方中部署的所述目標(biāo)預(yù)訓(xùn)練模型的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,包括:

24、基于每個(gè)所述行業(yè)數(shù)據(jù)方在每輪訓(xùn)練過(guò)程的數(shù)據(jù)量和該輪訓(xùn)練過(guò)程輸出的目標(biāo)前綴調(diào)整參數(shù),計(jì)算前綴調(diào)整參數(shù)的聯(lián)合訓(xùn)練參數(shù);

25、控制每個(gè)所述行業(yè)數(shù)據(jù)方向其他行業(yè)數(shù)據(jù)方分享所述聯(lián)合訓(xùn)練參數(shù),以及控制該行業(yè)數(shù)據(jù)方對(duì)接收到的第二聯(lián)合訓(xùn)練參數(shù)進(jìn)行求和,得到第一求和結(jié)果;

26、對(duì)每個(gè)所述行業(yè)數(shù)據(jù)方確定的第一求和結(jié)果進(jìn)行求和,得到第二求和結(jié)果,并基于所述第二求和結(jié)果計(jì)算該輪訓(xùn)練過(guò)程輸出的前綴調(diào)整參數(shù)的參數(shù)值;

27、反復(fù)執(zhí)行上述步驟,直至得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。

28、一種可選的實(shí)施方式中,所述基于每個(gè)所述行業(yè)數(shù)據(jù)方在每輪訓(xùn)練過(guò)程的數(shù)據(jù)量和該輪訓(xùn)練過(guò)程輸出的目標(biāo)前綴調(diào)整參數(shù),計(jì)算前綴調(diào)整參數(shù)的聯(lián)合訓(xùn)練參數(shù),包括:

29、基于所述目標(biāo)前綴調(diào)整參數(shù)和所述數(shù)據(jù)量計(jì)算目標(biāo)隨機(jī)張量;

30、基于所述目標(biāo)隨機(jī)張量確定所述聯(lián)合訓(xùn)練參數(shù)。

31、第二方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的微調(diào)方法,應(yīng)用于預(yù)訓(xùn)練模型方,所述預(yù)訓(xùn)練模型方上部署了預(yù)訓(xùn)練模型的第二網(wǎng)絡(luò)層,其中,所述第二網(wǎng)絡(luò)層包括第二模型參數(shù)層和文本輸出層,包括:

32、確定預(yù)訓(xùn)練模型;

33、對(duì)所述預(yù)訓(xùn)練模型進(jìn)行壓縮,得到壓縮模型,向行業(yè)數(shù)據(jù)方發(fā)送所述壓縮模型;其中,所述行業(yè)數(shù)據(jù)方在獲取到所述壓縮模型之后,按照上述第一方面中任一項(xiàng)所述的方法進(jìn)行處理,得到所述預(yù)訓(xùn)練模型的前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。

34、一種可選的實(shí)施方式中,所述對(duì)所述預(yù)訓(xùn)練模型進(jìn)行壓縮,得到壓縮模型,包括:

35、構(gòu)建學(xué)生模型;

36、在所述學(xué)生模型的目標(biāo)網(wǎng)絡(luò)層的參數(shù)處于凍結(jié)狀態(tài)下,通過(guò)所述學(xué)生模型和所述預(yù)訓(xùn)練模型對(duì)樣本的輸出結(jié)果,對(duì)所述學(xué)生模型中待訓(xùn)練參數(shù)進(jìn)行訓(xùn)練,訓(xùn)練后得到所述壓縮模型;其中,所述目標(biāo)網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層。

37、第三方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的推理方法,包括:

38、通過(guò)預(yù)訓(xùn)練模型中第三網(wǎng)絡(luò)層對(duì)輸入文本進(jìn)行處理,得到第一處理結(jié)果;其中,所述第三網(wǎng)絡(luò)層包括:切詞器、嵌入層和至少部分模型參數(shù)層,所述預(yù)訓(xùn)練模型中前綴調(diào)整參數(shù)的參數(shù)值采用上述第一方面和第二方面中任一項(xiàng)所述的方法調(diào)整得到;

39、將所述第一處理結(jié)果發(fā)送至預(yù)訓(xùn)練模型方進(jìn)行處理;

40、獲取所述預(yù)訓(xùn)練模型方反饋的文本生成結(jié)果;其中,所述文本生成結(jié)果為所述預(yù)訓(xùn)練模型方基于對(duì)第二處理結(jié)果進(jìn)行文本生成處理后得到,所述第二處理結(jié)果為所述預(yù)訓(xùn)練模型方對(duì)所述第一處理結(jié)果進(jìn)行處理后得到。

41、第四方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的微調(diào)裝置,設(shè)置于行業(yè)數(shù)據(jù)方,包括:

42、第一獲取單元,用于獲取預(yù)訓(xùn)練模型方發(fā)送的所述預(yù)訓(xùn)練模型的壓縮模型,并通過(guò)所述壓縮模型對(duì)前綴調(diào)整參數(shù)進(jìn)行本地訓(xùn)練,得到所述前綴調(diào)整參數(shù)的第一參數(shù)值;

43、整合單元,用于將所述前綴調(diào)整參數(shù)的第一參數(shù)值與所述預(yù)訓(xùn)練模型進(jìn)行整合,得到目標(biāo)預(yù)訓(xùn)練模型;

44、參數(shù)訓(xùn)練單元,用于通過(guò)所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù),得到所述前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值,其中,所述第一網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層,所述預(yù)訓(xùn)練模型的剩余模型參數(shù)層和文本輸出層部署于預(yù)訓(xùn)練模型方。

45、第五方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的微調(diào)裝置,設(shè)置于預(yù)訓(xùn)練模型方,所述預(yù)訓(xùn)練模型方上部署了預(yù)訓(xùn)練模型的第二網(wǎng)絡(luò)層,其中,所述第二網(wǎng)絡(luò)層包括第二模型參數(shù)層和文本輸出層,包括:

46、確定單元,用于確定預(yù)訓(xùn)練模型;

47、壓縮單元,用于對(duì)所述預(yù)訓(xùn)練模型進(jìn)行壓縮,得到壓縮模型;

48、第一發(fā)送單元,用于向行業(yè)數(shù)據(jù)方發(fā)送所述壓縮模型;其中,所述行業(yè)數(shù)據(jù)方在獲取到所述壓縮模型之后,按照上述第一方面中任一項(xiàng)所述的方法進(jìn)行處理,得到所述預(yù)訓(xùn)練模型的前綴調(diào)整參數(shù)針對(duì)所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。

49、第六方面,本公開(kāi)實(shí)施例提供一種預(yù)訓(xùn)練模型的推理裝置,包括:

50、文本處理單元,用于通過(guò)預(yù)訓(xùn)練模型中第三網(wǎng)絡(luò)層對(duì)輸入文本進(jìn)行處理,得到第一處理結(jié)果;其中,所述第三網(wǎng)絡(luò)層包括:切詞器、嵌入層和至少部分模型參數(shù)層,所述預(yù)訓(xùn)練模型中前綴調(diào)整參數(shù)的參數(shù)值采用上述第一方面和第二方面中任一項(xiàng)所述的方法調(diào)整得到;

51、第二發(fā)送單元,用于將所述第一處理結(jié)果發(fā)送至預(yù)訓(xùn)練模型方進(jìn)行處理;

52、第二獲取單元,用于獲取所述預(yù)訓(xùn)練模型方反饋的文本生成結(jié)果;其中,所述文本生成結(jié)果為所述預(yù)訓(xùn)練模型方基于對(duì)第二處理結(jié)果進(jìn)行文本生成處理后得到,所述第二處理結(jié)果為所述預(yù)訓(xùn)練模型方對(duì)所述第一處理結(jié)果進(jìn)行處理后得到。

53、第七方面,本公開(kāi)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線(xiàn),所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過(guò)總線(xiàn)通信,所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行上述第一方面至第三方面中任一種可能的實(shí)施方式中的步驟。

54、第八方面,本公開(kāi)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面至第三方面中任一種可能的實(shí)施方式中的步驟。

55、第九方面,本公開(kāi)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中,所述程序產(chǎn)品被至少一個(gè)處理器執(zhí)行上述第一方面至第三方面中任一種可能的實(shí)施方式中的步驟。

56、本公開(kāi)實(shí)施例提供了一種預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。在本公開(kāi)實(shí)施例中,在行業(yè)數(shù)據(jù)方上部署了預(yù)訓(xùn)練模型的第一網(wǎng)絡(luò)層,其中,該第一網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層,預(yù)訓(xùn)練模型方上部署了所述預(yù)訓(xùn)練模型的剩余模型參數(shù)層和文本輸出層。具體地,首先,可以獲取預(yù)訓(xùn)練模型方發(fā)送的預(yù)訓(xùn)練模型的壓縮模型,并通過(guò)壓縮模型對(duì)預(yù)訓(xùn)練模型的前綴調(diào)整參數(shù)進(jìn)行本地訓(xùn)練,得到前綴調(diào)整參數(shù)的第一參數(shù)值;然后,前綴調(diào)整參數(shù)的第一參數(shù)值與預(yù)訓(xùn)練模型進(jìn)行整合,得到目標(biāo)預(yù)訓(xùn)練模型;最后,通過(guò)目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整前綴調(diào)整參數(shù),得到前綴調(diào)整參數(shù)針對(duì)行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值。

57、上述實(shí)施方式中,通過(guò)將預(yù)訓(xùn)練模型的壓縮模型和預(yù)訓(xùn)練模型的部分模型參數(shù)層發(fā)送到行業(yè)數(shù)據(jù)方,預(yù)訓(xùn)練模型的其他模型參數(shù)層的參數(shù)并未發(fā)送至行業(yè)數(shù)據(jù)方,從而使得預(yù)訓(xùn)練模型方的相關(guān)數(shù)據(jù)得到了保護(hù)。針對(duì)行業(yè)數(shù)據(jù)方來(lái)說(shuō),由于前綴調(diào)整參數(shù)保存在本地,因此,可以保證前綴調(diào)整參數(shù)的安全性,以避免向預(yù)訓(xùn)練模型方泄露該前綴調(diào)整參數(shù)。行業(yè)數(shù)據(jù)方通過(guò)第一網(wǎng)絡(luò)層調(diào)整前綴調(diào)整參數(shù)的過(guò)程,可以實(shí)現(xiàn)將通過(guò)部分模型參數(shù)層對(duì)前綴調(diào)整參數(shù)的處理數(shù)據(jù)發(fā)送至預(yù)訓(xùn)練模型方,從而使得預(yù)訓(xùn)練模型方無(wú)法基于接收到的處理數(shù)據(jù)反推出前綴調(diào)整參數(shù)的原始數(shù)據(jù),因此,使得行業(yè)數(shù)據(jù)方處的輸入數(shù)據(jù)得到了保護(hù)。

58、為使本公開(kāi)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
马山县| 宜兰县| 中江县| 石棉县| 吉木乃县| 屯门区| 米脂县| 厦门市| 霍山县| 寻乌县| 平武县| 崇左市| 大埔区| 二连浩特市| 朝阳市| 山东省| 亳州市| 九寨沟县| 兴义市| 当雄县| 锡林郭勒盟| 咸丰县| 闵行区| 尼木县| 梁平县| 韩城市| 青海省| 临潭县| 五寨县| 常熟市| 江油市| 汉源县| 乌兰浩特市| 原阳县| 玉溪市| 定西市| 亳州市| 高邑县| 保德县| 大渡口区| 明光市|