預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品與流程

文檔序號(hào)：40621269發(fā)布日期：2025-01-10 18:26閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品與流程

技術(shù)特征：

1.一種預(yù)訓(xùn)練模型的微調(diào)方法，其特征在于，應(yīng)用于行業(yè)數(shù)據(jù)方，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述預(yù)訓(xùn)練模型的壓縮模型中切詞器、嵌入層和部分模型參數(shù)層的模型參數(shù)與所述預(yù)訓(xùn)練模型中相對應(yīng)網(wǎng)絡(luò)層的模型參數(shù)相同。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù)，得到所述前綴調(diào)整參數(shù)針對所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述基于所述第二結(jié)果對所述前綴調(diào)整參數(shù)進(jìn)行調(diào)整，得到所述前綴調(diào)整參數(shù)針對所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值，包括：

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述通過所述第一網(wǎng)絡(luò)層對輸入樣本進(jìn)行處理，得到第一結(jié)果，包括：

6.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述將所述第一結(jié)果發(fā)送至所述預(yù)訓(xùn)練模型方進(jìn)行處理，包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù)，得到所述前綴調(diào)整參數(shù)針對所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值，包括：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述通過多個(gè)所述行業(yè)數(shù)據(jù)方中部署的所述目標(biāo)預(yù)訓(xùn)練模型的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù)，得到所述前綴調(diào)整參數(shù)針對所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值，包括：

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述基于每個(gè)所述行業(yè)數(shù)據(jù)方在每輪訓(xùn)練過程的數(shù)據(jù)量和該輪訓(xùn)練過程輸出的目標(biāo)前綴調(diào)整參數(shù)，計(jì)算前綴調(diào)整參數(shù)的聯(lián)合訓(xùn)練參數(shù)，包括：

10.一種預(yù)訓(xùn)練模型的微調(diào)方法，其特征在于，應(yīng)用于預(yù)訓(xùn)練模型方，所述預(yù)訓(xùn)練模型方上部署了預(yù)訓(xùn)練模型的第二網(wǎng)絡(luò)層，其中，所述第二網(wǎng)絡(luò)層包括第二模型參數(shù)層和文本輸出層，包括：

11.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述對所述預(yù)訓(xùn)練模型進(jìn)行壓縮，得到壓縮模型，包括：

12.一種預(yù)訓(xùn)練模型的推理方法，其特征在于，包括：

13.一種預(yù)訓(xùn)練模型的微調(diào)裝置，其特征在于，設(shè)置于行業(yè)數(shù)據(jù)方，包括：

14.一種預(yù)訓(xùn)練模型的微調(diào)裝置，其特征在于，設(shè)置于預(yù)訓(xùn)練模型方，所述預(yù)訓(xùn)練模型方上部署了預(yù)訓(xùn)練模型的第二網(wǎng)絡(luò)層，其中，所述第二網(wǎng)絡(luò)層包括第二模型參數(shù)層和文本輸出層，包括：

15.一種預(yù)訓(xùn)練模型的推理裝置，其特征在于，包括：

16.一種電子設(shè)備，其特征在于，包括：處理器、存儲(chǔ)器和總線，所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令，當(dāng)電子設(shè)備運(yùn)行時(shí)，所述處理器與所述存儲(chǔ)器之間通過總線通信，所述機(jī)器可讀指令被所述處理器執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至9任一所述的預(yù)訓(xùn)練模型的微調(diào)方法的步驟；或者，執(zhí)行如權(quán)利要求10或11所述的預(yù)訓(xùn)練模型的微調(diào)方法步驟，或者執(zhí)行如權(quán)利要求12所述的預(yù)訓(xùn)練模型的推理方法的步驟。

17.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至9任一所述的預(yù)訓(xùn)練模型的微調(diào)方法的步驟；或者，執(zhí)行如權(quán)利要求10或11所述的預(yù)訓(xùn)練模型的微調(diào)方法步驟，或者執(zhí)行如權(quán)利要求12所述的預(yù)訓(xùn)練模型的推理方法的步驟。

18.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，所述計(jì)算機(jī)程序產(chǎn)品被存儲(chǔ)在存儲(chǔ)介質(zhì)中，所述程序產(chǎn)品被至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至9任一所述的預(yù)訓(xùn)練模型的微調(diào)方法的步驟；或者，執(zhí)行如權(quán)利要求10或11所述的預(yù)訓(xùn)練模型的微調(diào)方法步驟，或者執(zhí)行如權(quán)利要求12所述的預(yù)訓(xùn)練模型的推理方法的步驟。

技術(shù)總結(jié)
本公開提供了一種預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品，其中，該應(yīng)用于行業(yè)數(shù)據(jù)方，包括：獲取預(yù)訓(xùn)練模型方發(fā)送的預(yù)訓(xùn)練模型的壓縮模型，并通過所述壓縮模型對前綴調(diào)整參數(shù)進(jìn)行本地訓(xùn)練，得到所述前綴調(diào)整參數(shù)的第一參數(shù)值；將所述前綴調(diào)整參數(shù)的第一參數(shù)值與所述預(yù)訓(xùn)練模型進(jìn)行整合，得到目標(biāo)預(yù)訓(xùn)練模型；通過所述目標(biāo)預(yù)訓(xùn)練模型中部署的第一網(wǎng)絡(luò)層調(diào)整所述前綴調(diào)整參數(shù)，得到所述前綴調(diào)整參數(shù)針對所述行業(yè)數(shù)據(jù)方的最優(yōu)參數(shù)值，其中，所述第一網(wǎng)絡(luò)層包括切詞器、嵌入層和部分模型參數(shù)層，所述預(yù)訓(xùn)練模型的剩余模型參數(shù)層和文本輸出層部署于預(yù)訓(xùn)練模型方。

技術(shù)研發(fā)人員：劉琛
受保護(hù)的技術(shù)使用者：中國移動(dòng)通信有限公司研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品與流程

預(yù)訓(xùn)練模型的微調(diào)、推理方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品與流程