本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種模型自動(dòng)剪枝方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。。
背景技術(shù):
1、大語(yǔ)言模型(large?language?model,llm)往往具有超大規(guī)模的參數(shù)量和訓(xùn)練數(shù)據(jù),能夠在現(xiàn)實(shí)世界中學(xué)習(xí)具有挑戰(zhàn)性的任務(wù)。然而,這種過(guò)高的模型大小需要大量的計(jì)算和內(nèi)存來(lái)部署,這限制了它們?cè)谠S多資源受限的環(huán)境中的適用性。模型壓縮是一種在保持神經(jīng)網(wǎng)絡(luò)能力的同時(shí)減少神經(jīng)網(wǎng)絡(luò)大小的策略。為了構(gòu)建更輕、更快、更可解釋的模型,目前的模型壓縮算法有很多,包括模型剪枝、量化、知識(shí)蒸餾等。其中,剪枝是當(dāng)前十分熱門的一種模型壓縮技術(shù),通過(guò)刪除不必要的或者冗余的組件來(lái)減少模型的大小,降低模型的復(fù)雜度。
2、因此,如何有效的進(jìn)行模型剪枝已經(jīng)成為業(yè)界亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種模型自動(dòng)剪枝方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有技術(shù)中如何有效的進(jìn)行模型剪枝的問(wèn)題。
2、本發(fā)明提供一種模型自動(dòng)剪枝方法,包括:
3、將模型中任一組待剪枝組的狀態(tài)信息輸入智能體中的actor網(wǎng)絡(luò),得到所述待剪枝組的預(yù)測(cè)壓縮比例;
4、基于所述待剪枝組的預(yù)測(cè)壓縮比例對(duì)所述待剪枝組進(jìn)行剪枝,得到第一剪枝組,并基于預(yù)設(shè)壓縮比對(duì)所述待剪枝組進(jìn)行剪枝,得到第二剪枝組;
5、遍歷全部待剪枝組,基于所述第一剪枝組與所述第二剪枝組之間的損失擾動(dòng),以及長(zhǎng)期獎(jiǎng)勵(lì),對(duì)所述智能體進(jìn)行優(yōu)化,得到剪枝模型。
6、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝方法,在所述得到剪枝模型的步驟之后,所述方法還包括:
7、通過(guò)所述剪枝模型對(duì)待剪枝的目標(biāo)語(yǔ)言模型進(jìn)行剪枝處理,得到剪枝后語(yǔ)言模型;
8、通過(guò)低秩近似技術(shù),將所述剪枝后語(yǔ)言模型中的可學(xué)習(xí)權(quán)重矩陣分解為低秩矩陣;
9、將剪枝前的目標(biāo)語(yǔ)言模型作為教師模型,將所述低秩矩陣作為學(xué)生模型,通過(guò)知識(shí)蒸餾技術(shù),對(duì)所述剪枝后語(yǔ)言模型剪枝模型進(jìn)行優(yōu)化,得到最終剪枝后目標(biāo)語(yǔ)言模型。
10、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝方法,基于所述待剪枝組的預(yù)測(cè)壓縮比例對(duì)所述待剪枝組進(jìn)行剪枝,得到第一剪枝組,并基于預(yù)設(shè)壓縮比對(duì)所述待剪枝組進(jìn)行剪枝,得到第二剪枝組,包括:
11、采用wanda算法,基于權(quán)重值和激活值對(duì)所述待剪枝組的權(quán)重重要性進(jìn)行評(píng)估,得到待剪枝組的權(quán)重重要性;
12、基于所述權(quán)重重要性和所述預(yù)測(cè)壓縮比例對(duì)所述待剪枝組進(jìn)行剪枝,得到第一剪枝組,并基于所述權(quán)重重要性和預(yù)設(shè)壓縮比例對(duì)所述待剪枝組進(jìn)行剪枝,得到第二剪枝組。
13、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝方法,遍歷全部待剪枝組,基于所述第一剪枝組與所述第二剪枝組之間的損失擾動(dòng),以及長(zhǎng)期獎(jiǎng)勵(lì),對(duì)所述智能體進(jìn)行優(yōu)化,得到剪枝模型,包括:
14、根據(jù)所述第一剪枝組與所述第二剪枝組之間的損失擾動(dòng)確定所述智能體的短期獎(jiǎng)勵(lì)值;
15、遍歷全部待剪枝組,根據(jù)各個(gè)待剪枝組短期獎(jiǎng)勵(lì),剪枝前后語(yǔ)言模型的損失擾動(dòng),以及剪枝后語(yǔ)言模型壓縮率與預(yù)設(shè)壓縮率之間的差值,得到長(zhǎng)期獎(jiǎng)勵(lì)值;
16、通過(guò)所述長(zhǎng)期獎(jiǎng)勵(lì)值和短期獎(jiǎng)勵(lì)值對(duì)所述智能體優(yōu)化,通過(guò)優(yōu)化完成后的所述智能體對(duì)任意輸入的目標(biāo)語(yǔ)言模型進(jìn)行剪枝,得到剪枝后語(yǔ)言模型。
17、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝方法,根據(jù)各個(gè)待剪枝組短期獎(jiǎng)勵(lì),得到長(zhǎng)期獎(jiǎng)勵(lì)值,包括:
18、獲取剪枝后語(yǔ)言模型與原始語(yǔ)言模型的自動(dòng)剪枝前后模型的損失擾動(dòng),以及剪枝后語(yǔ)言模型壓縮率與預(yù)設(shè)壓縮率之間的差值;
19、基于所述自動(dòng)剪枝前后語(yǔ)言模型的損失擾動(dòng)、壓縮率差值以及各個(gè)所述短期獎(jiǎng)勵(lì)之和,得到長(zhǎng)期獎(jiǎng)勵(lì)值。
20、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝方法,所述長(zhǎng)期獎(jiǎng)勵(lì)值,具體為:
21、
22、其中,為自動(dòng)剪枝前后語(yǔ)言模型的損失擾動(dòng),為自動(dòng)剪枝過(guò)程完成后語(yǔ)言模型的壓縮率,為預(yù)設(shè)的固定壓縮率,為各個(gè)待剪枝組的短期獎(jiǎng)勵(lì)加權(quán)和。
23、本發(fā)明還提供一種模型自動(dòng)剪枝裝置,包括:
24、輸入模塊,用于將模型中任一組待剪枝組的狀態(tài)信息輸入智能體中的actor網(wǎng)絡(luò),得到所述待剪枝組的預(yù)測(cè)壓縮比例;
25、剪枝模塊,用于基于所述待剪枝組的預(yù)測(cè)壓縮比例對(duì)所述待剪枝組進(jìn)行剪枝,得到第一剪枝組,并基于預(yù)設(shè)壓縮比對(duì)所述待剪枝組進(jìn)行剪枝,得到第二剪枝組;
26、優(yōu)化模塊,用于基于所述第一剪枝組與所述第二剪枝組之間的損失擾動(dòng),對(duì)所述智能體進(jìn)行優(yōu)化,得到剪枝模型。
27、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝裝置,所述裝置還用于:
28、通過(guò)低秩近似技術(shù),將所述剪枝后語(yǔ)言模型中的可學(xué)習(xí)權(quán)重矩陣分解為低秩矩陣;
29、將剪枝前的目標(biāo)語(yǔ)言模型作為教師模型,將所述低秩矩陣作為學(xué)生模型,通過(guò)知識(shí)蒸餾技術(shù),對(duì)所述剪枝后語(yǔ)言模型進(jìn)行優(yōu)化,得到最終剪枝后語(yǔ)言模型。
30、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝裝置,所述裝置還用于:
31、采用wanda算法,基于權(quán)重值和激活值對(duì)所述待剪枝組的權(quán)重重要性進(jìn)行評(píng)估,得到待剪枝組的權(quán)重重要性;
32、基于所述權(quán)重重要性和所述預(yù)測(cè)壓縮比例對(duì)所述待剪枝組進(jìn)行剪枝,得到第一剪枝組,并基于所述權(quán)重重要性和預(yù)設(shè)壓縮比例對(duì)所述待剪枝組進(jìn)行剪枝,得到第二剪枝組。
33、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝裝置,所述裝置還用于:
34、根據(jù)所述第一剪枝組與所述第二剪枝組之間的損失擾動(dòng)確定所述智能體的短期獎(jiǎng)勵(lì)值;
35、遍歷全部待剪枝組,根據(jù)各個(gè)待剪枝組短期獎(jiǎng)勵(lì),得到長(zhǎng)期獎(jiǎng)勵(lì)值;
36、通過(guò)所述長(zhǎng)期獎(jiǎng)勵(lì)值和短期獎(jiǎng)勵(lì)值對(duì)所述智能體優(yōu)化,通過(guò)優(yōu)化完成后的所述智能體對(duì)任意輸入的目標(biāo)語(yǔ)言模型進(jìn)行剪枝,得到剪枝后語(yǔ)言模型。
37、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝裝置,所述裝置還用于:
38、獲取剪枝后語(yǔ)言模型與原始語(yǔ)言模型的自動(dòng)剪枝前后模型的損失擾動(dòng),以及剪枝后語(yǔ)言模型壓縮率與預(yù)設(shè)壓縮率之間的差值;
39、基于所述自動(dòng)剪枝前后語(yǔ)言模型的損失擾動(dòng)、壓縮率差值以及各個(gè)所述短期獎(jiǎng)勵(lì)之和,得到長(zhǎng)期獎(jiǎng)勵(lì)值。
40、根據(jù)本發(fā)明提供的一種模型自動(dòng)剪枝裝置,所述長(zhǎng)期獎(jiǎng)勵(lì)值,具體為:
41、
42、其中,為自動(dòng)剪枝前后語(yǔ)言模型的損失擾動(dòng),為自動(dòng)剪枝過(guò)程完成后語(yǔ)言模型的壓縮率,為預(yù)設(shè)的固定壓縮率,為各個(gè)待剪枝組的短期獎(jiǎng)勵(lì)加權(quán)和。
43、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述模型自動(dòng)剪枝方法。
44、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述模型自動(dòng)剪枝方法。
45、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述模型自動(dòng)剪枝方法。
46、本發(fā)明提供的模型自動(dòng)剪枝方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)可以自動(dòng)化為llm不同參數(shù)組設(shè)計(jì)不同的裁剪策略,減少人工設(shè)計(jì)的難度。引入對(duì)比剪枝網(wǎng)絡(luò),在每一輪剪枝和其中間每一組的剪枝過(guò)程中分別加入長(zhǎng)短期獎(jiǎng)勵(lì),使得演員網(wǎng)絡(luò)能夠?qū)W習(xí)更準(zhǔn)確的決策。從而實(shí)現(xiàn)高效準(zhǔn)確的模型剪枝處理。