1.一種大模型推理加速方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種大模型推理加速方法,其特征在于,基于所述輸入矩陣對(duì)所述線性層對(duì)應(yīng)的權(quán)重進(jìn)行量化,得到量化后的模型權(quán)重,具體包括:
3.根據(jù)權(quán)利要求2所述的一種大模型推理加速方法,其特征在于,根據(jù)所述重要性,確定所述權(quán)重矩陣對(duì)應(yīng)的縮放系數(shù)集合,具體包括:
4.根據(jù)權(quán)利要求2所述的一種大模型推理加速方法,其特征在于,通過(guò)預(yù)設(shè)的minmax算法,對(duì)所述線性層進(jìn)行量化,得到量化后的模型權(quán)重,具體包括:
5.根據(jù)權(quán)利要求4所述的一種大模型推理加速方法,其特征在于,基于不同的量化方式,分別確定所述線性層對(duì)應(yīng)的縮放因子,具體包括:
6.根據(jù)權(quán)利要求1所述的一種大模型推理加速方法,其特征在于,分別通過(guò)所述訓(xùn)練集和所述測(cè)試集對(duì)所述目標(biāo)大模型進(jìn)行訓(xùn)練和評(píng)估,具體包括:
7.根據(jù)權(quán)利要求1所述的一種大模型推理加速方法,其特征在于,對(duì)所述大模型中的預(yù)測(cè)頭進(jìn)行擴(kuò)展,得到擴(kuò)展后的目標(biāo)大模型,具體包括:
8.根據(jù)權(quán)利要求1所述的一種大模型推理加速方法,其特征在于,基于大模型的模型優(yōu)化方式,采集所述大模型對(duì)應(yīng)的場(chǎng)景數(shù)據(jù),具體包括:
9.一種大模型推理加速設(shè)備,其特征在于,所述設(shè)備包括:
10.一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,其特征在于,所述計(jì)算機(jī)可執(zhí)行指令設(shè)置為: