校準(zhǔn)蒸餾的制作方法

文檔序號(hào)：40624381發(fā)布日期：2025-01-10 18:30閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開(kāi)總體上涉及機(jī)器學(xué)習(xí)。更具體地，本公開(kāi)涉及用于校準(zhǔn)從教師模型到學(xué)生模型的蒸餾學(xué)習(xí)的技術(shù)。

背景技術(shù)：

1、在機(jī)器學(xué)習(xí)中，知識(shí)蒸餾通?？芍复鷮⒅R(shí)(例如，經(jīng)由蒸餾訓(xùn)練)從教師模型轉(zhuǎn)移到學(xué)生模型的過(guò)程。通常，盡管不一定，但是教師模型會(huì)比學(xué)生模型更大(例如，就參數(shù)的數(shù)量而言)。具體地，雖然大型模型(諸如非常深的神經(jīng)網(wǎng)絡(luò)或許多模型的集成)比小型模型具有更高的知識(shí)容量，但是這種容量可能不會(huì)在所有情況下都得到充分利用或都是需要的。例如，由于較小模型評(píng)估成本較低，因此可將它們部署在功能較弱的硬件(諸如移動(dòng)裝置)上。更一般地說(shuō)，學(xué)生模型可被設(shè)計(jì)成更簡(jiǎn)單，訓(xùn)練更快，和/或根據(jù)部署(例如，系統(tǒng)約束)限制進(jìn)行部署。教師模型不必遵守此類(lèi)限制，并且可花費(fèi)更多時(shí)間進(jìn)行訓(xùn)練。因此，從教師模型到學(xué)生模型的知識(shí)蒸餾可帶來(lái)益處的情況有很多種。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)的實(shí)施例的各方面和優(yōu)點(diǎn)將在以下描述中部分地闡述，或者可從描述中學(xué)習(xí)，或者可通過(guò)實(shí)施例的實(shí)踐來(lái)學(xué)習(xí)。

2、本公開(kāi)的一個(gè)示例方面涉及一種用于以改進(jìn)的計(jì)算效率執(zhí)行蒸餾訓(xùn)練的計(jì)算系統(tǒng)。該計(jì)算系統(tǒng)包括：一個(gè)或多個(gè)處理器；教師模型，該教師模型包括教師模型主體、教師logit頭和教師預(yù)測(cè)頭，其中教師模型主體被配置為處理輸入以生成教師中間表示，其中教師logit頭被配置為處理教師中間表示以生成教師logit值，并且其中教師預(yù)測(cè)頭被配置為處理教師logit值以生成教師概率值；學(xué)生模型，該學(xué)生模型包括學(xué)生模型主體、第一學(xué)生logit頭、第二學(xué)生logit頭和學(xué)生預(yù)測(cè)頭，其中學(xué)生模型主體被配置為處理輸入以生成學(xué)生中間表示，其中第一學(xué)生logit頭被配置為處理學(xué)生中間表示以生成第一學(xué)生logit值，其中第二學(xué)生logit頭被配置為處理學(xué)生中間表示以生成第二學(xué)生logit值，并且其中學(xué)生預(yù)測(cè)頭被配置為處理第一學(xué)生logit值和第二學(xué)生logit值以生成學(xué)生概率值；以及一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，該一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲(chǔ)指令，這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使計(jì)算系統(tǒng)執(zhí)行操作。這些操作包括：基于教師logit值和第一學(xué)生logit值來(lái)評(píng)估第一損失函數(shù)；基于第一損失函數(shù)來(lái)修改至少第一學(xué)生logit頭的一個(gè)或多個(gè)參數(shù)；基于教師概率值和學(xué)生概率值來(lái)評(píng)估第二不同的損失函數(shù)；以及基于第二損失函數(shù)來(lái)修改至少第二學(xué)生logit頭的一個(gè)或多個(gè)參數(shù)。

3、本公開(kāi)的另一個(gè)示例方面涉及一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，該一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲(chǔ)：機(jī)器學(xué)習(xí)學(xué)生模型，其中：機(jī)器學(xué)習(xí)學(xué)生模型包括學(xué)生模型主體、第一學(xué)生logit頭、第二學(xué)生logit頭和學(xué)生預(yù)測(cè)頭，學(xué)生模型主體被配置為處理輸入以生成學(xué)生中間表示，第一學(xué)生logit頭被配置為處理學(xué)生中間表示以生成第一學(xué)生logit值，第二學(xué)生logit頭被配置為處理學(xué)生中間表示以生成第二學(xué)生logit值，學(xué)生預(yù)測(cè)頭被配置為處理第一學(xué)生logit值和第二學(xué)生logit值以生成學(xué)生概率值，第一學(xué)生logit頭已使用第一損失函數(shù)進(jìn)行了訓(xùn)練，第一損失函數(shù)評(píng)估第一學(xué)生logit值和由教師模型生成的教師logit值，并且第二學(xué)生logit頭已使用第二損失函數(shù)進(jìn)行了訓(xùn)練，第二損失函數(shù)評(píng)估學(xué)生概率值和由教師模型生成的教師概率值；以及用于運(yùn)行機(jī)器學(xué)習(xí)學(xué)生模型以處理輸入以生成學(xué)生概率值的指令。

4、本公開(kāi)的另一個(gè)示例方面涉及一種用于以改進(jìn)的計(jì)算效率執(zhí)行蒸餾訓(xùn)練的計(jì)算系統(tǒng)，該計(jì)算系統(tǒng)包括：一個(gè)或多個(gè)處理器；教師模型，該教師模型包括教師模型主體、教師logit頭和教師預(yù)測(cè)頭，其中教師模型主體被配置為處理輸入以生成教師中間表示，其中教師logit頭被配置為處理教師中間表示以生成教師logit值，并且其中教師預(yù)測(cè)頭被配置為處理教師logit值以生成教師概率值；多個(gè)學(xué)生模型，其中每個(gè)學(xué)生模型包括學(xué)生模型主體、第一學(xué)生logit頭和第二學(xué)生logit頭，其中學(xué)生模型主體被配置為處理輸入以生成學(xué)生中間表示，其中第一學(xué)生logit頭被配置為處理學(xué)生中間表示以生成第一學(xué)生logit值，其中第二學(xué)生logit頭被配置為處理學(xué)生中間表示以生成第二學(xué)生logit值；學(xué)生集成預(yù)測(cè)頭，該學(xué)生集成預(yù)測(cè)頭被配置為根據(jù)來(lái)自多個(gè)學(xué)生模型的多個(gè)第一學(xué)生logit值和多個(gè)第二學(xué)生logit值生成學(xué)生概率值；以及一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，該一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲(chǔ)指令，這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使計(jì)算系統(tǒng)執(zhí)行操作。這些操作包括對(duì)于多個(gè)學(xué)生模型中的每個(gè)學(xué)生模型：基于教師logit值和第一學(xué)生logit值來(lái)評(píng)估第一損失函數(shù)；基于第一損失函數(shù)來(lái)修改至少第一學(xué)生logit頭的一個(gè)或多個(gè)參數(shù)；基于教師概率值和學(xué)生概率值來(lái)評(píng)估第二不同的損失函數(shù)；以及基于第二損失函數(shù)來(lái)修改每個(gè)學(xué)生模型的第二學(xué)生logit頭的一個(gè)或多個(gè)參數(shù)。

5、本公開(kāi)的另一個(gè)示例方面涉及一種用于以改進(jìn)的計(jì)算效率執(zhí)行蒸餾訓(xùn)練的計(jì)算系統(tǒng)。該計(jì)算系統(tǒng)包括：一個(gè)或多個(gè)處理器；教師模型，該教師模型包括教師模型主體、第一教師評(píng)分頭和第二教師評(píng)分頭，其中教師模型主體被配置為處理輸入以生成教師中間表示，其中第一教師評(píng)分頭被配置為處理教師中間表示以在第一評(píng)分域中生成第一教師評(píng)分值，并且其中第二教師評(píng)分頭被配置為處理第一教師評(píng)分值以在第二評(píng)分域中生成第二教師評(píng)分值，其中第二評(píng)分域?qū)?yīng)于教師模型的目標(biāo)；學(xué)生模型，該學(xué)生模型包括學(xué)生模型主體、第一學(xué)生評(píng)分頭、第二學(xué)生評(píng)分頭和第三學(xué)生評(píng)分頭，其中學(xué)生模型主體被配置為處理輸入以生成學(xué)生中間表示，其中第一學(xué)生評(píng)分頭被配置為處理學(xué)生中間表示以在第一評(píng)分域中生成第一學(xué)生評(píng)分值，其中第二學(xué)生評(píng)分頭被配置為處理學(xué)生中間表示以在第一評(píng)分域中生成第二學(xué)生評(píng)分值，并且其中第三學(xué)生評(píng)分頭被配置為處理第一學(xué)生評(píng)分值和第二學(xué)生評(píng)分值以在第二評(píng)分域中生成第三學(xué)生評(píng)分值；以及一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，該一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲(chǔ)指令，這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使計(jì)算系統(tǒng)執(zhí)行操作。這些操作包括基于第一教師評(píng)分值和第一學(xué)生評(píng)分值來(lái)評(píng)估第一損失函數(shù)；基于第一損失函數(shù)來(lái)修改至少第一學(xué)生評(píng)分頭的一個(gè)或多個(gè)參數(shù)；基于第二教師評(píng)分值和第三學(xué)生評(píng)分值來(lái)評(píng)估第二不同的損失函數(shù)；以及基于第二損失函數(shù)來(lái)修改至少第二學(xué)生評(píng)分頭的一個(gè)或多個(gè)參數(shù)。

6、本公開(kāi)的其他方面涉及各種系統(tǒng)、設(shè)備、非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)、用戶(hù)界面和電子裝置。

7、將參考以下描述和隨附權(quán)利要求更好地理解本公開(kāi)的各種實(shí)施例的這些和其他特征、方面和優(yōu)點(diǎn)。并入本說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分的附圖示出了本公開(kāi)的示例實(shí)施例，并且連同描述一起用于解釋相關(guān)原理。

技術(shù)特征：

1.一種用于以改進(jìn)的計(jì)算效率執(zhí)行蒸餾訓(xùn)練的計(jì)算系統(tǒng)，所述計(jì)算系統(tǒng)包括：

2.如權(quán)利要求1所述的計(jì)算系統(tǒng)，其中所述第一損失函數(shù)包括平方損失、huber損失、平滑分位數(shù)損失、分位數(shù)回歸損失或平滑損失中的一者。

3.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中所述第一損失函數(shù)包括lp損失函數(shù)。

4.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中所述第一損失函數(shù)比所述第二損失函數(shù)收斂得更快。

5.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中所述第二損失函數(shù)包括適當(dāng)?shù)脑u(píng)分規(guī)則，所述適當(dāng)?shù)脑u(píng)分規(guī)則在由所述教師產(chǎn)生的預(yù)測(cè)分布的適當(dāng)域中的期望統(tǒng)計(jì)數(shù)據(jù)點(diǎn)處最小化。

6.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中所述第一損失函數(shù)和所述第二損失函數(shù)中的一者或兩者是以下項(xiàng)中的一者或兩者：圍繞收斂最優(yōu)值對(duì)稱(chēng)凸或強(qiáng)凸。

7.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中所述第二損失函數(shù)包括交叉熵?fù)p失函數(shù)，所述交叉熵?fù)p失函數(shù)在關(guān)于預(yù)測(cè)分布的預(yù)測(cè)平均概率處給出最小值。

8.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，還包括：

9.如權(quán)利要求1至7中任一項(xiàng)所述的計(jì)算系統(tǒng)，還包括：

10.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中：

11.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中所述學(xué)生預(yù)測(cè)頭包括邏輯函數(shù)并且所述學(xué)生概率值包括邏輯回歸輸出。

12.如任一項(xiàng)前述權(quán)利要求所述的計(jì)算系統(tǒng)，其中所述教師概率值存儲(chǔ)在非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)中并從所述非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)訪問(wèn)以用于訓(xùn)練所述學(xué)生模型。

13.一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，所述一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲(chǔ)：

14.如權(quán)利要求13所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，其中：

15.如權(quán)利要求13或14所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，其中所述第一損失函數(shù)包括平方損失函數(shù)，并且所述第二損失函數(shù)包括交叉熵?fù)p失函數(shù)。

16.一種用于以改進(jìn)的計(jì)算效率執(zhí)行蒸餾訓(xùn)練的計(jì)算系統(tǒng)，所述計(jì)算系統(tǒng)包括：

17.如權(quán)利要求16所述的計(jì)算系統(tǒng)，其中所述第一損失函數(shù)包括平方損失、huber損失、平滑分位數(shù)損失、分位數(shù)回歸損失或平滑損失中的一者。

18.如權(quán)利要求16或17所述的計(jì)算系統(tǒng)，其中所述第一損失函數(shù)包括lp損失函數(shù)。

19.如權(quán)利要求16、17或18所述的計(jì)算系統(tǒng)，其中所述第一損失函數(shù)比所述第二損失函數(shù)收斂得更快。

20.如權(quán)利要求16、17、18或19所述的計(jì)算系統(tǒng)，其中所述第二損失函數(shù)收斂到關(guān)于在對(duì)所述學(xué)生模型表現(xiàn)為相同的示例上的教師預(yù)測(cè)的分布給出最小損失的點(diǎn)。

21.一種用于以改進(jìn)的計(jì)算效率執(zhí)行蒸餾訓(xùn)練的計(jì)算系統(tǒng)，所述計(jì)算系統(tǒng)包括：

22.如權(quán)利要求21所述的計(jì)算系統(tǒng)，其中所述第一評(píng)分域包括logit域，并且其中所述第二評(píng)分域包括概率域。

技術(shù)總結(jié)
提供了用于校準(zhǔn)從教師模型到學(xué)生模型的蒸餾學(xué)習(xí)的技術(shù)。具體地，本公開(kāi)提出了提供高質(zhì)量和高速度收斂的系統(tǒng)和方法。也就是說(shuō)，所提出的示例系統(tǒng)既使得蒸餾損失能夠在教師預(yù)測(cè)分布的概率域中的概率均值處最小化，同時(shí)還圍繞l?ogi?t和/或概率域中的最優(yōu)值(例如，包括遠(yuǎn)離最小值)提供精細(xì)(例如，對(duì)稱(chēng)和/或強(qiáng))凸損失以鼓勵(lì)基于梯度的方法的快速收斂(例如，而不論距最小值的距離如何)。

技術(shù)研發(fā)人員：G·沙米爾
受保護(hù)的技術(shù)使用者：谷歌有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：G·沙米爾
技術(shù)所有人：谷歌有限責(zé)任公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種防火耐高溫鋁合金電纜的制作方法
上一篇：載臺(tái)裝置及加工設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

校準(zhǔn)蒸餾的制作方法