模型訓(xùn)練方法及裝置與流程

文檔序號(hào)：40655609發(fā)布日期：2025-01-10 19:06閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及機(jī)器學(xué)習(xí)領(lǐng)域，尤其涉及一種模型訓(xùn)練方法及裝置。

背景技術(shù)：

1、深度學(xué)習(xí)作為目前機(jī)器學(xué)習(xí)領(lǐng)域的主流方法，已經(jīng)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)以及搜索推薦等多個(gè)領(lǐng)域取得了廣泛的應(yīng)用。伴隨著深度學(xué)習(xí)技術(shù)的發(fā)展，模型的表現(xiàn)越來(lái)越優(yōu)，但同時(shí)模型的參數(shù)規(guī)模也從數(shù)百萬(wàn)增加到數(shù)十億甚至數(shù)千億，因此訓(xùn)練模型的計(jì)算量極大，這就為模型的訓(xùn)練帶來(lái)了極大的時(shí)間要求及資源需求。

2、為了加速模型的訓(xùn)練過(guò)程，現(xiàn)有技術(shù)中可以采用在先構(gòu)建一個(gè)參數(shù)較少的初始模型，并對(duì)該初始模型進(jìn)行訓(xùn)練。由于參數(shù)較少，因此訓(xùn)練該模型時(shí)所需的計(jì)算量也較少。接下來(lái)在訓(xùn)練的過(guò)程中，分階段逐步擴(kuò)增模型，最終訓(xùn)練出符合使用需求的模型。

3、那么，在采用在構(gòu)建初始模型然后分階段逐步擴(kuò)增模型的這種方式來(lái)訓(xùn)練模型的過(guò)程中，如何進(jìn)一步提高模型訓(xùn)練的效率，這是目前需要解決的問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種模型訓(xùn)練方法及裝置，用于提高模型訓(xùn)練的效率。

2、第一方面，提供一種模型訓(xùn)練方法，包括：訓(xùn)練第一模型。監(jiān)測(cè)第一模型的損失函數(shù)值。在確定第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)第一模型進(jìn)行擴(kuò)增，得到第二模型。其中，第二模型中擴(kuò)增的參數(shù)為對(duì)第一模型中的參數(shù)進(jìn)行復(fù)制得到的。訓(xùn)練第二模型。

3、上述方法中，在采用分階段逐步擴(kuò)增模型的方式進(jìn)行模型訓(xùn)練的場(chǎng)景下，該方法可以在對(duì)需要擴(kuò)增的模型(該需要擴(kuò)增的模型可以為初始模型或者訓(xùn)練過(guò)程中任意中間階段的模型。為便于區(qū)分，下文中稱之為“第一模型”)進(jìn)行訓(xùn)練的過(guò)程中，監(jiān)測(cè)第一模型的損失函數(shù)值(可以簡(jiǎn)稱為loss值)，并在確定第一模型的loss值滿足預(yù)設(shè)條件后，對(duì)第一模型進(jìn)行擴(kuò)增得到第二模型。其中，第二模型中擴(kuò)增的參數(shù)為對(duì)第一模型中的參數(shù)進(jìn)行復(fù)制得到的(例如，第一模型中包括x個(gè)編碼層，第二模型中包括2x個(gè)編碼層，則第二模型中第1至x個(gè)編碼層中的參數(shù)以及第(x+1)至2x個(gè)編碼層中的參數(shù)，分別是對(duì)第一模型中x個(gè)編碼層中的參數(shù)進(jìn)行復(fù)制得到的)。然后再對(duì)第二模型進(jìn)行訓(xùn)練。同理對(duì)于第二模型以及第二模型擴(kuò)增得到的后續(xù)模型，也可以采用上文類似方式確定擴(kuò)增的時(shí)機(jī)(即在確定模型的損失函數(shù)值滿足預(yù)設(shè)條件后擴(kuò)增)。這樣一來(lái)，便可以在不需要多次試驗(yàn)的情況下，快速確定出合適的擴(kuò)增時(shí)機(jī)。

4、在一種實(shí)現(xiàn)方式中，訓(xùn)練第二模型，包括：獲取利用預(yù)設(shè)學(xué)習(xí)率對(duì)所述第二模型進(jìn)行訓(xùn)練時(shí)所述第二模型的第一損失函數(shù)值。根據(jù)對(duì)所述第一模型進(jìn)行訓(xùn)練的過(guò)程中學(xué)習(xí)率和損失函數(shù)值的對(duì)應(yīng)關(guān)系，確定所述第一損失函數(shù)值對(duì)應(yīng)的第一學(xué)習(xí)率。將所述第一學(xué)習(xí)率作為初始學(xué)習(xí)率，訓(xùn)練所述第二模型。

5、通過(guò)上述實(shí)現(xiàn)方式，本技術(shù)能夠自適應(yīng)的確定出與當(dāng)前模型相匹配的初始學(xué)習(xí)率，并采用該初始學(xué)習(xí)率對(duì)擴(kuò)增模型進(jìn)行訓(xùn)練，則可以達(dá)到提高模型的收斂速度、節(jié)省模型訓(xùn)練開(kāi)銷的效果。

6、在一種實(shí)現(xiàn)方式中，該方法還包括：在學(xué)習(xí)率與迭代次數(shù)的預(yù)設(shè)對(duì)應(yīng)關(guān)系中，確定目標(biāo)迭代次數(shù)對(duì)應(yīng)的所述預(yù)設(shè)學(xué)習(xí)率；所述目標(biāo)迭代次數(shù)為截止對(duì)所述第一模型進(jìn)行擴(kuò)增得到所述第二模型時(shí)已經(jīng)進(jìn)行過(guò)的模型迭代次數(shù)。

7、在一種實(shí)現(xiàn)方式中，上述預(yù)設(shè)條件包括：在連續(xù)多個(gè)滑動(dòng)窗口中監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值。或者，所述預(yù)設(shè)條件包括：在連續(xù)p個(gè)滑動(dòng)窗口內(nèi)，監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值的滑動(dòng)窗口的個(gè)數(shù)超過(guò)個(gè)數(shù)閾值q。

8、上述實(shí)現(xiàn)方式中，一方面可以確定出當(dāng)前模型是否達(dá)到合適的收斂程度；另一方面，可以避免不穩(wěn)定因素對(duì)判斷結(jié)果的干擾。

9、在一種實(shí)現(xiàn)方式中，第一模型中包括采用堆疊方式構(gòu)建的n個(gè)編碼層，n為正整數(shù)。所述在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行擴(kuò)增，得到第二模型包括：在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，在所述第一模型所包括所述n個(gè)編碼層的靠近解碼端的一端，增加m個(gè)編碼層，得到所述第二模型；所述m個(gè)編碼層中的參數(shù)是對(duì)所述n個(gè)編碼層中靠近解碼端的m個(gè)編碼層中的參數(shù)，按照從淺到深的方向復(fù)制得到，m為小于等于n的正整數(shù)。

10、在一種實(shí)現(xiàn)方式中，該方法還包括：獲取目標(biāo)模型的編碼層個(gè)數(shù)l，以及模型訓(xùn)練過(guò)程中的階段數(shù)量s。根據(jù)所述編碼層個(gè)數(shù)l以及所述階段數(shù)量s，確定所述第一模型的編碼層個(gè)數(shù)n。

11、在一種實(shí)現(xiàn)方式中，在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行擴(kuò)增，得到第二模型，包括：在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行寬度擴(kuò)增，得到第二模型。

12、在一種實(shí)現(xiàn)方式中，在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行擴(kuò)增，得到第二模型，包括：在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行數(shù)據(jù)擴(kuò)增，得到第二模型。

13、第二方面，提供一種模型訓(xùn)練裝置，包括：訓(xùn)練單元，用于訓(xùn)練第一模型。監(jiān)測(cè)單元，用于監(jiān)測(cè)所述第一模型的損失函數(shù)值；擴(kuò)增單元，用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行擴(kuò)增，得到第二模型；其中，所述第二模型中擴(kuò)增的參數(shù)為對(duì)所述第一模型中的參數(shù)進(jìn)行復(fù)制得到的；所述訓(xùn)練單元，還用于訓(xùn)練所述第二模型。

14、在一種實(shí)現(xiàn)方式中，所述訓(xùn)練單元，還用于訓(xùn)練第二模型，包括：訓(xùn)練單元，具體用于獲取利用預(yù)設(shè)學(xué)習(xí)率對(duì)所述第二模型進(jìn)行訓(xùn)練時(shí)所述第二模型的第一損失函數(shù)值；訓(xùn)練單元，具體用于根據(jù)對(duì)所述第一模型進(jìn)行訓(xùn)練的過(guò)程中學(xué)習(xí)率和損失函數(shù)值的對(duì)應(yīng)關(guān)系，確定所述第一損失函數(shù)值對(duì)應(yīng)的第一學(xué)習(xí)率；訓(xùn)練單元，具體用于將所述第一學(xué)習(xí)率作為初始學(xué)習(xí)率，訓(xùn)練所述第二模型。

15、在一種實(shí)現(xiàn)方式中，訓(xùn)練單元，還用于在學(xué)習(xí)率與迭代次數(shù)的預(yù)設(shè)對(duì)應(yīng)關(guān)系中，確定目標(biāo)迭代次數(shù)對(duì)應(yīng)的所述預(yù)設(shè)學(xué)習(xí)率；所述目標(biāo)迭代次數(shù)為截止對(duì)所述第一模型進(jìn)行擴(kuò)增得到所述第二模型時(shí)已經(jīng)進(jìn)行過(guò)的模型迭代次數(shù)。

16、在一種實(shí)現(xiàn)方式中，預(yù)設(shè)條件包括：在連續(xù)多個(gè)滑動(dòng)窗口中監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值?；蛘?，所述預(yù)設(shè)條件包括：在連續(xù)p個(gè)滑動(dòng)窗口內(nèi)，監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值的滑動(dòng)窗口的個(gè)數(shù)超過(guò)個(gè)數(shù)閾值q。

17、在一種實(shí)現(xiàn)方式中，第一模型中包括采用堆疊方式構(gòu)建的n個(gè)編碼層，n為正整數(shù)。

18、擴(kuò)增單元，用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行擴(kuò)增，得到第二模型包括：擴(kuò)增單元，用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，在所述第一模型所包括所述n個(gè)編碼層的靠近解碼端的一端，增加m個(gè)編碼層，得到所述第二模型；所述m個(gè)編碼層中的參數(shù)是對(duì)所述n個(gè)編碼層中靠近解碼端的m個(gè)編碼層中的參數(shù)，按照從淺到深的方向復(fù)制得到，m為小于等于n的正整數(shù)。

19、在一種實(shí)現(xiàn)方式中，訓(xùn)練單元，還用于獲取目標(biāo)模型的編碼層個(gè)數(shù)l，以及模型訓(xùn)練過(guò)程中的階段數(shù)量s。訓(xùn)練單元，還用于根據(jù)所述編碼層個(gè)數(shù)l以及所述階段數(shù)量s，確定所述第一模型的編碼層個(gè)數(shù)n。

20、在一種實(shí)現(xiàn)方式中，擴(kuò)增單元，用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行擴(kuò)增，得到第二模型，包括：擴(kuò)增單元，用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行寬度擴(kuò)增，得到第二模型。

21、在一種實(shí)現(xiàn)方式中，擴(kuò)增單元，用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行擴(kuò)增，得到第二模型，包括：擴(kuò)增單元，用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后，對(duì)所述第一模型進(jìn)行數(shù)據(jù)擴(kuò)增，得到第二模型。

22、第三方面，提供一種模型訓(xùn)練裝置，包括：包括存儲(chǔ)器和處理器，所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)指令，所述處理器用于從所述存儲(chǔ)器中調(diào)用并運(yùn)行所述計(jì)算機(jī)指令，以實(shí)現(xiàn)如上述第一方面或第一方面中任一實(shí)現(xiàn)方式的方法。

23、第四方面，提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令，當(dāng)所述指令在處理器上運(yùn)行時(shí)，以實(shí)現(xiàn)如上述第一方面或第一方面中任一實(shí)現(xiàn)方式的方法。

24、第五方面，提供一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品包括指令，當(dāng)所述指令在處理器上運(yùn)行時(shí)，以實(shí)現(xiàn)如上述第一方面或第一方面中任一實(shí)現(xiàn)方式的方法。

25、上述第二方面至第五方面以及各方面中任一實(shí)現(xiàn)方式所產(chǎn)生的技術(shù)效果可參照上述第一方面以及第一方面中對(duì)應(yīng)的實(shí)現(xiàn)方式，重復(fù)之處在此不做贅述。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：韓興佳,鮑翔,張夢(mèng)陽(yáng),鐘保權(quán)
技術(shù)所有人：華為技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

模型訓(xùn)練方法及裝置與流程