欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

模型訓(xùn)練方法及裝置與流程

文檔序號(hào):40655609發(fā)布日期:2025-01-10 19:06閱讀:7來(lái)源:國(guó)知局
模型訓(xùn)練方法及裝置與流程

本技術(shù)涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種模型訓(xùn)練方法及裝置。


背景技術(shù):

1、深度學(xué)習(xí)作為目前機(jī)器學(xué)習(xí)領(lǐng)域的主流方法,已經(jīng)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)以及搜索推薦等多個(gè)領(lǐng)域取得了廣泛的應(yīng)用。伴隨著深度學(xué)習(xí)技術(shù)的發(fā)展,模型的表現(xiàn)越來(lái)越優(yōu),但同時(shí)模型的參數(shù)規(guī)模也從數(shù)百萬(wàn)增加到數(shù)十億甚至數(shù)千億,因此訓(xùn)練模型的計(jì)算量極大,這就為模型的訓(xùn)練帶來(lái)了極大的時(shí)間要求及資源需求。

2、為了加速模型的訓(xùn)練過(guò)程,現(xiàn)有技術(shù)中可以采用在先構(gòu)建一個(gè)參數(shù)較少的初始模型,并對(duì)該初始模型進(jìn)行訓(xùn)練。由于參數(shù)較少,因此訓(xùn)練該模型時(shí)所需的計(jì)算量也較少。接下來(lái)在訓(xùn)練的過(guò)程中,分階段逐步擴(kuò)增模型,最終訓(xùn)練出符合使用需求的模型。

3、那么,在采用在構(gòu)建初始模型然后分階段逐步擴(kuò)增模型的這種方式來(lái)訓(xùn)練模型的過(guò)程中,如何進(jìn)一步提高模型訓(xùn)練的效率,這是目前需要解決的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種模型訓(xùn)練方法及裝置,用于提高模型訓(xùn)練的效率。

2、第一方面,提供一種模型訓(xùn)練方法,包括:訓(xùn)練第一模型。監(jiān)測(cè)第一模型的損失函數(shù)值。在確定第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)第一模型進(jìn)行擴(kuò)增,得到第二模型。其中,第二模型中擴(kuò)增的參數(shù)為對(duì)第一模型中的參數(shù)進(jìn)行復(fù)制得到的。訓(xùn)練第二模型。

3、上述方法中,在采用分階段逐步擴(kuò)增模型的方式進(jìn)行模型訓(xùn)練的場(chǎng)景下,該方法可以在對(duì)需要擴(kuò)增的模型(該需要擴(kuò)增的模型可以為初始模型或者訓(xùn)練過(guò)程中任意中間階段的模型。為便于區(qū)分,下文中稱之為“第一模型”)進(jìn)行訓(xùn)練的過(guò)程中,監(jiān)測(cè)第一模型的損失函數(shù)值(可以簡(jiǎn)稱為loss值),并在確定第一模型的loss值滿足預(yù)設(shè)條件后,對(duì)第一模型進(jìn)行擴(kuò)增得到第二模型。其中,第二模型中擴(kuò)增的參數(shù)為對(duì)第一模型中的參數(shù)進(jìn)行復(fù)制得到的(例如,第一模型中包括x個(gè)編碼層,第二模型中包括2x個(gè)編碼層,則第二模型中第1至x個(gè)編碼層中的參數(shù)以及第(x+1)至2x個(gè)編碼層中的參數(shù),分別是對(duì)第一模型中x個(gè)編碼層中的參數(shù)進(jìn)行復(fù)制得到的)。然后再對(duì)第二模型進(jìn)行訓(xùn)練。同理對(duì)于第二模型以及第二模型擴(kuò)增得到的后續(xù)模型,也可以采用上文類似方式確定擴(kuò)增的時(shí)機(jī)(即在確定模型的損失函數(shù)值滿足預(yù)設(shè)條件后擴(kuò)增)。這樣一來(lái),便可以在不需要多次試驗(yàn)的情況下,快速確定出合適的擴(kuò)增時(shí)機(jī)。

4、在一種實(shí)現(xiàn)方式中,訓(xùn)練第二模型,包括:獲取利用預(yù)設(shè)學(xué)習(xí)率對(duì)所述第二模型進(jìn)行訓(xùn)練時(shí)所述第二模型的第一損失函數(shù)值。根據(jù)對(duì)所述第一模型進(jìn)行訓(xùn)練的過(guò)程中學(xué)習(xí)率和損失函數(shù)值的對(duì)應(yīng)關(guān)系,確定所述第一損失函數(shù)值對(duì)應(yīng)的第一學(xué)習(xí)率。將所述第一學(xué)習(xí)率作為初始學(xué)習(xí)率,訓(xùn)練所述第二模型。

5、通過(guò)上述實(shí)現(xiàn)方式,本技術(shù)能夠自適應(yīng)的確定出與當(dāng)前模型相匹配的初始學(xué)習(xí)率,并采用該初始學(xué)習(xí)率對(duì)擴(kuò)增模型進(jìn)行訓(xùn)練,則可以達(dá)到提高模型的收斂速度、節(jié)省模型訓(xùn)練開(kāi)銷的效果。

6、在一種實(shí)現(xiàn)方式中,該方法還包括:在學(xué)習(xí)率與迭代次數(shù)的預(yù)設(shè)對(duì)應(yīng)關(guān)系中,確定目標(biāo)迭代次數(shù)對(duì)應(yīng)的所述預(yù)設(shè)學(xué)習(xí)率;所述目標(biāo)迭代次數(shù)為截止對(duì)所述第一模型進(jìn)行擴(kuò)增得到所述第二模型時(shí)已經(jīng)進(jìn)行過(guò)的模型迭代次數(shù)。

7、在一種實(shí)現(xiàn)方式中,上述預(yù)設(shè)條件包括:在連續(xù)多個(gè)滑動(dòng)窗口中監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值。或者,所述預(yù)設(shè)條件包括:在連續(xù)p個(gè)滑動(dòng)窗口內(nèi),監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值的滑動(dòng)窗口的個(gè)數(shù)超過(guò)個(gè)數(shù)閾值q。

8、上述實(shí)現(xiàn)方式中,一方面可以確定出當(dāng)前模型是否達(dá)到合適的收斂程度;另一方面,可以避免不穩(wěn)定因素對(duì)判斷結(jié)果的干擾。

9、在一種實(shí)現(xiàn)方式中,第一模型中包括采用堆疊方式構(gòu)建的n個(gè)編碼層,n為正整數(shù)。所述在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行擴(kuò)增,得到第二模型包括:在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,在所述第一模型所包括所述n個(gè)編碼層的靠近解碼端的一端,增加m個(gè)編碼層,得到所述第二模型;所述m個(gè)編碼層中的參數(shù)是對(duì)所述n個(gè)編碼層中靠近解碼端的m個(gè)編碼層中的參數(shù),按照從淺到深的方向復(fù)制得到,m為小于等于n的正整數(shù)。

10、在一種實(shí)現(xiàn)方式中,該方法還包括:獲取目標(biāo)模型的編碼層個(gè)數(shù)l,以及模型訓(xùn)練過(guò)程中的階段數(shù)量s。根據(jù)所述編碼層個(gè)數(shù)l以及所述階段數(shù)量s,確定所述第一模型的編碼層個(gè)數(shù)n。

11、在一種實(shí)現(xiàn)方式中,在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行擴(kuò)增,得到第二模型,包括:在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行寬度擴(kuò)增,得到第二模型。

12、在一種實(shí)現(xiàn)方式中,在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行擴(kuò)增,得到第二模型,包括:在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行數(shù)據(jù)擴(kuò)增,得到第二模型。

13、第二方面,提供一種模型訓(xùn)練裝置,包括:訓(xùn)練單元,用于訓(xùn)練第一模型。監(jiān)測(cè)單元,用于監(jiān)測(cè)所述第一模型的損失函數(shù)值;擴(kuò)增單元,用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行擴(kuò)增,得到第二模型;其中,所述第二模型中擴(kuò)增的參數(shù)為對(duì)所述第一模型中的參數(shù)進(jìn)行復(fù)制得到的;所述訓(xùn)練單元,還用于訓(xùn)練所述第二模型。

14、在一種實(shí)現(xiàn)方式中,所述訓(xùn)練單元,還用于訓(xùn)練第二模型,包括:訓(xùn)練單元,具體用于獲取利用預(yù)設(shè)學(xué)習(xí)率對(duì)所述第二模型進(jìn)行訓(xùn)練時(shí)所述第二模型的第一損失函數(shù)值;訓(xùn)練單元,具體用于根據(jù)對(duì)所述第一模型進(jìn)行訓(xùn)練的過(guò)程中學(xué)習(xí)率和損失函數(shù)值的對(duì)應(yīng)關(guān)系,確定所述第一損失函數(shù)值對(duì)應(yīng)的第一學(xué)習(xí)率;訓(xùn)練單元,具體用于將所述第一學(xué)習(xí)率作為初始學(xué)習(xí)率,訓(xùn)練所述第二模型。

15、在一種實(shí)現(xiàn)方式中,訓(xùn)練單元,還用于在學(xué)習(xí)率與迭代次數(shù)的預(yù)設(shè)對(duì)應(yīng)關(guān)系中,確定目標(biāo)迭代次數(shù)對(duì)應(yīng)的所述預(yù)設(shè)學(xué)習(xí)率;所述目標(biāo)迭代次數(shù)為截止對(duì)所述第一模型進(jìn)行擴(kuò)增得到所述第二模型時(shí)已經(jīng)進(jìn)行過(guò)的模型迭代次數(shù)。

16、在一種實(shí)現(xiàn)方式中,預(yù)設(shè)條件包括:在連續(xù)多個(gè)滑動(dòng)窗口中監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值?;蛘?,所述預(yù)設(shè)條件包括:在連續(xù)p個(gè)滑動(dòng)窗口內(nèi),監(jiān)測(cè)到所述第一模型的損失函數(shù)值的變化幅度小于幅度閾值的滑動(dòng)窗口的個(gè)數(shù)超過(guò)個(gè)數(shù)閾值q。

17、在一種實(shí)現(xiàn)方式中,第一模型中包括采用堆疊方式構(gòu)建的n個(gè)編碼層,n為正整數(shù)。

18、擴(kuò)增單元,用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行擴(kuò)增,得到第二模型包括:擴(kuò)增單元,用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,在所述第一模型所包括所述n個(gè)編碼層的靠近解碼端的一端,增加m個(gè)編碼層,得到所述第二模型;所述m個(gè)編碼層中的參數(shù)是對(duì)所述n個(gè)編碼層中靠近解碼端的m個(gè)編碼層中的參數(shù),按照從淺到深的方向復(fù)制得到,m為小于等于n的正整數(shù)。

19、在一種實(shí)現(xiàn)方式中,訓(xùn)練單元,還用于獲取目標(biāo)模型的編碼層個(gè)數(shù)l,以及模型訓(xùn)練過(guò)程中的階段數(shù)量s。訓(xùn)練單元,還用于根據(jù)所述編碼層個(gè)數(shù)l以及所述階段數(shù)量s,確定所述第一模型的編碼層個(gè)數(shù)n。

20、在一種實(shí)現(xiàn)方式中,擴(kuò)增單元,用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行擴(kuò)增,得到第二模型,包括:擴(kuò)增單元,用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行寬度擴(kuò)增,得到第二模型。

21、在一種實(shí)現(xiàn)方式中,擴(kuò)增單元,用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行擴(kuò)增,得到第二模型,包括:擴(kuò)增單元,用于在確定所述第一模型的損失函數(shù)值滿足預(yù)設(shè)條件后,對(duì)所述第一模型進(jìn)行數(shù)據(jù)擴(kuò)增,得到第二模型。

22、第三方面,提供一種模型訓(xùn)練裝置,包括:包括存儲(chǔ)器和處理器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)指令,所述處理器用于從所述存儲(chǔ)器中調(diào)用并運(yùn)行所述計(jì)算機(jī)指令,以實(shí)現(xiàn)如上述第一方面或第一方面中任一實(shí)現(xiàn)方式的方法。

23、第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在處理器上運(yùn)行時(shí),以實(shí)現(xiàn)如上述第一方面或第一方面中任一實(shí)現(xiàn)方式的方法。

24、第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括指令,當(dāng)所述指令在處理器上運(yùn)行時(shí),以實(shí)現(xiàn)如上述第一方面或第一方面中任一實(shí)現(xiàn)方式的方法。

25、上述第二方面至第五方面以及各方面中任一實(shí)現(xiàn)方式所產(chǎn)生的技術(shù)效果可參照上述第一方面以及第一方面中對(duì)應(yīng)的實(shí)現(xiàn)方式,重復(fù)之處在此不做贅述。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
峨边| 突泉县| 正镶白旗| 波密县| 马关县| 内黄县| 正宁县| 进贤县| 信宜市| 广灵县| 黄龙县| 阿城市| 云安县| 东源县| 辉南县| 马尔康县| 方山县| 西乌珠穆沁旗| 新龙县| 尖扎县| 西青区| 万盛区| 石泉县| 宁波市| 鄂伦春自治旗| 抚顺市| 乌兰县| 温宿县| 绍兴县| 阜新| 远安县| 忻城县| 玉溪市| 黔东| 古丈县| 德昌县| 兰坪| 长阳| 青冈县| 肃宁县| 海丰县|