本發(fā)明涉及數(shù)據(jù)庫(kù),尤其涉及一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、梯度下降是機(jī)器學(xué)習(xí)中常用的優(yōu)化算法,原理是通過(guò)最小化損失函數(shù)來(lái)達(dá)到更新模型參數(shù)的優(yōu)化算法,傳統(tǒng)方法中用戶指定的學(xué)習(xí)率決定了每次參數(shù)更新的步長(zhǎng)。在每一次迭代中計(jì)算損失函數(shù)對(duì)各個(gè)參數(shù)的梯度,由反向傳播將梯度傳播到輸入層,用于指導(dǎo)梯度下降的參數(shù)更新過(guò)程,以減小損失函數(shù)的值。
2、現(xiàn)如今各廠商在使用傳統(tǒng)方法處理大規(guī)模數(shù)據(jù)集和非平穩(wěn)數(shù)據(jù)集時(shí),將學(xué)習(xí)率作為固定的超參值加入訓(xùn)練的初始化參數(shù),每次迭代的步長(zhǎng)大小也隨之固定。
3、因此,傳統(tǒng)的數(shù)據(jù)庫(kù)集成機(jī)器學(xué)習(xí)方法在處理大規(guī)模數(shù)據(jù)集和非平穩(wěn)數(shù)據(jù)集時(shí),通常很耗時(shí)且無(wú)法及時(shí)適應(yīng)訓(xùn)練數(shù)據(jù)的變化。由于傳統(tǒng)方法的固定學(xué)習(xí)率、離線參數(shù)更新和離線數(shù)據(jù)集批處理方式,導(dǎo)致初始化參數(shù)的學(xué)習(xí)率并不一定適用于原始數(shù)據(jù)集或后續(xù)的增量數(shù)據(jù),機(jī)器學(xué)習(xí)無(wú)法實(shí)時(shí)調(diào)整模型參數(shù)和適應(yīng)數(shù)據(jù)的變化,使得最終訓(xùn)練的模型在這些情況下準(zhǔn)確率和效率較低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì),以實(shí)現(xiàn)對(duì)學(xué)習(xí)率的動(dòng)態(tài)調(diào)整,提高了模型訓(xùn)練的準(zhǔn)確率及效率。
2、根據(jù)本發(fā)明的第一方面,提供了一種模型訓(xùn)練方法,包括:
3、獲取模型需求信息,并基于所述模型需求信息創(chuàng)建待訓(xùn)練模型、初始參數(shù)輔助表及初始訓(xùn)練狀態(tài)表;
4、根據(jù)預(yù)設(shè)數(shù)據(jù)集、所述初始參數(shù)輔助表及所述初始訓(xùn)練狀態(tài)表對(duì)待訓(xùn)練模型進(jìn)行訓(xùn)練,確定本次訓(xùn)練的當(dāng)前損失函數(shù)及偏差參數(shù);
5、基于所述偏差參數(shù)更新所述初始訓(xùn)練狀態(tài)表,得到下一訓(xùn)練狀態(tài)表;
6、根據(jù)所述當(dāng)前損失函數(shù),確定動(dòng)態(tài)梯度信息結(jié)合預(yù)設(shè)波動(dòng)閾值對(duì)所述初始參數(shù)輔助表進(jìn)行更新,得到下一參數(shù)輔助表;
7、根據(jù)所述下一訓(xùn)練狀態(tài)表及所述下一參數(shù)輔助表對(duì)所述待訓(xùn)練模型進(jìn)行迭代訓(xùn)練,直至滿足訓(xùn)練結(jié)束條件,得到最終訓(xùn)練模型。
8、根據(jù)本發(fā)明的第二方面,提供了一種模型訓(xùn)練裝置,包括:
9、表構(gòu)建模塊,用于獲取模型需求信息,并基于所述模型需求信息創(chuàng)建待訓(xùn)練模型、初始參數(shù)輔助表及初始訓(xùn)練狀態(tài)表;
10、參數(shù)確定模塊,用于根據(jù)預(yù)設(shè)數(shù)據(jù)集、所述初始參數(shù)輔助表及所述初始訓(xùn)練狀態(tài)表對(duì)待訓(xùn)練模型進(jìn)行訓(xùn)練,確定本次訓(xùn)練的當(dāng)前損失函數(shù)及偏差參數(shù);
11、第一更新模塊,用于基于所述偏差參數(shù)更新所述初始訓(xùn)練狀態(tài)表,得到下一訓(xùn)練狀態(tài)表;
12、第二更新模塊,用于根據(jù)所述當(dāng)前損失函數(shù),確定動(dòng)態(tài)梯度信息結(jié)合預(yù)設(shè)波動(dòng)閾值對(duì)所述初始參數(shù)輔助表進(jìn)行更新,得到下一參數(shù)輔助表;
13、模型確定模塊,用于根據(jù)所述下一訓(xùn)練狀態(tài)表及所述下一參數(shù)輔助表對(duì)所述待訓(xùn)練模型進(jìn)行迭代訓(xùn)練,直至滿足訓(xùn)練結(jié)束條件,得到最終訓(xùn)練模型。
14、根據(jù)本發(fā)明的第三方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
15、至少一個(gè)處理器;以及
16、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
17、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的模型訓(xùn)練方法。
18、根據(jù)本發(fā)明的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例的模型訓(xùn)練方法。
19、本發(fā)明實(shí)施例的技術(shù)方案,通過(guò)獲取模型需求信息,并基于模型需求信息創(chuàng)建待訓(xùn)練模型、初始參數(shù)輔助表及初始訓(xùn)練狀態(tài)表;根據(jù)預(yù)設(shè)數(shù)據(jù)集、初始參數(shù)輔助表及初始訓(xùn)練狀態(tài)表對(duì)待訓(xùn)練模型進(jìn)行訓(xùn)練,確定本次訓(xùn)練的當(dāng)前損失函數(shù)及偏差參數(shù);基于偏差參數(shù)更新初始訓(xùn)練狀態(tài)表,得到下一訓(xùn)練狀態(tài)表;根據(jù)當(dāng)前損失函數(shù),確定動(dòng)態(tài)梯度信息結(jié)合預(yù)設(shè)波動(dòng)閾值對(duì)初始參數(shù)輔助表進(jìn)行更新,得到下一參數(shù)輔助表;根據(jù)下一訓(xùn)練狀態(tài)表及下一參數(shù)輔助表對(duì)待訓(xùn)練模型進(jìn)行迭代訓(xùn)練,直至滿足訓(xùn)練結(jié)束條件,得到最終訓(xùn)練模型。通過(guò)將訓(xùn)練過(guò)程記錄于表中,更加直觀的觀測(cè)出模型訓(xùn)練的情況,通過(guò)確定參數(shù)動(dòng)態(tài)梯度信息及損失函數(shù)的變化情況進(jìn)行動(dòng)態(tài)調(diào)整,自適應(yīng)地調(diào)整參數(shù),從而更加高效地收斂到最優(yōu)解,提升了訓(xùn)練速度。動(dòng)態(tài)梯度還對(duì)異常值和噪聲具有較強(qiáng)的穩(wěn)定性和適應(yīng)能力,使得模型能夠保持較好的準(zhǔn)確性和可靠性,而不會(huì)被這些干擾因素嚴(yán)重影響,提升了模型的準(zhǔn)確率。
20、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過(guò)以下的說(shuō)明書而變得容易理解。
1.一種模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)數(shù)據(jù)集、所述初始參數(shù)輔助表及所述初始訓(xùn)練狀態(tài)表對(duì)待訓(xùn)練模型進(jìn)行訓(xùn)練,確定本次訓(xùn)練的當(dāng)前損失函數(shù)及偏差參數(shù),包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述偏差參數(shù)更新所述初始訓(xùn)練狀態(tài)表,得到下一訓(xùn)練狀態(tài)表,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述當(dāng)前損失函數(shù),確定動(dòng)態(tài)梯度信息結(jié)合預(yù)設(shè)波動(dòng)閾值對(duì)所述初始參數(shù)輔助表進(jìn)行更新,得到下一參數(shù)輔助表,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述當(dāng)前梯度值、所述預(yù)設(shè)波動(dòng)閾值、所述當(dāng)前參數(shù)值及所述下一學(xué)習(xí)率,確定下一參數(shù)值,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述下一訓(xùn)練狀態(tài)表及所述下一參數(shù)輔助表對(duì)所述待訓(xùn)練模型進(jìn)行迭代訓(xùn)練,直至滿足訓(xùn)練結(jié)束條件,得到最終訓(xùn)練模型之后,還包括:
8.一種模型訓(xùn)練裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的模型訓(xùn)練方法。