1.一種基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡中間件系統(tǒng),其特征在于,通過綜合學(xué)習(xí)區(qū)塊鏈網(wǎng)絡(luò)中賬戶與分片的交易軌跡和跨分片交易比例,以決定賬戶在下一個交易周期的賬戶最佳分片位置;
2.根據(jù)權(quán)利要求1所述的基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡方法,其特征在于,在通過深度強化學(xué)習(xí)模型計算出長期獎勵最大的動作作為賬戶歸屬新分片的最終預(yù)測結(jié)果中,深度強化學(xué)習(xí)模型的基本參數(shù)具體為:
3.根據(jù)權(quán)利要求2所述的基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡方法,其特征在于,深度強化學(xué)習(xí)模型的基本參數(shù)還包括獎勵函數(shù),所述獎勵函數(shù)包括跨分片交易比例的獎勵r1以及工作負(fù)載數(shù)據(jù)的負(fù)載均勻性獎勵r2,其中,
4.根據(jù)權(quán)利要求3所述的基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡方法,其特征在于,負(fù)載均勻性獎勵r2的計算具體如下:
5.根據(jù)權(quán)利要求4所述的基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡方法,其特征在于,基于cst獎勵r1和負(fù)載均勻性獎勵r2構(gòu)建深度強化學(xué)習(xí)模型的獎勵函數(shù)r:
6.根據(jù)權(quán)利要求1所述的基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡方法,其特征在于,深度強化學(xué)習(xí)模型的q函數(shù)具體為:
7.根據(jù)權(quán)利要求1所述的基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡方法,其特征在于,所述深度強化學(xué)習(xí)模型的訓(xùn)練過程如下:
8.一種基于深度強化學(xué)習(xí)的區(qū)塊鏈負(fù)載均衡的系統(tǒng),其特征在于,通過綜合學(xué)習(xí)區(qū)塊鏈網(wǎng)絡(luò)中賬戶與分片的交易軌跡和跨分片交易比例,以決定賬戶在下一個交易周期的賬戶最佳分片位置;
9.一種計算機設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1-7中任一項所述的區(qū)塊鏈負(fù)載均衡方法。
10.一種計算機可讀儲存介質(zhì),其特征在于,所述計算機可讀儲存介質(zhì)上存儲有若干分類程序,所述若干分類程序用于被處理器調(diào)用并執(zhí)行如權(quán)利要求1-7中任一項所述的區(qū)塊鏈負(fù)載均衡方法。