本發(fā)明涉及無模型回歸強化學(xué)習(xí),特別是指一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置。
背景技術(shù):
1、機器人控制在工業(yè)領(lǐng)域、服務(wù)領(lǐng)域以及自動駕駛和無人機領(lǐng)域等具有重要應(yīng)用。hjb方程旨在描述機器人動態(tài)系統(tǒng)中的最優(yōu)決策過程,而機器人動態(tài)系統(tǒng)的最優(yōu)決策問題的解往往依賴于hjb方程的解。強化學(xué)習(xí)能夠處理高維狀態(tài)空間,克服傳統(tǒng)方法的“維度詛咒”問題,并且可以在環(huán)境中實時學(xué)習(xí),適應(yīng)系統(tǒng)的動態(tài)變化如文獻1和2[frank?l.?lewis,draguna?vrabie,?kyriakos?g.?vamvoudakis.?“reinforcement?learning?and?feedbackcontrol:?using?natural?decision?methods?to?design?optimal?adaptivecontrollers”.?ieee?control?systems?magazine,?vol.?32,?no.?6,?pp.?76-105,?dec.2012,?modares,?hamidreza,?frank?l.?lewis.?“optimal?tracking?control?ofnonlinear?partially-unknown?constrained-input?systems?using?integralreinforcement?learning”.?automatica?vol.?50,?no.?7,?pp.?1780-1792,?2014]。因此,強化學(xué)習(xí)是一種計算高維偏微分方程的關(guān)鍵技術(shù),已被廣泛應(yīng)用于多智能體系統(tǒng)、機器人系統(tǒng)和無人機系統(tǒng)等。
2、為了處理非線性機器人系統(tǒng)最優(yōu)控制問題,研究學(xué)者提出了一系列強化學(xué)習(xí)方法,其中無模型強化學(xué)習(xí)求解模型不確定下非線性系統(tǒng)最優(yōu)控制問題具有顯著的優(yōu)勢。文獻3[hamidreza?modares,?frank?l.?lewis,?wei?kang,?ali?davoudi.?“optimalsynchronization?of?heterogeneous?nonlinear?systems?with?unknown?dynamics”.ieee?transactions?on?automatic?control,?vol.?63,?no.?1,?pp.?117-131,?jan.2018]考慮了具有未知非線性動態(tài)系統(tǒng)的最優(yōu)輸出同步問題。首先為智能體定義一個折扣性能指標(biāo)函數(shù),并推導(dǎo)出一個增廣的hjb方程以求其最小值。然后,提出的最優(yōu)控制協(xié)議保證了所有智能體的同步誤差局部漸進收斂到零。最后,使用無模型強化學(xué)習(xí)技術(shù)在不需要任何智能體動態(tài)信息的情況下,為每個智能體學(xué)習(xí)最優(yōu)控制協(xié)議,從而實現(xiàn)協(xié)同目標(biāo)。文獻4[zhongyang?ming,?huaguang?zhang,?juan?zhang,?xiangpeng?xie.?“a?novel?actor–critic–identifier?architecture?for?nonlinear?multiagent?systems?with?gradientdescent?method”.?automatica,?vol.?155,?pp.?111128,?2023]針對連續(xù)時間未知非線性系統(tǒng)的無限時域最優(yōu)共識控制問題,提出了一種在線自適應(yīng)強化學(xué)習(xí)方法。首先,提出了一種執(zhí)行-評判-識別網(wǎng)絡(luò)架構(gòu),用于近似hjb方程。該架構(gòu)相比于已知的大多數(shù)架構(gòu)更為簡化。然后,設(shè)計了基于梯度下降法的神經(jīng)網(wǎng)絡(luò)調(diào)節(jié)法則。最后,基于李雅普諾夫方法的自適應(yīng)控制技術(shù)證明了提出無模型強化學(xué)習(xí)算法的收斂性。然而,文獻3中的方法在求解最優(yōu)控制協(xié)議的過程中會面臨解異奇情況的存在,且參數(shù)不易調(diào)節(jié);文獻4需要滿足持續(xù)激勵條件,且神經(jīng)網(wǎng)絡(luò)數(shù)量的增多加大了算法計算的復(fù)雜性。最重要的是,上述兩種方法的收斂速度均有一定的提升空間。因此,如何構(gòu)建一種基于無模型強化學(xué)習(xí)的機器人系統(tǒng)最優(yōu)控制方法是該領(lǐng)域技術(shù)人員亟需解決的核心問題之一。
技術(shù)實現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中在非線性機器人系統(tǒng)控制上無法快速獲得機器人系統(tǒng)有效控制策略的技術(shù)問題,本發(fā)明實施例提供了一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置。所述技術(shù)方案如下:
2、一方面,提供了一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法,其特征在于,所述方法包括:
3、s1、構(gòu)建2自由度非線性機器人系統(tǒng),并對2自由度非線性機器人系統(tǒng)進行轉(zhuǎn)換;構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò),將執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)初始化為1;其中,2自由度非線性機器人系統(tǒng)是用于物體抓取任務(wù)的機器人系統(tǒng);
4、s2、獲取可容許輸入控制數(shù)據(jù),將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號;
5、s3、執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中,采集轉(zhuǎn)換后的機器人系統(tǒng)狀態(tài)信號數(shù)據(jù);基于可容許輸入控制數(shù)據(jù)和機器人系統(tǒng)狀態(tài)信號數(shù)據(jù),計算執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù);基于可容許輸入控制數(shù)據(jù)計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值;其中,機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)是抓取任務(wù)中機器人系統(tǒng)的位置、關(guān)節(jié)角度以及速度信息;
6、s4、構(gòu)建hjb方程,基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)列出hjb方程的關(guān)鍵列向量,并整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值;基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值,計算執(zhí)行-評判網(wǎng)絡(luò)的輔助回歸常數(shù)權(quán)值;
7、s5、根據(jù)輔助回歸常數(shù)權(quán)值、關(guān)鍵列向量以及整合后的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值,獲得執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則;將迭代次數(shù)加1,基于執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則計算新的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值;
8、s6、預(yù)設(shè)常數(shù)權(quán)值誤差閾值,判斷相鄰兩次迭代執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否滿足設(shè)定常數(shù)權(quán)值誤差閾值,若滿足,則停止迭代,獲得最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值,基于最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值對機器人系統(tǒng)進行最優(yōu)控制,使機器人系統(tǒng)進行物體抓??;否則重復(fù)執(zhí)行s2-s5直至滿足常數(shù)權(quán)值誤差閾值。
9、可選地,s1中,構(gòu)建2自由度非線性機器人系統(tǒng),并對2自由度非線性機器人系統(tǒng)進行轉(zhuǎn)換;構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò),將執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)初始化為1,包括:
10、根據(jù)下述公式(1)構(gòu)建2自由度非線性機器人系統(tǒng):
11、(1)
12、其中,是機器人系統(tǒng)的角位置,且,表示角位置的一階導(dǎo)數(shù),表示角位置的二階導(dǎo)數(shù);是機器人系統(tǒng)的角速度,是慣性矩陣,是離心力和科里奧利力矩陣,是輸入扭矩,是輸入干擾;
13、對2自由度非線性機器人系統(tǒng)通過數(shù)學(xué)推導(dǎo)轉(zhuǎn)換為如下述公式(2)的非線性系統(tǒng)標(biāo)準(zhǔn)形式:
14、(2)
15、其中,表示機器人系統(tǒng)的狀態(tài);表示機器人系統(tǒng)狀態(tài)的導(dǎo)數(shù);表示系統(tǒng)漂移動態(tài)模型信息,和是系統(tǒng)輸入動態(tài)模型信息,是迭代次數(shù)s下輸入扭矩相關(guān)的迭代控制策略;是迭代次數(shù)s下輸入干擾相關(guān)的迭代控制策略;
16、構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò);其中,執(zhí)行-評判網(wǎng)絡(luò)包括執(zhí)行網(wǎng)絡(luò)和評判網(wǎng)絡(luò);執(zhí)行網(wǎng)絡(luò)包括兩個神經(jīng)網(wǎng)絡(luò),分別為第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò);評判網(wǎng)絡(luò)包括一個神經(jīng)網(wǎng)絡(luò);
17、初始化執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)為。
18、可選地,s2中,獲取可容許輸入控制數(shù)據(jù),將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號;包括:
19、獲取可容許輸入控制數(shù)據(jù);可容許輸入控制數(shù)據(jù)為使轉(zhuǎn)換后的機器人系統(tǒng)穩(wěn)定和性能指標(biāo)函數(shù)有限的數(shù)據(jù);可容許輸入控制數(shù)據(jù)包括:輸入扭矩和輸入干擾;
20、將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號。
21、可選地,s3中,執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中,采集轉(zhuǎn)換后的機器人系統(tǒng)狀態(tài)信號數(shù)據(jù);基于可容許輸入控制數(shù)據(jù)和機器人系統(tǒng)狀態(tài)信號數(shù)據(jù),計算執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù);基于可容許輸入控制數(shù)據(jù)計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值,包括:
22、執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中,采集時刻和時刻的系統(tǒng)狀態(tài)信號數(shù)據(jù)和,其中時間間隔;
23、獲取執(zhí)行-評判網(wǎng)絡(luò)基函數(shù)信息,包括:評判網(wǎng)絡(luò)在時刻下的基函數(shù)、評判網(wǎng)絡(luò)在時刻下的基函數(shù)、執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)的基函數(shù)以及執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)的基函數(shù);
24、其中,p1表示評判網(wǎng)絡(luò)中神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量;p2表示執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量;p3表示執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量;
25、基于執(zhí)行網(wǎng)絡(luò)基函數(shù)信息,如下述公式(3)和公式(4)計算執(zhí)行網(wǎng)絡(luò)中的兩個神經(jīng)網(wǎng)絡(luò)的逼近值和:
26、(3)
27、(4)
28、其中,和分別為執(zhí)行網(wǎng)絡(luò)中兩個神經(jīng)網(wǎng)絡(luò)的常數(shù)權(quán)值;m是控制輸入中輸入扭矩u的維度;是控制輸入中輸入干擾d的維度;
29、計算迭代次數(shù)s下的執(zhí)行網(wǎng)絡(luò)中兩個神經(jīng)網(wǎng)絡(luò)的逼近值和對應(yīng)可容許輸入控制的差值,并化簡得到:和;
30、基于評判網(wǎng)絡(luò)基函數(shù)信息,如下述公式(5)計算評判網(wǎng)絡(luò)逼近值:
31、(5)
32、其中,是評判網(wǎng)絡(luò)的常數(shù)權(quán)值;t表示轉(zhuǎn)置;
33、基于可容許輸入控制數(shù)據(jù),如下述公式(6)計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值:
34、(6)
35、其中,,表示一個正的對角矩陣;表示正的折扣參數(shù),表示矩陣r中的元素;表示正的對稱矩陣;表示l2-增益參數(shù)的平方。
36、可選地,s4中,構(gòu)建hjb方程,基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)列出hjb方程的關(guān)鍵列向量,并整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值,包括:
37、構(gòu)建hjb方程,基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù),根據(jù)下述公式(7)列出hjb方程的關(guān)鍵列向量:
38、(7)
39、其中,和,
40、根據(jù)下述公式(8)整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值:
41、(8)
42、其中,是整合后的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值;是執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第1列,表示執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第m列;表示執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第1列;表示執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第列。
43、可選地,s4中,基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值,計算執(zhí)行-評判網(wǎng)絡(luò)的輔助回歸常數(shù)權(quán)值,包括:
44、定義折扣參數(shù),令折扣參數(shù)大于0小于1;
45、如下述公式(9),基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值,結(jié)合所述折扣參數(shù),計算輔助回歸常數(shù)權(quán)值:
46、?(9)
47、其中,表示從1到迭代次數(shù)的序列值。
48、可選地,s6中,預(yù)設(shè)常數(shù)權(quán)值誤差閾值,判斷相鄰兩次迭代的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否滿足設(shè)定常數(shù)權(quán)值誤差閾值,包括:
49、預(yù)設(shè)常數(shù)權(quán)值誤差閾值?;
50、計算相鄰兩次迭代的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差;
51、判斷相鄰兩次迭代的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否小于預(yù)設(shè)常數(shù)權(quán)值誤差閾值?。
52、可選地,最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值,包括:
53、通過執(zhí)行-評判網(wǎng)絡(luò)輸出最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值,包括:,,。另一方面,提供了一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制裝置,該裝置應(yīng)用于基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法,該裝置包括:
54、系統(tǒng)轉(zhuǎn)換模塊,用于構(gòu)建2自由度非線性機器人系統(tǒng),并對2自由度非線性機器人系統(tǒng)進行轉(zhuǎn)換;構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò),將執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)初始化為1;其中,2自由度非線性機器人系統(tǒng)是用于物體抓取任務(wù)的機器人系統(tǒng);
55、輸入數(shù)據(jù)獲取模塊,用于獲取可容許輸入控制數(shù)據(jù),將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號;
56、數(shù)值計算模塊,用于執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中,采集轉(zhuǎn)換后的機器人系統(tǒng)狀態(tài)信號數(shù)據(jù);基于可容許輸入控制數(shù)據(jù)和機器人系統(tǒng)狀態(tài)信號數(shù)據(jù),計算執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù);基于可容許輸入控制數(shù)據(jù)計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值;其中,機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)是抓取任務(wù)中機器人系統(tǒng)的位置、關(guān)節(jié)角度以及速度信息;
57、常數(shù)權(quán)值計算模塊,用于構(gòu)建hjb方程,基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)列出hjb方程的關(guān)鍵列向量,并整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值;基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值,計算執(zhí)行-評判網(wǎng)絡(luò)的輔助回歸常數(shù)權(quán)值;
58、迭代模塊,用于根據(jù)輔助回歸常數(shù)權(quán)值、關(guān)鍵列向量以及整合后的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值,獲得執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則;將迭代次數(shù)加1,基于執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則計算新的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值;
59、機器人控制模塊,用于預(yù)設(shè)常數(shù)權(quán)值誤差閾值,判斷相鄰兩次迭代執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否滿足設(shè)定常數(shù)權(quán)值誤差閾值,若滿足,則停止迭代,獲得最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值,基于最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值對機器人系統(tǒng)進行最優(yōu)控制;否則重復(fù)執(zhí)行s2-s5直至滿足常數(shù)權(quán)值誤差閾值。
60、另一方面,提供一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制設(shè)備,所述基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制設(shè)備包括:處理器;存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執(zhí)行時,實現(xiàn)如上述基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法中的任一項方法。
61、另一方面,提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)上述基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法中的任一項方法。
62、本發(fā)明實施例提供的技術(shù)方案帶來的有益效果至少包括:
63、本發(fā)明實施例中提出一種基于無模型強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置,以克服無模型機器人系統(tǒng)最優(yōu)控制問題中hjb方程求解難、求解慢等問題,并通過引入折扣參數(shù)來處理算法收斂速度慢的問題。此外,利用神經(jīng)網(wǎng)絡(luò)來模擬執(zhí)行-評判結(jié)構(gòu)。同時,通過對機器人系統(tǒng)某些信號(角位置、角速度、基函數(shù))的采集,不斷迭代帶折扣參數(shù)的神經(jīng)網(wǎng)絡(luò)權(quán)值,從而得到最優(yōu)權(quán)值向量,以此得到機器人系統(tǒng)hjb方程的解,獲得最優(yōu)決策控制方法,獲得機器人系統(tǒng)最優(yōu)控制決策,通過機器人系統(tǒng)對物體進行抓取。