基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置

文檔序號：40575200發(fā)布日期：2025-01-03 11:40閱讀：28來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及無模型回歸強化學(xué)習(xí)，特別是指一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置。

背景技術(shù)：

1、機器人控制在工業(yè)領(lǐng)域、服務(wù)領(lǐng)域以及自動駕駛和無人機領(lǐng)域等具有重要應(yīng)用。hjb方程旨在描述機器人動態(tài)系統(tǒng)中的最優(yōu)決策過程，而機器人動態(tài)系統(tǒng)的最優(yōu)決策問題的解往往依賴于hjb方程的解。強化學(xué)習(xí)能夠處理高維狀態(tài)空間，克服傳統(tǒng)方法的“維度詛咒”問題，并且可以在環(huán)境中實時學(xué)習(xí)，適應(yīng)系統(tǒng)的動態(tài)變化如文獻1和2[frank?l.?lewis,draguna?vrabie,?kyriakos?g.?vamvoudakis.?“reinforcement?learning?and?feedbackcontrol:?using?natural?decision?methods?to?design?optimal?adaptivecontrollers”.?ieee?control?systems?magazine,?vol.?32,?no.?6,?pp.?76-105,?dec.2012,?modares,?hamidreza,?frank?l.?lewis.?“optimal?tracking?control?ofnonlinear?partially-unknown?constrained-input?systems?using?integralreinforcement?learning”.?automatica?vol.?50,?no.?7,?pp.?1780-1792,?2014]。因此，強化學(xué)習(xí)是一種計算高維偏微分方程的關(guān)鍵技術(shù)，已被廣泛應(yīng)用于多智能體系統(tǒng)、機器人系統(tǒng)和無人機系統(tǒng)等。

2、為了處理非線性機器人系統(tǒng)最優(yōu)控制問題，研究學(xué)者提出了一系列強化學(xué)習(xí)方法，其中無模型強化學(xué)習(xí)求解模型不確定下非線性系統(tǒng)最優(yōu)控制問題具有顯著的優(yōu)勢。文獻3[hamidreza?modares,?frank?l.?lewis,?wei?kang,?ali?davoudi.?“optimalsynchronization?of?heterogeneous?nonlinear?systems?with?unknown?dynamics”.ieee?transactions?on?automatic?control,?vol.?63,?no.?1,?pp.?117-131,?jan.2018]考慮了具有未知非線性動態(tài)系統(tǒng)的最優(yōu)輸出同步問題。首先為智能體定義一個折扣性能指標(biāo)函數(shù)，并推導(dǎo)出一個增廣的hjb方程以求其最小值。然后，提出的最優(yōu)控制協(xié)議保證了所有智能體的同步誤差局部漸進收斂到零。最后，使用無模型強化學(xué)習(xí)技術(shù)在不需要任何智能體動態(tài)信息的情況下，為每個智能體學(xué)習(xí)最優(yōu)控制協(xié)議，從而實現(xiàn)協(xié)同目標(biāo)。文獻4[zhongyang?ming,?huaguang?zhang,?juan?zhang,?xiangpeng?xie.?“a?novel?actor–critic–identifier?architecture?for?nonlinear?multiagent?systems?with?gradientdescent?method”.?automatica,?vol.?155,?pp.?111128,?2023]針對連續(xù)時間未知非線性系統(tǒng)的無限時域最優(yōu)共識控制問題，提出了一種在線自適應(yīng)強化學(xué)習(xí)方法。首先，提出了一種執(zhí)行-評判-識別網(wǎng)絡(luò)架構(gòu)，用于近似hjb方程。該架構(gòu)相比于已知的大多數(shù)架構(gòu)更為簡化。然后，設(shè)計了基于梯度下降法的神經(jīng)網(wǎng)絡(luò)調(diào)節(jié)法則。最后，基于李雅普諾夫方法的自適應(yīng)控制技術(shù)證明了提出無模型強化學(xué)習(xí)算法的收斂性。然而，文獻3中的方法在求解最優(yōu)控制協(xié)議的過程中會面臨解異奇情況的存在，且參數(shù)不易調(diào)節(jié)；文獻4需要滿足持續(xù)激勵條件，且神經(jīng)網(wǎng)絡(luò)數(shù)量的增多加大了算法計算的復(fù)雜性。最重要的是，上述兩種方法的收斂速度均有一定的提升空間。因此，如何構(gòu)建一種基于無模型強化學(xué)習(xí)的機器人系統(tǒng)最優(yōu)控制方法是該領(lǐng)域技術(shù)人員亟需解決的核心問題之一。

技術(shù)實現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)中在非線性機器人系統(tǒng)控制上無法快速獲得機器人系統(tǒng)有效控制策略的技術(shù)問題，本發(fā)明實施例提供了一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置。所述技術(shù)方案如下：

2、一方面，提供了一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法，其特征在于，所述方法包括：

3、s1、構(gòu)建2自由度非線性機器人系統(tǒng)，并對2自由度非線性機器人系統(tǒng)進行轉(zhuǎn)換；構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò)，將執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)初始化為1；其中，2自由度非線性機器人系統(tǒng)是用于物體抓取任務(wù)的機器人系統(tǒng)；

4、s2、獲取可容許輸入控制數(shù)據(jù)，將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號；

5、s3、執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中，采集轉(zhuǎn)換后的機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)；基于可容許輸入控制數(shù)據(jù)和機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)，計算執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)；基于可容許輸入控制數(shù)據(jù)計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值；其中，機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)是抓取任務(wù)中機器人系統(tǒng)的位置、關(guān)節(jié)角度以及速度信息；

6、s4、構(gòu)建hjb方程，基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)列出hjb方程的關(guān)鍵列向量，并整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值；基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值，計算執(zhí)行-評判網(wǎng)絡(luò)的輔助回歸常數(shù)權(quán)值；

7、s5、根據(jù)輔助回歸常數(shù)權(quán)值、關(guān)鍵列向量以及整合后的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值，獲得執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則；將迭代次數(shù)加1，基于執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則計算新的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值；

8、s6、預(yù)設(shè)常數(shù)權(quán)值誤差閾值，判斷相鄰兩次迭代執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否滿足設(shè)定常數(shù)權(quán)值誤差閾值，若滿足，則停止迭代，獲得最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值，基于最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值對機器人系統(tǒng)進行最優(yōu)控制，使機器人系統(tǒng)進行物體抓??；否則重復(fù)執(zhí)行s2-s5直至滿足常數(shù)權(quán)值誤差閾值。

9、可選地，s1中，構(gòu)建2自由度非線性機器人系統(tǒng)，并對2自由度非線性機器人系統(tǒng)進行轉(zhuǎn)換；構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò)，將執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)初始化為1，包括：

10、根據(jù)下述公式（1）構(gòu)建2自由度非線性機器人系統(tǒng)：

11、（1）

12、其中，是機器人系統(tǒng)的角位置，且，表示角位置的一階導(dǎo)數(shù)，表示角位置的二階導(dǎo)數(shù)；是機器人系統(tǒng)的角速度，是慣性矩陣，是離心力和科里奧利力矩陣，是輸入扭矩，是輸入干擾；

13、對2自由度非線性機器人系統(tǒng)通過數(shù)學(xué)推導(dǎo)轉(zhuǎn)換為如下述公式（2）的非線性系統(tǒng)標(biāo)準(zhǔn)形式：

14、（2）

15、其中，表示機器人系統(tǒng)的狀態(tài)；表示機器人系統(tǒng)狀態(tài)的導(dǎo)數(shù)；表示系統(tǒng)漂移動態(tài)模型信息，和是系統(tǒng)輸入動態(tài)模型信息，是迭代次數(shù)s下輸入扭矩相關(guān)的迭代控制策略；是迭代次數(shù)s下輸入干擾相關(guān)的迭代控制策略；

16、構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò)；其中，執(zhí)行-評判網(wǎng)絡(luò)包括執(zhí)行網(wǎng)絡(luò)和評判網(wǎng)絡(luò)；執(zhí)行網(wǎng)絡(luò)包括兩個神經(jīng)網(wǎng)絡(luò)，分別為第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò)；評判網(wǎng)絡(luò)包括一個神經(jīng)網(wǎng)絡(luò)；

17、初始化執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)為。

18、可選地，s2中，獲取可容許輸入控制數(shù)據(jù)，將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號；包括：

19、獲取可容許輸入控制數(shù)據(jù)；可容許輸入控制數(shù)據(jù)為使轉(zhuǎn)換后的機器人系統(tǒng)穩(wěn)定和性能指標(biāo)函數(shù)有限的數(shù)據(jù)；可容許輸入控制數(shù)據(jù)包括：輸入扭矩和輸入干擾；

20、將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號。

21、可選地，s3中，執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中，采集轉(zhuǎn)換后的機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)；基于可容許輸入控制數(shù)據(jù)和機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)，計算執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)；基于可容許輸入控制數(shù)據(jù)計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值，包括：

22、執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中，采集時刻和時刻的系統(tǒng)狀態(tài)信號數(shù)據(jù)和，其中時間間隔；

23、獲取執(zhí)行-評判網(wǎng)絡(luò)基函數(shù)信息，包括：評判網(wǎng)絡(luò)在時刻下的基函數(shù)、評判網(wǎng)絡(luò)在時刻下的基函數(shù)、執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)的基函數(shù)以及執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)的基函數(shù)；

24、其中，p1表示評判網(wǎng)絡(luò)中神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量；p2表示執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量；p3表示執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量；

25、基于執(zhí)行網(wǎng)絡(luò)基函數(shù)信息，如下述公式（3）和公式（4）計算執(zhí)行網(wǎng)絡(luò)中的兩個神經(jīng)網(wǎng)絡(luò)的逼近值和：

26、（3）

27、（4）

28、其中，和分別為執(zhí)行網(wǎng)絡(luò)中兩個神經(jīng)網(wǎng)絡(luò)的常數(shù)權(quán)值；m是控制輸入中輸入扭矩u的維度；是控制輸入中輸入干擾d的維度；

29、計算迭代次數(shù)s下的執(zhí)行網(wǎng)絡(luò)中兩個神經(jīng)網(wǎng)絡(luò)的逼近值和對應(yīng)可容許輸入控制的差值，并化簡得到：和；

30、基于評判網(wǎng)絡(luò)基函數(shù)信息，如下述公式（5）計算評判網(wǎng)絡(luò)逼近值：

31、（5）

32、其中，是評判網(wǎng)絡(luò)的常數(shù)權(quán)值；t表示轉(zhuǎn)置；

33、基于可容許輸入控制數(shù)據(jù)，如下述公式（6）計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值：

34、（6）

35、其中，，表示一個正的對角矩陣；表示正的折扣參數(shù)，表示矩陣r中的元素；表示正的對稱矩陣；表示l2-增益參數(shù)的平方。

36、可選地，s4中，構(gòu)建hjb方程，基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)列出hjb方程的關(guān)鍵列向量，并整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值，包括：

37、構(gòu)建hjb方程，基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)，根據(jù)下述公式（7）列出hjb方程的關(guān)鍵列向量：

38、（7）

39、其中，和，

40、根據(jù)下述公式（8）整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值：

41、（8）

42、其中，是整合后的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值；是執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第1列，表示執(zhí)行網(wǎng)絡(luò)中第一神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第m列；表示執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第1列；表示執(zhí)行網(wǎng)絡(luò)中第二神經(jīng)網(wǎng)絡(luò)常數(shù)權(quán)值的第列。

43、可選地，s4中，基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值，計算執(zhí)行-評判網(wǎng)絡(luò)的輔助回歸常數(shù)權(quán)值，包括：

44、定義折扣參數(shù)，令折扣參數(shù)大于0小于1；

45、如下述公式（9），基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值，結(jié)合所述折扣參數(shù)，計算輔助回歸常數(shù)權(quán)值：

46、?（9）

47、其中，表示從1到迭代次數(shù)的序列值。

48、可選地，s6中，預(yù)設(shè)常數(shù)權(quán)值誤差閾值，判斷相鄰兩次迭代的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否滿足設(shè)定常數(shù)權(quán)值誤差閾值，包括：

49、預(yù)設(shè)常數(shù)權(quán)值誤差閾值?；

50、計算相鄰兩次迭代的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差；

51、判斷相鄰兩次迭代的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否小于預(yù)設(shè)常數(shù)權(quán)值誤差閾值?。

52、可選地，最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值，包括：

53、通過執(zhí)行-評判網(wǎng)絡(luò)輸出最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值，包括：，，。另一方面，提供了一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制裝置，該裝置應(yīng)用于基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法，該裝置包括：

54、系統(tǒng)轉(zhuǎn)換模塊，用于構(gòu)建2自由度非線性機器人系統(tǒng)，并對2自由度非線性機器人系統(tǒng)進行轉(zhuǎn)換；構(gòu)建轉(zhuǎn)換后的機器人系統(tǒng)的執(zhí)行-評判網(wǎng)絡(luò)，將執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值更新的迭代次數(shù)初始化為1；其中，2自由度非線性機器人系統(tǒng)是用于物體抓取任務(wù)的機器人系統(tǒng)；

55、輸入數(shù)據(jù)獲取模塊，用于獲取可容許輸入控制數(shù)據(jù)，將可容許輸入控制數(shù)據(jù)作為轉(zhuǎn)換后的機器人系統(tǒng)的輸入信號；

56、數(shù)值計算模塊，用于執(zhí)行可容許輸入控制數(shù)據(jù)到轉(zhuǎn)換后的機器人系統(tǒng)中，采集轉(zhuǎn)換后的機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)；基于可容許輸入控制數(shù)據(jù)和機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)，計算執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)；基于可容許輸入控制數(shù)據(jù)計算轉(zhuǎn)換后的機器人系統(tǒng)的性能指標(biāo)函數(shù)值；其中，機器人系統(tǒng)狀態(tài)信號數(shù)據(jù)是抓取任務(wù)中機器人系統(tǒng)的位置、關(guān)節(jié)角度以及速度信息；

57、常數(shù)權(quán)值計算模塊，用于構(gòu)建hjb方程，基于執(zhí)行-評判網(wǎng)絡(luò)的信息數(shù)據(jù)列出hjb方程的關(guān)鍵列向量，并整合執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值；基于關(guān)鍵列向量以及性能指標(biāo)函數(shù)值，計算執(zhí)行-評判網(wǎng)絡(luò)的輔助回歸常數(shù)權(quán)值；

58、迭代模塊，用于根據(jù)輔助回歸常數(shù)權(quán)值、關(guān)鍵列向量以及整合后的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值，獲得執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則；將迭代次數(shù)加1，基于執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值迭代規(guī)則計算新的執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值；

59、機器人控制模塊，用于預(yù)設(shè)常數(shù)權(quán)值誤差閾值，判斷相鄰兩次迭代執(zhí)行-評判網(wǎng)絡(luò)的常數(shù)權(quán)值誤差是否滿足設(shè)定常數(shù)權(quán)值誤差閾值，若滿足，則停止迭代，獲得最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值，基于最優(yōu)執(zhí)行-評判網(wǎng)絡(luò)值對機器人系統(tǒng)進行最優(yōu)控制；否則重復(fù)執(zhí)行s2-s5直至滿足常數(shù)權(quán)值誤差閾值。

60、另一方面，提供一種基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制設(shè)備，所述基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制設(shè)備包括：處理器；存儲器，所述存儲器上存儲有計算機可讀指令，所述計算機可讀指令被所述處理器執(zhí)行時，實現(xiàn)如上述基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法中的任一項方法。

61、另一方面，提供了一種計算機可讀存儲介質(zhì)，所述存儲介質(zhì)中存儲有至少一條指令，所述至少一條指令由處理器加載并執(zhí)行以實現(xiàn)上述基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法中的任一項方法。

62、本發(fā)明實施例提供的技術(shù)方案帶來的有益效果至少包括：

63、本發(fā)明實施例中提出一種基于無模型強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置，以克服無模型機器人系統(tǒng)最優(yōu)控制問題中hjb方程求解難、求解慢等問題，并通過引入折扣參數(shù)來處理算法收斂速度慢的問題。此外，利用神經(jīng)網(wǎng)絡(luò)來模擬執(zhí)行-評判結(jié)構(gòu)。同時，通過對機器人系統(tǒng)某些信號(角位置、角速度、基函數(shù))的采集，不斷迭代帶折扣參數(shù)的神經(jīng)網(wǎng)絡(luò)權(quán)值，從而得到最優(yōu)權(quán)值向量，以此得到機器人系統(tǒng)hjb方程的解，獲得最優(yōu)決策控制方法，獲得機器人系統(tǒng)最優(yōu)控制決策，通過機器人系統(tǒng)對物體進行抓取。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏麗娜,趙澤龍,李擎,宋睿卓,李江昀,楊高富,莊培顯,鐘祚棟,唐夢兆,英子瑄,岳駿慧
技術(shù)所有人：北京科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種起重機械密封件的磨削裝置的制作方法
上一篇：一種多功能地質(zhì)勘測裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、王老師：電子信息處理、先進檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于無模型回歸強化學(xué)習(xí)的機器人系統(tǒng)控制方法及裝置