本公開涉及機(jī)器人自動(dòng)控制,具體涉及基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本公開相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、現(xiàn)有的四足機(jī)器人控制多依賴于精確的運(yùn)動(dòng)學(xué)與動(dòng)力學(xué)模型,如模型預(yù)測(cè)控制(mpc),這種方法雖然在控制效果上取得了一定的進(jìn)步,但是對(duì)運(yùn)動(dòng)規(guī)劃和操作人員的素質(zhì)要求依舊很高。四輪足機(jī)器人結(jié)合輪式和足式的運(yùn)動(dòng)模式,具備出色的地形通過能力。
3、然而現(xiàn)有的四輪足機(jī)器人控制方案通常采用單一模式控制,包括輪式控制、足式控制模式和輪足復(fù)合控制模式,各個(gè)模式之間缺乏有效的模式切換機(jī)制,無法根據(jù)地形的變化實(shí)時(shí)、靈活地在輪式和足式以及輪足復(fù)合式之間切換,無法進(jìn)行有效的切換過渡,導(dǎo)致在復(fù)雜地形下無法實(shí)現(xiàn)最優(yōu)的運(yùn)動(dòng)性能。例如,當(dāng)機(jī)器人行駛在由平坦地面到崎嶇地形的場(chǎng)景中,輪式模式無法及時(shí)轉(zhuǎn)換為足式模式以適應(yīng)地形變化,從而導(dǎo)致穩(wěn)定性和通過性下降。因此,現(xiàn)有技術(shù)難以智能地調(diào)度不同的控制模式來應(yīng)對(duì)多變的地形,無法兼顧高速移動(dòng)和復(fù)雜地形通過的雙重要求,限制了四輪足機(jī)器人在多樣化場(chǎng)景中的應(yīng)用。
技術(shù)實(shí)現(xiàn)思路
1、本公開為了解決上述問題,提出了基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法及系統(tǒng),通過學(xué)習(xí)策略的智能調(diào)度與復(fù)合模型優(yōu)化,實(shí)現(xiàn)對(duì)四足機(jī)器人和四輪足機(jī)器人的高效、靈活控制,增強(qiáng)機(jī)器人在復(fù)雜地形中的適應(yīng)性、運(yùn)動(dòng)穩(wěn)定性,實(shí)現(xiàn)多模式運(yùn)動(dòng)控制,同時(shí)能夠根據(jù)不同的地形選擇最優(yōu)控制策略,以應(yīng)對(duì)復(fù)雜環(huán)境需求。
2、根據(jù)一些實(shí)施例,本公開采用如下技術(shù)方案:
3、基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法,包括:
4、根據(jù)外界環(huán)境地形變化,對(duì)機(jī)器人的多模式運(yùn)動(dòng)控制進(jìn)行選擇;
5、其中,當(dāng)機(jī)器人處于崎嶇地形時(shí),對(duì)機(jī)器人實(shí)施足式或者輪足復(fù)合控制模式,足式控制過程包括:
6、獲取速度指令、機(jī)器人當(dāng)前的狀態(tài)空間向量以及上一步的動(dòng)作信息;
7、將所述狀態(tài)空間向量、速度指令以及上一步的動(dòng)作信息輸入至actor網(wǎng)絡(luò),actor網(wǎng)絡(luò)根據(jù)輸入的狀態(tài)空間向量、速度指令以及上一步的動(dòng)作信息進(jìn)行動(dòng)作尋優(yōu),輸出關(guān)節(jié)期望位置和關(guān)節(jié)期望速度;
8、將關(guān)節(jié)期望位置和關(guān)節(jié)期望速度輸入至關(guān)節(jié)控制器,得到機(jī)器人的當(dāng)前動(dòng)作,利用critic網(wǎng)絡(luò)對(duì)當(dāng)前的動(dòng)作進(jìn)行評(píng)估,生成獎(jiǎng)勵(lì)值傳遞給critic用于生成q-value指導(dǎo)控制策略的更新,使得機(jī)器人達(dá)到最優(yōu)的期望速度,進(jìn)而實(shí)現(xiàn)足式運(yùn)動(dòng)控制;
9、所述輪足復(fù)合控制過程包括:采用二次型規(guī)劃算法將輸入目標(biāo)速度指令需求分配到輪部和腿部,將 x軸方向的線速度優(yōu)化為輪子速度和腿部速度,設(shè)置決策向量并構(gòu)建目標(biāo)函數(shù),根據(jù)約束求解目標(biāo)函數(shù),確定腿部每個(gè)關(guān)節(jié)以及輪子的速度最優(yōu)分配,根據(jù)速度分配值進(jìn)行強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)運(yùn)動(dòng)控制。
10、根據(jù)一些實(shí)施例,本公開采用如下技術(shù)方案:
11、基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制系統(tǒng),包括:
12、控制模式選擇模塊,用于根據(jù)外界環(huán)境地形變化,對(duì)機(jī)器人的多模式運(yùn)動(dòng)控制進(jìn)行選擇;
13、復(fù)合控制模塊,用于當(dāng)機(jī)器人處于崎嶇地形時(shí),對(duì)機(jī)器人實(shí)施足式或者輪足復(fù)合控制模式,足式控制過程包括:
14、獲取速度指令、機(jī)器人當(dāng)前的狀態(tài)空間向量以及上一步的動(dòng)作信息;
15、將所述狀態(tài)空間向量、速度指令以及上一步的動(dòng)作信息輸入至actor網(wǎng)絡(luò),actor網(wǎng)絡(luò)根據(jù)輸入的狀態(tài)空間向量、速度指令以及上一步的動(dòng)作信息進(jìn)行動(dòng)作尋優(yōu),輸出關(guān)節(jié)期望位置和關(guān)節(jié)期望速度;
16、將關(guān)節(jié)期望位置和關(guān)節(jié)期望速度輸入至關(guān)節(jié)控制器,得到機(jī)器人的當(dāng)前動(dòng)作,利用critic網(wǎng)絡(luò)對(duì)當(dāng)前的動(dòng)作進(jìn)行評(píng)估,生成獎(jiǎng)勵(lì)值傳遞給critic用于生成q-value指導(dǎo)控制策略的更新,使得機(jī)器人達(dá)到最優(yōu)的期望速度,進(jìn)而實(shí)現(xiàn)足式運(yùn)動(dòng)控制;
17、所述輪足復(fù)合控制過程包括:采用二次型規(guī)劃算法將輸入目標(biāo)速度指令需求分配到輪部和腿部,將 x軸方向的線速度優(yōu)化為輪子速度和腿部速度,設(shè)置決策向量并構(gòu)建目標(biāo)函數(shù),根據(jù)約束求解目標(biāo)函數(shù),確定腿部每個(gè)關(guān)節(jié)以及輪子的速度最優(yōu)分配,根據(jù)速度分配值進(jìn)行強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)運(yùn)動(dòng)控制。
18、根據(jù)一些實(shí)施例,本公開采用如下技術(shù)方案:
19、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法。
20、根據(jù)一些實(shí)施例,本公開采用如下技術(shù)方案:
21、一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法。
22、根據(jù)一些實(shí)施例,本公開采用如下技術(shù)方案:
23、一種電子設(shè)備,包括:處理器、存儲(chǔ)器以及計(jì)算機(jī)程序;其中,處理器與存儲(chǔ)器連接,計(jì)算機(jī)程序被存儲(chǔ)在存儲(chǔ)器中,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)程序,以使電子設(shè)備執(zhí)行實(shí)現(xiàn)所述的基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法。
24、與現(xiàn)有技術(shù)相比,本公開的有益效果為:
25、本公開的基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法,適用于四足機(jī)器人和四輪足機(jī)器人。通過強(qiáng)化學(xué)習(xí)與復(fù)合模型優(yōu)化控制器的結(jié)合,實(shí)現(xiàn)了多模式運(yùn)動(dòng)控制。本發(fā)明不僅簡(jiǎn)化了控制系統(tǒng)的復(fù)雜度,增強(qiáng)了對(duì)復(fù)雜環(huán)境的實(shí)時(shí)響應(yīng)能力,還通過引入多種控制模式(輪式、足式及復(fù)合模式)使機(jī)器人具備了出色的地形適應(yīng)能力。
26、本公開的基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法,采用強(qiáng)化學(xué)習(xí)控制策略與復(fù)合模型優(yōu)化控制器結(jié)合,提供對(duì)四足和四輪足機(jī)器人的統(tǒng)一控制架構(gòu),支持手動(dòng)切換運(yùn)動(dòng)模式。通過預(yù)先訓(xùn)練的最優(yōu)策略,顯著降低了實(shí)時(shí)計(jì)算的需求,復(fù)合模型優(yōu)化控制器進(jìn)一步優(yōu)化了速度和穩(wěn)定性,使機(jī)器人在各種地形下均具備卓越的運(yùn)動(dòng)性能。特別是在輪足復(fù)合模式中,輪子和足部的協(xié)同工作極大提升了運(yùn)動(dòng)效率和穩(wěn)定性。
27、本公開的基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法,融合了強(qiáng)化學(xué)習(xí)與復(fù)合模型優(yōu)化控制技術(shù),通過訓(xùn)練好的策略網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)四輪足機(jī)器人多模式運(yùn)動(dòng)的有效控制。機(jī)器人能夠在平坦地面上使用輪式控制實(shí)現(xiàn)高速移動(dòng),在復(fù)雜地形中切換到足式控制,以增強(qiáng)通過能力。同時(shí),采用復(fù)合控制模式實(shí)現(xiàn)輪足協(xié)同工作,顯著提高在多樣化地形中的適應(yīng)性和穩(wěn)定性。
28、本發(fā)明的基于強(qiáng)化學(xué)習(xí)與復(fù)合模型的四足機(jī)器人控制方法,通過引入多種控制模式(輪式、足式及輪足復(fù)合模式),實(shí)現(xiàn)了對(duì)多種地形的高效通過。使用強(qiáng)化學(xué)習(xí)方法取代傳統(tǒng)的模型預(yù)測(cè)控制(mpc),大大簡(jiǎn)化了控制系統(tǒng)的復(fù)雜性,并增強(qiáng)了對(duì)動(dòng)態(tài)環(huán)境的實(shí)時(shí)響應(yīng)能力。復(fù)合模型優(yōu)化控制器進(jìn)一步通過二次型規(guī)劃(qp)優(yōu)化速度分配,以確保最佳的速度和穩(wěn)定性表現(xiàn)。用戶可手動(dòng)切換控制模式,滿足不同任務(wù)場(chǎng)景的需求,例如巡邏、救援和復(fù)雜地形的運(yùn)輸任務(wù)。本發(fā)明在實(shí)驗(yàn)中表現(xiàn)出優(yōu)異的通過效率和能耗表現(xiàn),特別是在地形過渡和多模式切換的流暢性方面。