欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備與流程

文檔序號:40650427發(fā)布日期:2025-01-10 18:56閱讀:5來源:國知局
實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備與流程

本申請涉及機器人領(lǐng)域,特別是涉及一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備。


背景技術(shù):

1、近年來,機器人逐漸被應(yīng)用到各個領(lǐng)域,例如工業(yè)領(lǐng)域、日常生活領(lǐng)域,機器人的普遍應(yīng)用也要求機器人具有更高的智能化,例如能通過學習技能來完成更為復(fù)雜的任務(wù),而模仿學習就是一種簡化機器人技能學習的有效方法,其可以避免復(fù)雜的手動編程。本申請的發(fā)明人發(fā)現(xiàn),目前機器人模仿學習的過程效率低下,有待進一步改進。


技術(shù)實現(xiàn)思路

1、本申請?zhí)峁┮环N實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備,能夠提高機器人模仿學習軌跡的效率。

2、本申請實施例第一方面提供一種實現(xiàn)機器人模仿學習軌跡的方法,所述方法包括:獲取初始軌跡,并通過動態(tài)運動基元算法將所述初始軌跡進行編碼,得到所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組,所述基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;生成所述初始軌跡對應(yīng)的獎勵,其中,所述初始軌跡對應(yīng)的獎勵表征所述機器人按照所述初始軌跡運動后完成目標任務(wù)的概率;根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組,所述當前基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡;生成所述當前軌跡對應(yīng)的獎勵,其中,所述當前軌跡對應(yīng)的獎勵表征所述機器人按照所述當前軌跡運動后完成所述目標任務(wù)的概率;根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡;根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組,所述第一權(quán)重梯度組包括多個第一權(quán)重梯度值;判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求;響應(yīng)于所述第一權(quán)重梯度組滿足所述預(yù)設(shè)要求,將所述當前軌跡確定為最終軌跡;否則,獲取第一噪聲項,根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組,接著根據(jù)所述第二權(quán)重梯度組更新所述當前軌跡的所述當前基函數(shù)權(quán)重組,并返回執(zhí)行所述根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡的步驟;其中,相鄰兩次獲取的所述第一噪聲項不同。

3、本申請實施例第二方面提供一種電子設(shè)備,所述電子設(shè)備包括處理器、存儲器以及通信電路,所述處理器分別耦接所述存儲器、所述通信電路,所述存儲器中存儲有程序數(shù)據(jù),所述處理器通過執(zhí)行所述存儲器內(nèi)的所述程序數(shù)據(jù)以實現(xiàn)上述方法中的步驟。

4、本申請實施例第三方面提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)上述方法中的步驟。

5、有益效果是:本申請使用了動態(tài)運動基元算法將軌跡進行策略的參數(shù)化,得到軌跡對應(yīng)的基函數(shù)權(quán)重組,同時在對基函數(shù)權(quán)重組進行迭代更新的過程中,根據(jù)軌跡對應(yīng)的獎勵,對機器人已經(jīng)運行的多個目標軌跡進行了篩選,選擇性復(fù)用了機器人已經(jīng)運行的目標軌跡,能夠提高機器人模仿學習軌跡的效率。



技術(shù)特征:

1.一種實現(xiàn)機器人模仿學習軌跡的方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標軌跡對應(yīng)的獎勵與所述機器人按照所述目標軌跡運動后完成所述目標任務(wù)的概率呈正相關(guān);

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組的步驟,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,軌跡對應(yīng)的獎勵與所述機器人按照所述軌跡運動后完成所述目標任務(wù)的概率呈正相關(guān);

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡之前,還包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組的步驟,包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求的步驟,包括:

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取初始軌跡的步驟,包括:

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲取第一噪聲項,根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組之前,還包括:

10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器、存儲器以及通信電路,所述處理器分別耦接所述存儲器、所述通信電路,所述存儲器中存儲有程序數(shù)據(jù),所述處理器通過執(zhí)行所述存儲器內(nèi)的所述程序數(shù)據(jù)以實現(xiàn)如權(quán)利要求1-9任一項所述方法中的步驟。

11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1-9任一項所述方法中的步驟。


技術(shù)總結(jié)
本申請公開了一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備,該方法包括:獲取初始軌跡,并得到初始軌跡對應(yīng)的基函數(shù)權(quán)重組;生成初始軌跡對應(yīng)的獎勵;根據(jù)初始軌跡對應(yīng)的基函數(shù)權(quán)重組、對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組;根據(jù)當前基函數(shù)權(quán)重組以及動態(tài)運動基元算法,生成當前軌跡;生成當前軌跡對應(yīng)的獎勵;根據(jù)從機器人已經(jīng)運行的多個目標軌跡中篩選出的若干個第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組;響應(yīng)于第一權(quán)重梯度組滿足預(yù)設(shè)要求,停止迭代過程,生成最終軌跡;否則,更新當前基函數(shù)權(quán)重組,并返回執(zhí)行根據(jù)當前基函數(shù)權(quán)重組以及動態(tài)運動基元算法,生成當前軌跡的步驟。本申請的方法能夠提高機器人模仿學習軌跡的效率。

技術(shù)研發(fā)人員:任琳琳
受保護的技術(shù)使用者:北京配天技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/9
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宝山区| 称多县| 隆子县| 通州市| 丘北县| 额敏县| 呈贡县| 谢通门县| 吴桥县| 桓仁| 寻甸| 长春市| 德阳市| 河北区| 黄山市| 噶尔县| 苍南县| 辽源市| 台南市| 望奎县| 广东省| 通城县| 翼城县| 包头市| 武鸣县| 天门市| 绥宁县| 衡南县| 凯里市| 九寨沟县| 安泽县| 城市| 保亭| 江达县| 永丰县| 西贡区| 金山区| 福建省| 常山县| 连平县| 丹棱县|