本申請涉及機器人領(lǐng)域,特別是涉及一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備。
背景技術(shù):
1、近年來,機器人逐漸被應(yīng)用到各個領(lǐng)域,例如工業(yè)領(lǐng)域、日常生活領(lǐng)域,機器人的普遍應(yīng)用也要求機器人具有更高的智能化,例如能通過學習技能來完成更為復(fù)雜的任務(wù),而模仿學習就是一種簡化機器人技能學習的有效方法,其可以避免復(fù)雜的手動編程。本申請的發(fā)明人發(fā)現(xiàn),目前機器人模仿學習的過程效率低下,有待進一步改進。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┮环N實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備,能夠提高機器人模仿學習軌跡的效率。
2、本申請實施例第一方面提供一種實現(xiàn)機器人模仿學習軌跡的方法,所述方法包括:獲取初始軌跡,并通過動態(tài)運動基元算法將所述初始軌跡進行編碼,得到所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組,所述基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;生成所述初始軌跡對應(yīng)的獎勵,其中,所述初始軌跡對應(yīng)的獎勵表征所述機器人按照所述初始軌跡運動后完成目標任務(wù)的概率;根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組,所述當前基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡;生成所述當前軌跡對應(yīng)的獎勵,其中,所述當前軌跡對應(yīng)的獎勵表征所述機器人按照所述當前軌跡運動后完成所述目標任務(wù)的概率;根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡;根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組,所述第一權(quán)重梯度組包括多個第一權(quán)重梯度值;判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求;響應(yīng)于所述第一權(quán)重梯度組滿足所述預(yù)設(shè)要求,將所述當前軌跡確定為最終軌跡;否則,獲取第一噪聲項,根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組,接著根據(jù)所述第二權(quán)重梯度組更新所述當前軌跡的所述當前基函數(shù)權(quán)重組,并返回執(zhí)行所述根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡的步驟;其中,相鄰兩次獲取的所述第一噪聲項不同。
3、本申請實施例第二方面提供一種電子設(shè)備,所述電子設(shè)備包括處理器、存儲器以及通信電路,所述處理器分別耦接所述存儲器、所述通信電路,所述存儲器中存儲有程序數(shù)據(jù),所述處理器通過執(zhí)行所述存儲器內(nèi)的所述程序數(shù)據(jù)以實現(xiàn)上述方法中的步驟。
4、本申請實施例第三方面提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)上述方法中的步驟。
5、有益效果是:本申請使用了動態(tài)運動基元算法將軌跡進行策略的參數(shù)化,得到軌跡對應(yīng)的基函數(shù)權(quán)重組,同時在對基函數(shù)權(quán)重組進行迭代更新的過程中,根據(jù)軌跡對應(yīng)的獎勵,對機器人已經(jīng)運行的多個目標軌跡進行了篩選,選擇性復(fù)用了機器人已經(jīng)運行的目標軌跡,能夠提高機器人模仿學習軌跡的效率。
1.一種實現(xiàn)機器人模仿學習軌跡的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標軌跡對應(yīng)的獎勵與所述機器人按照所述目標軌跡運動后完成所述目標任務(wù)的概率呈正相關(guān);
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組的步驟,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,軌跡對應(yīng)的獎勵與所述機器人按照所述軌跡運動后完成所述目標任務(wù)的概率呈正相關(guān);
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡之前,還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組的步驟,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求的步驟,包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取初始軌跡的步驟,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲取第一噪聲項,根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組之前,還包括:
10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器、存儲器以及通信電路,所述處理器分別耦接所述存儲器、所述通信電路,所述存儲器中存儲有程序數(shù)據(jù),所述處理器通過執(zhí)行所述存儲器內(nèi)的所述程序數(shù)據(jù)以實現(xiàn)如權(quán)利要求1-9任一項所述方法中的步驟。
11.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)如權(quán)利要求1-9任一項所述方法中的步驟。