本發(fā)明涉及機(jī)器人控制,更具體地說,本發(fā)明涉及一種用于控制機(jī)器人的方法。
背景技術(shù):
1、隨著機(jī)器人技術(shù)的迅速發(fā)展,機(jī)器人在工業(yè)自動化、服務(wù)行業(yè)和醫(yī)療領(lǐng)域的應(yīng)用越來越廣泛。然而,現(xiàn)有的機(jī)器人控制系統(tǒng)在與人類進(jìn)行交互時,仍然面臨著安全性和靈活性之間的矛盾。傳統(tǒng)的固定閾值控制方法難以適應(yīng)復(fù)雜多變的環(huán)境,可能導(dǎo)致在不同用戶和場景下的安全性不足?,F(xiàn)有技術(shù)亟需一種能夠動態(tài)調(diào)整距離安全閾值和施加力安全閾值的優(yōu)化方法,以確保機(jī)器人在與用戶交互過程中的安全性,并能夠根據(jù)不同的用戶和環(huán)境需求進(jìn)行個性化調(diào)整。這就要求引入一種更靈活且能夠自適應(yīng)優(yōu)化的控制方法,以提高機(jī)器人系統(tǒng)在實(shí)際應(yīng)用中的可靠性和用戶體驗(yàn)。因此,在此提出一種用于控制機(jī)器人的方法。
技術(shù)實(shí)現(xiàn)思路
1、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
2、一種用于控制機(jī)器人的方法,包括以下步驟:
3、步驟一、通過多個預(yù)設(shè)的傳感器實(shí)時采集機(jī)器人運(yùn)行環(huán)境的環(huán)境數(shù)據(jù),得到運(yùn)行環(huán)境數(shù)據(jù)集;
4、步驟二、基于運(yùn)行環(huán)境數(shù)據(jù)集,進(jìn)行圖像處理識別當(dāng)前與機(jī)器人進(jìn)行交互的用戶的位置及大??;
5、步驟三、實(shí)時計(jì)算機(jī)器人與當(dāng)前的交互用戶之間的距離,以及獲取在交互動作中接觸時的作用力并實(shí)時調(diào)節(jié)機(jī)器人施加的力;
6、步驟四、在機(jī)器人與當(dāng)前的交互用戶之間的距離或機(jī)器人施加的力超出安全范圍時,預(yù)警機(jī)制觸發(fā);
7、步驟五、根據(jù)歷史交互數(shù)據(jù),使用強(qiáng)化學(xué)習(xí)優(yōu)化機(jī)器人控制策略,并且獲取機(jī)器人的交互運(yùn)行狀態(tài)和交互情況,動態(tài)調(diào)整距離安全閾值與施加力安全閾值。
8、在一個優(yōu)選的實(shí)施方式中,進(jìn)行圖像處理識別當(dāng)前與機(jī)器人進(jìn)行交互的用戶的位置及大小指的是:
9、使用預(yù)先訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對運(yùn)行環(huán)境數(shù)據(jù)集中的圖像數(shù)據(jù)進(jìn)行圖像識別和分類,定位用戶位置,卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測框的輸出結(jié)果為:(x,y,w,h);x表示當(dāng)前與機(jī)器人進(jìn)行交互的用戶的中心點(diǎn)的x軸坐標(biāo),y表示當(dāng)前與機(jī)器人進(jìn)行交互的用戶的中心點(diǎn)的y軸坐標(biāo),w表示當(dāng)前與機(jī)器人進(jìn)行交互的用戶建立的矩形框?qū)挾?,h表示當(dāng)前與機(jī)器人進(jìn)行交互的用戶建立的矩形框高度,接著獲取深度攝像頭檢測到的深度數(shù)據(jù)z,匯總后得到聯(lián)合結(jié)果:(x,y,z,w,h);深度數(shù)據(jù)z表示當(dāng)前與機(jī)器人進(jìn)行交互的用戶的中心點(diǎn)的z軸坐標(biāo)。
10、在一個優(yōu)選的實(shí)施方式中,實(shí)時計(jì)算機(jī)器人與當(dāng)前的交互用戶之間的距離指的是:
11、獲取機(jī)器人的坐標(biāo)點(diǎn),以及聯(lián)合結(jié)果(x,y,z,w,h),然后使用歐氏距離公式計(jì)算機(jī)器人與用戶的距離d。
12、在一個優(yōu)選的實(shí)施方式中,獲取在交互動作中接觸時的作用力并實(shí)時調(diào)節(jié)機(jī)器人施加的力指的是:
13、獲取機(jī)器人與用戶接觸時的作用力,當(dāng)該作用力未超出安全范圍時,對該作用力進(jìn)行實(shí)時調(diào)節(jié),將機(jī)器人與用戶接觸時的作用力與接觸速度一同作為輸入變量并轉(zhuǎn)化為模糊值,將調(diào)節(jié)因子作為輸出變量,然后制定模糊規(guī)則,將多個輸入的模糊值映射到輸出的模糊值,將多個規(guī)則的輸出模糊集合進(jìn)行合成,得到最終的模糊輸出集合;
14、使用重心法進(jìn)行去模糊化,重心法公式表述為:
15、μsc(x)表示輸出模糊集合的隸屬度函數(shù),x是輸出變量的數(shù)值,xmin、xmax表示輸出變量x的最小值和最大值,μ表示調(diào)節(jié)因子;
16、調(diào)節(jié)機(jī)器人施加的力的表達(dá)式為:
17、f0=fi*μ;fi表示機(jī)器人與用戶接觸時的作用力,f0表示調(diào)節(jié)后機(jī)器人施加的力。
18、在一個優(yōu)選的實(shí)施方式中,預(yù)警機(jī)制觸發(fā)時,發(fā)出預(yù)警信號或主動撤回當(dāng)前動作或切換至安全模式,在機(jī)器人與當(dāng)前的交互用戶之間的距離或機(jī)器人施加的力超出安全范圍時,獲取當(dāng)前的機(jī)器人與當(dāng)前的交互用戶之間的距離,以及當(dāng)前機(jī)器人施加的力并一同作為模糊推理的輸入數(shù)據(jù),將預(yù)警機(jī)制觸發(fā)時進(jìn)入的應(yīng)對類型作為輸出數(shù)據(jù),使用模糊推理判斷應(yīng)當(dāng)進(jìn)入的應(yīng)對類型并執(zhí)行。
19、在一個優(yōu)選的實(shí)施方式中,根據(jù)歷史交互數(shù)據(jù),使用強(qiáng)化學(xué)習(xí)優(yōu)化機(jī)器人控制策略指的是:
20、機(jī)器人感知環(huán)境狀態(tài)s,然后根據(jù)當(dāng)前策略選擇一個動作a,隨后機(jī)器人在環(huán)境中執(zhí)行動作a,機(jī)器人執(zhí)行動作后,獲取環(huán)境的新狀態(tài)s′并獲得相應(yīng)的獎勵r,更新q值,表達(dá)式為:
21、α是學(xué)習(xí)率,控制新舊信息的平衡,γ是折扣因子,決定未來獎勵的重要性,qnew(s,a)表示經(jīng)過本次更新后,環(huán)境狀態(tài)s下采取行動a的新的q值,qold(s,a)表示本次更新前,環(huán)境狀態(tài)s下采取行動a的舊的q值;
22、將新狀態(tài)s′作為當(dāng)前狀態(tài)進(jìn)行更新循環(huán),直到達(dá)到終止條件,當(dāng)q值函數(shù)收斂后,機(jī)器人在每個環(huán)境狀態(tài)下選擇q值最大的動作即為最優(yōu)策略。
23、在一個優(yōu)選的實(shí)施方式中,使用遺傳算法對強(qiáng)化學(xué)習(xí)優(yōu)化后的機(jī)器人控制策略中的距離安全閾值和施加力安全閾值進(jìn)行動態(tài)調(diào)整。
24、在一個優(yōu)選的實(shí)施方式中,遺傳算法的具體步驟如下:
25、編碼與初始種群:隨機(jī)生成一組初始個體(種群),每個個體表示一組距離安全閾值和施加力安全閾值的組合;
26、適應(yīng)度評估:利用舒適度指數(shù)衡量每個染色體的適應(yīng)度值;
27、選擇操作:使用輪盤賭選擇方法篩選子代作為新的父代;
28、交叉操作:隨機(jī)將不同父代染色體中的數(shù)據(jù)進(jìn)行交換;
29、變異操作:隨機(jī)選擇不同子代染色體的數(shù)據(jù)進(jìn)行調(diào)整;
30、重復(fù)選擇操作、交叉操作和變異操作,直至達(dá)到預(yù)設(shè)的終止條件,輸出適應(yīng)度最低的個體作為最佳距離安全閾值和施加力安全閾值的組合。
31、在一個優(yōu)選的實(shí)施方式中,舒適度指數(shù)指的是:
32、收集交互用戶的反饋數(shù)據(jù),得到反饋數(shù)據(jù)集,然后從反饋數(shù)據(jù)集中提取交互用戶在單位時間內(nèi)按下反饋按鈕的次數(shù)、平均力度、平均深度、皮膚電導(dǎo)率的變化幅度平均值,然后進(jìn)行加權(quán)求和,得到舒適度指數(shù)。
33、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):
34、本發(fā)明通過實(shí)時采集環(huán)境數(shù)據(jù)并進(jìn)行動態(tài)調(diào)整,能夠顯著提升機(jī)器人與用戶交互過程中的安全性。預(yù)警機(jī)制的觸發(fā)條件確保在距離或施加力超出安全范圍時,機(jī)器人能迅速作出反應(yīng),避免對用戶造成潛在傷害。本發(fā)明利用強(qiáng)化學(xué)習(xí)和遺傳算法,能夠根據(jù)不同用戶的反饋動態(tài)調(diào)整控制策略,實(shí)現(xiàn)個性化的交互體驗(yàn)。機(jī)器人可以針對不同用戶的需求和安全敏感度進(jìn)行優(yōu)化,從而提高用戶的滿意度和交互舒適度。
35、通過使用深度學(xué)習(xí)、模糊邏輯控制系統(tǒng)以及遺傳算法,本發(fā)明使得機(jī)器人能夠在復(fù)雜、多變的環(huán)境中自適應(yīng)調(diào)整控制參數(shù)。無論是在變化的環(huán)境中還是面對不同的用戶,機(jī)器人都能夠保持最佳運(yùn)行狀態(tài),確保操作的穩(wěn)定性和有效性。通過強(qiáng)化學(xué)習(xí)和遺傳算法的結(jié)合,本發(fā)明能夠不斷優(yōu)化機(jī)器人控制策略。強(qiáng)化學(xué)習(xí)用于學(xué)習(xí)和改進(jìn)操作策略,而遺傳算法則用于微調(diào)關(guān)鍵的安全閾值,使得控制策略更具靈活性和精確性,確保機(jī)器人能夠在保證安全的前提下高效運(yùn)行。
36、本發(fā)明中設(shè)計(jì)的適應(yīng)度函數(shù)能夠有效減少用戶在交互過程中可能出現(xiàn)的不適感和不安全感。通過統(tǒng)計(jì)用戶反饋數(shù)據(jù)并進(jìn)行優(yōu)化,機(jī)器人可以提供更加流暢、自然的交互體驗(yàn),適用于對用戶體驗(yàn)要求較高的應(yīng)用場景。本發(fā)明的方法不僅適用于特定的機(jī)器人控制場景,還具有廣泛的應(yīng)用潛力。無論是在工業(yè)自動化、家庭服務(wù)還是醫(yī)療護(hù)理領(lǐng)域,該方法都能夠提供可靠的安全保障和個性化的交互體驗(yàn),滿足不同應(yīng)用場景的需求。