本發(fā)明多智能體協(xié)同控制領域,尤其涉及基于人工智能的機器人遠程協(xié)同調(diào)度方法及系統(tǒng)。
背景技術(shù):
1、隨著科技的不斷進步,機器人在各個領域的應用越來越廣泛,從工業(yè)制造中的自動化生產(chǎn),到醫(yī)療衛(wèi)生領域的輔助手術(shù)、護理工作;從物流倉儲的貨物搬運、分揀,到危險環(huán)境下的探測、救援任務等。不同類型的機器人具備不同的功能和特點,能夠在特定的場景中發(fā)揮重要作用。
2、近年來,人工智能技術(shù)取得了巨大的進步。機器學習、深度學習、計算機視覺、自然語言處理等技術(shù)的不斷發(fā)展,為機器人的智能化提供了有力支持。人工智能可以使機器人具備自主感知、決策和學習能力,提高機器人的適應性和靈活性。
3、同時,人工智能技術(shù)也為機器人的遠程協(xié)同調(diào)度提供了新的思路和方法,為了滿足復雜任務需求,解決機器人在遠程工作環(huán)境中的協(xié)同問題,設計了基于人工智能的機器人遠程協(xié)同調(diào)度方法及系統(tǒng)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是要提供基于人工智能的機器人遠程協(xié)同調(diào)度方法及系統(tǒng)。
2、為達到上述目的,本發(fā)明是按照以下技術(shù)方案實施的:
3、本發(fā)明第一方面提供了基于人工智能的機器人遠程協(xié)同調(diào)度方法,包括:
4、s100將復雜任務劃分多個子任務,進行耦合性分析,獲得耦合子任務集和非耦合子任務集;
5、s200為耦合子任務之間構(gòu)建關(guān)聯(lián)性函數(shù),分析非耦合子任務與耦合子任務之間的依賴關(guān)系,獲得依賴性函數(shù);
6、s300基于所述關(guān)聯(lián)性函數(shù)和所述依賴性函數(shù)構(gòu)建拓撲關(guān)系網(wǎng)絡模型,根據(jù)所述拓撲關(guān)系網(wǎng)絡模型為機器人構(gòu)建神經(jīng)網(wǎng)絡模型;
7、s400對機器人進行基于偏好的任務分組,作為初始狀態(tài),機器人通過各自的所述神經(jīng)網(wǎng)絡模型根據(jù)所述初始狀態(tài)計算下一步動作集合;
8、s500確定協(xié)同目標,從所述下一步動作集合中選擇最優(yōu)動作組合作為協(xié)同策略;
9、s600基于所述協(xié)同策略生成執(zhí)行邏輯,機器人根據(jù)執(zhí)行邏輯執(zhí)行子任務;
10、s700構(gòu)建智能體協(xié)作網(wǎng)絡對每次任務的執(zhí)行邏輯進行學習,基于所述智能體協(xié)作網(wǎng)絡對機器人的所述神經(jīng)網(wǎng)絡模型持續(xù)進行優(yōu)化。
11、作為進一步的方法,所述為耦合子任務之間構(gòu)建關(guān)聯(lián)性函數(shù),分析非耦合子任務與耦合子任務之間的依賴關(guān)系,獲得依賴性函數(shù)的方法,包括:
12、基于耦合子任務間的特征參數(shù)構(gòu)建關(guān)聯(lián)性函數(shù),表達式為:
13、
14、其中,n和m分別為耦合子任務a和耦合子任務b的特征數(shù)量,wij為和的關(guān)聯(lián)程度,和分別為耦合子任務a中的第i個特征值和耦合子任務b中第j個特征值,和分別為和的標準差,η為和的非線性影響因子,θ為和的差異衰減系數(shù),和分別為和的均值;
15、對非耦合與耦合子任務提取特征數(shù)據(jù),通過機器學習算法訓練模型,獲得依賴性函數(shù),表達式為:
16、d=σ2(w2·σ1(w1·[fnc,fc]+b1)+b2)
17、其中,σ1和σ2分別為隱藏層的非線性激活函數(shù)和輸出層的線性激活函數(shù),w1和w2分別為輸入層到隱藏層的權(quán)重和隱藏層到輸出層的權(quán)重,b1和b2分別為隱藏層和輸出層的偏置。
18、作為進一步的方法,所述基于所述關(guān)聯(lián)性函數(shù)和所述依賴性函數(shù)構(gòu)建拓撲關(guān)系網(wǎng)絡模型的方法,包括:將每個子任務作為節(jié)點,對耦合子任務間建立無向邊,根據(jù)關(guān)聯(lián)函數(shù)的值確定邊的權(quán)重,為非耦合子任務和耦合子任務間建立有向邊,根據(jù)依賴性函數(shù)確定邊的權(quán)重。
19、作為進一步的方法,所述根據(jù)所述拓撲關(guān)系網(wǎng)絡模型為機器人構(gòu)建神經(jīng)網(wǎng)絡模型的方法,包括:
20、基于拓撲關(guān)系網(wǎng)絡模型計算子任務的優(yōu)先級,表達式為:
21、
22、其中,p(vi)為子任務vi的優(yōu)先級,ui為vi的重要性程度,ii為vi對其余子任務的影響因子的數(shù)量,ri為vi的資源需求,ci為vi的完成成本,ti為vi的完成所需的時間,v為子任務集合,wij表示為vi與子任務vj之間的權(quán)重,din(vi)為vi在拓撲關(guān)系網(wǎng)絡模型中的入度,dout(vj)表示為vj在拓撲關(guān)系網(wǎng)絡模型中的出度,sij為vi和vj在特征參數(shù)上的相似程度;
23、基于子任務優(yōu)先級定義決策規(guī)則,具體為:按子任務優(yōu)先級降序執(zhí)行,高優(yōu)先級子任務優(yōu)先分配更多資源;任務沖突優(yōu)先執(zhí)行高優(yōu)先級任務;出現(xiàn)緊急任務立即提升緊急任務優(yōu)先級并執(zhí)行;
24、基于前饋神經(jīng)網(wǎng)絡為機器人構(gòu)建神經(jīng)網(wǎng)絡模型,將子任務的優(yōu)先級作為權(quán)重,輸入層節(jié)點數(shù)量對應機器人獲取的特征數(shù)量,輸出層節(jié)點數(shù)量對應機器人動作維度,隱藏層節(jié)點數(shù)量設置為輸入層和輸出層節(jié)點數(shù)之和的一半;
25、根據(jù)決策規(guī)則獲得輸出與期望的差異,進行反向傳播,從輸出層向輸入層計算梯度并調(diào)整模型參數(shù),進行迭代,直到模型符合決策規(guī)則。
26、作為進一步的方法,所述對機器人進行基于偏好的任務分組,作為初始狀態(tài)的方法,包括:
27、確定機器人的能力和偏好特征,為每個機器人通過決策樹算法構(gòu)建偏好模型,根據(jù)機器人的偏好模型和子任務的屬性,使用線性規(guī)劃方法為每個機器人分配子任務;
28、其中線性規(guī)劃方法中的目標函數(shù)的表達式為:
29、
30、其中,r為機器人的總數(shù),t為子任務的總數(shù),prt表示機器人r執(zhí)行子任務t時的基礎效益,xrt為執(zhí)行決策變量,當xrt=1時,表示機器人r被分配執(zhí)行子任務t,否則xij=0,qrt表示機器人r執(zhí)行子任務t時的效率,yrt為偏好決策變量,當yrt=1時,表示機器人r偏好執(zhí)行子任務t,否則為yrt=0,f為機器人的偏好特征集合,urf表示為機器人r對特征f的偏好強度,wrf為特征決策變量,當wrf=1時,表示機器人r的偏好模型中特征f被激活,否則wrf=0,vr為機器人r的負荷水平;
31、其中線性規(guī)劃方法中的約束條件包括:
32、
33、其中,hrt為機器人r執(zhí)行子任務t所需的資源量,hr為機器人r的可用的總資源,lr為機器人r的最大任務執(zhí)行能力,l為負荷平衡系數(shù),cr為機器人r的最大任務容量;
34、為每個機器人定義初始狀態(tài),包括機器人的子任務分配情況、當前位置信息和當前任務狀態(tài)信息。
35、作為進一步的方法,所述從所述下一步動作集合中選擇最優(yōu)動作組合作為協(xié)同策略的方法,包括:
36、從每個機器人的下一步動作獲取達到協(xié)同目標的聯(lián)合動作集合,以最大化任務完成效益和最大化協(xié)同效益為目標,從聯(lián)合動作集合中選擇選擇最優(yōu)動作組合;其中任務完成效益的評估函數(shù)的表達式為:
37、
38、其中,t為子任務的總數(shù),n為已完成子任務數(shù),rmax為最大子任務完成率,tmax為最長子任務完成時間,tmin為子任務最短完成時間,cmin為最低子任務成本,cmax為最高子任務成本,r為機器人的總數(shù),crj為第j個機器人的運行成本,k為資源數(shù)量,crk為第k個資源的使用成本,q為子任務完成質(zhì)量評估分數(shù),p為機器人總功率消耗,ηmax為理想最大系統(tǒng)效率;
39、其中協(xié)同效益的評估函數(shù)的表達式為:
40、
41、其中,e為時間步總數(shù),γe為在時間步e時的折扣因子,r為機器人的總數(shù),se為機器人在時間步e的全局狀態(tài),為機器人i在時間步e的動作,為機器人i在狀態(tài)se下采取動作時的即時效益,λ為協(xié)同效益的權(quán)重參數(shù),機器人i和j在時間步在狀態(tài)se下協(xié)同組合采取動作的即時效益,e*為最終時間步,為機器人i在最終時間步e*的動作,為機器人i在最終時間步e*的終端代價。
42、作為進一步的方法,所述機器人根據(jù)執(zhí)行邏輯執(zhí)行子任務的方法,包括:為機器人間引入動態(tài)任務分配機制,機器人定期更新狀態(tài)信息,并通過神經(jīng)網(wǎng)絡模型調(diào)整任務分配,其中當出現(xiàn)機器人故障和新任務加入時,觸發(fā)子任務重新分配。
43、作為進一步的方法,所述構(gòu)建智能體協(xié)作網(wǎng)絡對每次任務的執(zhí)行邏輯進行學習的方法,包括:
44、在子任務執(zhí)行過程中,收集每個機器人的狀態(tài)、動作、觀測和獎勵;
45、計算機器人每次執(zhí)行邏輯的策略梯度,基于決策樹構(gòu)建智能體協(xié)作網(wǎng)絡,根據(jù)策略梯度通過強化學習訓練智能體協(xié)作網(wǎng)絡,其中策略梯度的計算公式為:
46、
47、其中,θ為策略π的參數(shù),j(π)策略π的累積回報,n為參與協(xié)作的機器人總數(shù),為時間步t時機器人i采取的動作,為時間步t時機器人i的狀態(tài),為在時間步t和狀態(tài)下,根據(jù)策略π選擇動作的概率分布,為策略π的期望值,γt為在時間步t時的折扣因子,為時間步t時機器人i獲得的獎勵。
48、作為進一步的方法,所述基于所述智能體協(xié)作網(wǎng)絡對機器人的所述神經(jīng)網(wǎng)絡模型持續(xù)進行優(yōu)化的方法,包括:
49、利用遷移學習將智能體協(xié)作網(wǎng)絡學習到的特征遷移至神經(jīng)網(wǎng)絡模型中,其中遷移后的神經(jīng)網(wǎng)絡模型輸出的表達式為:
50、
51、其中,a為神經(jīng)網(wǎng)絡模型,f為模型輸出層的激活函數(shù),n為模型的層數(shù),σ為模型隱藏層的激活函數(shù),α為遷移學習率,為原始神經(jīng)網(wǎng)絡模型中第i層的權(quán)重矩陣,為從智能體協(xié)作網(wǎng)絡中遷移的權(quán)重矩陣特征,oc為智能體協(xié)作網(wǎng)絡的輸出,hi-1為模型第i-1層到第i層的輸入,為模型第i層的偏置向量,為從智能體協(xié)作網(wǎng)絡中遷移的偏置向量特征;
52、根據(jù)智能體協(xié)作網(wǎng)絡中決策樹的結(jié)構(gòu)調(diào)整神經(jīng)網(wǎng)絡模型,具體為:在神經(jīng)網(wǎng)絡模型中設計對應決策樹內(nèi)部節(jié)點特征的神經(jīng)元層,根據(jù)特征值激活不同神經(jīng)元路徑,后續(xù)節(jié)點依據(jù)前層輸出和當前特征激活,以葉子節(jié)點權(quán)重為輸出。
53、本發(fā)明第二方面提供了基于人工智能的機器人遠程協(xié)同調(diào)度系統(tǒng),包括:
54、任務劃分模塊,用于將復雜任務劃分多個子任務,進行耦合性分析,獲得耦合子任務集和非耦合子任務集;
55、關(guān)聯(lián)構(gòu)建模塊,用于為耦合子任務之間構(gòu)建關(guān)聯(lián)性函數(shù),分析非耦合子任務與耦合子任務之間的依賴關(guān)系,獲得依賴性函數(shù);
56、網(wǎng)絡建模模塊,用于基于所述關(guān)聯(lián)性函數(shù)和所述依賴性函數(shù)構(gòu)建拓撲關(guān)系網(wǎng)絡模型,根據(jù)所述拓撲關(guān)系網(wǎng)絡模型為機器人構(gòu)建神經(jīng)網(wǎng)絡模型;
57、偏好分組模塊,用于對機器人進行基于偏好的任務分組,作為初始狀態(tài),機器人通過各自的所述神經(jīng)網(wǎng)絡模型根據(jù)所述初始狀態(tài)計算下一步動作集合;
58、策略選擇模塊,用于確定協(xié)同目標,從所述下一步動作集合中選擇最優(yōu)動作組合作為協(xié)同策略;
59、邏輯執(zhí)行模塊,用于基于所述協(xié)同策略生成執(zhí)行邏輯,機器人根據(jù)執(zhí)行邏輯動態(tài)執(zhí)行子任務;
60、網(wǎng)絡優(yōu)化模塊,用于構(gòu)建智能體協(xié)作網(wǎng)絡對每次任務的執(zhí)行邏輯進行學習,基于所述智能體協(xié)作網(wǎng)絡對機器人的所述神經(jīng)網(wǎng)絡模型持續(xù)進行優(yōu)化。
61、相對于現(xiàn)有技術(shù),本發(fā)明的實施例至少具有如下優(yōu)點或有益效果:
62、(1)本發(fā)明通過將復雜任務劃分為多個子任務,并進行耦合性分析,得到耦合子任務集和非耦合子任務集后,為耦合子任務構(gòu)建關(guān)聯(lián)性函數(shù),有助于更好地協(xié)調(diào)和管理這些相互關(guān)聯(lián)的子任務,確保它們之間的協(xié)同工作。
63、(2)本發(fā)明通過確定協(xié)同目標并生成聯(lián)合動作集合,能夠找到最優(yōu)的聯(lián)合動作作為協(xié)同策略,確保機器人之間的協(xié)同工作達到最佳效果?;趨f(xié)同策略生成執(zhí)行邏輯,使機器人能夠準確地執(zhí)行相應任務,提高任務執(zhí)行的可靠性和穩(wěn)定性。
64、(3)本發(fā)明通過構(gòu)建智能體協(xié)作網(wǎng)絡對每次任務最優(yōu)策略的執(zhí)行邏輯進行學習,能夠不斷優(yōu)化智能體的神經(jīng)網(wǎng)絡模型。這種持續(xù)優(yōu)化的過程可以使智能體在面對不同任務和環(huán)境時不斷提高自身的性能和適應性,從而提高整個系統(tǒng)的效率和可靠性。