本發(fā)明屬于pcb貼裝領(lǐng)域,具體涉及一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法。
背景技術(shù):
1、隨著表面貼裝技術(shù)smt(surface?mountedtechnology)越來越廣泛的應(yīng)用,電子產(chǎn)品裝配較之手工裝配發(fā)生了質(zhì)的飛躍,smt裝配線中的關(guān)鍵設(shè)備貼片機(jī)得到了廣泛的關(guān)注。為進(jìn)一步的提高貼片機(jī)的性能,其關(guān)鍵因素之一就是提高貼片的效率。對于單臺(tái)貼片機(jī)而言,提高貼片的效率存在兩個(gè)關(guān)鍵的問題:即貼片機(jī)送料器位置分配問題和元件的貼裝順序優(yōu)化問題。但是對于led產(chǎn)品的貼裝順序,由于貼裝的led芯片類型有限,但同種類型的led芯片的貼裝數(shù)量多,傳統(tǒng)的貼裝設(shè)置不再滿足要求,需要專門的自動(dòng)化設(shè)備和工藝來完成這一過程。
2、led貼裝順序問題,要求設(shè)備貼裝速度足夠快,最低18000點(diǎn)/h以上的貼裝速度,為了實(shí)現(xiàn)精準(zhǔn)、高效的led貼裝,將led芯片準(zhǔn)確地放置在目標(biāo)位置上。因此貼裝順序需要經(jīng)過精心規(guī)劃和優(yōu)化,以確保高速操作的同時(shí)不降低貼裝質(zhì)量。針對led貼裝技術(shù),優(yōu)化貼裝順序變得尤為重要。通過縮短貼裝時(shí)間,企業(yè)能更快地滿足客戶需求、增加利潤,并減少閑置時(shí)間和設(shè)備維護(hù)成本。
3、雙龍門貼片機(jī)良好的工作負(fù)載平衡是貼裝順序優(yōu)化的關(guān)鍵。有些人將其作為優(yōu)化問題來解決。一些研究將工作量平衡作為一種客觀衡量標(biāo)準(zhǔn),而另一些研究則應(yīng)用了啟發(fā)式策略,應(yīng)用爬山啟發(fā)式為貼裝順序?qū)ふ伊己玫慕鉀Q方案。kulak等人通過改進(jìn)ga解決雙龍門貼片機(jī)貼裝順序問題,將一種稱為密度搜索構(gòu)造方法(dscm)的聚類算法集成到ga中。由于雙龍門貼裝循序優(yōu)化中存在較多的操作決策問題,解決該問題通常提出一種混合遺傳算法。sund等人開發(fā)了一種用于解決元件分配問題的遺傳算法,并結(jié)合用于工作負(fù)載平衡和貼裝順序的貪婪啟發(fā)式算法。然而,已經(jīng)注意到的是,當(dāng)貼裝操作的數(shù)量增加時(shí),ga的性能顯著下降,因?yàn)間a算子的效率在更寬的搜索空間中惡化。
4、綜上所述,利用深度強(qiáng)化學(xué)習(xí)解決雙龍門貼片機(jī)取貼順序優(yōu)化問題,需要克服許多困難:1.雙龍門led貼片機(jī)有著更加龐大的解集空間,更加難以找到可靠的解。2.雙龍門led貼片機(jī)取貼順序優(yōu)化難以建模為單智能體強(qiáng)化學(xué)習(xí)問題。3.運(yùn)用多智能體強(qiáng)化學(xué)習(xí)算法解決雙龍門led貼片機(jī)取貼順序優(yōu)化問題,需要合理的設(shè)計(jì)來平衡各智能體間的抽象博弈關(guān)系。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在問題,提供一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,從整體的角度,端到端地求解雙龍門貼片機(jī)取貼順序優(yōu)化問題,降低運(yùn)行成本。
2、為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化方法,包括:
3、步驟s1、定義雙龍門貼片機(jī)取貼順序優(yōu)化下的多智能體深度強(qiáng)化學(xué)習(xí)基本組件;
4、步驟s2、搭建編碼器網(wǎng)絡(luò)模型;
5、步驟s3、搭建解碼器網(wǎng)絡(luò)模型;
6、步驟s4、搭建mac-ac算法框架下的評論家網(wǎng)絡(luò)模型;
7、步驟s5、引入掩碼機(jī)制加速訓(xùn)練;
8、步驟s6、確定動(dòng)作選擇機(jī)制;
9、步驟s7、通過mac-ac算法進(jìn)行神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,獲取貼順序優(yōu)化結(jié)果。
10、在本發(fā)明一實(shí)施例中,雙龍門貼片機(jī)取貼順序模型說明如下:
11、前提:貼片頭每次取料、貼放和視覺檢查的時(shí)間為恒定值;忽略貼片頭運(yùn)動(dòng)的加速和減速時(shí)間,假設(shè)運(yùn)動(dòng)為勻速運(yùn)動(dòng)。
12、建立的優(yōu)化目標(biāo)是貼片頭在貼裝過程中運(yùn)行的總路徑最短(包括取料、貼放兩個(gè)過程),優(yōu)化目標(biāo)函數(shù):
13、
14、其中t表示為貼片機(jī)貼裝執(zhí)行一輪貼裝動(dòng)作的時(shí)間步長,i為貼片頭的編號,表示i貼片頭執(zhí)行的第t輪元件拾取所需的距離,表示i貼片頭執(zhí)行的第t輪元件貼裝所需的距離;比較兩臺(tái)龍門架的運(yùn)行距離以確定最長距離。
15、(1)取料過程所需距離:
16、
17、其中表示為貼片機(jī)對應(yīng)貼片頭i工位的照相機(jī)的坐標(biāo),為喂料組的坐標(biāo)即是對應(yīng)喂料槽坐標(biāo)的集合的平均值。
18、(2)貼片頭i實(shí)時(shí)位置坐標(biāo)更新:
19、
20、表示當(dāng)前貼片頭i的實(shí)時(shí)位置,貼片頭i訪問任意貼裝點(diǎn)k后,其位置坐標(biāo)li更新:其中xk為所訪問貼裝點(diǎn)對應(yīng)的坐標(biāo)。
21、(3)貼裝過程所需距離:
22、
23、其中,t表示貼片機(jī)所移動(dòng)一次去執(zhí)行取料或貼裝的時(shí)間步長,n表示一輪取貼循環(huán)t中,最大的時(shí)間步長,該式表示貼片頭i從喂料組i出發(fā),依次經(jīng)過貼裝點(diǎn)1到n,最后在回到照相機(jī)處待機(jī)的總距離。根據(jù)雙龍門貼片機(jī)的工藝流程,還需引入下述約束:
24、s.t.
25、3≤n≤h+2i
26、
27、其中,i表示參與工作的貼片頭的數(shù)目,雙龍門這里應(yīng)為2;h表示所有貼片頭上所包含的吸嘴總數(shù)目,上式包含元件總約束,貼片頭一旦參與取貼循環(huán)最少要執(zhí)行取料,貼裝,回到照相機(jī)處三個(gè)步驟,最多正好完成貼片頭的吸嘴數(shù)目的貼裝,回到照相機(jī)處。
28、在本發(fā)明一實(shí)施例中,步驟s1中,所定義多智能體深度強(qiáng)化學(xué)習(xí)基本組件,包括:
29、(1)定義各個(gè)龍門上的貼片頭為獨(dú)立的智能體;
30、(2)將各個(gè)貼片頭決策下一目標(biāo)節(jié)點(diǎn)的行為定義為動(dòng)作;
31、(3)狀態(tài)由環(huán)境狀態(tài)與智能體狀態(tài)兩部分構(gòu)成,其中:
32、1)環(huán)境狀態(tài)包括:
33、a.所有喂料組坐標(biāo)包括和為方便訓(xùn)練,直接定義為:x0,x1,此時(shí)喂料組的坐標(biāo)是對應(yīng)喂料槽和照相機(jī)的坐標(biāo)的集合的平均值;
34、b.pcb上所有待貼裝點(diǎn)的位置坐標(biāo)xk;
35、2)智能體狀態(tài)包括:
36、各貼片頭的當(dāng)前坐標(biāo)、當(dāng)前包含的剩余未貼裝元件數(shù)目;
37、(4)定義狀態(tài)轉(zhuǎn)移函數(shù):
38、貼片頭i訪問任意貼裝點(diǎn)k后,其位置坐標(biāo)li更新:其中xk為所訪問貼裝點(diǎn)對應(yīng)的靜態(tài)坐標(biāo);dk貼裝點(diǎn)需求量與貼片頭i上剩余元件數(shù)目li更新:其中,這里的1表示貼裝點(diǎn)的元件需求量,l表示貼片頭當(dāng)前剩余元件數(shù)目;貼片頭訪問對應(yīng)喂料組節(jié)點(diǎn)后,重新吸取滿元件:其中,c表示貼片頭的吸嘴數(shù)目;
39、(5)定義獎(jiǎng)勵(lì)函數(shù):
40、對于雙龍門多頭貼片機(jī)貼裝順序問題而言,考慮到如果兩個(gè)龍門架同時(shí)移動(dòng),則只計(jì)算一個(gè)移動(dòng)距離最長的龍門架的距離,由貼片機(jī)貼裝順序問題其待貼裝元件類型和吸嘴類型的特殊性可知,對于貼片頭從照相機(jī)到喂料組的時(shí)間應(yīng)為定值,即取料時(shí)間應(yīng)為常數(shù),可以得知對于求總流程的距離成本,取料過程所產(chǎn)生的距離成本可以直接忽略。因此采用一個(gè)時(shí)間步長內(nèi)所有貼片頭移動(dòng)總距離減去所有取料距離作為獎(jiǎng)勵(lì)函數(shù),考慮到喂料組坐標(biāo)的定義,最終獎(jiǎng)勵(lì)函數(shù)r(t)即為目標(biāo)優(yōu)化函數(shù)為:
41、在本發(fā)明一實(shí)施例中,步驟s2中,所述編碼器網(wǎng)絡(luò)模型,具體為:
42、編碼器網(wǎng)絡(luò)由單層線性網(wǎng)絡(luò)與門控循環(huán)神經(jīng)網(wǎng)絡(luò)即gru網(wǎng)絡(luò)構(gòu)成,編碼器網(wǎng)絡(luò)接收貼片頭i在t時(shí)刻的局部觀測通過線性投影的方式計(jì)算其初始嵌入;初始嵌入結(jié)合gru網(wǎng)絡(luò)隱層狀態(tài)ht,通過gru網(wǎng)絡(luò)計(jì)算各智能體局部觀測的特征向量ei。
43、在本發(fā)明一實(shí)施例中,步驟s3中,所述解碼器網(wǎng)絡(luò)模型,為避免不必要的通訊對智能體決策帶來干擾,嵌入注意力機(jī)制,以此幫助智能體自主學(xué)習(xí)相互間的實(shí)時(shí)通訊需求。
44、在本發(fā)明一實(shí)施例中,步驟s3中,所述解碼器網(wǎng)絡(luò)模型,具體為:
45、解碼器網(wǎng)絡(luò)由注意力機(jī)制模塊構(gòu)成:注意力機(jī)制匯總所有貼片頭i的觀測信息ei并結(jié)合硬注意力權(quán)重wh,為每個(gè)貼片頭i計(jì)算它與其它貼片頭間的相關(guān)性權(quán)重δi,δi由其他貼片頭的價(jià)值加權(quán)求和得出:δi=∑αvi,其中,價(jià)值vi通過貼片頭i對應(yīng)特征向量ei經(jīng)矩陣wv線性變換得出,注意力權(quán)重α使用查詢密鑰系統(tǒng)比較特征向量ei與ej,wq將ei轉(zhuǎn)換為查詢,wk將ej轉(zhuǎn)換為鍵,并將匹配值輸入softmax函數(shù)中;為防止梯度消失,根據(jù)wq與wk的維數(shù)對匹配值進(jìn)行縮放,并結(jié)合硬注意力權(quán)重wh,得到注意力權(quán)重α:
46、最后,合并每個(gè)貼片頭i對應(yīng)的特征向量ei與相關(guān)性權(quán)重δi,計(jì)算得到每個(gè)貼片頭i的動(dòng)作價(jià)值函數(shù)qi:qi=f(g(ei,δi)),其中,f為多層線性網(wǎng)絡(luò),g為單層線性層。
47、在本發(fā)明一實(shí)施例中,步驟s4中,所述mac-ac算法即完全合作關(guān)系設(shè)定下的多智能體演員評判家算法。
48、在本發(fā)明一實(shí)施例中,步驟s4中,搭建mac-ac算法框架下的評論家網(wǎng)絡(luò)模型,具體如下:
49、評論家網(wǎng)絡(luò)模型由評價(jià)網(wǎng)絡(luò)與目標(biāo)評論家網(wǎng)絡(luò)兩部分構(gòu)成,它們是網(wǎng)絡(luò)維度相同但網(wǎng)絡(luò)參數(shù)不同的多層線性網(wǎng)絡(luò);評價(jià)網(wǎng)絡(luò)接收t時(shí)刻下的環(huán)境狀態(tài)st估計(jì)的狀態(tài)價(jià)值目標(biāo)評論家網(wǎng)絡(luò)接收t+1時(shí)刻下的環(huán)境狀態(tài),估計(jì)t+1時(shí)刻下的環(huán)境狀態(tài)價(jià)值
50、在本發(fā)明一實(shí)施例中,步驟s5中,所述掩碼機(jī)制即在訓(xùn)練的過程中,掩碼將所有貼片頭不應(yīng)訪問節(jié)點(diǎn)的對數(shù)概率設(shè)置為-∞,來遮蔽不可行解,并在滿足特定條件時(shí)強(qiáng)制求解。
51、在本發(fā)明一實(shí)施例中,所述掩碼機(jī)制具體如下:
52、1)貼片頭不允許移動(dòng)到已完成貼裝的貼裝點(diǎn);2)貼片頭剩余元件數(shù)目為0時(shí),強(qiáng)制其返回對應(yīng)的喂料組吸取元件;3)貼片頭剩余元件數(shù)目不為0時(shí),且有待貼裝點(diǎn),強(qiáng)制移動(dòng)到待貼裝點(diǎn)貼裝;4)無待貼裝點(diǎn)時(shí),強(qiáng)制其返回其對應(yīng)的喂料組,流程結(jié)束。
53、在本發(fā)明一實(shí)施例中,步驟s6中,確定動(dòng)作選擇機(jī)制:
54、采用greedy方法作為動(dòng)作選擇策略智能體選擇動(dòng)作價(jià)值函數(shù),選擇q值最大所對應(yīng)的動(dòng)作。
55、在本發(fā)明一實(shí)施例中,步驟s7中,通過mac-ac算法進(jìn)行神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,獲取貼順序優(yōu)化結(jié)果:
56、使用參數(shù)θ,w與w-分別參數(shù)化編碼器與解碼器,評價(jià)網(wǎng)絡(luò)與目標(biāo)評論家網(wǎng)絡(luò)中所有可訓(xùn)練變量;advantage函數(shù),由計(jì)算得出,其中,聯(lián)合動(dòng)作價(jià)值函數(shù)qtot由近似,其中,γ為獎(jiǎng)勵(lì)折扣率,與分別由評價(jià)網(wǎng)絡(luò)與目標(biāo)評論家網(wǎng)絡(luò)近似,參數(shù)θi更新方式如下:評價(jià)網(wǎng)絡(luò)參數(shù)w采用td差分算法更新:為了訓(xùn)練更加穩(wěn)定,每隔t次復(fù)制評價(jià)網(wǎng)絡(luò)參數(shù)w用以更新目標(biāo)評論家網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)w-。在訓(xùn)練達(dá)到設(shè)定最大次數(shù)后,將訓(xùn)練過程中所得到的獎(jiǎng)勵(lì)最大的解決方案,視為問題的解。
57、本發(fā)明還提供了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的雙龍門貼片機(jī)取貼順序優(yōu)化系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)于存儲(chǔ)器上并能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如上述所述的方法步驟。
58、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有能夠被處理器運(yùn)行的計(jì)算機(jī)程序指令,當(dāng)處理器運(yùn)行該計(jì)算機(jī)程序指令時(shí),能夠?qū)崿F(xiàn)如上述所述的方法步驟。
59、相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明方法,區(qū)別于傳統(tǒng)啟發(fā)式算法“先分組后規(guī)劃”的求解思路,多智能體利用高層特征信息,通過通訊學(xué)習(xí)相互合作的動(dòng)作,從問題整體進(jìn)行規(guī)劃,提高求解質(zhì)量。