本發(fā)明屬于生產(chǎn)調(diào)度領(lǐng)域,具體的說(shuō)是一種考慮前視距離的相容工件族的優(yōu)化控制方法。
背景技術(shù):
隨著科學(xué)技術(shù)的發(fā)展,生產(chǎn)規(guī)模逐步擴(kuò)大,復(fù)雜性也越來(lái)越高,因此對(duì)生產(chǎn)過(guò)程的管理、監(jiān)控和決策的要求有所提高。生產(chǎn)調(diào)度是將優(yōu)先的資源分配給在一定時(shí)間內(nèi)的不同任務(wù)的決策過(guò)程,它需要在滿足各種系統(tǒng)約束的條件下使某個(gè)或某些性能指標(biāo)最優(yōu)。生產(chǎn)調(diào)度作為現(xiàn)代化生產(chǎn)作業(yè)中的核心內(nèi)容,對(duì)提高生產(chǎn)效率、提高生產(chǎn)資源的利用率、降低生產(chǎn)成本等具有重要的作用,因此生產(chǎn)調(diào)度在現(xiàn)實(shí)生產(chǎn)環(huán)境中有著廣泛應(yīng)用,如半導(dǎo)體芯片制造系統(tǒng),鋼鐵生產(chǎn),帶托盤的車床加工等。
傳統(tǒng)的調(diào)度方法都是針對(duì)確定性問(wèn)題,即把生產(chǎn)過(guò)程中的很多因素(如工件的到達(dá)時(shí)間,加工時(shí)間等)都當(dāng)成確定已知的來(lái)考慮,并基于此來(lái)制定調(diào)度方案。由于實(shí)際生產(chǎn)中含有很多隨機(jī)性的不確定因素,因此隨機(jī)調(diào)度問(wèn)題在近年來(lái)受到了廣泛的關(guān)注,相容工件族的隨機(jī)調(diào)度是其中很重要的一類。但是在現(xiàn)有的對(duì)隨機(jī)調(diào)度問(wèn)題進(jìn)行優(yōu)化控制的方法中,如一些啟發(fā)式規(guī)則和元啟發(fā)式規(guī)則,較少考慮到未來(lái)工件到達(dá)信息,不能針對(duì)未來(lái)工件的到達(dá)情況對(duì)調(diào)度方案做出及時(shí)調(diào)整,因此還存在著浪費(fèi)生產(chǎn)資源,生產(chǎn)率不夠高的缺點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明是為解決上述現(xiàn)有技術(shù)存在的不足之處,提出一種考慮前視距離的相容工件族的優(yōu)化控制方法,以期能在對(duì)相容工件族優(yōu)化控制時(shí)考慮未來(lái)工件到達(dá)信息,從而能提高生產(chǎn)系統(tǒng)的生產(chǎn)效率以及降低生產(chǎn)過(guò)程中的工件流失率。
本發(fā)明為解決技術(shù)問(wèn)題采用如下技術(shù)方案:
本發(fā)明一種考慮前視距離的相容工件族的優(yōu)化控制方法的特點(diǎn)是,所述優(yōu)化控制方法是應(yīng)用于由傳送帶上傳送的m種工件、自動(dòng)撿取裝置、m個(gè)緩沖庫(kù)、容量為k的批處理機(jī)和紅外線感知器所構(gòu)成的單機(jī)生產(chǎn)系統(tǒng)中;所述m種工件分別屬于m個(gè)不同的工件族,并對(duì)所述的m個(gè)工件族按加工率降序排序;任意第m個(gè)緩沖庫(kù)的容量記為nm,并用于存儲(chǔ)屬于第m個(gè)工件族的工件;假設(shè)所述第m個(gè)緩沖庫(kù)中存儲(chǔ)的工件數(shù)為nm,nm∈[0,nm];由m個(gè)緩沖庫(kù)中存儲(chǔ)的工件個(gè)數(shù)構(gòu)成所述單機(jī)生產(chǎn)系統(tǒng)的聯(lián)合狀態(tài)s=(n1,n2,…,nm,…,nm);m≥2;
所述紅外線感知器設(shè)置在傳送帶的末端,以所述紅外線感知器所在的位置為起點(diǎn),并以朝向傳送帶的一段傳送距離作為前視距離
定義選擇加工工件族動(dòng)作為
由所述前視距離
定義決策時(shí)刻為批處理機(jī)為空閑狀態(tài)且有工件到達(dá)緩沖庫(kù),或批處理機(jī)完成加工的時(shí)刻;
所述優(yōu)化控制方法是按如下步驟進(jìn)行:
步驟1、定義變量k,并初始化k=1;定義初始決策時(shí)刻為第k-1個(gè)決策時(shí)刻;
定義q值表中的元素為狀態(tài)-動(dòng)作對(duì)值,并初始化初始決策時(shí)刻的q值表;
步驟2、利用強(qiáng)化學(xué)習(xí)算法得到最優(yōu)q值表;
步驟2.1、定義計(jì)數(shù)器為g,并初始化g=1;定義最大學(xué)習(xí)次數(shù)為g;定義貪心概率ε;
步驟2.2、在第k-1個(gè)決策時(shí)刻,系統(tǒng)的聯(lián)合狀態(tài)為
產(chǎn)生一個(gè)隨機(jī)數(shù),若所述隨機(jī)數(shù)屬于(0,ε),則執(zhí)行所述最優(yōu)動(dòng)作,若所述隨機(jī)數(shù)屬于(ε,1),則執(zhí)行所述其他動(dòng)作,從而得到第k-1個(gè)決策時(shí)刻轉(zhuǎn)移到第k個(gè)決策時(shí)刻轉(zhuǎn)移樣本軌道
步驟2.3、利用式(1)計(jì)算第k-1個(gè)決策時(shí)刻轉(zhuǎn)移到第k個(gè)決策時(shí)刻過(guò)程中的即時(shí)代價(jià)rk-1,k:
式(1)中,
步驟2.4、利用式(2)對(duì)第k-1個(gè)決策時(shí)刻的狀態(tài)-動(dòng)作對(duì)值
式(2)中,α為學(xué)習(xí)步長(zhǎng);dk-1表示差分公式,并有:
式(3)中,v表示所述動(dòng)作空間d中的任一動(dòng)作;
步驟2.5、判斷g>g是否成立,若成立,表示學(xué)習(xí)結(jié)束,并得到最優(yōu)q值表;否則,令k+1賦值給k后,返回步驟2.2;
步驟3、在第k+g個(gè)決策時(shí)刻,系統(tǒng)的聯(lián)合狀態(tài)
步驟4、判斷第k+g個(gè)決策時(shí)刻的前視距離
步驟5、令k+g+1賦值給k+g,并返回步驟3。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
1.本發(fā)明用于加工相容工件族的單機(jī)生產(chǎn)系統(tǒng)中,通過(guò)控制前視距離來(lái)平衡工件的到達(dá)過(guò)程和工件的加工過(guò)程,而且還能通過(guò)選擇加工工件族動(dòng)作決定批處理機(jī)所加工的批的包含工件情況,以最小化工件的存儲(chǔ)代價(jià)和加工過(guò)程中的工件流失代價(jià)為優(yōu)化目標(biāo),通過(guò)紅外感知器獲取未來(lái)工件到達(dá)信息,以系統(tǒng)中各個(gè)緩沖庫(kù)中工件個(gè)數(shù)為聯(lián)合狀態(tài),紅外感知器的前視距離和加工工件族動(dòng)作為聯(lián)合動(dòng)作,采用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了對(duì)加工相容工件族的單機(jī)生產(chǎn)系統(tǒng)的優(yōu)化控制,從而有效地提高了生產(chǎn)效率,降低了工件的流失率,降低了庫(kù)存以及縮短了產(chǎn)品的制造周期。
2.本發(fā)明通過(guò)紅外感知器獲取未來(lái)工件到達(dá)信息,避免了因?yàn)椴豢紤]未來(lái)工件到達(dá)而帶來(lái)的誤加工或者誤等待,從而產(chǎn)生了不必要的庫(kù)存以及延長(zhǎng)產(chǎn)品的制造周期。因此,本發(fā)明能夠有效地平衡生產(chǎn)中的加工和等待過(guò)程。
3.本發(fā)明針對(duì)的是生產(chǎn)過(guò)程中生產(chǎn)信息為隨機(jī)的不確定因素,工件隨機(jī)到達(dá),批處理機(jī)加工完一批工件的時(shí)間也是隨機(jī)的,每個(gè)決策時(shí)刻,根據(jù)系統(tǒng)的實(shí)時(shí)狀態(tài)選擇相應(yīng)的動(dòng)作。因此,該發(fā)明相比以往的方法更貼近現(xiàn)實(shí)生產(chǎn)環(huán)境。
4.本發(fā)明采用強(qiáng)化學(xué)習(xí)算法,不需要模型的具體參數(shù),只需根據(jù)生產(chǎn)系統(tǒng)的實(shí)際生產(chǎn)過(guò)程進(jìn)行在線學(xué)習(xí),從而有效地實(shí)現(xiàn)了優(yōu)化控制。
附圖說(shuō)明
圖1為本發(fā)明方法流程圖;
圖2為本發(fā)明在線生產(chǎn)系統(tǒng)的示意圖。
具體實(shí)施方式
本實(shí)施例中,一種考慮前視距離的相容工件族的優(yōu)化控制方法,應(yīng)用于如圖2所示的由傳送帶上傳送的m種工件1、自動(dòng)撿取裝置2、m個(gè)緩沖庫(kù)3、容量為k的批處理機(jī)4和紅外線感知器5所構(gòu)成的單機(jī)生產(chǎn)系統(tǒng)中;生產(chǎn)系統(tǒng)中m種工件2沿著傳送帶隨機(jī)到達(dá),當(dāng)有工件到達(dá)撿取線時(shí),自動(dòng)撿取裝置2將該工件撿取放入3中相應(yīng)緩沖庫(kù),該撿取過(guò)程的時(shí)間不考慮。m種工件分別屬于m個(gè)不同的相容工件族,并對(duì)這m個(gè)工件族按加工率降序排序,相容工件族是指屬于不同族的工件能在同一批中進(jìn)行加工;任意第m個(gè)緩沖庫(kù)的容量記為nm,并用于存儲(chǔ)屬于第m個(gè)工件族的工件;假設(shè)第m個(gè)緩沖庫(kù)中存儲(chǔ)的工件數(shù)為nm,nm∈[0,nm];由m個(gè)緩沖庫(kù)中存儲(chǔ)的工件個(gè)數(shù)構(gòu)成該單機(jī)生產(chǎn)系統(tǒng)的聯(lián)合狀態(tài)s=(n1,n2,…,nm,…,nm);m≥2;所有可取的狀態(tài)構(gòu)成了狀態(tài)空間,系統(tǒng)總的狀態(tài)數(shù)為a。容量為k的批處理機(jī)4表示該處理機(jī)能夠同時(shí)加工上限為k個(gè)的工件,且屬于每個(gè)族的工件都只占用一個(gè)單位容量,批處理機(jī)4加工完一批工件的時(shí)間是隨機(jī)的。
紅外線感知器5設(shè)置在傳送帶的末端,以紅外線感知器5所在的位置為起點(diǎn),并以朝向傳送帶的一段傳送距離作為前視距離
定義選擇加工工件族動(dòng)作為
由前視距離
定義決策時(shí)刻為批處理機(jī)4為空閑狀態(tài)且有工件到達(dá)緩沖庫(kù),或批處理機(jī)4完成加工的時(shí)刻;
因此這種考慮前視距離的相容工件族的優(yōu)化控制方法,如圖1所示,是按如下步驟進(jìn)行:
步驟1、定義變量k,并定義初始決策時(shí)刻為第k-1個(gè)決策時(shí)刻;
定義q值表中的元素為狀態(tài)-動(dòng)作對(duì)值,即以系統(tǒng)的狀態(tài)為q值表的行,以系統(tǒng)的動(dòng)作為q值表的列,
步驟2、利用強(qiáng)化學(xué)習(xí)算法得到最優(yōu)q值表;
步驟2.1、定義計(jì)數(shù)器為g,并初始化g=1;定義最大學(xué)習(xí)次數(shù)為g;定義貪心概率ε;
步驟2.2、在第k-1個(gè)決策時(shí)刻,系統(tǒng)的聯(lián)合狀態(tài)為
產(chǎn)生一個(gè)隨機(jī)數(shù),若隨機(jī)數(shù)屬于(0,ε),則執(zhí)行最優(yōu)動(dòng)作,若隨機(jī)數(shù)屬于(ε,1),則執(zhí)行其他動(dòng)作,從而得到第k-1個(gè)決策時(shí)刻轉(zhuǎn)移到第k個(gè)決策時(shí)刻轉(zhuǎn)移樣本軌道
步驟2.3、利用式(1)計(jì)算第k-1個(gè)決策時(shí)刻轉(zhuǎn)移到第k個(gè)決策時(shí)刻過(guò)程中的即時(shí)代價(jià)rk-1,k:
式(1)中,
步驟2.4、利用式(2)對(duì)第k-1個(gè)決策時(shí)刻的狀態(tài)-動(dòng)作對(duì)值
式(2)中,α為學(xué)習(xí)步長(zhǎng),一般取0<α<1保證算法的收斂性;dk-1表示差分公式,并有:
式(3)中,v表示動(dòng)作空間d中的任一動(dòng)作;
步驟2.5、判斷g>g是否成立,若成立,表示學(xué)習(xí)結(jié)束,并得到最優(yōu)q值表;否則,令k+1賦值給k后,返回步驟2.2。
步驟3、在第k+g個(gè)決策時(shí)刻,通過(guò)傳感器等設(shè)備獲得緩沖庫(kù)3中各個(gè)緩沖庫(kù)的工件個(gè)數(shù),獲得聯(lián)合狀態(tài)
步驟4、通過(guò)紅外感知器5前視并判斷第k+g個(gè)決策時(shí)刻的前視距離
步驟5、令k+g+1賦值給k+g,并返回步驟3。