本發(fā)明涉及車間調度控制領域,具體涉及一種基于分層強化學習的試劑盒生產車間調度方法及系統(tǒng)。
背景技術:
1、制造業(yè)作為現(xiàn)代經(jīng)濟的重要組成部分,在全球范圍內扮演著關鍵角色。生產調度作為制造業(yè)中一個至關重要的環(huán)節(jié),它影響著生產效率、產品質量以及企業(yè)競爭力。隨著需求市場的變化,消費者對個性化、差異化的追求越來越強烈,使得制造企業(yè)的生產訂單越來越向小批量、多品種的方向發(fā)展。數(shù)字技術與制造業(yè)的融合發(fā)展,數(shù)字化轉型已成為推進制造業(yè)高質量發(fā)展、加快推進新型工業(yè)化發(fā)展的重要突破口。在調度及相關學科的支持下,制造業(yè)基本完成了現(xiàn)代化轉型升級,正在向著數(shù)字化、網(wǎng)絡化、智能化的目標不斷前進。
2、以汽車流水生產線為例,通過對裝配過程進行合理分工,可以極大地提升工廠的生產效率。整個汽車生產流程由最初的傳統(tǒng)全能型員工流程轉變?yōu)椴捎脗魉蛶Ч牧魉€生產模式,使汽車的組裝耗時縮短50%,開創(chuàng)了新的、高效的汽車制造流程。因此,車間調度在智能制造中占據(jù)了重要地位,具有廣闊的應用場景,能夠有效提升企業(yè)生產效率,降低成本。
3、盡管制造業(yè)已經(jīng)實現(xiàn)了現(xiàn)代化和數(shù)字化的轉型,但現(xiàn)有技術仍然面臨挑戰(zhàn)。例如,注塑設備在生產醫(yī)用檢測試劑盒的過程中,由于機械部件磨損、加熱系統(tǒng)老化或模具磨損變形等問題,可能導致注塑質量不穩(wěn)定,影響生產效率。此外,訂單驅動的生產模式要求企業(yè)必須在滿足客戶多樣化需求的同時,管理好生產周期,以避免違約金和額外的倉儲成本。劣化積累過多的注塑設備會導致生產時間延長,影響生產調度目標的實現(xiàn)。傳統(tǒng)的調度方法和元啟發(fā)式方法在應對動態(tài)事件和實時調度方面存在局限性,無法有效響應生產過程中的實時變化和劣化問題。因此,需要更先進的調度方法來優(yōu)化生產流程,減少成本,并提高生產效率。
技術實現(xiàn)思路
1、本發(fā)明提出了一種基于分層強化學習的試劑盒生產車間調度方法及系統(tǒng),解決了現(xiàn)有的試劑盒生產車間的調度方法無法及時響應生產過程中的實時變化和設備劣化的問題。
2、為解決上述技術問題,本發(fā)明提供了一種基于分層強化學習的試劑盒生產車間調度方法,包括以下步驟:
3、建立包括最小化完工時間和最小化提前延遲總成本的上層優(yōu)化模型;所述上層優(yōu)化模型根據(jù)當前生產進度和設備狀態(tài),選擇一個優(yōu)化目標作為下層優(yōu)化模型的臨時優(yōu)化目標;所述下層優(yōu)化模型根據(jù)上層優(yōu)化模型選擇的臨時優(yōu)化目標,選擇下一階段需要進行注塑的試劑盒和注塑設備;對所述上層優(yōu)化模型和下層優(yōu)化模型求解,實現(xiàn)試劑盒的生產車間的調度。
4、優(yōu)選地,所述上層優(yōu)化模型的目標函數(shù)的表達式為:
5、;
6、;
7、上式中,、分別為提前和延遲的總成本、所有生物檢測試劑盒的最大完成時間;為生物檢測試劑盒上所有零部件全部注塑完成的時間;為生物檢測試劑盒的截止日期;為所有生物檢測試劑盒提前和延遲注塑完成的懲罰系數(shù)。
8、優(yōu)選地,對所述上層優(yōu)化模型和下層優(yōu)化模型求解時,還設置了約束條件,所述約束條件包括:
9、(1)零部件之間的處理順序約束:
10、;
11、式中,為零部件開始注塑的時間;為零部件實際的注塑時間;
12、(2)同一生物檢測試劑盒的各零部件之間的注塑順序約束:
13、;
14、式中,為決策變量,當零部件已被注塑設備注塑時,否則為0;
15、(3)每個生物檢測試劑盒中,第一個零部件的開始時間約束和最后一個零部件的完成時間約束:
16、;
17、;
18、式中,為生物檢測試劑盒的第一個零部件的開始時間;為生物檢測試劑盒上所有零部件全部注塑完成的時間;
19、(4)生物檢測試劑盒與注塑設備之間的關系約束:
20、;
21、式中,為零部件的可選注塑設備集合;為決策變量,當零部件可以被注塑設備注塑時,,否則為0;為決策變量,當零部件被安排在注塑設備上注塑時,否則為0;
22、(5)生物檢測試劑盒的零部件的實際處理時間約束:
23、;
24、(6)同一臺注塑設備上安排的零部件之間的注塑順序約束:
25、;
26、式中,、,其中為安排在注塑設備上注塑的第 o個生物檢測試劑盒零部件的組合。
27、優(yōu)選地,采用強化學習方法對所述上層優(yōu)化模型和下層優(yōu)化模型求解,包括以下步驟:
28、步驟s1:初始化上層優(yōu)化模型和下層優(yōu)化模型的經(jīng)驗回放池、在線網(wǎng)絡和目標網(wǎng)絡;
29、步驟s2:初始化當前實例,初始化上層優(yōu)化模型和下層優(yōu)化模型的狀態(tài);
30、步驟s3:將上層優(yōu)化模型的狀態(tài)輸入到上層神經(jīng)網(wǎng)絡,選擇一個目標作為下層優(yōu)化模型的臨時優(yōu)化目標;將下層優(yōu)化模型的狀態(tài)和臨時優(yōu)化目標輸入到下層神經(jīng)網(wǎng)絡,選擇下層動作;
31、步驟s4:執(zhí)行選擇的下層動作,更新上層狀態(tài)和下層狀態(tài),并獲取全局獎勵;
32、步驟s5:更新上層優(yōu)化模型和下層優(yōu)化模型的經(jīng)驗回放池,判斷所述經(jīng)驗回放池的容量是否查過設定的容量閾值,若超過則執(zhí)行步驟s6,若未超過則執(zhí)行步驟s7;
33、步驟s6:判斷上層經(jīng)驗回放池和下層經(jīng)驗回放池的容量是否超過設定的最大容量閾值,若超過所述最大容量閾值則對上層經(jīng)驗回放池和下層經(jīng)驗回放池進行更新;
34、步驟s7:判斷當前迭代次數(shù)是否達到設定的最大迭代次數(shù),若未達到則返回步驟s2,否則輸出生產車間的調度決策。
35、優(yōu)選地,對于上層經(jīng)驗回放池和下層經(jīng)驗回放池,步驟s6包括以下步驟:
36、步驟s61:計算經(jīng)驗回放池中每個經(jīng)驗被抽樣的概率,通過基于概率的優(yōu)先級經(jīng)驗回放從經(jīng)驗回放池中抽取一個大小為最大容量閾值的子集,計算所述子集的損失函數(shù)的權重:
37、;
38、式中,為子集的損失函數(shù)的權重;為最大容量閾值;代表抽樣權重系數(shù);為第 i個經(jīng)驗被抽樣的概率;表示取最大的值;
39、步驟s62:計算當前目標q值如下:
40、;
41、式中,為第 i個經(jīng)驗的獎勵;為折扣系數(shù);、分別為在線網(wǎng)絡和目標網(wǎng)絡;為第 i+1個經(jīng)驗的狀態(tài);為使q值最大的;為當前的求解目標;、分別為在線網(wǎng)絡和目標網(wǎng)絡的權重;
42、步驟s63:使用均方損失函數(shù)計算優(yōu)化模型的損失,采用梯度下降和反向傳播算法更新網(wǎng)絡參數(shù),計算所述均方損失函數(shù)的表達式為:
43、;
44、步驟s64:計算所有經(jīng)驗的時序差分誤差td?error,利用時序差分誤差更新每個樣本被抽樣的概率,計算所述時序差分誤差的表達式為:
45、;
46、更新每個樣本被抽樣的概率為:
47、;
48、步驟s65:重復執(zhí)行步驟s61至步驟s64,直到達到設定的最大迭代次數(shù)。
49、優(yōu)選地,所述上層狀態(tài)包括:當前試劑盒數(shù)量和注塑設備數(shù)量之間的比率、平均注塑設備利用率、注塑設備利用率的方差、試劑盒處理進度的平均值、試劑盒注塑進度的方差、時間提前延遲率和時間提前延遲率的方差;
50、計算所述平均注塑設備利用率的表達式為:
51、;
52、式中,為決策變量,當零部件已被注塑設備注塑時,否則為0;為零部件的所有可用注塑設備的初始注塑時間的平均值;為所有生物檢測試劑盒的最大完成時間;為注塑設備總數(shù);
53、計算所述注塑設備利用率的方差的表達式為:
54、;
55、;
56、式中,為注塑設備的總注塑時間;
57、計算所述試劑盒處理進度的平均值的表達式為:
58、;
59、;
60、式中,為試劑盒處理進度; n為生物檢測試劑盒總數(shù);為生物檢測試劑盒當前處理的零部件的序號;為生物檢測試劑盒 i的零部件總數(shù);
61、計算所述試劑盒注塑進度的方差的表達式為:
62、;
63、計算所述時間提前延遲率的表達式為:
64、;
65、式中,為生物檢測試劑盒的最后一個零部件的完成時刻;為所有注塑設備完成生物檢測試劑盒注塑任務的時刻的平均值;為生物檢測試劑盒的截止日期;為生物檢測試劑盒的總完成時間;為生物檢測試劑盒的所有零部件的初始注塑時間的平均值之和。
66、優(yōu)選地,獲取所述下層優(yōu)化模型的狀態(tài)包括以下步驟:
67、步驟s21:獲取生物檢測試劑盒和注塑設備的狀態(tài)信息,通過自適應矩陣填充機制將生物檢測試劑盒和注塑設備的狀態(tài)信息調整到統(tǒng)一的大?。?/p>
68、步驟s22:采用注意力機制分別對填充后的生物檢測試劑盒和注塑設備的狀態(tài)進行特征提取;
69、步驟s23:通過重要性機制對提取的特征進行分類和過濾,生成兩個特征向量,一個代表生物檢測試劑盒的重要特征,另一個代表注塑設備的重要特征,將這兩個特征向量作為下層優(yōu)化模型的狀態(tài)。
70、本發(fā)明還提供了一種基于分層強化學習的試劑盒生產車間調度系統(tǒng),基于上述的一種基于分層強化學習的試劑盒生產車間調度方法實現(xiàn),包括短期優(yōu)化目標決策模塊、生產車間調度模塊和實時監(jiān)測模塊;
71、所述短期優(yōu)化目標決策模塊:根據(jù)當前的生產進度和設備狀態(tài),決定短期生產優(yōu)化目標;
72、所述生產車間調度模塊:根據(jù)臨時優(yōu)化目標決策模塊輸出的短期生產優(yōu)化目標,執(zhí)行生產調度任務;
73、所述實時監(jiān)測模塊:收集生產線上的實時數(shù)據(jù),監(jiān)測生產線的運行狀態(tài),確保生產過程按照計劃進行。
74、優(yōu)選地,所述生產車間調度模塊將生產調度任務建模為馬爾科夫決策過程mdp。
75、優(yōu)選地,所述生產車間調度模塊采用基于雙價值網(wǎng)絡的強化學習方法對短期生產優(yōu)化目標進行求解,執(zhí)行生產調度任務。
76、本發(fā)明的有益之處至少包括:
77、1、能夠同時考慮多個優(yōu)化目標,如完工時間和提前延遲成本,提供了更全面和平衡的生產調度方案,并且可以根據(jù)實時的生產進度和設備狀態(tài)動態(tài)調整優(yōu)化目標,提高了調度計劃的適應性和靈活性;
78、2、通過優(yōu)化生產流程,可以減少等待時間和設備空閑時間,提高生產效率,通過減少提前交付和延遲交付的訂單,可以降低因違反交貨時間導致的罰款成本;這樣可以更合理地分配注塑任務至不同設備,避免設備過載或空閑,提升設備利用率。