當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

智能车间调度综述

發布時間：2023/12/14 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了智能车间调度综述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

參考：《基于強化學習的智能車間調度策略研究綜述》

車間調度問題：車間調度問題是指如何在機器等資源有限的情況下，合理調度生產資源來安排車間生產任務，以滿足一至多個優化目標的過程。

求解方法：數學規劃，智能算法，強化學習

強化學習能應對環境不確定性，適合大規模問題

車間調度問題分類：

作業車間，流水車間，加工車間

靜態車間：生產信息已知且生產環境確定

動態車間：生產環境不確定（機器故障，緊急插單）

1.作業車間調度

作業車間調度問題：一個加工系統有 M 臺機器，要求加工 N 個工件，其中，每個工件完工都需要經過一定的工序加工。各工序的加工時間已確定，并且每個工件必須按照工序的先后順序加工，工件所有工序只有唯一的加工機器。調度任務是安排所有作業的加工順序，在滿足約束條件的同時，使性能指標得到優化。

柔性作業車間調度：作業車間調度+工序加工資源柔性（一道工序有多臺機器可供選擇），包括機器分配和機器上作業分配

1.1靜態調度

單智能體

（1）柔性作業車間調度分解成機器分配子問題和機器上作業分配子問題

（2）雙資源約束的柔性作業車間，考慮分配機器和工人資源，最小化最大完工時間

多智能體

（3）多智能體深度強化學習解決并行不相關機器的作業車間調度，以最小化托期時間和最大化完工時間為優化目標，實驗結果表明，其在大規模問題上的性能要比混合整數線性規劃算法更有優勢。

（2）將柔性作業車間分成兩個子問題，訓練兩個DQN智能體

?算法融合（強化學習收斂速度慢，易陷入局部最優）

（1）協同邊緣計算框架，DQN，遷移學習，實驗結果表明，該方法在不同參數規模下都比傳統方法具有更好的收斂效果

（2）基于析取圖的DRL框架，優先經驗的D3QN，實驗證明，針對小規模問題，該算法能夠獲得最優解；對于大規模問題，其性能優于任何單一的啟發式規則，且與遺傳算法相當。

（3）K均值聚類和Q學習解決作業車間調度，所提算法的性能優于一些基于最短加工時間規則和最大作業剩余時間規則的啟發式算法。

（3）結合Q learning和Sarsa改進遺傳算法，實驗結果表明，所提算法的性能優于一些基于最短加工時間規則和最大作業剩余時間規則的啟發式算法。

AC強化學習

（1）卷積層和全連接層的AC網絡，異步更新和DDPG的并行訓練算法，針對靜態調度環境，該方法比傳統啟發式算法性能更好，同時也能推廣到動態調度環境中應用。

（2）圖神經網絡和PPO算法，實驗表明，所提出的框架在訓練得到模型后，無須進一步訓練即可應用于新的作業車間調度問題中，大大節省了重新訓練所需的時間。

（3）生產成本和能源成本，利用多智能體 PPO 算法來解決該問題，其中每個智能體都代表一臺機器且必須處理一定數量的作業。

1.2動態調度

機器故障

（1）機器故障時，Q智能體能同時選擇該處理的工序及替代機器，故障前初始方案由遺傳算法獲得，減殺動態環境下的作業延遲時間，實驗結果表明，與單一調度規則相比，所提方案能夠減少頻繁動態環境中的作業延遲時間。

（2）多智能體DQN，每個產品設置成一個智能體，共用經驗回放池

作業隨機到達

（1）雙循環DQN（探索+利用）

（2）DQN+最小化作業延誤時間，該方案比兩個啟發式調度規則：最短處理時間和最早到期日更有效。

（3）過早完工的庫存壓力和延期完工的客戶滿意度，多智能體動態調度系統模型，機器，緩沖區，狀態，作業設為智能體，加權Qlearning確定加工順序，動態貪婪搜索策略

新作業插入

（1）減少作業延誤的成本，DQN，重調度點狀態

（2）雙層DQN在線重調度框架，上層 DQN 用來控制下層 DQN 的臨時優化目標，在每個重調度點，它將當前狀態特征作為輸入，并根據優化目標來指導下層 DQN 的行為。下層 DQN 將狀態特征和從上層 DQN傳遞的優化目標作為輸入，將每個調度規則的 Q 值作為輸出。基于該 Q 值，可選擇每個重調度點上最可行的調度規則。

機器故障和作業隨機到達

（1）可變領域搜索，最小化完工時間，使用Qlearning在重調度點更新參數，實驗結果表明，該方案比傳統啟發式調度規則更有效。

作業隨機到達和產品隨機到達

（1）減少庫存提前完工的庫存壓力，多智能體Qleaning，將每個產品設為智能體并能夠根據實時信息在每個生產步驟選擇機器。與標準調度規則的比較表明，該方案具有更好的性能。

AC強化學習（解決動態作業車間處于初步探索階段）

（1）機器故障，工件返工，PPO，最小化完工時間，將狀態定義為三個矩陣，分別為作業處理狀態矩陣、機器指定矩陣和工序的處理時間矩陣，所提方案的性能優于傳統啟發式規則以及遺傳算法，且在一定程度上可以實現自適應調度。

?2.流水車間調度

流水車間調度問題：N 個工件要在 M 臺機器上加工，每個工件需要經過 M 道工序，N 個工件在 M 臺機器上的加工順序相同。工件在機器上的加工時間給定，要求確定每個工件在每臺機器上的最優加工順序

柔性流水車間調度問題（混合流水車間調度）：流水車間調度+工序加工資源柔性

置換流水車間調度問題：規定 N 個工件的加工順序對所有 M 臺機器均相同

非置換流水車間調度問題：允許在不同機器上工件的加工順序改變

無等待流水車間調度問題：每臺機器加工任意兩相鄰工件時沒有空閑時間

兩階段流水車間調度問題：產品的生產主要包括兩個階段：加工階段和裝配階段，在每個階段都要經過多臺機器加工，該問題即為兩階段流水車間調度問題。

2.1靜態調度

值函數強化學習

（1）Qlearning解決柔性流水車間，波爾茲曼探索和利用，在確保復雜度相同的情況下，該算法的性能優于遺傳算法，且該算法的收斂速度比人工免疫算法更快

（2）自適應Q學習算法，解決序列相關生產時間，機器初始化準備時間的置換流水車間調度，狀態定義為作業優先級，動作定義為更改作業優先級

（3）Q學習算法，狀態定義為作業序列，動作定義為可選擇的工作，相較于其他智能算法以及啟發式規則，Q 學習算法的尋優能力更好。

（4）深度時間差分網絡解決非置換流水車間調度，實驗證明，相較于群智能算法，該算法的性能更優。

AGV（柔性搬運系統）

（1）Q學習算法解決流水車間中AGV的調度問題，總完工時間最小化為優化目標，AGV作為智能體在問題規模較大的情況下，該算法的性能優于多智能體算法。

（2）兩個機器人的流水車間調度，double Q learning，一個機器人負責最小化機器空閑時間，而另一個則負責最小化作業等待時間，為驗證算法性能，用快速、中速以及慢速機器人進行仿真實驗，結果表明，兩個快速機器人之間的完全協作能夠取得最佳效果

算法融合

（1）Q learning 自主調整ATCS（考慮準備時間的直觀延誤成本）規則中的K1和K2，K值能將平均延遲降低5%

（2）置換流水車間調度，啟發式算法生成作業初始排序，結合自適應Q學習算法及局部搜索算法，將該算法與包括粒子群算法在內的 8 種其他算法進行比較，結果表明，所提方案能在較短時間內得到更高質量的解。

（3）深度強化學習訓練模型獲得初始調度接，反饋機制的迭代貪婪算法優化初始解

（4）可變領域搜索算法解決無空閑流水車間調度問題，Q學習算法自適應調節可變領域搜索算法的參數該算法的性能優于傳統迭代貪婪算法。

AC強化學習（研究較少）

（1）PPO算法解決具有相同并行機的混合流水車間調度，最小化最大完工時間為優化目標，在晶片酸洗實例上，該算法的性能優于遺傳算法。

（2）置換流水車間調度，異構網絡深度強化學習（長短期內存網絡LSTM和注意力網絡），該模型在較小規模問題上的性能優于傳統啟發式算法和其他相同結構的深度強化學習模型。

2.2動態調度

值函數強化學習（起步階段）

（1）DRL解決考慮新作業到達的動態置換流水車間調度，A2C算法，該方案在解決方案質量、CPU 計算時間以及泛化能力等方面都明顯優于傳統元啟發式算法

（2）DDQN解決新作業到達的動態置換流水車間調度，其效果優于一些經典的調度規則

（3）多智能體Q學習，每個機器為智能體

AC強化學習（1）

（1）PPO解決動態兩階段裝配流水車間調度，最小化總延遲，無論規模大小，總是優于單一調度規則

總結

（1）解決方案落地化。目前利用強化學習方法來解決車間調度問題的研究還處于不成熟階段，大多數還停留在理論研究層面。由于生產調度是企業生產運營的關鍵環節，要提高生產效率還需要將算法運用到實際生產系統中。信息技術和運營技術融合是從理論轉換成系統，從知識轉換成生產力的必然趨勢。因此，生產調度問題還需要從實際系統部署層面進行更深一步的研究。

（2）多目標車間調度。目前的研究成果在解決車間調度題時，所要優化的目標基本都是最大完工時間最小化，過于單一。企業的實際需求還需要考慮到節能減排、訂單延誤、庫存壓力等問題。因此，未來在對車間調度問題的研究中，可以考慮更傾向于多目標優化。

（3）采用混合算法。單一智能算法解決車間調度問題已經不能滿足其多樣性需求，因此混合算法成為解決該問題的新寵，其可以彌補單一算法存在的局限性。目前已有一些學者結合強化學習算法和遺傳算法來解決車間調度問題，并取得了一定的成效。未來可以考慮結合其他領域算法，如機器學習算法、博弈論等。

（4）考慮工人因素。目前的研究僅局限于優化機器資源，事實上機器需要由工人來操作，工人資源的分配也會對生產效率產生極大影響。因此，未來需要考慮機器與工人雙資源約束的車間調度問題。

（5）基于強化學習算法的改進。強化學習算法以試錯的方式進行學習，如果無法平衡其探索和利用，就極易陷入局部最優解。在未來，應設計出更好的探索和利用方案。此外，大多研究者傾向于應用 Q 學習，DQN 等傳統強化學習算法來解決車間調度問題。當前，已設計出了很多其他性能更優的算法。因此，研究者可以嘗試將新算法應用于車間調度問題。

動態車間調度

總結

以上是生活随笔為你收集整理的智能车间调度综述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：金蝶k3单据编码规则_金蝶k3物料编码规
下一篇：吉林教育杂志吉林教育杂志社吉林教育编辑部