Decentralized Holistic Production Scheduling with Multi-Agend Deep Reinforcement Learning
Erscheinungsdatum: 09.01.2024
Reihe: 01
Band Nummer: 455
Autor: M. Sc. Jens Popper
Ort: Stuttgart
ISBN: 978-3-18-345501-0
ISSN: 0178-949X
Erscheinungsjahr: 2023
Anzahl Seiten: 144
Anzahl Abbildungen: 44
Anzahl Tabellen: 29
Produktart: Buch (paperback, DINA5)
Produktbeschreibung
Die steigende Nachfrage nach individuellen und komplexen Produkten stellt Fertigungsunternehmen vor neue Herausforderungen. Matrixproduktionssysteme bieten Flexibilität durch die Lösung der Intralogistik vom Produktionstakt und starke Kapselung der Fertigungsmechanismen, stellen jedoch einen erhöhten Steuerungsaufwand dar. Eine der Hauptaufgaben in der Produktionssteuerung ist die Verteilung von Produktionsaufträgen auf Maschinen in einer bestimmten Reihenfolge und zu bestimmten Zeiten. Reinforcement Learning (RL) und Multi-Agenten Systeme werden als vielversprechende Konzepte zur Optimierung solch komplexer Systeme angesehen. Die Arbeit konzentriert sich auf die Modellierung, Erstellung und Implementierung eines holonischen dezentralen Agentensystems, das ein Bieterverfahren zur Steuerung von Produktionseinheiten nutzt. Das System wird für verschiedene betriebswirtschaftliche und nachhaltige Optimierungsziele in einem exemplarischen Matrix-Produktionssystem getestet und mit gängigen Planungsheuristiken verglichen. Es zeigt sich, dass durch die ganzheitliche, simultane Steuerung aller Produktionsteilnehmer mittels RL-Agenten bessere Ergebnisse erzielt werden können als mit herkömmlichen Methoden. Die Forschung leistet somit einen Beitrag zur Optimierung und Steuerung zukünftiger Produktionssysteme und betont den selbstlernenden Aspekt von RL als zentralen Befähiger für autonome Produktion.
List of Contents
I List of abbreviations………………………………………………………………………………………… VIII
II List of symbols………………………………………………………………………………………………….. X
III Abstract………………………………………………………………………………………………………… XII
IV Kurzfassung………………………………………………………………………………………………….. XIII
1 Introduction ………………………………………………………………………………………………… 1
1.1 Motivation………………………………………………………………………………………………….. 1
1.2 Problem statement ……………………………………………………………………………………… 2
1.3 Research question ……………………………………………………………………………………….. 3
1.4 Structure of the thesis………………………………………………………………………………….. 4
2 Foundations ………………………………………………………………………………………………… 5
2.1 Production Scheduling …………………………………………………………………………………. 5
2.1.1 Foundations Flexible Job Shop Scheduling…………………………………………………… 8
2.1.2 Set-up and transport times ……………………………………………………………………….. 9
2.1.3 Dilemma of contradicting objectives…………………………………………………………… 9
2.1.4 Priority Rules …………………………………………………………………………………………. 10
2.2 Deep reinforcement learning ………………………………………………………………………. 12
2.2.1 Markov decision problems ………………………………………………………………………. 12
2.2.2 Foundations of reinforcement learning …………………………………………………….. 13
2.2.3 Model Free Methods………………………………………………………………………………. 15
2.2.4 Foundations of Deep Learning …………………………………………………………………. 17
2.3 Multi-agent Systems…………………………………………………………………………………… 21
2.3.1 Agent architecture and organisation…………………………………………………………. 22
2.3.2 Cooperative multi-agent Markov processes ………………………………………………. 24
2.3.3 Multi-agent Coordination………………………………………………………………………… 26
2.4 Summary ………………………………………………………………………………………………….. 29
3 State of the art …………………………………………………………………………………………….31
3.1 Job Shop Scheduling…………………………………………………………………………………… 31
3.1.1 Decentralized Job Shop Scheduling…………………………………………………………… 32
3.1.2 Centralized Job Shop Scheduling………………………………………………………………. 40
3.2 Deep reinforcement learning ………………………………………………………………………. 45
3.2.1 Q Learning Methods ………………………………………………………………………………..45
3.2.2 Policy Gradient Methods ………………………………………………………………………….46
3.3 Research Gap……………………………………………………………………………………………..51
4 Main Contribution………………………………………………………………………………………..53
4.1 Proposed planning system……………………………………………………………………………53
4.1.1 Relation to the research questions…………………………………………………………….53
4.1.2 Planning system components……………………………………………………………………54
4.2 Multi-agent system setup…………………………………………………………………………….56
4.2.1 Holonic manufacturing structure……………………………………………………………….57
4.2.2 Information model of manufacturing assets ……………………………………………….59
4.2.3 Process flow of the production system ………………………………………………………60
4.2.4 Planning interaction design ………………………………………………………………………63
4.2.5 Agent behaviour definition……………………………………………………………………….67
4.3 Reinforcement learning integration ………………………………………………………………71
4.3.1 Representation of the action space……………………………………………………………72
4.3.2 Presentation of the state and observation………………………………………………….73
4.3.3 Global reward function…………………………………………………………………………….74
4.3.4 Utilized Learning Algorithm ………………………………………………………………………77
4.4 Concept summary……………………………………………………………………………………….80
5 Prototype implementation…………………………………………………………………………….82
5.1 Implementation of a production simulation …………………………………………………..82
5.2 Implementation ………………………………………………………………………………………….84
5.3 Test scenario and target variables…………………………………………………………………85
5.3.1 Explanation of the evaluation criteria ………………………………………………………..87
5.3.2 Computational Benchmarks ……………………………………………………………………..87
6 Results and Evaluation ………………………………………………………………………………….89
6.1 Testing instances and reference results …………………………………………………………89
6.2 Parameters ………………………………………………………………………………………………..94
6.3 Results of the method …………………………………………………………………………………97
6.4 Comparison and Evaluation………………………………………………………………………..105
7 Discussion and outlook ……………………………………………………………………………….113
7.1 Discussion ………………………………………………………………………………………………..113
7.2 Outlook and further developments……………………………………………………………..114
8 Conclusion…………………………………………………………………………………………………117
9 Literature ………………………………………………………………………………………………….118
Keywords: Multi-Agenten-System, Produktionsplanung, KI, dezentralisierte Planung, ganzheitliche Planung, Transport Planung, Produktionssimulation, Deep Reinforcement Learning, Multi-Agent Systems, Production Scheduling, Artificial Intelligence, Decentralized planning, Holistic planning, Deep Learning, Transport scheduling, Production simulation
* Der VDI-Mitgliedsrabatt gilt nur für Privatpersonen