Kooperatives Multiagent Reinforcement Learning mit zentralisiertem Deep Q-Learning

Abstract

Im Multiagent Reinforcement Learning (MARL) wird eine effektive Integration von Methoden des Reinforcement Learning (RL) und Multiagentensystemen (MAS) angestrebt. Mithilfe einer Menge adaptiver und lernender Agenten in einem verteilten intelligenten System sollen komplexe Probleme modelliert und gelöst werden. Durch die Verteilung der Autonomie und Lernfähigkeit auf mehrere Agenten, deren Interessen und Ziele voneinander divergieren können, nimmt die Gesamtkomplexität von MAS zu. In dieser Arbeit wird MARL ausgehend von Single-Agent Reinforcement Learning (SARL) konzeptionell beschrieben. Anschließend werden Eigenschaften des Lernens mehrerer Agenten zur kooperativen Lösung einer gemeinsamen Aufgabe an einem vorimplementierten Modell qualitativ herausgearbeitet. Insbesondere werden betrachtet (i) die ungleiche Verteilung von Rewards auf Agenten, (ii) die Zustandsrepräsentation im Sinne des Lernens mehrerer Agenten, (iii) die geeignete Verwendung von Endzuständen zur Vermeidung von Exploits durch Agenten. Die Ergebnisse zeigen (i) Für eine gleichmäßige Aktivitätsverteilung der Agenten eines MAS ist eine Belohnungsstruktur notwendig, die jedem Agenten einen Reward gibt, welcher proportional zu seinem Beitrag zum Gesamtfortschritt der Agenten ist – da sonst einzelne Agenten trotz Inaktivität belohnt werden können. (ii) Die Zustandsrepräsentation, anhand welcher optimales Verhalten gelernt werden soll, muss Eigenschaften der Umgebung, die für die Koor- dinationsfähigkeit der Agenten wichtig sind, geeignet zusammenfassen, damit ein solches Koordinationsverhalten gelernt werden kann. (iii) Die gezielte Verwendung von Endzuständen kann verhindern, dass mehrere Agenten lernen, in einer unerwünschten Schleife ihre Rewards zu maximieren, ohne das gegebene Problem zu lösen.