Evaluation der Performanz von Algorithmen im Reinforcement Learning

Abstract

Verglichen werden die drei Reinforment Lernening Verfahren Cross-Entropy-Method, REINFORCE und Advantage Actor Critic. Für die beiden Environments CartPole und Breakout sollen Policys erlernt werden und an Hand der Returns dieser Policys werden die Verfahren miteinander verglichen. In CartPole konnten CEM und A2C mit GAE konstant sehr schnell das Maximum erreichen, in der Regel benötigten beide Verfahren nur 10 - 50 Episoden. Das Verfahren REINFORCE war hingegen sehr instabil. Für das Spiel Breakout konnte keines der Verfahren eine gute Policy erlernen. Die Verfahren REINFORCE, A2C mit one-Step Return und A2C mit GAE konnten im Durchschnitt nur einen Return von 1.6, 2.1 und 2.4 erreichen. A2C mit GAE erreichte zwar den höchsten Reward, aber auch dieses Verfahren konnte keine Policy erlenen, die konstant mehr als vier Punkte erzielen kann. Mittels des Spiels Pong konnte gezeigt werden, dass die Verfahren grundlegend in der Lage sind solche Spiele zu spielen, der Observationspace von Breakout jedoch in dieser Implementation für alle Verfahren zu komplex und somit die Varianz trotz eigentlich geeigneter Methoden zu hoch ist.