Vergleich verschiedener Verfahren zur Lösung des MountainCar-v0 Problems

Abstract

In dieser Arbeit werden die Verfahren State Diskretisierung, Tile Coding und Deep Q-Learning im Bezug auf die Lösung des MountainCar-v0 Problem betrachtet. Dazu wird als Grundlage der Q-Learning Algorithmus genutzt und um diese Verfahren ergänzt. Ziel ist es, das MountainCar Problem zu lösen, ohne die Rewards der Umgebung zu verändern. Dafür wurde jedes dieser Verfahren implementiert und an- hand mehrerer Test die Hyperparameter optimiert. Dabei wurde es bei allen drei Verfahren erfolgreich geschafft, das Ziel mit dem Mountain-Car zu erreichen. Am besten hat dabei das Tile Coding abgeschnitten, bei dem das MountainCar Problem ”offiziell“ nach bereits circa 1000 Episoden mit einer greedy Policy gelöst werden konnte. Das zweitbeste Ergebnis konnte mit Deep Q-Learning erreicht werden, welches ein wenig besser als die State Diskretisierung im Bezug auf die Rewards abgeschnitten hat. Jedoch konnte bei der State Diskretisierung ein deutlich stabileres Trainings- und Testverhalten erreicht werden.