Optimierter DDPG für die HalfCheetah-Umgebung mittels Hyperparameter-Tuning

Abstract

Deep Deterministic Policy Gradient (DDPG) ist eine Methodik zur Kontrolle kontinuierlicher Simulationsumgebungen des Reinforcement Learnings. Im Folgenden wird evaluiert inwiefern DDPG für die physikalische HalfCheetah-Umgebung mittels Hyperparameter-Tuning optimiert werden kann. Für die Evaluation werden drei Experimente mit den Hyperparametern Batch-Größe, Standardabweichung des Action-Noise und Lernraten von Actor- und Critic-Optimierer durchgeführt. Der höchste durchschnittliche Reward von über 5000 wurde mit den klassischen Lernraten (0.0001, 0.001) erreicht. Für weitere Optimierungen des DDPG könnte zukünftig auf die Methodik des Parameter-Noise zurückgegriffen werden, da diese vielversprechende Ergebnisse liefert.