Offline Reinforcement Learning: Vergleich der Performance von Algorithmen bei Verwendung unterschiedlicher Datensätze am Beispiel eines Roboterarms

Abstract

Offline Reinforcement Learning, also das Erlernen einer Policy auf Basis eines statischen Datensatzes ohne Interaktion mit der Umwelt, verspricht neue Anwendungsfelder zu erschließen und besser zu skalieren als gewöhnliche Reinforcement Learning Algorithmen. Am Beispiel eines Roboterarms, welcher lernen soll, einen Zielpunkt zu erreichen, werden in dieser Arbeit unterschiedliche Algorithmen sowohl aus dem Bereich des off-Policy Reinforcement Learnings als auch aus dem Offline Reinforcement Learning zunächst erläutert und schließlich im Offline-Modus erprobt und verglichen. Um ebenso den Einfluss des verwendeten Datensatzes beurteilen zu können, werden fünf unterschiedliche Datensätze zum Erlernen einer Policy verwendet. Der erste Datensatz wird mit zufällig gewählten Aktionen erzeugt, der zweite wird während eines Reinforcement Learning Trainingsprozesses erfasst, während der dritte mit einer einheitlichen Policy erzeugt wird. Ergänzend werden zwei weitere Datensätze hinzugezogen. Ein um das zehnfache vergrößerter Datensatz, sowie ein Datensatz, welcher mit optimierter Policy erzeugt wird. Die Ergebnisse zeigen, dass je nach vorhandenem Datensatz unterschiedliche Algorithmen zu bevorzugen sind. Sie machen jedoch auch deutlich, dass Offline-Algorithmen denen des off-Policy Reinforcement Learning ohne Interaktion mit der Umwelt signifikant überlegen sind, indem sie bekannte Herausforderungen im jeweiligen Algorithmus adressieren.