Sim-To-Sim Gap des Cartpole Environments

Abstract

Das Training eines auf Reinforcement Learning basierenden Agenten gestaltet sich auf physischer Hardware ressourcen-, personal- und zeitaufwändig, weshalb häufig auf das Trainieren innerhalb von Simulationen zurückgegriffen wird. Diese ko ̈nnen die Realität jedoch nicht gänzlich akkurat abbilden, weshalb in Simulationen erfolgreich trainierte Agenten meist daran scheitern, die vorgegebene Aufgabe in physischen Umgebungen zu lösen. Als Sim-To-Real Gap wird das Problem des Policy Transfers in der Literatur bezeichnet. Um diese in Bezug auf OpenAIs Cartpole Environment zu untersuchen, wurde aufgrund eines fehlenden physischen Cartpole Modells die Sim-to-Sim Gap untersucht. Zuna ̈chst wurden drei auf verschiedenen Q-Learning Algo- rithmen basierende Agenten erfolgreich auf das Cartpole Environment trainiert. Anschließend wurden die Agenten und das Environment mit den Rauschmethoden Observation Noise, Domain Randomisation und Random Force Injection versetzt. Experimente zeigen, dass die Agenten, denen das Rauschverhalten während des Trainings verwehrt blieb, nur bis zu einem gewissen Grad dem Rauschen standhalten konnten. Daraufhin wurden die Rauschmethoden in das Training integriert, um Agenten widerstandsfähiger zu machen. Weitere Experimente zeigen allerdings, dass das Hinzufu ̈gen von Observation Noise und Domain Randomisation in den Trainingsvorgang die Agenten sogar anfälliger machte. Random Force Injection hatte wiederum wenig Einfluss auf rauschfreie Agenten.