Reward Engineering an einer End-to-End Spurhaltung durch Reinforcement Learning

Abstract

End-to-End gesteuerte autonome Fahrzeuge durch Reinforcement Learning bieten im Vergleich zu End-to-End Ans ̈atzen durch su- pervised learning einen Vorteil. Beim Reinforcement Learning macht das Fahrzeug eigene Erfahrungen und wertet diese anhand von Rewards. So kann dieses Fahrzeug auf mehr Situation reagieren, als beim anderen Ansatz, welcher rein auf richtigem Verhalten basiert. Das Reward Engineering ist dabei ein wichtiger Schritt, um das gewünschte Verhalten zu erzielen. In dieser Arbeit werden verschiedene Reward Designs vorgestellt und anhand ausgew ̈ahlter Metriken und Analysen verglichen und bew- ertet. Dabei stellte sich heraus, dass ein Reward Design, welches sich mit dem Trainingsforschritt anpasst, die besten Ergebnisse erzielt und einer optimalen Spurhaltung nahe kommt.