Optimierung von Objekterkennung durch Bildaugmentation

Abstract

Im Rahmen der vorliegenden Projektarbeit wurde ein MobileNet v1 zur Objekterkennung von blauen und roten Controllern der Nintendo Switch trainiert. Der Fokus lag darauf, die Erkennungsleistung des Modells zu verbessern, indem die Trainingsdaten durch gezielte Augmentation angereichert wurden. Das Modell wird im Weiteren auf einem Raspberry Pi 4 mit Web- cam eingesetzt und die Inferenz wird mit einer Google Coral Tensor Processing Unit beschleunigt. Zusätzlich wurden je nach Controller, der erkannt wurde und wie sicher das Modell mit dabei war ein Piezo Speaker und LEDs angesteuert. Durch Augmentation in Form von Verschieben und Skalieren der Bilder konnte die Average Precision des Modells von AP0.50:0.95 0.314 auf AP0.50:0.95 auf 0.366 verbessert werden. Außerdem war es dem Modell mit augmentierten Daten mög- lich, kleine Objekte zu erkennen, obwohl in den ursprünglichen Trainingsdaten gar keine kleinen Objekte vorhanden waren und diese erst durch Augmentation erzeugt wurden. Mit einer anderen, stärkeren Augmentationspipeline der Bilder wurde die Leistung des Modells hingegen schlechter. Am Ende der Arbeit wird grundsätzlich diskutiert, wie die Augmentation von Trainingsdaten verschiedener Bereiche gewählt werden sollte, um die Leistung eines Modells verbessern zu können.