Detektion von Sprachbefehlen auf Edge-Geräten unterstützt durch automatisierte Trainingsdaten-Synthese für eine Not-Halt-Anwendung

Abstract

Ziel dieser Arbeit ist es, einen durch Sprachbefehle gesteuerten Not-Halt-Kontroller zu entwickeln, der auf einem Edge-Gerät mit geringem Leistungsvermögen betrieben werden kann. Sekundäres Ziel ist eine Trainingsanwendung, die den aufwendigen Trainingsprozess mithilfe von synthetischen Trainingsdaten automatisieren kann. Dabei stellen sich zusätzliche Fragen. Welche neuronale Netzwerkarchitektur eignet sich für eine Herunterskalierung auf Edge-Geräte-Niveau? Kann State of the Art Sprachsynthese den manuellen Arbeitsaufwand im vorliegenden Fall ersetzen? Es ist möglich, dass für neuronale Netze ein synthetischer Datensatz noch kein voller Ersatz ist. Andererseits hat die Sprachsynthese in den letzten Jahren große Fortschritte gezeigt. Für die Umsetzung wird eine aus dem MobileNet bekannte DS-CNN-Architektur verwendet und herunterskaliert. Das Training wird auf dem Google Speech Command Dataset sowie auf einem synthetischen Datensatz umgesetzt. Die Audiosynthese erfolgt über eine eigene GUI-Anwendung, die mit führenden Online-TTS-Anbietern integriert ist. Es stellt sich heraus, dass die DS-CNN-Architektur grundsätzlich für diesen Kontext geeignet ist, die Trainingsdaten aber über den Erfolg bestimmen. Im Vergleich können die allein synthetisch-trainierten Netzwerke bei der Detektion nicht mithalten. Allerdings konnte mit dem Google Speech Command Dataset der Not-Halt-Kontroller erfolgreich umgesetzt werden.