Machine-Learning-basierte Qualitätserkennung von Fitnessübungen auf Grundlage von Pose Estimation

Abstract

Für einen gesunden Lebensstil sind körperliche Aktivitäten ein wichtiger Bestandteil. Mit Hilfe von Human Activity Recognition ist es möglich, die eigene Gesundheit im Auge zu behalten und Verletzungen zu vermeiden. Hierbei wird zwischen den beiden Haupttechniken der Datenerfassung im Gebiet der Human Activity Recognition differenziert. Zum einen handelt es sich dabei um den Bereich der Computer Vision und zum anderen um den Ansatz, welcher auf dem Verwenden von tragbaren Sensoren basiert. In dieser Arbeit erfolgt die Qualitätserkennung von Fitnessübungen anhand von Liegestützen, welche als Videodaten vorliegen. Um die zu analysierenden Parameter auf die Informationen zu reduzieren, die für die Qualitätserkennung relevant sind, erfolgte eine Reduzierung der Merkmale mit Hilfe von Pose Estimation. Diese liefert die Koordinaten bestimmter Körperschlüsselpunkte (Keypoints), mit denen das Erstellen eines Skeletts der trainierenden Person möglich ist. Bei den Keypoints handelt es sich um Gelenke und Körperteile, wie den Ellenbogen oder der Hüfte, wobei die Anzahl der zu erkennen Keypoints je nach Modell variiert. Um die Qualität der Liegestütze zu bestimmen, wurden Machine Learning in Form von Long Short-Term Memory (LSTM) verwendet. Neben LSTMs, welche die Koordinaten der Keypoints für die Bestimmung der Ausführungsqualität verwenden, wurden zudem Modelle trainiert, die die Klassifikation anhand der Winkel zwischen ausgewählten Körperteilen vornehmen. In dieser Arbeit konnte gezeigt werden, dass sich die Winkeldaten für eine Klassifikation deutlich besser eignen. Die binäre Klassifizierung, welche lediglich zwischen einer korrekten und einer nicht korrekten Ausführung unterscheidet, wies eine Testgenauigkeit von 91,5% auf. Um die Art der Fehlausführung spezifizieren zu können wurde zudem eine Mehrklassen-Klassifzierung untersucht. Hierbei gelang es die Qualität der Ausführung lediglich mit einer Genauigkeit von 60,71% zu bestimmen. Dies ist zum einen auf die Ungleichverteilung des Datensatzes zurückzuführen und zum andern auf die Schwierigkeit, zwischen den definierten Klassen zu unterscheiden.