Das Erkennen von Fitnesübungen wird mit einem convolutional neural network umgesetzt. In diesem sind fünf Klassen definiert, wodurch die Möglichkeit besteht Liegestützen und Sit-Ups zu erkennen. Um komplette Wiederholungen erkennen zu können, sind für jede Übung zwei unterschiedliche Positionen definiert. Außerdem ist eine Klasse definiert, welche für die Erkennung zuständig ist, falls keine Übung ausgeführt wird. Um die Wiederholungen der Übungen zählen zu können, werden csv-Datein verwendet, dessen Zähler im Falle einer kompletten Wiederholung inkrementiert wird. Die Ausgaben der Netzes werden in einer state-machine verarbeitet, wobei jede Ausgabe des Netzes als Zustand definiert ist. Um dem Benutzer über fehlerhafte Ausführungen einer Übung informieren zu können, wäre die Umsetzung einer seitlichen Ansicht auf die Fitnessübung erforderlich. Da in dieser Arbeit aus Platzgründen eine Frontalansicht der Fitnessübung umgesetzt wurde, ist die Erkennung von fehlerhaften Ausführungen nur bedingt möglich. Um die accuracy des neuronalen Netzes zu erhöhen ohne neue Trainingsdaten hinzuzufügen, ist zum Beispiel das Einfügen von Identity-Layern möglich. Außerdem ist es möglich das trainierte Modell durch das Verwenden von Farbfiltern unempfindelicher gegen Helligkeits- und Kontrastunterschieden zu machen.