Logo des Studiengangs

Pasta Science

von Prof. Jens Flemming

Buchstaben in der Suppe: alle da? Und wenn ja, wie oft? Ein studentisches Data-Science-Projekt bringt Klarheit in die Suppe.

Buchstabennudeln für eine Suppe Buchstabennudeln für eine leckere Nudelsuppe; aber erst wird gezählt...

Welcher Nudelsuppen-Fan hat sich nicht schonmal gefragt, wie oft eigentlich die einzelnen Buchstaben in der Buchstabensuppe vertreten sind. Dies ist eine der ganz wenigen Fragen, die sich nicht leicht mit einer Suche im Internet beantworten lassen. Die Nudelhersteller halten sich bedeckt und umfangreiche Zählungen scheint es nicht zu geben. Höchste Zeit also das Problem selbst in die Hand zu nehmen.

Im dritten Semester des Bachelorstudiengangs Data Science an der Westsächsischen Hochschule Zwickau verfügen die Studierenden über genügend Wissen und Können um das Nudelproblem mit Methoden der Bildverarbeitung und des maschinellen Lernens anzugehen.

Aller Anfang ist schwer

Möchte man Nudeln automatisiert zählen, müssen die Nudeln zunächst in den Computer, und zwar jede einzeln! Letztlich entschieden die Studierenden sich für die Aufnahme einer großen Fläche, auf der die Nudeln ausgebreitet sind. Aus diesem riesigen Nudelbild mussten dann die einzelnen Nudeln extrahiert werden.

So einfach das klingt, Foto machen und dann Einzelbilder extrahieren, so aufwändig ist das im Detail:

  • Umwandlung des Farbbildes in ein Schwarz-Weiß-Bild (Nudeln weiß, Hintergrund schwarz),
  • weiße Kleckse (Nudeln) finden und in Einzelbilder kopieren,
  • Einzelbilder so drehen und spiegeln, dass alle Buchstaben einheitlich ausgerichtet sind,
  • fehlerhafte Bilder (Bruchstücke, verklebte Buchstaben) aussortieren.

Alle Schritte sollten so weit wie möglich automatisch erfolgen. Bei mehreren tausend Buchstaben geht das auch gar nicht anders.

Versuchsaufbau mit Kamera und Aufnahmefläche sowie erste Ergenisse im Beamer-Bild im Hintergrund Aufnahmetechnik und erste Nudelbilder

Halbüberwachtes Lernen

Als die Nudeln alle einzeln und wohlgeordnet im Computer waren, mussten "nur noch" die auf den Bildern dargestellten Buchstaben erkannt und anschließend gezählt werden. Hier bietet sich das halbüberwachte Lernen an.

Die Einzelbilder werden automatisiert in Gruppen ähnlicher Bilder unterteilt ("Clustering"). Anschließend schaut ein Mensch auf jedes dieser Cluster und entscheidet, welcher Buchstabe zu sehen ist. So müssen nicht mehrere Tausend Bilder manuell, wie man sagt, gelabelt werden, sondern nur eine zweistellige Anzahl Cluster.

Das Ergebnis

Jeder Buchstabe scheint etwa gleich oft in der Nudelmischung vorzukommen. Dies gilt für alle drei untersuchten Produkte. Die Zahlen zeigen zwar leichte Abweichungen; die können aber durch die relativ geringe Zahl untersuchter Nudeln (etwa 3000) verursacht sein.

Einige Buchstaben konnten nicht klar unterschieden werden, was bei der Interpretation der nackten Zahlen unbedingt beachtet werden muss. So deuten zum Beispiel hohe Zählwerte beim Buchstabe O und kleine bei Q auf Fehlzuordnungen hin. Ein zweiter Blick auf die gesammelten Daten bestätigt diese Vermutung. Gleiches gilt für C und G oder auch für die Ziffern 6 und 9. Das sind übliche Probleme der Praxis. Das Wahrnehmen dieser und der Umgang damit kann nur durch eine praxisorientierte Ausbildung wie im Studiengang Data Science geschult werden.