Logo des Studiengangs

Seltsame Stadtbäume

von Prof. Jens Flemming

Langweilige Daten gibt es nicht! Ein Ausflug ins Chemnitzer Baumkataster, nach Afrika und zum Sportplatz.

Luftaufnahme von Chemnitz mit Bäumen und Häusern

Typischer Anblick des Chemnitzer Stadtgebiets de.wikipedia.org, Veihelmann, CC BY-SA 3.0

Nur 30 Bahnminuten von Zwickau entfernt liegt die Großstadt Chemnitz, die gern und durchaus berechtigt als "grüne Stadt" bezeichnet wird. Überall findet man Parks, Kleingartenanlagen und Stadtwälder. "So viel Grün will gut verwaltet sein" dachte sich die Stadtverwaltung und digitalisierte ihr Baumkataster. Diese Liste aller Chemnitzer Stadtbäume auf öffentlichen Flächen ist im Open-Data-Portal der Stadt abrufbar und bietet eine schöne Spielwiese für die Data-Science-Ausbildung im ersten Semester an der Westsächsischen Hochschule Zwickau.

Die Baumdaten sind einfach strukturiert: eine Tabelle mit einer Zeile für jeden Baum und diversen Spalten mit Eigenschaften der Bäume. Mit knapp 50000 Einträgen nicht wirklich "big data", aber hinreichend umfangreich um für den Umgang mit noch größeren Datenmengen zu üben.

Schwarzerlen in Afrika

Bevor man tiefer in eine Datensammlung einsteigt, sind erstmal die Basics zu klären, also Wertebereich der einzelnen Features, Mittelwerte, Minima, Maxima und diverse weitere statistische Kenngrößen. Schaut man sich den Wertebereich für die Positionen der Bäume im Stadtgebiet an, so sollte man sofort stutzig werden:

  • geografische Länge von 12.768262 bis 13.711969 (Mittelwert 12.906877)
  • geografische Breite von 5.094846 bis 50.901694 (Mittelwert 50.821352)

Kurz die Geografiekenntnisse aus der Schule reaktivieren... da steht mindestens ein Baum fast am Äquator!? Bei genauerem Blick in die Baumdaten sind es sogar zwei, zwei Schwarzerlen, gepflanzt in den Jahren 1950 und 2000. Vielleicht gibt es eine Partnerstadt von Chemnitz irgendwo am Äquator und man schenkte dieser die beiden Bäume?

Open Street Map liefert Details zur Location der Schwarzerlen: Kamerun in Afrika!

Karte von Afrika mit Markierung der Baumposition

Da ist aber keine Stadt weit und breit, nur riesige Wälder. Und ob da Schwarzerlen wachsen?

Kartenausschnitt von Kamerun mit Markierung der Baumposition

Irgendwas stimmt hier nicht. Sehr wahrscheinlich ein Fehler in den Daten. Vielleicht das Komma verrutscht. Soll die geografische Breite vielleicht 50.94846 statt 5.094846 sein? Dann wären wir, also die Schwarzerlen, zu mindest in Deutschland. Open Street Map liefert wieder genaueres: irgendwo südlich von Dresden, jedenfalls nicht Chemnitz.

Kartenausschnitt von Sachsen mit Markierung der Baumposition

Noch genauer: Eine Grünfläche irgendwo im Nirgendwo zwischen Dörfern.

Kartenausschnitt südlich Dresden mit Markierung der Baumposition

Die so naheliegende Theorie mit dem verrutschten Komma muss also verworfen werden. Die "Echtheit" der beiden Schwarzerlen lässt sich nicht ohne weiteres klären, also raus mit den beiden Datensätzen. Daten müssen sauber sein bevor man mit ihnen weiterarbeiten kann.

Die 1000-jährige Pappel

Schaut man sich etwas weiter im Baumkataster um, so findet man auch den ältesten Baum der Stadt: eine Pappel aus dem Jahr 1050! Auch hier kurz innehalten: eine fast 1000-jährige Pappel? Der Wissensspeicher der Menschheit (Wikipedia) hilft weiter. Demnach werden Pappeln "meist 100 bis 200 Jahre alt".

Also vermutlich noch so ein Fehler in den Daten. Checken wir das mal. Also, wo steht die Uraltpappel? Open Street Map meint: an einem Sportplatz an der Helbersdorfer Straße. Das ist am Rand eines Plattenbaugebiets. Die Gebäude dort, insbesondere der Sportplatz, zu dem die Pappel zu gehören scheint, sind erst nach 1945 erbaut. Unwahrscheinlich, dass dort ein Baum steht, der älter als 80 Jahre ist.

Stadtplan Chemnitz mit Markierung der Baumposition

Der Themenstadtplan der Stadt Chemnitz liefert eine Luftaufnahme der Örtlichkeit.

Luftaufnahme der Baumposition

Überall Bäume, vom Wuchs her sehr wahrscheinlich Pappeln. Die Uraltpappel wird also mit einer ganzen Menge anderer Pappeln zusammen gepflanzt worden sein; wahrscheinlich als der Sportplatz angelegt wurde als Windschutz. Schauen wir doch mal in unsere Baumdaten...

Die Nachbarpappeln sind alle 1940, 1950, 1960 oder 1970 gepflanzt. Ziemlich sicher ist 1050 nur ein Tippfehler und sollte 1950 sein. Damit wäre das Rätsel der Uraltpappel gelöst, aber ein neues taucht unerwartet auf: Warum schwankt das Pflanzdatum über einen Zeitraum von 30 Jahren? Wurden kleine Pappeln zwischen die schon größeren gepflanzt zum Verdichten des Bestandes? Unwahrscheinlich; das wächst nicht, sondern geht im Schatten der älteren Bäume ein.

Vermutlich ist das wahre Pflanzdatum der Bäume gar nicht bekannt, sondern wurde beim Anlegen des Baumkatasters geschätzt. Warum sonst sollten die Jahreszahlen immer auf Null enden. Sehr wahrscheinlich sind alle Pappeln am Sportplatz gleich alt. Ganz genau wissen wir es jedoch nicht...

Datenqualität

Das Beispiel des Chemnitzer Baumkatasters zeigt, dass Realdaten immer mit Fehlern behaftet sind. Ein wesentlicher Arbeitsschritt im Data Science ist das Reinigen der Daten, also das Auffinden und Aussortieren oder Korrigieren fehlerhafter Datensätze. Für diese Tätigkeit gibt es kein Patentrezept, sondern sie erfordert den Spürsinn und die Erfahrung eines gut ausgebildeten Data Scientists. Sind die Daten qualitativ hochwertig, so sind die weiteren Verarbeitungsschritte wie Visualisierung und Prognose deutlich effektiver umsetzbar.

Bei der Ausbildung im Bachelorstudiengang Data Science an der Westsächsischen Hochschule Zwickau legen wir hohen Wert auf eine solide Datenvorverarbeitung. Wir arbeiten, wo immer es geht, mit Realdaten um frühzeitig den Bezug zur Praxis und den "Problemen des Alltags" als Data Scientist herzustellen. Datensammlungen wie das vorgestellte Baumkataster werden bereits im ersten Semester analysiert und diskutiert.