Hätte ich im Mathe-Unterricht nur aufgepasst
Ich vermute, dass mein neues Projekt etwas herausfordernder werden wird als mein erstes. Dieses Mal kommt zum Testen und Schreiben eine umfangreiche Recherche hinzu, Jobs mit Zukunft zu identifizieren und die zugehörigen Pioniere zu finden, die diese Jobs schon in irgendeiner Form ausführen. Viele Herangehensweisen kann ich aber übernehmen. Zum Beispiel mit einem einfachen Job in das Projekt zu starten und zwar als Data Scientist.
Während ich 2014 vor einer KITA an der kindergesicherten Tür verzweifelte, betrete ich dieses Mal geübten und leichten Fußes das Büro der Firma ONE LOGIC in Passau. Wenn das mal kein Selbstläufer wird. ONE LOGIC betreibt Data Science und wird mich in den nächsten zwei Wochen zum Data Scientist ausbilden. ONE LOGICs Chief Data Scientist Sebastian lernte ich drei Monate zuvor zufällig in einem Münchener Café kennen, wo ich mit unserem gemeinsamen Bekannten Marco gerade bei einem Tiramisu über Jobs der Zukunft philosophierte und Sebastian selbst mit einem Studenten zum Vorstellungsgespräch verabredet war. Das Schicksal meint es wie immer gut mit mir.
Keine Schonfrist als Data Scientist
So herzlich, wie Sebastian mich im Café spontan einlud, ein Praktikum bei ihm zu absolvieren, werde ich an diesem Morgen auch von den Passauer Mitarbeitern empfangen. Sebastian selbst arbeitet im Münchener Ableger des Büros. Kai, ein studentischer Mitarbeiter, gibt mir am ersten Tag einen Einblick in die firmeneigene Software ONE DATA, die die Arbeit eines Data Scientist erheblich erleichtern soll. In ONE DATA sind bereits die öffentlich zugänglichen Daten der amerikanischen Firma Bay Area Bike Share (BABS) zu Demo-Zwecken hochgeladen und analysiert worden.
Mein Blick fällt auf rund 600.000 anonymisierten Nutzungsdaten von 2.500 Leih-Fahrräder und 260 Fahrradverleihstationen, die die Kapazität jeder Excel-Liste sprengen würden. Im Datenwust zu finden sind die Fahrradnummern, die Anfangs- und Endzeiten sowie -stationen der einzelnen Leihvorgänge und, ob der Ausleihende über ein Jahresabo verfügt oder nicht. Ergänzt haben die ONE LOGICer Postleitzahlen und Wetterdaten, um zu analysieren, inwieweit das Wetter Einfluss auf die Leihzeiten hat. Kai erklärt mir, wie die Daten aufbereitet werden müssen, damit sie verarbeitet werden können, wie die Tabellen miteinander verknüpft werden und nach welchen Kriterien die Datenbasis in diesem Fall am besten reduziert wird, damit nicht jeder Rechenschritt über die riesige Datenmenge laufen muss.
Sich klar werden, was man herausfinden will
„Es ist wichtig, sich zu Beginn einer Analyse zu überlegen, was man überhaupt herausfinden möchte. Sonst verliert man sich zu schnell in den Daten und Einzelheiten“, erklärt mir Kai, als wir zur Analyse übergehen. Im Fall von BABS ist die optimale Anzahl an verfügbaren Rädern pro Verleihstation entscheidend für die Kundenzufriedenheit. Denn was nützt einem ein Fahrradverleih, bei dem kein Rad da ist, wenn man es braucht? Um die optimale Zahl an Rädern pro Station herauszufinden, klicken Kai und ich uns durch die Daten. Und das klingt einfacher, als es ist.
Wir schauen uns unter anderem an, wie die Nutzung der Räder über die verschiedenen Stationen, Monate, Wochentage und Uhrzeiten verteilt ist, wie groß der Anteil der Abonnenten und einmaligen Nutzer ist, von wo nach wo Fahrradbewegungen stattfinden. Schon jetzt lässt sich erahnen, wann es sich bei den Nutzern um Pendler handelt und wann um Touristen. Kai klickt sich durch die hinterlegten statistischen Methoden, die in der Demo-Version eingesetzt wurden, um für BABS eine Vorhersage des Fahrradbedarfs für die einzelnen Stationen zu treffen und zeigt mir dann die visualisierten Ergebnisse.
„Hier haben wir mittels der Methode des Entscheidungsbaumes für die letzte Augustwoche vorhergesagt, an welchen Stationen an welchen Tagen voraussichtlich wie viele Räder gemietet werden“, schließt Kai die Einführung ab. „Für die letzte Augustwoche lagen uns die tatsächlichen Daten zwar schon vor, aber wir haben bei der Analyse so getan, als hätten wir sie nicht.
Wie gut ist eine Vorhersage wirklich?
Wir können so hinterher überprüfen, wie gut unsere Vorhersage war. Das ist wichtig, da wir vorher nicht sagen können, welche statistische Methode die besten Vorhersagen bringen wird. In unserer Auswertung für BABS hat sich beispielsweise gezeigt, dass die Einbeziehung der Wetterdaten keine besseren Prognosen hervorgebracht haben. Das konnten wir vorher allerdings nicht wissen. Deswegen müssen wir in unseren Analysen viel ausprobieren.“
Den ganzen Tag verbringen wir im System. Nur mittags gibt es Döner. Ich versuche die Schritte, die Kai mir erklärt, logisch nachzuvollziehen und nicke hin und wieder, wenn ich das Gefühl habe, ihm folgen zu können. Am Abend falle ich tot ins Gästebett meiner Gastgeberin Eva und grüble. Sebastian hatte vorgeschlagen, dass ich diese Woche ein eigenes Projekt bearbeiten und dessen Ergebnisse am Ende meiner Zeit den Kollegen präsentieren könne. Leichtsinnig hatte ich zugesagt. Aber, ob ich das packe?
Eine Schonfrist bekomme ich nicht. In den nächsten Tagen bekomme ich einen Überblick über die zurzeit laufenden Projekte meiner Data Science Kollegen, die sich allesamt voneinander unterscheiden. Von Chatbot-Programmierung über Process Mining bis zu Predictive Analytics, es ist alles dabei. Grundlage bei allem: Die Datenanalyse mittels statistischer Verfahren.
Open Data
Data Scientist Daniel gibt mir am Nachmittag meine eigene Aufgabe. Der Truck-Hersteller Scania hat wie BABS Daten zur öffentlichen Nutzung ins Netz gestellt. „Schau dir im ersten Schritt mal bitte die Daten an und überlege, was du herausfinden möchtest“, fordert Daniel mich auf. „Wenn du nicht weiter weißt, dann melde dich einfach.“
Ich lade die Datei im System hoch. 60.000 Zeilen und 172 Spalten misst sie. Im Begleittext finde ich ein paar Infos: Es handelt sich um Messwerte von LKWs, die zwei Fehlerarten zugeordnet wurden. Ist ein Fehler als positiv gekennzeichnet, besteht ein Zusammenhang zum Air Pressure System (APS). Ist er als negativ gekennzeichnet, ist eine andere Fahrzeugkomponente fehlerhaft. Wird falsch prognostiziert, um welche Fehlerart es sich handelt, kann das schlimmstenfalls zum Fahrzeugausfall führen und hohe Kosten nach sich ziehen. Die 171 anonymisierten Messwerte sollen Aufschluss darüber geben, ob es sich um den einen oder anderen Fehler handelt. Und genau das soll herausgefunden werden, ohne, dass jemand die Motorhaube öffnen muss.
Auch ein Data Scientist muss ausprobieren
Wer beim Lesen Fragezeichen im Gesicht stehen hat, dem geht es genauso, wie mir. Wie soll ich aus der Tabelle mit Zahlen, von denen ich nicht einmal weiß, was sie bedeuten, herausfinden, wann das Air Pressure System fehlerhaft ist? Es ist Kai, der mir auf die Sprünge hilft. Nachdem wir die Daten von fehlenden Werten bereinigt haben und nun alle Daten dem Zahlenformat entsprechen, können wir eine erste Analyse machen.
„Probiere mal ein paar statistische Methoden aus“, trägt Kai mir auf und zeigt mir, wie ich Prozessoren in den Workflow einfüge. Der Workflow ist nichts anderes als ein Algorithmus, also eine Abfolge präziser Anweisungen an ein System, was in welcher Reihenfolge zu tun ist. Prozessoren sind einzelne Schritte in dieser Anweisung, die von den One Logic-Programmierern für das firmeneigene System vorprogrammiert wurden, damit das System per Drag-and-Drop auch von Menschen wie mir bedient werden kann und nicht jeder einzelne Schritt neu programmiert werden muss.
Die Demokratisierung von Data Science
„Unser Ziel ist es, Data Science zu demokratisieren“, erzählt mir Geschäftsführer Andi später. „In zehn Jahren soll jeder dazu in der Lage sein, unser System zu bedienen und Big Data auszuwerten.“ Das ist also ähnlich wie mit der Webseiten-Programmierung. Wo vor zehn Jahren noch aufwendig programmiert werden musste, können wir uns heute einfach eines Baukastens im Internet bedienen und ruckzuck eine eigene Homepage auf die Beine stellen. Aber bei ONE LOGIC gibt noch ein übergeordnetes Ziel. „Wir wollen Verschwendung vermeiden. Was meinst du, wie viele Lebensmittel weggeschmissen werden, wie viele Leerfahrten LKWs machen und wie viele unnötige Prozessschritte Zeit und Geld kosten. Mit der Analyse der zugehörigen Daten, können wir das aufdecken und abstellen.“, sagt Andi. Sebastian drückt es weniger romantisch aus: „Im Endeffekt lösen wir Geschäftsprobleme mit Daten.“
Festhalten können wir, dass ich in den zwei Wochen kein Geschäftsproblem eigenständig löse. Auch, wenn Kai sich alle Mühe gibt, mich zu einem Ergebnis zu führen: „Und dann nimmst du einfach die Wurzel der durchschnittlichen quadrierten Standardabweichung und schon hast du es“. Ah, ja. Am Ende der zwei Wochen sind wir dann doch soweit. Mit einer Zauberformel rechnet Kai aus, dass unsere Prognose Scania 9 % Einsparungen bringen würde, und das, obwohl ich bei der Datenauswahl aus Zeitgründen ein paar Augen zugedrückt habe.
Data Science geht auf´s Gehirn
Ich bin platt. Meine Brainpower ist verbraucht. Wohin es für mich als nächstes geht? Ich weiß es nicht. Was ich essen will? Ich weiß es nicht. Wie ich heiße? Ich weiß es nicht.
Alle weiteren Erlebnisse und Erkenntnisse muss ich mir für mein Buch sparen. Erstens, weil hier kein Platz mehr ist. Zweitens, weil alles so komplex ist und mein Gehirn jetzt Pause braucht. Und drittens, weil es ja noch Gründe braucht, mein Buch irgendwann einmal zu kaufen.
Danke an Sebastian, Andi, Kai, Heidi, Jakob, Corinna, Bache, Daniel, Magy, Johannes, Stefan, Geli, Michele, Armin, Markus, Andreas und alle anderen ONE LOGIC Kollegen, die mich sehr herzlich in ihrem Team aufgenommen haben.
Danke auch an Reinhild, Eva, Siegfried und unbekannterweise Luise. Es war sehr schön bei euch!