Der Smalltalk mit einem Data Scientist endet früher oder später immer bei der Frage des Studienbackgrounds. Die Frage ist insofern naheliegend, als dass reine Data Science Studiengänge in Deutschland gerade erst am Anlaufen sind. Die bereits am Markt aktiven Data Scientists stammen daher fast ausschließlich aus fachfremden Studiengängen.
Das Unbegreifen ist zumeist groß, wenn die Antwort auf die Frage des Studienbackgrounds nicht den gängigen Erwartungen – Physik, Mathe, Statistik oder Informatik – entspricht, sondern stattdessen eine Sozialwissenschaft (wie in meinem Fall Politikwissenschaft) genannt wird. Im Folgenden also ein Plädoyer warum auch die Sozialwissenschaften gute Data Scientisten hervorbringen können.
Gutes Basiswissen
Zunächst einmal muss man wissen, dass in vielen Sozialwissenschaften (insbesondere Politikwissenschaft, Soziologie und Psychologie) eine stark datengestützte Forschung bereits seit vielen Jahrzehnten zum wissenschaftlichen Standard gehört. Vorlesungen in Statistik, aber auch Einführungen in verschiedene Programmiersprachen sind daher oftmals elementarer Bestandteil des Lehrplans. So gehören lineare, nicht-parametrische und hierarchische Modelle zum Standard in der modernen empirischen Politikwissenschaft. Das grundlegende Handwerkszeug eines Data Scientists ist damit bekannt. Ergänzt werden diese Grundlagen durch weitere nützliche Methoden, wie zum Beispiel Cluster- und Faktoranalyse, Survivalanalysen und Bayesianische Schätzverfahren.
Darüber hinaus ergeben sich insbesondere aus der eigenständigen Forschung, ein Kernbestandteil vieler sozialwissenschaftlicher Studiengänge, wichtige praktische Erfahrungen für den späteren Beruf des Data Scientists. Zu nennen ist hier zum einen der Umgang mit fehlenden Daten zum anderen aber auch Datenqualität im Allgemeinen.
Lernen für die Praxis
Aus meiner eigenen Erfahrung möchte ich auf drei Lehren aus meinem Studium eingehen, die mir später den Einstieg als Data Scientist erleichtert haben:
Erstens, formuliere und löse eine Fragestellung. Identifiziere eine Fragestellung, übertrage sie in ein durch Daten lösbares Modell und übersetze die Antworten deines Modells zurück auf deine Fragestellung. Diese Methodik, der Kern meiner wissenschaftlichen Ausbildung, lässt sich so eins zu eins auf jedes Projekt eines Data Scientists übersetzen. Auch wenn Art und Abstraktionsgrad der Frage variieren, bleibt die Herangehensweise doch immer dieselbe. Nicht zu vernachlässigen ist dabei die Übersetzung der Ergebnisse: Da in der Regel nicht der Data Scientist der Endanwender ist, muss dieser die Erkenntnisse seiner Arbeit entsprechend kommunizieren können.
Zweitens, erzähle eine Geschichte anhand der Daten. Um mit unserer Arbeit einen Mehrwert generieren zu können, benötigt es auch Überzeugungsarbeit. Auch ein noch so gutes Modell wird kein Gehör finden, wenn die Adressaten ihm nicht vertrauen. Als Data Scientist ist es auch unsere Aufgabe, dieses Vertrauen zu etablieren. Wie in den meisten sozialwissenschaftlichen Publikationen zu finden, ist es daher empfehlenswert, neben dem eigentlichen Modell auch eine fundierte Exploration der Daten zu erarbeiten. Diese hilft Außenstehenden das Modell und seine Wirkweise handhabbar zu machen. Darüber hinaus hilft sie uns aber auch selbst das Modell zu entwickeln und entscheidende Aspekte der Daten richtig zu modellieren.
Drittens, erkenne, dass dein Modell nur eine Abstraktion der Wirklichkeit ist. Auch wenn die uns zur Verfügung stehenden Methoden immer komplexer werden, so bleiben sie doch weiter nur Abstraktionen der Wirklichkeit. Als Sozialwissenschaftler weiß ich, ein Modell wird niemals jeden Einzelfall erklären können, sondern lediglich ein generalisierbares Muster vorhersagen. In den Sozialwissenschaften wird diesem Umstand Rechnung getragen, indem Unsicherheiten durch das Modell klar kommuniziert werden. Und etablierte Methoden, wie zum Beispiel Monte Carlo Simulationen, geben uns ein Werkzeug an die Hand mit der Unsicherheit modellierbar gemacht werden kann.
Fazit
Diese Skills, welche ich in meinem sozialwissenschaftlichem Studium erworben habe, machen mich heute zu einem erfolgreichen Data Scientist. Der Schritt von den Sozialwissenschaften zu Data Science ist für mich daher nicht überraschend, sondern äußerst naheliegend.