Was ist Data Science? Definition, Aufgaben, Prozess und Beispiele

Data Science, der Einsatz von wissenschaftlich fundierten Methoden zur Datenanalyse, gewinnt immer mehr an Bedeutung. Doch oft ist unklar, was das Vorgehen beinhaltet, welche Ausbildung dafür nötig ist und welche Vorteile der Einsatz von Datenwissenschaftlern mit sich bringt. In diesem Artikel versuchen wir uns an einer Definition von Data Science, erklären den darunter liegenden Prozess und welche Rollen beteiligt sind. Um von der Theorie in die Praxis zu überführen, zeigen wir als Ausblick einige Beispiele, um den Mehrwert von Data Science darzustellen.

Infografik: Was ist Data Science?

Was ist Data Science? Infografik zu Definition, Prozess, Rollen und Beispielen
Was ist Data Science? Infografik zu Definition, Prozess, Rollen und Beispielen

Inhaltsverzeichnis

Inhalte Verbergen

Was ist Data Science?

Einfach gesagt ist Data Science, auf Deutsch Datenwissenschaft genannt, eine interdisziplinäre Herangehensweise zum Einsatz von Daten zur Generierung von Mehrwert. Das Vorgehen besteht aus Methoden der Statistik, Informatik und Wirtschaftswissenschaften, aus deren Kombination sich Möglichkeiten ergeben, auf (großen) Datenmengen basierte Lösungen zu entwickeln.

Entstanden ist der Begriff „Data Science“ als Abgrenzung zur Informatik (Peter Naur, 1960) um eine auf Daten fokussierte Verarbeitung zu betiteln. Allerdings gab es erst nach der Jahrtausendwende Bewegungen für eine Verselbstständigung der Disziplin aus dem Feld der Statistik heraus. Die Idee war die multidisziplinäre Untersuchung von Daten mittels Statistik, um praktische Anwendung zu etablieren. Seitdem findet ein stetiges Wachstum des Feldes statt und die Datenwissenschaft erobert immer weitere Gebiete unseres täglichen Lebens.

Spricht man heute von Data Science, meint man vor allem den Einsatz von Big Data und Machine Learning, um problemorientierte Lösungen zu entwickeln. Dieses Vorgehen bildet auch die Trinität von Data Science: Statistik/Mathematik, Daten/Informatik und Wirtschaft/Business. Als Vorgehensweise zur Lösungsfindung hat sich der Data Science Prozess etabliert, der im nächsten Abschnitt detailliert dargestellt wird.

Spätestens als die Harvard Business Review in 2012 die Rolle des Data Scientists zum “sexiest Job in the 21st century” kürte, nimmt der Run auf das Thema und erfahrene Datenwissenschaftler kein Ende mehr. Doch folgend dem Hype der letzten Jahre stellt sich inzwischen Ernüchterung ein: Es ist nach wie vor oft unklar, wie Data Science genau “funktioniert”, welche Aufgaben Data Scientists haben und wie man expliziten Mehrwert für Unternehmen und Organisationen aus der Analyse von Daten schöpft. Diese Unklarheit möchten wir beseitigen.

Der Data Science Prozess: Aufgaben und Methoden

Der Data Science Prozess visualisiert
Der Data Science Prozess visualisiert

Im Einsatz von Data Science geht es darum, ein Problem zu verstehen und eine datenbasierte Lösung dafür zu entwickeln. Diese Lösung kann – muss aber nicht – auf Advanced Analytics wie Machine Learning basieren. Wichtig beim Prozess ist hingegen, dass ein iteratives, gegenseitiges Verstehen zwischen Business und Fachexpertise etabliert wird, um die Lösung nicht am “Kunden” vorbei zu entwickeln. Daher möchten wir in diesem Abschnitt den Data Science Prozess nochmal detailliert darstellen.

Use Case Definition: Den Anwendungsfall verstehen

Der erste und fundamental wichtigste Schritt ist, einen konkreten Anwendungsfall zu identifizieren, zu verstehen und einen passenden Lösungsansatz zu entwickeln. Selten gibt es “grüne Wiese”-Herangehensweisen, in denen man rein innovativ arbeiten kann. Daher ist der Data Scientist auch in einer Art Dienstleister-Rolle innerhalb des Unternehmens: Seine Aufgabe ist es, Mehrwert für andere Geschäftsbereiche wie Sales, Marketing oder Produktion zu schaffen. 

Der einfachste Weg um die Probleme und Bedürfnisse dieser Geschäftsbereiche zu verstehen ist: Mit ihnen reden. Ob per Workshop, Use Case-Formular oder bei einem Kaffee, die Wege sind für jedes Unternehmen individuell effektiv. Ziel ist es in allen Fällen hingegen, einen Use Case zu identifizieren und optimalerweise direkt auf Machbarkeit zu evaluieren. 

Data Identification & Engineering

Ist der Anwendungsfall klar, gilt es in den nächsten Schritt zu gehen. Hier werden für die Lösung passende Daten identifiziert, akquiriert und für die Auswertung vorbereitet. Die Daten sind optimalerweise in einem Datenkatalog dokumentiert und in einem Data Warehouse oder Data Lake bevorratet, was einen einfachen Zugriff erlaubt. Doch oft gibt es (noch) keine passenden Daten, dann ist eine Generierung oder Akquise von Daten nötig.

Jeder dieser Prozesse – Extraktion oder Akquise – fällt entweder in das Aufgabengebiet eines Data Scientists als Generalist oder in diversifizierten Unternehmen in das eines Data Engineers. Der Data Engineer kümmert sich in diesem Zug um die Zusammenführung, Speicherung und das Management von Daten, um sie dann den Konsumenten wie dem Data Scientist zur Verfügung zu stellen.

Methodisch ist die Bandbreite zur Erfassung, Speicherung und Dokumentation von Datensätzen sehr breit. Viele Tools beschäftigen sich mit diesem fundamentalen Schritt im Data Science Prozess. Nicht umsonst sind fähige Data Engineers momentan sehr gefragt. Details zu Tools & Systemen findet ihr in unserem Beitrag des Data Engineers und seinem Aufgabengebiet.

Fällt in diesem Schritt auf, dass die Daten nicht ausreichend den Anwendungsfall abbilden, dass sie nicht verfügbar sind oder die Qualität nicht stimmt, muss ein Schritt zurück zur Use Case Definition gegangen werden. Hier gilt es zu entscheiden, ob man dennoch mit den vorliegenden Daten weiter verfahren möchte, oder eher sich nochmals um die Datengrundlage kümmert.

Als letztes gilt es, die Daten für die weiteren Schritte vorzubereiten. Dies beinhaltet das Zusammenfügen verschiedener Datensätze, die Generierung von Metriken und auch das Säubern der Datensätze. Das Ziel dieses Schritt ist, einen verlässlichen Datensatz zur weiteren Verarbeitung oder Auswertung vorzubereiten. 

Auswertung, Analytics / Machine Learning & Evaluation

Der Kern von Data Science ist es, Erkenntnisse aus den Daten zu generieren. Etwas weiter gefasst gilt auch die reine Verarbeitung von Daten als Teil von Data Science. Folglich gibt es mehrere Möglichkeiten, diesen Prozessschritt zu erfüllen: Von der Verarbeitung über die Analyse von Daten bis zum Aushängeschild, dem Einsatz von Machine Learning Algorithmen. Jede  dieser drei Kategorien möchten wir hier kurz erläutern.

Wie bereits erwähnt, kann auch die reine Verarbeitung von Daten als Data Science gelten. Als Beispiel kann Objekterkennung genannt werden. Die Aufnahme von Bildmaterial und algorithmische Erkennung von bestimmten Objekten kann eine sehr herausfordernde Aufgabe sein. Diese und andere Aufgaben wie natürliche Sprachverarbeitung im Bereich Cognitive Computing leisten große Dienste in Automatisierung und Mehrwertgenerierung.

Von vielen als Zwischenschritt zum Machine Learning betrachtet gilt das klassische Analytics. Dennoch kann auch eine rein statistisch-deskriptive Analyse von Daten als Kernlösung von Datenwissenschaft gelten. Als Beispiel kann die Fast Fourier Transformation und entsprechende Analyse von Sound-Daten genannt werden. Fügt sich dieser Anwendungsfall in den gesamten Data Science Prozess ein, ist Analytics auch als Endpunkt der Auswertung möglich.

Viel häufiger wird jedoch Data Science mit Machine Learning assoziiert. Der Einsatz von Künstlicher Intelligenz ist ein Thema von großer Bedeutung und die Datenwissenschaftler vereinen das notwendige Skillset, um dieses Vorgehen umzusetzen. Somit beinhaltet dieser Schritt des Data Science Prozesses den gesamten Machine Learning Prozess von Feature Engineering, Model Training, Evaluation und Optimisation. Anwendungsfälle sind die Vorhersage von Werten oder Kategorien (Supervised Learning), zum Beispiel als Sales Forecasting oder Object Recognition, die Identifizierung von ähnlichem Verhalten (Unsupervised Learning) oder die Implementierung von Recommendation oder Reinforcement Systemen (z.B. Produktempfehlungen oder Autonome Wegfindung).

Insgesamt ist zu sagen, dass dieser Schritt im Data Science Prozess der delikateste ist: Nur wenn die richtigen Daten in guter Qualität zur Verfügung stehen, werden die Ergebnisse von hoher Qualität sein (“Garbage in, garbage out”). Und nur wenn man als Data Scientist ein Ergebnis produziert, dem vertraut wird, wird man auch in Zukunft mit seiner Expertise Gehört finden.

Was Tools & Systeme betrifft, ist auch diese Landschaft wieder sehr breit. Generell gibt es aber drei Hauptstränge was die Analyse und Modellierung von Daten betrifft: Entweder man nutzt Programmier-/Skriptsprachen wie python oder R, man setzt Data Mining Tools wie KNIME oder RapidMineR ein oder man nutzt Cloud Services wie Azure Analytics oder Google AutoML. Da jeder dieser Aspekte verschiedene Schwerpunkte hat, verweisen wir hiermit auf unseren detaillierten Artikel zum Thema Machine Learning.

Wenn man ein Ergebnis erreicht hat, das den optimalen Schnitt zwischen Vorhersagequalität und Vermeidung von Overfitting repräsentiert, gilt es, die Lösung nochmal zu evaluieren. Ein weiterer kollaborativer Blick auf die Ergebnisse erlaubt es dem Business, nochmals Einfluss zu üben und steuert Domänenexpertise zu. 

Deployment & Monitoring der Lösung

Wird sich entschieden, die Lösung (das Machine Learning Modell) in Produktion zu überführen und operativ zu nutzen, gilt der nächste Prozessschritt dem Deployment. Dieses Model Deployment bedeutet, dass entweder über ein Dashboard die Information oder eine Machine Learning Pipeline das Modell zur Verfügung gestellt wird. Somit können andere Systeme und/oder Kanäle des Unternehmens auf die Ergebnisse zugreifen und diese weiterverarbeiten. Diese Aufgabe findet sich meist im Bereich Data Engineering oder IT DevOps, da die Technologie in die IT-Landschaft integriert werden muss.

Hat man eine Lösung in Produktion gegeben, gilt es diese Lösung zu überwachen und gegebenenfalls zu reparieren oder verbessern (“Concept drift”). Diese Post-Deployment Service Maintenance ist nötig sehr früh mit anzudenken, da sie sauber in die IT-Prozesse überführt werden muss, da sonst ggf. Prozesse oder Kanäle versuchen auf einen Service zuzugreifen, der nicht verfügbar, nicht aktuell ist oder einfach falsche Informationen liefert.

Beteiligte Rollen im Bereich Data Science

Data Science Rollen: Data Scientist, Data Engineer, Data Analyst und Business Stakeholder
Data Science Rollen: Data Scientist, Data Engineer, Data Analyst und Business Stakeholder

Wie bereits mehrfach erwähnt, sind in der Datenwissenschaft viele Rollen beteiligt. Hier führen wir alle Rollen auf, geordnet nach dem Auftreten ihrer Häufigkeit im Prozess.

Data Scientists

Die Rolle, die im Zentrum von Data Science steht, ist selbstverständlich der Data Scientist selbst. Hier gibt es verschiedene Interpretationen, welche Aufgaben die Rolle übernehmen soll. Als Generalist deckt er üblicherweise den gesamten Prozess ab, während es allerdings in immer mehr Organisationen dazu kommt, dass die Rolle spezialisiert wird. Generell fallen folgende Aufgaben in das Portfolio des Data Scientists:

  • Use Case Verständnis, Anwendungsfall definieren und Lösung konzeptionieren
  • Datenidentifikation und -extraktion zum Use Case
  • Explorative Datenanalyse, Feature Engineering
  • Machine Learning Modellierung, Evaluation und Optimierung
  • Ausspielen der Information oder des Modells

Business Stakeholder / Domänenexperte

Domänenexperten sind am zweitwichtigsten in jedem Data Science Projekt, da sie die Schnittstelle zur Erfahrung und Bewertung des Erfolgs von Anwendungsfällen darstellen. Folglich ist eine enge Kooperation mit der Fachexpertise von fundamentaler Relevanz, um sinnvolle und geschäftlich tragbare Use Cases zu entwickeln.

  • Definition von Anwendungsfällen
  • Bewertung von strategischer Wichtigkeit und erwartetem Ertrag
  • Ansprechpartner für Domänenexpertise und -erfahrung
  • Evaluierung der Nutzbarkeit und des Erfolgs des Ergebnisses

Data Engineers

Wo keine Daten, da keine Analyse. Auch wenn Data Scientists oft im Rampenlicht der Analyse von Daten stehen, sind es doch Data Engineers, die erst die Grundlagen dafür schaffen. Sie unterstützen den Data Science Prozess mittels folgendem Einsatz:

  • Aufbau und Pflege von Dateninfrastruktur, Datenbanken und Cloud-Services
  • Aufbau und Pflege von Datenpipelines zur Erfassung und Konsolidierung von Daten
  • Bereitstellen von Schnittstellen für Datenkonsumenten
  • ggf. Ausspielen der Lösungen und Model Deployment

Data Architects

Wenn man sich auf Enterprise-Ebene mit dem Thema Daten-Infrastruktur befasst, wird man schnell bei den Data Architects fündig. Die Datenarchitekten übersehen die gesamte IT-Infrastruktur-Landschaft und verantworten folgende Prozesse:

  • Einordnen von Daten-Infrastruktur in die IT-Landschaft des Unternehmens
  • Definition und ggf. Aufbau von Lösungen für Anforderungen von Anwendungsfällen, u.a. Data Warehouse und Data Lake
  • ggf. Verantwortung von Themen wie Sicherheit und Zugriffskontrolle

Data Analysts / Business Analysts

“Was ist der Unterschied zwischen Data Analysts und Data Scientists?” lautet eine der am häufigsten gestellten Fragen in der Datenwissenschaft. Kurz gesagt ist der Unterschied: Data Analysts arbeiten meist nur mit strukturierten Daten aus Data Warehouses und bearbeiten Ad-Hoc Analysen aus der Domäne, während Datenwissenschaftler in jedem dieser Aspekten mit höherer Varianz arbeiten. Dennoch unterstützen Datenanalysten den Prozess in folgenden Aspekten:

  • Definition von Datenquellen die auf den Anwendungsfall passen
  • Unterstützung bei der deskriptiven Datenanalyse und Feature Engineering
  • Unterstützung bei der Visualisierung von Daten, zum Beispiel mittels Dashboards

DevOps / IT

Wie dem Data Science Prozess folgend, wird der Zeitpunkt erreicht werden, dass ein Machine Learning Modell oder ein anderes Skript operationalisiert werden soll. Um diese Aufgabe mit entsprechender Software Solutions Expertise zu lösen, wird auf Ressourcen aus der IT-Abteilung zugegriffen. Die DevOps unterstützen den Prozess indem sie:

  • Einfügen von Data Science Lösungen in die IT-Gesamt-Landschaft
  • Bereitstellen von Schnittstellen zwischen DS Lösungen und anderen Kanälen (z.B. Website, Apps, ERP, CRM..)
  • Pflege und Monitoring von Uptime und Funktionalität der Lösung

Data Translator / Data Ambassador

Zu guter letzt eine Rolle, die noch nicht weit verbreitet ist, aber einen gewissen Hype erfährt. Der Data Translator bzw. Data Ambassador vermittelt zwischen der Fachexpertise im Data Science Bereich und den Stakeholdern in der Domäne. Konkret heisst das:

  • Inspiration und Definition von Anwendungsfällen
  • Consulting und Wissenstransfer in die Domäne und von der Domäne in die Fachexpertise
  • Übersetzen von fachlichen Ergebnissen aus dem Data Science Prozess für klares Verständnis im Business
Weitere Beiträge zum Thema Data Driven Company direkt per E-Mail bekommen:

Begriffsabgrenzung

Eine der Hauptschwierigkeiten im Thema Data Science sind die naheliegenden Begriffe und deren Unterscheidung. Daher möchten wir etwas Klarheit in den Buzzwordjungle bringen, indem wir Data Science anderen Begriffen gegenüber stellen und den Unterschied definieren.

Data Science vs. Data Mining

Data Mining bezeichnet das explorative Untersuchen vorliegender Daten auf neue Muster mittels statistischer und Machine Learning Methoden. Data Science ist sowohl in Prozess (Use Case Definition, Datenakquise, etc) als auch Methodik umfassender als Data Mining.

Data Science vs. Artificial Intelligence (AI) / Künstliche Intelligenz (KI)

Künstliche Intelligenz bezeichnet die Simulation von intelligenten Verhalten durch Algorithmen. Data Science nutzt diese Idee sehr stark, indem sie Methoden des Machine Learnings oder andere Algorithmen einsetzt. Jedoch sind KI und die Datenwissenschaft nicht deckungsgleich. Data Science bezeichnet einen Prozess, der weit über die Algorithmen hinaus geht (Use Cases, Datenakquisition, etc), während AI als Thematik auch nicht vollständig durch Data Science repräsentiert ist.

Data Science vs. Machine Learning (ML) / maschinelles Lernen

Machine Learning ist, wie im Data Science Prozess dargestellt, nur eine von vielen Methoden um Daten zu analysieren. Daher ist das maschinelle Lernen ein Werkzeug im Analyse-Schritt und sicherlich auch eines der Aushängeschilder von Data Science, jedoch nicht equivalent.

Data Science vs. Data Analytics

Datenanalyse beschreibt ein strukturiertes Vorgehen, bereits erfasste und geordnete Daten auf klare Anforderungen (z.B. KPIs) auszuwerten. Data Science hingegen umfasst eine höhere Bandbreite an Technologien, Datentypen, Auswertungsansätzen und Einsatzzwecken. Für Details zum Unterschied zwischen Data Science und Data Analytics, besucht unseren Artikel “Data Scientist vs Data Analyst: Was ist der Unterschied?”.

Data Science vs. Advanced Analytics

Advanced Analytics bezieht sich auf die eingesetzte Methodik in der Data Science, von daher müsste die korrekte Gegenüberstellung “Analytics vs. Advanced Analytics” heissen. Hier ist der Unterschied, dass Analytics vor allem deskriptiv (“Was ist passiert?”) oder teils diagnostisch (“Warum ist etwas passiert?”) analysiert, während Advanced Analytics mittels Machine Learning und Cognitive Computing auch prädiktiv (“Was wird passieren?”) oder präskriptiv (“Wie ist zu reagieren?”) analysiert.

Data Science vs. Data Engineering

Wie im Prozess erwähnt, ist Data Engineering die Akquise, Anbindung von Daten, das aufsetzen und pflegen von Datenbanksystemen und die Einrichtung von Cloud Services. All diese Dinge fallen in den Data Science Prozess in der zur Analyse vorbereitenden Phase. Gibt es nun in Unternehmen nur Data Scientiss als Generalisten, fällt Data Engineering oft auch in deren Aufgabenbereich. Optimaler ist jedoch, wenn das Unternehmen eigene Data Engineers hat, welche sich um diesen Aspekt kümmern.

Wie kann man Data Science lernen?

Im generellen gibt es inzwischen eine Vielzahl an Wegen, um Data Science zu erlernen. Dabei ist die Effizienz nicht immer gleich. In theoretischen Kursen wird viel grundlegendes Wissen vermittelt, die praktische Anwendung fehlt hingegen. Wer sich allerdings ohne Vorwissen in praktische Projekte stürzt, begeht teilweise fatale Fehler durch mangelnde statistische Kenntnisse oder Programmierstandards. Folglich lohnt für jeden, der sich ernsthaft für eine Ausbildung im Bereich von Data Science interessiert, eine Mischung aus den nachfolgenden Herangehensweisen.

Universitäre Ausbildung

Die wohl theoretischste Ausbildung findet inzwischen an den Universitäten statt. Mittels Bachelor- oder Masterprogrammen wird Data Science im universitären Kontext gelehrt und folglich auch mit Abschluss versehen. Die Erfahrungswerte über Sinnhaftigkeit einer solch formellen Ausbildung sind bis dato nicht klar, da es sehr junge und experimentelle Programme sind.

Fortbildungen / Zertifikate

Während an der Uni von der Pieke auf gelehrt wird, sprießen inzwischen eine Vielzahl an Fortbildungen oder Zertifikate aus dem Boden, die teilweise horrende Summen für zweitägige Seminare verlangen. Der Vorteil solcher Seminare ist die Vor-Ort-Präsenz und direkte Verfügbarkeit von Ansprechpartnern; die Nachteile die hohen Kosten und die verdichtete Wissensvermittlung. 

Online-Kurse

Online Data Science lernen kann effizient sein, leidet jedoch unter den Nachteilen, dass es keine direkte 1 zu 1 Betreuung gibt und die Kurse meist theoretisch gehalten werden. Der Vorteil ist ganz klar die geringen bis nicht vorhandenen Kosten und die freie Zeiteinteilung. Jede größere MOOC-Plattform bietet inzwischen Kurse zum Thema Data Science an.

Übungsprojekte

Näher an der Praxis sind Übungsprojekte, wie vor allem auf Kaggle zu finden. Hier werden Daten zur Verfügung gestellt und mit einem ganz klaren Analyseziel in einer Art Wettbewerb veröffentlicht. Der Vorteil ist, dass gewisse Teile des Data Science Prozesses sehr intensiv geübt werden können (vor allem Exploration und Machine Learning), andere hingegen komplett wegfallen (Use Case development, Deployment). Dennoch eine gute Ergänzung zu theorielastigeren Teilen wie Kursen und eine gute Möglichkeit, das Wissen berufsbegleitend zu erwerben.

Hands-on Erfahrung

Wer als Data Scientist arbeiten möchte, wird vor allem mit einer Frage konfrontiert werden: “Was für Projekte hast du schon durchgeführt?” Daher ist der Aspekt, praktische Erfahrung zu sammeln, auch das wichtigste für angehende Datenwissenschaftler. Da wir somit auf eine Art Henne-Ei Problem zusteuern (um eingestellt zu werden, braucht man praktische Erfahrung; um Erfahrung zu sammeln, muss man eingestellt sein), empfehlen wir klar auch fiktive Projekte abzuwickeln, um den Data Science Prozess durchzuexerzieren. 

Sei es eine Analyse von Twitterdaten mittels API und Cloud-Infrastruktur, ein Object recognition Algorithmus oder die Klassifikation von Bildmaterial: Wer sich durch den gesamten Data Science Prozess kämpft, macht schnell Bekanntschaft mit üblichen Problemen und kann diese dann selbstständig lösen.

Die einzige Gefahr besteht, dass man sich zu sehr Hals über Kopf in das Thema zu stürzen, ohne grundlegendes theoretisches Wissen. Daher empfehlen wir diese Hands-on Erfahrung vor allem nach oder in Kombination mit einer theoretischen Grundausbildung, um nicht fundamentale Fehler in der Entwicklung von Algorithmen zu machen.

Häufige Fragen zum Thema Data Science

Warum ist Data Science wichtig?

Data Science hat zwei Hauptaspekte, die für Unternehmen und andere Organisation von Bedeutung sind. Einerseits standardisiert es den Datenverarbeitungsprozess durch klar definierte Teilschritte. Dies führt zu besserer, effizienterer und auch durchsichtiger Nutzung von Daten. Andererseits erlaubt es, bisher unerkannte Muster zu entdecken. Dies erlaubt Initiativen in der Prozessoptimierung, Absatzerhöhung oder Erstellung von innovativen Geschäftsmodellen.

Diese beiden Aspekte zusammen mit der Tatsache, dass wir immer mehr Daten produzieren und speichern, wird Data Science immer zentraler werden. Vergleichbar zu klassischen Abteilungen wie dem Controlling oder einer IT wird jedes Unternehmen, jede Organisation sich mit Data Science beschäftigen und als Teil ihrer Unternehmensstrategie etablieren. Vielmehr wird es so tief in die Unternehmensprozesse verankert werden, dass es eine Natürlichkeit ist, auf Daten basierend zu arbeiten.

Wird Data Science in Zukunft automatisiert / Ist AutoML die Zukunft?

AutoML – automatisiertes Machine Learning – zielt darauf ab, viele der Data Science Prozessschritte zu automatisieren. Dies hat zur Folge, dass der Arbeitsaufwand für Datenwissenschaftler erheblich sinkt. Nun schlussfolgern manche, dass dies dazu führt, dass auch die Notwendigkeit für Data Scientists durch diese Demokratisierung der Fachexpertise ebenso sinkt.

Generell denken wir, dass AutoML sicherlich einen Teil der arbeitsintensiven Prozesse vereinfachen wird. Es gibt allerdings einige Aspekte, die ein automatisierter Algorithmus in naher Zukunft nicht übernehmen können wird: Vor allem die Anwendungsfalldefinition und Identifikation von passenden, themenbezogenen Daten istist bis dato eine menschliche Aufgabe. Auch die Interpretation und Ableitung von Wissen aus den Erkenntnissen schafft AutoML in diese Phase nicht.

Zusammengenommen werden einige Aufgaben von Data Scientists automatisiert werden, aber es wird noch genug Aufgaben geben, die sie erledigen müssen. Und bis AutoML die Standardherangehensweise wird, dauert ebenso noch eine Weile.

Kann man Data Science auch ohne Vorwissen / ohne Ausbildung praktizieren?

Wie im vorherigen Kapitel angemerkt, gibt es viele Möglichkeiten, sich im Thema Data Science aus- oder weiterzubilden. Doch kann man auch als Quereinsteiger ohne Vorwissen Data Science betreiben? Generell ist dies möglich, aber mit Abstrichen. Quereinsteiger sind in Data Science sehr häufig. Diese haben jedoch in großen Teilen einen IT- bzw. Programmierhintergrund, was bereits einige Aspekte des Prozesses abdeckt. Die Probleme beginnen in der fachlichen Evaluierung der Algorithmen: Es ist einfach, ein Machine Learning Modell zu trainieren; aber sehr schnell ist dies falsch gemacht und man leitet falsche Erkenntnisse ab.

Folglich empfehlen wir, definitiv die theoretischen Aspekte in Data Science zu beachten und sich in der Theorie von Statistik und ML ausbilden zu lassen, bevor man AI in Produktion einsetzt. 

Beispiele für die Anwendung von Data Science

Beispiele für den Einsatz von Data Science
Beispiele für den Einsatz von Data Science

Genug der Theorie – was sind konkrete Beispiele für die Anwendung von Data Science? Hier möchten wir ein paar Beispiele vorstellen, um die Datenwissenschaft fassbarer zu machen:

Customer Clustering zur Kundensegmentierung im Marketing

Seine Kunden besser kennen zu lernen ist eine der Hauptaufgaben im Marketing und der kundenzentrierten Produktentwicklung. Data Science leistet hier einen Mehrwert, indem es Kunden in Gruppen einteilt, die ähnliches Verhalten an den Tag legen. Dies geschieht mittels Clustering, eine Unsupervised Learning Methode von Machine Learning. Hat man solche Gruppen identifiziert, gilt es entsprechend individuelle Marketingmaßnahmen auszurollen, um somit besser auf die Bedürfnisse der Segmente einzugehen.

Ersatzteilerkennung mittels Bildklassifikation über eine App

Ein Beispiel für innovative Nutzung von Cognitive Computing und KI ist eine App für Ersatzteilerkennung. Mittels Kamera wird ein Bild eines Ersatzteiles aufgenommen, dieses durch Objekterkennung in ein Neuronales Netz eingespeist um somit als Klassifikationsergebnis die Produktnummer zu bekommen. Dies erlaubt eine Bestellung im Shop – einfach, direkt und die Kundenloyalität fördernd.

Predictive Maintenance in Industrie 4.0

Eines der am häufigsten genannten Beispiele für Data Science in der Industrie ist die Vorhersage von Wartung, Predictive Maintenance genannt. Hierzu werden Daten über die Produktion und die einzelnen Maschinen und deren Status genutzt, um eine möglichst genaue Vorhersage zu treffen, wann eine Wartung nötig ist. Das Ziel ist es, die Zeit zwischen Wartungen zu maximieren um Stillstand möglichst zu reduzieren, während man aber Zusammenbrüche von Maschinen vermeidet. Methodisch wird Machine Learning, vor allem Supervised Learning, eingesetzt.

Automatisierte Heizvorhersage für Wohnungen (Internet of Things)

Ein Beispiel für Data Science und AI aus dem Feld von Smart Technology, spezieller Smart Buildings als Variante von IoT, ist eine automatisierte Anpassung von Heizungen. Mittels verschiedenster Metriken über die Welt (Temperatur, Niederschlag, Jahreszeit..), die Wohnung (Dämmung, Energieverbrauch..) und das Verhalten der Bewohner (Arbeitszeiten, Wärmeempfinden..) wird eine Vorhersage generiert, wie warm die Wohnung sein soll – flexibel für Uhrzeit, Wochentag und anwesende Bewohner.

Weitere Beiträge zum Thema Data Driven Company direkt per E-Mail bekommen: