Was sind eigentlich Daten?

Alle reden von Big Data, Data Science und Datenanalyse. Doch was ist eigentlich mit “Daten” gemeint? Generell werden erfasste Zahlen, Text oder andere Werte als “Daten” bezeichnet. Ein Datum – die Einzahl von Daten – kann somit nicht nur das Geburtsdatum einer Person sein, sondern sehr wohl auch das Alter, die Haarfarbe oder ein Foto.

Welche Arten von Daten gibt es?

Bereits in diesem ersten Abschnitt merkt man, dass eine hohe Bandbreite an Daten gibt. Es ist ein sehr breiter Begriff, der viele Arten von erfassten Dingen bezeichnet. Als Basis muss man die existierenden Datentypen betrachten:

  • Binäre Daten: Die älteste Datenart ist “binär”, also entweder 0 oder 1. Mit binären Daten, sehr eng verwandt mit boolschen Daten (“wahr” / “falsch”), kann also ein einfacher Status dargestellt werden – etwa “an” oder “aus”. Binäre Daten sind die einzigen Datentypen die direkt von der Hardware eines Computers verarbeitet werden können.
  • Numerische Daten: Mit binären Daten kann man Zahlen darstellen. Das auch als “Zweiersystem” bezeichnete Vorgehen nutzt eine Anordnung von Nullen und Einsen um andere Zahlen dar zu stellen. Die 5 wäre beispielsweise als 0101 repräsentiert. Somit können alle Zahlen von 0 bis 9 dargestellt werden.
  • Zeichen, Strings oder Text: Einzelne Buchstaben lassen sich zu Strings (= Wörter) oder eben einen ganzen Text zusammensetzen.
  • Bild und Ton: Multimedia-Daten wie Fotos, Videos oder Audio basieren wiederum auf den vorhergehenden Datentypen. Ein Bild ist zum Beispiel nichts anders als eine kodierte Anordnung von numerischen Werten, die einen Farbwert je Pixel definieren. Videos das gleiche nur eben mit einer zusätzlichen Dimension “Zeit”. 
  • Andere Daten: Ergänzend dazu gibt es selbstverständlich noch hunderte anderer Datentypen wie Listen, Arrays, Zeit, oder Verfeinerungen wie Double, BLOB, etc. Doch all diese basieren wiederum nur auf den vorhergehenden Grundtypen.

Zeichen vs. Daten vs. Information vs. Wissen

Wer sich beim vorhergehenden Abschnitt gelangweilt hat, denkt nicht mehr in Daten sondern in Informationen oder sogar bereits dem Wissen. Dieses als “Wissenspyramide” bezeichnete Konzept besagt, dass Zeichen (zum Beispiel “1”, “4”, “2”) nur mit Syntax zu Daten (z.B. “1,42”) wird. Ein Datum hingegen kann erst durch Kontext (z.B. “1,42€”) zur Information transformiert werden. Setzt man dann noch Erfahrung darauf (z.B. “Wechselkurs 1,42€”), erhält man Wissen.

Für uns heisst das: Als Daten werden eigentlich nur die “roh” erfassten Werte bezeichnet, ohne eine semantische Interpretation, die es bereits zur Information werden lassen. Also die reinen Zahlen, Zeichen oder binären Werte. Sprechen wir hingegen von Bildern, Bewegungsdaten, Kundendaten oder ähnlichem, befinden wir uns bereits auf der Informationsebene.

Strukturierte, semi-strukturierte und unstrukturierte Daten

Einer der größten Unterschiede der im Bereich Daten, vor allem in Data Analytics und Data Science, gemacht wird, ist zwischen strukturierten, semi-strukturierten und unstrukturierten Daten. Diese Unterscheidung bezieht sich auf die Erfassungsart einerseits, aber denotiert sogleich auch wie auf diese Daten zur Auswertung zugegriffen werden kann.

Strukturierte Daten sind, einfach gesagt, tabellarische Daten. Ein Datensatz von Kunden mit Name, Adresse und Jahresumsatz wären klassische strukturierte Daten. Diese Datenkategorie ist tief in den Unternehmen verankert. Excel-Files, Controlling, Transaktionsdaten – all diese Daten sind strukturiert, erfasst und gepflegt. 

Als semi-strukturiert bezeichnet man Daten, die meist als Key-Value-Pairs gespeichert werden, aber nicht vollständig sein müssen. Als Beispiel wäre ein Datensatz, bei dem sowohl Kunden als auch Lieferanten im gleichen Format gespeichert werden – sich jedoch in den Attributen (zum Beispiel “Lieferkonditionen”) unterscheiden. Klassische Formate sind hierbei JSON.

Unstrukturierte Daten hingegen sind das Ziel vieler Initiativen im Bereich Data Science. Diese Kategorie “Big Data” umfasst Daten wie Bilder, Text (zum Beispiel Social Media oder PDFs) und Audio. Hierzu gibt es keine einfache Erfassung des Datums an sich, sondern es können viele Informationen extrahiert werden. Zum Beispiel ist ein Bild einmal gespeichert, kann aber dann auf eine Vielzahl an Parameter analysiert werden (z.B. Auflösung, Farbgebung, Inhalt, Kameratype,..). Unstrukturierte Daten beherbergen somit ein sehr hohes Informationspotential – aber ebenso kostet es viel Aufwand, diese Daten zu verarbeiten.

Der Einsatz von Daten: Beispiele

Nun ist in der Theorie klar, was Daten sind. Aber wieso werden Daten als das neue Öl gehandelt? Der Grund dafür liegt an der Information bzw. dem Wissen das man aus den vorliegenden Daten extrahieren kann. Durch den Einsatz von Datenanalyse, künstlicher Intelligenz und anderen Data Science Methoden kann das Verhalten von Menschen und Maschinen quantifiziert, Erkenntnisse gewonnen und im besten Fall die Zukunft vorhergesagt werden. Hier einige einfache Beispiele, weshalb Daten so interessant für Unternehmen und andere Organisationen sind:

  • Kundendaten: Durch einen strukturierten Kundendatensatz, gegebenenfalls kombiniert mit unstrukturierten Kommunikationsdaten wie E-Mails, kann man sehr gut und deutlich auswerten ob die Kunden zufrieden sind und wie man sie am besten ansprechen sollte.
  • IoT-Sensordaten: Technologie, die Bilder und Geräusche aufnimmt erlaubt Bilderkennung, Analyse von Audio-Informationen und entsprechende Adjustierungen des Geräts, zum Beispiel die Steuerung einer Heizung oder das Öffnen der Tür für relevante Personen.
  • Verhaltensdaten: Umso mehr man über das Verhalten von Menschen als Daten erfassen kann (zum Beispiel Einkäufe, SMS, Bewegungsdaten), umso besser kann man das zukünftige Verhalten vorhersagen.
  • Textdaten: Durch Verarbeitung von riesigen öffentlichen Textmengen mittels Machine Learning und Neuronalen Netzen kann man Modelle trainieren, die selbst Texte schreiben. Eines der bekanntesten Beispiele in diesem Bereich ist GPT-3.

Probleme beim Einsatz von Daten

Natürlich gibt es auch Herausforderungen beim Aufnehmen, Speichern und Auswerten von Daten. Einige Beispiele für die Probleme von Daten sind:

  • Datenmengen: Es werden teilweise unglaubliche Datenmengen produziert, die sehr schwierig zu erfassen, aber noch schwieriger auszuwerten sind
  • Datenqualität: Erfasste Daten sind oft nicht konsistent, korrekt oder aktuell
  • DSGVO: Personenbezogene Daten wie Namen oder Adressen unterliegen strikten Richtlinien
  • Expertise: Es erfordert Data Scientist Experten um derartige Daten auszuwerten

Was sind eigentlich Daten? Einfach gesagt.

Daten sind erfasste Bruchstücke der Realität, die mittels Kontext zu Informationen angereichert werden können. Ob nun strukturiert (tabellarische Zahlen, zum Beispiel Umsatzzahlen) oder unstrukturiert (z.B. Social Media, Video): Viele Unternehmen sehen den Wert von Daten und investieren viel, um die nächsten Schritte auf dem Weg zur Data Driven Company zu gehen.