Datenaufbereitung: So picken Sie die Nuggets aus den Daten

Datenaufbereitung: So picken Sie die Nuggets aus den Daten

Reading Time:
9 min.
Wie viel Daten werden auf der ganzen Welt erhoben?

Was schätzen Sie, wie groß ist das jährlich gesammelte Daten-Volumen weltweit?

Haben Sie eine Zahl im Kopf? Auch hierzu gibt es eine Datenerfassung, weshalb wir laut Statista sagen können, dass im Jahr 2018 eine Daten-Menge von 33 Zettabyte weltweit generiert wurde.

Den Wenigsten sagt das auf Anhieb etwas, deshalb die Frage: Wie viel ist ein Zettabyte?

Ein Zettabyte beziffert die Speicherkapazität von 10²¹ Bytes oder in Zahlen 10.000.000.000.000.000.000.000. Eine Zahl, die schon beim Schreiben höchste Konzentration erfordert.

Ebenfalls interessant zu wissen ist, wie viel Terabyte ein Zettabyte ist? Immer noch 10⁹!

Die Länge der Zahlen allein machen schon Eindruck, aber der Umfang und die Ausmaße dieser Datenerhebung werden dabei noch nicht greifbar, oder?

Was kann helfen? Die Weiter-Verarbeitung dieser Daten, damit daraus Informationen entstehen, mit denen jeder Nutzer etwas anfangen kann.

Das heißt, die nackte Zahl wird in etwas umgewandelt, dass wir verstehen können und das einen AHA-Moment bei uns auslöst.

Und dank der Datenaufbereitung und Analyse von Statista erleben wir die 21 Nullen schon ganz anders:

Quelle: Statista – Datenverarbeitung macht Daten brauchbar und verständlich.

33 Zettabytes sind 660 Milliarden Standard-Blu-rays.

Überlegen Sie sich einmal wie viel Kilometer das sind! Eine Blu-ray-Disk ist ungefähr 1 Millimeter dick. Würde man diese aneinanderlegen, entspräche das 660.000 Kilometern. Der Umfang unserer Erde ist ca. 40.000 Kilometer.

Das heißt, mit der weltweit jährlich erhobenen Daten-Menge, gepresst auf diese Blu-rays, würden die aneinandergelegten Disks eine Straße ergeben, die 16,5 mal die Erde umwickelt.

Das ist doch erstaunlich! Und mit diesem Beispiel haben Sie schon direkt erlebt, inwiefern ein Datenaufbereitungsprozess und eine anschließende Analyse den Wert Ihrer Rohdaten im Unternehmen steigert. Unüberschaubare Excel-Tabellen werden zu etwas, dass bewegt, dass Ihr Unternehmen vorantreibt! Und in den Köpfen bleibt.

Was Datenaufbereitung aber genau ist und wie ein Datenaufbereitungsprozess schrittweise abläuft, dazu gleich mehr.

Vorab ist es noch spannend, sich die Prognose für das Jahr 2025 anzuschauen. Um wie viel wird sich voraussichtlich das Volumen der Datenerfassung steigern? Im Jahr 2025 werden schätzungsweise bereits 175 Zettabyte Daten weltweit erhoben. Das heißt, 5 mal so viele Daten wie noch im Jahr 2018. 5 mal so viele Blu-ray-Disks.

Ist das nicht Grund genug, sich in einer datengetriebenen Unternehmenswelt, eingehender mit Datenaufbereitung zu beschäftigen, um den verändernden Markt-Anforderungen gerecht zu werden und sich gleichzeitig Wettbewerbs-Vorteile zu sichern?

Beginnen wir zunächst mit einer pfeilgenauen Definition von Datenaufbereitung und dem Unterschied zur Analyse.

Definition: Was ist Datenaufbereitung?

Die Datenaufbereitung ist ein wichtiger Bestandteil im Prozess der Datenverarbeitung. Dieser beinhaltet sowohl die Bereinigung als auch die Transformation und die Plausibilitätsprüfung der Daten. Durch die Datenbereinigung werden Fehler ausfindig gemacht, doppelte Daten entfernt und fehlende durch entsprechende Ersatz-Werte ergänzt. Ohne diese Aufbereitung der Daten wären die Ergebnisse verfälscht und der Zweck der Datenerhebung verfehlt.

Aufgabe der Datenverarbeitung ist somit: Datensätze in einer Qualität zur Verfügung zu stellen, die eine verlässliche Analyse der Daten ermöglicht.

In Kombination sind Datenaufbereitung und die anschließende Analyse wie das Trennen der Spreu vom Weizen, um letztendlich im Ergebnis einen Kuchen präsentieren zu können.

Folgendes erweitert dieses Verständnis und erklärt diesen Vergleich noch besser.

Definition: Was versteht man unter Datenanalyse?

Durch die Analyse oder auch Auswertung der Daten, werden Rohdaten so miteinander verknüpft, dass sie gewinnbringende Informationen für Firmen liefern. Die Vorbereitung dieser Rohdaten ist Aufgabe der Datenaufbereitung.

Geschäftsmann stellt seine Analysen in diversen Diagrammen anschaulich dar.

Bestandteil der Analyse hingegen ist auch die Anreicherung der Daten, indem Datensätze durch zusätzliche Informationen ergänzt werden, um einen mehrwertstiftenden Kontext fürs Unternehmen zu schaffen. Zur Anreicherung greifen Analysten teilweise auf Fremd-Daten zu, die sie aus Google, Social Media oder von Dritt-Anbietern beziehen.

Um im vorherigen Bild zu bleiben, wurden in diesem Step zu ihren Rohdaten, vergleichbar mit Mehl, nachdem sie die Spreu vom Weizen getrennt hatten, weitere Zutaten wie Eier und Milch hinzugefügt, um in der Kombination Ergebnisse zu erzielen, die Ihnen Wettbewerbs-Vorteile bringen und Sie als Unternehmen ein großes Stück vom Kuchen erhalten!

Durch Anreicherung Ihrer Daten entsteht zudem ein Gesamtbild, auf dessen Grundlage, beispielsweise passgenauere Marketingkampagnen für Ihre Zielkunden kreiert werden. Ausschlaggebend hierfür ist immer die Qualität der Daten.

Gerade wenn Firmen darüber nachdenken, wo sie die nächste Filiale eröffnen, müssen zum Beispiel Kunden-Standort-Daten exakt stimmen, damit die Auswertungen strategisch-relevante Empfehlungen ergeben.

Warum Datenaufbereitung zwingend nötig?

Die Datenaufbereitung hat als Ziel Unternehmen in ihren Herausforderungen zu unterstützen, indem sie eine solide Basis für unternehmerische Entscheidungen bietet. So werden Strategien nicht mehr einfach aus dem reinen Bauch heraus getroffen, sondern sind anhand von Daten sinnvoll nachzuvollziehen und daher auch erfolgsversprechender.

Das ist nicht nur für Konzerne gewinnbringend, sondern gerade auch für kleine und mittlere Unternehmen. Auch sie können dank qualitativer Datenanalyse agiler auf die Bedürfnisse und Trends des Marktes reagieren und so die richtigen Produkte zur richtigen Zeit platzieren. So kann sich selbst mit kleinem Budget schon ein großer Wettbewerbsvorsprung ergeben.

Je besser ein Unternehmen darin aufgestellt ist, Auswertungen für bereits erhobenen Daten zu machen und gleichzeitig herauszufinden, welche Daten zukünftig noch relevant sind, desto mehr Vorteile im Wettbewerb sichert es sich.

Wie lassen sich die Aufgaben der Aufbereitung und Verarbeitung von Daten meistern? Welche Hindernisse gilt es aus dem Weg zu räumen?

Herausforderungen bei der Datenaufbereitung

Fehler in der Datenaufbereitung können unter Umständen fatale Folgen haben. Ein Komma versetzt und schon stimmt die ganze Prognose nicht. Daher empfiehlt es sich immer im Vier-Augen-Prinzip zu arbeiten, um Fehler zu minimieren.

Ein weiterer Grundsatz ist „Business drives IT“. Das heißt, dass vor lauter Daten, Zahlen und Fakten nie der Kontext aus den Augen verloren werden darf. Um dem vorzubeugen, helfen regelmäßige Reviews sowie eine enge Teamarbeit zwischen IT-Abteilung und den Business-Stakeholdern.

So stellen Sie sicher, dass die Verarbeitung und Analyse der Daten den Anforderungen der Aufgaben entsprechen und nicht vom Kern-Thema abweichen, sondern den Zweck der genauen Fragestellung erfüllt.

Als nächste führen wir Sie durch den Prozess der Aufbereitung.

Datenaufbereitungsprozess Schritt für Schritt

  • Auswahl der Daten

Welche Daten sind zur Beantwortung dieser Fragestellung relevant?

  • Bereitstellen der Daten

Oft liegen die Daten in verschiedenen Datenbanken und in unterschiedlichen Datenformaten vor. Daher ist das erneute Formatieren der Daten für die darauffolgenden Schritte unerlässlich.

  • Zusammenführen der Daten

Für spätere Analysen, müssen alle notwendigen Daten aus den verschiedenen Datenbanken zusammengeführt werden. Dazu eignet sich eine gemeinsame Datei oder eine zentrale Datenbank, ein Data Warehouse.

  • Transformation der Daten

Eventuell müssen die Daten in ein anderes Format konvertiert werden.

  • Bereinigung der Daten

Die Daten werden einer Plausibilitätsprüfung unterzogen. Sind die erhobenen Daten glaubwürdig? Des Weiteren werden Daten auf Vollständigkeit und etwaige Ungenauigkeiten überprüft, da diese sonst die Ergebnisse verfälschen. Doppelte Werte werden entfernt. Durch Datenbereinigung werden potenzielle Fehler schnell identifiziert und behoben.

Die Bereinigung der Daten zur Beseitigung von Fehlern, ist ein wichtiger Teil im Datenaufbereitungsprozess.

Wie bereits erwähnt, ist die wichtigste Aufgabe der Aufbereitung die Qualität der Daten sicherzustellen. Wie gelingt dies?

Kriterien zur Prüfung der Datenqualität

Wann Daten von hoher Qualität sind, lässt sich anhand der folgenden 5 Kriterien messen:

  1. Validität Passen die Die zur Aufgabe beziehungsweise Fragestellung?
  2. Genauigkeit Die Datensätze müssen die reale Welt so genau wie möglich darstellen. Das heißt, sie eigenen sich um fundierte Entscheidungen in Folge dessen zu treffen.
  3. Vollständigkeit In allen Datensätzen müssen jeweils alle nötigen Attribute enthalten.
  4. Konsistenz Die Qualität der Daten wird zusätzlich davon bestimmt, dass sie widerspruchsfrei sind.
  5. Einheitlichkeit Für eine erfolgreiche Analyse, in der Daten einander gegenübergestellt werden, bedarf es durchweg gleicher Maßeinheiten, sonst werden Zahlen oder Dinge miteinander verglichen, die sich nicht vergleichen lassen.

All diese Kriterien zu überprüfen und die Prozess-Schritte der Datenaufbereitung durchzuführen ist sehr zeitintensiv.

Was schätzen Sie, wie hoch ist der Zeit-Einsatz der Data-Analysten für die Datenaufbereitung im Verhältnis zur eigentlichen Analyse?

Wie im Forbes Magazine angegeben, verwenden Analysten für die Datenaufbereitung 80 % ihrer Zeit, wohingegen sie für Analysen nur 20 % ihrer Zeit einsetzen. Daher entsteht zwangsläufig die Frage: Lässt sich im Datenaufbereitungsprozess manches verschlanken, so dass es weniger Ressourcen in Anspruch nimmt?

Automatisierte Datenaufbereitung

Einzelne Aktivitäten in der Datenaufbereitung lassen sich automatisieren und schonen damit entsprechend Ressourcen. Dies gelingt über zuvor definierte und teilweise programmierte Regeln, für dessen Umsetzung Fachwissen nötig ist.

Welche Maßnahmen in der Datenaufbereitung sind automatisierbar?

  • Die Auswahl der Daten aus verschiedenen Quellen.
  • Der Export der Daten aus der Quelldatei in die Data Mining Datenbank (die systemische Anwendung, um Muster, Trends und Zusammenhänge in den Datensätzen zu entdecken).
  • Transformation (Migration) der Daten in andere Formate.
  • Ersetzen von fehlenden Daten durch die geeigneten Ersatzwerte, Prüfung auf Plausibilität und Korrektur von Inkonsistenten.

Außerdem gibt es Tools die bei der Integration einer Data governance unterstützen, die durch festgelegte Rollen, Richtlinien und Standards eine effiziente und sichere Datennutzung gewährleisten. Einfach erklärt ist eine Data governance ein Datungsverwaltungskonzept. Haben Sie dieses Konzept erarbeitet, lässt sich das mithilfe eines Tools für alle Mitarbeiter, die als Benutzer eingetragen sind, übersichtlich darstellen. So entwickeln sie einen work-flow zur optimalen Verarbeitung Ihrer Daten.

Was lässt sich zusammenfassend sagen?

Datenaufbereitung Vorteile auf den Punkt gebracht

Wie in diesem Artikel deutlich geworden ist, bringt die reine Sammlung von Daten noch lange nichts. Was ist jedoch nötig, um aus den Daten die Golden Nuggets zu picken – das, was Ihrem Unternehmen den Drive für die Zukunft gibt? Die Antwort ist: Verarbeitung und Auswertung der Daten. Auf diese Weise hauchen Sie nackten Zahlen Leben ein und erhalten die Basis für fundierte Entscheidungen und agiles Vorgehen!

Damit Ihre Golden Nuggets nicht verloren gehen, lesen Sie gerne in diesem Artikel: Welche Lösungen gibt es für eine optimale Datenarchivierung?

Reading Time:
9 min.

Diese Beiträge könnten Sie auch interessieren