Aus dem Kurs: Einführung in grundlegende Fähigkeiten für Ihre Karriere in der Datenanalyse

Bewertung und Anpassung der Daten zur Transformation

Aus dem Kurs: Einführung in grundlegende Fähigkeiten für Ihre Karriere in der Datenanalyse

Bewertung und Anpassung der Daten zur Transformation

Haben Sie schon von Datenprofilerstellung gehört? Dabei erstellen wir ein allgemeines Merkmalsprofil der Daten, die wir bearbeiten. Wir sollten diesen Ansatz auf jeden Datensatz anwenden. Das beste an der Profilerstellung ist, dass wir anhand dieses Ansatzes allgemeine Kenntnisse über die bearbeiteten Daten erlangen können. Durch eine Profilerstellung erfahren wir ein paar ziemlich nützliche Dinge. Es zeigt uns, wie viele Daten in einem Satz sind. Oder auch was die Gesamtzahlen oder Mittelwerte sein können. Dies hilft uns, unsere Zahlen später zu validieren. Es kann uns auch über die durchzuführende Bereinigung informieren, bevor wir unsere Daten transformieren. Hier habe ich einige Auftragsdaten. Ich möchte sie profilen, um einen Bericht zu den Aufträgen zu erstellen. Ich beginne damit, die Datenmenge zu profilen. Ich möchte die Anzahl Datensätze sehen. Welche Datenanzahl habe ich in diesem Datensatz? Dafür klicke ich auf Spalte A und verwende die automatische Berechnungsfunktion unten rechts auf dem Bildschirm. Bei mir sind alle automatischen Berechnungsfunktionen aktiviert. Einfach mit der rechten Maustaste in den Bereich klicken und die benötigten Optionen auswählen. OK, super. Ich kann jetzt sehen, dass es »Anzahl« und »Numerische Zahl« gibt. »Anzahl« zählt alles, was ich markiert habe, und »Numerische Zahl« zählt nur die Zahlen. In dieser Datensatzgruppe habe ich also 3500 Auftragsdatensätze. Es gibt auch Summe und Mittelwert. »Summe gesamt« zeigt uns, wie viel Geld in dieser Datensatzgruppe dargestellt ist. Ich markiere Spalte L. Und dies zeigt mir, dass in der Spalte »Summe gesamt« rund 33 Millionen 715 Tausend Euro dargestellt sind. Es zeigt mir auch einen Mittelwert von 9633 Euro. Jetzt zum Mittelwert der Zwischensumme. Dies ist das Geld vor Steuern und Fracht. Es beträgt rund 8581 Euro. Und die Gesamtsumme rund 30 Millionen. Zahlen wie 60 Millionen oder 66 Millionen würden also auf ein Problem in meinen Daten hinweisen. Die Gesamtsumme zu kennen, ist später für die Validierung wichtig. Datenprofilerstellung ist so einfach. Aber davon ausgehend gibt es noch viel zum Profilen von Daten zu lernen. Sie ist schließlich auch für die Datenbereinigung hilfreich. Betrachten wir Spalten B, C und D. Es handelt sich um Bestelldaten. Es sind aber nur Nullen zu sehen. Per Klick auf B2 kann ich ein Datum sehen, das wegen der Formatierung unsichtbar war. Außerdem brauche ich für meine Berichterstellung diese Zeitstempel nicht, die alle auf Mitternacht gestellt sind. Jetzt weiß ich, dass ich die Datumsangaben bei der Datenbereinigung angehen muss. Es gibt weitere Optionen zu entdecken, während wir tiefer in unsere Daten und andere Tools vordringen. Was ich gezeigt habe, kann aber jeder zum Profilen von Daten in Excel verwenden.

Inhalt