Aus dem Kurs: Einführung in grundlegende Fähigkeiten für Ihre Karriere in der Datenanalyse

Gebräuchliche Bereinigungen und Transformationen

Aus dem Kurs: Einführung in grundlegende Fähigkeiten für Ihre Karriere in der Datenanalyse

Gebräuchliche Bereinigungen und Transformationen

In Ihrem Sortiment an Bereinigungs- und Transformationstools sollten ein paar gängige Artikel enthalten sein. Andere werden eher für Daten spezifisch sein, die nur Sie bearbeiten. Fangen wir mit allgemeiner Bereinigung an. Leerzeichen sind zwar unsichtbar, aber trotzdem Zeichen. In der Regel möchten Sie zusätzliche Leerzeichen aus Feldern entfernen. Es gibt führende Leerzeichen, die am Anfang eines Feldes stehen. Es gibt nachstehende Leerzeichen, die am Ende eines Feldes stehen. Führende oder nachstehende Leerzeichen lassen sich mit Funktionen wie »Glätten« oder »Säubern« entfernen. Das Unterteilen von Text wird auch Analysieren von Text genannt. Dies ist mit jeder Art von Trennzeichen möglich, und in jedem Programm etwas anders, aber das Ergebnis ist immer dasselbe. Leerzeichen dienen auch als Trennzeichen, wie die gültigen Leerzeichen zwischen Wörtern. Denken Sie an Vor- und Nachname. Falls wir Nach- und Vorname in jeweils eigenen Spalten haben möchten, zum Sortieren zum Beispiel, verwenden wir das Leerzeichen, um die Spalten zu unterteilen. Aber nicht nur dafür analysieren wir Text mit Trennzeichen. Auch Textfelder lassen sich mit Gedankenstrichen oder sogar Kommas aufteilen. Auch »Text in Spalten«, »Teilen nach Trennzeichen«, und Funktionen wie »Links«, »Rechts« und »Mitte« sind nützlich. Wir teilen Text nicht nur auf. Manchmal müssen Textfelder auch miteinander verbunden werden. Dies ist gemeinhin als »Verketten« oder »Textkette« bekannt. Text wird auch durch gültigen Text ersetzt. Die eingegebene Abkürzung eines Bundeslandes würde zum Beispiel bei Bedarf durch die vollständig ausgeschriebene Version dieses Landes ersetzt. Schreibfehler lassen sich auch so korrigieren. Es gibt mehrere Methoden, um ungültige durch gültige Daten zu ersetzen. Auch Groß-/Kleinbuchstaben ändern sich. Mögliche Bespiele sind, dass alles groß oder klein geschrieben oder auf geeignete Groß-/Kleinschreibung korrigiert werden soll. Es gibt je nach Programm ähnliche oder etwas andere Befehle für diese Funktionen, aber das Ergebnis ist wieder dasselbe. Dies sind sehr einfach auszuführende Befehle in jedem Datenprogramm. Vielleicht sind Duplikate aus einem Datensatz zu entfernen, hierzu dienen Befehle wie »Duplikate entfernen« oder verschiedene Schlüsselwörter in Abfrageanweisungen. Wir transformieren auch Datentypen, damit die Daten sich dafür eignen, wofür wir sie benötigen. Vielleicht müssen Datumsfelder von Text- in einen echten Datumsdatentyp konvertiert werden, um datumsbezogene Funktionen anzuwenden. Dasselbe gilt für Zahlen: Wenn Sie mit mathematischen Funktionen arbeiten, dann muss der Wert des Feldes ein Zahldatentyp sein. Dies sind nur einige der Standardbefehle zum Bereinigen und Transformieren von Daten, die als erstes zu verstehen und zu beherrschen sind.

Inhalt