Garbage in - garbage out

Wer regelmäßig mit Daten arbeitet, hat den Satz „Garbage in – grabage out!“ mit Sicherheit schon mehr als einmal gehört – oder auch selbst verwendet. Ursprünglich stammt die Aussage aus der Informatik und bezieht sich auf fehlerhafte Eingaben bzw. Codes, die zu einem unbrauchbaren Ergebnis führen.

 

Datenqualität, Data Governance, Datenanalyse

Hochwertige Daten als Basis des Analyseerfolges

Die Aussage "Garbage in - garbage out" wird jedoch seit langer Zeit nicht mehr nur von Informatikern sondern auch von Datenanalysten und Modellierern verwendet, um auf ein gravierendes Problem hinzuweisen: ohne eine ausreichende Datenqualität kann auch das schönste statistische Modell und die beste Analyse keine aussagekräftigen und zuverlässigen Ergebnisse liefern. Die Qualität des Inputs (Daten) bestimmt maßgeblich die Qualität des Outputs (Analyseergebnis) mit.

 

Welche Kriterien zur Überprüfung der Datenqualität herangezogen werden, variiert etwas. In der Regel werden 7 bis 11 Kriterien genutzt:

 

1. Vollständigkeit: Insbesondere im Hinblick auf automatisierte Prozesse und Analysen ist die Vollständigkeit der vorliegenden Daten wichtig. Hierbei ist nicht nur relevant, dass alle benötigten Variablen vorliegen, sondern auch, dass es möglichst keine oder wenige fehlenden Werte innerhalb der Variablen gibt.

2. Aktualität: Veraltete Daten können Analysen verfälschen und ganze Prozesse verkomplizieren oder gar unmöglich machen. Die verwendeten Daten müssen daher immer eine dem Verwendungszweck angemessene Aktualität aufweisen.

3. Konsistenz: Innerhalb eines Datensatzes und auch im Vergleich zu anderen Datensätzen und -quellen dürfen keine inhaltlichen Widersprüche auftreten.

4. Einzigartigkeit oder Redundanzfreiheit: Dubletten sollten schnellstmöglich erkannt und entfernt bzw. zusammengeführt werden. Bleiben Dubletten unerkannt, können sie Auswertungen verzerren.

5. Konformität oder Einheitlichkeit: Innerhalb einer Variable sollten die Daten in einem einheitlichen Format erfasst werden. Idealerweise trifft dies bei gleichartigen Variablen auch variablenübergreifend innerhalb der Datensätze zu.

6. Genauigkeit: Die Daten müssen zwingend in einer für die Aufgabe ausreichenden Genauigkeit vorliegen. Ist dies nicht der Fall, können die benötigten Analysen nicht oder nicht mit der gewünschten Exaktheit durchgeführt werden.

7. Richtigkeit oder Korrektheit: Nur Daten, die ein korrektes Abbild der Realität darstellen, bieten eine verlässliche Datengrundlage für jegliche Analysen und Prozesse.

 

Oft werden auch noch die Kriterien

 

8. Eindeutigkeit: Datensätze müssen eindeutig interpretierbar sein.

9. Verständlichkeit: Die Daten müssen für den relevanten Rezipienten und Verarbeiter eindeutig verständlich sein.

10. Relevanz: Jede Variable und jeder Datensatz sollten Informationen enthalten, die für den Verwendungszweck relevant sind.

11. Zuverlässigkeit: Die Entstehung der Daten muss sich an die vereinbarten bzw. festgelegten Bedingungen halten.

 

verwendet, um die Datenqualität zu beurteilen.

 

Oft gibt es in Unternehmen keine Person (die sogenannte Data Stewardess), die für Fragen der Datenqualität zuständig ist. Dann hängt die Überprüfung und Einhaltung der Datenqualität oft stark davon ab, wie groß das Interesse der datenerstellenden und -nutzenden Parteien an den Daten ist. Gerade wenn Daten wenig intensiv genutzt werden oder jeder Unternehmensbereich seine Daten separat erfasst und verarbeitet (zur Problematik von Datensilos haben wir hier einen Blogbeitrag verfasst), kann es häufig zu Problemen kommen.


Abhilfe kann ein klares Data Governance oder Data Management-Konzept oder die Berufung einer Data Stewardess, die über die Datenqualität wacht, schaffen.

Begonnen werden sollte auf dem Weg zu mehr Datenqualität jedoch in einem ersten Schritt mit der Identifizierung der existierenden Probleme sowie einer Priorisierung der notwendigen Maßnahmen zur Verbesserung der Datenqualität. Sie sind sich unsicher, wie sie dies alles umsetzen können? Kontaktieren Sie uns, gerne begleiten wir Sie auf Ihrem Weg zu einer höheren Datenqualität.