In unserem Daten-Blog betonen wir immer wieder die zentrale Bedeutung von Datenqualität für den Unternehmenserfolg. Ein hohes Datenqualitätsniveau ist die Basis für echte Datenintelligenz und somit ein grundlegender Erfolgsfaktor für alle datengestützten Geschäftsprozesse und -modelle. Doch wie lässt sich eine kontinuierlich hohe Datenqualität sicherstellen?

Dieser Artikel beschreibt die externen und unternehmensinternen Anforderungen an Datenqualität sowie zwei Ansätze zur Messung. Außerdem bietet er einen ausführlichen Kriterienkatalog, der als Grundlage für die Messung der Datenqualität genutzt werden kann.

Gemäß dem Grundsatz „You can only improve what you can measure” gilt es zu Beginn eines Datenqualitätsprojekts, Anforderungen an die Daten zu bestimmen und diese in Datenqualitätsregeln auszuformulieren.

Die Messung der Datenqualität erfolgt anhand der Überprüfung von Datenqualitätsregeln. Dazu empfiehlt sich eine Kombination aus quantitativer Messung, die mit einer Analysesoftware automatisiert und quasi in Echtzeit direkt auf den Datenbanken erfolgt, und einer qualitativen Erhebung mittels einer regelmäßig durchgeführten Befragung unter den Nutzern der Daten.

Was bedeutet Datenqualität?

Datenqualität ist ein multidimensionales Konstrukt, das durch mehrere Messgrößen bestimmt wird. Welche Dimensionen für die Datenqualität in bestimmten Szenarien relevant sind, hängt von den Prozessen, Anwendungsfällen, Anwendern und Systemen ab. Nach DIN ISO 8402 ist die Datenqualität als die Eignung von Daten für unterschiedliche Verwendungszwecke im Hinblick auf den Grad ihrer Erfassung und Generierung beschrieben.

Anforderungen an die Datenqualität

 Verschiedene Anforderungen charakterisieren ein Datenqualitätsprojekt. Sie entstehen durch die unterschiedlichen Anspruchsgruppen wie Anwender, Management und Rechtsabteilung und werden in Datenqualitätsregeln abgebildet. Die branchenspezifischen externen Anforderungen sind in der Regel offiziell bekannt und damit leichter zu identifizieren als die unternehmenseigenen Standards.

 Externe rechtliche Anforderungen sind durch Gesetze zum Inhalt der Daten, zur Form der Verarbeitung, Verfügbarkeit der Daten und Zugriffsregelungen festgelegt. Den Löwenanteil machen dabei steuerrechtliche und vertragliche Aufbewahrungsfristen und Pflichtangaben, die für bestimmte Branchen und Geschäftsprozesse gelten, aus.

Externe Referenzinformationen betreffen international tätige Unternehmen. Dazu zählen u. a. Compliance-Regeln für Kunden- und Geschäftsbeziehungen zur Prävention illegaler Geschäfte. Außerdem sind Vorgaben zur Datenspeicherung (z. B. Referenzlisten) und zum Austausch von Informationen (z. B. Branchencodes) zu beachten.

Zur Ermittlung der unternehmensspezifischen Anforderungen gilt es, Beschreibungen der Geschäftsmodelle, Datenmodelle, Schnittstellenbeschreibungen, Arbeitsanweisungen und Schulungsunterlagen zu untersuchen. Unter Verwendung der Methoden des Data Profiling und des Data Mining lassen sich aus dem Datenbestand zusätzliche Auffälligkeiten und Datenfehler erkennen, die als Grundlage für weitere Datenqualitätsregeln dienen.

Technische Anforderungen beschreiben schließlich Anforderungen, die sich aus der Wahl der IT-Systeme, Anwendungen und Datenbanken ergeben. Eine häufige Quelle für Datenqualitätsprobleme stellt der Austausch von Informationen zwischen den verschiedenen Systemen dar.

„You can only improve what you can measure”

Wie lässt sich die Datenqualität messen?

Im Anschluss an die Definition von Datenqualitätsregeln finden diese in der Datenlandschaft des Unternehmens Anwendung. So kann die Anzahl der Datensätze ermittelt werden, die den Regeln widersprechen. Unter Verwendung unterschiedlicher Metriken für die Datenqualitätskriterien wird eine objektive Datenqualitätszahl gebildet.

Es empfiehlt sich, zwei Arten der Datenqualitätsmessung im Unternehmen durchzuführen. Eine automatisierte quantitative Messung der Datenqualität wird durch den Einsatz von Softwaretools ermöglicht und kann direkt in den IT-Systemen und Datenbanken erfolgen. Diese sollte durch eine regelmäßige Befragung der Anwender und Datenqualitätsbeauftragten ergänzt werden.

Quantitative Messung der Datenqualität:

Diese objektive Datenqualitätsmessung lässt sich kontinuierlich durchführen und bietet einen Überblick über die Datenqualität in Echtzeit. Insbesondere der Erfolg von Maßnahmen zur Datenqualitätssteigerung, wie bspw. die Nutzung automatischer Prüfregeln im Datensystem oder die Einführung von Standards zur Anlage und Änderung von Daten, lässt sich anhand dieser Messwerte sehr gut beobachten.

Qualitative Messung der Datenqualität:

Die regelmäßige Durchführung von qualitativen Befragungen zur Datenqualität ergänzt die quantitativen Messungen. Je nach Unternehmensgröße sind Erhebungen im Abstand von sechs bis zwölf Monaten zu empfehlen. Dabei sollten sämtliche Personen befragt werden, die für die Neuanlage und Änderung von Daten in den gewählten Datenbanksystemen verantwortlich sind.

Diese Tabelle zeigt, welche Datenqualitätskriterien für die quantitative Messung der Datenqualität und für die qualitative Befragung geeignet sind.

Die Datenqualitätskriterien im Überblick

Die Kategorie Zeit umfasst Qualitätskriterien, die einen Zeitbezug aufweisen.

Die Kategorie Inhalt umfasst Qualitätskriterien, die sich auf die Güte der Dateninhalte beziehen.

Die Kategorie Nutzung umfasst Qualitätskriterien, welche sich auf die Verwendbarkeit der Daten durch den Nutzer beziehen.

Die Kategorie System umfasst Qualitätskriterien, die den Zugriff auf die Daten im System beschreiben.

Kategorie Quantitatives Kriterium Definition
Zeit Alter der Daten Zeitpunkt der Datenanlage oder -änderung
Alter der Fehler Entstehungszeitpunkt festgestellter Datenfehler
Inhalt Konsistenz Widerspruchsfreiheit der Daten
Gültigkeit Vertrauenswürdige und zuverlässige Daten
Fehlerfreiheit Übereinstimmung mit realen Werten
Vollständigkeit Angemessener Umfang und Detaillierungsgrad der Daten
Redundanzfreiheit Keine Dopplung von Informationen bei gleichzeitiger Gewährleistung des maximalen Informationsgehalts
Nutzung Änderungshäufigkeit Dokumentation der Aktualisierungsintervalle
Kategorie Qualitatives Kriterium Definition
Zeit Aktualität Die Daten bilden zu jedem Zeitpunkt die notwendigen Gegebenheiten der beschriebenen Objekte ab.
Rechtzeitigkeit Die für eine Aufgabe notwendigen Daten sind zum richtigen Zeitpunkt verfügbar.
Inhalt Detailliertheit Die Daten ermöglichen die Abbildung der Realität in der notwendigen Genauigkeit.
Verlässlichkeit Die Daten werden als valide und vertrauenswürdig wahrgenommen.
Verständlichkeit Die Daten sind für den Anwender unmittelbar verständlich und können für deren Zwecke eingesetzt werden.
Nutzung Wiederverwendbarkeit Die Daten können in sich ändernden Rahmenbedingungen (z. B. Prozesse oder Systeme) genutzt werden.
Wertschöpfung Die Daten leisten im Prozess einen Mehrwert.
Benutzbarkeit Die Daten sind problemlos im Prozess verwendbar.
Selbst-Überprüfbarkeit Die Daten können vom Bearbeiter eigenständig auf inhaltliche Korrektheit überprüft werden.
Standardisierung Die Daten entsprechen einer definierten Struktur, sie folgen einer Syntax, die auf Regeln aufbaut und sind dadurch vergleichbar.
Sicherheit vor Veränderungen Die Daten werden durch ein Berechtigungssystem vor Verlust und unerlaubten Veränderungen geschützt.
System Performanz Die Daten sind in einer adäquaten Zugriffszeit innerhalb eines Prozesses verfügbar.
Verfügbarkeit Die Daten sind für berechtigte Personengruppen und zu jedem erforderlichen Zeitpunkt, Prozess und Ort zugreifbar.

Fazit

Datenqualität ist eine zwingende und grundlegende Voraussetzung für Datenintelligenz. Steigern Sie das Niveau Ihrer Datenqualität als Basis  für zukünftig smarte Entscheidungsprozesse.

Unser Autor Dr. Tobias Brockmann

Experten-Status & Know How

Er ist Mitglied im Fachbeirat des DataCampus und zuständig für das Ressort Stammdatenmanagement. Darüber hinaus engagiert sich Herr Brockmann in den Arbeitskreisen BigData und DataQuality der Netzgesellschaft Bitkom.

Weiterführende Informationen unter:

Quelle:

Hildebrand, Knut (Hrsg.): Daten- und Informationsqualität: Auf dem Weg zur Information Excellence. Wiesbaden: Vieweg + Teubner. 1. Aufl. 2008.

Aufmacherbild / Quelle / Lizenz