Knowledge Discovery in Databases

Knowledge Discovery in Databases (KDD), auf Deutsch Wissensentdeckung in Datenbanken, ergänzt das oft synonym gebrauchte Data-Mining um vorbereitende Untersuchungen und Transformationen der auszuwertenden Daten.

Ziel des KDD ist die Erkennung bislang unbekannter fachlicher Zusammenhänge aus vorhandenen, meist großen Datenbeständen. In Abgrenzung zum Data-Mining umfasst KDD als Gesamtprozess auch die Vorbereitung der Daten sowie die Bewertung der Resultate.

Der Begriff KDD wurde in wissenschaftlichen Kreisen von Gregory Piatetsky-Shapiro geprägt, während in der Praxis der Begriff Data-Mining geläufiger ist, der in der Statistik jedoch traditionell negativ besetzt ist.

Die Teilschritte des KDD-Prozesses sind:

  1. Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
  2. Definition der Ziele der Wissensfindung
  3. Datenauswahl
  4. Datenbereinigung
  5. Datenreduktion (z. B. durch Transformationen)
  6. Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
  7. Data-Mining, die eigentliche Datenanalyse
  8. Interpretation der gewonnenen Erkenntnisse

Üblicherweise werden diese Schritte mehrfach durchlaufen. Ein verbreitetes Vorgehensmodell ist der Cross-Industry Standard Process for Data-Mining (CRISP-DM).