EMAD - EM Clustering mit aggregierten Daten

Autor: J. Messerklinger
Masterarbeit: MT0602 (September, 2006)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Dr. Mathias Goller
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen: Kopie

Kurzfassung (Englisch)

Clustering is a data mining task that is computationally intensive and shows an increasing runtime in large databases, so that its application in the process of Knowledge Discovery in Databases (KDD) can hardly be done efficiently. This work discusses the approach of anticipatory clustering, which reduces this problem by an application-independent preparation of all data via a clustering method. In a second step any data mining method will then use the prepared data for a specific analysis. Because of the generic preparation analyses can be executed repeatedly with modified parameters where the determination of the results is faster than with non aggregated data.

This work introduces the clustering method EMAD (expectation maximization with aggregated data) that is developed for the second step in the anticipatory clustering. For this reason the clustering method expectation maximization has been adjusted to be applicable to aggregated data. Experimental results from EMAD confirm that the algorithm exhibits a good scalability with large databases.

Kurzfassung (Deutsch)

Clustering ist eine Data-Mining Aufgabe, die auf Grund der vielen Rechenoperationen bei großen Datenmengen eine lange Laufzeit aufweist, sodass deren Anwendung im Prozess der Knowledge Discovery in Databases (KDD) nur bedingt effizient durchführbar ist. Der in dieser Arbeit angesprochene Ansatz des Vorausschauenden Data-Mining reduziert diese Problematik, indem die gesamten Daten zuerst anwendungsunabhängig mit Hilfe eines Clustering-Verfahrens aufbereitet werden. In einem zweiten Schritt verwendet ein beliebiges Data-Mining Verfahren die aufbereiteten Daten, um die konkrete Analyse durchzuführen. Auf Grund der Aufbereitung können mehrmals Analysen mit veränderten Parametern ausgeführt werden, wobei die Bestimmung der Endergebnisse schneller als mit nicht aggregierten Daten erfolgt.

Diese Arbeit stellt das Clustering-Verfahren EMAD (Erwartungsmaximierung mit aggregierten Daten) vor, dass für den zweiten Schritt des Vorausschauenden Data-Mining entwickelt wurde. Das Clustering-Verfahren Erwartungsmaximierung ist dabei für die Verwendung von aggregierten Daten angepasst worden. Untersuchungen von EMAD zeigten, dass dieses Verfahren bei großen Datenmengen eine gute Skalierbarkeit aufweist.