Kombiniertes Data Mining: Effiziente Generierung von Hilfsinformationen während des Clustering

Autor: K. Stöttinger
Masterarbeit: MT0403 (Mai, 2004)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Dipl.-Wirtsch.-Inf. Mathias Goller
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen: Kopie

Kurzfassung (Englisch)

Some questions in Data Mining can only be solved with a combination of different Data Mining methods, like Clustering, Classification and Association. Existing works consider the combined Data Mining methods separately.

This work introduces the term of "Combined Data Mining". As a result of the "Combined Data Mining" the combined methods should be regarded as a unit. The aim is to end up in a better result, in terms of quality, interpretability and efficiency. One possibility is to generate additional information in the first method, which could be used by the second method.

Clustering and Classification will be combined within this work. Therefore the two Clustering algorithms K-Means and DBSCAN will be implemented. These algorithms are predecessors and will generate as much additional information as possible for a classification. One aim of this work is to investigate the possible further information, which could be generated in the Clustering. Another aim is the investigation of the additive effort that accrues when the additional information will be generated.

Kurzfassung (Deutsch)

Verschiedene Fragestellungen im Data Mining können nur durch eine Kombination der verschiedenen Data Mining Verfahren, wie Clustering, Klassifikation und Assoziation, beantwortet werden. In den bestehenden Ansätzen wird die Kombination der Data Mining Verfahren losgelöst voneinander betrachtet.

Diese Arbeit führt den Begriff des "Kombinierten Data Mining" ein. Dabei werden die verwendeten Data Mining Verfahren nicht mehr isoliert betrachtet, sondern als Einheit – mit dem Ziel aus Sicht der Qualität, Interpretierbarkeit und Effizienz ein "besseres" Ergebnis zu erreichen. Eine Möglichkeit besteht darin im ersten Verfahren Hilfsinformationen zu berechnen, die im Nachfolgeverfahren Gewinn bringend verwendet werden können.

Im Rahmen dieser Arbeit werden Clustering und Klassifikation miteinander kombiniert. Dazu wird eine Implementierung der beiden Clustering-Algorithmen K-Means und DBSCAN vorgestellt, die als Vorgängerverfahren so viele Hilfsinformationen wie möglich für eine Klassifikation generieren. Untersucht werden die möglichen Hilfsinformationen, die während des Clustering erzeugt werden können, und der Mehraufwand, der durch diese Ermittlung der Hilfsinformationen, in Form einer längeren Laufzeit der Algorithmen, entsteht.