Entwicklung und Anwendung eines Werkzeugs zur Klassifikation von Daten nach dem KDD-Prozess

Author
R. Vogl
Master Thesis
MT1304 (October, 2013)
Supervised by
o. Univ.-Prof. Dr. Michael Schrefl
Instructed by
Dr. Michael Karlinger
Accomplished at
University Linz, Institute of Business Informatics - Data & Knowledge Engineering

Abstract (English)

Classication is a widespread and often-used data mining task. The steps involved in performing a data mining task are summarized and described in the KDD-process. Detailed descriptions of these steps and explanations of the dependencies among them are given in this thesis.

The task of this thesis is to divide projects into categories according to the success of these projects. Based on this classication, it is possible to estimate the expected success of ongoing projects. The goal is to identify ongoing projects, which show evidence that they can not be completed successfully. Performing the actual classification of projects should be as easy and quick as possible.

The result of this thesis is a tool that facilitates applying the KDD-process in order to solve classication tasks, such as the task to divide projects into categories according to the expected success. This tool allows to quickly and easily perform classication tasks without requiring users to have in-depth knowledge about the KDD process. The classification algorithms and techniques underlying the tool were chosen such that high-quality classification results are achieved even if only little data is available.

The developed tool has been used to solve the given task of classifying projects according to their expected success and the quality of the results produced by the supported classification algorithms have been evaluated according to several criteria.

Abstract (German)

Das Aufgabengebiet der Klassifikation im Arbeitsbereich des Data Mining stellt ein weitverbreitetes und viel genutztes Aufgabengebiet dar. Zur Lösung einer Klassifikationsproblemstellung sind mehrere Arbeitsschritte durchzuführen, welche im sogenannten KDD-Prozess abgebildet sind. In dieser Arbeit werden die einzelnen Schritte des KDD-Prozesses und ihre Abhängigkeiten untereinander detailliert beschrieben.

Die Problemstellung dieser Arbeit ist die Einteilung von Projekten in Kategorien, welche den voraussichtlichen Erfolg eines Projektes darstellen. Anhand dieser Einteilung soll möglichst bald im Projektablauf eine Aussage über den voraussichtlichen Erfolg eines Projekts getroffen werden können. Das Ziel ist die frühzeitige Identifikation von laufenden Projekten, welche Anzeichen zeigen, dass diese Projekte nicht erfolgreich beendet werden können. Diese Einteilung von Projekten in Kategorien soll so einfach und schnell als möglich durchgeführt werden können.

Das Ergebnis dieser Arbeit ist die Implementierung eines Werkzeugs zur einfachen Anwendung des KDD-Prozesses zur Lösung von Klassifikationsaufgabenstellungen, wie z.B. der Problemstellung der Einteilung von Projekten in Kategorien, welchen den voraussichtlichen Erfolg eines Projektes darstellen. Dieses Werkzeug ermöglicht eine schnelle und einfache Lösung von Klassifikationsaufgaben, ohne vom Benutzer Expertenwissen über den KDD-Prozess vorauszusetzen. Hierbei wird auf Algorithmen und Techniken zurückgegriffen, welche bei für Klassifikationsaufgabenstellungen geringem Datenvolumen möglichst hochwertige Resultate erzielen. Die in diesem Programm angebotenen Algorithmen werden daraufhin auf den gegebenen Anwendungsfall angewendet und die Eignungen der einzelnen Klassifikationsalgorithmen zur Lösung des Anwendungsfalles bewertet.