Datenqualitätsanalyse beim Ladevorgang in Data Warehouses am Beispiel der ETL-Prozesse der OÖGKK

Autor: P. Leitner
Masterarbeit: MT0807 (September, 2008)
Betreut von: o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von: Mag. Stefan Berger
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen: Kopie

Kurzfassung (Englisch)

Automated data cleaning is becoming more and more important because of the rapidly increasing amounts of data. Manual control of data is very difficult and time consuming. Therefore one must know about the different anomalies that may occur in their data to be able to identify and clean occurring anomalies. The "Oberösterreichische Gebietskrankenkasse" is aware of that problem. Due to that fact it is important to implement a new tool for ETL process control and to handle the huge amount of data faster and more efficient.

This work summarizes data cleaning techniques and reviews how the term data quality is defined in current literature. Therefore a classification of data quality dimensions is made. Furthermore this work presents different occurrences of poor data quality and categorizes them. It also illustrates that data cleaning is an iterative process in all state-of-the-art data cleaning methods.

From the practical viewpoint, this work analyzed and summarizes the methods and processes implemented in five different data cleaning tools. Each tool was evaluated, how efficiently it supports the goals of the ETL process control planned by the OÖGKK. This work contains the specification of a framework for an automated data cleaning process aligned for the OÖGKK (SofaP). Computed or saved reference values and boundary values are used for analyzing and data cleaning. The framework provides modularity. Therefore adaptations can be made easily.

Kurzfassung (Deutsch)

Automatisierte Plausibilitäts- und Fehlerkontrollen gewinnen im Zuge der immer größer werdenden Menge an zu verarbeitenden Daten vermehrt an Bedeutung, da dieses Datenaufkommen manuell nicht mehr kontrolliert werden kann. Zu diesem Zweck müssen Fehlerquellen in der eigenen Datenhaltung bekannt sein, sodass sie in weiterer Folge identifiziert und bereinigt werden können. Die Oberösterreichische Gebietskrankenkasse (OÖGKK) sieht durch das wachsende und zu bewältigende Datenmengenaufkommen daher Handlungsbedarf als gegeben an, um die eintreffenden Daten im Zuge des ETL-Prozesses schneller und effizienter analysieren zu können und um auftretende Anomalien zu identifizieren und zu beseitigen.

In dieser Arbeit wird der Begriff Datenqualität definiert. Hierbei wird eine Einteilung in unterschiedliche Datenqualitätsdimensionen vorgenommen. Es werden verschiedene Ursachen für mangelnde Datenqualität vorgestellt und eine Klassifizierung dieser vorgenommen. Außerdem wird ein möglicher Ablauf des Data Cleaning Prozesses dargestellt.

Es werden fünf ausgewählte Werkzeuge auf ihre Funktionalitäten in der Datenqualitätsanalyse sowie der Datenbereinigung untersucht. In weiterer Folge wird die Einsatzfähigkeit der untersuchten Werkzeuge in der OÖGKK diskutiert. Die Arbeit stellt das Konzept eines Softwarewerkzeuges für automatisierte Plausibilitätskontrolle (SofaP) mit dem Einsatzgebiet Oberösterreichische Gebietskrankenkasse vor. SofaP bedient sich vor allem gespeicherter bzw. berechneter Referenz- und Grenzwerte zur Durchführung der Datenbereinigung. Mit Hilfe eines modularen Aufbaus wird eine leichte Erweiterbarkeit des Softwareprogramms zur Verfügung gestellt.