Extending data warehouses with hetero-homogeneous dimension hierarchies and cubes: A proof-of-concept prototype in Oracle

Autor
C. Schütz
Masterarbeit
MT1002 (Februar, 2010)
Betreut von
o. Univ.-Prof. Dr. Michael Schrefl
Angeleitet von
Mag. Bernd Neumayr
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie
Implementierung

Kurzfassung (Englisch)

Data warehouses integrate data from various, mostly heterogeneous sources to provide business executives with the necessary information for a founded strategic analysis. A common issue in data warehousing is the design of the extract, transform, and load (ETL) process which serves as a link between operational databases and the corporate data warehouse. Before the data can be loaded into the data warehouse, the heterogeneous, conflicting schemata need to be reconciled. The schema conflicts are resolved during the transformation phase of the ETL process. The integration of the heterogeneous data sources is arguably the most complex task in managing data warehouses. Furthermore, the elimination of heterogeneities to a certain extent presents a loss of information that might have been useful to the analyst.

Current data warehouse modeling and implementation techniques cannot satisfactorily represent heterogeneities. In order to solve the transformation issue and preserve useful information from the data sources, a novel modeling approach has been introduced in [NST10]. This approach applies multi-level modeling techniques on data warehouses in order to model hetero-homogeneous dimension hierarchies and cubes. For this end, the concepts of m-objects and m-relationships were adapted and the notion of the m-cube was introduced. The thus obtained dimension hierarchies and cubes are homogeneous with respect to a basic common structure shared by all cells of the OLAP cube. The cubes are heterogeneous with respect to dimension and non-dimension attributes. Different sub-cubes may have additional aggregation levels and move measures to more specific granularities (mixed granularities). Existing measures therefore can be changed with respect to their granularity and measure unit; new measures can be introduced to sub-cubes. Dimensions can have additional non-dimension attributes and levels for different cells in the cube.

This thesis presents a proof-of-concept prototype that extends the Oracle database with the capabilities to cope with hetero-homogeneous dimension hierarchies and cubes. M-objects, m-relationships, and m-cubes are implemented in PL/SQL using Oracle's object-relational features, following and refining an implementation concept originally conceived in [Neu10]. The data warehouse developer is provided with a front-end that greatly facilitates the integration of heterogeneous data. A novel logical structure based on object-relational database concepts -- better suited for representing heterogeneous data than traditional ROLAP schemata -- is employed.

[Neu10] Bernd Neumayr.Multi-Level Modeling with M-Objects and M-Relationships. PhD thesis, Johannes Kepler Universität Linz, 2010. Working Draft.
[NST10] Bernd Neumayr, Michael Schrefl, and Bernhard Thalheim.Heterohomogeneous hierarchies in data warehouses. In Seventh Asia-Pacific Conference on Conceptual Modelling (APCCM), 2010.

Kurzfassung (Deutsch)

Ein Data-Warehouse integriert Daten von verschiedenen, meist heterogenen Quellen um Entscheidungsträger optimal mit Informationen für eine fundierte Analyse zu versorgen. Ein häufiges Problem im Bereich des Data Warehousing stellt die Gestaltung des Extraktions-, Transformations- und Ladeprozesses (ETL-Prozess) dar. Der ETL-Prozess stellt die Verbindung zwischen den operationalen Datenbanken und dem Data-Warehouse dar. Bevor die Daten in das Data-Warehouse geladen werden können, müssen die heterogenen, auseinander laufenden Schemata zusammengeführt werden. Diese Schemakonflikte werden in der Transformationsphase des ETL-Prozesses gelöst. Die Integration der heterogenen Datenquellen ist die vielleicht schwierigste Aufgabe bei der Verwaltung von Data-Warehouses. Darüber hinaus stellt die Bereinigung von Heterogenitäten einen Verlust an möglicherweise nützlicher Information dar.

Heutige Data-Warehouse Modelle und Implementierungstechniken sind nur unzureichend geeignet für die Darstellung von Heterogenitäten. Um das Transformationsproblem zu lösen und in den Datenquellen vorhandene Informationen bestmöglich zu erhalten wurde in [NST10] ein neuer Modellierungsansatz vorgestellt. Dieser Ansatz adaptiert Multi-Level Modellierungstechniken für den Einsatz in Data-Warehouses um hetero-homogene Dimensionshierarchien und Cubes darzustellen. Um dies zu erreichen wurden M-Objects und M-Relationships angepasst und der M-Cube eingeführt. Die so erhaltenen Dimensionshierarchien und Cubes sind homogen in Bezug auf eine grundlegende, gemeinsame Struktur für alle Sub-Cubes. Sie sind heterogen in Bezug auf dimensionale und nicht-dimensionale Attribute. Verschiedene Sub-Cubes können zusätzliche Aggregierungsstufen besitzen und die Granularität von Kennzahlen erhöhen. Bestehende Kennzahlen können verändert werden in Bezug auf die Granularität und die Maßeinheit. Neue Kennzahlen können für bestimmte Sub-Cubes eingeführt werden. Dimensionen können verschiedene nicht-dimensionale Attribute und Ebenen für verschiedene Zellen des Cubes haben.

Die vorliegende Arbeit präsentiert einen experimentellen Prototyp, der die Oracle Datenbank um Fähigkeiten zur Verwaltung von hetero-homogenen Dimensionshierarchien und Cubes erweitert. M-Objects, M-Relationships und M-Cubes sind in PL/SQL implementiert. Der Prototyp nützt dabei die objekt-relationalen Fähigkeiten von Oracle. Dabei wird einem Implementierungskonzept gefolgt, welches ursprünglich in [Neu10] entwickelt wurde. Dem Data-Warehouse-Entwickler wird damit ein Frontend zur Verfügung gestellt welches die Integration von heterogenen Daten erleichtert. Ein neuartiges logisches Datenmodell, basierend auf objekt-relationalen Datenbankkonzepten, wird dazu eingesetzt. Dieses Datenmodell ist besser zur Darstellung von heterogenen Daten geeignet als derzeit eingesetzte ROLAP-Schemata.

[Neu10] Bernd Neumayr.Multi-Level Modeling with M-Objects and M-Relationships. PhD thesis, Johannes Kepler Universität Linz, 2010. Working Draft.
[NST10] Bernd Neumayr, Michael Schrefl, and Bernhard Thalheim.Heterohomogeneous hierarchies in data warehouses. In Seventh Asia-Pacific Conference on Conceptual Modelling (APCCM), 2010.