Knowledge Representation for Judging Reliability of Analytics Results
- Autor
- S. Staudinger
- Dissertation
- PT2501 (2025)
- 1. Betreuer
- Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
- Begutachter
- o.Univ.-Prof. DI Dr. Michael Schrefl
- Ressourcen
- Kopie (Senden Sie ein Email mit PT2501 als Betreff an dke.win@jku.at um diese Kopie zu erhalten)
Kurzfassung
Abstract
Analytics has become indispensable in many organizations. The use of historical data to determine the best course of action to address current challenges has become standard practice. When an analyst is responsible to determine the reliability of an analysis result, often only very little information is provided about the business case, the used prediction model, or the correct interpretation of the result. In this thesis, we propose a novel approach centered on knowledge representation to systematically judge the reliability of analysis results. We introduce a reference process for reliability assessment, which captures analytics-related knowledge along the entire life cycle of an analysis project. We illustrate how the reference process can be adapted for specific types of analytics, namely, predictive and descriptive analytics. For predictive and descriptive analytics, we present different approaches that can be used to assess the reliability of individual results. We demonstrate how the perturbation approach to reliability assessment can be applied to the real-world use case of flight delay prediction. Furthermore, we discuss how knowledge patterns can be used for reliability assessment within descriptive analytics.
The proposed reference process for enabling reliability assessment of analysis results is aligned with the Cross-Industry Standard Process for Data Mining. We describe three abstraction levels—generic, method-specific, and problem-specific—at which knowledge about an analytics process can be modeled and captured. In order to assess the reliability of analysis results, analytics-related knowledge is gathered along all stages of the analytics process. The knowledge representation of the analytics-related knowledge employs the PROV ontology as the fundamental for modeling classes and properties.
We demonstrate in detail how the reliability-assessment approach of perturbation can be applied to the real-world use case of flight delay prediction. We also describe how the required knowledge for reliability assessment was captured in the analytics process and we describe which actions were performed to assess the reliability of individual flight delay predictions. In addition, we illustrate how the use of tool support can help to apply the perturbation approach for a specific use case. Adapting the reference process for descriptive analytics, we illustrate how the knowledge pattern approach can be used for reliability assessment of descriptive analysis results in the context of the health insurance domain. We further investigate by conducting expert interviews whether the knowledge patterns found in the health insurance domain could also be used to judge the reliability of descriptive analysis results in other domains, e.g., public transport or finance.
Kurzfassung
Analytik ist in vielen Organisationen unverzichtbar geworden. Die Verwendung his-torischer Daten zur Ermittlung der besten Vorgehensweise zur Bewältigung aktueller Herausforderungen ist mittlerweile gängige Praxis. Wenn ein Analyst für die Beurteilung der Zuverlässigkeit eines Analyseergebnisses verantwortlich ist, werden oft nur sehr wenige Informationen über den Geschäftsfall, das verwendete Vorhersagemodell oder die korrekte Interpretation des Ergebnisses bereitgestellt. In dieser Arbeit schlagen wir einen neuartigen Ansatz vor, der auf einer Wissensrepräsentation basiert, um die Zuverlässigkeit von Analyseergebnissen systematisch zu beurteilen. Wir stellen einen Referenzprozess für die Zuverlässigkeitsbewertung vor, der analytikbezogenes Wissen entlang des Lebens-zyklus eines Analyseprojekts erfasst. Wir veranschaulichen, wie der Referenzprozess für bestimmte Arten von Analysen, nämlich prädiktive und deskriptive Analysen, angepasst werden kann. Wir zeigen, wie der Perturbationsansatz zur Zuverlässigkeitsbewertung auf den realen Anwendungsfall der Flugverspätungsvorhersage angewendet werden kann. Darüber hinaus diskutieren wir, wie Wissensmuster für die Zuverlässigkeitsbewertung innerhalb der deskriptiven Analytik genutzt werden können.
Der in dieser Arbeit beschriebene Referenzprozess zur Beurteilung der Zuverlässigkeit von Analyseergebnissen orientiert sich am Cross Industry Standard Process for Data Mining. Wir beschreiben die drei Abstraktionsebenen – generisch, methodenspezifisch und problemspezifisch –, auf denen Wissen über einen Analyseprozess modelliert und erfasst werden kann. Um die Zuverlässigkeit von Analyseergebnissen zu bewerten, wird analytikbezogenes Wissen entlang aller Stufen des Analyseprozesses gesammelt. Die Wissensrepräsentation des analytikbezogenen Wissens verwendet die PROV-Ontologie als Grundlage für die Modellierung von Klassen und Eigenschaften.
Wir demonstrieren im Detail, wie der Ansatz der Zuverlässigkeitsbewertung durch Perturbation auf den realen Anwendungsfall der Flugverspätungsvorhersage angewendet werden kann. Außerdem beschreiben wir, wie das für die Zuverlässigkeitsbewertung erforderliche Wissen im Analyseprozess erfasst wurde, und wir beschreiben, welche Maßnahmen zur Bewertung der Zuverlässigkeit einzelner Flugverspätungsvorhersagen durchgeführt wurden. Darüber hinaus veranschaulichen wir, wie der Einsatz von Werk-zeugen dabei helfen kann, den Perturbationsansatz für einen bestimmten Anwendungsfall anzuwenden. Anhand einer Anpassung des Referenzprozesses für deskriptive Analytik zeigen wir, wie der Wissensmusteransatz für die Zuverlässigkeitsbewertung von deskriptiven Analyseergebnissen im Kontext der Krankenversicherung verwendet werden kann. Wir untersuchen darüber hinaus anhand von Experteninterviews, ob die in der Krankenversicherung gefundenen Wissensmuster auch zur Beurteilung der Zuverlässigkeit deskriptiver Analyseergebnisse in anderen Bereichen, z. B. im öffentlichen Verkehr oder im Finanzwesen, verwendet werden können.