Entwicklung eines Systems auf Basis von Retrieval-Augmented Generation zur Unterstützung bei der Erstellung von sicheren Webapplikationen

Autor
D. Pazer
Masterarbeit
MT2601 (Februar, 2026)
Betreut von
Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
Ausgeführt an
Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen
Kopie

Kurzfassung (Deutsch)

Retrieval-Augmented Generation (RAG) hat sich als vielversprechender Ansatz etabliert, um große Sprachmodelle in etablierten und verlässlichen Wissensquellen zu verankern. Diese Arbeit untersucht, wie unterschiedliche RAG-Konfigurationen bei der Anwendung auf sicherheitskritisches Wissen aus OWASP-Dokumentationen abschneiden. Auf Basis der Design-Science-Methodik wurde eine modulare und containerisierte RAG-Architektur entwickelt, die einen kontextsensitiven Zugriff auf OWASP Cheat Sheets ermöglicht. Für die empirische Evaluation wurde ein domänenspezifischer Ground-Truth-Datensatz erstellt, der auf von Experten priorisierten Sicherheitsthemen basiert, wobei die Referenzpassagen wortgetreu aus OWASP-Quellen extrahiert wurden.

Das System wird mithilfe zweier komplementärer Benchmarking-Ansätze evaluiert. Zuerst erfolgt eine automatisierte, metrikenbasierte Bewertung mit dem Framework RAGAS, wobei Kontextabde-ckung, Kontextpräzision, Antwortrelevanz und Faktentreue gemessen werden. Im zweiten Schritt wird eine claim-basierte Implementierung des PoLL-Frameworks eingesetzt, die ein Panel heteroge-ner Sprachmodelle (Mistral-7B, Command-R und Qwen-3) verwendet, um die faktische Abstützung einzelner Aussagen auf Statement-Ebene zu bewerten.

Die Ergebnisse zeigen, dass die Qualität des Retrievals der dominierende Einflussfaktor für die Gesamtleistung des Systems ist. Moderne Embedding-Modelle (BAAI/bge-small-en und infloat/e5-base-v2) übertreffen all-MiniLM-L6-v2 in sämtlichen Metriken signifikant, wobei bge-small-en das stabilste Gleichgewicht zwischen Kontextpräzision und faktischer Korrektheit aufweist. Unter den untersuchten Sprachmodellen zeigt Mistral-7B die konsistentesten Faktentreue-Werte, wäh-rend kleinere Modelle deutliche Einschränkungen bei der Verarbeitung großer oder verrauschter Kontexte erkennen lassen. Ein statistischer Vergleich mittels McNemar-Test zeigt keinen signifi-kanten Unterschied zwischen der RAGAS-Faktentreue und den PoLL-basierten Bewertungen, was darauf hindeutet, dass der adaptierte PoLL-Ansatz zu Ergebnissen gelangt, die mit etablierten metrikenbasierten Evaluationsverfahren vergleichbar sind.

Insgesamt stellt diese Arbeit eine reproduzierbare RAG-Architektur, einen transparenten, OWASP-basierten Evaluationsdatensatz sowie ein empirisch validiertes Benchmarking-Setup bereit. Die Ergebnisse unterstreichen die Bedeutung der Embedding-Auswahl, demonstrieren den Mehrwert der Kombination aus metrikenbasierter und panelbasierter Evaluation und liefern praxisnahe Handlungs-empfehlungen für den Einsatz von RAG-Systemen in sicherheitskritischen Entwicklungskontexten.

Kurzfassung (Englisch)

Retrieval-Augmented Generation (RAG) has emerged as a promising approach for grounding large language models in authoritative knowledge sources. This work investigates how different RAG configurations perform when applied to security-critical knowledge derived from OWASP documentation. Based on the Design Science Methodology, a modular and containerized RAG architecture was developed to enable context-sensitive access to OWASP Cheat Sheets. For empirical evaluation, a domain-specific ground-truth dataset was constructed based on security topics prioritized by domain experts, with reference passages extracted verbatim from OWASP sources.

The system is evaluated using two complementary benchmarking approaches. First, automated metric-based evaluation is conducted using the RAGAS framework, measuring context recall, context precision, answer relevance, and faithfulness. Second, a claim-based implementation of the PoLL framework is applied, employing a panel of heterogeneous language models (Mistral-7B, Command-R, and Qwen-3) to assess factual support at the statement level.

The results show that retrieval quality is the dominant factor influencing overall system performance. Modern embedding models (BAAI/bge-small-en and infloat/e5-base-v2) significantly outperform all-MiniLM-L6-v2 across all metrics, with bge-small-en achieving the most stable balance between context precision and factual correctness. Among the evaluated language models, Mistral-7B exhibits the most consistent faithfulness scores, while smaller models show pronounced limitations when processing large or noisy contexts. A statistical comparison using the McNemar test reveals no significant difference between RAGAS faithfulness and PoLL-based judgments, indicating that the adapted PoLL approach yields results comparable to established metric-based evaluation methods.

Overall, this work provides a reproducible RAG architecture, a transparent OWASP-based evaluation dataset, and an empirically validated benchmarking setup. The findings highlight the importance of embedding selection, demonstrate the value of combining metric-based and panel-based evaluation, and offer practical guidance for deploying RAG systems in security-sensitive development contexts.