A Comparative Study of Foundation Models and Classical Methods for Retail Time Series Forecasting

Autor: L. Della Mura
Masterarbeit: MT2604 (Mai, 2026)
Betreut von: Assoz. Univ.-Prof. Mag. Dr. Christoph Schütz
Ausgeführt an: Universität Linz, Institut für Wirtschaftsinformatik - Data & Knowledge Engineering
Ressourcen: Kopie

Kurzfassung (Englisch)

Accurate daily demand forecasting is a critical operational challenge for bakeries, where perishable goods must be produced in appropriate quantities to minimize waste while meeting customer demand. This thesis empirically evaluates the performance of time-series foundation models (TSFMs), specifically TinyTimeMixer (TTM) and Moirai MoE, against classical forecasting approaches including naive baselines, Exponential Smoothing (ETS), Prophet, and XGBoost. The evaluation uses real-world sales data from the organic bakery Brotsüchtig in Linz, Austria. Transaction-level point-of-sale data were aggregated to daily demand per stock keeping unit (SKU) and location. The empirical analysis focuses on the flagship branch and a portfolio of 48 frequently sold products, covering the period from January 2022 to June 2025. Model performance is assessed using a rolling-window backtesting setup with a one-day forecast horizon. Forecast accuracy is primarily evaluated using Weighted Absolute Percentage Error (WAPE), supplemented by seasonal Mean Absolute Scaled Error (sMASE) and mean error to assess competitiveness and systematic bias. Results show that Moirai MoE achieves the lowest aggregated WAPE of 0.24, marginally outperforming the four-week median heuristic (0.25), ETS (0.26), and Prophet (0.27), while TTM and XGBoost perform substantially worse. Moirai MoE’s advantage is most pronounced for difficult-toforecast products and is statistically significant, although the practical margin over strong classical baselines remains small. Foundation models further exhibit a narrower distribution of per-product forecast errors compared to classical approaches, suggesting more consistent performance across the product portfolio. The inclusion of weather and holiday covariates in Prophet does not improve overall forecast accuracy, with statistically significant but small negative median effects observed for both feature groups. Finetuning TTM on the bakery dataset substantially improves its performance, reducing median WAPE by 0.10 and benefiting 95.4% of products, although the model does not close the performance gap to the strongest classical approaches. Finetuning is also associated with an increase in systematic over-forecasting bias. These findings suggest that demand in small-scale bakery retail is largely dominated by stable seasonal structure and that increasing model complexity yields diminishing returns under real-world conditions. Simple and interpretable forecasting methods remain competitive and may therefore represent the most practical choice for operational deployment in resource-constrained retail environments.

Kurzfassung (Deutsch)

Eine präzise tägliche Nachfrageprognose stellt für Bäckereien eine zentrale operative Herausforderung dar. Da Backwaren in der Regel nur am Produktionstag verkauft werden können, müssen Produktionsmengen möglichst genau geplant werden, um sowohl Lebensmittelverschwendung als auch Fehlmengen zu vermeiden. Diese Arbeit untersucht empirisch die Leistungsfähigkeit von Time-Series Foundation Models (TSFMs), konkret TinyTimeMixer (TTM) und Moirai MoE, im Vergleich zu klassischen Prognoseverfahren wie naiven Basismodellen, ETS, Prophet und XGBoost. Die Analyse basiert auf realen Verkaufsdaten der Bio-Bäckerei Brotsüchtig in Linz, Österreich. Transaktionsbasierte Kassendaten wurden zu täglichen Absatzwerten pro Produkt und Standort aggregiert. Die empirische Untersuchung konzentriert sich auf die Hauptfiliale und ein Portfolio von 48 häufig verkauften Produkten im Zeitraum von Januar 2022 bis Juni 2025. Die Modelle werden mithilfe eines Rolling-Window-Backtesting-Ansatzes mit einem Prognosehorizont von einem Tag bewertet. Als zentrale Kennzahl dient der Weighted Absolute Percentage Error (WAPE), ergänzt durch den seasonal Mean Absolute Scaled Error (sMASE) sowie den mittleren Fehler zur Analyse von Prognosegenauigkeit und systematischen Verzerrungen. Die Ergebnisse zeigen, dass Moirai MoE mit einem aggregierten WAPE von 0,24 die beste Prognoseleistung erzielt und damit die 4-Wochen-Median-Heuristik (0,25), ETS (0,26) und Prophet (0,27) knapp übertrifft. TTM und XGBoost schneiden hingegen deutlich schlechter ab. Der Vorteil von Moirai MoE zeigt sich insbesondere bei schwer prognostizierbaren Produkten und ist statistisch signifikant, auch wenn der praktische Vorsprung gegenüber starken klassischen Basismodellen gering bleibt. Darüber hinaus weisen Foundation Models eine geringere Streuung der produktspezifischen Prognosefehler auf als klassische Verfahren, was auf eine konsistentere Leistung über das gesamte Produktportfolio hinweist. Die Einbeziehung von Wetter- und Feiertagsvariablen in das Prophet-Modell führt insgesamt zu keiner Verbesserung der Prognosegenauigkeit; für beide Variablengruppen zeigen sich statistisch signifikante, jedoch operativ nur geringe negative Median-Effekte. Finetuning von TTM auf den vorliegenden Datensatz verbessert dessen Prognoseleistung deutlich: Der mediane WAPE reduziert sich um 0,10, und 95,4% der Produkte profitieren von dieser Anpassung. Dennoch bleibt ein Leistungsabstand zu den besten klassischen Verfahren bestehen. Gleichzeitig nimmt mit dem Finetuning die Tendenz zu systematischen Überprognosen zu. Die Ergebnisse deuten darauf hin, dass die Nachfrage im kleinbetrieblichen Bäckereieinzelhandel stark durch stabile saisonale Muster geprägt ist und dass steigende Modellkomplexität unter realen Bedingungen nur begrenzte zusätzliche Verbesserungen bringt. Einfache und gut interpretierbare Prognosemethoden bleiben daher wettbewerbsfähig und stellen in ressourcenbeschränkten Einzelhandelsumgebungen möglicherweise die praktikabelste Lösung für den operativen Einsatz dar.