Herausforderung
Optimal aufbereitete Daten stellen die Grundlage für alle Fragestellungen im Bereich Analytics, Reporting und Data Science dar. Häufig müssen Daten vor der eigentlichen Auswertung aufwändig aufbereitet und bereinigt werden. Unser Kunde, ein internationales Retail-Unternehmen, wollte täglich eine vollautomatische Verifizierung und Bereinigung der Sales-Daten angeschlossener Filialen durchführen, um darauf aufbauende Reporting-Systeme fehlerfrei bereitstellen zu können.
Ansatz
Basierend auf den Sales-Zeitreihen der letzten zwei Jahre (etwa 500 Millionen Datenpunkte) entwickelten wir gemeinsam mit dem Kunden ein statistisches Modell, das pro Produkt-Filial-Kombination die tatsächliche mit der empirisch beobachteten Verteilung der jeweiligen KPI abgleicht und so auffällige Datenpunkte vollautomatisch erkennen kann. Weiterhin ist das Modell dazu in der Lage, Anomalien in den Daten auf die durch das Modell erwarteten Werte zu glätten, um die jeweilige Beobachtung nicht vollständig löschen zu müssen. Der Algorithmus wurde vollständig in R entwickelt und auf dem vorhandenen Analytics-Server innerhalb einer Datenbank produktiv geschaltet.
Ergebnis
Seit dem Deployment erkennt das Modell täglich Anomalien und auffällige Datenpunkte vollautomatisch. Durch die Anwendung des Modells ist es erstmalig gelungen, eine automatische Datenaufbereitung und Bereinigung der täglich angelieferten Filialdaten zu implementieren, die zuverlässige und stabile Ergebnisse liefert. Zudem fallen durch die Open Source Software R keine Lizenzkosten an.