Snack Wars – XML-Logfiles und Prozessdaten analysieren mit R und tidyverse

David Schlepps Blog, Data Science, Statistik

Neuen Mitarbeitern bei STATWORX fällt unweigerlich das großzügige Angebot und die ebenbürtig große Nachfrage nach Snacks von der Banane bis zum Schokoriegel auf. Da liegt es für Datenliebhaber sehr nah, (anonymisierte) Daten über den Snack-Konsum in der Firma zu sammeln. Im Folgenden soll es um eine beliebte Form des Sammelns und der Analyse von Prozessdaten gehen: XML-Logfiles. Für die Erstellung …

Rcpp Doping für den R Code

André Bleier Blog, Data Science

Wie viel Zeit ich schon damit verbracht habe rote Stoppschilder zu beobachten? Sehr, sehr viel! Effizientes Programmieren kann helfen diese Zeit zu minimieren, aber oft hat man gar keinen Einfluss auf die Laufzeit seines Programms, da Spezifikationen im Unterbau von das eigentliche Bottleneck sind. R ist eine sehr flexible Programmiersprache. Als Benutzer muss man weder Speicherplatz auf dem Arbeitsspeicher allokieren …

statistics word cloud

Stolperfalle logistische Regressionskoeffizienten und Odds Ratios

Lea Waniek Blog, Statistik

Logistische Regressionsmodelle, sind mit gängiger Statistiksoftware meist genauso leicht zu schätzen wie lineare Regressionen. Doch die Interpretation solcher Modelle, also der Part der statistischen Analyse der nicht von der Software übernommen wird, birgt eine Tücke: die Bezugsgröße der Regressionskoeffizienten. Ausgehend von den unabhängigen Merkmalen der Beobachtungen, modellieren logistische Regressionsmodelle die Wahrscheinlichkeit mit der eine bestimmte Ausprägung eines kategorialen abhängigen Merkmals …

Abbildung Deep Learning

Deep Learning – Teil 2: Programmierung

Christian Moreau Blog, Data Science

Aufbauend auf der theoretischen Einführung in neuronale Netze und Deep Learning im Rahmen des letzten Blogbeitrags, soll in Teil 2 der Reihe „Deep Learning“ die Implementierung eines einfachen neuronalen Netzes (Feedforward Netz) in Python anschaulich dargestellt werden. Hierzu stehen dem Anwender viele verschiedene Frameworks zur Verfügung. In diesem Beitrag verwenden wir Keras, eine der wichtigsten Python Libraries, zur Programmierung von …

statistics word cloud

Methoden Einführung: Statistik mit Löwen – Teil 1

Nick Bornschein Blog, Statistik

Der folgende Blog und seine Fortsetzungen behandeln ein fiktives Projekt anhand konstruierter Daten und begleiten es von der ersten deskriptiven Betrachtung (Teil 1) bis hin zur Auswertung mit Hilfe verschiedener analytischer Möglichkeiten und graphischer Darstellungen. Das Verständnis der Daten steht dabei im ersten Teil im Vordergrund, denn ohne die Kenntnis der eigenen Daten kann auch keine gute Analyse stattfinden. Mehr …

Fehlerbehandlung in R: Debugging mit RStudio

Markus Berroth Blog, Data Science, Statistik

In der Blog-Reihe „Fehlerbehandlung in R“ geht es um effizientes und systematisches Überprüfen von R-Code. Den Beginn macht das Finden von Fehlern durch Debugging, weiter geht es mit der Handhabung von Fehlern und endet mit Unit-Testing, das zum Überprüfen von korrekter Funktionalität von R-Code dient. Die Reihe startet mit Debugging in R, wobei Debugging ein breitgefächertes Thema ist. Dieser Artikel …

statistics word cloud

Methoden Einführung: der t-Test

Jakob Gepp Blog, Statistik

Einer der am häufigsten verwendeten statistischen Tests ist der t-Test. Er kann unter anderem dazu genutzt werden, zu prüfen, ob der Mittelwert einer Zufallsvariable einem bestimmten Wert entspricht. Auch kann er für den Vergleich zweier Mittelwerte herangezogen werden. Wie bei jedem anderen statistischen Test auch, müssen gewisse Voraussetzungen erfüllt sein, damit der t-Test sicher eingesetzt werden kann: Normalverteilung der Zufallsvariablen …

Abbildung Deep Learning

Deep Learning – Teil 1: Einführung

Sebastian Heinz Blog, Data Science

Deep Learning ist aktuell einer der spannendsten Forschungsbereiche im Machine Learning. Für eine Vielzahl von Fragestellungen liefern Deep Learning Modelle State-of-the-Art Ergebnisse, vor allem im Bereich der Bild-, Sequenz- und Spracherkennung. Weiterhin findet Deep Learning erfolgreich Anwendung in der Fahrzeugkonstruktion (selbstfahrende Autos), in der Finanzwelt (Aktienkursvorhersage, Risikoprognose, automatische Handelssysteme), in der Medizin (maschinelle Bilderkennung von Karzinomen) und Biologie (Genomik), im e-Commerce (Recommendation Systeme) und …

Einführung in die nicht-parametrische Statistik: der Wilcoxon-Rangsummen-Test

Alexander Darrall Blog, Statistik

Niederländer lieben Käse, Holzschuhe und am liebsten sitzen sie hinter dem Steuer ihres Wohnwagens! Oder? Will man solche Vorurteile (seriös) untersuchen, muss man dazu Daten erheben. So könnte man die jährliche Fahrzeit im Wohnwagen bei Niederländern und beispielsweise Deutschen erfassen und im Anschluss überprüfen, ob sich beide Nationen im Mittel bei der Fahrzeit unterscheiden. Dafür bietet sich als erstes der …

Schlüsselkennzahl: Preiselastizität der Nachfrage

Daniel Lüttgau Blog, Data Science

Preismanagement ist in den vergangenen Jahren zunehmend in den Fokus von Geschäftsführungen gerückt(1). Verbunden ist diese Entwicklung mit der Hoffnung, mit gezielter Preisgestaltung einen zentralen, aber vernachlässigten Profittreiber identifiziert zu haben. Tatsächlich bestätigen Experten, dass Preismanagement in der Vergangenheit häufig unter unzureichender Aufmerksamkeit gelitten hat (2,4). Unterentwickelte Preissetzungsexpertise und ausbaufähige Preisstrategien sind die Folge. Die Bedeutung vom richtigen Preismanagement Preise …