Gradient Boosting – Identifikation nichtlinearer autokorrelativer Einflüsse

André Bleier Blog, Data Science

Autokorrelation ist ein zentrales Element der Zeitreihenanalyse. Um den Nutzen greifen zu können, sollten wir zunächst einmal klären, was Autokorrelation überhaupt ist. Autokorrelation Korrelation beschreibt Einflüsse bzw. Abhängigkeiten von Zufallszahlen. Eine Autokorrelation hingegen beschreibt den Einfluss einer Zufallszahl auf vergangene Zeitpunkte. Das bedeutet, man vermutet bei solch einer Untersuchung, dass bei einer Zufallszahl zeitliche Abhängigkeiten bzw. Einflüsse vorzufinden sind. Autokorrelation …

Fehlerbehandlung in R – Debugging mit RStudio Teil 2

Markus Berroth Blog, Data Science, Statistik

Nachdem der erste Teil die unterschiedlichen Aktivierungsmöglichkeiten für den Debugger behandelt hat, dreht sich der zweite Teil um effizientes Debugging. „Debugging is like being the detective in a crime movie where you are also the murderer.”(1) … und manchmal erinnert man sich nicht mal die Tat begangen zu haben. Im Folgenden werden wir die Debugging-Features von RStudio an einem einfachen …

Mit Feather verleihen Sie Ihren Daten Flügel

Tobias Krabel Blog, Data Science, Statistik

Das Lesen und Schreiben von großen Datenmengen ist schon seit Entwicklung der Datenbanken das Sorgenkind eines jeden Informatikers. Da in der heutigen Zeit die Datenmengen unweigerlich größer werden, ist dieses Thema auch bei Data Scientists angekommen, die in Großprojekten große Objekte auf der Festplatte zwischenspeichern möchten. Seit einiger Zeit jedoch kursiert in der R Community das Paket feather, das mit …

Twitter Mining mit R – Teil 1

Lukas Strömsdörfer Blog, Data Science

Spätestens durch den US-Präsidentschaftswahlkampf rückte der Microblogging Dienst Twitter stärker in den öffentlichen Fokus. Wem es allerdings nicht reicht, einfach nur durch das Soziale Netzwerk zu stöbern, der kann mit ein paar wenigen Tricks vom Datenreichtum Twitters profitieren. Datenzugang Twitter, so wie viele andere Online-Dienste, bietet sog. APIs („Application Programming Interface“) an. Durch diese können Interessierte ganz einfach einen Link …

Gut in Form – So klappts mit der Datenaufbereitung in R, Stata und SPSS

Jessica Aust Blog, Statistik

In der “Gut in Form”-Serie werden in den nächsten Wochen verschiedene Möglichkeiten gezeigt, um die Daten optimal für die Analyse vorzubereiten. Die Durchführung wird dabei jeweils in R, Stata und SPSS vorgestellt. So werden auch Vor- oder Nachteile der verschiedenen Programme sichtbar. Datenimport und -export Egal wie gut die Methodenkenntnisse sind, haben die Daten nicht die gewünschte Form, lässt sich …

Snack Wars – XML-Logfiles und Prozessdaten analysieren mit R und tidyverse

David Schlepps Blog, Data Science, Statistik

Neuen Mitarbeitern bei STATWORX fällt unweigerlich das großzügige Angebot und die ebenbürtig große Nachfrage nach Snacks von der Banane bis zum Schokoriegel auf. Da liegt es für Datenliebhaber sehr nah, (anonymisierte) Daten über den Snack-Konsum in der Firma zu sammeln. Im Folgenden soll es um eine beliebte Form des Sammelns und der Analyse von Prozessdaten gehen: XML-Logfiles. Für die Erstellung …

Rcpp Doping für den R Code

André Bleier Blog, Data Science

Wie viel Zeit ich schon damit verbracht habe rote Stoppschilder zu beobachten? Sehr, sehr viel! Effizientes Programmieren kann helfen diese Zeit zu minimieren, aber oft hat man gar keinen Einfluss auf die Laufzeit seines Programms, da Spezifikationen im Unterbau von das eigentliche Bottleneck sind. R ist eine sehr flexible Programmiersprache. Als Benutzer muss man weder Speicherplatz auf dem Arbeitsspeicher allokieren …

Stolperfalle logistische Regressionskoeffizienten und Odds Ratios

Lea Waniek Blog, Statistik

Logistische Regressionsmodelle, sind mit gängiger Statistiksoftware meist genauso leicht zu schätzen wie lineare Regressionen. Doch die Interpretation solcher Modelle, also der Part der statistischen Analyse der nicht von der Software übernommen wird, birgt eine Tücke: die Bezugsgröße der Regressionskoeffizienten. Ausgehend von den unabhängigen Merkmalen der Beobachtungen, modellieren logistische Regressionsmodelle die Wahrscheinlichkeit mit der eine bestimmte Ausprägung eines kategorialen abhängigen Merkmals …

Fehlerbehandlung in R: Debugging mit RStudio

Markus Berroth Blog, Data Science, Statistik

In der Blog-Reihe „Fehlerbehandlung in R“ geht es um effizientes und systematisches Überprüfen von R-Code. Den Beginn macht das Finden von Fehlern durch Debugging, weiter geht es mit der Handhabung von Fehlern und endet mit Unit-Testing, das zum Überprüfen von korrekter Funktionalität von R-Code dient. Die Reihe startet mit Debugging in R, wobei Debugging ein breitgefächertes Thema ist. Dieser Artikel …

Data Science mit R

Sebastian Heinz Blog, Data Science

Data Science, Big Data, Machine Learning – die rasante Entwicklung von Computern, Massenspeichern und korrespondierenden Technologien wirft seit geraumer Zeit ein neues Licht auf die Speicherung und Auswertung von Daten strukturierter und unstrukturierter Art. Insbesondere der Begriff „Big Data“, der mittlerweile eher inflationär verwendet wird, war ein Buzzword ganzer Industrien. Im gleichen Atemzug zu Begriffen wie Data Science, Machine Learning und …