Fehlerbehandlung in R – Debugging mit RStudio Teil 2

Markus Berroth Blog, Data Science, Statistik

Nachdem der erste Teil die unterschiedlichen Aktivierungsmöglichkeiten für den Debugger behandelt hat, dreht sich der zweite Teil um effizientes Debugging. „Debugging is like being the detective in a crime movie where you are also the murderer.”(1) … und manchmal erinnert man sich nicht mal die Tat begangen zu haben. Im Folgenden werden wir die Debugging-Features von RStudio an einem einfachen …

feather

Mit Feather verleihen Sie Ihren Daten Flügel

Tobias Krabel Blog, Data Science, Statistik

Das Lesen und Schreiben von großen Datenmengen ist schon seit Entwicklung der Datenbanken das Sorgenkind eines jeden Informatikers. Da in der heutigen Zeit die Datenmengen unweigerlich größer werden, ist dieses Thema auch bei Data Scientists angekommen, die in Großprojekten große Objekte auf der Festplatte zwischenspeichern möchten. Seit einiger Zeit jedoch kursiert in der R Community das Paket feather, das mit …

True or False

Der p-Wert und die False Discovery Rate

Jakob Gepp Blog, Statistik

Zum Überprüfen von Hypothesen werden meist p-Werte verwendet. Doch häufig werden diese falsch interpretiert oder gar so lange bearbeitet, bis etwas „signifikant“ ist. Letzteres wird auch p-Hacking genannt. Die Frage ist nun, was genau sagen p-Werte aus? Definition Der p-Wert ist die Wahrscheinlichkeit, dass ein beobachtetes Ergebnis, unter der Annahme die Nullhypothese ist korrekt, mindestens so extrem ausfällt wie es …

Abbildung Deep Learning

Wie Deep muss MLP Deep Learning sein?

Christian Moreau Blog, Data Science

Wie bereits im ersten Teil unserer Einführungsreihe zu Deep Learning erwähnt, sind neuronale Netze und Deep Learning aktuell ein aktiver Bereich der Machine Learning Forschung. Während die zugrundeliegenden Idee und Konzepte bereits mehrere Jahrzehnte alt sind, ist die Komplexität der Modelle und Architekturen in den letzten Jahren stetig angewachsen. In diesem Blogbeitrag gehen wir der Frage nach, ob durch die …

Herausforderungen der nicht-parametrischen Statistik: der Wilcoxon-Rangsummen-Test

Alexander Niltop Blog, Statistik

Bei der Reise durch das nicht-parametrische Universum begegnet man auch Phänomenen, denen man lieber nicht begegnen möchte: schwarzen Löchern. Diese können zu Beginn sehr klein sein, doch wenn man sie nicht beachtet und versucht, sich (heimlich) an ihnen vorbeizuschleichen, stürzen sie alles ins Chaos. Auch in der Nähe der Welt des Wilcoxon-Rangsummen-Tests gibt es eines davon. Die Welt des Wilcoxon-Rangsummen-Tests …

Von den Sozialwissenschaften zu Data Science

Fabian Müller Blog, Data Science

Der Smalltalk mit einem Data Scientist endet früher oder später immer bei der Frage des Studienbackgrounds. Die Frage ist insofern naheliegend, als dass reine Data Science Studiengänge in Deutschland gerade erst am Anlaufen sind. Die bereits am Markt aktiven Data Scientists stammen daher fast ausschließlich aus fachfremden Studiengängen. Das Unbegreifen ist zumeist groß, wenn die Antwort auf die Frage des …

twitter Chat

Twitter Mining mit R – Teil 1

Lukas Strömsdörfer Blog, Data Science

Spätestens durch den US-Präsidentschaftswahlkampf rückte der Microblogging Dienst Twitter stärker in den öffentlichen Fokus. Wem es allerdings nicht reicht, einfach nur durch das Soziale Netzwerk zu stöbern, der kann mit ein paar wenigen Tricks vom Datenreichtum Twitters profitieren. Datenzugang Twitter, so wie viele andere Online-Dienste, bietet sog. APIs („Application Programming Interface“) an. Durch diese können Interessierte ganz einfach einen Link …

Data Processing

Gut in Form – So klappts mit der Datenaufbereitung in R, Stata und SPSS

Jessica Aust Blog, Statistik

In der “Gut in Form”-Serie werden in den nächsten Wochen verschiedene Möglichkeiten gezeigt, um die Daten optimal für die Analyse vorzubereiten. Die Durchführung wird dabei jeweils in R, Stata und SPSS vorgestellt. So werden auch Vor- oder Nachteile der verschiedenen Programme sichtbar. Datenimport und -export Egal wie gut die Methodenkenntnisse sind, haben die Daten nicht die gewünschte Form, lässt sich …

Snack Wars – XML-Logfiles und Prozessdaten analysieren mit R und tidyverse

David Schlepps Blog, Data Science, Statistik

Neuen Mitarbeitern bei STATWORX fällt unweigerlich das großzügige Angebot und die ebenbürtig große Nachfrage nach Snacks von der Banane bis zum Schokoriegel auf. Da liegt es für Datenliebhaber sehr nah, (anonymisierte) Daten über den Snack-Konsum in der Firma zu sammeln. Im Folgenden soll es um eine beliebte Form des Sammelns und der Analyse von Prozessdaten gehen: XML-Logfiles. Für die Erstellung …

Rcpp Doping für den R Code

André Bleier Blog, Data Science

Wie viel Zeit ich schon damit verbracht habe rote Stoppschilder zu beobachten? Sehr, sehr viel! Effizientes Programmieren kann helfen diese Zeit zu minimieren, aber oft hat man gar keinen Einfluss auf die Laufzeit seines Programms, da Spezifikationen im Unterbau von das eigentliche Bottleneck sind. R ist eine sehr flexible Programmiersprache. Als Benutzer muss man weder Speicherplatz auf dem Arbeitsspeicher allokieren …