the package rat

Rats! Where are my R-Packages?

David Schlepps Blog, Data Science

It happened to many of us. Somehow, we managed to get our hands on a neatly prepared script of a colleague. However, instead of getting away with just scrounging beautiful code off our fellow human beings, we realize that something is missing to seamlessly steal their awesomeness: Their packages. A thing that we have to get our heads around when …

XY Titel

Simulating Regression Data with Xy

André Bleier Blog, Data Science, Statistik

In a recent project, I have developed a gradient boosting algorithm to estimate price elasticities. Surely, it is necessary to validate if the functionalities of the algorithm are working as intended. I started using nonlinear time series data from another blog post about lag selection as a validation basis. Unfortunately, at that time I did not wrap the simulation code …

overplotting-main

How NOT to overplot

Lea Waniek Blog, Data Science, Statistik

Overplotting can be a serious problem, which complicates data visualization and thus also data exploration. Overplotting describes situations, in which multiple data points overlay each other within a plot, causing the individual observations to be non-distinguishable. In such cases, plots only indicate the general extent of the data, while existing relationshipsmight be heavily obscured. Overplotting especially occurs when dealing with …

Compiling R Code in Sublime Text

Lukas Strömsdörfer Blog, Data Science, Statistik

What is Sublime Text? Nearly every coder has at one point googled for the best code editor. To those who did, you already know Sublime Text. To those who didn't: best code editors. After its initial release in 2007 Sublime Text has for sure made its way into the ranks of the most popular editors. Here at STATWORX, most of …

Gut in Form! Reshapes in R, Stata und SPSS

Jessica Aust Blog, Statistik

In diesem Blogeintrag aus der „Gut in Form”-Reihe wird gezeigt, wie sich Datenreshapes in R, Stata und SPSS umsetzten lassen. Diese Datenreshapes dienen dazu, die vorliegenden Daten zu transformieren und so die optimale Darstellung zu erhalten, wenn pro Einheit mehrere Informationen zu einer Begebenheit vorliegen. Was vielleicht etwas kompliziert klingt, soll anhand eines Beispiels erläutert werden: Es soll ein Datensatz …

Furchtlose Grammatiker – Textmining im tidyverse Teil 2

David Schlepps Blog, Data Science

In unserem ersten Blog-Beitrag zum Textmining im tidyverse haben wir uns mit den ersten Schritten zum Einlesen und Bereinigen von Texten mit den Mitteln des tidyverse befasst und bereits erste Sentimentanalysen begonnen. Die Grundlage hierzu bildete das epistemologische Werk The Grammar of Science von Karl Pearson. Im zweiten Teil wollen wir auf diesen Grundlagen aufbauen und damit ein weiteres von …

ggplot, ggplot, gg all the way …

Lea Waniek Blog, Statistik

.. oh what fun, it is to write, an R blog for this day! Der Grundgedanke von ggplot2 Das erklärte Ziel von Hadley Wickham’s package ggplot2, ist es R-Usern zu ermöglichen Daten einfach, ansprechend und vor allem informativ zu visualisieren. Dabei wurde angestrebt die Vorteile von sowohl base-R als auch dem älteren Package lattice zu übernehmen und deren Schwächen auszugleichen. …

Datenbanken in R – Einfach, schnell und sicher

Tobias Krabel Blog, Data Science

Wer mit großen Datenmengen in seinem beruflichen Alltag zu tun hat, der weiß, wie nützlich Datenbanken sein können. Als elektronisches Verwaltungssystem sind Datenbanken darauf ausgelegt, effizient und widerspruchsfrei mit großen Datenmengen umzugehen. Zudem sorgt eine Datenbank im Unternehmen dafür, dass jeder Mitarbeiter auf einen einheitlichen und aktuellen Datenstand zurückgreifen kann. Änderungen in der Datenbasis werden somit allen Beteiligten direkt zuteil. …

Fehlerbehandlung in R – Handhabung von Ausnahmen mit trycatch

Markus Berroth Blog, Data Science, Statistik

Der vorherige Teil der Reihe drehte sich um die Handhabung von unerwarteten Fehlern und Bugs. Doch manchmal erwartet man das Auftreten von Fehlern, beispielsweiße falls man das gleiche Modell für mehrere Datensätze anwenden möchte. Dabei kann unter anderem der Fehler auftreten, dass das Modell aufgrund von fehlender Varianz nicht geschätzt werden kann. In diesem Fall möchte man nicht, dass durch …

Sparse Matrizen – wann sollte man sie nutzen?

Jakob Gepp Blog, Data Science, Statistik

Wenn man mit Matrizen arbeitet, die viele Nullen enthalten, dann sind schwachbesetzte (engl. sparse) Matrizen das richtige. Hierbei wird der benötigte Speicherplatz der Matrix reduziert, in dem der Inhalt der Matrix effizienter verwaltet wird. Es gibt verschiedene Methoden Matrizen zu komprimieren – zum Beispiel in dem nur die Tupel aus Zeile, Spalte und Wert genutzt werden. Die Matrix reduziert sich …