pandas vs. data.table – A study of data-frames – Part 2

Tobias Krabel Blog, Data Science

The story continues As Christian and I have already mentioned in part 1 of this simulation study series, pandas and data.table have become the most widely used packages for data manipulation in Python and R, respectively (in R, of course, one may not miss mentioning the dplyr package). Furthermore, at STATWORX we have experts in both domains, and besides having …

pandas vs. data.table – A study of data-frames

Christian Moreau Blog, Data Science

Overview and Setting Python and R have become the most important languages in analytics and data science. Usually a data scientist can at least navigate one language with relative ease and at STATWORX we luckily have both expertises available. While, with enough will and effort, any coding project can be completed in either language, perhaps they differ in some perfomance …

XY Titel

Simulating Regression Data with Xy

André Bleier Blog, Data Science, Statistik

In a recent project, I have developed a gradient boosting algorithm to estimate price elasticities. Surely, it is necessary to validate if the functionalities of the algorithm are working as intended. I started using nonlinear time series data from another blog post about lag selection as a validation basis. Unfortunately, at that time I did not wrap the simulation code …

Sparse Matrizen – wann sollte man sie nutzen?

Jakob Gepp Blog, Data Science, Statistik

Wenn man mit Matrizen arbeitet, die viele Nullen enthalten, dann sind schwachbesetzte (engl. sparse) Matrizen das richtige. Hierbei wird der benötigte Speicherplatz der Matrix reduziert, in dem der Inhalt der Matrix effizienter verwaltet wird. Es gibt verschiedene Methoden Matrizen zu komprimieren – zum Beispiel in dem nur die Tupel aus Zeile, Spalte und Wert genutzt werden. Die Matrix reduziert sich …

3D splines

Gradient Boosting – Identifikation nichtlinearer autokorrelativer Einflüsse

André Bleier Blog, Data Science

Autokorrelation ist ein zentrales Element der Zeitreihenanalyse. Um den Nutzen greifen zu können, sollten wir zunächst einmal klären, was Autokorrelation überhaupt ist. Autokorrelation Korrelation beschreibt Einflüsse bzw. Abhängigkeiten von Zufallszahlen. Eine Autokorrelation hingegen beschreibt den Einfluss einer Zufallszahl auf vergangene Zeitpunkte. Das bedeutet, man vermutet bei solch einer Untersuchung, dass bei einer Zufallszahl zeitliche Abhängigkeiten bzw. Einflüsse vorzufinden sind. Autokorrelation …

feather

Mit Feather verleihen Sie Ihren Daten Flügel

Tobias Krabel Blog, Data Science, Statistik

Das Lesen und Schreiben von großen Datenmengen ist schon seit Entwicklung der Datenbanken das Sorgenkind eines jeden Informatikers. Da in der heutigen Zeit die Datenmengen unweigerlich größer werden, ist dieses Thema auch bei Data Scientists angekommen, die in Großprojekten große Objekte auf der Festplatte zwischenspeichern möchten. Seit einiger Zeit jedoch kursiert in der R Community das Paket feather, das mit …