Human vs Robots

A Performance Benchmark of Different AutoML Frameworks

Fabian Müller Blog, Data Science

In a recent blog post our CEO Sebastian Heinz wrote about Google's newest stroke of genius – AutoML Vision. A cloud service "that is able to build deep learning models for image recognition completely fully automated and from scratch". AutoML Vision is part of the current trend towards the automation of machine learning tasks. This trend started with automation of …

QlikView vs Qlik Sense

Unterschiede zwischen Qlik Sense und QlikView

Markus Berroth Blog, Data Science

Daten-Visualisierung und -Verständnis sind wichtige Faktoren bei der Durchführung eines Data Science Projekts. Eine visuelle Exploration der Daten unterstützt den Data Scientist beim Verständnis der Daten und liefert häufig wichtige Hinweise über Datenqualität und deren Besonderheiten. Bei STATWORX wenden wir im Bereich Datenvisualsierung eine Vielzahl von unterschiedlichen Tools und Technologien an, wie z.B. Tableau, Qlik, R Shiny oder D3. Seit …

salad pricing

Food for Regression: Using Sales Data to Identify Price Elasticity

Daniel Lüttgau Blog, Data Science

A few hundred meters from our office, there is a little lunch place. It is part of a small chain that specializes in assemble-yourself, ready-to-eat salads. When we moved into our new office a few years ago, this salad vendor quickly became a daily fixture. However, overtime, this changed. We still eat there regularly, but I am certain, if one …

airflow title

A framework to automate your work: How to set up Airflow!

Marvin Taschenberger Blog, Data Science

In the first part of this blog post, we talked about what a DAG is, how to apply this mathematical concept in project planning and programming and why we at STATWORX decided to use Airflow compared to other workflow managers. In this part, however, we will get more technical and investigate a quite informative hello-world programming and how to set …

Data Science in Python – Matplotlib (Teil 4)

Moritz Gnisia Blog, Data Science

Nachdem wir in dem vorherigen Artikel eine Einführung in Pandas gegeben haben und somit nun Daten auswählen sowie manipulieren können, soll sich in diesem Artikel alles um die Visualisierung von Daten drehen. Bekanntlicherweise lassen sich mit der passenden Grafik Daten häufig noch besser verstehen und ermöglichen eine andere Art der Interpretation, unabhängig von Mittelwerten und anderen Kennzahlen. Welche Bibliothek zu …

greedy forest

Regularized Greedy Forest – The Scottish Play (Act II)

Fabian Müller Blog, Data Science

In part one of the blog post, the Regularized Greedy Forest (RGF) was introduced as a contender to the more frequently used technique of Gradient Boosting Decision Trees (GBDT). Now it is time to turn words into actions and find out whether it actually is. Among all GBDT implementations, XGBoost is probably the most commonly used implementation in the field …

data transformation

Pipelines mit sklearn

Martin Albers Blog, Data Science

Es wird häufig angenommen, dass die meiste Arbeit von Data Scientisten darin besteht Algorithmen auszuwählen und zu tunen. Eine Umfrage von Crowdflower aus dem Jahr 2016 hat jedoch ergeben, dass die meiste Zeit dafür aufgewendet wird, Daten zu bereinigen und zu transformieren. Auch bei modernen Algorithmen im Bereich des Deep Learning ist dies nötig, um entweder die Performance des Modells …

Panda Titelbild

Data Science in Python – Pandas (Teil 3)

Moritz Gnisia Blog, Data Science

Nachdem mein Kollege Marvin in seinem Artikel die Bibliothek NumPy vorgestellt hat, wird sich dieser STATWORX Blog Beitrag rund um die Bibliothek Pandas drehen. Pandas fußt zu einem großen Teil auf NumPy, bietet allerdings gerade für einen Einsteiger in den Data Science Bereich eine einfache Möglichkeit, Daten in Python einzulesen sowie zu manipulieren. Wer die Funktionsweise von NumPy verstanden hat, …