overplotting-main

How NOT to overplot

Lea Waniek Blog, Data Science, Statistik

Overplotting can be a serious problem, which complicates data visualization and thus also data exploration. Overplotting describes situations, in which multiple data points overlay each other within a plot, causing the individual observations to be non-distinguishable. In such cases, plots only indicate the general extent of the data, while existing relationshipsmight be heavily obscured. Overplotting especially occurs when dealing with …

XGBoost Tree vs. Linear

Fabian Müller Blog, Data Science

Introduction One of the highlights of this year's H2O World was a Kaggle Grandmaster Panel. The attendees, Gilberto Titericz (Airbnb), Mathias Müller (H2O.ai), Dmitry Larko (H2O.ai), Marios Michailidis (H2O.ai), and Mark Landry (H2O.ai), answered various questions about Kaggle and data science in general. One of the questions from the audience was which tools and algorithms the Grandmasters frequently use. As …

Einführung in Reinforcement Learning – wenn Maschinen wie Menschen lernen

Sebastian Heinz Blog, Data Science

Die meisten Machine Learning Algorithmen, die heute in der Praxis Anwendung finden, gehören zur Klasse des überwachten Lernens (Supervised Learning). Im Supervised Learning wird dem Machine Learning Modell ex post eine bereits bekannte Zielgröße präsentiert, die auf Basis verschiedener Einflussfaktoren in den Daten durch eine Funktion möglichst genau vorhergesagt werden soll. Die Funktion repräsentiert dabei abstrakt das jeweilige Machine Learning …

Compiling R Code in Sublime Text

Lukas Strömsdörfer Blog, Data Science, Statistik

What is Sublime Text? Nearly every coder has at one point googled for the best code editor. To those who did, you already know Sublime Text. To those who didn't: best code editors. After its initial release in 2007 Sublime Text has for sure made its way into the ranks of the most popular editors. Here at STATWORX, most of …

Furchtlose Grammatiker – Textmining im tidyverse Teil 2

David Schlepps Blog, Data Science

In unserem ersten Blog-Beitrag zum Textmining im tidyverse haben wir uns mit den ersten Schritten zum Einlesen und Bereinigen von Texten mit den Mitteln des tidyverse befasst und bereits erste Sentimentanalysen begonnen. Die Grundlage hierzu bildete das epistemologische Werk The Grammar of Science von Karl Pearson. Im zweiten Teil wollen wir auf diesen Grundlagen aufbauen und damit ein weiteres von …

Datenbanken in R – Einfach, schnell und sicher

Tobias Krabel Blog, Data Science

Wer mit großen Datenmengen in seinem beruflichen Alltag zu tun hat, der weiß, wie nützlich Datenbanken sein können. Als elektronisches Verwaltungssystem sind Datenbanken darauf ausgelegt, effizient und widerspruchsfrei mit großen Datenmengen umzugehen. Zudem sorgt eine Datenbank im Unternehmen dafür, dass jeder Mitarbeiter auf einen einheitlichen und aktuellen Datenstand zurückgreifen kann. Änderungen in der Datenbasis werden somit allen Beteiligten direkt zuteil. …

Bilder lernen mit Neuronalen Netzen

Christian Moreau Blog, Data Science

„Bilder lernen“ mit Neuronalen Netzwerken Convolutional Neural Networks (CNN) sind ein beliebter Architekturtyp neuronaler Netzwerke, die hauptsächlich zur Klassifikation von Bildern und Videos eingesetzt werden. Der Aufbau von Convolutional Networks unterscheidet sich deutlich von dem des Multilayer Perceptron (MLP), das bereits in vorherigen Posts zur Einführung und Programmierung neuronaler Netze besprochen wurde. Convolutional und Pooling Layers CNNs verwenden eine spezielle …

Fehlerbehandlung in R – Handhabung von Ausnahmen mit trycatch

Markus Berroth Blog, Data Science, Statistik

Der vorherige Teil der Reihe drehte sich um die Handhabung von unerwarteten Fehlern und Bugs. Doch manchmal erwartet man das Auftreten von Fehlern, beispielsweiße falls man das gleiche Modell für mehrere Datensätze anwenden möchte. Dabei kann unter anderem der Fehler auftreten, dass das Modell aufgrund von fehlender Varianz nicht geschätzt werden kann. In diesem Fall möchte man nicht, dass durch …

Das Rosenblatt Perzeptron – die frühen Anfänge des Deep Learnings

Fabian Müller Blog, Data Science

Das Perzeptron war der erste Typus eines künstlichen Neurons und wurde erstmals durch Frank Rosenbaltt in den späten 1950er Jahren vorgestellt. Das Design des Perzeptrons war durch das Neuronen-Modell nach McCulloch und Pitt inspiriert. Während heutzutage andere Typen von Neuronen das Perzeptron ersetzt haben, findet das grundlegende Design des Perzeptrons in modernen neuronalen Netzwerke weiterhin Anwendung. Das Perzeptron kann zum …

Einflussfaktoren der Elastizitätskalkulation

Daniel Lüttgau Blog, Data Science

Preiselastizität ist die praktikabelste und aussagekräftigste Metrik, um die im Preismanagement entscheidende Frage zu beantworten: Wie reagieren Kunden auf eine Preiserhöhung/Preissenkung um x Prozent? Auf der Basis dieser Kennzahl ist es möglich ein differenziertes Preismanagement aufzubauen. Immer im Blick: der Kunde. Leider ist der Weg hinzu belastbaren Elastizitätswerten steinig. Es gibt in der Praxis viele Fallstricke und Besonderheiten, die, wenn …