greedy forest

Regularized Greedy Forest – The Scottish Play (Act I)

Fabian Müller Blog, Data Science, Statistik

Macbeth shall never vanquish'd be until Great Birnam Wood to high Dunsinane Hill Shall come against him. (Act 4, Scene 1) In Shakespeare's The Tragedy of Macbeth, the prophecy of Birnam Wood is one of three misleading prophecies foreshadowing the defeat of the protagonist of the same name. While highly unlikely, the event of a nearby forest moving towards his …

Intern Titel

Als Data Science Praktikant bei STATWORX

Moritz Gnisia Blog, Data Science, Statistik

Neben dem Einstieg als Trainee oder Data Science Consultant bei STATWORX gibt es ebenso die Möglichkeit, ein Praktikum im Bereich Data Science zu absolvieren. Unsere aktuellen Stellenausschreibungen findet ihr übrigens hier. Bewerbung bei STATWORX Das Berufsbild des Data Scientists ist durch seine vielfältigen Aufgaben und die bunte Durchmischung der Kompetenzen vor allem in den letzten Jahren sehr attraktiv geworden. Dies …

STATWORX on TOUR

A data geek, an AI guy, and a fintech dude go into a bar…

Lukas Strömsdörfer Blog, Data Science, Statistik

… some water down the bridge, we are having a Co-Meetup in Frankfurt – kudos to the organizers. Those guys are just awesome. For the past years they have been making an effort to build a Data Science community in Frankfurt – you should check out their Twitter feed. Whenever there is a Meetup – which you should totally check …

phyton-header

Data Science in Python – Vorschau und Werkzeuge

Marvin Taschenberger Blog, Data Science

Teil 0 – Vorschau und Werkzeuge In Sachen Datenaufbereitung, Datenformatierung und statistischer Auswertung oder kurz Data Science, war (und hier in Deutschland ist immer noch) R die Sprache der Wahl. Global hat Python hier deutlich an Popularität gewonnen und ist mittlerweile sogar vorherrschend in diesem Gebiet (siehe Studie von KDnuggets). Daher soll diese Reihe schon einmal einen Einblick geben „Warum …

XY Titel

Simulating Regression Data with Xy

André Bleier Blog, Data Science, Statistik

In a recent project, I have developed a gradient boosting algorithm to estimate price elasticities. Surely, it is necessary to validate if the functionalities of the algorithm are working as intended. I started using nonlinear time series data from another blog post about lag selection as a validation basis. Unfortunately, at that time I did not wrap the simulation code …

XGBoost Tree vs. Linear

Fabian Müller Blog, Data Science

Introduction One of the highlights of this year's H2O World was a Kaggle Grandmaster Panel. The attendees, Gilberto Titericz (Airbnb), Mathias Müller (H2O.ai), Dmitry Larko (H2O.ai), Marios Michailidis (H2O.ai), and Mark Landry (H2O.ai), answered various questions about Kaggle and data science in general. One of the questions from the audience was which tools and algorithms the Grandmasters frequently use. As …

Bilder lernen mit Neuronalen Netzen

Christian Moreau Blog, Data Science

„Bilder lernen“ mit Neuronalen Netzwerken Convolutional Neural Networks (CNN) sind ein beliebter Architekturtyp neuronaler Netzwerke, die hauptsächlich zur Klassifikation von Bildern und Videos eingesetzt werden. Der Aufbau von Convolutional Networks unterscheidet sich deutlich von dem des Multilayer Perceptron (MLP), das bereits in vorherigen Posts zur Einführung und Programmierung neuronaler Netze besprochen wurde. Convolutional und Pooling Layers CNNs verwenden eine spezielle …

Das Rosenblatt Perzeptron – die frühen Anfänge des Deep Learnings

Fabian Müller Blog, Data Science

Das Perzeptron war der erste Typus eines künstlichen Neurons und wurde erstmals durch Frank Rosenbaltt in den späten 1950er Jahren vorgestellt. Das Design des Perzeptrons war durch das Neuronen-Modell nach McCulloch und Pitt inspiriert. Während heutzutage andere Typen von Neuronen das Perzeptron ersetzt haben, findet das grundlegende Design des Perzeptrons in modernen neuronalen Netzwerke weiterhin Anwendung. Das Perzeptron kann zum …

Einflussfaktoren der Elastizitätskalkulation

Daniel Lüttgau Blog, Data Science

Preiselastizität ist die praktikabelste und aussagekräftigste Metrik, um die im Preismanagement entscheidende Frage zu beantworten: Wie reagieren Kunden auf eine Preiserhöhung/Preissenkung um x Prozent? Auf der Basis dieser Kennzahl ist es möglich ein differenziertes Preismanagement aufzubauen. Immer im Blick: der Kunde. Leider ist der Weg hinzu belastbaren Elastizitätswerten steinig. Es gibt in der Praxis viele Fallstricke und Besonderheiten, die, wenn …

Gradient Boosting – Identifikation nichtlinearer autokorrelativer Einflüsse

André Bleier Blog, Data Science

Autokorrelation ist ein zentrales Element der Zeitreihenanalyse. Um den Nutzen greifen zu können, sollten wir zunächst einmal klären, was Autokorrelation überhaupt ist. Autokorrelation Korrelation beschreibt Einflüsse bzw. Abhängigkeiten von Zufallszahlen. Eine Autokorrelation hingegen beschreibt den Einfluss einer Zufallszahl auf vergangene Zeitpunkte. Das bedeutet, man vermutet bei solch einer Untersuchung, dass bei einer Zufallszahl zeitliche Abhängigkeiten bzw. Einflüsse vorzufinden sind. Autokorrelation …