TensorFlow

Einführung TensorFlow

Sebastian Heinz Blog, Data Science

TensorFlow ist aktuell eines der wichtigsten Frameworks zur Programmierung von neuronalen Netzen, Deep Learning Modellen und anderen Machine Learning Algorithmen. Es basiert auf einem C++ Low Level Backend, das jedoch über eine Python Library gesteuert wird. TensorFlow lässt sich sowohl auf CPU als auch GPU (Clustern) ausführen. Seit kurzem existiert auch ein R Package, mit dem TensorFlow genutzt werden kann. …

statistics word cloud

Methoden Einführung: Statistik mit Löwen – Teil 2

Nick Bornschein Blog, Statistik

Nach der deskriptiven Betrachtung der historischen Daten gehen unsere Archäologen einen Schritt weiter und stellen sich folgende Forschungsfrage: H1: Je länger die Löwen bei den Zirkusspielen im Einsatz sind, desto höher ist ihr Gewicht. Für die Beantwortung dieser Frage bedienen sich die Forscher zunächst einer einfachen Korrelationsanalyse. pwcorr gewicht monate, sig obs Diese fördert zu Tage, dass das Gewicht und …

Fehlerbehandlung in R – Debugging mit RStudio Teil 2

Markus Berroth Blog, Data Science, Statistik

Nachdem der erste Teil die unterschiedlichen Aktivierungsmöglichkeiten für den Debugger behandelt hat, dreht sich der zweite Teil um effizientes Debugging. „Debugging is like being the detective in a crime movie where you are also the murderer.”(1) … und manchmal erinnert man sich nicht mal die Tat begangen zu haben. Im Folgenden werden wir die Debugging-Features von RStudio an einem einfachen …

feather

Mit Feather verleihen Sie Ihren Daten Flügel

Tobias Krabel Blog, Data Science, Statistik

Das Lesen und Schreiben von großen Datenmengen ist schon seit Entwicklung der Datenbanken das Sorgenkind eines jeden Informatikers. Da in der heutigen Zeit die Datenmengen unweigerlich größer werden, ist dieses Thema auch bei Data Scientists angekommen, die in Großprojekten große Objekte auf der Festplatte zwischenspeichern möchten. Seit einiger Zeit jedoch kursiert in der R Community das Paket feather, das mit …

True or False

Der p-Wert und die False Discovery Rate

Jakob Gepp Blog, Statistik

Zum Überprüfen von Hypothesen werden meist p-Werte verwendet. Doch häufig werden diese falsch interpretiert oder gar so lange bearbeitet, bis etwas „signifikant“ ist. Letzteres wird auch p-Hacking genannt. Die Frage ist nun, was genau sagen p-Werte aus? Definition Der p-Wert ist die Wahrscheinlichkeit, dass ein beobachtetes Ergebnis, unter der Annahme die Nullhypothese ist korrekt, mindestens so extrem ausfällt wie es …

Abbildung Deep Learning

Wie Deep muss MLP Deep Learning sein?

Christian Moreau Blog, Data Science

Wie bereits im ersten Teil unserer Einführungsreihe zu Deep Learning erwähnt, sind neuronale Netze und Deep Learning aktuell ein aktiver Bereich der Machine Learning Forschung. Während die zugrundeliegenden Idee und Konzepte bereits mehrere Jahrzehnte alt sind, ist die Komplexität der Modelle und Architekturen in den letzten Jahren stetig angewachsen. In diesem Blogbeitrag gehen wir der Frage nach, ob durch die …

Herausforderungen der nicht-parametrischen Statistik: der Wilcoxon-Rangsummen-Test

Alexander Darrall Blog, Statistik

Bei der Reise durch das nicht-parametrische Universum begegnet man auch Phänomenen, denen man lieber nicht begegnen möchte: schwarzen Löchern. Diese können zu Beginn sehr klein sein, doch wenn man sie nicht beachtet und versucht, sich (heimlich) an ihnen vorbeizuschleichen, stürzen sie alles ins Chaos. Auch in der Nähe der Welt des Wilcoxon-Rangsummen-Tests gibt es eines davon. Die Welt des Wilcoxon-Rangsummen-Tests …

Von den Sozialwissenschaften zu Data Science

Fabian Müller Blog, Data Science

Der Smalltalk mit einem Data Scientist endet früher oder später immer bei der Frage des Studienbackgrounds. Die Frage ist insofern naheliegend, als dass reine Data Science Studiengänge in Deutschland gerade erst am Anlaufen sind. Die bereits am Markt aktiven Data Scientists stammen daher fast ausschließlich aus fachfremden Studiengängen. Das Unbegreifen ist zumeist groß, wenn die Antwort auf die Frage des …

twitter Chat

Twitter Mining mit R – Teil 1

Lukas Strömsdörfer Blog, Data Science

Spätestens durch den US-Präsidentschaftswahlkampf rückte der Microblogging Dienst Twitter stärker in den öffentlichen Fokus. Wem es allerdings nicht reicht, einfach nur durch das Soziale Netzwerk zu stöbern, der kann mit ein paar wenigen Tricks vom Datenreichtum Twitters profitieren. Datenzugang Twitter, so wie viele andere Online-Dienste, bietet sog. APIs („Application Programming Interface“) an. Durch diese können Interessierte ganz einfach einen Link …

Data Processing

Gut in Form – So klappts mit der Datenaufbereitung in R, Stata und SPSS

Jessica Aust Blog, Statistik

In der “Gut in Form”-Serie werden in den nächsten Wochen verschiedene Möglichkeiten gezeigt, um die Daten optimal für die Analyse vorzubereiten. Die Durchführung wird dabei jeweils in R, Stata und SPSS vorgestellt. So werden auch Vor- oder Nachteile der verschiedenen Programme sichtbar. Datenimport und -export Egal wie gut die Methodenkenntnisse sind, haben die Daten nicht die gewünschte Form, lässt sich …