Fehlerbehandlung in R: Debugging mit RStudio

Markus Berroth Blog, Data Science, Statistik

In der Blog-Reihe „Fehlerbehandlung in R“ geht es um effizientes und systematisches Überprüfen von R-Code. Den Beginn macht das Finden von Fehlern durch Debugging, weiter geht es mit der Handhabung von Fehlern und endet mit Unit-Testing, das zum Überprüfen von korrekter Funktionalität von R-Code dient. Die Reihe startet mit Debugging in R, wobei Debugging ein breitgefächertes Thema ist. Dieser Artikel …

Methoden Einführung: der t-Test

Jakob Gepp Blog, Statistik

Einer der am häufigsten verwendeten statistischen Tests ist der t-Test. Er kann unter anderem dazu genutzt werden, zu prüfen, ob der Mittelwert einer Zufallsvariable einem bestimmten Wert entspricht. Auch kann er für den Vergleich zweier Mittelwerte herangezogen werden. Wie bei jedem anderen statistischen Test auch, müssen gewisse Voraussetzungen erfüllt sein, damit der t-Test sicher eingesetzt werden kann: Normalverteilung der Zufallsvariablen …

Einführung in die nicht-parametrische Statistik: der Wilcoxon-Rangsummen-Test

Alexander Niltop Blog, Statistik

Niederländer lieben Käse, Holzschuhe und am liebsten sitzen sie hinter dem Steuer ihres Wohnwagens! Oder? Will man solche Vorurteile (seriös) untersuchen, muss man dazu Daten erheben. So könnte man die jährliche Fahrzeit im Wohnwagen bei Niederländern und beispielsweise Deutschen erfassen und im Anschluss überprüfen, ob sich beide Nationen im Mittel bei der Fahrzeit unterscheiden. Dafür bietet sich als erstes der …

Faktorenanalyse mit binären Items in SPSS

Sebastian Heinz Blog, Statistik

Die Annahme multivariat normalverteilter Items bei der Durchführung einer exploratorischen Faktorenanalyse (EFA) verhindert, streng genommen, die Verwendung von binär skalierten Items (0/1-Codierung). Zwar entspricht der Pearson-Korrelationskoeffizient zwischen zwei binären Items dem Phi-Koeffizienten, der Stärke und Richtung des Zusammenhangs zwischen zwei binären Items misst, jedoch ist aufgrund des limitierten Wertebereichs eines binären Items die geforderte Verteilungsannahme einer multivariaten Normalverteilung klar verletzt. …

Korrelierte Zufallszahlen in R

Sebastian Heinz Blog, Statistik

Das Erzeugen von korrelierten Zufallsvariablen ist einer der Kernpunkte bei der Programmierung von Simulationen. Aktienrenditen, Zeitreihen, MCMC-Algorithmen und viele weitere Verfahren verwenden können durch das Erstellen korrelierter Zufallszahlen verwendet werden. Zerlegen der Korrelationsmatrix Korrelierte Zufallszahlen können durch Multiplikation der n x p Matrix der Zufallswerte mit der gewünschten Cholesky-zerlegten Korrelationsmatrix C der Zufallswerte erzeugt werden. Eine Cholesky-Zerlegung lässt sich in …

Tabellenexport aus Stata nach Excel

Nick Bornschein Blog, Statistik

Mit Blick auf die oftmals mühsam erstellten Ergebnisse in Stata erreichten manche Nutzer bis Stata 12 oftmals eine weitere Hürde. Den Export – aus dem wie eine Schreibmaschine aufgebautem Output Fenster – zu kopieren, ging entweder nur über zusätzliche ado-Files, copy & paste oder oftmals auch gar nicht, so dass die Ergebnisse im letzteren Fall mühsam abgetippt werden mussten. Tabellen …

APA Formatierung von Tabellen

Alexander Niltop Blog, Statistik

Standards für die Formatierung von Tabellen oder die einheitliche Verwendung von Abkürzungen setzen sich immer mehr durch. Egal, ob für die Hausarbeit, die Promotion oder für die Veröffentlichung in einem wissenschaftlichen Journal – Stil und Format einer Arbeit müssen einer bestimmten Anforderung genügen. Die Standards von der American Psychological Association (APA) sind dabei nicht nur in der Psychologie weit verbreitet. …

Hypothesen richtig formulieren

Daniel Lüttgau Blog, Statistik

Eine Hypothese ist eine empirisch überprüfbare Annahme über die Wirkungsbeziehung von zwei oder mehr Faktoren der realen und erfahrbaren Welt. Am Anfang eines jeden Forschungsprojektes stehen, außer einer klaren Fragestellung, die das Forschungsvorhaben leitet, stets auch eine oder mehrere Hypothesen. Erst dadurch kann eine systematische Forschungsarbeit gewährleistet werden. Übersicht zu Hypothesen Im Verlauf des Forschungsprojektes gilt es, die Richtigkeit der …

Fehlerquellen in Fragebogen

Jessica Aust Blog, Statistik

Die Forschungsfrage ist formuliert, die Thesen sind aufgestellt und die zu messenden Variablen sind klar definiert. Jetzt nur noch schnell den Fragebogen runterschreiben, bevor es endlich mit der Auswertung losgehen kann! Oder? In der Praxis steckt mehr dahinter. Fehlerquellen in Fragebogen Ganz so trivial wie man oft glaubt ist das Aufsetzen des Fragebogens leider nicht. Wer noch keine Erfahrung damit …

data visualisation

Korrelation und Kausalität

Jakob Gepp Blog, Statistik

Ein bekanntes Beispiel aus der Statistik: Je mehr Leute in Kentucky heiraten, desto mehr Menschen ertrinken nachdem sie aus einem Fischerboot gefallen sind. Mit einem Korrelationskoeffizienten von r = 0.952 ist dieser Zusammenhang, statistisch gesehen, fast perfekt. Aber sollte man deswegen in Kentucky lieber auf das Heiraten verzichten? Oder ist etwa der Pro-Kopf-Verbrauch von Käse verantwortlich für ein unglückliches Ableben …