Koordinatensysteme in ggplot2: Leicht übersehen und ziemlich unterschätzt

Coding
Data Visualization
R

07.05.2018

Team statworx

Alle Plots haben Koordinatensysteme. Vielleicht gerade weil sie ein so integraler Bestandteil von Plots sind, werden sie leicht übersehen. In ggplot2 jedoch gibt es mehrere sehr nützliche Optionen, um die Koordinatensysteme von Plots anzupassen – diese werden wir in diesem Blogpost nicht übersehen, sondern genau erkunden.

Da gerade Frühling ist, verwenden wir eine zufällige Teilmenge des berühmten iris-Datensatzes. Wenn wir die petal length gegen die petal width auftragen, die species auf die Farbe abbilden und ein wenig mit den aesthetics wie shape, color und size spielen, erhalten wir diesen frühlingshaften Plot:

# Base plot plot_base <- ggplot(data = df_iris) + geom_point(aes(x = Petal.Length, y = Petal.Width, color = Species), size = 3, alpha = 0.9, shape = 8) + geom_point(aes(x = Petal.Length, y = Petal.Width), color = "yellow", size = 0.4) + scale_color_manual(values = c("#693FE9", "#A089F8", "#0000FF")) + theme_minimal()

Kartesisches Koordinatensystem

Hinein- und Herauszoomen

Das Koordinatensystem kann manipuliert werden, indem man eines der verschiedenen Koordinatensysteme von ggplot hinzufügt. Wenn man sich ein Koordinatensystem vorstellt, denkt man höchstwahrscheinlich an ein kartesisches. Das Cartesian coordinate system kombiniert die x- und y-Dimension orthogonal und ist der Standard in ggplot (coord_cartesian).

Es gibt zudem mehrere Varianten des bekannten kartesischen Koordinatensystems in ggplot, nämlich coord_fixed, coord_flip und coord_trans. Für alle diese Varianten kann der dargestellte Abschnitt der Daten angegeben werden, indem man den maximal dargestellten Wert auf der x-Achse (xlim =) und der y-Achse (ylim =) definiert. Dies ermöglicht es, in einen Plot hinein oder herauszuzoomen.

Ein großer Vorteil besteht darin, dass alle Manipulationen des Koordinatensystems lediglich die Darstellung der Daten verändern – nicht aber die Daten selbst.

# Zooming in with xlim/ylim plot_base + coord_cartesian(xlim = 5, ylim = 2) + ggtitle("coord_cartesian with xlim = 5 and ylim = 2") 

Das „Seitenverhältnis“ der Achsen festlegen

Mit coord_fixed kann man das genaue Verhältnis der Länge einer y-Einheit zur Länge einer x-Einheit in der endgültigen Visualisierung festlegen (aspect ratio).

# Setting the "aspect ratio" of y vs. x units plot_base + coord_fixed(ratio = 1/2) + ggtitle("coord_fixed with ratio = 1/2")

Transformation der Skalen der Achsen

Dies hilft dabei, genau die Erkenntnis hervorzuheben, die man vermitteln möchte. Eine weitere Möglichkeit dafür bietet coord_trans, das verschiedene Transformationen der x- und y-Variablen erlaubt (siehe Tabelle unten, entnommen aus Wickham 2016, Seite 97).

Ich möchte das noch einmal betonen: Sehr praktisch ist, dass sich solche Transformationen nur auf die dargestellte Skala beziehen – nicht auf die tatsächlichen Daten.

Das ist auch der Grund, warum – unabhängig von der durchgeführten Transformation – die Originalwerte als Achsenbeschriftungen verwendet werden.

NameFunktion Inverse asnexpidentityloglog10log2logitpow10probitrecipreversesqrt

# Transforming the axes plot_base + coord_trans(x = "log", y = "log2") + ggtitle("coord_trans with x = "log" and y = "log2"")

Achsen vertauschen

Die letzte der kartesischen Optionen, coord_flip, vertauscht die x- und y-Achse. Diese Option kann beispielsweise nützlich sein, wenn man die Ausrichtung von univariaten Plots wie Histogrammen oder Plot-Typen wie Boxplots ändern möchte – also solchen, die die Verteilung einer kontinuierlichen Variable über die Kategorien einer anderen Variable darstellen.

Nichtsdestotrotz funktioniert coord_flip auch mit allen anderen Plots. Dadurch vervielfachen sich die gestalterischen Möglichkeiten für Plots – insbesondere, da sich alle kartesischen Koordinatensysteme miteinander kombinieren lassen.

# Swapping axes # base plot #2 p1 <- ggplot(data = df_iris) + geom_bar(aes(x = Species, fill = Species), alpha = 0.6) + scale_fill_manual(values = c("#693FE9", "#A089F8", "#4f5fb7")) + theme_minimal() # base plot & coord_flip() p2 <- ggplot(data = df_iris) + geom_bar(aes(x = Species, fill = Species), alpha = 0.6) + scale_fill_manual(values = c("#693FE9", "#A089F8", "#4f5fb7")) + theme_minimal() + coord_flip() gridExtra::grid.arrange(p1, p2, top = "Bar plot without and with coord_flip")

Polares Koordinatensystem

Die Anpassung kartesischer Koordinatensysteme erlaubt eine feine Abstimmung von Plots. Doch coord_polar, das letzte hier behandelte Koordinatensystem, verändert den gesamten Charakter eines Plots.

Durch die Verwendung von coord_polar werden bar geoms in Kreisdiagramme (pie charts) oder „Zielscheiben“-Plots (bullseye plots) verwandelt, während line geoms in Radar-Charts umgewandelt werden.

Dies geschieht, indem x und y den Winkeln und Radien des resultierenden Plots zugewiesen werden. Standardmäßig wird die x-Variable dem Winkel zugeordnet, aber durch Setzen des Arguments theta in coord_polar auf "y" kann dies geändert werden.

Auch wenn solche Plots in Bezug auf Neuheit und Optik glänzen mögen, sind ihre wahrnehmungspsychologischen Eigenschaften komplex, und ihre korrekte Interpretation kann ziemlich schwierig und eher unintuitiv sein.

# Base plot 2 (long format, x = 1 is summed up to generate count) plot_base_2 <- df_iris %>% dplyr::mutate(x = 1) %>% ggplot(.) + geom_bar(aes(x = x, fill = Species), alpha = 0.6) + theme(axis.text = element_blank(), axis.ticks = element_blank(), axis.title = element_blank()) + scale_fill_manual(values = c("#693FE9", "#A089F8", "#4f5fb7")) + theme_minimal() + ggtitle("base plot") # Bullseye plot # geom_bar & coord_polar(theta = "x") p2 <- plot_base_2 + coord_polar(theta = "x") + ggtitle("theta = "x"") # Pie chart # geom_bar & coord_polar(theta = "y") p3 <- plot_base_2 + coord_polar(theta = "y") + ggtitle("theta = "y"") gridExtra::grid.arrange(p2, p3, plot_base_2, top = "geom_bar & coord_polar", ncol = 2) # Base plot 3 (long format, mean width/length of sepals/petals calculated) plot_base_3 <- iris %>% dplyr::group_by(Species) %>% dplyr::summarise(Petal.Length = mean(Petal.Length), Sepal.Length = mean(Sepal.Length), Sepal.Width = mean(Sepal.Width), Petal.Width = mean(Petal.Width)) %>% reshape2::melt() %>% ggplot() + geom_polygon(aes(group = Species, color = Species, y = value, x = variable), fill = NA) + scale_color_manual(values = c("#693FE9", "#A089F8", "#4f5fb7")) + theme_minimal() + ggtitle("base plot") # Radar plot # geom_polygon & coord_polar p2 <- plot_base_3 + theme_minimal() + coord_polar() + ggtitle("coord_polar") gridExtra::grid.arrange(plot_base_3, p2, top = "geom_polygon & coord_polar", ncol = 2)