Een boxplot maken in R

Een boxplot is een andere visualisatie die in de statistiek ook veel wordt gebruikt en op een uitstekende manier duidelijke inzichten geeft over de waarden. Het visualiseert namelijk dezelfde statistieken die je krijgt bij het uitvoeren van het summary command, op het gemiddelde na. Dit zijn de minimum, maximum, mediaan, 1st Qu. en 3rd Qu. (eerste en derde kwartiel).

summary(Diesel)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.790   0.860   1.055   1.074   1.260   1.440
boxplot(Diesel)

plot of chunk unnamed-chunk-1

Door middel van een boxplot heb je deze informatie visueel en krijg je een korte maar effectieve statistische samenvatting van de data.

Het is ook mogelijk om meerdere boxplots te visualiseren in dezelfde visualisatie. Hiervoor voer je eenvoudig de naam van een andere variabele toe aan de functie. Om dit te demonstreren, visualiseren we Diesel, LPG en Benzine in dezelfde grafiek. Daarbij geven we een aantal andere handige parameters aan de boxplot() functie, deze worden hierna ook toegelicht.

boxplot(Diesel, Benzine.Euro95, LPG, notch = TRUE,
        col = c("red","blue","green"), 
        names = c("Diesel","Benzine","LPG"))
## Warning in bxp(structure(list(stats = structure(c(0.79, 0.85, 1.055,
## 1.29, : some notches went outside hinges ('box'): maybe set notch=FALSE

plot of chunk unnamed-chunk-2

Zoals je kunt zien, kun je door middel van extra parameters de standaard boxplot uitbreiden. In deze visualisatie kun je zien hoe de prijzen van de drie brandstoffen uit de dataset zich onderling verhouden. Zo kun je bijvoorbeeld zien dat het maximum van de prijs van LPG nog niet eens bij het minimum van de prijs van Diesel komt. De inhammen die je ziet, worden notches genoemd. Volgens een paper van Chambers et al. (1983) (een statisticus waar van ik het citaat heb uit het onderstaande artikel) zijn de medianen van de variabelen significant verschillend als de notches van deze variabelen elkaar niet overlappen. In dit geval is dat bij Diesel en Benzine: Je kunt zien dat de inhammen, dus de notches van Diesel en Benzine elkaar nog net overlappen.

In het artikel [7] Exploratory Data Analysis: Variations of Box Plots in R for Ozone Concentrations in New York City and Ozonopolis, (Eric Cai - RBloggers, 2013) wordt uitgebreid uitgelegd hoe je boxplots kunt gebruiken en interpreteren voor data exploratie.

results matching ""

    No results matching ""