Tagarchief: Gegevensanalyse

Histogrammen



In het vorige artikel op deze website (Frequentietabel en histogram) hebben we laten zien hoe je op verschillende manieren een frequentietabel kunt maken.
Door daar dan een grafiek op te baseren krijg je een zogenaamd histogram.

Als je alleen in de grafische weergave van de frequentietabel bent geïnteresseerd dan zijn er enkele alternatieve mogelijkheden om een histogram te maken. Hieronder bespreken we er drie. Lees om de gebruikte terminologie te begrijpen eerst het vorige artikel.

Ingebouwde grafiek

Sinds versie 2016 heeft Excel een ingebouwd grafiek-type om een histogram te maken.
Klik in de menutab Invoegen in het blok Grafieken op Statistische grafieken en kies daarna Histogram.

Om dit soort grafieken te kunnen maken moeten de te turven getallen allemaal onder elkaar (of naast elkaar) staan.
De proefwerkcijfers uit het vorige artikel zijn dan ook omgezet naar een zogenaamde database-indeling (zie het tabblad Data van het Voorbeeldbestand).

Selecteer alle gegevens (inclusief de koppen) en kies de Histogram-grafiek zoals hiervoor aangegeven.

Excel bepaalt zelf de grenzen voor én aantal van de intervallen (zie het tabblad Hist van het Voorbeeldbestand).
In dit geval krijgen we drie intervallen. Onder de horizontale as staan de grenzen van deze intervallen weergegeven.

Daarbij worden 2 symbolen gebruikt: rechte en ronde haken. Een rechte haak geeft aan dat de bijbehorende waarde bij het interval hoort, bij een ronde haak doet de waarde niet meer mee; het tweede interval loopt dus van 4,8 tot en met 7,6.

Meestal voldoen die grenzen niet aan onze wensen, maar daar is gelukkig nog wel wat aan te doen.

Klik met de muis rechts op een van de waarden van de horizontale as en kies As opmaken.

Binnen Excel worden de intervallen Bins genoemd. Als voorbeeld maken we de interval-breedte gelijk aan 1.

NB zie je het invulveld niet op het scherm, maak dan het vak met As opmaken breder door de linkerkant te verschuiven.

Het resultaat is bijna gelijk aan wat we in het vorige artikel zelf hebben gemaakt, behalve het eerste interval; we willen de 2 en 3 in een aparte kolom.

LET OP we hebben hier te maken met een onhebbelijkheid van de ingebouwde grafiek: de onder- en bovengrens kunnen niet buiten het bereik van de onderliggende getallen liggen! Het Aantal bins wijzigen helpt niet en ook niet het aanpassen van de boven- en/of ondergrens (in het eigenschappenscherm Overloop van bin en Negatieve overloop van bin genoemd)

Maar als we de ondergrens instellen op 2,1 dan begint het er op te lijken!
Maar nu ziet de as er niet uit; helaas is daar verder niets aan te doen.

Uiteraard kan de lay-out van de grafiek nog aangepast worden door bijvoorbeeld een titel toe te voegen en de breedte van de kolommen aan te passen (klik rechts op één van de kolommen en kies Gegevensreeks opmaken)

NB vanwege de problemen met de indeling van de intervallen is de bruikbaarheid van dit grafiektype naar mijn mening beperkt.

Gegevensanalyse

Excel heeft een ingebouwde analyse-tool. Klik op de menutab Gegevens. In het blok Analyse zit de optie Gegevensanalyse.

Deze optie is standaard niet actief. Het activeren gaat als volgt:

  1. klik op de menutab Bestand
  2. kies Opties
  3. kies dan Invoegtoepassingen
  4. bij de inactieve toepassingen ziet u Analyses Toolpak
  5. selecteer die en klik op Start
  6. vink in het vervolgscherm de optie Analysis Toolpak aan

Hoe maak je hiermee een histogram?

  1. plaats eerst ergens in de sheet de data voor de gewenste intervallen (beter gezegd de bovengrens van de intervallen).
    Op het tabblad VerzBereik van het Voorbeeldbestand staan die in de cellen D3:D12.
  2. klik op de optie Gegevensanalyse in de menutab Gegevens
  3. selecteer in het vervolgscherm Histogram
  1. vul bij Invoerbereik de cellen in die de getallen bevatten waarvan een histogram gemaakt moet worden (dus zonder de teksten daarnaast en ook zonder de kopregel).
  2. het Verzamelbereik is het gebied met de intervallen uit punt 1.
    NB als je Labels aanvinkt zorg er dan voor dat én het Invoerbereik een kopregel bevat én het Verzamelbereik.
  1. geef dan bij het Uitvoerbereik de cel aan, waar de uitvoer zal komen.
    NB zorg voor voldoende lege ruimte rechts van deze cel en naar beneden. De uitvoer heeft minstens 2 kolommen en het aantal regels is gelijk aan het aantal intervallen + 2
  2. wil je niet alleen de frequenties maar ook een cumulatief, vink dan de betreffende optie aan
  3. we willen natuurlijk een grafiek, dus plaats een vinkje bij de laatste optie
  4. klik dan op OK

Het resultaat van bovenstaande staat in de cellen D2:E13. Het Verzamelbereik is gelijk aan onze opgave bij de invoer, maar met één extra regel, aangeduid met Meer. In deze categorie komen alle getallen die groter zijn dan de laatst opgegeven bovengrens. Deze werking komt overeen met die van de functie INTERVAL (zie het artikel Frequentietabel en histogram); deze analyse-tool zal intern ongetwijfeld van deze functie gebruik maken.

NB deze methode om een histogram te maken is aanzienlijk flexibeler dan het ingebouwde grafiektype.
Een groot nadeel is wel dat, wanneer er aanvullende gegevens zijn of als je andere intervallen wilt gebruiken, alle handelingen opnieuw moeten worden uitgevoerd.

Draaigrafiek

  1. maak een draaitabel op basis van alle gegevens in de kolommen B:D van het tabblad Data van het Voorbeeldbestand.
  2. vul het schema in zoals hiernaast (zie het tabblad Draai)
  3. om de draaigrafiek te maken kies je in de menutab Analyseren van Hulpmiddelen voor draaitabellen in het blok Extra de optie Draaigrafiek

Dit levert een frequentietabel en histogram op voor alle proefwerken. Wil je de resultaten van één speciaal proefwerk zien, selecteer dit dan bij Proefwerk in de draaitabel of de draaigrafiek. Dit kun je bij geen enkele van de voorgaande methodes gemakkelijk doen.

NB1 wil je een andere indeling van de intervallen maak dan gebruik van de groepeer-mogelijkheden binnen een draaitabel (zie het artikel Groeperen in een draaitabel).

NB2 zijn de brongegevens aangevuld, dan volstaat het om de draaitabel of draaigrafiek te vernieuwen (via rechts klikken). Wel moeten deze gegevens dan in een Excel-tabel zijn opgenomen anders moet eerst de bron uitgebreid worden (via de optie Andere gegevensbron).

NB3 met deze derde methode maken we toch eerst een frequentie-tabel en het voorbeeld hoort dus eigenlijk in dit rijtje niet thuis. Maar het is de meest flexibele, handigste en betrouwbaarste methode!

Andere voorbeelden van histogrammen

Histogrammen gebruik je als je frequenties van bepaalde gebeurtenissen zichtbaar wilt maken.

We hebben hiervoor al gezien, dat het bijvoorbeeld een handige manier is om de verdeling van proefwerkresultaten van leerlingen weer te geven.
Daarnaast is het een goed hulpmiddel om te zien hoe de gewichten en/of lengtes van een bepaalde groep mensen zijn verdeeld.

LET OP als je histogrammen gebruikt is het van het grootste belang dat de onderliggende populatie qua samenstelling ‘homogeen’ is. Toon je bijvoorbeeld de verdeling van de gewichten van diverse personen dan is het raadzaam om per geslacht een andere grafiek te maken. Maar als de leeftijden ver uit elkaar lopen, dan moet je ook daarvoor verschillende categorieën maken.

Een ander voorbeeld: als fietstraining heb ik geprobeerd 30 km op een constante, (voor mij) hoge trapfrequentie van 90 omwentelingen per minuut te rijden. Op een koude, regenachtige dag lekker binnen met behulp van Zwift. Hierboven zie je het eerste gedeelte van het resultaat (zie het tabblad Zwift van het Voorbeeldbestand). Iedere seconde legt dat programma vast op welke virtuele hoogte je fietst, welke afstand je in die seconde hebt afgelegd etc. Ook de trapfrequentie ofwel de cadans is geregistreerd. Deze output is niet direct bruikbaar, maar daar kunnen we met behulp van Power Query wel iets aan doen (zie het tabblad Zwift):

Maken we daar een frequentietabel en een histogram van (tabblad ZwiftOverz), dan blijkt het niet helemaal gelukt om in de buurt van die 90 te blijven. Was dat nou in het begin van de ’tocht’, op het einde of tijdens beklimmingen? Deze vragen kunnen niet via een histogram beantwoord worden; dat vergt een ander soort analyse.

De omvormer van mijn zonnepanelen levert een overzicht van de opbrengst op dagbasis. Ook die dagresultaten nodigen uit tot het maken van een histogram (zie het tabblad ZonPanelen van het Voorbeeldbestand).

Kort samengevat: van ieder overzicht waarin per persoon of per seconde/minuut/uur/dag of per 100m/km of per klas of per …. gegevens vastliggen kan makkelijk een histogram gemaakt worden.
Wel zul je voor nadere analyse vaak nog dieper op de gegevens moeten inzoomen.