Statistiek 101. The Basics.

Statistics

A Match Made In Heaven

Statistiek en Big Data, het ene kan niet zonder het andere. Big Data verzamelt onnoemlijk veel gegevens. Niet alleen de opslag van die hoeveelheden is een uitdaging, ook het analyseren van deze data speelt een grote rol. Vele datasets bevatten een schat aan informatie die ingezet kan worden voor verschillende doeleinden als marketing, wetenschappelijk onderzoek, …

Daar blijkt vaak wel een bepaalde voorkennis statistiek of wiskunde mee samen te gaan. Hier volgt dus een zéér beperkte inleiding in de statistiek. Om enkele basisbegrippen, die vaak voorkomen, context te geven.

De 5 V’s

In het vakjargon gebruikt men wel eens de 4 of 5 V’s, om aan te duiden vanaf welk moment je effectief van Big Data mag beginnen spreken. Die gaan als volgt:

  • Volume: de hoeveelheid data
  • Velocity: de snelheid aan welke nieuwe data ontstaat of gegenereerd wordt
  • Variety: de verschillende types van data
  • Veracity: de betrouwbaarheid van je data, hoe nauwkeurig je data is
  • Value: aan Big Data doen is nutteloos tenzij je er waarde kan uithalen
Image result for big data 5 v
De 5 V’s van Big Data

Statistische basisconcepten

Populatie = de verzamelingvan eenheden die je wil bestuderen. Bv. Alle inwoners van België

Steekproef = een deelverzameling van de eenheden van de populatie. Bij een steekproef is het van belang om alle deelgroepen van de populatie even sterk te vertegenwoordigen. De steekproef moet representatief zijn voor de volledige populatie. Een steekproef moet ook aselect zijn, alle eenheden van de populatie moeten een gelijke kans hebben om in de steekproef te vallen.

We kunnen ook onze eigelijke gegevens gaan opdelen.

  • Kwantitatieve gegevens: dit zijn gegevens waarmee je kunt rekenen en waarbij het ook zinvol is om ermee te rekenen
    • Kwantitatief continu: alle waarden in een bepaald interval zijn mogelijk. Bv. Temperatuur
    • Kwantitatief discreet: slecht een bepaald aantal waarden zijn mogelijk, de tussenliggende waarden hebben geen betekenis. Bv. Examencijfers
  • Kwalitatieve gegevens: deze zijn niet zinvol om mee te rekenen, of je kunt er gewoon niet mee rekenen. Bv. het merk van een auto

Centrummaten

Voor het beschrijven van kwantitatieve gegevensverzamelingen zijn we meestal geïnteresseerd in de ligging van de gegevens, dit kan met behulp van centrummaten, en de spreiding van de gegevens. Een centrummaat is dus een getal dat aangeeft rond welke centrale waarde de gegevens van serie waarnemingen liggen.

Het gemiddelde

Er zijn verschillende soorten gemiddelden. Meestal wordt er gebruik gemaakt van het rekenkundig gemiddelde. Zoals bij iedereen waarschijnlijk wel bekend is het gemiddelde de som van de waardes van de verzameling gedeeld door het aantal waardes. Het populatiegemiddelde wordt aangeduidt met de Griekse letter µ (mu).

Het nadeel aan het gebruik van het gemiddelde is dat dit enorm hard beïnvloed kan worden door extreem hoge of lage waarden. Het positieve is wel dat met alle waarden rekening gehouden wordt.

De mediaan

De mediaan Me van een kwantitatieve gegevensverzameling is het middelste gegeven wanneer de gegevens in stijgende (of dalende) orde worden gerangschikt. Dit betekent dat 50 % van de gegevens kleiner is dan de mediaan en 50 % groter.

We kunnen dus de mediaan berekenen door het aantal waarden van klein naar groot te sorteren en:
1. Als het aantal waarden oneven is, is Me het middelste getal,
2. Als het aantal waarden even is, is Me het gemiddelde van de twee middelste getallen.

In dit geval is de mediaan 7,5

De mediaan maakt geen gebruik van alle gegevens, maar de mediaan is minder gevoelig voor extreem grote of kleine metingen dan het gemiddelde.

De modus

De modus Mo is de waarde die het vaakst voorkomt in de gegevensverzameling. De modale klasse is de klasse met de hoogste frequentie. De modus zelf is dan de centrale waarde van de modale klasse.

De modus is bij uitstek geschikt voor het beschrijven van kwalitatieve gegevens. Omdat de modus de nadruk legt op concentratie van gegevens, wordt deze ook gebruikt bij kwantitatieve gegevens om het gebied op te sporen waar veel van de gegevens zijn geconcentreerd.

Voor sommige kwantitatieve gegevens kan de modus weinigzeggend zijn.

De modus is hier 65,5.

Spreidingsmaten

De centrummaten waren opwarming en zijn echte basiskennis. Nu gaan we naar de spreidingsmaten kijken. Die zijn al iets technischer en zoals de naam het zegt: spreidingsmaten beschrijven de spreiding van de gegevens. Hoe ver liggen ze uit of bij elkaar.

Het bereik

Het bereik (Range) R van een kwantitatieve gegevensverzameling is gelijk aan het verschil tussen het grootste gegeven en het kleinste gegeven. R is gemakkelijk te berekenen, maar houdt enkel rekening met de uiterste waarden.

Een verzameling gegevens kan echter een centrale kern hebben met een dichte concentratie aan gegevens, waar toevallig de uiterste waarden zeer ver uit elkaar liggen. R zou in dat geval zeer groot zijn, terwijl in werkelijkheid de spreiding zeer klein is.

Het is dus geen al te goede maatstaf om de spreiding te meten. Bovendien is R afhankelijk van de grootte van de steekproef.

De Interkwartielafstand

Kwartielen Qi zijn de waarden die een geordende reeks gegevens in 4 gelijke stukken verdelen, die ieder een kwart van de gegevens bevatten (25%).

Voorbeeld:
10 10 9 7 6 7 5 8 8 7 10 7 7 9
Gerangschikt krijgen we:
5 6 7 7 7 7 7 8 8 9 9 10 10 10

We kunnen de gegevens eerst in twee gelijke delen verdelen. Dit betekent dat we de mediaan moeten zoeken. We hadden reeds gevonden dat de mediaan gelijk is aan 7,5. Dit betekent ook dat het tweede kwartiel Q2 gelijk is aan de mediaan.

Vervolgens moeten we de eerste helft
5 6 7 7 7 7 7
nog eens in twee gelijke delen verdelen. Dit betekent dat we de mediaan van deze helft moeten zoeken. Deze is hier 7, dus het eerste kwartiel Q1 is 7. We doen hetzelfde met de tweede helft
8 8 9 9 10 10 10
en vinden zo dat het derde kwartiel Q3 gelijk is aan 9. Wanneer we de kwartielen van een gegevensverzameling kennen, kunnen we deze handig weergeven in een boxplot.

Boxplot met de interkwartielafstanden.

De interkwartielafstand Q is het verschil tussen het derde en het eerste kwartiel. De interkwartielafstand wordt goed zichtbaar in een boxplot. De lengte van de ‘box’ komt namelijk overeen met de interkwartielafstand. Extreem hoge of lage gegevens hebben geen invloed op de waarde van de kwartielen, net zoals bij de mediaan. Ook de interkwartielafstand maakt echter geen gebruik van alle gegevens.

De standaarddeviatie

Door een voorbeeld te tonen, maak je kennis met onze derde spreidingsmaat.
De resultaten van een test op 10 van een klas zijn de volgende.
10 9 7 6 6 6 5 8 8 7 2 10 5 7 9
We kennen alle gegevens van de klas, dus we hebben hier te maken met een populatie. Het gemiddelde is 7/10. Om iets te weten te komen over de spreiding van de gegevens, kunnen we bekijken hoe ver de gegevens van het gemiddelde liggen.
Daarom berekenen we de afwijkingen ten opzichte van het gemiddelde, of de deviaties.

De deviatie van een gegeven is het verschil tussen het gegeven en het gemiddelde, Xi – µ

de deviatie: Xi – µ

Het probleem is dat als we met deze getallen beginnen rekenen (bv. het gemiddelde zoeken) we telkens op 0 zouden uitkomen. De positieve en negatieve getallen heffen elkaar namelijk telkens op.

Een manier om dit te voorkomen is om het gemiddelde te nemen van de absolute waarden van de deviaties, maar absolute waarden zijn niet altijd even handig om te gebruiken. De moeilijkheden met de positieve en negatieve deviaties kunnen ook vermeden worden door de deviaties te kwadrateren:

Het kwadrateren van de deviatie lost enkele problemen op.

Wanneer we nu het gemiddelde nemen van deze laatste kolom, de kwadraten van de deviaties, dan bekomen we:

Het gemiddelde van de gekwadrateerde deviaties.

Dit getal zegt iets over de spreiding van de gegevens. Immers, hoe verder de gegevens uit elkaar liggen, hoe groter de deviaties, hoe groter de kwadraten van de deviaties en hoe groter de variantie.

Meestal wordt niet gewerkt met de variantie, maar met de standaarddeviatie of standaardafwijking. De standaarddeviatie σ (sigma) van een reeks gegevens is gelijk aan de positieve vierkantswortel van de variantie:

De standaarddeviatie

In ons voorbeeld is de standaarddeviatie dus:

Wanneer we met een steekproef werken, dan gebruiken we s2 voor de steekproefvariantie en voor de standaarddeviatie van de steekproef s.

s² = steekproefvariantie, s = standaarddeviatie van de steekproef

Correlatie en regressie

Big Data is de kunst van het bestuderen van samenhang tussen variabelen. We maken hier echter wel een onderscheid in:
– variabelen die beide (min of meer) door het toeval bepaald worden = samenhang aangeduid met correlatie
– variabelen waarbij er een onafhankelijke variabele en een afhankelijke variabele een rol speelt = samenhang aangeduid door regressie.
Zowel correlatie als regressie meten dus de statistische samenhang.
– Correlatie: geen oorzakelijk verband: X <–> Y
– Regressie: wel een oorzakelijk verband: X –> Y (X veroorzaakt dus Y)

Correlatie

In 1986 kwam bij de ramp in de kerncentrale van Tsjernobyl een grote hoeveelheid radioactieve straling vrij.
Veel mensen uit Tsjernobyl en omgeving hebben sindsdien problemen met hun gezondheid. Naar de oorzaak van hun problemen is veel onderzoek verricht.

Zo is onder andere gebleken dat er een sterk verband bestaat tussen de hoeveelheid straling waaraan een bevolkingsgroep is blootgesteld en het percentage mensen van die groep dat aan kanker lijdt. Zulk onderzoek naar verbanden wordt ook wel correlatieonderzoek genoemd.

Correlatie is dus een maat om de sterkte van een verband tussen twee grootheden te meten.

Je spreekt van correlatie als twee continue variabelen samenhangen of afhankelijk zijn. De uitkomsten kan je weergeven in een spreidingsdiagram.

Spreidingsdiagram

In dit diagram kan je zien wat de samenhang is van de eindexamencijfers voor wiskunde B en natuurkunde. Elk ‘stipje’ stelt dus een gepaarde waarneming (de cijfers van een leerling) voor.

Samen vormen de punten een puntenwolk. Hoe dichter de punten van zo’n puntenwolk bij elkaar liggen, des te sterker is het verband tussen de twee grootheden die in het spreidingsdiagram zijn uitgezet.

De mate van correlatie komt tot uitdrukking in de mate waarin de puntenwolk naar een lijn, de zogenaamde centrale lijn, neigt. Verder kan er ook een regressielijn bepaald worden. Met behulp van deze regressielijn, kun je bij gegeven x-waarden voorspellingen doen over de y-waarden. (dit komt later nog aan bod)

De mate van correlatie:

  • Noem μx het gemiddelde van alle gegeven x-waarden en µy het gemiddelde van alle gegeven y-waarden.
  • Het punt (µx, µy) wordt dan het centrale punt van de puntenwolk behorende bij deze x– en y-waarden genoemd.
  • De centrale lijn van de puntenwolk gaat door het centrale punt en heeft richtingscoëfficiënt σy x
  • De mate van correlatie hangt nu af van de mate waarop de punten van een puntenwolk zich verdringen om de centrale lijn. Er kan sprake zijn van volledige correlatie, gedeeltelijke correlatie of geen correlatie.
De punten liggen volledig op een lijn.
De punten hebben de tendens rond de centrale as te liggen.
Geen correlatie, want geen verband tussen de grootheden.

Positieve of negatieve correlatie

Naast de mate van correlatie tussen twee grootheden kan er ook onderzocht worden of er sprake is van positieve of negatieve correlatie. Twee grootheden kunnen elkaar op verschillende manieren beïnvloeden.

Als we kijken naar het verband tussen het aantal verkochte ijsjes op een dag en de gemiddelde temperatuur op die dag, dan zullen we zien dat bij een hoge gemiddelde dagtemperatuur over het algemeen meer ijsjes verkocht worden dan bij een lage gemiddelde dagtemperatuur.

Dit is dus een positieve correlatie (een vermeerdering van de ene grootheid heeft een vermeerdering van de andere grootheid tot gevolg).

Kijken we echter naar het verband tussen het aantal verkochte blikken erwtensoep op een dag en de gemiddelde temperatuur op die dag, dan zullen we zien dat bij een hoge gemiddelde dagtemperatuur over het algemeen minder blikken erwtensoep verkocht worden dan bij een lage gemiddelde dagtemperatuur. Dit is dus een negatieve correlatie (een vermeerdering van de ene grootheid heeft een vermindering van de andere grootheid tot gevolg ).

De lijn in de centrale puntenwolk is stijgende
De centrale lijn in de puntenwolk is dalende

Correlatiecoëfficiënt

Aan de hand van een spreidingsdiagram kunnen we dus zien of er sprake is van correlatie tussen twee grootheden en of dat dan positieve of negatieve correlatie is. De mate van correlatie tussen twee grootheden kan echter ook worden uitgedrukt in een getal. Dit getal noemen we de correlatiecoëfficiënt.

De correlatiecoëfficiënt is een getal dat de mate van correlatie tussen twee grootheden of variabelen aangeeft.
Dit getal wordt aangeduid met de letter R en ligt tussen -1 en +1. In de grensgevallen R = -1 en R = +1 is er sprake van volledige correlatie.
Bij R = -1 is dat volledige negatieve correlatie en bij R = +1 volledige positieve correlatie. Als er geen sprake is van enige correlatie, dan geldt R = 0.

Berekenen van de correlatiecoëfficiënt
De covariantie

De covariantie is een maat voor de spreiding van twee gekoppelde variabelen. De covariantie van x en y wordt aangeduid met Cov(x, y). Als Cov(x, y) een positief getal is, dan is er sprake van positieve correlatie en als Cov(x, y) een negatief getal is, dan is er sprake van negatieve correlatie. Als er geen sprake is van enige correlatie, dan geldt Cov(x, y) = 0.

Even herhalen, om tot de covariantie te komen moet je dus verschillende stappen doorlopen:

  • Bereken het gemiddelde µx van de x-waarden en het gemiddelde µy van de y-waarden.
  • Bereken voor elk getal xi de deviatie dxi = xiµxen bereken voor elk getal yi de deviatie dyi = yiµy.
  • −Bereken de producten van de deviaties, dus (xiµx )(yiµy )
  • Bereken het gemiddelde van die producten
De covariantie

Correlatie is géén causaliteit

Belangrijk, want hierbij gaan heel wat beginnende analysten de fout in. Stel: Een onderzoek merkt een significante correlatie tussen de stijging van ijsverkoop en het aantal verdrinkingen op. Een journalist schrijft hier vervolgens een artikel over met de pakkende kop: ‘Meer ijsverkoop leidt tot meer verdrinkingen

Dit is een typisch voorbeeld waarbij er wel een correlatie aanwezig is, maar waarbij er geen sprake van een causaal verband is: als er meer ijsjes worden verkocht (variabele X) dan stijgt het aantal verdrinkingen (variabele Y).

Het is echter veel aannemelijker dat we een derde variabele, een zogenaamde ‘confouding variabele’, over het hoofd hebben gezien. Een confounding variabele is een variabele buiten het bestaande model, die (positief of negatief) correleert met zowel de afhankelijke als de onafhankelijke variabele.

In dit specifieke voorbeeld is dat de buitentemperatuur (variabele Z). Als het namelijk lekker warm weer buiten is (i.e. hoge temperatuur), dan zal er meer ijs verkocht worden en
zullen er meer mensen gaan zwemmen, wat tot een hoger aantal verdrinkingen zal leiden in vergelijking met wanneer het koud buiten is (e.g. winter).

Neen, ijsverkoop leidt niet tot meer verdrinkingen

Regressie

Wanneer bestaat er een verband tussen twee statistische variabelen? En kun je dan met zo’n verband tussen twee variabelen ook voorspellingen doen? Met andere woorden kun je een formule vinden die het verband beschrijft?

Als je een correlatietechniek toepast, ben je geïnteresseerd in de mate van samenhang tussen twee variabelen X en Y, bijvoorbeeld een onderzoek naar de samenhang tussen leeftijd en scores op een kennis-test.

Met lineaire regressie ga je een stap verder. Met deze techniek probeer je de waarden van de uitkomst Y via een lineair verband te voorspellen uit die van X. De uitkomstvariabele Y wordt de afhankelijke variabele genoemd, en de voorspeller X de onafhankelijke variabele.

Enkelvoudige lineaire regressie

Voorbeeld: gemeten waarden voor x en y worden weergegeven in een grafiek.

Zoals je ziet liggen ook in ons voorbeeld de meetpunten niet precies op een lijn. Het is dus onmogelijk om een lijn te vinden die door alle punten gaat. Omdat de punten wel “ongeveer” op een lijn liggen, kan het interessant zijn om de lijn te zoeken die “zo goed mogelijk” bij het patroon van de punten past.

Deze lijn noemen we de regressielijn of het regressiemodel

Voordat we deze regressielijn kunnen gaan bepalen, moeten we weten wat we eigenlijk verstaan onder een “zo goed mogelijke” lijn. In de grafiek kan je zien dat de lijn door vrijwel geen van de meetpunten gaat. Er treedt dus meestal een afwijking op tussen de y die we hebben gemeten en de y die we verkrijgen uit ons regressiemodel. Het lijkt ons redelijk de lijn waarvoor de som van al deze (gekwadrateerde) afwijkingen het kleinst is, als de “beste” lijn te beschouwen (= de “kleinste-kwadratenmethode”)

Het bepalen van regressielijn y = ax + b

De formule ontleden we als volgt:

  • Bepaal µx (het gemiddelde van alle ingestelde x-waarden)
  • Bepaal µy (het gemiddelde van alle gemeten y-waarden)
  • Bepaal van alle x-waarden het gekwadrateerde verschil met µx en tel ze op (de uitkomst noemen we Sx2 of Sxx)
  • Bepaal van alle y-waarden het verschil met µy. Bepaal hierna het produkt van dit verschil met de bijbehorende x – µx en tel ze op (de uitkomst noemen we Sxy)
  • Bepaal Sxy / Sxx (= a, de richtingscoëfficiënt van de regressielijn)
  • Bepaal µya . µx (= b, het startgetal van de regressielijn)

De regressie lijn y = ax = b. Of: waarde van afhankelijke variabele
= regressiecoëfficiënt β x waarde van onafhankelijke variabele + intercep

De regressiecoëfficiënt ß geeft aan in welke mate de waarde van een afhankelijke variabele gemiddeld zal veranderen wanneer de waarde van de onafhankelijke (of voorspellende of verklarende) variabele verandert.

De waarde van de intercept kan men bepalen door de onafhankelijke variabele de waarde nul te geven

Tip of the iceberg

Met deze simpele inleidingen op de statistische concepten heb je nog maar het topje van de ijsberg mee. Er zijn nog veel compexere methodes en formules waarmee soms gerekend moet worden. Als je dus voor een tak als data-science kiest, ben je hiervan bewust. Als je interesse gewekt is, kan je natuurlijk altijd verder gaan kijken.

Succes!

2 Replies to “Statistiek 101. The Basics.

  1. I see you don’t monetize martijnvanherck.com, don’t waste your traffic,
    you can earn additional cash every month with new monetization method.
    This is the best adsense alternative for any type of website (they
    approve all sites), for more info simply search in gooogle:
    murgrabia’s tools

Leave a Reply

Your email address will not be published. Required fields are marked *