Google ClassroomGoogle Classroom
GeoGebraGeoGebra Classroom

werkt een kilometervergoeding?

de controlegroep tegenover de groep met kilometervergoeding

Plot je voor beide groepen het aantal gereden kilometer per dag in een histogram en een boxplot dan merk je enkele dingen op:
  • groep met het minste aantal afgelegde kilometer per dag: Bij de controlegroep legt bijna de helft dagelijks hoogstens 5 km af. Bij de groep die een kilometervergoeding krijgt zakt dit aantal tot 1/5.
  • groep met het meeste aantal afgelegde kilometer per dag: De controlegroep laat het sneller afweten bij langere trajecten. Niemand legt meer dan 30 km/dag af. Bij de groep met een kilometervergoeding zijn er uitschieters tot 50 km/dag.
  • gemiddelde en mediaan: In het histogram zie je dat bij het toekennen van een kilometervergoeding de frequenties van de groepen met weinig kilometer dalen en die van de groepen met meer kilometer stijgen. Dit vertaalt zich in het gemiddelde en de mediaan: Door het toekennen van een kilometervergoeding verhoogt zowel het gemiddelde als de mediaan met 50%.

betrouwbaarheidsintervallen

  • Voor de vier testgroepen kan je vanuit de steekproefgemiddelden een 95% betrouwbaarheidsinterval bepalen voor het aantal afgelegde fietskilometer per dag. Je gebruikt hiervoor volgend commando: ZSchattingGemiddelde(steekproefgemiddelde, , steekproefgrootte, betrouwbaarheidsniveau). Als uitvoer krijg je telkens een lijst met onder- en bovengrens van het 95%-betrouwbaarheidsinterval.
  • Resultaat: het gemiddelde van de controlegroep (= 10.27 km/dag) valt buiten de 95% betrouwbaarheidsintervallen van de 3 andere groepen. De 3 manieren om het fietsen te belonen, hebben dus duidelijk een invloed en doen het aantal afgelegde km/dag toenemen. Stel je de resultaten grafisch voor dan merk je dat het betrouwbaarheidsinterval van de controlegroep niet eens overlapt met dat van de groep die een kilometervergoeding krijgt.
Image

hypothesetoetsen

Met een hypothesetoets kan je nagaan hoe waarschijnlijk de aanname van een gemiddelde is, als je het vergelijkt met de resultaten van een steekproef. Hier kan je de toets gebruiken om na te gaan of bv. het uitkeren van een vaste kilometervergoeding een invloed heeft op het fietsgedrag. Concreet: Wat is de waarschijnlijkheid van het gevonden steekproefgemiddelde bij de groep met vaste kilometervergoeding, wanneer we uitgaan van het steekproefgemiddelde van de controlegroep? Een T-Toets Omdat de standaardafwijking van de hele populatie niet gekend is, moet het in principe een T-Toets uitvoeren met het gemiddelde van de controlegroep als hypothetisch gemiddelde. De syntax hiervoor is TToetsGemiddelde(steekproefgem, steekproefgrootte, hyp.gem, staart). Met het gemiddelde van de controlegroep als hypothetisch gemiddelde en ">" als staart, kan je testen wat de kans is dat je het gemiddelde aantal afgelegde km/dag bekomt van de groep met kilometervergoeding.
  • steekproefgemiddelde = 14.232
  • steekproefstandaardafwijking = 10.2
  • steekproefgrootte = 103
  • hypothetisch gemiddelde = 10.27 (is gemiddelde van de controlegroep)
  • staart = ">"
Het resultaat geeft als Z-waarde 3.94 met bijhorende p-waarde van 0.00007 wat veel minder is dan een significantieniveau van 0.05. Conclusie is dat we het hypothetisch gemiddelde (= gemiddelde van de controlegroep) moeten verwerpen voor de groep met een vaste kilometervergoeding. M.a.w.: het toekennen van een kilometervergoeding doet wel degelijk het aantal afgelegde fietskilometer per dag significant toenemen. Een Z-toets Door de grootte van de controlegroep (n = 128) mag je de populatiestandaardafwijking ook gelijkstellen aan de steekproefafwijking (controlegroep) en een Z-Toets uitvoeren. Ook al is de controlegroep als steekproef niet normaal verdeeld, de steekproevenverdeling zal dat wel zijn. (zie hiervoor de centrale limietstelling van een willekeurige verdeling) Als resultaat krijg je nu een Z-waarde van 5.68 met een p-waarde die vrijwel 0 is. Ook al lijken 10 en 14 km niet zover uit elkaar te liggen, statistisch is dit verschil zeer groot. Zowel de T-toets als de Z-Toets tonen aan dat de kilometervergoeding fietsen stimuleert.
Hoeveel km legt men per dag af?
links: de controlegroep, rechts: de groep met vaste kilometervergoeding
Hoeveel km legt men per dag af? links: de controlegroep, rechts: de groep met vaste kilometervergoeding

verschil tussen de resultaten van de T-toets en de Z-toets

De t-verdeling is platter en breder dan de Z-verdeling. Hierdoor is de kans op extremere staarten groter en krijg je hogere p-waarden. Het niet kennen van de populatiestandaardafwijking leidt tot extra onzekerheid en die wordt opgevangen door een grotere p-waarde. Een T-toets is dus voorzichtiger dan een Z-Toets en verkleint de kans dat je een correcte hypothese verwerpt (type I-fout). Bij grotere steekproeven benadert de t-verdeling steeds beter de Z-verdeling. Idem dito liggen de resultaten voor beide testen dan ook dichter bij elkaar.

Testen in het echte onderzoek

Het gedetailleerde rapport over het Noorse fietsexperiment vermeldt testresultaten voor Wilcoxon en Kruskal-Wallis testen om de vier deelgroepen te vergelijken. Hiermee zitten we meteen op een ander kennisniveau van statistiek. Waar Z- en T-toetsen gebruikt worden om door een steekproef een populatiegemiddelde te toetsen, zijn ANOVA testen bedoeld om meerdere groepen met elkaar te vergelijken. ANOVA staat voor ANalysis Of VAriance (in het Nederlands Variantieanalyse). In deze testen wordt zowel de variantie binnen de groepen als de variantie tussen de groepen met elkaar vergeleken om uiteindelijk te kunnen nagaan of de gemiddelden van de deelgroepen significant verschillen. Het komt er op neer dat men onderzoekt of de verschillen tussen de groepen vergelijkbaar zijn met of groter zijn dan de verschillen binnnen de groepen. Ook GeoGebra heeft een commando ANOVA(lijst, lijst...). ANOVA-testen hebben telkens een alternatief wanneer de groepen niet normaal verdeeld zijn (wat hier ook het geval is). Zulke testen noemt men niet-parametrische of groepverdelingsvrije testen. Wilcoxon en Kruskal-Wallis zijn twee van dergelijke testen en dus gepast om de vier deelgroepen in het experiment te vergelijken. Gelet op de 4 steekproefgroottes (telkens >100) betekent dit alles niet dat Z- of T-toetsen fout of zinloos zou zijn. Het is gewoon een verschillend niveau van statistisch onderzoek en Z_ en T-toetsen blijven een zinvolle insteek om in zicht te verwerven in de statistiek.