Google ClassroomGoogle Classroom
GeoGebraGeoGebra Classroom

4t: csv-databestanden

Inhoud

optie 1
  • importeren van csv-bestanden in tabelvenster
uitwerken van voorbeeld:
  • verband tussen lengte en gewicht
  • het gewicht apart bekeken
  • BMI berekenen
  • lengte en BMI
Op de pagina hypothesetoets op steekproefresultaten wordt het uitvoeren van een hypothesetoets toegepast op dezelfde gegevens. optie 2
  • csv-bestanden omzetten naar een excel werkblad en plakken in het rekenblad
Andere uitwerkingen van een csv-bestand vind je op: - Een Noors fietsexperiment - The Old Faithful - bomen
importeren van csv-bestanden in het tabelvenster In het tabelvenster van GeoGebra Suite kan je csv-databestanden met gegevens importeren tot 1000 rijen.
  • Ga naar https://people.sc.fsu.edu/~jburkardt/data/csv/csv.html,
  • Klik in de lijst op het 16e bestand hw_200.csv, download het en open het in Excel (afb. 1). Het bestand bevat voor 200 mensen respectievelijk een indexnummer, hun lengte en hun gewicht.
  • LET OP MET EEN TITELRIJ Bij het importeren van dit bestand moet je de koprij met een boventitel verwijderen, anders krijg je een foutmelding. Verwijder dus in Excel de titelrij (afb. 2) en bewaar het als csv-bestand bestand op je computer (afb. 3). De reden van deze probleemmelding is dat het tabelvenster enkel numerieke invoer verwerkt, terwijl in een titelrij doorgaans tekstinformatie geeft over de aard van de kengetallen.
  • Dit heeft ook gevolgen voor csv-bestanden waarbij voor elk record naast numerieke gegevens ook gegevens als bv. beroepscategorie of woonplaats vermeld worden. Zulke bestanden kan je niet invoeren in het tabelvenster. Je kan eventueel wel een omwegje maken en het hele bestand opsplitsen in deelbestanden. Een voorbeeld van dergelijke verwerking is de verwerking van de data van een Noors verkeersexperiment. Hierbij werd de invloed onderzocht van verschillende manieren van beloning op het fietsgedrag. Verwerking van deze dataset en een verwijzing naar een uitvoerig artikel over het experiment vind je in het GeoGebraboek analyse grote datasets.
afb. 1                                                                            afb. 2                                                                            afb. 3
afb. 1 afb. 2 afb. 3
  • Open dan in GeoGebra Suite het tabelvenster, klik bovenaan achter x op de knop Meer en selecteer de optie Gegevens invoeren (afb. 4).
  • Selecteer in de verkenner het gedownloade gegevensbestand op en klik op Openen (afb. 5).
  • Het csv-bestand verschijnt nu in het tabelvenster van GeoGebra (afb. 6).
afb. 4
afb. 4
afb. 5                                                                                                                                                afb. 6
afb. 5 afb. 6

verband tussen lengte en gewicht

Met de twee lijsten y_1 (lengte in inch) en y_2 (gewicht in pound) in het tabelvenster kan je ook onderzoeken of er al dan niet een verband bestaat tussen beiden en zo ja, of dit verband sterk is.
  • Het commando (y_1,y_2) creëert een lijst l1 van punten, waarbij de lengte op de horizontale as wordt voorgesteld en het gewicht op de verticale as. Het commando Regressielijn(l1) berekent daarna de trendlijn.
  • Je kan ook meteen het commando Regressielijn((y_1,y_2)) gebruiken.
Uiteraard moet je voor een passende grafische voorstelling de ijken van de assen aanpassen. De optie ZoomPassend in de instellingen van het tekenvenster is een goede start. Wil je de assen zichtbaar tonen langs de rand van het tekenvenster, selecteer dan zowel voor x- als y-as de optie Fixeer aan de rand. Opmerking: Het heeft geen zin om in de knop Meer van y1 of y2 op de knop Regressie te klikken, omdat de eerste (x) kolom geen onafhankelijke variabele is, maar enkel volgnummers bevat.

het gewicht apart bekeken

De lijst y_2 met de gewichten van 200 personen kan je ook apart statistisch verwerken.
  • Klik je in het tabelvenster op de knop Meer van y_2 dan toont een dialoogvenster de beschrijvende maten (gemiddelde, standaardafwijking, minimum, maximum, mediaan en kwartielen).
Om een histogram te tekenen creëer je eerst een lijst met de klassengrenzen.
  • In de beschrijvende maten lees je af dat 97 het kleinste gewicht is. Je neemt dus 90 als beginwaarde.
  • grenzen= Klassengrenzen(y_2, 90, 10).
  • Het histogram creëer je als Histogram(grenzen, y_2,false). Opmerking: door de parameter false zijn de hoogte van de staven gelijk aan de frequenties.

BMI berekenen

Combineer je de gegevens van lengte en gewicht, dan kan je ook de Body Mass Index (BMI) berekenen:
  • Een inch is en een pound is . Met lengte in inches en gewicht in pound bereken je de BMI als
  • Met creëer je dus uit y1 en y2 een lijst met de 200 overeenkomstige BMI-waarden. Via de knop Meer kan je van de lijst bmi beschrijvende maten berekenen.
Rond je de BMI-waarden af dan kan je een staafdiagram tekenen én nagaan of deze al dan niet normaal verdeeld zijn:
  • Staafdiagram(bmi, 1, 1/200) creëert een staafdiagram met 1 als staafbreedte en 1/200 als schaalfactor om het diagram te normaliseren.
  • Normaal(gemidd(bmi), stafw(bmi), x, false) creëert de dichtheidsfunctie van de normale verdeling met als gemiddelde en standaardafwijking de overeenkomstige waarden van de lijst bmi. In het applet zie je dat de BMI-waarden van de proefgroep inderdaad normaal verdeeld zijn. Dat betekent dat je met deze dichtheidsfunctie snel kan nagaan hoeveel % van de mensen een BMI hebben, kleiner dan een bepaalde waarde.
Met een normale dichtheidsverdeling bovenop het staafdiagram zie je dat beide goed overeenkomen. Je kan ook een QQ-plot tekenen van de BMI-waarden. In het volgende applet zie je dat de gestandaardiseerde BMI-waarden dicht bij de rechte y = x liggen, wat betekent dat ze normaal verdeeld zijn.

staafdiagram BMI

QQ-plot BMI

lengte en BMI

Is er nu een verband tussen lengte en BMI? Zijn er m.a.w. meer of minder kleineren mensen met een hoog of laag BMI dan grotere mensen? Dat kan je aflezen in een spreidingstabel waarin we de BMI afzetten t.o.v. de lengte.
  • De trendlijn loopt quasi horizontaal, de correlatiecoëfficiënt is quasi 0.
  • Het is duidelijk dat er geen correlatie bestaat tussen de lengte en de BMI van de proefpersonen.
omzetten naar een excel werkblad en plakken in het rekenblad Je kan ook in Excel csv-bestanden omzetten naar een Excel werkblad. In een csv-bestand worden meerdere gegevens per record weergegeven in één kolom, van elkaar gescheiden door een scheidingsteken (vaak een komma). Bij het omzetten verdeel je deze gegevens over meerdere kolommen waarna je het bestand kan opslaan als een gewoon werkblad. Deze gegevens kan je verwerken in Excel of kopiëren en plakken in het rekenblad van GeoGebra. In het rekenblad hoef je je geen zorgen meer te maken over tekst in een bovenste titelrij of in een van de opgenomen gegevens.
  • Hoe je deze omzetting maakt, lees je op een ondersteuningspagina van Microsoft.
  • Een voorbeeld van een dergelijke verwerking is het GeoGebraboek Bomen.