Lineare Regression

Image

Ihre Vermutung: Gibt es einen Zusammenhang zwischen den Messdaten auf der x-Achse und auf der y-Achse?

Kreuze alle richtigen Antworten an
Image

Regressionsgerade

Tatsächlich gibt es für alle Punktwolken - selbst bei Messungen mit dermaßen gestreuten Datenpunkten wie oben - eine OPTIMALE Gerade, die sogenannte Regressionsgerade. Man nennt sie auch Trendlinie; die Funktion wird oft als Fitfunktion bezeichnet. In diesem Arbeitsblatt werden Sie kennenlernen, wie man eine solche Regressionsgerade erhält. Zuerst aber die Auflösung, welche Werte im Diagramm auf der x-Achse und der y-Achse aufgetragen sind:
Image

Zusammenhang zwischen Geburtenrate und Anzahl der Stroche ???

Es scheint laut statistischer Auswertung einen Zusammenhang zwischen der Geburtenrate in einem europäischen Land (jeder Punkt gehört zu einem Land) und der Anzahl der Storchenpaare in diesem Land zu geben. Grob gesagt gibt das R², das sogenannte Bestimmtheitsmaß an, wie viel Prozent der Streuung auf der einen Achse durch die Streuung auf der anderen Achse bestimmt ist. Oder mit anderen Worten: 37 % der Information auf der y-Achse (wie hoch ist die Geburtenrate in einem Europäischen Land?) kann aus der Information auf der x-Achse (wie viele Storchenpaar gibt es in diesem Land?) vorhergesagt werden. Und umgangssprachlich ausgedrückt gibt der sogenannte p-Wert an, bei wie viel Prozent solcher Messungen dieser statistische Zusammenhang durch reinen Zufall verursacht worden wäre. Grob gesagt: Die Wahrscheinlichkeit, dass es in Wirklichkeit gar keinen Zusammenhang zwischen Geburten und Störchen gibt, ist unter 1 %! Welche Erklärung haben Sie für dieses erstaunliche Phänomen?

Summe der Abstandsquadrate

Ein Maß für die Güte einer Regressionsgeraden ist, wie stark diese Gerade von den Messpunkten abweicht. Die Abweichung eines Punktes von der Geraden kann aber kein gutes Maß dafür sein. Es müssen alle Punkte und deren Abstände berücksichtigt werden.
Image
Da der Abstand, wenn er so berechnet wird, mal positiv und mal negativ sein kann (je nachdem ob der Punkt überhalb oder unterhalb der Geraden liegt), ist diese Summe jedoch kein gutes Maß für die Güte der Regression. Im schlimmsten Fall könnte es eine riesige Abweichung nach oben und eine zweite genauso große Abweichung nach unten geben. In der Summe würden sich diese beiden Abweichung aber aufheben. Eine mathematische Strategie wäre, die Beträge der Abstände zu addieren. Das führt aber bei der Optimierung zu Problemen. Einfacher ist es, die Abstände zuerst zu quadrieren und dann zu addieren. Auch das Quadrieren sorgt ja dafür, dass nur positive Werte zusammengezählt werden.
Image

Aufgabe

  1. Aktivieren Sie die "Fehlerbalken" im folgenden Applet (s.u.).
  2. Lassen Sie sich eine "Test-Gerade" sowie die dazugehörigen "Abstandsquadrate" und die "Summe der Abstandsquadrate" anzeigen.
  3. Variieren Sie die Steigung a und den y-Achsenabschnitt b der Test-Geraden (y=ax+b), sodass die Summe der Abstandsquadrate möglichst klein wird.
  4. Lassen Sie sich die optimale Gerade, die sogennante "Regressionsgerade" sowie deren "Abstandsquadrate" und die "Summe der Abstandsquadrate" anzeigen und vergleichen Sie diese mit der von Ihnen erreichten Werte.