Regressionsrechnung

Einfache Regressionsrechnung

Die einfache lineare Regressionsanalyse sucht nach einer linearen Gleichung, die den Zusammenhang zwischen und zum Ausdruck bringt.
Voraussetzung: und sind mindestens intervall-, d.h. metrisch skaliert.
Begriffe:
X: exogene Variable = Einflußfaktor = erklärende Variable = Regressor = unabhängige Variable
Y: endogene Variable = Zielvariable = abhängige Variable = erklärende Variable = Regressand
Schätzgleichung: Gleichung, die exakt die Stichprobe beschreibt
Folgende Probleme lassen sich mit der linearen Einfachregression lösen:

  1. Man will wissen, welche Grundrichtung der Beziehung zwischen X und Y besteht.
    Wie groß ist die prop. Veränderung in Y, wenn Xi um eine Einheit erhöht/vermindert wird?
    Bsp.: Pro Jahr zusätzlicher Schulbildung erhöht sich das Einkommen um b Einheiten.
  2. Man will einen Schätzwert von y für einen X-Wert ermitteln, der außerhalb der Reihe der Beobachtungswerte liegt (à Extrapolation). Man prognostiziert also.
  3. Man will einen Schätzwert von Y wissen, wobei der X-Wert zwischen zwei bekannten X-Werten liegt, selbst aber nicht realisiert ist (à Interpolation).
  4. Bei Zeitreihen wird ein Entwicklungstrend berechnet und als Prognose in die Zukunft fortgeschrieben

Es gibt zwei verschiedene Problemansätze:
Die Frage nach der
a) mathematischen Art der Beziehung zwischen x und y liefert die Regressionsgleichung
b) Stärke der Beziehung liefert den Korrelationskoeffizienten r (Bravais-Pearson)

Das Modell der einfachen linearen Regression


Ein reales Problem kann in die folgende angemessene formale Form übersetzt werden. Zwischen X und Y besteht ein Zusammenhang, der durch die Gleichung zum Ausdruck gebracht werden kann.
Jeder Wert von Yi läßt sich aus zwei Komponenten zusammengesetzt auffassen:
: Wert, den yi annehmen würde, falls der Zusammenhang zwischen X und Y streng deterministisch (sprich linear) wäre.
ui : Wert, um den yi von seiner deterministischen Komponente [alpha]+[beta]xi abweicht (Abweichung zwischen dem realen Wert und der später zu berechnenden Regressionsgerade), ui ist der Wert der Störgröße ui. Ui spezifiziert den stochastischen Teil des Zusammenhangs.
Ui läßt sich als Zufallsvariable auffassen, da oft nicht angegeben werden kann, welchen Wert Ui bei vorgegebenem Wert xi annimmt. Ui läßt sich aber auch als Störvariable auffassen, da die ui die Abweichungen von einer linearen Regressionsfunktion darstellen.
Das nun beschriebene Annahmensystem besteht aus verschiedenen Chrakterisierungen der Störvariablen


  1. Die Erwartungwerte der n Störvariablen sind gleich Null

  2. Die Varianzen der n Störvariablen sind gleich groß (Homoskedastizität)

  3. Die n Störvariablen sind unkorreliert, die Kovarianz cov(Ui, Uj) ist für alle Paare der Störvariablen Null, falls i!=j.
  4. Ui folgt für alle i
    (nur für bestimmte Verfahren wichtig, für Methode der kleinsten Quadarate entbehrlich)

Die Regressionsgleichung

Die Regressionsgleichung der Stichprobe ergibt sich durch die Gleichung: , wobei di die Summe der Schätzfehler, d.h. die Summe der Differenzen zwischen und , ist. Der Schätzfehler heißt auch Residuum, die Summe Residuen.
Diese Gleichung zur exakten Beschreibung ist (leider) nicht linear, daher benötigt man als exakte Beschreibung die Gleichung der Regressionsgerade :
Die Gleichung der Schätzgerade lautet:
Um die beste Regressionsgerade zu bestimmen
a) soll die Summe der Schätzfehler 0 sein, d.h. die einzelnen Fehler sollen sich aufheben, d.h. die Gerade muß durch und laufen
b) die Zahl der Schätzfehler muß minimal sein

Methode der kleinsten Quadrate für eine einfache Regressionsgleichung

Um die Parameter a und b einer Regressionsgraden so zu bestimmen, daß die Gerade den beobachteten Wertepaaren optimal angepaßt ist, muß die Summe der quadrierten Abweichungen der beobachteten Yi von den rechnerischen Yt ein Minimum ergeben. D.h. die Regressionsgerade ist dann optimal berechnet, wenn die Summe der Abweichungsquadrate minimal ist.

Durch partielle Ableitung und Nullsetzen dieser Ableitungen ergeben sich die Normalgleichungen zur Bestimmung der Koeffizienten einer linearen Kleinste-Quadrate-Reressionsfunktions. Löst man das System der Normalgleichungen nach a und b auf, erhält man die Regressionskoeffizienten a und b:
Für eine einfache Regressionsgleichung ergeben sich die Regressionskoeffizienten:

Bedeutung der Regressionsfunktionsbestandteile

Eine univariate Regressionsfunktion hat die Funktion
Dabei bedeuten:
Werte auf der X-Achse
Werte auf der Regressionsfunktion
Man nennt diese Werte auch zu erwartende oder theoretische Werte, weil diese Y-Werte in Abhängigkeit von Veränderungen der Variablen X zu erwarten wären, wenn die Regressionslinie den Zusammenhang zwischen X und Y korrekt wiederspiegelt.
Insoweit kommt in der Regressionsfunktion selbst eine Hypothese über den vermuteten Zusammenhang zwischen X und Y zum Ausdruck.
a Ordinatenabschnitt der linearen Funktion
b Steigung (= Tangens des Steigungswinkels) der Funktion
Die Koeffzienten a und b spezifizieren den deterministischen Teil des Zusammenhangs und stellen die wahren Parameter für die gesamte Population her.

Beziehung zwischen Regressionskoeffizient und und

Zwischen und und bestehen verschiedene Beziehungen:
wenn beide Merkmalswerte unkorreliert sind
wenn das Streuungsdiagramm auf einer Geraden mit positiver oder negativer Steigung liegt
Je größer , desto stärker werden die empirischen Y-Werte durch die theoretischen y-Werte bestimmt/determiniert.

Bivariate Regressionsrechnung

Die bivariate Regressionsrechnung will die Beziehung der drei Merkmal X1, X2 und Y klären. Y ist die Variable, die erklärt werden soll, hängt also statstistisch von X1 und X2 ab.
Gesucht ist eine Gleichung für die Geraden durch diesen dreidimensionalen Raum. Diese Gleichung ermöglicht es wie bei der einfachen Regressionsrechnung, die Tendenz der Abhängigkeit zwischen Y und X1 und X2 soll durch eine lineare Funktion der Art bestimmt werden,
wobei:

Um die Regressionskoeffizienten zu bestimmen, wendet man die Methode der kleinsten Quadrate an:

Methode der kleinsten Quadrate für die bivariate Regressionsgleichung

Durch Nullsetzen der partiellen Ableitungen erhält man ein System von Normalgleichungen, die ein lineares Gleichungssystem mit drei Unbekannten. Löst man dieses System auf, ergeben sich die folgenden die Regressionskoeffizienten: [à Schwarze, S. 159]

Beispiel für eine bivariate Regressionsgleichung

Bei einer statistischen Erhebung in den USA wurden von 20 Bauernhöfen die bewirtschaftete Fläche X2 (in 10 acres; 1 acre=040467 ha), die Anzahl der unterhaltenen Milchkühe X2 und das erzielte Jahreseinkommen Y (in 10 Dollar) ermittelt. Die Daten stammen aus den späten 20er Jahren. Man erhielt folgendes Ergebnis:

X1
18
0
14
6
1
9
6
12
7
2
17
15
7
0
12
16
2
6
12
15
X2
6
22
18
8
12
10
17
11
16
23
7
12
24
16
9
11
22
11
16
8
y
96
83
126
61
59
90
82
88
86
76
102
108
96
70
80
113
76
74
98
80
X1: Fläche
X2: Milchkühe
Y: Jahreseinkommen
Der vermutete Zusammenhang zwischen Fläche und Anzahl der Kühe auf der einen Seite, und dem Jahreseinkommen auf der anderen Seite soll durch die Regressionsgleichung zum Ausdruck gebracht werden.
Ich berechne die entsprechenden Korrelationskoeffizienten (siehe univariate Regressionsrechnung):

Für ergibt sich
entsprechend der oben angegebenen Formel berechnet man die anderen Elemente.

Korrelationskoeffizient nach Bravais-Pearson

Die Korrelationsrechnung dient dazu, die Stärke des Zusammenhangs zwischen zwei Untersuchungsvariablen in einer einzigen statistischen Maßzahl zum Ausdruck zu bringen. r ist eine dimensionslose Größe
Voraussetzung für die Anwendung des Korrelationskoeffizienten von Bravais-Pearson sind mindestens intervallskalierte Daten.

Interpretation von r

Der Korrelationskoeffizient von Bravais-Pearson nimmt nur Werte zwischen -1 und +1 an.Wertebereich von -1 bis +1:
  • r=-1 maximaler reziproker Zusammenhang, d.h. mit sehr hoher Wahrscheinlichkeit nehmen die Y-Werte tendenziell ab, wenn die Werte der Variablen X zunehmen
  • r=0 kein Zusammenhang zwischen X und Y
  • r=+1 maximaler gleichgerichteter Zusammenhang, d.h. mit sehr hoher Wahrscheinlichkeit nehmen die Werte der Variablen Y tendenziell zu, wenn die X-Werte zunehmen.

Anmerkungen zum Korrelationskoeffizienten r

  • in der Praxis taucht ein Wert für r größer 0,5 nur selten auf, man betrachtet ein zwischen 0,3 und 0,5 als ein Indiz für einen starken Zusammenhang
  • je größer die Zahl der Merkmalsträger, desto aussagekräftiger ist r
  • die Treffsicherheit von Prognosen ist um um so höher, je größer r ist, d.h. je stärker der Zusammenhang zwischen zwei Variablen X und Y ist und je größer N ist.
  • die Interpretation des Korrelationskoeffizienten muß immer auf dem Hintergrund einer linearen Regressionsfunktion erfolgen. Wäre in einem konkreten Fall eine nichtlineare Funktion angemessen, dann könnte sich beispielsweise ein r-Wert nahe bei 0 ergeben, weil gleichwohl eine lineare Funktion unterstellt wird.
  • Die Prüfung, ob eine nichtlineare Funktion zugrunde gelegt werden muß, kann z.B. graphisch oder durch eine Clusteranalyse erfolgen.

Determinationskoeffizient

heißt Determinationskoeffizient oder Bestimmtheitsmaß. gibt an, welcher Anteil der Streung von Y durch die Regressionsgerade "bestimmt" oder "erklärt" werden kann. Anders ausgedrückt: Der Determinationskoeffizient gibt an, wie groß der Anteil der Varianz der Untersuchungsvariablen ist, der sich auf die Variation der einen exogenen Variablen zurückführen läßt.
Der Determinationskoeffizient hat seinen Namen daher, daß er denjenigen Anteil an der Varianz der Y-Werte angibt, der durch die Variation der X-Werte determiniert wird. Dies geht auf das Prinzip der Varianzzerlegung zurück.

Prinzip der Varianzzerlegung

In jedem konkreten Anwendungsbeispiel kann man davon ausgehen, daß die Y-Werte streuen. Diese Streuung kann mit der Varianz (quadrierte Standardabweichung) gemessen werden. Die Aufgabe der Regressionsrechnung kann man auch so erklären, daß man fordert, eine Variable (X) zu finden, die die interessierende abhängige Variable (Y) beeinflußt und in diesem Sinne "statistisch erklärt". "Erklären" bedeutet hier, daß die Veränderungen der Variablen statistisch zurückgeführt werden auf Veränderungen der Variable X. Das bedeutet aber weiterhin, daß ein mehr oder weniger großer Teil der Varianz von Y dadurch statistische erklärt wird, daß die Variation der Variablen X als statistischer Erklkärungsgrund angenommen wird.
Formal sieht das folgendermaßen aus:
Die Variation der Abhängigen Y (Var(y)) läßt sich in zwei Teile zerlegen:

  • 1. Teil: : Variation der zu erwartenden (theoretischen) Y-Werte, die auf der Regressionsgeraden liegen
  • 2. Teil: Reststreuung, d.h. Variation der Y-Werte um die Regressionsgerade herum =Restwerte=)
Es besteht also folgender Zusammenhang:

Rechnet man diese Varianzen aus, stellt man fest, daß der prozentuale Anteil von an der Gesamtvarianz var(y) mit dem numerischen Wert des Determinationskoeffizienten übereinstimmt.
  • Je höher der Wert des Determinationskoeffizienten ist (d.h. je stärker der Zusammenhang zwischen x und y), desto kleiner ist die Restreuung, weil sich die Punkte je in diesem Fall sehr eng um die Regressionsgerade herum streuen, desto höher ist der Anteil von var(yt) an der Gesamtstreuung.

Rangkorrelationskoeffizient nach Spearman


Voraussetzung: ordinalskalierte Daten
Der Rangkorrelationskoeffizient beruht nicht auf den direkten Merkmalsausprägungen bzw , sondern auf den zugeordneten Rangnummern . Der Rangkorrelationskoeffizient von Spearman ist der auf diese Rangnummern angewandte Bravais-Pearson-Korrelationskoeffizient, aus diesem Grunde ist auch der Wertebereich für mit dem von r identisch! Anders ausgedrückt ergibt sich aus r, wenn man dort die X- und Y-Werte durch deren Rangplätze ersetzt. Nach einigen Umformungen ergibt sich die obige Formel.
Vorgehensweise: Die Daten müssen der Größe nach sortiert sein, erst danach werden die Ränge vergeben. Haben mehrere Merkmalsträger den gleichen Rang inne, erhalten sie den gleichen (gemittelten) Rangplatz, die Rangplätze davor und danach bleiben entsprechend leer.
Entsprechend der Formel subtrahiere ich den jeweiligen Rang yi von xi, quadriere das Ergebnis und addiere alle Ergebnisse für xi, i=1...n usw.