Multiple lineare Regression

Die multiple Regressionsanalyse ist ein Instrument zur Untersuchung des funktionalen Zusammenhangs zwischen einem quantitativem Merkmal x mit Ausprägungen y und Merkmalen x1 ...xi
Die multiple Regressionsrechnung hat die Aufgabe, den Zusammenhang zwischen mehr als zwei Variablen zu beschreiben und damit zu prognostischen Aussagen für eine als abhängig angesehene Variable Y zu gelangen, von der unterstellt wird, daß sie nicht nur von X1, sondern auch von X2 (und eventuell weiteren Variablen) abhängt.
X ist also die unabhängige, erklärende Variablengruppe
Y ist die Variablengruppe der abhängigen Variablen (bei der univariaten multiplen Regressionsrechnung enthält Y nur eine Variable)

Schätzfunktion

Entsprechend dem Regressionsmodell der einfachen linearen Regression (vgl. "Das Modell der einfachen linearen Regression", S. 2) lautet die Modellfunktion (also die exakte Beschreibung der Stichprobe) für das multiple Funktion:

Wiederum wendet man die "Methode der der kleinsten Quadrate" an und erhalten die Regressionsgleichung, die hier Regressionshyperebene genannt wird.

Die Regressionskoeffizienten lauten ausgeschrieben (Matrixrechnung)

Bedeutung der Regressionskoeffizienten


b0 gibt an, welcher Wert für die deterministische Komponente der Untersuchungsvariablen zu erwarten ist, falls sämtliche exogenen Variablen den Wert Null realisieren.
Geometrisch gibt b0 die Schnittebene der Hyperebene mit der Y-Achse an.
siehe Abbildung vgl. Tiede S. 171
Die übrigen Koeffizienten bj, j=1...k geben (bei Beachtung der jeweiligen Vorzeichen) den (positiven oder negativen) Beitrag an, um den sich der Schätzwert für die deterministische Komponente des Wertes yi, falls der Wert xji der j-ten exogenen Variablen um eine Einheit erhöht.
bij besitzen jeweils eine Dimension: bj wird in Einheiten von Y pro Einheit von Xj gemessen. Da die Xj recht unterschiedliche Maßstäbe haben können, kann man meistens durch einen Vergleich der Regressionskoeffizienten keinen Hinweis auf die Bedeutung der Variation der Einflußgrößen für die Variation der Untersuchungsvariablen geben.

Multiple und partielle Koeffizienten

Multipler Determinationskoeffizient

Der multiple Determinationskoeffizient ist so konstruiert wie der Determinationskoeffizient des einfachen Modells, die Varianzzerlegungsformel gilt auch für den multiplen Fall, d.h. di eStreuung der Untersuchungsvariablen läßt sich zerlegen:
a) in die Streuung der geschätzten deterministischen Komponente, den statistisch erklärten Teil
b) in die Streuung der stochastischen Komponente, den durch die Variaton nicht erklärten Teil
Der multiple Determinationskoeffizient (multiples Bestimmtheitsmaß) gibt an, wie groß der Anteil der Varianz der geschätzten deterministischen Komponente an der gesamten Varianz der Untersuchungsvariablen ist. Die Aussagekraft des multiplen Determinationskoeffizienten wird häufig überschätzt. Der multiple Determinationskoeffizient ist ein globales Maß und für die Beschreibung der spezifischen Einwirkungen der einzelnen exogenen Variablen auf die Untersuchungsvariable ungeeignet.
Die Formel lautet:

Multipler Korrelationskoeffizient

Die Wurzel des multiplen Determinationskoeffizienten wird als multipler Korrelationskoeffizient bezeichnet:

  • Das Vorzeichen ist bedeutungslos, da es in Hinblick auf eine exogene Variable positiv und eine andere negativ sein kann.

Der Korrelationskoeffizient gibt Antwort auf die folgende
Frage: Wie verbessern sich Prognosen der interessierenden Variable Y, wenn sie nicht allein abhängig von X, sondern auch zugleich als abhängig von der Drittavariablen Z angesehen wird?
Antwort: In diesem Fall versucht man, zusätzliche Informationen zur Verbesserung von Vorhersagen zu nutzen und verwendet in diesem Zusammenhang den sogenannten multiplen Korrelationskoeffizienten

Multipler Regressionskoeffizient

Partielle Regressionsrechnung

Die partielle Regressionsrechnung hat die Aufgabe, den Zusammenhang zwischen zwei interessierenden Variablen X und Y um den eventuellen Einfluß einer dritten Variable Z (oder weiterer Variablen) zu "bereinigen". Wenn beispielsweise X mit Y korrelliert, aber sowohl X als auch Y ihrererseits mit Z korrelieren, dann ist die hohe Korrelation zwischen X und Y eine matematisch notwendige Folge des gemeinsamen Einflusses von Z. Das "Heraus-Partialisieren" von Z zeigt dann den Zusammenhang zwischen X und Y, der übrig bleibt, wenn der gemeinsame Einfluß von Z eliminiert wird.

Partieller Determinationskoeffizient

[ siehe Tiede. S.181]
Der partielle Determinationskoeffizient ist analog zum Determinationskoeffizient konstruiert. Er gibt den Varianzanteil der (nach Erklärung durch die übrigen exogenen Variablen verbliebenen) Restvarianz der Untersuchungsvariablen Y an, der von der (um den Einfllluß der übrigen exogenen Variablen bereinigten) Varianz der exogenen Variablen Xj herrührt.

Partieller Korrelationskoeffizient


Der partielle Korrelationskoeffizient entsteht aus der Wurzel des partiellen Determinationskoeffizienten. Er beantwortet die
Frage: Wie stellt sich der Zusammenhang zwischen X und Y dar, wenn der etwaige gemeinsame Einfluß einer dritten Variable Z "ausgeschaltet" wird?
Antwort: Der Einfluß der Variablen Z wird auspartialisiert, sein Einfluß "ausgeschaltet". Man berechnet den partiellen Korrelationskoeffizienten zwischen X und Y - unter Ausschaltung von Z.