1.3 F-Test: Varianzquotiententest

Der F-Test heißt auch Varianzquotientest. Er ist ein Test für metrisches Meßniveau [

  • Der F-Test bewertet die Varianzen zweier Grundgesamtheiten. Er testet, ob zwei Varianzen zufällig voneinander verschieden sind oder nicht.
    Bsp.: Eine Klasse wird am Anfang des Schuljahres in zwei Gruppen geteilt. Der gleiche Lehrer benutzt unterschiedliche Lehrmethoden bei den Gruppen. Am Ende des Schuljahres wird ein Test geschrieben. Die Durchschnittspunktzahl beträgt 4.8 und 5.3. Frage: Ist der Unterschied zufällig?
    Der F-Test ist auch für kleine Stichprobenumfänge geeignet. Er spielt bei der Varianzanalyse eine bedeutende Rolle, ist aber auch von Bedeutung, wenn man prüfen will, ob die Voraussetzungen für die Anwendung des t-Differenzentests für den Vergleich zweier Mittelwerte unabhängiger Stichproben erfüllt sind.

    1.3.1 Testsituation

    Aus zwei unabhängigen Stichproben der Umfänge n1 und n2 wird die metrisch skalierte Untersuchungsvariable X aus normalverteilten Grundgesamtheiten erhoben. Da die Grundgesamtheiten normalverteilt sind, genügt die Prüfvariable einer F-Verteilung mit v1=n1-1 und v2=n2-1.
    Die Nullhypothese lautet:

    Ho: Die beiden Varianzen sind gleich.
    Ist wesentlich größer als , kann man sich die genaue Hypothesenprüfung sparen. Ansonsten wird die eingangsformulierte mit einem F-Test geprüft.

    1.3.2 Die Prüfvariable

    Die Prüfvariable ist gegeben durch:
    Sie muß 1 ergeben, wenn die Varianzen aus einer Grundgesamtheit stammen.
    Die Rückweisungspunkte ergeben sich durch
    r=Anzahl der Gruppen, n: Anzahl der Personen insgesamt

    1.3.3 Lösungsansatz

    1. Signifikanzniveau festlegen
    2. den Wert für die Prüfvariable berechnen
    3. die Rückweisungspunkte berechnen
    4. In der Formelsammlung auf S. 32 in der Tabelle nachschauen, ob der Wert für die Prüfvariable größer oder kleiner als der dort angegebene Wert ist.
    Wenn die Prüfvariable größer als der tabellierte Wert ist, ist die Hypothese bestätigt: Es bestehen signifikante Unterschiede.
    Wenn die Prüfvariable kleiner als der tabellierte Wert ist, muß die Hypothese verworfen werden: Es bestehen keine signifikante Unterschiede.

    1.3.4 Beispiel

    Es werden zwei Gruppen von 4 bzw. 5 Schülern zufällig ausgewählt, die durch unterschiedliche Unterrichtsmethoden auf die Lösung von handwerklichen Problemen vorbereitet werden. Nach Abschluß des Unterrichts müssen die 9 Schüler jeweils 30 Probleme lösen. Unterscheiden sich die Varianzen signifikant voneinander?

    Gruppe 1 13 15 17 18  
    Gruppe 2 14 16 18 22 23
    1. H0:
    2. Die Varianzen ergeben sich als und
    3. Der Prüfwert ergibt sich aus (die größere Varianz steht im Zähler!)=
    4. Der Rückweisungspunkt liegt für v1=n1-1=3 und v2=v2=n2-1=4 bei 9,12 (SN=5%)
    5. 3<9,12, die Nullhypothese (hier: Homogenitätshypothese) wird angenommen, die Varianzen unterscheiden sich nur zufällig voneinander.

    1.4 Varianzanalyse (engl.: ANOVA)

    1.4.1 Allgemeines

    Die Varianzanalyse gehört zu den Signifikanztests. Sie (engl.: ANOVA=analysis of variance) ist ein statistisches Verfahren, durch das im allgemeinen geprüft wird, ob die Mittelwerte µ zweier oder mehrerer Stichproben aus Grundgesamtheiten gezogen wurden, die denselben Mittelwert besitzen. Das Verfahren ist eine Erweiterung der Zweistichprobentests, z.B. des t-Tests.
    Vorraussetzung der Varianzanalyse ist die Annahme, daß alle Stichproben aus normalverteilten Grundgesamtheiten stanmmen.
    Unabhängige Variablen werden im Zusammenhang mit der Varianzanalyse als Faktoren bezeichnet. Es handelt sich dabei stets um qualitative, nominalskalierte Variablen. Die einzelnen qualitativen Ausprägungen eines Faktors werden als Faktorstufen bezeichnet.
    Im Gegensatz zu den Faktoren, handelt es sich bei den in einer Varianzanalyse betrachteten abhängigen Variablen immer um quantitative, intervallskalierte Variablen. Wird genau eine abhängige Variable betrachtet, so spricht man von einer univariaten Varianzanalyse. Werden mehr als eine abhänige Variable untersucht, so spricht man von einer multivariaten Varianzanalyse.
    Wird lediglich ein Faktor betrachtet, so spricht man von einer einfaktoriellen Varianzanalyse. Werden mehr als ein Faktor untersucht, so spricht man von einer mehrfaktoriellen Varianzanalyse.
    Je nachdem, wieviele Einflußgrößen [Faktoren] auf die Untersuchungsvariable gerichtet sind und die berücksichtigt werden sollen, trennt man Varianzanalysen in Varianzanalysen einfacher und mehrfacher Klassifikation.
    Die verschiedenen, in der Varianzanalyse möglichen Variablenkonstellationen sind in der folgenden Tabelle nochmals zusammengefaßt:


    Anzahl der unabhängigen Variablen

    Anzahl der abhängige Variablen

    1

    >1

    1

    einfaktorielle univariate Varianzanalyse

    mehrfaktorielle univariate Varianzanalyse

    >1

    einfaktorielle multivariate Varianzanalyse

    mehrfaktorielle multivariate Varianzanalyse

    1.4.2 Einfache Varianzanalyse = Varianzanalyse einfacher Klassifikation

    1.4.2.1 Praktisches Anwendungsbeispiel

    Für eine bestimmte Getreidesorte stehen n verschiedene Dünger zur Verfügung. Es soll geprüft werden, ob die verschiedenen Dünger auf den Ernteertrag den gleichen Einfluß ausüben oder nicht.

    1.4.2.2 Testidee

    Das Testproblem: Gegeben sind r unabhängige Stichproben der Umfänge ni, deren Varianzen zwar unbekannt sein dürfen, aber gleich sein müssen.
    Aus den Meßwerten bildet man pro Stichprobe das arithmetische Mittel
    Geprüft werden sollen die Unterschiede zwischen diesen Mittelwerten.
    Die Hypothese lautet also:
    Die Nullhypothese lautet ausformuliert: Die Stichproben stammen aus normalverteilten Grundgesamtheiten mit gleichen Mittelwerten und gleichen Varianzen, also aus einer einzigen Gesamtheit.
    besagt: nicht alle Mittelwerte sind gleich, in mindestens einem Fall unterscheiden sie sich
    Für das Prüfverfahren benötigt man eine Quadratsummenzerlegung.

    1.4.2.3 Das Prinzip der Quadratsummenzerlegung

    Die Varianzanalyse beruht auf einer rein arithmetischen Zerlegung der "Quadratsumme" (=Summe der Quadrate der Abweichungen der Stichprobenwerte vom Mittelwert). Die Quadratsumme wird in eine Summe von Bestandteilen zerlegt, jeder Bestandteil entspricht einer bestimmten Variationsursache eines Sachverhalts.
    Bei einer einfachen Variationsanalyse wird in zwei Teile zerlegt. Der eine Teil entspricht dem systematischen Teil, dem Einfluß, den man untersuchen will . Der andere Teil entspricht der Restgröße, dem Zufallseinfluß.

    q: Summe der Abstandsquadrate aller Beobachtungen
    : "erklärte Quadratsumme", Summe der Abstandsquadrate der Gruppen-Arithmetische-Mittel umd das Gesamt-Arithmetische-Mittel.
    q2: "unerklärte" Quadratsumme, Summe der Quadrate innerhalb der Gruppen

    1.4.2.4 Testdurchführung

    1. Signifikanzniveau festlegen
    2. Aus den Messwerten Yij bildet man pro Stichprobe das arithmetische Mittel
    3. Quadratsumme der Mittelwerte der Gruppen berechnen
    4. Quotienten bilden:

    Trifft die Ho zu, dürften sich s12 und s22 nur zufällig unterscheiden.
    Falls sie sich doch unterscheiden, müßte mittels eines F-Testes überptüft werden, ob die Unterschiede signifikant sind.
    5. ggf. F-Test durchführen

    1.4.3 Zweifache Varianzanalyse = Varianzanalyse zweifacher Klassifikation

    Hier wird ein zweiter systematischer Faktor berücksichtigt, dieser kann mit dem ersten Faktor korrellieren, muß aber nicht.
    Systematische Faktoren sind Variablen, die Stichproben trennen.
    Ob die beiden Faktoren voneinander abhängen oder nicht, wird vor Aufstellen der Nullhypothese unabhängig festgelegt. Daher können zwei Fälle auftreten: Korrelation und Nicht-Korrelation.
    Beispiel: Ernteertrag beeinflußt von den Faktoren Dünger und Boden. Einmal hängen diese beiden Faktoren voneinander ab, einmal nicht!

    1.4.3.1 Eine Beobachtung pro Zelle

    Faktor A darf in r Stufen, Faktor B in t Stufen auftreten. Gezogen werden r*t Stichproben, jeweils vom Umfang 1 (Eine Beobachtung pro Zelle). Damit schließt man aus, daß man eventuelle Wechselwirkungen (Interaktionen) beobachtet. Die Faktoren A und B müssen also unkorreliert sein.
    Geprüft werden muß die Hypothese:
    Die Quadratsummenzerlegung heißt in diesem Fall:
    q=q1+q2+q3 (ausführlich, siehe Formelsammlung S.52)
    Die Stichprobenrealisationen s12, s22 und s32 dürfen nur durch den Zufall akzeptierbaren Grenzen voneinander abweichen.
    Wenn die Nullhypothese nicht zutrifft, ist oder/und .
    Man führt also zwei F-Tests durch, einen für und für (wobei Abwesenheit einer Wechselwirkung unterstellt wird).

    1.4.4 Der Begriff der "Wechselwirkung" (Interaktion)

    Die Wechselwirkung bzw. Interaktion ist die Bezeichnung für die gemeinsame Wirkung zweier (z.B. bei der zweifaktoriellen Varianzanalyse) oder mehrere Variablen (mehrfaktorielle VA) auf eine dritte abhängige Variable, die nicht aus der Addition der einzelnen Einflüsse resultiert. Wechselwirkungen treten nicht auf, wenn die Faktoren unabhängig voneinander sind.
    Bei einer zweifaktoriellen Varianzanalyse mit nur einer Beobachtung pro Zelle lassen sich die Auswirkungen von der Interaktion des Faktors A und B nicht von den Auswirkungen der Störvariablen trennen, weil sich dann keine zufallabhängige Variation innerhalb der Zellen bilden läßt. Hier besteht nur die Möglichkeit, die Variation zwischen den Stufenkombinationen der beiden Faktoren dem Zufall zuzuschreiben und eine Wechselwirkung auszuschließen. Es empfiehlt sich daher, stets mehrere Beobachtungen pro Zelle durchzuführen, um eine vierte Quadratsumme, die auch die Variation innerhalb der Zellen erfaßt, als Bezugsgröße zu erhalten.

    1.4.5 Was hat die bivariate Regressionsrechnung mit der Varianzanalyse zu tun?

    Die Variation auf der Regressionshyperebenen entspricht der Variation zwischen den Stufen der Varianzanlyse: Bei der einfaktoriellen Varianzanalyse stützt man sich zur Prüfung des Einflusses einer mehrmals gestuften unabhängigen Variable auf eine abhängige Variable auf eine Quadratsummenzerlegung. Die Gesamtvarianz der Meßwerte q wird in eine Variation der Gruppenmittelwerte bezüglich des Gruppenmittelwertes (Variation zwischen den Stufen) q1 und in eine Variation der Einzelwerte bezüglich der Gruppenmittelwerte (Variation innerhalb der Stichprobe) q2 aufgeteilt. Im allgemeinen sind q1 und q2 größer Null, bei q1 wegen der Faktorwirkung und aus Zufallsgründen, bei q2 ausschließlich aus Zufallsgründen.
    Bei der multiplen Regressionshyperebene (aber auch der einfachen Regressionsanalyse) wird ebenso die gesamte Varianz in einen deterministischen Teil (Varianz auf der Regressionshyperebene) und einen stochastischen Teil (Varianz um die Regressionshyperebene) aufgeteilt. Unter der Voraussetzung, daß die Gruppenmittelwerte der Varianzanalyse den -Werten afu der Regressionshyperebene entsprechen, gilt sogar: Die Variation zwischen den Stufen der Varianzanalyse entspricht der Variation auf der Regressionshyperebene bei der bivariaten (und multiplen) Regressionsanalyse .
    Diese Beziehung gilt nicht immer, sondern nur dann, wenn die exogene Variable klassifiziert vorliegt, z.B. 0-1-Kodierung.