2 Allgemeine Begriffe zur Teststatistik

2.1 Statistischer Test

Ein statistischer Test ist ein Verfahren, das auf Grund eines empirischen Befundes, d.h. von Stichprobenergebnissen, darüber entscheidet, ob eine statistische Hypothese (Annahme oder Behauptung über die unbekannte Verteilung einer Zufallsvariablen) akzeptiert oder verworfen wird.

2.1.1 Elemente des Hypothesentests

Ein Hypothesentest besteht aus den folgenden sechs Schritten:

  1. Formulierung einer empirisch überprüfbaren Hypothese
  2. Konstruieren einer Entscheidungsregel
  3. Ziehen einer Stichprobe
  4. Berechnen der Prüfvariablen (Stichprobenkennzahl)
  5. Anwenden der Entscheidungsregel (Berechnen der Rückweisungspunkte)
    Der Annahme bzw. Ablehnungsbereich einer Hypothese ist durch sogenannte Rückweisungspunkte begrenzt. Diese müssen bei jedem Test berechnet bzw. abgelesen werden.
  6. Ableiten einer Entscheidung (Ho wird verworfen oder angenommen)

2.2 Signifikanztests

Wird bei einer statistischen Entscheidung nur eine einzige Hypothese daraufhin überprüft, ob diese Hypothese nicht falsch ist, so nennt man die dazu verwendeten Tests Signifikanztests.
Signifikanztests prüfen also die Wahrscheinlichkeit dafür, beim Schluß von der Stichprobe auf die Grundgesamtheit einen Fehler erster Art zu begehen.

2.3 Anteilswerttests und Anpassungstests

Anpassungstests prüfen Hypothesen über die Verteilung einer Zufallsvariablen z.B. H0: F(x)=F0(X), sie vergleichen beobachtete Verteilungen in einer Stichprobe mit einer erwarteten Verteilung. Der Anpassungstest prüft also, mit welcher Wahrscheinlichkeit eine Stichprobe aus einer Grundgesamtheit stammen kann, für die die erwartete Verteilung gilt. Die einfachste Form ist der Binominaltest.

Anteilswerttests prüfen Hypothesen über die Gleichheit von Anteilswerten. Eine typische Hypothese lautet: Die GG und die Stichprobe sind gleich verteilt: F0(x)=F(x) (à Binomialtest).

Zusammenhang zwischen Anteilswerts- und Anpassungstest
Betrachtet man nun zunächst nur den dichotomen Fall, bei dem die Zufallsvariable nur zwei Werte realisieren kann, so läßt sich diese Verteilungshypothese auch vereinfachend als Hypothese über den Anteilswert in der Grundgesamtheit formulieren: H0: = 0. Die Wahrscheinlichkeit 0 ist einerseits die behauptete Wahrscheinlichkeit, daß bei einem Zufallszug ein Element einen bestimmten der beiden möglichen Werte realisiert, andererseits handelt es sich um eine Hypothese über die zu erwartende relative Häufigkeit von einer der beiden Klassen, also einem Anteilswert, der gleichzeitig die Verteilung der Zufallsvariablen bestimmt.
Beide, der Anteilswerttest und der Anpassungstest, testen nun inwieweit die Unterschiede zwischen den beobachteten und den theoretischen Werten zufällig oder signifikant sind und beziehen sich dabei auf die relative Häufigkeit der einzelnen Kategorien. Insofern läßt sich z.B. der Binomialtest sowohl als Anteilswerttest als auch als Anpassungstest interpretieren.

2.4 Multipler Test

Verwendet man z.B. anstelle eines H-Tests mit mehr als zwei unabhängigen Stichproben mehrere U-Tests als Einzeltests, so werden diese Einzeltests als multipler Test angesehen. Zu beachten ist hierbei besonders, daß bei den hintereinandergeschalteten Einzeltests sich die Wahrscheinlichkeit des Fehlers 1. Art mit der Anzahl des Tests vergrößert. Bei einem Vergleich muß dies unbedingt berücksichtigt werden.

2.5 Konservativer Test

Bei einem konservativen Test ist die Prüfvariable diskret verteilt (z.B. U-Test). Es gibt für ein vorgegebenes Signifikanzniveau keine Werte zum Beispiel für ur, die die Gleichung P(u<=ur)=5% erfüllen, deshalb ersetzt man die Gleichung durch die Ungleichung P(u<=ur)<=%. Man wählt also generell als Rückweisungspunkt jenen Wert, der zu einem Signifikanzniveau von höchsten führt. Das vorgegebene Signifikanzniveau kann also praktisch erheblich unterschritten werden. à Man verhält sich konservativ und begünstigt die Annahme der Nullhypothese.

2.6 Exakter Test

Ein exakter Test ist ein Test, der für die zu testende Prüfvariable die exakt zuständige Stichprobenverteilung verwendet. Ein exakter Test approximiert also nicht. Exakte Test sind z.B. der Fisher-Test, der Binomial-Test, der McNemar-Test. Nicht exakt arbeitet zum Beispiel ein Test, bei dem man nach dem Zentralen Grenzwert-Theorem die Normalverteilung approximativ für eine Binomialverteilung verwendet.

2.7 Alpha - und Beta-Fehler, Überschreitungswahrscheinlichkeit

Hypothesen können nie letztendlich verifiziert oder falsifiziert werden. Die "Annahme" einer Hypothese sagt nur: die vorliegende statistische Evidenz reicht nicht aus, um die Hypothese zu verwerfen.
Für die richtige bzw. falsche Schlußfolgerung eines Tests gilt folgende Fehlersystematik.



unbekannte Wirklichkeit

Schlußfolgerung des Tests

H0 ist richtig


Ho ist falsch



Ho-Annahme


richtige Schlußfolgerung


Fehler, 2. Art (-Fehler)



Ho -Ablehnung


Fehler 1. Art (-Fehler)


richtige Entscheidung


Das Signifikanzniveau eines Testverfahrens ist dabei die Wahrscheinlichkeit, mit der die Nullhypothese abgelehnt wird, obwohl diese in Wahrheit zutrifft. Das Signifikanzniveau ist damit gleich dem Fehler 1. Art (-Fehler). Der -Fehler heißt auch Überschreitungswahrscheinlichkeit. Wenn der -Fehler >= (bzw /2), dann wird die H0 verworfen.
Die Lage der Stichprobenverteilung zur Alternativhypothese bestimmt die Wahrscheinlichkeit des -Fehlers. und stehen in reziprokem Verhältnis zueinander.

Bei gleichen Bedingungen (ceteris paribus) wird der -Fehler kleiner,
1. wenn die Differenz zwischen µo und µa zunimmt (die linke Kurve wandert nach links)
2. wenn der -Fehler erhöht wird (die Grenze des -Fehlers wandert nach rechts)
3. Wenn der Umfang n vergrößert wird
Rechnerisch bestimmt man , indem man die Rückweisungspunkte xr1 und xr2, die den Annahmebereich der Ho begrenzen, mit den Werten der alternativen Stichprobenverteilung standardisiert. Die Fläche des Intervalls (entspricht der Wahrscheinlichkeit im Prüfpunkt) ist der -Fehler.
Beispiel zur Berechnung des -Fehlers
In einer Stichprobe von n=100 Zigarettenrauchern, fand man heraus, daß diese im Durchschnitt =7 Zigaretten pro Tag rauchten ( =4). Dem steht die Annahme entgegen, daß Zigarettenraucher im Durchschnitt µ0=8 Zigaretten pro Tag rauchen. Der durchgeführte Signifikanztest für =5% führte zu den Rückweisungspunkten und (. Die H0 konnte angenommen werden, da der Stichprobenbefund von 7 im Annahmebereich lag.
Um den -Fehler zu berechnen, unterstellt man, daß der wahre Grundgesamtheitsparameter µa so groß ist wie der Stichprobenbefund . Die alternative Stichprobenfunktion ist also verteilt nach =N(7,4;0,4). Gesucht ist . Man standardisiert :
sowie . Die tabellierte Verteilungsfunktion liefert das Ergebnis
Ergebnis: Sollte also der tatsächliche durchschnittliche Zigarettenverbrauch 7,4 betragen, so beträgt die Wahrscheinlichkeit 67,7 Prozent, unter den gegebenen Umständen (µ, ...) einen Fehler zweiter Art zu begehen.
Fazit
Das Verhältnis von und muß optimiert werden, um eine optimale Zuverlässigkeit des Tests zu erreichen.
Will man und gleichzeitig verringern, muß man den Stichprobenumfang ehöhen.

2.8 Statistische Hypothesen

2.8.1 Typen von Hypothesen: einfach, zusammengesetzt...

Man unterscheidet einfache und zusammengesetzte Hypothesen:
eine einfache Hypothese (Punkthypothese) besteht aus der Behauptung eines bestimmten Wertes, z.B. µ=10.000 km.
Eine zusammengesetzte Hypothese umfaßt ein Werteintervall, z.B. µ>=10.000 oder µ!=8.000 km.
Man unterscheidet
rechtsseitige Alternativhypothesen:
der Alternativwert µa liegt rechts vom µo, entweder als Punktwert oder Werteintervall.
Beispiel: ein rechtsseitiger Test liegt vor, wenn bei einem µo=8.000 ein Alternativwert von µa=10.000 oder sogar ein Werteintervall von µo>8000 getestet wird.
linksseitige Alternativhypothesen
beidseitige Alternativhypothesen
Unter einer spezifizierter Verteilungshypothese versteht man eine Hypothese, bei der ein oder mehrere explizite Parameter aus dem Stichprobenbefund heraus geschätzt werden müssen.

2.8.2 Homogenitätshypothese

Eine Homogenitätshypothese wird z.B. beim Chi-Quadrat-Homogenitätstest zugrunde gelegt. Sie behauptet, daß ein Merkmal in den zwei oder mehr Stichproben jeweils zugrundeliegenden Grundgesamtheiten jeweils die gleiche Verteilung hat. Genau genommen impliziert die Homogenitätshypothese, daß die empirischen Häufigkeiten mit den theoretischen Häufigkeiten übereinstimmen.

2.9 Kriterien für statistische Prüfverfahren

1. Meßniveau als wichtigstes Kriterium
Das Meßniveau ist das grundsätzliche und wichtigste Kriterium für statistische Prüfverfahren. Man unterscheidet:

Prüfverfahren bei nominalem Meßniveau

  • Binominaltest (Anteilswerttest)
  • -Anpassungstest
  • -Unabhängigkeitstest
  • Mc Nemar Test
  • Fisher Test
Prüfverfahren bei ordinalem Meßniveau

  • Mediantest
  • Wilcoxon-Vorzeichen-Rangtest
  • Komogoroff/Smirnov-Test
  • Mann/Whitney-U-Test
  • Kruskal/Wallis-Test
  • Test des Rangkorrelationskoeffizienten nach Spearman
Prüfverfahren bei metrischem Meßniveau

  • t-Test für das arithmetische Mittel
  • f-Test
2. Anzahl der Untersuchungsvariablen (UV)
  • univariate Prüfverfahren nominalskalierter Untersuchungsgrößen (-> d.h eine Größe wird untersucht, das ist mit allen Prüfverfahren möglich, außer dem Rangkorrelationskoeffizienten)
  • bivariate Prüfverfahren (Rangkorrelationskoeffizient)
  • multivariate Prüfverfahren

3. Anzahl der Stichproben
a) ein Stichprobenfall:
Binominaltest
-Anpassungstest
tw. Kolmogoroff/Smirnow
b) zwei-Stichprobenfall
McNemar
Fisher
c) mehr als zwei-Stichprobenfall:
H-Test

4. abhängige/unabhängige Stichproben
5. Stichprobenumfang
Ein weiteres Klassifizierungskriterium ist die Größe der Stichprobe. Bei genügend großem Stichprobenumfang kann man nach dem Grenzwertsatz von Laplace-Moivre die interessierende Variable mittels einfach zu handhabender Verteilungen ausreichend gut nähern.

6. parameter/parameterfreie Tests
Man unterscheidet parameter und parameterfreie Tests.
Beim Parametertests interessieren konkrete Werte wie , und µ. Ein parametrisches Prüfverfahren macht also Aussagen über Grundgesamtheitsparameter bzw. die in der Verteilungsfunktion einer Untersuchungsvariablen auftretenden Konstanten. Dazu müssen alle Paramter der GG bekannt sein (was oft nicht gegeben ist à Problem). Bei einem Parametertest hat jede der denkbaren Stichproben die gleiche Realisationschance.

Bei parameterfreien Tests (auch nichtparametrische Tests bzw. Verteilungstests genannt) wird der Typ der Zufallsverteilung überprüft: Man entscheidet, ob eine aus n Beobachtungen bestehende Häufigkeitsverteilungen bestehende Nullhypothese, die man aus einer Zufallsstichprobe gezogen hat, mit einer Null-Hypothese vereinbar ist, die man über die Verteilung in der Grundgesamtheit aufgestellt hat.

7. verteilungsfreie/verteilungsgebundene Testverfahren
verteilungsfreier Test: über die Verteilung der Grundgesamtheit keinerlei Voraussetzungen gemacht. Man bezeichnet verteilungsunabhängige Tests, da Grundgesamtheitsparameter keine Rolle spielen, auch als parameterfreie Tests.

Verteilungsfreie- oder unabhängige Verfahren werden allgemein angewendet bei nicht normalverteilten Grundgesamtheiten, bei ordinal- oder nominalskaldierten Werten, zur Kontrolle eines parametrischen Tests sowie als Schnelltest.
Bei verteilungsgebundenen Tests, wie z.B. dem t-Test, hängt die Verteilung der Prüfvariablen von der Verteilung der Grundgesamtheit (hier Normalverteilung und Streuungsgleichheit) ab. Diese Prüfverfahren betreffen durchweg metrisch skalierte Untersuchungsvariablen. Eine Im allgemeinen haben verteilungsfreie Tests eine geringere Güte als verteilungsabhängige Tests, da sie oft nur einen Teil der im Zahlenmaterial enthaltenden Informationen auswerten.
verteilungsgebundener Test: die Verteilung der Untersuchungsvariablen hängt von der Verteilung der Grundgesamtheit ab.

2.10 Konstruktion einer geeigneten Prüfvariable

  • Die Prüfvariable muß mit dem Problem der Fragestellung korrespondieren, d.h. mit der Hypothese übereinstimmen. Bsp.: Zur Prüfung des Medians ist es z.B. zweckmäßig, die Abweichungen der Stichprobenwerte von dem entsprechenden Hypothesenwert zu berücksichtigen. Die Prüfvariable des Wilcoxon-Vorzeichen-Rangtests etwa, berücksichtigt neben den Rängen der Abweichungen, über eine 0-1-Kodierung auch deren größer-kleiner Relation hinsichtlich des Medians. Da sich zudem, unter Gültigkeit von H0, ein Erwartungswert formulieren läßt, ist es auch möglich zu prüfen, inwieweit die Abweichungen von ihm signifikant sind.
  • Die Verteilung der Prüfvariablen muß bekannt sein, man muß Rückweisungspunkte ermitteln können. Unter Angabe des Fehlers 1. Art zerfällt die Realisation der Prüfvariablen dann in zwei Klassen, dem Annahme- und Rückweisungsbereich.
  • Die Verteilung der Prüfvariablen muß bekannt sein für den Fall, daß Ho in Wahrheit zutrifft.

2.11 Freiheitsgrade

Bezeichnung für die Anzahl von Werten, die innerhalb der Begrenzungen eines Systems von Werten frei variieren oder gewählt werden können. Anders formuliert: Die Anzahl der Freiheitsgrade v ist definiert als die Differenz aus dem Stichprobenumfang n und der Anzahl k der aus den n Stichprobenmeßwerten berechneten Parameter v=n-k.
Freiheitsgrade werden auch als explizite Parameter verwendet, so ist v der einzige explizite Parameter der Chi-Quadrat-Verteilungsfunktion.