3 Tests bei ordinalem Meßniveau

Der -Anpassungstest ist prinzipiell auch für ordinalskalierte Daten anwendbar. Er berücksichtigt jedoch nicht die Größer-Kleiner-Relation, die zwischen den Stichproben besteht.

3.1 Mediantest (=Vorzeichentest)

Literatur: Tiede: S 74 ff

3.1.1 Testsituation

  • gegeben sei ein stetiges Merkmal X, das mindestens ordinal skaliert ist
  • es wird eine Zufallsstichprobe gezogen mit xi, i=1 .. n Merkmalswerten
  • x 0,5 ist der Median der Stichprobe, d.h. der Wert, der in der Mitte der nach Größe geordneten Werten liegt (-> Zentralwert)

3.1.2 Testidee

Die Hypothese lautet: der Median der Grundgesamtheit hat einen bestimmten Wert c.
Hypothese: Ho: 0,5=c (c ist irgendein Wert), 0,5 ist der Median der Grundgesamtheit
Lösungsansatz:
Man vergleicht jeden Stichprobenwert xi mit dem Hypothesenwert c.

  • Falls xi > c ist, notiert man ein positives Vorzeichen, ai=1
  • Falls xi lt; c ist, notiert man ein negatives Vorzeichen, ai=0

  • falls xi=c ist, wird xi entfernt, n verringert sich
    Werden viele Werte aussortiert und die Ho trotzdem angenommen, spricht das Ergebnis sehr für die Annahme der Ho.
Die Prüfvariable V (= "Anzahl der positiven Vorzeichen") ist die Summe aller ai:
Falls die Nullhypothese zutrifft, folgt V der Binominalverteilung B(n, 0,5), d.h. bei n Vergleichen wird die Zahl v positiver Vorzeichen durch B(n,0,5) angegeben. Die Wahrscheinlichkeit eines positiven Vorzeichens ist nämlich bei zutreffender Nullhypothese bei jedem Vergleich zwischen xi und c gleich 0,5.
Falls v "zu groß" oder "zu klein" ist, wird die Nullhypothese verworfen.
Ist v relativ klein oder groß, spricht das eher gegen die Ho.
Ist der Wertebereich von V eher in der Mitte, könnte die Ho angenommen werden.
Die Rückweisungspunkte ergeben sich aus der Zahl der Elemente n. Man sieht in der Binominaltabelle unter der Anzahl der Elemente nach und liest die Rückweisungspunkte einfach ab.
Geprüft wird nun, ob der Stichprobenwert v im Annahmebereich liegt.

3.1.3 Bemerkungen

Der Mediantest wird häufig als Schnelltest vorgeschoben: Wenn die Ho im Median-Test verworfen wird, gilt generell, daß ein besserer Test auch zur Verwerfung führt. Umgekehrt gilt bei einer Annahme der Ho nicht unbedingt, daß auch der bessere Test zu diesem Ergebnis führen würde.
Ein Vorteil des Mediantestes ist es, daß er auch bei kleinen Stichproben angewendet werden kann. Der größte Nachteil besteht in der Tatsache, daß er das ordinale Meßniveau nicht nutzt, da er nur auf Größer/Kleiner-Relationen zu einem bestimmten Wert c (Wert des Medians) Informationen gibt à die Rangfolgen bei ordinalem Meßniveau werden nicht genutzt.
Liegt eine metrische Skalierung vor und ist die Grundgesamtheit symmetrisch verteilt, dann ist der Mediantest ein Konkurrent zum t-Test.
Den Mediantest kann man mit oder ohne störende Werte (Ausreißer?) durchführen.

3.1.4 Beispiel (Tiede S. 74 unten)

7 von 8 Werten einer Stichprobe liegen über dem Hypothesenwert der Grundgesamtheit, d.h. v (Anzahl der positiven Vorzeichen)=7.
Frage: Ist der Unterschied zwischen vermutetem Grundgesamtheitsmedian und Ergebnis

  • zufällig (-> Annahme der Ho, daß sich Grundgesamtheits- und Stichprobenmedian nur zufällig unterscheiden)
    oder
  • signifikant (-> Ablehnung der Ho -> es existiert ein wirklicher Unterschied zwischen Grundgesamtheit und Stichprobe)
    Gegeben sei ein 5%iges Signifikanzniveau!
Aus der Tabelle entnimmt man die Rückweisungspunkte für n=8, =0,5 (V folgt ja B(8;0,5)):
vr1=0, vr2=8.
Der Stichprobenbefund von v=7 liegt im Annahmebereich, das heißt, der Unterschied zwischen Grundgesamtheit und Stichprobe ist nur zufällig aufgetreten.
Ist die Schlußfolgerung richtig?

3.2 WILCOXON-Vorzeichen-Rangtest für den Median

3.2.1 Testsituation

  • Gegeben ist eine einfache Stichprobe.
  • Das Untersuchungsmerkmal X ist in der Grundgesamtheit symmetrisch verteilt.

3.2.2 Testidee

Im Gegensatz zum Mediantest berücksichtigt der Wilcoxon-Vorzeichen-Rangtest auch die Information über die in Rängen ausgedrückte Größe des Unterschieds zwischen jedem Stichprobenwert und dem Hypothesenwert.
Geprüft werden soll: Der Grundgesamtheitsmedian der stetigen Untersuchungsvariablen hat einen bestimmten Wert c.
Die Hypothese lautet also:
Jeder Stichprobenwert xi wird mit dem Hypothesenwert c verglichen.
1. Man ordnet die berechneten Differenzen |di= xi - c|der absoluten Größe nach, zunächst ohne Beachtung des Vorzeichens.
2. |di|Rangplätze werden vergeben: der kleinste Wert |di|erhält den Rang 1, der zweitkleinste den Rang 2. (Sind einige |di|gleich groß, bekommen sie ihren Durchschnittsrang zugewiesen)
3. Man ordnet den Rangzahlen die entsprechenden di zu.
4. Man summiert die Rangzahlen getrennt für positive und negative Vorzeichen.
!
5. Falls die Summe der Ränge für negative oder für positive Differenzen "zu klein" oder "zu groß" ist, wird die Hypothese verworfen (siehe Mediantest, S.18).
Bei einem Wilcoxon-Test bezieht man sich stets auf die absolut kleinere, nicht die größere Summe der Ränge! (Vereinbarung unter dem Volk der Statistiker)

Die Prüfgröße für den Wilcoxon-Test W ist formal definiert als:
, ai=0, falls di negativ ist, ai=1, falls di positiv ist (oder umgekehrt).

3.2.3 Wertebereich und Verteilung von W

1. W kann 0 sein, wenn in der Stichprobe alle Werte kleiner als der Median sind.
2. W nimmt den größtmöglichen Wert ein, wenn alle Werte größer als der Median sind. Der maximale Wert ergibt sich aus
3. W folgt einer diskreten Verteilung.
4. W ist symmetrisch.

3.2.4 Bemerkungen

1. Der Wilcoxon-Vorzeigen-Rangtest ist effizienter als der Mediantest, da er auch die Informationen über die Ränge verwendet
2. Bei großem Stichprobenumfang (n>25) und >=0,05 läßt sich W durch die folgende Normalverteilung approximieren:
3. Der Wilcoxon-Test setzt Symmetrie in der Grundgesamtheit voraus, die Prüfung der Symmetrie wird in der Praxis oft vernachlässigt.
4. Zwei Hypothesen können getestet werden:
a) Ho: der Median der Grundgesamtheit hat einen bestimmten Wert c.
b) Ho: Die Grundgesamtheit ist symmetrisch.
5. Die Rückweisungspunkte in der Formelsammlung auf S. 41 sind linksseitig tabelliert.
6. Problem des mehrfachen Auftretens von Testwerten: Wenn beim Mediantest mehrere Testwerte gleichgroß sind, ist das kein Problem, da allein das Faktum der Abweichung vom Median beim Median zählt. Beim Wilcoxon-Test wird durch das Zuweisen von Durchschnittsrängen das Vorliegen der sogenannten "Bindungen" überwunden. Das stellt ein Problem dar, das jedoch ab n>10 vernachlässigbar ist.
7. Der Wilcoxon-Test gehört mit einer Effizienz von 95 Prozent zu den trennschärfsten parameterfreien Verfahren.

3.2.5 Beispiel (Tiede S. 77)

Ein Lehrer hatte in der Vergangenheit die Durchschnittsnote 3 vergeben. Seiner derzeitigen Schulklasse gab er Zensuren in der folgenden Häufigkeit:

Note

1

2

3

4

5

Häufigkeit

0

6

6

4

6

Geprüft werden soll, ob sich die Schulklasse von anderen Schulklassen im Notendurchschnitt unterscheidet. (5% Signifikanzniveau, beidseitig): Ho: µ0,5=3

Zensur

di

Rang für |di|

2

-1

5,5

2

-1

5,5

2

-1

5,5

2

-1

5,5

2

-1

5,5

2

-1

5,5

4

1

5,5

4

1

5,5

4

1

5,5

4

1

5,5

5

2

13,5

5

2

13,5

5

2

13,5

5

2

13,5

5

2

13,5

5

2

13,5

Berechnung nach dem Mediantest:
Nach dem Mediantest ergibt sich: für n=16 (die 6 Schüler, die eine drei erreicht haben, fallen raus): v = 10 positive Vorzeichen.
Die Rückweisungspunkte r1=3 und r2=13 liest man in der Formelsammlung auf S. 40 ab (n=15, =5%).

Da P(V<=3)<=0,025, P(V>=13)<=0,025 wird die Hypothese Ho: µ0,5=3 angenommen.
Berechnung nach dem Wilcoxon-Vorzeichen-Rangtest
Die Summe der "negativen Ränge" beträgt w=33, d.h. der Stichprobenwert ist 33.
Der Rückweisungspunkt wr ist in diesem Beispiel bei einem beidseitigem Signifikanzniveau von 5 Prozent wr=30. (Formelsammlung; S. 41)
Da also w>wr, ist die Hypothese nicht zu verwerfen, der Unterschied ist zufällig.

3.2.6 Wilcoxon-Vorzeichen-Rangtest für verbundene Paare

3.2.6.1 Testsituation

  • Das Merkmal X wird in zwei verbundenen (abhängigen) Stichproben erhoben
  • Es werden die Differenzen zwischen Wert i der ersten Stichprobe und Wert i der zweiten Stichprobe berechnet:
    di=x1i -x2i, 1...n
  • die Differenzen sind unabhängig voneinander
  • die Differenzen sind symmetrisch verteilt
  • 1x0,5 ist der Median der Stichprobe Nr.1
  • 2x0,5 ist der Median der Stichprobe Nr. 2

3.2.6.2 Testidee

Der Wilcoxon-Vorzeichen-Rangtest für verbundene Paare nutzt die gegebenen Informationen über die Differenz eines Meßwertpaares aus:
1. Die Differenz hat ein Vorzeichen.
2. Die Differenz hat einen Betrag.
Getestet wird, ob zwei verbundene Stichproben aus einer Gesamtheit stammen.
Das heißt, getestet wird auch, b sich die beiden Stichprobenmediane signifikant voneinander unterscheiden:

Wie beim Wilcoxon-Vorzeichen-Rangtest wird die Prüfvariable zugrunde gelegt. ai ist 0, falls (x1i - x2i)>c

Mediantest

verbundene Paare

µ0,5

1µ0,5-2µ0,5

x0,5

1x0,5-2x0,5

|di|=|xi-c|

|di|=|(x1i-x2i)-c|

3.2.6.3 Beispiel (Tiede S. 97)

Eine neue winterharte Weizensorte (Sorte 2) wird mit einer gängigen Standardsorte bezüglich des Ernteertrags verglichen. Man baut jeweils beide Sorten in etwa gleichen, ansonsten zufällig gewählten Standorten an und ermittelt die Erträge in kg pro Flächeneinheit. Es werden Ränge verteilt, die folgende Tabelle ergibt sich:

di

-4

28

-5

20

17

3

9

13

Rg (|di |)

2

8

3

7

6

1

4

5

ai

1

0

1

0

0

0

0

0

Der Wilcoxon-Test prüft hier nicht nur die Frage des Mittelwertunterschiedes, sondern prüft auch, ob beide Stichproben aus der gleichen Grundgesamtheit stammen könnten.
Es gibt sich w=5. Dieser Wert liegt bei 5% Signifikanzniveau im Annahmebereich der Nullhypothese, wie auch beim Vorzeichentest. Der Durchschnittsertrag der Neuzüchtung ist nicht anders als der der Standardsorte. Der beobachtete geringere Durchschnittsertrag hat sich aus zufälligen Gründen ergeben.

3.3 Kolmogoroff/Smirnov-Test (Ein-Stichproben-Anpassungstest)

Der Kolmogoroff/Smirnov-Test verwendet im Gegensatz zum [chi]²-Anpassungstest auch die Größer-Kleiner-Relation, die zwischen den Stichprobenwerten besteht.

3.3.1 Testsituation

  • eine einfache Stichprobe, bei ordinalem Meßnivau
  • alle Paramter und die Verteilung müssen explizit spezifiziert sein und nicht aus der Stichrpobe heraus geschätzt werden

3.3.2 Testidee

Der Kolmogoroff/Smirnov-Test ist für zwei Problemfälle anwendbar, er beantwortet die folgenden Fragen:
1. Stammt eine Stichprobe aus einer in einer bestimmten Weise verteilten Grundgesamtheit? (Kolmogoroff/Smirnov-Einstichproben-Anpassungstest, s.u.)
2. Stammen zwei unabhängige Stichproben aus einer Grundgesamtheit? (siehe Kolmogoroff/Smirnov-Zweistichproben-Anpassungstest, Tiede S. 104ff)
Getestet werden soll, ob die vorliegende (empirische) Verteilung einigermaßen einer theoretischen Verteilung entspricht. Der Kolmogoroff/Smirnov-Test benutzt dabei nicht die einfache Häufigkeitsverteilung (wie beim Chiquadrat-Test).
Bei diesem Testverfahren wird die kumulierte Häufigkeitsverteilung mit der entsprechenden theoretischen Verteilungsfunktion verglichen. Die theoretische Verteilungsfunktion entspricht bei stetigen Variablen der kumulierten Häufigkeit.
Die Nullhypothese lautet: Ho: F(x)=Fo(x), die Alternativhypothese lautet: Ha: F(x)!=Fo(x)
Die Prüfvariable für den Kolmogoroff/Smirnov-Test lautet:

D.h. man berechnet zusätzlich zu den vorliegenden tatsächlichen Wahrscheinlichkeiten FB(X)die erwarteten theoretischen Wahrscheinlichkeiten Fe(X). Die maximale Differenz dmax bildet den Stichprobenwert. Den Rückweisungspunkt dr liest man für % (zweiseitiges Signifikanzniveau) aus der Tabelle in der Formelsammlung S. 42 ab.
Ist dmax>=dr wird die Hypothese abgelehnt.

3.3.3 Bemerkungen

1. Die Verteilung von D ist nur bei metrisch skalierten Untersuchungsvariablen exakt, man kann den Test aber auch bei klassifizierten (gruppierten) Meßreihen anwenden, wenn gilt:
n>20 und r (->Anzahl der Klassen) >5
2. Will man eine spezifizierte Verteilungshypothese (siehe S. Fehler! Textmarke nicht definiert.) testen, sollte man den Test nur mit Vorsicht verwenden.

3.3.4 Beispiel (Graff, S. 34)

Die Altersverteilung von 50 Studentinnen zwischen 21 und 30 Jahren wurde gemessen.
Die Hypothese lautet, daß das Alter in dem gemessenen Bereich von 21 bis 30 Jahren gleichverteilt sein soll. Die Prüfvariable D mißt die Differenz der kumulierten relativen Häufigkeiten zwischen empirischer und theoretischer Verteilung.


Empirisch

theoretisch






X

f

relativ

kumuliert

f

relativ

kumuliert

D

21

6

0,12

0,12

5

0,10

0,10

0,02

22

7

0,14

0,26

5

0,10

0,20

0,04

23

9

0,18

0,55

5

0,10

0,30

0,14

24

8

0,16

0,60

5

0,10

0,40

0,20

25

6

0,12

0,72

5

0,10

0,50

0,22

26

6

0,12

0,84

5

0,10

0,60

0,24

27

3

0,06

0,90

5

0,10

0,70

0,20

28

2

0,04

0,94

5

0,10

0,80

0,14

29

1

0,02

0,96

5

0,10

0,90

0,06

30

2

0,04

1,0

5

0,10

1,00

0,00

Summe

50

1,0


50

1,00




dmax steht in der letzten Spalte (-> der größte Differenzwert): dmax=0,24.
Bei einem zweiseitigem Signifikanzniveau von = 1 % schlägt man nun für n=50 in der Tabelle in der Formelsammlung auf S. 42 den Rückweisungspunkt dr nach.
Dabei nutzt man aus, daß für große n approximiert werden kann nach: . Das angegebene Signifikanzniveau ist dann zwar 2 %, aber der Unterschied ist akzeptabel. Es ergibt sich für
dr = 0,2164.
Ist dmax>=dr wird die Hypothese abgelehnt, hier ist 0,24>=0,2164, d.h. die Nullhypthese wird abgelehnt werden. Das Alter von den Studentinnen ist nicht gleich verteilt.

3.4 Kolmogoroff/Smirnov-Test (Zwei-Stichproben-Anpassungstest)

3.4.1 Testsituation

  • zwei (u.U.) verschieden große unabhängige Stichproben
  • mindestens metrisches Meßniveau (ordinales Meßniveau ist ok)
  • stetige Untersuchungsvariable

    3.4.2 Testidee

    Stammen die beiden Stichproben aus GG, die die gleiche Verteilung aufweisen?

    3.4.3 Testdurchführung

    Die Prüfvariable wird analog zum Kolmogoroff/Smirnov-Test (Ein-Stichproben-Anpassungstest, s. S.22) berechnet: . d ist Realisation der Stichprobenvariablen D.

    3.4.4 Beispiel

    Zwei Leichtathletikgruppen mit fünf bzw. sechs Leuten (n1=5, n2=6) machen einen Fitnesstest, nachdem sie ein unterschiedliches Wintertraining durchgeführt haben. Jeder Athlet kann bis zu 20 Punkte erreichen. (Dieses Beispiel ist eigentlich kein korrekter Anwendungsfall für den KS-2-Stichprobenanpassungsfall, da gegen die Faustregeln n1+n2>35 verstoßen wurde. Da er aber rechnerisch sehr aufwendig ist, habe ich dieses Beispiel mit kleinen n gewählt).

    x1j

    5

    10

    15

    17

    12


    x2j

    6

    6

    7

    9

    9

    13


    H0: Stammen die beiden Stichproben aus einer Gesamtheit? F1(x)=F2(X)
    Ich berechne die kummulierten Einzelwahrscheinlichkeiten. Zunächst sortiere ich alle Werte in einer gemeinsamen Stichprobe der Größe nach, wobei doppelt vorkommende Werte herausgenommen werden.

    x1j

    5

    10

    15

    17

    18


    x2j

    6

    6

    7

    9

    9

    13


    gesamt

    5

    6

    7

    9

    10

    13

    15

    17

    18

    Fb1

    0.2

    0.2

    0.2

    0.2

    0.4

    0.4

    0.5

    0.9

    1

    Fb2

    0

    0.33

    0.5

    0.83

    0.83

    1

    1

    1

    1

    d

    0.2

    0.1

    0.3

    0.63

    0.43

    0.6

    0.4

    0.4

    0

    Werte für Fb1
    Für jeden Wert der "gesamt"-Zeile schaue ich zunächst, ob dieser Wert aus der ersten Stichprobe stammt. Wenn er aus dieser Stichprobe stammt, zähle ich, wie oft er in der Stichprobe vorkommt. Diese Zahl teile ich durch die Anzahl der Elemente der Stichprobe1 (hier=5). Diesen Wert addiere ich zum vorherigen Wert, der sich für die vorherige Zahl ergab. Wenn ein Wert nicht aus der Stichprobe 1 stammt, ignoriere ich ihn und übernehme nur das Ergebnis aus der Zelle der vorherigen Zahl. (Bsp: 10 stammt aus Stichprobe 1, kommt einmal vor, also hat 10 den Anteilswert von 1/5=0.2 plus dem vorherigen Wert von 0.2=0.4. 7,9,6 würde ich einfach ignorieren
    Werte für Fb2

    • Die Werte für FB2 entstehen analog zum FB1.
      Absolute Differenzen
    • Jetzt berechnet man die absoluten Differenzen:
      z.B. 0.2-0.33=-0.13; Abs(-0.13)=0.13~0.1
    • dmax ist die maximale Differenz, hier 0.63
      Rückweisungspunkt
    • der Rückweisungspunkt dr=c()(für c() siehe Formelsammlung)
      Da die maximale Differenz dmax=0,63 kleiner ist als der Rückweisungspunkt, wird die Nullhypothese angenommen: Es gibt keine signifikanten Unterschiede zwischen den Gruppen.