6 Effizienz und Testgüte

6.1 Testgüte (auch Trennschärfe, Mächtigkeit)

Unter der Güte eines Tests versteht man die Wahrscheinlichkeit, keinen Fehler der 2. Art zu begehen, also eine unkorrekte Nullhypothese auch als falsch zu erkennen. Die Höhe der Wahrscheinlichkeit (1-) bestimmt demnach die Güte (oder Trennschärfe) des Testes und folglich wird ein möglichst kleiner -Fehler angestrebt. (vergleiche auch - und -Fehler, S. 6). Der -Fehler tritt auf, da statistische Testverfahren auf die Widerlegung der Nullhypothese ausgerichtet sind.

Die Abhängigkeit der Güte (1-) von dem Wert der Alternativhypothese wird als Gütefunktion bezeichnet, sie bildet bei einem zweiseitigem Test eine napfförmige Kurve. Die Gütefunktion weist jedem denkbaren Wert des Grundgesamtheitsparameters die Wahrscheinlichkeit für den Fehler 2. Art zugeordnet (Trennschärfefunktion).
Je höher die Voraussetzungen für ein Testverfahren sind, desto höher ist im allgemeinen auch die Güte des Tests. Ein Test, der Normalverteilungen und Streuungsleichheit wie z.B. der t-Test voraussetzt, hat im Vergleich zu verteilungsunabhängigen Tests, wie z.B. Schnelltests eine weitaus größere Trennschärfe.

6.2 Effizienz eines Tests

Bei einigen Prüfsituationen können verschiedene Testverfahren konkurrieren (z.B. der Mediantest gegen den Vorzeichentest). Es ist also z.B. möglich, daß ein Verfahren gewählt wird, das nur wenige Voraussetzungen benötigt, das aber bezüglich der Testgüte (Vermeidung des -Fehlers) eingeschränkt ist.
Die Effizienz macht nun einen qualitativen Vergleich der konkurrierenden Tests möglich. Die finite relative Effizienz wird bemessen durch den Quotienten der Stichprobenumfänge
.

n1 ist der Stichprobenumfang des "besseren" (z.B. verteilungsgebundenen) Tests, n2 ist der Umfang des "einfacheren" (verteilungsfreien) Tests.

Beträgt der Quotient nun beispielsweise n1=90%, so bedeutet dies, daß die Stichprobe II einem Umfang von n2=100% hat, der Stichproben I jedoch nur n1=90% von n2 genügt, um ein gleichwertiges Ergebnis zu erreichen. So ist das Prüfverfahren I nicht nur ebenbürtig, sondern durch das geringere n sogar billiger und damit Prüfverfahren II vorzuziehen.

Sind die Quotienten jedoch über 90%, sind die "einfachen" Tests jedoch nur unwesentlich teurer und ungenauer.

interessierender Test


Effizienz


konkurrierender Test


Mediantest


ca. 95% (bei kleiner Stichprobe)
ca. 63 % (bei großer Stichprobe)


t-test


U-Test


ca. 95%


t-Test


H-Test


ca. 95%


F-Test


Rsp


ca. 91%


R (nach Beavis/Pearson)