4 Die Grenzwertsätze

4.1 Hauptsatz der theoretischen Statistik: Der Zentrale Grenzwertsatz

Der zentrale Grenzwertsatz ist ein Hauptsatz in der theoretischen Statistik und besagt im allgemeinen, daß die Summe von stochastisch unabhängigen Zufallsvariablen annähernd normalverteilt ist. Der zentrale Grenzwertsatz läßt sich nutzen, um die Stichprobenverteilung bestimmter Maßzahlen anzugeben. Er besagt:
Wenn man eine Zufallsstichprobe von genügend großem Umfang n aus einer Grundgesamtheit mit Zurückliegen zieht, in der ein Merkmal X mit dem Erwartungswert µx und der Varianz verteilt ist, dann folgt approximativ der Normalverteilung mit den Parametern und , ohne daß etwas über die Verteilung von X vorausgesetzt werden muß.
Vereinfacht ausgedrückt heißt das: Wächst ni, nähert sich die Verteilung von X immer mehr der Normalverteilung an. D.h. Wahrscheinlichkeiten, die mit Hilfe der Summe von unabhängigen, identisch verteilten Zufallsvariablen Xi gebildet werden, lassen sich für großes n mittels der Normalverteilung hinreichend genau berechnen.

Voraussetzungen und Bedingungen:

  • n sollte nach einer groben Faustformel mindestens 30 sein, damit die Summenformel als so gut wie normalverteilt angesehen werden kann.
  • Der Verteilungstyp muß nicht bekannt sein, die Zufallsvariablen müssen nicht symmetrisch verteilt sein, allerdings muß eine Varianz existieren und die Verteilung darf nicht absurd, z.B. einer Arcustangensverteilung folgen.
  • Die Stichprobenvariablen müssen nicht voneinander stochastisch unabhängig sein.

Spezialfall: normalverteilte Grundgesamtheiten

Falls die Grundgesamtheit, aus der gezogen wird, normalverteilt ist, ist nicht approximativ, sondern genau normalverteilt. Die Stichprobe kann dann auch von kleinem Umfang sein. Die Grundgesamtheit, aus der gezogen wird, ist -verteilt.

4.2 La Place: Lokaler Grenzwertsatz

Der Grenzwertsatz von de Moivre/Laplace gilt als Spezialfall des zentrales Grenzwertsatzes. Der lokale Grenzwertsatz, der sich auf die Wahrscheinlichkeitsfunktion bezieht, besagt, daß eine nach B(n, ) verteilte Zufallsvariable mit wachsendem n an die Dichtefunktion einer Normalverteilung N(n ; ) grenzt. Er ist ein lokaler Satz, weil er sich auf die festen Stellen xi der Binomalverteilung bezieht. Der allgemeine Grenzwertsatz betrifft dann die Verteilungsfunktion Hier kann bei nà die Wahrscheinlichkeit der Realisation einer nach B(n; ) verteilte Zufallsvariablen X in einen bestimmten Bereich, z.B. (1<=X<=5) approximativ über eine Normalverteilung bestimmt werden. Für die sinnvolle Anwendung existiert eine Faustformel, nach der eine hinreichende Genauigkeit erreicht wird.

4.2.1 Warum sind Stichprobenmittelwerte normalverteilt?

Zu jedem Stichprobenmittelwert gehört eine spezifische Zufallsvariable. Addiert man diese Zufallsvariablen, ergibt sich eine neue Zufallsvariable. Diese ist nach dem zentralen Zufallstheorem von LaPlace bei zunehmenden n normalverteilt. Die gilt unabhängig davon, wie die ursprüngliche Ausgansvariablen verteilt sind.

4.3 Vergleich lokaler und zentraler Grenzwertsatz

Zentraler und lokaler Grenzwertsatz haben unterschiedliche Einsatzbereiche. Der Zentrale GWS macht eine Aussage über die Summe von unabhängigen Zufallsvariablen (künstliche, normalverteilte Variablen).
Der lokale Grenzwertsatz bezieht sich auf die Ausprägung einer Variablen in einem Punkt. Die Aussage wird also über einen Punkt getroffen.

5 Wahrscheinlichkeitsverteilungen

5.1 Normalverteilung (Gaußsche Fehlerkurve)

Die Form der Normalverteilung wird durch die Paramter µ und bestimmt. Man charakterisiert die Normalverteilung durch N(µ, ).
Die Normalverteilung hat folgende Eigenschaften:

  • arithm. Mittel, Modus und Median fallen zusammen
  • die Kurve hat bei x=µ ihr einziges Maximum
  • die beiden Äste der Kurve nähern sich asymptotisch der Abzisse
  • De Fläche unter der Kurve muß natürlich gleich 1 sein

5.2 Chiquadratverteilung

Die Chiquadratverteilung ist eine stetige Zufallsverteilung.
Man geht aus von einer Anzahl v unabhängiger Zufallsvariablen Ki, die standardnormalverteilt sind. Die Summe ihrer Quadrate ergibt die neue Zufallsvariable. Sie wird mit bezeichnet.

  • hat die Dichtefunktion einer -verteilten Variablen mit k=0,5 und =0,5v
  • Die konkrete Gestalt der -Funktion hängt davon ab, wie groß v (die Anzahl der Normalverteilungen) ist.

Form der -Verteilung:
kann nur positive Werte realisieren, die -Verteilung verläuft ab v>=3 unimodal und linkssteil. Mit wachsendem v verlagert sie sich nach rechts, streut stärker und wird zunehmend symmetrisch.
Eine -Verteilung mit einem größer werdenden Freiheitsgrad nähert sich einer Normalverteilung mit N(v, ) an.

5.3 t-Verteilung


Die t-Verteilung dient u.a. zur Beurteilung der Unterschiede zweier Mittelwerte und zur Berechnung von Vertrauensgrenzen für Mittelwerte und Regressionskoeffizienten.
Der bei der Guinness(tm)-Brauerei angestellte William Gosset fand eine neue Zufallsverteilung, die man nach seinem Pseudonym student die t-Verteilung nennt. T-Verteilungen spielen eine große Rolle bei Stichproben mit kleinem Umfang.
Die T-Variable entsteht als Quotient aus der Standardnormalvariablen K sowie dem Ausdruck (v sind die Anzahl der Freiheitsgerade. D.h.
Die t-Verteilung ist stetig und unimodal. Die t-Variable ist symmetrisch um den Wert 0 verteilt. Modus, Median und Erwartungswert fallen zusammen. Der Wertebereich der T-Verteilung reicht wie der der Normalverteilung von + bis -.
Mit größer werdendem Freiheitsgrad (n geht gegen ) geht die t-Verteilung über in die Standardnormalverteilung. Normalerweise ist die t-Verteilung gegenüber der Normalverteilung schmaler, dies nimmt allerdings mit zunehmenden Freiheitsgrad ab.
Tabellierung: Die Tabelle auf S. 31 in der Formelsammlung ist für zweiseitiges SN tabelliert. Bei einseitigen Fragestellungen muß mit gearbeitet werden.

5.4 F-Verteilung


R.A.Fisher (1890 bis 1962) entdeckte die F-Verteilung, die z.B. dazu benutzt wird, die Gleichheit zweier Variablen zu testen. Die F-Verteilung ist als Quotient zweier unabhängiger Zufallsvariablen definiert, sie besitzt zwei Parameter: die Zahl der Freiheitsgrade v1 und v2 der beiden -Variablen.
Die Variable kann nur positive Werte realisieren. Sie ist für kleinere Werte von v1 und v2 linkssteil, für größere Werte von v1 und v2 eine gegen die Normalverteilung konvergierende Zufallsverteilung mit dem Wertebereich [0,], d.h. der Wertebereich der F-Verteilung ist 0<f(F), der Definitionsbereich 0<=F<=.

5.5 Gamma-Verteilung

  • dient zur Berechnung von Flächen unter einer Kurve, deren Summe ungleich 1 ist, hat somit keine Wahrscheinlichkeitsfunktion

  • Die Gamma-Verteilung beruht auf der Gamma-Funktion. Sie ermöglicht die Fakultätsberechnung von nicht ganzzahligen Werten
  • die Funktion ist abhängig von (dem gedachten Erwartungswert) = Häufigkeit des erwarteten Ereignisses

5.6 Binominalverteilung

Die Binominalverteilung ist eine der bedeutendsten diskreten Wahrscheinlichkeitsverteilungen.
Das zugrunde liegende Experiment (Bernoulli-Experiment) muß charakterisiert sein durch:

  1. Es gibt zwei Ergebnisse: und [entweder trifft oder ein]
  2. Man kennt die Wahrscheinlichkeit für P(A)= und P(a)=1-
  3. Es werden n Experimente durchgeführt. Die Wahrscheinlichkeit muß bei jedem Einzelversuch gleich groß sein (=> konstante Einzelwahrscheinlichkeiten)
  4. Die Ergebnisse der Versuche/Einzelexperimente sollen sich nicht gegenseitig beeinflussen, d.h. die Einzelversuchen sollen unabhängig voneinander sein.
    Die Bernoulli-Anordnung ist eine Anordnung mit Zurücklegen

    Frage: Wie groß ist die Wahrscheinlichkeit, daß A in n Versuchen xi-mal i=1... n+1 realisiert wird? (0<=xi<=n)
    n: Anzahl der Versuche/Einzelexperimente
    A: Ereignisalternative
    : Wahrscheinlichkeit für A
    Xi: Anzahl (wie oft wird A realisiert?)
    Durch B(n; ) B(xi, |n; ) werden Erfolgswahrscheinlichkeiten ausgerechnet, das heißt, das Eintreten von A wird als Erfolg gewertet.

    5.7 Multinominalverteilung

    Die Multinominalverteilung ist eine Verallgemeinerung der Binomialverteilung. Das zugrundeliegende Zufallsexperiment besteht aus Ziehen mit Zurücklegen aus einer Trommel, in der sich mehr als zwei Kategorien Kugeln befinden. Die Anzahl der Kategorien bestimmt die Dimension der Multinominalvariablen.
    Eine Trommel mit drei Kugeln liefert eine zweidimensionale Multinominalvariable.
    Eine Trommel mit zwei Kugeln liefert eine eindimensionale Multinominalvariable, eine Binominalverteilung.