Vorgehen beim Hypothesentest

I. Feststellung der Verteilung des Merkmals in der Grundgesamtheit

II. Aufstellen der Nullhypothese

III. Festlegen der Testfunktion T

IV. Festlegen des Annahmebereichs ("Nichtablehnungsbereichs") (für ein zu bestimmendes Signifikanzniveau)


Fällt die Prüfgröße \overline{x} in den Bereich [\overline{x}u; \overline{x}o],

wird H0 nicht abgelehnt. Es soll sein

 P( \bar{x}_u \le \bar{X} \le \bar{x}_o) = 1 - \alpha

(beachte: ein- oder zweiseitig)

α : Signifikanzniveau oder α-Fehler


V. Stichprobe erheben

VI. Entscheidung treffen


H0 ist wirklich wahrH1 ist wirklich wahr
H0 wird beibehaltenrichtige Entscheidung (1-α)Fehler 2. Art (β-Fehler)
H1 wird angenommenFehler 1. Art (α-Fehler)richtige Entscheidung (1-β)

Tests auf Lageparameter (Erwartungswert, Median, Anteilswert)

Test auf Erwartungswert
TestH_0H_1
zweiseitigμ = μ0μ ≠ μ0
rechtsseitigμ ≤ μ0μ > μ0
linksseitigμ ≥ μ0μ < μ0


1. X ist normalverteilt, σ ist bekannt bei beliebigem n bzw. näherungsweise normalverteilt bei n > 30

Testfunktion
 T = \frac{\bar{X}_n - \mu_0 }{\sigma} \cdot \sqrt{n} \; \; \sim N(0;1) (Gauß-Test):
Ablehnungsbereich
zweiseitig  |T| > z_{1-\alpha/2}
rechtsseitig  |T| > z_{1-\alpha}
linksseitig  |T| < -z_{1-\alpha}

2. X ist normalverteilt, σ ist unbekannt bei beliebigem n

Testfunktion
 T = \frac{\bar{X_n} - \mu_0 }{S} \cdot \sqrt{n} \; \; \sim t(n-1) \; \; (t-Test).
Ablehnungsbereich
zweiseitig  |T| > t_{1-n,1-\alpha/2}
rechtsseitig  |T| > t_{n-1,1-\alpha}
linksseitig  |T| < -t_{n-1,1-\alpha}

3. X ist näherungsweise normalverteilt, σ ist unbekannt bei n > 30

Testfunktion
 T = \frac{\bar{X_n} - \mu_0 }{S} \cdot \sqrt{n} \; \approx N(0;1) (Gauß-Test) .
Ablehnungsbereich
zweiseitig  |T| > t_{1-n,1-\alpha/2}
rechtsseitig   |T| > t_{n-1,1-\alpha}
linksseitig   |T| < -t_{n-1,1-\alpha}
Vorzeichentest
Einstichprobenproblem
EinseitigZweiseitig
\, H_0\, P(X \geq \theta_0) \geq 1/2\, P(X \geq \theta_0) \leq 1/2\, P(X \geq \theta_0) = 1/2
\, H_1\, P(X \geq \theta_0) < 1/2\, P(X \geq \theta_0) > 1/2\, P(X \geq \theta_0) \neq 1/2
\, H_0\, \theta \geq \theta_0\, \theta \leq \theta_0\, \theta = \theta_0
\, H_1\, \theta < \theta_0\, \theta > \theta_0\, \theta \neq \theta_0

Die Stichprobenwerte, die größer als der hypothetische Median \theta_0 sind, bekommen ein "+" zugeordnet;

Werte, die kleiner sind, ein "-". Die Anzahl der positiven Vorzeichen wird gezählt und dient als Teststatistik.

Zweistichprobenproblem

Die n Beobachtungspaare dürfen nicht voneinander abhängen, d.h. das Wertepaar (x_{1i},x_{2i})\, muss unabhängig

vom Wertepaar (x_{1j},x_{2j}), \forall \; i \neq j sein.

Besitzen beide Grundgesamtheiten den gleichen Median, gilt P(X_{11}>X_{12})=P(X_{11}<X_{12}).

Folgende Hypothesen können mit dem Vorzeichentest geprüft werden:

EinseitigZweiseitig
\, H_0\, P(X_{1} \geq X_{2}) \geq 1/2\, P(X_{1} \geq X_{2}) \leq 1/2\, P(X_{1} \geq X_{2}) = 1/2
\, H_1:\, P(X_{1} \geq X_{2}) < 1/2\, P(X_{1} \geq X_{2}) > 1/2\, P(X_{1} \geq X_{2}) \neq 1/2

Die Wertepaare der Stichproben, bei denen x_{i1} > x_{i2} gilt, bekommen ein "+" zugeordnet;


Wertepaare, für die x_{i1} < x_{i2} gilt, ein "-". Die Anzahl der positiven Vorzeichen wird gezählt

und dient als Teststatistik. Die Teststatistik entspricht der Anzahl der positiven Vergleiche (Differenzen der Werte bzw. Ränge):

V=\sum_{i=1}^{n'}\mathrm{I}(x_{i1}>x_{i2}) \sim B(\pi=0{,}5,n')

mit

\mathrm{I}(x_{i1}>x_{i2})= \begin{cases} 1, \quad \text{wenn}\; x_{i1} > x_{i2}\ 0, \quad \text{sonst}\ \end{cases}

Für das Einstichprobenproblem sind die Werte der zweiten Stichprobe durch den hypothetischen Median zu ersetzen.

Bei Gültigkeit der Nullhypothese H_0 ist die Summe der positiven Differenzen binomialverteilt mit \pi=0{,}5,

da der Median dem 50 %-Quantil entspricht. n' bezeichnet den nach Behandlung von Ties (Nulldifferenzen, Rangbindungen, s.u.)

verbleibenden Stichprobenumfang. Bei Gültigkeit der Nullyhypothese ist die Verteilung der Prüfgröße symmetrisch.

Approximation durch die Normalverteilung

Mit n \rightarrow \infty nähert sich die Binomialverteilung einer Normalverteilung mit N(np,np(1-p)),

als Faustregel np(1-p)\geq 9 (H_0: p=1/2).

Mit \tfrac{1}{4}n\geq 9 bzw. n\geq 36 ist die z-standardisierte Größe

z_V = \frac{\sum_{i=1}^{n'} - \frac{1}{2}\cdot n'}{\tfrac{1}{2}\sqrt{n'}} \approx N(0,1)

näherungsweise standardnormalverteilt.

Bindungen (Nulldifferenzen) Sind im Zweistichprobenproblem die Werte von Beobachtungen von der ersten zur zweiten Stichprobe unverändert

oder im Einstichprobenproblem einige Werte gleich dem Median, ergeben sich Nulldifferenzen bzw. Bindungen (Ties),

die man so behandeln kann:

  • Beobachtungen mit Rangbindungen werden eliminiert, d.h. der Stichprobenumfang wird reduziert.
  • Die Beobachtungen werden zu gleichen Teilen den Gruppen zugeordnet. Bei ungerader Anzahl von Bindungen wird ein Beobachtungspaar eliminiert.
  • Die Beobachtungen werden jeweils mit einer Wahrscheinlichkeit von 0,5 einer der beiden Gruppen (+ oder -) zugeordnet.


Test auf Anteilswert (Binomialtest)

Der Anteilswert θ wird geschätzt durch

\hat \theta = p = \frac{x}{n}.

Mit dem Binomialtest können folgende Hypothesenpaare für θ getestet werden:

TestH_0H_1
zweiseitig\theta = \theta_0\theta \neq \theta_0
rechtsseitig\theta\leq \theta_0\theta > \theta_0
linksseitig\theta \geq \theta_0\theta < \theta_0


für n > 30 , nθ0 ≥ 10 n(1-θ0) ≥ 10 
kann man durch die Gauß-Verteilung approximieren:
Testfunktion
 T = \frac{\theta -\theta_0 }{\sqrt{\theta_0(1-\theta_0) } } \cdot \sqrt{ n} \; \; \approx N(0;1) (Gauß-Test) .
Ablehnungsbereich
zweiseitig   |T| > z_{1-\alpha/2}
rechtsseitig   |T| > z-{1-\alpha}
linksseitig   |T| < -z-{1-\alpha}
für n < 30 oder nθ0 < 10 oder n(1-θ0) < 10
ist der exakte Binomialtest anzuwenden:
Testfunktion

Die Teststatistik X gibt an, wie oft das Merkmal in einer zufälligen Stichprobe vom Umfang n aufgetreten ist.

Unter der Nullhypothese H_0\colon \theta = \theta_0 ist die Teststatistik B(\theta_0,n)-verteilt, das heißt

P(X=i) = B(i|\theta_0,n) = \binom{n}{i} \theta_0^i (1-\theta_0)^{n-i}.
Ablehnungsbereich

Teststatistik für den Binomialtest, die roten Balken gehören zum kritischen Bereich.

Da die Teststatistik diskret verteilt ist, kann das vorgegebene Signifikanzniveau \alpha in der Regel nicht eingehalten werden.

Daher wird gefordert, die kritischen Werte so zu wählen, dass für ein möglichst großes exaktes Signifikanzniveau \alpha_\text{ex} gilt \alpha_\text{ex}\leq\alpha.

Für den zweiseitigen Test werden daher als kritische Werte das größte c_1 und das kleinste c_2 bestimmt, für die gilt

  • \sum_{i=0}^{c_1} B(i|\theta_0,n) \leq \alpha/2 und
  • \sum_{i=c_2}^n B(i|\theta_0,n) \leq \alpha/2.

Das exakte Signifikanzniveau ergibt sich als

\alpha_\text{ex}=\sum_{i=0}^{c_1} B(i|\theta_0,n)+\sum_{i=c_2}^n B(i|\theta_0,n).

Für die beiden einseitigen Tests wird analog verfahren.

TestKritische WerteKritischer BereichGrenze(n)
zweiseitig  c_1+1 und c_2-1\{0,\dotsc,c_1\} \cup \{c_2,\dotsc,n\}
rechtsseitig  c-1\{c,\dotsc,n\}c = kleinster Wert, für den \sum_{i=c}^n B(i| \theta_0,n)= \alpha_\text{ex} \leq \alpha
linksseitigc+1\{0,\dotsc,c\}c = größter Wert, für den \sum_{i=0}^{c} B(i| \theta_0,n)= \alpha_\text{ex} \leq \alpha
Varianzanalyse (univariat, ANOVA)

Man untersucht man den Einfluss einer unabhängigen Variable (Faktor) mit k verschiedenen Stufen (Gruppen)

auf die Ausprägungen einer Zufallsvariablen. Dazu werden die k Mittelwerte der Ausprägungen für die Gruppen

miteinander verglichen, und zwar vergleicht man die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen.

Weil sich die totale Varianz aus den zwei genannten Komponenten zusammensetzt, spricht man von Varianzanalyse.

Die einfaktorielle ANOVA ist die Verallgemeinerung des t-Tests bei mehr als zwei Gruppen. Für k=2 ist sie äquivalent mit dem t-Test.

Es sei \mu_i der Erwartungswert der abhängigen Variable in der i. Gruppe.


\! H_0: \mu_1 = \mu_2 = ... = \mu_k (Es besteht kein Unterschied zwischen den Erwartungswerten der Gruppen.)


\! H_1: \exists i,j:\ \mu_i \neq \mu_j (Es besteht zwischen mindestens zwei Erwartungswerten ein Unterschied.)


→ Wir wissen dann nur mit einer bestimmten Wahrscheinlichkeit, dass mindestens zwei Ausprägungen einen bedeutsamen Unterschied aufweisen.

Effektdarstellung :

 X_{ij} = \mu + \alpha_{i} + \varepsilon_{ij},\quad i=1,\dots,k,\ j=1,\dots,n_{i}.

Darin sind:
Xij: Zielvariable; annahmegemäß in den Gruppen normalverteilt
  k: Anzahl der Faktorstufen des betrachteten Faktors
  ni: Stichprobenumfänge für die einzelnen Faktorstufen
  μ: arithmetisches Mittel der Erwartungswerte in den Gruppen
 αi: Effekt der i-ten Faktorstufe
εij: Störvariablen, unabhängig und normalverteilt mit Erwartungswert 0 und gleicher (unbekannter) Varianz σ2.

Erwartungswert in der i. Gruppe: \mu_i=\mu + \alpha_i

\sum_{i=1}^kn_i\alpha_i = 0.

Quadratsummen

Die gesamte Variabilität, QST, ausgedrückt wie die gesamte quadratische Abweichung vom Mittelwert,

lässt sich in zwei Teile zerlegen.

Der erste Teil QSA (Gruppenzugehörigkeit) lässt sich ausdrücken als die quadratische Abweichung

der Mittelwerte vom Gesamtmittelwert der Gruppen. Der Rest QSE (Zufall) der die Unterschiede innerhalb

der Gruppen betrifft, wird ausgedrückt als die gesamte Abweichung von den Mittelwerten in den Gruppen.

QST=QSA + QSE .

Darin ist:

\!\,QST=\sum(X_{ij}-X..)^2,
\!\,QSA=\sum_i n_i(X_i.-X..)^2,

und

\!\,QSE=\sum_{i,j}(X_{ij}-X_i.)^2.

Die zwei Quadratsummen QSA und QSE sind stochastisch unabhängig.

Im Fall von k Gruppen mit gleichem Umfang n/k gilt unter der Nullhypothese außerdem:

QSA/\sigma^2 folgt einer Chi-Quadrat-Verteilung mit k-1 Freiheitsgraden,

und

QSE/\sigma^2 folgt einer Chi-Quadrat-Verteilung mit n-k Freiheitsgraden.

mittlere Quadratsummen:

MQSA=\frac 1{k-1}QSA, und :MQSE=\frac 1{n-k}QSE.

Prüfgröße:

F=\frac{MQSA}{MQSE}.

Im Falle Gruppen gleicher Größe ist F unter der Nullhypothese also F-Verteilt

mit k-1 Freiheitsgraden im Zähler und n-k Freiheitsgraden im Nenner.

Wenn die Prüfgröße signifikant wird, unterscheiden sich mindestens zwei Gruppen voneinander.

In Post-Hoc-Tests kann dann berechnet werden, zwischen welchen einzelnen Gruppen der Unterschied liegt.

Tests auf Streuung

Test auf Varianz
TestH_0H_1
zweiseitig  \sigma^2 = \sigma_0^2\,\sigma^2 \neq \sigma_0^2
rechtsseitig  \ sigma^2 \leq \sigma_0^2  \sigma^2 > \sigma_0^2 \,
linksseitig  \sigma^2 \geq \sigma_0^2  \sigma^2 < \sigma_0^2 \,


1. X ist normalverteilt, μ ist unbekannt, n beliebig

Testfunktion
 T = \frac{(n -1)S^2 }{\sigma_0^2 } =\frac{1}{\sigma_0^2} \sum_{i=1}^n (X_i- \bar{X}^2)^2 \; \; \sim \chi^2(n-1)
Ablehnungsbereich
zweiseitig   T < \chi^{2}_{n-1,\alpha/2} oder T > \chi^{2}_{n-1,1-\alpha/2}
rechtsseitig   T > \chi^2_{n-1,1-\alpha}
linksseitig   T < \chi^2_{n-1,\alpha}

2. X ist normalverteilt, μ ist bekannt, n beliebig

Testfunktion
 T = \frac{(n-1) \tilde{S}^2 }{\sigma_0^2 } =\frac{1}{\sigma_0^2} \sum_{i=1}^n (X_i- \mu)^2 \; \; \sim \chi^2(n)
Ablehnungsbereich
zweiseitig   T < chi^2_{n,\alpha/2} oder T > \chi^2_{n,1-\alpha/2}
rechtsseitig   T > \chi^2_{n,1-\alpha}
linksseitig   T < \chi^2_{n,\alpha}

Tests auf Zusammenhangs- und Assoziationsparameter

Chi-Quadrat-Unabhängigkeitstest
Nullhypothese
H_0: Die Merkmale X und Y sind stochastisch unabhängig.

Die Beobachtungen der Merkmale X und Y liegen paarweise in m bzw. r Klassen vor.

Es gibt insgesamt n paarweise Beobachtungen von X und Y, die sich auf m \cdot r Kategorien verteilen. Aufstellung z. B. in einer Häufigkeitstabelle:

Merkmal YSumme Σ
Merkmal X12krnj.
1n11n12...n1k...n1rn1.
2n21n22n2kn2rn2.
jnjknj.
mnm1nm2nmknmrnm.
Summe Σn.1n.2n.kn.rn

Absolute Randhäufigkeiten n_{j\,\cdot} bzw. n_{\cdot\, k}

 n_{j\,\cdot }= \sum_{k=1}^r n_{jk} und  n_{\cdot\, k}= \sum_{j=1}^m n_{jk}


Prüfgröße für den Unabhängigkeitstest:

 \chi ^2= \sum_{j=1}^m\sum_{k=1}^r \frac{(n_{jk}- n^*_{jk})^2}{n^*_{jk}}.

Mit :n^*_{jk}=\frac{n_{j\,\cdot}\cdot n_{\cdot \,k}}{n},

H_0 wird abgelehnt, wenn \chi^2 > \chi^2(1-\alpha; (m-1)(r-1)) ist.

Anpassungs- oder Verteilungstests

Chi-Quadrat-Anpassungs- oder Verteilungstest

Die Wahrscheinlichkeiten eines Merkmals X seien in der Grundgesamtheit unbekannt.

Nullhypothese: H_0\,: Das Merkmal X besitzt die Wahrscheinlichkeitsverteilung F_0(x)

Für n unabhängige Beobachtungen x_1,\dots,x_n des Merkmals X wird die Zahl

der Beobachtungen in der j-ten Klasse ist die beobachtete Häufigkeit N_j.

Im Vergleich dazu wird die hypothetische Verteilung bestimmt aufgrund der Wahrscheinlichkeit p_{0j},

dass eine Ausprägung von X in die Kategorie j fällt. Die unter H_0 zu erwartende Häufigkeit ist:

n_{0j}=p_{0j}\cdot n

Die Prüfgröße (Größe der Abweichung)

 \chi ^2= \sum_{j=1}^m \frac{(N_j-n_{0j})^2}{n_{0j}}

ist bei ausreichend großen N_j annähernd chi-Quadrat-verteilt mit m-1 Freiheitsgraden.

H_0 wird abgelehnt, wenn \chi^2 > \chi^2_{(1-\alpha; m-1)} gilt.


Kolmogorow-Smirnow-Anpassungstest

Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen.

Man betrachtet ein statistisches Merkmal X, dessen Verteilung in der Grundgesamtheit unbekannt ist.

\!\,H_0: F_X(x) = F_0(x) (Die Zufallsvariable X besitzt die Wahrscheinlichkeitsverteilung F0.)
H_1: F_X(x) \neq F_0(x) (Die Zufallsvariable X besitzt eine andere Wahrscheinlichkeitsverteilung als F0.)

Der Kolmogorow-Smirnow-Test vergleicht die empirische Verteilungsfunktion F_n mit F_0 mittels der Teststatistik

d_n=\|F_n-F_0\|=\sup_x|F_n(x)-F_0(x)|, (sup: Supremum)

Die Teststatistik ist unabhängig von der hypothetischen Verteilung F0.

Ist der Wert der Teststatistik größer als der entsprechende tabellierte kritische Wert, so wird die Nullhypothese verworfen.

Einstichprobenproblem

Von einer reellen Zufallsvariablen X liegen n aufsteigend sortierte Beobachtungswerte x_i (i=1,\dotsc,n) vor.

Von diesen Beobachtungen wird die relative Summenhäufigkeit S(x_i) mit der entsprechenden hypothetischen

Verteilung der Grundgesamtheit F0(xi) verglichen. Voraussetzung: F_0 ist stetig.

Für jedes i = 1,\dotsc,n werden die absoluten Differenzen

 d_{oi} = |S(x_i)-F_0(x_i)|~ und : d_{ui} = |S(x_{i-1})-F_0(x_i)|~

berechnet, wobei S(x_0):=0 gesetzt wird. Wenn die größte Differenz d_{\max} aus allen Differenzen d_{oi}, d_{ui}

einen kritischen Wert d_{\alpha} übersteigt, wird die Hypothese abgelehnt.

Bis n=40 greift man auf Tabellen zurück (s. Anhang). Für größere n werden sie über d_\alpha=\frac{\sqrt{\ln\left(\frac{2}{\alpha}\right)}}{\sqrt{2 n}} angenähert.


Zweistichprobenproblem

Liegt nun zusätzlich zur Zufallsvariablen X eine entsprechende Zufallsvariable Y vor (mit m geordneten Werten y_i),

so kann durch den Zweistichprobentest überprüft werden, ob X und Y derselben Verteilungsfunktion folgen.

Von beiden Beobachtungen werden die die Differenzen der relativen Summenfunktionen S_X(x_i) bzw. S_Y(y_i) ermittelt:

 d(z) = |S_X(z)-S_Y(z)|~ und  : d_{max} = \sup_z d(z)~ .


Die Nullhypothese wird abgelehnt, falls d_{max} den kritischen Wert d_{krit}(\alpha,n,m) überschreitet.

Für kleine Werte von n und m greift man auf Tabellen zurück.

Für große Werte von n und m wird die Nullhypothese abgelehnt, falls

\sqrt{\frac{n m}{n + m}}d_{max}>K_\alpha ,

wobei K_\alpha für große n und m näherungsweise als K_\alpha=\sqrt{\frac{\ln\left(\frac{2}{\alpha}\right)}{2}} berechnet werden kann.

Tests in der Regressions- und Zeitreihenanalyse

(Anm. steht noch aus: Hier schon mal die lin. Regression:)

Lineare Regression

mittels der Methode der kleinsten Quadrate, d.h. durch Minimierung der summierten Quadrate der Residuen

RSS = \sum_{i=1}^n d_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow min!

bezüglich a und b.

Nach Ausmultiplikation, Ableiten und Nullsetzen

\frac {\partial S}{\partial a} = - 2\sum_{i=1}^n y_i + 2na + 2b \sum_{i=1}^n x_i = 0,
\frac {\partial S}{\partial b} = - 2 \sum_{i=1}^n x_iy_i + 2a\sum_{i=1}^n x_i + 2b\sum_{i=1}^n x_i^2=0,

erhält man die gesuchten Regressionskoeffizienten als die Lösungen

b = \frac{\sum_{i=1}^n x_iy_i - n \bar x \bar y}{\sum_{i=1}^n x_i^2 - n\bar x^2} \;

und

a = \bar y - b \bar x \; ,, wobei  \bar x = \frac{1}{n}\sum_{i=1}^n x_i.

Mit dem Verschiebungssatz:

b = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2}

Schätzungen

\hat{y}_i= a +b x_i

Residuen ri :

 \begin{matrix} &y_i&=& a +b x_i+ d_i&=& \hat{y}_i+d_i & &\ \Rightarrow& d_i&=&y_i-\hat{y}_i&\ \end{matrix}

Stichprobenvarianz der Residuen:

s^2 = \frac{1}{n-2} \sum_i d_i^2

Bestimmtheitsmaß

r^2 = \frac { \frac {1}{n} \sum_{i=1}^n (\hat y_i - \bar y)^2}{ \frac {1}{n} \sum_{i=1}^n ( y_i - \bar y)^2} = \frac { (\sum_{i=1}^n ( x_i- \bar x)( y_i- \bar y))^2}{ \sum_{i=1}^n ( x_i - \bar x)^2 \sum_{i=1}^n ( y_i - \bar y)^2} \; ,

mit dem Verschiebungssatz :

r^2 = \frac { ( \sum_{i=1}^n x_i y_i - n \cdot \bar x \cdot \bar y)^2 }{ ( \sum_{i=1}^n x_i^2 - n \cdot \bar x^2 ) ( \sum_{i=1}^n y_i^2 - n \cdot \bar y^2 ) } .


0 \le r^2 \le 1

Varianz der Residuen

s^2 = \frac {1}{n-2}(1-r^2) \cdot \sum_{i=1}^n (y_i - \bar y )^2