Formelsammlung Statistik/ Hypothesentests – Wikibooks, Sammlung freier Lehr-, Sach- und Fachbücher

Vorgehen beim Hypothesentest

I. Feststellung der Verteilung des Merkmals in der Grundgesamtheit

II. Aufstellen der Nullhypothese

III. Festlegen der Testfunktion T

IV. Festlegen des Annahmebereichs ("Nichtablehnungsbereichs") (für ein zu bestimmendes Signifikanzniveau)

Fällt die Prüfgröße $\overline{x}$ in den Bereich [ $\overline{x}$ _u; $\overline{x}$ _o],

wird H₀ nicht abgelehnt. Es soll sein

$P( \bar{x}_u \le \bar{X} \le \bar{x}_o) = 1 - \alpha$

(beachte: ein- oder zweiseitig)

α : Signifikanzniveau oder α-Fehler

V. Stichprobe erheben

VI. Entscheidung treffen

	H₀ ist wirklich wahr	H₁ ist wirklich wahr
H₀ wird beibehalten	richtige Entscheidung (1-α)	Fehler 2. Art (β-Fehler)
H₁ wird angenommen	Fehler 1. Art (α-Fehler)	richtige Entscheidung (1-β)

Tests auf Lageparameter (Erwartungswert, Median, Anteilswert)

Test auf Erwartungswert

Test	$H_0$	$H_1$
zweiseitig	μ = μ₀	μ ≠ μ₀
rechtsseitig	μ ≤ μ₀	μ > μ₀
linksseitig	μ ≥ μ₀	μ < μ₀

Zweiseitiger Test für $\overline{x}$
linksseitiger Test für $\overline{x}$
Rechtsseitiger Test für $\overline{x}$

1. X ist normalverteilt, σ ist bekannt bei beliebigem n bzw. näherungsweise normalverteilt bei n > 30

Testfunktion: $T = \frac{\bar{X}_n - \mu_0 }{\sigma} \cdot \sqrt{n} \; \; \sim N(0;1)$ (Gauß-Test):

	Ablehnungsbereich
zweiseitig	$\|T\| > z_{1-\alpha/2}$
rechtsseitig	$\|T\| > z_{1-\alpha}$
linksseitig	$\|T\| < -z_{1-\alpha}$

2. X ist normalverteilt, σ ist unbekannt bei beliebigem n

Testfunktion: $T = \frac{\bar{X_n} - \mu_0 }{S} \cdot \sqrt{n} \; \; \sim t(n-1) \; \;$ (t-Test).

	Ablehnungsbereich
zweiseitig	$\|T\| > t_{1-n,1-\alpha/2}$
rechtsseitig	$\|T\| > t_{n-1,1-\alpha}$
linksseitig	$\|T\| < -t_{n-1,1-\alpha}$

3. X ist näherungsweise normalverteilt, σ ist unbekannt bei n > 30

Testfunktion: $T = \frac{\bar{X_n} - \mu_0 }{S} \cdot \sqrt{n} \; \approx N(0;1)$ (Gauß-Test) .

	Ablehnungsbereich
zweiseitig	$\|T\| > t_{1-n,1-\alpha/2}$
rechtsseitig	$\|T\| > t_{n-1,1-\alpha}$
linksseitig	$\|T\| < -t_{n-1,1-\alpha}$

Vorzeichentest

Einstichprobenproblem

	Einseitig		Zweiseitig
$\, H_0$	$\, P(X \geq \theta_0) \geq 1/2$	$\, P(X \geq \theta_0) \leq 1/2$	$\, P(X \geq \theta_0) = 1/2$
$\, H_1$	$\, P(X \geq \theta_0) < 1/2$	$\, P(X \geq \theta_0) > 1/2$	$\, P(X \geq \theta_0) \neq 1/2$
$\, H_0$	$\, \theta \geq \theta_0$	$\, \theta \leq \theta_0$	$\, \theta = \theta_0$
$\, H_1$	$\, \theta < \theta_0$	$\, \theta > \theta_0$	$\, \theta \neq \theta_0$

Die Stichprobenwerte, die größer als der hypothetische Median $\theta_0$ sind, bekommen ein "+" zugeordnet;

Werte, die kleiner sind, ein "-". Die Anzahl der positiven Vorzeichen wird gezählt und dient als Teststatistik.

Zweistichprobenproblem

Die $n$ Beobachtungspaare dürfen nicht voneinander abhängen, d.h. das Wertepaar $(x_{1i},x_{2i})\,$ muss unabhängig

vom Wertepaar $(x_{1j},x_{2j}), \forall \; i \neq j$ sein.

Besitzen beide Grundgesamtheiten den gleichen Median, gilt $P(X_{11}>X_{12})=P(X_{11}<X_{12})$ .

Folgende Hypothesen können mit dem Vorzeichentest geprüft werden:

	Einseitig		Zweiseitig
$\, H_0$	$\, P(X_{1} \geq X_{2}) \geq 1/2$	$\, P(X_{1} \geq X_{2}) \leq 1/2$	$\, P(X_{1} \geq X_{2}) = 1/2$
$\, H_1:$	$\, P(X_{1} \geq X_{2}) < 1/2$	$\, P(X_{1} \geq X_{2}) > 1/2$	$\, P(X_{1} \geq X_{2}) \neq 1/2$

Die Wertepaare der Stichproben, bei denen $x_{i1} > x_{i2}$ gilt, bekommen ein "+" zugeordnet;

Wertepaare, für die $x_{i1} < x_{i2}$ gilt, ein "-". Die Anzahl der positiven Vorzeichen wird gezählt

und dient als Teststatistik. Die Teststatistik entspricht der Anzahl der positiven Vergleiche (Differenzen der Werte bzw. Ränge):

$V=\sum_{i=1}^{n'}\mathrm{I}(x_{i1}>x_{i2}) \sim B(\pi=0{,}5,n')$

mit

$\mathrm{I}(x_{i1}>x_{i2})= \begin{cases} 1, \quad \text{wenn}\; x_{i1} > x_{i2}\ 0, \quad \text{sonst}\ \end{cases}$

Für das Einstichprobenproblem sind die Werte der zweiten Stichprobe durch den hypothetischen Median zu ersetzen.

Bei Gültigkeit der Nullhypothese $H_0$ ist die Summe der positiven Differenzen binomialverteilt mit $\pi=0{,}5$ ,

da der Median dem 50 %-Quantil entspricht. n' bezeichnet den nach Behandlung von Ties (Nulldifferenzen, Rangbindungen, s.u.)

verbleibenden Stichprobenumfang. Bei Gültigkeit der Nullyhypothese ist die Verteilung der Prüfgröße symmetrisch.

Approximation durch die Normalverteilung

Mit $n \rightarrow \infty$ nähert sich die Binomialverteilung einer Normalverteilung mit $N(np,np(1-p))$ ,

als Faustregel $np(1-p)\geq 9$ ( $H_0: p=1/2$ ).

Mit $\tfrac{1}{4}n\geq 9$ bzw. $n\geq 36$ ist die z-standardisierte Größe

$z_V = \frac{\sum_{i=1}^{n'} - \frac{1}{2}\cdot n'}{\tfrac{1}{2}\sqrt{n'}} \approx N(0,1)$

näherungsweise standardnormalverteilt.

Bindungen (Nulldifferenzen) Sind im Zweistichprobenproblem die Werte von Beobachtungen von der ersten zur zweiten Stichprobe unverändert

oder im Einstichprobenproblem einige Werte gleich dem Median, ergeben sich Nulldifferenzen bzw. Bindungen (Ties),

die man so behandeln kann:

Beobachtungen mit Rangbindungen werden eliminiert, d.h. der Stichprobenumfang wird reduziert.
Die Beobachtungen werden zu gleichen Teilen den Gruppen zugeordnet. Bei ungerader Anzahl von Bindungen wird ein Beobachtungspaar eliminiert.
Die Beobachtungen werden jeweils mit einer Wahrscheinlichkeit von 0,5 einer der beiden Gruppen (+ oder -) zugeordnet.

Test auf Anteilswert (Binomialtest)

Der Anteilswert θ wird geschätzt durch

$\hat \theta = p = \frac{x}{n}$ .

Mit dem Binomialtest können folgende Hypothesenpaare für θ getestet werden:

Test	$H_0$	$H_1$
zweiseitig	$\theta = \theta_0$	$\theta \neq \theta_0$
rechtsseitig	$\theta\leq \theta_0$	$\theta > \theta_0$
linksseitig	$\theta \geq \theta_0$	$\theta < \theta_0$

für n > 30 , nθ₀ ≥ 10 n(1-θ₀) ≥ 10: kann man durch die Gauß-Verteilung approximieren:

Testfunktion: $T = \frac{\theta -\theta_0 }{\sqrt{\theta_0(1-\theta_0) } } \cdot \sqrt{ n} \; \; \approx N(0;1)$ (Gauß-Test) .

	Ablehnungsbereich
zweiseitig	$\|T\| > z_{1-\alpha/2}$
rechtsseitig	$\|T\| > z-{1-\alpha}$
linksseitig	$\|T\| < -z-{1-\alpha}$

für n < 30 oder nθ₀ < 10 oder n(1-θ₀) < 10: ist der exakte Binomialtest anzuwenden:

Testfunktion

Die Teststatistik $X$ gibt an, wie oft das Merkmal in einer zufälligen Stichprobe vom Umfang $n$ aufgetreten ist.

Unter der Nullhypothese $H_0\colon \theta = \theta_0$ ist die Teststatistik $B(\theta_0,n)$ -verteilt, das heißt

$P(X=i) = B(i|\theta_0,n) = \binom{n}{i} \theta_0^i (1-\theta_0)^{n-i}$ .

Ablehnungsbereich

Da die Teststatistik diskret verteilt ist, kann das vorgegebene Signifikanzniveau $\alpha$ in der Regel nicht eingehalten werden.

Daher wird gefordert, die kritischen Werte so zu wählen, dass für ein möglichst großes exaktes Signifikanzniveau $\alpha_\text{ex}$ gilt $\alpha_\text{ex}\leq\alpha$ .

Für den zweiseitigen Test werden daher als kritische Werte das größte $c_1$ und das kleinste $c_2$ bestimmt, für die gilt

$\sum_{i=0}^{c_1} B(i|\theta_0,n) \leq \alpha/2$ und
$\sum_{i=c_2}^n B(i|\theta_0,n) \leq \alpha/2$ .

Das exakte Signifikanzniveau ergibt sich als

$\alpha_\text{ex}=\sum_{i=0}^{c_1} B(i|\theta_0,n)+\sum_{i=c_2}^n B(i|\theta_0,n)$ .

Für die beiden einseitigen Tests wird analog verfahren.

Test	Kritische Werte	Kritischer Bereich	Grenze(n)
zweiseitig	$c_1+1$ und $c_2-1$	$\{0,\dotsc,c_1\} \cup \{c_2,\dotsc,n\}$
rechtsseitig	$c-1$	$\{c,\dotsc,n\}$	c = kleinster Wert, für den $\sum_{i=c}^n B(i\| \theta_0,n)= \alpha_\text{ex} \leq \alpha$
linksseitig	$c+1$	$\{0,\dotsc,c\}$	c = größter Wert, für den $\sum_{i=0}^{c} B(i\| \theta_0,n)= \alpha_\text{ex} \leq \alpha$

Varianzanalyse (univariat, ANOVA)

Man untersucht man den Einfluss einer unabhängigen Variable (Faktor) mit k verschiedenen Stufen (Gruppen)

auf die Ausprägungen einer Zufallsvariablen. Dazu werden die k Mittelwerte der Ausprägungen für die Gruppen

miteinander verglichen, und zwar vergleicht man die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen.

Weil sich die totale Varianz aus den zwei genannten Komponenten zusammensetzt, spricht man von Varianzanalyse.

Die einfaktorielle ANOVA ist die Verallgemeinerung des t-Tests bei mehr als zwei Gruppen. Für k=2 ist sie äquivalent mit dem t-Test.

Es sei $\mu_i$ der Erwartungswert der abhängigen Variable in der i. Gruppe.

$\! H_0: \mu_1 = \mu_2 = ... = \mu_k$ (Es besteht kein Unterschied zwischen den Erwartungswerten der Gruppen.)

$\! H_1: \exists i,j:\ \mu_i \neq \mu_j$ (Es besteht zwischen mindestens zwei Erwartungswerten ein Unterschied.)

→ Wir wissen dann nur mit einer bestimmten Wahrscheinlichkeit, dass mindestens zwei Ausprägungen einen bedeutsamen Unterschied aufweisen.

Effektdarstellung :

$X_{ij} = \mu + \alpha_{i} + \varepsilon_{ij},\quad i=1,\dots,k,\ j=1,\dots,n_{i}.$

Darin sind:
X_ij: Zielvariable; annahmegemäß in den Gruppen normalverteilt
  k: Anzahl der Faktorstufen des betrachteten Faktors
  n_i: Stichprobenumfänge für die einzelnen Faktorstufen
  μ: arithmetisches Mittel der Erwartungswerte in den Gruppen
α_i: Effekt der i-ten Faktorstufe
ε_ij: Störvariablen, unabhängig und normalverteilt mit Erwartungswert 0 und gleicher (unbekannter) Varianz σ².

Erwartungswert in der i. Gruppe: $\mu_i=\mu + \alpha_i$

$\sum_{i=1}^kn_i\alpha_i = 0.$

Quadratsummen

Die gesamte Variabilität, QST, ausgedrückt wie die gesamte quadratische Abweichung vom Mittelwert,

lässt sich in zwei Teile zerlegen.

Der erste Teil QSA (Gruppenzugehörigkeit) lässt sich ausdrücken als die quadratische Abweichung

der Mittelwerte vom Gesamtmittelwert der Gruppen. Der Rest QSE (Zufall) der die Unterschiede innerhalb

der Gruppen betrifft, wird ausgedrückt als die gesamte Abweichung von den Mittelwerten in den Gruppen.

$QST=QSA + QSE .$

Darin ist:

$\!\,QST=\sum(X_{ij}-X..)^2,$

$\!\,QSA=\sum_i n_i(X_i.-X..)^2,$

und

$\!\,QSE=\sum_{i,j}(X_{ij}-X_i.)^2.$

Die zwei Quadratsummen QSA und QSE sind stochastisch unabhängig.

Im Fall von k Gruppen mit gleichem Umfang n/k gilt unter der Nullhypothese außerdem:

$QSA/\sigma^2$ folgt einer Chi-Quadrat-Verteilung mit k-1 Freiheitsgraden,

und

$QSE/\sigma^2$ folgt einer Chi-Quadrat-Verteilung mit n-k Freiheitsgraden.

mittlere Quadratsummen:

$MQSA=\frac 1{k-1}QSA,$ und : $MQSE=\frac 1{n-k}QSE.$

Prüfgröße:

$F=\frac{MQSA}{MQSE}.$

Im Falle Gruppen gleicher Größe ist F unter der Nullhypothese also F-Verteilt

mit k-1 Freiheitsgraden im Zähler und n-k Freiheitsgraden im Nenner.

Wenn die Prüfgröße signifikant wird, unterscheiden sich mindestens zwei Gruppen voneinander.

In Post-Hoc-Tests kann dann berechnet werden, zwischen welchen einzelnen Gruppen der Unterschied liegt.

Tests auf Streuung

Test auf Varianz

Test	$H_0$	$H_1$
zweiseitig	$\sigma^2 = \sigma_0^2\,$	$\sigma^2 \neq \sigma_0^2$
rechtsseitig	$\ sigma^2 \leq \sigma_0^2$	$\sigma^2 > \sigma_0^2 \,$
linksseitig	$\sigma^2 \geq \sigma_0^2$	$\sigma^2 < \sigma_0^2 \,$

1. X ist normalverteilt, μ ist unbekannt, n beliebig

Testfunktion: $T = \frac{(n -1)S^2 }{\sigma_0^2 } =\frac{1}{\sigma_0^2} \sum_{i=1}^n (X_i- \bar{X}^2)^2 \; \; \sim \chi^2(n-1)$

	Ablehnungsbereich
zweiseitig	$T < \chi^{2}_{n-1,\alpha/2}$ oder $T > \chi^{2}_{n-1,1-\alpha/2}$
rechtsseitig	$T > \chi^2_{n-1,1-\alpha}$
linksseitig	$T < \chi^2_{n-1,\alpha}$

2. X ist normalverteilt, μ ist bekannt, n beliebig

Testfunktion: $T = \frac{(n-1) \tilde{S}^2 }{\sigma_0^2 } =\frac{1}{\sigma_0^2} \sum_{i=1}^n (X_i- \mu)^2 \; \; \sim \chi^2(n)$

	Ablehnungsbereich
zweiseitig	$T < chi^2_{n,\alpha/2}$ oder $T > \chi^2_{n,1-\alpha/2}$
rechtsseitig	$T > \chi^2_{n,1-\alpha}$
linksseitig	$T < \chi^2_{n,\alpha}$

Tests auf Zusammenhangs- und Assoziationsparameter

Chi-Quadrat-Unabhängigkeitstest

Nullhypothese: $H_0$ : Die Merkmale $X$ und $Y$ sind stochastisch unabhängig.

Die Beobachtungen der Merkmale $X$ und $Y$ liegen paarweise in $m$ bzw. $r$ Klassen vor.

Es gibt insgesamt $n$ paarweise Beobachtungen von $X$ und $Y$ , die sich auf $m \cdot r$ Kategorien verteilen. Aufstellung z. B. in einer Häufigkeitstabelle:

	Merkmal $Y$						Summe Σ
Merkmal $X$	1	2	…	k	…	r	n_j.
1	n₁₁	n₁₂	...	n_1k	...	n_1r	n_1.
2	n₂₁	n₂₂	…	n_2k	…	n_2r	n_2.
…	…	…	…	…	…	…	…
j	…	…	…	n_jk	…	…	n_j.
…	…	…	…	…	…	…	…
m	n_m1	n_m2	…	n_mk	…	n_mr	n_m.
Summe Σ	n_.1	n_.2	…	n_.k	…	n_.r	n

Absolute Randhäufigkeiten $n_{j\,\cdot}$ bzw. $n_{\cdot\, k}$

$n_{j\,\cdot }= \sum_{k=1}^r n_{jk}$ und $n_{\cdot\, k}= \sum_{j=1}^m n_{jk}$

Prüfgröße für den Unabhängigkeitstest:

$\chi ^2= \sum_{j=1}^m\sum_{k=1}^r \frac{(n_{jk}- n^*_{jk})^2}{n^*_{jk}}.$

Mit : $n^*_{jk}=\frac{n_{j\,\cdot}\cdot n_{\cdot \,k}}{n},$

$H_0$ wird abgelehnt, wenn $\chi^2 > \chi^2(1-\alpha; (m-1)(r-1))$ ist.

Anpassungs- oder Verteilungstests

Chi-Quadrat-Anpassungs- oder Verteilungstest

Die Wahrscheinlichkeiten eines Merkmals $X$ seien in der Grundgesamtheit unbekannt.

Nullhypothese: $H_0\,$ : Das Merkmal $X$ besitzt die Wahrscheinlichkeitsverteilung $F_0(x)$

Für $n$ unabhängige Beobachtungen $x_1,\dots,x_n$ des Merkmals $X$ wird die Zahl

der Beobachtungen in der $j$ -ten Klasse ist die beobachtete Häufigkeit $N_j$ .

Im Vergleich dazu wird die hypothetische Verteilung bestimmt aufgrund der Wahrscheinlichkeit $p_{0j}$ ,

dass eine Ausprägung von $X$ in die Kategorie $j$ fällt. Die unter $H_0$ zu erwartende Häufigkeit ist:

$n_{0j}=p_{0j}\cdot n$

Die Prüfgröße (Größe der Abweichung)

$\chi ^2= \sum_{j=1}^m \frac{(N_j-n_{0j})^2}{n_{0j}}$

ist bei ausreichend großen $N_j$ annähernd chi-Quadrat-verteilt mit $m-1$ Freiheitsgraden.

$H_0$ wird abgelehnt, wenn $\chi^2 > \chi^2_{(1-\alpha; m-1)}$ gilt.

Kolmogorow-Smirnow-Anpassungstest

Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen.

Man betrachtet ein statistisches Merkmal X, dessen Verteilung in der Grundgesamtheit unbekannt ist.

$\!\,H_0: F_X(x) = F_0(x)$ (Die Zufallsvariable X besitzt die Wahrscheinlichkeitsverteilung F₀.)

$H_1: F_X(x) \neq F_0(x)$ (Die Zufallsvariable X besitzt eine andere Wahrscheinlichkeitsverteilung als F₀.)

Der Kolmogorow-Smirnow-Test vergleicht die empirische Verteilungsfunktion $F_n$ mit $F_0$ mittels der Teststatistik

$d_n=\|F_n-F_0\|=\sup_x|F_n(x)-F_0(x)|,$ (sup: Supremum)

Die Teststatistik ist unabhängig von der hypothetischen Verteilung F₀.

Ist der Wert der Teststatistik größer als der entsprechende tabellierte kritische Wert, so wird die Nullhypothese verworfen.

Einstichprobenproblem

Von einer reellen Zufallsvariablen $X$ liegen $n$ aufsteigend sortierte Beobachtungswerte $x_i$ ( $i=1,\dotsc,n$ ) vor.

Von diesen Beobachtungen wird die relative Summenhäufigkeit $S(x_i)$ mit der entsprechenden hypothetischen

Verteilung der Grundgesamtheit F₀(x_i) verglichen. Voraussetzung: $F_0$ ist stetig.

Für jedes $i = 1,\dotsc,n$ werden die absoluten Differenzen

$d_{oi} = |S(x_i)-F_0(x_i)|~$ und : $d_{ui} = |S(x_{i-1})-F_0(x_i)|~$

berechnet, wobei $S(x_0):=0$ gesetzt wird. Wenn die größte Differenz $d_{\max}$ aus allen Differenzen $d_{oi}$ , $d_{ui}$

einen kritischen Wert $d_{\alpha}$ übersteigt, wird die Hypothese abgelehnt.

Bis n=40 greift man auf Tabellen zurück (s. Anhang). Für größere $n$ werden sie über $d_\alpha=\frac{\sqrt{\ln\left(\frac{2}{\alpha}\right)}}{\sqrt{2 n}}$ angenähert.

Zweistichprobenproblem

Liegt nun zusätzlich zur Zufallsvariablen $X$ eine entsprechende Zufallsvariable $Y$ vor (mit $m$ geordneten Werten $y_i$ ),

so kann durch den Zweistichprobentest überprüft werden, ob $X$ und $Y$ derselben Verteilungsfunktion folgen.

Von beiden Beobachtungen werden die die Differenzen der relativen Summenfunktionen $S_X(x_i)$ bzw. $S_Y(y_i)$ ermittelt:

$d(z) = |S_X(z)-S_Y(z)|~$ und : $d_{max} = \sup_z d(z)~$ .

Die Nullhypothese wird abgelehnt, falls $d_{max}$ den kritischen Wert $d_{krit}(\alpha,n,m)$ überschreitet.

Für kleine Werte von $n$ und $m$ greift man auf Tabellen zurück.

Für große Werte von n und m wird die Nullhypothese abgelehnt, falls

$\sqrt{\frac{n m}{n + m}}d_{max}>K_\alpha$ ,

wobei $K_\alpha$ für große $n$ und $m$ näherungsweise als $K_\alpha=\sqrt{\frac{\ln\left(\frac{2}{\alpha}\right)}{2}}$ berechnet werden kann.

Tests in der Regressions- und Zeitreihenanalyse

(Anm. steht noch aus: Hier schon mal die lin. Regression:)

Lineare Regression

mittels der Methode der kleinsten Quadrate, d.h. durch Minimierung der summierten Quadrate der Residuen

$RSS = \sum_{i=1}^n d_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow min!$

bezüglich a und b.

Nach Ausmultiplikation, Ableiten und Nullsetzen

$\frac {\partial S}{\partial a} = - 2\sum_{i=1}^n y_i + 2na + 2b \sum_{i=1}^n x_i = 0,$

$\frac {\partial S}{\partial b} = - 2 \sum_{i=1}^n x_iy_i + 2a\sum_{i=1}^n x_i + 2b\sum_{i=1}^n x_i^2=0,$

erhält man die gesuchten Regressionskoeffizienten als die Lösungen

$b = \frac{\sum_{i=1}^n x_iy_i - n \bar x \bar y}{\sum_{i=1}^n x_i^2 - n\bar x^2} \;$

und

$a = \bar y - b \bar x \; ,$ , wobei $\bar x = \frac{1}{n}\sum_{i=1}^n x_i$ .

Mit dem Verschiebungssatz:

$b = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2}$

Schätzungen ŷ

$\hat{y}_i= a +b x_i$

Residuen r_i :

$\begin{matrix} &y_i&=& a +b x_i+ d_i&=& \hat{y}_i+d_i & &\ \Rightarrow& d_i&=&y_i-\hat{y}_i&\ \end{matrix}$

Stichprobenvarianz der Residuen:

$s^2 = \frac{1}{n-2} \sum_i d_i^2$

Bestimmtheitsmaß

$r^2 = \frac { \frac {1}{n} \sum_{i=1}^n (\hat y_i - \bar y)^2}{ \frac {1}{n} \sum_{i=1}^n ( y_i - \bar y)^2} = \frac { (\sum_{i=1}^n ( x_i- \bar x)( y_i- \bar y))^2}{ \sum_{i=1}^n ( x_i - \bar x)^2 \sum_{i=1}^n ( y_i - \bar y)^2} \; ,$

mit dem Verschiebungssatz :

$r^2 = \frac { ( \sum_{i=1}^n x_i y_i - n \cdot \bar x \cdot \bar y)^2 }{ ( \sum_{i=1}^n x_i^2 - n \cdot \bar x^2 ) ( \sum_{i=1}^n y_i^2 - n \cdot \bar y^2 ) } .$

$0 \le r^2 \le 1$

Varianz der Residuen

$s^2 = \frac {1}{n-2}(1-r^2) \cdot \sum_{i=1}^n (y_i - \bar y )^2$