Lineare Regression

mittels der Methode der kleinsten Quadrate, d.h. durch Minimierung der summierten Quadrate der Residuen

RSS = \sum_{i=1}^n d_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow min!

bezüglich a und b.

Nach Ausmultiplikation, Ableiten und Nullsetzen

\frac {\partial S}{\partial a} = - 2\sum_{i=1}^n y_i + 2na + 2b \sum_{i=1}^n x_i = 0,
\frac {\partial S}{\partial b} = - 2 \sum_{i=1}^n x_iy_i + 2a\sum_{i=1}^n x_i + 2b\sum_{i=1}^n x_i^2=0,

erhält man die gesuchten Regressionskoeffizienten als die Lösungen

b = \frac{\sum_{i=1}^n x_iy_i - n \bar x \bar y}{\sum_{i=1}^n x_i^2 - n\bar x^2} \;

und

a = \bar y - b \bar x \; ,, wobei  \bar x = \frac{1}{n}\sum_{i=1}^n x_i.

Mit dem Verschiebungssatz:

b = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2}

Schätzungen

\hat{y}_i= a +b x_i

Residuen ri :

 \begin{matrix} &y_i&=& a +b x_i+ d_i&=& \hat{y}_i+d_i & &\ \Rightarrow& d_i&=&y_i-\hat{y}_i&\ \end{matrix}

Stichprobenvarianz der Residuen:

s^2 = \frac{1}{n-2} \sum_i d_i^2

Bestimmtheitsmaß

r^2 = \frac { \frac {1}{n} \sum_{i=1}^n (\hat y_i - \bar y)^2}{ \frac {1}{n} \sum_{i=1}^n ( y_i - \bar y)^2} = \frac { (\sum_{i=1}^n ( x_i- \bar x)( y_i- \bar y))^2}{ \sum_{i=1}^n ( x_i - \bar x)^2 \sum_{i=1}^n ( y_i - \bar y)^2} \; ,

mit dem Verschiebungssatz :

r^2 = \frac { ( \sum_{i=1}^n x_i y_i - n \cdot \bar x \cdot \bar y)^2 }{ ( \sum_{i=1}^n x_i^2 - n \cdot \bar x^2 ) ( \sum_{i=1}^n y_i^2 - n \cdot \bar y^2 ) } .


0 \le r^2 \le 1

Varianz der Residuen

s^2 = \frac {1}{n-2}(1-r^2) \cdot \sum_{i=1}^n (y_i - \bar y )^2