回帰直線

  2つのデータ (例えば生徒の身長と体重) をそれぞれ $x_{i}$, $y_{i}$ とし、 データの総数(例えば生徒の人数) を $n$ とする。
  2 つのデータ を

回帰直線00

のように、一組で表し、各点を $xy$ 座標系の上に描く(図)。
回帰直線の図00

  $xy$ 座標系に一本の直線を引き、直線と各点との $y$ 座標の差を $d_{i}$ とする $(i=1,2,\cdots,n)$。 直線を
回帰直線01

と表すと、$d_{i}$ は

回帰直線02

である。
  $xy$ 座標系に直線は無数に存在するが、$d_{i}^2$ の総和を最小にする直線を $R$ とする。 すなわち、$R$ は

回帰直線03

を最小にする直線である。
  以下で導出するように、直線 $R$ は、次のように表される。

回帰直線04

ここで

回帰直線05

であり、$\overline{x}$ と $\overline{y}$ はそれぞれデータ $x_{i}$ と $y_{i}$ の平均値である。
  このような直線 $R$ を、回帰直線 (regression line) とよぶ。 $R$ は、データとの $y$ 座標の差の二乗を最小にするという意味で、 データに最もフィットする直線である。

最終更新 2015 年 5 月 5 日


  回帰直線の導出

  直線を

回帰直線06

と表すとき、データ

回帰直線07

の各点と直線の $y$ 座標の差

回帰直線08

の総和 $\sum_{i=1}^{n} d_{i}^2$ を最小にする直線を求めることは、 $\sum_{i=1}^{n} d_{i}^2$ を最小にする $a$ と $b$ を求めることである。 これを踏まえて、$\sum_{i=1}^{n} d_{i}^2$ を整理して行く。
  はじめに $\sum_{i=1}^{n} d_{i}^2$ は、次のように表す。

回帰直線09

平均値 $\overline{x}$ と $\overline{y}$ は、それぞれ $ \overline{x} = \frac{1}{n} \sum_{i=1}^{n} x_{i}, \hspace{1mm} $ $ \overline{y} = \frac{1}{n} \sum_{i=1}^{n} y_{i} $ であるので、上の式は

回帰直線10

と表せる。
  右辺の $-2nb \Big( \overline{y} - a \overline{x} \Big) + n b^2 $ の部分を整理すると、

回帰直線11

と表せることから、

回帰直線12

ここで、右辺の最初の二つの項に対して

回帰直線13

が成立することから、$\sum_{i=1}^{n} d_{i}^2$ は

回帰直線14

と表される。
  右辺の最後の三つの項

回帰直線14

は、$a$ と $b$ に依らない定数である。 従って、第一項と第二項の和

回帰直線16

が最小になるときに、$\sum_{i=1}^{n} d_{i}^2 $ が $a$ と $b$ に対して最小になる。
  そのような $a$ と $b$ をそれぞれ $a_{r}$ と $b_{r}$ とすると、 $(1)$ はそれぞれの項がゼロのときに最小になるので、

回帰直線17

である。
  以上をまとめると、$\sum_{i=1}^{n} d_{i}^2 $ を最小にする直線(回帰直線)は、

回帰直線18

である。ここで $a_{r}$ と $b_{r}$ は、データの値から $(2)$ によって求められる。









ページのトップへ戻る