回帰直線の求め方 ~ 証明と具体例 ~
回帰直線とは?
二種類のデータを $\{ x_{i} \}$ と $\{ y_{i} \}$ とし、
データの総数がともに $n$ であるとする。
具体例としては、 $n$ 人の生徒が在籍するクラスがあり、
それぞれの生徒の身長を $x_{i}$、体重を $y_{i}$ と表したと考えるとよい。
二種類のデータを
のように一組で表し、 $xy$ 座標系の上に
$x_{i}$ が $x$ 座標値になり、
$y_{i}$ が $y$ 座標になるようにデータをプロットする
(図)。
$xy$ 座標系に一本の直線を引き、
その直線と各データとの $y$ 座標の差を $d_{i}$ とする。
その直線を
と表すと、$d_{i}$ は
である (上図参考) 。
$xy$ 座標系に直線は無数に存在するが、$d_{i}^2$ の総和を最小にする直線を $R$ とする。
すなわち、$R$ は
を最小にする直線である。
以下で導出するように、
直線 $R$ は
と表される直線である。
ここで $a_{r}$ と $b_{r}$ は、
であり、$\overline{x}$ と $\overline{y}$ はそれぞれデータ $x_{i}$ と $y_{i}$ の
平均値である。
このような直線 $R$ を
回帰直線 (regression line) とよぶ。
$R$ はデータとの $y$ 座標の差の二乗を最小にするという意味で、
データに最もフィットする直線である。
補足
ここでは $y$ 座標値の差 $d_{i}$ の二乗の総和を最小にする直線を回帰直線と呼んでいるが、
様々な流儀がある。
例えば、
点と直線の距離の二乗の総和を最小にする直線を回帰直線と呼ぶこともある。
求め方
データセット
にフィットする
回帰直線 $R$ は、次のように表される。
と表される直線である。
ここで $a_{r}$ と $b_{r}$ は、
であり、$\overline{x}$ と $\overline{y}$ はそれぞれデータ $x_{i}$ と $y_{i}$ の平均値である。
証明
直線を
データセット
の各点と直線
の $y$ 座標の差
の二乗の総和
を最小にする直線を求めることは、
$S$ を最小にする $a$ と $b$ を求めることである。
これを踏まえて、$S$ を整理して行く。
はじめに
$S$ を
と表す。
$x_{i}$ と $y_{i}$ の平均値 はそれぞれ
であるので、$S$ を
と表せる。
右辺の一部分を整理すると、
と表せることから、
となる。
また、右辺の最初の二つの項を
とすることにより、
$S$ を
と表せる。
右辺の最後の三つの項
は、$a$ と $b$ に依らない数である。
従って、残りの第一項と第二項の和
$$
\tag{1}
$$
が最小になるときに、
$S$ が最小になる。
そのような $a$ と $b$ をそれぞれ $a_{r}$ と $b_{r}$ とすると、
$(1)$ はそれぞれの項がゼロのときに最小になるので、
$$
\tag{2}
$$
である。
以上をまとめると、$S$ を最小にする直線(回帰直線)は、
であり、$a_{r}$ と
$b_{r}$ は $(2)$ によって与えられる。
これらはデータセットから計算されうる。
具体例
以下の表はあるクラスの生徒10人分の身長と体重のリストである。
|
身長(cm) |
体重(kg) |
1 |
140 |
35 |
2 |
142 |
34 |
3 |
138 |
35 |
4 |
144 |
40 |
5 |
136 |
30 |
6 |
148 |
37 |
7 |
150 |
42 |
8 |
133 |
29 |
9 |
149 |
33 |
10 |
137 |
29 |
このデータセットにフィットする
回帰直線を求めよ。
証明
各データを
と置き、
公式
を用いて、回帰直線
を求める。$n = 10$ として、
それぞれの部分を計算すると、
であるので、
と求まる。これより、回帰直線は、
である。
回帰直線と10個のデータをプロットした図である。
回帰直線がデータの中心付近をデータに沿うように走っている様子が見て取れる。