代表値と散布度

代表値と散布度
  統計データの特徴を表すために定義された値を代表値 (measure of central tendency) という。 また、データの広がりを表現する量を散布度 (dispersion) という。
  以下では、よく使われる代表値と散布度を紹介する。なお、全ての場合において、総数 $n$ のデータ
データの代表値と散布度
を仮定する。
平均値
  データ値の総和を総数で割ったものを平均値 $\bar{x}$ という。すなわち、
データの平均値
である。

  総数 $6$ データ $ \{4, 3,6,2,5,1\} $ の平均値は   定義より
データの平均値の例
である。
中央値
  データが小さい順に、
と並んでいるとき、 ちょうど真ん中に来る値のことを中央値 (median) という。
  $n$ が奇数の場合には、$\frac{n+1}{2}$ 番目のデータが真ん中に来るので、中央値 $M$ は、
中央値の奇数の場合
である。
  $n$ が偶数の場合には、ちょうど真ん中に来るデータがないので、前半の終わりの値と後半の最初の値の平均値で定義する。 すなわち、
中央値の奇数の場合
である。

$(1)$   総数 $7$ のデータ
の中央値は、 データを小さい順に並べて
と表し、 総数が $7$ の場合、 中央に来る $4$ 番目のデータ値である。 よって、
である。
$(2)$   総数 $8$ のデータ
の中央値は、 データを小さい順に並べて
と表し、 総数が $8$ の場合、前半の終わり来るのは $4$ 番目の値であり、 後半の最初に来るのは $5$ 番目の値であるので、 定義から
である。
最頻値
  データの中に最も多くの含まれる値を最頻値 $M_{o}$ という。すなわち、
の中で値 $a$ を持つデータが一番多く含まれるとき、$M_{o} = a$ である。

総数 $8$ のデータ
は、 値 $4$ のデータが一番多く含まれるので、
である。
分散
  それぞれのデータ $x_{i}$ と 平均値との差の 2 乗 $(x_{i}-\bar{x})^2$ の総和を 総数で割ったものを分散 $\sigma^2$ という。すなわち、

  総数 $5$ のデータ $ \{1,3,5,7,9\} $ の平均値は
であるので、 分散は、
である。
標準偏差
  分散の平方根を標準偏差 $s$ という。すなわち、 \begin{eqnarray} s &=& \sqrt{\sigma^2} \\ &=& \sqrt{\frac{1}{n} \{ (x_{1}-\bar{x})^2 + (x_{2}-\bar{x})^2 + \cdots + (x_{n}-\bar{x})^2 \}} \end{eqnarray}

  総数 $5$ のデータ $ \{1,3,5,7,9\} $ の分散は 、 \begin{eqnarray} \sigma^2 &=& 16 \end{eqnarray} であるので、 \begin{eqnarray} s &=& \sqrt{\sigma^2} \\ &=& 4 \end{eqnarray} である。
平均偏差
  それぞれのデータ $x_{i}$ と 平均値との差の絶対値 $|x_{i}-\bar{x}|$ の総和を、 総数で割ったものを平均偏差 $m_{d}$ という。 すなわち、 $$ m_{d} = \frac{1}{n} ( |x_{1}-\bar{x}| + |x_{2}-\bar{x}| + \cdots + |x_{n}-\bar{x}| ) $$

  総数 $5$ のデータ $ \{1,3,5,7,9\} $ の平均値は 、 \begin{eqnarray} \bar{x} &=& 5 \end{eqnarray} であるので、 \begin{eqnarray} m_{d} &=& \frac{1}{5} ( |1-5| + |3-5| + |5-5| \\ && \hspace{5mm} + |7-5| + |9-5| ) \\ &=&2.4 \end{eqnarray} である。
変動係数
  平均値に対する標準偏差の比を変動係数 $c_{v}$ という。すなわち、 $$ c_{v} = \frac{s}{\bar{x}} $$

  総数 $5$ のデータ $ \{1,3,5,7,9\} $ の平均値は、 \begin{eqnarray} \bar{x} &=& 5 \end{eqnarray} であり、 標準偏差は、 \begin{eqnarray} s &=& 4 \end{eqnarray} であるので、 変動係数は、 $$ c_{v} = \frac{4}{5} $$ である。
補足
  総数 $7$ のデータ $$ \{ 1,\hspace{1mm}2,\hspace{1mm}3,\hspace{1mm}4,\hspace{1mm}5,\hspace{1mm}6,\hspace{1mm}609 \} $$ に対する中央値は、 $$ M=4 $$ である。 一方、 中央値ではなく平均値 $A$ を求めると、 \begin{eqnarray} A &=& \frac{1}{7}(1+2+3+4+5+6+609) \\ &=& 90 \end{eqnarray} であり、中央値と比べて極端に大きい。
  このように平均値が大きくなった理由は、 データの中にたった一つだけ極端に大きな値 $609$ が含まれるからである。 もしも、 $609$ が何かの測定のミスに由来するノイズである場合には、 平均値の値は、真の値から大きく外れてしまう。
  従って、データの中にノイズが含まれる可能性がある場合には、 平均値を算出するよりも、 中央値を用いると、ノイズの影響を軽減し、 真の中心値に近い値を算出することができる。