こんにちは、リンス(@Lins016)です。
今回は分散と標準偏差について学習していこう。
分散と標準偏差
分散と標準偏差はデータの分析をする上で欠かせない値で、データが平均値からどれくらい散らばっているのかを表す数値になる。
・偏差
データの各値\(\small{ \ x_k \ }\)とその平均値\(\small{ \ \overline{x} \ }\)との差
\(\small{ \ x_k-\overline{x} \ }\)
・分散
偏差の二乗の平均値
&=&\overline{x^2}-\overline{x}^2 \ \end{eqnarray}}\)
・標準偏差
分散の正の平方根
分散とは?
分散はデータの散らばり具合を表す数値のこと。
例えば平均点が\(\small{ \ 70 \ }\)点のテストだと、簡単なテストだったのかな?って思うよね。
でも「\(\small{ \ 90 \ }\)点以上の生徒が一人もいない」って場合もあるだろうし、「\(\small{ \ 100 \ }\)点の生徒が数人いた」ってテストもありそうだよね。
各データの平均値との差(偏差)から散らばり具合を考えたいんだけど、各データの平均値との差を足し合わせると、当然だけど\(\small{ \ 0 \ }\)になっちゃうよね。
平均値より小さいデータの偏差はマイナスで、平均値より大きいデータの偏差はプラスになるもんね。
だから各偏差を二乗して、全てプラスのデータにして考えるのが分散なんだ。
平均値より大きい、小さいに関係なく、平均値との差が大きいほど「偏差の二乗」の値は大きくなるからね。
分散は「偏差の二乗を足し合わせた値をデータの個数で割った値」って定義するんだ。
データの個数で割らないと、データの数が多いほど、偏差を二乗したものを足し合わせた値は大きくなっちゃうからね。
分散が大きいと平均値から離れたデータが多いし、分散が小さいと平均値に近いデータが多いことが言えるよね。
だから分散が大きいほうがデータの散らばりが大きいってことになるんだ。
分散を計算式で考えてみよう。
平均値を\(\small{ \ m=\displaystyle\frac{x_1+x_2+\cdots+x_n}{n} \ }\)とすると
分散は
になる。
さらにこの分散の式を展開していくと
&=&\displaystyle\frac{1}{n}\left\{({x_1}^2+{x_2}^2+\cdots+{x_n}^2)-2m(x_1+x_2+\cdots+x_n)+m^2 \right\}\\
&=&\displaystyle\frac{{x_1}^2+{x_2}^2+\cdots+{x_n}^2}{n}-2m\cdots\displaystyle\frac{x_1+x_2+\cdots+x_n}{n}+m^2\\
&=&\displaystyle\frac{{x_1}^2+{x_2}^2+\cdots+{x_n}^2}{n}-m^2 \ \end{eqnarray}}\)
になる。
つまり「偏差の二乗を足し合わせた値をデータの個数で割った値」も「データの二乗の平均値とデータの平均値の二乗の差」も分散になるんだ。
データの値に合わせて、どっちの計算が楽に分散を求められるか考えてから計算するようにしよう。
ちなみに、分散はvarianceの頭文字から\(\small{ \ V \ }\)で表されることが多い。
標準偏差とは?
標準偏差は分散の平方根のこと。
わざわざ平方根を求めなくても、分散でいいじゃんって思うよね。
でも分散は数値を二乗してるから、データの値の単位が変わってくるんだ。
例えば、データの値の単位がメートル(\(\small{ \ \mathrm{m} \ }\))だったら、二乗すると平方メートル(\(\small{ \ \mathrm{m}^2 \ }\))になるよね。
つまり偏差を二乗した平均の分散の単位は平方メートルってことになるんだけど、分散は散らばりを表す数値だから単位が平方メートルだと面積になっておかしいよね。
だから一般的に分散は単位を付けずに答えるんだ。
これに対して、標準偏差は平方メートル(\(\small{ \ \mathrm{m}^2 \ }\))に根号(√)を付けるから、単位がメートルになって、元のデータの単位と同じになるってメリットがあるんだ。
だからデータと同じ単位を持つ、標準偏差の方が何かといろいろな資料等を作成する上で扱いやすいってことになる。
だから高校数学的には「分散の平方根が標準偏差」って感じだけど、統計学的には「標準偏差の二乗が分散」て感じになるかな。
っていってもみんなが勉強する数学Ⅰでは分散をきちんと求めてしまえば問題ないからね。
ちなみに標準偏差はstandard deviationの頭文字から\(\small{ \ s \ }\)で表されることが多い。
(おまけ)平均偏差とは?
高校数学では出題されることはないから覚える必要はないんだけど、みんな気にならなかったかな?
”わざわざ偏差を二乗してプラスの値にしなくても、絶対値付けたらプラスになるから絶対値付けたらいいのに”って。
実はそれこそが平均偏差で、偏差の絶対値を足し合わせて、データの個数で割った値のことなんだ。
でも一般的には平均偏差より標準偏差のほうが多く利用されてて、それには理由があるんだけど、そこまで考えちゃうと高校数学どころか、統計学ってことになっちゃうからここでは割愛するね。
分散を初めて教わったとき偏差を二乗しなくても絶対値でいいじゃんって思った人っていると思うんだよね。気になった人は調べてみるといい。でも受験や定期試験には出題されないけどね。
次のデータは、ある小学校で欠席者の人数を\(\small{ \ 10 \ }\)日間調べたものである。
このデータの分散と標準偏差を求めよ。
\(\small{ \ 4,32,28,12,5,16,22,14,18,29 \ }\)(人)
このデータの平均値は
分散の値は
標準偏差の値は
\(\small{ \ s=\sqrt{85} \ }\)
このデータの平均値は
分散の値は
標準偏差の値は
\(\small{ \ s=\sqrt{85} \ }\)
でもデータが整数で平均値が整数じゃない場合は、解答\(\small{ \ 2 \ }\)のようにデータの\(\small{ \ 2 \ }\)乗の平均からデータの平均値の\(\small{ \ 2 \ }\)乗を引いて計算する方が簡単だから、データの値と平均値の値によって使い分けよう。
Point
①分散を求めるためにまずは平均値を求めよう
②平均値とデータの値によって偏差の2乗から分散を求めるか、データの2乗の平均から平均値の2乗を引いて分散を求めるかを判断しよう
ある学校の\(\small{ \ 2 \ }\)年生の定期試験の結果は次の通りだった。
\(\small{ \ \mathrm{A} \ }\)組\(\small{ \ 20 \ }\)人の平均点は\(\small{ \ 62 \ }\)点で、標準偏差は\(\small{ \ 15 \ }\)点
\(\small{ \ \mathrm{B} \ }\)組\(\small{ \ 30 \ }\)人の平均点は\(\small{ \ 72 \ }\)点で、標準偏差は\(\small{ \ 10 \ }\)点
この\(\small{ \ 2 \ }\)クラス全体の平均点と標準偏差を求めよ。
\(\small{ \ 2 \ }\)クラス全体の平均点は
\(\small{ \ \displaystyle \frac{20\times62+30\times72}{50}=68 \ }\)
\(\small{ \ \mathrm{A} \ }\)組の点数の\(\small{ \ 2 \ }\)乗の平均を\(\small{ \ a \ }\)、\(\small{ \ \mathrm{B} \ }\)組の点数の\(\small{ \ 2 \ }\)乗の平均を\(\small{ \ b \ }\)とすると
\(\small{ \ a-62^2=15^2 \ }\)
\(\small{ \ \therefore a=4069 \ }\)
\(\small{ \ b-72^2=10^2 \ }\)
\(\small{ \ \therefore b=5284 \ }\)
\(\small{ \ V=\displaystyle \frac{20\times4069+30\times5284}{50}-68^2=174 \ }\)
\(\small{ \ s=\sqrt{174} \ }\)