データの変数変換による平均値と分散と標準偏差の求め方

重要度 難易度

こんにちは、リンス(@Lins016)です。
今回はデータの変数変換による平均値と分散と標準偏差について学習していこう。

スポンサードリンク

変数変換で、平均値・分散・標準偏差はどう変わる?

データの変数変換はセンター試験にも出題されたことがあって、教科書や問題集ではきちんと取り扱っていない範囲なんだ。

変数変換によって平均値や分散、標準偏差がどう変化していくのか確認していこう。

データの変数変換

変量\(\small{ \ x \ }\)の平均値を\(\small{ \ \overline{x} \ }\)、分散を\(\small{ \ V_x \ }\)、標準偏差を\(\small{ \ s_x \ }\)とすると
変量\(\small{ \ z \ }\)を\(\small{ \ z=ax+b \ }\)で定義すると
変量\(\small{ \ z \ }\)の平均値は\(\small{ \ \overline{z}=a\overline{x}+b \ }\)
変量\(\small{ \ z \ }\)の分散は\(\small{ \ V_z=a^2\cdot V_x \ }\)
変量\(\small{ \ z \ }\)の標準偏差は\(\small{ \ s_z=|a|s_x \ }\)になる。

今回は変量\(\small{ \ x \ }\)と\(\small{ \ x \ }\)を変数変換した変量\(\small{ \ z=ax+b \ }\)の各値について考えていこう。

変数変換による平均値の変化

変量\(\small{ \ z \ }\)を\(\small{ \ z=ax+b \ }\)で定義して、変量\(\small{ \ x \ }\)と変量\(\small{ \ z \ }\)の関係について確認してみよう。
\(\small{ \ n \ }\)個のデータ\(\small{ \ x_1, \ x_2, \ \cdots, \ x_n \ }\)は変数変換で\(\small{ \ z_1, \ z_2 \ \cdots, \ z_n \ }\)になる。
このとき\(\small{ \ x \ }\)の平均値\(\small{ \ \overline{x} \ }\)と\(\small{ \ z \ }\)の平均値\(\small{ \ \overline{z} \ }\)の関係を確認していこう。

\(\small{ \begin{eqnarray}\ \overline{z}&=& \displaystyle \frac{z_1+z_2+\cdots+z_n}{n}\\
&=&\displaystyle \frac{(ax_1+b)+(ax_2+b)+\cdots+(ax_n+b)}{n}\\
&=&\displaystyle \frac{a(x_1+x_2+\cdots+x_n)+bn}{n}\\
&=&a\cdot \displaystyle \frac{x_1+x_2+\cdots+x_n}{n}+b\\
&=&a\overline{x}+b \ \end{eqnarray}}\)

このことから変量\(\small{ \ z \ }\)の平均値は変量\(\small{ \ x \ }\)の平均値を\(\small{ \ a \ }\)倍したものに\(\small{ \ b \ }\)加えた値になる。
つまり平均値は変数変換で定義した\(\small{ \ z=ax+b \ }\)が成り立つんだ。

変数変換による分散の変化

次は変数変換した分散について確認していこう。
変量\(\small{ \ x \ }\)の分散を\(\small{ \ V_x \ }\)、変量\(\small{ \ z \ }\)の分散を\(\small{ \ V_z \ }\)とすると、

\(\small{ \ V_x=\displaystyle \frac{1}{n}\left\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2\right\} \ }\)

になるよね。

\(\small{\begin{eqnarray} \ V_z&=&\displaystyle \frac{1}{n}\left\{(z_1-\overline{z})^2+(z_2-\overline{z})^2+\cdots+(z_n-\overline{z})^2\right\}\\
&=&\displaystyle \frac{1}{n}\left\{(ax_1+b-a\overline{x}-b)^2+(ax_2+b-a\overline{x}-b)^2+\cdots+(ax_n+b-a\overline{x}-b)^2\right\}\\
&=&\displaystyle \frac{1}{n}\left\{a^2(x_1-\overline{x})^2+a^2(x_2-\overline{x})^2+\cdots+a^2(x_n-\overline{x})^2\right\}\\
&=&a^2 \displaystyle \frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2}{n}\\
&=&a^2V_x \ \end{eqnarray}}\)

つまり分散は\(\small{ \ V_x \ }\)の\(\small{ \ a^2 \ }\)倍になるんだ。

分散は偏差を利用するから、偏差は\(\small{ \ b \ }\)の部分がなくなるから、分散に\(\small{ \ b \ }\)の値は影響しない。
さらに分散は偏差を二乗するから、\(\small{ \ a \ }\)倍じゃなくて、\(\small{ \ a^2 \ }\)倍になるのも想像できるよね。

平均値の場合とは異なるからきちんと押さえておこう。

変数変換による標準偏差の変化

次に変数変換した標準偏差について確認していこう。
変量\(\small{ \ x \ }\)の標準偏差を\(\small{ \ s_x \ }\)、変量\(\small{ \ z \ }\)の標準偏差を\(\small{ \ s_z \ }\)とすると、
\(\small{ \ s_x=\sqrt{V_x} \ }\)になるよね。
\(\small{\begin{eqnarray} \ s_z&=&\sqrt{V_z}\\
&=&\sqrt{a^2V_x}\\
&=&|a|\sqrt{V_x}\\
&=&|a|s_x \ \end{eqnarray}}\)

つまり標準偏差は\(\small{ \ s_x \ }\)の\(\small{ \ |a| \ }\)倍になるんだ。

変量\(\small{ \ x \ }\)を\(\small{ \ a \ }\)倍して\(\small{ \ b \ }\)足したものが変量\(\small{ \ z \ }\)になるんだから、散らばり具合は\(\small{ \ a \ }\)倍になるよね。
標準偏差も分散と同じで\(\small{ \ b \ }\)は影響しないからね。

例題を確認
問題解答

\(\small{ \ \mathrm{N} \ }\)市では温度の単位として摂氏(℃)のほかに華氏(°F)も使われている。華氏(°F)での温度は、摂氏(℃)での温度を\(\small{ \ \displaystyle \frac{9}{5} \ }\)倍し、\(\small{ \ 32 \ }\)を加えると得られる。例えば、摂氏\(\small{ \ 10 \ }\)℃は、\(\small{ \ \displaystyle \frac{9}{5} \ }\)倍し\(\small{ \ 32 \ }\)を加えることで華氏\(\small{ \ 50 \ }\)°Fとなる。
\(\small{ \ \mathrm{N} \ }\)市の最高気温の摂氏での分散を\(\small{ \ \mathrm{X} \ }\)、華氏での分散を\(\small{ \ \mathrm{Y} \ }\)とするとき\(\small{ \ \displaystyle \frac{\mathrm{Y}}{\mathrm{X}} \ }\)を求めよ。

摂氏での温度を\(\small{ \ x \ }\)℃、華氏での温度を\(\small{ \ y \ }\)°Fとすると
\(\small{ \ y=\displaystyle \frac{9}{5}x+32 \ }\)が成り立つ。
\(\small{ \ n \ }\)個のデータがあるとすると
華氏での平均値は

\(\small{\begin{eqnarray} \ \overline{y}&=&\displaystyle \frac{y_1+y_2+\cdots+y_n}{n}\\
&=&\displaystyle \frac{\left(\displaystyle \frac{9}{5}x_1+32\right)+\left(\displaystyle \frac{9}{5}x_2+32\right)+\cdots+\left(\displaystyle \frac{9}{5}x_n+32\right)}{n}\\
&=&\displaystyle \frac{9}{5}\cdot \displaystyle \frac{x_1+x_2+\cdots+x_n}{n}+32\\
&=&\displaystyle \frac{9}{5}\overline{x}+32 \ \end{eqnarray}}\)

分散は偏差の二乗だから

\(\small{\begin{eqnarray} \ Y&=& \displaystyle \frac{1}{n}\left\{(y_1-\overline{y})^2+(y_2-\overline{y})^2+\cdots+(y_n-\overline{y})^2\right\}\\
&=&\displaystyle \frac{1}{n}\left\{\left(\displaystyle \frac{9}{5}\right)^2(x_1-\overline{x})^2+a^2(x_2-\overline{x})^2+\cdots+a^2(x_n-\overline{x})^2\right\}\\
&=&\left(\displaystyle \frac{9}{5}\right)^2 \displaystyle \frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2}{n}\\
&=&\left(\displaystyle \frac{9}{5}\right)^2X \ \end{eqnarray}}\)

\(\small{ \ \therefore \displaystyle \frac{\mathrm{Y}}{\mathrm{X}}=\displaystyle \frac{81}{25} \ }\)

point
データの変数変換は「確率分布と統計的な推測」で教わるんだけど、教わらなくても平均値・分散・標準偏差を求める式をきちんと理解していれば求めることができるはず。

どの値がどう変化するって覚えておくのがベストだけど、勉強する上であまり出題されないから忘れてしまうこともあると思う。

だけど式から自分で導くことができるはずだから、それぞれの値の求め方をしっかりと覚えておくようにしよう。

Point

①\(\small{ \ 1 \ }\)次式\(\small{ \ z=ax+b \ }\)における変数変換の平均値は変換の式に代入した値でOK
②\(\small{ \ 1 \ }\)次式\(\small{ \ z=ax+b \ }\)における変数変換の分散は\(\small{ \ a^2 \ }\)倍、標準偏差は\(\small{ \ a \ }\)倍になる

この記事が気に入ったら
いいね ! しよう

Twitter で

  データの分析

  , , , ,