データの変数変換による共分散と相関係数の求め方

重要度 難易度

こんにちは、リンス(@Lins016)です。
今回はデータの変数変換による共分散と相関係数の求め方について学習していこう。

スポンサードリンク

データの変換で共分散と相関係数はどう変化する?

前回はデータの変数変換で、平均値や分散・標準偏差がどう変化するか学習したけど、今回は二変数の変換で共分散や相関係数がどう変化するか確認していこう。

データの変数変換と共分散、相関係数

変量\(\small{ \ u \ }\)を\(\small{ \ u=ax+b \ }\)で、変量\(\small{ \ v \ }\)を\(\small{ \ v=cx+d \ }\)で定義する。
\(\small{ \ n \ }\)個の二変量を持つデータ\(\small{ \ (x_1, \ y_1), \ (x_2 \ y_2), \ \cdots, \ (x_n \ y_n) \ }\)は変数変換で\(\small{ \ (u_1, \ v_1), \ (u_2, \ v_2), \ \cdots, \ (u_n, \ v_n), \ }\)になるとき、

共分散
\(\small{ \ x, \ y \ }\)の共分散を\(\small{ \ s_{xy} \ }\)、\(\small{ \ u, \ v \ }\)の共分散を\(\small{ \ s_{uv} \ }\)とすると
\(\small{ \ s_{uv}=acs_{xy} \ }\)

相関係数
\(\small{ \ x, \ y \ }\)の相関係数を\(\small{ \ r_{xy} \ }\)、\(\small{ \ u, \ v \ }\)の相関係数を\(\small{ \ r_{uv} \ }\)とすると
\(\small{ \ r_{uv}=\displaystyle \frac{ac}{|ac|}\displaystyle \frac{s_{xy}}{s_xs_y} \ }\)

データの変数変換を定義

変量\(\small{ \ u \ }\)を\(\small{ \ u=ax+b \ }\)で、変量\(\small{ \ v \ }\)を\(\small{ \ v=cx+d \ }\)で定義して変量\(\small{ \ x, \ y \ }\)と変量\(\small{ \ u, \ v \ }\)の関係について確認してみよう。

\(\small{ \ n \ }\)個の二変量を持つデータ\(\small{ \ (x_1, \ y_1), \ (x_2 \ y_2), \ \cdots, \ (x_n \ y_n) \ }\)は変数変換で\(\small{ \ (u_1, \ v_1), \ (u_2, \ v_2), \ \cdots, \ (u_n, \ v_n), \ }\)になる。

このとき\(\small{ \ x \ }\)の平均値\(\small{ \ \overline{x} \ }\)と\(\small{ \ u \ }\)の平均値\(\small{ \ \overline{u} \ }\)は\(\small{ \ \overline{u}=a\overline{x}+b \ }\)が成り立つ。
同様に\(\small{ \ y \ }\)の平均値\(\small{ \ \overline{y} \ }\)と\(\small{ \ v \ }\)の平均値\(\small{ \ \overline{v} \ }\)は\(\small{ \ \overline{v}=a\overline{y}+b \ }\)が成り立つ。

データの変数変換による共分散の求め方

\(\small{ \ x, \ y \ }\)の共分散を\(\small{ \ s_{xy} \ }\)、\(\small{ \ u, \ v \ }\)の共分散を\(\small{ \ s_{uv} \ }\)とすると

\(\small{ \ s_{uv}= \displaystyle \frac{1}{n}\left\{(u_1-\overline{u})(v_1-\overline{v})+(u_2-\overline{u})(v_2-\overline{v})+\cdots+(u_n-\overline{u})(v_n-\overline{v})\right\} \ }\)

になるよね。
ちなみに、
\(\small{u_k-\overline{u}=ax_k+b-(a\overline{x}+b)=a(x_k-\overline{x})\\
v_k-\overline{v}=cx_k+d-(c\overline{x}+d)=c(x_k-\overline{x}) \ }\)
だから
共分散\(\small{ \ s_{uv} \ }\)を計算すると

\(\small{\begin{eqnarray} \ s_{uv}&=&\displaystyle \frac{ac}{n}\left\{(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\right\}\\
&=&acs_{xy} \ \end{eqnarray}}\)

つまり共分散\(\small{ \ s_{uv} \ }\)は\(\small{ \ s_{xy} \ }\)の\(\small{ \ ac \ }\)倍になるんだ。

データの変数変換による相関係数の求め方

\(\small{ \ x, \ y \ }\)の相関係数を\(\small{ \ r_{xy} \ }\)、\(\small{ \ u, \ v \ }\)の相関係数を\(\small{ \ r_{uv} \ }\)とすると、

\(\small{\begin{eqnarray} \ r_{uv}&=&\displaystyle \frac{s_{uv}}{s_us_v}\\
&=&\displaystyle \frac{acs_{xy}}{|a|s_x|c|s_y}\\
&=&\displaystyle \frac{ac}{|ac|}\displaystyle \frac{s_{xy}}{s_xs_y} \ \end{eqnarray}}\)

つまり\(\small{ \ \displaystyle \frac{ac}{|ac|} \ }\)倍になるから\(\small{ \ ac\gt0 \ }\)のとき\(\small{ \ 1 \ }\)倍で、\(\small{ \ ac\lt0 \ }\)のとき\(\small{-1 \ }\)倍になるんだ。

これは相関の強さは変わらないんだけど、正の相関か負の相関かっていう相関の向きが変化するかもしれないってことだからね。

それじゃあ次は入試レベルの問題にチャレンジしてみよう。
入試レベルにチャレンジ
問題解答

\(\small{ \ \mathrm{N} \ }\)市では温度の単位として摂氏(℃)のほかに華氏(°F)も使われている。華氏(°F)での温度は、摂氏(℃)での温度を\(\small{ \ \displaystyle \frac{9}{5} \ }\)倍し、\(\small{ \ 32 \ }\)を加えると得られる。例えば、摂氏\(\small{ \ 10 \ }\)℃は、\(\small{ \ \displaystyle \frac{9}{5} \ }\)倍し\(\small{ \ 32 \ }\)を加えることで華氏\(\small{ \ 50 \ }\)°Fとなる。

東京の温度(摂氏)と\(\small{ \ \mathrm{N} \ }\)市の温度(摂氏)の共分散を\(\small{ \ \mathrm{Z} \ }\)、東京の温度(摂氏)と\(\small{ \ \mathrm{N} \ }\)市の温度(華氏)の共分散を\(\small{ \ \mathrm{W} \ }\)とするとき、\(\small{ \ \mathrm{W:Z} \ }\)を求めよ。ただし、共分散は\(\small{ \ 2 \ }\)つの変量のそれぞれの偏差の積の平均値である。

また、東京の温度(摂氏)と\(\small{ \ \mathrm{N} \ }\)市の温度(摂氏)の相関係数を\(\small{ \ \mathrm{U} \ }\)、東京の温度(摂氏)と\(\small{ \ \mathrm{N} \ }\)市の温度(華氏)の相関係致を\(\small{ \ \mathrm{V} \ }\)とするとき、\(\small{ \ \mathrm{V:U} \ }\)を求めよ。

東京の温度を摂氏\(\small{ \ x \ }\)℃、N市の温度を摂氏\(\small{ \ y \ }\)℃、華氏\(\small{ \ z \ }\)°Fとする。

\(\small{ \ \mathrm{W}=\displaystyle \frac{1}{n}(x_1-\overline{x})(z_1-\overline{z})+(x_2-\overline{x})(z_2-\overline{z})+\cdots+(x_n-\overline{x})(z_n-\overline{z}) \ }\)

ここで
\(\small{ \ z_k-\overline{z}=\displaystyle \frac{9}{5}y_k+32-\left(\displaystyle \frac{9}{5}\overline{y}+32\right)\\
=\displaystyle \frac{9}{5}(y_x-\overline{y}) \ }\)
よって

\(\small{\begin{eqnarray} \ \mathrm{W}&=&\displaystyle \frac{9}{5n}(x_1-\overline{x})(y_1-\overline{y})+(x_2-\overline{x})(y_2-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y}) \\
&=&\displaystyle \frac{9}{5}Z \ \end{eqnarray}}\)

\(\small{ \ \therefore \mathrm{W:Z}=9:5 \ }\)

\(\small{\begin{eqnarray} \ \mathrm{U}&=&\displaystyle \frac{Z}{\sqrt{s_x}\sqrt{s_y}}\\
\mathrm{V}&=&\displaystyle \frac{W}{\sqrt{s_x}\sqrt{s_z}}\\
&=&\displaystyle \frac{9}{5}\displaystyle \frac{Z}{\sqrt{s_x}\cdot \displaystyle \frac{9}{5}\sqrt{s_y}}\\
&=&\displaystyle \frac{Z}{\sqrt{s_x}\sqrt{s_y}} \ \end{eqnarray}}\)
\(\small{ \ \therefore \mathrm{V:U}=1:1 \ }\)

point
データの変数変換による共分散や相関係数は、前回のデータの変数変換と同じで、たまにしか練習する機会がないと思うから、共分散が\(\small{ \ ac \ }\)倍になるってことより、共分散の式を正確に覚えて\(\small{ \ ac \ }\)倍になることを導けるようにしておこう。
相関係数についても導けるようにね。

Point

①変数変換によって共分散は元の共分散\(\small{ \ ac \ }\)倍になる
②相関係数は\(\small{ \ 1 \ }\)倍か\(\small{-1 \ }\)倍で、相関の強さは変化しない

この記事が気に入ったら
いいね ! しよう

Twitter で

  データの分析

  , ,