データの分析

平均値と仮平均の利用

重要度 難易度

こんにちは、リンス(@Lins016)です。
今回は平均値と仮平均の利用について学習していきましょう。

スポンサーリンク

仮平均を利用して平均値を求める

平均値を求めるためには、すべてのデータの値の総和を求める必要があるよね。だけど、データの値によっては、仮平均をおくことで計算が少し楽になるから、仮平均を利用して平均値を求める方法を覚えておこう。

仮平均と平均値

\(\small{\begin{eqnarray}\overline{x}&=&\displaystyle \frac{x_1+x_2+\cdots+x_n}{n}\\
&=&x_0+\displaystyle \frac{(x_1-x_0)+(x_2-x_0)+\cdots+(x_n-x_0)}{n} \end{eqnarray} }\)

\(\small{ \ \overline{x} \ }\):平均値、\(\small{ \ x_0 \ }\):仮平均

仮平均とは?

データの分析の平均値を求めるには、すべてのデータの値を足した値をデータの個数で割るよね。
この総和を求める計算って、単純な足し算だけどデータの個数が多かったり、値がバラバラだったりして、思ったより大変な場合もある。
だから、この計算を工夫して少しでも簡単に計算したいってところから仮平均を使うことにしたんだ。

もちろん暗算が得意だってことなら仮平均を使う必要はないけどね。
でも問題文によっては仮平均を与えて誘導する問題もあるから、どういうものなのかは知っておく必要があるからね。

仮平均を\(\small{ \ x_0 \ }\)、平均値を\(\small{ \ \overline{x} \ }\)とすると

\(\small{\begin{eqnarray} \ \overline{x}&=&\displaystyle \frac{x_1+x_2+\cdots+x_n}{n}\\
&=&x_0-x_0+\displaystyle \frac{x_1+x_2+\cdots+x_n}{n}\\
&=&x_0+\displaystyle \frac{x_1+x_2+\cdots+x_n-nx_0}{n}\\
&=&x_0+\displaystyle \frac{(x_1-x_0)+(x_2-x_0)+\cdots+(x_n-x_0)}{n} \ \end{eqnarray}}\)

が導ける。

つまり仮平均と各データの差の総和をデータの個数で割った値に仮平均を加えたものが平均値になるんだ。
仮平均と各データの差の総和の方が、各データの総和より値が小さくて計算が楽になりそうだよね。

ただ、各データと仮平均の差を求めるっていう計算が増えるってこともあるから複雑な値を仮平均にすると逆に計算が大変になるから注意しよう。

仮平均はどんな値でもいい?

仮平均はうまく利用すれば便利なんだ。
だからみんなが気になるのは、「仮平均はどんな値がいいのか」ってことだよね。

仮平均がどんな値でも平均値は変わらないから、適当な値でいいんだけど、少しでも計算が楽になる方がいいよね。

一般的に平均値に近い値がいいと言われてるけど、仮平均を中央値にすれば、仮平均との差がプラスになるデータとマイナスになるデータの数が一致するから、計算しやすくなるよね。

仮平均を最頻値にすれば、仮平均との差が0になるデータの個数が多くなるよね。

結局は差を求める計算でミスしないことと、計算が少しでも簡単ってことも重要だよね。
例えば、\(\small{ \ 200 \ }\)台のデータが多い場合は、仮平均を\(\small{ \ 200 \ }\)にして、下二桁の和を考えればいいし、整数だけのデータで\(\small{ \ 1 \ }\)の位に\(\small{ \ 3 \ }\)が多く使われていたら、仮平均の\(\small{ \ 1 \ }\)の位も\(\small{ \ 3 \ }\)にしてみたりすると計算が楽になるよね。

仮平均を使う場合は少しでも計算が簡単になるような値にしよう。

度数分布表と仮平均

度数分布表から平均を求める問題でも仮平均を利用することができる。入試問題によっては仮平均を利用して出題されることもあるから、仮平均を利用した解き方をしっかりとマスターしておこう。
まず度数分布表から求める平均値は、「(階級値×度数)の和÷データの個数」になるよね。それを頭に入れて次の表と式を確認していこう。

\(\small{ \ \begin{array}{|c|c|c|c|}
\hline
階級値 & 度数① & 階級値と仮平均の差/階級の幅② &①\times② \\
\hline
x_1 &f_1 & u_1& u_1f_1\\
\hline
x_2 & f_2 & u_2&u_2f_2\\
\hline
x_3& f_3 & u_3&u_3f_3 \\
\hline
\vdots & \vdots & \vdots & \vdots \\
\vdots & \vdots & \vdots & \vdots \\
\hline
x_{k-1}& f_{k-1}& -1& -f_{k-1} \\
\hline
x_k=x_0& f_k& 0& 0 \\
\hline
x_{k+1}& f_{k+1}& 1& f_{k+1} \\
\hline
\vdots & \vdots & \vdots & \vdots \\
\vdots & \vdots & \vdots & \vdots \\
\hline
x_n & f_n & u_n & u_nf_n\\
\hline
計 & N & & \displaystyle \sum u_kf_k\\
\hline
\end{array} \ }\)

階級の幅を\(\small{ \ c \ }\)とすると、

\(\small{\begin{eqnarray} \ \overline{x}&=&\displaystyle \frac{x_1f_1+x_2f_2+\cdots+x_nf_n}{N}\\
&=&x_0-x_0+\displaystyle \frac{x_1f_1+x_2f_2+\cdots+x_nf_n}{N}\\
&=&x_0+\displaystyle \frac{x_1f_1+x_2f_2+\cdots+x_nf_n-Nx_0}{N}\\
&=&x_0+\displaystyle \frac{(x_1-x_0)f_1+(x_2-x_0)f_2+\cdots+(x_n-x_0)f_n}{N}\cdots①\\
& &(\because N=f_1+f_2+f_3+\cdots+f_n)\\
&=&x_0+c \displaystyle \frac{\displaystyle \frac{(x_1-x_0)}{c}f_1+\displaystyle \frac{(x_2-x_0)}{c}f_2+\cdots+\displaystyle \frac{(x_n-x_0)}{c}f_n}{N}\\
&=&x_0+c\displaystyle \frac{(u_1+u_2+\cdots+u_n)}{N}\\
&=&x_0+c\overline{u} \end{eqnarray}}\)

ってなるよね。
つまり仮平均との差を階級の幅で割った\(\small{ \ u \ }\)の平均を求めることで平均値を求めることができるんだ。
もちろん\(\small{ \ ①}\)のように階級値と仮平均の差の平均を利用してもいいからね。

例題を確認
問題解答

右の表は、ある中学校の女子\(\small{ \ 40 \ }\)人の身長を調ベて整理したものである。この表から、仮平均を使って女子\(\small{ \ 40 \ }\)人の身長の平均を、四捨五入して小数第1位まで求めよ。

\(\small{ \ \begin{array}{|c|c|}
\hline
階級(cm)&度数(人)\\
\hline
140-145&2\\
145-150&4\\
150-155&6\\
155-160&14\\
160-165&8\\
165-170&4\\
170-175&2\\
\hline
計&40\\
\hline
\end{array} \ }\)

仮平均を\(\small{ \ 157.5\mathrm{cm} \ }\)として次の表を作る。

\(\small{ \ \begin{array}{|c|c|}
\hline
階級値&階級値-仮平均(1)&度数(2)&(1)\times(2)\\
\hline
142.5&-15&2&-30\\
147.5&-10&4&-40\\
152.5&-5&6&-30\\
157.5&0&14&0\\
162.5&5&8&40\\
167.5&10&4&40\\
172.5&15&2&30\\
\hline
計& &40&10\\
\hline
\end{array} \ }\)

この表より、平均値は
\(\small{ \ 157.5+\displaystyle\frac{10}{40}=157.75\fallingdotseq157.8 \ }\)

point
階級値と仮平均の差を間違えないようにしっかり求めよう。って言っても答えの表を見ればわかるけど、階級値と仮平均の差は階級の幅ずつ変化していくから簡単だよね。

度数分布表から考える平均値

度数分布表を利用した仮平均の求め方は、(階級値×度数)の和をデータの個数で割ればよかったよね。
でもこれは度数分布表を利用した平均値で、実際の平均値とは異なる値なんだよね。

仮に各階級に入っているデータがすべての階級内の最小値だとすると、平均値は「(階級の最小値×度数)の和をデータの個数で割った値」になるから、(階級値×度数)の和をデータの個数で割った値より小さくなるよね。

逆に各階級に入っているデータがすべての階級内の最大値だとすると、平均値は「(階級の最大値×度数)の和をデータの個数で割った値」になるから、(階級値×度数)の和をデータの個数で割った値より大きくなるよね。
(ただ階級は〇〇以上〇〇未満の形だから、階級の最小値は言えても最大値はきちんと言うことはできないんだけどね。)

つまり度数分布表を利用した平均値の求め方じゃなくて、きちんとした平均値を求めようとすると、平均値はある幅の中にあるってことが言えるんだ。
この幅は(階級の最小値×度数)の和をデータの個数で割った値から(階級の最大値×度数)の和をデータの個数で割った値の間にあるってことになる。
だからその平均値も〇〇以上〇〇未満の中にあるってことが言えるだけなんだ。

ちなみに、この平均値の取りうる範囲は、階級の幅でその真ん中が度数分布表を利用して求めた平均値になるからね。

例題を確認
問題解答

次の表は、ある店の\(\small{ \ 1 \ }\)日のランチセットの販売個数を30日間調べた結果の度数分布表である。
(1)階級値を用いて、データの平均値を求めよ。
(2)階級値を用いないで平均値を求めるとき、データの平均値はどのような範囲に入るか。

\(\small{ \ \begin{array}{|c|c|}
\hline
販売個数&度数\\
\hline
60以上80未満&3\\
\hline
80-100&6\\
\hline
100-120&10\\
\hline
120-140&7\\
\hline
140-160&4\\
\hline
\end{array} \ }\)

\(\small{ \ \begin{array}{|c|c|}
\hline
販売個数&度数\\
\hline
60以上80未満&3\\
\hline
80-100&6\\
\hline
100-120&10\\
\hline
120-140&7\\
\hline
140-160&4\\
\hline
\end{array} \ }\)
(1)

\(\small{ \ \displaystyle\frac{1}{30}(70\times3+90\times6+110\times10+130\times7+150\times3)=112
\ }\)

(2)データの平均値が最小となるのは、データの各値が階級内の最小の値となるときであるから

\(\small{ \ \displaystyle\frac{1}{30}(60\times3+80\times6+100\times10+120\times7+140\times3)=102 \ }\)

また、階級の幅は\(\small{ \ 20 \ }\)よりデータの平均値の取りうる値は\(\small{ \ 102 \ }\)個以上\(\small{ \ 122 \ }\)個未満

Point

①仮平均をうまく使って計算を簡単にしよう
②度数分布表から求める平均値と実際の平均値は異なる
③実際の平均値は度数分布表から求める平均値を中心に階級の幅の範囲にある

この記事が気に入ったら
いいね ! しよう

Twitter で

-データの分析

-,

  • この記事を書いた人
  • 最新記事

リンス

名前:リンス
職業:塾講師/家庭教師
性別:男
趣味:料理・問題研究
好物:ビール・BBQ