こんにちは、リンス(@Lins016)です。
今回はデータの散らばりと四分位数・四分位範囲について学習していきましょう。
データの範囲と四分位範囲から、データの散らばり具合を考えよう
データがどのように散らばっているか簡単に考えることができるのが、四分位範囲。
前回学習したデータの代表値だけ見ても、データの全体像ってなかなかつかみにくいけど、いくつかのデータの値を見ることでデータを大雑把に確認することはできるよね。
それが四分位数なんだ。
データを大きさの順に並べたとき、中央値と中央値で二等分したデータの中央値の値の合計三つの値のことで、それぞれの四分位数の間には、約25%のデータが入っているからね。
データの範囲:データの最大値と最小値の差
四分位数:データの値を大きさの順に並べたとき、四等分する位置にくる値
\(\small{ \ \mathrm{Q_1} \ }\):第1四分位数(下位データの中央値)
\(\small{ \ \mathrm{Q_2} \ }\):第2四分位数(データの中央値)
\(\small{ \ \mathrm{Q_3} \ }\):第3四分位数(上位データの中央値)
四分位範囲:\(\small{ \ \mathrm{Q_3-Q_1} \ }\)
四分位偏差:\(\small{ \ \displaystyle\frac{\mathrm{Q_3-Q_1}}{2} \ }\)
データの散らばりを調べる方法は、標準偏差や標準誤差などの値を調べ方法もあるけど、今回は四分位範囲を利用した散らばり具合について考えてみよう。
四分位数や四分位範囲を調べる前に
すでに学習した代表値を求めるときも同じだったけど、まずはデータを大きさの順に並び替えることから始めよう。
これがデータの値を求める中で実は一番重要だからね。間違えないように、丁寧に並び替えよう。
四分位数とは
四分位数はデータを大きさの順に並べたときに、四等分する位置にある値のことで、データを四つに分けるから、三つの値が必要になるよね。
\(\small{ \ \cdots\cdots, \mathrm{Q_1},\cdots \cdots , \mathrm{Q_2},\cdots\cdots, \mathrm{Q_3} ,\cdots\cdots \ }\)
この三つの値を小さいほうから、第1四分位数\(\small{ \ \mathrm{Q_1} \ }\)、第2四分位数\(\small{ \ \mathrm{Q_2} \ }\)、第3四分位数\(\small{ \ \mathrm{Q_3} \ }\)っていうから覚えておこう。
第2四分位数\(\small{ \ \mathrm{Q_2} \ }\)は、データの中央値になるからね。
第1四分位数\(\small{ \ \mathrm{Q_1} \ }\)と第3四分位数\(\small{ \ \mathrm{Q_3} \ }\)は、データを中央値(第2四分位数\(\small{ \ \mathrm{Q_2} \ }\))で二つに分けたとき、下位のデータの中央値が第1四分位数で、上位のデータの中央値が第3四分位数になる。
データの個数で変わる四分位数
データが奇数個の場合、中央値は真ん中の値になるけど、偶数個の場合、真ん中二つの値の平均値になるよね。
第2四分位数(中央値)だけじゃなく、第1、第3四分位数もデータの個数によって、二つの平均の値になる場合もあるから注意しよう。
あと注意しておきたいのは、「中央値は下位のデータと上位のデータの境界になるから、下位のデータにも上位のデータにも含まない」こと。
これを間違えてしまうと四分位数が変わってしまうから、気をつけよう。
また、データの個数を4で割った余りを確認することで、各四分位数が二つの値の平均値になるのか、データ内の一つの値になるのか分類することができる。
下の例を見てみよう。
①データの個数を\(\small{ \ 4 \ }\)で割ると\(\small{ \ 3 \ }\)余る場合
例:データの個数が\(\small{ \ 7 \ }\)個の場合
\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6,a_7 \ }\)
\(\small{ \ \mathrm{Q_1}=a_2 \ }\)
\(\small{ \ \mathrm{Q_2}=a_4 \ }\)
\(\small{ \ \mathrm{Q_3}=a_6 \ }\)
②データの個数を\(\small{ \ 4 \ }\)で割ると\(\small{ \ 1 \ }\)余る場合
例:データの個数が\(\small{ \ 9 \ }\)個の場合
\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6,a_7,a_8,a_9 \ }\)
\(\small{ \ \mathrm{Q_1}=\displaystyle\frac{a_2+a_3}{2} \ }\)
\(\small{ \ \mathrm{Q_2}=a_5 \ }\)
\(\small{ \ \mathrm{Q_3}=\displaystyle\frac{a_7+a_8}{2} \ }\)
③データの個数を\(\small{ \ 4 \ }\)で割ると\(\small{ \ 2 \ }\)余る場合
例:データの個数が\(\small{ \ 6 \ }\)個の場合\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6 \ }\)
\(\small{ \ \mathrm{Q_1}=a_2 \ }\)
\(\small{ \ \mathrm{Q_2}=\displaystyle\frac{a_3+a_4}{2} \ }\)
\(\small{ \ \mathrm{Q_3}=a_5 \ }\)
④データの個数を\(\small{ \ 4 \ }\)で割ると割り切れる場合
例:データの個数が\(\small{ \ 8 \ }\)個の場合\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6,a_7,a_8 \ }\)
\(\small{ \ \mathrm{Q_1}=\displaystyle\frac{a_2+a_3}{2} \ }\)
\(\small{ \ \mathrm{Q_2}=\displaystyle\frac{a_4+a_5}{2} \ }\)
\(\small{ \ \mathrm{Q_3}=\displaystyle\frac{a_6+a_7}{2} \ }\)
四分位範囲とは
四分位範囲は第3四分位数から第1四分位数を引いた\(\small{ \ \mathrm{Q_3-Q_1} \ }\)で、データの散らばり具合を表す一つの数値になる。
この四分位範囲の幅の中に、中央値周辺のおよそ50%のデータが含まれてることになる。
だから四分位範囲が大きいとデータの散らばりが大きいといえるし、四分位範囲が小さいとデータの散らばりは小さいって言えるよね。四分位範囲が小さいほど、中央値付近にデータが集まっているっていえるからね。
と言ってもデータの散らばり具合を表す数値は、他にも色々あるから、あくまでも”四分位範囲を用いた”データの散らばり具合ってことになるんだけどね。
あと四分位範囲を半分にした値を四分位偏差\(\small{ \ \displaystyle\frac{\mathrm{Q_3-Q_1}}{2} \ }\)っていうことも知識として知っておこう。
次のデータは文房具店で売れたノートの冊数を\(\small{ \ 10 \ }\)日調べたものである。
\(\small{ \ 12,15,13,20,19,8,25,21,15,17 \ }\)
(1)データの範囲を求めよ。
(2)第\(\small{ \ 1 \ }\)四分位数、第\(\small{ \ 2 \ }\)四分位数、第\(\small{ \ 3 \ }\)四分位数を求めよ。
(3)四分位範囲を求めよ。
データを小さい順に並べると、
\(\small{ \ 8,12,13,15,15,17,19,20,21,25 \ }\)
(1)\(\small{ \ 25-8=17 \ }\)
(2)
第\(\small{ \ 1 \ }\)四分位数\(\small{ \ 13 \ }\)
第\(\small{ \ 2 \ }\)四分位数\(\small{ \ 16 \ }\)
第\(\small{ \ 3 \ }\)四分位数\(\small{ \ 20 \ }\)
(3)\(\small{ \ 20-13=7 \ }\)
Point
①四分位数を正確に求めよう。
②四分位範囲の幅に約50%のデータが入っていることを知っておこう。