データの散らばりと四分位数・四分位範囲

重要度 難易度

こんにちは、リンス(@Lins016)です。
今回はデータの散らばりと四分位数・四分位範囲について学習していきましょう。

スポンサードリンク

データの範囲と四分位範囲から、データの散らばり具合を考えよう

データがどのように散らばっているか簡単に考えることができるのが、四分位範囲。

前回学習したデータの代表値だけ見ても、データの全体像ってなかなかつかみにくいけど、いくつかのデータの値を見ることでデータを大雑把に確認することはできるよね。
それが四分位数なんだ。

データを大きさの順に並べたとき、中央値と中央値で二等分したデータの中央値の値の合計三つの値のことで、それぞれの四分位数の間には、約25%のデータが入っているからね。

データの範囲と四分位範囲

データの範囲:データの最大値と最小値の差
四分位数:データの値を大きさの順に並べたとき、四等分する位置にくる値
\(\small{ \ \mathrm{Q_1} \ }\):第1四分位数(下位データの中央値)
\(\small{ \ \mathrm{Q_2} \ }\):第2四分位数(データの中央値)
\(\small{ \ \mathrm{Q_3} \ }\):第3四分位数(上位データの中央値)
四分位範囲:\(\small{ \ \mathrm{Q_3-Q_1} \ }\)
四分位偏差:\(\small{ \ \displaystyle\frac{\mathrm{Q_3-Q_1}}{2} \ }\)

データの散らばりを調べる方法は、標準偏差や標準誤差などの値を調べ方法もあるけど、今回は四分位範囲を利用した散らばり具合について考えてみよう。

四分位数や四分位範囲を調べる前に

すでに学習した代表値を求めるときも同じだったけど、まずはデータを大きさの順に並び替えることから始めよう
これがデータの値を求める中で実は一番重要だからね。間違えないように、丁寧に並び替えよう。

四分位数とは

四分位数はデータを大きさの順に並べたときに、四等分する位置にある値のことで、データを四つに分けるから、三つの値が必要になるよね。
\(\small{ \ \cdots\cdots, \mathrm{Q_1},\cdots \cdots , \mathrm{Q_2},\cdots\cdots, \mathrm{Q_3} ,\cdots\cdots \ }\)
この三つの値を小さいほうから、第1四分位数\(\small{ \ \mathrm{Q_1} \ }\)、第2四分位数\(\small{ \ \mathrm{Q_2} \ }\)、第3四分位数\(\small{ \ \mathrm{Q_3} \ }\)っていうから覚えておこう。
第2四分位数\(\small{ \ \mathrm{Q_2} \ }\)は、データの中央値になるからね。

第1四分位数\(\small{ \ \mathrm{Q_1} \ }\)と第3四分位数\(\small{ \ \mathrm{Q_3} \ }\)は、データを中央値(第2四分位数\(\small{ \ \mathrm{Q_2} \ }\))で二つに分けたとき、下位のデータの中央値が第1四分位数で、上位のデータの中央値が第3四分位数になる。

データの個数で変わる四分位数

データが奇数個の場合、中央値は真ん中の値になるけど、偶数個の場合、真ん中二つの値の平均値になるよね。
第2四分位数(中央値)だけじゃなく、第1、第3四分位数もデータの個数によって、二つの平均の値になる場合もあるから注意しよう。

あと注意しておきたいのは、「中央値は下位のデータと上位のデータの境界になるから、下位のデータにも上位のデータにも含まない」こと。
これを間違えてしまうと四分位数が変わってしまうから、気をつけよう。

また、データの個数を4で割った余りを確認することで、各四分位数が二つの値の平均値になるのか、データ内の一つの値になるのか分類することができる。
下の例を見てみよう。

①データの個数を\(\small{ \ 4 \ }\)で割ると\(\small{ \ 3 \ }\)余る場合
例:データの個数が\(\small{ \ 7 \ }\)個の場合
\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6,a_7 \ }\)
\(\small{ \ \mathrm{Q_1}=a_2 \ }\)
\(\small{ \ \mathrm{Q_2}=a_4 \ }\)
\(\small{ \ \mathrm{Q_3}=a_6 \ }\)

②データの個数を\(\small{ \ 4 \ }\)で割ると\(\small{ \ 1 \ }\)余る場合
例:データの個数が\(\small{ \ 9 \ }\)個の場合
\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6,a_7,a_8,a_9 \ }\)
\(\small{ \ \mathrm{Q_1}=\displaystyle\frac{a_2+a_3}{2} \ }\)
\(\small{ \ \mathrm{Q_2}=a_5 \ }\)
\(\small{ \ \mathrm{Q_3}=\displaystyle\frac{a_7+a_8}{2} \ }\)

③データの個数を\(\small{ \ 4 \ }\)で割ると\(\small{ \ 2 \ }\)余る場合
例:データの個数が\(\small{ \ 6 \ }\)個の場合\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6 \ }\)
\(\small{ \ \mathrm{Q_1}=a_2 \ }\)
\(\small{ \ \mathrm{Q_2}=\displaystyle\frac{a_3+a_4}{2} \ }\)
\(\small{ \ \mathrm{Q_3}=a_5 \ }\)

④データの個数を\(\small{ \ 4 \ }\)で割ると割り切れる場合
例:データの個数が\(\small{ \ 8 \ }\)個の場合\(\small{ \ a_1,a_2,a_3,a_4,a_5,a_6,a_7,a_8 \ }\)
\(\small{ \ \mathrm{Q_1}=\displaystyle\frac{a_2+a_3}{2} \ }\)
\(\small{ \ \mathrm{Q_2}=\displaystyle\frac{a_4+a_5}{2} \ }\)
\(\small{ \ \mathrm{Q_3}=\displaystyle\frac{a_6+a_7}{2} \ }\)

四分位範囲とは

四分位範囲は第3四分位数から第1四分位数を引いた\(\small{ \ \mathrm{Q_3-Q_1} \ }\)で、データの散らばり具合を表す一つの数値になる。
この四分位範囲の幅の中に、中央値周辺のおよそ50%のデータが含まれてることになる。

だから四分位範囲が大きいとデータの散らばりが大きいといえるし、四分位範囲が小さいとデータの散らばりは小さいって言えるよね。四分位範囲が小さいほど、中央値付近にデータが集まっているっていえるからね。

と言ってもデータの散らばり具合を表す数値は、他にも色々あるから、あくまでも”四分位範囲を用いた”データの散らばり具合ってことになるんだけどね。

あと四分位範囲を半分にした値を四分位偏差\(\small{ \ \displaystyle\frac{\mathrm{Q_3-Q_1}}{2} \ }\)っていうことも知識として知っておこう。

例題を確認
問題解答

次のデータは文房具店で売れたノートの冊数を\(\small{ \ 10 \ }\)日調べたものである。
\(\small{ \ 12,15,13,20,19,8,25,21,15,17 \ }\)
(1)データの範囲を求めよ。
(2)第\(\small{ \ 1 \ }\)四分位数、第\(\small{ \ 2 \ }\)四分位数、第\(\small{ \ 3 \ }\)四分位数を求めよ。
(3)四分位範囲を求めよ。

データを小さい順に並べると、
\(\small{ \ 8,12,13,15,15,17,19,20,21,25 \ }\)
(1)\(\small{ \ 25-8=17 \ }\)

(2)
第\(\small{ \ 1 \ }\)四分位数\(\small{ \ 13 \ }\)
第\(\small{ \ 2 \ }\)四分位数\(\small{ \ 16 \ }\)
第\(\small{ \ 3 \ }\)四分位数\(\small{ \ 20 \ }\)

(3)\(\small{ \ 20-13=7 \ }\)

point
繰り返しになるけど、代表値や四分位数を求めるときは、データを小さい順に正確に並べることが一番大切だから、きちんと並べているかチェックすることにしよう。

Point

①四分位数を正確に求めよう。
②四分位範囲の幅に約50%のデータが入っていることを知っておこう。

この記事が気に入ったら
いいね ! しよう

Twitter で

  データの分析

  , ,