こんにちは、リンス(@Lins016)です。
今回は四分位範囲によるデータの散らばりと分散・標準偏差によるデータの散らばりについて学習していこう。
データの散らばりと四分位範囲・分散・標準偏差
データの散らばりには、四分位範囲を利用した調べ方と、分散と標準偏差を利用した調べ方がある。
今回はあるデータを比較して、より詳しいデータの散らばりについて考えてみよう。
まずは下のデータを確認してみよう。
\hline
\mathrm{A} &10&20&20&25&30&30&30&35&40&40&50\\
\hline
\mathrm{B} &10&10&20&20&20&30&40&40&40&50&50\\
\hline
\end{array} \ }\)
\(\small{ \ \mathrm{A} \ }\)の平均値
\(\small{ \ \overline{x}=30 \ }\)
\(\small{ \ \mathrm{A} \ }\)の最大値・最小値
\(\small{ \ x_{\mathrm{Max}}=50, \ x_{\mathrm{min}}=10 \ }\)
\(\small{ \ \mathrm{A} \ }\)の四分位数
\(\small{ \ \mathrm{Q}_{1}=20, \ \mathrm{Q}_{2}=30, \ \mathrm{Q}_{3}=40 \ }\)
\(\small{ \ \mathrm{A} \ }\)の分散
\(\small{ \ \displaystyle \frac{1250}{11} \ }\)
\(\small{ \ \mathrm{B} \ }\)の平均値
\(\small{ \ \overline{x}=30 \ }\)
\(\small{ \ \mathrm{B} \ }\)の最大値・最小値
\(\small{ \ x_{Max}=50, \ x_{min}=10 \ }\)
\(\small{ \ \mathrm{B} \ }\)の四分位数
\(\small{ \ \mathrm{Q}_{1}=20, \ \mathrm{Q}_{2}=30, \ \mathrm{Q}_{3}=40 \ }\)
\(\small{ \ \mathrm{B} \ }\)の分散
\(\small{ \ 200 \ }\)
この二つのデータは最大値・最小値・平均値・四分位数も全て同じだから、箱ひげ図も当然同じになるよね。
教科書じゃ四分位範囲は散らばり具合を調べるものってことになってるから、四分位範囲を比較すると\(\small{ \ \mathrm{A} \ }\)と\(\small{ \ \mathrm{B} \ }\)のデータの散らばり具合は同じってことになる。
でも分散を計算すると、\(\small{ \ \mathrm{B} \ }\)の方が値が大きいからデータの散らばりが大きいってことになるよね。
問題集の中には、四分位数を求めさせて「データの散らばり具合を調べよ」って問題がある。
さすがにセンター試験や入試問題で、こんな曖昧な問題は出ないと思うけど、それって設問として少し言葉が足りないよね。
四分位範囲による散らばり
四分位範囲は、データを大きさの順に並べたとき、中央値を中心として前後に全体のデータ数のおよそ\(\small{ \ 25 \ }\)%ずつ合計\(\small{ \ 50 \ }\)%のデータが入っている範囲だよね。
ってことは極端に外れた値とかは入っていない範囲になるよね。
つまり四分位範囲による散らばりは中央値付近のデータの散らばりを表す値ってこと。
ただ、四分位数のみ利用するから、四分位範囲に約半数のデータが入っていることはわかってても、その範囲に入っているデータの大きさは特に考慮してない散らばりになるから、少し簡易的な感じになるよね。
でも違った見方をすると中央値付近の主要データが含まれている範囲になるから、主要データの散らばり具合を表す値とも言えそうだよね。
また、この範囲が狭いと中央値の周りにデータが集まってるってことも言えるよね。
分散・標準偏差による散らばり
分散・標準偏差は平均値からどれだけ離れたデータがあるかを数値化した値だよね。
つまり分散・標準偏差は平均値周りの散らばりを表す値ってことになる。
四分位範囲の散らばりと違って、すべてのデータの値を利用するからデータ全体の様子も確認しやすいよね。
ただ、極端に大きく外れた値の影響を受けやすいってデメリットもあるけどね。
結論
四分位範囲によるデータの散らばりは中央値周りの散らばりを表す値になるし、分散・標準偏差によるデータの散らばりは平均値周りの散らばりを表す値になる。
単純に「データの散らばりを調べよ」っていわれても、「四分位範囲による散らばり具合」と「分散・標準偏差による散らばり具合」が異なる場合は、どちらのデータが散らばっているって答えようがないよね。
そんな値を持った問題は出題されないと思うけど、四分位範囲による散らばりと分散・標準偏差による散らばりは同じものじゃないってことは覚えていてほしい。
だから「四分位範囲を利用して」とか指示がない散らばりを調べる問題は、四分位範囲も分散も調べてから比較するようにしよう。