データの特徴を1つの値で表すとき、それを代表値と言い、代表値は主に『平均値』『中央値』『
平均値は小学校のときにも習いましたが、中央値・最頻値ははじめて教わる言葉です。
それぞれの代表値には良いところ、悪いところがあり、扱うデータによってどの代表値が向いているのか変わってきます。
今回はそれぞれの意味や違い、良いところ悪いところなどを見ていきましょう。
平均値・中央値・最頻値とは?
まず3つの代表値の意味をそれぞれ簡単に説明すると以下の通り。
平均値 | 値の合計をデータの個数で割った値 |
---|---|
中央値 | 値を大きい順に並べたときの真ん中に位置するデータの値 |
一番多く見られる値 |
では具体例を用いてそれぞれの違いを見ていきましょう。
次の資料は「中学生20人のお小遣い(円)」です。
500 | 1000 | 0 | 2000 | 800 |
800 | 1500 | 10000 | 2000 | 1000 |
500 | 0 | 5000 | 1000 | 900 |
1000 | 1000 | 700 | 500 | 0 |
このデータについてそれぞれの代表値を求めてみましょう。
「平均値」の特徴と求め方
平均値は値の合計をデータの数で割った値です。
資料の値の合計は、500+1000+0+2000+800+800+1500+10000+2000+1000+500+0+5000+1000+900+1000+1000+700+500+0=30200
これを20人で割ると、30200÷20=1510
この資料の平均値は1510円です。
しかし資料を見ると多くの子は平均値よりもお小遣いが少ないのがわかるかと思います。平均値を上回るのは4人だけで、他の16人は平均値よりもお小遣いは少ないです。
なぜこのようなことになるのでしょうか?
データをよく見ると、10000円や5000円など、他の子の何倍ものお小遣いをもらっている子がおり、このような子が平均値を大きく引き上げています。
平均値は他と比べて極端な値が含まれる場合、そのデータの影響を受けやすいのです。
では続いて中央値について見てみましょう。
「中央値」の特徴と求め方
中央値は大きい順に並べたときの真ん中に位置するデータの値です。
データの数が奇数個ならちょうど真ん中のデータが存在するのですが、偶数個の場合は2つのデータにまたがった位置が真ん中となってしまいます。
たとえばデータが21個なら11番目に大きい値が中央値です。
しかし今回の例はデータが20個なので、10番目と11番目の間がちょうど真ん中になります。このような場合、中央の2つの数字の平均を中央値とします。
下の表はお小遣いが高い順に並べたものですが、これの10番目(1000円)と11番目(900円)の平均950円が中央値になるということです。
平均値とはだいぶ異なる値になりましたが、このデータの特徴を表す値としては適しているように思えますね。
お小遣いを一番もらっている子が2倍、3倍、10倍になったとしても中央値は変わりません。
中央値は平均値と比べて、「極端なデータが含まれていても影響を受けにくい」というのが利点があります。
「最頻値」の特徴と求め方
最頻値は一番多く見られる値です。
今回のデータのそれぞれの値の個数を集計すると、1000円が5人と最も多いのがわかります。なのでこのデータの最頻値は1000円です。
今回の例では最頻値もデータの特徴を表すのに適しているのがわかるかと思います。
ただし「クラスの身長」のように「150.0cm、150.1cm・・・」と細かく数値が刻まれる場合、同じ値のデータはほとんど出てきません。
そうすると偶然にも2人や3人、数値が被ったものが最頻値となってしまいます。
最頻値はデータの種類が少ない場合に使われるのです。
それぞれの違いについてまとめると以下の通りです。
度数分布表から代表値を求める方法
平均値・中央値・最頻値の基本的な考え方については説明しました。
資料のそれぞれの値が与えられたら、そこから3つの代表値を求めることはできるようになったと思います。
ただ、問題の中には度数分布表が与えられてそこから代表値を求めさせられることがあります。
そういった問題の解き方について解説していきます。
例題
次の表はクラスのテストの点数をあらわした度数分布表である。これをもとに平均値・中央値・最頻値を求めよ。
平均値の求め方
平均値を出すにはまずデータのすべての値の合計を計算しないといけませんが、度数分布表では具体的な個々の値がわかりません。
このとき使うのが“階級値”です。階級値とは「階級の真ん中の値」を指します。
今回の例では、「50~60」の階級の階級値は「55」、「60~70」の階級の階級値は「65」・・・となります。
度数分布表から平均値を出す場合、すべての階級値として考えて合計を出し、それを度数の合計数で割ります。
今回の例だと、55×2+65×9+75×6+85×2+95×1=1410
これを度数の20で割ると、1410÷20=70.5
平均値は70.5となります。
中央値の求め方
中央値も階級値を用いて求めます。階級を高い順に見たときの真ん中の度数に位置する階級値が中央値です。
今回は度数が20で偶数になるので、10番目と11番目の階級値を見てみましょう。
10番目・11番目ともに「60~70」の階級に位置するため、この階級値「65」が中央値になります。
もし中央に位置する2つが異なる階級にまたがる場合、その2つの階級値の平均が中央値になります。
たとえば10番目が「70~80」で11番目が「60~70」だった場合、それぞれの階級値75と65の平均、70が中央値です。
最頻値の求め方
最頻値は最も度数が多い階級の階級値が最頻値となります。今回の場合、度数が9で最も多いのが「60~70」の階級なので、この階級値「65」が最頻値となります。
代表値の意味を調べているときに、こちらの記事にたどり着きました。とても分かりやすく、助かりました。
ありがとうございます。
分かりやすいし、使いやすいです!!
とてもわかりやすいです!(о´∀`о)
分かりやすいです!
すごい!! 一瞬でわかった!!!!
感謝。わかり易かったです。
自分のやってるワークの問題が間違ってるんだと自信が持てました。出題者に問い合わせてみます。