統計

なんでも平均でいいの?

子どもの頃から馴染みがあって、使いやすいため、「平均」ということばは、日常のいたるところで見かけます。
しかし、データ全体の特徴を分かりやすく見るために使われる代表値には、「平均値」以外にも、「中央値」、「最頻値」といった種類があることをご存じですか?
この記事では、データから実態を把握するために知っておきたい、これらの代表値について、メリット、デメリットを出来る限り分かりやすく説明していきます。

各数値の説明、使用例

ここからは、分かりやすく、会社Aと会社Bを例に出して、それぞれの値を考えていきましょう。会社A、会社Bの年収と人数の内訳は、以下の通りです。

①平均値

平均値とは「全ての値を足して、それを値の個数で割った値」です。
例えば、「1,2,3,4,10」とあった場合、これらの平均値は、4です。
2社の年収の平均を出してみると、会社Aの年収の平均値は約682万円。
会社Bの年収の平均値は、約708万円になりました。

もし、あなたが年収の多い会社に入りたいと考えていた時、あなたはどちらの会社を選びますか。
「年収の平均値が、会社Bの方が大きいから、会社Bに入ろう。」と考えませんか。

しかし、平均値だけを見て、会社Bに入社した場合、入社してからはじめて、ほとんどの人が年収400万円以下で働いていることに気付くことになるでしょう。
実際のデータを見てみましょう。
この会社には、年収7000万円の人が5人おり、この5人が平均値を底上げしていたことが分かります。
このように、平均値は、全ての値を計算に入れられる一方で、会社B内の年収7000万円の人のように、極端な数値も計算に加わってしまうため、注意が必要です。
平均値を使う前に、まず、各数値の分布が、どうなっているのかを確認する必要があります。

②中央値

中央値とは、「数値を小さい方から順に並べたときに、真ん中に位置する値」です。
そのため、極端な値があっても、無視されます。
例えば、数値が「1,2,3,4,5,6,1000」と小さい順に並べたとき、中央値は、4になります。
平均値に比べ、中央値自体は、極端な値である1000に影響を受けません。

会社Aの年収の中央値は720万円、会社Bの年収の中央値は300万円です。
平均値と違い、会社Bの年収が低い事を確認できるようになりました。

これを見ると、「最初から中央値で考えるべきだった。」と思うかもしれません。
しかし、会社Aが1年後、年収850万円以上の人たちを、全員800万円に減俸したとします。それでも、中央値は、720万円のままです。
「中央値は変わらないので、社員の待遇にも大きな変化はありません。」と説明されたとして、それは実態と合っているでしょうか?
このように、中央値は、データ全体ではなく、真ん中だけを表しているので、データの変化、比較には向いていない場合があります。

③最頻値

最頻値とは、「一番個数が多い値」です。
例えば、数値が「1,2,3,3,3,4,5,5,1000」とあったとき、最頻値は、3になります。
中央値と同様に、極端な値の影響は受けていません。

会社Aの最頻値は650万円で、会社Bの最頻値は300万円です。
こちらも中央値同様、会社Bの年収が低い事を確認できます。

しかし、最頻値にも問題点があります。
極端な話ですが、会社Aの社員の年収が各金額帯で、同数だった場合は、一番個数が多いものという概念がなくなるので、最頻値という数値の意味を成しません。
また、そもそものデータの数が少ない場合にも、理想的な結果は得られません。

結局どう選べばいいの?

適切な代表値を採用するまでの道のりは、以下の通りです。

①分布を見る。

②きれいなお山型の分布(会社Aのような形)→ 平均値
 きれいな分布でない(会社Bのような形)→ 中央値、最頻値を確認する。

③データの個数が少ない場合は、最頻値は使わない。

きれいな分布でない場合、中央値や最頻値の両者とも使わない方が良い場合もあります。
例えば、分布の山が2つあるような場合です。
そういった場合は、ヒストグラムや箱ひげ図で分布について考えましょう。

まとめ

<平均値>「全ての値を足して、それを値の個数で割った値」

メリット:すべての値が抜けもれなく、平均値という数値に反映される。
デメリット:極端な値があった場合は、大きく影響を受けてしまう。

<中央値>「数値を小さい方から順に並べたときに、真ん中に位置する値」

メリット:極端な値があった場合でも、影響を受けづらい。
デメリット:データ全体の変化を見るとき、比較するときには向かないことがある。

<最頻値>「一番個数が多い値」

メリット:極端な値があった場合でも、影響を受けづらい。
デメリット:データの個数が少ない場合は使えない。

さて、何でも「平均」だけで考えてはいけないことは、お分かりいただけたでしょうか?
そして、ご紹介した3つの代表値にはそれぞれ特徴があり、いずれも相応しくない使い方をすると、データの実態を見誤ってしまうことが分かったと思います。

とは言え、データのボリュームがあまりにも大きいと、その分布をみて、その全貌を正しく把握するのは、なかなか大変です。
かっこでは、膨大なデータを正しく見られるように整理、集計、可視化することで、全員が実態を把握して、正しく判断するためのお手伝いをしています。
1億レコードを超えるようなデータであっても、ちゃんと見えるようにしますので、困った際には、ぜひ、ご相談ください。

ピックアップ記事

  1. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  2. 知っておきたいAIの理想と現実
  3. RFM分析の考え方と使い方
  4. 学生をデータサイエンティストに育てる4つのポイント
  5. それ分析じゃなく集計ですから

関連記事

  1. 統計

    RFM分析の考え方と使い方

    RFM分析とは小売、サービス業界における顧客分析の1つです。Recen…

  2. 統計

    統計学が得意なこと

    かっこのデータサイエンスサービスで、よく使っている技術として、統計や機…

  3. 統計

    データをみるなら知っておきたい!標準偏差!

    かっこ株式会社のデータサイエンス事業部でインターンをしている松本です。…

  4. 統計

    ヒストグラム 〜経営の現状を見える化する超強力なグラフ

    データ解析でよく利用されるグラフの1つに、「ヒストグラム」という現状を…

  5. 統計

    箱ひげ図 について超カンタンに解説してみた

    「箱ひげ図」ということば、聞いたことや見たことはあるけど、見方がわから…

カテゴリー

おすすめ記事

  1. RFM分析の考え方と使い方
  2. 知っておきたいAIの理想と現実

メディア注目ワード

  1. 機械学習

    知っておきたいAIの理想と現実
  2. 分析

    それ分析じゃなく集計ですから
  3. 統計

    なんでも平均でいいの?
  4. 統計

    統計学が得意なこと
  5. 統計

    RFM分析の考え方と使い方
PAGE TOP