統計

箱ひげ図 について超カンタンに解説してみた

箱ひげ図」ということば、聞いたことや見たことはあるけど、見方がわからなかったりしませんか?
中高の数学で習った記憶があるものの、あまり使用する機会がないと、どのような形のグラフか、そもそも何のために使われるグラフか忘れてしまいますよね?

そこで本記事では、初学者が箱ひげ図の見方と意味を感覚的に捉えられるように、難しい用語や数式を使わずに説明していくことにします。

箱ひげ図とは?

箱ひげ図はデータを可視化するグラフの1つで、主にデータの分布を把握したい場合に使われます。
下図のような箱ひげ図を用いて、箱ひげ図の見方について説明します。

上図のように、箱ひげ図は長方形の「」と「ひげ」と呼ばれる直線で構成されます。
箱ひげ図は、データを大きさ順に並べた時の分布を示しています。

値の軸が上向きなので、ひげの下側の末端が最小値、ひげの上側の末端が最大値を表しています。
最小値と最大値の間は、4つの区間に区切られていて、それぞれの区間が全体の25%のデータを収容しています

つまり、
箱の下底は小さい方から
25%目のデータ、箱の中の横線は中央値(50%目のデータ)
上底は75%目のデータを表していて、長方形の範囲にデータの真ん中50%が含まれています。

箱ひげ図では平均値を表現することもできます。上図では緑の三角形で示されているのが、平均値です。
(中央値と平均値の違いについてはなんでも平均でいいの?を参照してください。)

ExcelやPythonなどで箱ひげ図を作ると、上図のように最小値から最大値の外部に、いくつか点が表示されることがありますが、これらは外れ値と呼ばれます。
ここでは極端に大きい(小さい)ノイズのようなデータを外れ値と呼ぶと理解しておけば十分です。

箱ひげ図の利点

次に、箱ひげ図の利点について説明していきます。

ここでは、沖縄のおすすめ物件について分析したデータで判断! エンジニアの沖縄移住、おすすめエリア家賃データを用いて、家賃50,000円以下の物件を探す際の、箱ひげ図の見方、利点について説明します。

まず、最寄り駅ごとの物件の平均家賃を示します。

上図より、どの駅の平均家賃も50,000円を超えていますが、その中でも経塚駅の平均家賃が最も50,000円に近いことが分かります。
これより、家賃50,000円以下の物件を探す場合は、経塚駅が最も探しやすいと判断したくなります。

しかし、平均値は極端に大きい(小さい)データの影響を大きく受けるため、平均値だけではどの価格帯の物件が多いかは分かりません。
例えば、経塚駅より家賃の平均値が高くなっている駅でも、少数の高級マンションの家賃の影響で平均値が高くなっているだけの可能性があるということです。
つまり、家賃相場を読み取るためには、家賃の平均値だけでなく、分布も見る必要があります。

そこで、以下の図のように複数の箱ひげ図を用いて、駅ごとの家賃の分布を見比べます。

平均値は灰色の点で示してあります。

上図で家賃50,000円以下の部分に注目すると、経塚駅では約25%の物件が家賃50,000円以下となっているのに比べて、首里駅奥武山公園駅では約40%の物件が家賃50,000円以下となっています。
平均家賃は首里駅や奥武山公園駅より経塚駅の方が低くなっていましたが、首里駅や奥武山公園駅の方が家賃が低い物件の割合が高いと分かります。

よって、家賃50,000円以下の物件を探す際には、首里駅奥武山公園駅が適していると判断できます。
このように、箱ひげ図を見ることで、平均値だけでは分からないデータの分布を把握することができます。

本記事のまとめ

・箱ひげ図を見れば、データの分布が把握できる

・平均値だけでは分からないデータのばらつき具合を視覚的に把握できるのが「箱ひげ図」

箱ひげ図の見方、意味について理解していただけたでしょうか?

箱ひげ図などでデータの全体像を把握した後、課題の解決をするために、必要なアクションをみつけるデータ分析を行っていくというのが、一般的です。

データを整理、可視化して、みんなで議論できるようにするところから、明らかになった課題解決のために、何をすべきか作戦するためのデータ分析まで、かっこでは分かりやすく一緒に取組んでいきますので、ぜひお気軽にかっこのデータサイエンスまでご相談ください。
よりお手軽にデータ分析に着手することができる「さきがけKPI」というサービスもございます。ご検討ください。

ピックアップ記事

  1. 学生をデータサイエンティストに育てる4つのポイント
  2. 知っておきたいAIの理想と現実
  3. こんなときには異常検知
  4. 優良顧客を見つける「RFM分析」の考え方と使い方
  5. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた

関連記事

  1. 統計

    2種のデータの関係性を明らかにする「相関」のおはなし

    皆さんは「相関」という言葉を聞いたことがありますか??「相関」はデ…

  2. 統計

    こんなときには異常検知

    データを観測・解析していくと、ごく少数現れる特異な状態に気づくことがし…

  3. 統計

    起きることの必然性を統計学で裏付ける!「検定」の使い方!

    かっこ株式会社のデータサイエンス事業部でインターンをしている松中です。…

  4. 統計

    なんでも平均でいいの?

    子どもの頃から馴染みがあって、使いやすいため、「平均」ということばは、…

  5. 統計

    確率を予測する「ロジスティック回帰」とは

    何らかの行動を起こす必要があるとき、「成功する確率」や「何をすれば成功…

  6. 統計

    データの関係性がパッと見でわかる「散布図」

    散布図とは、2つのデータの関係性をパッと見ただけで把握することができる…

カテゴリー

おすすめ記事

  1. 確率を予測する「ロジスティック回帰」とは
  2. データサイエンスを現場の敵にしないために
  3. 優良顧客を見つける「RFM分析」の考え方と使い方
  4. 箱ひげ図 について超カンタンに解説してみた
  5. 知っておきたいAIの理想と現実
  1. 機械学習

    知っておきたいAIの理想と現実
  2. topics

    湘南鎌倉エリアの女性向け物件探しをデータサイエンスのチカラでやってみた
  3. 分析

    データ分析の使える道具!! よく活用する図表・グラフをまとめてみた。
  4. topics

    データ分析を使って、東急東横線沿線で楽器弾きのための家探しをしてみた
  5. 統計

    度数分布表から、データの傾向を把握しよう
PAGE TOP