統計

箱ひげ図 について超カンタンに解説してみた

箱ひげ図」ということば、聞いたことや見たことはあるけど、見方がわからなかったりしませんか?
中高の数学で習った記憶があるものの、あまり使用する機会がないと、どのような形のグラフか、そもそも何のために使われるグラフか忘れてしまいますよね?

そこで本記事では、初学者が箱ひげ図の見方と意味を感覚的に捉えられるように、難しい用語や数式を使わずに説明していくことにします。

箱ひげ図とは?

箱ひげ図はデータを可視化するグラフの1つで、主にデータの分布を把握したい場合に使われます。
下図のような箱ひげ図を用いて、箱ひげ図の見方について説明します。

上図のように、箱ひげ図は長方形の「」と「ひげ」と呼ばれる直線で構成されます。
箱ひげ図は、データを大きさ順に並べた時の分布を示しています。

値の軸が上向きなので、ひげの下側の末端が最小値、ひげの上側の末端が最大値を表しています。
最小値と最大値の間は、4つの区間に区切られていて、それぞれの区間が全体の25%のデータを収容しています

つまり、
箱の下底は小さい方から
25%目のデータ、箱の中の横線は中央値(50%目のデータ)
上底は75%目のデータを表していて、長方形の範囲にデータの真ん中50%が含まれています。

箱ひげ図では平均値を表現することもできます。上図では緑の三角形で示されているのが、平均値です。
(中央値と平均値の違いについてはこちらの記事を参照してください。)

ExcelやPythonなどで箱ひげ図を作ると、上図のように最小値から最大値の外部に、いくつか点が表示されることがありますが、これらは外れ値と呼ばれます。
ここでは極端に大きい(小さい)ノイズのようなデータを外れ値と呼ぶと理解しておけば十分です。

箱ひげ図の利点

次に、箱ひげ図の利点について説明していきます。

ここでは、沖縄のおすすめ物件について分析したこちらの記事家賃データを用いて、家賃50,000円以下の物件を探す際の、箱ひげ図の見方、利点について説明します。

まず、最寄り駅ごとの物件の平均家賃を示します。

上図より、どの駅の平均家賃も50,000円を超えていますが、その中でも経塚駅の平均家賃が最も50,000円に近いことが分かります。
これより、家賃50,000円以下の物件を探す場合は、経塚駅が最も探しやすいと判断したくなります。

しかし、平均値は極端に大きい(小さい)データの影響を大きく受けるため、平均値だけではどの価格帯の物件が多いかは分かりません。
例えば、経塚駅より家賃の平均値が高くなっている駅でも、少数の高級マンションの家賃の影響で平均値が高くなっているだけの可能性があるということです。
つまり、家賃相場を読み取るためには、家賃の平均値だけでなく、分布も見る必要があります。

そこで、以下の図のように複数の箱ひげ図を用いて、駅ごとの家賃の分布を見比べます。

平均値は灰色の点で示してあります。

上図で家賃50,000円以下の部分に注目すると、経塚駅では約25%の物件が家賃50,000円以下となっているのに比べて、首里駅奥武山公園駅では約40%の物件が家賃50,000円以下となっています。
平均家賃は首里駅や奥武山公園駅より経塚駅の方が低くなっていましたが、首里駅や奥武山公園駅の方が家賃が低い物件の割合が高いと分かります。

よって、家賃50,000円以下の物件を探す際には、首里駅奥武山公園駅が適していると判断できます。
このように、箱ひげ図を見ることで、平均値だけでは分からないデータの分布を把握することができます。

本記事のまとめ

・箱ひげ図を見れば、データの分布が把握できる

・平均値だけでは分からないデータのばらつき具合を視覚的に把握できるのが「箱ひげ図」

箱ひげ図の見方、意味について理解していただけたでしょうか?

箱ひげ図などでデータの全体像を把握した後、課題の解決をするために、必要なアクションをみつけるデータ分析を行っていくというのが、一般的です。

データを整理、可視化して、みんなで議論できるようにするところから、明らかになった課題解決のために、何をすべきか作戦するためのデータ分析まで、かっこでは分かりやすく一緒に取組んでいきますので、ぜひお気軽にかっこのデータサイエンスまでご相談ください。
よりお手軽にデータ分析に着手することができる「さきがけKPI」というサービスもございます。ご検討ください。

ピックアップ記事

  1. 優良顧客を見つける「RFM分析」の考え方と使い方
  2. こんなときには異常検知
  3. 学生をデータサイエンティストに育てる4つのポイント
  4. 知っておきたいAIの理想と現実
  5. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた

関連記事

  1. 統計

    こんなときには異常検知

    データを観測・解析していくと、ごく少数現れる特異な状態に気づくことがし…

  2. 統計

    なんでも平均でいいの?

    子どもの頃から馴染みがあって、使いやすいため、「平均」ということばは、…

  3. 統計

    2種のデータの関係性を明らかにする「相関」のおはなし

    皆さんは「相関」という言葉を聞いたことがありますか??「相関」はデ…

  4. 統計

    ヒストグラム 〜経営の現状を見える化する超強力なグラフ

    データ解析でよく利用されるグラフの1つに、「ヒストグラム」という現状を…

  5. 統計

    優良顧客を見つける「RFM分析」の考え方と使い方

    RFM分析とは小売、サービス業界における顧客分析の1つです。Recen…

  6. 統計

    度数分布表から、データの傾向を把握しよう

    皆さんは『度数分布表』という言葉を聞いたことはありますか?初めて耳…

カテゴリー

おすすめ記事

  1. データサイエンスを現場の敵にしないために
  2. 優良顧客を見つける「RFM分析」の考え方と使い方
  3. 箱ひげ図 について超カンタンに解説してみた
  4. 知っておきたいAIの理想と現実
  1. 統計

    こんなときには異常検知
  2. 統計

    優良顧客を見つける「RFM分析」の考え方と使い方
  3. 統計

    度数分布表から、データの傾向を把握しよう
  4. 組織

    データサイエンスを現場の敵にしないために
  5. topics

    大学時代の成績からNFLのドラフト順位を予測してみた
PAGE TOP