「箱ひげ図」ということば、聞いたことや見たことはあるけど、見方がわからなかったりしませんか?
中高の数学で習った記憶があるものの、あまり使用する機会がないと、どのような形のグラフか、そもそも何のために使われるグラフか忘れてしまいますよね?
そこで本記事では、初学者が箱ひげ図の見方と意味を感覚的に捉えられるように、難しい用語や数式を使わずに説明していくことにします。
箱ひげ図とは?
箱ひげ図はデータを可視化するグラフの1つで、主にデータの分布を把握したい場合に使われます。
下図のような箱ひげ図を用いて、箱ひげ図の見方について説明します。
上図のように、箱ひげ図は長方形の「箱」と「ひげ」と呼ばれる直線で構成されます。
箱ひげ図は、データを大きさ順に並べた時の分布を示しています。
値の軸が上向きなので、ひげの下側の末端が最小値、ひげの上側の末端が最大値を表しています。
最小値と最大値の間は、4つの区間に区切られていて、それぞれの区間が全体の25%のデータを収容しています。
つまり、
箱の下底は小さい方から25%目のデータ、箱の中の横線は中央値(50%目のデータ)
上底は75%目のデータを表していて、長方形の範囲にデータの真ん中50%が含まれています。
箱ひげ図では平均値を表現することもできます。上図では緑の三角形で示されているのが、平均値です。
(中央値と平均値の違いについてはなんでも平均でいいの?を参照してください。)
ExcelやPythonなどで箱ひげ図を作ると、上図のように最小値から最大値の外部に、いくつか点が表示されることがありますが、これらは外れ値と呼ばれます。
ここでは極端に大きい(小さい)ノイズのようなデータを外れ値と呼ぶと理解しておけば十分です。
箱ひげ図の利点
次に、箱ひげ図の利点について説明していきます。
ここでは、沖縄のおすすめ物件について分析したデータで判断! エンジニアの沖縄移住、おすすめエリアの家賃データを用いて、家賃50,000円以下の物件を探す際の、箱ひげ図の見方、利点について説明します。
まず、最寄り駅ごとの物件の平均家賃を示します。
上図より、どの駅の平均家賃も50,000円を超えていますが、その中でも経塚駅の平均家賃が最も50,000円に近いことが分かります。
これより、家賃50,000円以下の物件を探す場合は、経塚駅が最も探しやすいと判断したくなります。
しかし、平均値は極端に大きい(小さい)データの影響を大きく受けるため、平均値だけではどの価格帯の物件が多いかは分かりません。
例えば、経塚駅より家賃の平均値が高くなっている駅でも、少数の高級マンションの家賃の影響で平均値が高くなっているだけの可能性があるということです。
つまり、家賃相場を読み取るためには、家賃の平均値だけでなく、分布も見る必要があります。
そこで、以下の図のように複数の箱ひげ図を用いて、駅ごとの家賃の分布を見比べます。
平均値は灰色の点で示してあります。
上図で家賃50,000円以下の部分に注目すると、経塚駅では約25%の物件が家賃50,000円以下となっているのに比べて、首里駅、奥武山公園駅では約40%の物件が家賃50,000円以下となっています。
平均家賃は首里駅や奥武山公園駅より経塚駅の方が低くなっていましたが、首里駅や奥武山公園駅の方が家賃が低い物件の割合が高いと分かります。
よって、家賃50,000円以下の物件を探す際には、首里駅や奥武山公園駅が適していると判断できます。
このように、箱ひげ図を見ることで、平均値だけでは分からないデータの分布を把握することができます。
本記事のまとめ
・箱ひげ図を見れば、データの分布が把握できる
・平均値だけでは分からないデータのばらつき具合を視覚的に把握できるのが「箱ひげ図」
箱ひげ図の見方、意味について理解していただけたでしょうか?
箱ひげ図などでデータの全体像を把握した後、課題の解決をするために、必要なアクションをみつけるデータ分析を行っていくというのが、一般的です。
データを整理、可視化して、みんなで議論できるようにするところから、明らかになった課題解決のために、何をすべきか作戦するためのデータ分析まで、かっこでは分かりやすく一緒に取組んでいきますので、ぜひお気軽にかっこのデータサイエンスまでご相談ください。
よりお手軽にデータ分析に着手することができる「さきがけKPI」というサービスもございます。ご検討ください。
