「ヒストグラムってなに?」
「どうやって作るの?」
と、気になりますよね。
ヒストグラムは作成が簡単なグラフであることから、ビジネスや学校などさまざまな場面で利用されいます。
ヒストグラムを正しく理解し作成することで、顧客層の分布などビジネスにとって重要な情報を得られます。
本記事では、
- ヒストグラムの見方や作り方
- ヒストグラムの活用例
を解説します。
ぜひ参考にしてみてください。
目次
ヒストグラムとは
ヒストグラムは、データの分布を視覚的に理解するためのグラフです。
例えば、以下のようにあるクラスのテストの点数の分布を見える化したグラフがヒストグラムになります。
データの範囲ごとに度数(データの個数)を計算して、それらの個数の分布を棒(ビン)で表します。
ヒストグラムを用いることで、定めたデータの範囲(階級幅)にどれだけデータがあるのかを知れます。
横軸・縦軸はそれぞれ、
- 横軸:点数の範囲(今回は5点ごとに区切っている)
- 縦軸:範囲内の点数を取った人数
となっています。
このように、データの範囲を設定して範囲内のデータの個数を棒(ビン)として表現することで、データの分布を把握できるのです。
よく見る代表的な5つのヒストグラム
ヒストグラムはデータの範囲を横軸にとるグラフです。
そのため、データの分布によってグラフの形も変化します。
そして、ヒストグラムの見方は、データの分布(ヒストグラム)によって変えなければいけないので注意しましょう。
ヒストグラムの形でよく見る分布は、以下の5つです。
- 【ヒストグラムの例1】 左右対称型
- 【ヒストグラムの例2】 二つ山型(多峰型)
- 【ヒストグラムの例3】 歪み型(裾が長い型)
- 【ヒストグラムの例4】 離れ小島型(外れ値が存在)
- 【ヒストグラムの例5】 ギザギザ型(データの範囲設定ミス)
ヒストグラムを作ると上記の5つの分布のどれかに該当することが多いです。(※例外となるヒストグラムもあります)
それぞれの形の特徴を解説していきます。
【ヒストグラムの例1】 左右対称型
1つ目の例は、データが基本的に中央に集まっていて、バランスよく分布している形です。
統計では正規分布と呼ばれている分布に近く、バランスが良い分布であることから、統計的に分析しやすいという特徴があります。
そのため、他の形のヒストグラムもできるだけ左右対称型ヒストグラムに変換する操作を行い、分析しやすくすることがあります。
例えば、先ほど説明したテストの分布や身長の分布などが左右対称型の分布として有名です。
【ヒストグラムの例2】 二つ山型(多峰型)
2つ目の例は、データが2つの山に分かれている形で、データが2つのグループに分かれている時などに発生しやすい分布になります。
グループが2つに分かれているため、実際に分析を行う場合、データを中央値などで区切って2つの左右対称型ヒストグラムを作る操作を行い、分析を簡単にします。
2つ山型のヒストグラムとしてチョコレートの売上金額が有名です。
チョコレートはバレンタインデーがあることで、2月と2月以外で大きく売り上げ金額が変わるため、2月と2月以外でデータを分割してデータ分析しなくてはなりません。
【ヒストグラムの例3】 歪み型(裾が長い型)
3つ目の例は、一方向に長く伸びた形(裾が長い形)をしていて、平均値と中央値の差が大きく、歪み型になっているヒストグラムです。
例えば、年収は歪み型ですが、平均値が参考にならないことが知られています。
なぜなら、少数の高所得者が桁違いに稼いでいることで、平均値の値が上に引っ張られるためです。
歪み型は、左右対称型ヒストグラムにすることも難しいため、少し分析の難易度は上がる点に注意しましょう。
【ヒストグラムの例4】 離れ小島型(外れ値が存在)
4つ目の例は、データの中に外れ値のようなデータが存在する時になる分布で、工場の数値分析などでなんらかの不具合が発生した時、上図の分布になることがあります。
外れ値が発生してしまうことで、平均値が本当のデータの真ん中の値より大きくなってしまうのです。
そのため、分析に用いる場合は外れ値を除去して、左右対称型に近い分布にする操作が必要になります。
離れ小島型の分布になったときは、データの収集ミスや不良品を疑いましょう。
【ヒストグラムの例5】 ギザギザ型(データの範囲設定ミス)
最後の例は、データの範囲を誤って設定した場合に見られる分布で、データの範囲を細かく設定しすぎて個数が一定の分布に従っていない可能性があります。
そのため、データの範囲を広くするなどして、左右対称型のヒストグラムに近づけます。
もし、上図のようなヒストグラムになった場合は、データの範囲を広くすることを検討してみてください。
【活用例】ヒストグラムを用いて経営分析を行う
「ヒストグラム」はデータを整理や現状を把握を行い、様々な特徴を掴めるグラフです。
そのため、企業経営で蓄積される様々なデータを用いてヒストグラムを作ることで、経営分析が行えます。
例えば、「年間の売上の現状は把握していますか?」と質問すると多くの企業人は答えられますね。
しかし、「売り上げの構成要素は? どの顧客層が自社にとって大切?」などと質問すると答えられなくなるでしょう。
ヒストグラムでは売り上げの構造の把握や顧客層の分析に利用できます。
では、以下のような架空の受注データを元に売上における受注単価を軸としたヒストグラムを作ってみましょう。
今回は売上における受注単価を軸にするため、横軸は”受注金額”を用います。
なので、”受注金額を等分に区切った値の範囲”が横軸になります。
あくまで経営の現状の分析ですので、棒(ビン)の範囲はその会社の受注単価に合わせて設定することをおすすめします。
縦軸はデータの個数です。
では、さっそくデータをもとに作ったヒストグラムから分析していきます。
架空のデータではありますが、データから作成したヒストグラムによって売り上げにおける受注単価の実態を把握できるようになりました。
この会社の売上単価のヒストグラムを先ほどの5つの種類のどれに当てはまるか考えてみましょう。
データが低単価と高単価で分かれていることが見て取れるため、離れ小島型もしくは2つ山型になります。
架空のデータですのでデータの収集ミスはないと仮定すると、2つ山型であると判断できます。
ヒストグラムを確認することで、今回の例では低単価と高単価で2つのグループに分かれると考え、それぞれについて分析を進めるといった方針を立てられます。
今回の例ですと、高単価の発注をしてくれている会社の特性を分析することで、受注単価が高い原因を突き止め、全体の受注単価アップに活かせます。
もし、ヒストグラムを表でまとめたいという方は度数分布表を用いるのがおすすめです。
度数分布表について詳しく知りたい方は『度数分布表から、データの傾向を把握しよう』の記事をご参照ください。
ヒストグラムはエクセルで簡単に作れる
ヒストグラムはデータを準備できれば、エクセルですぐに作成できます。
以下の3ステップで作成していきます。
- データを準備する
- ヒストグラムを作成する
- 装飾や棒(ビン)の範囲を整える
今回は『ヒストグラムとは』の章で紹介したテストの点数の分布の作成方法を解説していきます。
STEP1. データを準備する
分析するデータが手元にない場合は乱数を使ってデータを作ります。
今回は、左右対称型のヒストグラムを作るために、正規分布に従う形で乱数を指定していきます。
=NORM.INV(RAND(),60,10)
上記の関数をエクセルに入力して、下にコピーすることで100個の乱数を作ります。
60は平均、10は標準偏差を表していて、今回は平均点が60点で標準偏差が10点のデータになります。
標準偏差について知りたい方は、『標準偏差とは?データを見るなら知っておくべき求め方や目安』の記事をご参照ください。
以下のような乱数が例になります。
乱数のため、人によって異なる値になっていますので、注意してください。
それでは次のステップを解説していきます。
STEP2. ヒストグラムを作成する
準備ができれば、ヒストグラムの作成は簡単です。
点数の列(点数というラベルと数値)をすべて選択し、「挿入タブ>統計データの挿入>ヒストグラム」をクリックします。
一連の流れの画面をキャプチャすると上記のようになります。
クリックするとヒストグラムが作られますので、最後に装飾や軸を整えていきましょう。
STEP3. 装飾や棒(ビン)の範囲を整える
あなたのグラフは上の画像のヒストグラムに近い形になっていると思います。
ですが、グラフのタイトルや凡例、棒(ビン)ごとの範囲が自動になっているなどグラフとしては完成とは言えません。
まず、タイトルを「テストの点数の分布」とし、凡例を追加します。
凡例は+マークをクリックして凡例にチェックを入れます。
すると、「■点数」と表示されヒストグラムが何のデータなのかを示せます。
次に棒(ビン)ごとのデータの範囲の調整です。
横軸を「選択>右クリック>軸の書式設定」とクリックしていくと以下のような画面になります。
棒(ビン)ごとのデータの範囲は、ビンの幅で調整できます。
ビンの幅の○をクリックし、7.6を5.0に変更してみましょう。
すると、ビンの幅が調整されて、以下のようなヒストグラムが完成します。
ここまで調整できれば、ビジネスでも利用できます。
エクセルではデータを選択するだけでヒストグラムを作成できるため、ぜひ手元にあるデータで再度ヒストグラムを作成してみてください。
まとめ
ヒストグラムはデータの分布を理解するために用いられるグラフです。
そのため、テストの点数の分布や顧客層の把握などさまざまな場面で用いられます。
代表的なヒストグラムの形は以下の5つです。
- 左右対称型
- 二つ山型(多峰型)
- 歪み型(裾伸び型)
- 離れ小島型(外れ値が存在)
- ギザギザ型(データの範囲設定ミス)
それぞれ特徴があるため、ヒストグラムを作成したらまずどの形に対応しているかを把握しましょう。
ヒストグラムの活用例として、本記事では経営分析を行いました。
ヒストグラムを用いることで、売り上げの構成要素、受注単位がどのくらいで、顧客はどのように散らばっているのかを分析できます。
例で用いたデータでは、ヒストグラムが2つ山型であることから、低単価と高単価のグループに分けて分析するという方針が考えられました。
このように、実際の分析では方針を立てるためにヒストグラムを用います。
ヒストグラムはエクセルを用いることで簡単に作成でき、以下の3ステップでヒストグラムを作成することでビジネスにも使用できるグラフを作成できます。
- データを準備する
- ヒストグラムを作成する
- 装飾や棒(ビン)の範囲を整える
ぜひ、ヒストグラムを作成して、ビジネスや身近なデータを分析してみてください。
もし自社で、「ヒストグラムのようなグラフから顧客の特徴を掴みたい…」「そもそもデータをどのように扱っていいか分からない…」というお悩みがあれば、『かっこのデータサイエンス』にお問合せください。
状況のヒアリングを行い、お持ちのデータから顧客分析や課題点の洗い出しを行います。
サンプルデータの確認や課題の洗い出しまで無料で承っていますのでお気軽にご相談ください。(※データの集計や本データの分析、改善の実施には費用がかかります。)
詳細は以下のページからご確認ください。