統計

度数分布表から、データの傾向を把握しよう

皆さんは『度数分布表』という言葉を聞いたことはありますか?
初めて耳にしたと思う方も多いのではないでしょうか。

でも実は、中学生の時に一度学んでいるはずなんです。
日常的に使うことがないと忘れてしまいますよね。。。

そんな忘れられがちな度数分布表でも、うまく使えばデータの特徴的なポイント一瞬で見つけることができるようになるのです!

そこで今回は『度数分布表』について、誰でも簡単に理解することができるよう記事にまとめてみました。

懐かしい(?)知識をおさらいして、データをよりうまく扱えるようにステップアップしていきましょう!

度数分布表とは?

度数分布表とは、一言でいうと

データを任意の範囲ごとに分割し、それぞれの範囲内に存在するデータ数を表にまとめたもの

です。

以下のようなデータを考えてみましょう。

このままだと単なるデータの羅列であり、パット見たときにその特徴を把握することはできませんよね。
そこで、まずデータを小さい順に並べ替えてみます。

ここで、表のなかで値が0~20のものを探してみると、図のオレンジ色の部分となることが分かります。
データ数を数えてみると、全部で11個のデータがあるようです。

次に、値が21~40のものを探してみると、図の黄色の部分となることが分かります。
データ数を数えて見ると、全部で73個のデータがあるようです。

このようにまとめていくと、下記のような度数分布表が完成します。

階級は「データを区切る範囲」、度数は「データの個数」を意味します。

この度数分布表によって、21~40、41~60が多いという、羅列されたデータをだけではよくわからなかった特徴が把握しやすくなりましたね。

さらにここから一手間加えると、このような表になります。

表の中には「階級「階級値」度数」「累積度数」「相対度数」「累積相対度数」という単語が出てきました。
これらの単語が表すものは以下の通りです。

これらを確認することで、データの羅列だけではいまいち掴みきれなかった、データの全体像や偏りが把握しやすくなります。

ちなみに、階級値は階級の「中央値」ですが、中央値に関しては、こちらの記事『なんでも平均でいいの?』に記載がありますので、是非ご覧ください。

実際に度数分布表からデータをみてみよう

では、実際に活用されている例から度数分布表を見てみましょう。

これは2020年に厚生労働省により発表された『2019年 国民生活基礎調査の概況』に記載のある、【各種世帯別にみた所得金額階級別世帯数の分布及び中央値】に関する度数分布表です。
2019年の日本の全世帯を対象に行われた所得金(どのくらい給料をもらっているのか)に対する調査結果となっています。

このままだと少し見づらいので、一部を拡大してみました。

先ほどの例とはレイアウトが少し異なり、合計値を示す「総計」が表の上部に表示され、平均値と中央値の記載があります。
他にも、この表では「度数」と「累積度数」の表示がなく、「相対度数」と「累積相対度数」のみがパーセント(%)表示で表されています。
細かい部分は異なっているものの、表しているものは上述のものと同じです。

この度数分布表の以下の部分に注目してみましょう。

この緑で囲われた部分を見てみると、他の階級に比べ相対度数(分布)の値が大きいことが分かります。

これに注目することで『200~350万円』『500~700万円』『1000万円以上』の3つの階級に属する世帯が相対的に多いということがわかります

このように、度数分布表と相対度数を用いると「全てのデータのうち、ある範囲内に存在するデータがどの程度を占めており、どの階級が多いのか」を一目で理解することができます。
さらに、表示されている階級までにどのくらいのデータが存在しているのか、も理解することができます。

例えば、所得金額階級が「400~450」の欄を見ると、累積度数が「51.0」となっており、この階級まで(つまり、世帯年収が450万円まで)の世帯が全世帯の55%を占めている、ということがわかります。

同様に累積度数を見ると、世帯年収が900万円までの世帯が全世帯の83.7%を占めていることや、逆を言えば900万円以上の世帯が16.3%(100 – 83.7)占めているといったこともわかります。

このように、度数分布表を見ることで、データ中にある偏りや散らばりといった特徴を掴むことができます。

まとめ

  • 度数分布表とはデータを決められた範囲ごとに分割し集計したもの
  • 度数分布表を見ることで、データ中にある偏りや散らばりといった特徴を掴むことができる

今回の記事で、度数分布表とは何かを理解し、データの特徴の把握の仕方を身に着けていただけたでしょうか? 

なお、ここで記載したデータは、日本における全世帯の所得に関する示唆がとっても含まれているものとなっていますね。このデータからは今回の記事に取り上げたもの以外にも多くの情報を含んでいます。この度数分布表を用いた、「日本における全世帯別所得に関する分析」については、近日中に別記事にて紹介させていただきます。是非覗いてみて下さい。

また、度数分布表と対をなすグラフに「ヒストグラム」という棒グラフがあります。ヒストグラムに関しては、当ブログ内の『ヒストグラム 〜経営の現状を見える化する超強力なグラフ』で説明していますので、こちらもぜひご覧ください。

データを整理、可視化して、みんなで議論できるようにするところから、明らかになった課題解決のために、何をすべきか作戦するためのデータ分析まで、かっこでは分かりやすく一緒に取組んでいきます。ぜひお気軽にかっこのデータサイエンスまでご相談ください。
よりお手軽にデータ分析に着手することができる「さきがけKPI」というサービスもございます。ご検討ください。

ピックアップ記事

  1. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  2. こんなときには異常検知
  3. 優良顧客を見つける「RFM分析」の考え方と使い方
  4. 知っておきたいAIの理想と現実
  5. 学生をデータサイエンティストに育てる4つのポイント

関連記事

  1. 統計

    こんなにも使える、単純集計とクロス集計の活用法

    この記事ではアンケートなどで得られたデータを整理する方法である、単純集…

  2. 統計

    確率を予測する「ロジスティック回帰」とは

    何らかの行動を起こす必要があるとき、「成功する確率」や「何をすれば成功…

  3. 統計

    なんでも平均でいいの?

    子どもの頃から馴染みがあって、使いやすいため、「平均」ということばは、…

  4. 統計

    成果をあげるためのアクションに、優先順位を与えてくれる「オッズ比」の使い方

    みなさんオッズ比ってご存じでしょうか?売上や利益をあげるために…

  5. 統計

    起きることの必然性を統計学で裏付ける!「検定」の使い方!

    かっこ株式会社のデータサイエンス事業部でインターンをしている松中です。…

  6. 統計

    こんなときには異常検知

    データを観測・解析していくと、ごく少数現れる特異な状態に気づくことがし…

カテゴリー

おすすめ記事

  1. 確率を予測する「ロジスティック回帰」とは
  2. データサイエンスを現場の敵にしないために
  3. 優良顧客を見つける「RFM分析」の考え方と使い方
  4. 箱ひげ図 について超カンタンに解説してみた
  5. 知っておきたいAIの理想と現実
  1. topics

    データ分析を使って、東急東横線沿線で楽器弾きのための家探しをしてみた
  2. 分析

    今からとる行動が及ぼす影響の大きさを、数値で予測してくれる「回帰分析」のお話し
  3. 統計

    度数分布表から、データの傾向を把握しよう
  4. 統計

    優良顧客を見つける「RFM分析」の考え方と使い方
  5. RPA

    面倒な作業は機械にやらせよう、RPAのおはなし
PAGE TOP