統計

データをみるなら知っておきたい!標準偏差!

かっこ株式会社のデータサイエンス事業部でインターンをしている松本です。

みなさんは、学生時代「偏差値」を気にして勉強していませんでしたか?しかし、あの「偏差値」がどんなものなのか、正確に理解できているでしょうか。今回は、「偏差値」の考え方に使われているものの、いまさら、聞けない「標準偏差」がどんなものなのかについて、ビジネスシーンでの活用例を交えながら、誰でも理解できるように説明していきたいと思います。

「偏差値」とは何だったのか?

とある高校で100人のクラスに対して、2つのテストを実施したとします。その結果、2つのテストの平均点はどちらも50点で、A君は2つのテストで60点を取得しました。

一見すると、A君は2つのテストで同じ成績を収めたように思えます。しかしながら、同じ点数でも、「偏差値」は同じににならないという経験を、皆さんお持ちでは無いでしょうか。

そうです、平均点が同じだとしても、「偏差値」によって、この60点が表す成績の良さは異なります。実は、1つ目のテストでのA君の偏差値は57、2つ目のテストでの偏差値は63でした。同じ60点でも、偏差値57の60点と偏差値63の60点では全く意味が違います。

ではなぜ、平均点が同じなのに偏差値は違うのか。それは、テストを取る点数の「ばらつき」に差があるからです。このばらつきを示す指標が「標準偏差」です。

具体的に、このテストを受けた人たちの点数を見える化しながら、「偏差値」の謎に迫りつつ、「標準偏差」という考え方を理解していきましょう。

 

「データのばらつき」を表す「標準偏差」

標準偏差は、先ほども説明した通り、「データのばらつきを表す指標」です。先ほどのテストを例に標準偏差を見てみましょう。

先ほどの2つのテストで各点数を取った人の人数は、下のグラフのようになりました。


上のグラフの標準偏差は15点で、下のグラフの7.5点より大きい値になっています。また、上のグラフの方が10点から85点程度まで満遍なく人数が散っていていることがわかると思います。これが、標準偏差は「データのバラつきを表す指標」だと説明した理由です。

このグラフはヒストグラムと呼ばれていて、データの分布がどのような形をしているかを確認するときに重宝されます。例えば、次のグラフで赤線を見ると、40-44点を取った人が11人いることが分かります。なおヒストグラムについては別記事で紹介していますので、こちらを御覧ください。標準偏差を見れば、ヒストグラムを見なくても、「データのバラつき」というデータの性質を数値で把握することができるのです。しかし、そもそも標準偏差って言葉が分かりづらいですよね。

標準偏差とは「偏差の標準」です。・・・え?全然わからない?

偏差とは「あるデータが平均からどれくらいズレているか」を意味します
例えば、先ほどの2つのテストの場合、A君の偏差は両方とも10点ということになります。つまり、標準偏差の値は「データ全体を俯瞰したときに、どの程度のズレ(偏差)が、“標準的“と言えるのかを示す値」と言えます。この性質を利用して算出されるのが、「偏差値」です。

偏差値で理解する標準偏差の便利さ

標準偏差がどんなものなのか分かったところで、「2つのテストの60点の価値」を推し量っていきましょう。先ほどのふたつのテストについてのグラフに戻ります。

上のグラフのテストで60点を取ることと、下のグラフのテストで60点を取ることはどちらがすごいのでしょうか。グラフをパッとみると、どちらも大して人数が変わらないように思えます。

上のグラフのテストでは、平均点から±15点のズレが標準的であることが分かります。
下のグラフのテストでは、平均点から±7.5点のズレが標準的であることが分かります

それぞれの「標準的」の範囲に比べて、どれくらい高い点を取ったかを考えると、どちらのテストで高い点を取ることが、すごいのか分かるのではないでしょうか。

この考え方で算出される値が「偏差値」です。

偏差値は、「データの中でどれくらいの位置にいるか」を表す指標で、標準偏差と平均を使って計算します。

学力を表す偏差値は、50を基準とすることが普通なので、平均点を取れば偏差値は50となります。ちなみに、上のグラフのテストで60点を取った場合の偏差値は56.7で、下のグラフのテストで60点を取った場合の偏差値は63.3になります。下のグラフのテストで60点を取った場合の方が優秀であることが分かります。

 

さて、ここまでで標準偏差と偏差値について、どんなものかイメージできたと思うのですが、まだ「そんなの知ってても何も得しないでしょ」とお考えかもしれません。いやいや、そんなことないのです。
ビジネスシーンでも活用ができる場があります。最後に、標準偏差がどんなシーンで使えるのか、紹介したいと思います。

標準偏差のビジネスでの使い道

「標準偏差」を考えることによって、平均±標準偏差を大きく上/下回るものは「標準でない」と言えることが、テストの例で分かっていただけたと思いますこれをビジネスに当てはめることで、以下のような使い道が考えられます。

ロイヤルカスタマーの発見や定義

昨年1年間における顧客別売上において、平均+標準偏差の値を多く上回っている人はロイヤルカスタマーの可能性が高い。

Webサイトのアクセス異常検知

日々のWebアクセスのログを計算。平均+標準偏差の値を大きく上回っている日は「異常値」であり、何かがおこっているのではないか?と推測できる。(DoS攻撃(アクセス負荷をかけサービスを妨害する手法)を受けているのかもしれないし、マスメディアで紹介されたからかもしれない。)

その他にも、小売店において、商品の在庫がxx個を下回ったら商品を発注する、という発注点の計算にも使われることがあるなど、実は、ビジネスにおいていろいろなシーンで活用されている考え方です。

どうでしょうか、「データのばらつき」を数値として定量的に表すことで、ビジネスシーンで感覚的・人力でやっていた判断が客観的になり、さらには仕組にして、自動化できるようになることもあるのです!

 

まとめ

  • 「標準偏差」は、平均値では把握できないデータのバラツキを明らかにしてくれる。
  • 「標準偏差」を活用すると異常値を検知したり、ロイヤルカスタマーを定義したり、発注判断を自動化したりすることが出来る

 

今回は、標準偏差を学校でのテストの例やビジネスシーンでの活用例を交えながら説明してみました。標準偏差は、平均値では把握できないデータの性質を数値として知ることができ、それによって異常検知から、ロイヤルカスタマーの定義、発注判断まで、様々な活用シーンがあることをイメージできたと思います。

かっこ株式会社では、お客様のビジネスを深く理解し、実際にデータの整理・可視化・分析を行い、アクションに落としやすい戦略を構築するところまで、お客様に寄り添って取組んでいます。データを使って、ビジネス課題を解決したいと思ったら、「さきがけKPI」というサービスもございますので、ぜひお気軽にご相談ください。

ピックアップ記事

  1. こんなときには異常検知
  2. 知っておきたいAIの理想と現実
  3. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  4. 優良顧客を見つける「RFM分析」の考え方と使い方
  5. 学生をデータサイエンティストに育てる4つのポイント

関連記事

  1. 統計

    2種のデータの関係性を明らかにする「相関」のおはなし

    皆さんは「相関」という言葉を聞いたことがありますか??「相関」はデ…

  2. 統計

    こんなときには異常検知

    データを観測・解析していくと、ごく少数現れる特異な状態に気づくことがし…

  3. 統計

    確率を予測する「ロジスティック回帰」とは

    何らかの行動を起こす必要があるとき、「成功する確率」や「何をすれば成功…

  4. 統計

    利益爆増のためのアクションを発見!「カイ二乗検定」の可能性とは

    データサイエンスという言葉を聞いてみなさんがまず期待するのは、「会社の…

  5. 統計

    ヒストグラム 〜経営の現状を見える化する超強力なグラフ

    データ解析でよく利用されるグラフの1つに、「ヒストグラム」という現状を…

  6. 統計

    優良顧客を見つける「RFM分析」の考え方と使い方

    RFM分析とは小売、サービス業界における顧客分析の1つです。Recen…

カテゴリー

おすすめ記事

  1. 確率を予測する「ロジスティック回帰」とは
  2. データサイエンスを現場の敵にしないために
  3. 優良顧客を見つける「RFM分析」の考え方と使い方
  4. 箱ひげ図 について超カンタンに解説してみた
  5. 知っておきたいAIの理想と現実
  1. 統計

    ヒストグラム 〜経営の現状を見える化する超強力なグラフ
  2. 機械学習

    知っておきたいAIの理想と現実
  3. 統計

    統計学が得意なこと
  4. RPA

    面倒な作業は機械にやらせよう、RPAのおはなし
  5. 分析環境

    大きなデータを安全・便利にやり取りできるAmazonのクラウドストレージ活用法
PAGE TOP