インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

統計

標準偏差とは?データを見るなら知っておくべき求め方や目安

標準偏差のアイキャッチ画像 (1)

「標準偏差ってどうやって求めるの?」
「目安ってどのくらい?」

と、気になりますよね。

標準偏差は簡単な指標であるうえ、ビジネスや偏差値の計算など様々な場面で使用されています。

標準偏差を正しく理解し利用することで、データのばらつき具合を把握し、顧客の特徴などビジネスにとって大切な情報を得られます。

本記事では、

  • 標準偏差の求め方や目安
  • 標準偏差が使える場面

が分かるのでぜひ参考にしてみてください。

かっこのデータサイエンス公式

標準偏差とは

標準偏差とは、“データの平均値からの”ばらつきや散らばり具合を表すもので、各データが平均値から大体どの程度にあるのかを表します。

例えば、ある学校の100人の生徒に2つのテストを実施し、次のような2つのグラフが得られたとします。

標準偏差が15のヒストグラム

↑1つ目のテスト「標準偏差15点」

標準偏差が7.5のグラフ

↑2つ目のテスト「標準偏差7.5点」

これらのグラフでは、平均点は「50点」と同じですが、標準偏差が「15点」と「7.5点」で異なっています。

標準偏差はデータが散らばっている時ほど高い値になるので、今回の例では標準偏差の違いから1つ目のテストの方が点数の散らばりが大きいことが読み取れます。

このように、標準偏差はデータの散らばり具合を把握してデータの特徴を掴むことに用いられるのです。

「偏差値」で分かる「標準偏差」の便利さ

「標準偏差」が便利であることを「偏差値」を参考に説明していきます。

偏差値は「データの中でどれくらいの位置にいるか」を表す指標で、標準偏差と平均を使って計算するため偏差値を出すことで、どちらのテストで高い点を取ることがすごいのかを知れます。

先ほどのテストの例を参考に「2つのテストの60点の価値」を推し量ります。

1つ目のテストでは、平均点から±15点のズレが標準的です。

1つ目のテストで60点のときのヒストグラム

↑1つ目のテストで60点

2つ目のテストでは、平均点から±7.5点のズレが標準的です。

2つ目のテストで60点のヒストグラム

↑2つ目のテストで60点


この情報だけだと、A君は2つのテストで同じ成績を収めたように思えます。 しかし、平均点と収めた点数が同じだとしても、「偏差値」によってこの60点が表す成績の良さは異なります。

それぞれの「標準的」の範囲に比べてどれくらい高い点を取ったかを考えると、どちらのテストで高い点を取ることがすごいのかが分かります

この考え方で算出される値が「偏差値」なのです。

学力を表す偏差値は、50を基準とすることが普通なので、平均点を取れば偏差値は50となります。

ちなみに、1つ目ののテストで60点を取った場合の偏差値は56.7で、2つ目のテストで60点を取った場合の偏差値は63.3になります。2つ目のテストで60点を取った場合の方が優秀であることが分かります。

標準偏差が使える3つの場面

標準偏差が使える3つの場面

標準偏差はデータの特徴を掴めることから、ビジネスや学校などさまざまな場面で使われています。

この標準偏差が使える場面は主に以下3つの場面です。

  • ロイヤルカスタマーを見つけ出したい時
  • Webサイトのアクセス数の異常を検知する時
  • 自分の学力がどのくらいか把握したい時

それぞれ解説していきます。

ロイヤルカスタマーを見つけ出したい時

ロイヤルカスタマーを見つけ出したい時に標準偏差が用いられます。

ロイヤルカスタマーとは、多くの商品を購入してくれ自社に信頼を寄せてくれている顧客のことです。

企業にとって、ロイヤルカスタマーがどれだけ離れないようにするかは重要な問題です。

標準偏差を用いることで、購買金額の平均値+標準偏差を超える金額を支払ってくれている顧客(ロイヤルカスタマー)を見つけ出すことができます。

グラフに表すと以下のようになります。

ロイヤルカスタマーの例のグラフ

このように、それぞれの顧客に対して平均値+標準偏差の金額を超えているか超えていないかを見える化することができます。

その結果、ロイヤルカスタマーになる人の特徴を分析し、ロイヤルカスタマーの新規獲得に向けた施策を考えることもできます。

Webサイトのアクセス数の異常を検知する時

Webサイトのアクセス数の異常を検知する時にも標準偏差が重要になります。

Webサイトのアクセス数の異常を検知できなければ、もし自社のサイトが攻撃を受けていたとしても把握できない状態になります。

標準偏差を用いることで、アクセス数の異常を検知できるようにすることで、サイトのダウンや障害を防げるのです。

こちらもグラフに表してみましょう。

webサイトのアクセス数の異常検知を取り上げた例

このように平均値+標準偏差にしきいを設けておくと、2月6日が異常な値になっていることが読み取ることができます。

その結果、異常なアクセスの原因を特定するために分析を行うことなどが可能です。

自分の学力がどのくらいか把握したい時

学校のテストで自分の学力がどの程度に位置しているのかを調べることにも標準偏差が使えます。

例えば、あなたが60点のテストの点数の分布が以下のグラフであったとします。

標準偏差が7.5のグラフ

もし、標準偏差を知らなければ、平均点が50点であなたの点数が60点のため、そこまでよい点数ではないれいとsと考えてしまいます。

しかし、標準偏差が7.5であると求めることで、あなたの点数は57.5点(平均値+標準偏差の点数)より高いことが分かり、良い点数なのだと自信を持てます。

このように、自分の学力を客観的に判断するために標準偏差が用いられます。

学力の指標として偏差値がありますが、偏差値の計算にも標準偏差が使われています。

標準偏差の求め方4ステップ

標準偏差が使える場面について知ったところで、標準偏差の求め方に移りましょう。

標準偏差は次のような公式になります。

\[ 標準偏差(\sigma) = \sqrt{(\sum_{i=1}^{n}(x_i – \mu)^2) \div n} \]

この式を求めるために以下の4ステップを踏みます。

  1. データの平均値を求める
  2. データ点と平均値の差(偏差)を求める
  3. データの分散を求める
  4. データの標準偏差を求める

これらのステップを踏めば、簡単に標準偏差を求めることができます。

それぞれ解説していきます。

STEP1. データの平均値を求める

まず、データの平均値を求めましょう。

標準偏差の公式では、\( \mu \)が平均値を示す定数です。

\[ 平均値(\mu) = (\sum_{i=1}^{n}x_i) \div n \]

上記の式のように、データの全ての値を合計し、データの数で割ることで平均値を求めます。

STEP2. データ点と平均値の差(偏差)を求める

平均値を求めたら、その平均値を使って偏差を求めます。

偏差とは、データ点と平均値との差のことです。

\[ 偏差 = x_i – \mu \]

上記の式は1つのデータ点に対する偏差です。

偏差は次の分散の式で用います。

STEP3. データの分散を求める

データの分散は、偏差を二乗して平均を求めることで算出します。

偏差を二乗するのは、偏差は各データ点から平均を引いていることで合計すると0になってしまうためです。

二乗することですべての値を正の値にして、合計しても0にならないようにするのです。

\[ 分散(\sigma^2) = (\sum_{i=1}^{n}(x_i – \mu)^2) \div n \]

上記の式が分散の式です。

ここまで求めたらあと少しです。

STEP4. データの標準偏差を求める

分散の平方根を求めることで、データの標準偏差を計算します。

平方根とは二乗の逆の操作で、分散の計算で二乗した部分を打ち消す操作を標準偏差の計算で行います。

\[ 標準偏差(\sigma) = \sqrt{(\sum_{i=1}^{n}(x_i – \mu)^2) \div n} \]

冒頭で示したように標準偏差の式にたどり着きました。

それぞれの変数に値を入れれば標準偏差が求まります。

標準偏差をエクセルで求める方法

標準偏差はエクセルで簡単に求められます。

標準偏差の求め方4ステップで示したように、標準偏差の計算には二乗や平方根を求めるところがあり、大量のデータの標準偏差を手計算で求めることは難しいです。

そのため、エクセルなどのツールでは標準偏差を求めるための関数が用意されています。

エクセルの関数は主に2つです。

  • STDEV.P関数
  • STDEV.S関数

どちらを使うかで標準偏差の値が大きく変わります。

それぞれ解説します。

STDEV.P関数を用いる方法

STDEV.P関数は調べたいデータがすべて揃っている場合の標準偏差を求める関数です。

例えば、学校で行ったテストの標準偏差が知りたいとして、生徒の点数のデータがすべて手元にあれば、STDEV.P関数を用います。

=STDEV.P(対象となる範囲を選択)

で標準偏差を求められます。

STDEV.S関数を用いる方法

STDEV.S関数は、調べたいデータの一部しか手元にない場合に調べたいデータ全体の標準偏差を求める関数です。

例えば、全国規模のテストの標準偏差を知りたいのに、あなたの学校で行ったテストの点数のデータしか手元にない場合に用います。

=STDEV.S(対象となる範囲を選択)

で全体のデータの標準偏差が求められます。

どちらの関数を使うかによって大きく結果が変わることがあるため、注意しましょう。

まとめ

標準偏差は、データのばらつきや散らばり具合を表すものです。

標準偏差を求めることで役に立つ場面は多くあります。

この記事では例として以下の3つを取り上げました。

  • ロイヤルカスタマーを見つけ出したい時
  • Webサイトのアクセス数の異常を検知する時
  • 自分の学力がどのくらいか把握したい時

平均値±標準偏差の値は特殊な値であるため、異常な値であると判断でき、ロイヤルカスタマーやアクセス数の異常を検知できます。

標準偏差は以下の4STEPで求められます。

  1. データの平均値を求める
  2. データ点と平均値の差(偏差)を求める
  3. データの分散を求める
  4. データの標準偏差を求める

標準偏差の公式を覚えるだけでなく、公式にたどり着くまでの流れまで把握するようにしましょう。

ビジネスシーンにおいては標準偏差をエクセルなどのツールを用いて計算します。

エクセルの関数は以下の2つです。

  • STDEV.P関数
  • STDEV.S関数

これらの関数はそれぞれ、状況によって使い分けることが必要です。

もし自社で、「標準偏差などのさまざまな指標から顧客の特徴を掴みたい…」「そもそもデータをどのように扱っていいか分からない…」というお悩みがあれば、『かっこのデータサイエンス』にお問合せください。

状況のヒアリングを行い、お持ちのデータから顧客分析や課題点の洗い出しを行います。

サンプルデータの確認や課題の洗い出しまで無料で承っていますのでお気軽にご相談ください。(※データの集計や本データの分析、改善の実施には費用がかかります。)

詳細は以下のページからご確認ください。

かっこのデータサイエンス公式

ピックアップ記事

  1. 知っておきたいAIの理想と現実
  2. 学生をデータサイエンティストに育てる4つのポイント
  3. こんなときには異常検知
  4. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  5. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた

関連記事

  1. 度数分布表のアイキャッチ画像

    統計

    5分で分かる度数分布表|平均値などの求め方やエクセルでの作成手順

    度数分布表とはデータを決められた範囲ごとに分割し集計したものです。本記…

  2. 統計

    こんなときには異常検知

    データを観測・解析していくと、ごく少数現れる特異な状態に気づくことがし…

  3. 統計

    統計学が得意なこと

    かっこのデータサイエンスサービスで、よく使っている技術として、統計や機…

  4. 統計

    データの関係性がパッと見でわかる「散布図」

    散布図とは、2つのデータの関係性をパッと見ただけで把握することができる…

  5. RFM分析のアイキャッチ画像

    統計

    RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】

    RFM分析は、顧客の行動を分析し、効果的な施策を行うための判断となる分…

  6. 統計

    箱ひげ図について超カンタンに解説してみた

    「箱ひげ図ってどう見るのが正解?」と気になりませんか?中高の数…


おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. データサイエンスとはのアイキャッチ画像_改案

    用語解説

    データサイエンスとは?再度注目された背景や身近な例を分かりやすく解説
  2. インターン体験記

    全力で食らいついたかっこでの1年間
  3. インターン体験記

    データサイエンティストの夢を叶えたインターンシップ
  4. 分析

    マーケティングから不正検知まで、データの理解と意思決定を助けてくれる「クラスタリ…
  5. 分析

    まずはやってみよう!マーケティングでデータ分析!②必要なデータと基礎集計
PAGE TOP