インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

統計

箱ひげ図での外れ値の判定方法について優しく解説

「どうして箱ひげ図は外れ値を見つけやすいの?」
「外れ値と異常値ってどう違う?」

と、気になりますよね。

箱ひげ図では、一般的に第1四分位数から四分位範囲の1.5倍以上離れた値、または第3四分位数から四分位範囲の1.5倍以上離れた値を外れ値として、箱ひげ図のひげの外側に小さな点や丸で表示されます。

そのため外れ値が非常に見つけやすく、初期段階で「異常なデータ(外れ値)」に気づくことができます。

この記事ではさらに詳しく、

  • 箱ひげ図の外れ値を扱うときの注意点2つ
  • 箱ひげ図で外れ値を判定する3つの手順

についてお伝えしていきます。ぜひ参考にしてみてください。

かっこのデータサイエンス公式

箱ひげ図の外れ値とは

箱ひげ図(ボックスプロット)は、データの分布・中央値・ばらつき・外れ値を視覚的に表す統計グラフです。

そして、外れ値とは、データの中で他の値から大きく外れた極端に小さな値、あるいは極端に大きな値のことを指します。

外れ値は統計的に「異常な値」とみなされ、箱ひげ図では通常、ひげの範囲外に小さな点や丸として描かれるのが一般的です。

箱ひげ図の基本的な見方

まず、箱ひげ図の基本的な見方について解説していきます。

箱ひげ図は、「5数要約」と呼ばれる以下の5つの数値を使ってデータの分布を可視化します。

  • 最小値: 外れ値を除いたデータの中で最も小さい値
  • 第1四分位数(Q1): データを小さい順に並べたとき、全体の25%の位置にくる値
  • 中央値・第2四分位数(Q2):データを小さい順に並べたとき、 データの中央(全体の50%)にくる値
  • 第3四分位数(Q3) :データを小さい順に並べたとき、全体の75%の位置にくる値
  • 最大値 :外れ値を除いたデータの中で最も大きい値

四分位数とは、小さい順に並べたデータを4等分する際の3つの区切り値(25%/50%/75%)のことです。

また、Q3からQ1を引いた値を四分位範囲(IQR)と呼び、データの中央部分50%の範囲を指します。

四分位数の求め方については、『箱ひげ図で外れ値を判定する3つの手順』の章で詳しく解説しています。

外れ値と異常値の違い

外れ値は「データの分布において他の値から極端に離れた値」であることを解説してきました。

外れ値と同じ意味で使われる用語に、異常値があります。

外れ値も異常値も、英語では「outlier」と表現するので混同されがちですが、より厳密にいうと異常値は「外れ値の中で、記入ミスや測定ミスなど値が大きく外れた原因がわかっているもの」を指します。

例えば、小学生の身長データをまとめる際に150cmを誤って1500cmと入力としていた場合は入力ミスによる異常値といえます。

上の例のように、値が大きく外れた原因が明確な異常値であれば、データから除外してしまっても問題ありません。

箱ひげ図で外れ値を扱うときの注意点2つ

外れ値は、データの質を大きく左右するため、扱う際には判断や処理に注意が必要です。

具体的な注意点として、

  • 【注意点1】外れ値により分析精度が低下する恐れがある
  • 【注意点2】外れ値は必ずしも除外対象ではない

の2つが挙げられるので、順に解説していきます。

【注意点1】外れ値により分析精度が低下するおそれがある

他のデータと大きくかけ離れている外れ値は、データ全体の平均や傾向をゆがませる可能性があります。

例えば、クラスのテスト点数が全体的に70〜80点の中で、1人だけ10点を取っていると、平均点が下がりすぎて実際の学力分布が正しく把握できなくなります。

平均・比率・割合などを求めたい場合には、上の例のような影響の大きい外れ値を除外することでより正確な分析結果が得られます。

ただし、次の【注意点2】で解説するように、外れ値が実際に意味のあるデータである場合もあるため、外れ値の性質をよく確認したうえで判断することが重要です。

【注意点2】外れ値は必ずしも除外対象ではない

外れ値だからといって無条件に除外するのではなく、まずは「なぜ外れ値が発生したのか」の原因を特定し、異常値なのか、もしくは重要な出来事を示している値なのかを見極めましょう。

例えば、ある店舗だけ先月の売上が他の店舗よりも突出して高く、なぜそうなったのか改めて分析した結果新しい販促施策の影響だとわかれば、他の店舗でもその施策を応用することで企業全体の売上が向上する可能性が出てきます。

新しいビジネスチャンスの発見や、異常検知・トラブルの早期発見に繋がる可能性もあるため、一概に外れ値を除外すればよいとは言い切れません。

外れ値がデータ全体にどのような影響を与えるのか、またどのように処理するべきかを理解してから、分析目的に応じた適切な処理方法を選ぶといいでしょう。

箱ひげ図で外れ値を判定する3つの手順

外れ値を正確に把握するために、正しい手順で箱ひげ図を作成しましょう。

箱ひげ図では主に、四分位範囲とひげの範囲を使って外れ値の判断を行います。

  • 【手順1】四分位間の距離を計算する
  • 【手順2】ひげの上下限を計算する
  • 【手順3】ひげの範囲から外れた値を外れ値と判定する

箱ひげ図で外れ値を判定する方法を、上記3つの手順で解説します。

【手順1】四分位間の距離を計算する

あるクラスの小テストの点数が「0,1,1,2,3,5,8,9,9,10」だった場合を例にして見てみましょう。

まず、データを小さい順に並べ、中央値となるQ2から求めます。

今回はデータ数が偶数個のため、「(3+5)/2」でQ2は「4」です。

Q2の次に、第1四分位数・Q1(25%)と第3四分位数・Q3(75%)を求めます。

今回の例だと、Q1は「0,1,1,2,3,」の中央値の「1」で、Q3は「5,8,9,9,10」の中央値の「9」です。

次に、『箱ひげ図の基本的な見方』の章でも触れたとおり、Q3からQ1を引いた値が四分位間範囲(IQR)なので、ここでは「9−1=8」になります。

【手順2】ひげの上下限を計算する

ひげの範囲は、下限は「Q1-1.5×IQR」、上限は「Q3+1.5×IQR」で求めます。

ここでは下限は「1-1.5×8=-11」、上限は「9+1.5×8=21」になり、-11~21の範囲外のデータが外れ値となります。

【手順3】ひげの範囲から外れた値を外れ値と判定する

箱ひげ図では基本的に、外れ値はひげの外に点や記号で表現されます。

今回のデータには、−11より小さい値も、21より大きい値もないため、外れ値はありません。

このように箱ひげ図で表すことで、外れ値が存在しないことが視覚的にもわかります。

箱ひげ図はExcel(エクセル)でも作成できる

Excelでも、以下の手順で簡単に箱ひげ図を作成することが可能です。

Excelでの箱ひげ図の作り方
【手順①】Excelのシートに、縦方向(列)にデータを入力する
【手順②】入力したセル範囲を選択し、挿入タブから統計グラフの箱ひげ図を選択
【手順③】必要に応じて見た目を調整する

Excelでの箱ひげ図の詳しい作り方については『箱ひげ図を使うメリット・デメリットや実際の作り方を解説』の記事をご参照ください。

また、Excelの箱ひげ図で外れ値を表示する設定は、通常はデフォルトで有効になっていますが、非表示になっている場合や表示方法を変更したい場合は以下の手順で設定できます。

上の図は、外れ値が表示されている状態です。

【手順①】「データ系列の書式設定」を開く

グラフ上で右クリックしてから「データ系列の書式設定」を選択すると、右側に設定画面が表示されます。

グラフの上でダブルクリックをしても、同じように「データ系列の書式設定」が表示されます。

【手順②】「特異ポイントを表示する(O)」にチェックが入っているか確認

書式設定ウィンドウの「系列のオプション」タブから、「特異ポイントを表示する(O)」を確認しましょう。

外れ値を表示したい場合はチェックを入れ、非表示にしたい場合はチェックを外します。

これで外れ値が非表示になりました。

平均マーカーや平均線も、外れ値と同じく「データ系列の書式設定」から簡単に表示・非表示を設定できます。

まとめ

今回は、箱ひげ図での外れ値の判定方法や、外れ値と異常値の違いなどを解説しました。

箱ひげ図で外れ値を扱う際は、

  • 【注意点1】外れ値により分析精度が低下するおそれがある
  • 【注意点2】外れ値は必ずしも除外対象ではない

上の2点に注意して、値が大きく外れた原因やデータ分析を行う目的を考慮して、外れ値を除外するかどうか慎重に判断するといいでしょう。

箱ひげ図で外れ値を判定する手順は、以下の通りです。

  • 【手順1】四分位間の距離を計算する
  • 【手順2】ひげの上下限を計算する
  • 【手順3】ひげの範囲から外れた値を外れ値と判定する

箱ひげ図は、データの特徴や分布を把握するのに便利なグラフなので、外れ値も見つけやすいです。

新たなビジネスチャンスの発見や、異常・トラブルの早期察知につなげるために、まずはデータ分析を正しく活用することが重要です。

「もともとデータ分析が得意!」「知識に自信はないけど、統計っておもしろそう!」などなど、少しでも興味が沸いた人はかっこ株式会社のインターンに参加してみませんか?

ぜひ『データサイエンス未経験でもOK!学生3人が語るかっこのインターンの魅力とは?』の記事もご参照ください。

ピックアップ記事

  1. こんなときには異常検知
  2. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  3. 学生をデータサイエンティストに育てる4つのポイント
  4. 知っておきたいAIの理想と現実
  5. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】

関連記事

  1. 統計

    成果をあげるためのアクションに、優先順位を与えてくれる「オッズ比」の使い方

    みなさんオッズ比ってご存じでしょうか?売上や利益をあげるために…

  2. 統計

    データの関係性がパッと見でわかる「散布図」

    散布図とは、2つのデータの関係性をパッと見ただけで把握することができる…

  3. 統計

    起きることの必然性を統計学で裏付ける!「検定」の使い方!

    かっこ株式会社のデータサイエンス事業部でインターンをしている松中です。…

  4. 統計

    2種のデータの関係性を明らかにする「相関」のおはなし

    皆さんは「相関」という言葉を聞いたことがありますか??「相関」はデ…

  5. 統計

    箱ひげ図について超カンタンに解説してみた

    「箱ひげ図ってどう見るのが正解?」と気になりませんか?中高の数…

  6. なんでも平均でいいの?

    統計

    なんでも平均でいいの?中央値と平均値をどう使い分けるか

    「なんでも平均でいいの?」「平均値や中央値ってどう使い分けるの?」…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. ロジスティック回帰分析のアイキャッチ画像

    分析

    ロジスティック回帰分析とは?使える場面や実装まで徹底解説!
  2. インターン体験記

    データサイエンス専門外の学生も挑戦できるインターン
  3. インターン体験記

    夏季インターン全落ちだった僕が内定を勝ち取るまで
  4. 分析

    サブスクリプションの利用継続KPIをロジステック回帰分析で明らかに!
  5. バスケット分析のアイキャッチ画像

    分析

    バスケット分析とは?商品分析の例やエクセルでのやり方を解説
PAGE TOP