分析

マーケティングから不正検知まで、データの理解と意思決定を助けてくれる「クラスタリング」とは?

クラスタという言葉そのものには聞き覚えがあるかもしれません。

でも、中身はよく知らないな。

横文字だし難しそうだな〜という印象をお持ちではないでしょうか?

そこで今回は、簡単な例でクラスタリングについて説明していきます。

結論

  • クラスタリングとはグループ化することです。
  • 似た特徴を持つデータをまとめ、複数のグループに分けてくれます。
  • ビッグデータを人間が理解できる特徴に分類し、判断や、意思決定を助けてくれます
  • マーケティングから不正検知まで、様々なシーンで活躍する考え方です。

クラスタリング とは

クラスタというのは、グループを意味しています。

つまり、クラスタリングとは、グループ化です。

これをデータ分析的にいうと、たくさんあるデータからそれぞれのデータを似た特徴を持つもの同士で複数のグループに分けるということになります。

 

似た特徴同士って

では、どのようにして、似た特徴をもつもの同士の組み合わせを作るのでしょう?

今回は購買回数と購買金額に関するお客さまのデータを使って、似た特徴のお客さま同士で、いくつかのグループに分けることを目指します。

今回の例は購買回数と購買金額の2つの変数なので、散布図で、わかりやすく見ることができます。

X軸に購買回数を、Y軸に購買金額として散布図をプロットしてみましょう。

散布図によってこのデータは3つのグループに分かれそうだな、と思いますよね。

視覚的に点同士の近さによって、グループが作れそうですよね。

もうお分かりだと思いますが、似たもの同士と判断するためには、比較するもの同士の距離が大事なのです。

 

では距離の計算について次の例を見ていきましょう。

Aさんは、BさんとCさんどちらに近いでしょうか。

これは中学校で習う三平方の定理を使うことによってできます。

これをAさんとCさんの距離も計算して比較すると、どちらに近いかというのがわかります。クラスタリングでは、このような計算をあらゆる組み合わせで実施し得られた距離の比較によって、近いもの同士をグループ化することができるのです

また、今回は2つの変数で計算していますが、変数がたくさんあっても同様に計算が可能です。

 

一方で今回の例で注意しなければならないのが、購買金額、購買回数の値をそのまま使ってしまうと次のようになります。

購買回数の値が小さすぎて無視されていますね。

 

このようにクラスタリングをする時は、単位によるスケールの差が影響してしまいます。そのためこのスケール差を無視して適切に距離を計算できるように事前に標準化して考えます。

標準化とは、各値について平均を引いて標準偏差で割るという処理を加えることです。

これによって平均0分散1のデータの集まりとなり、単位が異なるデータの集まりであっても、比較ができるようになります。

 

※解析方法によっては機能がないかもしれないので、予めデータを標準化しておきましょう。

どんなことに使えるの?

まず、今回の例のような顧客分析があります。

売上や利益に貢献しているお客さまの特徴と、そうではないお客さまの特徴をグループに分けて作戦する「顧客セグメント」は代表的な使いみちです。

またRFM分析と併用すると、非常に効果的です。

RFM分析によって顧客ごとのRFMを算出後、RFMをもとにクラスタリングを実施するだけで、即座に重要顧客がグループ分け出来ます。

 

市場分析として顧客の属性(性別、年齢、住所、職業等)をグループ化したり、過去にどんな商品やカテゴリを好んで買っているかを基にグループ化するなど、マーケティングの判断材料として様々なシーンに使えます。

 

マーケティング以外の活用方法として、例に挙げたいのが「不正検知」です。

似た特徴のもの同士をグループにするということは、裏を返せば、明らかに特徴の違うもの同士を分けることにも使えるのです(結構大事)。

例えば、不正な取引と正常な取引は、明らかに特徴が違うものなので、それを区別する方法として、クラスタリングは効果的です。

 

このように、クラスタリングは、データ全体に、どのように特徴的なグループがあるのか、人間が理解しやすいシンプルさで明らかにしてくれます。

データの規模が大きすぎて、判断に使うのが難しいビッグデータであっても、人間に理解しやすく整理してくれるため、データに基づく意思決定を助けてくれるのです

 

まとめ

クラスタリングは、データを理解し、人間がそこから意思決定したり、判断するのを助けてくれます。

今回は、マーケティングから、不正検知まで、あらゆるシーンでクラスタリングが活用できることをご紹介しました。

是非ともモノにしたい手法ですね。

かっこの「さきがけKPI」は、ローコスト、短納期で、クラスタリング分析をお手伝いすることもできますので、ぜひ、ご相談ください。

さきがけKPI

ピックアップ記事

  1. こんなときには異常検知
  2. 学生をデータサイエンティストに育てる4つのポイント
  3. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  4. 知っておきたいAIの理想と現実
  5. 優良顧客を見つける「RFM分析」の考え方と使い方

関連記事

  1. 分析

    かんたん解説! ロジスティック回帰の結果の見方と考え方

     統計学の心得が無いビジネスマンにも、分析結果の読み方が理解できれば、…

  2. 分析

    今からとる行動が及ぼす影響の大きさを、数値で予測してくれる「回帰分析」のお話し

    経営判断や、次のアクションを決める必要があるときに、「どんな要素が」「…

  3. 分析

    まずはやってみよう!マーケティングでデータ分析!③顧客分析

    前章では、目的の数字に関する基礎集計をしました。これによって、今後の目…

  4. 分析

    まずはやってみよう!マーケティングでデータ分析!①イントロダクション

    まずは自社でデータ分析をやるべきデータ分析を会社で活かせていますか…

  5. 分析

    それ分析じゃなく集計ですから

    データ分析に取り組んでいるけど、まるで成果が上がらない、こんなことやっ…

  6. 分析

    サブスクリプションの利用継続KPIをロジステック回帰分析で明らかに!

    本記事ではロジスティック回帰分析でできることと、効能について、具体的な…

カテゴリー

おすすめ記事

  1. 確率を予測する「ロジスティック回帰」とは
  2. データサイエンスを現場の敵にしないために
  3. 優良顧客を見つける「RFM分析」の考え方と使い方
  4. 箱ひげ図 について超カンタンに解説してみた
  5. 知っておきたいAIの理想と現実
  1. topics

    データ分析を使って、東急東横線沿線で楽器弾きのための家探しをしてみた
  2. 分析

    今からとる行動が及ぼす影響の大きさを、数値で予測してくれる「回帰分析」のお話し
  3. 組織

    データサイエンスを現場の敵にしないために
  4. 分析環境

    大きなデータを安全・便利にやり取りできるAmazonのクラウドストレージ活用法
  5. 機械学習

    決定木でデータドリブンに、ビジネスを成功させる判断基準を作ろう
PAGE TOP