インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

分析

  •  PR 

マーケティングから不正検知まで、データの理解と意思決定を助けてくれる「クラスタリング」とは?

クラスタという言葉そのものには聞き覚えがあるかもしれません。

でも、中身はよく知らないな。

横文字だし難しそうだな〜という印象をお持ちではないでしょうか?

そこで今回は、簡単な例でクラスタリングについて説明していきます。

結論

  • クラスタリングとはグループ化することです。
  • 似た特徴を持つデータをまとめ、複数のグループに分けてくれます。
  • ビッグデータを人間が理解できる特徴に分類し、判断や、意思決定を助けてくれます
  • マーケティングから不正検知まで、様々なシーンで活躍する考え方です。

クラスタリング とは

クラスタというのは、グループを意味しています。

つまり、クラスタリングとは、グループ化です。

これをデータ分析的にいうと、たくさんあるデータからそれぞれのデータを似た特徴を持つもの同士で複数のグループに分けるということになります。

 

似た特徴同士って

では、どのようにして、似た特徴をもつもの同士の組み合わせを作るのでしょう?

今回は購買回数と購買金額に関するお客さまのデータを使って、似た特徴のお客さま同士で、いくつかのグループに分けることを目指します。

今回の例は購買回数と購買金額の2つの変数なので、散布図で、わかりやすく見ることができます。

X軸に購買回数を、Y軸に購買金額として散布図をプロットしてみましょう。

散布図によってこのデータは3つのグループに分かれそうだな、と思いますよね。

視覚的に点同士の近さによって、グループが作れそうですよね。

もうお分かりだと思いますが、似たもの同士と判断するためには、比較するもの同士の距離が大事なのです。

 

では距離の計算について次の例を見ていきましょう。

Aさんは、BさんとCさんどちらに近いでしょうか。

これは中学校で習う三平方の定理を使うことによってできます。

これをAさんとCさんの距離も計算して比較すると、どちらに近いかというのがわかります。クラスタリングでは、このような計算をあらゆる組み合わせで実施し得られた距離の比較によって、近いもの同士をグループ化することができるのです

また、今回は2つの変数で計算していますが、変数がたくさんあっても同様に計算が可能です。

 

一方で今回の例で注意しなければならないのが、購買金額、購買回数の値をそのまま使ってしまうと次のようになります。

購買回数の値が小さすぎて無視されていますね。

 

このようにクラスタリングをする時は、単位によるスケールの差が影響してしまいます。そのためこのスケール差を無視して適切に距離を計算できるように事前に標準化して考えます。

標準化とは、各値について平均を引いて標準偏差で割るという処理を加えることです。

これによって平均0分散1のデータの集まりとなり、単位が異なるデータの集まりであっても、比較ができるようになります。

 

※解析方法によっては機能がないかもしれないので、予めデータを標準化しておきましょう。

どんなことに使えるの?

まず、今回の例のような顧客分析があります。

売上や利益に貢献しているお客さまの特徴と、そうではないお客さまの特徴をグループに分けて作戦する「顧客セグメント」は代表的な使いみちです。

またRFM分析と併用すると、非常に効果的です。

RFM分析によって顧客ごとのRFMを算出後、RFMをもとにクラスタリングを実施するだけで、即座に重要顧客がグループ分け出来ます。

 

市場分析として顧客の属性(性別、年齢、住所、職業等)をグループ化したり、過去にどんな商品やカテゴリを好んで買っているかを基にグループ化するなど、マーケティングの判断材料として様々なシーンに使えます。

 

マーケティング以外の活用方法として、例に挙げたいのが「不正検知」です。

似た特徴のもの同士をグループにするということは、裏を返せば、明らかに特徴の違うもの同士を分けることにも使えるのです(結構大事)。

例えば、不正な取引と正常な取引は、明らかに特徴が違うものなので、それを区別する方法として、クラスタリングは効果的です。

 

このように、クラスタリングは、データ全体に、どのように特徴的なグループがあるのか、人間が理解しやすいシンプルさで明らかにしてくれます。

データの規模が大きすぎて、判断に使うのが難しいビッグデータであっても、人間に理解しやすく整理してくれるため、データに基づく意思決定を助けてくれるのです

 

まとめ

クラスタリングは、データを理解し、人間がそこから意思決定したり、判断するのを助けてくれます。

今回は、マーケティングから、不正検知まで、あらゆるシーンでクラスタリングが活用できることをご紹介しました。

是非ともモノにしたい手法ですね。

かっこの「さきがけKPI」は、ローコスト、短納期で、クラスタリング分析をお手伝いすることもできますので、ぜひ、ご相談ください。

さきがけKPI

ピックアップ記事

  1. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  2. 学生をデータサイエンティストに育てる4つのポイント
  3. 知っておきたいAIの理想と現実
  4. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  5. こんなときには異常検知

関連記事

  1. 分析

    まずはやってみよう!マーケティングでデータ分析!③顧客分析

    前章では、目的の数字に関する基礎集計をしました。これによって、今後の目…

  2. ABC分析とは

    分析

    ABC分析とは?5つのメリットとやり方/手順を解説【D2C事業に役立つ】

    「ABC分析って何のために使えばいいんだろう?」「ABC分析の具体…

  3. ロジスティック回帰分析

    分析

    かんたん解説! ロジスティック回帰の結果の見方と考え方

    「ロジスティック回帰の結果ってどうやって見るの?」「t値?p値?よ…

  4. 分析

    サブスクリプションの利用継続KPIをロジステック回帰分析で明らかに!

    本記事ではロジスティック回帰分析でできることと、効能について、具体的な…

  5. 分析

    今からとる行動が及ぼす影響の大きさを、数値で予測してくれる「回帰分析」のお話し

    経営判断や、次のアクションを決める必要があるときに、「どんな要素が」「…

  6. 分析

    コールセンター運営でやるべきデータ分析とは?3つのメリットと分析方法を徹底解説

    コールセンターのデータ分析ってどうやる? コールセンター…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. 分析

    まずはやってみよう!マーケティングでデータ分析!①イントロダクション
  2. RFM分析のアイキャッチ画像

    統計

    RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  3. 湘南鎌倉エリアの女性向け物件探しをデータサイエンスのチカラでやってみたのアイキャッチ画像

    データ分析例

    湘南鎌倉エリアの女性向け物件探しをデータサイエンスのチカラでやってみた
  4. 用語解説

    Pythonとは?3分で分かる人気の理由と基礎知識
  5. 統計学でできること

    統計

    統計学でできることとは?|統計学の基礎から活用事例まで完全解説!
PAGE TOP