インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

分析

マーケティングから不正検知まで、データの理解と意思決定を助けてくれる「クラスタリング」とは?

クラスタという言葉そのものには聞き覚えがあるかもしれません。

でも、中身はよく知らないな。

横文字だし難しそうだな〜という印象をお持ちではないでしょうか?

そこで今回は、簡単な例でクラスタリングについて説明していきます。

結論

  • クラスタリングとはグループ化することです。
  • 似た特徴を持つデータをまとめ、複数のグループに分けてくれます。
  • ビッグデータを人間が理解できる特徴に分類し、判断や、意思決定を助けてくれます
  • マーケティングから不正検知まで、様々なシーンで活躍する考え方です。

クラスタリング とは

クラスタというのは、グループを意味しています。

つまり、クラスタリングとは、グループ化です。

これをデータ分析的にいうと、たくさんあるデータからそれぞれのデータを似た特徴を持つもの同士で複数のグループに分けるということになります。

 

似た特徴同士って

では、どのようにして、似た特徴をもつもの同士の組み合わせを作るのでしょう?

今回は購買回数と購買金額に関するお客さまのデータを使って、似た特徴のお客さま同士で、いくつかのグループに分けることを目指します。

今回の例は購買回数と購買金額の2つの変数なので、散布図で、わかりやすく見ることができます。

X軸に購買回数を、Y軸に購買金額として散布図をプロットしてみましょう。

散布図によってこのデータは3つのグループに分かれそうだな、と思いますよね。

視覚的に点同士の近さによって、グループが作れそうですよね。

もうお分かりだと思いますが、似たもの同士と判断するためには、比較するもの同士の距離が大事なのです。

 

では距離の計算について次の例を見ていきましょう。

Aさんは、BさんとCさんどちらに近いでしょうか。

これは中学校で習う三平方の定理を使うことによってできます。

これをAさんとCさんの距離も計算して比較すると、どちらに近いかというのがわかります。クラスタリングでは、このような計算をあらゆる組み合わせで実施し得られた距離の比較によって、近いもの同士をグループ化することができるのです

また、今回は2つの変数で計算していますが、変数がたくさんあっても同様に計算が可能です。

 

一方で今回の例で注意しなければならないのが、購買金額、購買回数の値をそのまま使ってしまうと次のようになります。

購買回数の値が小さすぎて無視されていますね。

 

このようにクラスタリングをする時は、単位によるスケールの差が影響してしまいます。そのためこのスケール差を無視して適切に距離を計算できるように事前に標準化して考えます。

標準化とは、各値について平均を引いて標準偏差で割るという処理を加えることです。

これによって平均0分散1のデータの集まりとなり、単位が異なるデータの集まりであっても、比較ができるようになります。

 

※解析方法によっては機能がないかもしれないので、予めデータを標準化しておきましょう。

どんなことに使えるの?

まず、今回の例のような顧客分析があります。

売上や利益に貢献しているお客さまの特徴と、そうではないお客さまの特徴をグループに分けて作戦する「顧客セグメント」は代表的な使いみちです。

またRFM分析と併用すると、非常に効果的です。

RFM分析によって顧客ごとのRFMを算出後、RFMをもとにクラスタリングを実施するだけで、即座に重要顧客がグループ分け出来ます。

 

市場分析として顧客の属性(性別、年齢、住所、職業等)をグループ化したり、過去にどんな商品やカテゴリを好んで買っているかを基にグループ化するなど、マーケティングの判断材料として様々なシーンに使えます。

 

マーケティング以外の活用方法として、例に挙げたいのが「不正検知」です。

似た特徴のもの同士をグループにするということは、裏を返せば、明らかに特徴の違うもの同士を分けることにも使えるのです(結構大事)。

例えば、不正な取引と正常な取引は、明らかに特徴が違うものなので、それを区別する方法として、クラスタリングは効果的です。

 

このように、クラスタリングは、データ全体に、どのように特徴的なグループがあるのか、人間が理解しやすいシンプルさで明らかにしてくれます。

データの規模が大きすぎて、判断に使うのが難しいビッグデータであっても、人間に理解しやすく整理してくれるため、データに基づく意思決定を助けてくれるのです

 

まとめ

クラスタリングは、データを理解し、人間がそこから意思決定したり、判断するのを助けてくれます。

今回は、マーケティングから、不正検知まで、あらゆるシーンでクラスタリングが活用できることをご紹介しました。

是非ともモノにしたい手法ですね。

かっこの「さきがけKPI」は、ローコスト、短納期で、クラスタリング分析をお手伝いすることもできますので、ぜひ、ご相談ください。

さきがけKPI

ピックアップ記事

  1. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  2. 知っておきたいAIの理想と現実
  3. こんなときには異常検知
  4. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  5. 学生をデータサイエンティストに育てる4つのポイント

関連記事

  1. 分析

    まずはやってみよう!マーケティングでデータ分析!①イントロダクション

    まずは自社でデータ分析をやるべきデータ分析を会社で活かせていますか…

  2. 分析

    今からとる行動が及ぼす影響の大きさを、数値で予測してくれる「回帰分析」のお話し

    経営判断や、次のアクションを決める必要があるときに、「どんな要素が」「…

  3. 分析

    クリスマス商戦の売上予測はデータ分析で読み解く!最適な生産数や在庫管理方法の導き方

    「クリスマス商戦は大きく売上が伸びる時期」とよく言われますが、いざ自社…

  4. 新宿 バイト 時給

    分析

    新宿区でバイトを募集する企業向けに、 参考時給を提⽰し時給の決定を⽀援する

    「新宿でバイトの募集をしたいけど、時給はいくらに設定すべき?」「新…

  5. 売上データ分析

    分析

    売上UPにはデータ分析が不可欠?5つの売上分析の手法と分析の流れをご紹介!

    「売上データがあっても複雑そうでどう活用すれば...」、「売上分析の正…

  6. 分析

    EC運営に活用できるABC分析!ECサイトのデータ分析をする5つのメリットと4つの注意点

    「ABC分析をEC運営に活用するにはどうすればいいかな」と考え…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. データ分析でメルカリ出品戦略を立てる-修正版

    データ分析例

    データ分析による読み終わった漫画のメルカリ出品戦略
  2. ロジスティック回帰分析のアイキャッチ画像

    分析

    ロジスティック回帰分析とは?使える場面や実装まで徹底解説!
  3. インターン体験記

    夏季インターン全落ちだった僕が内定を勝ち取るまで
  4. データサイエンス 活用事例

    データ分析例

    データサイエンスの活用事例まとめ|導入事例4選と必要な3つの準備
  5. 店舗 どこに出す

    分析

    店舗ってどこに出せばいいの?おすすめの出店場所について解説します!
PAGE TOP