インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

分析

マーケティングから不正検知まで、データの理解と意思決定を助けてくれる「クラスタリング」とは?

クラスタという言葉そのものには聞き覚えがあるかもしれません。

でも、中身はよく知らないな。

横文字だし難しそうだな〜という印象をお持ちではないでしょうか?

そこで今回は、簡単な例でクラスタリングについて説明していきます。

結論

  • クラスタリングとはグループ化することです。
  • 似た特徴を持つデータをまとめ、複数のグループに分けてくれます。
  • ビッグデータを人間が理解できる特徴に分類し、判断や、意思決定を助けてくれます
  • マーケティングから不正検知まで、様々なシーンで活躍する考え方です。

クラスタリング とは

クラスタというのは、グループを意味しています。

つまり、クラスタリングとは、グループ化です。

これをデータ分析的にいうと、たくさんあるデータからそれぞれのデータを似た特徴を持つもの同士で複数のグループに分けるということになります。

 

似た特徴同士って

では、どのようにして、似た特徴をもつもの同士の組み合わせを作るのでしょう?

今回は購買回数と購買金額に関するお客さまのデータを使って、似た特徴のお客さま同士で、いくつかのグループに分けることを目指します。

今回の例は購買回数と購買金額の2つの変数なので、散布図で、わかりやすく見ることができます。

X軸に購買回数を、Y軸に購買金額として散布図をプロットしてみましょう。

散布図によってこのデータは3つのグループに分かれそうだな、と思いますよね。

視覚的に点同士の近さによって、グループが作れそうですよね。

もうお分かりだと思いますが、似たもの同士と判断するためには、比較するもの同士の距離が大事なのです。

 

では距離の計算について次の例を見ていきましょう。

Aさんは、BさんとCさんどちらに近いでしょうか。

これは中学校で習う三平方の定理を使うことによってできます。

これをAさんとCさんの距離も計算して比較すると、どちらに近いかというのがわかります。クラスタリングでは、このような計算をあらゆる組み合わせで実施し得られた距離の比較によって、近いもの同士をグループ化することができるのです

また、今回は2つの変数で計算していますが、変数がたくさんあっても同様に計算が可能です。

 

一方で今回の例で注意しなければならないのが、購買金額、購買回数の値をそのまま使ってしまうと次のようになります。

購買回数の値が小さすぎて無視されていますね。

 

このようにクラスタリングをする時は、単位によるスケールの差が影響してしまいます。そのためこのスケール差を無視して適切に距離を計算できるように事前に標準化して考えます。

標準化とは、各値について平均を引いて標準偏差で割るという処理を加えることです。

これによって平均0分散1のデータの集まりとなり、単位が異なるデータの集まりであっても、比較ができるようになります。

 

※解析方法によっては機能がないかもしれないので、予めデータを標準化しておきましょう。

どんなことに使えるの?

まず、今回の例のような顧客分析があります。

売上や利益に貢献しているお客さまの特徴と、そうではないお客さまの特徴をグループに分けて作戦する「顧客セグメント」は代表的な使いみちです。

またRFM分析と併用すると、非常に効果的です。

RFM分析によって顧客ごとのRFMを算出後、RFMをもとにクラスタリングを実施するだけで、即座に重要顧客がグループ分け出来ます。

 

市場分析として顧客の属性(性別、年齢、住所、職業等)をグループ化したり、過去にどんな商品やカテゴリを好んで買っているかを基にグループ化するなど、マーケティングの判断材料として様々なシーンに使えます。

 

マーケティング以外の活用方法として、例に挙げたいのが「不正検知」です。

似た特徴のもの同士をグループにするということは、裏を返せば、明らかに特徴の違うもの同士を分けることにも使えるのです(結構大事)。

例えば、不正な取引と正常な取引は、明らかに特徴が違うものなので、それを区別する方法として、クラスタリングは効果的です。

 

このように、クラスタリングは、データ全体に、どのように特徴的なグループがあるのか、人間が理解しやすいシンプルさで明らかにしてくれます。

データの規模が大きすぎて、判断に使うのが難しいビッグデータであっても、人間に理解しやすく整理してくれるため、データに基づく意思決定を助けてくれるのです

 

まとめ

クラスタリングは、データを理解し、人間がそこから意思決定したり、判断するのを助けてくれます。

今回は、マーケティングから、不正検知まで、あらゆるシーンでクラスタリングが活用できることをご紹介しました。

是非ともモノにしたい手法ですね。

かっこの「さきがけKPI」は、ローコスト、短納期で、クラスタリング分析をお手伝いすることもできますので、ぜひ、ご相談ください。

さきがけKPI

ピックアップ記事

  1. 学生をデータサイエンティストに育てる4つのポイント
  2. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  3. 知っておきたいAIの理想と現実
  4. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  5. こんなときには異常検知

関連記事

  1. 需要予測 当たらない のアイキャッチ画像

    分析

    なぜ需要予測は当たらない?理由や精度の上げ方を解説

    なんで需要が当たらないのかとお悩みではありませんか。需要予測が外れると…

  2. 分析

    かんたん解説! ロジスティック回帰の結果の見方と考え方

     統計学の心得が無いビジネスマンにも、分析結果の読み方が理解できれば、…

  3. ロジスティック回帰分析のアイキャッチ画像

    分析

    ロジスティック回帰分析とは?使える場面や実装まで徹底解説!

    「ロジスティック回帰分析ってどうやってやるの?」「ロジスティッ…

  4. 需要予測のアイキャッチ画像

    分析

    需要予測とは?使える場面や予測の手法・注意点を徹底解説!

    需要予測とは商品やサービスが市場の中でどれくらい売れるか、需要されるか…

  5. データサイエンティストとは

    分析

    データサイエンティストとは?定義・業務・スキル・育成の全まとめ

    「データサイエンティストの仕事内容は?」「データサイエンティストに…

  6. 分析

    コールセンター運営でやるべきデータ分析とは?3つのメリットと分析方法を徹底解説

    コールセンターのデータ分析ってどうやる? コールセンター…


おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. 分析

    まずはやってみよう!マーケティングでデータ分析!③顧客分析
  2. データ分析でわかる!? ハワイ・ホノルルエリアのおすすめ宿泊施設のアイキャッチ画像

    データ分析例

    データ分析でわかる!? ハワイ・ホノルルエリアのおすすめ宿泊施設
  3. 統計

    成果をあげるためのアクションに、優先順位を与えてくれる「オッズ比」の使い方
  4. 分析環境

    大きなデータを安全・便利にやり取りできるAmazonのクラウドストレージ活用法
  5. 趣味はゴルフです

    インターン体験記

    文系上がりの元営業マンによる、データサイエンスインターン挑戦記
PAGE TOP