インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

分析

  •  PR 

マーケティングから不正検知まで、データの理解と意思決定を助けてくれる「クラスタリング」とは?

クラスタという言葉そのものには聞き覚えがあるかもしれません。

でも、中身はよく知らないな。

横文字だし難しそうだな〜という印象をお持ちではないでしょうか?

そこで今回は、簡単な例でクラスタリングについて説明していきます。

結論

  • クラスタリングとはグループ化することです。
  • 似た特徴を持つデータをまとめ、複数のグループに分けてくれます。
  • ビッグデータを人間が理解できる特徴に分類し、判断や、意思決定を助けてくれます
  • マーケティングから不正検知まで、様々なシーンで活躍する考え方です。

クラスタリング とは

クラスタというのは、グループを意味しています。

つまり、クラスタリングとは、グループ化です。

これをデータ分析的にいうと、たくさんあるデータからそれぞれのデータを似た特徴を持つもの同士で複数のグループに分けるということになります。

 

似た特徴同士って

では、どのようにして、似た特徴をもつもの同士の組み合わせを作るのでしょう?

今回は購買回数と購買金額に関するお客さまのデータを使って、似た特徴のお客さま同士で、いくつかのグループに分けることを目指します。

今回の例は購買回数と購買金額の2つの変数なので、散布図で、わかりやすく見ることができます。

X軸に購買回数を、Y軸に購買金額として散布図をプロットしてみましょう。

散布図によってこのデータは3つのグループに分かれそうだな、と思いますよね。

視覚的に点同士の近さによって、グループが作れそうですよね。

もうお分かりだと思いますが、似たもの同士と判断するためには、比較するもの同士の距離が大事なのです。

 

では距離の計算について次の例を見ていきましょう。

Aさんは、BさんとCさんどちらに近いでしょうか。

これは中学校で習う三平方の定理を使うことによってできます。

これをAさんとCさんの距離も計算して比較すると、どちらに近いかというのがわかります。クラスタリングでは、このような計算をあらゆる組み合わせで実施し得られた距離の比較によって、近いもの同士をグループ化することができるのです

また、今回は2つの変数で計算していますが、変数がたくさんあっても同様に計算が可能です。

 

一方で今回の例で注意しなければならないのが、購買金額、購買回数の値をそのまま使ってしまうと次のようになります。

購買回数の値が小さすぎて無視されていますね。

 

このようにクラスタリングをする時は、単位によるスケールの差が影響してしまいます。そのためこのスケール差を無視して適切に距離を計算できるように事前に標準化して考えます。

標準化とは、各値について平均を引いて標準偏差で割るという処理を加えることです。

これによって平均0分散1のデータの集まりとなり、単位が異なるデータの集まりであっても、比較ができるようになります。

 

※解析方法によっては機能がないかもしれないので、予めデータを標準化しておきましょう。

どんなことに使えるの?

まず、今回の例のような顧客分析があります。

売上や利益に貢献しているお客さまの特徴と、そうではないお客さまの特徴をグループに分けて作戦する「顧客セグメント」は代表的な使いみちです。

またRFM分析と併用すると、非常に効果的です。

RFM分析によって顧客ごとのRFMを算出後、RFMをもとにクラスタリングを実施するだけで、即座に重要顧客がグループ分け出来ます。

 

市場分析として顧客の属性(性別、年齢、住所、職業等)をグループ化したり、過去にどんな商品やカテゴリを好んで買っているかを基にグループ化するなど、マーケティングの判断材料として様々なシーンに使えます。

 

マーケティング以外の活用方法として、例に挙げたいのが「不正検知」です。

似た特徴のもの同士をグループにするということは、裏を返せば、明らかに特徴の違うもの同士を分けることにも使えるのです(結構大事)。

例えば、不正な取引と正常な取引は、明らかに特徴が違うものなので、それを区別する方法として、クラスタリングは効果的です。

 

このように、クラスタリングは、データ全体に、どのように特徴的なグループがあるのか、人間が理解しやすいシンプルさで明らかにしてくれます。

データの規模が大きすぎて、判断に使うのが難しいビッグデータであっても、人間に理解しやすく整理してくれるため、データに基づく意思決定を助けてくれるのです

 

まとめ

クラスタリングは、データを理解し、人間がそこから意思決定したり、判断するのを助けてくれます。

今回は、マーケティングから、不正検知まで、あらゆるシーンでクラスタリングが活用できることをご紹介しました。

是非ともモノにしたい手法ですね。

かっこの「さきがけKPI」は、ローコスト、短納期で、クラスタリング分析をお手伝いすることもできますので、ぜひ、ご相談ください。

さきがけKPI

ピックアップ記事

  1. 知っておきたいAIの理想と現実
  2. 学生をデータサイエンティストに育てる4つのポイント
  3. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  4. こんなときには異常検知
  5. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】

関連記事

  1. 需要予測のアイキャッチ画像

    分析

    需要予測とは?使える場面や予測の手法・注意点を徹底解説!

    需要予測とは商品やサービスが市場の中でどれくらい売れるか、需要されるか…

  2. 売上データ分析

    分析

    売上UPにはデータ分析が不可欠?5つの売上分析の手法と分析の流れをご紹介!

    「売上データがあっても複雑そうでどう活用すれば...」、「売上分析の正…

  3. カリフォルニア 車 買う

    分析

    カリフォルニアで車を買う人必見!現地で安くトヨタ車を買うなら「カローラLE」一択である理由

    カリフォルニア大学サンタバーバラ校データサイエンス学部4年の鵜飼大輝で…

  4. 分析

    コールセンター運営でやるべきデータ分析とは?3つのメリットと分析方法を徹底解説

    コールセンターのデータ分析ってどうやる? コールセンター…

  5. 分析

    まずはやってみよう!マーケティングでデータ分析!①イントロダクション

    まずは自社でデータ分析をやるべきデータ分析を会社で活かせていますか…

  6. 分析

    それ分析じゃなく集計ですから

    データ分析に取り組んでいるけど、まるで成果が上がらない、こんなことやっ…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. 店舗 どこに出す

    分析

    店舗ってどこに出せばいいの?おすすめの出店場所について解説します!
  2. 機械学習

    決定木でデータドリブンに、ビジネスを成功させる判断基準を作ろう
  3. コールセンターの最適な人員配置のアイキャッチ画像

    最適化

    コールセンターの最適な人員配置は?予算内で成果を出すための方法3選
  4. データ分析で沖縄移住物件探し

    データ分析例

    データで判断! エンジニアの沖縄移住、おすすめエリア
  5. リピート率とはのアイキャッチ画像

    分析

    売上に直結するリピート率とは?計算方法や上げ方の手順を解説
PAGE TOP