インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

分析

  •  PR 

バスケット分析とは?商品分析の例やエクセルでのやり方を解説

バスケット分析のアイキャッチ画像

「バスケット分析ってなに?」
「どういうやり方で進めるの?」
「エクセルではどうやるの?」

と、お悩みではありませんか。

バスケット分析は商品の併売分析に用いられる手法であり、ビジネスでも広く利用されています。

バスケット分析を行うことで、普通では気づけないような商品の併売候補を見つけられ、商品の併売戦略も繋げられます。

本記事では、

  • バスケット分析の具体例
  • バスケット分析のやり方

が分かるのでぜひ参考にしてみてください。

かっこのデータサイエンス公式

バスケット分析とは

バスケット分析とは、お客様が一度に購入する商品の組み合わせを調べる手法です。

同時購入されている商品を見つけ出すことで、併売する商品を決める時の参考にできます

バスケット分析とは

たとえば、どの商品が一緒に購買されているかを知ることで、商品陳列を工夫することや効果的なキャンペーンを打ち出せます。

実際に、スーパーの陳列はバスケット分析などの併売分析から決定されています。

バスケット分析の具体例:「おむつとビール」

バスケット分析によって導き出された意外な併売例として、おむつとビールがあります。

おむつとビールが併売されるイメージはないかもしれませんが、アメリカでは実際に近くに陳列することで同時購入が増えた事例があります。

おむつとビールを同時に購入する人がどのような人か想像してみてください。

おむつとビールの併売例

上図のように「おむつを頼まれたお父さん」という人物像が浮かび上がってきますよね。

仕事帰りなどにおむつのおつかいを頼まれ、おむつを買うついでにビールを同時に購入していたのです。

このように、バスケット分析を行うことで、普通の考え方では浮かび上がらない併売候補の発見や同時購入する人物像を明確化が行えます

かっこのデータサイエンス公式

バスケット分析の4つの指標

バスケット分析の4つの指標

バスケット分析では、4つの指標から同時購入されているかを分析します。

4つの指標は以下の通りです。

  • 支持度
  • 信頼度
  • 期待信頼度
  • リフト値

バスケット分析で参考にする最終結果はリフト値になります。

他の3つの指標はリフト値を算出するまでに用います。

今回は商品A,Bを例にそれぞれ解説していきます。

【指標1】支持度

支持度とはすべてのトランザクション(レシート)のうち、商品Aと商品Bを同時に購買する確率です。

支持度は直感的に同時購入されているかどうかを見るため、併売分析の最初に求められる指標になります。

ベン図に表すと、下図のようになります。

支持度のベン図

トランザクションとは1つのレシートのことで、同じ顧客でもレシートが違えば異なるものと扱います。

支持度は以下の式で算出されます。

\[ 支持度 = \frac{同時購入のトランザクション数}{すべてのトランザクション数} \]

すべての購買データから商品Aと商品Bがどの程度、同時購入されたのかが把握できるのがメリットになります。

例えば、

  • すべてのトランザクション数:100
  • 同時購入されたトランザクション数:30

という数値であれば、支持度は\( 30 \div 100 = 0.3 \)となります。

なので、30%の確率で同時購入されていると判断できます。

このように、支持度はまず同時購入されているかを知るために算出します。

【指標2】信頼度

信頼度は、ある商品が購買されたときに別の商品も一緒に購買される確率のことです。

信頼度を求めることで、ある商品の購買が別の商品の購買にどれだけ影響を与えているのかを見れます。

ベン図に表すと下図のようになります。

信頼度のベン図

数式では信頼度は以下のように求められます。

\[ 信頼度 = \frac{同時購入のトランザクション数}{商品Aの購入トランザクション数} \]

例を用いて解説します。

  • 商品Aの購入トランザクション数:60
  • 同時購入のトランザクション数:30

上記の場合、先ほどの式にあてはめると、信頼度は\( 30 \div 60 = 0.5 \)と算出されます。

この結果から、商品Aが購入された場合、商品Bが0.5、50%の確率で商品Bが購入されていると解釈できます。

このように、ある商品の購入に対してもう一つの商品の購入がどれくらいの確率で購入されるかを信頼度で求められるのです。

【指標3】期待信頼度

期待信頼度はある商品が全体の購入に対してどの割合で購入されているかを示す確率です。

つまり、その商品自体がどの程度購買されているかを見るために用います。

期待信頼度は以下のようなベン図のイメージです。

期待信頼度のベン図

期待信頼度は以下の式で求まります。

\[ 期待信頼度 = \frac{商品Bの購入トランザクション数}{すべてのトランザクション数} \]

「商品B」のそもそもの人気を期待信頼度によって求めます。

例えば、

  • すべてのトランザクション数:100
  • 商品Bの購入トランザクション数:40

であるとき、期待信頼度は\( 40 \div 100 = 0.4 \)と算出できます。

【指標4】リフト値

リフト値はその商品の同時購入が偶然かそうでないかを表す指標です。

リフト値が1よりも大きい場合、その商品の組み合わせは関連性があることを示します。

リフト値の計算は以下の式で求まります。

\[ リフト値 = \frac{信頼度}{商品Bの期待信頼度} \]

リフト値は信頼度と期待信頼度から導かれる指標です。

2つの指標を分かりやすく言い換えると以下のようになります。

\[ リフト値 = \frac{商品Aの購入に伴う商品Bの購入率}{すべての商品購入に伴う商品Bの購入率} \]

つまり、すべての商品購入で商品Bが同時に購入されるのに対して、商品Aが入っていた場合にどれだけ購入率が上がるのかの指標がリフト値になります。

1を超えると商品Aが購入された場合に商品Bが購入される可能性が高いと言えるのです。

このように、他の商品との同時購入よりある商品を購入した場合の方が同時購入の可能性が高いと見抜けるのがリフト値の特徴になります。

バスケット分析のエクセルでのやり方

バスケット分析はきちんとデータを収集していればすぐに行える手法です。

実際に以下のようなステップでバスケット分析を行えます。

  1. 支持度を計算し、分析対象を絞る
  2. 信頼度と期待信頼度を計算する
  3. リフト値を計算する

バスケット分析の最終ゴールはリフト値の算出です。

そのために必要な指標をSTEP1,2で計算する流れになります。

それぞれ解説していきます。

STEP1. 支持度を計算し、分析対象を絞る

まず、すべての購買データから商品組み合わせごとの支持度を計算します。

全組み合わせに対して支持度を算出することで、それぞれの商品どうしがどれだけ同時購入されているのかを見える化します。

エクセルで行う場合は以下のような表を作成します。

購買番号(A列) 商品A(B列) 商品B(C列) 商品C(D列) 商品D(E列)
ID1 1 1 0 0
ID2 1 0 0 0
・・・ ・・・ ・・・ ・・・ ・・・

1を購入、0を未購入と定義して、各レシート(トランザクション)で購入・未購入を0,1で割り振っている表です。

表が用意できたら、以下の計算式で同時購入数を算出します。

=COUNTIFS(B2:B100, 1, C2:C100, 1)

COUNTIFSという複数条件を満たしているセルの数を求める関数で、B列とC列がともに1である場合、商品Aと商品Bが同時購入されているとみなしてカウントします。

このように、すべての商品の同時購入数を計算して、データ数で割ることで支持度が算出できます。

算出した支持度を並び替え(ソートし)、支持度が高いものを今回のバスケット分析の対象とします。

STEP2. 信頼度と期待信頼度を計算する

STEP1でピックアップした支持度の高い組み合わせの信頼度と期待信頼度を計算します。

信頼度と期待信頼度を計算するのはリフト値を算出するためです。

今回は「商品Aを購入した場合に商品Bの購入にどれだけ影響を与えるのか」と問題を設定して分析します。

  • 信頼度:

\[ \frac{同時購入のトランザクション数}{商品Aの購入トランザクション数} \]

  • 期待信頼度:

\[ \frac{商品Bの購入トランザクション数}{すべてのトランザクション数} \]

上記の2つの指標を計算するために、架空のデータから以下のような情報を事前に求めておきます。

全レシート数 5000
商品Aの購入レシート数 2000
商品Bの購入レシート数 1500
2商品の同時購入レシート数 1000

この数値を先ほどの信頼度と期待信頼度の式に代入すると以下のような計算結果になります。

  • 信頼度:0.5
  • 期待信頼度:0.3

また、エクセルでは以下のように計算できます。

信頼度と期待信頼度のエクセルでの計算

今回は簡単な数値を用いているため、手計算でも可能です。

しかし、実務ではもっと複雑な値になるため、エクセルで計算することをおすすめします

最後にリフト値の計算を解説していきます。

STEP3. リフト値を計算する

STEP2で算出した信頼度と期待信頼度を用いてリフト値を計算します。

リフト値は以下の式で算出できます。

\[ リフト値 = \frac{信頼度}{期待信頼度} \]

STEP2で算出した信頼度と期待信頼度を代入すると、リフト値は1.66666…となります。

リフト値が1を超えているため、商品Aと商品Bには同時購入される傾向にあると示せました。

エクセルでは以下のようにリフト値を算出できます。

エクセルでのリフト値の算出

計算式が簡単であるため、エクセルでも簡単に行えます。

このように、バスケット分析はエクセルですべて完結する併売分析手法で、ビジネスで広く利用されています。

併売分析を行う際には、まずバスケット分析を行うことをおすすめします。

バスケット分析での3つの注意点

バスケット分析のやり方について解説してきました。

しかし、バスケット分析を行う際に3つの注意すべき点があります。

  • 購入数が極端に多い商品は外す
  • 購入数が極端に低い商品は外す
  • 分析結果をそのまま実行しない

上記の注意点はどれも重要な問題であり、つい気づかずバスケット分析を行ってしまうことがあります。

それぞれの注意点について解説していきます。

購入数が極端に多い商品は外す

売上個数が極端に多いものは初めから対象外にしておくことが必要です。

売上個数が多い商品は、その商品が必要だから購入している可能性があります。

なので、売上個数が高いものはもし併売しても効果が低くなる可能性があります。

購入数が極端に低い商品は外す

売上個数が極端に低いものも除外しなくてはなりません。

なぜなら、その商品の単独購入と同時購入との差がほとんどなくなるからです。

商品の購入数に着目したOK例とNG例を用いて説明します。

バスケット分析のOK例とNG例

NG例は商品Bの伝票数(レシート数)が3と極端に低い数字になっているのにもかかわらず、リフト値が約75もあります。

伝票数を見れば、商品Aが日常的に購入され、商品Bはたまたま同時購入された可能性が高いと判断できますよね。

しかし、リフト値として算出すると併売が効果的であるかのように見えてしまう点で注意が必要です。

分析結果をそのまま実行しない

ビジネスでバスケット分析を行う際に最も大切なのは、分析結果をそのまま実行しないことです。

バスケット分析は併売が効果的かどうかを数値で示す手法ですが、なぜ同時購入されるのかまでを理解できません。

そのため、リフト値が高いから併売すると決定して行っても、同時購入される理由が分かっていなければ、無益な行動に終わってしまいます。

なので、分析結果をそのまま受け止めるのではなく、結果の理由をきちんと解釈して併売戦略を決定することをおすすめします。

まとめ

バスケット分析は、それぞれの商品の同時購入に着目して本当に併売に効果があるかを見る併売分析の手法です。

バスケット分析を行うことで、同時購入されている商品を見つけ出し、商品の併売に活用できます。

バスケット分析では以下の4つの指標を算出して分析を進めます。

  • 支持度
  • 信頼度
  • 期待信頼度
  • リフト値

支持度はどれだけ同時購入されているのかを見る指標ですが、支持度だけでは単純に2つの商品の購入数が多くても値が大きくなってしまいます。

そのため、信頼度と期待信頼度からリフト値を算出して、偶然同時購入されているのかを検証します。

バスケット分析は以下の3ステップで行います。

  1. 支持度を計算し、分析対象を絞る
  2. 信頼度と期待信頼度を計算する
  3. リフト値を計算する

支持度で分析対象を絞り、信頼度と期待信頼度からリフト値の計算を行います。

それぞれのステップはエクセルを用いることで簡単に実行できます。

また、バスケット分析では3つの注意点に気を付けなければなりません。

  • 購入数が極端に多い商品は外す
  • 購入数が極端に低い商品は外す
  • 分析結果をそのまま実行しない

購入数が極端な商品は、できるだけ最初に目視で除外しましょう。

また、バスケット分析の結果はあくまで客観的な数値であるため、具体的な併売ターゲットの設定は、人によってきちんと行う必要があります。

ビジネスでは、しっかりと併売を行うターゲット像を明確にしてから、併売するようにしましょう。

もし自社で、「商品や顧客の分析を行いたいけどやり方が分からない…」「商品の併売を行いたいけど、どうしたらいいか分からない…」というお悩みがあれば、『かっこのデータサイエンス』にお問合せください。

状況のヒアリングを行い、お持ちのデータから顧客分析や課題点の洗い出しを行います。

サンプルデータの確認や課題の洗い出しまで無料で承っていますのでお気軽にご相談ください。(※データの集計や本データの分析、改善の実施には費用がかかります。)

詳細は以下のページからご確認ください。

かっこのデータサイエンス公式

ピックアップ記事

  1. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  2. 学生をデータサイエンティストに育てる4つのポイント
  3. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  4. こんなときには異常検知
  5. 知っておきたいAIの理想と現実

関連記事

  1. 店舗 どこに出す

    分析

    店舗ってどこに出せばいいの?おすすめの出店場所について解説します!

    「出店したいけどどこに出せばいいの?」「店舗の場所によって売り上げ…

  2. 分析

    それ分析じゃなく集計ですから

    データ分析に取り組んでいるけど、まるで成果が上がらない、こんなことやっ…

  3. 需要予測 当たらない のアイキャッチ画像

    分析

    なぜ需要予測は当たらない?理由や精度の上げ方を解説

    なんで需要が当たらないのかとお悩みではありませんか。需要予測が外れると…

  4. 売上分析のアイキャッチ画像

    分析

    売上分析とは?未来の戦略を練るための方法3選

    売上分析とは、売上向上のための分析のことで、現状の把握や将来予測を行え…

  5. 需要予測のアイキャッチ画像

    分析

    需要予測とは?使える場面や予測の手法・注意点を徹底解説!

    需要予測とは商品やサービスが市場の中でどれくらい売れるか、需要されるか…

  6. 分析

    コールセンター運営でやるべきデータ分析とは?3つのメリットと分析方法を徹底解説

    コールセンターのデータ分析ってどうやる? コールセンター…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. バレーボール データ分析のアイキャッチ画像

    データ分析例

    データサイエンスでバレーボールチームの戦術を考えてみた
  2. 2024年問題 とは

    最適化

    2024年問題とは?物流業界への影響や解決策を分かりやすく解説!
  3. 統計

    確率を予測する「ロジスティック回帰」とは
  4. なんでも平均でいいの?

    統計

    なんでも平均でいいの?中央値と平均値をどう使い分けるか
  5. インターン体験記

    データサイエンティストの夢を叶えたインターンシップ
PAGE TOP