データサイエンスという言葉を聞いてみなさんがまず期待するのは、「会社の利益爆増のためのアクションにつながる、新しい事実の発見」ではないでしょうか?
それこそ、まさにデータサイエンスの醍醐味ですよね。
今回は、その期待に応えられる統計学の「カイ二乗検定」についてご紹介します。
(検定については「起きることの必然性を統計学で裏付ける!「検定」の使い方!」をご覧ください)
カイ二乗検定とは
WEBデザインの変更によって、商品を購買したかどうか以下のような結果が出ています。
あなたはこの結果について、どう評価しますか?
カイ二乗検定は、上のような表(こういう2つのカテゴリーで集計した表をクロス集計表と呼びます。)について、この数値の偏りが「意味のある偏り」なのか、「誤差レベルの偏り」なのかを確かめることができるという手法です。
カイ二乗検定を行うと、クロス集計表に見られる数値の偏りが、誤差や偶然によって、たまたま生じる確率がわかります。
そして、慣例的にこの確率が5%より小さいとき、偶然ではなく「意味のある偏り」だったと判断できるのです。
(ちなみにこの確率が、統計学でよく耳にするp値になります。)
上記のクロス表に対してカイ二乗検定を実施すると、この100人の差は44.7%の確率で起きるという結果が得られます(p値が44.7%)。
つまり、これは誤差レベルでたまたま生じた偏りであり、旧デザインから新デザインにしたところで、商品の購買に対する効果は期待できない、という結論を得たことになります。
それでは、次のクロス表を見てみましょう。
上のクロス表には300人の差がありますが、この差が起きる確率は2.3%です。
つまり、(p値=2.3%<5%)なので、今度は、商品の購買増に、デザイン変更の効果はあった、という結論が明らかになりました。
カイ二乗検定が非常に使いやすいのは、データの偏りに対して客観的かつ統一的な視点から答えを与えてくれることです。
カイ二乗検定を使う事で、
経験や勘による仮説を裏付けたり、使っていなかったデータから利益につながる、新たな事実を発見できる可能性があります。
利益をあげる「カイ二乗検定」の使い方
クロス集計さえできれば、どんなことでも分析できます。
となると、次にこういう疑問がでるのではないでしょうか。
どういうデータを分析をすればいいの?
何と何をクロス集計するべき?
定石は、あるの?
その答えは実にシンプルです。
「目的を遂げたもの」と「そうでないもの」で分けてクロス集計をしてみましょう。
ビジネスでいうと例えば、「買った」か、「買わなかった」か、のように利益につながる結果の有無、で整理するのがわかりやすいでしょう。
RFM分析では、優良顧客と、課題のある顧客いうように顧客を分けることができました。
これに対し、優良顧客と、そうでない顧客で何が違うのか、優良顧客を増やすために必要な体験は何か、顧客データや販売データを隅から隅まで使ったクロス集計を基に、「カイ二乗検定」を使えば、促すべきアクションを抽出することが出来ます。
また、POSデータから優良顧客がこぞって購入しているような商品を特定し、どんな商品を積極的に売り出していけばいいのか、ヒントを得ることも出来るでしょう。
最後に
カイ二乗検定は、
「目的を遂げたもの」と「そうでないもの」のデータを基に、「目的達成」につながる「新たな事実」を発見する手法です。
実は、カイ二乗検定は、Excelでも簡単に試してみることが出来ます。
ただし、
検定の結果は、ふたつの事象の間に起きたことの「差」を明らかにするだけであって、因果関係ではないという事に注意が必要です。
さて、新しいチャレンジのきっかけを客観的に作ってくれる「カイ二乗検定」の可能性について、興味をもっていただけたでしょうか?
かっこの「さきがけKPI」というサービスでは
1億件のデータまでなら、目的に応じたクロス集計、カイ二乗検定を用いた目的達成のためのアクション抽出、課題にあわせた分析を、30営業日、200万円のローコストでご提供しています。
ぜひ、かっこのデータサイエンスにご相談ください。