かっこ株式会社のデータサイエンス事業部でインターンをしている松中です。
ビジネスにおいて、統計学を根拠に、成果を出せる作戦を、自信をもって実行出来たら、嬉しくありませんか?
そんなとき、役に立つのが検定です。今回は検定とは何なのか、また、その有用性について話していきます。
検定はこんな時使う
あるサブスクリプションサービスを例に考えてみましょう。
- 友人からの紹介で登録したユーザーの平均継続期間は6.3ヶ月
- 紹介無しで登録したユーザーの平均継続期間が5.9ヶ月
という実績データがあったとします。
データだけを見ると友人からの紹介のほうが継続期間が長いように思われます。
しかし、この継続期間の差は必然だと言えるでしょうか?
それとも単なる偶然や誤差だと思いますか?
「たかだか0.4ヶ月の差だし、別にどっちでもいいじゃん。つか、ぶっちゃけ差なんかないじゃん」と片付けてしまう前に。
もし、この差が単なる偶然や誤差ではないことを証明できたら、それは今後の顧客獲得を作戦するうえで、とても大きな判断材料になりえます。
多少の数値差に見えたとしても、そのボリュームが大きくなれば、「この差が偶然なのかそうではないのか」という確かな証明は、経営を左右する情報にもなるのです。
そして、2つ以上のグループの差が確かなものであり、単なる偶然や誤差ではないらしいと数学的に証明してくれるのが統計学の手法である検定です!
検定ってどうやるの?
統計学の検定とは仮説検定の略です。その名の通り、仮説を立ててグループ間の差が、偶然や誤差ではないかどうかを判断するところから始まります。
先の例でいうと、「検定」では
「紹介され登録したユーザーと、そうでないユーザーで平均継続期間には差がない」
という仮説をまず、立てます。
「差がある」ではなく、ここでは「差がない」という仮説を立てて考えます。
「差がない」という仮説をまずは立てておいて、のちのち「計算してみたら差がないとは言えない! つまり、差があることが確からしい!」と、手のひらを返すステップを踏むことで、偶然や誤差でないことが証明されます。
専門用語で、この手のひら返しのことを「棄却(ききゃく)」と言います。
もし、棄却されなかった場合、「検定の結果、2グループ間には差があるとはいえない」と、統計学では判断できるわけです。
検定を行えば、「数値の差」が、誤差や偶然によってたまたま生じたであろう確率がわかります。
そして、その確率が小さいということを根拠に、起きたことが「偶然」や「誤差」ではないと説明できるわけです。
統計学の世界では、この「数値の差」が誤差や偶然によってたまたま生じたであろう確率が「5%以内」のとき、それを”めったに起きない”こととして、「差がある」と考えてよいとする慣例になっています。
検定の取扱注意事項
仮説検定は本来、効果をみたいもの1点のみを変え、それ以外の全ては同じ環境で実施する必要があります。
そうしなければ、本当にその要素によって数値に差が生じたのかを、検証することができないからです。
先の例でいうと、効果をみたいのは「紹介されたかユーザーか、そうでないか」です。なので、それ以外の価格やサービス、ユーザーの属性は同一であることが求められます。
しかし、実際のビジネスの現場において、そのような状況を作ることは不可能です。そのため、検証を行うためのデータをランダムに抽出したり、実験を行うときのユーザーをランダムに選出したり、「差がある/ない」という判断をする際に、どのようなデータだったかを十分に勘案しながら進めていく必要があります。
なかなか面倒な話ですが、それでも、数学的・客観的な論拠に基づいて「差の有無」を判断できるということは、経営の大きな力になります。
検定を行ってできることアレコレ
検定には、仮説検証したいテーマやデータの内容に応じて最適な手法があり、ビジネスで使う際には、適切な検定手法を選択することが重要です。
- 購買率向上施策の効果検証
- 新薬の効果検証
- アンケートにて、複数のグループ間の回答内容の差の分析
このような例であれば、一般的に「カイ二乗検定」や「t検定」といった方法で効果検証や、数値差の有無を確認することができます。
他にも「符号検定」や「順位和検定」などの手法があり、様々な活用ができるのですが、それはまたの機会に説明しましょう。
まとめ
検定は
判断した結果を偶然や誤差ではないと統計学で証明してくれる
終わりに
今回は、検定についてご紹介させていただきました。
「新しい施策を試してみたけどイマイチ効果がわからなかった」、「こんな仮説があるんだけど、どう検証したらいいのかわからない」などの問題で行き詰ったら、検定の出番です。
ぜひ、かっこのデータサイエンスにご相談ください。