ホーム
統計
起きることの必然性を統計学で裏付ける!「検定」の使い方!

2021.02.4｜最終更新日:2021.03.2

Post

起きることの必然性を統計学で裏付ける!「検定」の使い方!

かっこ株式会社のデータサイエンス事業部でインターンをしている松中です。

ビジネスにおいて、統計学を根拠に、成果を出せる作戦を、自信をもって実行出来たら、嬉しくありませんか?

そんなとき、役に立つのが検定です。今回は検定とは何なのか、また、その有用性について話していきます。

1 検定はこんな時使う
2 検定ってどうやるの？
3 検定の取扱注意事項
4 検定を行ってできることアレコレ
5 まとめ
6 終わりに

検定はこんな時使う

あるサブスクリプションサービスを例に考えてみましょう。

友人からの紹介で登録したユーザーの平均継続期間は6.3ヶ月
紹介無しで登録したユーザーの平均継続期間が5.9ヶ月

という実績データがあったとします。

データだけを見ると友人からの紹介のほうが継続期間が長いように思われます。

しかし、この継続期間の差は必然だと言えるでしょうか？
それとも単なる偶然や誤差だと思いますか？

「たかだか0.4ヶ月の差だし、別にどっちでもいいじゃん。つか、ぶっちゃけ差なんかないじゃん」と片付けてしまう前に。
もし、この差が単なる偶然や誤差ではないことを証明できたら、それは今後の顧客獲得を作戦するうえで、とても大きな判断材料になりえます。

多少の数値差に見えたとしても、そのボリュームが大きくなれば、「この差が偶然なのかそうではないのか」という確かな証明は、経営を左右する情報にもなるのです。

そして、2つ以上のグループの差が確かなものであり、単なる偶然や誤差ではないらしいと数学的に証明してくれるのが統計学の手法である検定です！

検定ってどうやるの？

統計学の検定とは仮説検定の略です。その名の通り、仮説を立ててグループ間の差が、偶然や誤差ではないかどうかを判断するところから始まります。

先の例でいうと、「検定」では

「紹介され登録したユーザーと、そうでないユーザーで平均継続期間には差がない」

という仮説をまず、立てます。

「差がある」ではなく、ここでは「差がない」という仮説を立てて考えます。

「差がない」という仮説をまずは立てておいて、のちのち「計算してみたら差がないとは言えない！　つまり、差があることが確からしい！」と、手のひらを返すステップを踏むことで、偶然や誤差でないことが証明されます。

専門用語で、この手のひら返しのことを「棄却（ききゃく）」と言います。
もし、棄却されなかった場合、「検定の結果、2グループ間には差があるとはいえない」と、統計学では判断できるわけです。

検定を行えば、「数値の差」が、誤差や偶然によってたまたま生じたであろう確率がわかります。

そして、その確率が小さいということを根拠に、起きたことが「偶然」や「誤差」ではないと説明できるわけです。

統計学の世界では、この「数値の差」が誤差や偶然によってたまたま生じたであろう確率が「5%以内」のとき、それを”めったに起きない”こととして、「差がある」と考えてよいとする慣例になっています。

検定の取扱注意事項

仮説検定は本来、効果をみたいもの1点のみを変え、それ以外の全ては同じ環境で実施する必要があります。
そうしなければ、本当にその要素によって数値に差が生じたのかを、検証することができないからです。

先の例でいうと、効果をみたいのは「紹介されたかユーザーか、そうでないか」です。なので、それ以外の価格やサービス、ユーザーの属性は同一であることが求められます。

しかし、実際のビジネスの現場において、そのような状況を作ることは不可能です。そのため、検証を行うためのデータをランダムに抽出したり、実験を行うときのユーザーをランダムに選出したり、「差がある/ない」という判断をする際に、どのようなデータだったかを十分に勘案しながら進めていく必要があります。

なかなか面倒な話ですが、それでも、数学的・客観的な論拠に基づいて「差の有無」を判断できるということは、経営の大きな力になります。

検定を行ってできることアレコレ

検定には、仮説検証したいテーマやデータの内容に応じて最適な手法があり、ビジネスで使う際には、適切な検定手法を選択することが重要です。

購買率向上施策の効果検証
新薬の効果検証
アンケートにて、複数のグループ間の回答内容の差の分析

このような例であれば、一般的に「カイ二乗検定」や「t検定」といった方法で効果検証や、数値差の有無を確認することができます。

他にも「符号検定」や「順位和検定」などの手法があり、様々な活用ができるのですが、それはまたの機会に説明しましょう。

まとめ

検定は

判断した結果を偶然や誤差ではないと統計学で証明してくれる

終わりに

今回は、検定についてご紹介させていただきました。

「新しい施策を試してみたけどイマイチ効果がわからなかった」、「こんな仮説があるんだけど、どう検証したらいいのかわからない」などの問題で行き詰ったら、検定の出番です。

ぜひ、かっこのデータサイエンスにご相談ください。

かっこ株式会社　データサイエンス事業部インターン松中優樹

大学1年時の成績が振るわず不本意ながらも数学科に進学しなければならなくなった絶望の中で統計学に出会う。3年時に大学を休学し、かっこでインターンを始める。今では統計学の魅力にハマり、大学では感染症数理モデルを研究。好きな食べ物はグミ。最近はキックボクシングにハマっている。

統計
確率, カイ二乗検定, 統計, 検定, 誤差

こんなときには異常検知

大きなデータを安全・便利にやり取りできるAmazonのクラウドストレージ活用法

ピックアップ記事

統計

RFM分析とは？優良顧客を見つけるやり方やメリット【例を用いて解説】

RFM分析は、顧客の行動を分析し、効果的な施策を行うための判断となる分…
統計

2種のデータの関係性を明らかにする「相関」のおはなし

皆さんは「相関」という言葉を聞いたことがありますか？？「相関」はデ…
統計

箱ひげ図について超カンタンに解説してみた

「箱ひげ図ってどう見るのが正解？」と気になりませんか？中高の数…
統計

なんでも平均でいいの？中央値と平均値をどう使い分けるか

「なんでも平均でいいの？」「平均値や中央値ってどう使い分けるの？」…
統計

ヒストグラムとは？見方やエクセルでの作り方・経営分析の例を解説

「ヒストグラムってなに？」「どうやって作るの？」と…
統計

データ分析の成果を大きく左右する「変数」って何だ?

データ分析では、「変数（へんすう）」という言葉が当たり前のように使われ…

データサイエンスを身近にする情報を発信

起きることの必然性を統計学で裏付ける!「検定」の使い方!

検定はこんな時使う

検定ってどうやるの？

検定の取扱注意事項

検定を行ってできることアレコレ

まとめ

終わりに

ピックアップ記事

関連記事

RFM分析とは？優良顧客を見つけるやり方やメリット【例を用いて解説】

2種のデータの関係性を明らかにする「相関」のおはなし

箱ひげ図について超カンタンに解説してみた

なんでも平均でいいの？中央値と平均値をどう使い分けるか

ヒストグラムとは？見方やエクセルでの作り方・経営分析の例を解説

データ分析の成果を大きく左右する「変数」って何だ?

カテゴリー

おすすめ記事

メディア注目ワード

データサイエンスを身近にする情報を発信

起きることの必然性を統計学で裏付ける!「検定」の使い方!

検定はこんな時使う

検定ってどうやるの？

検定の取扱注意事項

検定を行ってできることアレコレ

まとめ

終わりに

ピックアップ記事

関連記事

RFM分析とは？優良顧客を見つけるやり方やメリット【例を用いて解説】

2種のデータの関係性を明らかにする「相関」のおはなし

箱ひげ図について超カンタンに解説してみた

なんでも平均でいいの？中央値と平均値をどう使い分けるか

ヒストグラムとは？見方やエクセルでの作り方・経営分析の例を解説

データ分析の成果を大きく左右する「変数」って何だ?

人気の記事

カテゴリー

おすすめ記事

メディア注目ワード