統計学の心得が無いビジネスマンにも、分析結果の読み方が理解できれば、成果は一気にアクションへとおちていきます。
本記事ではロジスティック回帰を使ったケーススタディの記事で省いたロジスティック回帰の結果の見方について簡単に解説。
これから活用しようと考えている方が、ご自身で正しく結果について考えられることを目的としました。
概要
- ロジスティック回帰を見るにあたって、回帰係数、p値、Z値、オッズ比について説明
- 特に注目はp値が指定の閾値未満でかつ、Z値が高いもの、オッズ比が高いもの
- さらに集計を深堀することでKPI設定や新たな仮説の発見につながる
データの紹介
今回は映画のサブスクリプションを題材にとりあげました。
扱ったデータは、「会員ID、会員の年齢、性別、視聴した映画の本数、視聴した映画のカテゴリ、1ヶ月継続の有無」の6つです。さて、回帰分析で取り扱うデータには2種類のデータが存在します。一つは目的変数、もう一つは説明変数と呼ばれるものです。
目的変数とは簡単に言うと分析において知りたいデータのことです。
今回の分析の目的は1ヶ月継続する要因を調べることでした。
従って1ヶ月継続の有無が目的変数になります。
説明変数とは目的変数を知るためのデータのことです。
今回は、会員がどんな人で、どのような行動を取ったのかなどを説明する、分析に使える残りのデータが全部、説明変数になります。
変数というのは、ざっくり、データの種類の事だと思ってください。
結果の見方
統計値の説明について
ロジスティック回帰の結果を解釈するために避けられない統計値として回帰係数、Z値、p値、オッズ比があります
回帰係数 :
変数が1変化したときに確率が変動する程度*です。値が大きいほど1変化した時に及ぼす影響が大きいと考えられます。(値がプラスだと目的に対してポジティブに、マイナスだとネガティブに作用するというように解釈します)
Z値 :
回帰係数を標準誤差(*1)で割った値で、誤差が小さいほどこの値が大きくなります。
つまり値が大きいほど結果が信頼できると考えます。この値から後のp値が得られます。
p値 :
変数が目的に対して影響を与えるかを測るための値です。
統計の世界では、慣例的に「有意差5%未満」であれば、その変数が、結果に何らかの影響を与えていると考えます。
少し難しい説明をすると、p値が0.05を下回っているかどうか(その変数が目的に対して影響しない確率が5%未満かどうか)で、その変数が目的に与える影響を判断しようという統計的な考え方です。
オッズ比 : ある事象の起こりやすさを2つの群で比較して示す統計的な尺度のことです。
今回で言うと各変数が1増加した時に、「何倍継続されやすくなるか」がわかります。
*1 標準誤差は精度みたいなものと考えてください。この値が低いほど精度が高いということを意味します。
つまり精度が高い(標準誤差が小さい)→Z値が高い→p値が0に近くなる という関係になります。
結果と解釈
では改めて結果を見ていきましょう。
継続に影響を与えていそうだと、統計的に結論づけたデータ(p値が0.05以下)は以下の太字の変数になりました。
回帰係数をみると正のものでこれらはポジティブに効く変数ということがわかります。
その中で特に信頼できる要因としてはZ値で降順ソートしていますので表の上位を見ていきましょう。映画の視聴本数や、いくつかの映画のカテゴリ(*2)が特に有効そうだと考えられます。
また、相対的な信頼度は低くてもオッズ比の特に高い変数(今回だとCategory_J)も大事です。ケーススタディの記事で実施していた分析後の深堀にこれらも加えて検討しましょう。
変数 | 回帰係数(変数が1変化した時に及ぼす影響の程度) | Z値(変数に対する信頼度) | p値(変数の説明効力) | 変数が1増加した時のオッズ比 |
y切片 | 0.3 | 1.5 | 0.14 | 4.7 |
映画視聴本数 | 0.5(*3) | 11.1 | 0.00 | 1.7 |
Category_K | 1.5 | 8.0 | 0.00 | 4.7 |
Category_D | 1.9 | 6.4 | 0.00 | 6.4 |
Category_B | 1.2 | 5.2 | 0.00 | 3.4 |
Category_C | 1.0 | 4.3 | 0.00 | 2.6 |
Category_J | 2.5 | 4.3 | 0.00 | 11.8 |
Category_I | 1.1 | 3.5 | 0.00 | 3.0 |
Category_A | 1.8 | 3.4 | 0.00 | 5.8 |
Category_F | 0.7 | 3.3 | 0.00 | 2.0 |
Category_E | 1.7 | 3.2 | 0.00 | 5.6 |
Category_H | 2.0 | 2.9 | 0.00 | 7.5 |
Category_G | 0.3 | 1.2 | 0.21 | 1.3 |
年齢 | 0.0 | 1.0 | 0.31 | 1.0 |
性別_男 | -0.3 | -1.6 | 0.12 | 0.8 |
*2 分析するにあたって、各カテゴリごとに会員それぞれの合計視聴本数に対する割合としてあつかっています。例 ある会員がみた合計本数が5本でそのうちCategory_Aを2本見ていたら2 / 5 = 0.4という値を用いる
*3 今回お見せしている回帰分析の結果は前処理で全て標準化しているので、例えば映画を1本追加でみると継続確率が+0.5になるという風に捉えることはできません。
まとめ
ロジスティック回帰の結果の見方について説明しました。
ケーススタディの記事でも述べていますが、大事なのは手法を使うことではなくそこからビジネスアクションを生み出すことです。
今回は、具体的にその後の基礎集計によってKPIの設定や新たな仮説の発見を示唆する次のアクションへの判断材料が得られたことを紹介しています。
もし、データ分析を活用したいけどあまり自信がないということであれば、ぜひ、かっこにご相談ください。
弊社では、専門知識のないお客さまでも、データ分析を自走できるようにサポートする、お手伝いもしています。
また1億レコードまでのデータであれば、お手軽にデータ分析をはじめられる「さきがけKPI」という、はじめてのデータ分析を応援するサービスのご用意もございます。
合わせてご興味があればお気軽にお問い合わせください。
