「ロジスティック回帰の結果ってどうやって見るの?」
「t値?p値?よく分からない!」
とお悩みではありませんか?
分析結果を正しく解釈することは、その後のアクションの成否に関わるため非常に重要です。
そこで本記事では、実際にロジスティック回帰分析を行い、分析結果の見方などについて分かりやすく解説していきます。
「そもそもロジスティック回帰とは?」という方は『ロジスティック回帰分析とは?使える場面や実装まで徹底解説!』の記事を読んでみてください。
目次
今回のデータ分析の概要
ロジスティック回帰の結果の解釈方法を理解するためには、実際の分析過程を見学することが最も効率的です。
そのためにはまず、今回の分析の目的やデータについて理解する必要があります。
それぞれ順番に解説していきます!
今回の分析の目的
今回の分析の目的は、映画のサブスクリプションに加入しているユーザーの登録継続要因を把握することです。
登録継続の基準は以下の通りです。
- 1ヶ月以上の登録で継続と判定
- 1ヶ月以内の解約で離脱と判定
継続・離脱の要因となっている要素をロジスティック回帰分析により明らかにし、その結果や解釈の方法を皆さんと共有していきます。
今回の分析に使用したデータ
今回の分析で使用するデータは、「会員ID」「会員の年齢」「性別」「視聴した映画の本数」「視聴した映画のカテゴリ」「1ヶ月継続の有無」の6種類です。
分析に用いるデータを表した表:青が説明変数で赤が目的変数
また、回帰分析で取り扱うデータは目的変数と説明変数の2つに区別されます。
これらの概念は分析結果を正しく理解する上で重要となるため簡単に解説します。
説明変数と目的変数については以下の通りです。
- 目的変数:分析において知りたいデータ
- 説明変数:目的変数を知るためのデータ
例えば、今回の分析の目的はサブスクへの登録継続要因を調べることなので、1ヶ月継続の有無が目的変数となります。
また、サブスクの継続に影響を与えていると考えられる以下のデータが今回の説明変数となります。
- 年齢
- 性別
- 映画視聴本数
- 映画のカテゴリー
年齢や性別、映画視聴本数などのデータはサブスクの継続に何らかの影響を与えている可能性があります。
また、これらを基にどのような人がサブスクを継続しているかが明らかにできそうです。
つまり、説明変数とは会員がどんな人でどのような行動を取ったのかなどを説明するデータのことであり、目的変数以外のデータはすべて説明変数になります。
また、変数というのはデータの項目・種類のことであり、『データ分析の成果を大きく左右する「変数」って何だ?』という記事で詳しく解説しているため、気になる方は読んでみてください。
ロジスティック回帰の結果を理解する方法
ロジスティック回帰の結果を正しく解釈するためには、以下の指標を理解する必要があります。
- 回帰係数:説明変数の各変数が1変化したときの目的変数の変化量
- Z値(t値):回帰係数を標準誤差(*1)で割った値
- p値:変数が目的変数に対して影響があるかを測るための値
- オッズ比:ある説明変数が最終的な結果にどれだけ影響を与えているのかの指標
これらの指標はロジスティック回帰の結果を解釈するために外せないエッセンスです。
それぞれ順番に解説していきます!
回帰係数
回帰係数とは各説明変数が与える目的変数への影響量を示す値です。
例えば、売り上げ個数(説明変数)を1個増やすと、利益(目的変数)が30円上がったという場合、売上個数の回帰係数は30となります。
回帰係数の値が大きいほど、説明変数が1変化した時に目的変数に及ぼす影響が大きいという特徴があります。
また、値がプラスだと目的変数が増加し、マイナスだと減少するという特徴もあります。
回帰係数はZ値(t値)の算出に用いられます。
Z値(t値)
Z値(t値)とは回帰係数を標準誤差で割った値です。
ここでの標準誤差は精度であると考えた方が理解がしやすいです。
また、標準誤差の値から以下のことが分かります。
- 標準誤差が大きい:精度が低い
- 標準誤差が小さい:精度が高い
そのため、回帰係数が大きくても標準誤差が大きい状態の場合、Z値(t値)は小さくなります。
以下にZ値(t値)の特徴をまとめます。
- Z値(t値)は値が大きいほど、より精度の高い説明変数であると判断できる
- 一般的にZ値(t値)が2を超えると良いとされる(理由は、t検定という仮説検定の手法において、t値の絶対値が2以上であれば、95%以上の確率で統計的に意味がある数字だと見なされるため)
つまり、回帰係数だけではなく標準誤差も考慮して、その説明変数の信頼度を見れるのがZ値(t値)の特徴です。
Z値(t値)からp値が求められます。
p値
p値とは、各説明変数が本当に目的変数に影響を与えているのかの有無を判断するために用いる指標です。
統計の世界では、「有意差5%未満」であると、その変数が結果に何らかの影響を与えていると考えられます。
そして、この有意差(p値を百分率で表したもの)を求めるためにp値を求めるのです。
そのため、有意差が5%未満というのは、p値が0.05を下回っているかどうかと言い換えることができます。
p値は有意差と同じ意味を示す指標であると考えるようにしましょう。
また、Z値(t値)とp値の関係は以下のように表せます。
- 精度が高い(標準誤差が小さい) → Z値が高い → p値が0に近くなる
理解を促進させるために、各指標の関係性も併せて把握することをおすすめします。
オッズ比
オッズ比とは、ある説明変数が最終的な結果にどれだけ影響を与えているのかを表す指標です。
p値は説明変数が目的変数に影響を与えているかの有無を判断する指標であるのに対し、オッズ比はその影響の大きさを測る指標になります。
以下にオッズ比の判断基準をまとめています。
- オッズ比1を基準として、値が大きいほどある説明変数が最終的な結果に良い影響を与えていると判断
- オッズ比が0~1の範囲にあると、ある説明変数が最終的な結果にあまり良くない影響を与えていると判断
また、オッズ比についての詳しい解説を『成果をあげるためのアクションに、優先順位を与えてくれる「オッズ比」の使い方』という記事で行っているため、詳しく知りたい方は読んでみてください。
ロジスティック回帰分析の結果
ここからは、ロジスティック回帰分析の結果の確認や解釈を行います。
以下の表で、サブスクへの登録継続に影響を与えていると統計的に結論づけたデータ(p値が0.05以下)を太字で表し、分析の結果を分かりやすく表示しています。
変数 | 回帰係数(変数が1変化した時に及ぼす影響の程度) | Z値(変数に対する信頼度) | p値(変数の説明効力) | 変数が1増加した時のオッズ比 |
y切片 | 0.3 | 1.5 | 0.14 | 4.7 |
映画視聴本数 | 0.5(*3) | 11.1 | 0.00 | 1.7 |
Category_K | 1.5 | 8.0 | 0.00 | 4.7 |
Category_D | 1.9 | 6.4 | 0.00 | 6.4 |
Category_B | 1.2 | 5.2 | 0.00 | 3.4 |
Category_C | 1.0 | 4.3 | 0.00 | 2.6 |
Category_J | 2.5 | 4.3 | 0.00 | 11.8 |
Category_I | 1.1 | 3.5 | 0.00 | 3.0 |
Category_A | 1.8 | 3.4 | 0.00 | 5.8 |
Category_F | 0.7 | 3.3 | 0.00 | 2.0 |
Category_E | 1.7 | 3.2 | 0.00 | 5.6 |
Category_H | 2.0 | 2.9 | 0.00 | 7.5 |
Category_G | 0.3 | 1.2 | 0.21 | 1.3 |
年齢 | 0.0 | 1.0 | 0.31 | 1.0 |
性別_男 | -0.3 | -1.6 | 0.12 | 0.8 |
回帰係数をみると太字の説明変数はすべて正の値を取っており、目的変数に対してプラスに働く変数だということが分かります。
さらに、効果的な変数を見つけ出すために、信頼できるかどうかの指標であるZ値の値が大きい変数を確認します。
Z値の値が上から順に大きい3つの変数は以下の通りです。
- 映画視聴本数
- Category_K
- Category_D
この結果から映画の視聴本数や、いくつかの映画のカテゴリが特に有効そうだと判断できます。
また、相対的な信頼度は低くてもオッズ比の特に高い変数(今回だとCategory_J)は、目的変数に対して相関があると判断できるため重要です。
その他、『サブスクリプションの利用継続KPIをロジステック回帰分析で明らかに!』で実施していた分析後の深堀に、これらの解釈を加えて検討することでロジスティック回帰への理解が深まるため、気になる方はぜひ読んでみてください。
例)ある会員がみた合計本数が5本でそのうちCategory_Aを2本見ていたら2 / 5 = 0.4です。
・今回お見せしている回帰分析の結果は前処理で全て標準化しています。
なので、映画を1本追加でみると継続確率が+0.5になると捉えることはできません。
ロジスティック回帰分析の活用例3選
ここまで、実際のデータを基にロジスティック回帰分析を行い、その結果を解釈する方法などについて解説してきました。
ここからは、ロジスティック回帰分析が現実世界でどのように活用されているかを以下の例とともに解説していきます。
- サブスクリプションサービスの継続予測
- 商品の購買予測
- 病気の予測
また、結果の解釈を行った章でも明らかにした通り、ロジスティック回帰分析は目的変数に影響を与えている変数を特定できるため、ビジネスを始めとする多くの分野で活用可能です。
これらの点を踏まえて、以下の例をぜひ参考にしてみてください!
サブスクリプションサービスの継続予測
今回の記事でも取り扱ったサブスクリプションサービスを対象として、ユーザが登録を継続するかしないかの予測をロジスティック回帰分析は行えます。
一般的にサブスクは、継続するかしないかという「はい」か「いいえ」に分かれる問題を設定できるため、ロジスティック回帰分析が行いやすいです。
代表的なサブスクの例を以下にまとめます。
- 映画のサブスク
- 音楽のサブスク
- ジムのサブスク etc.
また、これらのサービスに対して、新しいキャンペーンをする際にどれだけのユーザの継続に効果があるのかなどの効果分析を行う際にもロジスティック回帰分析を使用できます。
私たちの生活の至る所で、ロジスティック回帰分析を活かせるヒントが隠されているのです。
そのため、ロジスティック回帰分析の視点を持ち、生活を送ることを意識してみてください。
商品の購買予測
ユーザの行動データを基にロジスティック回帰分析を用いて商品の購買予測を行えます。
ECサイトでは毎日多くのユーザが購買行動を起こしているため、分析の基となるデータがたくさん蓄積しています。
そのため、以下の内容をロジスティック回帰により分析することができます。
- キャンペーンによってどれだけ購買が促進されたのか
- ある商品を買っている人は特定の商品を買っているのか etc.
ECサイトの運営やそれらの業務に携わっている方は、ぜひ一度ロジスティック回帰分析の活用を検討してみてください。
病気の予測
ロジスティック回帰分析は、患者の病気の発症の有無の予測も行えます。
医療分野では日々、病気の発症の有無に関するデータがさまざまな変数とともに蓄積しています。
例えば、ロジスティック回帰分析を用いることで、以下の目的変数を説明変数によって予測することが可能になります。
- 目的変数:ある疾患が発症するかどうか
- 説明変数:患者の健康データ、生活習慣の参考となる変数(飲酒頻度や喫煙頻度など) etc.
今後、多くのデータが様々な分野で蓄積されていくことが予想されているため、ロジスティック回帰分析の精度はより向上していくと考えられます。
そのため、様々な分野で、データをどのようにして活用できるかなどの視点を持つことが、分析者としての大切な心得だと私は思います。
まとめ
本記事では、ロジスティック回帰の結果の見方について解説しました。
ロジスティック回帰の結果は以下の4つの指標から解釈していきます。
- 回帰係数:説明変数の各変数が1変化したときの目的変数の変化量
- Z値(t値):回帰係数を標準誤差(*1)で割った値
- p値:変数が目的変数に対して影響があるかを測るための値
- オッズ比:ある説明変数が最終的な結果にどれだけ影響を与えているのかの指標
それぞれの指標でロジスティック回帰の結果を解釈できますが、組み合わせることで正確な解釈ができます。
p値にしきい値を設けて、Z値を大きい順に並べることで、各変数の影響の信頼度を見ることが一般的です。
また、オッズ比も考慮して効果的な変数を発見することをおすすめします。
『サブスクリプションの利用継続KPIをロジステック回帰分析で明らかに!』でも述べていますが、大事なことは手法を使うことではなくそこからビジネスアクションを生み出すことです。
今回の記事では具体的に、KPIの設定や新たな仮説の発見、次のアクションのための判断材料が得られました。
もし、以下のようなお悩みがあれば、『かっこのデータサイエンス』にお問合せください。
「データ分析をしたいけどできる人がいない…」
「そもそもデータをどのように扱っていいか分からない…」
状況のヒアリングを行い、お持ちのデータから基礎的なデータ分析や課題解決のためのデータ分析を行います。
サンプルデータの確認や課題の洗い出しまで無料で承っていますのでお気軽にご相談ください。
(※データの集計や本データの分析、改善の実施には費用がかかります。)
詳細は以下のページからご確認ください。
また1億レコードまでのデータであれば、お手軽にデータ分析をはじめられる「さきがけKPI」という、はじめてのデータ分析を応援するサービスのご用意もございます。
ご興味があればお気軽にお問い合わせください。