インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

分析

かんたん解説! ロジスティック回帰の結果の見方と考え方

 統計学の心得が無いビジネスマンにも、分析結果の読み方が理解できれば、成果は一気にアクションへとおちていきます。

本記事ではロジスティック回帰を使ったケーススタディの記事で省いたロジスティック回帰の結果の見方について簡単に解説。

これから活用しようと考えている方が、ご自身で正しく結果について考えられることを目的としました。

概要

  • ロジスティック回帰を見るにあたって、回帰係数、p値、Z値、オッズ比について説明
  • 特に注目はp値が指定の閾値未満でかつ、Z値が高いもの、オッズ比が高いもの
  • さらに集計を深堀することでKPI設定や新たな仮説の発見につながる

データの紹介

今回は映画のサブスクリプションを題材にとりあげました。

扱ったデータは、「会員ID、会員の年齢、性別、視聴した映画の本数、視聴した映画のカテゴリ、1ヶ月継続の有無」の6つです。さて、回帰分析で取り扱うデータには2種類のデータが存在します。一つは目的変数、もう一つは説明変数と呼ばれるものです。

目的変数とは簡単に言うと分析において知りたいデータのことです。

今回の分析の目的は1ヶ月継続する要因を調べることでした。

従って1ヶ月継続の有無が目的変数になります。

説明変数とは目的変数を知るためのデータのことです。

今回は、会員がどんな人で、どのような行動を取ったのかなどを説明する、分析に使える残りのデータが全部、説明変数になります。

変数というのは、ざっくり、データの種類の事だと思ってください。

結果の見方

統計値の説明について

ロジスティック回帰の結果を解釈するために避けられない統計値として回帰係数、Z値、p値、オッズ比があります

 

回帰係数 :

 変数が1変化したときに確率が変動する程度*です。値が大きいほど1変化した時に及ぼす影響が大きいと考えられます。(値がプラスだと目的に対してポジティブに、マイナスだとネガティブに作用するというように解釈します)

 

Z値 :

 回帰係数を標準誤差(*1)で割った値で、誤差が小さいほどこの値が大きくなります。

つまり値が大きいほど結果が信頼できると考えます。この値から後のp値が得られます。

 

p値 :

 変数が目的に対して影響を与えるかを測るための値です。

統計の世界では、慣例的に「有意差5%未満」であれば、その変数が、結果に何らかの影響を与えていると考えます。

少し難しい説明をすると、p値が0.05を下回っているかどうか(その変数が目的に対して影響しない確率が5%未満かどうか)で、その変数が目的に与える影響を判断しようという統計的な考え方です。

 

オッズ比 : ある事象の起こりやすさを2つの群で比較して示す統計的な尺度のことです。

今回で言うと各変数が1増加した時に、「何倍継続されやすくなるか」がわかります。

 

*1 標準誤差は精度みたいなものと考えてください。この値が低いほど精度が高いということを意味します。

つまり精度が高い(標準誤差が小さい)→Z値が高い→p値が0に近くなる という関係になります。

結果と解釈

では改めて結果を見ていきましょう。

継続に影響を与えていそうだと、統計的に結論づけたデータ(p値が0.05以下)は以下の太字の変数になりました。

回帰係数をみると正のものでこれらはポジティブに効く変数ということがわかります。

その中で特に信頼できる要因としてはZ値で降順ソートしていますので表の上位を見ていきましょう。映画の視聴本数や、いくつかの映画のカテゴリ(*2)が特に有効そうだと考えられます。

また、相対的な信頼度は低くてもオッズ比の特に高い変数(今回だとCategory_J)も大事です。ケーススタディの記事で実施していた分析後の深堀にこれらも加えて検討しましょう。

変数 回帰係数(変数が1変化した時に及ぼす影響の程度) Z値(変数に対する信頼度) p値(変数の説明効力) 変数が1増加した時のオッズ比
y切片 0.3 1.5 0.14 4.7
映画視聴本数 0.5(*3) 11.1 0.00 1.7
Category_K 1.5 8.0 0.00 4.7
Category_D 1.9 6.4 0.00 6.4
Category_B 1.2 5.2 0.00 3.4
Category_C 1.0 4.3 0.00 2.6
Category_J 2.5 4.3 0.00 11.8
Category_I 1.1 3.5 0.00 3.0
Category_A 1.8 3.4 0.00 5.8
Category_F 0.7 3.3 0.00 2.0
Category_E 1.7 3.2 0.00 5.6
Category_H 2.0 2.9 0.00 7.5
Category_G 0.3 1.2 0.21 1.3
年齢 0.0 1.0 0.31 1.0
性別_男 -0.3 -1.6 0.12 0.8

*2 分析するにあたって、各カテゴリごとに会員それぞれの合計視聴本数に対する割合としてあつかっています。例 ある会員がみた合計本数が5本でそのうちCategory_Aを2本見ていたら2 / 5 = 0.4という値を用いる

 

*3 今回お見せしている回帰分析の結果は前処理で全て標準化しているので、例えば映画を1本追加でみると継続確率が+0.5になるという風に捉えることはできません。

まとめ

ロジスティック回帰の結果の見方について説明しました。

ケーススタディの記事でも述べていますが、大事なのは手法を使うことではなくそこからビジネスアクションを生み出すことです。

今回は、具体的にその後の基礎集計によってKPIの設定新たな仮説の発見を示唆する次のアクションへの判断材料が得られたことを紹介しています。

 

もし、データ分析を活用したいけどあまり自信がないということであれば、ぜひ、かっこにご相談ください。

弊社では、専門知識のないお客さまでも、データ分析を自走できるようにサポートする、お手伝いもしています。

また1億レコードまでのデータであれば、お手軽にデータ分析をはじめられる「さきがけKPI」という、はじめてのデータ分析を応援するサービスのご用意もございます。

合わせてご興味があればお気軽にお問い合わせください。

さきがけKPI

ピックアップ記事

  1. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  2. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  3. 学生をデータサイエンティストに育てる4つのポイント
  4. こんなときには異常検知
  5. 知っておきたいAIの理想と現実

関連記事

  1. 箱ひげ図のアイキャッチ画像

    分析

    箱ひげ図を使うメリット・デメリットや実際の作り方を解説

    「箱ひげ図ってどうやって作るの?」「箱ひげ図はどうやって活用するの…

  2. リピート率とはのアイキャッチ画像

    分析

    売上に直結するリピート率とは?計算方法や上げ方の手順を解説

    「リピート率ってなに?」「そもそもなんでリピート率が重要?…

  3. バスケット分析のアイキャッチ画像

    分析

    バスケット分析とは?商品分析の例やエクセルでのやり方を解説

    バスケット分析とはそれぞれの商品の同時購入に着目して本当に併売に効果が…

  4. 売上分析のアイキャッチ画像

    分析

    売上分析とは?未来の戦略を練るための方法3選

    売上分析とは、売上向上のための分析のことで、現状の把握や将来予測を行え…

  5. 分析

    マーケティングから不正検知まで、データの理解と意思決定を助けてくれる「クラスタリング」とは?

    クラスタという言葉そのものには聞き覚えがあるかもしれません。で…

  6. 分析

    データ分析の使える道具!! よく活用する図表・グラフをまとめてみた。

    データ分析において、変数1つ1つの特徴や、変数間の関係性、現状の把握を…


おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. RFM分析のアイキャッチ画像

    統計

    RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  2. 組織

    リモートワーク下でも学生インターンを主戦力としてバリバリ活用するための極意
  3. 統計

    成果をあげるためのアクションに、優先順位を与えてくれる「オッズ比」の使い方
  4. 組織

    データサイエンスを現場の敵にしないために
  5. ECサイトのリピート率を向上させる方法のアイキャッチ画像

    分析

    コストを抑えてECサイトのリピート率を向上させる9つの方法【手順付き】
PAGE TOP