インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

統計

確率を予測する「ロジスティック回帰」とは

何らかの行動を起こす必要があるとき、「成功する確率」や「何をすれば成功する確率が上がるのか」「どんな要素が成功する確率に寄与するのか」を事前に知ることができたら心強いと思いませんか?

  • 息子・娘が第一志望の高校に合格できる確率は?
  • 自分がガンである確率は?
  • 顧客Aさんが、新商品を購入する確率は?

「ロジスティック回帰」は、このような ”ある事象が起こる確率” を予測することのできるデータ分析手法です。

本記事では確率を予測する分析手法「ロジスティック回帰」と活用方法について紹介します。

結論

  • ロジスティック回帰は、 ”ある事象が起こる確率” を予測することのできるデータ分析手法です。
  • 0から1の値を出力し、これを確率として捉えることができます。
  • 分類問題に活用できる手法です。
  • ビジネスにおいては、「目的を遂げたもの」と「そうでないもの」について確率をだすことができます
  • ロジスティック回帰は他の分類手法と違って、結果に対する要因を考察できる手法です

ロジスティック回帰とは?

そもそも「回帰分析」とは、蓄積されたデータをもとに、y = ax + b といった式に落とし込むための統計手法です。(なお、近日中に回帰分析についての紹介記事を本ブログ内にも書く予定です。)

そして「ロジスティック回帰」は、 ”ある事象が起こる確率” を予測することのできるデータ分析手法です。

ロジスティック回帰は、結果が将来「起きる」「起きない」のどちらかを予測したいときに使われる手法です。

起きる確率は「0から1までの数値」で表現され、この数値が「予測確率」になります。

例えば、このような例で考えてみましょう。

ある商品を購入するかどうかについて、下記のようなデータがあるとします。

商品の購入有無の「購入した」を1、「購入していない」を0と考え、商品の購入確率を予測するためのロジスティック回帰分析を行うことで、このデータをもとにした「ロジスティック回帰式(またはロジスティック回帰モデル)」が作られます。

作られたロジスティック回帰モデルに対し、性別や年齢の値を入れると購入確率が算出することができるというわけですね。

また、性別、年齢以外の他データがあれば、それらを同時に利用して計算することももちろんできます。

ロジスティック回帰はどう使うの?

ロジスティック回帰では0~1の間の数値である確率が算出されるわけですが、算出された値が0.5以上の値であれば「ある事象が起きる」、そうでなければ「ある事象は起きない」と捉えることができます。(なお、算出された値が0.5でなくても、そこは目的に応じてしきい値を変えることもあります。)

そのため、ロジスティック回帰は、データを見たときに、ある事象が「起きる」か「起きないか」のどちらのグループになるかを分ける際によく用いられます。

データ解析において、データからグループ分けを行うことを「分類問題」とよく言いますが、ロジスティック回帰は、”起きる”・ “起きない”の2値の分類問題を解く手段ということですね。

ビジネスにおいて「ある目的を遂げたもの」と「そうでないもの」について、様々な影響をもとにどちらになるかを予測・分類する、というシーンで積極的に活用します。。

上記例以外にも、顧客Aはサブスクリプションサービスを継続するかしないかの予測・分類といったシーンなど広く活用します。

ロジスティック回帰を使うメリットは?

実は、データ解析手法には、ロジスティック回帰以外にも分類問題に対する解法がたくさんあります。

ではデータサイエンティストがロジスティック回帰を使うのはどういうシーンでしょうか?

それは、その確率が得られる要因究明が必要とされている時です。

ビジネスにおけるデータサイエンスでは特に求められることで、「目的を遂げたもの」と「そうでないもの」の違いが知りたいのであれば、ロジスティック回帰を使ってください。

サブスクリプションサービスでなぜある人は継続していて、ある人は継続しないのか

リピート購買をする人とそうでない人はどう違うのか?

こういったビジネスのゴールのために、どんな条件によってどれだけその確率にポジティブないしネガティブなインパクトがあるのか、をロジスティック回帰の式の係数をみることで定量的に知ることが可能です。そうして、特にインパクトの高い変数をKPIとして設定することができれば、データドリブンにビジネス理解が深まり、次へのアクションが決まるというわけですね。

まとめ

ロジスティック回帰は、確率を出す、分類問題への解法であることを紹介しました。また、ビジネスにおいても次への打ち手を考えるために強力なツールであることをお分かりいただけたのではないでしょうか。

一方で目的は設定できても、データサイエンスの醍醐味である未知の仮説を想定しどんな変数をどれだけ、どのように組み込んで扱うか、ということを考えると難しいかもしれません。

かっこでは様々なビジネス課題や、ビジネス領域でデータサイエンスを活用してきました。1億レコードまでのデータであれば、お手軽にデータ分析をはじめられる「さきがけKPI」というサービスも提供しています。ご興味があればお気軽にお問い合わせください。

さきがけKPI

ピックアップ記事

  1. 学生をデータサイエンティストに育てる4つのポイント
  2. 知っておきたいAIの理想と現実
  3. こんなときには異常検知
  4. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  5. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】

関連記事

  1. 統計

    統計学が得意なこと

    かっこのデータサイエンスサービスで、よく使っている技術として、統計や機…

  2. なんでも平均でいいの?

    統計

    なんでも平均でいいの?中央値と平均値をどう使い分けるか

    「なんでも平均でいいの?」「平均値や中央値ってどう使い分けるの?」…

  3. 度数分布表のアイキャッチ画像

    統計

    5分で分かる度数分布表|平均値などの求め方やエクセルでの作成手順

    度数分布表とはデータを決められた範囲ごとに分割し集計したものです。本記…

  4. RFM分析のアイキャッチ画像

    統計

    RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】

    RFM分析は、顧客の行動を分析し、効果的な施策を行うための判断となる分…

  5. 統計

    2種のデータの関係性を明らかにする「相関」のおはなし

    皆さんは「相関」という言葉を聞いたことがありますか??「相関」はデ…

  6. 統計

    データの関係性がパッと見でわかる「散布図」

    散布図とは、2つのデータの関係性をパッと見ただけで把握することができる…


おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. 統計

    利益爆増のためのアクションを発見!「カイ二乗検定」の可能性とは
  2. 最適化

    おせちで説明!ヒトの経験と勘を超える「数理最適化」の可能性
  3. 2024年問題 とは

    最適化

    2024年問題とは?物流業界への影響や解決策を分かりやすく解説!
  4. データ分析でメルカリ出品戦略を立てる-修正版

    データ分析例

    データ分析による読み終わった漫画のメルカリ出品戦略
  5. データ分析で防音物件探し

    データ分析例

    データ分析を使って、東急東横線沿線で楽器弾きのための家探しをしてみた
PAGE TOP