インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

統計

確率を予測する「ロジスティック回帰」とは

何らかの行動を起こす必要があるとき、「成功する確率」や「何をすれば成功する確率が上がるのか」「どんな要素が成功する確率に寄与するのか」を事前に知ることができたら心強いと思いませんか?

  • 息子・娘が第一志望の高校に合格できる確率は?
  • 自分がガンである確率は?
  • 顧客Aさんが、新商品を購入する確率は?

「ロジスティック回帰」は、このような ”ある事象が起こる確率” を予測することのできるデータ分析手法です。

本記事では確率を予測する分析手法「ロジスティック回帰」と活用方法について紹介します。

結論

  • ロジスティック回帰は、 ”ある事象が起こる確率” を予測することのできるデータ分析手法です。
  • 0から1の値を出力し、これを確率として捉えることができます。
  • 分類問題に活用できる手法です。
  • ビジネスにおいては、「目的を遂げたもの」と「そうでないもの」について確率をだすことができます
  • ロジスティック回帰は他の分類手法と違って、結果に対する要因を考察できる手法です

ロジスティック回帰とは?

そもそも「回帰分析」とは、蓄積されたデータをもとに、y = ax + b といった式に落とし込むための統計手法です。(なお、近日中に回帰分析についての紹介記事を本ブログ内にも書く予定です。)

そして「ロジスティック回帰」は、 ”ある事象が起こる確率” を予測することのできるデータ分析手法です。

ロジスティック回帰は、結果が将来「起きる」「起きない」のどちらかを予測したいときに使われる手法です。

起きる確率は「0から1までの数値」で表現され、この数値が「予測確率」になります。

例えば、このような例で考えてみましょう。

ある商品を購入するかどうかについて、下記のようなデータがあるとします。

商品の購入有無の「購入した」を1、「購入していない」を0と考え、商品の購入確率を予測するためのロジスティック回帰分析を行うことで、このデータをもとにした「ロジスティック回帰式(またはロジスティック回帰モデル)」が作られます。

作られたロジスティック回帰モデルに対し、性別や年齢の値を入れると購入確率が算出することができるというわけですね。

また、性別、年齢以外の他データがあれば、それらを同時に利用して計算することももちろんできます。

ロジスティック回帰はどう使うの?

ロジスティック回帰では0~1の間の数値である確率が算出されるわけですが、算出された値が0.5以上の値であれば「ある事象が起きる」、そうでなければ「ある事象は起きない」と捉えることができます。(なお、算出された値が0.5でなくても、そこは目的に応じてしきい値を変えることもあります。)

そのため、ロジスティック回帰は、データを見たときに、ある事象が「起きる」か「起きないか」のどちらのグループになるかを分ける際によく用いられます。

データ解析において、データからグループ分けを行うことを「分類問題」とよく言いますが、ロジスティック回帰は、”起きる”・ “起きない”の2値の分類問題を解く手段ということですね。

ビジネスにおいて「ある目的を遂げたもの」と「そうでないもの」について、様々な影響をもとにどちらになるかを予測・分類する、というシーンで積極的に活用します。。

上記例以外にも、顧客Aはサブスクリプションサービスを継続するかしないかの予測・分類といったシーンなど広く活用します。

ロジスティック回帰を使うメリットは?

実は、データ解析手法には、ロジスティック回帰以外にも分類問題に対する解法がたくさんあります。

ではデータサイエンティストがロジスティック回帰を使うのはどういうシーンでしょうか?

それは、その確率が得られる要因究明が必要とされている時です。

ビジネスにおけるデータサイエンスでは特に求められることで、「目的を遂げたもの」と「そうでないもの」の違いが知りたいのであれば、ロジスティック回帰を使ってください。

サブスクリプションサービスでなぜある人は継続していて、ある人は継続しないのか

リピート購買をする人とそうでない人はどう違うのか?

こういったビジネスのゴールのために、どんな条件によってどれだけその確率にポジティブないしネガティブなインパクトがあるのか、をロジスティック回帰の式の係数をみることで定量的に知ることが可能です。そうして、特にインパクトの高い変数をKPIとして設定することができれば、データドリブンにビジネス理解が深まり、次へのアクションが決まるというわけですね。

まとめ

ロジスティック回帰は、確率を出す、分類問題への解法であることを紹介しました。また、ビジネスにおいても次への打ち手を考えるために強力なツールであることをお分かりいただけたのではないでしょうか。

一方で目的は設定できても、データサイエンスの醍醐味である未知の仮説を想定しどんな変数をどれだけ、どのように組み込んで扱うか、ということを考えると難しいかもしれません。

かっこでは様々なビジネス課題や、ビジネス領域でデータサイエンスを活用してきました。1億レコードまでのデータであれば、お手軽にデータ分析をはじめられる「さきがけKPI」というサービスも提供しています。ご興味があればお気軽にお問い合わせください。

さきがけKPI

ピックアップ記事

  1. 学生をデータサイエンティストに育てる4つのポイント
  2. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  3. 知っておきたいAIの理想と現実
  4. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  5. こんなときには異常検知

関連記事

  1. 統計

    データ分析の成果を大きく左右する「変数」って何だ?

    データ分析では、「変数(へんすう)」という言葉が当たり前のように使われ…

  2. RFM分析のアイキャッチ画像

    統計

    RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】

    RFM分析は、顧客の行動を分析し、効果的な施策を行うための判断となる分…

  3. 度数分布表のアイキャッチ画像

    統計

    5分で分かる度数分布表|平均値などの求め方やエクセルでの作成手順

    度数分布表とはデータを決められた範囲ごとに分割し集計したものです。本記…

  4. 標準偏差のアイキャッチ画像 (1)

    統計

    標準偏差とは?データを見るなら知っておくべき求め方や目安

    「標準偏差ってどうやって求めるの?」「目安ってどの…

  5. 統計学でできること

    統計

    統計学でできることとは?|統計学の基礎から活用事例まで完全解説!

    「統計学でできることって何?」「そもそも統計学とは?」「統計学…

  6. 統計

    こんなにも使える、単純集計とクロス集計の活用法

    この記事ではアンケートなどで得られたデータを整理する方法である、単純集…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. 統計

    起きることの必然性を統計学で裏付ける!「検定」の使い方!
  2. データ分析で沖縄移住物件探し

    データ分析例

    データで判断! エンジニアの沖縄移住、おすすめエリア
  3. データ分析でわかる!? ハワイ・ホノルルエリアのおすすめ宿泊施設のアイキャッチ画像

    データ分析例

    データ分析でわかる!? ハワイ・ホノルルエリアのおすすめ宿泊施設
  4. カリフォルニア 車 買う

    分析

    カリフォルニアで車を買う人必見!現地で安くトヨタ車を買うなら「カローラLE」一択…
  5. 新宿 バイト 時給

    分析

    新宿区でバイトを募集する企業向けに、 参考時給を提⽰し時給の決定を⽀援する
PAGE TOP