インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

データ分析例

  •  PR 

多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた

多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみたのアイキャッチ画像
  • 会話するきっかけになる映画の条件ってなに?
  • どんな映画を見たら満足感を得られる?

と気になりませんか。

おうち時間が増えた今、映画を見ようと考えている方も多いのではないでしょうか。

しかし、普段映画を観ない人は、何を見たら良いのか分からないとなりがちです。

そこで今回は「多くの人が観ており、かつ満足できる作品を選ぶための手順」を見つけることをテーマとして、データ分析を行いました。

今回の分析のテーマ

また、会話するきっかけとなる作品を選ぶことを目的として、評価と視聴者数がともに多い作品をコスパの良い作品と定義しています。

本記事では、

  • 視聴者数が10万人を超える映画の条件
  • コスパの良い映画のジャンル
  • コスパの良い映画の選び方

などについて解説していきますので、ぜひ参考にしてください。

\経験豊富なかっこのデータサイエンティストがまとめました!/ なぜデータサイエンスは必要?

今回の分析に使用したデータ

今回の分析に使用したデータ

今回の分析に使用した作品データは、Filmarksという国内最大級の映画・ドラマ・アニメのレビューサイトからスクレイピングして抽出しました。(2020/4/1時点)

スクレイピングとはWebサイトやWebページから情報を収集するための技術のことです。スクレイピングを行うプログラムを作ることで自動的にWebページからデータを収集できます。

取得した作品データはアメリカ映画 31,580件で、「評価がない作品」と「動画配信サービスに対応していない作品」を除いた8,799件を分析データとして使用しました。

例えば、以下のような形で1作品を抽出しています。

  • 作品名 :コンテイジョン
  • 上映日 :Nan
  • 上映時間 :106 (分)
  • 評価 :3.3 (5点満点)
  • 観た人数 :14147
  • 観る予定の人数 :5221
  • 視聴者数(総数) :19368
  • ジャンル : パニック, スリラー
  • 監督 :スティーブン・ソダーバーグ
  • 脚本家 :スコット・Z・バーンズ
  • 主演 :マリオン・コティヤール
  • 動画配信サービス : 対応

それでは、分析内容について解説していきます。

今回の分析の概要

今回の分析の概要

今回、コスパの良い作品の定義である視聴者数と評価について、1つずつ分析を進めていきました。

今回行った分析の手順は以下の通りです。

  • 【STEP1】視聴者数が10万人を超える条件を特定する
  • 【STEP2】コスパの良い映画ジャンルを見つける
  • 【STEP3】監督・脚本・主演別で視聴者数と評価の関係性を見る
  • 【STEP4】分析結果からコスパの良い作品を選定する

以上の手順で、コスパの良い作品の条件を決定していきました。

そして、分析結果を活かして、どのような作品から見ていけばよいかについても解説していきます。

それでは、それぞれ見ていきます。

【STEP1】視聴者数が10万人を超える条件を特定する

まず、コスパの良い作品の指標の1つである視聴者数について分析を行います。

視聴者数が多いという基準を「10万人」として、以下の3つの項目でそれぞれ視聴者数との関係を見える化しました。

  • 上映時間
  • 上映日
  • 評価

それぞれの項目と視聴者数の関係を散布図に表し、視聴者数が10万人の所に赤い線を引いたものが下図になります。

  • 上映時間

上映時間と視聴者数の関係

  • 上映日

 

上映日と視聴者数の関係

  • 評価

表かと視聴者数の関係

以上の各項目の散布図では、視聴者数が10万人以上である作品の範囲を黄色で表しています。

そのため、上図の黄色の範囲内がコスパの良い作品の最低条件であると考えられ、以下のように条件を設定できます。

  • 上映時間 : 80~200分
  • 評価 : 3.3~4.5
  • 上映日 : 1985年以降

上映日は、Filmarksが2012年にサービスを開始しているため、最近の作品の方が視聴者数が多い傾向があります。

このように、散布図でしきい値(10万人)を定めることで、最低条件を設定できるのです。

STEP2では、コスパの良い作品のジャンルの傾向を調べていきます。

【STEP2】コスパの良い映画ジャンルを見つける

コスパの良い作品を効率的に探すためには、ジャンルごとでもコスパの良いジャンルを見つける必要があります。

なぜなら、全てのジャンルを対象にしていると、対象となる作品が多くなりすぎて、本当にコスパの良い作品を見つけられないからです。

ジャンル別に評価平均と視聴者数平均を求めて散布図に表したものが下図になります。

コスパの良い作品が多いジャンル

30個あるジャンルのうち、右上に位置する11個のジャンルはコスパの良い作品の割合が大きいジャンルであると考えられます。

特に

  • 音楽・ミュージカル映画
  • ロマンス映画
  • ファンタジー映画

は視聴者数・評価がともに高い傾向が見られることから、明るくワクワクする作品は万人受けしやすいと推測できます。

逆に、ホラー映画などの作品は、視聴者数も評価も低めであることも見て取れるでしょう。

さらに、ジャンル別に作品数の割合を円グラフに表してみると、下図のようになりました。

ジャンル別作品数の割合

また、円グラフでジャンル別の割合が小さいものから順に評価についての箱ひげ図も作成します。

「箱ひげ図について詳しく知りたい」という方は『箱ひげ図を使うメリット・デメリットや実際の作り方を解説』の記事をご参照ください。

ジャンル別評価の箱ひげ図

箱ひげ図の下から出ているオレンジ色の棒グラフはそれぞれのジャンルの作品数であり、右にいくにつれて作品数の多いジャンルとなります。

今回は、図の上側に位置していながら作品数もそれほど多くないジャンルに注目して、該当する箱ひげ図を赤で囲いました。

なぜなら、赤で囲んだ箱ひげ図のジャンルは、良い作品にあたる可能性が高く、より良い作品に出会いやすいジャンルであるからです。

逆に、ホラー映画は箱ひげ図で見ると右から4番目で図の下側に位置しており、作品数が多い割には相対的に視聴者の評価が低く、見ている人が少ない可能性が考えられるでしょう。

【STEP3】監督・脚本・主演別で視聴者数と評価の関係性を見る

監督別・脚本家別・主演別でも、作品の評価平均と視聴者数平均との関係性を見ていきます。

今回は、コスパの良い作品に多く関わっている人物のみに初めから絞って作表しました。

実際に、監督別・脚本家別・主演別で作品の評価平均と視聴者数平均との関係を表した図が以下になります。

  • 監督別の作品の評価平均と視聴者数平均との関係

監督別の評価と視聴者数の関係

  • 脚本家別の作品の評価平均と視聴者数平均との関係

脚本家別の評価と視聴者数の関係

  • 主演別の作品の評価平均と視聴者数平均との関係

主演別の評価と視聴者数の関係

例えば、監督別であれば「クリストファー・ノーラン監督」が良いと判断しました。

クリストファー・ノーラン監督は、バットマン3部作のダークナイトシリーズやインセプション、インターステラー、TENETなどSFアクション映画で数多くのヒット作があります。

散布図で右上にあるからと言って作品数が多いとも限りませんので、作品が一定数あるかも判断基準として入れておくことを忘れないようにしましょう。

【STEP4】分析結果からコスパの良い作品を選定する

それでは、これまでの分析で判明したコスパの良い作品の条件をまとめて、コスパの良い作品を選んでいきましょう。

初期条件としてこれまでの条件を羅列し、さらに初期条件で絞った作品分布から、外れだと判明した条件を除いて最終的な条件を決定します。

まず、これまでの分析の条件をまとめた初期条件が下図です。

コスパの良い作品の初期条件

以上の初期条件をもとにコスパの良い作品を絞り、下図のような散布図で見える化を行いました。

なお、監督・脚本家・主演の誰かが1人でも入っている作品を対象としています。

コスパの良い作品の分布

初期条件で絞ると、上図のような散布図になります。

しかし、条件にが地位している監督・脚本家・主演の誰かが1人でも入っている作品を対象としたため、コスパの条件を満たしていない作品は除外としました。

作品分布から除いた作品の表は下図です。

作品分布から除いた作品

今回のテーマは「コスパの良い作品を選ぶ」であるため、1つでもコスパの良くない作品を選ばないようにしなくてはなりません。

そのため、初期条件として設定していた「監督・脚本家・主演」で上図の作品を担当している人物は除外する必要があります。

他にも、評価が3.8以上かつ視聴者数が10万人以上の作品だけが残るように、条件を満たさない不要な項目を削除して決定した条件が下図の通りです。

初期条件から変更した条件

「監督・脚本家・主演」以外にも、ジャンルで不要なものも除外されていることに注目してください。

このように、初期条件から更に最適な条件にブラッシュアップすることで、よりコスパの良い作品を見つけやすくなるのです。

以下では、決定した条件やこれまでの分析を活用して、コスパの良い作品を選ぶための手順を紹介していきます。

コスパの良い作品から順番に見るための最適な手順

それでは、コスパの良い作品から順番に見るための最適な手順について解説していきます。

今回は、分析の中で圧倒的にコスパの良かった作品を必ず見て、そのあとに今回決定した条件をもとに作品を探す手順としました。

コスパの良い作品から順番に見るための最適な手順は以下の通りです。

  1. ダントツで視聴者数が多く、高評価のラ・ラ・ランドを観る
  2. グレイテスト・ショーマンを観る
  3. ボヘミアン・ラプソディを観る
  4. アバウト・タイムを観る
  5. 今回決定した条件に当てはまっているコスパの良い作品を観る
    1. 条件にある監督 or 脚本家 or 主演から1人選ぶ
    2. 1で選んだ人が担当している作品 かつ 条件にある上映時間・上映日・ジャンルに該当する作品を選ぶ

まず、多くの人と会話するきっかけとなる映画を、最低限4つ観ることとしました。

4つの映画が観終われば、条件を活用して、あなたが観たい作品を選んでいきます。

今回の分析で明らかにした「コスパの良い作品の条件」と「作品の選び方」をまとめると、以下のようになります。

コスパの良い作品選びの手順

このように、テーマを定義してデータから条件を見つけ出すことで、映画作品選びなどの最適な手順を導き出せるのです。

今回の分析手順はさまざまな分析テーマに対しても応用できるので、ぜひ参考にしてデータ分析を行ってみましょう。

まとめ

この記事では、多くの人との会話のきっかけになる最適な映画を選ぶための方法をデータサイエンスによって明らかにしました。

何かの手順をデータ分析で導き出す時は、以下のように定義から条件を設定するような流れで行うとよいでしょう。

  • 【STEP1】視聴者数が10万人を超える条件を特定する
  • 【STEP2】コスパの良い映画ジャンルを見つける
  • 【STEP3】監督・脚本・主演別で視聴者数と評価の関係性を見る
  • 【STEP4】分析結果からコスパの良い作品を選定する

今回の分析では、以上の手順からコスパの良い映画を選ぶための手順を以下のように導けました。

  1. ダントツで視聴者数が多く、高評価のラ・ラ・ランドを観る
  2. グレイテスト・ショーマンを観る
  3. ボヘミアン・ラプソディを観る
  4. アバウト・タイムを観る
  5. 今回決定した条件に当てはまっているコスパの良い作品を観る
    1. 条件にある監督 or 脚本家 or 主演から1人選ぶ
    2. 1で選んだ人が担当している作品 かつ 条件にある上映時間・上映日・ジャンルに該当する作品を選ぶ

以上の手順に沿って映画を観ていくことで、多くの人との会話のきっかけも作れるようになる可能性が高まります。

今回の分析事例を参考に、あなたも身近なものからデータ分析を行ってみましょう。

データサイエンスの他の活用事例も知りたい!という方は『データサイエンスの活用事例まとめ|導入事例4選と必要な3つの準備』の記事もご参照ください。

ピックアップ記事

  1. RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  2. 知っておきたいAIの理想と現実
  3. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  4. こんなときには異常検知
  5. 学生をデータサイエンティストに育てる4つのポイント

関連記事

  1. データ分析でわかる!? ハワイ・ホノルルエリアのおすすめ宿泊施設のアイキャッチ画像

    データ分析例

    データ分析でわかる!? ハワイ・ホノルルエリアのおすすめ宿泊施設

    行ってみたい場所ランキング上位に度々上がるハワイ。ハワイ旅行と…

  2. 新宿 バイト 時給

    データ分析例

    新宿区でバイトを募集する企業向けに、 参考時給を提⽰し時給の決定を⽀援する

    「新宿でバイトの募集をしたいけど、時給はいくらに設定すべき?」「新…

  3. 映画鑑賞初心者の私がデータ分析で映画を選んでみたのアイキャッチ画像

    データ分析例

    映画鑑賞初心者の私がデータ分析で映画を選んでみた

    最近コロナ禍で在宅時間が増え、在宅でできる新しい趣味を始めたい方が多い…

  4. 湘南鎌倉エリアの女性向け物件探しをデータサイエンスのチカラでやってみたのアイキャッチ画像

    データ分析例

    湘南鎌倉エリアの女性向け物件探しをデータサイエンスのチカラでやってみた

    家探しの条件ってどうやって決める? 女性の家探しでどこを…

  5. NFL ドラフト アイキャッチ画像

    データ分析例

    大学時代の戦績からNFLのドラフト順位を予測してみた

    大学時代の戦績からドラフト順位って予測できる? ドラフト…

  6. データ分析で防音物件探し

    データ分析例

    データ分析を使って、東急東横線沿線で楽器弾きのための家探しをしてみた

    「楽器の練習をしたいけど、音を出せる場所がない」「楽器演奏ができる…

おすすめ記事

  1. 就活で話すことには困らないかっこのインターンシップ経験!
  2. 日々、巧妙化する不正取引の対策頻度を10倍に向上!「異常検知…
  3. 全力で食らいついたかっこでの1年間
  4. 確率を予測する「ロジスティック回帰」とは
  5. データサイエンスを現場の敵にしないために
  1. 分析

    サブスクリプションの利用継続KPIをロジステック回帰分析で明らかに!
  2. データ分析手法の紹介

    分析

    データ分析の手法って何があるの?状況に応じたベストな方法7選
  3. RFM分析のアイキャッチ画像

    統計

    RFM分析とは?優良顧客を見つけるやり方やメリット【例を用いて解説】
  4. インターン体験記

    大工からデータサイエンティストへ。かっこ株式会社での挫折と成長【インターン体験記…
  5. 統計

    2種のデータの関係性を明らかにする「相関」のおはなし
PAGE TOP