インターン生募集 未来のゲームチェンジャーの「やってみよう」をカタチに!データサイエンスのかっこでインターン生募集中

データ分析例

映画鑑賞初心者の私がデータ分析で映画を選んでみた

最近コロナ禍で在宅時間が増え、在宅でできる新しい趣味を始めたい方は私含めて多いのではないでしょうか。

特に私は大学の研究活動や授業がオンライン化したことで在宅時間が大幅に増えたため、在宅時間を有効利用でき、友人との話のネタにもなる映画鑑賞に興味を持ちました。

そこで今回、映画について全く知識のない私が、データサイエンスの力を使って映画鑑賞を趣味にするための最初の一歩としておすすめの映画を選んでみました。

今回の分析で得られた結果はビジネスに直結するものではないですが、基本統計量とデータの分布を把握することで、結論を導くまでの一連の流れを少しでも理解して頂ければと思います。

結論

・1980年以前の古い映画を選ぶと評価が高い映画を観ることができる可能性が高い

・映画のカテゴリーとしては音楽映画とフランス映画が特におすすめである

その中でも誰もが知るメジャーな作品ではなく

・音楽映画は「グレイトフル・ドーグ」

・フランス映画は「ラ・ジュテ」

というマニアックな映画がおすすめであるという直観に反する意外な結論に至りました。

ではどのような分析のもと上記の結論に至ったか順を追って説明していきたいと思います

引用したサイト

今回はFilmarks(https://filmarks.com/)に掲載されているAmazon Prime Videoで視聴可能な作品を分析に用いました。(2022/4/10時点)

以下の情報を変数として分析に用いました。

・作品タイトル

・ジャンル

・レビュー評価(1~5)

・製作国

・上映時間

・上映年代

分析の概要

今回の分析では、まずレビュー評価と

1.映画のジャンル

2.製作国

3.上映年代

の関係を調査し、どんなカテゴリがおすすめか明らかにします。

その結果を元に最後におすすめ映画を選定いたします。

おすすめカテゴリの定義

今回の分析ではおすすめなカテゴリを、

1.総じて作品の評価が高い

2.作品ごとの当たり外れが少ない

の両方を満たしているカテゴリとしました。

まず1について、高評価な作品の基準を決めるため、レビュー評価の分布を確認しました。

作品全体のレビュー評価の平均値は3.26、中央値が3.3でした。

レビューの評価としては3~3.5に多くの作品が集中しており、評価が4を超えるような作品はほとんどないことがわかります。

このことから、評価の中央値が3.3を超えるカテゴリを評価の高い作品が多いカテゴリであると考えました。

次に、2「作品ごとの当たり外れの少ない」カテゴリを

作品ごとの評価のばらつき具合(作品ごとの当たり外れの大きさ)を表す変動係数を用いて定義しました。

変動係数は、値が大きいほど作品ごとの評価のばらつき(当たり外れ)が大きいと解釈することができます。作品全体の変動係数の値を求めると、0.155となりました。

このことから、変動係数が作品全体の値0.155より小さいカテゴリを「作品ごとの当たり外れが少ないカテゴリ」と定義しました。

以上の結果から、今回の分析では

・レビュー評価の作品全体の中央値3.3より大きい

かつ

・変動係数が作品全体の値0.155より小さい

カテゴリーを「評価が高く、当たり外れが少ないおすすめカテゴリー」として定義しました。

映画のジャンルごとの特徴の可視化

次に映画のジャンルごとの評価を比較するために箱ひげ図で評価の分布を比較しました。箱ひげ図によって、データの分布を一目で比較することができます。箱ひげ図の解釈の仕方についてはこちらの記事をご覧ください。

ジャンルごとの評価の分布を確認すると

・音楽、ドキュメンタリー、スポーツ映画が評価が高い傾向にある

・ホラー、スリラー、バイオレンス、SF作品等が評価が低い傾向にある

ことが読み取れます。

音楽やスポーツ映画のように見た後に爽快な気分になれるジャンルは高評価層に分布している一方で、ホラーやスリラーのような恐怖を感じる映画や、パニック・バイオレンス等の刺激の強い作品が低評価層に分布しています。

このことから、観た後にポジティブな気分になれるジャンルは高評価が多く、刺激の強いジャンルは苦手な人が多いということが推察できます。

次に、より具体的な傾向を読み取るために、評価の中央値、変動係数、高評価率をジャンルごとにまとめ、中央値が高い順にジャンルを並べました。

(総作品数が20個に満たないジャンルは除外)

ジャンルとしては音楽とドキュメンタリー映画の評価の中央値が最も高く、変動係数の値も小さな値となっており、特に評価が高く当たり外れが少ないジャンルと言えます。

また、音楽に関する映画は高評価率が9割を超えており、音楽映画を視聴すると9割以上の確率で評価が高い作品を視聴できると言えます。

このことから、映画のジャンルとしては音楽映画が最もおすすめと結論づけました。

製作国別特徴の可視化

次に、製作国別に評価の分布を比較しました。

 

この結果から、製作国としては台湾・フランス・韓国が評価の中央値が特に高く、この3カ国は変動係数の値も全体の0.155より小さな値となっています。

その中でも特にフランスは高評価率が77%と高いことから、製作国の観点から見た際にフランス映画がおすすめであると結論付けました。

上映年代と評価の関係

次に、映画の上映年代と評価の関係について調査しました。

上映年が新しいほど作品数が増えており、その分作品ごとの評価にかなりばらつきが生じています。一方で、1980年以前の古い映画についてはほとんどの作品が高評価層に分布していることがわかります。

これは、上映からかなりの時間が経過しても尚、現在Amazon prime videoで公開されているような古い作品は名作が多いためではないかと考えられます。

おすすめ映画選定

ここまでの分析で

・音楽映画とフランス映画が特に評価が高く、尚且つ当たり外れが少ないカテゴリーである

・上映年度が古い映画は高評価であることが多い

ことがわかりました。

次に、これらのカテゴリーのうち、映画鑑賞を始める人が第一歩として気軽に観るという観点から、上映時間が短めで気軽に観ることができる映画をおすすめとして選定しようと考えました。

まず作品全体の上映時間のヒストグラムを以下に示します。

ヒストグラムを見てみると、多くの作品は100分前後であることがわかります。

作品全体の上映時間の平均値は100分、中央値は99分という結果になりました。

そこで、これまでの分析結果と合わせ、音楽映画とフランス映画の中から特に評価が高く、上映時間が100分未満の作品をおすすめ映画として選ぶことにしました。

まずフランス映画について、上映時間が100分未満かつ評価が高い順に並べました。

「ラ・ジュテ」、「夜と霧」が特に上映時間が短めで、評価も高い作品であることがわかります。ただ、夜と霧については戦争映画でヘビーな内容のため、ラ・ジュテをフランス映画の中でおすすめの作品に決定しました。

同様にして音楽映画について上映時間が100分未満かつ評価が高い順に作品をまとめました。

音楽映画の中ではグレイトフル・ドーグが評価が最も高く、他の作品と比べて10分程度上映時間が短めであることから、おすすめ映画として選定しました。

今回の分析の結果

・音楽映画

・フランス映画

が評価が高く当たり外れが少ないおすすめのカテゴリーであり、

年代が古い映画は評価の高い作品が多いことがわかりました。

これらのカテゴリの中でも特に

音楽映画はグレイトフル・ドーグ、フランス映画の中ではラ・ジュテの評価が高く、上映時間も短いため、映画を趣味にしたい人が気軽に観ることができるおすすめ映画として選びました。

最後に

今回の分析では、誰もが知る名作ではなく、「グレイトフル・ドーグ」、「ラ・ジュテ」という古くマイナーな映画が最初の一歩としておすすめな映画であるという、直観とはかけ離れた結果となりました。

特にラ・ジュテは「フォトロマン」という珍しい技法で作られた、スチール画とナレーションのみの作品という、どちらかというとかなりの映画マニア向けの作品であり、

映画初心者にとっておすすめと結論づけるのは無理があるかな…と思います。

 

そこで、今回の分析の反省点を振り返ってみると、

1.変数選択の吟味

2.おすすめされる側の視点で考えること

が足りていなかったなと思います。

 

今回の分析ではレビュー評価の高さをおすすめの指標に定義しましたが、必ずしもレビュー評価が高い=映画初心者にもおすすめ ではありません。むしろわざわざレビューを書く層は元々映画好きな人が多いとも考えられます。

映画の知識がない人にもおすすめするという意味では、視聴数の多さ(大衆受けしやすさ)を評価指標にしたほうが妥当な結果が得られたと思います。

このように目的に対して実態を反映していない変数を分析の主軸に据えたことで、得られた分析結果も実態からズレたものになってしまいました。

また、途中で上映時間が短めな作品に絞りましたが、これによってメジャーな作品がおすすめ対象から排除されてしまいました。

おすすめされる側の視点で考えると、短い時間の映画を選ぶことによるメリットよりも、メジャーな作品がおすすめ対象から除外されるデメリットの方が大きいため、本当にその分析方針で価値が生まれるのか、慎重に考えるべきでした。

 

まとめると、本当に価値が提供できそうか、あらゆる角度(変数選択、分析方針、結果の整合性 etc)から常に吟味し続けることが大事であると学びました。

 

そしてこういった項目を適切に吟味し、仮説を立てるためには、分析対象のドメイン知識(今回の場合は映画)やビジネスへの理解が必須になると思います。

どこかで聞いたことのある「データサイエンティストは分析以外が業務の8割を占める」というフレーズはこういった吟味や知識の修得に時間を割くからという意味もあるのだろうなと実感してます。

今回は私が試用期間課題としてこなしたテーマとその反省について紹介しました。

1ヶ月ほどの短い期間でこなした課題でしたが、今後につながる重要な教訓を得ることができました。

実務に移る前に課題を通して足りていなかった考えを反省できたことは自分にとってかなり貴重な機会でした。ここで得たことを活かして今後業務に邁進して参ります。

 

このように、かっこでは本当に数多くの気付きや成長の機会があります。

少しでもデータ分析やプログラミングに興味がある方、そしてデータをビジネスの課題解決に活かしたい方、ぜひ私たちと共に働きませんか??

お気軽に、かっこのインターンシップへご応募ください

ピックアップ記事

  1. 知っておきたいAIの理想と現実
  2. 学生をデータサイエンティストに育てる4つのポイント
  3. こんなときには異常検知
  4. 優良顧客を見つける「RFM分析」の考え方と使い方
  5. 多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた

関連記事

  1. データ分析例

    データ分析でわかる!? ハワイ・ホノルルエリアのおすすめ宿泊施設

    行ってみたい場所ランキング上位に度々上がるハワイ。ハワイ旅行と…

  2. データ分析例

    データサイエンスでバレーボールチームの戦術を考えてみた

    近年、ビジネス課題を解決するために、データを用いたアプローチがなされる…

  3. データ分析例

    多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた

    「コロナのせいで外出できないし、家で出来ることないかな」おうち時間…

  4. データ分析例

    湘南鎌倉エリアの女性向け物件探しをデータサイエンスのチカラでやってみた

    近頃データサイエンスというワードを耳にすることも増えてきたと思いますが…

  5. データ分析例

    データで判断! エンジニアの沖縄移住、おすすめエリア

    かっこ株式会社のデータサイエンス事業部でインターンをしている長峯です。…

  6. データ分析例

    大阪のホテル相場は1泊4500円。条件の違いで相場がどれだけ変わるのか見える化してみた

    旅行の計画を立てるとき、ホテルのプラン選びで悩む人は多いのではないでし…

カテゴリー

おすすめ記事

  1. 全力で食らいついたかっこでの1年間
  2. 確率を予測する「ロジスティック回帰」とは
  3. データサイエンスを現場の敵にしないために
  4. 優良顧客を見つける「RFM分析」の考え方と使い方
  5. 箱ひげ図 について超カンタンに解説してみた
  1. 統計

    データの関係性がパッと見でわかる「散布図」
  2. 組織

    学生をデータサイエンティストに育てる4つのポイント
  3. データ分析例

    多くの人と会話をするきっかけとなる最適な映画をデータサイエンスで選んでみた
  4. インターン体験記

    研究者を目指すうえでの必要スキルも身に付いた、データサイエンスのビジネス経験
  5. 分析

    今からとる行動が及ぼす影響の大きさを、数値で予測してくれる「回帰分析」のお話し
PAGE TOP