最近コロナ禍で在宅時間が増え、在宅でできる新しい趣味を始めたい方が多いのではないでしょうか。
特に私は大学の研究活動や授業がオンライン化したことで在宅時間が大幅に増えたため、在宅時間を有効利用でき、友人との話のネタにもなる映画鑑賞に興味を持ちました。
そこで今回、映画について全く知識のない私が、データサイエンスの力を使って映画鑑賞を趣味にするための第一歩としてAmazonでおすすめの映画を選んでみました。
今回の分析で得られた結果はビジネスに直結するものではないですが、基本統計量とデータの分布を把握することで、結論を導くまでの流れを理解する参考にしてください。
目次
結論
結論として、Amazonで視聴可能な映画を分析したところ、以下のような傾向が見て取れました。
- 評価の高い映画の年代:1980年以前
- おすすめの映画のジャンル:音楽映画・フランス映画(ジャンル別おすすめ・制作国別おすすめ)
以上の傾向から、以下のようなマニアックな映画がおすすめされる意外な結果となりました。
- 音楽映画:「グレイトフル・ドーグ」
- フランス映画:「ラ・ジュテ」
では、どのような分析の結果、以上の結論になったのかを説明していきます。
引用したサイト
今回はFilmarksに掲載されているAmazon Prime Videoで視聴可能な作品を分析に用いました。(2022/4/10時点)
分析では、以下の情報を変数(分析項目)として分析を進めました。
- 作品タイトル
- ジャンル
- レビュー評価(1~5)
- 製作国
- 上映時間
- 上映年代
それでは、分析の概要について説明していきます。
分析の概要
今回の分析では、おすすめのジャンルをレビュー評価と以下の3つの変数の関係をそれぞれ調査しました。
- 1.映画のジャンル
- 2.製作国
- 3.上映年代
以下のような流れで説明していきます。
- おすすめな映画ジャンルの評価基準を定義する
- ①映画のジャンルごとの特徴の可視化・おすすめの推薦
- ②製作国別の特徴の可視化・おすすめの推薦
- ③上映年代と評価の関係の可視化・おすすめの推薦
- おすすめな映画を選定する
3つの変数から分析して、最終的におすすめな映画を選定します。
まず、今回のおすすめ映画ジャンルの定義について解説していきます。
おすすめな映画ジャンルの評価基準を定義する
今回の分析ではおすすめなジャンルを以下の2つの条件を満たしているものとしました。
- 全体的に作品の評価が高い
- 作品ごとの当たり外れが少ない
それぞれのジャンルの定義について解説していきます。
「全体的に作品の評価が高い」とは
「全体的に作品の評価が高い」では、まず全作品のレビュー評価の分布を確認しました。
なぜなら、作品の評価が高いかどうかは平均値や中央値から、相対的に(他の作品と比較して)判断しないといけないためです。
実際に作品のレビュー評価の分布を可視化したものが下図です。
縦軸には作品数、横軸には5段階評価をそれぞれ取っています。
作品全体のレビュー評価の平均値と中央値は以下の通りです。
- 平均値:3.26
- 中央値:3.3
レビューの評価として3~3.5に多くの作品が集中しており、レビューの評価が4を超えるような作品はほとんどないと分かります。
また、平均値と中央値がそれぞれ似た値であることから、評価の中央値が3.3を超えるジャンルを評価の高い作品が多いジャンルであると定義しました。
平均値と中央値の関係についておさらいしておきたい方は、『なんでも平均でいいの?中央値と平均値をどう使い分けるか』の記事をご参照ください。
「作品ごとの当たり外れが少ない」とは
「作品ごとの当たり外れの少ない」とは、ジャンル内の作品ごとの評価にばらつきが少ないかどうかのことです。
そのため、今回はばらつき具合(作品ごとの当たり外れの大きさ)を表す変動係数を用いて定義しました。
まず作品全体の変動係数の値を求めると、0.155となりました。
そのため、変動係数が作品全体の値0.155より小さいジャンルを「作品ごとの当たり外れが少ないジャンル」と定義しました。
以上の結果から、今回の分析では以下の2つの条件を満たしたものをおすすめジャンルと定義できます。
- レビュー評価の作品全体の中央値3.3より大きい
- 変動係数が作品全体の値0.155より小さい
以下ではジャンルごとの特徴を可視化していきます。
①映画のジャンルごとの特徴の可視化・おすすめの推薦
映画のジャンルごとの評価を比較するため、まず箱ひげ図で評価の分布を比較しました。
箱ひげ図はデータの分布を一目で比較できるため、データ分析の多くの場面で用いられます。
箱ひげ図を簡単におさらいしたい方は、『箱ひげ図について超カンタンに解説してみた』の記事をご参照ください。
実際に可視化した箱ひげ図が下図になります。
ジャンルごとの評価の分布を確認すると、以下のことが読み取れます。
- 音楽・ドキュメンタリー・スポーツ映画の評価が高い傾向
- ホラー・スリラー・バイオレンス・SF作品等が評価が低い傾向
音楽などの映画は観るとポジティブな気分になり高評価がつきやすいですが、ホラーなどは刺激が強いので低評価層もいるでしょう。
なので、観た後にポジティブな気分になれるジャンルは高評価が多く、刺激の強いジャンルは苦手な人が多いということが推察できます。
より具体的な傾向を読み取るために、評価の中央値・変動係数・高評価率をジャンルごとにまとめ、中央値が高い順に並べたのが下図です。
※総作品数が20個に満たないジャンルは除外
ジャンルとしては音楽とドキュメンタリー映画の評価の中央値が最も高く、変動係数の値も小さな値となっており、特に評価が高く当たり外れが少ないジャンルです。
また、音楽に関する映画は高評価率が9割を超えており、音楽映画を視聴すると9割以上の確率で評価が高い作品を視聴できるでしょう。
このことから、映画のジャンルとしては音楽映画が最もおすすめであると結論付けられるのです。
②製作国別の特徴の可視化・おすすめの推薦
また、製作国別にでも箱ひげ図を用いて、評価の分布を比較しました。
比較をしたのが下図になります。
ジャンルごとで分析した時と同じように、評価の中央値・変動係数・高評価率をジャンルごとにまとめ、中央値が高い順に並べたのが下図です。
この結果から、製作国としては台湾・フランス・韓国が評価の中央値が特に高く、この3カ国は変動係数の値も全体の0.155より小さな値となっています。
その中でも特にフランスは高評価率が77%と高いことから、製作国の観点から見た際にフランス映画がおすすめであると結論付けました。
③上映年代と評価の関係の可視化・おすすめの推薦
最後に、映画の上映年代と評価の関係についても、散布図で可視化して分析を行いました。
散布図について詳しく知りたい方は、『データの関係性がパッと見でわかる「散布図」』の記事をご参照ください。
2つの関係性を可視化する時に散布図が用いられることが多く、下図のような散布図で関係性を可視化できます。
上映年が新しいほど作品数が増えており、作品ごとの評価にかなりばらつきが生じている一方、1980年以前の古い映画についてはほとんどの作品が高評価層に分布しています。
このことから、上映からかなりの時間が経過してもAmazon prime videoで公開されているような古い作品は名作が多いからであると推測できます。
ここまでの分析の結果をまとめると、以下のようになります。
- おすすめな映画ジャンル:音楽映画
- おすすめな映画の制作国:フランス映画
- おすすめな映画の上映年:980年以前の古い映画
以上の結果から、映画鑑賞を始める人が気軽に観るという観点から、上映時間が短めで気軽に観られる映画をおすすめとして選定していきます。
おすすめな映画を選定する
どの映画の上映時間が短いのかを判断するため、作品全体の上映時間のヒストグラムとして可視化します。
ヒストグラムについて詳しく知りたい方は、『ヒストグラムとは?見方やエクセルでの作り方・経営分析の例を解説』の記事をご参照ください。
実際にヒストグラムで可視化したのが下図になります。
ヒストグラムを見てみると、多くの作品は100分前後で、上映時間の平均値は100分、中央値は99分という結果になりました。
そこで、これまでの分析結果と合わせ、音楽映画とフランス映画の中から特に評価が高く、上映時間が100分未満の作品をおすすめ映画として選ぶことにしました。
まずフランス映画について、上映時間が100分未満かつ評価が高い順に並べました。
「ラ・ジュテ」、「夜と霧」が特に上映時間が短めで、評価も高い作品であることがわかります。
ただ、夜と霧については戦争映画でヘビーな内容のため、「ラ・ジュテ」をフランス映画の中でおすすめの作品に決定しました。
同様にして音楽映画について上映時間が100分未満かつ評価が高い順に作品をまとめました。
音楽映画の中では「グレイトフル・ドーグ」が評価が最も高く、他の作品と比べて10分程度上映時間が短めであることから、おすすめ映画として選定しました。
今回の分析の結果を以下でまとめます。
評価が高く当たり外れが少ないおすすめのジャンルは以下の通りです。
- 音楽映画
- フランス映画
また、年代が古い映画は評価の高い作品が多いこともわかりました。
これらのジャンルの中でも、上映時間が短いもので、映画を趣味にしたい人が気軽に観ることができるおすすめ映画として以下を選びました。
- 音楽映画:「グレイトフル・ドーグ」
- フランス映画:「ラ・ジュテ」
以上の分析結果から、「グレイトフル・ドーグ」と「ラ・ジュテ」を見るべきだと結論付けられたのです。
今回の分析の反省と学んだこと
今回の分析では、「グレイトフル・ドーグ」、「ラ・ジュテ」という古くマイナーな映画が最初の一歩としておすすめな映画であるという、直観とはかけ離れた結果となりました。
特にラ・ジュテは「フォトロマン」という珍しい技法で作られた、スチール画とナレーションのみの作品という、かなりの映画マニア向けの作品です。
なので、映画初心者にとっておすすめと結論づけるのは無理があるかな…と思いました。
そこで、今回の分析の反省点を振り返ってみると、以下の点が足りていなかったなと思います。
- 1.変数選択の吟味
- 2.おすすめされる側の視点で考えること
以上の反省点から、今回の分析の改善ポイントを挙げると以下の2つです。
- レビュー評価の高さをおすすめの指標としたこと
- 上映時間が短いものに絞ったこと
それぞれ説明していきます。
レビュー評価の高さをおすすめの指標としたこと
今回の分析ではレビュー評価の高さをおすすめの指標に定義しましたが、わざわざレビューを書く層は元々映画好きな人が多いとも考えられます。
映画の知識がない人にもおすすめするという意味では、視聴数の多さ(大衆受けしやすさ)を評価指標にしたほうが妥当な結果が得られたと思います。
このように目的に対して実態を反映していない変数を分析の主軸に据えたことで、得られた分析結果も実態からズレたものになってしまいました。
上映時間が短いものに絞ったこと
また、途中で上映時間が短めな作品に絞りましたが、メジャーな作品がおすすめ対象から排除されてしまいました。
おすすめされる側の視点で考えると、短い時間の映画を選ぶことによるメリットよりも、メジャーな作品がおすすめ対象から除外されるデメリットの方が大きいでしょう。
そのため、本当にその分析方針で価値が生まれるのか、慎重に考えるべきでした。
まとめ
この記事では、データサイエンスを用いておすすめの映画を推薦するための分析について紹介してきました。
今回の分析の流れは以下の通りです。
- おすすめな映画ジャンルの評価基準を定義する
- ①映画のジャンルごとの特徴の可視化・おすすめの推薦
- ②製作国別の特徴の可視化・おすすめの推薦
- ③上映年代と評価の関係の可視化・おすすめの推薦
- おすすめな映画を選定する
「おすすめ」の基準を定めて、映画のジャンルや制作国・上映年代でそれぞれ分析を行いました。
また、おすすめ映画の選定では、私が映画鑑賞初心者であることから、上映時間を絞り込むこととしました。
しかし、今回の分析について以下のような反省点も挙げられます。
- レビュー評価の高さをおすすめの指標としたこと
- 上映時間が短いものに絞ったこと
そもそもレビューを行う人間は映画好きであり、映画初心者におすすめするデータの元として良くない可能性があります。
また、上映時間が短いもので絞り込んだ結果、メジャー作品が除外されてしまった点も課題です。
今回のおすすめ映画の分析を、ぜひ映画を鑑賞する時の作品選びの参考にしてください。