近年、ビジネス課題を解決するために、データを用いたアプローチがなされることが多くあると思います。
そのような状況に関連して、今回は私がインターンの試用期間で課題として取り組んだテーマについてお話しします。
私のテーマは直接ビジネスに結びつくわけではないですが、データ分析による課題解決の一連の流れをご理解いただけると思います。
目次
課題の内容
私が取り組んだ課題は、「データに基づいてバレーボールチームの戦術を考える」というものです。
チームの勝率を上昇させるには、強みをさらに伸ばすよりも、弱みを普通レベルまで引き上げる方が効率が良いです。
そこで、チームの弱点を発見し、その弱点を補強するような戦術を考えることにします。
今回は、バレーボールリーグの最高峰であるイタリアセリエA1男子のデータを用いて、Perugia, Piacenza, Padovaという3チームについて実際に戦術を考えます。
結論
データを分析した結果、各チームの戦術は以下のようになりました。
Perugiaは…
- 目立った弱点がないので現状維持でOK
Piacenzaは…
- ジャンプサーブを打つ選手を増やす、サーブで厳しいコースを狙う
- ブロックの個人スキルを高める、チームとしてのブロックシステムを統一する
- ブロックされないようにコートの奥を狙ってスパイクを打つ
Padovaは…
- ブロックの個人スキルを高める、チームとしてのブロックシステムを統一する
- サーブのクオリティを維持しつつ、できる限りサーブミスを減らす
- 個人がアタックミスを減らす意識をもつ or ミスを誘発しないようにセッターのトスの安定性を高める
さらに、各チームが上の戦術を取り入れ、実際にプレーが改善した場合、Piacenzaでは15%、Padovaでは27%勝率が上昇すると予測されました。
データ分析を行うことで、効果がありそうな戦術が考えられたことがわかります。
以下では、このような戦術にたどり着いた分析の過程を説明します。
使用したデータについて
まず、分析に使用したデータについて説明します。
今回の分析では、イタリアのプロバレーボールリーグであるセリエA1男子のデータを用いました。そのため、以下で行う分析は全てイタリアのリーグ内での話になります。
使用したサイトはイタリアリーグの公式サイトです。
このサイトから、試合の各セットにおける勝敗と各プレー成績を、過去5年分(2017~2021年)スクレイピングで抽出しました(2022/3/25時点)。
実際に取得したデータは下記の通りです。
- 勝敗(勝利→1、敗北→0)
- サービスエース率(%)
- サーブミス率(%)
- レセプションミス率(%)
- レセプション成功率(%)
- レセプション完全成功率(セッターがほとんど動かなくてよい返球の割合)(%)
- アタックミス数(本)
- (アタック)被ブロック数(本)
- アタック得点数(本)
- アタック得点率(%)
- ブロック得点数(本)
ちなみに、レセプションとは相手のサーブをレシーブするプレーのことです。
抽出したデータのうち、5セット目のデータとデュースになったセットを除いて(*1)、2356件のデータを分析に用いました。
また、2021/2022シーズンのセリエA1所属チームの表を載せておきます。
チーム別の分析では、色付き部分に示したPerugia, Piacenza, Padovaの順位帯別3チームについて扱います。
*1 5セット目は15点マッチであり、デュースになったセットは25点を超えてしまうため、通常の25点マッチのセットから得られたデータに比べて変数の値が大きすぎたり、小さすぎたりする可能性があります。今回の分析ではそのようなデータを除いて考えています。
各変数の可視化
分析を行う前に、各変数の分布を確認しましょう。
各変数について、勝利セット(オレンジ色)と敗北セット(水色)の分布をヒストグラムで表しました。
また、赤線で各階級における勝率を示しました。
可視化した結果
- 得点に関する変数(サービスエース率など)は、値が大きくなるほど勝率が高くなる
- 失点に関する変数(サーブミス率など)は、値が大きくなるほど勝率が低くなる
という傾向が読み取れます。これは可視化しなくても予想のつくことですが、データ分析を行う際には大事な作業です。
以上の結果から、これらの10個の変数を分析に用います。
分析の概要
今回は、以下の3つの分析を行います。
- 勝利に影響するプレー指標の特定
- チームの弱点の発見
- 弱点を補強した場合の勝率予測
まず、1では、ロジスティック回帰を用いてどの変数が重要なのかを調べます。
次に、2では、勝利基準(後ほど説明します)と各チームの平均を比較し、1の結果と合わせてチームの弱点はどこにあるのか特定します。
最後に、3では、2で発見した弱点を補強した場合、どのように勝率が変化するかを予測します。
重要な変数は何か
ロジスティック回帰
それでは、ロジスティック回帰分析を用いて、勝利に重要な変数を調べてみましょう。
ロジスティック回帰分析では、ある事象が起こる確率(ここでは勝利する確率)を予測することができます。さらに、分析の結果から、どの変数が予測に大きく寄与したのかを知ることができます。詳しくは確率を予測する「ロジスティック回帰」とはをご覧ください。
さて、今回は先ほど選んだ10個の変数を標準化して入力し、勝敗を予測するというモデルを考えます。
実際に分析を行った結果、ロジスティック回帰による予測の精度は0.877となりました。
これは、ロジスティック回帰モデルが予測した勝敗と、実際の勝敗が87.7%一致した(*2)ことを表します。
約9割という精度が得られましたが、勝利に重要な変数を調べるというこの分析の目的から考え、この精度は十分なものであると判断しました。
2* データ全体の20%を検証用データとして、クロスバリデーションを行った結果、accuracyの平均スコアが0.877となりました。
得点スキルが重要
それでは、ある程度モデルの妥当性が確保できたところで、本題である、重要な変数について調べます。
以下の表は、モデルの各統計量を、偏回帰係数の絶対値の降順でソートしたものです。
つまり、変数を重要度が高い順にソートしたことになります。
また、偏回帰係数が有意にならなかった変数を灰色に、有意になった変数のうち得点に関わる変数をオレンジ色で、失点に関わる変数を水色で色分けしました。
実際に表を見ると、オレンジ色の変数が重要度の上位に並んでいます。これは、総じて得点するための力が勝利には重要であることを示しています。その一方で、有意にならなかった変数を見ると、レセプションの成功率は勝敗にあまり関係しないことがわかります。
ロジスティック回帰によって変数のイメージが大体つかめたと思います。
チームの弱点の発見
次に、実際に各チームのデータを使って、チームの弱点を調べてみましょう。
勝利基準の設定
この分析では、まず、「勝利基準」を設定します。
先ほどの変数のグラフから、勝率が60%となる時点での各変数の値を求め、それを勝利基準とします。
勝利基準付近の成績を残せれば、かなりの確率でセットに勝利できると考えられます。
この勝利基準と、実際のバレーボールチームの成績を比較してみます。
また、比較の際、各変数の単位が異なるため、以下の「基準達成率」を指標として用いることにします。
基準達成率(%) = 100 × チーム平均 / 勝利基準
チーム別分析
以下のグラフは、最初に選んだイタリアリーグの3チームの2021/2022シーズンの成績を、基準達成率で表したものです。
グラフ中の赤線は基準達成率100%を示しています。
さらに、先ほどのロジスティック回帰分析から、得点に関する変数が重要で、レセプションの成功率はあまり重要でない、ということがわかっているので、これらの結果も踏まえた上で、各チームの成績を確認します。
まず、濃い青のグラフに注目してください。このグラフはPerugiaというチームの成績です。Perugiaは2021/2022シーズンでリーグ1位(13チーム中)の成績を収めた強豪チームです。
このチームの成績を見ると、ほとんどの変数が勝利基準付近にあり、勝利基準から離れていたとしても、他のチームから突出して悪い変数はありません。特筆すべき弱点がなく、1位になった理由がよくわかります。
次に、中央の水色のグラフです。このグラフはPiacenzaというチームの成績です。Piacenzaは2021/2022シーズンでリーグ6位とまずまずの成績を残しています。
このチームの成績を見ると、サービスエース率・ブロック得点数が低いことがよくわかります。また、被ブロック数も突出して多いです。したがって、このチームの弱点は、サービスエース率・ブロック得点数・被ブロック数だと言えます。
最後に、薄い水色のグラフに注目してください。このグラフはPadovaというチームの成績です。Padovaは2021/2022シーズンでリーグ11位とあまり良い成績を残せませんでした。
このチームの成績を見ると、サービスエース率がかなり高いものの、サーブミス率も同様に高いことが読み取れます。また、ブロック得点数が低く、アタックミス数が多いこともわかります。したがって、このチームの弱点は、サーブミス率・ブロック得点数・アタックミス数だと言えます。
以上のようにして、各チームの弱点を発見することができました。
弱点を補強した場合の勝率予測
最後に、発見した弱点を補強した場合、勝率がどのように変化するのか予測してみます。
具体的には、先ほどのロジスティック回帰モデルを用い、弱点となった変数の値を改善した上で、勝率を再度予測します。
それでは、先ほど弱点が見つかったPiacenza(6位)とPadova(11位)の2チームについて2021/2022シーズンのデータを用いて勝率予測を行います。
まず、Piacenzaは何もしていない場合の勝率が約52%と予測されていました。ここで、先ほど見つかった弱点である、サービスエース率・ブロック得点数・被ブロック数を1本ずつ改善してみましょう。すると、勝率は約67%となり、15%アップすると予測されました。
Padovaでも同じことを行います。Padovaは何もしていない場合の勝率が約34%と予測されていました。先ほど見つかった弱点の、ブロック得点数・サーブミス率・アタックミス数を1本ずつ改善してみます。すると、勝率は約61%となり、27%アップすると予測されました。
弱点のプレーをたった1本ずつ改善するだけで、勝率が大きく上がると予測されました。
実際のプレー構造はより複雑ですし、モデルの精度などいろいろな問題があるため、弱点を補強して同様の勝率が得られるとは言い切れません。しかし、補強すべき弱点を明確にし、「サービスエース数を増やすためにジャンプサーブを打つ選手を増やそう」など、具体的なアクションに繋げられるという点で、この分析は意味があるものだと考えられます。
まとめ
以上の分析結果をまとめると、
- イタリアリーグでは、得点に関する変数が勝敗に大きく影響する
- 一方で、レセプションの成功率は勝敗にあまり影響しない
- 勝利基準とチーム平均を比較して、チームの弱点を発見することができる
- 弱点を1本ずつ改善するだけでも、勝率が大きく上昇する
ことがわかりました。
また、具体的な戦術として
Piacenzaは…
- ジャンプサーブを打つ選手を増やす、サーブで厳しいコースを狙う
- ブロックの個人スキルを高める、チームとしてのブロックシステムを統一する
- ブロックされないようにコートの奥を狙ってスパイクを打つ
Padovaは…
- ブロックの個人スキルを高める、チームとしてのブロックシステムを統一する
- サーブのクオリティを維持しつつ、できる限りサーブミスを減らす
- 個人がアタックミスを減らす意識をもつ or ミスを誘発しないようにセッターのトスの安定性を高める
などが考えられます。
今回は私がインターン試用期間で課題として取り組んだ、「データに基づいてバレーボールチームの戦術を考える」というテーマについてお話ししました。
このテーマを通じて、データから得られた知見を具体的なアクションまで繋げるという一連の流れをイメージしていただけたのではないでしょうか。
かっこでは、データ分析を通じて効果的なアクションの判断材料を提供しています。
データを活用して課題を解決したい、ルーティン業務の自動化を行いたいなどありましたら、ぜひかっこのデータサイエンスまでご相談ください。
