Open saeeeeru opened 5 years ago
サッカーのパスやシュートといったイベントデータから、選手個々のアクションの価値を定量化する手法を提案している。これにより、試合中の各アクションに対してだけでなく、各選手の定量的な評価が可能になる。欧州7リーグのデータを用いた実験においては、ゴールにつながった一連のアクションの価値が直感にあったものであることが確認できた。
WhyscoutやOpta、statsbombといった会社が収集・提供しているイベントデータを分析する上で、以下の5つの課題・困難が存在している。
問題設定をシンプルにし、各アクションを固定長の特徴として抽出するためのフレームワークを提案。
過去数アクションのゴールへの角度、距離、イベントの種類(one-hot)、現在のスコア状況等を特徴として将来数アクション以内にゴールが決まるかどうか分類するモデルをCatBoostで構築。学習したモデルを用いて、各イベントの出力(ゴール決定確率)の増分を、アクションの価値とする。
手法の具体的な説明
SPADL(Soccer Player Action Description Language):各イベントのデータから解釈可能な特徴を抽出するためのフレームワーク。以下の9つの特徴から構成される。
上記SPADLの特徴に加えて、ゴールまでの方向や距離、アクションの移動距離といった複雑な特徴や、試合状況といった情報も特徴ベクトルとする
過去3アクションの上記特徴(イベントシーケンス)を入力として、向こう10アクション以内にゴールが決まるかどうか分類するモデルをCatBoostで学習
ひとつまえのイベントシーケンスを入力とした出力との増分を各アクションの価値と定義
従来のアプローチとはどのように異なるか
2017-12-23のvsレアル・マドリード戦のビダルのゴールまでの、イベントシーケンスとそれぞれのアクションの価値を可視化した図を下に示す。 このシーンにおいて、バックパスであるメッシの折り返しに対して+0.09と比較的高い価値を算出している点に、提案手法の堅牢さが確認できる。
また実際のゴールやアシスト数、市場価値と提案手法が算出した選手の評価値を表形式にまとめたものが以下になっている。
イベントデータで分析できる情報の限界かもしれない。また、選手評価の実験では、各リーグのレベルや対戦相手による補正が行われていないため、本当に同じ軸で評価してよいか疑問が残った。
リサーチクエスチョンに関する論文
手法に関する論文
thumbnail: "https://user-images.githubusercontent.com/20635178/63240949-d79b4d00-c28c-11e9-83e6-c5f1bce887ac.png" authors: "Tom Decroos, Lotte Bransen, Jan Van Haaren, Jesse Davis" labs: "KU Leuven, SciSports" conference: "The 25th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2019)" sport: "Soccer" url: "https://www.kdd.org/kdd2019/accepted-papers/view/actions-speak-louder-than-goals-valuing-player-actions-in-soccer" year: "2019"
要旨 Abstract
サッカーのパスやシュートといったイベントデータから、選手個々のアクションの価値を定量化する手法を提案している。これにより、試合中の各アクションに対してだけでなく、各選手の定量的な評価が可能になる。欧州7リーグのデータを用いた実験においては、ゴールにつながった一連のアクションの価値が直感にあったものであることが確認できた。
リサーチ課題
WhyscoutやOpta、statsbombといった会社が収集・提供しているイベントデータを分析する上で、以下の5つの課題・困難が存在している。
リサーチ課題に対する結論
問題設定をシンプルにし、各アクションを固定長の特徴として抽出するためのフレームワークを提案。
手法
過去数アクションのゴールへの角度、距離、イベントの種類(one-hot)、現在のスコア状況等を特徴として将来数アクション以内にゴールが決まるかどうか分類するモデルをCatBoostで構築。学習したモデルを用いて、各イベントの出力(ゴール決定確率)の増分を、アクションの価値とする。
手法の具体的な説明
SPADL(Soccer Player Action Description Language):各イベントのデータから解釈可能な特徴を抽出するためのフレームワーク。以下の9つの特徴から構成される。
上記SPADLの特徴に加えて、ゴールまでの方向や距離、アクションの移動距離といった複雑な特徴や、試合状況といった情報も特徴ベクトルとする
過去3アクションの上記特徴(イベントシーケンス)を入力として、向こう10アクション以内にゴールが決まるかどうか分類するモデルをCatBoostで学習
ひとつまえのイベントシーケンスを入力とした出力との増分を各アクションの価値と定義
従来のアプローチとはどのように異なるか
結果
2017-12-23のvsレアル・マドリード戦のビダルのゴールまでの、イベントシーケンスとそれぞれのアクションの価値を可視化した図を下に示す。 このシーンにおいて、バックパスであるメッシの折り返しに対して+0.09と比較的高い価値を算出している点に、提案手法の堅牢さが確認できる。
また実際のゴールやアシスト数、市場価値と提案手法が算出した選手の評価値を表形式にまとめたものが以下になっている。
コメント
イベントデータで分析できる情報の限界かもしれない。また、選手評価の実験では、各リーグのレベルや対戦相手による補正が行われていないため、本当に同じ軸で評価してよいか疑問が残った。
その他
リサーチクエスチョンに関する論文
手法に関する論文