Automatic Pass Annotation from Soccer Video Streams Based on Object Detection and LSTM

1. 概要（基本アイデア）

・パスをビデオストリームから認識する手法であるPassNetを構築・ビデオストリームからの特徴抽出、ボールと選手の位置を特定するためのオブジェクト検出、そしてフレームシーケンスをパスかパスでないかで分類するNNのパイプライン・テストセットとトレーニングセットの試合の映像条件がかなり異なる場合でも、ベースライン分類器に対して良好な分類結果とパス検出の精度の向上

2. 新規性

・ビデオストリームからパスを認識することに焦点を当てたアプローチは少ない。一方で試合中のイベントの50%はパスで多い。・パスを検出するNNの組み合わせに基づく方法を提供することによって、このギャップを埋める

3. 手法詳細

・PassNetの構築

構成要素は、 (i) ResNet18を用いて入力の次元を減らす特徴抽出（セクション4.1） (ii) YOLOv3を用いてビデオフレーム内の選手とボールを検出するオブジェクト検出（セクション4.2） (iii)BiLSTM [4] を用いてフレームのシーケンスをパスを含むかどうかに分類するシーケンス分類（セクション4.3)

4.1 Feature Extraction ・レームのシーケンスは、フレームごとに特徴抽出モジュールの入力として提供され、それぞれが画像分類モデル ResNet18 [11]によって特徴ベクトルに変換・最後に、特徴ベクトルは再びシーケンスに結合・

4.2 Object Detection ・YOLOv3が特定したオブジェクトをもとに、各フレームを24要素のベクトルに変換し、これをオブジェクト位置ベクトル（OPV）とする・OPVは、ボールとボールに最も近い5人の選手を表す長さ4の6つのベクトルを結合・ 6つのベクトルは以下の特徴を持つ

- 最初の要素は 2 値で、0 はボールを、1 はプレイヤーを表す。
- 2 番目の要素は、フレーム内でオブジェクトが検出された場合は 1、フラグベクトルである場合は 0 となります (下記参照)。
3 番目と 4 番目の要素はオブジェクトの位置の座標を示し、フレームの中心を座標 (0, 0) として [-1, +1] の範囲で正規化される (図 3a)．

・例えば、ベクトル[0, 1, 0.8, -0.1]は、YOLOv3がフレーム内の位置（0.8, -0.1）でそのボールを検出することを示し、[1, 1, -0.1, 0.4]はYOLOv3が位置（-0.1, 0.4）で選手を検出することを示しています。

・オブジェクトが検出されない場合、対応するベクトルをフラグベクトルに置き換える。具体的には、あるフレームでボールが検出されなかった場合、フラグベクトル[0, 0, 0, 0]を用いてボールを表現

・あるフレームで検出された全選手のボールまでの距離を計算し，ボールに最も近い 5 人の選手を検出・検出された選手が 5 人に満たない場合，フラグベクトル [1, 0, 2, 2] を用いて，選手を記述する

・また，ボールが検出されない場合，ボールがフレームの中央に位置すると仮定し，それに最も近い 5 人のプレイヤーを特定する．

4.3 Sequence Classification

特徴抽出モジュールと物体検出モジュールの出力は、536個の特徴からなるベクトルシーケンスに結合され、シーケンス分類モジュールの入力として使われる(512 + 24)

・ライディングウィンドウδを用いて、ベクトル列を長さδのサブシーケンスに分割する。

・各サブシーケンス（図4a）はBiLSTM（図4b）に入力され、その後2つの密な層（図4c）が続き、δ値のベクトルを出力する。このベクトルの各要素は、シグモイド活性化関数（図4d）と活性化閾値（図4e）により、1（合格）または0（不合格）に変換される。

4. 結果

5. Data Set ・イタリア1部リーグの4試合に対応した動画配信使う・像度1280×720、25フレーム/秒の映像・ビデオを前半と後半に分割・計算上の理由から、映像の解像度を352×240、1秒間に5フレームに落としている・各映像を、パスを含む試合中に発生した全ての時空間イベントを含む外部データセットと関連付ける。これらのイベントはWyscoutによって、セクション3で説明した手動アノテーションの手順で収集・イベントはパスの開始時刻を示しますが、終了時刻は示しません。また，動画とイベントを比較すると，イベントの時刻が動画とずれていることがよくあります．そこで、この目的に特化して実装したアプリケーションを用いて手動でパスをアノテーションすることで、これらの欠点を克服（セクション5.1参照）・手動アノテーションの後、各マッチについて、対応するビデオのフレーム数に等しい長さを持つベクトルを構築する。このベクトルにおいて、各要素は、そのフレームがパスを記述するシーケンスの一部であることを示す1（Pass）、またはそのフレームにパスがないことを示す0（No Pass）のいずれかとすることができる。例えば、ベクトル[0011111000]は、パスが存在する5つの連続したフレームがあることを示す。

Results

4つのシチュエーションで検証・モデルの学習に使用した試合と同じ試合((Same scenario)) ・モデルの学習に使用した試合と同様の映像条件を共有する試合(Similar scenario) ・チームと光の条件が異なる試合(Different scenario) ・類似と異なる条件の試合の混合(Mixed scenario)

PassNetとResBiの比較

YI = Rec + TrueNegativeRate − 1 (ROC曲線のカットオフの決め方の一つ。感度+特異度-1 が最大となるようなカットオフ)

スクリーンショット 2022-01-13 13 52 55

PassNetを4つのモデルで比較 ResBi：特徴抽出モジュールとシーケンス分類モジュールのみを使用し、オブジェクト検出モジュールは使用しない。ボールと選手の位置関係を認識する。 Random：ラベルがランダム MostFrequent：常に多数決クラスであるNo Passを予測する（フレームの71％） LeastFrequent：常に少数クラスのPass（フレームの29％）を予測

コメント：・どちらのチームのパスなのかどうかを判断できない。・パスの失敗と成功は判定できない

5. 論文，コード等へのリンク

https://arxiv.org/pdf/2007.06475.pdf

6. 感想，コメント

＜新規性を出すためのアイデア＞ ①BiLSTMに対してトラッキングとチーム情報の入力を追加する事で、パスイベントをより詳細に検出可能

②動画に対してHOI検出モデルを構築、深層学習ベースで行う HOIモデルの例： InteracrNet：https://arxiv.org/pdf/1704.07333v3.pdf iCAN：https://github.com/vt-vl-lab/iCAN

（1）物体検出ブランチの分類と回帰の損失、（2）人間中心ブランチの行動分類とターゲットローカライズの損失、（3）相互作用ブランチの行動分類の損失

➡︎（HOI Detection + LSTMでシーケンス情報も適用可能？）

メリット：動作の学習なので、パス以外のイベントもボールと人の検出情報を使って認識可能

Football-AI-Research / survey