Football-AI-Research / survey

0 stars 0 forks source link

Automatic Pass Annotation from Soccer Video Streams Based on Object Detection and LSTM #7

Open IkumaUchida opened 2 years ago

IkumaUchida commented 2 years ago

1. 概要(基本アイデア)

・パスをビデオストリームから認識する手法であるPassNetを構築 ・ビデオストリームからの特徴抽出、ボールと選手の位置を特定するためのオブジェクト検出、そしてフレームシーケンスをパスかパスでないかで分類するNNのパイプライン ・テストセットとトレーニングセットの試合の映像条件がかなり異なる場合でも、ベースライン分類器に対して良好な分類結果とパス検出の精度の向上

2. 新規性

・ビデオストリームからパスを認識することに焦点を当てたアプローチは少ない。一方で試合中のイベントの50%はパスで多い。 ・パスを検出するNNの組み合わせに基づく方法を提供することによって、このギャップを 埋める

3. 手法詳細

・PassNetの構築

スクリーンショット 2022-01-13 10 28 18

構成要素は、 (i) ResNet18を用いて入力の次元を減らす特徴抽出(セクション4.1) (ii) YOLOv3を用いてビデオフレーム内の選手とボールを検出するオブジェクト検出(セクション4.2) (iii)BiLSTM [4] を用いてフレームのシーケンスをパスを含むかどうかに分類するシーケンス分類(セクション4.3)

4.1 Feature Extraction ・レームのシーケンスは、フレームごとに特徴抽出モジュー ルの入力として提供され、それぞれが画像分類モデル ResNet18 [11]によって特徴ベクトルに変換 ・最後に、特徴ベクトルは再びシーケンスに結合 ・

4.2 Object Detection ・YOLOv3が特定したオブジェクトをもとに、各フレームを24要素のベクトルに変換し、これをオブジェクト位置ベクトル(OPV)とする ・OPVは、ボールとボールに最も近い5人の選手を表す長さ4の6つのベクトルを結合・ 6つのベクトルは以下の特徴を持つ

    • 最初の要素は 2 値で、0 はボールを、1 はプレイヤーを表す。
    • 2 番目の要素は、フレーム内でオブジェクトが検出された場合は 1、フラグベ クトルである場合は 0 となります (下記参照)。
  1. 3 番目と 4 番目の要素はオブジェクトの位置の座標を示し、フレームの中心を座標 (0, 0) として [-1, +1] の範囲で正規化される (図 3a).

・例えば、ベクトル[0, 1, 0.8, -0.1]は、YOLOv3がフレーム内の位置(0.8, -0.1)でそのボールを検出することを示し、[1, 1, -0.1, 0.4]はYOLOv3が位置(-0.1, 0.4)で選手を検出することを示しています。

・オブジェクトが検出されない場合、対応するベクトルをフラグベクトルに置き換える。具体的には、あるフレームでボールが検出されなかった場合、フラグベクトル[0, 0, 0, 0]を用いてボールを表現

・あるフレームで検出された全選手 のボールまでの距離を計算し,ボールに最も近い 5 人の選手 を検出 ・検出された選手が 5 人に満たない場合,フラグベクトル [1, 0, 2, 2] を用いて,選手を記述する

・また,ボールが検出されない場合,ボールがフレームの中央に位置すると仮定し,それに最も近い 5 人のプレイヤーを特定する.

スクリーンショット 2022-01-13 11 15 36

4.3 Sequence Classification

特徴抽出モジュールと物体検出モジュールの出力は、536個の特徴からなるベクトルシーケンスに結合され、シーケンス分類モジュールの入力として使われる(512 + 24)

・ライディングウィンドウδを用いて、ベクトル列を長さδのサブシーケンスに分割する。

・各サブシーケンス(図4a)はBiLSTM(図4b)に入力され、その後2つの密な層(図4c)が続き、δ値のベクトルを出力する。このベクトルの各要素は、シグモイド活性化関数(図4d)と活性化閾値(図4e)により、1(合格)または0(不合格)に変換される。

スクリーンショット 2022-01-13 11 23 52

4. 結果

5. Data Set ・イタリア1部リーグの4試合に対応した動画配信使う ・像度1280×720、25フレーム/秒の映像 ・ビデオを前半と後半に分割 ・計算上の理由から、映像の解像度を352×240、1秒間に5フレームに落としている ・各映像を、パスを含む試合中に発生した全ての時空間イベントを含む外部データセットと関連付ける。これらのイベントはWyscoutによって、セクション3で説明した手動アノテーションの手順で収集 ・イベントはパスの開始時刻を示しますが、終了時刻は示しません。また,動画とイベントを比較すると,イベントの時刻が動画とずれていることがよくあります.そこで、この目的に特化して実装したアプリケーションを用いて手動でパスをアノテーションすることで、これらの欠点を克服(セクション5.1参照) ・手動アノテーションの後、各マッチについて、対応するビデオのフレーム数に等しい長さを持つベクトルを構築する。このベクトルにおいて、各要素は、そのフレームがパスを記述するシーケンスの一部であることを示す1(Pass)、またはそのフレームにパスがないことを示す0(No Pass)のいずれかとすることができる。例えば、ベクトル[0011111000]は、パスが存在する5つの連続したフレームがあることを示す。

スクリーンショット 2022-01-13 11 33 08

Results

4つのシチュエーションで検証 ・モデルの学習に使用した試合と同じ試合((Same scenario)) ・モデルの学習に使用した試合と同様の映像条件を共有する試合(Similar scenario) ・チームと光の条件が異なる試合(Different scenario) ・ 類似と異なる条件の試合の混合(Mixed scenario)

PassNetとResBiの比較

スクリーンショット 2022-01-13 11 53 40

YI = Rec + TrueNegativeRate − 1 (ROC曲線のカットオフの決め方の一つ。感度+特異度-1 が最大となるようなカットオフ)

スクリーンショット 2022-01-13 12 01 11

スクリーンショット 2022-01-13 13 52 55

PassNetを4つのモデルで比較 ResBi:特徴抽出モジュールとシーケンス分類モジュールのみを使用し、オブジェクト検出モジュールは使用しない。ボールと選手の位置関係を認識する。 Random:ラベルがランダム MostFrequent:常に多数決クラスであるNo Passを予測する(フレームの71%) LeastFrequent:常に少数クラスのPass(フレームの29%)を予測

コメント: ・どちらのチームのパスなのかどうかを判断できない。 ・パスの失敗と成功は判定できない

5. 論文,コード等へのリンク

https://arxiv.org/pdf/2007.06475.pdf

6. 感想,コメント

<新規性を出すためのアイデア> ①BiLSTMに対してトラッキングとチーム情報の入力を追加する事で、パスイベントをより詳細に検出可能

②動画に対してHOI検出モデルを構築、深層学習ベースで行う HOIモデルの例: InteracrNet:https://arxiv.org/pdf/1704.07333v3.pdf iCAN:https://github.com/vt-vl-lab/iCAN

(1)物体検出ブランチの分類と回帰の損失、 (2)人間中心ブランチの行動分類とターゲットローカライズの損失、 (3)相互作用ブランチの行動分類の損失

➡︎(HOI Detection + LSTMでシーケンス情報も適用可能?)

メリット:動作の学習なので、パス以外のイベントもボールと人の検出情報を使って認識可能

7. bibtex

8. 関連論文