Open IkumaUchida opened 2 years ago
・パスをビデオストリームから認識する手法であるPassNetを構築 ・ビデオストリームからの特徴抽出、ボールと選手の位置を特定するためのオブジェクト検出、そしてフレームシーケンスをパスかパスでないかで分類するNNのパイプライン ・テストセットとトレーニングセットの試合の映像条件がかなり異なる場合でも、ベースライン分類器に対して良好な分類結果とパス検出の精度の向上
・ビデオストリームからパスを認識することに焦点を当てたアプローチは少ない。一方で試合中のイベントの50%はパスで多い。 ・パスを検出するNNの組み合わせに基づく方法を提供することによって、このギャップを 埋める
・PassNetの構築
構成要素は、 (i) ResNet18を用いて入力の次元を減らす特徴抽出(セクション4.1) (ii) YOLOv3を用いてビデオフレーム内の選手とボールを検出するオブジェクト検出(セクション4.2) (iii)BiLSTM [4] を用いてフレームのシーケンスをパスを含むかどうかに分類するシーケンス分類(セクション4.3)
4.1 Feature Extraction ・レームのシーケンスは、フレームごとに特徴抽出モジュー ルの入力として提供され、それぞれが画像分類モデル ResNet18 [11]によって特徴ベクトルに変換 ・最後に、特徴ベクトルは再びシーケンスに結合 ・
4.2 Object Detection ・YOLOv3が特定したオブジェクトをもとに、各フレームを24要素のベクトルに変換し、これをオブジェクト位置ベクトル(OPV)とする ・OPVは、ボールとボールに最も近い5人の選手を表す長さ4の6つのベクトルを結合・ 6つのベクトルは以下の特徴を持つ
・例えば、ベクトル[0, 1, 0.8, -0.1]は、YOLOv3がフレーム内の位置(0.8, -0.1)でそのボールを検出することを示し、[1, 1, -0.1, 0.4]はYOLOv3が位置(-0.1, 0.4)で選手を検出することを示しています。
・オブジェクトが検出されない場合、対応するベクトルをフラグベクトルに置き換える。具体的には、あるフレームでボールが検出されなかった場合、フラグベクトル[0, 0, 0, 0]を用いてボールを表現
・あるフレームで検出された全選手 のボールまでの距離を計算し,ボールに最も近い 5 人の選手 を検出 ・検出された選手が 5 人に満たない場合,フラグベクトル [1, 0, 2, 2] を用いて,選手を記述する
・また,ボールが検出されない場合,ボールがフレームの中央に位置すると仮定し,それに最も近い 5 人のプレイヤーを特定する.
4.3 Sequence Classification
特徴抽出モジュールと物体検出モジュールの出力は、536個の特徴からなるベクトルシーケンスに結合され、シーケンス分類モジュールの入力として使われる(512 + 24)
・ライディングウィンドウδを用いて、ベクトル列を長さδのサブシーケンスに分割する。
・各サブシーケンス(図4a)はBiLSTM(図4b)に入力され、その後2つの密な層(図4c)が続き、δ値のベクトルを出力する。このベクトルの各要素は、シグモイド活性化関数(図4d)と活性化閾値(図4e)により、1(合格)または0(不合格)に変換される。
5. Data Set ・イタリア1部リーグの4試合に対応した動画配信使う ・像度1280×720、25フレーム/秒の映像 ・ビデオを前半と後半に分割 ・計算上の理由から、映像の解像度を352×240、1秒間に5フレームに落としている ・各映像を、パスを含む試合中に発生した全ての時空間イベントを含む外部データセットと関連付ける。これらのイベントはWyscoutによって、セクション3で説明した手動アノテーションの手順で収集 ・イベントはパスの開始時刻を示しますが、終了時刻は示しません。また,動画とイベントを比較すると,イベントの時刻が動画とずれていることがよくあります.そこで、この目的に特化して実装したアプリケーションを用いて手動でパスをアノテーションすることで、これらの欠点を克服(セクション5.1参照) ・手動アノテーションの後、各マッチについて、対応するビデオのフレーム数に等しい長さを持つベクトルを構築する。このベクトルにおいて、各要素は、そのフレームがパスを記述するシーケンスの一部であることを示す1(Pass)、またはそのフレームにパスがないことを示す0(No Pass)のいずれかとすることができる。例えば、ベクトル[0011111000]は、パスが存在する5つの連続したフレームがあることを示す。
Results
4つのシチュエーションで検証 ・モデルの学習に使用した試合と同じ試合((Same scenario)) ・モデルの学習に使用した試合と同様の映像条件を共有する試合(Similar scenario) ・チームと光の条件が異なる試合(Different scenario) ・ 類似と異なる条件の試合の混合(Mixed scenario)
PassNetとResBiの比較
YI = Rec + TrueNegativeRate − 1 (ROC曲線のカットオフの決め方の一つ。感度+特異度-1 が最大となるようなカットオフ)
PassNetを4つのモデルで比較 ResBi:特徴抽出モジュールとシーケンス分類モジュールのみを使用し、オブジェクト検出モジュールは使用しない。ボールと選手の位置関係を認識する。 Random:ラベルがランダム MostFrequent:常に多数決クラスであるNo Passを予測する(フレームの71%) LeastFrequent:常に少数クラスのPass(フレームの29%)を予測
コメント: ・どちらのチームのパスなのかどうかを判断できない。 ・パスの失敗と成功は判定できない
https://arxiv.org/pdf/2007.06475.pdf
<新規性を出すためのアイデア> ①BiLSTMに対してトラッキングとチーム情報の入力を追加する事で、パスイベントをより詳細に検出可能
②動画に対してHOI検出モデルを構築、深層学習ベースで行う HOIモデルの例: InteracrNet:https://arxiv.org/pdf/1704.07333v3.pdf iCAN:https://github.com/vt-vl-lab/iCAN
(1)物体検出ブランチの分類と回帰の損失、 (2)人間中心ブランチの行動分類とターゲットローカライズの損失、 (3)相互作用ブランチの行動分類の損失
➡︎(HOI Detection + LSTMでシーケンス情報も適用可能?)
メリット:動作の学習なので、パス以外のイベントもボールと人の検出情報を使って認識可能
1. 概要(基本アイデア)
・パスをビデオストリームから認識する手法であるPassNetを構築 ・ビデオストリームからの特徴抽出、ボールと選手の位置を特定するためのオブジェクト検出、そしてフレームシーケンスをパスかパスでないかで分類するNNのパイプライン ・テストセットとトレーニングセットの試合の映像条件がかなり異なる場合でも、ベースライン分類器に対して良好な分類結果とパス検出の精度の向上
2. 新規性
・ビデオストリームからパスを認識することに焦点を当てたアプローチは少ない。一方で試合中のイベントの50%はパスで多い。 ・パスを検出するNNの組み合わせに基づく方法を提供することによって、このギャップを 埋める
3. 手法詳細
・PassNetの構築
構成要素は、 (i) ResNet18を用いて入力の次元を減らす特徴抽出(セクション4.1) (ii) YOLOv3を用いてビデオフレーム内の選手とボールを検出するオブジェクト検出(セクション4.2) (iii)BiLSTM [4] を用いてフレームのシーケンスをパスを含むかどうかに分類するシーケンス分類(セクション4.3)
4.1 Feature Extraction ・レームのシーケンスは、フレームごとに特徴抽出モジュー ルの入力として提供され、それぞれが画像分類モデル ResNet18 [11]によって特徴ベクトルに変換 ・最後に、特徴ベクトルは再びシーケンスに結合 ・
4.2 Object Detection ・YOLOv3が特定したオブジェクトをもとに、各フレームを24要素のベクトルに変換し、これをオブジェクト位置ベクトル(OPV)とする ・OPVは、ボールとボールに最も近い5人の選手を表す長さ4の6つのベクトルを結合・ 6つのベクトルは以下の特徴を持つ
・例えば、ベクトル[0, 1, 0.8, -0.1]は、YOLOv3がフレーム内の位置(0.8, -0.1)でそのボールを検出することを示し、[1, 1, -0.1, 0.4]はYOLOv3が位置(-0.1, 0.4)で選手を検出することを示しています。
・オブジェクトが検出されない場合、対応するベクトルをフラグベクトルに置き換える。具体的には、あるフレームでボールが検出されなかった場合、フラグベクトル[0, 0, 0, 0]を用いてボールを表現
・あるフレームで検出された全選手 のボールまでの距離を計算し,ボールに最も近い 5 人の選手 を検出 ・検出された選手が 5 人に満たない場合,フラグベクトル [1, 0, 2, 2] を用いて,選手を記述する
・また,ボールが検出されない場合,ボールがフレームの中央に位置すると仮定し,それに最も近い 5 人のプレイヤーを特定する.
4.3 Sequence Classification
特徴抽出モジュールと物体検出モジュールの出力は、536個の特徴からなるベクトルシーケンスに結合され、シーケンス分類モジュールの入力として使われる(512 + 24)
・ライディングウィンドウδを用いて、ベクトル列を長さδのサブシーケンスに分割する。
・各サブシーケンス(図4a)はBiLSTM(図4b)に入力され、その後2つの密な層(図4c)が続き、δ値のベクトルを出力する。このベクトルの各要素は、シグモイド活性化関数(図4d)と活性化閾値(図4e)により、1(合格)または0(不合格)に変換される。
4. 結果
5. Data Set ・イタリア1部リーグの4試合に対応した動画配信使う ・像度1280×720、25フレーム/秒の映像 ・ビデオを前半と後半に分割 ・計算上の理由から、映像の解像度を352×240、1秒間に5フレームに落としている ・各映像を、パスを含む試合中に発生した全ての時空間イベントを含む外部データセットと関連付ける。これらのイベントはWyscoutによって、セクション3で説明した手動アノテーションの手順で収集 ・イベントはパスの開始時刻を示しますが、終了時刻は示しません。また,動画とイベントを比較すると,イベントの時刻が動画とずれていることがよくあります.そこで、この目的に特化して実装したアプリケーションを用いて手動でパスをアノテーションすることで、これらの欠点を克服(セクション5.1参照) ・手動アノテーションの後、各マッチについて、対応するビデオのフレーム数に等しい長さを持つベクトルを構築する。このベクトルにおいて、各要素は、そのフレームがパスを記述するシーケンスの一部であることを示す1(Pass)、またはそのフレームにパスがないことを示す0(No Pass)のいずれかとすることができる。例えば、ベクトル[0011111000]は、パスが存在する5つの連続したフレームがあることを示す。
Results
4つのシチュエーションで検証 ・モデルの学習に使用した試合と同じ試合((Same scenario)) ・モデルの学習に使用した試合と同様の映像条件を共有する試合(Similar scenario) ・チームと光の条件が異なる試合(Different scenario) ・ 類似と異なる条件の試合の混合(Mixed scenario)
PassNetとResBiの比較
YI = Rec + TrueNegativeRate − 1 (ROC曲線のカットオフの決め方の一つ。感度+特異度-1 が最大となるようなカットオフ)
PassNetを4つのモデルで比較 ResBi:特徴抽出モジュールとシーケンス分類モジュールのみを使用し、オブジェクト検出モジュールは使用しない。ボールと選手の位置関係を認識する。 Random:ラベルがランダム MostFrequent:常に多数決クラスであるNo Passを予測する(フレームの71%) LeastFrequent:常に少数クラスのPass(フレームの29%)を予測
コメント: ・どちらのチームのパスなのかどうかを判断できない。 ・パスの失敗と成功は判定できない
5. 論文,コード等へのリンク
https://arxiv.org/pdf/2007.06475.pdf
6. 感想,コメント
<新規性を出すためのアイデア> ①BiLSTMに対してトラッキングとチーム情報の入力を追加する事で、パスイベントをより詳細に検出可能
②動画に対してHOI検出モデルを構築、深層学習ベースで行う HOIモデルの例: InteracrNet:https://arxiv.org/pdf/1704.07333v3.pdf iCAN:https://github.com/vt-vl-lab/iCAN
(1)物体検出ブランチの分類と回帰の損失、 (2)人間中心ブランチの行動分類とターゲットローカライズの損失、 (3)相互作用ブランチの行動分類の損失
➡︎(HOI Detection + LSTMでシーケンス情報も適用可能?)
メリット:動作の学習なので、パス以外のイベントもボールと人の検出情報を使って認識可能
7. bibtex
8. 関連論文