fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

LocoMotion:動きに焦点を当てた映像言語表現の学習 #485

Open fulfulggg opened 2 weeks ago

fulfulggg commented 2 weeks ago

タイトル: LocoMotion:動きに焦点を当てた映像言語表現の学習

リンク: https://arxiv.org/abs/2410.12018

概要:

本論文では、動きに焦点を当てた動画言語表現の獲得を目指します。既存の動画言語表現学習手法は、物体やシーンの識別で適切なキャプションを区別できる、空間重視のデータを使用しています。そこで本研究では、局所的な物体の動きの変化や時間的な進行を記述する、動き重視のキャプションから学習するLocoMotionを提案します。具体的には、動画に合成的な動きを追加し、その動きのパラメータを用いて対応するキャプションを生成します。さらに、キャプションの多様性を高め、原始的な動きと高レベルな動詞の関連性を学習するために、動詞バリエーションのパラフレーズを提案します。これにより、動きに焦点を当てた動画言語表現を学習することができます。実験の結果、私たちの提案手法は、特にファインチューニング用のデータが少ない場合に、さまざまなダウンストリームタスクにおいて有効であることが示されました。コードはhttps://hazeldoughty.github.io/Papers/LocoMotion/で公開されています。

fulfulggg commented 2 weeks ago

論文要約

LocoMotion:動きに焦点を当てた映像言語表現の学習 - 論文要約

fulfulggg commented 2 weeks ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました: