Open fulfulggg opened 2 weeks ago
本論文では、動きに焦点を当てた動画言語表現の獲得を目指します。既存の動画言語表現学習手法は、物体やシーンの識別で適切なキャプションを区別できる、空間重視のデータを使用しています。そこで本研究では、局所的な物体の動きの変化や時間的な進行を記述する、動き重視のキャプションから学習するLocoMotionを提案します。具体的には、動画に合成的な動きを追加し、その動きのパラメータを用いて対応するキャプションを生成します。さらに、キャプションの多様性を高め、原始的な動きと高レベルな動詞の関連性を学習するために、動詞バリエーションのパラフレーズを提案します。これにより、動きに焦点を当てた動画言語表現を学習することができます。実験の結果、私たちの提案手法は、特にファインチューニング用のデータが少ない場合に、さまざまなダウンストリームタスクにおいて有効であることが示されました。コードはhttps://hazeldoughty.github.io/Papers/LocoMotion/で公開されています。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
タイトル: LocoMotion:動きに焦点を当てた映像言語表現の学習
リンク: https://arxiv.org/abs/2410.12018
概要:
本論文では、動きに焦点を当てた動画言語表現の獲得を目指します。既存の動画言語表現学習手法は、物体やシーンの識別で適切なキャプションを区別できる、空間重視のデータを使用しています。そこで本研究では、局所的な物体の動きの変化や時間的な進行を記述する、動き重視のキャプションから学習するLocoMotionを提案します。具体的には、動画に合成的な動きを追加し、その動きのパラメータを用いて対応するキャプションを生成します。さらに、キャプションの多様性を高め、原始的な動きと高レベルな動詞の関連性を学習するために、動詞バリエーションのパラフレーズを提案します。これにより、動きに焦点を当てた動画言語表現を学習することができます。実験の結果、私たちの提案手法は、特にファインチューニング用のデータが少ない場合に、さまざまなダウンストリームタスクにおいて有効であることが示されました。コードはhttps://hazeldoughty.github.io/Papers/LocoMotion/で公開されています。