Closed e4exp closed 3 years ago
画像とテキストのペアにクロスモーダル表現を学習する大規模な事前学習手法が、視覚言語処理のために普及してきている。 既存の手法は、単に画像領域の特徴とテキストの特徴を連結して事前学習モデルに入力し、自己注意を用いてブルートフォース的に画像とテキストの意味的整列を学習するだけであるが、本論文では、画像から検出されたオブジェクトタグをアンカーポイントとして用いて整列の学習を大幅に容易にする新しい学習手法であるOscar (Object-Semantics Aligned Pre-training)を提案する。 我々の手法は、画像中の顕著なオブジェクトを正確に検出することができ、ペアリングされたテキストの中でしばしば言及されているという観察に動機づけられている。 我々は、650万組のテキストと画像のペアからなる公開コーパス上でオスカーモデルの事前学習を行い、下流のタスクで微調整を行い、確立された6つの視覚言語理解と生成タスクにおいて新たな最先端の技術を生み出した。
どんなもの?
先行研究と比べてどこがすごい?
技術や手法のキモはどこ?
どうやって有効だと検証した?
議論はある?
次に読むべき論文は?
その他
image captioningへのfine tuning:
画像とテキストのペアにクロスモーダル表現を学習する大規模な事前学習手法が、視覚言語処理のために普及してきている。 既存の手法は、単に画像領域の特徴とテキストの特徴を連結して事前学習モデルに入力し、自己注意を用いてブルートフォース的に画像とテキストの意味的整列を学習するだけであるが、本論文では、画像から検出されたオブジェクトタグをアンカーポイントとして用いて整列の学習を大幅に容易にする新しい学習手法であるOscar (Object-Semantics Aligned Pre-training)を提案する。 我々の手法は、画像中の顕著なオブジェクトを正確に検出することができ、ペアリングされたテキストの中でしばしば言及されているという観察に動機づけられている。 我々は、650万組のテキストと画像のペアからなる公開コーパス上でオスカーモデルの事前学習を行い、下流のタスクで微調整を行い、確立された6つの視覚言語理解と生成タスクにおいて新たな最先端の技術を生み出した。