e4exp / paper_manager_abstract

0 stars 0 forks source link

Learning Transferable Visual Models From Natural Language Supervision #259

Closed e4exp closed 3 years ago

e4exp commented 3 years ago

最新のコンピュータビジョンシステムは、あらかじめ決められたオブジェクトのカテゴリーを予測するように訓練されています。 このような限定された形のスーパービジョンでは、他の視覚概念を特定するためにラベル付けされたデータが必要となるため、その汎用性と有用性が制限されています。 画像についての生のテキストから直接学習することは、はるかに広範なスーパービジョンのソースを活用する有望な代替手段である。 我々は、インターネットから収集した4億組の画像(画像、テキスト)のデータセット上で、どのキャプションがどの画像の年齢に合うかを予測するという単純な事前学習タスクが、SOTA画像表現をスクラッチから学習する効率的でスケーラブルな方法であることを実証した。 事前学習の後、自然言語を用いて学習した視覚概念を参照することで、下流のタスクにモデルをゼロショットで移行させることができます。 我々はこのアプローチの性能を、OCR、動画のアクション認識、ジオローカリゼーション、および多くの種類の細かい粒度の物体分類などのタスクにまたがる30以上の異なる既存のコンピュータ・ヴィジョンのデータセットでベンチマークを行うことによって研究している。 このモデルは、ほとんどのタスクに非自 主的に適用され、データセット固有のトレーニングを必要とせず、完全に教師付きのベースラインと競合することがよくあります。 例えば、128万個の訓練例を使用することなく、ImageNetゼロショット上の元のResNet-50の精度を一致させることができました。

e4exp commented 3 years ago

Learning Transferable Visual Models From Natural Language Supervision

スクリーンショット 2021-01-22 12 10 00

まとめ