Open mei28 opened 1 year ago
id: "1679378899-eva-exploring-the-limits-of-masked-visual-representation-learning-at-scale" aliases:
一般公開されているデータを用いたViTモデルを提案する.事前テキスト学習によって,1Billionほどのパラメータまでスケールアップが可能.CLIPを事前学習モデルとして利用すると,学習が安定した.全てのコードとモデルを公開している
https://arxiv.org/pdf/2211.07636v2.pdf https://github.com/baaivision/EVA
CVPR23
データセットとしてLVISv1.0, COCOデータセットを利用している.
LVISv1.0
COCOデータセット
Pretrain modelとして,CLIPを使っている.
CLIP
EVAのモデルとしてはViTモデルに習っている. -> モデルのアーキテクチャはTable3に記載している.
pre trainingデータとしてCC12M,CC3Mの画像を用いており,テキストは用いていない.
CC12M
CC3M
COCO
ADE20K
ImageNet-21K
Object365
GPUはNVIDIA A100-SXM4-40GBを利用している.
NVIDIA A100-SXM4-40GB
Pre-trainingはBEiTに基づいて,PyTorchを使っている
BEiT
DeepSpeed library with ZeRO stage-1 optimizerを使って,メモリの省エネ化をしている
DeepSpeed library with ZeRO stage-1 optimizer
fp16 format with dyanmic loss scaling をpre-training中に使っている(半精度浮動小数点)
fp16 format with dyanmic loss scaling
評価に使うデータセットとではImageNet-1Kの検証データを用いる.
ImageNet-1K
対抗手法
提案手法
画像に用いる解像度などによって,評価指標が変わる
Image classification以外でも,さまざまなタスクでやっている
この論文では同じように結構詳しく書かれている.
fine-tuningで用いた時の設定もいろいろ書いている. -> Appdinx参照
id: "1679378899-eva-exploring-the-limits-of-masked-visual-representation-learning-at-scale" aliases:
"moonshot"
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
一言で言うと
一般公開されているデータを用いたViTモデルを提案する.事前テキスト学習によって,1Billionほどのパラメータまでスケールアップが可能.CLIPを事前学習モデルとして利用すると,学習が安定した.全てのコードとモデルを公開している
論文リンク
https://arxiv.org/pdf/2211.07636v2.pdf https://github.com/baaivision/EVA
著者/所属機関
-
投稿日付(yyyy/MM/dd)
CVPR23
先行研究と比べてどこがすごい?
技術・手法のキモはどこ?
どうやって有効だと検証した?
コメント
次はなに読む?
moonshot用
論文中
データセットとして
LVISv1.0
,COCOデータセット
を利用している.Pretrain modelとして,
CLIP
を使っている.EVAのモデルとしてはViTモデルに習っている. -> モデルのアーキテクチャはTable3に記載している.
pre trainingデータとして
CC12M
,CC3M
の画像を用いており,テキストは用いていない.COCO
,ADE20K
の訓練データ,ImageNet-21K
,Object365
の画像データも使ったGPUは
NVIDIA A100-SXM4-40GB
を利用している.Pre-trainingは
BEiT
に基づいて,PyTorchを使っているDeepSpeed library with ZeRO stage-1 optimizer
を使って,メモリの省エネ化をしているfp16 format with dyanmic loss scaling
をpre-training中に使っている(半精度浮動小数点)評価に使うデータセットとでは
ImageNet-1K
の検証データを用いる.対抗手法
提案手法
画像に用いる解像度などによって,評価指標が変わる
Image classification以外でも,さまざまなタスクでやっている
この論文では同じように結構詳しく書かれている.
fine-tuningで用いた時の設定もいろいろ書いている. -> Appdinx参照
Github中