DINOv1: Emerging Properties in Self-Supervised Vision Transformers

DINO 最大的卖点是发现了 ViT 在自监督训练下有一些很有趣的特性：在没有任何标签的情况下，直接将自注意力图可视化，发现能够很好地抓取物体轮廓，甚至媲美直接做分割。本文探究自监督预训练对 ViT feature 的影响。

method

DINO: a form of self-distillation with no labels（一种没有标签的自蒸馏形式）
two recent innovations:
- self-supervised learning(SSL): 从random unlabelled examples中学习
- Transformers
contribution
- 证明了self-supervised ViT 提取的 feature 中包含了图像语义分割相关的显式信息，而这些信息在 supervised ViT 和 CNNs 中都没有清晰地出现
- DINO提取到的特征是优秀的kNN分类器，ImageNet数据集上达到了small ViT/78.1%@ top-1，base ViT/89.1%@ top-1
- tricks
  - momentum encoder
  - multi-crop training
  - small patches ViTs
pipeline（整体和 MoCOv3 非常像，换了个故事来讲）
- 训练上DINO和DeepMind的工作BYOL有点像，实际上做对比实验也是和BYOL/SimCLR这些对比学习思路的self-supervised learning method做对比
- 同一张图像做两次随机变换，分别输入 student 和 teacher 网络，网络结构完全一致，只是参数不同。两个网络分别输出 $p_1$ 和 $p_2$，用 $p_1$ 去预测 $p_2$（BYOL 思想）。一些关键点：
  - teacher 网络对所有样本进行了 centering（每个样本减去所有样本均值），类似 BYOL 的 BN 操作
  - teacher 网络使用 stop-gradient，teacher 网络参数的更新根据 student 网络进行，exponential moving average（EMA）更新策略
  - multi-crop：对一张图生成一个view set $V$，其中包含两个 global view 和一系列 local view，只有 global view 输入到 teacher 网络，所有 local view 输入到 student 网络

DINO DINO: Self-distillation with no labels

BYOL BYOL architecture

相同点
- 都截断了其中一个网络的梯度
- 输入都是用不同view下的image自监督
区别
- DINO是用teacher和student做self-distillation，用student EMA参数滑动平均更新teacher参数
- DINO多了一个centering操作

tricks

## Algorithm 1 DINO PyTorch pseudocode w/o multi-crop. 
# gs, gt: student and teacher networks 
# C: center (K) # tps, tpt: student and teacher temperatures 
# l, m: network and center momentum rates 
gt.params = gs.params 
for x in loader: # load a minibatch x with n samples 
    x1, x2 = augment(x), augment(x) # random views 

    s1, s2 = gs(x1), gs(x2) # student output n-by-K 
    t1, t2 = gt(x1), gt(x2) # teacher output n-by-K 

    loss = H(t1, s2)/2 + H(t2, s1)/2 
    loss.backward() # back-propagate 

    # student, teacher and center updates 
    update(gs) # SGD 
    gt.params = l*gt.params + (1-l)*gs.params 
    C = m*C + (1-m)*cat([t1, t2]).mean(dim=0) 

def H(t, s): 
    t = t.detach() # stop gradient 
    s = softmax(s / tps, dim=1) 
    t = softmax((t - C) / tpt, dim=1) # center + sharpen 
    return - (t * log(s)).sum(dim=1).mean()

multi-crop：teacher 喂进去的是global view的图片，student的input是crop之后的local view图片
momentum encoder：本文EMA的具体实现方式
small patch比加大ViT更work

思考

为什么要做self-distillation？
- self-training使用soft-label的时候就是knowledge distillation(KD)
- 以前有工作用soft pseudo label + unlabelled data的情况下能用distillation实现self-training，本文进一步前推到no label的情况
- 以前有工作SSL+KD能降低参数量的同时提高性能，但是用的是pretrained frozen teacher，本文teacher可更新
teacher和student的区别是什么？
- teacher和student只有参数不同、输入图像不同，网络结构是完全一致的；teacher梯度被截断了，其参数是student的参数EMA得到的
论文的整个任务或者问题是什么？
- self-supervised learning，通过self-supervised的方式训一个network，并迁移到下游任务中去
论文baseline是什么？
- 根据Related work说法，应该就是BYOL+Mean teacher
是只有ViT(self-attention)结构才能work吗？ResNet可以吗？
- ResNet+DINO也可以work，但是效果要稍微差一点
- 小patch比增大模型更好用，ViT-B/8>=ViT-S/8>ViT-B/16
为什么要用k-NN classifier？
- follow一篇工作1805.01978.pdf的做法
- 传统的self-supervised方法eval的时候需要再训一个linear层，超参不同的情况下可能差异很大，缺少一个稳定公平的对比手段

DINOv2: Learning Robust Visual Features without Supervision

overview

TL;DR

method上相对于DINO加了巨量正则化等trick
用了大量数据进行pretrain

相对于DINO

数据：
- 基于25个第三方dataset，从互联网爬数据，通过image retrieval进行扩充到1.2B
- 从1.2billion原始图片中清洗出142million张图片
算法
- 增大模型的同时加入regularization方法保持stability
- 实现优化: 2x faster, 1/3 memory usage
  - PyTorch2.0: 混合精度训练+并行
  - xFormers: attention结构加速
效果
- ImageNet-1k: 不finetune的情况下和其他方法在2%以内数据finetune的结果差不多
- ImageNet-1k: 81.6% on k-NN eval and 82.9% on linear eval
- ImageNet-22k: 82.0% on k-NN eval and 84.5% on linear eval

method

related work

text-guided pretraining v.s. self-supervised learning
- 受限于text的语义粒度，对于pixel-level的任务CLIP预训练并不太适合
self supervised learning
- intra-image: MAE
- discriminative: BYOL

contribution

DINOv2是什么：iBOT+一大堆regularization等trick

问题

是先在142Million数据上进行pretrain，然后再在ImageNet数据上进行finetune的吗？看repo内容ImageNet-1k还要再在4xA100上训一天。所以数据集应该可以看作上142M+ImageNet-1k/22k吗？

思考

本质上DINOv2的所有tricks都是为了扩大数据集规模和模型规模，再次证明了大模型+大数据才是王道，其他一切只要为这两点服务就可以了。虽然马毅可能对这点并不同意
会像CLIP一样带来巨大变革吗？至少blog中是有这个想法的，希望改变CLIP以来的image-text预训练方式

chaos-moon / paper_daily

DINO系列-MetaAI #13

DINOv1: Emerging Properties in Self-Supervised Vision Transformers

method

tricks

思考

DINOv2: Learning Robust Visual Features without Supervision

overview

TL;DR

相对于DINO

method

related work

contribution

问题

思考