chaos-moon / paper_daily

One paper a day, keep laziness away.
MIT License
6 stars 3 forks source link

DIFT #28

Open zc12345 opened 11 months ago

zc12345 commented 11 months ago

DIFT

overview

diffusion model

method

image

问题

疑问

  1. 怎么实现的?是否需要重新finetune?还是训练好的sd模型可以直接拿过来用?
    • 实现:image中加入noise,模拟forward过程,然后提取加入噪声后的feature (看起来是直接在train好的模型上用原图做训练的过程)
    • 是直接拿训好的模型
  2. 和直接普通UNet等网络相比,diffusion网络作为feature extractor有什么优势/不同?
    • 灵感来源是GAN做visual correspondance的paper,顺理成章就想到GAN能做diffusion应该也行
  3. 对比的是DINO 还是DINOv2?
    • 对比的是DINO,做这个实验是因为Ablated Diffusion model(ADM)和DINO都是在Imagnet上训练的,SD和OpenCLIP都是在LAION数据集上训练的,为了排除数据集的干扰
    • 个人认为DINOv2的效果应该比DINO好很多的,也不会比本文差

论文discussion

细节

思考

zc12345 commented 11 months ago

Unsupervised Semantic Correspondence Using Stable Diffusion

下面是Claude给出的总结:

和DIFT的区别和联系

总体来说,两篇文章思路相关但技术不同,验证和展示了diffusion模型的语义对应学习能力,为相关任务提供了有效和实用的解决方案。

解决的问题

这篇文章主要解决的是图像语义对应问题,也就是在不同图像中找到语义上对应的点。

具体来说,文章解决的是以下问题:

  1. 给定一对图像(源图像和目标图像)以及源图像中的某一个查询点,找到目标图像中与该查询点语义对应(语义相似)的点。
  2. 目前找到语义对应点主要依赖监督信息,需要大量带人工注释的图像对进行训练。文章研究如何在完全无监督的情况下找到语义对应。
  3. 现有的语义对应方法过于依赖特定的数据集和任务,希望找到一个更通用、可迁移的语义对应框架。
  4. 现有利用预训练模型提取特征进行语义对应还存在不足,希望能更好地利用预训练模型中的语义知识。
  5. 目前语义对应任务的无监督方法效果仍然很有限,希望能提出一种高效和可靠的无监督语义对应框架。
  6. 在标准的语义对应数据集如PF-Willow、CUB-200和SPair-71k上,现有方法效果仍有很大提升空间。

method

image

具体步骤

本文使用的无监督语义对应方法的具体步骤是:

  1. 给定一对图像(源图像和目标图像)以及源图像中的一个查询点。
  2. 使用Stable Diffusion等固定的迁移模型,优化一个文本embedding,使得模型中的attention map在源图像中凸显查询点。
  3. 重复随机初始化并优化文本embedding多次,获得多个embedding。
  4. 在源图像上使用随机裁剪数据增强,避免过拟合。
  5. 将优化得到的embedding应用到目标图像上,分别生成attention map。
  6. 对目标图像也使用随机裁剪,融合不同embedding和不同裁剪产生的attention map。
  7. 在融合的attention map上取最大值点作为目标图像中的语义对应点。
  8. 使用模型多层的attention map构建金字塔表示,增强鲁棒性。
  9. 不需要对语义对应任务进行任何自定义训练,直接利用固定的预训练迁移模型。

综上,本文使用固定迁移模型、优化embedding、attention map及数据增强来完成从源图像查询点到目标图像对应点的语义匹配,整个流程无需人工标注数据和模型微调。

优缺点

本文的主要优点如下:

  1. 完全无监督,不需要人工标注的数据进行训练,具有很好的可扩展性。
  2. 直接利用预训练好的模型,没有引入新的参数,避免过拟合。
  3. 提出了有效的框架和技术细节,如多次优化、随机裁剪、多层attention等。
  4. 在多个标准数据集上优于其他无监督和弱监督方法,效果可靠。
  5. 思路新颖,证明了预训练模型中包含丰富的语义知识可被挖掘。
  6. 可迁移到很多下游任务,如对齐数据、生成3D模型等。

缺点:

  1. 计算量较大,inference时间较长。
  2. 对称物体的语义对应效果较差。
  3. 需要选择合适的超参数。
  4. 对数据集分布变化的鲁棒性有待验证。
  5. 还需进一步提升在更多数据集上的泛化能力。
  6. 理论分析不够深入。

整体来说,本文从无监督语义对应角度出发,方法新颖高效,但计算量是主要限制,理论分析还有提升空间。后续可考虑加速优化,改进对称性建模,增强模型对分布变化的适应能力。

zc12345 commented 11 months ago

A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

TL;DR

zc12345 commented 11 months ago

Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

TL;DR