DIFT

arxiv
code
project
Institution: Cornell University

overview

关键词: Stable Diffusion; Semantic Correspondence
解决的问题：两幅图像的特征匹配，从一张图中选择一个点，在另一张图中可以找出语义相同的点（如，猫左耳<->狗左耳），对标的使SIFT/SURF等特征描述子
应用前景：Image Editing（Diffusion模型针对性编辑）、Object Tracking等

diffusion model

forward (train)
- image + noise -> noisy image，多个step迭代加噪声
- 要学习的是不同阶段的noise
backward (inference)
- noisy image - noise -> image，多step迭代减噪声
- 对一张随机噪声图减去预测噪声，获得目标图像
- 为了使生成的图像可控，在train/inference的时候加入text embedding，控制噪声方向

method

从diffusion模型的U-Net解码器中拿特征，分别比对source point和target图中的全部点

问题

疑问

怎么实现的？是否需要重新finetune？还是训练好的sd模型可以直接拿过来用？
- 实现：image中加入noise，模拟forward过程，然后提取加入噪声后的feature (看起来是直接在train好的模型上用原图做训练的过程)
- 是直接拿训好的模型
和直接普通UNet等网络相比，diffusion网络作为feature extractor有什么优势/不同？
- 灵感来源是GAN做visual correspondance的paper，顺理成章就想到GAN能做diffusion应该也行
对比的是DINO 还是DINOv2？
- 对比的是DINO，做这个实验是因为Ablated Diffusion model(ADM)和DINO都是在Imagnet上训练的，SD和OpenCLIP都是在LAION数据集上训练的，为了排除数据集的干扰
- 个人认为DINOv2的效果应该比DINO好很多的，也不会比本文差

论文discussion

diffusion inversion有用吗？
- 尝试了DDIM inversion的方式，看起来和本文的方法效果没什么区别，而且速度还更慢
Diffusion模型中除了本文用的的U-Net Decoder出的feature外，VAE Encoder出的feature是否也具有correspondence能力？
- 并没有
task-specific adaptation是否能提升DIFT的能力？
- 本文主要focus在pretrain模型本身的能力，finetune之后无法确认是diffusion模型自身的能力还是finetune的效果
- 初步实验证明finetune能提升效果，但是怎么更好在下游任务上finetune有待研究

细节

time step $t$ 和layer层数
- time step越大，层数越深，提取的越是语义特征
- 反之越接近low-level特征
- paper用的是2D grid search搜最优的 $t$ 和layer，针对不同下游任务超参需要分别选
为了保证feature的稳定，会用不同的noisy version分别提取特征，然后取average

思考

这个方法完全不需要任何train的过程。随着越来越多的大模型出现，不考虑速度的情况下，matching任务是不是已经完全不需要再去训甚至finetune了？只需要从大模型中拿特征，做matching？想象中DINO/SAM/SD都能做，甚至他们语义能力相较于普通matching更强
不管怎么说，stable diffusion都太不stable了……

Unsupervised Semantic Correspondence Using Stable Diffusion

arxiv
project
code
这是稍早一些的另一篇用diffusion的特征去做matching任务的paper，但是要更复杂一些，实验做的也相对没那么充分。

下面是Claude给出的总结：

和DIFT的区别和联系

本文通过优化文本embedding,DIFT直接利用模型中间特征。
本文使用attention map获取对应的点,DIFT通过特征匹配获得。
两篇文章都利用了图像diffusion模型内含的丰富语义知识,不需要额外训练。
这篇文章进行了更全面的评估,在多个数据集和对应任务上证明了效果。
两篇文章都显示仅利用预训练模型就可以达到很强的语义对应效果,证明模型隐含这些知识。
这篇文章提出的DIFT特征提取方法更直接简单,也更适合实际应用。

总体来说,两篇文章思路相关但技术不同,验证和展示了diffusion模型的语义对应学习能力,为相关任务提供了有效和实用的解决方案。

解决的问题

这篇文章主要解决的是图像语义对应问题,也就是在不同图像中找到语义上对应的点。

具体来说,文章解决的是以下问题:

给定一对图像(源图像和目标图像)以及源图像中的某一个查询点,找到目标图像中与该查询点语义对应(语义相似)的点。
目前找到语义对应点主要依赖监督信息,需要大量带人工注释的图像对进行训练。文章研究如何在完全无监督的情况下找到语义对应。
现有的语义对应方法过于依赖特定的数据集和任务,希望找到一个更通用、可迁移的语义对应框架。
现有利用预训练模型提取特征进行语义对应还存在不足,希望能更好地利用预训练模型中的语义知识。
目前语义对应任务的无监督方法效果仍然很有限,希望能提出一种高效和可靠的无监督语义对应框架。
在标准的语义对应数据集如PF-Willow、CUB-200和SPair-71k上,现有方法效果仍有很大提升空间。

method

具体步骤

本文使用的无监督语义对应方法的具体步骤是:

给定一对图像(源图像和目标图像)以及源图像中的一个查询点。
使用Stable Diffusion等固定的迁移模型,优化一个文本embedding,使得模型中的attention map在源图像中凸显查询点。
重复随机初始化并优化文本embedding多次,获得多个embedding。
在源图像上使用随机裁剪数据增强,避免过拟合。
将优化得到的embedding应用到目标图像上,分别生成attention map。
对目标图像也使用随机裁剪,融合不同embedding和不同裁剪产生的attention map。
在融合的attention map上取最大值点作为目标图像中的语义对应点。
使用模型多层的attention map构建金字塔表示,增强鲁棒性。
不需要对语义对应任务进行任何自定义训练,直接利用固定的预训练迁移模型。

综上,本文使用固定迁移模型、优化embedding、attention map及数据增强来完成从源图像查询点到目标图像对应点的语义匹配,整个流程无需人工标注数据和模型微调。

优缺点

本文的主要优点如下:

完全无监督,不需要人工标注的数据进行训练,具有很好的可扩展性。
直接利用预训练好的模型,没有引入新的参数,避免过拟合。
提出了有效的框架和技术细节,如多次优化、随机裁剪、多层attention等。
在多个标准数据集上优于其他无监督和弱监督方法,效果可靠。
思路新颖,证明了预训练模型中包含丰富的语义知识可被挖掘。
可迁移到很多下游任务,如对齐数据、生成3D模型等。

缺点:

计算量较大,inference时间较长。
对称物体的语义对应效果较差。
需要选择合适的超参数。
对数据集分布变化的鲁棒性有待验证。
还需进一步提升在更多数据集上的泛化能力。
理论分析不够深入。

整体来说,本文从无监督语义对应角度出发,方法新颖高效,但计算量是主要限制,理论分析还有提升空间。后续可考虑加速优化,改进对称性建模,增强模型对分布变化的适应能力。

A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

arxiv
sd-dino
project
Google Research

TL;DR

把DINOv2和SD的feature做融合
- SD的特征spatial layout更好，更平滑，但是pixel-level的匹配不准
- DINOv2的特征稀疏但是更准确，能补充SD的空间信息
融合的时候直接把DINOv2和SD的特征norm之后相加

Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

TL;DR

train一个lightweight aggregation network，将不同timestep不同layer的diffusion inversion feature整合到一起
缺点是还需要训练网络，没法直接拿diffusion model现有的特征直接作为descriptor；但是本文是几篇里面最早的用diffusion feature做semantic descriptor/correspondence的

chaos-moon / paper_daily

DIFT #28

DIFT

overview

diffusion model

method

问题

疑问

论文discussion

细节

思考

Unsupervised Semantic Correspondence Using Stable Diffusion

和DIFT的区别和联系

解决的问题

method

具体步骤

优缺点

A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

TL;DR

Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

TL;DR