关于论文里扩散学习的优化目标问题

Royalvice / DocDiff

ACM Multimedia 2023: DocDiff: Document Enhancement via Residual Diffusion Models. Also contains 1597 red seals in Chinese scenes, along with their corresponding binary masks.

https://www.aibupt.com/

MIT License

234 stars 24 forks source link

关于论文里扩散学习的优化目标问题 #25

Closed NUAA-XSF closed 8 months ago

NUAA-XSF commented 8 months ago

你好, 很棒的工作! 论文里 $L_{DM}$ 里是去预测 $x0$, 也就是 $x{res} $, 而不是去预测噪声. 论文里也解释了为什么怎么做. 但我感觉二者还是等价的, 先前的一些论文的这种 channel-wise concatenation conditioning 也是去预测噪声的.

Royalvice commented 8 months ago

预测噪声的方法，在参数量比较大，T取1000以上效果是可以的。本文预测x_0的办法，T取的是200。文中也写了，直接预测x_0对于 channel-wise concatenation conditioning 可以通过条件进行预测。而不是只能通过x_t进行预测。这样会使得扩散模型在采样的前几步就采样出很高质量的样本。但牺牲了生成多样性。