Royalvice / DocDiff

ACM Multimedia 2023: DocDiff: Document Enhancement via Residual Diffusion Models. Also contains 1597 red seals in Chinese scenes, along with their corresponding binary masks.
https://www.aibupt.com/
MIT License
234 stars 24 forks source link

关于论文里扩散学习的优化目标问题 #25

Closed NUAA-XSF closed 8 months ago

NUAA-XSF commented 8 months ago

你好, 很棒的工作! 论文里 $L_{DM}$ 里是去预测 $x0$, 也就是 $x{res} $, 而不是去预测噪声. 论文里也解释了为什么怎么做. 但我感觉二者还是等价的, 先前的一些论文的这种 channel-wise concatenation conditioning 也是去预测 噪声的.

Royalvice commented 8 months ago

预测噪声的方法,在参数量比较大,T取1000以上效果是可以的。本文预测x_0的办法,T取的是200。文中也写了,直接预测x_0对于 channel-wise concatenation conditioning 可以通过条件进行预测。而不是只能通过x_t进行预测。这样会使得扩散模型在采样的前几步就采样出很高质量的样本。但牺牲了生成多样性。